版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計學(xué)重點筆記第一章導(dǎo)論一、比較描述統(tǒng)計和推斷統(tǒng)計:數(shù)據(jù)分析是通過統(tǒng)計方法研究數(shù)據(jù),其所用的方法可分為描述統(tǒng)計和推斷統(tǒng)計。( 1)描述性統(tǒng)計:研究一組數(shù)據(jù)的組織、整理和描述的統(tǒng)計學(xué)分支,是社會科學(xué)實 證研究中最常用的方法,也是統(tǒng)計分析中必不可少的一步。內(nèi)容包括取得研究所需要 的數(shù)據(jù)、用圖表形式對數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過綜合、概括與分析,得出 反映所研究現(xiàn)象的一般性特征。( 2)推斷統(tǒng)計學(xué):是研究如何利用樣本數(shù)據(jù)對總體的數(shù)量特征進(jìn)行推斷的統(tǒng)計學(xué)分 支。研究者所關(guān)心的是總體的某些特征,但許多總體太大,無法對每個個體進(jìn)行測量, 有時我們得到的數(shù)據(jù)往往需要破壞性試驗,這就需要抽取部分個體即樣本
2、進(jìn)行測量, 然后根據(jù)樣本數(shù)據(jù)對所研究的總體特征進(jìn)行推斷,這就是推斷統(tǒng)計所要解決的問題。 其內(nèi)容包括抽樣分布理論,參數(shù)估計,假設(shè)檢驗,方差分析,回歸分析,時間序列分 析等等。( 3)兩者的關(guān)系:描述統(tǒng)計是基礎(chǔ),推斷統(tǒng)計是主體二、比較分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù):根據(jù)所采用的計量尺度不同,可以將統(tǒng)計數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù) 據(jù)。(1)分類數(shù)據(jù)是只能歸于某一類別的非數(shù)字型數(shù)據(jù)。它是對事物進(jìn)行分類的結(jié)果, 數(shù)據(jù)表現(xiàn)為類別,是用文字來表達(dá)的,它是由分類尺度計量形成的。( 2)順序數(shù)量是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。也是對事物進(jìn)行分類的結(jié) 果,但這些類別是有順序的,它是由順序尺度計量形
3、成的。( 3)數(shù)值型數(shù)據(jù)是按數(shù)字尺度測量的觀察值。其結(jié)果表現(xiàn)為具體的數(shù)值,現(xiàn)實中我 們所處理的大多數(shù)都是數(shù)值型數(shù)據(jù)??傊?,分類數(shù)據(jù)和順序數(shù)據(jù)說明的是事物的本質(zhì)特征,通常是用文字來表達(dá)的,其 結(jié)果均表現(xiàn)為類別,因而也統(tǒng)稱為定型數(shù)據(jù)或品質(zhì)數(shù)據(jù);數(shù)值型數(shù)據(jù)說明的是現(xiàn)象的 數(shù)量特征,通常是用數(shù)值來表現(xiàn)的,因此可稱為定量數(shù)據(jù)或數(shù)量數(shù)據(jù)。三、比較總體、樣本、參數(shù)、統(tǒng)計量和變量:(1)總體是包含所研究的全部個體的集合。通常是我們所關(guān)心的一些個體組成, 如由多個企業(yè)所構(gòu)成的集合,多個居民戶所構(gòu)成的集合。總體根據(jù)其所包含的單位數(shù) 目是否可數(shù)可以分為有限總體和無限總體。有限總體是指總體的范圍能夠明確確定, 而且元
4、素的數(shù)目是有限可數(shù)的,需要注意的是,統(tǒng)計意義上的總體,通常不是一群人 或一些物品的集合,而是一組觀測數(shù)據(jù)。(2)樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本 容量。例如我們從一批燈泡中隨機抽取 100 個,這 100 個燈泡就構(gòu)成了一個樣本。(3)參數(shù)是用來描述總體特征的概括性數(shù)字度量。有總體平均數(shù)、標(biāo)準(zhǔn)差、總體 比例。由于總體參數(shù)通常是不知道的,所以參數(shù)是一個未知的常數(shù)。所以才需要進(jìn)行 抽樣,根據(jù)樣本來估計總體參數(shù)(4)樣本量是用來描述樣本特征的概括性數(shù)字度量。統(tǒng)計量是根據(jù)樣本數(shù)據(jù)計算 出來的一個量,通常包括:樣本平均數(shù)、樣本標(biāo)準(zhǔn)差、樣本比例等,由于樣本是我們 已經(jīng)抽出
5、來的,所以統(tǒng)計量總是知道的,抽樣的目的就是要根據(jù)樣本統(tǒng)計量推斷總體 參數(shù)。( 5 )變量是說明現(xiàn)象某種特征的概念。變量的特點是從一次觀察到下一次觀察會 呈現(xiàn)出差別或變化,分為分類變量、順序變量、數(shù)值型變量、離散型變量和連續(xù)型變 量。第二章 數(shù)據(jù)收集一、調(diào)查方案的主要內(nèi)容:( 1)調(diào)查目的:是調(diào)查所要達(dá)到的具體目標(biāo),他所回答的是“為什么調(diào)查”“要解 決什么樣的問題”等( 2)調(diào)查對象和調(diào)查單位:調(diào)查對象是根據(jù)調(diào)查目的的確定的調(diào)查研究的總體或調(diào) 查范圍。調(diào)查單位是構(gòu)成調(diào)查隊選中的每一個單位,它是調(diào)查項目和調(diào)查內(nèi)容的承擔(dān) 著或載體。所要解決的是“向誰調(diào)查”由誰來提供所需數(shù)據(jù)( 3)調(diào)查項目和調(diào)查表:
6、調(diào)查項目要解決的問題是“調(diào)查什么”,也就是調(diào)查的具 體內(nèi)容,大多數(shù)統(tǒng)計調(diào)查中,調(diào)查項目通常以表格的形式來表現(xiàn),稱為調(diào)查表 二、數(shù)據(jù)的誤差 :統(tǒng)計數(shù)據(jù)的誤差通常是指統(tǒng)計數(shù)據(jù)與客觀現(xiàn)實之間的差距,誤 差的類型主要有抽樣誤差和非抽樣誤差兩類。(1)抽樣誤差:主要是指在用樣本數(shù)據(jù)進(jìn)行推斷時所產(chǎn)生的隨機誤差。只存在于概 率抽樣中。這類誤差通常是無法消除的,但事先可以進(jìn)行控制和計算。影響抽樣誤差大小的因素:(a)抽樣單位的數(shù)目。在其他條件不變的情況下,抽樣單位的數(shù)目越多,抽樣誤 差越?。环粗?,越大。這是因為隨著樣本數(shù)目的增多,樣本結(jié)構(gòu)越接近總體,抽樣調(diào) 查也就越接近全面調(diào)查,當(dāng)樣本擴(kuò)大到總體時,則為全面調(diào)
7、查,也就不存在抽樣誤差 了。(b)總體背研究標(biāo)志的變異程度。在其他條件不變的情況下,總體標(biāo)志的變異程 度越小,抽樣誤差越小,反之,越大。抽樣誤差和總體標(biāo)志的變異程度呈正比變化。 這是因為總體的變異程度小,表示總體各單位標(biāo)志值之間的差異小。則樣本指標(biāo)與總 體指標(biāo)之間的差異也可能??;如果總體各單位標(biāo)志值相等,則標(biāo)志變動度為零,樣本 指標(biāo)等于總體指標(biāo),此時不存在抽樣誤差(c)抽樣方法的選擇。重復(fù)抽樣和非重復(fù)抽樣的抽樣誤差大小不同。采用不重復(fù) 抽樣比采用重復(fù)抽樣的抽樣誤差?。╠)抽樣組織方式不同。采用不同的組織方式,會有不同的抽樣誤差,這是因為 不同的抽樣組織所抽中的樣本,對于總體的代表性也不同,通常
8、,常利用不同的抽樣 誤差,作出判斷各種抽樣組織方式的比較標(biāo)準(zhǔn)。( 2)非抽樣誤差:主要包括:抽樣框誤差,回答誤差、無回答誤差、調(diào)查員誤差; 是調(diào)查過程中由于調(diào)查者或被調(diào)查者的人為因素所造成的誤差。調(diào)查者所造成的誤差 主要有:調(diào)查方案中有關(guān)的規(guī)定或解釋不明確導(dǎo)致的填報錯誤、抄錄錯誤、匯總錯誤 等;被調(diào)查者所造成的誤差主要有:因人為因素干擾形成的有意虛報或瞞報調(diào)查數(shù)據(jù)。 非抽樣誤差理論上是可以消除的。三、簡單隨機抽樣:(1)概念:從總體 N個單位中隨機地抽取 n個單位作為樣本,每個單位入抽樣本 的概率是相等的;(2)特點:a、簡單、直觀,在抽樣框完整時,可直接從中抽取樣本b、用樣本統(tǒng)計量對目標(biāo)量進(jìn)
9、行估計比較方便( 3 )局限性當(dāng)N很大時,不易構(gòu)造抽樣框抽出的單位很分散,給實施調(diào)查增加了困難 沒有利用其它輔助信息以提高估計的效率第三章數(shù)據(jù)的整理與展示、數(shù)據(jù)排序的目的(1) 數(shù)據(jù)排序是按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解 決問題的線索(2 )排序還有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供方便。(3) 在某些場合,排序本身就是分析的目的之一。二、數(shù)據(jù)分組:是根據(jù)統(tǒng)計研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)化分成不同的組別,分組后的數(shù) 據(jù)成為分組數(shù)據(jù)。數(shù)據(jù)經(jīng)分組后再計算出各組中數(shù)據(jù)出現(xiàn)的頻數(shù),就形成了一張頻數(shù) 分布表,分組方法有單變量值分組和組距分組兩種,單變量分組通常只
10、適合于離散變 量,且在變量值較少的情況下使用,在連續(xù)變量或變量值較多情況下,通常采用組距 分組。三、 組距分組的步驟和原則:(1) 步驟:a、確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges提出的經(jīng)驗公式來確定組數(shù)K K =1 lg(n)igb、確定組距:組距(Class Width)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù) 的最大值和最小值及所分的組數(shù)來確定,即組距=(最大值-最小值)-組數(shù)c、統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表(2) 原則:采用組距分組時,需遵循“不重不漏”的原則,“不重”是指一項數(shù)據(jù)只能分在 其中的某一組,不能在其他組中重復(fù)出
11、現(xiàn);“不漏”是指組別能夠窮盡,即在所分的全部組別中每項數(shù)據(jù)都能分在其中的某一組,不能遺漏。為解決不重的問題,統(tǒng)計分 組時習(xí)慣上規(guī)定“上組限不在內(nèi)”,即當(dāng)相鄰兩組的上下限重疊時,恰好等于某一組 上限的變量值不算在本組內(nèi),而計算在下一組內(nèi)。當(dāng)然,對于離散變量,我們可以采用相鄰兩組組限間斷的辦法解決“不重”的問題。也可以對一個組的上限值采用小數(shù)點的形式,小數(shù)點的位數(shù)根據(jù)所要求的精度具體確定。缺點:組距分組掩蓋了各組內(nèi) 的數(shù)據(jù)分布狀況四、直方圖和條形圖的區(qū)別:首先,條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度則是固 定的;直方圖是用面積表示各組頻數(shù)的多少,頻數(shù)的高度表示每一組的頻數(shù)或頻率
12、, 寬度則表示各組的組距,因此高度與寬度均有意義。其次,由于分組數(shù)據(jù)具有連續(xù)性,直方圖的各矩形通常是連續(xù)排列,而條形圖則 是分開排列。最后,條形圖主要用于展示各類數(shù)據(jù),而直方圖則主要用于展示數(shù)據(jù)型數(shù)據(jù)。五、繪制線圖應(yīng)注意的問題:(1) 時間一般繪在橫軸,觀測數(shù)據(jù)繪在縱軸(2) 圖形的長寬比例要適當(dāng),一般應(yīng)繪成橫軸略大于縱軸的長方形,其長寬比例 大致是10 : 7 .(3) 般情況下,縱軸數(shù)據(jù)下端應(yīng)從0開始,以便于比較,數(shù)據(jù)與0之間的間距 過大,可以采取折斷的符號將縱軸折斷六、設(shè)計統(tǒng)計表注意的問題:首先,要合理安排統(tǒng)計表的結(jié)構(gòu),例如表號、行標(biāo)題、列標(biāo)題、數(shù)字資料的位置 應(yīng)安排合理。其次,表頭一般
13、應(yīng)包括表號、總標(biāo)題和表中數(shù)據(jù)的單位等內(nèi)容,總標(biāo)題應(yīng)簡明確 切地概括出統(tǒng)計表的內(nèi)容。再次,表中的上下兩條線一般用粗線,中間的其他線用細(xì)線,表的左右兩邊不封 口,列標(biāo)題之間可以用豎線分開,而行標(biāo)題之間通常不必用橫線隔開。最后,在使用統(tǒng)計表時,必要時可在表下方加上注釋,特別注意標(biāo)明數(shù)據(jù)來源。七、數(shù)據(jù)的審核:( 1 )原始數(shù)據(jù):a、完整性審核:檢查應(yīng)調(diào)查的單位或個體是否有遺漏;所有的調(diào)查項目或指標(biāo) 是否填寫齊全b、準(zhǔn)確性審核:檢查數(shù)據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際;檢查數(shù)據(jù)是否有錯誤,計算是否正確等(2)二手?jǐn)?shù)據(jù):a、適用性審核:弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料;確定數(shù)據(jù)是否
14、符合自己分析研究的需要b、時效性審核:盡可能使用最新的數(shù)據(jù)八、數(shù)據(jù)的整理與顯示 ( 基本問題 )(1)要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式和方法 是不同的(2)對分類數(shù)據(jù)和順序數(shù)據(jù)主要是做分類整理(3)對數(shù)值型數(shù)據(jù)則主要是做分組整理(4)適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層 次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)第四章 數(shù)據(jù)的概括性度量一、集中趨勢和離散趨勢的度量:(1)集中趨勢 是指一組數(shù)據(jù)向某一中心值靠攏的傾向,它反映了一組數(shù)據(jù)中心 點的位置所在。描述集中趨勢所采用的測度值分為:眾數(shù)、中位數(shù)和分位數(shù)、平均數(shù)。(2)離散趨勢 是數(shù)據(jù)
15、分布的另一個重要特征,它所反映的各變量值遠(yuǎn)離其中心 值得程度,因此也稱為離中趨勢,數(shù)據(jù)的離散程度越大,集中趨勢的測度值對該組數(shù) 據(jù)的代表性越差,反之,代表性越好。描述數(shù)據(jù)離散程度所采用的測度值,根據(jù)所依 據(jù)的數(shù)據(jù)類型的不同主要有異種比率、四分位差、方差和標(biāo)準(zhǔn)差。此外還有極差、平 均差以及測度相對離散程度的離散系數(shù)。二、眾數(shù)、中位數(shù)和平均數(shù):(1)三者的關(guān)系: 從分布的角度看,眾數(shù)始終是一組數(shù)據(jù)分布的最高峰值,中位數(shù) 的處于一組數(shù)據(jù)中間位置上的值,而平均數(shù)則是全部數(shù)據(jù)的算數(shù)平均。因此,對于具 有單峰分布的大多數(shù)數(shù)據(jù)而言,眾數(shù)、中位數(shù)和平均數(shù)之間具有以下關(guān)系:(a)如果數(shù)據(jù)的分布是對稱的,眾數(shù)、中
16、位數(shù)、平均數(shù)必定相等(b)如果數(shù)據(jù)是左偏分布,說明數(shù)據(jù)存在極小值,必然拉動平均數(shù)向極小值一方靠近,而眾數(shù)和中位數(shù)由于是位置代表值,不受極值的影響,因此三者的關(guān)系為眾數(shù)>中位數(shù) > 平均數(shù)(c)如果數(shù)據(jù)是右偏分布,說明數(shù)據(jù)存在極大值,必然拉動平均數(shù)向極大值的一 方靠近,則眾數(shù) <中位數(shù)<平均數(shù)。( 2 )特點及應(yīng)用場合(a )眾數(shù)是一組數(shù)據(jù)的峰值,是一種位置代表詞,不受極端值的影響,具有不唯 一性,對于一組數(shù)據(jù)可能有一個眾數(shù),也可能有兩個或多個眾數(shù),也可能沒有眾數(shù)。 雖然對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算眾數(shù),但眾數(shù)主要適合于作為分類數(shù)據(jù) 的集中趨勢測度值。(b)中位數(shù)
17、 是一組數(shù)據(jù)中間位置上的代表值,主要適合于作為順序數(shù)據(jù)的集中趨 勢測度值,雖然對于順序數(shù)據(jù)可以使用眾數(shù),但以中位數(shù)為宜。(c )平均數(shù)是就數(shù)值型數(shù)據(jù)計算的,而且利用了全部數(shù)據(jù)信息,它是實際中應(yīng)用 最廣泛的集中趨勢測度值。平均數(shù)主要適合于作為數(shù)值型數(shù)據(jù)的集中趨勢測度值。當(dāng) 數(shù)據(jù)呈對稱分布或接近對稱分布時,三個代表值相等或接近相等,這是我們應(yīng)該選擇 平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點是易受數(shù)據(jù)極端值得影響,對于 偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是當(dāng)偏斜的 程度較大時,我們可以考慮選擇眾數(shù)或中位數(shù)等位置代表詞。三、異種比率:是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。
18、主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度。異 眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性越差。反之, 越小,眾數(shù)的代表性越好。異種比率重要適合測度分類數(shù)據(jù)的離散程度。當(dāng)然,對于 順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算異種比率。四、四分位差 :是上四分位數(shù)與下四分位數(shù)之差。反映了中間 50% 數(shù)據(jù)的離散程度,其數(shù)值越小, 說明中間數(shù)據(jù)越集中,數(shù)值越大,說明中間數(shù)據(jù)越分散。四分位差不受極值的影響。 主要用于測度順序數(shù)據(jù)的離散程度,當(dāng)然,對于數(shù)值型數(shù)據(jù)也可以計算四分位差,但 不適合于分類數(shù)據(jù)。五、方差和標(biāo)準(zhǔn)差極差 是一組數(shù)據(jù)的最大值與最小值之差,也稱為全距。它容易受極端值的影響, 由于極差
19、只是利用了一組數(shù)據(jù)兩端的信息,不能反映出中間數(shù)據(jù)的分散狀況,因而不 能準(zhǔn)確描述出數(shù)據(jù)的分散程度。平均差 是各變量值與其平均數(shù)離差的絕對值的平均數(shù),平均差以平均數(shù)為中心, 反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度,它能全面準(zhǔn)確的反映一組數(shù)據(jù)的離散狀況。 平均差越大說明數(shù)據(jù)的離散程度就越大,反之,越小。為了避免離差之和等于 0 而無 法計算平均差這一問題,平均差在計算時對離差取了絕對值,以離差的絕對值來表示 總離差。方差(或標(biāo)準(zhǔn)差) 是實際中應(yīng)用最廣泛的離散程度測度值,因此它能準(zhǔn)確的反映 出數(shù)據(jù)的離散程度。方差是各變量值與其平均數(shù)離差平方的平均數(shù)。標(biāo)準(zhǔn)差 是方差的平方根,與方差不同的是,標(biāo)準(zhǔn)差是具有量
20、綱的,它與變量值的 計量單位相同,其實際意義要比方差清楚,因此,在對實際問題進(jìn)行分析時,我們更 多的使用標(biāo)準(zhǔn)差。六、標(biāo)準(zhǔn)分?jǐn)?shù):標(biāo)準(zhǔn)分?jǐn)?shù)是指變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的差??梢詼y度每個數(shù)據(jù)在 該組數(shù)據(jù)中的相對位置,并可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù),也給出了一組 數(shù)據(jù)中各數(shù)值的相對位置,例如,如果某個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為 -1.5 ,我們就知道該數(shù) 值低于平均數(shù) 1.5 倍的標(biāo)準(zhǔn)差。在對多個具有不同量綱的變量進(jìn)行處理時,常常需要 對各變量數(shù)值進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0、標(biāo)準(zhǔn)差為 1 的特性。實際上,標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中 的位置
21、,也沒有改變改組數(shù)據(jù)分布的形狀,而只是使該組數(shù)據(jù)的平均數(shù)為0、標(biāo)準(zhǔn)差為 1 。七、經(jīng)驗法則:經(jīng)驗法則表明:當(dāng)一組數(shù)據(jù)對稱分布時1)約有 68% 的數(shù)據(jù)在平均數(shù)加減1 個標(biāo)準(zhǔn)差的范圍之內(nèi)2)約有 95% 的數(shù)據(jù)在平均數(shù)加減2 個標(biāo)準(zhǔn)差的范圍之內(nèi)3)約有 99% 的數(shù)據(jù)在平均數(shù)加減3 個標(biāo)準(zhǔn)差的范圍之內(nèi)八、切比雪夫不等式:如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再適用,這時就要使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用,對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式, 至少有( 1-1/ )的數(shù)據(jù)落在 k 個標(biāo)準(zhǔn)差之內(nèi)。其中 k 是大于 1 的任意值,但不一定 是整數(shù)。對于 k=2 、 3、4,該
22、不等式的含義是:(1)至少有 75%的數(shù)據(jù)在平均數(shù)加減 2 個標(biāo)準(zhǔn)差的范圍之內(nèi)(2)至少有 89%的數(shù)據(jù)在平均數(shù)加減 3 個標(biāo)準(zhǔn)差的范圍之內(nèi)(3)至少有 94%的數(shù)據(jù)在平均數(shù)加減 4 個標(biāo)準(zhǔn)差的范圍之內(nèi)九、相對離散程度:離散系數(shù)的作用:極差、平均差、方差和標(biāo)準(zhǔn)差等都是反映數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小一方面 取決于原變量值本身水平高低的影響,也就是與變量的平均數(shù)大小有關(guān),變量 值絕對水平高的,離散程度的測度值自然也就大。絕對水平小的離散程度的測度值自 然也就??; 另一方面 ,它們與原變量值的計量單位相同,采用不同計量單位計量的變 量值,其離散程度的測度值也就不同。因此對于平均水平不同或者計
23、量單位不同的不 同組別的變量值,是不能用上述離散程度的測度值直接比較其離散程度的。為消除變 量值水平高低和計量單位不同對離散程度測度值的影響,需要計算離散系數(shù) 。 離散系 數(shù)是指 一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比。離散系數(shù)是測度數(shù)據(jù)離散程度的相 對統(tǒng)計量,通常是就標(biāo)準(zhǔn)差來計算的,因此也稱為標(biāo)準(zhǔn)差系數(shù), 離散系數(shù)的作用 主要 是用于比較對不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大的說明數(shù)據(jù)的離散程度大,離散 系數(shù)小的說明數(shù)據(jù)的離散程度小。十、測度數(shù)據(jù)分布形狀的統(tǒng)計量:(1 )偏態(tài):如果一組數(shù)據(jù)的分布的對稱的,則SK=O,如果SK明顯不等于零,表明分布是非對稱的。當(dāng) SK為正值時,表示正偏離差值較大,
24、可以判斷為正偏或右偏; 反之,為負(fù)偏或左偏,SK的值越大,表示傾斜的程度就越大(2)峰態(tài):如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰態(tài)系數(shù)的值等于0,若峰態(tài)系數(shù)的值明顯不同于 0,表明分布比正太分布更平或更尖,通常稱為平峰分布或尖峰分 布。當(dāng) K>0 時為尖峰分布,當(dāng) K<0 時為扁平分布第五章概率與概率分布一、常見的離散型概率分布:(1 )兩點分布(2)二項分布:n重伯努利試驗滿足下列條件:a、一次實驗只有兩種結(jié)果,即成 功和失敗,這里的成功是指感興趣的某種特征。b、一次實驗成功的概率是 p,失敗的概率是q=1-p,而且概率p對每次實驗都是相同的。c、實驗是相互獨立的。d、實驗 可以重復(fù)
25、進(jìn)行n次。e、在n次試驗中,成功的次數(shù)對應(yīng)一個離散型隨機變量,用X表示(3 )泊松分布:重要特征:a、所考查的事件在任意兩個長度相等的區(qū)間里發(fā)生一 次的機會均等。b、所考察的事件在任何一個區(qū)間里發(fā)生與否和在其他區(qū)間里發(fā)生與否 沒有相互影響,即是獨立的。泊松分布的另一個重要用途是作為二項概率分布的近似。 對一個n重伯努利實驗,p代表每次伯努利實驗成功的概率,當(dāng)實驗次數(shù)n相對很大,成功概率p相對很小,而乘積np大小適中時,泊松分布的一般表達(dá)式與二項分布的一 般表達(dá)式近似相等,(4)超幾何分布:二項分布只適合于重復(fù)抽樣,但在實際抽樣中,很少采用重復(fù) 抽樣。不過,當(dāng)總體的元素數(shù)目 N很大而樣本容量n相
26、對于N很小時,二項分布仍然 適用。但如果是采用不重復(fù)抽樣,各次實驗并不獨立,成功的概率也互不相等,而且 總體元素的數(shù)目很小或樣本容量n相對于N來說較大時,二項分布就不再適用,這時,樣本中成功的次數(shù)則服從超幾何分布。超幾何分布與二項分布的關(guān)系:由于呈幾何分布所描述的實驗與 n重伯努利實驗相似,所以超幾何分布與二項分部之間也存在著十分特殊而有意義的聯(lián)系,從直觀上 來看嗎,如果總體中的元素個數(shù) N很大,使得M的有限變化相對于 N而言比較小,那 么超幾何分布趨向于二項分布。這是因為在N趨于無窮大時,每次抽樣的樣品即使不放回,對其后代表成功的事件發(fā)生的概率也不會有太大影響,可以近似認(rèn)為不變,二 者恰好滿
27、足了二項分布的前提。二、正態(tài)分布的曲線的性質(zhì):(1 )正態(tài)曲線的圖形是關(guān)于 x='的對稱鐘形曲線,且峰值在 x= 處、(2)正態(tài)分布的兩個參數(shù)均值 和標(biāo)準(zhǔn)差二一旦確定,正態(tài)分布的具體形式就唯 一確定,不同參數(shù)取值的正太分布構(gòu)成一個完整的正態(tài)分布族。(3 )正態(tài)分布的均值 可以是實數(shù)軸的任意數(shù)值,他決定正態(tài)曲線的具體位置, 標(biāo)準(zhǔn)差二相同二均值不同的正太曲線在坐標(biāo)軸上體現(xiàn)為水平位移(4) 正態(tài)分布的標(biāo)準(zhǔn)差 匚為大于0的實數(shù),他決定正態(tài)曲線的“陡峭“或”扁平 “程度。二越大,正太曲線越扁平;二越小,正太曲線越陡峭。(5) 當(dāng)X的取值向橫軸左右兩個方向無限延伸時,正態(tài)曲線的左右兩個尾端也無 限
28、漸進(jìn)橫軸,但理論上永遠(yuǎn)不會與之相交。(6) 與其他連續(xù)型隨機變量相同,正太隨機變量在特定區(qū)間上的取值概率由正太曲線下的面積給出,而且其曲線下的面積等于1經(jīng)驗法則:正態(tài)隨機變量落入其均值左右各1個標(biāo)準(zhǔn)差內(nèi)的概率是68.27%正態(tài)隨機變量落入其均值左右各 2個標(biāo)準(zhǔn)差內(nèi)的概率是95.45%正態(tài)隨機變量落入其均值左右各 3個標(biāo)準(zhǔn)差內(nèi)的概率是99.73%三、數(shù)據(jù)正態(tài)性的評估方法:(1) 、對數(shù)據(jù)畫出頻數(shù)分布的直方圖或莖葉圖。若數(shù)據(jù)近似服從正態(tài)分布,則圖 形的形狀與上面給出的正太曲線應(yīng)該相似(2) 、求出樣本數(shù)據(jù)的四分位差/s 1.3.(3) 、對數(shù)據(jù)作正太概率圖。若數(shù)據(jù)近似服從正態(tài)分布,則數(shù)據(jù)點將落在一
29、條近 似直線上四、什么條件下用正態(tài)分布分布近似計算二項分布的效果較好當(dāng)樣本容量n越來越大時,二項分布越來越近似服從正太分布,這時,二項隨機 變量的直方圖的形狀接近正太分布的圖形形狀。即使對于小樣本,當(dāng)p=0.5時,二項分布的正太近似仍然相當(dāng)好,此時隨機變量X的分布是相對是相對于其平均值J=np對稱的。當(dāng)平p趨于0或1時,二項分布將呈現(xiàn)出偏態(tài),但當(dāng)n變大時,這種偏斜就會消失。一般來說,只有當(dāng) n大到使np和n(1-p )大于或等于5時,近似的效果就相當(dāng)好。五、均勻分布的直觀概率意義:將區(qū)間a, b丨劃分為任意多個小區(qū)間。隨機變量X在任何小區(qū)間上取值的概率大小與該小區(qū)間的長度成正比,而與該小區(qū)間的
30、具體位置無關(guān)。第六章抽樣與抽樣分布一、比較分層抽樣、系統(tǒng)抽樣和整群抽樣(1 )分層抽樣是指將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不 同的層中獨立、隨機地抽取樣本。優(yōu)點:a、保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度b、組織實施調(diào)查方便 c、既可以對總體參數(shù)進(jìn)行估計,也可以對 各層的目標(biāo)量進(jìn)行估計。d、分層抽樣的樣本分布在各個層內(nèi),從而使樣本在總體中的 分布比較均勻(2)系統(tǒng)抽樣是指將總體中的所有單位 (抽樣單位)按一定順序排列,在規(guī)定的范圍 內(nèi)隨機地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其它樣本單位 優(yōu)點:操作簡便,系統(tǒng)抽樣的樣本在總體中的分布一般也比較
31、均勻,由此抽樣誤差通 常要小于簡單隨機抽樣,提高估計的精度缺點:對估計量方差的估計比較困難(3)整群抽樣是指將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調(diào)查優(yōu)點是:不需要有總體的具體名單而只要有群的名單就可以進(jìn)行抽樣,而群的名單比較容易得到;此外調(diào)查的地點相對集中,節(jié)省調(diào)查費 用,方便調(diào)查的實施 缺點是估計的精度較差二、比較三種不同性質(zhì)的分布(1)總體分布指總體中各元素的觀察值所形成的相對頻數(shù)的分布。分布通常是未知的,可以假定它服從某種分布(2)樣本分布是指從總體中抽取一個容量為n的樣本,由這n個觀察值形成的相對頻數(shù)分布。也稱經(jīng)驗分布 。當(dāng)樣本容量n逐漸
32、增大時,樣本分布逐漸接近總體的分 布(3 )從一般意義上說,抽樣分布是指樣本統(tǒng)計量的概率分布,樣本統(tǒng)計量的概率 分布。隨機變量是 樣本統(tǒng)計量,如樣本均值,樣本比例,樣本方差等。結(jié)果來自容量 相同的所有可能樣本;提供了樣本統(tǒng)計量長遠(yuǎn)我們穩(wěn)定的信息,是進(jìn)行推斷的理論基 礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù)三、中心極限定理隨著樣本容量n的增大(n>=30 ),不論原來的總體是否服從正態(tài)分布,樣本值的 抽樣分布都趨于正態(tài)分布,其分布的數(shù)學(xué)期望為總體均值,方差為總體方差的1/n,這就是中心極限定理,表述為:設(shè)從均值為 二方差為二2的一個任意總體中抽取容量 為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近
33、似服從均值為口、方差為 /n的正態(tài)分布四、重復(fù)抽樣和不重復(fù)抽樣相比,抽樣均值分布的標(biāo)準(zhǔn)差有何 不同樣本均值的方差與抽樣方法有關(guān),在重復(fù)抽樣條件下,樣本均值的方差為總體方2差的1/n,即 廠2Xn在不重復(fù)抽樣條件下,樣本均值的方差則需要用修正系數(shù)去修正重復(fù)抽樣時樣本均值的方差,即不重復(fù)抽樣的樣本均值的方差小于重復(fù)抽樣時的樣本均值的方差對于無限總體進(jìn)行不重復(fù)抽樣時,可以按照重復(fù)抽樣來處理,對于有限總體,當(dāng)N很大,而抽樣比n/N很小時,其修正系數(shù)趨于 1,這時樣本均值的方差也可以按照 重復(fù)抽樣的樣本均值的方差公式來計算五、2分布的性質(zhì)和特點(1 )分布的變量值始終為正(2) 分布的形狀取決于其自由度
34、 n的大小,通常為不對稱的正偏分布,但隨著自 由度的增大逐漸趨于對稱(3) 期望為:E( 2)= n,方差為:D( 2)=2 n(n為自由度)(4) 可加性:若U和V為兩個獨立的 2分布隨機變量,U2(ni),V 2(n2),則 U+ V這一隨機變量服從自由度為 ni + n2的討分布第七章參數(shù)估計一、評價估計量的標(biāo)準(zhǔn)實際上,用于估計的" 的估計量有很多,如我們可以用樣本均值作為總體均值 的估計量,也可以用樣本中位數(shù)作為總體均值的估計量,什么樣的估計量才算是一個 好的估計量呢?這需要一定的評價標(biāo)準(zhǔn):1、無偏性:估計量抽樣分布的數(shù)學(xué)期望等于被估計的總體參數(shù)。設(shè)總體參 數(shù)為,被選擇的估計
35、量為 ?,如果E( ?)=',稱?為二 的無偏估 計量。2、有效性:對同一總體參數(shù)的兩個無偏估計量,方差較小的是更有效的估 計量。3、一致性:隨著樣本容量的增大,點估計量的值越來越接近被估的總體的 參數(shù)。換言之,一個大樣本給出的估計量要比一個小樣本給出的估計量更接近 總體的參數(shù)二、怎樣理解置信區(qū)間置信區(qū)間:由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間,其中區(qū)間的最小值稱為置信下限,區(qū)間最大值稱為置信上限。是一個隨機區(qū)間, =樂 的置信區(qū)間意味著,置信區(qū)間包含未知參數(shù)的概率為,這個區(qū)間會隨著樣本觀察值的不同而不同。但100次運用這個區(qū)間,約有 100()個區(qū)間能包含參數(shù),也就是說大約還有100
36、 a個區(qū)間不包含總體參數(shù)判斷置信區(qū)間優(yōu)勢的標(biāo)準(zhǔn)(好的置信區(qū)間的特性):置信度越高越好;置信區(qū)間寬度越小越好。三、影響區(qū)間寬度的因素1. 總體數(shù)據(jù)的離散程度,用 s來測度2. 樣本容量:當(dāng)置信水平固定時,置信區(qū)間的寬度隨著樣本容量的增大而減小,換言之,較大的樣本所提供的有關(guān)總體的信息要比小樣本多。3. 置信水平(1 - a),影響z的大小:置信水平越大,z越大四、簡述樣本容量與置信水平、總體方差、估計誤差的關(guān)系( )(1)樣本量與置信水平呈正比,在其他條件不變的情況下,置信水平越大,所需的樣本容量也就越大(2)樣本量與總體方差呈正比,總體的差異越大,所需的樣本容量就越大(3)樣本量與邊際誤差的平
37、方成反比,即可以接受的估計誤差的平方越大,所需的樣本量就越小五、一=的含義是什么?_是標(biāo)準(zhǔn)正態(tài)分布上側(cè)面積為-時的z值。_=是估計總體均值時的邊際誤差, 也稱為估計誤差或誤差范圍六、對兩個總體均值之差的小樣本估計中,對兩個總體和樣本 都有哪些假定(1)兩個總體都服從正態(tài)分布(2)兩個隨機樣本獨立地分別抽自兩個總體七、解釋95%勺置信區(qū)間抽取100個樣本,根據(jù)每個樣本構(gòu)造一個置信區(qū)間,這樣由100個樣本構(gòu)造的總體參數(shù)的100個置信區(qū)間中,95%的區(qū)間包含了總體參數(shù)的真值,而5%沒包含八、對于總體比例的估計,確定樣本容量是否“足夠大“的一般經(jīng)驗規(guī)則是:區(qū)間() 中不包含0或1.或要求np 5和n
38、(1-p )5八、獨立樣本和匹配樣本如果兩個樣本是從兩個總體中獨立抽取的,即一個樣本中的元素與另一個樣本中的 元素相互獨立,則稱為獨立樣本。匹配樣本是指一個樣本中的數(shù)據(jù)與另一個樣本中的 數(shù)據(jù)相對應(yīng)九、估計量和估計值(1)估計量:用于估計總體參數(shù)的隨機變量如樣本均值,樣本比例、樣本方差等例如:樣本均值就是總體均值 m的一個估計量?參數(shù)用71表示,估計量用71表示(2)估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值如果樣本均值"x =80,則80就是m的估計值第八章 假設(shè)檢驗一、參數(shù)估計和假設(shè)檢驗的區(qū)別和聯(lián)系(1)主要聯(lián)系:a. 都是根據(jù)樣本信息推斷總體參數(shù);b. 都以抽樣分布為理論依據(jù),建
39、立在概率論基礎(chǔ)之上的推斷,推斷結(jié)果都 有風(fēng)險;c. 對同一問題的參數(shù)進(jìn)行推斷,使用同一樣本,同一統(tǒng)計量,同一分布, 二者可相互轉(zhuǎn)換(2)主要區(qū)別:a. 參數(shù)估計是以樣本信息估計總體參數(shù)的可能范圍,假設(shè)檢驗是先對總體參數(shù)提出一個假設(shè)值,然后利用樣本信息判斷這一假設(shè)是否成立 ;b. 區(qū)間估計求得的是求以樣本估計值為中心的雙側(cè)置信區(qū)間,假設(shè)檢驗既 有雙側(cè)檢驗,也有單側(cè)檢驗;c. 區(qū)間估計立足于大概率,通常以較大的可信度(1-a )去估計總體參數(shù) 的置信區(qū)間。假設(shè)檢驗立足于小概率。通常是給定很小的顯著性水平 a去檢驗 總體參數(shù)的先驗假設(shè)是否正確二、什么是假設(shè)檢驗中的顯著性水平?統(tǒng)計顯著是什么意思?(1
40、 )顯著性水平是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即假設(shè)檢驗中 犯棄真錯誤的概率,通常用 表示,它是人們根據(jù)經(jīng)驗的要求確定的,通常取或 。顯著性水平是人們事先指定的犯第I類錯誤概率 的最大允 許值,確定了顯著性水平 ,就等于控制了第I類錯誤的概率。但犯第U類錯誤 的概率 卻是不確定的( 2)統(tǒng)計顯著值在原假設(shè)為真的條件下,用于檢驗的樣本統(tǒng)計量的值落在 了拒絕域內(nèi),作出了拒絕原假設(shè)的決定三、什么是假設(shè)檢驗的兩類錯誤及其數(shù)理關(guān)系怎樣(1)假設(shè)檢驗中所犯的錯誤有兩種:一類錯誤是原假設(shè)為真卻別拒絕了, 犯這類錯誤的概率用 表示,也稱第I類錯誤。另一類錯誤是原假設(shè)為假卻沒有 拒絕,犯這種錯誤的概率用
41、表示,也稱第U類錯誤(2)當(dāng) 增加時 減小,當(dāng) 增大時 減小,要使 和 同時減小的唯一辦法是增加樣本容量四、假設(shè)檢驗的步驟( 1)陳述原假設(shè) 和備擇假設(shè) 。(2)從所研究的總體中抽出一個隨機樣本(3)確定一個適當(dāng)?shù)臋z驗統(tǒng)計量,并利用樣本數(shù)據(jù)算出其具體數(shù)值(4)確定一個適當(dāng)?shù)娘@著性水平,并計算出其臨界值,指定拒絕域(5)將統(tǒng)計量的值與臨界值進(jìn)行比較,作出決策。統(tǒng)計量的值落在拒絕域,拒絕 ,否則不拒絕 ,或者也可以直接利用 P 值作出決策五、建立原假設(shè)和備擇假設(shè)的原則(建立假設(shè)的幾點認(rèn)識)(1)原假設(shè)和備擇假設(shè)是一個完備事件組,且相互獨立(2)在建立假設(shè)時,通常是先確定備擇假設(shè),然后再確定原假設(shè)(
42、3)在假設(shè)檢驗中,等號“ = ”總是放在原假設(shè)上。這是因為我們想涵蓋備 擇假設(shè) 不出現(xiàn)的所有情況(4)這樣的假設(shè)本質(zhì)上帶有一定的主觀色彩,在面對某一實際問題,由于不同研究者有不同的研究目的,即使對同一問題也可能提出截然相反的原假設(shè)和備擇假設(shè),這并不違背假設(shè)的最初定義,只要符合研究的最終目的就是合理的六、單雙側(cè)檢驗的區(qū)別備擇假設(shè)具有特定的方向性,并含有“ < ”或“ > ”的假設(shè)檢驗,稱為單側(cè)檢 驗或單尾檢驗。備擇假設(shè)沒有特定的方向性,并含有符號“ ”的假設(shè)檢驗,稱為雙側(cè)檢驗或雙尾檢驗在單側(cè)檢驗中,由于研究者感興趣的方向不同,又可分為左側(cè)檢驗和右側(cè)檢驗七、檢驗統(tǒng)計量的特征和用途檢驗統(tǒng)
43、計量是指根據(jù)樣本觀測結(jié)果計算得到的,并據(jù)以對原假設(shè)和備擇假設(shè) 做出決策的某個樣本統(tǒng)計量。檢驗統(tǒng)計量實際上是總體參數(shù)的點估計量,只有將其標(biāo)準(zhǔn)化后,才能用以度 量它與原假設(shè)的參數(shù)值之間的差異程度。而對點估計量標(biāo)準(zhǔn)化的依據(jù)則是: a、 原假設(shè) 為真;b、點估計量的抽樣分布。實際上,假設(shè)檢驗中所用的檢驗統(tǒng) 計量都是標(biāo)準(zhǔn)化檢驗統(tǒng)計量,它反映了點估計量與假設(shè)的總體參數(shù)相比相差多 少個標(biāo)準(zhǔn)差。八、拒絕域面積與 大小的關(guān)系當(dāng)樣本容量固定時,拒絕域的面積隨著 的減小而減小。 越小,拒絕原假 設(shè)所需要的檢驗統(tǒng)計量的臨界值與原假設(shè)的參數(shù)值就越遠(yuǎn)。拒絕域的位置取決 于檢驗是單側(cè)檢驗還是雙側(cè)檢驗,雙側(cè)檢驗的拒絕域在抽樣
44、分布的兩側(cè),而單 側(cè)檢驗中,如果備擇假設(shè)具有符號“ <”,拒絕域位于抽樣分布的左側(cè),故稱為 左側(cè)檢驗。如果備擇假設(shè)具有符號“ > ”,拒絕域位于抽樣分布的右側(cè),故稱 為右側(cè)檢驗。九、顯著性水平 的局限性顯著性水平 實在檢驗之前確定的,這也就意味這我們事先確定了拒絕域。 這樣,不論檢驗統(tǒng)計量的值是大還是小,只要他的值落入拒絕域就拒絕原假設(shè), 否則不拒絕原假。這種固定的顯著性水平 對檢驗結(jié)果的可靠性起一種度量作用。 但不足的是, 是犯第I類錯誤的上限控制值,它只能提供檢驗結(jié)論可靠性的一 個大致范圍,而對于一個特定的假設(shè)檢驗問題,卻無法給出觀測數(shù)據(jù)與原假設(shè) 之間不一致程度的精確度量,也就
45、是說,僅從顯著性水平比較,若選擇的 值相 同,所有的檢驗結(jié)果的可靠性都一樣。十、P值較小時為什么要拒絕原假設(shè)P 值是指在原假設(shè)為真的條件下,檢驗統(tǒng)計量的觀察值大于或等于其計算 值的概率。P值是反映實際觀測到的數(shù)據(jù)與原假設(shè)之間不一致程度的一個概率值。P值越小,說明實際觀測到的數(shù)據(jù)與之間不一致的程度就越大,檢驗的結(jié)果也就越顯著十一、顯著性水平與P值得區(qū)別(1)的含義是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即假設(shè)檢驗中犯棄真錯誤的概率,是有人們根據(jù)檢驗的要求確定的,通?;蚨鳳值是原假設(shè)為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率, 它是通過計算得到的,P值得大小取決于三個因素:樣本數(shù)據(jù)與原假設(shè)之間
46、的 差異、樣本量、被假設(shè)數(shù)據(jù)的總體分布(2)只能提供檢驗結(jié)論的可靠性地一個大致范圍,而對于一個特定的假 設(shè)檢驗為題,卻無法給出觀測數(shù)據(jù)與原假設(shè)之間不一致程度的精確度量。即僅 從顯著性水平來比較,如果選擇的 值相同,所有檢查結(jié)果的可靠性都一樣。而P值可以測量出樣本觀察數(shù)據(jù)與原假設(shè)中假設(shè)的值的偏離程度。十二、總體均值的檢驗在對總體均值進(jìn)行假設(shè)檢驗時,采用什么檢驗步驟和檢驗統(tǒng)計量取決于我們 所抽取的樣本是大樣本(n )還是小樣本(n ),此外還需要區(qū)分總體 是否服從正態(tài)分布、總體方差 是否已知等幾種情況。(1 )大樣本的檢驗方法:樣本均值經(jīng)過標(biāo)準(zhǔn)化后服從正態(tài)分布,設(shè)假設(shè)的總體均值為 ,當(dāng)總體方差 已
47、知時,總體均值檢驗的統(tǒng)計量為: N(0,1)當(dāng)總體方差未知時,可以用樣本方差來近似代替總體方差,此時總體均值檢驗的統(tǒng)計量為X _Z0 N(0,1)S n(2)小樣本的檢驗方法:總體方差已知時,即使在小樣本下,檢驗統(tǒng)計量仍然服從正太分布,X _ 4因此仍然按照 Z0 N (0,1)來計算。°7占總體方差 未知時,需要用樣本方差代替總統(tǒng)方差 ,此時檢驗統(tǒng)計量服從自由度為n-1的t分布。因此需要采用t分布來檢驗總體均值,通常稱為 “ t檢驗”。檢驗的統(tǒng)計量為:X _ J。S:n第九章方差分析與實驗設(shè)計一、方差分析的概念及理解方差分析是指檢驗多個總體均值是否相等的統(tǒng)計方法。所米用的方法就是通
48、過檢 驗各總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。它研究的是多哥總統(tǒng)均值是否相等的統(tǒng)計方法,但本質(zhì)是研究分類型自變量對數(shù) 值型因變量的影響。二、方差分析和回歸分析的區(qū)別和聯(lián)系區(qū)別:(1 )方差分析中沿水平軸的自變量是分類變量;而回歸分析沿水平軸的自變量是 數(shù)值型變量。(2 )方差分析中,既然自變量是分類變量,就可以把它放在水平軸的任意位置上; 而回歸分析的自變量是數(shù)值型變量,它在水平軸上的位置是從按小到大的數(shù)值排列的, 因此只有一種方式來放這些數(shù)值,并且可以畫出一條穿過這些點的直線。(3) 方差分析是通過檢驗各總體的均值是否相等來判斷分類型自變量對數(shù)值型因 變量是否有
49、顯著影響;而回歸分析是根據(jù)一組樣本數(shù)據(jù)確定出變量之間的數(shù)學(xué)關(guān)系式, 然后對關(guān)系式的可信程度進(jìn)行各種統(tǒng)計檢驗,并找出哪些變量的影響是顯著的,哪些 不顯著等三、方差分析中的基本原理(1 )方差分析是通過對數(shù)據(jù)誤差來源的分析來判斷不同總體的均值是否相等,進(jìn) 而分析自變量對因變量是否有影響(2) 數(shù)據(jù)的誤差是用平方差來表示的,包括組內(nèi)誤差和組間誤差(3) 組內(nèi)誤差只包含隨機誤差,而組間誤差既包括隨機誤差,又包括系統(tǒng)誤差(4)如果組間誤差只包括隨機誤差,而沒有系統(tǒng)誤差,這時,組間誤差與組內(nèi)誤 差經(jīng)過平均后的數(shù)值就應(yīng)該很接近,他們的比值就會接近 1;(5)反之,如果組間誤差既包括隨機誤差又包括系統(tǒng)誤差,這
50、時,組間誤差與組 內(nèi)誤差經(jīng)過平均后的數(shù)值,他們的比值就會大于 1;(6)當(dāng)這個比值大到某種程度時,我們就可以說因素的不同水平之間存在著顯著 的差異,也就是自變量對因變量有影響。四、方差分析中的基本假定(1)每個總體都應(yīng)服從正態(tài)分布。也就是說,對于因素的每一個水平,其觀察值 是來自服從正態(tài)分布總體的簡單隨機樣本(2)各個總體的方差必須相同。也就是說,各組觀察數(shù)據(jù)是從具有相同方差的總 體中抽取的(3)觀察值是獨立的 在上述假定成立的前提下,要分析自變量對因變量是否有影響,實際上也就是 要檢驗自變量的各個水平(總體)的均值是否相等。五、方差分析和總體均值的 t 檢驗或 z 檢驗有何不同?優(yōu)勢是 什么
51、(1)不同:總體均值的 t 檢驗或 z 檢驗,只能研究兩個樣本,若要檢驗多個總體 均值是否相等。那么作這樣的兩兩比較將 十分繁瑣,共需進(jìn)行 次不同的檢驗,如果=0.05,那么每次檢驗犯第I類錯誤的概率都是 0.05,做多次檢驗會使第I類錯誤的概率相應(yīng)增加。而方差分析方法則同時考慮所有的樣本,因此除了 錯誤累計的概率,從而避免了拒絕一個真是的原假設(shè)。(2)優(yōu)勢:方差分析不僅可以提高檢驗的概率,同時由于他是將所有的樣本信息 結(jié)合在一起,也增加了分析的可靠性。六、要檢驗多個總體均值是否相等時,為什么不做兩兩比較, 而用方差分析方法?方差分析不僅可以提高檢驗的概率,同時由于他是將所有的樣本信息結(jié)合在一
52、起, 也增加了分析的可靠性。檢驗多個總體均值是否相等時,如果做兩兩比較,需要進(jìn)行多次的 t 檢驗。隨著 增加個體顯著性檢驗的次數(shù),偶然因素導(dǎo)致的差別的可能性會增加(并非均值真的存在差別),而方差分析則是同時考慮所有的樣本,因此排除了錯誤累積的概率,從而避免拒絕一個真實的原假設(shè)。七、方差分析的步驟(1 )提出假設(shè),按要求檢驗的k個水平的均值是否相等,提出原假設(shè)和備擇假設(shè)。(2)構(gòu)造檢驗的統(tǒng)計量,計算各樣本均值,樣本總均值,誤差平方和SST、SSA、SSEF=(3 )統(tǒng)計決策,比較統(tǒng)計量F和(k-1, n-k)的值,若F> ,則拒絕原假設(shè),反之不拒絕原假設(shè)八、解釋水平項誤差平方和與誤差平方和
53、(1)水平項誤差平方和,簡稱 SSA,是各組平均值與總平均值的誤差平方和,反 映各總體的樣本均值之間的差異程度,因此又稱為組間平方和,其計算公式為k nikssA、' 區(qū)x n Xiyj 占y(2)誤差項平方和,簡稱為 SSE它是每個水平或組的各樣本數(shù)據(jù)與其組平均值 誤差的平方和,反映了每個樣本個觀測值的離散狀況,因此又稱為組內(nèi)平方和或殘差 平方和,該平方和實際上反映的是隨機誤差的大小,其計算公式為k 叫SSE = Z儀出一呂2 心2九、解釋組內(nèi)方差和組間方差的含義SSA的均方(組間均方)記為 MSA,也稱組間方差,其計算公式為MSA匚SSAk1MSE的均方(組內(nèi)均方)記為 MSE,也
54、稱組內(nèi)方差,其計算公式為ms,SSEn-lk 十、方差分析中效應(yīng)的意義SSA是對隨機誤差和系統(tǒng)誤差的大小的度量,它反映了自變量對因變量的影響,也稱自變量效應(yīng)或因子效應(yīng)。SSA、,x x2 f n x x21 j 胡ii TSSE是對隨機誤差的大小的度量,它反映了除自變量對因變量的影響之外,其他因素對因變量的總影響,因此SSE也稱為殘差變量,它所引起的誤差也稱為殘差效應(yīng)。k n)iSSE = W 三(xj -為 fiP j %SST是全部數(shù)據(jù)總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因 此他等于自變量效應(yīng)加殘差效應(yīng)。SST = SSA + SSE十一、多重比較方法的作用:它是通過對總
55、體均值之間的配對比較來進(jìn)一步檢驗到底哪些均值之間存在差異。十二、交互作用:是一因素對另一因素的不同水平有不同的效果,如對于雙因素方差分析,有交互 作用就是兩個因素搭配在一起,對應(yīng)變量產(chǎn)生的一種新的效應(yīng)。十三、解釋無交互作用和有交互作用的雙因素方差分析在雙因素方差分析中,由于有兩個影響因素,若這兩個因素是相互獨立的,我們 分別判斷這兩個因素對因變量的影響,這時的雙因素方差分析稱為無交互作用的雙因 素方差分析,或稱為無重復(fù)因素分析。如果出了兩個因素的單獨影響外,兩因素的搭 配還會對因變量產(chǎn)生一種新的效應(yīng),這時的雙因素方差分析就是有交互作用的雙因素 方差分析。十四、R2的含義和作用(1)單因素方差分
56、析中,R2表示自變量平方和(SSA)及殘差平方和(SSE占總平方和 (SST)的比例大小,其平方根 R就可以用來測量兩個變量之間的關(guān)系強度心 SSA:組間平方和 )RSST(總平方和 )(2) 無交互作用的雙因素方差分析中,行自變量平方(SSR)和和列自變量的平方 和(SSC)加在一起則度量了兩個自變量對因變量的聯(lián)合效應(yīng),聯(lián)合效應(yīng)與總平方和的比值定義為R2,其平方根R反映了這兩個自變量合起來與因變量之間的關(guān)系強度R2 _ 聯(lián)合效應(yīng) _ SSR SSC_總效應(yīng) SST(3)有交互作用的方差分析: R2 =十四、為什么雙因素方差分析中,誤差平方和與P值明顯小于單因素方差分析中的任何一個平方和?是因
57、為在雙因素方差分析中,誤差平方和不包括兩個自變量中的任何一個,因而 減少了殘差效應(yīng)。而在分別作單因素方差分析時,將行因素作為自變量時,列變量被 包含在殘差中,同樣,將列因素作為自變量是,行變量被包含在殘差中。因此,對于 兩個自變量而言,進(jìn)行雙因素方差分析要優(yōu)于分別對兩個因素進(jìn)行單因素方差分析十五、完全隨機化設(shè)計、隨機化區(qū)組設(shè)計、因子設(shè)計(1)完全隨機化設(shè)計指 處理”被隨機地指派給試驗單元的一種設(shè)計、對完全隨 機化設(shè)計的數(shù)據(jù)采用 單因素方差分析(2 )隨機化區(qū)組設(shè)計是指先按一定規(guī)則將試驗單元劃分為若干同質(zhì)組,稱為“區(qū) 組。分組后再將每個品種(處理)隨機地指派給每一個區(qū)組的設(shè)計就是隨機化區(qū)組設(shè) 計。試驗數(shù)據(jù)采用 無重復(fù)雙因素方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024城市二手房買賣合同(32篇)
- 滬教版九年級化學(xué)上冊(上海版)全套講義
- 農(nóng)業(yè)金融服務(wù)提升產(chǎn)量潛力
- 高一化學(xué)教案:專題第三單元第二課時有機高分子的合成
- 2024高中化學(xué)第二章烴和鹵代烴2-1苯的結(jié)構(gòu)與性質(zhì)課時作業(yè)含解析新人教版選修5
- 2024高中地理第四章自然環(huán)境對人類活動的影響4自然災(zāi)害對人類的危害課時作業(yè)含解析湘教版必修1
- 2024高中生物第五章生態(tài)系統(tǒng)及其穩(wěn)定性第5節(jié)生態(tài)系統(tǒng)的穩(wěn)定性精練含解析新人教版必修3
- 2024高中語文第二課千言萬語總關(guān)“音”第2節(jié)耳聽為虛-同音字和同音詞練習(xí)含解析新人教版選修語言文字應(yīng)用
- 2024高中語文精讀課文一第1課1長安十年作業(yè)含解析新人教版選修中外傳記蚜
- 2024高考?xì)v史一輪復(fù)習(xí)方案專題六古代中國經(jīng)濟(jì)的基本結(jié)構(gòu)與特點專題綜合測驗含解析人民版
- (完整word版)人員密集場所消防安全管理GA654-2006
- 初二(6)班-家長會
- 二次系統(tǒng)等電位接地網(wǎng)的敷設(shè)施工要求分析
- DB32T 3721-2020 高標(biāo)準(zhǔn)農(nóng)田建設(shè)項目制圖及其圖例規(guī)范
- 中國鐵路總公司關(guān)于印發(fā)《區(qū)間邏輯檢查功能運用暫行辦法》的通知(鐵總運【2016】63號)
- 光伏發(fā)電項目并網(wǎng)調(diào)試方案
- 高中化學(xué)競賽題--成鍵理論
- 康復(fù)中心組織結(jié)構(gòu)圖
- 納稅信用等級評定標(biāo)準(zhǔn)(扣分標(biāo)準(zhǔn))
- 屋頂光伏設(shè)備維保方案
- 裝表接電課件
評論
0/150
提交評論