統(tǒng)計學(xué)第6章方差分析法_第1頁
統(tǒng)計學(xué)第6章方差分析法_第2頁
統(tǒng)計學(xué)第6章方差分析法_第3頁
統(tǒng)計學(xué)第6章方差分析法_第4頁
統(tǒng)計學(xué)第6章方差分析法_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第6章方差分析AnalysisofVariance(ANOVA)2/2/20231版權(quán)所有BY統(tǒng)計學(xué)課程組學(xué)習(xí)目標掌握方差分析中的基本概念;掌握方差分析的基本思想和原理;掌握單因素方差分析的方法及應(yīng)用;初步了解多重比較方法的應(yīng)用;2/2/20232版權(quán)所有BY統(tǒng)計學(xué)課程組學(xué)習(xí)內(nèi)容第一節(jié)方差分析簡介常用術(shù)語

基本假定第二節(jié)單因素方差分析

分析模型

基本思想

分析步驟

多重比較2/2/20233版權(quán)所有BY統(tǒng)計學(xué)課程組7.1方差分析簡介7.1.1方差分析中的基本概念7.1.2方差分析中的基本假設(shè)與檢驗2/2/20234版權(quán)所有BY統(tǒng)計學(xué)課程組失業(yè)保險案例:為什么要進行方差分析?

為了減小失業(yè)保險支出、促進就業(yè),政府試圖為失業(yè)者提供再就業(yè)獎勵:如果失業(yè)者可以在限定的時間內(nèi)重新就業(yè),他將可以獲得一定數(shù)額的獎金。政策會有效嗎?2/2/20235版權(quán)所有BY統(tǒng)計學(xué)課程組試驗數(shù)據(jù)不同獎金水平失業(yè)者的再就業(yè)時間(天)

無獎金低獎金中獎金高獎金928696781001089275859390768888778789897973907571839478828280727568787981722/2/20236版權(quán)所有BY統(tǒng)計學(xué)課程組要研究的問題總體1,μ1(獎金=1)總體2,μ2(獎金=2)總體3,μ3(獎金=3)樣本1樣本2樣本3樣本4總體4,μ4(獎金=4)2/2/20237版權(quán)所有BY統(tǒng)計學(xué)課程組各個總體的均值相等嗎?Xf(X)1

2

3

4

Xf(X)3

1

2

4

2/2/20238版權(quán)所有BY統(tǒng)計學(xué)課程組失業(yè)保險案例:實驗結(jié)果……1=無獎金2=低獎金3=中獎金4=高獎金。根據(jù)實驗結(jié)果,可以認為各總體的平均失業(yè)時間相同嗎?2/2/20239版權(quán)所有BY統(tǒng)計學(xué)課程組研究方法:兩樣本的t檢驗?如果采用t檢驗法對多個總體均值進行差異顯著性檢驗,會出現(xiàn)如下問題:全部檢驗過程煩瑣,做法不經(jīng)濟無統(tǒng)一的總體方差估計,檢驗的精度降低犯第一類錯誤的概率增大,檢驗的可靠性降低2/2/202310版權(quán)所有BY統(tǒng)計學(xué)課程組方差分析可以用來比較多個均值方差分析(Analysisofvariance,ANOVA)的主要目的是通過對方差的比較來同時檢驗多個均值之間差異的顯著性??梢钥醋鱰檢驗的擴展,只比較兩個均值時與t檢驗等價。20世紀20年代由英國統(tǒng)計學(xué)家費喧(R.A.Fisher)最早提出的,開始應(yīng)用于生物和農(nóng)業(yè)田間試驗,以后在許多學(xué)科中得到了廣泛應(yīng)用。2/2/202311版權(quán)所有BY統(tǒng)計學(xué)課程組ANOVA(analysisofvariance)由于方差分析法是通過比較有關(guān)方差的大小而得到結(jié)論的,所以在統(tǒng)計中,常常把運用方差分析法的活動稱為方差分析。方差分析的內(nèi)容很廣泛,既涉及到實驗設(shè)計的模式,又關(guān)乎數(shù)據(jù)分析模型中因素效應(yīng)的性質(zhì)。本章在完全隨機試驗設(shè)計下,討論固定效應(yīng)模型方差分析的基本原理與方法,重點介紹單因素方差分析及兩因素方差分析的內(nèi)容。2/2/202312版權(quán)所有BY統(tǒng)計學(xué)課程組7.1.1方差分析中的幾個基本概念因變量:我們實際測量的、作為結(jié)果的變量,例如失業(yè)持續(xù)時間。因變量也稱試驗指標,其不同的取值常稱為觀察值或試驗數(shù)據(jù)。自變量:作為原因的、把觀測結(jié)果分成幾個組以進行比較的變量例如獎金水平。在方差分析中,自變量也被稱為因素(factor)。因素的不同表現(xiàn),即每個自變量的不同取值稱為因素的水平。2/2/202313版權(quán)所有BY統(tǒng)計學(xué)課程組7.1.1方差分析中的幾個基本概念方差分析主要用來研究一個定量因變量與一個或多個定性自變量的關(guān)系只有一個自變量的方差分析稱為單因素方差分析。研究多個因素對因變量的影響的方差分析稱為多因素方差分析,其中最簡單的情況是雙因素方差分析。2/2/202314為便于理解,在單因素方差分析中,將因素的任何一個水平(處理)看作是一個總體,該水平(處理)下試驗得到的數(shù)據(jù)可看成是從總體中抽出的一個樣本,處理的重復(fù)數(shù)即為樣本容量。7.1.1:固定效應(yīng)與隨機效應(yīng)模型2/2/202315版權(quán)所有BY統(tǒng)計學(xué)課程組若因素的每一個水平(處理)均做試驗,相當于對該因素進行了全面調(diào)查。此種情形下,方差分析目的在于:對比較尋優(yōu),即確定因素的顯著影響水平,且該顯著影響水平僅在中有效,在外無效,一句話,試驗數(shù)據(jù)不能對因素做推斷,這屬于固定效應(yīng)模型方差分析范疇。固定效應(yīng)模型:因素的所有水平都是由實驗者審慎安排而不是隨機選擇的。7.1.1:固定效應(yīng)模型2/2/202316版權(quán)所有BY統(tǒng)計學(xué)課程組若只對因素的部分水平(處理)做試驗,相當于對進行了抽樣調(diào)查,此種情形下,方差分析目的在于:對因素的總體變量所服從的分布進行差異性檢驗和參數(shù)估計,即樣本推斷總體,這屬于隨機效應(yīng)模型方差分析范疇。隨機效應(yīng)模型:因素的水平是從多個可能的水平中隨機選擇的。固定效應(yīng)和隨機效應(yīng)模型在假設(shè)的設(shè)置和參數(shù)估計上有所差異,本章研究的都是固定效應(yīng)模型。7.1.1:隨機效應(yīng)模型2/2/202317版權(quán)所有BY統(tǒng)計學(xué)課程組方差分析與回歸分析的聯(lián)系*回歸分析主要用來研究定量自變量和定量因變量之間的關(guān)系(第八章學(xué)習(xí))?;貧w分析中方差分析常常用來檢驗回歸方程的整體顯著性?;貧w模型中也可以包含定性自變量。這時回歸模型與方差分析模型是等價的。2/2/202318版權(quán)所有BY統(tǒng)計學(xué)課程組7.1.2:方差分析中的基本假設(shè)(1)在各個總體中因變量都服從正態(tài)分布;(2)在各個總體中因變量的方差都相等;(3)各個觀測值之間是相互獨立的。2/2/202319版權(quán)所有BY統(tǒng)計學(xué)課程組(1)正態(tài)性的檢驗各組數(shù)據(jù)的直方圖Q-Q圖,K-S檢驗*2/2/202320版權(quán)所有BY統(tǒng)計學(xué)課程組(2)等方差性的檢驗經(jīng)驗方法:計算各組數(shù)據(jù)的標準差,如果最大值與最小值的比例小于2:1,則可認為是同方差的。

本例中,最大值和最小值的比例等于1.83<2。Levene檢驗*獎金水平均值N標準差188.4496.82285.33911.02382.5698.38477.1196.012/2/202321版權(quán)所有BY統(tǒng)計學(xué)課程組方差分析對前兩個假設(shè)條件是穩(wěn)健的,允許一定程度的偏離。獨立性的假設(shè)條件一般可以通過對數(shù)據(jù)搜集過程的控制來保證。如果確實嚴重偏離了前兩個假設(shè)條件,則需要先對數(shù)據(jù)進行數(shù)學(xué)變換,也可以使用非參數(shù)的方法來比較各組的均值。(3)其它說明2/2/202322版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.1單因素方差分析模型7.2.2方差分析的基本原理7.2.3單因素方差分析的步驟7.2.4方差分析中的多重比較7.2.單因素方差分析2/2/202323版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.1單因素方差分析模型2/2/202324版權(quán)所有BY統(tǒng)計學(xué)課程組單因素方差分析的數(shù)據(jù)結(jié)構(gòu)2/2/202325版權(quán)所有BY統(tǒng)計學(xué)課程組同一試驗條件下的數(shù)據(jù)變異-----隨機因素影響不同試驗條件下,試驗數(shù)據(jù)變異-----隨機因素和可能存在的系統(tǒng)性因素即試驗因素共同影響試驗數(shù)據(jù)變異原因(誤差來源)分析2/2/202326版權(quán)所有BY統(tǒng)計學(xué)課程組實驗數(shù)據(jù)誤差類型隨機誤差因素的同一水平(總體)下,樣本各觀察值之間的差異比如,同一獎金水平下不同不同人的失業(yè)時間是不同的這種差異可以看成是隨機因素影響的結(jié)果,稱為隨機誤差

系統(tǒng)誤差因素的不同水平(不同總體)下,各觀察值之間的差異比如,不同獎金水平之間的失業(yè)時間之間的差異這種差異可能是由于抽樣的隨機性所造成的,也可能是由于獎金本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差2/2/202327版權(quán)所有BY統(tǒng)計學(xué)課程組方差分析的實質(zhì)與分析目的方差分析的實質(zhì):觀測值變異原因的數(shù)量分析。方差分析的目的:系統(tǒng)中是否存在顯著性影響因素2/2/202328版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.1單因素方差分析模型(1)單因素方差分析:模型中有一個自變量(因素)和一個因變量。在失業(yè)保險實驗中,假設(shè)張三在高獎金組,則

張三的失業(yè)時間

=高獎金組的平均失業(yè)時間+隨機因素帶來的影響

=總平均失業(yè)時間

+高獎金組平均值與總平均值之差

+隨機因素帶來的影響

2/2/202329版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.1單因素方差分析模型(2)2/2/202330版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.2方差分析的基本原理2/2/202331版權(quán)所有BY統(tǒng)計學(xué)課程組總變差(離差平方和)的分解數(shù)據(jù)的誤差用離差平方和(sumofsquares)描述。組內(nèi)離差平方和(withingroups)因素的同一水平(同一個總體)下樣本數(shù)據(jù)的變異比如,同一獎金水平下失業(yè)時間的差異組內(nèi)離差平方和只包含隨機誤差組間離差平方和(betweengroups)因素的不同水平(不同總體)下各樣本之間的變異比如,四個獎金水平之間失業(yè)時間的差異組間離差平方和既包括隨機誤差,也包括系統(tǒng)誤差2/2/202332版權(quán)所有BY統(tǒng)計學(xué)課程組總變差(離差平方和)分解的圖示組間變異總變異組內(nèi)變異2/2/202333版權(quán)所有BY統(tǒng)計學(xué)課程組SST=SSA+SSE

總變差因素A及隨機因素導(dǎo)致的變差隨機因素導(dǎo)致的變差組間離差平方和組內(nèi)離差平方和2/2/202334版權(quán)所有BY統(tǒng)計學(xué)課程組2/2/202335版權(quán)所有BY統(tǒng)計學(xué)課程組離差平方和的自由度與均方三個平方和的自由度分別是SST的自由度為nk-1,nk為全部觀察值的個數(shù)SSA的自由度為k-1,其中k為因素水平的個數(shù)SSE的自由度為nk-k各離差平方和的大小與觀察值的多少有關(guān),為了消除觀察值多少對離差平方和大小的影響,需要將其平均,這就是均方,也稱為方差。均方的計算方法是用離差平方和除以相應(yīng)的自由度。2/2/202336版權(quán)所有BY統(tǒng)計學(xué)課程組組間離差平方和組內(nèi)離差平方和組間方差組內(nèi)方差受因素A和隨機

因素的影響只受隨機

因素的影響2/2/202337版權(quán)所有BY統(tǒng)計學(xué)課程組F比值如果因素A的不同水平對結(jié)果沒有影響,那么在組間方差中只包含有隨機誤差,兩個方差的比值會接近1如果不同水平對結(jié)果有影響,組間方差就會大于組內(nèi)方差,組間方差與組內(nèi)方差的比值就會大于1當這個比值大到某種程度時,就可以說不同水平之間存在顯著差異,或者說因素A對結(jié)果有顯著影響。組間方差組內(nèi)方差F=2/2/202338版權(quán)所有BY統(tǒng)計學(xué)課程組F比的分布F分布曲線2/2/202339版權(quán)所有BY統(tǒng)計學(xué)課程組F分布與拒絕域如果均值相等,F(xiàn)=MSA/MSE1a

F分布顯著水平下的臨界點F(k-1,nk-k)0拒絕H0不能拒絕H0F2/2/202340版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.2:方差分析的基本思想將k個水平(處理)的觀測值作為一個整體看待,利用方差的可分解性,把觀測值總變異的離差平方和及自由度分解為相應(yīng)于不同變異來源的離差平方和及自由度,進而獲得不同變異來源總體方差估計值;通過計算這些總體方差估計值的適當比值,即F比值,并以此比值的大小來判斷各樣本所屬總體平均數(shù)是否相等。目的是檢查所討論因素是否作為系統(tǒng)性因素來影響試驗結(jié)果。2/2/202341版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.3:方差分析的步驟1.檢驗數(shù)據(jù)是否符合方差分析的假設(shè)條件。2.提出零假設(shè)和備擇假設(shè):零假設(shè):各總體的均值之間沒有顯著差異,即

備擇假設(shè):至少有兩個均值不相等,即2/2/202342版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.3:方差分析的步驟3.根據(jù)樣本計算F統(tǒng)計量的值。方差分析表變差來源離差平方和SS自由度df均方MSF值組間SSAk-1MSAMSA/MSE組內(nèi)SSEnk-kMSE總變異SSTnk-12/2/202343版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.3:方差分析的步驟4.確定決策規(guī)則并根據(jù)實際值與臨界值的

比較,或者p-值與α的比較得出檢驗結(jié)論。

在零假設(shè)成立時組間方差與組內(nèi)方差的比值服從服從自由度為(k-1,nk-k)的F分布臨界值拒絕域p-值α實際值

F檢驗的臨界值和拒絕域

2/2/202344版權(quán)所有BY統(tǒng)計學(xué)課程組失業(yè)保險的例子(1)在失業(yè)保險實驗中,設(shè)顯著性水平α=0.05,試分析獎金水平對失業(yè)時間的影響是否顯著。不同獎金水平失業(yè)者的再就業(yè)時間(天)

無獎金低獎金中獎金高獎金928696781001089275859390768888778789897973907571839478828280727568787981722/2/202345版權(quán)所有BY統(tǒng)計學(xué)課程組失業(yè)保險的例子(2)1、根據(jù)前面的分析,數(shù)據(jù)符合方差分析的假設(shè)條件。2、提出零假設(shè)和備擇假設(shè):H0:μ1=μ2=μ3=μ4,H1:μ1、μ2、μ3、μ4不全相等。2/2/202346版權(quán)所有BY統(tǒng)計學(xué)課程組失業(yè)保險的例子(3)3、計算F統(tǒng)計量的實際值。

手工計算可以按照方差分析表的內(nèi)容逐步計算。由于計算量大,實際應(yīng)用中一般要借助于統(tǒng)計軟件。下面是Excel計算的方差分析表。變差來源SS自由度MSFp-值F臨界值組間624.973208.323.040.04332.90組內(nèi)2195.333268.60總變差2820.3135

2/2/202347版權(quán)所有BY統(tǒng)計學(xué)課程組失業(yè)保險的例子(4)4、樣本的F值為3.04。由于

因此我們應(yīng)拒絕零假設(shè),從而得出獎金水平對再就業(yè)時間有顯著影響的結(jié)論。類似的,由于,可以得出同樣的結(jié)論。2.90.04330.053.042/2/202348版權(quán)所有BY統(tǒng)計學(xué)課程組例2熱帶雨林(1)各水平下的樣本容量不同時單因素方差分析的方法也完全適用,只是公式的形式稍有不同,在使用軟件進行分析時幾乎看不出這種差別。

一份研究伐木業(yè)對熱帶雨林影響的統(tǒng)計研究報告指出,“環(huán)保主義者對于林木采伐、開墾和焚燒導(dǎo)致的熱帶雨林的破壞幾近絕望”。這項研究比較了類似地塊上樹木的數(shù)量,這些地塊有的從未采伐過,有的1年前采伐過,有的8年前采伐過。根據(jù)數(shù)據(jù),采伐對樹木數(shù)量有顯著影響嗎?顯著性水平α=0.05。

2/2/202349版權(quán)所有BY統(tǒng)計學(xué)課程組例2熱帶雨林(2)1、正態(tài)性檢驗:直方圖從未采伐過1年前采伐過8年前采伐過2712182212429152221915192018331819161722201412241412272281719192/2/202350版權(quán)所有BY統(tǒng)計學(xué)課程組例2熱帶雨林(3)同方差性檢驗:最大值與最小值之比等于33.19/4.81=1.34,明顯小于4,因此可以認為是等方差的。

組計數(shù)求和平均方差從未采伐過1228523.7525.661年前采伐過1216914.0824.818年前采伐過914215.7833.192/2/202351版權(quán)所有BY統(tǒng)計學(xué)課程組例2熱帶雨林(4)2、提出零假設(shè)和備擇假設(shè)零假設(shè):雨林采伐對林木數(shù)量沒有顯著影響(各組均值相等);備擇假設(shè):雨林采伐對是有顯著影響(各組均值不全相等)。2/2/202352版權(quán)所有BY統(tǒng)計學(xué)課程組例2熱帶雨林(5)3、方差分析表4、結(jié)論。F值=11.43>3.32,p-值=0.0002<0.05,因此檢驗的結(jié)論是采伐對林木數(shù)量有顯著影響。變差源SSdfMSFP-valueFcrit組間625.162312.5811.430.00023.32組內(nèi)820.723027.36總計1445.8832

2/2/202353版權(quán)所有BY統(tǒng)計學(xué)課程組7.2.4方差分析中的多重比較在方差分析中,不拒絕零假設(shè)H0,表示拒絕總體均數(shù)相等的證據(jù)不足,分析終止;當零假設(shè)H0被拒絕時,我們可以確定至少有兩個總體的均值有顯著差異。但要進一步檢驗?zāi)男┚抵g有顯著差異還需要采用多重比較的方法進行分析。這在方差分析中稱為事后檢驗(PostHoctest)。多重比較是同時對各個總體均值進行的兩兩比較。方法很多,如Fisher最小顯著差異(LeastSignificantDifference,LSD)方法、Tukey的誠實顯著差異(HSD)方法或Bonferroni的方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論