方差分析和協(xié)方差分析,協(xié)變量和控制變量_第1頁
方差分析和協(xié)方差分析,協(xié)變量和控制變量_第2頁
方差分析和協(xié)方差分析,協(xié)變量和控制變量_第3頁
方差分析和協(xié)方差分析,協(xié)變量和控制變量_第4頁
方差分析和協(xié)方差分析,協(xié)變量和控制變量_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、方差分析和協(xié)方差分析,協(xié)變量和控制變量方差分析方差分析(Analysis of Variance,簡(jiǎn)稱ANOVA),又稱“變異數(shù)分析”或“F檢驗(yàn)”,是R.A.Fisher發(fā)明的,用于兩個(gè)及兩個(gè)以上樣本均數(shù)差別的顯著性檢驗(yàn)。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中施加的對(duì)結(jié)果形成影響的可控因素。方差分析是從觀測(cè)變量的方差入手,研究諸多控制變量中哪些變量是對(duì)觀測(cè)變量有顯著影響的變量。假定條件和假設(shè)檢驗(yàn)?1. 方差分析的假定條件為: (1)各處理?xiàng)l件下的樣本是隨機(jī)的。 (2)各處理?xiàng)l件下的樣本是相互獨(dú)立的,否則可能出現(xiàn)無法解析的輸出結(jié)

2、果。 (3)各處理?xiàng)l件下的樣本分別來自正態(tài)分布總體,否則使用非參數(shù)分析。 (4)各處理?xiàng)l件下的樣本方差相同,即具有齊效性。 2. 方差分析的假設(shè)檢驗(yàn) 假設(shè)有K個(gè)樣本,如果原假設(shè)H0樣本均數(shù)都相同,K個(gè)樣本有共同的方差 ,則K個(gè)樣本來自具有共同方差和相同均值的總體。 如果經(jīng)過計(jì)算,組間均方遠(yuǎn)遠(yuǎn)大于組內(nèi)均方,則推翻原假設(shè),說明樣本來自不同的正態(tài)總體,說明處理造成均值的差異有統(tǒng)計(jì)意義。否則承認(rèn)原假設(shè),樣本來自相同總體,處理間無差異。 作用一個(gè)復(fù)雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對(duì)該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。

3、方差分析是在可比較的數(shù)組中,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進(jìn)行分解的一種技術(shù)。對(duì)變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個(gè)很重要的思想。 經(jīng)過方差分析若拒絕了檢驗(yàn)假設(shè),只能說明多個(gè)樣本總體均值不相等或不全相等。若要得到各組均值間更詳細(xì)的信息,應(yīng)在方差分析的基礎(chǔ)上進(jìn)行多個(gè)樣本均值的兩兩比較。 多個(gè)樣本均值間兩兩比較 多個(gè)樣本均值間兩兩比較常用q檢驗(yàn)的方法,即Newman-kueuls法,其基本步驟為:建立檢驗(yàn)假設(shè)-樣本均值排序-計(jì)算q值-查q界值表判斷結(jié)果。 多個(gè)實(shí)驗(yàn)組與一個(gè)對(duì)照組均值間兩兩比較 多個(gè)實(shí)驗(yàn)組與一個(gè)對(duì)照組均值

4、間兩兩比較,若目的是減小第II類錯(cuò)誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯(cuò)誤,最好選用新復(fù)極差法,前者查t界值表,后者查q界值表。 基本思想基本思想通過分析研究中不同來源的變異對(duì)總變異的貢獻(xiàn)大小,從而確定可控因素對(duì)研究結(jié)果影響力的大小。 舉例分析下面我們用一個(gè)簡(jiǎn)單的例子來說明方差分析的基本思想: 如某克山病區(qū)測(cè)得11例克山病患者和13名健康人的血磷值(mmol/L)如下: 患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1

5、.34 1.35 1.48 1.56 1.87 問該地克山病患者與健康人的血磷值是否不同? 從以上資料可以看出,24個(gè)患者與健康人的血磷值各不相同,如果用離均差平方和(SS)描述其圍繞總均值的變異情況,則總變異有以下兩個(gè)來源: 組內(nèi)變異,即由于隨機(jī)誤差的原因使得各組內(nèi)部的血磷值各不相等; 組間變異,即由于克山病的影響使得患者與健康人組的血磷值均值大小不等。 而且:SS總=SS組間+SS組內(nèi) v總=v組間+v組內(nèi) 如果用均方(離差平方和除以自由度)代替離差平方和以消除各組樣本數(shù)不同的影響,則方差分析就是用組間均方去除組內(nèi)均方的商(即F值)與1相比較,若F值接近1,則說明各組均值間的差異沒有統(tǒng)計(jì)學(xué)

6、意義,若F值遠(yuǎn)大于1,則說明各組均值間的差異有統(tǒng)計(jì)學(xué)意義。實(shí)際應(yīng)用中檢驗(yàn)假設(shè)成立條件下F值大于特定值的概率可通過查閱F界值表(方差分析用)獲得。 利用統(tǒng)計(jì)學(xué)軟件分析結(jié)果如下: data a; input type num ; cards; 1 0.84 1 1.05 1 1.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11 2 0.54 2 0.64 2 0.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.56 2 1.87 ; run; proc

7、anova; class type; model num=type; means type; run; 自由度離差平方和均方F 值P值SS組間(處理因素)11.134181851.134181856.370.0193(有統(tǒng)計(jì)學(xué)意義)SS組內(nèi)(抽樣誤差)223.917613990.17807336總和235.05179583分類及舉例單因素方差分析(一)單因素方差分析概念理解步驟 是用來研究一個(gè)控制變量的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。這里,由于僅研究單個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為單因素方差分析。 例如,分析不同施肥量是否給農(nóng)作物產(chǎn)量帶來顯著影響,考察地區(qū)差異是否影響婦女的生育率,研究

8、學(xué)歷對(duì)工資收入的影響等。這些問題都可以通過單因素方差分析得到答案。 單因素方差分析的第一步是明確觀測(cè)變量和控制變量。例如,上述問題中的觀測(cè)變量分別是農(nóng)作物產(chǎn)量、婦女生育率、工資收入;控制變量分別為施肥量、地區(qū)、學(xué)歷。 單因素方差分析的第二步是剖析觀測(cè)變量的方差。方差分析認(rèn)為:觀測(cè)變量值得變動(dòng)會(huì)受控制變量和隨機(jī)變量?jī)煞矫娴挠绊?。?jù)此,單因素方差分析將觀測(cè)變量總的離差平方和分解為組間離差平方和和組內(nèi)離差平方和兩部分,用數(shù)學(xué)形式表述為:SST=SSA+SSE。 單因素方差分析的第三步是通過比較觀測(cè)變量總離差平方和各部分所占的比例,推斷控制變量是否給觀測(cè)變量帶來了顯著影響。 (二)單因素方差分析原理總

9、結(jié) 容易理解:在觀測(cè)變量總離差平方和中,如果組間離差平方和所占比例較大,則說明觀測(cè)變量的變動(dòng)主要是由控制變量引起的,可以主要由控制變量來解釋,控制變量給觀測(cè)變量帶來了顯著影響;反之,如果組間離差平方和所占比例小,則說明觀測(cè)變量的變動(dòng)不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平?jīng)]有給觀測(cè)變量帶來顯著影響,觀測(cè)變量值的變動(dòng)是由隨機(jī)變量因素引起的。 (三)單因素方差分析基本步驟 1、提出原假設(shè):H0無差異;H1有顯著差異 2、選擇檢驗(yàn)統(tǒng)計(jì)量:方差分析采用的檢驗(yàn)統(tǒng)計(jì)量是F統(tǒng)計(jì)量,即F值檢驗(yàn)。 3、計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率P值:該步驟的目的就是計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和相應(yīng)

10、的概率P值。 4、給定顯著性水平,并作出決策 (四)單因素方差分析的進(jìn)一步分析 在完成上述單因素方差分析的基本分析后,可得到關(guān)于控制變量是否對(duì)觀測(cè)變量造成顯著影響的結(jié)論,接下來還應(yīng)做其他幾個(gè)重要分析,主要包括方差齊性檢驗(yàn)、多重比較檢驗(yàn)。 1、方差齊性檢驗(yàn) 是對(duì)控制變量不同水平下各觀測(cè)變量總體方差是否相等進(jìn)行檢驗(yàn)。 前面提到,控制變量不同各水平下觀測(cè)變量總體方差無顯著差異是方差分析的前提要求。如果沒有滿足這個(gè)前提要求,就不能認(rèn)為各總體分布相同。因此,有必要對(duì)方差是否齊性進(jìn)行檢驗(yàn)。 SPSS單因素方差分析中,方差齊性檢驗(yàn)采用了方差同質(zhì)性(homogeneity of variance)檢驗(yàn)方法,其

11、原假設(shè)是:各水平下觀測(cè)變量總體的方差無顯著差異。 2、多重比較檢驗(yàn) 單因素方差分析的基本分析只能判斷控制變量是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。如果控制變量確實(shí)對(duì)觀測(cè)變量產(chǎn)生了顯著影響,進(jìn)一步還應(yīng)確定控制變量的不同水平對(duì)觀測(cè)變量的影響程度如何,其中哪個(gè)水平的作用明顯區(qū)別于其他水平,哪個(gè)水平的作用是不顯著的,等等。 例如,如果確定了不同施肥量對(duì)農(nóng)作物的產(chǎn)量有顯著影響,那么還需要了解10公斤、20公斤、30公斤肥料對(duì)農(nóng)作物產(chǎn)量的影響幅度是否有差異,其中哪種施肥量水平對(duì)提高農(nóng)作物產(chǎn)量的作用不明顯,哪種施肥量水平最有利于提高產(chǎn)量等。掌握了這些重要的信息就能夠幫助人們制定合理的施肥方案,實(shí)現(xiàn)低投入高產(chǎn)出。 多

12、重比較檢驗(yàn)利用了全部觀測(cè)變量值,實(shí)現(xiàn)對(duì)各個(gè)水平下觀測(cè)變量總體均值的逐對(duì)比較。由于多重比較檢驗(yàn)問題也是假設(shè)檢驗(yàn)問題,因此也遵循假設(shè)檢驗(yàn)的基本步驟。 檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造方法(1)LSD方法 LSD方法稱為最小顯著性差異(Least Significant Difference)法。最小顯著性差異法的字畫就體現(xiàn)了其檢驗(yàn)敏感性高的特點(diǎn),即水平間的均值只要存在一定程度的微小差異就可能被檢驗(yàn)出來。 正是如此,它利用全部觀測(cè)變量值,而非僅使用某兩組的數(shù)據(jù)。LSD方法適用于各總體方差相等的情況,但它并沒有對(duì)犯一類錯(cuò)誤的概率問題加以有效控制。 (2)S-N-K方法 S-N-K方法是一種有效劃分相似性子集的方法。該

13、方法適合于各水平觀測(cè)值個(gè)數(shù)相等的情況, 3、其他檢驗(yàn) (1)先驗(yàn)對(duì)比檢驗(yàn) 在多重比較檢驗(yàn)中,如果發(fā)現(xiàn)某些水平與另外一些水平的均值差距顯著,如有五個(gè)水平,其中x1、x2、x3與x4、x5的均值有顯著差異,就可以進(jìn)一步分析比較這兩組總的均值是否存在顯著差異,即1/3(x1+x2+x3)與1/2(x4+x5)是否有顯著差異。這種事先指定各均值的系數(shù),再對(duì)其線性組合進(jìn)行檢驗(yàn)的分析方法稱為先驗(yàn)對(duì)比檢驗(yàn)。通過先驗(yàn)對(duì)比檢驗(yàn)?zāi)軌蚋_地掌握各水平間或各相似性子集間均值的差異程度。 (2)趨勢(shì)檢驗(yàn) 當(dāng)控制變量為定序變量時(shí),趨勢(shì)檢驗(yàn)?zāi)軌蚍治鲭S著控制變量水平的變化,觀測(cè)變量值變化的總體趨勢(shì)是怎樣的,是呈現(xiàn)線性變化趨

14、勢(shì),還是呈二次、三次等多項(xiàng)式變化。通過趨勢(shì)檢驗(yàn),能夠幫助人們從另一個(gè)角度把握控制變量不同水平對(duì)觀測(cè)變量總體作用的程度。 多因素方差分析(一)多因素方差分析基本思想 多因素方差分析用來研究?jī)蓚€(gè)及兩個(gè)以上控制變量是否對(duì)觀測(cè)變量產(chǎn)生顯著影響。這里,由于研究多個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為多因素方差分析。多因素方差分析不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)控制因素的交互作用能否對(duì)觀測(cè)變量的分布產(chǎn)生顯著影響,進(jìn)而最終找到利于觀測(cè)變量的最優(yōu)組合。 例如: 分析不同品種、不同施肥量對(duì)農(nóng)作物產(chǎn)量的影響時(shí),可將農(nóng)作物產(chǎn)量作為觀測(cè)變量,品種和施肥量作為控制變量。利用多因素方差分析方法,研究不同

15、品種、不同施肥量是如何影響農(nóng)作物產(chǎn)量的,并進(jìn)一步研究哪種品種與哪種水平的施肥量是提高農(nóng)作物產(chǎn)量的最優(yōu)組合。 (二)多因素方差分析的其他功能 1、均值檢驗(yàn) 在SPSS中,利用多因素方差分析功能還能夠?qū)Ω骺刂谱兞坎煌较掠^測(cè)變量的均值是否存在顯著差異進(jìn)行比較,實(shí)現(xiàn)方式有兩種,即多重比較檢驗(yàn)和對(duì)比檢驗(yàn)。多重比較檢驗(yàn)的方法與單因素方差分析類似。對(duì)比檢驗(yàn)采用的是單樣本t檢驗(yàn)的方法,它將控制變量不同水平下的觀測(cè)變量值看做來自不同總體的樣本,并依次檢驗(yàn)這些總體的均值是否與某個(gè)指定的檢驗(yàn)值存在顯著差異。其中,檢驗(yàn)值可以指定為以下幾種: 觀測(cè)變量的均值(Deviation); 第一水平或最后一個(gè)水平上觀測(cè)變量

16、的均值(Simple); 前一水平上觀測(cè)變量的均值(Difference); 后一水平上觀測(cè)變量的均值(Helmert)。 2、控制變量交互作用的圖形分析 控制變量的交互作用可以通過圖形直觀分析。 (三)多因素方差分析的進(jìn)一步分析 在上述案例中,已經(jīng)對(duì)廣告形式、地區(qū)對(duì)銷售額的影響進(jìn)行了多因素方差分析,建立了飽和模型。由分析可知:廣告形式與地區(qū)的交互作用不顯著,先進(jìn)一步嘗試非飽和模型,并進(jìn)行均值比較分析、交互作用圖形分析。 1、建立非飽和模型 2、均值比較分析 3、控制變量交互作用的圖形分析 協(xié)方差分析(一)協(xié)方差分析基本思想 通過上述的分析可以看到,不論是單因素方差分析還是多因素方差分析,控制

17、因素都是可控的,其各個(gè)水平可以通過人為的努力得到控制和確定。但在許多實(shí)際問題中,有些控制因素很難人為控制,但它們的不同水平確實(shí)對(duì)觀測(cè)變量產(chǎn)生了較為顯著的影響。例如,在研究農(nóng)作物產(chǎn)量問題時(shí),如果僅考察不同施肥量、品種對(duì)農(nóng)作物產(chǎn)量的影響,不考慮不同地塊等因素而進(jìn)行方差分析,顯然是不全面的。因?yàn)槭聦?shí)上有些地塊可能有利于農(nóng)作物的生長(zhǎng),而另一些卻不利于農(nóng)作物的生長(zhǎng)。不考慮這些因素進(jìn)行分析可能會(huì)導(dǎo)致:即使不同的施肥量、不同品種農(nóng)作物產(chǎn)量沒有產(chǎn)生顯著影響,但分析的結(jié)論卻可能相反。 再例如,分析不同的飼料對(duì)生豬增重是否產(chǎn)生顯著差異。如果單純分析飼料的作用,而不考慮生豬各自不同的身體條件(如初始體重不同),那么

18、得出的結(jié)論很可能是不準(zhǔn)確的。因?yàn)轶w重增重的幅度在一定程度上是包含諸如初始體重等其他因素的影響的。 (二)協(xié)方差分析的原理 協(xié)方差分析將那些人為很難控制的控制因素作為協(xié)變量,并在排除協(xié)變量對(duì)觀測(cè)變量影響的條件下,分析控制變量(可控)對(duì)觀測(cè)變量的作用,從而更加準(zhǔn)確地對(duì)控制因素進(jìn)行評(píng)價(jià)。 協(xié)方差分析仍然沿承方差分析的基本思想,并在分析觀測(cè)變量變差時(shí),考慮了協(xié)變量的影響,人為觀測(cè)變量的變動(dòng)受四個(gè)方面的影響:即控制變量的獨(dú)立作用、控制變量的交互作用、協(xié)變量的作用和隨機(jī)因素的作用,并在扣除協(xié)變量的影響后,再分析控制變量的影響。 方差分析中的原假設(shè)是:協(xié)變量對(duì)觀測(cè)變量的線性影響是不顯著的;在協(xié)變量影響扣除的

19、條件下,控制變量各水平下觀測(cè)變量的總體均值無顯著差異,控制變量各水平對(duì)觀測(cè)變量的效應(yīng)同時(shí)為零。檢驗(yàn)統(tǒng)計(jì)量仍采用F統(tǒng)計(jì)量,它們是各均方與隨機(jī)因素引起的均方比。 (三)協(xié)方差分析的應(yīng)用舉例 為研究三種不同飼料對(duì)生豬體重增加的影響,將生豬隨機(jī)分成三組各喂養(yǎng)不同的飼料,得到體重增加的數(shù)據(jù)。由于生豬體重的增加理論上會(huì)受到豬自身身體條件的影響,于是收集生豬喂養(yǎng)前體重的數(shù)據(jù),作為自身身體條件的測(cè)量指標(biāo)。 方差分析的應(yīng)用條件為各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等,即方差齊性。 1 主要內(nèi)容分析方法根據(jù)資料設(shè)計(jì)類型的不同,有以下兩種方差分析的方法: 1、對(duì)成組設(shè)計(jì)的多個(gè)樣本均值比

20、較,應(yīng)采用完全隨機(jī)設(shè)計(jì)的方差分析,即單因素方差分析。 2、對(duì)隨機(jī)區(qū)組設(shè)計(jì)的多個(gè)樣本均值比較,應(yīng)采用配伍組設(shè)計(jì)的方差分析,即兩因素方差分析。 兩類方差分析的異同兩類方差分析的基本步驟相同,只是變異的分解方式不同,對(duì)成組設(shè)計(jì)的資料,總變異分解為組內(nèi)變異和組間變異(隨機(jī)誤差),即:SS總=SS組間+SS組內(nèi),而對(duì)配伍組設(shè)計(jì)的資料,總變異除了分解為處理組變異和隨機(jī)誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。 基本步驟整個(gè)方差分析的基本步驟如下: 1、建立檢驗(yàn)假設(shè); H0:多個(gè)樣本總體均值相等; H1:多個(gè)樣本總體均值不相等或不全等。 檢驗(yàn)水準(zhǔn)為0.05。 2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值; 3、確定P值并作出推斷結(jié)果。 參考資料 1 。薛薇的基于SPSS的數(shù)據(jù)分析擴(kuò)展閱讀: 協(xié)方差分析協(xié)方差分析(analysis of covariance)協(xié)方差是關(guān)于如何調(diào)節(jié)協(xié)變量對(duì)因變量的影響效應(yīng),從而更加有效地分析實(shí)驗(yàn)處理效應(yīng)的一種統(tǒng)計(jì)技術(shù),也是對(duì)實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì)控制的一種綜合方差分析和回歸分析的方法。 意義當(dāng)研究者知道有些協(xié)變量會(huì)影響因變量,卻不能夠控制和不感興趣時(shí)(當(dāng)研究學(xué)習(xí)時(shí)間對(duì)學(xué)習(xí)績(jī)效的影響,學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論