




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
概率與統(tǒng)計課件方差與回歸分析第一頁,共一百一十九頁,編輯于2023年,星期六§8.1
方差分析8.1.1
問題的提出
實際工作中我們經(jīng)常碰到多個正態(tài)總體均值的比較問題,處理這類問題通常采用所謂的方差分析方法。第二頁,共一百一十九頁,編輯于2023年,星期六例8.1.1
在飼料養(yǎng)雞增肥的研究中,某研究所提出三種飼料配方:A1是以魚粉為主的飼料,A2是以槐樹粉為主的飼料,A3是以苜蓿粉為主的飼料。為比較三種飼料的效果,特選24只相似的雛雞隨機(jī)均分為三組,每組各喂一種飼料,60天后觀察它們的重量。試驗結(jié)果如下表所示:第三頁,共一百一十九頁,編輯于2023年,星期六表8.1.1
雞飼料試驗數(shù)據(jù)
飼料A雞重(克)A110731009106010011002101210091028A21107109299011091090107411221001A310931029108010211022103210291048第四頁,共一百一十九頁,編輯于2023年,星期六本例中,我們要比較的是三種飼料對雞的增肥作用是否相同。為此,把飼料稱為因子,記為A,三種不同的配方稱為因子A的三個水平,記為A1,A2,A3,使用配方Ai下第j只雞60天后的重量用yij表示,i=1,2,3,j=1,2,,10。我們的目的是比較三種飼料配方下雞的平均重量是否相等,為此,需要做一些基本假定,把所研究的問題歸結(jié)為一個統(tǒng)計問題,然后用方差分析的方法進(jìn)行解決。
第五頁,共一百一十九頁,編輯于2023年,星期六8.1.2
單因子方差分析的統(tǒng)計模型
在例8.1.1中我們只考察了一個因子,稱其為單因子試驗。
通常,在單因子試驗中,記因子為A,設(shè)其有r個水平,記為A1,A2,…,Ar,在每一水平下考察的指標(biāo)可以看成一個總體,現(xiàn)有r個水平,故有r個總體,
假定:第六頁,共一百一十九頁,編輯于2023年,星期六每一總體均為正態(tài)總體,記為N(i,
i2),i=1,2,…,r;各總體的方差相同:1
2=22=…=
r2=
2
;從每一總體中抽取的樣本是相互獨立的,即所有的試驗結(jié)果yij都相互獨立。
第七頁,共一百一十九頁,編輯于2023年,星期六我們要比較各水平下的均值是否相同,
即要對如下的一個假設(shè)進(jìn)行檢驗:H0
:1
=2=…=r
(8.1.1)備擇假設(shè)為H1
:1,2,…,r
不全相等在不會引起誤解的情況下,H1通??墒÷圆粚憽H绻鸋0成立,因子A的r個水平均值相同,稱因子A的r個水平間沒有顯著差異,簡稱因子A不顯著;反之,當(dāng)H0不成立時,因子A的r個水平均值不全相同,這時稱因子A的不同水平間有顯著差異,簡稱因子A顯著。
第八頁,共一百一十九頁,編輯于2023年,星期六為對假設(shè)(8.1.1)進(jìn)行檢驗,需要從每一水平下的總體抽取樣本,設(shè)從第i個水平下的總體獲得m個試驗結(jié)果,記yij表示第i個總體的第j次重復(fù)試驗結(jié)果。共得如下n=rm個試驗結(jié)果:yij,
i=1,2,…,r,j=1,2,…,m,
其中r為水平數(shù),m為重復(fù)數(shù),i為水平編號,
j為重復(fù)編號。
第九頁,共一百一十九頁,編輯于2023年,星期六
在水平Ai下的試驗結(jié)果yij與該水平下的指標(biāo)均值i一般總是有差距的,記ij=yiji,
ij稱為隨機(jī)誤差。于是有
yij=
i+ij
(8.1.2)(8.1.2)式稱為試驗結(jié)果yij的數(shù)據(jù)結(jié)構(gòu)式。
第十頁,共一百一十九頁,編輯于2023年,星期六
單因子方差分析的統(tǒng)計模型:(8.1.3)
總均值與效應(yīng):
稱諸i的平均為總均值.
稱第i水平下的均值i與總均值
的差:
ai=i-為Ai的效應(yīng)。
第十一頁,共一百一十九頁,編輯于2023年,星期六模型(8.1.3)可以改寫為
(8.1.8)
假設(shè)(8.1.1)可改寫為
H0
:a1
=a2=…=ar=0(8.1.9)
第十二頁,共一百一十九頁,編輯于2023年,星期六8.1.3
平方和分解
一、試驗數(shù)據(jù)通常在單因子方差分析中可將試驗數(shù)據(jù)列成如下頁表格形式。表8.1.2中的最后二列的和與平均的含義如下:第十三頁,共一百一十九頁,編輯于2023年,星期六表8.1.2
單因子方差分析試驗數(shù)據(jù)
因子水平
試驗數(shù)據(jù)
和
平均
A1y11
y12
…y1mT1A2y21
y22
…y2mT2┆┆┆┆Aryr1
yr2
…yrmTrT第十四頁,共一百一十九頁,編輯于2023年,星期六數(shù)據(jù)間是有差異的。數(shù)據(jù)yij與總平均間的偏差可用yij
表示,它可分解為二個偏差之和(8.1.10)記二、組內(nèi)偏差與組間偏差第十五頁,共一百一十九頁,編輯于2023年,星期六由于(8.1.11)所以yij-僅反映組內(nèi)數(shù)據(jù)與組內(nèi)平均的隨機(jī)誤差,稱為組內(nèi)偏差;而(8.1.12)除了反映隨機(jī)誤差外,還反映了第i個水平的效應(yīng),稱為組間偏差。第十六頁,共一百一十九頁,編輯于2023年,星期六在統(tǒng)計學(xué)中,把k個數(shù)據(jù)y1,y2,…,yk分別對其均值=(y1+…+yk)/k的偏差平方和稱為k個數(shù)據(jù)的偏差平方和,它常用來度量若干個數(shù)據(jù)分散的程度。三、偏差平方和及其自由度第十七頁,共一百一十九頁,編輯于2023年,星期六在構(gòu)成偏差平方和Q的k個偏差y1
,…,yk
間有一個恒等式,這說明在Q中獨立的偏差只有k1個。在統(tǒng)計學(xué)中把平方和中獨立偏差個數(shù)稱為該平方和的自由度,常記為f,如Q的自由度為fQ=k1。自由度是偏差平方和的一個重要參數(shù)。
第十八頁,共一百一十九頁,編輯于2023年,星期六各yij間總的差異大小可用總偏差平方和
表示,其自由度為fT=n1;四、總平方和分解公式僅由隨機(jī)誤差引起的數(shù)據(jù)間的差異可以用組內(nèi)偏差平方和表示,也稱為誤差偏差平方和,其自由度為fe=nr;第十九頁,共一百一十九頁,編輯于2023年,星期六由于組間差異除了隨機(jī)誤差外,還反映了效應(yīng)間的差異,故由效應(yīng)不同引起的數(shù)據(jù)差異可用組間偏差平方和表示,也稱為因子A的偏差平方和,其自由度為fA=r1;
第二十頁,共一百一十九頁,編輯于2023年,星期六定理8.1.1
在上述符號下,總平方和ST可以分解為因子平方和SA與誤差平方和Se之和,其自由度也有相應(yīng)分解公式,具體為:
ST=SA+Se,fT=fA+fe
(8.1.16)(8.1.16)式通常稱為總平方和分解式。
第二十一頁,共一百一十九頁,編輯于2023年,星期六
偏差平方和Q的大小與自由度有關(guān),為了便于在偏差平方和間進(jìn)行比較,統(tǒng)計上引入了均方和的概念,它定義為MS=Q/fQ
,其意為平均每個自由度上有多少平方和,它比較好地度量了一組數(shù)據(jù)的離散程度。如今要對因子平方和SA與誤差平方和Se之間進(jìn)行比較,用其均方和MSA=SA
/fA
,MSe=Se
/fe進(jìn)行比較更為合理,故可用作為檢驗H0的統(tǒng)計量。8.1.4檢驗方法第二十二頁,共一百一十九頁,編輯于2023年,星期六定理8.1.2
在單因子方差分析模型(8.1.8)及前述符號下,有
(1)Se/
2~
2(nr),從而E(Se)
=(nr)
2
,進(jìn)一步,若H0成立,則有SA/
2~
2(r1)(2)SA與Se獨立。
第二十三頁,共一百一十九頁,編輯于2023年,星期六由定理8.1.2,若H0成立,則檢驗統(tǒng)計量F服從自由度為fA和fe的F分布,因此拒絕域為W={FF1(fA,fe)},通常將上述計算過程列成一張表格,稱為方差分析表。表8.1.3
單因子方差分析表來源平方和自由度均方和F比因子SAfA=r1MSA=SA/fAF=MSA/MSe誤差Sefe=nrMSe=Se/fe總和STfT=n1第二十四頁,共一百一十九頁,編輯于2023年,星期六對給定的,可作如下判斷:若F
F1(fA,fe),則說明因子A不顯著。該檢驗的p值也可利用統(tǒng)計軟件求出,若以Y記服從F(fA,fe)的隨機(jī)變量,則檢驗的
p值為p=P(YF)。如果F>F1(fA,fe),則認(rèn)為因子A顯著;第二十五頁,共一百一十九頁,編輯于2023年,星期六常用的各偏差平方和的計算公式如下:
(8.1.19)
一般可將計算過程列表進(jìn)行。
第二十六頁,共一百一十九頁,編輯于2023年,星期六例8.1.2采用例8.1.1的數(shù)據(jù),將原始數(shù)據(jù)減去1000,列表給出計算過程:表8.1.4例8.1.2的計算表水平數(shù)據(jù)(原始數(shù)據(jù)-1000)TiTi2A17396012129281943763610024A210792-101099074122158534222560355A3932980212232294835412531620984113350517791363第二十七頁,共一百一十九頁,編輯于2023年,星期六利用(8.1.19),可算得各偏差平方和為:把上述諸平方和及其自由度填入方差分析表第二十八頁,共一百一十九頁,編輯于2023年,星期六表8.1.5例8.1.2的方差分析表
來源平方和自由度均方和F比因子9660.083324830.04173.5948
誤差28215.9584211343.6171總和37876.041723若取=0.05,則F0.95
(2
,21)=3.47,由于F=3.5948>3.47,故認(rèn)為因子A(飼料)是顯著的,即三種飼料對雞的增肥作用有明顯的差別。
第二十九頁,共一百一十九頁,編輯于2023年,星期六8.1.5參數(shù)估計
在檢驗結(jié)果為顯著時,我們可進(jìn)一步求出總均值、各主效應(yīng)ai和誤差方差2的估計。
第三十頁,共一百一十九頁,編輯于2023年,星期六一、點估計由模型(8.1.8)知諸yij相互獨立,且yij~N(+ai,2),因此,可使用極大似然方法求出一般平均、各主效應(yīng)ai和誤差方差2的估計:由極大似然估計的不變性,各水平均值i的極大似然估計為,由于不是2的無偏估計,可修偏:
第三十一頁,共一百一十九頁,編輯于2023年,星期六由于,可給出Ai的水平均值i的1-的置信區(qū)間為
其中。
二、置信區(qū)間第三十二頁,共一百一十九頁,編輯于2023年,星期六例8.1.3
繼續(xù)例8.1.2,此處我們給出諸水平均值的估計。因子A的三個水平均值的估計分別為從點估計來看,水平2(以槐樹粉為主的飼料)是最優(yōu)的。
第三十三頁,共一百一十九頁,編輯于2023年,星期六誤差方差的無偏估計為利用(8.1.23)可以給出諸水平均值的置信區(qū)間。此處,,若?。?.05
,則t1-
/2(fe)=t0.95(21
)=2.0796,
,于是三個水平均值的0.95置信區(qū)間分別為第三十四頁,共一百一十九頁,編輯于2023年,星期六在單因子試驗的數(shù)據(jù)分析中可得到如下三個結(jié)果:
因子是否顯著;
試驗的誤差方差2的估計;
諸水平均值i的點估計與區(qū)間估計。
在因子A顯著時,通常只需對較優(yōu)的水平均值作參數(shù)估計,在因子A不顯著場合,參數(shù)估計無需進(jìn)行。第三十五頁,共一百一十九頁,編輯于2023年,星期六8.1.6重復(fù)數(shù)不等情形單因子方差分析并不要求每個水平下重復(fù)試驗次數(shù)全相等,在重復(fù)數(shù)不等場合的方差分析與重復(fù)數(shù)相等情況下的方差分析極為相似,只在幾處略有差別。
數(shù)據(jù):設(shè)從第i個水平下的總體獲得mi個試驗結(jié)果,記為yi1
,yi2…,yim,i=1,2,…r,統(tǒng)計模型為:
(8.1.24)
第三十六頁,共一百一十九頁,編輯于2023年,星期六總均值:諸i的加權(quán)平均(所有試驗結(jié)果的均值的平均)(8.1.25)稱為總均值或一般平均。
效應(yīng)約束條件:
各平方和的計算:SA的計算公式略有不同
第三十七頁,共一百一十九頁,編輯于2023年,星期六例8.1.4
某食品公司對一種食品設(shè)計了四種新包裝。為考察哪種包裝最受顧客歡迎,選了10個地段繁華程度相似、規(guī)模相近的商店做試驗,其中二種包裝各指定兩個商店銷售,另二個包裝各指定三個商店銷售。在試驗期內(nèi)各店貨架排放的位置、空間都相同,營業(yè)員的促銷方法也基本相同,經(jīng)過一段時間,記錄其銷售量數(shù)據(jù),列于表8.1.6左半邊,其相應(yīng)的計算結(jié)果列于右側(cè)。
第三十八頁,共一百一十九頁,編輯于2023年,星期六表8.1.6銷售量數(shù)據(jù)及計算表
包裝類型
銷售量
miTiTi2/miA11218230450468A2141213339507509A319172135710831091A4243025414581476和n=10T=180第三十九頁,共一百一十九頁,編輯于2023年,星期六由此可求得各類偏差平方和如下
方差分析表如表8.1.8所示
.若?。?.01,查表得F0.01(3,6)=9.78,由于F=11.22>9.78,故我們可認(rèn)為各水平間有顯著差異。
第四十頁,共一百一十九頁,編輯于2023年,星期六表8.1.7例8.1.4的方差分析表
來源平方和自由度均方和F比因子A25838611.22誤差e4667.67總和T3049第四十一頁,共一百一十九頁,編輯于2023年,星期六由于因子顯著,我們還可以給出諸水平均值的估計。因子A的四個水平均值的估計分別為由此可見,第四種包裝方式效果最好。誤差方差的無偏估計為第四十二頁,共一百一十九頁,編輯于2023年,星期六進(jìn)一步,利用(8.1.23)也可以給出諸水平均值的置信區(qū)間,只是在這里要用不同的mi代替那里相同的m.
,若?。?.05,則t1-/2(fe)=t0.95(6)=2.4469,,于是效果較好的第三和第四個水平均值的0.95置信區(qū)間分別為
第四十三頁,共一百一十九頁,編輯于2023年,星期六§8.2
多重比較
8.2.1效應(yīng)差的置信區(qū)間如果方差分析的結(jié)果因子A顯著,則等于說有充分理由認(rèn)為因子A各水平的效應(yīng)不全相同,但這并不是說它們中一定沒有相同的。就指定的一對水平Ai與Aj,我們可通過求i-j的區(qū)間估計來進(jìn)行比較。
第四十四頁,共一百一十九頁,編輯于2023年,星期六由于,故由此給出i-j的置信水平為1-的置信區(qū)間為
(8.2.1)其中是2的無偏估計。這里的置信區(qū)間與第六章中的兩樣本的t區(qū)間基本一致,區(qū)別在于這里2的估計使用了全部樣本而不僅僅是兩個水平Ai,Aj下的觀測值。第四十五頁,共一百一十九頁,編輯于2023年,星期六例8.2.1
繼續(xù)例8.1.2,,fe=21,?。?.05
,則t1-/2(fe)=t0.975(21)=2.0796,于是可算出各個置信區(qū)間為
可見第一個區(qū)間在0的左邊,所以我們可以概率95%斷言認(rèn)為1
小于2,其它二個區(qū)間包含0點,雖然從點估計角度看水平均值估計有差別,但這種差異在0.05水平上是不顯著的。
第四十六頁,共一百一十九頁,編輯于2023年,星期六8.2.2多重比較問題對每一組(i,j),(8.2.1)給出的區(qū)間的置信水平都是1
,但對多個這樣的區(qū)間,要求其同時成立,其聯(lián)合置信水平就不再是1了。
第四十七頁,共一百一十九頁,編輯于2023年,星期六
譬如,設(shè)E1,…,Ek是k個隨機(jī)事件,且有
P(Ei)=1,i=1,…,k
,則其同時發(fā)生的概率這說明它們同時發(fā)生的概率可能比1小很多。為了使它們同時發(fā)生的概率不低于1,一個辦法是把每個事件發(fā)生的概率提高到1/k.這將導(dǎo)致每個置信區(qū)間過長,聯(lián)合置信區(qū)間的精度很差,一般人們不采用這種方法。
第四十八頁,共一百一十九頁,編輯于2023年,星期六在方差分析中,如果經(jīng)過F檢驗拒絕原假設(shè),表明因子A是顯著的,即r個水平對應(yīng)的水平均值不全相等,此時,我們還需要進(jìn)一步確認(rèn)哪些水平均值間是確有差異的,哪些水平均值間無顯著差異。同時比較任意兩個水平均值間有無明顯差異的問題稱為多重比較,多重比較即要以顯著性水平同時檢驗如下r(r1)/2個假設(shè):(8.2.2)
第四十九頁,共一百一十九頁,編輯于2023年,星期六直觀地看,當(dāng)H0ij成立時,不應(yīng)過大,因此,關(guān)于假設(shè)(8.2.2)的拒絕域應(yīng)有如下形式諸臨界值應(yīng)在(8.2.2)成立時由P(W)=確定。下面分重復(fù)數(shù)相等和不等分別介紹臨界值的確定。
第五十頁,共一百一十九頁,編輯于2023年,星期六
8.2.3重復(fù)數(shù)相等場合的T法
在重復(fù)數(shù)相等時,由對稱性自然可以要求諸cij相等,記為c.記,則由給定條件不難有
第五十一頁,共一百一十九頁,編輯于2023年,星期六于是當(dāng)(8.2.2)成立時,1==r=,可推出其中,稱為t化極差統(tǒng)計量,其分布可由隨機(jī)模擬方法得到。于是,其中q1(r,fe)表示q(r,fe)的1分位數(shù),其值在附表8中給出。第五十二頁,共一百一十九頁,編輯于2023年,星期六
重復(fù)數(shù)相同時多重比較可總結(jié)如下:對給定的的顯著性水平,查多重比較的分位數(shù)q(r,fe)表,計算,比較諸與c的大小,若則認(rèn)為水平Ai與水平Aj間有顯著差異,反之,則認(rèn)為水平Ai與水平Aj間無明顯差別。這一方法最早由Turkey提出,因此稱為T法。
第五十三頁,共一百一十九頁,編輯于2023年,星期六
例8.2.2
繼續(xù)例8.1.2,若取
=0.05,則查表知q1-0.05(3,21)=3.57,而。所以,認(rèn)為1與2有顯著差別,認(rèn)為1與3無顯著差別,認(rèn)為2與3有顯著差別這說明:1與3之間無顯著差別,而它們與2之間都有顯著差異。第五十四頁,共一百一十九頁,編輯于2023年,星期六8.2.4重復(fù)數(shù)不等場合的S法在重復(fù)數(shù)不等時,若假設(shè)(8.2.2)成立,則或從而可以要求,在此要求下可推出第五十五頁,共一百一十九頁,編輯于2023年,星期六可以證明,從而亦即第五十六頁,共一百一十九頁,編輯于2023年,星期六
例8.2.3
在例8.1.4中,我們指出包裝方式對食品銷量有明顯的影響,此處r=4,fe=6,
,若取
=0.05,則F0.95(3,6)=4.76。注意到m1=m4=2,m2=m3=3,故第五十七頁,共一百一十九頁,編輯于2023年,星期六由于這說明A1,A2,
A3間無顯著差異,A1,A2與A4有顯著差異,但A4與A3的差異卻尚未達(dá)到顯著水平。綜合上述,包裝A4銷售量最佳。
第五十八頁,共一百一十九頁,編輯于2023年,星期六§8.3方差齊性檢驗
在進(jìn)行方差分析時要求r個方差相等,這稱為方差齊性。理論研究表明,當(dāng)正態(tài)性假定不滿足時對F檢驗影響較小,即F檢驗對正態(tài)性的偏離具有一定的穩(wěn)健性,而F檢驗對方差齊性的偏離較為敏感。所以r個方差的齊性檢驗就顯得十分必要。所謂方差齊性檢驗是對如下一對假設(shè)作出檢驗:(8.3.1)
第五十九頁,共一百一十九頁,編輯于2023年,星期六很多統(tǒng)計學(xué)家提出了一些很好的檢驗方法,這里介紹幾個最常用的檢驗,它們是:Hartley檢驗,僅適用于樣本量相等的場合;Bartlett檢驗,可用于樣本量相等或不等的場合,但是每個樣本量不得低于5;
修正的Bartlett檢驗,在樣本量較小或較大、相等或不等場合均可使用。
第六十頁,共一百一十九頁,編輯于2023年,星期六8.3.1Hartley檢驗
當(dāng)各水平下試驗重復(fù)次數(shù)相等時,即m1=m2==mr=m,Hartley提出檢驗方差相等的檢驗統(tǒng)計量:(8.3.2)
這個統(tǒng)計量的分布無明顯的表達(dá)式,但在諸方差相等條件下,可通過隨機(jī)模擬方法獲得H分布的分位數(shù),該分布依賴于水平數(shù)r
和樣本方差的自由度f=m1,因此該分布可記為H(r,f),其分位數(shù)表列于附表10上。
第六十一頁,共一百一十九頁,編輯于2023年,星期六直觀上看,當(dāng)H0成立,即諸方差相等(12=22==r2)時,H的值應(yīng)接近于1,當(dāng)H的值較大時,諸方差間的差異就大,H愈大,諸方差間的差異就愈大,這時應(yīng)拒絕(8.3.1)中的H0。由此可知,對給定的顯著性水平,檢驗H0的拒絕域為
W={H>H1(r,f)}
(8.3.3)其中H1(r,f)為H分布的1分位數(shù)。
第六十二頁,共一百一十九頁,編輯于2023年,星期六
例8.3.1
有四種不同牌號的鐵銹防護(hù)劑(簡稱防銹劑),現(xiàn)要比較其防銹能力。數(shù)據(jù)見表8.3.1。這是一個重復(fù)次數(shù)相等的單因子試驗。我們考慮用方差分析方法對之進(jìn)行比較分析,為此,首先要進(jìn)行方差齊性檢驗。第六十三頁,共一百一十九頁,編輯于2023年,星期六
本例中,四個樣本方差可由表8.3.1中諸Qi求出,即由此可得統(tǒng)計量H的值
在
=0.05時,由附表10查得H0.95(4,9)=6.31,由于H<6.31,所以應(yīng)該保留原假設(shè)H0,即認(rèn)為四個總體方差間無顯著差異。
第六十四頁,共一百一十九頁,編輯于2023年,星期六8.3.2Bartlett檢驗
在單因子方差分析中有r個樣本,設(shè)第i個樣本方差為:由于幾何平均數(shù)總不會超過算術(shù)平均數(shù),故有GMSe≤MSe
,其中
等號成立當(dāng)且僅當(dāng)諸si2彼此相等,若諸si2間的差異愈大,則此兩個平均值相差也愈大。
第六十五頁,共一百一十九頁,編輯于2023年,星期六由此可見,在比值GMSe/MSe較大時,就意味著諸樣本方差差異較大,從而檢驗(8.3.1)表示的一對假設(shè)的拒絕域應(yīng)是
W={lnGMSe/MSe>>d}(8.3.4)
Bartlett證明了,檢驗的拒絕域為
W={B>1-2(r-1)}(8.3.8)考慮到這里2分布是近似分布,在諸樣本量mi均不小于5時使用上述檢驗是適當(dāng)?shù)摹?/p>
第六十六頁,共一百一十九頁,編輯于2023年,星期六例8.3.2
為研究各產(chǎn)地的綠茶的葉酸含量是否有顯著差異,特選四個產(chǎn)地綠茶,其中A1制作了7個樣品,A2制作了5個樣品,A3與A4各制作了6個樣品,共有24個樣品,按隨機(jī)次序測試其葉酸含量,測試結(jié)果如表8.3.3所示。
第六十七頁,共一百一十九頁,編輯于2023年,星期六為能進(jìn)行方差分析,首先要進(jìn)行方差齊性檢驗,從表8.3.3中數(shù)據(jù)可求得s12=2.14,s22=2.83,s32=2.41,s42=1.12,再從表8.3.4上查得MSe=2.09,由(8.3.6),可求得
再由(8.3.7),還可求得Bartlett檢驗統(tǒng)計量的值對給定的顯著性水平
=0.05,查表知0.952(41)=7.815。由于B<7.815,故應(yīng)保留原假設(shè)H0,即可認(rèn)為諸水平下的方差間無顯著差異。
第六十八頁,共一百一十九頁,編輯于2023年,星期六8.3.3修正的Bartlett檢驗
針對樣本量低于5時不能使用Bartlett檢驗的缺點,Box提出修正的Bartlett檢驗統(tǒng)計量
(8.3.9)其中B與C如(8.3.7)與(8.3.6)所示,且第六十九頁,共一百一十九頁,編輯于2023年,星期六在原假設(shè)H0:12=22==r2成立下,Box還證明了統(tǒng)計量的近似分布是F分布F(f1,f2),對給定的顯著性水平,該檢驗的拒絕域為(8.3.10)其中f2的值可能不是整數(shù),這時可通過對F分布的分位數(shù)表施行內(nèi)插法得到分位數(shù)。
第七十頁,共一百一十九頁,編輯于2023年,星期六例8.3.3
對例8.3.2中的綠茶葉酸含量的數(shù)據(jù),我們用修正的Bartlett檢驗再一次對等方差性作出檢驗。在例8.3.2中已求得:C=1.0856,B=0.970,還可求得:
對給定的顯著性水平
=0.05,在F分布的分位數(shù)表上可查得F0.95(3,682.4)=F0.95(3,)=2.60
由于<2.60,故保留原假設(shè)H0,即認(rèn)為四個水平下的方差間無顯著差異。
第七十一頁,共一百一十九頁,編輯于2023年,星期六§8.4
一元線性回歸
8.4.1變量間的兩類關(guān)系十九世紀(jì),英國生物學(xué)家兼統(tǒng)計學(xué)家高爾頓研究發(fā)現(xiàn):其中x表示父親身高,
y
表示成年兒子的身高(單位:英寸,1英寸=2.54厘米)。這表明子代的平均高度有向中心回歸的意思,使得一段時間內(nèi)人的身高相對穩(wěn)定。之后回歸分析的思想滲透到了數(shù)理統(tǒng)計的其它分支中。
第七十二頁,共一百一十九頁,編輯于2023年,星期六回歸分析便是研究變量間相關(guān)關(guān)系的一門學(xué)科。它通過對客觀事物中變量的大量觀察或試驗獲得的數(shù)據(jù),去尋找隱藏在數(shù)據(jù)背后的相關(guān)關(guān)系,給出它們的表達(dá)形式——回歸函數(shù)的估計。變量間的相關(guān)關(guān)系不能用完全確切的函數(shù)形式表示,但在平均意義下有一定的定量關(guān)系表達(dá)式,尋找這種定量關(guān)系表達(dá)式就是回歸分析的主要任務(wù)?;貧w分析處理的是變量與變量間的關(guān)系。變量間常見的關(guān)系有兩類:確定性關(guān)系與相關(guān)關(guān)系。第七十三頁,共一百一十九頁,編輯于2023年,星期六
8.4.2一元線性回歸模型設(shè)y與x間有相關(guān)關(guān)系,稱x為自變量(預(yù)報變量),y為因變量(響應(yīng)變量),在知道x取值后,y有一個分布p(yx),我們關(guān)心的是y的均值E(Yx):
(8.4.1)
這便是y關(guān)于x的理論回歸函數(shù)——條件期望,也就是我們要尋找的相關(guān)關(guān)系的表達(dá)式。通常,相關(guān)關(guān)系可用下式表示
y=f(x)+
其中是隨機(jī)誤差,一般假設(shè)
~N(0,
2)。
第七十四頁,共一百一十九頁,編輯于2023年,星期六
例8.4.1
合金的強(qiáng)度y(×107Pa)與合金中碳的含量x(%)有關(guān)。為研究兩個變量間的關(guān)系。首先是收集數(shù)據(jù),我們把收集到的數(shù)據(jù)記為(xi,yi),i=1,2,,n。本例中,我們收集到12組數(shù)據(jù),列于表8.4.1中
進(jìn)行回歸分析首先是回歸函數(shù)形式的選擇。當(dāng)只有一個自變量時,通??刹捎卯嬌Ⅻc圖的方法進(jìn)行選擇。第七十五頁,共一百一十九頁,編輯于2023年,星期六表8.4.1合金鋼強(qiáng)度y與碳含量x的數(shù)據(jù)
序號x(%)y(×107Pa)序號x(%)y(×107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0第七十六頁,共一百一十九頁,編輯于2023年,星期六為找出兩個量間存在的回歸函數(shù)的形式,可以畫一張圖:把每一對數(shù)(xi,yi)看成直角坐標(biāo)系中的一個點,在圖上畫出n個點,稱這張圖為散點圖,見圖8.4.1
第七十七頁,共一百一十九頁,編輯于2023年,星期六從散點圖我們發(fā)現(xiàn)12個點基本在一條直線附近,這說明兩個變量之間有一個線性相關(guān)關(guān)系,這個相關(guān)關(guān)系可以表示為
y=0+1x+(8.4.2)
這便是y關(guān)于x的一元線性回歸的數(shù)據(jù)結(jié)構(gòu)式。通常假定
E()=0,Var()=
2(8.4.3)
在對未知參數(shù)作區(qū)間估計或假設(shè)檢驗時,還需要假定誤差服從正態(tài)分布,即
y~N(0+1x,
2)(8.4.4)
顯然,假定(8.4.4)比(8.4.3)要強(qiáng)。
第七十八頁,共一百一十九頁,編輯于2023年,星期六由于0,1均未知,需要我們從收集到的數(shù)據(jù)(xi,yi),i=1,2,…,n,出發(fā)進(jìn)行估計。在收集數(shù)據(jù)時,我們一般要求觀察獨立地進(jìn)行,即假定y1,y2,,yn,相互獨立。綜合上述諸項假定,我們可以給出最簡單、常用的一元線性回歸的數(shù)學(xué)模型:
(8.4.5)
第七十九頁,共一百一十九頁,編輯于2023年,星期六由數(shù)據(jù)(xi,yi),i=1,2,…,n,可以獲得0,1的估計,稱
(8.4.6)
為y關(guān)于x的經(jīng)驗回歸函數(shù),簡稱為回歸方程,其圖形稱為回歸直線。給定x=x0后,稱為回歸值(在不同場合也稱其為擬合值、預(yù)測值)。
第八十頁,共一百一十九頁,編輯于2023年,星期六8.4.3回歸系數(shù)的最小二乘估計
一般采用最小二乘方法估計模型(8.4.5)中的0,1
:令:
應(yīng)該滿足
稱這樣得到的稱為0,1的最小二乘估計,記為LSE。
第八十一頁,共一百一十九頁,編輯于2023年,星期六最小二乘估計可以通過求偏導(dǎo)數(shù)并命其為0而得到:
(8.4.7)
這組方程稱為正規(guī)方程組,經(jīng)過整理,可得
(8.4.8)
第八十二頁,共一百一十九頁,編輯于2023年,星期六解(8.4.8)可得(8.4.9)這就是參數(shù)的最小二乘估計,其中
第八十三頁,共一百一十九頁,編輯于2023年,星期六表8.4.2例8.4.2的計算表
xi=1.90n=12yi=590.5xi2=0.3194xiyi=95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此給出回歸方程為:
例8.4.2
使用例8.4.1種合金鋼強(qiáng)度和碳含量數(shù)據(jù),我們可求得回歸方程,見下表.
第八十四頁,共一百一十九頁,編輯于2023年,星期六
定理8.4.1
在模型(8.4.5)下,有(1)(2)(3)對給定的x0,關(guān)于最小二乘估計的一些性質(zhì)羅列在如下定理之中
第八十五頁,共一百一十九頁,編輯于2023年,星期六定理8.4.1說明
分別是0,1的無偏估計;
是E(y0)=0+1x0的無偏估計;
除外,與是相關(guān)的;
要提高的估計精度(即降低它們的方差)就要求n大,lxx大(即要求x1,x2,,xn較分散)。
第八十六頁,共一百一十九頁,編輯于2023年,星期六8.4.4回歸方程的顯著性檢驗
在使用回歸方程作進(jìn)一步的分析以前,首先應(yīng)對回歸方程是否有意義進(jìn)行判斷。如果1=0,那么不管x如何變化,E(y)不隨x的變化作線性變化,那么這時求得的一元線性回歸方程就沒有意義,稱回歸方程不顯著。如果10,E(y)隨x的變化作線性變化,稱回歸方程是顯著的。綜上,對回歸方程是否有意義作判斷就是要作如下的顯著性檢驗:H0:1=0vsH1:10
拒絕H0表示回歸方程是顯著的。第八十七頁,共一百一十九頁,編輯于2023年,星期六一、F檢驗采用方差分析的思想,我們從數(shù)據(jù)出發(fā)研究各yi不同的原因。數(shù)據(jù)總的波動用總偏差平方和表示。引起各yi不同的原因主要有兩個因素:其一是H0可能不真,E(y)隨x的變化而變化,從而在每一個x的觀測值處的回歸值不同,其波動用回歸平方和表示;其二是其它一切因素,包括隨機(jī)誤差、x對E(y)的非線性影響等,這可用殘差平方和表示。且有如下平方和分解式:
ST=SR+Se(8.4.13)
在一元線性回歸中有三種等價的檢驗方法,下面分別加以介紹。第八十八頁,共一百一十九頁,編輯于2023年,星期六定理8.4.2
設(shè)yi=i+1
xi
+
i,其中in相互獨立,且Ei=0,Var(yi)=
2,i=1,,n,沿用上面的記號,有
(8.4.14)(8.4.15)
這說明是
2的無偏估計。
關(guān)于SR
和
Se所含有的成分可由如下定理說明。
第八十九頁,共一百一十九頁,編輯于2023年,星期六進(jìn)一步,有關(guān)SR
和
Se的分布,有如下定理。
定理8.4.3
設(shè)y1,y2,,yn相互獨立,且
yi~N(i+1
xi
,
2),i=1,,n,則在上述記號下,有(1)Se/
2~2(n2),(2)若H0成立,則有SR/
2~2(1)
(3)SR與Se
,獨立(或與Se
,獨立)。
第九十頁,共一百一十九頁,編輯于2023年,星期六如同方差分析那樣,我們可以考慮采用F比作為檢驗統(tǒng)計量:
在1
=0時,F(xiàn)~F(1,n2),其中fR=1,fe=n2.
對于給定的顯著性水平,拒絕域為
FF1-(1,n2)
整個檢驗也可列成一張方差分析表。
第九十一頁,共一百一十九頁,編輯于2023年,星期六來源平方和自由度均方和F比回歸SR=317.2589fA=1MSA=317.2589176.55殘差Se=17.9703fe=10MSe=1.79703總和ST=335.2292fT=11例8.4.3在合金鋼強(qiáng)度的例8.4.2中,我們已求出了回歸方程,這里我們考慮關(guān)于回歸方程的顯著性檢驗。經(jīng)計算有
若取=0.01,則F0.99(1,10)=10<F,因此在顯著性水平0.01下回歸方程是顯著的。
第九十二頁,共一百一十九頁,編輯于2023年,星期六
二、t檢驗對H0
:1
=0的檢驗也可基于t分布進(jìn)行。由于,因此在H0為真時,有,其中,它可用來檢驗假設(shè)H0。對給定的顯著性水平,拒絕域為.
由于,稱為的標(biāo)準(zhǔn)誤,即的標(biāo)準(zhǔn)差的估計。
第九十三頁,共一百一十九頁,編輯于2023年,星期六注意到t2=F,因此,t檢驗與F檢驗是等同的。以例8.4.2中數(shù)據(jù)為例,可以計算得到若取
=0.01,則由于13.2872>3.1698,因此,在顯著性水平0.01下回歸方程是顯著的。
第九十四頁,共一百一十九頁,編輯于2023年,星期六三、相關(guān)系數(shù)檢驗一元線性回歸方程是反映兩個隨機(jī)變量x與y間的線性相關(guān)關(guān)系,它的顯著性檢驗還可通過對二維總體相關(guān)系數(shù)的檢驗進(jìn)行。它的一對假設(shè)是H0:=0vsH1:
0(8.4.18)
所用的檢驗統(tǒng)計量為樣本相關(guān)系數(shù)
(8.4.19)
拒絕域為W={rc},其中臨界值c應(yīng)是H0:=0成立下r的分布的1分位數(shù),故記為c=r1-(n2).
第九十五頁,共一百一十九頁,編輯于2023年,星期六由樣本相關(guān)系數(shù)的定義可以得到r與F統(tǒng)計量之間的關(guān)系這表明,r是F的嚴(yán)格單調(diào)增函數(shù),故可以從F分布的1分位數(shù)F1-(1,n2)得到r的1分位數(shù)為第九十六頁,共一百一十九頁,編輯于2023年,星期六譬如,對
=0.01,n=12,F(xiàn)0.99(1,10)=10.04,于是。為實際使用方便,人們已對r1-(n-2)編制了專門的表,見附表9。以例8.4.2中數(shù)據(jù)為例,可以計算得到若取
=0.01,查附表9知r0.99(10)=0.708,由于0.9728>0.708,因此,在顯著性水平0.01下回歸方程是顯著的。
第九十七頁,共一百一十九頁,編輯于2023年,星期六
在一元線性回歸場合,三種檢驗方法是等價的:在相同的顯著性水平下,要么都拒絕原假設(shè),要么都接受原假設(shè),不會產(chǎn)生矛盾。
F檢驗可以很容易推廣到多元回歸分析場合,而其他二個則否,所以,F(xiàn)檢驗是最常用的關(guān)于回歸方程顯著性檢驗的檢驗方法。第九十八頁,共一百一十九頁,編輯于2023年,星期六
8.4.5估計與預(yù)測當(dāng)回歸方程經(jīng)過檢驗是顯著的后,可用來做估計和預(yù)測。這是二個不同的問題:(1)當(dāng)x=x0時,尋求均值E(y0)=0+1x0的點估計與區(qū)間估計(注意這里E(y0)是常量)是估計問題;(2)當(dāng)x=x0時,y0的觀察值在什么范圍內(nèi)?由于y0是隨機(jī)變量,為此只能求一個區(qū)間,使y0落在這一區(qū)間的概率為1-
,即要求,使稱區(qū)間為y0的概率為1-的預(yù)測區(qū)間,這是預(yù)測問題。
第九十九頁,共一百一十九頁,編輯于2023年,星期六一、E(y0)的估計在x=x0時,其對應(yīng)的因變量y0是一個隨機(jī)變量,有一個分布,我們經(jīng)常需要對該分布的均值給出估計。由于E(y0)=0+1x0,一個直觀的估計應(yīng)為我們習(xí)慣上將上述估計記為(注意這里表示的是E(y0)的估計,而不表示y0的估計,因為y0是隨機(jī)變量,它是沒有估計的)。由于分別是0,1的無偏估計,因此,也是E(y0)的無偏估計。
第一百頁,共一百一十九頁,編輯于2023年,星期六為得到E(y0)的區(qū)間估計,我們需要知道的分布。由定理8.4.1,又由定理8.4.3知,Se/
2~2(n-2),且與相互獨立,故第一百零一頁,共一百一十九頁,編輯于2023年,星期六于是E(y0)的1的置信區(qū)間(CI)是(8.4.20)其中(8.4.21)第一百零二頁,共一百一十九頁,編輯于2023年,星期六二、y0的預(yù)測區(qū)間實用中往往更關(guān)心x=x0時對應(yīng)的因變量y0的取值范圍。y0的最可能取值為,于是,我們可以使用以為中心的一個區(qū)間作為y0的取值范圍。經(jīng)推導(dǎo),的表達(dá)式為
(8.4.23)上述預(yù)測區(qū)間(PI)與E(y0)的置信區(qū)間的差別就在于根號里多個1。
第一百零三頁,共一百一十九頁,編輯于2023年,星期六預(yù)測區(qū)間的長度2與樣本量n、x的偏差平方和lxx、x0到的距離有關(guān)。當(dāng)時,預(yù)測精度可能變得很差,在這種情況下的預(yù)測稱作外推,需要特別小心。另外,若x1,x2,,xn較為集中時,那么lxx就較小,也會導(dǎo)致預(yù)測精度的降低。因此,在收集數(shù)據(jù)時要使x1,x2,,xn盡量分散,這對提高精度有利。當(dāng)n較大時(如n>30),
t分布可以用正態(tài)分布近似,進(jìn)一步,若x0與相差不大時,可以近似取為。
第一百零四頁,共一百一十九頁,編輯于2023年,星期六例8.4.4
在例8.4.2中,如果x0=0.16,則得預(yù)測值為若取
=0.05,則t0.975(10)=2.2281,又,應(yīng)用(8.4.21),
故x0=0.16對應(yīng)因變量y0的均值E(y0)的0.95置信區(qū)間為(49.4328-1.0480,49.4328+1.0480)=(48.3488,50.5168)第一百零五頁,共一百一十九
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 草原草原生態(tài)補(bǔ)償金分配與使用考核試卷
- 林業(yè)防火機(jī)械裝備與應(yīng)用考核試卷
- 探秘六年級模板
- 四年級學(xué)生成長解析
- 南京中醫(yī)藥大學(xué)《JAVA面向?qū)ο缶幊獭?023-2024學(xué)年第二學(xué)期期末試卷
- 南京旅游職業(yè)學(xué)院《俄羅斯歷史》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇省泰興市濟(jì)川中學(xué)2024-2025學(xué)年初三下學(xué)期5月練習(xí)數(shù)學(xué)試題含解析
- 吉林省長春市三中2025屆4月高三學(xué)業(yè)水平考試生物試題試卷含解析
- 山東省諸城市龍源學(xué)校2024-2025學(xué)年中考化學(xué)試題沖刺試卷含解析
- 洛陽理工學(xué)院《生物材料研究的基礎(chǔ)、前沿與應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年電子信息工程師職業(yè)資格考試試卷及答案
- 2025年廣東松山職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫
- 甘肅武威事業(yè)單位招聘考試高頻題庫帶答案2025年
- 機(jī)械制造及非標(biāo)零部件加工項目突發(fā)環(huán)境事件應(yīng)急預(yù)案
- 2025年紹興市九年級中考語文一模試卷附答案解析
- 9.1科學(xué)立法 課件高中政治統(tǒng)編版必修三政治與法治
- 施工現(xiàn)場臨時用電安全
- 2025年湖北省鄂州市荊楚聯(lián)盟中考模擬生物試題(一)(含答案)
- 納稅實務(wù)電子教案
- 【互聯(lián)網(wǎng)企業(yè)并購的財務(wù)風(fēng)險分析-以阿里巴巴并購餓了么為例11000字(論文)】
- 2025年3月廣東省高三語文一模作文題目解析及范文6篇:“人們認(rèn)知世界的方式”
評論
0/150
提交評論