浙江大學(xué)《概率論與數(shù)理統(tǒng)計(jì)》第9章_第1頁
浙江大學(xué)《概率論與數(shù)理統(tǒng)計(jì)》第9章_第2頁
浙江大學(xué)《概率論與數(shù)理統(tǒng)計(jì)》第9章_第3頁
浙江大學(xué)《概率論與數(shù)理統(tǒng)計(jì)》第9章_第4頁
浙江大學(xué)《概率論與數(shù)理統(tǒng)計(jì)》第9章_第5頁
已閱讀5頁,還剩150頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第九章方差分析和回歸分析關(guān)鍵詞: 單因素試驗(yàn)一元線性回歸回歸診斷

1方差分析(Analysisofvariance,簡稱:ANOVA),是由英國統(tǒng)計(jì)學(xué)家費(fèi)歇爾(Fisher)在20世紀(jì)20年代提出的,可用于推斷兩個或兩個以上總體均值是否有差異的顯著性檢驗(yàn).2§1單因素方差分析例:為了比較三種不同類型日光燈管的壽命(小時),現(xiàn)將從每種類型日光燈管中抽取8個,總共24個日光燈管進(jìn)行老化試驗(yàn),根據(jù)下面經(jīng)老化試驗(yàn)后測算得出的各個日光燈管的壽命(小時),試判斷三種不同類型日光燈管的壽命是不是有存在差異.3日光燈管的壽命(小時)類型壽命(小時)類型I52906210574050005930612060805310類型II58405500598062506470599054705840類型.III71306660634064707580656072906730引起日光燈管壽命不同的原因有二個方面:其一,由于日光燈類型不同,而引起壽命不同.其二,同一種類型日光燈管,由于其它隨機(jī)因素的影響,也使其壽命不同.4在方差分析中,通常把研究對象的特征值,即所考察的試驗(yàn)結(jié)果(例如日光燈管的壽命)稱為

試驗(yàn)指標(biāo).對試驗(yàn)指標(biāo)產(chǎn)生影響的原因稱為因素,“日光燈管類型”

即為因素.因素中各個不同狀態(tài)稱為

水平,如日光燈管三個不同的類型,即為三個水平.5單因素方差分析

僅考慮有一個因素A對試驗(yàn)指標(biāo)的影響.假如因素A有r個水平,分別在第i水平下進(jìn)行了

多次獨(dú)立觀測,所得到的試驗(yàn)指標(biāo)的數(shù)據(jù)6每個總體相互獨(dú)立.因此,可寫成如下的

數(shù)學(xué)模型:7

方差分析的目的就是要比較因素A的r個水平下試驗(yàn)指標(biāo)理論均值的差異,問題可歸結(jié)為比較這r個總體的均值差異.8檢驗(yàn)假設(shè)9假設(shè)等價于10為給出上面的檢驗(yàn),主要采用的方法是平方和分解。即假設(shè)數(shù)據(jù)總的差異用總離差平方和分解為二個部分:一部分是由于因素A引起的差異,即效應(yīng)平方和;另一部分則由隨機(jī)誤差所引起的差異,

即誤差平方和。1112證明:

1314151617定理9.1.118方差來源平方和自由度均方F比因素Ar-1誤差n-r總和n-1單因素試驗(yàn)方差分析表1920

例1設(shè)有5種治療蕁麻疹的藥,要比較它們的療效。假設(shè)將30個病人分成5組,每組6人,令同組病人使用一種藥,并記錄病人從使用藥物開始到痊愈所需時間,得到下面的記錄:(=0.05)21藥物類型治愈所需天數(shù)x15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,622這里藥物是因子,共有5個水平,這是一個單因素方差分析問題,要檢驗(yàn)的假設(shè)是“所有藥物的效果都沒有差別”。

2324方差來源平方和自由度均方F比因素A36.46749.117

3.90誤差58.500252.334總和94.9672925未知參數(shù)的估計(jì)26272829在Excel上實(shí)現(xiàn)方差分析先加載''數(shù)據(jù)分析"這個模塊,方法如下:在excel工作表中點(diǎn)擊主菜單中“工具”

點(diǎn)擊下拉式菜單中“加載宏”

就會出現(xiàn)一個“加載宏”

的框.

在“分析工具庫”

前的框內(nèi)打勾點(diǎn)擊“確定”.這時候再點(diǎn)擊下拉式菜單會新出現(xiàn)“數(shù)據(jù)分析”.然后就可以進(jìn)行統(tǒng)計(jì)分析了.30以下面的例子來說明用Excel進(jìn)行方差分析的方法:保險公司某一險種在四個不同地區(qū)一年的索賠額情況記錄如表所示.試判斷在四個不同地區(qū)索賠額有無顯著的差異?31保險索賠記錄地區(qū)索賠額(萬元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.6032在Excel工作表中輸入上面的數(shù)據(jù)點(diǎn)擊主菜單中“工具”點(diǎn)擊下拉式菜單中“數(shù)據(jù)分析”

就會出現(xiàn)一個“數(shù)據(jù)分析”

的框.

點(diǎn)擊菜單中“方差分析:單因素方差分析”點(diǎn)擊“確定”,出現(xiàn)“方差分析:單因素方差分析”

框.33在“輸入?yún)^(qū)域”中標(biāo)定你已經(jīng)輸入的數(shù)據(jù)的位置根據(jù)你輸入數(shù)據(jù)分組情況(是按行分或按列分)確定分組.選定方差分析中F檢驗(yàn)的顯著水平選定輸出結(jié)果的位置點(diǎn)擊“確定”.

在你指定的區(qū)域中出現(xiàn)如下方差分析表:34方差來源平方和自由度均方F比P-valueFcrit組間0.049230.01642.16590.12083.0491

組內(nèi)0.1666220.0076總計(jì)0.215825方差分析表35根據(jù)Excel給出的方差分析表,假設(shè)H0的判別有二種方法:363738方差分析的前提39方差分析和其它統(tǒng)計(jì)推斷一樣,樣本的獨(dú)立性對方差分析是非常重要的,在實(shí)際應(yīng)用中會經(jīng)常遇到非隨機(jī)樣本的情況,這時使用方差分析得出的結(jié)論不可靠.因此,在安排試驗(yàn)或采集數(shù)據(jù)的過程中,一定要注意樣本的獨(dú)立性問題.40在實(shí)際中,沒有一個總體真正服從正態(tài)分布的,而方差分析卻依賴于正態(tài)性的假設(shè).不過由經(jīng)驗(yàn)可知,方差分析F檢驗(yàn)對正態(tài)性的假設(shè)并不是非常敏感,即,實(shí)際所得到的數(shù)據(jù),若沒有異常值和偏性,或者說,數(shù)據(jù)顯示的分布比較對稱的話,即使樣本容量比較小(如每個水平下的樣本容量僅為5左右),方差分析的結(jié)果仍是值得依賴的.41方差齊性對于方差分析是非常重要的,因此在方差分析之前往往要進(jìn)行方差齊性的診斷,檢驗(yàn)方差齊性假設(shè)通常采用Barlett檢驗(yàn).不過,也可采用如下的經(jīng)驗(yàn)準(zhǔn)則:當(dāng)最大樣本標(biāo)準(zhǔn)差不超過最小樣本標(biāo)準(zhǔn)差的兩倍時,方差分析F檢驗(yàn)結(jié)果近似正確.42例

檢驗(yàn)a,b兩種藥物的抗癌效果,要做動物試驗(yàn)。作法是:將患有某種癌的白鼠隨機(jī)地分成三組。第一組:注射a物質(zhì),第二組:注射b物質(zhì),第三組:不做處理。經(jīng)過一段時間觀察后,得到壽命數(shù)據(jù)。在試驗(yàn)中,考慮白鼠的性別有可能對其壽命有顯著的影響。將“性別”作為另一個因素——“雙因素試驗(yàn)”。因素A:藥物,三個水平;因素B:性別,二個水平;兩個因素共有2×3=6種組合?!?雙因素方差分析43

(一)

無交互作用的雙因素方差分析

因素B因素A4445分別檢驗(yàn)假設(shè)4647484950雙因素?zé)o重復(fù)試驗(yàn)的方差分析表方差來源平方和自由度均方F比因素A因素B誤差總和51例

假定對3個小麥品種和3塊試驗(yàn)地塊進(jìn)行區(qū)組設(shè)計(jì)試驗(yàn),得到如下的數(shù)據(jù):

小麥品種區(qū)組試驗(yàn)數(shù)據(jù)

小麥品種(A)試驗(yàn)地塊(B)總和B1B2B3A1258279242779A2302314336952A3321318327966總和881911905269752雙因素?zé)o重復(fù)試驗(yàn)的方差分析表方差來源平方和自由度均方F比F值α=0.05因素A7232.666723616.333312.506.94因素B168.0000284.00000.296.94誤差1157.33334289.3333總和8558.0000853在這個問題中我們所關(guān)心的是因素A的效應(yīng),由方差分析表知,原假設(shè)不成立,即認(rèn)為小麥品種的產(chǎn)量之間有顯著差異。在這里,品種3的單產(chǎn)最高,而品種1的產(chǎn)量最低,因此可以斷定品種3明顯地優(yōu)于品種1。

54

(二)

有交互作用的雙因素方差分析

因素B因素A555657分別檢驗(yàn)假設(shè):585960616263雙因素試驗(yàn)的方差分析表方差來源平方和自由度均方F比因素A因素B交互作用誤差總和64例

為了比較3種松樹在4個不同的地區(qū)的生長情況有無差別,在每個地區(qū)對每種松樹隨機(jī)地選取5株,測量它們的胸徑,得到的數(shù)據(jù)列表如下。

松樹數(shù)據(jù)表松樹種類地區(qū)1234123,15,26,13,2125,20,21,16,1821,17,16,24,2714,17,19,20,24228,22,25,19,2630,26,26,20,2819,24,19,25,2917,21,18,26,23318,10,12,22,1315,21,22,14,1223,25,19,13,2218,12,23,22,1965輸出各單元總和及因素水平總和:

松樹數(shù)據(jù)的總和表單元總和B1B2B3B4水平總和A19810010594397A2120130116105471A3758410294355水平總和293314323293122366方差來源平方和自由度均方F比F值α=0.05因素A344.93332172.46679.453.19因素B46.0500315.35000.842.80交互作用113.6000618.93331.042.30誤差875.60004818.2417總和1380.183359雙因素方差分析表67§3一元線性回歸分析一、確定性關(guān)系:當(dāng)自變量給定一個值時,就確定應(yīng)變量的值與之對應(yīng)。如:在自由落體中,物體下落的高度h與下落時間t之間有函數(shù)關(guān)系:

變量與變量之間的關(guān)系

68二、相關(guān)性關(guān)系:

變量之間的關(guān)系并不確定,而是表現(xiàn)為具有隨機(jī)性的一種“趨勢”。即對自變量x的同一值,在不同的觀測中,因變量Y可以取不同的值,而且取值是隨機(jī)的,但對應(yīng)x在一定范圍的不同值,對Y進(jìn)行觀測時,可以觀察到Y(jié)隨x的變化而呈現(xiàn)有一定趨勢的變化。69如:身高與體重,不存在這樣的函數(shù)可以由身高計(jì)算出體重,但從統(tǒng)計(jì)意義上來說,身高者,體也重。如:父親的身高與兒子的身高之間也有一定聯(lián)系,通常父親高,兒子也高。70我們以一個例子來建立回歸模型某戶人家打算安裝太陽能熱水器.為了了解加熱溫度與燃?xì)庀牡年P(guān)系,記錄了16個月燃?xì)獾南牧?數(shù)據(jù)見下表.71

月份平均加熱溫度燃?xì)庥昧?/p>

月份平均加熱溫度燃?xì)庥昧縉ov.246.3Jul.01.2Dec.5110.9Aug.11.2Jan.438.9Sep.62.1Feb.337.5Oct.123.1Mar.265.3Nov.306.4Apr.134Dec.327.2May.41.7Jan.5211Jun.01.2Feb.306.972在回歸分析時,我們稱“燃?xì)庀牧俊睘轫憫?yīng)變量記為Y,“加熱溫度”為解釋變量記為X,由所得數(shù)據(jù)計(jì)算相關(guān)系數(shù)得r=0.995,表明加熱溫度與燃?xì)庀闹g有非常好的線性相關(guān)性.如果以加熱溫度作為橫軸,以消耗燃?xì)饬孔鳛榭v軸,得到散點(diǎn)圖的形狀大致呈線性.73747576777879一元線性回歸要解決的問題:80參數(shù)估計(jì)81整理得正規(guī)方程系數(shù)行列式828384

在誤差為正態(tài)分布假定下,的最小二乘估計(jì)等價于極大似然估計(jì)。85采用最大似然估計(jì)給出參數(shù)的估計(jì)與最小二乘法給出的估計(jì)完全一致。采用最大似然估計(jì)給出誤差的估計(jì)如下:此估計(jì)不是的無偏估計(jì)。86例1K.Pearson收集了大量父親身高與兒子身高的資料。其中十對如下:父親身高x(吋)60626465666768707274兒子身高y(吋)63.665.26665.566.967.167.468.370.170求Y關(guān)于x的線性回歸方程。8788參數(shù)性質(zhì)89即為正態(tài)隨機(jī)變量的線性組合,所以服從正態(tài)分布。證明(1)90(2)類似可得。91回歸方程顯著性檢驗(yàn)采用最小二乘法估計(jì)參數(shù),并不需要事先知道Y與x之間一定具有相關(guān)關(guān)系。因此μ(x)是否為x的線性函數(shù):一要根據(jù)專業(yè)知識和實(shí)踐來判斷,二要根據(jù)實(shí)際觀察得到的數(shù)據(jù)用假設(shè)檢驗(yàn)方法來判斷。92(1)影響Y取值的,除了x,還有其他不可忽略的因素;(2)E(Y)與x的關(guān)系不是線性關(guān)系,而是其他關(guān)系;(3)Y與x不存在關(guān)系。若原假設(shè)被拒絕,說明回歸效果是顯著的,否則,若接受原假設(shè),說明Y與x不是線性關(guān)系,回歸方程無意義?;貧w效果不顯著的原因可能有以下幾種:93假設(shè)的檢驗(yàn)統(tǒng)計(jì)量與方差分析方法類似,仍采用平方和分解。一般地,用來描述之間的總的差異大小,稱SST為總平方和。94可以證明:95可以證明,由參數(shù)估計(jì)的性質(zhì)可知,當(dāng)時,

969798也可采用t檢驗(yàn)99例3檢驗(yàn)例1中回歸效果是否顯著,取α=0.05。100回歸系數(shù)

的置信區(qū)間由101102回歸參數(shù)估計(jì)和顯著性檢驗(yàn)的Excel實(shí)現(xiàn)

例1(續(xù))前面我們已經(jīng)分析了加熱溫度與燃?xì)庀牧恐g的關(guān)系,認(rèn)為兩者具有較好的線性關(guān)系,下面我們進(jìn)一步建立燃?xì)庀牧?響應(yīng)變量)與加熱溫度(解釋變量)之間的回歸方程.采用Excel中的“數(shù)據(jù)分析”

模塊.在Excel工作表中輸入上面的數(shù)據(jù)點(diǎn)擊主菜單中“工具”

點(diǎn)擊下拉式菜單中“數(shù)據(jù)分析”

就會出現(xiàn)一個“數(shù)據(jù)分析”

的框,點(diǎn)擊菜單中“回歸”

,點(diǎn)擊“確定”,出現(xiàn)“回歸”框.103在“Y值輸入?yún)^(qū)域”中標(biāo)定你已經(jīng)輸入的響應(yīng)變量數(shù)據(jù)的位置,在“X值輸入?yún)^(qū)域”中標(biāo)定你已經(jīng)輸入的解釋變量數(shù)據(jù)的位置(注意:數(shù)據(jù)按“列”輸入)“置信度”中輸入你已經(jīng)確定置信度的值選定輸出結(jié)果的位置點(diǎn)擊“確定”.在指定位置輸出相應(yīng)的方差分析表和回歸系數(shù)輸出結(jié)果,例1的輸出結(jié)果如下所示,104

自由度平方和均方F值P_值

回歸1168.581168.5811467.5511.415E-15誤差141.6080.115總的15170.189方差分析表105

Coef.標(biāo)準(zhǔn)誤差tStatPvalueLower95%Upper95%Intercept1.0890.1397.8411.729E-060.7911.387X0.1890.00538.3091.415E-150.1780.200方差分析中,給出了假設(shè)檢驗(yàn)

的F檢驗(yàn).方差分析表中各項(xiàng)也與前一節(jié)方差分析表中的意義類似.值得注意的是,方差分析表中“均方”列中,相應(yīng)于“誤差”行的值即為模型誤差方差的估計(jì),即

=0.115.106107108預(yù)測預(yù)測一般有兩種意義.109110因此,根據(jù)觀測結(jié)果,點(diǎn)預(yù)測為111112113114115116117例

合金鋼的強(qiáng)度y與鋼材中碳的含量x有密切關(guān)系。為了冶煉出符合要求強(qiáng)度的鋼常常通過控制鋼水中的碳含量來達(dá)到目的,為此需要了解y與x之間的關(guān)系。其中x:碳含量(%)y:鋼的強(qiáng)度(kg/mm2)數(shù)據(jù)見下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0118(1)畫出散點(diǎn)圖;(2)設(shè)μ(x)=α+βx,求α+β的估計(jì);(3)求誤差方差的估計(jì),畫出殘差圖;(4)檢驗(yàn)回歸系數(shù)β是否為零(取α=0.05);(5)求回歸系數(shù)β的95%置信區(qū)間;(6)求在x=0.06點(diǎn),回歸函數(shù)的點(diǎn)估計(jì)和95%置信區(qū)間;(7)求在x=0.06點(diǎn),Y的點(diǎn)預(yù)測和95%區(qū)間預(yù)測。

1190.030.050.070.090.110.130.150.170.1956545250484644424038(1)合金鋼的強(qiáng)度y與鋼材中碳的含量x的散點(diǎn)圖1201211221230.030.050.070.090.110.130.150.170.19x0e1240.030.050.070.090.110.130.150.170.1956545250484644424038合金鋼的強(qiáng)度y與鋼材中碳的含量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論