新編-概率論與數理統(tǒng)計第九章方差分析與回歸分析課件_第1頁
新編-概率論與數理統(tǒng)計第九章方差分析與回歸分析課件_第2頁
新編-概率論與數理統(tǒng)計第九章方差分析與回歸分析課件_第3頁
新編-概率論與數理統(tǒng)計第九章方差分析與回歸分析課件_第4頁
新編-概率論與數理統(tǒng)計第九章方差分析與回歸分析課件_第5頁
已閱讀5頁,還剩147頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2022/12/19版權所有BY張學毅1第九章第一節(jié)單因素試驗的方差分析2022/12/17版權所有BY張學毅1第九章第12022/12/19版權所有BY張學毅2一、方差分析的有關概念1.方差分析(AnalysisofVariance,ANOVA)是一種檢驗多

個正態(tài)總體均值是否相等的統(tǒng)計方法。

2.因素的水平:指試驗因素的某種特定狀態(tài)或數量等級,簡

稱水平。3.試驗指標:衡量實驗結果好壞程度的試驗數據。在單因素方差分析中,將因素的任何一個水平看作是一個總體,該水平下試驗得到的數據可看成是從總體中抽出的一個樣本。若方差分析中考察的因素只有一個時,稱為單因素方差分析;若同時研究兩個因素對試驗指標的影響時,則稱為兩因素試驗。同時針對兩個因素進行,則稱為雙因素方差分析。

2022/12/17版權所有BY張學毅2一、方差分析的有22022/12/19版權所有BY統(tǒng)計學課程組3二、單因素方差分析的數據結構

2022/12/17版權所有BY統(tǒng)計學課程組3二、單因素32022/12/19版權所有BY張學毅4因素A水平A1水平A2…水平As12:2022/12/17版權所有BY張學毅4因素A水平A142022/12/19版權所有BY張學毅5表中:為第i個水平的第j個觀測值。記第j個水平觀測值的均值為,則有記所有觀測值的均值為,則有2022/12/17版權所有BY張學毅552022/12/19版權所有BY張學毅6三、方差分析中的三個基本假設(1)各個總體都服從正態(tài)分布;(2)各個總體的方差都相等;(3)各個觀測值之間是相互獨立的。2022/12/17版權所有BY張學毅6三、方差分析中的62022/12/19版權所有BY張學毅7四、單因素方差分析的數學模型由于則有單因素方差分析的數學模型1:2022/12/17版權所有BY張學毅7四、單因素方差分72022/12/19版權所有BY張學毅8四、單因素方差分析的數學模型記,為Aj的效應。

則有單因素方差分析的數學模型2:2022/12/17版權所有BY張學毅8四、單因素方差分82022/12/19版權所有BY張學毅9從散點圖上可以看出:不同的水平的數據是有明顯差異的;同一個水平的數據也明顯不同;不同水平的觀察值與試驗指標值之間可能有一定的關系。3.僅從散點圖上觀察還不能提供充分的證據證明不同水平與試驗指標值之間有顯著差異。這種差異可能是由于抽樣的隨機性所造成的,也有可能是系統(tǒng)性影響因素造成的。五、方差分析的基本思想2022/12/17版權所有BY張學毅9從散點圖上可以看92022/12/19版權所有BY張學毅104.需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析。5.隨機誤差

因素的同一水平(總體)下,樣本各觀察值之間的差異,可以看成是隨機因素的影響,稱為隨機誤差;6.系統(tǒng)誤差

因素的不同水平(不同總體)下,各觀察值之間的差異可能是由于抽樣的隨機性所造成的,也可能是由于水平本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差。2022/12/17版權所有BY張學毅104.需要有更準102022/12/19版權所有BY張學毅11方差分析的基本思想7.若不同水平對試驗指標值沒有影響,則組間誤差中只包含隨機誤差,沒有系統(tǒng)誤差。這時,組間誤差與組內誤差經過平均后的數值就應該很接近,它們的比值就會接近1;8.若不同水平對試驗指標值有影響,則在組間誤差中除了包含隨機誤差外,還會包含有系統(tǒng)誤差,這時組間誤差平均后的數值就會大于組內誤差平均后的數值,它們之間的比值就會大于1;9.當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響。

2022/12/17版權所有BY張學毅11方差分析的基本11總離差平方和(

sumofsquaresfortotal)1)全部觀察值與總均值的離差平方和;2)反映全部觀察值的離散狀況。其計算公式為:六、離差平方和與自由度的分解總離差平方和1)全部觀察值與總均值12效應平方和(組間平方和):SumofsquaresforfactorA1)各組平均值與總平均值的離差平方和;2)反映各總體的樣本均值之間的差異程度,又稱組間平方和;3)該平方和既包括隨機誤差,也包括系統(tǒng)誤差。計算公式為:

效應平方和(組間平方和)1)各組平均值13誤差平方和(組內平方和):Sumofsquaresforerror1)每個水平或組的各樣本數據與其組平均值的離差平方和;2)反映每個樣本各觀察值的離散狀況,又稱組內離差平方和;3)該平方和反映的是隨機誤差的大小。計算公式為:誤差平方和(組內平方和)1)每個水平或組的各樣本數據與其組14三個離差平方和的關系總離差平方和=組間平方和+組內平方和

三個離差平方和的關系總離差平方和=組間平方和+組內平方和15三個離差平方和的自由度之間的關系:均方三個離差平方和的自由度之間的關系:162022/12/19版權所有BY張學毅17七、的統(tǒng)計特征P228根據概率論與數理統(tǒng)計學知識:1)是總體方差的無偏估計量,且與原假設成立與否無關。即2)是否是總體方差的無偏估計量,與原假設成立與否有關。當且僅當原假設成立時,才是總體方差的無偏估計量。2022/12/17版權所有BY張學毅17七、17八、方差分析表通常將上述計算過程列成一張表格,稱為方差分析表。變差源平方和自由度均方F比因素A(組間)s-1誤差(組內)n-s-總和n-1-

-

八、方差分析表通常將上述計算過程列成一張表格,稱為方差分析表182022/12/19版權所有BY張學毅19例9.1熱帶雨林一份研究伐木業(yè)對熱帶雨林影響的統(tǒng)計研究報告指出,“環(huán)保主義者對于林木采伐、開墾和焚燒導致的熱帶雨林的破壞幾近絕望”。這項研究比較了類似地塊上樹木的數量,這些地塊有的從未采伐過,有的1年前采伐過,有的8年前采伐過。根據數據,采伐對樹木數量有顯著影響嗎?顯著性水平α=0.05。

2022/12/17版權所有BY張學毅19例9.1熱192022/12/19202、提出零假設和備擇假設H0:u1=u2=u3H1:u1,u2,u3不全相等。從未采伐過1年前采伐過8年前采伐過2712182212429152221915192018331819161722201412241412272281719192022/12/17202、提出零假設和備擇假設從未采伐過1202022/12/19版權所有BY張學毅21方差分析表結論:F值=11.43>3.32,p-值=0.0002<0.05,因此檢驗的結論是采伐對林木數量有顯著影響。變差源SSdfMSFP-valueFcrit組間625.162312.5811.430.00023.32組內820.723027.36總計1445.8832

2022/12/17版權所有BY張學毅21方差分析表變差212022/12/19版權所有BY張學毅22【例9.2】某市消費者協會為了評價該地旅游業(yè)、居民服務業(yè)、公路客運業(yè)和保險業(yè)的服務質量,從這4個行業(yè)中分別抽取了不同數量的企業(yè)。經統(tǒng)計,最近一年消費者對這23家企業(yè)投訴的次數資料如下表所示。這4個行業(yè)之間服務質量是否有顯著差異?如果有,究竟是在哪些行業(yè)之間?2022/12/17版權所有BY張學毅22【例9.2】22解(1)建立假設

(2)列方差分析表(3)統(tǒng)計決策因為,所以拒絕。即有99%的把握認為不同行業(yè)之間的服務質量有高度顯著的差異。解(1)建立假設232022/12/19版權所有BY張學毅24第二節(jié)兩因素試驗數據的方差分析一、無交互作用的雙因素方差分析

若記一因素為因素A,另一因素為因素B,對A與B同時進行分析,就屬于雙因素方差分,即判斷是否有某一個或兩個因素對試驗指標有顯著影響,兩個因素結合后是否有新效應。在統(tǒng)計學中將各個因素的不同水平的搭配所產生的新的影響稱為交互作用。我們先討論無交互作用的雙因素方差分析問題,對于有交互作用的雙因素方差分析問題稍后再討論。2022/12/17版權所有BY張學毅24第二節(jié)兩因242022/12/19版權所有BY張學毅25無交互作用的雙因素方差分析數據結構2022/12/17版權所有BY張學毅25無交互作用的雙252022/12/19版權所有BY張學毅26雙因素無交互作用的方差分析,又稱為雙因素無重復試驗的方差分析;雙因素有交互作用的方差分析,又稱為雙因素等重復試驗的方差分析;判斷因素A的影響是否顯著等價于檢驗假設:判斷因素B的影響是否顯著等價于檢驗假設:其中,表示A的第i個水平所構成的總體均值,表示的B第j個水平所構成的總體均值。2022/12/17版權所有BY張學毅26雙因素無交互作26

對離差總平方和進行分解。與單因素情況類似,能夠證明下列公式成立:總離差平方和的自由度分解為:F統(tǒng)計量:

對離差總平方和進行分解。與單因素情況類似,能夠272022/12/19版權所有BY張學毅282022/12/17版權所有BY張學毅2828

例9.3為提高某種產品的合格率,考察原料來源地和用量對其是否有影響。原料來源地有三個:甲、乙、丙;原料用量有三種:現有量、增加5%、增加8%。每個水平組合各作一次試驗,得到的數據如下表所示。試分析原料來源地和用量對產品合格率的影響是否顯著?例9.3為提高某種產品的合格率,考察原料來292022/12/19版權所有BY張學毅30【例題】解:(1)建立假設(2)列方差分析表2022/12/17版權所有BY張學毅30【例題】解:(302022/12/19版權所有BY張學毅31(3)統(tǒng)計決策對于顯著性水平0.05,查表得臨界值因為,,故不拒絕,拒絕。即根據現有數據,有95%的把握可以推斷原料來源地對產品合格率的影響不大,而原料用量對合格率有顯著影響。由于為最優(yōu)水平。既然原料來源地對產品合格率的影響不顯著,在保證質量的前提下,可以選擇運費最省的地方作為原料來源地選擇時的首選。如果丙地的運費最省,則最優(yōu)方案為。

2022/12/17版權所有BY張學毅31312022/12/19版權所有BY張學毅32【例9.4】某種火箭使用了四種燃料,三種推進器做試驗。每種燃料和每種推進器的組合各做一次試驗,得火箭射程數據如下表所示。試問不同的燃料、不同的推進器分別對火箭射程有無顯著影響?2022/12/17版權所有BY張學毅32【例9.4】322022/12/19版權所有BY張學毅33列方差分析表:2022/12/17版權所有BY張學毅33332022/12/19版權所有BY張學毅342022/12/17版權所有BY張學毅34342022/12/19版權所有BY張學毅352022/12/17版權所有BY張學毅35352022/12/19版權所有BY張學毅36二、有交互作用的雙因素方差分析

所謂交互作用,簡單來說就是不同因素對試驗指標的復合作用,因素A和B的綜合效應不是二因素效應的簡單相加。為了能分辨出兩個因素的交互作用,一般每組試驗至少作兩次。2022/12/17版權所有BY張學毅36二、有交互作用362022/12/19版權所有BY張學毅37

有交互作用的雙因素方差分析數據結構2022/12/17版權所有BY張學毅37有交互372022/12/19版權所有BY張學毅382.建立假設2022/12/17版權所有BY張學毅382.建立假設382022/12/19版權所有BY張學毅39這就是有交互作用的雙因素方差分析的數學模型。2022/12/17版權所有BY張學毅39392022/12/19版權所有BY張學毅40對這一模型可設如下三個假設:2022/12/17版權所有BY張學毅40對這一模型可設402022/12/19版權所有BY張學毅413.方差分析與單因素方差分析的平方和分解類似,有2022/12/17版權所有BY張學毅413.方差分析與412022/12/19版權所有BY張學毅422022/12/17版權所有BY張學毅42422022/12/19版權所有BY張學毅43雙因素(有交互作用)方差分析表2022/12/17版權所有BY張學毅43雙因素(有交互432022/12/19版權所有BY張學毅44

例9.5某公司想將橡膠、塑料和軟木的板材沖壓成密封墊片出售。市場上有兩種不同型號的沖壓機可供選擇。為了能對沖壓機每小時所生產的墊片數進行比較,并確定哪種機器使用何種材料生產墊片的能力更強,該公司使用每臺機器對每一種材料分別運行三段時間,得到的試驗數據(每小時生產的墊片數)如下表所示,試運用方差分析確定最優(yōu)方案。2022/12/17版權所有BY張學毅44442022/12/19版權所有BY張學毅452022/12/17版權所有BY張學毅45452022/12/19版權所有BY張學毅46解(1)建立假設:(2)計算相應的均值和平方和:2022/12/17版權所有BY張學毅46解462022/12/19版權所有BY張學毅472022/12/17版權所有BY張學毅47472022/12/19版權所有BY張學毅48(3)列方差分析表2022/12/17版權所有BY張學毅48(3)列方差482022/12/19版權所有BY張學毅49(4)統(tǒng)計決策由于

,說明不僅沖壓機的型號和墊片材料對墊片數量有顯著影響,而且其交互作用也是顯著的。由結構均值表可知,在沖壓機中,第一種的均值較大;墊片材料中,軟木的均值較大,故最優(yōu)方案是。2022/12/17版權所有BY張學毅49(4)統(tǒng)計決492022/12/1950第三節(jié)一元線性回歸一、一元線性回歸二、a,b的估計三、總體方差的估計四、線性假設的顯著性檢驗五、系數b的置信區(qū)間六、回歸預測七、可化為一元線性回歸的例子(自學)2022/12/1750第三節(jié)一元線性回歸一、一元線性回50回歸模型的類型回歸模型的類型51一、一元線性回歸只涉及一個自變量的回歸;因變量y與自變量x之間為線性關系。被預測或被解釋的變量稱為因變量(dependentvariable),用y表示;用來預測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示。因變量與自變量之間的關系用一個線性方程來表示。一、一元線性回歸只涉及一個自變量的回歸;52一元線性回歸模型的基本形式①描述因變量y如何依賴于自變量x和誤差項

的方程稱為理論回歸模型②一元線性回歸模型可表示為y是x的線性函數(部分)加上隨機誤差項線性部分反映了由于x的變化而引起的y的變化;誤差項

是隨機變量(未納入模型但對y有影響的諸多因素的綜合影響),反映了除x和y之間的線性關系之外的隨機因素對y的影響,是不能由x和y之間的線性關系所解釋的變異性。a和b稱為模型的參數理論回歸模型一元線性回歸模型的基本形式①描述因變量y如何依賴于自變53●在抽樣中,自變量x的取值是固定的,即x是非隨機的;因變量y是隨機的。

即當解釋變量X取某固定值時,Y的值不確定,Y的不同取值形成一定的分布,這是Y的條件分布?;貧w線,描述的是Y的條件期望E(Y/xi)與之對應xi,代表這些Y的條件期望的點的軌跡所形成的直線或曲線。如注意:

由于單個數據點是從y的分布中抽出來的,可能不在這條回歸線上,因此必須包含隨機誤差項e來描述模型數據點.

xy回歸線●在抽樣中,自變量x的取值是固定的,即x是非隨機的;因變量y54回歸模型的基本假設假設1:誤差項的期望值為0,即對所有的i有假設2:誤差項的方差為常數,即對所有的i有假設3:誤差項之間不存在自相關關系,其協方差為0,即當時,有;假設4:自變量是給定的變量,與隨機誤差項線性無關;假設5:隨機誤差項服從正態(tài)分布。即ε~N(0,σ2)以上這些基本假設是德國數學家高斯最早提出的,故也稱為高斯假定或標準假定?;貧w模型的基本假設假設1:誤差項的期望值為0,即對所有的i有55回歸方程(regressionequation)

描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下:方程的圖示是一條直線,也稱為直線回歸方程。a是回歸直線在y軸上的截距,是當x=0時y的期望值;b是直線的斜率,稱為回歸系數,表示當x每變動一個單位時,y的平均變動值?;貧w方程(regressionequation)描56.估計的回歸方程(estimatedregressionequation)一元線性回歸中估計的回歸方程為用樣本統(tǒng)計量,代替回歸方程中的未知參數和,就得到了估計的回歸方程.總體回歸參數和

是未知的,必須利用樣本數據去估計;其中:是估計的回歸直線在y

軸上的截距,是直線的斜率,它表示對于一個給定的x

的值,是y

的估計值,也表示x

每變動一個單位時,y的平均變動值。.估計的回歸方程(estimatedregression57.二、a,b的估計(

普通最小二乘估計法)

(ordinaryleastsquaresestimators)使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小平方法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線的誤差都小。.二、a,b的估計(普通最小二乘估計法)

(ordinar582022/12/1959參數的最小二乘估計P246-2472022/12/1759參數的最小二乘估計P246-247592022/12/1960例9.6【例10.7】一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增長,這給銀行業(yè)務的發(fā)展帶來較大壓力。為弄清不良貸款形成的原因,管理者希望利用銀行業(yè)務的有關數據進行定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2019年的有關業(yè)務數據2022/12/1760例9.6【例10.7】一家大型商業(yè)銀602022/12/19612022/12/1761612022/12/1962不良貸款對其他變量的散點圖2022/12/1762不良貸款對其他變量的散點圖622022/12/1963用Excel計算相關系數2022/12/1763用Excel計算相關系數63SUMMARYOUTPUT回歸統(tǒng)計MultipleR0.849736RSquare0.722051AdjustedRSquare0.709966標準誤差4.45116觀測值25方差分析

dfSSMSFSignificanceF回歸分析11183.7951183.79559.748967.69E-08殘差23455.694919.81282總計241639.49

Coefficients標準誤差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept-1.384731.625488-0.851890.40306-4.747311.977845-4.747311.977845XVariable10.0874110.0113087.7297457.69E-080.0640180.1108040.0640180.1108042022/12/1964SUMMARYOUTPUT回歸統(tǒng)計MultipleR0.642022/12/1965經驗回歸方程的求法回歸方程為:y=-1.38473

+0.087411

x回歸系數=0.087411表示,貸款余額每增加1億元,不良貸款平均增加0.087411億元

^2022/12/1765經驗回歸方程的求法回歸方程為:^652022/12/1966估計回歸方程的求法不良貸款對貸款余額回歸方程的圖示2022/12/1766估計回歸方程的求法不良貸款對貸款余額662022/12/1967用Excel進行回歸分析第1步:選擇“工具”下拉菜單第2步:選擇“數據分析”選項第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當對話框出現時

在“Y值輸入區(qū)域”設置框內鍵入Y的數據區(qū)域在“X值輸入區(qū)域”設置框內鍵入X的數據區(qū)域在“置信度”選項中給出所需的數值在“輸出選項”中選擇輸出區(qū)域在“殘差”分析選項中選擇所需的選項2022/12/1767用Excel進行回歸分析第1步:選擇672022/12/1968三、

的估計P249-250

稱為殘差平方和,則2022/12/1768三、的估計682022/12/1969

四、線性假設的顯著性檢驗P2512022/12/1769四、線性假設的顯著性檢驗P25692022/12/1970

五、系數b的置信區(qū)間P2522022/12/1770五、系數b的置信區(qū)間P252702022/12/1971六、回歸函數函數值的點估計和置信區(qū)間回歸函數的點估計值為

的置信水平為的置信區(qū)間為2022/12/1771六、回歸函數712022/12/1972七、Y的觀測值的點預測和預測區(qū)間2022/12/1772七、Y的觀測值的點預測和預測區(qū)間722022/12/1973八、可化為一元線性回歸的例子P255自學。2022/12/1773八、可化為一元線性回歸的例子P255732022/12/1974第四節(jié)多元線性回歸P257因為客觀現象非常復雜,現象之間的聯系方式和性質各不相同,影響因變量變化的自變量往往是多個而不只是一個,其中既有主要因素也有次要因素。如果僅僅進行一元回歸分析,不一定能得到滿意的結果。因此,有必要將一個因變量與多個自變量聯系起來進行分析。2022/12/1774第四節(jié)多元線性回歸P742022/12/1975多元線性回歸在線性相關條件下,研究兩個和兩個以上自變量對一個因變量的數量變化關系,稱為多元線性回歸分析,表現這一數量關系的數學表達式則稱為多元線性回歸方程或多元線性回歸模型。2022/12/1775多元線性回歸在線性相關條件下752022/12/1976多元線性回歸2022/12/1776多元線性回歸762022/12/19版權所有BY張學毅77第九章第一節(jié)單因素試驗的方差分析2022/12/17版權所有BY張學毅1第九章第772022/12/19版權所有BY張學毅78一、方差分析的有關概念1.方差分析(AnalysisofVariance,ANOVA)是一種檢驗多

個正態(tài)總體均值是否相等的統(tǒng)計方法。

2.因素的水平:指試驗因素的某種特定狀態(tài)或數量等級,簡

稱水平。3.試驗指標:衡量實驗結果好壞程度的試驗數據。在單因素方差分析中,將因素的任何一個水平看作是一個總體,該水平下試驗得到的數據可看成是從總體中抽出的一個樣本。若方差分析中考察的因素只有一個時,稱為單因素方差分析;若同時研究兩個因素對試驗指標的影響時,則稱為兩因素試驗。同時針對兩個因素進行,則稱為雙因素方差分析。

2022/12/17版權所有BY張學毅2一、方差分析的有782022/12/19版權所有BY統(tǒng)計學課程組79二、單因素方差分析的數據結構

2022/12/17版權所有BY統(tǒng)計學課程組3二、單因素792022/12/19版權所有BY張學毅80因素A水平A1水平A2…水平As12:2022/12/17版權所有BY張學毅4因素A水平A1802022/12/19版權所有BY張學毅81表中:為第i個水平的第j個觀測值。記第j個水平觀測值的均值為,則有記所有觀測值的均值為,則有2022/12/17版權所有BY張學毅5812022/12/19版權所有BY張學毅82三、方差分析中的三個基本假設(1)各個總體都服從正態(tài)分布;(2)各個總體的方差都相等;(3)各個觀測值之間是相互獨立的。2022/12/17版權所有BY張學毅6三、方差分析中的822022/12/19版權所有BY張學毅83四、單因素方差分析的數學模型由于則有單因素方差分析的數學模型1:2022/12/17版權所有BY張學毅7四、單因素方差分832022/12/19版權所有BY張學毅84四、單因素方差分析的數學模型記,為Aj的效應。

則有單因素方差分析的數學模型2:2022/12/17版權所有BY張學毅8四、單因素方差分842022/12/19版權所有BY張學毅85從散點圖上可以看出:不同的水平的數據是有明顯差異的;同一個水平的數據也明顯不同;不同水平的觀察值與試驗指標值之間可能有一定的關系。3.僅從散點圖上觀察還不能提供充分的證據證明不同水平與試驗指標值之間有顯著差異。這種差異可能是由于抽樣的隨機性所造成的,也有可能是系統(tǒng)性影響因素造成的。五、方差分析的基本思想2022/12/17版權所有BY張學毅9從散點圖上可以看852022/12/19版權所有BY張學毅864.需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析。5.隨機誤差

因素的同一水平(總體)下,樣本各觀察值之間的差異,可以看成是隨機因素的影響,稱為隨機誤差;6.系統(tǒng)誤差

因素的不同水平(不同總體)下,各觀察值之間的差異可能是由于抽樣的隨機性所造成的,也可能是由于水平本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差。2022/12/17版權所有BY張學毅104.需要有更準862022/12/19版權所有BY張學毅87方差分析的基本思想7.若不同水平對試驗指標值沒有影響,則組間誤差中只包含隨機誤差,沒有系統(tǒng)誤差。這時,組間誤差與組內誤差經過平均后的數值就應該很接近,它們的比值就會接近1;8.若不同水平對試驗指標值有影響,則在組間誤差中除了包含隨機誤差外,還會包含有系統(tǒng)誤差,這時組間誤差平均后的數值就會大于組內誤差平均后的數值,它們之間的比值就會大于1;9.當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響。

2022/12/17版權所有BY張學毅11方差分析的基本87總離差平方和(

sumofsquaresfortotal)1)全部觀察值與總均值的離差平方和;2)反映全部觀察值的離散狀況。其計算公式為:六、離差平方和與自由度的分解總離差平方和1)全部觀察值與總均值88效應平方和(組間平方和):SumofsquaresforfactorA1)各組平均值與總平均值的離差平方和;2)反映各總體的樣本均值之間的差異程度,又稱組間平方和;3)該平方和既包括隨機誤差,也包括系統(tǒng)誤差。計算公式為:

效應平方和(組間平方和)1)各組平均值89誤差平方和(組內平方和):Sumofsquaresforerror1)每個水平或組的各樣本數據與其組平均值的離差平方和;2)反映每個樣本各觀察值的離散狀況,又稱組內離差平方和;3)該平方和反映的是隨機誤差的大小。計算公式為:誤差平方和(組內平方和)1)每個水平或組的各樣本數據與其組90三個離差平方和的關系總離差平方和=組間平方和+組內平方和

三個離差平方和的關系總離差平方和=組間平方和+組內平方和91三個離差平方和的自由度之間的關系:均方三個離差平方和的自由度之間的關系:922022/12/19版權所有BY張學毅93七、的統(tǒng)計特征P228根據概率論與數理統(tǒng)計學知識:1)是總體方差的無偏估計量,且與原假設成立與否無關。即2)是否是總體方差的無偏估計量,與原假設成立與否有關。當且僅當原假設成立時,才是總體方差的無偏估計量。2022/12/17版權所有BY張學毅17七、93八、方差分析表通常將上述計算過程列成一張表格,稱為方差分析表。變差源平方和自由度均方F比因素A(組間)s-1誤差(組內)n-s-總和n-1-

-

八、方差分析表通常將上述計算過程列成一張表格,稱為方差分析表942022/12/19版權所有BY張學毅95例9.1熱帶雨林一份研究伐木業(yè)對熱帶雨林影響的統(tǒng)計研究報告指出,“環(huán)保主義者對于林木采伐、開墾和焚燒導致的熱帶雨林的破壞幾近絕望”。這項研究比較了類似地塊上樹木的數量,這些地塊有的從未采伐過,有的1年前采伐過,有的8年前采伐過。根據數據,采伐對樹木數量有顯著影響嗎?顯著性水平α=0.05。

2022/12/17版權所有BY張學毅19例9.1熱952022/12/19962、提出零假設和備擇假設H0:u1=u2=u3H1:u1,u2,u3不全相等。從未采伐過1年前采伐過8年前采伐過2712182212429152221915192018331819161722201412241412272281719192022/12/17202、提出零假設和備擇假設從未采伐過1962022/12/19版權所有BY張學毅97方差分析表結論:F值=11.43>3.32,p-值=0.0002<0.05,因此檢驗的結論是采伐對林木數量有顯著影響。變差源SSdfMSFP-valueFcrit組間625.162312.5811.430.00023.32組內820.723027.36總計1445.8832

2022/12/17版權所有BY張學毅21方差分析表變差972022/12/19版權所有BY張學毅98【例9.2】某市消費者協會為了評價該地旅游業(yè)、居民服務業(yè)、公路客運業(yè)和保險業(yè)的服務質量,從這4個行業(yè)中分別抽取了不同數量的企業(yè)。經統(tǒng)計,最近一年消費者對這23家企業(yè)投訴的次數資料如下表所示。這4個行業(yè)之間服務質量是否有顯著差異?如果有,究竟是在哪些行業(yè)之間?2022/12/17版權所有BY張學毅22【例9.2】98解(1)建立假設

(2)列方差分析表(3)統(tǒng)計決策因為,所以拒絕。即有99%的把握認為不同行業(yè)之間的服務質量有高度顯著的差異。解(1)建立假設992022/12/19版權所有BY張學毅100第二節(jié)兩因素試驗數據的方差分析一、無交互作用的雙因素方差分析

若記一因素為因素A,另一因素為因素B,對A與B同時進行分析,就屬于雙因素方差分,即判斷是否有某一個或兩個因素對試驗指標有顯著影響,兩個因素結合后是否有新效應。在統(tǒng)計學中將各個因素的不同水平的搭配所產生的新的影響稱為交互作用。我們先討論無交互作用的雙因素方差分析問題,對于有交互作用的雙因素方差分析問題稍后再討論。2022/12/17版權所有BY張學毅24第二節(jié)兩因1002022/12/19版權所有BY張學毅101無交互作用的雙因素方差分析數據結構2022/12/17版權所有BY張學毅25無交互作用的雙1012022/12/19版權所有BY張學毅102雙因素無交互作用的方差分析,又稱為雙因素無重復試驗的方差分析;雙因素有交互作用的方差分析,又稱為雙因素等重復試驗的方差分析;判斷因素A的影響是否顯著等價于檢驗假設:判斷因素B的影響是否顯著等價于檢驗假設:其中,表示A的第i個水平所構成的總體均值,表示的B第j個水平所構成的總體均值。2022/12/17版權所有BY張學毅26雙因素無交互作102

對離差總平方和進行分解。與單因素情況類似,能夠證明下列公式成立:總離差平方和的自由度分解為:F統(tǒng)計量:

對離差總平方和進行分解。與單因素情況類似,能夠1032022/12/19版權所有BY張學毅1042022/12/17版權所有BY張學毅28104

例9.3為提高某種產品的合格率,考察原料來源地和用量對其是否有影響。原料來源地有三個:甲、乙、丙;原料用量有三種:現有量、增加5%、增加8%。每個水平組合各作一次試驗,得到的數據如下表所示。試分析原料來源地和用量對產品合格率的影響是否顯著?例9.3為提高某種產品的合格率,考察原料來1052022/12/19版權所有BY張學毅106【例題】解:(1)建立假設(2)列方差分析表2022/12/17版權所有BY張學毅30【例題】解:(1062022/12/19版權所有BY張學毅107(3)統(tǒng)計決策對于顯著性水平0.05,查表得臨界值因為,,故不拒絕,拒絕。即根據現有數據,有95%的把握可以推斷原料來源地對產品合格率的影響不大,而原料用量對合格率有顯著影響。由于為最優(yōu)水平。既然原料來源地對產品合格率的影響不顯著,在保證質量的前提下,可以選擇運費最省的地方作為原料來源地選擇時的首選。如果丙地的運費最省,則最優(yōu)方案為。

2022/12/17版權所有BY張學毅311072022/12/19版權所有BY張學毅108【例9.4】某種火箭使用了四種燃料,三種推進器做試驗。每種燃料和每種推進器的組合各做一次試驗,得火箭射程數據如下表所示。試問不同的燃料、不同的推進器分別對火箭射程有無顯著影響?2022/12/17版權所有BY張學毅32【例9.4】1082022/12/19版權所有BY張學毅109列方差分析表:2022/12/17版權所有BY張學毅331092022/12/19版權所有BY張學毅1102022/12/17版權所有BY張學毅341102022/12/19版權所有BY張學毅1112022/12/17版權所有BY張學毅351112022/12/19版權所有BY張學毅112二、有交互作用的雙因素方差分析

所謂交互作用,簡單來說就是不同因素對試驗指標的復合作用,因素A和B的綜合效應不是二因素效應的簡單相加。為了能分辨出兩個因素的交互作用,一般每組試驗至少作兩次。2022/12/17版權所有BY張學毅36二、有交互作用1122022/12/19版權所有BY張學毅113

有交互作用的雙因素方差分析數據結構2022/12/17版權所有BY張學毅37有交互1132022/12/19版權所有BY張學毅1142.建立假設2022/12/17版權所有BY張學毅382.建立假設1142022/12/19版權所有BY張學毅115這就是有交互作用的雙因素方差分析的數學模型。2022/12/17版權所有BY張學毅391152022/12/19版權所有BY張學毅116對這一模型可設如下三個假設:2022/12/17版權所有BY張學毅40對這一模型可設1162022/12/19版權所有BY張學毅1173.方差分析與單因素方差分析的平方和分解類似,有2022/12/17版權所有BY張學毅413.方差分析與1172022/12/19版權所有BY張學毅1182022/12/17版權所有BY張學毅421182022/12/19版權所有BY張學毅119雙因素(有交互作用)方差分析表2022/12/17版權所有BY張學毅43雙因素(有交互1192022/12/19版權所有BY張學毅120

例9.5某公司想將橡膠、塑料和軟木的板材沖壓成密封墊片出售。市場上有兩種不同型號的沖壓機可供選擇。為了能對沖壓機每小時所生產的墊片數進行比較,并確定哪種機器使用何種材料生產墊片的能力更強,該公司使用每臺機器對每一種材料分別運行三段時間,得到的試驗數據(每小時生產的墊片數)如下表所示,試運用方差分析確定最優(yōu)方案。2022/12/17版權所有BY張學毅441202022/12/19版權所有BY張學毅1212022/12/17版權所有BY張學毅451212022/12/19版權所有BY張學毅122解(1)建立假設:(2)計算相應的均值和平方和:2022/12/17版權所有BY張學毅46解1222022/12/19版權所有BY張學毅1232022/12/17版權所有BY張學毅471232022/12/19版權所有BY張學毅124(3)列方差分析表2022/12/17版權所有BY張學毅48(3)列方差1242022/12/19版權所有BY張學毅125(4)統(tǒng)計決策由于

,說明不僅沖壓機的型號和墊片材料對墊片數量有顯著影響,而且其交互作用也是顯著的。由結構均值表可知,在沖壓機中,第一種的均值較大;墊片材料中,軟木的均值較大,故最優(yōu)方案是。2022/12/17版權所有BY張學毅49(4)統(tǒng)計決1252022/12/19126第三節(jié)一元線性回歸一、一元線性回歸二、a,b的估計三、總體方差的估計四、線性假設的顯著性檢驗五、系數b的置信區(qū)間六、回歸預測七、可化為一元線性回歸的例子(自學)2022/12/1750第三節(jié)一元線性回歸一、一元線性回126回歸模型的類型回歸模型的類型127一、一元線性回歸只涉及一個自變量的回歸;因變量y與自變量x之間為線性關系。被預測或被解釋的變量稱為因變量(dependentvariable),用y表示;用來預測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示。因變量與自變量之間的關系用一個線性方程來表示。一、一元線性回歸只涉及一個自變量的回歸;128一元線性回歸模型的基本形式①描述因變量y如何依賴于自變量x和誤差項

的方程稱為理論回歸模型②一元線性回歸模型可表示為y是x的線性函數(部分)加上隨機誤差項線性部分反映了由于x的變化而引起的y的變化;誤差項

是隨機變量(未納入模型但對y有影響的諸多因素的綜合影響),反映了除x和y之間的線性關系之外的隨機因素對y的影響,是不能由x和y之間的線性關系所解釋的變異性。a和b稱為模型的參數理論回歸模型一元線性回歸模型的基本形式①描述因變量y如何依賴于自變129●在抽樣中,自變量x的取值是固定的,即x是非隨機的;因變量y是隨機的。

即當解釋變量X取某固定值時,Y的值不確定,Y的不同取值形成一定的分布,這是Y的條件分布?;貧w線,描述的是Y的條件期望E(Y/xi)與之對應xi,代表這些Y的條件期望的點的軌跡所形成的直線或曲線。如注意:

由于單個數據點是從y的分布中抽出來的,可能不在這條回歸線上,因此必須包含隨機誤差項e來描述模型數據點.

xy回歸線●在抽樣中,自變量x的取值是固定的,即x是非隨機的;因變量y130回歸模型的基本假設假設1:誤差項的期望值為0,即對所有的i有假設2:誤差項的方差為常數,即對所有的i有假設3:誤差項之間不存在自相關關系,其協方差為0,即當時,有;假設4:自變量是給定的變量,與隨機誤差項線性無關;假設5:隨機誤差項服從正態(tài)分布。即ε~N(0,σ2)以上這些基本假設是德國數學家高斯最早提出的,故也稱為高斯假定或標準假定?;貧w模型的基本假設假設1:誤差項的期望值為0,即對所有的i有131回歸方程(regressionequation)

描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下:方程的圖示是一條直線,也稱為直線回歸方程。a是回歸直線在y軸上的截距,是當x=0時y的期望值;b是直線的斜率,稱為回歸系數,表示當x每變動一個單位時,y的平均變動值。回歸方程(regressionequation)描132.估計的回歸方程(estimatedregressionequation)一元線性回歸中估計的回歸方程為用樣本統(tǒng)計量,代替回歸方程中的未知參數和,就得到了估計的回歸方程.總體回歸參數和

是未知的,必須利用樣本數據去估計;其中:是估計的回歸直線在y

軸上的截距,是直線的斜率,它表示對于一個給定的x

的值,是y

的估計值,也表示x

每變動一個單位時,y的平均變動值。.估計的回歸方程(estimatedregression133.二、a,b的估計(

普通最小二乘估計法)

(ordinaryleastsquaresestimators)使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小平方法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線的誤差都小。.二、a,b的估計(普通最小二乘估計法)

(ordinar1342022/12/19135參數的最小二乘估計P246-2472022/12/1759參數的最小二乘估計P246-2471352022/12/19136例9.6【例10.7】一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產投資等項目的貸款。近年來,該

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論