方差分析與回歸分析_第1頁
方差分析與回歸分析_第2頁
方差分析與回歸分析_第3頁
方差分析與回歸分析_第4頁
方差分析與回歸分析_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

方差分析與回歸分析第五節(jié)參數(shù)估計第六節(jié)假設檢驗第七節(jié)預測與控制第八節(jié)非線性回歸的線性化處理上一頁下一頁返回第2頁,共85頁,星期六,2024年,5月第一節(jié)單因素試驗的方差分析把考察事物的結果稱為試驗結果,也稱為試驗指標。影響試驗指標的條件稱為因素。因素可分為兩類:一類是人們可以控制的,稱為可控因素;另一類是人們不能控制的,稱為不可控因素。為了考慮某個因素A對所考察的隨機變量X的影響,可以在實驗時讓其他因素保持不變,而僅讓因素A改變,這樣的試驗稱為單因素試驗,因素A所處的狀態(tài)稱為水平。上一頁下一頁返回第3頁,共85頁,星期六,2024年,5月1.數(shù)學模型設在單因素試驗中,所考察的因素為A,A有s個水平,在Ai下進行nj(nj2)次獨立試驗,得到結果:水平A1A2…

As樣本觀測值樣本總和樣本均值總體均值x11x12…

x1sx21x22…

x2s

T.1T.2…

T.s

上一頁下一頁返回第4頁,共85頁,星期六,2024年,5月上一頁下一頁返回第5頁,共85頁,星期六,2024年,5月上一頁下一頁返回第6頁,共85頁,星期六,2024年,5月上一頁下一頁返回第7頁,共85頁,星期六,2024年,5月2、平方和的分解總的樣本均值全體樣本xij對總的樣本均值的偏差平方和,稱為總偏差平方和,簡稱為總平方和,記作ST,即設第i組樣本的樣本均值為,即把ST分解如下:上一頁下一頁返回第8頁,共85頁,星期六,2024年,5月其中表示各組樣本均值對總的樣本均值的偏差平方和,稱為因素A的效應平方和(或組內平方和)。上一頁下一頁返回第9頁,共85頁,星期六,2024年,5月效應平方和SA反映由于因素A的不同水平所引起的系統(tǒng)誤差,即各組樣本之間的差異程度;誤差平方和SE則反映了試驗過程中各種隨機因素所引起的隨機誤差。表示各個樣本xij對本組樣本均值的偏差平方和的總和,稱為誤差平方和(或組內平方和)(residualsumofsquares)上一頁下一頁返回第10頁,共85頁,星期六,2024年,5月于是上一頁下一頁返回第11頁,共85頁,星期六,2024年,5月若原假設H0正確,則所有樣本xij均可看作來自同一正態(tài)總體且相互獨立。于是有3、假設檢驗問題的拒絕域上一頁下一頁返回第12頁,共85頁,星期六,2024年,5月若由樣本觀測值計算得到統(tǒng)計量F的值大于F

,則在顯著性水平

下拒絕原假設H0,即認為因素A的不同水平對總體有顯著影響;若F的值不大于F

,則接受H0,即認為因素A的不同水平對總體無顯著影響。上一頁下一頁返回第13頁,共85頁,星期六,2024年,5月實際中,ST,SA及SE可按以下公式計算:上一頁下一頁返回第14頁,共85頁,星期六,2024年,5月例9.2某消防隊要檢驗4種不同型號冒煙報警器的反應時間,今將每種型號報警器各取5個安裝在同一條煙道里,當煙量均時觀測報警器的反應時間,其數(shù)據(jù)如下表所示:問各種型號冒煙報警器的反應時間有無顯著性差異(顯著性水平α=0.05)?解:假設H0:μ1=μ3=μ3=μ4,報警器型號反應時間A15.26.34.93.26.8A27.48.15.96.54.9A33.96.47.99.24.1A412.39.47.810.88.5第15頁,共85頁,星期六,2024年,5月方差來源平方和自由度F值臨界值顯著性Ae56.2948.773166.15F0.05(3,16)=3,16F0.01(3,16)=5.29**總和105.0619F=6.15>5.29=F0.01(3,16),所以拒絕假設H0,即認為各種型號冒煙報警器的反應時間有顯著性差異。第16頁,共85頁,星期六,2024年,5月參考題1為了考察溫度對某種化工產(chǎn)品的得率的影響,選了五種溫度:A1=60℃,A2=65℃,A3=70℃,A4=75℃,A5=80℃在每種溫度下各做三次試驗,測得其得率(%)如下:溫度A1A2A3A4A5得率868683868887908892848388848682檢驗溫度對該化工產(chǎn)品的得率是否有顯著影響。解:計算各個水平下的樣本均值,得上一頁下一頁返回第17頁,共85頁,星期六,2024年,5月計算ST=106.4,SA=68.4,SE=38.0單因素試驗的方差分析表:方差來源平方和自由度F值臨界值顯著性因素A誤差68.438.04104.54.5F0.05(4,10)=3.48F0.01(4,10)=5.99※

總計106.414由表可知,溫度對化工產(chǎn)品的得率有顯著影響,因為70℃時產(chǎn)品得率均值的估計值最高,所以應選用70℃。上一頁下一頁返回第18頁,共85頁,星期六,2024年,5月第二節(jié)雙因素試驗的方差分析1、雙因素等重復試驗的方差分析在多因素方差分析中,通常把因素A與因素B的交互作用設想為影響試驗結果的另一因素,記作A×B,或簡記作I。由于要考慮交互作用的影響,因此對于因素A與因素B的各個水平的每一種配合(Ai,Bj)(i=1,2,…,r;j=1,2,…,s)就需要進行不止一次重復試驗。對上述各種水平組合分別進行t≥2次重復試驗,即共進行n=rst次試驗,這種試驗稱為雙因素等重復試驗,假定所有的實驗是相互獨立的。上一頁下一頁返回第19頁,共85頁,星期六,2024年,5月設得到樣本觀測值xijk(k=1,2,…,t)如下表:因素因素AB1B2BsA1A2Ar上一頁下一頁返回第20頁,共85頁,星期六,2024年,5月因為在水平(Ai,Bj)下的樣本與總體Xij服從相同的分布,所以有上一頁下一頁返回第21頁,共85頁,星期六,2024年,5月上一頁下一頁返回第22頁,共85頁,星期六,2024年,5月上一頁下一頁返回第23頁,共85頁,星期六,2024年,5月上一頁下一頁返回第24頁,共85頁,星期六,2024年,5月上一頁下一頁返回第25頁,共85頁,星期六,2024年,5月因素A的效應平方和因素B的效應平方和誤差平方和因素A與因素B的交互效應平方和上一頁下一頁返回第26頁,共85頁,星期六,2024年,5月上一頁下一頁返回第27頁,共85頁,星期六,2024年,5月實際可用下列簡便公式計算ST,SA,SB,SA×B及SE上一頁下一頁返回第28頁,共85頁,星期六,2024年,5月例9.3某化工企業(yè)為了提高產(chǎn)量,選了三種不同濃度、四種不同溫度做試驗。在同一濃度與溫度組合下各做兩次試驗,其數(shù)據(jù)如下表所示,在顯著性水平α=0.05下不同濃度和不同溫度以及它們間的交叉作用對產(chǎn)量有無顯著性影響?BAB1B2B3B4A114,1011,1113,910,12A29,710,87,116,10A35,1113,1412,1314,10第29頁,共85頁,星期六,2024年,5月解r=3,s=4,t=2,而F0.05(2,12)=3.89,因此只有因素A的F比4.09>3.89,即只有因素A是顯著的,即濃度不同對產(chǎn)量有顯著性影響,而溫度以及濃度和溫度的交互作用對產(chǎn)量無顯著性影響,也就是說為了提高產(chǎn)量必須控制好濃度。方差來源平方和自由度F值臨界值顯著性ABA×Be44.3311.5037.0065.00236124.090.780.63F0.05(2,12)=3.89顯著T147.8323第30頁,共85頁,星期六,2024年,5月2、雙因素無重復試驗的方差分析在雙因素試驗中,對每一對水平組合只做一次試驗,即不重復實驗,得到上一頁下一頁返回第31頁,共85頁,星期六,2024年,5月上一頁下一頁返回第32頁,共85頁,星期六,2024年,5月因素A的效應平方和因素B的效應平方和誤差平方和總平方和上一頁下一頁返回第33頁,共85頁,星期六,2024年,5月上一頁下一頁返回第34頁,共85頁,星期六,2024年,5月1.正交試驗設計的基本方法:正交試驗設計是研究和處理多因素試驗的一種方法,利用正交表來安排實驗,通過少量試驗,獲得滿意的試驗結果.

正交試驗設計包含兩個內容:第三節(jié)正交試驗設計及其方差分析上一頁下一頁返回第35頁,共85頁,星期六,2024年,5月正交表是預先編制好的一種表格列號試驗號1231234111122212221行數(shù)列數(shù)水平數(shù)上一頁下一頁返回第36頁,共85頁,星期六,2024年,5月試驗數(shù)因素數(shù)水平數(shù)實際試驗數(shù)理論上的試驗數(shù)上一頁下一頁返回第37頁,共85頁,星期六,2024年,5月正交表的特點:上一頁下一頁返回第38頁,共85頁,星期六,2024年,5月2、試驗結果的直觀分析正交試驗設計的直觀分析就是要通過計算,將各因素、水平對試驗結果指標的影響大小,通過極差分析,綜合比較,以確定最優(yōu)化試驗方案的方法.有時也稱為極差分析法.(1)極差計算(2)極差分析上一頁下一頁返回第39頁,共85頁,星期六,2024年,5月3、方差分析上一頁下一頁返回第40頁,共85頁,星期六,2024年,5月上一頁下一頁返回第41頁,共85頁,星期六,2024年,5月第四節(jié)回歸分析的概述一個過程中多個變量之間的關系分為兩類:確定性關系,也就是通常所說的函數(shù)關系;非確定性關系,即所謂的相關關系。確定性關系是指當一些變量的值確定以后另一些變量的值也隨之完全確定的關系。相關關系是指變量之間有一定的依賴關系,但當一些變量的值確定以后,另一些變量的值雖隨之變化卻并不能完全確定,這時變量間的關系不能精確地用函數(shù)來表示。上一頁下一頁返回第42頁,共85頁,星期六,2024年,5月(1)給出建立具有相關關系的變量之間的數(shù)學關系式(通常稱為經(jīng)驗公式)的一般方法;(2)判別所建立的經(jīng)驗公式是否有效;判別哪些預報變量對響應變量的影響是顯著的,哪些是不顯著的;(3)利用所得到的經(jīng)驗公式進行預測和控制。回歸分析(regressionanalysis)是數(shù)理統(tǒng)計中研究一個響應變量與若干個預報變量之間相關關系的一種有效方法;其中只有一個預報變量的回歸分析稱為一元回歸分析,多于一個預報變量的回歸分析稱為多元回歸分析。回歸分析的任務主要有三個:上一頁下一頁返回第43頁,共85頁,星期六,2024年,5月一元回歸分析與最小二乘法取定x時隨機變量y的數(shù)學期望E(y|x)作為x時隨機變量y的估計值,即顯然,當x變化時E(Y|X=x)是x的函數(shù),記作可以用一個確定的函數(shù)關系式大致地描述y與x之間的相關關系。函數(shù)稱為y關于x的回歸函數(shù),簡稱回歸;稱為y關于x的回歸方程。上一頁下一頁返回第44頁,共85頁,星期六,2024年,5月回歸方程反映了y的數(shù)學期望E(y)隨x的變化而變化的規(guī)律性。y與x的相關關系表示為是隨機誤差,它是均值為零的隨機變量,通常假定是不依賴于X的未知參數(shù)。的大小在一定程度上反映了在x處隨機變量y的觀測值的大小,如能找到,就能在一定條件下解決如下兩個問題:1.在給定的置信度下,估計當x取某一定值時y的取值情況,這就是所謂的預測問題;2.在給定的置信度下,控制X的取值范圍以使y在給定的范圍內取值,這就是所謂的控制問題。上一頁下一頁返回第45頁,共85頁,星期六,2024年,5月通常先限制為某一類型的函數(shù)。函數(shù)的類型可以由與被研究問題的本質有關的物理假設來確定;若沒有任何理由可以確定函數(shù)的類型,則只能根據(jù)在試驗結果中得到的散點圖來確定。在確定了函數(shù)的類型后,就可以設其中a1,a2……ak為未知參數(shù)。尋找合適的回歸函數(shù)的問題就歸結為:如何根據(jù)試驗數(shù)據(jù)合理地選擇參數(shù)a1,a2……ak的估計值上一頁下一頁返回第46頁,共85頁,星期六,2024年,5月這些估計值使得方程在一定的意義下“最佳地”表現(xiàn)變量Y與X之間的相關關系。選取中參數(shù),使得觀測值yi與相應的函數(shù)值(i=1,2……n)的偏差平方和為最小,這就是所謂的最小二乘法。最小二乘法的概率意義:設當可控變量X取任意實數(shù)x時,隨機變量Y服從正態(tài)分布,即Y的概率密度為其中,而是不依賴于x的常數(shù)。上一頁下一頁返回第47頁,共85頁,星期六,2024年,5月在n次獨立試驗中得到觀測值(x1,y1),(x2,y2),…(xn,yn),利用極大似然估計法估計未知參數(shù)a1,a2,…ak,時,有似然函數(shù)似然函數(shù)L取得極大值,上式指數(shù)中的平方和取最小值。即為了使觀測值(xi,yi)(i=1,2,…,n)出現(xiàn)的可能性最大,應當選擇參數(shù)a1,a2,…,ak,使得觀測值yi與相應的函數(shù)值的偏差平方和最小。這就是最小二乘法的概率意義。上一頁下一頁返回第48頁,共85頁,星期六,2024年,5月解方程組求出參數(shù)a1,a2,……ak的估計值(這樣求出的參數(shù)a1,a2,……ak的估計,稱為最小二乘估計(leastsquaresestimation,簡稱LSE)),再求回歸方程的估計式(稱為經(jīng)驗回歸方程)。分別求S對a1,a2,……ak的偏導數(shù),并令它們等于零,就得到上一頁下一頁返回第49頁,共85頁,星期六,2024年,5月1、一元線性回歸回歸方程為方程的圖形稱為回歸直線。x,y的相關關系可表示為其中a,b,

2為不依賴于x的未知參數(shù),上式稱為一元線性回歸模型,簡稱一元線性模型。當y與x間滿足這種關系時,y與x間有線性相關關系??紤]回歸函數(shù)是線性函數(shù),即,這就是所謂的一元線性回歸分析?;貧w方程為第五節(jié)參數(shù)估計上一頁下一頁返回第50頁,共85頁,星期六,2024年,5月用最小二乘法確定未知參數(shù)a及b??紤]試驗點關于回歸直線的偏差平方和分別求Q對a及b的偏導數(shù),令它們等于零,得方程組上一頁下一頁返回第51頁,共85頁,星期六,2024年,5月線性回歸方程為稱為經(jīng)驗回歸系數(shù)(也稱回歸系數(shù)),對應的直線稱為經(jīng)驗回歸直線(簡稱回歸直線)。亦可表示為上一頁下一頁返回第52頁,共85頁,星期六,2024年,5月上一頁下一頁返回第53頁,共85頁,星期六,2024年,5月參考題2Pearson測量了10對父子的身高,所得數(shù)據(jù)如下(單位:英寸)父親身高606264666768707274兒子身高63.665.26666.967.167.468.370.170求兒子身高y關于父親身高x的回歸方程。上一頁下一頁返回第54頁,共85頁,星期六,2024年,5月可知,當父親身高高于或低于父代身高的平均值時,兒子的身高有向子代的平均身高靠近的趨勢,這就是“回歸”。上一頁下一頁返回第55頁,共85頁,星期六,2024年,5月2、多元線性回歸上一頁下一頁返回第56頁,共85頁,星期六,2024年,5月正規(guī)方程上一頁下一頁返回第57頁,共85頁,星期六,2024年,5月上一頁下一頁返回第58頁,共85頁,星期六,2024年,5月例9.5在快遞公司中,雇員工作時間與雇員的投遞行程距離以及雇員承擔的業(yè)務次數(shù)有關。在多次的觀察中,我們采集了下列數(shù)據(jù):雇員編號工作時間Y行程距離x1業(yè)務次數(shù)x219.3100424.850338.9100446.5100254.250266.280277.475386.065497.6903106.1902第59頁,共85頁,星期六,2024年,5月①求Y對x1和x2的二元線性回歸方程;②作回歸方程顯著性分析(α=0.05)。解:①令,將數(shù)據(jù)代入正規(guī)方程組得解得故二元線性回歸方程為第60頁,共85頁,星期六,2024年,5月②假設H0:b1=b2=0,在前面求正規(guī)方程組時,我們得到故,第61頁,共85頁,星期六,2024年,5月因此拒絕H0,即認為此二元線性回歸方程有效。第62頁,共85頁,星期六,2024年,5月當且僅當b≠0時,變量Y與X之間存在線性相關關系,為了檢驗Y與X之間的線性相關的顯著性,應當檢驗原假設H0:b=0是否成立。若拒絕H0,則認為Y與X之間存在線性關系,所求得得線性回歸方程有意義;若接受H0,則認為Y與X得關系不能用一元線性回歸模型來表示,所求得的線性回歸方程無意義。第六節(jié)假設檢驗上一頁下一頁返回第63頁,共85頁,星期六,2024年,5月1、方差分析法(F檢驗法)考察樣本y1,y2,……yn的偏差平方和,或稱總平方和剩余平方和,反映了觀測值偏離回歸直線的程度,這種偏離是由于觀測誤差等隨機因素引起的。上一頁下一頁返回第64頁,共85頁,星期六,2024年,5月回歸平方和它反映回歸值的分散度,這種分散是由于Y與X之間得線性相關關系引起的;統(tǒng)計量上一頁下一頁返回第65頁,共85頁,星期六,2024年,5月參考題3在上例中,利用方差分析檢驗兒子的身高Y與父親身高X之間的線性相關關系是否顯著。上一頁下一頁返回第66頁,共85頁,星期六,2024年,5月方差來源平方和自由度F值臨界值顯著性回歸剩余37.0351.49418198.313F0.01(1,8)=11.26**總計38.5299因為F>F0.01(1,8),所以兒子的身高Y與父親的身高X之間的線性相關關系特別顯著。上一頁下一頁返回第67頁,共85頁,星期六,2024年,5月2.

相關系數(shù)檢驗法(r檢驗法)考察相關系數(shù)r的大小:若相關系數(shù)r的絕對值很小,則表明y與x之間的線性相關關系不顯著,或者根據(jù)不存在線性相關關系若相關系數(shù)r的絕對值較大(接近于1)時,才表明y與x之間的線性相關關系顯著上一頁下一頁返回第68頁,共85頁,星期六,2024年,5月上一頁下一頁返回第69頁,共85頁,星期六,2024年,5月r檢驗法的步驟和法則為:由試驗數(shù)據(jù)計算出相關系數(shù)r的值并與臨界值比較.上一頁下一頁返回第70頁,共85頁,星期六,2024年,5月3、

t檢驗法上一頁下一頁返回第71頁,共85頁,星期六,2024年,5月1、預測第七節(jié)預測與控制x與y之間的關系不是確定的,所以對于任意給定x0,不可能精確地知道相應值y0。將x=x0代入線性回歸方程只能得到y(tǒng)0的估計值(回歸值)對y0進行區(qū)間估計,即給定的置信度1-

,求出y0的置信區(qū)間(稱為預測區(qū)間),這就是所謂的預測問題。上一頁下一頁返回第72頁,共85頁,星期六,2024年,5月y0的置信水平為1-

的預測區(qū)間為上一頁下一頁返回第73頁,共85頁,星期六,2024年,5月y0的置信水平為1-

的預測區(qū)間近似為上一頁下一頁返回第74頁,共85頁,星期六,2024年,5月例如,置信度為95%預測區(qū)間是置信度為99%預測區(qū)間是若在回歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論