第四講多項式回歸與正交多項式_第1頁
第四講多項式回歸與正交多項式_第2頁
第四講多項式回歸與正交多項式_第3頁
第四講多項式回歸與正交多項式_第4頁
第四講多項式回歸與正交多項式_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第四講多項式回歸與正交多項式

POLYNOMIALREGRESSIONANDORTHOGONALPOLYNOMIAL

變量間的關(guān)系并不都是如前三講所設(shè)定的線性關(guān)系,而有時是非線性的關(guān)系。對于非線性變量間的回歸分析,人們通常經(jīng)過某種線性處理,將非線性性回歸轉(zhuǎn)化為線性回歸,即在選用適當(dāng)函數(shù)類型進行擬合時,進行適當(dāng)?shù)淖兞孔儞Q,把曲線方程轉(zhuǎn)化為直線方程。但是也不是所有的曲線都能找到適當(dāng)?shù)暮瘮?shù)類型進行擬合。這時可采用多項式逼近。所以,在許多比較復(fù)雜的實際問題中,可以不問自變量和依變量的關(guān)系如何,采用多項式回歸進行分析。然而,多項式回歸分析也存在不足之處。首先是,當(dāng)自變量的個數(shù)較多時計算將十分繁雜;其次,如同多元線性回歸一樣,偏回歸系數(shù)之間存在相關(guān)性,當(dāng)剔除一個自變量后,必須重新計算偏回歸系數(shù)。為此,人們研究了各種簡化計算和消去偏回歸系數(shù)間相關(guān)性的辦法。而最為常用的是正交多項式的分析方法。在介紹該方法之前先要了解多項式回歸的分析方法。第一節(jié)多項式回歸

一、多項式回歸的基本方法設(shè)有一組觀察值(xt,yt)t=1,2,…,n,存在非線性關(guān)系,則多項式回歸方程為:

(4—1)

為使離回歸平方和SSQ=∑(y-)2最小,即根據(jù)最小二乘法原理可得出下列正規(guī)方程組:

(4—2)

解上述方程組可得:b0,b1,b2…bp。若令x1=x,x2=x2,…xp=xp,或φ1(x)=x,φ2(x)=x2,…φp(x)=xp,則(4—1)可改寫成:

(4—3)

或(4—4)

這樣就把xi或Φi(x)看成是新的變量,(4—3)或(4—4)式便是一個p元的線性回歸方程,各偏回歸系數(shù)di仍可按下列正規(guī)方程組求得。

(4—5)其中(i,j=1,2,…,p)

同樣,對于多元多項式回歸,也可以化為多元線性回歸來分析,例如,對于多變量的任意多項式回歸方程:

只要令x1=z1,x2=z2,x3=,x4=z1z2,x5=…可化為多元線性回歸方程:

其偏回歸系數(shù)的計算,回歸方程的顯著性檢驗,各偏回歸平方和的計算及顯著性檢驗,都與多元線性回歸分析相似。二、實例分析例1有一組資料如表4—1,試配置一個回歸方程。表4—1x與y的資料

x012476810y12467653

先將x與y數(shù)值在坐標(biāo)系上作圖。

圖4.1x與y點式圖及回歸曲線圖

由圖所示,x與y的點式圖呈拋物線形狀,故可配合一個二次拋物線方程。為了配合更為適當(dāng),可先配合成三次項后再作檢驗。其方程為:

令x1=x,x2=x2,x3=x3,則上述方程可轉(zhuǎn)化為三元線性方程

其中

1、計算必要數(shù)據(jù),列出正規(guī)方程組一級數(shù)據(jù):∑x1=38,∑x2=∑x2=270,∑x3=∑x3=2144,∑y=34,∑=∑x4=18066,∑y2=176,∑=∑x6=1430610,∑x1x2=∑x3=2144,∑x1x2=∑x4=18066,∑x2x3∑x5=158408,∑x1y=189,∑x2y=∑x2y=1293,∑x3y=∑x3y=9675二級數(shù)據(jù):

=270-382/8=89.5=1430610-21442/8=856018=2144-38×270/8=861.5=18066-38×2144/8=7882=18066-2702/8=8953.5=158408-270×2144/8=86048=189-38×34/8=27.5=1293-270×34/8=145.5=9675-2144×34/8=563=176-342/8=31.5

于是正規(guī)方程組為:

2、計算偏回歸系數(shù),列出回歸方程,仍可用(1—16)式對下列增廣矩陣作消元變換,求得系數(shù)矩陣的逆及各偏回歸系數(shù)。

d1=1.7721,d2=-0.1109,d3=-0.0045d0=4.25-1.7721×4.75+0.1109×33.75+0.0045×256=0.7814因此,三次方曲線方程為:

3、顯著性檢驗及準(zhǔn)確性測定:

回歸平方和離回歸平方和

表4—2回歸系數(shù)的方差分析

變異來源dfSSMSFF0.05(3,4)回歸離回歸總的34730.06331.436731.510.02110.3592

10.218*

6.59

R0.01(4)=0.962,R>R0.01,差異極顯著,可見多元回歸極為顯著,且準(zhǔn)確度也較高。4、偏回歸系數(shù)的顯著性檢驗

Cii為A(3)主對角線上的元素,即高斯乘數(shù)。

MSQ為離回歸的均方。

F0.05(1,4)=7.71,F(xiàn)d1>F0.05,由于僅有d1檢驗達到5%顯著水準(zhǔn),故需對F值最小的x3進行剔除,把三次方曲線方程變?yōu)槎螔佄锞€方程,可由A(2)中求得逆和解,即:

d1=2.0433,d2=-0.1804d0=4.25-2.0433×4.75+0.1804×33.75=0.6328二次拋物線方程為

SSU=2.043327.5-0.1804×145.5=29.9426SSQ=31.5-29.9426=1.5574

F0.01(2,5)=13.27,F(xiàn)>F0.01;R0.01(5)=0.917,R>R0.01。

檢驗結(jié)果表明,該資料所配的二次拋物線方程,其顯著水準(zhǔn)達到1%,且準(zhǔn)確度較高。

兩偏回歸系數(shù)皆極顯著,表明,所配合的二次拋物線適合于該資料。因此,可依據(jù)該回歸方程描繪出回歸曲線圖(見圖4.1)。倘若需要求出該拋物線最高點的x值時,可對=0.6328+2.0433x-0.1804x2求一階導(dǎo)數(shù),并令其為零,即:

所以,當(dāng)x=5.66時,取最大值,亦即曲線最高點。

第二節(jié)正交多項式

上述分析可見,要配合一個適當(dāng)?shù)亩囗検交貧w方程,其計算工作量是十分繁瑣的。但,如果自變量取等間隔數(shù)值時,可通過恰當(dāng)?shù)淖兞孔儞Q,如采用正交多項式來配合其回歸方程,將使得分析變的十分簡便和實用。為引出正交多項式的分析方法,可先看下例:設(shè)有一組x與y的觀察值:x12345y24367

試建立一個二次拋物線回歸方程,即:

若令:φ1(x)=x-3,φ2(x)=(x-3)2-2,則方程可化為二元線性回歸方程:

一、正交多項式回歸方程的建立x12345-2-10122-1-2-12243674101441414-410-14-4-406144-4-6-61441693649∑001210140122114

表4—3n=5時二元φi(x)值計算表φ1(x)φ2(x)y

依(4—5)式,正規(guī)方程組為:解得:d1=12/10=1.2,d2=2/14=0.143

以上計算結(jié)果可看出,通過恰當(dāng)?shù)淖兞孔儞Q可使得

這種變換具有正交性,若推廣至一般:設(shè)x1=1,x2=2,…,xn=n。如果x1=a+h,x2=a+2h,…,xn=a+nh可變換x’=(x-a)/h。于是,,記對應(yīng)于xt的實驗結(jié)果yt(t=1,2,…,n)。該組觀察值可配合一個p次多項式回歸方程:

設(shè)φ1(x),φ2(x),…,φp(x)為x函數(shù),分別表示一次,二次,…,p次多項式,則上述方程可表示為p元線性回歸方程:

為解得各偏回歸系數(shù),需算出二級數(shù)據(jù)為:

為滿足正交條件,變換的變量φi(x)須滿足

這樣

于是正規(guī)方程組可簡化為

(4—6)

各偏回歸系數(shù)為

對于d的計算已大大簡化,問題在于如何選取φi(x)以滿足正交條件?,F(xiàn)以模型

(4—7)

為例加以說明。

設(shè)φ1(x),φ2(x)分別為x的一次和二次多項式,并令φi(x))的表達式為:

(4—8)

二次模型可化為:

為滿足

(4—9)

只要適當(dāng)調(diào)節(jié)三個參數(shù)c10,c21,c20即可。

為例。

把(4—8)式代入(4—9)式得:

將代入,有∵,∴

這樣必為0,故。

將代入,得

于是

所以,在x取等間隔數(shù)值時,只要選取

即可滿足正交條件,若x取自然數(shù)1,2,…,n時,

(4—10)將上式代入(4-10)式

(4—11)

所以當(dāng)x的取值可用xt=x0+ht(h為公差:t=1,2,…,n)表示時,各次正交多項式φi(x)的統(tǒng)一形式為:

(4—12)

例如x取值為0,20,40,60,80,則可表示為xt=-20+20t(t=1,2,…,5)。按(4—12)式,各φi(x)值列于表4—3表4—4n=5時的φi(x)

xφ1(x)φ2(x)φ3(x)φ4(x)020406080-2-10122-1-2-12-6/512/50-12/56/512/35-48/3572/35-48/3512/35

由表4—4可見,φi(x)值并非全為整數(shù),為避免小數(shù)運算時的麻煩,通常再引入一個適當(dāng)?shù)南禂?shù)λi使ci=λiφi(x)(i=1,2,…,p)(4—13)為絕對值盡可能小的整數(shù),如表4—3中,取λ1=1,λ2=1,λ3=5/6,λ4=35/12。則c3(第3列)=(―1,2,0,―2,1)',c4=(1,―4,6,―4,1)'。相應(yīng)地由(4—7)式,計算的di可改寫成:

(4—14)

(4—15)

不同觀察值次數(shù)下的p次多項式ci已由學(xué)者編制成表,實際工作中直接引用即可。

二、正交多項式回歸的顯著性檢驗(一)p次式回歸方程的顯著性檢驗

p次式回歸平方和SSU=dfU=p

p次式離回歸平方和SSQ=SSy-SSUdfQ=n-p-1

(二)各偏回歸系數(shù)di的顯著性檢驗

(i=1,2,…,p)

其中,分別為各個偏回歸平方和(均方,dfdi=1)及離回歸均方。由于正交性,F(xiàn)di檢驗不顯著時,可直接從多項式回歸方程中剔除,并將其自由度、平方和()并入離回歸項中,以檢驗其余的di。無須重新計算di。第三節(jié)正交多項式分析實例

例2、用鎮(zhèn)痛藥對小動物鎮(zhèn)痛效果的研究中,得到關(guān)于用藥后時間(x)和平均反映時間(y)的資料如下,試配合一個適當(dāng)?shù)亩囗検交貧w方程。x(分)020406080100120y(分)24.937.042.037.534.028.125.9因資料中x取等間隔數(shù)據(jù)n=7,公差h=20,故可用正交系數(shù)作多項式回歸分析。

1、x與y的點式圖,以確定多項式的次數(shù)。由點式圖可知,擬配以三次多項式回歸方程。y|50+||*

40+|**|*30+|**|*20+||--+-------+-------+-------+-------+-------+-------+--x020406080100120

圖4.2x與y的點式圖

2、據(jù)n=7選擇正交多項式系數(shù)ci值表(表4—4),所抄表中的列數(shù),應(yīng)比點式圖推測的可能多項式的最高次方數(shù)多一列。本例可抄下四列。3、計算偏回歸系數(shù),偏回歸平方和,作顯著性檢驗由公式(4—14)及(4—16)可得di及偏回歸平方和MSdi。以d1為例

SSy=∑y2-(∑y)2/n=7775.68-229.42/7=257.9143

四次式回歸平方和

離回歸平方和SSQ=257.9143-255.0494=2.8649因MSd4最小,故可先作F檢驗,以決定是否剔除。

F檢驗結(jié)果差異不顯著,表明多項式中≥4次式的回歸方程可不作考慮,故將4次式的回歸平方和及自由度合并于離回歸平方和中,并對d1,d2,d3,作顯著性檢驗,檢驗結(jié)果如表4—5。表4—4n=7時的ci值表

020406080100120-3-2-10+1+2+3+50-3-4-30+5-1+1+10-1-1+1+3-7+1+6+1-7+324.937.042.037.534.028.125.924.8537.3840.9838.6733.3127.9925.64λi∑∑ciydiMSdi128-22.8-0.814318.5657184-124-1.4762183.04761/6617.92.983353.40177/12154-2.3-.01490.0344∑y2=7775.68∑y=229.4SSy=257.9143c1c2c3c4yx表4—5例2資料多項式回歸各次分量的方差分析

F檢驗結(jié)果表明,例2資料宜用三項式表示:

但依(4—15)式有

可見,所配多項式回歸方程估測的準(zhǔn)確性極高。對于三次多項式,求一、二階導(dǎo)數(shù),并令其為零,可求得的極值和曲線上的拐點。即:變異來源dfSSMSFF0.05F0.01一次式二次式三次式離回歸總變異1113618.5657183.047653.40172.8993257.914318.5657183.047653.40170.966419.21*189.41**55.26**10.1334.4

(4—16)

對于本例的極大、極小值分別在x為40.32、119.35時;方程在x=40上有一拐點。

二、處理間平方和的多項式回歸分解若試驗因素可分為若干個數(shù)量水平(處理),則處理間的平方和可剖分為單一自由度的各次式偏回歸平方和。這時處理(水平)為x變量,試驗結(jié)果y為處理的反應(yīng)變量,亦稱y為x的響應(yīng),則稱一次式為一次響應(yīng),二次式為二次響應(yīng)等等。當(dāng)數(shù)量水平取等間隔數(shù)值時,仍可采用正交多項式分析。需要指出的是,若以各處理組的合計數(shù)Ti為一變量y時,則方差分析時的各項平方和皆應(yīng)乘以處理組內(nèi)的重復(fù)數(shù)r,才能與回歸分析相對應(yīng)。

例3以4種粗纖維含量(%)不同的飼料(x)喂養(yǎng)仔雞,各種飼料飼養(yǎng)三只仔雞,其試驗結(jié)果列于表4—6,試作多項式回歸分析。

表4—6不同飼料對仔雞的增重結(jié)果

粗纖維仔雞增重(y)y=Ti3456151156145144153157149146152158147145456471441435152157147145

因x取間隔值h=1,故可采用正交多項式回歸分析,其計算結(jié)果如表4—7

表4—7正交多項式回歸分析計算表

xc1c2c3y3456-3-1+1+1+1-1-1+1-1+3-3+1456471441435λi∑∑ciyMSdidi220-93432.45-4.6524-21110.25-5.2510132069238.053.45SSy=780.75

=4.5SSQ=0=450.75

本例所用y為Ti,故方差分析中各平方和均應(yīng)乘以r(=3)后,才能與多項式回歸分析相對應(yīng),即:SST=274.25×3=822.75,SSA=260.25×3=780.75,SSE=14×3=12。亦可把多項式回歸分析中把ssy和各Msdi都除以r(=3),并將y和也除以3后,建立以處理平均數(shù)“g/只”的回歸方程式。本例采用后者分析。于是例3資料的顯著性檢驗如表4—8。表4—8例3資料的多項式回歸顯著性檢驗

變異來源dfSSMSF處理間一次響應(yīng)二次響應(yīng)三次響應(yīng)誤差項31118260.25144.1536.7579.351486.75144.1536.7579.351.7549.57**82.37**21.0**45.34**總變異11274.25

檢驗結(jié)果表明:仔雞增重對不同飼料中粗纖維含量的一、二、三次響應(yīng)皆為極顯著,相對而言,以一次響應(yīng)最大(F=82.37)。但其關(guān)系仍需以三次多項式配合為宜。即:

其中c1=2(x―4.5)=2x―9c2=(x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論