數(shù)學(xué)建模算法與應(yīng)用多媒體電子課件-12第十二章回歸分析_第1頁
數(shù)學(xué)建模算法與應(yīng)用多媒體電子課件-12第十二章回歸分析_第2頁
數(shù)學(xué)建模算法與應(yīng)用多媒體電子課件-12第十二章回歸分析_第3頁
數(shù)學(xué)建模算法與應(yīng)用多媒體電子課件-12第十二章回歸分析_第4頁
數(shù)學(xué)建模算法與應(yīng)用多媒體電子課件-12第十二章回歸分析_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余36頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十二 回歸分建立因變量y與自變量x1x2,Lxm之間的回歸模型(經(jīng)驗(yàn)公式判斷每個(gè)自變量xi(i1,2,L,m)對(duì)y利用回歸模型對(duì)y mx1,x2,Lxm,對(duì)它們分別進(jìn)行了n次采樣(或觀測(cè)),得到nn)n則所構(gòu)成的數(shù)據(jù)表X可以寫成一個(gè)nmne1T式中eixi1xi2,L,xim)R,i1,2,Ln,ei被稱為第i

eT

xij,j1,2,L,1x(x1,x2,L,xm)T,xjk1(ekn xnn C2(rij)mm (tij)

11-

tiitjjtij

k1( xi)( xj nxij* xj,i1,2,L,n;j1,2,L,0,而這樣的變換既不改變樣本點(diǎn)間的相互位置,也( x ( xxij*xij/s 其中sj

nxxij/xj,xxij/(max{xij min{xijxij*xij/max{xij},xij*xij/min{xij xxij*

,i1,2,L,n,j1,2,L,msjs 式中,2.10,1為回歸系數(shù),是隨機(jī)誤差項(xiàng),總是假設(shè)~N(0,),則隨量y01x 2y~N(01x,2)若對(duì)y和x分別進(jìn)行了n次獨(dú)立觀測(cè),得到以下n(yi,xi),i1,2,L,這n對(duì)觀測(cè)值之間的關(guān) 模

對(duì)應(yīng)于xi,yi是一個(gè) 量,它的隨機(jī)性是由i造成的。i~N(0,),對(duì)于不yi01xi,i1,2,L,

這里,xi是自變量在第i次觀測(cè)時(shí)的取值,它是一個(gè)非隨量,并且沒有測(cè)量誤差2的觀測(cè),當(dāng)ijij-

0,1?0,?1,使yiy?i?0?1xnQ(?0,?1)minQ(0,1) ( ?1xi)則n ( 1xi)i顯然Q(01)001QQ

1xi)0 xi 整理后到下面的方程 1

xi

xi

i1( x)1 ??0 i1xi,y i1?0?101的最小二乘估計(jì),其中,xy分別是xi與yi的樣本均值,x1 1

( x)(1的計(jì)算公式還有?1

( in x)1-( y( y)n(式中sx

in

(( ( x)(

i1 x2,sy2 i1 y2,rxy

xy

x)

i1

x) 1 12n顯然,當(dāng)xiyi都是標(biāo)準(zhǔn)化數(shù)據(jù)時(shí),則有x0,y0,sx1,sy1有?00,?1y?rxy?1可以表示y與x ?0,?1作為一個(gè)隨量,?1有以下性質(zhì)?1是yi的線性組合,它可以寫n式中ki是固定的常ki

( n

( x)(

) ( xi i1 i事實(shí)上( ( n?1

( nx) n

(

x)

x) 2i ix2i因?yàn)?1是隨量yi(i1,2,L,n)的線性組合,而yi是相互獨(dú)立、且服從正態(tài)分布的,所以,?1的抽樣分布也服從正態(tài)分布。?11-nE(?1) kiyi kiE(yi ki kii1 kni1i

(

(2kx

ix ni1i

ii i

( ix)

xi

( x x)( xni n2i1E(?1) (12Var(?1)2

ii2i22)ii2i22

ky kVar(y) k 11ki2

ix n( n(xi1 ( x (

nix)

)2 cic不全為零,i1,2,L,n。要11的無偏估計(jì)量,~E(1) ciE(yi)~n另一方面,由于E(yi)01xi- 為保證無偏性,ci i

定義cikidi,其中ki是式(6)中的組合系數(shù),di i1 i1i1

i

n x)

i1 ii ini而n

n n

n

1ix)?1

n

ix)

ix nn

2的最小值為零,所以,in

~2~ii時(shí),即ciki時(shí),才i

20?1同理,可以得出相應(yīng)于點(diǎn)估計(jì)量?0的統(tǒng)計(jì)性質(zhì)。對(duì)于一元線性正態(tài)誤差回歸模型?0是yi的線性組合,所以,它的抽樣分布也是正態(tài)的。它是總體參數(shù)0的無偏估計(jì)量,即E(?0)1

xix

~E(1) ci(01xi) ci cic0 cixi

-~Var(1) ci22 ki2 di2 kidi

nkidi ki ki) (

c ( x

ki2

( ((~Var(1)Var(?1) d 0時(shí),1的方差最小。但是,只有當(dāng)didVar(?0)2[(?00 eei ( ?1x1)i y?i,i1,2,L,

yi

n擬合值y?i的平均值等于觀測(cè)值yin1n(

y?i

nnnyi

y? x 當(dāng)?shù)趇次試驗(yàn)的殘差以相應(yīng)的自變量取值為權(quán)重時(shí),其殘差和為零,ni

x(n

這個(gè)結(jié)論由第二個(gè)正y?

?1xi)0當(dāng)?shù)趇次試驗(yàn)的殘差以相應(yīng)的因變量的擬合值為權(quán)重時(shí),其殘差和為零即n

n

0

ei xiei

最小二乘回歸線總是通過觀測(cè)數(shù)據(jù)的重心xy)的。事實(shí)上,當(dāng)自變量取值為x時(shí),由式(5)?0 y??0?1x( ?1x)?1x-的模型(y?i?0?1xi)來較好地?cái)M合觀測(cè)值yi?用y?i?0?1xi(或者說解釋)yi值的取值變化?回歸方程的質(zhì)量如何?誤差多大?對(duì)這些,都必須 ( y?i)i y?i,i1,2,L,e 1n11

i i i1(

e0

e)2

以,殘1平n和有 2)個(gè)自由度。ei2 由于

in

i1i1

2i

度 2)后得到的MSE,是總體回歸模型2Var(i)SeMSE

各觀測(cè)點(diǎn)在擬合直線周圍的緊密程度越高,也就是說,擬合方程y??0?1x解y另外,當(dāng)Se越小時(shí),還說明殘差值ei的變異程度越小。由于殘差的樣本均值為零,對(duì)應(yīng)于不同的xi值,觀測(cè)值yi就是試圖以x的線性函數(shù)(?0?1x)來解釋y的變異。那么,回歸模型y??01y

( y)y1y2,Lyn的變異程度可采用樣本方差來測(cè)度ns2

1i1(y? y)ns?2

1 -( y)2 ( y?i)2 (y? y)2 ( y?i)(y? n(ny)n( n?1xi)(?0 (n(ny)n( n?1xi)(?0 i

(y)2(y?y)2(y?i)nnnSST(,這是原始數(shù)據(jù)yi的總變異平方和,其自由度為dfTn4)記SSRn(y?y2,這是用擬合直線y?i?0?1xi可解釋的變異平方和,其SSE

( y?i)2,這是殘差平方和,其自由度為dfE 2由度為dfRn

SSTSSRSSE,dfTdfRdf從上式可以看出,y的變異是由兩方面的原因引起的;一是由于x的取值不同,而給y帶來的系統(tǒng)性變異;另一個(gè)是由除x以外的其它因素的影響。注意到對(duì)于一個(gè)確定的樣本(一組實(shí)現(xiàn)的觀測(cè)值)SST是一個(gè)定值。所以,可解釋變異SSR越大,則必然有殘差SSE越小。這個(gè)分解式可同時(shí)從兩個(gè)方面說明擬合方(1)SSR越大,用回歸方程來解釋yi變異的部分越大,回歸方程對(duì)原數(shù)據(jù)解釋得2從判定系數(shù)的定義看,R有以下簡(jiǎn)單性質(zhì)

2

)當(dāng)R1時(shí),有SSRSST2(3)R20y2合值的變異來解釋,并且殘差為零(SSE0)2-無關(guān)的因素引起,這時(shí)SSESST變量y的相關(guān)度越大i1?i線)優(yōu)良度就越高

看,擬合變量y?nR2

2 (y?i y)(y? r2(y,

ei(y? y)

ei y) (y? y) 在推y與擬合變量y?的相關(guān)系數(shù)平方R R

等于y與自變量x 22?124

y與對(duì)于一個(gè)實(shí)際觀測(cè)的樣本雖然可以用判定系數(shù)R說明y與y?的相關(guān)程度,但yi01xii,i~N(0,2),i1,2,L,2樣本測(cè)度指標(biāo)具有一定的隨機(jī)因素,還不足以肯定y與x的線性關(guān)系。假設(shè)y與x之間存性關(guān)系,則總體模型為yi01xii,i1,2,L,nSSE (yi y?i)210n現(xiàn)給出假設(shè)H010。如果H0yi0?1?0 ?1x因此,對(duì)所有的i1,2,L,n-iy?in

y)2iSSEH0假設(shè)成立,即1近似于零。因此,差額(SST SSE)很少時(shí),表明H0成立。若這個(gè)差額很大,說明增加了x的線性項(xiàng)后,擬合方程的誤差大幅度減少,則應(yīng)否定H0,1顯著不為零。F SSR/SSE

式中若假設(shè)H0:10成立,則SSE/與SSR/是獨(dú)立的 量,MSRSSR/dfRSSR/MSESSE/dfESSE SSE/2~2 2),SSR/2~2FMSR

~F(1, x的線性方程式來解釋y驗(yàn)。記yi關(guān)于xi1,則F檢驗(yàn)的原假設(shè)H0與備則假設(shè)H1F ~F(1, H0:10,H1:1

對(duì)于檢驗(yàn)水平,按自由度(n11,n2n 2)查F分布表,得到 界值F(1,n 2)。決策規(guī)則為若FF(1,n 2),則接受H0假設(shè),這時(shí)認(rèn)為1顯著為零,無法用x的線性關(guān)系式來解釋y。若FF(1,n 2),則否定H0,接受H1。這時(shí)認(rèn)為1顯著不為零,可以用x的線性關(guān)系來解釋y。上說,線性回歸方程的F檢驗(yàn)通過了。需要注意的是,即使Fyi01xi就是一個(gè)恰當(dāng)?shù)幕貧w模型,事實(shí)上,當(dāng)H0假設(shè)被后,只能說明y與x之間存在-x與因變量之間的關(guān)系能否用一個(gè)線性模型來表示,這是由F檢驗(yàn)來完成的;另一個(gè)檢的影響程度是否顯著。這就是下面要討論的t檢驗(yàn)。在一元線性分析中,由于自變量的歸分析中,這兩個(gè)檢驗(yàn)的意義是不同的。從邏輯上說,一般常在F檢驗(yàn)通過后,再進(jìn)一步進(jìn)行t檢驗(yàn)。 10的檢1代表xi變化一個(gè)單位對(duì)yi1的檢驗(yàn) ?1~N(1,(x

()ix)Var(?1)

ix)S2(?1)

( xn

i事實(shí)上,由

?1S(?1

~t ?1S(?1

1)/Var(?12S2其分子 1)/Var(?1)服從標(biāo)準(zhǔn)正態(tài)分布,而分母項(xiàng)nVar(?1

2

2 -?1S(?1

~ ?11H0:10,H1:1t1

S(?1檢驗(yàn)統(tǒng)計(jì)量t1在10假設(shè)為真時(shí),服從自由度為 2)的t分布對(duì)于給定的檢驗(yàn)水平,則通過t分布表可查到統(tǒng)計(jì)量t1的臨界值t 2)。2若若

t1t 2),則接受H012t1t 2), H0,認(rèn)為1顯著不為零?2 S(?1 了H0,認(rèn)為1顯著不為零時(shí),又稱1通過了t檢驗(yàn)。S(?1P t 2) 還可以確定1的置信度為 的置信區(qū)間 t 2)S(?1)1?1t 2)S(?1 0進(jìn)行顯著性檢驗(yàn),并且求出它的置信區(qū)間。它的最?0x分布,即 xn nix)S2(?0)MSE[Var(?0)1

(x

ix ?0S(?0

~t 0H0:00,H1:0-

t0

S(?0在00時(shí),檢驗(yàn)統(tǒng)計(jì)量t0服從自由度為 2)的t分布對(duì)于給定的檢驗(yàn)水平,則通過t分布表可查到統(tǒng)計(jì)量t0的臨界值t 2)。2若

t0t 2),則接受H002

2),則H0,認(rèn)為0顯著不為零P t 2) 還可以確定0的置信度為 的置信區(qū)間 t 2)S(?0)0?0t 2)S(?0 y01x1Lmxm

~N(0,01,Lm,都是與x1x2,L,xm01,Lm

yi01xi1Lmxim2i~N(0,),i1,L,2現(xiàn)得到n個(gè)獨(dú)立觀測(cè)數(shù)據(jù)yixi1,Lxim)i1,Lnnm,由(20) 記 1x11Lx1m y1X M,YM1xn1Lxnm yn

nn

[

1LmYX2其中En為n

-模型(20)01,Lm?j,使j?j,j0,1,2,L,m時(shí),誤差平方和 0,j0,1,2,L,得n n ( mxim)xij

j1,2,L,T

i 將?代回原模型得到y(tǒng)的估計(jì)i1i1i1

?(XTX)1XTy??0?1x1L?m2i11 111i1正規(guī)方程組的矩陣形XTXXTY而這組數(shù)據(jù)的擬合值為Y?X?,擬合誤差eY Y?稱為殘差,可作為隨機(jī)誤差的估計(jì),而Q i2 (yi 0 mxim)2 i i mxim)-

Q xi1 xi1 xi1xi2L xi1xim xi1M當(dāng)矩陣X列滿秩時(shí),XX為可逆方陣,(27)Q ei2 ( y?i)?的方差最小。記(XX)?對(duì)殘差平方和Q,EQ 1),?~N(,2(XTX)1 (cij)nn~2 由此得到的無偏估 2(s2 ? (nms2是剩余方差(殘差的方差),sSSTQUn,U (y? y)對(duì)總平方和SST

i

y2ni

其中Q是由(24)定義的殘差平方和,反映隨機(jī)誤差對(duì)y的影響,U稱為回歸平方和,反映自變量對(duì)y的影響。上面的分解中利用了正規(guī)方程組。因變量y與自變量x1,L,xm之間是否存在如模型(20)所示的線性關(guān)系是需要檢驗(yàn)的,顯然,如果所有的|?j|j1,L,m)都很小,y與x1,L,xm的線性關(guān)系就不H0:j0(j1,L,當(dāng)H0成立時(shí)由分解式(34)定義的U,QF U/Q

~F(m, 在顯著性水平下有上分位數(shù)F(m, 1),若FF(m, 1),接H0;否則,注意接受H0只說明y與x1,Lxm的線性關(guān)系不明顯,可能存在非線性關(guān)系,還有一些衡量y與x1,Lxm相關(guān)程度的指標(biāo),如用回歸平方和在總平方和中的比R2

RR2稱為復(fù)相關(guān)系數(shù),R越大,y與x1,L,xm相關(guān)關(guān)系越密切,通常,R0.8(0.9)-當(dāng)上面的H0被 時(shí),j不全為零,但是不排除其中若干個(gè)等于零。所以應(yīng)進(jìn)由(31)式,?j~Nj,cjj),cjj是(XX)中的第(j,j)元素,用s代替,一步作如下m1個(gè)檢驗(yàn)j0,1,Lm) :0 由(31)~( :0 2(j0(2(jT 對(duì)給定的,若|tj|t 1),接受H0;否則 ?j/ctj

~ Q (j2(37)式也可用于對(duì)j作區(qū)間估計(jì)(j0,1,L,m),在置信水平1 下,j的[? t 1)scjj,?jt 1)scjj 其中s

。nm 當(dāng)回歸模型和系數(shù)通過檢驗(yàn)后,可由給定的x0x01,L,x0m)預(yù)測(cè)y0,y0是隨機(jī)y001x01Lm 可以算出y0的預(yù)測(cè)區(qū)間(區(qū)間估計(jì)),結(jié)果較復(fù)雜,但當(dāng)n較大且x0i接近平均值xi時(shí),y0的預(yù)測(cè)區(qū)間可簡(jiǎn)化為[y? zs,y?0z 其中z是標(biāo)準(zhǔn)正態(tài)分布的2

2對(duì)y0的區(qū)間估計(jì)方法可用于給出已知數(shù)據(jù)殘差eiyiy?i(i1,L,n)的置信區(qū)間,ei服從均值為零的正態(tài)分布,所以若某個(gè)ei的置信區(qū)間不包含零點(diǎn),則認(rèn)為這個(gè) regress

Y,X為按(22)式排列的數(shù)據(jù),b?0,?1,L,?mY,X同上,alpha為顯著性水平(0.05),b,bint為回歸系數(shù)估計(jì)值和它們的置信區(qū)間,r,rint為殘差(向量)及其置信區(qū)間,stats是用于檢驗(yàn)回歸模型的統(tǒng)-計(jì)量,有四個(gè)數(shù)值,第一個(gè)是R(見(36)式),第二個(gè)是F(見(35)式),第三個(gè)是與F對(duì)應(yīng)的概率p,p H0,回歸模型成立,第四個(gè)是殘差的方差s(22殘差及其置信區(qū)間可以用1合金的強(qiáng)度y與其中的碳含量x有比較密切的關(guān)系,今從生產(chǎn)中收集了一批數(shù)據(jù)如下表1。表 0.100.110.12 0.140.150.160.17 42.041.545.045.545.047.549.055.0試先擬合一個(gè)函數(shù)yx),再用回歸分析對(duì)它進(jìn)行檢驗(yàn)。解先畫出散點(diǎn)圖:可知y與x大致上為線性關(guān)系。y01 regressrcoplot編程如下:b=27.4722bint stats=0.7985 ?027.4722?1137.5000?0的置信區(qū)間是[18.6851,36.2594]?1 rcoplot(r,rint)8個(gè)數(shù)據(jù)外其余殘差的置信區(qū)間均包含零點(diǎn),第8個(gè)點(diǎn)應(yīng)視為異常點(diǎn),將其剔除后重新計(jì)算,可得b bint s=0.9188 表x1x2y

-例2 某廠生產(chǎn)的一種電器的銷售量y與競(jìng)爭(zhēng)對(duì)手的價(jià)格x1和本廠的價(jià)格x2有關(guān)。表2是該商品在10個(gè)城市的銷售記錄。試根據(jù)這些數(shù)據(jù)建立y與x1和x2的關(guān)系式,對(duì)得到的模型和系數(shù)進(jìn)行檢驗(yàn)。若某市本廠產(chǎn)品售價(jià)160(元),競(jìng)爭(zhēng)對(duì)手售價(jià)170解分別畫出y關(guān)于x1和y關(guān)于x2的散點(diǎn)圖,可以看出y與x2有較明顯的線性關(guān)系,而y與x1之間的關(guān)系則難以確定,作幾種嘗試,用統(tǒng)計(jì)分析決定優(yōu)劣。

y01x12 x1=[120140190130155175125145180x2=[10011090150210150250270300y=[102100120774693266965b=66.51760.4139-bint=-32.5060-0.2018-0.4611-stats 可以看出結(jié)果不是太好:p0.02470.05時(shí)回歸模型(42)0.01則模型不能用;R20.6527?0,?1的置信區(qū)間包含了零點(diǎn)。下面將試圖用x1,x2的二次函數(shù)改進(jìn)它。如果從數(shù)據(jù)的散點(diǎn)圖上發(fā)現(xiàn)y與x呈較明顯的二次(或高次)函數(shù)關(guān)系,或者用線polyfit例3將17至29歲的運(yùn)動(dòng)員每?jī)蓺q一組分為7組,每組兩人測(cè)量其旋轉(zhuǎn)定向能力, 對(duì)這種運(yùn)動(dòng)能力的影響?,F(xiàn)得到一組數(shù)據(jù)如表3。表17

20.4825.1326.1530.0 20.324.3528.11 31.426.9225.7解數(shù)據(jù)的散點(diǎn)圖明顯地呈現(xiàn)兩端低中間高的形狀,所以應(yīng)擬合一條二次曲線。

ya2x2a1x

y0=[20.4825.1326.1530.026.120.324.3528.1126.331.426.9225.7-[p,s]=polyfit(x0,y0,2);p=-0.20038.9782-即a20.2003,a18.9782,a0 72.2150。得到y(tǒng)的擬合值,及預(yù)測(cè)值y的置信區(qū)間半徑delta圖1擬合的交互式畫用poltoo(x,y02)1兩側(cè)紅線是y的置區(qū)間你可用鼠移動(dòng)圖的線來變圖方的xy統(tǒng)計(jì)工具箱提供了一個(gè)作多元二項(xiàng)式回歸令rstool,它也產(chǎn)生一個(gè)交互式畫面,其中輸入數(shù)據(jù)x,ynm矩陣和n維向量,alpha(linear(線性):y01x1Lmxmpurequadratic(純二次)y

jinteraction(交叉):y01x1Lmxm jkxj1jkquadratic(完全二次):y01x1Lmxm jkxj1jky01x12x211x1222 x1=[120140190130155175125145180x2=[10011090150210150250270300y=[102100120774693266965-x=[x1x2];x=[x1x2];0-

圖擬合的交互式畫x1(=151)固定時(shí)的曲線yx1)及其置信區(qū)間,右邊是x2(=188)固定時(shí)的曲線y(x2)及其置信區(qū)間。用鼠標(biāo)移動(dòng)圖中的十字線,或在圖下方窗口內(nèi)輸入,可改變x1x2。圖左邊給出y的預(yù)測(cè)值及其置信區(qū)間,就用這種畫面可以回答例2“若某市本廠產(chǎn)品售價(jià)160(元),競(jìng)爭(zhēng)對(duì)手售價(jià)170圖的左方有個(gè)下式菜,一菜Expot用作區(qū)送數(shù),包括bea(),me,redul(殘差。模型44)beta=-312.58717.2701-1.7337-0.0228rmseyb0b1x1b2x2b3x1x2b4x12b5 在研究個(gè)變之間線性關(guān)程時(shí),兩變量的單相系數(shù)但個(gè)變量影響為了準(zhǔn)確反映量之的關(guān)關(guān)系統(tǒng)計(jì)中定了偏系數(shù)()。如果有因變量y和自變量x1x2,L,xm,怎樣定義y與x1的偏相關(guān)系數(shù)?一個(gè)直觀的想法是在除掉x2,x3,L,xm的影響之后,再考慮y與x1的相關(guān)程度。如果有n個(gè)樣本i1,2,L,nyic0c2xi2Lcmximxi1d0d2xi2Ldmxim-求這兩個(gè)殘差向量uu1,u2,Lun)與vv1v2,L,vn)ui (c?0c?2xi2Lc?mximvi (d?0d?2xi2Ld?mxim ry12,L,m,稱它為y與x1例如只有兩個(gè)自變量x1,x2的情形。為方便起見,不失一般性,設(shè)yx1x2均為中 c?2xi2,vi d?2xi2,i1,2,L,uiVar( c?2xi2,vi d?2xi2,i1,2,L,由于是中心化量,所以兩個(gè)模型的常 yi2n

2rxy rx

ry22 i1i

nxi nn nnVar(v)

n

Cov(u,v) ry2r12

ry2分別是yry2分別是y這里,r12是x1x2的簡(jiǎn)單相關(guān)系數(shù),ry1和

x1及x2Cov(u,v)ry12r(u,v)

ry ry22 r122ry12,L,m 21其中t1是回歸方程y??0?1x1L?mxm中,x1的tij,樣本偏相關(guān)系數(shù)為rij,n為樣本容量,p為隨H0:ij當(dāng)H0rij2(nF

~F(1, -給定顯著水平,可查表得到臨界值F(1, p)。決定準(zhǔn)則為,對(duì)于統(tǒng)計(jì)量的F若FF(1,n p),則否定H0,說明xi與xj之間存在顯著的凈相關(guān)關(guān)系;若FF(1,n p),則肯定H0,說明xi與xj之間不存在顯著的凈相關(guān)關(guān)系。 m 偏F除時(shí),我們首先要問的問題是:這個(gè)變量能否對(duì)y提供顯著的附加解釋信息?回答這個(gè)問題的方法是采用偏F檢驗(yàn)。設(shè)有m個(gè)自變量x1,x2,L,xm,采用這my01x1Lmxm全模型的復(fù)判定系數(shù)為RRj從這m個(gè)變量中刪去自變量xj,這時(shí)用 y01x1Lj1xj1j1xj1Lmxm由于在全模型中多一個(gè)自變2量xj,所以Rj2為零,說明增加xj,對(duì)yR2jR RR2jR R2給出統(tǒng)計(jì)假設(shè)H0Rj0,H1:Rj2

Q Fj

Q 式中,Qj是減模型的殘差平方和,Q在H0假設(shè)成立的條件下,F(xiàn)j服從F分布,第一個(gè)自由度為1 根據(jù)檢驗(yàn)水平查F分布表(n11,n2n 1),得到域的臨界值F,-當(dāng)FjF時(shí) H0,說明Rj顯著不為零,這說明在x1,L,xj1,xjFjF時(shí),接受H0Rj顯著為零,所以,從全模型中刪除xj,對(duì)Lxm變量已進(jìn)入模型后,引入xj會(huì)顯著提高對(duì)y2上述檢驗(yàn)就稱為偏F檢驗(yàn)。偏Fy變量的一元線性回歸模型。對(duì)所有的這m個(gè)模型進(jìn)行F檢驗(yàn),選擇F值最高者作為第一個(gè)進(jìn)入模型的自變量(記為xi1)。然后,對(duì)剩下的m 1個(gè)變量分別進(jìn)行偏F檢驗(yàn)(即以y與xi1的模型為減模型,以y與xi1以及另一個(gè)自變量xj的模型為全模型)。如果至少有一個(gè)xi通過了偏F檢驗(yàn),則在所有通過偏F檢驗(yàn)的變量中,選擇Fj值最大者作為第二個(gè)被選的自變量,進(jìn)入模型(記為xi2)。F的自變量都被包含在模型之中(這是起始的全模型)F檢驗(yàn)(以去掉變量xj的模型為減模型)。如果所有的自變量都通過了偏F檢驗(yàn),則計(jì)算停止,所有自變量被包含在模型中。如果有若干自變量未能通過偏F檢驗(yàn),則選擇出Fj值最小的自變量,將它從模型中刪除。對(duì)剩下的(m 1)個(gè)自變量擬合一個(gè)全模型。然后,重新對(duì)每一個(gè)模型中的自變量進(jìn)行偏F檢驗(yàn)。在沒有通過檢驗(yàn)的自變量中,選擇Fj值最小者,將它從模型中刪除F 被排斥在模型之外。但是,隨著其它變量的被刪除,它對(duì)y的解釋著的解釋信息,就可以再次進(jìn)入模型;而對(duì)于已在的變量,只要它的偏F檢驗(yàn)不模型的起始與向前選擇變量法一樣。首先,求y與每一個(gè)xi的一元線性回歸方程,選擇F值最大的變量進(jìn)入模型。然后,對(duì)剩下的m1個(gè)模型外的變量進(jìn)行偏F檢驗(yàn)(設(shè)定xi1已在模型中),在若干通過偏F檢驗(yàn)的變量中,選擇Fj值最大者進(jìn)入模型。再對(duì)模型外的m2個(gè)自變量做偏F檢驗(yàn)。在通過偏F檢驗(yàn)的變量中選擇FjF-過了偏F檢驗(yàn),則接著選擇第四個(gè)變量。但如果有某一個(gè)變量沒有通過偏F檢驗(yàn),則重復(fù)上述步驟,直到所有模型外的變量都不能通過偏F檢驗(yàn),則算法終止。為了避免變量的進(jìn)出循環(huán),一般取偏F檢驗(yàn)域的臨界值為F進(jìn)F式中,F(xiàn)進(jìn)為選入變量時(shí)的臨界值;F出為刪除變量時(shí)的臨界值。在所有標(biāo)準(zhǔn)的統(tǒng)計(jì)軟數(shù)都有逐步量加出,dfE以1當(dāng)進(jìn)0.05出0.12mn 1dfE0。而自由度越小,數(shù)據(jù)的統(tǒng)計(jì)趨勢(shì)就越不容易顯現(xiàn)。為此,又定義一可見,在調(diào)整復(fù)判定系數(shù)中考慮了自由度的因素。R與R的關(guān)系是R2QR22 R2SST

當(dāng)n很大、m很少時(shí),R與R之間的差別不是22是,當(dāng)n較少,而m較大時(shí),R就會(huì)遠(yuǎn)小于R

在一般的統(tǒng)計(jì)軟件中,常在nm1RR 另外,2關(guān)R2,還可以用于判斷是否可以再增加新的變量。如果增加一個(gè)變量后,R的改觀不大,則這個(gè)變量的增加,意義22。所以,只有當(dāng)R明顯增2 是當(dāng)模型中已經(jīng)包含了k個(gè)自變量x1x2,L,xk,如果要再增加一個(gè)新自變量xj,則這時(shí)的偏F檢驗(yàn)值為Fjt這里,tj是以x1x2,L,xkxj為自變量時(shí)回歸模型中xj的t檢驗(yàn)值。例4某產(chǎn)品的銷售額y與部門的全部市場(chǎng)銷售額x1,給批發(fā)商 x2,價(jià)x3,開發(fā) x4,投資x5, x6,銷售費(fèi)用x7,部門全部 x8有關(guān)。為預(yù)測(cè)未來的銷售量,收集了38個(gè)樣本點(diǎn)的有關(guān)數(shù)據(jù)見表4,試建立y的經(jīng)驗(yàn)公式。表4原始數(shù)據(jù)表xxxxxxy--------- 首先,以x1~x8為全部自變量,采用最小二乘法擬合一個(gè)多 這個(gè)回歸模型的復(fù)判定系數(shù) 0.8048,調(diào)整復(fù)判定系數(shù) 0.7509。模型y?3086.29414.4862x1 3.66971.9442x58.5707x6 行F檢驗(yàn):F14.9424進(jìn)行t檢驗(yàn)的結(jié)果見表5表58個(gè)自變量模型的t檢驗(yàn)結(jié)tt檢驗(yàn)

-

-

--loaddata.txtdata.txt中x=[ones(38,1),data(:,1:8)];y=data(:,9);[b,bint,r,rint,stats]=regress(y,x)%stats(4)返回的是殘差的樣本方差r2=stats(1)%提出復(fù)判定系數(shù) tm=inv(x'*x);%計(jì)算X'*X的逆矩陣tm=diag(tm);rmse=sqrt(stats(4))%計(jì)算剩余標(biāo)準(zhǔn)差(殘差的樣本標(biāo)準(zhǔn)差) 從這個(gè)模型看,F(xiàn)檢驗(yàn)通過,但在t檢驗(yàn)中有若干自變量對(duì)y的解釋作用不明顯,

x1表

y與x1~x8變

7250163.10.38

-x1首先進(jìn)入模型:y?2950.06852F檢驗(yàn)值:F38.8644,t檢驗(yàn)值:t08.448,t16.2341x1以外,還有7x1別計(jì)算xj別計(jì)算xj()進(jìn)入模型后(即以x1xj為模型中的自變量),xj驗(yàn)值tj,并計(jì)算x2~x8與y的偏相關(guān)系數(shù)ryxx。有關(guān)的計(jì)算結(jié)果見表7表7向前待選變t----------loaddata.txtdata.txt中-fori=2:8[b,bint,r,rint,stats]=regress(y,x)%stats(4)返回的是殘差的樣本方差tm=inv(x'*x);%計(jì)算X'*X的逆矩陣tm=diag(tm);%提出逆矩陣的對(duì)角線元素rmse=sqrt(stats(4))%計(jì)算剩余標(biāo)準(zhǔn)差(殘差的樣本標(biāo)準(zhǔn)差) ts=TT(3,:)%求各個(gè)新加入變量的tpr=ts

tjxjF第1步,選擇偏相關(guān)系數(shù)最大的自變量x6進(jìn)入模型,并且在以x1x62.7y?2721.68514.4372x12.2726x5 此種方法更易于掌握。它第1步以全部自變量x1~x8作為解釋變量擬合方程。然后,每一步都在未通過t檢驗(yàn)的自變量中選擇一個(gè)tj值最小的變量,將它從模型中刪除。直至某一步,所有的自變量均通過t檢驗(yàn),則算法終止。y?3293.8304 1.3261x31.9661x5 其中x是自變量數(shù)據(jù),y是因變量數(shù)據(jù),分別為nm和n1矩陣,inmodel是矩陣x的StepwiseRegression例5y與水泥中4種化學(xué)成分x1x2x3,x4有關(guān),今測(cè)得一-表序xy1623848566976819214115761173810CoefficientswithError

- - Model2 圖 -可以看出,x3可以看出,x3x4不顯著,移去這兩個(gè)變量后的統(tǒng)計(jì)結(jié)果如圖4CoefficientswithError

-0-0 Model2 圖4逐步回歸交互式畫面圖4中的x3x4s(RMSE)沒有太大的變化,但是統(tǒng)計(jì)量F的值明顯增大,因此新的回歸模型更好一些??梢郧蟪鲎罱K的模型為y52.57731.4683x1 人滿意例時(shí)些回系數(shù)估計(jì)的絕值異較大有時(shí)歸系的估值i1L)(y(y1i,i1,L(,以下為方便起n個(gè)獨(dú)立isy*

i1,Lnnm11(11( xjnyi*

,這里ys

n對(duì)應(yīng)的標(biāo)準(zhǔn)化變量記為y,x1,L1,xn xij*

xs

,這里xj

ni

xij,sj

1* -~N(0,EnYX 其中模型的設(shè)計(jì)矩陣 規(guī)方程組的系數(shù)矩陣XX為滿X M,YM陣。如果12Lm表示XX的m個(gè)特征值,且當(dāng)XX12Lm很小xn1Lxnm ynT XTX?XT?的無偏估計(jì),即E(? )]2(

L ?的誤差太大,無實(shí)用價(jià)值。此時(shí)稱m個(gè)解釋變量之間具有復(fù)共線性,也就是說設(shè)計(jì)矩陣X的列向量之間有近似的線性關(guān)系,但非線性

K 最大特征 最小特征 K100當(dāng)100K1000記為mse)它度量了估計(jì)跟未知參數(shù)向量~ ~...(n

Tm稍大一些。我們知道模型(48)?L(XTX)1X -?(k)(XTXkEm)1XT 從上式直接看出,當(dāng)k0時(shí),它就是最小二乘估計(jì),最有無偏性;當(dāng)k ?k0,就沒有意義了。k究竟取多大值為好?顯然應(yīng)該是盡可能小的k?k盡可能地穩(wěn)定下來。同時(shí)我們需要知道?(k)的統(tǒng)計(jì)性質(zhì)究竟如何。 嶺估計(jì)不再是無偏估計(jì)量,即E(?(k))。E(?(k))E[(XTXkEm)1XTY](XTXkEm)1XT1性質(zhì) 1PSP設(shè)有正交矩陣P

diag(1,L,m

1

m

?(k?(k 1 1 O

k

Om故知Zk的特征根分別

i

,都在(0,1)

mk性質(zhì)3?k? E?(k E 1軸為k?k),它將畫出m條曲線。這些曲線稱之為嶺跡。?k)穩(wěn)定的最小k值,同時(shí)殘差平方和也不增- 2嶺估計(jì)的均方誤差mse(?(k))E?(k 是k的函數(shù),可以證明它能在某2取得最小值。計(jì)算并觀察mse(?k)),開始它將下降,到達(dá)最小值后開始上升。取它最小處的k作為嶺參數(shù)。設(shè)P為正交方陣,使式(52)成立,記P T,稱為典則參數(shù),ZXP,YZ?(ZTZ)1ZTY1ZT?(k)(ZTZkEm)1ZTY(kEm)1Z

max

1(Y?Y)T Y)

YT Z1ZTn n 5.km?2

j

?j22直觀考慮是,當(dāng)mXXEm時(shí),取km? j

2j 對(duì)外貿(mào)的進(jìn)口總額y進(jìn)行研究,并考慮有關(guān)的3個(gè)因素:國內(nèi)總產(chǎn)值x1,存貯量x2,總消費(fèi)量x3,收集了11組數(shù)據(jù),見表9。試建立y與x1,x2,x3的回歸方程。j序表外貿(mào)數(shù)x總消費(fèi)量x進(jìn)口總額123456789-XX

*T

0.25859.9726 10119.991529.981530.0269X*TX*13742.93463于3應(yīng)的特征向量30707000702223 *TX*333T33 ,即X 30,所以三個(gè)標(biāo)3注意到,自變量x2的系數(shù)絕對(duì)值相對(duì)非常小,可視為零,而x1和x3的系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論