多元的線性回歸_第1頁
多元的線性回歸_第2頁
多元的線性回歸_第3頁
多元的線性回歸_第4頁
多元的線性回歸_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

精彩文檔精彩文檔多元線性回歸模型一、多元線性回歸模型的一般形式設隨機變量與一般變量X,X,…,X的線性回歸模型為:12p寫成矩陣形式為:y=XB+8其中:一1一1XX11121XXX=?21221XX1—n1n2XpXp,Xnp」二、多元線性回歸模型的基本假定TOC\o"1-5"\h\z解釋變量X,X,…,X是確定性變量,不是隨機變量,且要求12pran(X)=p+1<n。這里的rank(X)=p+1<n表明設計矩陣中自變量列之間不相關,樣本容量的個數(shù)應大于解釋變量的個數(shù),是一滿秩矩陣。^E(8.)=0,i=1,2,…,n、隨機誤差項具有均值和等方差,即:[g,、Jo2,i=j0、cov(8,8)=<,(i,J=1,2,…,n)?jI0,i豐JE(8)=0,即假設觀測值沒有系統(tǒng)誤差,隨機誤差8的平均值為0隨機誤差8iii的協(xié)方差為表明隨機誤差項在不同的樣本點之間是不相關的(在正態(tài)假定下即為獨立),不存在序列相關,并且具有相同的精度。、正態(tài)分布的假定條件為:[8i~N(0,02),iL1±…,n,矩陣表示:8~N(0,o21)I8,8,…8相互獨立n112n由該假定和多元正態(tài)分布的性質可知,隨機變量服從維正態(tài)分布,回歸模型的期望向量為:E(y)=XB;var(y)=o21因此有y~N(XB,021)nn三、多元線性回歸方程的解釋對于一般情況含有p個自變量的回歸方程E(y)=B+BX+BX+…+BX的01122pp解釋,每個回歸系數(shù)B表示在回歸方程中其他自變量保持不變的情況下,自變i量X每增加一個單位時因變量的平均增加程度。因此通常把多元線性回歸的回i歸系數(shù)稱為偏回歸系數(shù)。下面看個例子,考慮國內(nèi)生產(chǎn)總值和三次產(chǎn)業(yè)增加值的關系,這個問題中P+X+X是確定性的函數(shù)關系,可以看作誤差項為123的特殊回歸關系。個回歸系數(shù)都是1對P解釋為第二產(chǎn)業(yè)增加值X每增加22億元也增加億元。假設做對X的一元線性回歸,得到回歸方程為2y=5289.9+1.8554x,對這個方程回歸系數(shù)的解釋是第二產(chǎn)業(yè)增加值每增加2億元增加億元。兩個回歸方程對同樣的經(jīng)濟現(xiàn)象給出了不同的解釋,問題出在什么地方呢?多元回歸系數(shù)表示在回歸方程中其他自變量保持不變的情況下,相應自變量每增加一個單位時因變量的平均增加速度。因此在用多元回歸方程P+X+X解釋B時,一定要強調(diào)是在X和X保持不變的情況下,123213X每增加億元也增加億元。在用一元回歸方程y=5289.9+1.8554x解22釋回歸系數(shù)時,要強調(diào)的是在方程之外的有關變量也相應變化時X每增加億2元增加億元。增加的億元中x的直接貢獻只用億元,2回歸方程外的X和X的貢獻是億元。這里又出現(xiàn)一個問題,為什么回歸13方程外的X和X貢獻是億元4而不是億元呢?可以通過考察數(shù)據(jù),X132的增加幅度遠大于X和X的增加幅度,假如X增加億元,X和X相應的增加13213幅度都達不到1億元。四、參數(shù)估計要想用估計多元線性回歸模型的未知數(shù),樣本容量必須不少于模型中參數(shù)的個數(shù)。在正態(tài)假定下,回歸參數(shù)P的(最大似然估計)與(最小二乘估計)完全相同,即B=(XX)-1Xy,誤差項方差o2的為存2=-SSE=-(e'e),這Lnn是o2的有偏估計,但它滿足一致性,在大樣本的情況下,是o2的漸近無偏估計量。參數(shù)估計量的性質:人性質1B是隨機向量的一個線性變換人性質2B是p的無偏估計人性質3D(p)=o2(XX)-1性質4高斯馬爾科夫()定理()C是c乍的無偏估計()c珞的方差要小高斯馬爾科夫定理在假定E(y)=XBD(y)=。2/時,B的任一線性函數(shù)nc乍的最小方差線性無偏估計為c附,其中是任一維常數(shù)向量,B是B的最小二乘估計。人此定理說明了用估計得到的估計量B是理想的估計量。關于這條性質,需要注意以下四點:第一,取常數(shù)向量的第(j=0,1,-,p)分量為1其余分量為0這時人定理表明最小二乘估計B是B的最小方差線性無偏估計。jj第二,可能存在y,y,…,y的非線性函數(shù),作為c乍的無偏估計,比最小二12n乘估計c唱的方差更小。第三,可能存在c下的有偏估計量,在某種意義(例如均方差最小)下比最小二乘估計c唯更好。第四,在正態(tài)假定下,c用是c0的最小方差無偏估計。性質5cov(B,e)=0,在正態(tài)假定下B與不相關等價與B與獨立,從而B與6%獨立。性質6當y~N(XB,Q21)時,則]B~N(d02(XX)T)n[SEEo2~%2(n一p—1)五、自變量的顯著性TOC\o"1-5"\h\z如何剔除多余的不顯著的自變量?對自變量X,X,…,X線性回歸的殘差平方12p和為S回歸平方和為S在剔除掉X后,用對其余的個自變量作回j歸,所得的殘差平方和記為SSE,回歸平方和為SSR,則自變量X對回歸的(j)(j)j貢獻為:ASSR=SSR—SSR,稱為x的偏回歸平方和。由此可以構造偏統(tǒng)(j)(j)jASSR1計量:F=(j),當原假設H邛=0成立時,偏統(tǒng)計量F服從jSSE(n—p—1)0jjj自由度為(1)的分布,此檢驗與回歸系數(shù)的檢驗是一致的,當從回歸方程中剔除變量時,回歸平方和減少,殘差平方和增加。反之,當往回歸方程中引入變量時,回歸平方和增加,殘差平方和減少,兩者的增減量同樣相等。六、關于擬合優(yōu)度R2=SSRR2與回歸方程中自變量的數(shù)目以及樣本容量有關,當樣本容量SST與自變量個數(shù)接近時,R2易接近1其中隱含著一些虛假成分。由R2決定模型優(yōu)劣時還需慎重。七、中心化和標準化因為多元回歸涉及的數(shù)據(jù)量很大,就可能由于舍入誤差而使計算結果不理想。產(chǎn)生舍入誤差有兩個主要原因,一是回歸分析計算中數(shù)據(jù)量級有很大差異,比如數(shù)據(jù)100與00.11這1樣1的大小相差懸殊的數(shù)據(jù)出現(xiàn)在同一個計算中;二是設計矩陣X的列向量近似線性相關時,XX為病態(tài)矩陣,其逆矩陣(XX)-1就會產(chǎn)生較大的誤差。1、中心化多元線性回歸模型的一般形式為y=P+Px+Px+…+0x+801122pp人人人人其經(jīng)驗回歸方程為J=0+0x+0x+…+0x01122pp此經(jīng)驗方程進過樣本中心x,x,…,x;y將坐標原點移至樣本中心,即作坐標12p變換:x'=x-xy'=y-yi=1,2,…,n;j=1,2,…,p上述經(jīng)驗方程即ijijii人人人人轉變?yōu)椋簓'=0+0x,+0x'+…+0x'即為中心化經(jīng)驗回歸方程。中心化經(jīng)驗01122pp人回歸方程的常數(shù)項為0而回歸系數(shù)的最小二乘估計值0保持不變,因為坐標系j平移變化只改變直線的截距,不改變直線的斜率。2、標準化回歸系數(shù)為了消除量綱不同和數(shù)量級的差異所帶來的影響,就需要將樣本數(shù)據(jù)作標準化處理,然后用最小二乘法估計未知參數(shù),求得標準化系數(shù)。x-x-y-y樣本數(shù)據(jù)標準化公式:x=ijjy=ii=1,2,…,n;j=1,2,…,pTOC\o"1-5"\h\zijLiLjjyy其中:L=Z(x-x)2,L=Z(y-y)2jjijjyyii=1i=1L標準化回歸系數(shù)與最小二乘回歸系數(shù)之間存在關系式:0'=00jLjyy人普通最小二乘估計0表示在其他變量不變的情況下,自變量x的每單位的絕對jj人變化引起的因變量均值的絕對變化量。標準化回歸系數(shù)0'表示自變量x的相jj對變化(相對于L)引起的因變量均值的相對變化百分數(shù)(相對于L)。jjyy標準化回歸系數(shù)是比較自變量對影響程度相對重要性的一種較為理想的方法,有了標準化回歸系數(shù)后,變量的相對重要性就容易進行比較了。但是,仍要注意對回歸系數(shù)的解釋須采取謹慎的態(tài)度,這是因為當自變量相關時會影響標準化回歸系數(shù)的大小。八、相關陣與偏相關系數(shù)1、樣本相關陣負相關系數(shù)反映了與一組自變量的相關性,是整體和共性指標,簡單相關系數(shù)反映的是兩個變量見的相關性,是局部和個性指標。在分析問題時,應該本著整體與局部相結合,共性與個性相結合的原則。求出與每個自變量X的相關系iTOC\o"1-5"\h\z1rr…ry1y2ypr1r…r1y121p數(shù)r,得到增廣的樣本相關陣為:~=rr1…ryi2y21.2p::::rrr…1pyp1p22、偏決定系數(shù)在多元線性回歸分析中,當其他變量被固定后,給定的任兩個變量之間的相關系數(shù),叫偏相關系數(shù)。偏相關系數(shù)可以度量個變量y,x,x,…,x之中任意12p兩個變量的線性相關程度,而這種相關程度是在固定其余個變量的影響下的線性相關。偏決定系數(shù)測量在回歸方程中已包含若干個自變量時,再引入某一個新的自變量時,的剩余變差的相對減少量,它衡量某個自變量對的變差減少的邊際貢獻。(1)兩個自變量的偏決定系數(shù)二元線性回歸模型為:y=P+Px+Px+8,i=1,2,…,ni01i12i2i記e是模型中只含有自變量x時的殘差平方和,(X,X)是模型TOC\o"1-5"\h\z2212中同時含有自變量X和X時的殘差平方和。模型中已含有X時,再加入X使1221的剩余變差的相對減小量為:r2=SSE(X2)-SSE(向X2)此時模型中已含有xy1,2SSE(x)22時,與X的偏決定系數(shù)。1(2)一般情況在模型中含有X,…,X時,與X的偏決定系數(shù)為:2p1SSE(x,…,x)-SSE(x,X,…,X)r2=2p―p-,偏決定系數(shù)與回歸系數(shù)顯著性檢驗y^2,…,pSSE(x,…,X)2p的偏值是等價的。3、偏相關系數(shù)

偏決定系數(shù)的平方根稱為偏相關系數(shù),其符號與相應的回歸系數(shù)的符號相同。偏相關系數(shù)與回歸系數(shù)顯著性檢驗的值是等價的。下面看一個例子:對上面的數(shù)據(jù)做二元線性回歸得到結果如下所示:偏相關系數(shù)表從輸出結果可以看到,兩個偏相關系數(shù)分別為r807進一步TOC\o"1-5"\h\zy1;2y2;1計算偏決定系數(shù)r2=2,表中相關系數(shù)欄的y1;2y2;1為與x的簡單相關系數(shù),分別為r,0,兩個決定系iy1y2數(shù)分別為r2r22y1y2以上數(shù)據(jù)表明,用與x作一元線性回歸時,x能消除的變差的比例為11r2,再引入變量x時,x能消除剩余變差e的比例為y1221r2因而自變量%和X消除變差的總比例為1212y2;112y1y2.這個值恰好是對X和X二元線性回歸的決定系數(shù)R212偏相關系數(shù)反映的是變量間的相關性,任意個變量X,X,…,X定義它們之間的12p偏相關系數(shù)。記1=Lj。再看一個例子說明偏相關系數(shù)和簡單相關系數(shù)jL?Liijj的關系。分別以X表示商品的銷售量,X表示消費者人均可支配收入,X表示123商品價格。從經(jīng)驗上看,銷售量與消費者的人均可支配收入之間應該有正相關,簡單相關系數(shù)1應該是正的。但是如果計算出的1是個負數(shù)也不要感到驚訝,1212這是因為還有其他沒有被固定的變量在發(fā)揮影響,例如商品的價格X在這期間大3幅提高了。反映固定X后X與X相關程度的偏相關系數(shù)1會是個正數(shù)。如果計31212;3算出的偏相關系數(shù)1仍然是個負數(shù)的話,是什么原因呢?肯定是還有需要考慮12;3而沒有考慮的重要變量,也就是沒有被固定的變量,會是什么變量?如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論