多重共線性的情形及其處理_第1頁(yè)
多重共線性的情形及其處理_第2頁(yè)
多重共線性的情形及其處理_第3頁(yè)
多重共線性的情形及其處理_第4頁(yè)
多重共線性的情形及其處理_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多重共線性的情形及其處理一、多重共線性對(duì)回歸模型的影響設(shè)回歸模型〉=B+pX+PX+…PX+£存在完全的多重共線性,即對(duì)設(shè)01122pp計(jì)矩陣X的列向量存在不全為零的一組數(shù)c,c,c,…,c,使得:012pc+cx+cX+…+cX=0(i=1,2,...,n),此時(shí)設(shè)計(jì)矩陣X的秩Rank(X)<p+1,01i12i2pip此時(shí)|xx|=0,正規(guī)萬(wàn)程組x邱二xy的解不唯一,(XX)-1不存在,回歸參數(shù)的一■人.八、最小二乘估計(jì)表達(dá)式p=(xX)-1xy不成立。在實(shí)際問題研究當(dāng)中,c+cX+cX+—+cX=0,雖然Rank(X)=p+1

01i12i2pip成立,但是IxX|』,(xX)-1的對(duì)角線兀素很大,p的萬(wàn)差陣d(P)=q2(xX)-1的對(duì)角線元素很大,而D(P)的對(duì)角線元素即為var(p),var(p),…,var(p),01p因而P0,P1?—,Pp的估計(jì)精度很低,這樣,雖然OLSE能得到p的無(wú)偏估計(jì),但估人...一...一.計(jì)量P的萬(wàn)差很大,不能正確判斷解釋變量對(duì)被解釋變量的影響程度。例如在二元回歸中,假定y與氣,X2都已經(jīng)中心化,此時(shí)回歸常數(shù)項(xiàng)為零,回歸方程為y=Px11zvC2var(p回歸方程為y=Px11zvC2var(p)=——2(1—r2)L1222221(1—r2)LTOC\o"1-5"\h\z1211X2則X,X之P和P的方差12其中L=乙2,L=^XX,L=£11i112i1i2X2則X,X之P和P的方差12間的相關(guān)系數(shù),12,'12。隨著自變量X與間的相關(guān)系數(shù),12乂11L2212將逐漸增大。當(dāng)氣與X2完全相關(guān)時(shí),r=1,方差將變?yōu)闊o(wú)窮大。當(dāng)給定不同的如值時(shí),從下表可以看出方差增大的速度。表6.1r120.00.20.500.700.800.900.950.991.00var(p1)1.01.041.331.962.785.2610.2650.258為了方便,假設(shè)M=1,相關(guān)系數(shù)從0.5變?yōu)?.9時(shí),回歸系數(shù)的方差增加了L11295%,相關(guān)系數(shù)從0.5變?yōu)?.95時(shí),回歸系數(shù)的方差增加了670%、當(dāng)回歸自變量氣與七相關(guān)程度越高,多重共線性越嚴(yán)重,那么回歸系數(shù)的估計(jì)值方差就越大,回歸系數(shù)的置信區(qū)間就變得很寬,估計(jì)的精確性就大幅度降低,使估計(jì)值穩(wěn)定性變得很差,進(jìn)一步致使在回歸方程整體高度顯著時(shí),一些回歸系數(shù)則通不過顯著性檢驗(yàn),回歸系數(shù)的正負(fù)號(hào)也可能出現(xiàn)倒置,使得無(wú)法對(duì)回歸方程得到合理的經(jīng)濟(jì)解釋,直接影響到最小二乘法的應(yīng)用效果,降低回歸方程的價(jià)值。如果利用模型去作經(jīng)濟(jì)結(jié)構(gòu)分析,要盡可能避免多重共線性;如果是利用模型去作經(jīng)濟(jì)預(yù)測(cè),只要保證自變量的相關(guān)類型在未來(lái)時(shí)期中保持不變,即未來(lái)時(shí)期自變量間仍具有當(dāng)初建模時(shí)數(shù)據(jù)的聯(lián)系特征,即使回歸模型中包含有嚴(yán)重多重共線性的變量也可以得到較好的預(yù)測(cè)結(jié)果;如果不能保證自變量的相關(guān)類型在未來(lái)時(shí)期中保持繼續(xù)不變,那么多重共線性就會(huì)對(duì)回歸預(yù)測(cè)產(chǎn)生嚴(yán)重的影響。二、多重共線性的診斷1、方差擴(kuò)大因子法'對(duì)自變量作中心標(biāo)準(zhǔn)化,則X*X*=(r)為自變量的相關(guān)陣,記'-.、一C=(匕)=(X*X*)-1稱其王對(duì)角線兀素VIF=c為自變量X的方差擴(kuò)大因子。var(P)=Cb"L(j=1,2,,p),其中L為x的離差平方和。記R2為自變jjj■jjjjjJ1量七對(duì)其余P-1個(gè)自變量的復(fù)決定系數(shù),則有七=^R-,該式子同樣也可以j作為方差擴(kuò)大因子VIF的定義。j由于RJ度量了自變量七與其余P-1個(gè)自變量的線性相關(guān)程度,這種相關(guān)程度越強(qiáng),說明自變量之間的多重共線性越嚴(yán)重,RJ也就越接近于1,VIFj.也就越大。由此可見VI。?的大小反映了自變量之間是否存在多重共線性,因此可以由它來(lái)度量多重共線性的嚴(yán)重程度。經(jīng)驗(yàn)表明,當(dāng)VIF,>10時(shí),就說明自變量七與其余自變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會(huì)過度地影響最小二乘估計(jì)值。也可以用P個(gè)自變量所對(duì)應(yīng)的方差擴(kuò)大因子的平均數(shù)來(lái)度量多重共線性,當(dāng)1TVIF=-YVIF遠(yuǎn)遠(yuǎn)大于1時(shí)就表小存在嚴(yán)重的多重共線性問題。j=1對(duì)于只含兩個(gè)解釋變量氣和X2的回歸方程,判斷它們是否存在多重共線性,實(shí)際上就是計(jì)算X和X的樣本決定系數(shù)R2,如果R2很大,則認(rèn)為X和X可能2121212存在嚴(yán)重的多重共線性。為什么說可能存在多重共線性?因?yàn)镽2和樣本容量n有關(guān),當(dāng)樣本容量較小時(shí),R2容易接近與1,就像當(dāng)n=2時(shí),兩點(diǎn)總能連成一條直線,R2=1。所以我們認(rèn)為當(dāng)樣本容量還不算小,而R2接近于1時(shí),可以肯定存在多重共線性。當(dāng)某自變量Xj對(duì)其余p-1個(gè)自變量的復(fù)決定系數(shù)R2超過一定界限時(shí),SPSS軟件將拒絕這個(gè)自變量X進(jìn)入回歸模型。稱Tol=1-R2為自變量x的容忍度。jjjj下面看一個(gè)民航客運(yùn)實(shí)例分析的結(jié)果:UnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF(Constant)450.909178.0782.5320.030x10.3540.0852.4474.1520.0020.0011963.000x2-0.5610.125-2.485-4.4780.0010.0011741.000x3-0.0070.002-0.083-3.5100.0060.3153.171x421.5784.030.5315.3540.0000.01855.488x50.4350.0520.5648.4400.0000.04025.193a.DependentVariable:y從上面共線性診斷的分析結(jié)果可以看到氣,X2的方差擴(kuò)大因子很大,分別為VIF^=1963,VIF=1741,遠(yuǎn)遠(yuǎn)超過10,說明民航客運(yùn)量回歸方程也存在這嚴(yán)重的多重共線性。氣和X2的簡(jiǎn)單相關(guān)系數(shù)為0.9989,高度相關(guān)。一般情況下,當(dāng)一個(gè)回歸方程存在嚴(yán)重的多重共線性時(shí),有若干個(gè)自變量所對(duì)應(yīng)的方差擴(kuò)大因子大于10,這個(gè)回歸方程多重共線性的存在就是方差擴(kuò)大因子超過10的這幾個(gè)變量引起的,說明這幾個(gè)自變量間有一定的多重共線性關(guān)系存在。2、特征根判定法當(dāng)矩陣XX有一個(gè)特征根近似為零時(shí),設(shè)計(jì)矩陣X的列向量間必存在多重共線性,并且XX有多少個(gè)特征根接近于零,X就有多少個(gè)多重共線性關(guān)系。記XX的最大特征根為人m,稱k=j丁,(i=0,1,2,,p)為特征根七的條件數(shù)。在i的最大特征根為人m,稱k=j條件數(shù)度量了矩陣XX的特征根散步程度,可以用它來(lái)判斷多重共線性是否存在以及多重共線性的嚴(yán)重程度。通常認(rèn)為0<k<10時(shí),設(shè)計(jì)矩陣X沒有多重共線性;10<k<100時(shí),認(rèn)為X存在較強(qiáng)的多重共線性;當(dāng)k>100時(shí),則認(rèn)為存在嚴(yán)重的多重共線性。在看上面的例子,用SPSS軟件計(jì)算出特征根與條件數(shù)結(jié)果如下所示。DimensionEigenvalueConditionIndexVarianceProportions(Constant)x1x2x3x4x515.578100000020.3783.84200000030.03712.2050.010000.030.1940.00436.4310.1700.010.090.50.0450.00253.6430.7200.010.660.150.7160.0000808262.7620.10.990.990.250.310.06a.DependentVariable:y從條件數(shù)看到,最大的條件數(shù)k6=262.762,這與方差擴(kuò)大因子法結(jié)果是一致。輸入結(jié)果中特征根是按照從大到小的順序排列的,不是按自變量的順序排列的,這與方差擴(kuò)大因子法不同。如何判定究竟是哪幾個(gè)自變量間存在共線性呢?可以由條件數(shù)表中右邊的方差比例粗略判斷。如果有某幾個(gè)自變量的方差比例值在某一行同時(shí)較大(接近1),則這幾個(gè)自變量間就存在多重共線性。表中第行x代口x的系數(shù)都為0.99,說明x和x之間存在強(qiáng)的多重共線性;表中第5行x(常數(shù)120項(xiàng)),x,x的系數(shù)分別為0.72,0.66,0.71說明x(常數(shù)項(xiàng)),x,x之間存在5035多重共線性。由于設(shè)計(jì)矩陣X的第一列有一列1,代表常數(shù)項(xiàng),X共有p+1列,XX是p+1階方陣。當(dāng)一個(gè)自變量的取值范圍很小,接近常數(shù)時(shí),這個(gè)自變量就與常數(shù)項(xiàng)存在多重共線性。如在多重共線性的定義式中,如果烏二匕二二匕二0,而C0牛0,七牛0,這時(shí)自變量氣就與常數(shù)項(xiàng)存在多重共線性。3、直觀判定法(1)當(dāng)增加或剔除一個(gè)自變量,或者改變一個(gè)觀測(cè)值時(shí),回歸系數(shù)的估計(jì)值發(fā)生較大變化。(2)從定性分析認(rèn)為,一些重要的自變量在回歸方程中沒有通過顯著性檢驗(yàn)。(3)有些自變量的回歸系數(shù)所帶正負(fù)號(hào)與定性分析結(jié)果違背。(4)自變量的相關(guān)矩陣中,自變量間的相關(guān)系數(shù)較大。(5)一些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大。

三、消除共線性的方法1、刪除一些不重要的解釋變量在選擇回歸模型時(shí),可以將回歸系數(shù)的顯著性檢驗(yàn)、方差擴(kuò)大因子VIF的多重共線性檢驗(yàn)與自變量的經(jīng)濟(jì)含義結(jié)合起來(lái)考慮,以引進(jìn)或剔除變量。2、增大樣本容量var(p)var(p)1L12_22_,var(B)=——。其中L=8x2,(1-匕)L112(1-M)L2211.],1L=8x2則x,x之間的相關(guān)系數(shù),=史』,可以看到,在rL1222..21212LL12當(dāng)樣本容量n增大時(shí),L11和L22都會(huì)增大,兩個(gè)方差均可減小,從而減弱了多重共線性對(duì)回歸方程的影響。因此,增大樣本容量也是消除多重共線性的一個(gè)途徑。在實(shí)踐中,當(dāng)所選的變量個(gè)數(shù)接近樣本容量n時(shí),自變量間就容易產(chǎn)生共線性。所以在運(yùn)用回歸分析研究經(jīng)濟(jì)問題時(shí),要盡可能使樣本容量n遠(yuǎn)大于自變量個(gè)數(shù)P。但是,增加了樣本數(shù)據(jù),可能新的數(shù)據(jù)距離原來(lái)樣本數(shù)據(jù)的平均值較大,會(huì)產(chǎn)生一些新的問題,使模型擬合變差,沒有收到增加樣本數(shù)據(jù)期望的效果。四、回歸系數(shù)的有偏估計(jì)為了消除多重共線性對(duì)回歸模型的影響,還可以采取有偏估計(jì)為代價(jià)來(lái)提高估計(jì)量穩(wěn)定性的方法,如嶺回歸,主成份回歸法,偏最小二乘法等。五、主成份回歸主成分分析是多元統(tǒng)計(jì)分析的一個(gè)基本方法,是對(duì)數(shù)據(jù)做一個(gè)正交旋轉(zhuǎn)變換,就是對(duì)原有變量做一些線性變換,變換后的變量都是正交的。為了避免變量的量綱不同所產(chǎn)生的影響,要先把數(shù)據(jù)做中心標(biāo)準(zhǔn)化,中心標(biāo)準(zhǔn)化后的自變量樣本觀測(cè)數(shù)據(jù)矩陣X*就是n行p列的矩陣,r=(X*)'X?就是相關(guān)陣。六、一些問題在建立經(jīng)濟(jì)問題的回歸模型時(shí),當(dāng)發(fā)現(xiàn)解釋變量之間的簡(jiǎn)單相關(guān)系數(shù)很大時(shí),可以斷定自變量間存在著嚴(yán)重的多重共線性,但是,一個(gè)回歸方程存在嚴(yán)重的多元共線性時(shí),并不能完全肯定解釋變量之間的簡(jiǎn)單相關(guān)系數(shù)就一定很大。例如對(duì)含有三個(gè)自變量的回歸模型:〉=0+8x+px+px+£,假定三個(gè)變TOC\o"1-5"\h\z0112233量之間有完全確定的關(guān)系:x=x+x,因?yàn)閤可以由x和x線性表示,所以123123變量x與x和x的復(fù)決定系數(shù)R2=1,回歸方程存在完全的多重共線性。再假定1231,23x與x的簡(jiǎn)單相關(guān)系數(shù)r=-0.5,x與x的離差平方和L=L=1,此時(shí)2323232233L=rLL=-0.5,L=8(x一x)2=8(x+x一(x+x))2=8(x一x)2232322331111232322+8(x一x)2+8(x一x)(x一x)=1+1+2(-0.5)=1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論