版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、項(xiàng)目6 多重共線性問題l1知識(shí)目標(biāo):多重共線性的含義、原因及其后果;多重共線性的檢驗(yàn)方法包括相關(guān)矩陣法、輔助回歸模型檢驗(yàn)、方差膨脹因子法等;多重共線性的修正包括改變模型形式、刪除自變量、減少參數(shù)估計(jì)量的方差等幾類方法。 l2能力目標(biāo):理解多重共線性的含義;理解多重公共線產(chǎn)生的原因與后果;掌握多重共線性的檢驗(yàn)方法與應(yīng)用;掌握多重共線性的修正方法與應(yīng)用?!緦W(xué)習(xí)目標(biāo)【學(xué)習(xí)目標(biāo)】【情景寫實(shí)】l經(jīng)濟(jì)學(xué)家在研究人們的消費(fèi)水平時(shí),發(fā)現(xiàn)除了收入因素外,人們的財(cái)富也是決定消費(fèi)的一項(xiàng)重要的因素。但從收入與財(cái)富的實(shí)際數(shù)據(jù)分析,可得出兩者具有很強(qiáng)的相關(guān)性:富有的人一般收入也較高。從理論上看收入與財(cái)富可以成為解釋消費(fèi)水
2、平的兩個(gè)變量,但實(shí)際卻很難將收入與財(cái)富對(duì)消費(fèi)水平的影響分離開來。l因此,在建立線性回歸模型時(shí),自變量之間的相關(guān)性是確定模型自變量的一個(gè)重要因素。任務(wù)6.1 多重共線性問題概述l多元線性回歸模型中假定任意自變量之間沒有明確的線性關(guān)系。如果回歸模型中自變量之間存在線性相關(guān)性,則稱模型存在多重共線性的問題。多重共線性違背了多元回歸模型的基本假定,將影響模型回歸系數(shù)的普通最小二乘估計(jì)。l對(duì)于一個(gè)回歸模型, 為模型的個(gè)自變量,如果其中的某兩個(gè)或多個(gè)自變量之間存在完全或準(zhǔn)確的線性相關(guān)性,則稱該模型存在多重共線性。多重共線性分為完全多重共線性與不完全多重共線性兩種類型。l當(dāng)自變量之間存在完全的線性相關(guān)性時(shí),
3、稱為完全多重共線完全多重共線性性。用數(shù)學(xué)方法解釋為,存在不全為零的數(shù) ,使得下式成立:l表明模型中至少有一個(gè)自變量可以用其他自變量的線性組合表示。l當(dāng)自變量之間存在近似的線性相關(guān)性時(shí),稱為不完全多重共不完全多重共線性線性。用數(shù)學(xué)方法解釋為,存在不全為零的數(shù) ,使得下式成立:l其中 為隨機(jī)誤差項(xiàng)。表明模型中至少存在一個(gè)自變量可由其它自變量的線性組合與隨機(jī)誤差項(xiàng) 共同表示。一、多重共線性的含義一、多重共線性的含義12,kXXXL12,k L11220,1,2,.iikkiXXXinLL12,k L11220,1,2,.iikkiiXXXinLLii【相關(guān)鏈接】l我國(guó)居民家庭對(duì)電力的需求模型我國(guó)居民
4、家庭對(duì)電力的需求模型l建立一個(gè)我國(guó)居民家庭電力需求量模型,以居民人均居住面積和人均可支配收入指數(shù)為解釋變量。下表是一組相關(guān)數(shù)據(jù):l觀察表中的數(shù)據(jù)發(fā)現(xiàn)居民年人均可支配收入指數(shù) 越高相應(yīng)的人均居住面積 越大,說明兩者可能存在較強(qiáng)的相關(guān)性。根據(jù)數(shù)據(jù)我們對(duì) 和 進(jìn)行相關(guān)性分析,得出它們的相關(guān)系數(shù)為 。l將對(duì)進(jìn)行回歸,得到: , 分析結(jié)果表明居民收入與居住面積之間有高度的線性相關(guān)性。說明以居民收入和居住面積為說明以居民收入和居住面積為解釋變量的居民電力需求模型存在不完全多重解釋變量的居民電力需求模型存在不完全多重共線性。共線性。2X1X1X2X12=0.96310.8r124.11270.0368ttX
5、X20.9276R 二、多重共線性的原因二、多重共線性的原因l在現(xiàn)實(shí)情況中,除了人為構(gòu)造的數(shù)據(jù)以外,完全多重共線性是幾乎不存在的。較常見的是不完全多重共線性的問題,也就是模型自變量之間存在近似或高度的相關(guān)性。這種多重共線性問題產(chǎn)生的原因可能有以下幾點(diǎn)。l(1)模型中所包含的一些自變量同時(shí)隨時(shí)間呈 現(xiàn)增減變化,具有相同的時(shí)間趨勢(shì)。如在經(jīng)濟(jì)繁 榮時(shí)期,社會(huì)的收入、消費(fèi)、投資、通貨膨脹率、就業(yè)率等經(jīng)濟(jì)因素都呈上升趨勢(shì);經(jīng)濟(jì)蕭條時(shí),這些因素又都呈下降趨勢(shì)。說明這些基本經(jīng)濟(jì)因素之間存在較強(qiáng)的共線性,若將它們同時(shí)引入到同一個(gè)回歸模型中作為自變量,會(huì)導(dǎo)致非常嚴(yán)重的多重共線性問題。l(2)數(shù)據(jù)采集的范圍有限,
6、或采集的樣本量小于模型的自變量個(gè)數(shù)。如在罕見疾病的研究過程中,由于病情罕見、病因又相當(dāng)復(fù)雜,而只能在少數(shù)的患者身上采集大量的變量信息。l(3)模型中的一些變量是另外一些變量的滯后變量。例如杜森貝利相對(duì)收入假設(shè)消費(fèi)函數(shù),其簡(jiǎn)化形式為:l其中, 、 分別為第 期、第 期的消費(fèi)支出, 為第 期的收入, 為隨機(jī)誤差項(xiàng)。杜森貝利相對(duì)收入理論假設(shè) 與期的消費(fèi)支出具有較強(qiáng)的相關(guān)性。顯然,第 期的收入 與 期的消費(fèi)支出 具有較強(qiáng)的相關(guān)性。 0121,1,2,.ttttCYCtnLtC-1tCt1t tYttttY1t -1tCl(4)實(shí)際中模型的一些自變量之間存在密切的關(guān)系。例如建立一個(gè)服裝需求模型,模型以消
7、費(fèi)者收入與服裝價(jià)格為解釋變量。在現(xiàn)實(shí)生活中,收入較高的消費(fèi)者購買的服裝價(jià)格也相對(duì)較高;反之亦然。說明消費(fèi)者收入與服裝價(jià)格之間存在較強(qiáng)的線性相關(guān)性,模型存在多重共線性問題。三、多重共線性的后果三、多重共線性的后果l在多元回歸模型中,不管存在完全多重共線性,還是不完全多重共線性,都會(huì)對(duì)模型回歸系數(shù)的普通最小二乘估計(jì)產(chǎn)生嚴(yán)重的影響。下面以二元線性回歸模型為例進(jìn)行說明。 l(一)完全多重共線性的情況下,模型回歸系數(shù)的普通最小二乘參數(shù)估計(jì)值無法確定,并且估計(jì)量的方差為無窮大。 二元線性回歸模型的基本形式如下: 由第三章中的結(jié)論可知回歸系數(shù)的普通最小二乘估計(jì)量及其方差分別為:01122,1,2,.iiii
8、YXXinL21221212221212iiiiiiiiiiiy xxy xx xxxx x 2122112var1ixrl若模型存在完全多重共線性,則模型自變量 與的相關(guān)系數(shù) ,并且存在不為零的常數(shù),使得 ,代入上述估計(jì)量及其方差中得:l可見 無法確定,且 。同理 也無法確定,且 222111112222211100iiiiiiiiiy xxy xxxxx 2121var.1 1ix 1X2X121r 21iiXX1 1var 22var (二)不完全多重共線性情況下,對(duì)模型(二)不完全多重共線性情況下,對(duì)模型的可能產(chǎn)生的后果主要有以下幾點(diǎn):的可能產(chǎn)生的后果主要有以下幾點(diǎn): (1)不完全多重
9、共線性問題存在的情況下,模型回歸系數(shù)的普通最小二乘估計(jì)量存在,并且仍然是最優(yōu)線性無偏估計(jì)量。也就是說在回歸系數(shù)的所有線性無偏估計(jì)量中,普通最小二乘估計(jì)量的方差是最小的。但是方差在不完全多重共線性的影響下變大,使得估計(jì)量的可靠度降低。l以上述的二元線性回歸模型為例,回歸 系數(shù)的普通最小二乘估計(jì)量的方差為:l引入方差膨脹因子方差膨脹因子(variance-inflating factor,VIF),定義為:l推廣 到元回歸模型中,模型回歸系數(shù)估計(jì)量 的l方差為: l其中方差膨脹因子為:l其中 代表自變量變量 對(duì)其余自變量做回歸模型的擬合優(yōu)度。l則 的方差可表示為:1 2122112var.1ixr
10、2121;1VIFrkj222var1jjjxR22jjVIFx211jjVIFR2jRjX1 2121var.iVIFxl根據(jù)方差膨脹因子 的表達(dá)式,可以看出 與 的方差成正比,能夠反映估計(jì)量 的方差的增長(zhǎng)速度。若二元回歸模型存在不完全多重共線性,則自變量 與 的相關(guān)系數(shù) 。當(dāng)線性相關(guān)的程度越大,即相關(guān)系數(shù) 越接近1時(shí),方差膨脹因子 越大并趨于無窮。此時(shí)普通最小二乘估計(jì)量 的方差也迅速增大,同時(shí)趨于無窮。 VIFVIFVIF1111X2X120.81r12rl(2)回歸系數(shù)的普通最小二乘估計(jì)量的經(jīng)濟(jì)含義不合理。如普通最小二乘估計(jì)量 的意義是:在自變量 維持不變的情況下,自變量 每變化一個(gè)單位
11、時(shí)因變量 的均值的變化率。然而,模型在存在不完全多重共線性的問題時(shí),自變量 和 是高度線性相關(guān)的。因此無法做到保持變量 不變的情況下,只變化變量 的值。也就是說此時(shí)反映的是自變量 和 對(duì)因變量 的共同影響,而不是 對(duì) 的獨(dú)立影響,并且沒有方法能夠度量 中自變量 、 對(duì)因變量的 各自影響的大小。因此, 失去了原本的經(jīng)濟(jì)含義。12X1XY1X2X2X1X1X2XY1XY11X2XY1l(3)回歸模型的擬合優(yōu)度 較大,但是變量的顯著性檢驗(yàn) 值變小,不顯著的可能性變大。如對(duì)變量 進(jìn)行顯著性檢驗(yàn),原假設(shè)為 ,檢驗(yàn)統(tǒng)計(jì)量 值為 。如前所述,當(dāng)自變量 、 存在高度線性相關(guān),并且相關(guān)程度越來越高時(shí), 的方差和
12、標(biāo)準(zhǔn)差迅速增大,從而使得 值變小,接受原假設(shè)的可能性增大,即變量無法通過顯著性檢驗(yàn)的概率增大。2Rt1X10t 11/ s1X2X1t【相關(guān)鏈接】l多重共線性的后果多重共線性的后果l引用相關(guān)鏈接6.1中我國(guó)居民家庭電力需求模型的數(shù)據(jù),以居民人均居住面積和人均可支配收入指數(shù)為解釋變量,電力需求量為因變量建立二元回歸模型,Eviews6.0運(yùn)行結(jié)果如下表: l由回歸結(jié)果得到二元回歸方程為:l模型的擬合優(yōu)度 ,總體的 檢驗(yàn)顯著。自變量的 檢驗(yàn)結(jié)果只有自變量 是顯著的,而自變量 的顯著性檢驗(yàn) 值為 (不顯著),這意味著只有收入 對(duì)居民的電力需求量 有顯著影響,而人均居住面積 對(duì)電力需求量 沒有顯著的影
13、響。12125.35302.80860.4409tttYXX 20.9910R Ft2X1Xt1.748822XY1XY任務(wù)任務(wù)6.2 多重共線性的檢驗(yàn)多重共線性的檢驗(yàn)l在意識(shí)到多重共線性可能產(chǎn)生的后果之后,該如何解決多重共線性問題呢?這之前我們首先需要明確模型中是否存在多重共線性問題,也就是找到檢驗(yàn)多重共線性是否確切存在的方法。在6.1節(jié)中我們以簡(jiǎn)單的二元回歸模型為例,對(duì)多重共線性問題作出說明,可以發(fā)現(xiàn)檢驗(yàn)二元線性回歸模型的多重共線性方法比較簡(jiǎn)單,只需計(jì)算兩個(gè)解釋變量的相關(guān)系數(shù),判斷是否達(dá)到高度相關(guān)的程度。那么,如何檢驗(yàn)多元線性回歸模型中是否存在多重共線性,即檢驗(yàn)是否存在兩個(gè)或多個(gè)自變量存在
14、完全或高度線性相關(guān)?這將涉及到更復(fù)雜的多個(gè)自變量之間的相關(guān)性問題。 一、多重共線性的檢驗(yàn)方法一、多重共線性的檢驗(yàn)方法l多重共線性本質(zhì)上是一種樣本特征,而不是總體特征。它是基于我們對(duì)解釋變量的非實(shí)驗(yàn)數(shù)據(jù)的研究所得出的結(jié)果,更確切地說樣本決定了模型中多重共線性的程度。因此,目前檢驗(yàn)多重共線性的多種方法,其實(shí)是基于樣本數(shù)據(jù)研究的一些經(jīng)驗(yàn)規(guī)則,并沒有一種被普遍接受。下面我們主要介紹以下幾種常見方法。l考察多元線性回歸模型的回歸結(jié)果,如果模型的擬合優(yōu)度 值很大(超過0.8),但是模型的多個(gè)或全部解釋變量的 檢驗(yàn)結(jié)果不顯著,說明模型可能存在多重共線性問題。這是線性回歸模型存在多重共線性問題的一個(gè)“經(jīng)典”標(biāo)
15、志。如相關(guān)鏈接6.2中,我國(guó)居民家庭電力需求模型存在多重共線性,模型的擬合優(yōu)度 ,而兩個(gè)解釋變量中居民人均居住面積 的 檢驗(yàn)結(jié)果卻不顯著。1. 值大而顯著的 值比率少2Rt2Rt20.99100.8R 1Xt2.相關(guān)矩陣法l檢驗(yàn)多重共線性的另一種較普遍的方法是利用模型自變量的相關(guān)矩陣。對(duì)于多元線性回歸模型:l則模型自變量 的相關(guān)系數(shù)矩陣為:01122,1,2,.iiikkiiYXXXinLL12,kXXXL11121121212222121212111kkkkkkkkkkrrrrrrrrrrRrrrrrLLLLMMOMMMOMLLl其中 是自變量 與 的相關(guān)系數(shù)。顯然每個(gè)自變量都與自身完全相關(guān)
16、,因此相關(guān)系數(shù)矩陣 對(duì)角線上的元素值均為1。而矩陣非對(duì)角線上的元素則包含所有自變量?jī)蓛芍g的相關(guān)系數(shù),如果這些相關(guān)系數(shù)中存在部分相關(guān)系數(shù)絕對(duì)值大于0.8,說明該相關(guān)系數(shù)涉及的兩個(gè)自變量之間存在高度線性關(guān)系,那么模型就存在不完全多重共線性。,1,2,ijri jkLiXjXR 但是我們仔細(xì)思考又會(huì)發(fā)現(xiàn)一個(gè)問題,相關(guān)系數(shù)矩陣反映的是兩兩自變量之間的相關(guān)程度,那么如果相關(guān)矩陣 上的所有元素的絕對(duì)值均小于0.8,能夠說明該模型不存在多重共線性嗎?答案是不能。這是由于矩陣 中的所有相關(guān)系數(shù)絕對(duì)值小于等于0.8,只能說明模型中所有自變量?jī)蓛芍g不相關(guān),并不代表模型的三個(gè)或者三個(gè)以上的自變量之間不存在高度相
17、關(guān)關(guān)系,因此不能說明此時(shí)模型不存在多重共線性問題。這就是相關(guān)矩陣法的局限所在。 RR3.輔助回歸模型檢驗(yàn)l根據(jù)多重共線性的性質(zhì),即模型中至少存在一個(gè)自變量可以由其他自變量的準(zhǔn)確或近似線性組合表示。那么如果我們找出一個(gè)或者多個(gè)自變量與其他自變量的這種準(zhǔn)確或近似的線性關(guān)系的話,就能l夠說明模型存在多重共線性。因此,考慮做每一個(gè)自變量對(duì)其他自變量的線性回歸模型,并計(jì)算出相應(yīng)的擬合優(yōu)度,這樣的回歸模型稱為輔助回輔助回歸模型歸模型。 l模型的形式如下:l其中 ; 。輔助回歸模型的擬合優(yōu)度記為 。做模型中的每個(gè)自變量對(duì)其他自變量的線性回歸模型,得到 個(gè)回歸模型及相應(yīng)的擬合優(yōu)度 。如果這個(gè)回歸模型中存在較大
18、的擬合優(yōu)度(大于0.8),并且模型的總體 檢驗(yàn)顯著,則說明該模型中作為因變量的 可由其他自變量的近似線性組合表示,即模型存在多重共線性問題。0111(1)1(1),jiijjijjikkiiXXXXXLL1,2,inL1,2,jkL2jRk22212,kRRRLFjX4.方差膨脹因子法l前面我們已經(jīng)介紹了方差膨脹因子VIF,當(dāng)自變量間的共線性程度越大時(shí),VIF值也隨之增大。所以有部分學(xué)者也利用方差膨脹因子來檢驗(yàn)多重共線性問題。一般來說,當(dāng)VIF10時(shí),表明VIF涉及的兩個(gè)變量存在高度線性相關(guān),模型存在不完全多重共線性。l方差膨脹因子法是度量模型共線性程度的經(jīng)驗(yàn)法則之一。但是這種方法也存在一定的
19、弊端。從多元回歸模型最小二乘估計(jì)量 的方差表達(dá)式可知, 的值同時(shí)決定于 、 、VIF值的大小。那么一個(gè)高的VIF值并不代表估計(jì)量 的方差值也會(huì)高,它可以被一個(gè)較小的值 和一個(gè)較大的值 抵消掉。也就是說一個(gè)較高的方差膨脹因子,能夠說明模型較高程度的多重共線性問題,但是并不一定會(huì)使得模型回歸系數(shù)估計(jì)量的方差也變大。 jvarj22jxj22jx二、多重共線性檢驗(yàn)的應(yīng)用二、多重共線性檢驗(yàn)的應(yīng)用l前面介紹了幾種比較普遍的多重共線性檢驗(yàn)方法,下面我們以我國(guó)旅游市場(chǎng)收入模型為例,運(yùn)用上述幾種方法檢驗(yàn)?zāi)P椭械亩嘀毓簿€性問題。根據(jù)研究分析,我國(guó)國(guó)內(nèi)旅游收入的影響因素主要有:國(guó)內(nèi)旅游人數(shù),城鎮(zhèn)居民人均旅游支出,
20、農(nóng)村居民人均旅游支出,公路里程,鐵路里程。已知我國(guó)1994-2003年的旅游收入及相關(guān)因素的統(tǒng)計(jì)數(shù)據(jù),如下表6.3所示,建立我國(guó)旅游市場(chǎng)收入模型,檢驗(yàn)?zāi)P褪欠翊嬖诙嘀毓簿€性。 【相關(guān)鏈接【相關(guān)鏈接】 容容 許許 度度l我們將方差膨脹因子的倒數(shù)稱為容許度容許度(tolerance,TOL),即l顯然容許度值介于0和1之間。當(dāng) 值越大時(shí),相關(guān)系數(shù) 越小,說明模型中變量的共線性程度越小。反之,如果 越小,則相關(guān)系數(shù) 越大,說明模型中變量的共線性程度越大。因此,我們也可以利用容許度值來判斷模型共線性程度的高低。211,jjjTOLRVIF jTOL2jRjTOL2jRl利用Eviews6.0軟件,以我
21、國(guó)國(guó)內(nèi)旅游收入為因變量,國(guó)內(nèi)旅游人數(shù),城鎮(zhèn)居民人均旅游支出,農(nóng)村居民人均旅游支出,公路里程,鐵路里程為自變量建立多元線性回歸模型,模型的回歸結(jié)果為:表6.4 我國(guó)旅游市場(chǎng)收入模型回歸結(jié)果l由表6.4的回歸結(jié)果得到模型的回歸方程為: 12345274.37730.01315.43823.271812.9862563.1077ttttttYXXXXX ( 0.2084)(1.0312)(3.9396)(3.4651)(3.1083)( 1.7527)t 20.9954R 2.3116DW 173.3525F 運(yùn)用前面介紹的四種方法檢驗(yàn)?zāi)P偷亩嘀毓簿€運(yùn)用前面介紹的四種方法檢驗(yàn)?zāi)P偷亩嘀毓簿€性:性:l
22、方法一:方法一: 值大而顯著的值比率少值大而顯著的值比率少 根據(jù)表6.4的回歸結(jié)果可知,模型回歸的擬合優(yōu)度為 ,總體 的檢驗(yàn)顯著。但是模型的五個(gè)自變量的 檢驗(yàn)中,自變量 、 的回歸系數(shù)不顯著。并且按照現(xiàn)實(shí)經(jīng)驗(yàn),旅游收入 與 鐵路里程 成正相關(guān)關(guān)系。而回歸結(jié)果自變量 的回歸系數(shù)為負(fù)數(shù),與現(xiàn)實(shí)相反。這些現(xiàn)象表明模型可能存在較嚴(yán)重的多重共線性問題。2R20.99540.8R Ft1X5XY5X5X方法二:相關(guān)矩陣法方法二:相關(guān)矩陣法l運(yùn)用Eviews6.0軟件計(jì)算出模型自變量的相關(guān)系數(shù)矩陣為: 從相關(guān)系數(shù)矩陣可以看出,模型中的各自變量之間普遍存在較強(qiáng)線性相關(guān)性,說明該模型存在較嚴(yán)重的多重共線性問題。
23、方法三:輔助回歸模型檢驗(yàn)建立每個(gè)自變量對(duì)其他自變量的輔助回歸模型得到的回歸結(jié)果分別為:l(1) 對(duì) 的回歸方程為:l(2) 對(duì) 的回歸方程為:1X2345XXXX、1234515041.21 19.91021.9550227.90156303.473tttttXXXXX ( 0.32767)(0.4164)(0.0588)(2.1455)(0.5749)t 210.9440R 2.5852DW 21.0903F 2X1345XXXX、21345523.92460.00170.33690.1525146.1674tttttXXXXX ( 1.4698)(0.4164)(1.2656)( 0.11
24、28)(1.8045)t 220.9483R 1.7728DW 22.9430F (3) 對(duì) 的回歸方程為:3X1245XXXX、31245255.9301 0.00040.72011.005214.8098tttttXXXXX ( 0.4175)(0.0588)(1.2656)( 0.5216)(0.0974)t 230.7727R 1.3634DW 4.2496F (4) 對(duì) 的回歸方程為:4X1235XXXX、4123583.22600.00210.01660.051313.7475tttttXXXXX ( 0.6122)(2.1455)( 0.1128)( 0.5216)(0.4063
25、)t 240.9076R 1.7679DW 12.2806F l(5) 對(duì) 的回歸方程為 :5X1234XXXX、6512343.99269.84 100.00270.00010.0023tttttXXXXX(9.6581)(0.5749)(1.8045)(0.0974)(0.4063)t 250.9501R 2.2084DW 23.8243F 從上述的輔助回歸結(jié)果可知,除了自變量 對(duì) 的回歸模型擬合優(yōu)度 較小,并且模型總體沒有通過 檢驗(yàn)。其他四個(gè)回歸模型的擬合優(yōu)度均較高,并且模型總體均通過 檢驗(yàn)。由此說明模型自變量 之間存在較高的線性相關(guān)性,模型存在較嚴(yán)重的多重共線性。3X1245XXXX、
26、23RFF12345XXXXX、方法四:方差膨脹因子法l將方法三中得到的輔助回歸模型的各擬合優(yōu)度代入下式:l計(jì)算得到的方差膨脹因子值分別為: 可以看出,除了 ,其余的方差膨脹因子值均大于10,表明模型中存在較嚴(yán)重的多重共線性問題。211jjVIFR1=17.8571VIF2=19.3424VIF3=4.3995VIF4=10.8225VIF5=20.0401VIF310VIF 任務(wù)任務(wù)6.3 6.3 多重共線性的修正多重共線性的修正l多重共線性的檢驗(yàn)方法主要研究了模型是否存在多重共線性以及共線性程度高低的問題。那么接下來該如何修正多重共線性呢?在研究這個(gè)問題之前,我們首先要明確多重共線性的存在
27、對(duì)模型而言并不都是不利的。如果我們建立回歸模型的目的在于預(yù)測(cè),那么只要模型的擬合效果好,即模型的擬合優(yōu)度高,這樣建立良好的預(yù)測(cè)模型的目的就達(dá)到了。而多重共線性的存在并不影響預(yù)測(cè)的效果,甚至可能有所幫助。l例如在我國(guó)居民電力需求模型的研究中,電力需求量Y 對(duì)居民人均居住面積 和人均收入 的回歸模型擬合優(yōu)度 ,模型的擬合效果非常好。而單獨(dú)建立對(duì)和對(duì)的回歸模型擬合優(yōu)度分別為0.9881、0.9440,可見在消除多重共線性的情況下,模型的擬合效果反而下降了。因此,如果我們的目的不是僅僅為了預(yù)測(cè),而是為了進(jìn)一步建立更加準(zhǔn)確的回歸模型,就必須修正多重共線性問題。1X2X20.9910R 一、多重共線性的修
28、正方法一、多重共線性的修正方法l由于多重共線性是一種樣本現(xiàn)象,是某一特定樣本的特征。因此,與多重共線性的檢驗(yàn)方法一樣,多重共線性的修正也沒有一個(gè)確保無誤的方法,而是一些經(jīng)驗(yàn)規(guī)則。下面介紹幾類主要方法。l1. 1. 改變模型的形式改變模型的形式 有時(shí)模型設(shè)定不當(dāng)也會(huì)產(chǎn)生多重共線性問題,因此我們可以通過變換模型的函數(shù)形式或自變量形式來降低多重共線性的程度。 l(1 1)變換模型的函數(shù)形式)變換模型的函數(shù)形式,例如將線性回歸模型轉(zhuǎn)化為對(duì)數(shù)模型或者多項(xiàng)式模型。l多元線性回歸模型的基本形式為:l轉(zhuǎn)化為對(duì)數(shù)模型:l(2)改變模型自變量的形式)改變模型自變量的形式。一般而言,對(duì)于橫截面數(shù)據(jù)可以采用相對(duì)數(shù)變量
29、,時(shí)間序列數(shù)據(jù)則采用差分變量 01122+,1,2,.iiikkiiYXXXinLL 01122lnlnln+ln,1,2,.iiikkiiYXXXinLLla)相對(duì)數(shù)變量)相對(duì)數(shù)變量l例如,某一商品需求模型,以商品需求量 為因變量,消費(fèi)者可支配收入 、商品價(jià)格 、替代商品價(jià)格 為自變量,建立多元線性回歸模型:l在實(shí)際中,商品價(jià)格 與替代商品價(jià)格 往往存在高度線性關(guān)系。此時(shí)可以采用商品價(jià)格與替代商品價(jià)格的相對(duì)價(jià)格 代替價(jià)格變量。用相對(duì)數(shù)變量替換后的商品需求模型轉(zhuǎn)化為:l自變量替換后,相對(duì)價(jià)格 包含了所有價(jià)格信息對(duì)商品需求量的影響,有效地消除由于商品價(jià)格與替代商品價(jià)格引起的高度多重共線性問題。Y
30、1X2X3X0112233,1,2,.iiiiiYXXXinL2X3X23iiiPXX0112,1,2,.iiiiYXPinLiPlb)差分變量)差分變量l對(duì)于以時(shí)間序列數(shù)據(jù)為樣本的線性回歸模型,將模型中所有變量進(jìn)行差分后形成新變量,然后建立新的線性回歸模型:l其中, , , 。一般地,時(shí)間序列數(shù)據(jù)經(jīng)過差分后的變量之間線性關(guān)系程度會(huì)大大降低。所以用差分變量代替原始變量能夠降低原模型的多重共線性程度。01122+,1,2,.tttkkttYXXXtnLL1tttYYY(1)ititi tXXX1,2,ikL【相關(guān)鏈接【相關(guān)鏈接】l改變模型的形式改變模型的形式l運(yùn)用改變模型形式的方法處理相關(guān)鏈接6
31、.1中我國(guó)居民家庭電力需求模型的多重共線性問題。l(1)考慮將模型變換為對(duì)數(shù)模型,對(duì)數(shù)模型的擬合結(jié)果如下表6.3.1所示:表6.3.1 電力需求對(duì)數(shù)模型擬合結(jié)果l對(duì)數(shù)模型擬合方程為: , ,l從擬合結(jié)果,可以發(fā)現(xiàn)對(duì)數(shù)模型也擁有很高的擬合優(yōu)度,并且自變量與的回歸系數(shù)均顯著。說明通過改變?cè)P蜑閷?duì)數(shù)模型之后,消除了模型中由于多重共線性而引起的值不顯著的后果。 12ln10.09103.0081ln1.0035ln,ttttYXX ( 8.7615)(5.2357)(2.2096)t 20.9883R 2.1935DW 421.7588F l(2)由于模型涉及1985-1997年期間我國(guó)居民家庭電力
32、需求相關(guān)統(tǒng)計(jì)數(shù)據(jù),是一組時(shí)間序列數(shù)據(jù),因此我們可以考慮用差分變量代替原始變量建立模型,模型擬合結(jié)果如下表6.3.2所示:表6.3.2 差分變量替換后的電力需求模型擬合結(jié)果新模型回歸方程為: l從上述回歸結(jié)果可以發(fā)現(xiàn),經(jīng)過差分變量替換原始變量之后,模型的擬合優(yōu)度 很低,并且模型總體以及其中一個(gè)變量沒有通過顯著性檢驗(yàn)。繼續(xù)考察差分變量替換后,模型自變量相關(guān)關(guān)系的變化情況。差分變量 和 的相關(guān)系數(shù)為 ,而原自變量 和 的相關(guān)系數(shù)為 ,可見原變量經(jīng)過差分后,它們之間已不存在了高度線性相關(guān)性。綜合以上的實(shí)例分析,結(jié)果表明運(yùn)用差分變量替換原變量的方法,能夠大程度的降低變量的線性相關(guān)程度,從而消除模型的多重
33、共線性。但是需要注意的是,用差分變量替換后的新模型回歸結(jié)果不一定比原模型好。因此,我們要考慮建模的目的以及模型效果等因素,決定能否應(yīng)用差分變量替換方法處理多重共線性問題。124.4593 1.98990.2476,ttttYXX(2.4183)( 1.0013)(2.5213)t 20.4737R 2.1935DW 4.0508F 2R1X2X120.1228r 1X2X120.9631r 2.刪除自變量l(1)刪除不重要的自變量)刪除不重要的自變量l如果模型中存在對(duì)因變量沒有顯著影響的自變量,或者該自變量對(duì)因變量的影響能夠被其他自變量所替代,那么這樣的自變量可以直接刪除。從而減少自變量信息的
34、重疊,減弱模型多重共線性的程度。但是需要注意的是,在刪除自變量時(shí),必須從實(shí)際經(jīng)濟(jì)理論分析出發(fā),確定該自變量相對(duì)不重要或可被替代。如果自變量刪除不當(dāng),將會(huì)導(dǎo)致模型設(shè)定誤差問題,即模型未被正確設(shè)定,從而嚴(yán)重影響模型參數(shù)估計(jì)結(jié)果。l(2)逐步回歸法)逐步回歸法刪除引起共線性的自變量刪除引起共線性的自變量l多重共線性問題的本質(zhì)是模型中存在完全或高度線性相關(guān)的自變量,因此處理多重共線性一個(gè)直接的思路就是刪除一個(gè)或多個(gè)引起共線性的自變量。逐步回歸法是常用并較有效的刪除共線性自變量的方法。逐步回歸法的基本思想是先將因變量對(duì)每個(gè)自變量做線性回歸方程,稱為基本回歸方程。根據(jù)基本回歸方程的回歸結(jié)果判斷自變量對(duì)因變
35、量的貢獻(xiàn)大小,將貢獻(xiàn)最大的自變量作為基礎(chǔ)變量。然后逐一加入其他變量進(jìn)行回歸,每引入一個(gè)新的變量時(shí),都要檢驗(yàn)新建立的模型的擬合效果是否有顯著提高;并且新模型中先前引入的自變量是否顯著,如果不顯著就將其剔除。從而保證回歸方程中均為顯著變量,直到?jīng)]有顯著的變量可以引入模型為止。然而,逐步回歸法剔除自變量時(shí),同樣需要考慮實(shí)際的經(jīng)濟(jì)理論,以免產(chǎn)生模型設(shè)定誤差問題。3.3.減少參數(shù)估計(jì)量的方差減少參數(shù)估計(jì)量的方差 l(1)增加樣本量)增加樣本量l由于多重共線性是一種樣本特征,對(duì)于不同樣本建立的模型,多重共線性的嚴(yán)重程度也可能不同。增大樣本量可能能夠減輕多重共線性引起的參數(shù)估計(jì)量方差變大的后果。例如對(duì)于二元
36、線性回歸模型,回歸系數(shù)估計(jì)量的方差為:l一般而言,當(dāng)樣本量增大時(shí), 也會(huì)增大,從而起到減小 方差的作用,增大 估計(jì)的準(zhǔn)確度。l但是在實(shí)際研究工作中,采集更多觀測(cè)信息需要花費(fèi)較大的成本,并且新增觀測(cè)數(shù)據(jù)的產(chǎn)生過程較難與原來數(shù)據(jù)的產(chǎn)生保持一致。 2122112var.1ixr21ix11l(2)嶺回歸法)嶺回歸法l嶺回歸法是由Hoerl在1962年首先提出,并在1970年與Kennanard共同合作發(fā)展起來的一種改良的最小二乘法。它是在普通最小二乘法的基礎(chǔ)上,犧牲其無偏性,引入偏誤,從而降低參數(shù)估計(jì)量的方差,以此來處理多重共線性產(chǎn)生的后果。l多元回歸模型的普通最小二乘估計(jì)量的形式為:l嶺回歸法在矩陣的主對(duì)角線元素上加上一組正常數(shù),得到回歸系數(shù)的嶺回歸估計(jì)量為:l其中矩陣 為單位矩陣; 為大于0的常數(shù),稱為嶺參數(shù) 1=.X XX Y 1=.lX XlIX YIll嶺回歸在矩陣 上加上了對(duì)角線為正常數(shù)的矩陣 ,降低了矩陣 的病態(tài)程度,使得參數(shù)估計(jì)量 更穩(wěn)定,降低了 的方差。嶺回歸法主要面臨的問題是怎樣確定正常數(shù) ,目前 值的估計(jì)方法有多種,下面介紹由Hoerl和Kennanard在1975年介紹的一種估計(jì)方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年呼倫貝爾職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)驗(yàn)歷年參考題庫(頻考版)含答案解析
- 婚禮主持人培訓(xùn)
- 二零二五版中草藥加工企業(yè)蘿卜采購合同2篇
- 二零二五年購物中心車位租賃與管理服務(wù)合同3篇
- 二零二五年文化旅游產(chǎn)業(yè)店面租賃合同3篇
- 舟山浙江舟山岱山縣司法局招聘編外工作人員(二)筆試歷年參考題庫附帶答案詳解
- 二零二五年度藥品采購保密合同范本2篇
- 二零二五年度餐飲業(yè)服務(wù)員勞務(wù)派遣服務(wù)合同2篇
- 二零二五年度核桃種植基地與物流企業(yè)合作采購合同3篇
- 二零二五年房地產(chǎn)無息借款合同模板3篇
- 2024-2025學(xué)年語文二年級(jí)上冊(cè) 統(tǒng)編版期末測(cè)試卷(含答案)
- 2024-2025年江蘇專轉(zhuǎn)本英語歷年真題(含答案)
- 紅色中國(guó)風(fēng)蛇年晚會(huì)豎版邀請(qǐng)函
- 電力線路遷改工程方案
- 第四屆全省職業(yè)技能大賽技術(shù)文件-工業(yè)控制樣題
- 24秋國(guó)家開放大學(xué)《勞動(dòng)關(guān)系與社會(huì)保障實(shí)務(wù)》形考任務(wù)1-4參考答案
- 2024國(guó)有企業(yè)與私營(yíng)企業(yè)之間的混合所有制改革合作協(xié)議
- 2024年Amazon店鋪托管運(yùn)營(yíng)全面合作協(xié)議
- 六年級(jí)下冊(cè)語文試卷-《14 文言文二則》一課一練(含答案)人教部編版
- 2024年內(nèi)蒙古自治區(qū)興安盟、呼倫貝爾中考數(shù)學(xué)試題含答案
- 酒店求購收購方案
評(píng)論
0/150
提交評(píng)論