工程科技多重共線性課件_第1頁
工程科技多重共線性課件_第2頁
工程科技多重共線性課件_第3頁
工程科技多重共線性課件_第4頁
工程科技多重共線性課件_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多元共線性問題的

產(chǎn)生、診斷與處理

多元共線性問題的

產(chǎn)生、診斷與處理1主要內(nèi)容多元共線性的產(chǎn)生多元共線性的影響與表現(xiàn)多元共線性的診斷多元共線性的處理Logistic回歸與Cox回歸模型中的多元共線性問題主要內(nèi)容多元共線性的產(chǎn)生2多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,其最初的含義是指回歸模型中的某些自變量是線性相關(guān)的,即對于出現(xiàn)在模型中的自變量有關(guān)系

成立.其中常數(shù)km(m=1,2,…,n)不全為0.稱為完全多元共線;多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,3現(xiàn)在所說的“多元共線”有更廣泛的含義,除包括完全共線性的情況,也包括變量間有某種關(guān)系但又不是十分完全的線性關(guān)系.如下式所示的情況其中為隨機(jī)誤差項(xiàng).此時可稱為近似多元共線?,F(xiàn)在所說的“多元共線”有更廣泛的含義,除包括完全共線性的情況4一、多元共線性的產(chǎn)生對于多元共線性問題產(chǎn)生的根源,可以從兩個方面考慮:1、由變量性質(zhì)引起2、由數(shù)據(jù)問題引起情況一:樣本含量過小情況二:出現(xiàn)強(qiáng)影響觀測值情況三:時序變量

一、多元共線性的產(chǎn)生對于多元共線性問題產(chǎn)生的根源,可以從兩個51、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時,作為自變量的某些變量高度相關(guān),比如身高、體重和胸圍,變量之間的相關(guān)性是由變量自身的性質(zhì)決定的,此時不論數(shù)據(jù)以什么形式取得,樣本含量是大是小,都會出現(xiàn)自變量的共線性問題。因此,變量間自身的性質(zhì)是導(dǎo)致多元共線性的重要原因。1、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時,作為自變量的某些變量6情況一:樣本含量過小

假設(shè)只有兩個自變量X1與X2,當(dāng)n=2時,兩點(diǎn)總能連成一條直線,即使性質(zhì)上原本并不存在線性關(guān)系的變量X1與X2,由于樣本含量問題產(chǎn)生了共線性。樣本含量較小時,自變量容易呈現(xiàn)線性關(guān)系。

情況一:樣本含量過小7

如果研究的自變量個數(shù)大于2,設(shè)為X1,X2,...,XP,雖然各自變量之間沒有線性關(guān)系,但如果樣本含量n小于模型中自變量的個數(shù),就可能導(dǎo)致多元共線性問題。

8情況二:出現(xiàn)強(qiáng)影響觀測值進(jìn)入20世紀(jì)80年代后期,人們開始關(guān)注單個或幾個樣本點(diǎn)對多重共線性的影響。研究表明,存在兩類這樣的數(shù)據(jù)點(diǎn)或點(diǎn)群:(1)導(dǎo)致或加劇多重共線性(2)掩蓋存在著的多重共線性。情況二:出現(xiàn)強(qiáng)影響觀測值9(a)中因異常觀測值的出現(xiàn)而掩蓋了共線性,(b)中因異常觀測值的出現(xiàn)而產(chǎn)生了共線性。這樣的異常觀測值稱為多元共線性強(qiáng)影響觀測值。顯然這種觀測值會對設(shè)計(jì)矩陣的性態(tài)產(chǎn)生很大影響,從而影響參數(shù)估計(jì)。(a)中因異常觀測值的出現(xiàn)而掩蓋了共線性,(b)中因異常10情況三:時序變量若建模所用的自變量是時序變量,并且是高階單整時序變量,這種時序變量之間高度相關(guān),必然導(dǎo)致多重共線性。情況三:時序變量11二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問題對參數(shù)估計(jì)的影響。二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問12采用最小二乘法(theLeastSquaresMethod)對多元線性回歸模型的偏回歸系數(shù)進(jìn)行估計(jì)。經(jīng)整理得一個關(guān)于β0,β1、…、βm的線性方程組,稱為正規(guī)方程組。若記方程組的系數(shù)矩陣為A,則A恰為。β的最小二乘估計(jì)可表示為:采用最小二乘法(theLeastSquaresMeth13如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,,,即的逆陣不存在,該矩陣為奇異矩陣。因此無法利用最小二乘法估計(jì)偏回歸系數(shù)。如果自變量之間存在近似共線性,,接近奇異,此時如果仍然采用最小二乘法,會使偏回歸系數(shù)的估計(jì)值不穩(wěn)定、不合理,嚴(yán)重影響回歸模型擬合的效果。

如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,14多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:(1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無統(tǒng)計(jì)學(xué)意義;(2)偏回歸系數(shù)估計(jì)值的方差很大;(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當(dāng)一個自變量被引入或剔除時其余變量偏回歸系數(shù)有很大變化;多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:15(4)偏回歸系數(shù)估計(jì)值的大小與符號可能與事先期望的不一致或與經(jīng)驗(yàn)相悖,結(jié)果難以解釋。

出現(xiàn)以上表現(xiàn),提示存在多元共線性問題,應(yīng)進(jìn)行多元共線性診斷。[工程科技]多重共線性課件16三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個:(1)方差膨脹因子(varianceinflationfactors,)

其中為與其余(m-1)個自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴(yán)重。三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個:17(2)特征根系統(tǒng)(systemofeigenvalues)主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個特征根之比的平方根。當(dāng)且對應(yīng)的方差比大于0.5時,可認(rèn)為多元共線性嚴(yán)重存在。(2)特征根系統(tǒng)(systemofeigenvalues18此外,還有幾種方法可以進(jìn)行共線性診斷:1、自變量的相關(guān)系數(shù)診斷法2、多元決定系數(shù)值診斷法3、行列式判別法4、回歸系數(shù)方差分解法(RCVD法)此外,還有幾種方法可以進(jìn)行共線性診斷:191、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間的二元相關(guān)系數(shù)值很大(如大于0.9),則可認(rèn)為存在多元共線性。但無確定的標(biāo)準(zhǔn)判斷相關(guān)系數(shù)的大小與共線性的關(guān)系。有時,相關(guān)系數(shù)值不大,也不能排除多重共線性的可能。1、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間202、多元決定系數(shù)值診斷法假定多元回歸模型p個自變量,其多元決定系數(shù)為。分別構(gòu)成不含其中某個自變量(Xi,i=1,2,…,p)的p個回歸模型,并應(yīng)用最小二乘法準(zhǔn)則分別擬合回歸方程,求出它們各自的決定系數(shù)(i=1,2,…,p)。

2、多元決定系數(shù)值診斷法假定多元回歸模型p個自變量,其多元決21如果其中最大的一個與很接近,假設(shè)不含的回歸模型,其決定系數(shù)與很接近,說明將從模型中去掉,對回歸模型的決定系數(shù)影響不大。因此,可認(rèn)為該變量對Y總變異的解釋能力可由其他自變量代替。它很有可能是其他自變量的線性組合。該自變量進(jìn)入模型后就有可能引起多重共線性問題。該方法也存在臨界值和主觀判斷問題。

如果其中最大的一個與很接近,假設(shè)不含的回歸223、行列式判別法令,為的特征根,,于是令D=||=det(),為H的行列式。當(dāng)為奇異矩陣時,其最小特征根很小,接近于0。而D=det()=∏λj,這樣D就接近于0。3、行列式判別法23判斷標(biāo)準(zhǔn):當(dāng)0<D≤0.01時,認(rèn)為有嚴(yán)重共線性;當(dāng)0.01<D≤0.05時,認(rèn)為有中等或較強(qiáng)共線性;當(dāng)0.05<D≤0.1時,認(rèn)為有較弱的共線性;當(dāng)D>0.1時,認(rèn)為沒有共線性。判斷標(biāo)準(zhǔn):24小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對診斷多元共線性有一定的效果。當(dāng)?shù)奶卣鞲急容^小時,條件數(shù)法很難診斷多元共線性,這時可考慮用行列式法進(jìn)行診斷;當(dāng)特征根相差懸殊時,條件指數(shù)法容易發(fā)現(xiàn)嚴(yán)重復(fù)共線性,方差膨脹因子法容易發(fā)現(xiàn)一個自變量和其他自變量之間的線性關(guān)系。小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對診斷多元共線性25強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要外因。目前診斷多重共線性影響點(diǎn)的基本方法有(1)學(xué)生化殘差(studentizedresidual)(2)距離。此外還可以采用馬氏距離(Mahalanobis.distance),刪除殘差(deletedresidual)等方法。強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要26Walker在1989年發(fā)展了一種多元共線影響點(diǎn)的奇異值分解(SVD)的診斷技術(shù)。該法在實(shí)踐中很有效,但它依據(jù)奇異值分解計(jì)算較為繁瑣,更為嚴(yán)重的是對多重共線性影響點(diǎn)診斷的遺漏。另外,我國學(xué)者趙進(jìn)文曾提出多重共線性影響點(diǎn)的主成分診斷法。[工程科技]多重共線性課件27四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)有偏估計(jì)的方法,即為了減小偏回歸系數(shù)估計(jì)的方差而放棄對估計(jì)的無偏性要求。換言之,允許估計(jì)有不大的偏度,以換取估計(jì)方差可顯著減小的結(jié)果,并在使其總均方差為最小的原則下估計(jì)回歸系數(shù)。四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)28解決多元共線性問題的方法1、嶺回歸2、主成分回歸3、偏最小二乘回歸4、其它:神經(jīng)網(wǎng)絡(luò)、通徑分析解決多元共線性問題的方法1、嶺回歸291、嶺回歸:1962年,A.E.Hoerl針對多元共線性的問題,提出了一種叫嶺回歸的回歸估計(jì)方法。對線性模型定義偏回歸系數(shù)β的嶺估計(jì)為其中k稱為嶺參數(shù)。1、嶺回歸:1962年,A.E.Hoerl針對多元共線性的問30嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時,,的特征根至少有一個非常接近于0,從而使參數(shù)β的最小二乘估計(jì)很不穩(wěn)定。給加上一個正常數(shù)矩陣kI(k>0),則等于零的可能性就比的可能性要小得多,的特征根接近于0的程度就會得到改善。嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時,31且從理論上可以證明,存在k>0,使得的均方誤差比的均方誤差小。因此,用嶺回歸來估計(jì)偏回歸系數(shù)比用普通最小二乘法估計(jì)要穩(wěn)定得多。這樣就消除了多重共線性對參數(shù)估計(jì)的危害。且從理論上可以證明,存在k>0,使得的均方誤差比32在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:①嶺跡圖法②方差膨脹因子法③控制殘差平方和法在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:332、主成分回歸1965年,W.F.Massy提出了主成分回歸(PrincipalComponentRegression,簡稱PCR)方法,首先提取自變量的主成分,由于各主成分之間相互正交,相關(guān)系數(shù)為0,此時即可用最小二乘法估計(jì)偏回歸系數(shù),建立因變量與相互獨(dú)立的前幾個主成分的回歸模型,然后再還原為原自變量的回歸方程式。2、主成分回歸1965年,W.F.Massy提出了主成分回歸34可見,主成分回歸分析解決多重共線性問題是通過降維的處理而克服多元共線性的影響,正確表征變量間的關(guān)系。然而,由于PCR提取X的主成分是獨(dú)立于因變量Y而進(jìn)行的,沒有考慮到X對Y的解釋作用,這就增加了所建模型的不可靠性??梢?,主成分回歸分析解決多重共線性問題是通過降維的處理而克服353、偏最小二乘回歸針對多元共線性干擾問題,S.Wold和C.Alban在1983年提出了偏最小二乘回歸(PartiaLeastSquaresRegression,簡稱PLSR)方法。PLSR方法吸取了主成分回歸分析從自變量中提取信息的思想,同時還考慮了自變量對因變量的解釋問題。

3、偏最小二乘回歸針對多元共線性干擾問題,S.Wold和C.36基本思路首先在自變量集中提取第一潛因子t1(t1是x1,x2,…,xm的線性組合,且盡可能多地提取原自變量集中的變異信息);同時在因變量集中也提取第一潛因子u1,并要求t1與u1相關(guān)程度達(dá)最大。然后建立因變量Y與t1的回歸,如果回歸方程已達(dá)到滿意的精度,則算法終止。否則繼續(xù)第二輪潛在因子的提取,直到能達(dá)到滿意的精度為止。若最終對自變量集提取m個潛因子t1,t2,…,tm,偏最小二乘回歸將建立Y與t1,t2,…,tm的回歸式,然后再表示為Y與原自變量的回歸方程式?;舅悸肥紫仍谧宰兞考刑崛〉谝粷撘蜃觮1(t1是x1,x237小結(jié)以上介紹了三種解決多重共線性問題的方法,它們各自都有其特點(diǎn)及適用范圍:偏最小二乘法在解決多因變量與自變量方面及預(yù)測方面有著比其它兩種方法更優(yōu)越的地方,但在t的實(shí)際意義解釋方面與主成分一樣比較欠缺。小結(jié)以上介紹了三種解決多重共線性問題的方法,它們各自都有其特38嶺回歸由于在其K值的確定上有很大的人為因素,使之缺乏一定的科學(xué)性,但也正因?yàn)槿绱?,使它能夠很好地把定性分析與定量分析兩者有機(jī)地結(jié)合起來。由于這三種方法估計(jì)出的參數(shù)值都是有偏的,所以在未出現(xiàn)多重線性相關(guān)問題時最好還是用普通最小二乘法來估計(jì)參數(shù)。從實(shí)際運(yùn)用來看最小二乘法與嶺回歸的模擬效果相對來說好一些。

嶺回歸由于在其K值的確定上有很大的人為因素,使之缺乏一定的科39五、logistic回歸的多元共線性問題診斷:多元線性回歸中的三個診斷工具:條件指數(shù)、方差比、方差膨脹因子可以推廣到logistic回歸。五、logistic回歸的多元共線性問題診斷:40處理逐步logistic回歸通過篩選變量來建立最佳回歸方程,是近年來用以處理共線性問題的常用辦法。雖然這種方法盡量減少了多重共線性,但是它可能會把某些實(shí)際上對結(jié)果有顯著影響的變量排除在模型之外。將主成分分析與logistic回歸結(jié)合起來,先提取自變量的主成分,再進(jìn)行l(wèi)ogistic回歸,也是一個可行的方法。通過主成分變換消除了自變量觀察矩陣之間的共線關(guān)系,從而使回歸得到較為可靠的結(jié)論。處理逐步logistic回歸通過篩選變量來建立最佳回歸方程,41六、Cox回歸模型的多元共線性問題

多因子Cox模型是比較靈活的生存分析模型,但是當(dāng)多因子存在共線性時,可以利用逐步回歸分析或最優(yōu)回歸分析等方法對多因子變量進(jìn)行篩選,將存在共線性的因子從模型中剔除,但是直接采用逐步回歸的方法篩選變量,所得模型并不總是很理想。六、Cox回歸模型的多元共線性問題多因子Cox模型是比較靈42目前,常用的處理共線性的方法是先進(jìn)行主成分分析,得到幾個主成分,然后再對主成分進(jìn)行Cox模型擬合。但這樣得到的模型有時很難解釋清楚,一方面主要是主成分的代表性及其與原變量的關(guān)系有時難以解釋清楚,另一方面可能會造成多變量之間“非共線性”信息的損失,使每個變量的特殊作用被忽略。目前,常用的處理共線性的方法是先進(jìn)行主成分分析,得到幾個主成43廣東藥學(xué)院的張丕德曾撰文提出進(jìn)一步的方法,即將因子分析法與Cox模型結(jié)合的方法,首先將變量的信息進(jìn)行分解,分解為公因子與特殊因子兩部分,然后對公因子和特殊因子分別進(jìn)行Cox模型擬合,兩個模型互為補(bǔ)充。廣東藥學(xué)院的張丕德曾撰文提出進(jìn)一步的方法,即將因子分析法與C44謝謝謝謝45

多元共線性問題的

產(chǎn)生、診斷與處理

多元共線性問題的

產(chǎn)生、診斷與處理46主要內(nèi)容多元共線性的產(chǎn)生多元共線性的影響與表現(xiàn)多元共線性的診斷多元共線性的處理Logistic回歸與Cox回歸模型中的多元共線性問題主要內(nèi)容多元共線性的產(chǎn)生47多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,其最初的含義是指回歸模型中的某些自變量是線性相關(guān)的,即對于出現(xiàn)在模型中的自變量有關(guān)系

成立.其中常數(shù)km(m=1,2,…,n)不全為0.稱為完全多元共線;多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,48現(xiàn)在所說的“多元共線”有更廣泛的含義,除包括完全共線性的情況,也包括變量間有某種關(guān)系但又不是十分完全的線性關(guān)系.如下式所示的情況其中為隨機(jī)誤差項(xiàng).此時可稱為近似多元共線。現(xiàn)在所說的“多元共線”有更廣泛的含義,除包括完全共線性的情況49一、多元共線性的產(chǎn)生對于多元共線性問題產(chǎn)生的根源,可以從兩個方面考慮:1、由變量性質(zhì)引起2、由數(shù)據(jù)問題引起情況一:樣本含量過小情況二:出現(xiàn)強(qiáng)影響觀測值情況三:時序變量

一、多元共線性的產(chǎn)生對于多元共線性問題產(chǎn)生的根源,可以從兩個501、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時,作為自變量的某些變量高度相關(guān),比如身高、體重和胸圍,變量之間的相關(guān)性是由變量自身的性質(zhì)決定的,此時不論數(shù)據(jù)以什么形式取得,樣本含量是大是小,都會出現(xiàn)自變量的共線性問題。因此,變量間自身的性質(zhì)是導(dǎo)致多元共線性的重要原因。1、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時,作為自變量的某些變量51情況一:樣本含量過小

假設(shè)只有兩個自變量X1與X2,當(dāng)n=2時,兩點(diǎn)總能連成一條直線,即使性質(zhì)上原本并不存在線性關(guān)系的變量X1與X2,由于樣本含量問題產(chǎn)生了共線性。樣本含量較小時,自變量容易呈現(xiàn)線性關(guān)系。

情況一:樣本含量過小52

如果研究的自變量個數(shù)大于2,設(shè)為X1,X2,...,XP,雖然各自變量之間沒有線性關(guān)系,但如果樣本含量n小于模型中自變量的個數(shù),就可能導(dǎo)致多元共線性問題。

53情況二:出現(xiàn)強(qiáng)影響觀測值進(jìn)入20世紀(jì)80年代后期,人們開始關(guān)注單個或幾個樣本點(diǎn)對多重共線性的影響。研究表明,存在兩類這樣的數(shù)據(jù)點(diǎn)或點(diǎn)群:(1)導(dǎo)致或加劇多重共線性(2)掩蓋存在著的多重共線性。情況二:出現(xiàn)強(qiáng)影響觀測值54(a)中因異常觀測值的出現(xiàn)而掩蓋了共線性,(b)中因異常觀測值的出現(xiàn)而產(chǎn)生了共線性。這樣的異常觀測值稱為多元共線性強(qiáng)影響觀測值。顯然這種觀測值會對設(shè)計(jì)矩陣的性態(tài)產(chǎn)生很大影響,從而影響參數(shù)估計(jì)。(a)中因異常觀測值的出現(xiàn)而掩蓋了共線性,(b)中因異常55情況三:時序變量若建模所用的自變量是時序變量,并且是高階單整時序變量,這種時序變量之間高度相關(guān),必然導(dǎo)致多重共線性。情況三:時序變量56二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問題對參數(shù)估計(jì)的影響。二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問57采用最小二乘法(theLeastSquaresMethod)對多元線性回歸模型的偏回歸系數(shù)進(jìn)行估計(jì)。經(jīng)整理得一個關(guān)于β0,β1、…、βm的線性方程組,稱為正規(guī)方程組。若記方程組的系數(shù)矩陣為A,則A恰為。β的最小二乘估計(jì)可表示為:采用最小二乘法(theLeastSquaresMeth58如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,,,即的逆陣不存在,該矩陣為奇異矩陣。因此無法利用最小二乘法估計(jì)偏回歸系數(shù)。如果自變量之間存在近似共線性,,接近奇異,此時如果仍然采用最小二乘法,會使偏回歸系數(shù)的估計(jì)值不穩(wěn)定、不合理,嚴(yán)重影響回歸模型擬合的效果。

如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,59多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:(1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無統(tǒng)計(jì)學(xué)意義;(2)偏回歸系數(shù)估計(jì)值的方差很大;(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當(dāng)一個自變量被引入或剔除時其余變量偏回歸系數(shù)有很大變化;多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:60(4)偏回歸系數(shù)估計(jì)值的大小與符號可能與事先期望的不一致或與經(jīng)驗(yàn)相悖,結(jié)果難以解釋。

出現(xiàn)以上表現(xiàn),提示存在多元共線性問題,應(yīng)進(jìn)行多元共線性診斷。[工程科技]多重共線性課件61三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個:(1)方差膨脹因子(varianceinflationfactors,)

其中為與其余(m-1)個自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴(yán)重。三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個:62(2)特征根系統(tǒng)(systemofeigenvalues)主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個特征根之比的平方根。當(dāng)且對應(yīng)的方差比大于0.5時,可認(rèn)為多元共線性嚴(yán)重存在。(2)特征根系統(tǒng)(systemofeigenvalues63此外,還有幾種方法可以進(jìn)行共線性診斷:1、自變量的相關(guān)系數(shù)診斷法2、多元決定系數(shù)值診斷法3、行列式判別法4、回歸系數(shù)方差分解法(RCVD法)此外,還有幾種方法可以進(jìn)行共線性診斷:641、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間的二元相關(guān)系數(shù)值很大(如大于0.9),則可認(rèn)為存在多元共線性。但無確定的標(biāo)準(zhǔn)判斷相關(guān)系數(shù)的大小與共線性的關(guān)系。有時,相關(guān)系數(shù)值不大,也不能排除多重共線性的可能。1、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間652、多元決定系數(shù)值診斷法假定多元回歸模型p個自變量,其多元決定系數(shù)為。分別構(gòu)成不含其中某個自變量(Xi,i=1,2,…,p)的p個回歸模型,并應(yīng)用最小二乘法準(zhǔn)則分別擬合回歸方程,求出它們各自的決定系數(shù)(i=1,2,…,p)。

2、多元決定系數(shù)值診斷法假定多元回歸模型p個自變量,其多元決66如果其中最大的一個與很接近,假設(shè)不含的回歸模型,其決定系數(shù)與很接近,說明將從模型中去掉,對回歸模型的決定系數(shù)影響不大。因此,可認(rèn)為該變量對Y總變異的解釋能力可由其他自變量代替。它很有可能是其他自變量的線性組合。該自變量進(jìn)入模型后就有可能引起多重共線性問題。該方法也存在臨界值和主觀判斷問題。

如果其中最大的一個與很接近,假設(shè)不含的回歸673、行列式判別法令,為的特征根,,于是令D=||=det(),為H的行列式。當(dāng)為奇異矩陣時,其最小特征根很小,接近于0。而D=det()=∏λj,這樣D就接近于0。3、行列式判別法68判斷標(biāo)準(zhǔn):當(dāng)0<D≤0.01時,認(rèn)為有嚴(yán)重共線性;當(dāng)0.01<D≤0.05時,認(rèn)為有中等或較強(qiáng)共線性;當(dāng)0.05<D≤0.1時,認(rèn)為有較弱的共線性;當(dāng)D>0.1時,認(rèn)為沒有共線性。判斷標(biāo)準(zhǔn):69小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對診斷多元共線性有一定的效果。當(dāng)?shù)奶卣鞲急容^小時,條件數(shù)法很難診斷多元共線性,這時可考慮用行列式法進(jìn)行診斷;當(dāng)特征根相差懸殊時,條件指數(shù)法容易發(fā)現(xiàn)嚴(yán)重復(fù)共線性,方差膨脹因子法容易發(fā)現(xiàn)一個自變量和其他自變量之間的線性關(guān)系。小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對診斷多元共線性70強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要外因。目前診斷多重共線性影響點(diǎn)的基本方法有(1)學(xué)生化殘差(studentizedresidual)(2)距離。此外還可以采用馬氏距離(Mahalanobis.distance),刪除殘差(deletedresidual)等方法。強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要71Walker在1989年發(fā)展了一種多元共線影響點(diǎn)的奇異值分解(SVD)的診斷技術(shù)。該法在實(shí)踐中很有效,但它依據(jù)奇異值分解計(jì)算較為繁瑣,更為嚴(yán)重的是對多重共線性影響點(diǎn)診斷的遺漏。另外,我國學(xué)者趙進(jìn)文曾提出多重共線性影響點(diǎn)的主成分診斷法。[工程科技]多重共線性課件72四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)有偏估計(jì)的方法,即為了減小偏回歸系數(shù)估計(jì)的方差而放棄對估計(jì)的無偏性要求。換言之,允許估計(jì)有不大的偏度,以換取估計(jì)方差可顯著減小的結(jié)果,并在使其總均方差為最小的原則下估計(jì)回歸系數(shù)。四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)73解決多元共線性問題的方法1、嶺回歸2、主成分回歸3、偏最小二乘回歸4、其它:神經(jīng)網(wǎng)絡(luò)、通徑分析解決多元共線性問題的方法1、嶺回歸741、嶺回歸:1962年,A.E.Hoerl針對多元共線性的問題,提出了一種叫嶺回歸的回歸估計(jì)方法。對線性模型定義偏回歸系數(shù)β的嶺估計(jì)為其中k稱為嶺參數(shù)。1、嶺回歸:1962年,A.E.Hoerl針對多元共線性的問75嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時,,的特征根至少有一個非常接近于0,從而使參數(shù)β的最小二乘估計(jì)很不穩(wěn)定。給加上一個正常數(shù)矩陣kI(k>0),則等于零的可能性就比的可能性要小得多,的特征根接近于0的程度就會得到改善。嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時,76且從理論上可以證明,存在k>0,使得的均方誤差比的均方誤差小。因此,用嶺回歸來估計(jì)偏回歸系數(shù)比用普通最小二乘法估計(jì)要穩(wěn)定得多。這樣就消除了多重共線性對參數(shù)估計(jì)的危害。且從理論上可以證明,存在k>0,使得的均方誤差比77在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:①嶺跡圖法②方差膨脹因子法③控制殘差平方和法在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:782、主成分回歸1965年,W.F.Massy提出了主成分回歸(PrincipalComponentRegression,簡稱PCR)方法,首先提取自變量的主成分,由于各主成分之間相互正交,相關(guān)系數(shù)為0,此時即可用最小二乘法估計(jì)偏回歸系數(shù),建立因變量與相互獨(dú)立的前幾個主成分的回歸模型,然后再還原為原自變量的回歸方程式。2、主成分回歸1965年,W.F.Massy提出了主成分回歸79可見,主成分回歸分析解決多重共線性問題是通過降維的處理而克服多元共線性的影響,正確表征變量間的關(guān)系。然而,由于PCR提取X的主成分是獨(dú)立于因變量Y而進(jìn)行的,沒有考慮到X對Y的解釋作用,這就增加了所建模型的不可靠性。可見,主成分回歸分析解決多重共線性問題是通過降維的處理而克服803、偏最小二乘回歸針對多元共線性干擾問題,S.Wold和C.Alban在1983年提出了偏最小二乘回歸(PartiaLeastSquaresRegression,簡稱PLSR)方法。PLSR方法吸取了主成分回歸分析從自變量中提取信息的思想,同時還考慮了自變量對因變量的解釋問題。

3、偏最小二乘回歸針對多元共線性干擾問題,S.Wold和C.81基本思路首先在自變量集中提取第一潛因子t1(t1是x1,x2,…,xm的線性組合,且盡可能多地提取原自變量集中的變異信息);同時在因變量集中也提取第一潛因子u1,并要求t1與u1相關(guān)程度達(dá)最大。然后建立因變量Y與t1的回歸,如果回歸方程已達(dá)到滿意的精度,則算法終止。否則繼續(xù)第二輪潛

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論