《回歸分析》 課件 第5-7章 多重共線性、模型選擇、廣義線性回歸_第1頁
《回歸分析》 課件 第5-7章 多重共線性、模型選擇、廣義線性回歸_第2頁
《回歸分析》 課件 第5-7章 多重共線性、模型選擇、廣義線性回歸_第3頁
《回歸分析》 課件 第5-7章 多重共線性、模型選擇、廣義線性回歸_第4頁
《回歸分析》 課件 第5-7章 多重共線性、模型選擇、廣義線性回歸_第5頁
已閱讀5頁,還剩226頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注回歸分析之緒論應(yīng)用回歸分析李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院1

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注目錄多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院2

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院3

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響多重共線性在回歸分析中,

由變量間強(qiáng)相關(guān)性引發(fā)的問題被稱為多重共線性,

該問題用數(shù)學(xué)語言也可以表示為,

存在一組不全為零的常數(shù)a0,a1,·

·

·

,ap

,使得a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

0, i

=

1,

2,

·

·

·

,

n成立,或者有a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

=

0, i

=

1,

2,

·

·

·

,

n李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院4

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響多重共線性例5.1:

美國新客車出售量的相關(guān)數(shù)據(jù)下表。試建立新客車出售量(Y,單位:十萬輛)與新車消費(fèi)價(jià)格指數(shù)(X1,未經(jīng)季節(jié)調(diào)整,1967年為100%)、消費(fèi)者價(jià)格指數(shù)(X2,全部項(xiàng)目,1967年為100%)、個(gè)人可支配收入(X3,單位:百億美元)、利率(X4)和民間就業(yè)勞動(dòng)人數(shù)(X5,單位:百萬人)的線性回歸方程,并簡要分析結(jié)果。(數(shù)據(jù)來源于Gujarati(2009))李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院5

/

57年份YX1X2X3X4X51971102.27112.0121.377.684.8979.3671972108.72111.0125.383.964.5582.1531973113.50111.1133.194.987.3885.064197487.75117.5147.7103.848.6186.794197585.39127.6161.2114.286.1685.846197699.94135.7170.5125.265.2288.7521977110.46142.9181.5137.935.5092.0171978111.64153.8195.3155.127.7896.0481979105.59166.0217.7172.9310.2598.824198089.79179.3247.0191.8011.2899.303198185.35190.2272.3212.7613.73100.397198279.80197.6286.6226.1411.2099.526198391.79202.6297.4242.818.69100.8341984103.94208.5307.6267.069.65105.0051985110.39215.2318.5284.117.75107.1501986114.50224.4323.4302.216.31109.597診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響多重共線性表

1:新車銷量數(shù)據(jù)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院6

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響多重共線性圖

1:各變量矩陣散點(diǎn)圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院7

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響多重共線性在此基礎(chǔ)上,利用軟件R建立回歸方程,得到:Y?

=

26.526

+

0.482X1

?

1.012X2

+

0.603X3

?

1.090X4

+

1.288X5.表

2:系數(shù)檢驗(yàn)a變量名稱系數(shù)的估計(jì)量標(biāo)準(zhǔn)誤差t

值P

值截距x1

x2

x326.5260.482-1.0120.60383.6320.7070.5200.3750.3170.681-1.9601.6070.7580.5110.0780.139x4

x5-1.0901.2881.5331.265-0.7121.0190.4930.332n=16R2=0.755R2=0.632F

=

6.161P=0.007李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院8

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響多重共線性模型整體通過了F檢驗(yàn),但是五個(gè)自變量的系數(shù)卻未通過t檢驗(yàn)(α

=0.05)。從解釋的角度看,新車消費(fèi)者價(jià)格指數(shù)(X1)系數(shù)為0.482, 意味著當(dāng)其他三個(gè)自變量不變時(shí),

新車消費(fèi)者價(jià)格指數(shù)每 增加1單位,新客車銷售量Y

會(huì)平均增加0.482個(gè)單位。這似乎 與散點(diǎn)圖顯示的內(nèi)容并不相符,與經(jīng)濟(jì)學(xué)解釋也存在著矛盾。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院9

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院10

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源抽樣方法使用不當(dāng)可能引起多重共線性。比如,在研究變量X1、X2對(duì)Y的影響時(shí),圖2中顯示兩個(gè)自變量間存在較強(qiáng)的正相關(guān)關(guān)系。但是假如由于抽樣方法使用不當(dāng),獲取的樣本只是來自總體中滿足公式(1)或者(2)的一個(gè)子空間,該圖左上、右下部分對(duì)應(yīng)的樣本有可能未被抽到,

即數(shù)據(jù)缺少了X1較低X2較高(或X1較高X2較低)

的信息,才導(dǎo)致兩者間呈現(xiàn)出這樣的關(guān)系。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院11

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

0,a0

+

a1xi

1

+

a2xi

2

+

·

·

·

+

apxip

=

0,i

=

1,

2,

·

·

·

,

n

(1)i

=

1,

2,

·

·

·

,

n

(2)但是事實(shí)上,只有信息完整、樣本分布與總體相一致的情況下,才能得出自變量間的真實(shí)關(guān)系以及它們對(duì)因變量的真實(shí)效應(yīng)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院12

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源?2?1012?2?1120x1x2圖

2:變量間散點(diǎn)圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院13

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注來源對(duì)模型或者研究總體的約束可能導(dǎo)致多重共線性。比如,

研究人的身高、體重對(duì)其血壓的影響時(shí),

一般來講身高越高,

人體重的取值也會(huì)越大,

這是變量間自然存在的關(guān)系,只要引入這兩項(xiàng)變量,無論使用什么抽樣方法都不能避免多重共線性。特別是在一些帶有滯后變量的時(shí)間序列數(shù)據(jù)、或者關(guān)系密切的經(jīng)濟(jì)類截面數(shù)據(jù)中,這種現(xiàn)象更為普遍。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院14

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響多重共線性的存在使得系數(shù)的估計(jì)量的方差急劇增大,有效性降低。記λ1

≥λ2

≥·

·

·≥λp

>0

為矩陣X

?X

的特征根,則有當(dāng)存在多重共線性時(shí),必有某些特征根λi

很接近于0,從而使1

變得非常大。此時(shí)如果繼續(xù)使用最小二乘法估計(jì)回歸系λi數(shù),容易造成系數(shù)的估計(jì)量的方差之和急劇增大。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院15

/

57

診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院16

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院17

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響由此可得,?1var

)

=σ2(1

?

r

)L12

11?2var

)

=σ2(1

?

r

)L12

22即隨著兩個(gè)自變量間的相關(guān)性增強(qiáng),系數(shù)估計(jì)量β?1與β?2的方差將逐漸增大。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院18

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響多重共線性容易導(dǎo)致系數(shù)的估計(jì)量的符號(hào)與現(xiàn)實(shí)相悖。假定有四個(gè)自變量X1、X2、X3、X4,研究者試圖建立因變量Y

與這四個(gè)自變量間的線性回歸模型,估計(jì)方程為Y?

=

β?1X1

+

β?2X2

+

β?3X3

+

β?4X4.不失一般性,不妨令β?i

>0,i

=1,2,3,4,如果X2、X3兩個(gè)自變量間存在完全多重共線性,有等式X2

=?3X3

成立,則在利用最小二乘法對(duì)系數(shù)進(jìn)行估計(jì)時(shí),有李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院19

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響Y?

=

β?1X1

+

β?2X2

+

β?3X3

+

β?4X4=

β?1X1

+

(β?3

?

3β?2)X3

+

β?4X4=

β?1X1

+

(β?2

?

1/3β?3)X2

+

β?4X4.顯然X2、X3對(duì)應(yīng)系數(shù)估計(jì)量的符號(hào)可能發(fā)生變化,與實(shí)際情況不符。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院20

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)估計(jì)的影響多重共線性容易使回歸系數(shù)難以通過t檢驗(yàn)。對(duì)系數(shù)的估計(jì)量進(jìn)行顯著性檢驗(yàn)時(shí),檢驗(yàn)統(tǒng)計(jì)量具有如下形式:多重共線性的存在導(dǎo)致檢驗(yàn)統(tǒng)計(jì)量中分母較大,容易使得系數(shù)難以通過顯著性檢驗(yàn)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院21

/

57

診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)預(yù)測的影響李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院22

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)預(yù)測的影響分別在R2取值(0.1,0.9)時(shí)按照ρ

=0.2、ρ

=0.5生成數(shù)據(jù),樣本量為n=1000,其中70%的樣本作為訓(xùn)練集,30%

的樣本作為測試集。在訓(xùn)練集上建立回歸模型,測試集上按照公式(3)計(jì)算平均預(yù)測誤差。重復(fù)該過程200次。(3)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院23

/

57

診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)預(yù)測的影響比較在變量間相關(guān)性較弱(ρ

=0.2)與相關(guān)性較強(qiáng)(ρ

= 0.5)的情況下,如果保持變量間相關(guān)性不變,預(yù)測效果的 差異;當(dāng)變量間相關(guān)性較強(qiáng)(ρ

=0.5)時(shí),令測試集數(shù)據(jù)n0

=300, 改變X1、X2相關(guān)性為0.7,比較其預(yù)測結(jié)果與相關(guān)性保持不 變時(shí)有何不同。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院24

/

57診斷方法處理方法

嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)預(yù)測的影響01020300.250.750.50SNRPEmethodrho=0.2rho=0.5rho=0.7圖

3:預(yù)測誤差圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院25

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響對(duì)預(yù)測的影響與X1、X2相關(guān)性較弱(ρ

=0.2)時(shí)相比,即使X1、X2相關(guān) 性為ρ

=0.5的情況下,只要保證預(yù)測時(shí)變量間相關(guān)性與建模 時(shí)期一致,就可以利用該模型進(jìn)行預(yù)測,但是預(yù)測效果會(huì)受 到一定程度的影響;同樣的,如果在預(yù)測時(shí),變量X1、X2相關(guān)性由建模時(shí)期的0.5轉(zhuǎn) 變?yōu)?.7(或者相關(guān)類型發(fā)生變化),預(yù)測誤差也會(huì)因此有所 上升;隨著擬合優(yōu)度R2的提升,這種預(yù)測效果的差異會(huì)逐漸減小。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院26

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院27

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注診斷方法以下幾類方法可以用來對(duì)多重共線性進(jìn)行診斷:方差膨脹因子診斷法特征根診斷法其他診斷法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院28

/

57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法該診斷方法的主要思想是,

當(dāng)回歸系數(shù)估計(jì)量的方差“膨脹”的幅度較大時(shí),模型中就可能存在多重共線性。所謂方差膨脹因子,是指用來度量由于自變量間高度相關(guān)導(dǎo)致的β?方差增加幅度的一種工具。假定現(xiàn)對(duì)自變量X

進(jìn)行標(biāo)準(zhǔn)化得到X?,則R

=X??X?表示自變量的協(xié)方差矩陣(也是相關(guān)陣)。令L

=

(lij

)

=

(X??X?)?1那么矩陣L主對(duì)角線上的元素就被稱為各個(gè)自變量的方差膨脹因子(Variance

Inflation

Factor,VIF)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院29

/

57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法根據(jù)上述公式,有Var

(β?i

)

=

lii

σ2,i

=

1,

2,

·

·

·,

p第i

個(gè)自變量Xi

的方差膨脹因子為iil

=11

?

R2i2i式中R

表示自變量iX

對(duì)其余p

?1

個(gè)自變量的復(fù)決定系數(shù),反映了第i

個(gè)自變量對(duì)其余p

?1個(gè)自變量的線性相關(guān)程度。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院30

/

57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法經(jīng)驗(yàn)表明,當(dāng)某個(gè)自變量的VIF超過5

或10時(shí),可認(rèn)為與其他自變量間存在多重共線性。此外,當(dāng)p個(gè)自變量的VIF

遠(yuǎn)遠(yuǎn)大于1時(shí),也可以說明存在嚴(yán)重的多重共線性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院31

/

57

處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響

診斷方法診斷方法:方差膨脹因子診斷法以例5.1為例,分別計(jì)算四個(gè)自變量的方差膨脹因子VIF,見表表

3:方差膨脹因子變量名稱

X1

X2

X3

X4

X5VIF

250.000

434.783

232.558

4.941

40.984四個(gè)自變量方差膨脹因子的平均值VIF

≈192.653。由此可以作出判斷,模型中確實(shí)存在多重共線性。該模型的多重共線性可能是由X1,X2,X3,X5這幾個(gè)自變量引起的。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院32

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響診斷方法:特征根診斷法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院33

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響診斷方法:特征根診斷法但是在什么情況下可以認(rèn)為特征值近似為0

呢?為此,首先引入條件數(shù)的概念。令λm表示矩陣X?X的最大特征值,則

一般地,ki

小于100時(shí),認(rèn)為X沒有明顯的多重共線性;當(dāng)ki

在100到時(shí),認(rèn)為X

具有較強(qiáng)的多重共線性;而當(dāng)ki

超過1000時(shí),說明存在嚴(yán)重的多重共線性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院34

/

57

診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響診斷方法:特征根診斷法但是需要注意的是,與方差膨脹因子不同,僅僅根據(jù)條件數(shù) 無法確定在哪幾個(gè)變量間存在多重共線性。令c

=(c1,c2,·

·

·

,cp

)表示矩陣X?X

特征值,對(duì)應(yīng)的特征向

量可以用λ

=(λ1,λ2,·

·

·

,λp

)表示,在多重共線性下有X?Xc

= λc

≈0(或者=0),進(jìn)而可以得出Xc≈0(或者=0),故根 據(jù)特征向量研究者可以判斷多重共線性發(fā)生在哪些變量。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院35

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響診斷方法:特征根診斷法??i將p維特征向量c,i

=1,2,·

·

·

,p按照特征值大小排列成一個(gè)p

×p的矩陣,矩陣中每一個(gè)元素平方后除以其對(duì)應(yīng)的特征值,然后按照列進(jìn)行歸一化可得每個(gè)特征值下,各個(gè)自變量對(duì)應(yīng)的方差比例。若有幾個(gè)自變量的方差比例值在某一行同時(shí)較大,則可以認(rèn)為這幾個(gè)自變量存在多重共線性。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院36

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響診斷方法:其他自變量的協(xié)方差矩陣中包含較大元素時(shí)需要警惕多重共線性 問題。但是協(xié)方差矩陣只是用來初步探測兩兩自變量間的相 關(guān)程度,元素取值較小并不意味著多重共線性一定不存在。 詳見書中舉例?;貧w系數(shù)估計(jì)量的正負(fù)號(hào)以及意義解釋。當(dāng)方程中某些系數(shù) 估計(jì)量的符號(hào)、意義解釋與實(shí)際相違背時(shí),警惕多重共線性 問題。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院37

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響診斷方法:其他系數(shù)估計(jì)量的標(biāo)準(zhǔn)誤差與t檢驗(yàn)。當(dāng)系數(shù)估計(jì)量的標(biāo)準(zhǔn)誤差 較大時(shí),或者一些在實(shí)際意義中重要的自變量在方程中卻并 不顯著,可能存在多重共線性?;貧w系數(shù)的估計(jì)量對(duì)數(shù)據(jù)的敏感程度。比如,當(dāng)在方程中增 加、剔除自變量或者改變觀測值時(shí),回歸系數(shù)估計(jì)量的取值 發(fā)生較大變化,也需要注意回歸方程的多重共線性問題。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院38

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院39

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注處理方法以下三類方法有助于處理回歸分析中的多重共線性問題:重新設(shè)定模型。由于模型引入的自變量間本身可能就具有相關(guān)性,對(duì)模型進(jìn)行重設(shè)可以降低其帶來的影響。重新定義回歸變量。比如在例5.1

中,可以設(shè)法找到一個(gè)關(guān)于X1,

X2,

X3這三個(gè)變量的函數(shù),

如X

=X1

×X2

×X3、X

=(X1

+X2)/X3

等,使得既能保留變量原有的大部分信息,又能降低多重共線性的影響。進(jìn)行變量剔除??梢愿鶕?jù)方差膨脹因子VIF大小依次對(duì)變量進(jìn)行剔除,直到消除多重共線性為止。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院40

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注處理方法增加樣本數(shù)量。當(dāng)多重共線性是由抽樣方法使用不當(dāng)引起時(shí) ,通過增大樣本數(shù)量更加容易避免只在總體的某個(gè)子空間中 抽樣,從而獲取到與總體分布相一致的樣本,消除多重共線 性。使用回歸系數(shù)的有偏估計(jì)。這類方法是以犧牲估計(jì)量的無偏 性為代價(jià)來達(dá)到提高其有效性的目的,常見的方法有主成分 法、偏最小二乘法、嶺回歸法等。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院41

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院42

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)嶺估計(jì)最早由霍爾(A.E.Hoerl)在1962年提出,是一種對(duì)普通最小二乘法的改進(jìn)。其解決多重共線性問題的思路是,

既然多重共線性帶來的 估計(jì)問題源于|X?X|

=0

(或者|X?X|≈0),

那么給矩 陣X?X添加一項(xiàng)正常數(shù)矩陣,kI(k>0),使得|X?X

+kI| 接近0的程度與|X?X|相比更小。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院43

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)此時(shí),得到的估計(jì)β?(k)

=

(X?X

+

kI)?1X?Y就是回歸系數(shù)β的嶺回歸估計(jì),這顯然是個(gè)有偏估計(jì)。并且參數(shù)k決定了其偏差的大小,研究者稱其為嶺參數(shù)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院44

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院45

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)為什么使用有偏估計(jì)?令Y

、X1、X2、X3、X4分別表示因變量和四個(gè)自變量,X1從 均值為1,方差為2的正態(tài)分布中生成,X2

從(?0.5,0.5)的均 勻分布中生成,其余兩個(gè)變量X3

=0.9X1

+0.3X2

+e1、X4

=

0.5X2

+e2因變量Y

=X1

+X2

+X3

+X4

+e3,其中e1、e2是兩個(gè)與X1同分布的隨機(jī)干擾項(xiàng),e3服從均值為2,方差為4的正態(tài)分布。然后分別利用最小二乘法、嶺回歸法對(duì)生成的模擬數(shù)據(jù)擬合 回歸模型。重復(fù)上述過程1000次,觀察自變量X2對(duì)應(yīng)系數(shù)的 最小二乘估計(jì)、嶺回歸估計(jì)的近似抽樣分布。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院46

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注嶺估計(jì)為什么使用有偏估計(jì)?圖

4:嶺回歸估計(jì)與最小二乘估計(jì)抽樣分布圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院47

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注性質(zhì)李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院48

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注性質(zhì)性質(zhì)3:當(dāng)k>0時(shí),隨著k增加,β?(k)的偏差會(huì)增加,但是

方差會(huì)隨之減小。并且當(dāng)β?β有界時(shí),存在非零的k值使得嶺 回歸估計(jì)量β?(k)的均方誤差MSE小于最小二乘估計(jì)的MSE。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院49

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響嶺參數(shù)的選擇原則上希望k可以使估計(jì)量的均方誤差達(dá)到最小,但這種最 優(yōu)的k值往往依賴于未知參數(shù)β和σ2,

并且這種依賴關(guān)系具 體有怎樣的函數(shù)形式還尚未清楚。常用的有以下三種方法:嶺跡法方差膨脹因子法殘差平方和法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院50

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響嶺參數(shù)的選擇:嶺跡法嶺回歸估計(jì)隨著嶺參數(shù)的變化而變化的曲線,稱為嶺跡。當(dāng)模型中存在著嚴(yán)重的多重共線性時(shí),回歸系數(shù)的不穩(wěn)定性 將通過嶺跡明顯表現(xiàn)出來。研究者的目的就是找到一個(gè)合理 的較小k值,在該取值處,嶺回歸估計(jì)量β?(k)是穩(wěn)定的。同 時(shí),也可以結(jié)合系數(shù)估計(jì)量的符號(hào)、解釋、殘差平方和的變 化等信息進(jìn)行選擇。通過審視嶺跡來選擇參數(shù)是一種主觀性較強(qiáng)的方法,缺乏嚴(yán)格的理論依據(jù)。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院51

/

57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響

診斷方法嶺參數(shù)的選擇:方差膨脹因子法該原則是選擇的k值應(yīng)使方差膨脹因子的最大值在1到10之間,越接近1越好。根據(jù)前文給出的嶺回歸估計(jì)量的協(xié)方差矩陣σ2(X?X+kI)?1(X?X)kI)?1

可以看出,當(dāng)k取值越大時(shí)嶺回歸估計(jì)量的方差膨脹的程度越小。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院52

/

57處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響

診斷方法嶺參數(shù)的選擇:殘差平方和法嶺回歸估計(jì)量的殘差平方和為SSk

=

(Y

?

Xβ?(k))?(Y

?

Xβ?(k))=

(Y

?

Xβ?)?(Y

?

Xβ?)

+

(β?(k)

?

β?)?(X?X)(β?(k)

?

β?)隨著k的增加嶺回歸估計(jì)量的偏差也會(huì)增加,最終導(dǎo)致殘差 平方和的增大。因此,研究者往往通過將殘差平方和SSk

限 制在一定范圍內(nèi)來確定嶺參數(shù)k。比如,給定一個(gè)大于1的常 數(shù)c,使得SSk

<

cSSE成立的最大k值。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院53

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院54

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響小結(jié)與評(píng)注本章從多重共線性產(chǎn)生的原因出發(fā),針對(duì)多重共線性對(duì)回歸 系數(shù)的估計(jì)與回歸方程的預(yù)測產(chǎn)生的影響進(jìn)行分析,并給出 了幾種相應(yīng)的診斷方法與處理手段。除了正交實(shí)驗(yàn)設(shè)計(jì)數(shù)據(jù)外,研究者往往很難在影響因變量的 眾多因素中選出一組完全不相關(guān)的變量,這也要求研究者在 選取指標(biāo)變量時(shí)應(yīng)當(dāng)盡可能選擇相關(guān)性較低的變量。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院55

/

57診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注多重共線性

來源與影響小結(jié)與評(píng)注協(xié)方差矩陣判定法只是用來初步探測兩兩自變量間的相關(guān)程 度。當(dāng)多重共線性涉及到多于兩個(gè)自變量時(shí),未必能保證協(xié) 方差矩陣中兩兩自變量間的協(xié)方差元素取較大的值。多重共線性的影響大小取決于研究者進(jìn)行回歸分析的目的。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院56

/

57多重共線性來源與影響診斷方法處理方法嶺估計(jì)小結(jié)與評(píng)注謝謝!李揚(yáng)/林存潔/王菲菲/孫韜/廖軍回歸分析之緒論中國人民大學(xué)統(tǒng)計(jì)學(xué)院57

/

57全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注模型選擇應(yīng)用回歸分析李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院58

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注NBA實(shí)例現(xiàn)搜集到NBA

2018-2019賽季中100個(gè)球員的球場表現(xiàn),一個(gè)球員的球場表現(xiàn)顯然會(huì)影響其綜合實(shí)力.因變量為“霍林格效率值”(PER),是前ESPN撰稿人霍林格 發(fā)明的根據(jù)當(dāng)賽季所有球員表現(xiàn),來綜合評(píng)定某一位球員賽 季表現(xiàn)的進(jìn)階數(shù)據(jù).自變量來源于該賽季的基礎(chǔ)數(shù)據(jù),能夠直接反映球場上的表 現(xiàn)。包括年齡(Age)、場均上場時(shí)間(MP)、場均得分(PTS)、 場均投籃命中率(FG)、場均失誤次數(shù)(TOV)、場均三分命 中率(X3P)、場均二分命中率(X2P)、場均罰球命中率(FT)、 場均籃板(TRB)、場均助攻(AST)、場均搶斷(STL)、場均蓋 帽(BLK)以及場均犯規(guī)次數(shù)(PF)共13個(gè)變量.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院59

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注NBA實(shí)例為反映球員的球場表現(xiàn)對(duì)其綜合實(shí)力的影響,用13個(gè)自變量對(duì)PER建立模型.用哪些自變量建立模型.建立什么模型.線性?非線性(指數(shù),多項(xiàng)式,......)?由于本課程所討論的范圍均是在線性回歸模型的框架下,因 此模型形式固定,本章涉及到的模型選擇僅包括自變量的選 擇.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院60

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注目錄全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院61

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院62

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注全模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院63

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注選模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院64

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注全模型和選模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院65

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注誤用選模型I其中,矩陣B的第i

列是選模型中的變量XA

對(duì)全模型中變量Xp+i

建立的回歸方程的系數(shù):若想選模型的估計(jì)是無偏的,需要選模型中的變量XA對(duì)Xp+1,...,Xm中任何一個(gè)變量建立的回歸方程的系數(shù)都為0.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院66

/

69

全模型和選模型

全子集回歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注誤用選模型II僅考慮第一個(gè)變量X1對(duì)應(yīng)的回歸系數(shù)的方差2

p其中Z

=(X

,...,X

),而

恰是變量2X

,

.

.

.

,

X歸方程的殘差平方和

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院67

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注全模型和選模型

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院68

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注全模型和選模型若丟掉了一些對(duì)因變量有影響的自變量,選模型估計(jì)的保留 變量的回歸系數(shù)的方差,要比全模型所估計(jì)的相應(yīng)變量的回 歸系數(shù)的方差小,但其付出的代價(jià)是估計(jì)量有偏.若在模型中多引入了一些沒有影響或者影響不大的自變量, 雖然不會(huì)產(chǎn)生估計(jì)的偏差,但是會(huì)增大估計(jì)的方差,降低估計(jì) 的有效性.在建立模型時(shí)選擇自變量的準(zhǔn)則應(yīng)該是小而精,盡可能剔除那些影響不大的可有可無的自變量.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院69

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院70

/

69全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全子集

歸因變量Y

和m個(gè)可供選擇的自變量記為X1,X2,...,Xm.對(duì)于Y

建立的回歸模型有2m種可能的情況(去掉僅含常數(shù)項(xiàng)的情況有2m

?1種).全子集回歸是在可能的這些回歸子集中,按照某種準(zhǔn)則尋找一個(gè)最優(yōu)的子集.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院71

/

69基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注全模型和選模型

全子集

逐步

歸關(guān)于自變量選擇的幾個(gè)準(zhǔn)則

若以SSE或R2作為準(zhǔn)則,則會(huì)一味的引入自變量無論其是否重要.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院72

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注調(diào)整的R2?2

2a調(diào)整的R

(R

)??a2

2R

R

(習(xí)題6.2),且2aR

隨著自變量的增加不一定增大.所有回歸子集中,2aR

最大者對(duì)應(yīng)的回歸方程就是“最優(yōu)”的.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院73

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注σ2的無偏估計(jì)從另外一個(gè)角度考慮回歸的擬合效果,回歸誤差項(xiàng)方差σ2的無偏估計(jì)不同于SSE,σ?2隨著自變量的增加不一定減小.a2

2實(shí)際上,用R

或者σ?

作為準(zhǔn)則是等價(jià)的(習(xí)題6.3),因?yàn)橛杏缮鲜龅葍r(jià)性可知,σ?2最小者對(duì)應(yīng)的回歸方程就是“最優(yōu)”的.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院74

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注AIC準(zhǔn)則赤池信息量準(zhǔn)則(Akaike

information

criterion,AIC)

是日 本統(tǒng)計(jì)學(xué)家赤池(Akaike)于1974年提出的一種模型選擇準(zhǔn) 則。AIC準(zhǔn)則還可以用于時(shí)間序列中確定自回歸模型階數(shù),因子分析模型中選擇公共因子個(gè)數(shù)等。其發(fā)展過程可參考Burnham&

Anderson

(1998).1設(shè)模型的似然函數(shù)為L(θ,x),θ是維數(shù)為p的參數(shù),θ?L為θ的最大似然估計(jì),x為隨機(jī)樣本,則AIC定義為1Burnham,

K.

P.

and

Anderson,

D.

R.

(1998)

Model

Selection

and

Inference:

a

Practical

Information-theoretic

Approach.

New

York:

Springer.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院75

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注AIC準(zhǔn)則假定回歸模型的隨機(jī)誤差項(xiàng)?服從正態(tài)分布,即?

~N(0,σ2),對(duì)數(shù)似然函數(shù)L

n將σ?2

=1

SSE代入得李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院76

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注AIC準(zhǔn)則?L代入公式AIC

=?2

log

L(θ

,x)+2p,似然函數(shù)的未知參數(shù)個(gè)數(shù)為p

+2,略去與p無關(guān)的常數(shù),得到回歸模型的AIC準(zhǔn)則公式為AIC

=

n

log(SSE)

+

2p.

(3)對(duì)每一個(gè)回歸子集計(jì)算AIC,其中AIC最小者所對(duì)應(yīng)的模型是“最優(yōu)”回歸模型.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院77

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注BIC準(zhǔn)則貝葉斯信息準(zhǔn)則(Bayes

Information

Criterion,BIC)是Schwarz在19提出的另一種常用的模型選擇準(zhǔn)則.設(shè)模型的似然函數(shù)為L(θ,x),θ是維數(shù)為p的參數(shù),θ?L為θ的最大似然估計(jì),x為隨機(jī)樣本,則BIC定義為BIC=

?2

log

L(θ?L,

x)

+

log(n)p.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院78

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注BIC準(zhǔn)則在隨機(jī)誤差項(xiàng)?服從正態(tài)分布時(shí),回歸模型的BIC準(zhǔn)則公式為BIC

=

n

log(SSE)

+

log(n)p.

(4)對(duì)每一個(gè)回歸子集計(jì)算BIC,

其中BIC最小者所對(duì)應(yīng)的模型是“最優(yōu)”回歸模型.與AIC準(zhǔn)則相比,

BIC準(zhǔn)則的第二項(xiàng)也會(huì)隨著樣本量的增加而增加.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院79

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注Cp

準(zhǔn)則Cp

統(tǒng)計(jì)量是1964年馬洛斯(Mallows)從預(yù)測的角度提出的 一個(gè)可以用來選擇自變量的統(tǒng)計(jì)量。Cp

準(zhǔn)則不僅可以用來選 擇自變量,它也是模型平均領(lǐng)域中選擇各模型權(quán)重的一個(gè)常 用的準(zhǔn)則.對(duì)于一個(gè)回歸模型Y

=Xβ

+?,考慮其偏差平方和E

(Y)

?

Y?

2

=

μ

?

Xβ?

2其中μ

=E

(Y)=Xβ.Cp

準(zhǔn)則的原理就是最小化E

?Xβ?

2).李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院80

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注Cp

準(zhǔn)則

Cp

統(tǒng)計(jì)量其中σ?2常用全模型中σ2的無偏估計(jì),所有回歸子集中,Cp

最小者對(duì)應(yīng)的回歸方程就是“最優(yōu)”方程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院81

/

69

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全子集

歸流程圖

1:全子集回歸流程圖李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院82

/

69逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型

全子集

歸例-全子集

歸例表6.1給出了某地區(qū)2018年某種消費(fèi)品銷售情況資料。其中y

表示某種消費(fèi)品的銷售額(百萬元),x1表示居民可支配收入(元),

x2表示該類消費(fèi)品的價(jià)格指數(shù)(%),x3表示其他消費(fèi)品平均價(jià)格指數(shù)(%)。試建立該地區(qū)該消費(fèi)品銷售額預(yù)測方程。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院83

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注例-全子集

歸表

1:表6.1

某地區(qū)2018年某種消費(fèi)品銷售表序號(hào)x1x2x3y序號(hào)x1x2x3y181.285.087.07.810126.4101.5101.212.3282.992.094.08.411131.2102.0102.513.5383.291.595.08.712148.0105.0104.014.2485.992.995.59.013153.0106.0105.914.9588.093.096.09.614161.0109.0109.515.9699.996.097.010.315170.0112.0111.018.57102.095.097.510.616174.0112.5112.019.58105.395.697.010.917185.0113.0112.319.99117.798.998.011.318189.0114.0113.020.5李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院84

/

69逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型

全子集

歸例-全子集

歸表

2:表6.2

全子集回歸確定回歸方程自變量子集R2a

Cp

AIC

BIC0.971

6.134

43.114

45.785{x1}{x2}{x3}{x1,

x3}{x1,

x2}{x2,

x3}0.954

18.153

51.540

54.2110.948

22.453

53.799

56.4710.976

4.006

40.984

44.5460.971

6.736

43.819

47.3800.952

19.463

53.150

56.711

{x1,

x2,

x3}

0.977

4.000

40.574

45.026

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院85

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院86

/

69逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型

全子集

歸逐步

歸思想當(dāng)可供選擇的自變量個(gè)數(shù)m較大時(shí),構(gòu)造所有可能的回歸方程應(yīng)用全子集回歸比較困難.需要較為快速的方法選擇自變量子集,常用的方法有前進(jìn)法后退法逐步回歸法李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院87

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注偏F統(tǒng)計(jì)量回顧偏F檢驗(yàn),與t檢驗(yàn)等價(jià),用來檢驗(yàn)自變量Xj

對(duì)因變量Y

的影響是否顯著。偏F統(tǒng)計(jì)量李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院88

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注前進(jìn)法前進(jìn)法的思想是從一個(gè)空模型開始,將變量由少到多的引入模型當(dāng)中,每次引入一個(gè)變量,直至沒有可引入的變量為止.步驟1:將全部m個(gè)自變量分別對(duì)因變量Y

建立m個(gè)一元回歸方程,并分別計(jì)算這m個(gè)一元回歸方程的m個(gè)回歸系數(shù)的F檢驗(yàn)值,記為

給定顯著性水

則首先將X

引入回歸方程。為了方便,設(shè)Xj

就是X1.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院89

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注前進(jìn)法步驟2:

將因變量Y

分別與(X1,X2),(X1,X3),·

·

·

,(X1,Xm)建立m?1個(gè)二元線性回歸方程,對(duì)這m?1個(gè)回歸方程中X2,X3,·

·

·

,X回歸系數(shù)進(jìn)行偏F檢驗(yàn),計(jì)算偏F統(tǒng)計(jì)量的值,記為

,則繼續(xù)將Xj

引入回歸方程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院90

/

69

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注前進(jìn)法步驟3:重復(fù)上個(gè)步驟,直至所有未被引入方程的自變量的 偏F統(tǒng)計(jì)量的值均小于Fα(1,n

?p

?1)時(shí)為止。這時(shí)得到的回歸方程即為最終確定的方程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院91

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注后退法

選擇其最小者記為

,則首先將X

從回歸方程中剔除,為了方便,設(shè)Xj

就是Xm.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院92

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注后退法步驟2:將其余的m

?1個(gè)自變量重新建立一個(gè)回歸方程,計(jì)算m

?1個(gè)回歸系數(shù)的偏F統(tǒng)計(jì)量,記為

則將Xj

剔除.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院93

/

69

全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注后退法步驟3:重復(fù)步驟上一個(gè)步驟,直至回歸方程中所剩余的p個(gè) 自變量的偏F統(tǒng)計(jì)量均大于臨界值Fα(1,n?p?1),沒有可剔除的自變量為止。這時(shí)得到的回歸方程即為最終確定的方 程.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院94

/

69逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注全模型和選模型

全子集

歸逐步

歸在前進(jìn)法中,一個(gè)變量一旦被引入回歸方程后就不會(huì)再被剔除出去.在后退法中,一個(gè)變量一旦被剔除也就再?zèng)]有機(jī)會(huì)進(jìn)入回歸方程了.逐步回歸的思想是有進(jìn)有出,

將變量一個(gè)一個(gè)引入,

每引 入一個(gè)自變量后,對(duì)已選入的變量要進(jìn)行逐個(gè)檢驗(yàn),當(dāng)原引 入的變量由于后面變量的引入而變得不再顯著時(shí),就將其剔 除.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院95

/

69逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型

全子集

歸逐步

歸步驟1:

按照前進(jìn)法選擇偏F統(tǒng)計(jì)量最大的自變量Xj

,

若其1jαin偏F統(tǒng)計(jì)量F

F

(1j,n

?2),則將X

引入回歸方程.步驟2:接著按照前進(jìn)法引入第二個(gè)變量,然后對(duì)第一步引j入的變量X

進(jìn)行偏F檢驗(yàn),若其偏F統(tǒng)計(jì)量2jαoutF

F

(1,

n

?j2j3),則將X

剔除;若F

>Fαout(1,

n

?3

),則繼續(xù)引入第三個(gè)變量.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院96

/

69逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型

全子集

歸逐步

歸步驟3:重復(fù)上一個(gè)步驟直到既無變量引入又無變量被剔除 為止。每次引入一個(gè)新的變量都要對(duì)回歸方程中原有的變量 進(jìn)行偏F檢驗(yàn),以確保方程中只包含顯著的變量,最終得到 的回歸方程即為最終確定的方程。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院97

/

69逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型

全子集

歸逐步

歸引入自變量的顯著性水平αin小于剔除剔除自變量的顯著性水平αoutαin

<

αout.否則若αin

≥αout

,可能產(chǎn)生某個(gè)自變量的顯著性P值在αin與αout

之間,那么這個(gè)自變量將被引入、剔除、再引入、再剔除,進(jìn)入“死循環(huán)”。李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院98

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注Toy

example若αin

=0.1,αout

=0.05李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院99

/

69全模型和選模型全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注例-逐步

歸例模擬生成一個(gè)服從正態(tài)分布N(0,Σ)的自變量X

=(X1,...,X10),誤差項(xiàng)?

N(0,

1.5),真實(shí)的

歸系數(shù)β

=(1,2,?1,1,?1.5,?0.01,0.5,?0.5,0.01,0.0001)?,因變量由Yi

=

Xi

β

+

?i

,

i

=

1,

.

.

.

,

n

=

100生成,當(dāng)自變量間不相關(guān)時(shí),即Σ

=I時(shí),三種方法的過程見表6.3左半邊;當(dāng)自變量間存在相關(guān)性,即設(shè)定X的協(xié)方差矩陣為Σ

=(σij

)10×10

=0.5|i?j|時(shí),三種方法的過程見表6.3右半邊.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院100

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注例-逐步

歸表6.3

逐步回歸模擬結(jié)果李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院101

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注全模型和選模型全子集回歸逐步回歸基于懲罰的模型選擇模型選擇的評(píng)價(jià)準(zhǔn)則*小結(jié)與評(píng)注李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院102

/

69全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注目標(biāo)函數(shù)全子集回歸和逐步回歸都是分步式的過程,估計(jì)和選擇是分步進(jìn)行的。另一種思路是通過求解目標(biāo)函數(shù)同時(shí)實(shí)現(xiàn)變量選擇和系數(shù)估計(jì).目標(biāo)函數(shù):損失函數(shù)

+懲罰函數(shù)(7)其中,

ρλ(β)即為懲罰函數(shù),

調(diào)節(jié)系數(shù)λ代表懲罰力度的大小.李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人民大學(xué)統(tǒng)計(jì)學(xué)院103

/

69

全模型和選模型

全子集

歸逐步

歸基于懲罰的模型選擇

模型選擇的評(píng)價(jià)準(zhǔn)則*

小結(jié)與評(píng)注LassoLasso

(Least

absolute

shrinkage

and

selection

operator)是Tibshirani (1996)首次提出的一種壓縮估計(jì),懲罰函數(shù)采用L1范數(shù)

,這里的懲罰函數(shù)等價(jià)于約束

李揚(yáng)/林存潔/王菲菲/孫韜/廖軍模型選擇中國人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論