應(yīng)用回歸分析(R語言版)(第2版) 課件 第7章 嶺回歸_第1頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第7章 嶺回歸_第2頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第7章 嶺回歸_第3頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第7章 嶺回歸_第4頁
應(yīng)用回歸分析(R語言版)(第2版) 課件 第7章 嶺回歸_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第7章嶺回歸

2024/3/51

7.1嶺回歸估計的定義7.2嶺回歸估計的性質(zhì)7.3嶺跡分析7.4嶺參數(shù)k的選擇7.5用嶺回歸選擇變量中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1嶺回歸估計的定義2024/3/52中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1.1

普通最小二乘估計帶來的問題

當(dāng)自變量間存在復(fù)共線性時,回歸系數(shù)估計的方差就很大,估計值就很不穩(wěn)定,下面進一步用一個模擬的例子來說明這一點。例7-1假設(shè)已知x1,x2與y的關(guān)系服從線性回歸模型2024/3/53然后用模擬的方法產(chǎn)生10個正態(tài)隨機數(shù),作為誤差項,見表7-1的第(3)行。然后再由回歸模型計算出10個值,列在了表7-1的第(4)行。中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1嶺回歸估計的定義給定的10個值,見表7-1的第(1)、(2)兩行。2024/3/54中國人民大學(xué)六西格瑪質(zhì)量管理研究中心現(xiàn)在我們假設(shè)回歸系數(shù)與誤差項是未知的,用普通最小二乘法求回歸系數(shù)的估計值得:而原模型的參數(shù)為

看來兩者相差很大。計算的樣本相關(guān)系數(shù)得,表明之間高度相關(guān)。7.1嶺回歸估計的定義2024/3/55中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1嶺回歸估計的定義7.1.2嶺回歸的定義

嶺回歸(RidgeRegression,簡記為RR)提出的想法是很自然的。當(dāng)自變量間存在復(fù)共線性時,,我們設(shè)想給加上一個正常數(shù)矩陣,那么接近奇異的程度就會比接近奇異的程度小得多。考慮到變量的量綱問題,我們先對數(shù)據(jù)做標(biāo)準(zhǔn)化,為了計算方便,標(biāo)準(zhǔn)化后的設(shè)計陣仍然用X表示。2024/3/56中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1嶺回歸估計的定義我們稱

的嶺回歸估計,其中k稱為嶺參數(shù)。

(7.2)式中因變量觀測向量y可以經(jīng)過標(biāo)準(zhǔn)化也可以未經(jīng)標(biāo)準(zhǔn)化。由于假設(shè)X已經(jīng)標(biāo)準(zhǔn)化,如果y也經(jīng)過標(biāo)準(zhǔn)化,那么(7.2)式計算的實際是標(biāo)準(zhǔn)化嶺回歸估計。顯然,嶺回歸作為的估計應(yīng)比最小二乘估計穩(wěn)定,當(dāng)k=0時的嶺回歸估計就是普通最小二乘估計。(7.2)2024/3/57中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1嶺回歸估計的定義因為嶺參數(shù)k不是唯一確定的,所以我們得到的嶺回歸估計實際是回歸參數(shù)

的一個估計族。例如對例7-1可以算得不同k值時的,見表7-2。2024/3/58中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.1嶺回歸估計的定義圖7-1嶺跡圖7.2嶺回歸估計的性質(zhì)

2024/3/59中國人民大學(xué)六西格瑪質(zhì)量管理研究中心

在本節(jié)嶺回歸估計的性質(zhì)的討論中,假定(7.2)式中因變量觀測向量y未經(jīng)標(biāo)準(zhǔn)化。性質(zhì)1

是回歸參數(shù)

的有偏估計。

證明:顯然只有當(dāng)k=0時,;當(dāng)k≠0時,是

的有偏估計。要特別強調(diào)的是不再是

的無偏估計了,有偏性是嶺回歸估計的一個重要特性。2024/3/510中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.2嶺回歸估計的性質(zhì)

性質(zhì)2

在認(rèn)為嶺參數(shù)k是與y

無關(guān)的常數(shù)時,是最小二乘估計的一個線性變換,也是y

的線性函數(shù)。因為因此,嶺估計是最小二乘估計的一個線性變換,根據(jù)定義式知也是y

的線性函數(shù)。需要注意的是,在實際應(yīng)用中,由于嶺參數(shù)k總是要通過數(shù)據(jù)來確定,因而k也依賴于y,因此從本質(zhì)上說并非y

的線性函數(shù)。2024/3/511中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.2嶺回歸估計的性質(zhì)

性質(zhì)3對任意,總有

這里是向量的模,等于向量各分量的平方和的平方根。這個性質(zhì)表明可看成由進行某種向原點的壓縮,從的表達式可以看到,當(dāng)時,,即化為零向量。2024/3/512中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.2嶺回歸估計的性質(zhì)

性質(zhì)4以MSE表示估計向量的均方誤差,則存在k>0,使得即7.3嶺跡分析

2024/3/513中國人民大學(xué)六西格瑪質(zhì)量管理研究中心當(dāng)嶺參數(shù)k在(0,∞)內(nèi)變化時,的函數(shù),在平面坐標(biāo)系上把函數(shù)描畫出來。畫出的曲線稱為嶺跡。在實際應(yīng)用中,可以根據(jù)嶺跡曲線的變化形狀來確定適當(dāng)?shù)膋值和進行自變量的選擇。在嶺回歸中,嶺跡分析可用來了解各自變量的作用及自變量間的相互關(guān)系。下面由圖7-2所反映的幾種有代表性的情況來說明嶺跡分析的作用。嶺跡分析

2024/3/514中國人民大學(xué)六西格瑪質(zhì)量管理研究中心(1)在圖7-2(a)中,,且比較大。從古典回歸分析的觀點看,應(yīng)將看作是對y有重要影響的因素。但的圖形顯示出相當(dāng)?shù)牟环€(wěn)定,當(dāng)k從零開始略增加時,顯著地下降,而且迅速趨于零,因而失去預(yù)報能力。從嶺回歸的觀點看,對y不起重要作用,甚至可以去掉這個變量。(2)圖7-2(b)的情況與圖7-2(a)相反,,但很接近0。從古典回歸分析看,對y的作用不大。但隨著k略增加,驟然變?yōu)樨?fù)值,從嶺回歸觀點看,對y有顯著影響。2024/3/515中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.3嶺跡分析

(3)如圖7-2(c),,說明還比較顯著,但當(dāng)k增加時,迅速下降,且穩(wěn)定為負(fù)值,從古典回歸分析看,是對y有“正”影響的顯著因素,而從嶺回歸分析角度看,要被看作是對y有“負(fù)”影響的因素。(4)在圖7-2(d)中,和都很不穩(wěn)定,但其和卻大體上穩(wěn)定。這種情況往往發(fā)生在自變量的相關(guān)性很大的場合,即在之間存在多重共線性的情形。因此,從變量選擇的觀點看,兩者只要保存一個就夠了。這種情況可用來解釋某些回歸系數(shù)估計的符號不合理的情形,從實際觀點看,不應(yīng)有相反符號。嶺回歸分析的結(jié)果對這一點提供了一種解釋。2024/3/516中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.3嶺跡分析

(5)從全局看,嶺跡分析可用來估計在某一具體實例中最小二乘估計是否適用,把所有回歸系數(shù)的嶺跡都描在一張圖上,如果這些嶺跡線的“不穩(wěn)定度”很大,整個系統(tǒng)呈現(xiàn)比較“亂”的局面,往往就使人懷疑最小二乘估計是否很好地反映了真實情況,圖7-2(e)反映了這種情況。如果情況如圖7-2(f)那樣,則我們對最小二乘估計可以有更大的信心。當(dāng)情況介于(e)和(f)之間時,我們必須適當(dāng)?shù)剡x擇k值。2024/3/517中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.3嶺跡分析

7.4嶺參數(shù)k的選擇

2024/3/5187.4.1嶺跡法

嶺跡法選擇k值的一般原則是:

(1)各回歸系數(shù)的嶺估計基本穩(wěn)定;(2)用最小二乘估計時符號不合理的回歸系數(shù),其嶺估計的符號變得合理;(3)回歸系數(shù)沒有不合乎經(jīng)濟意義的絕對值;(4)殘差平方和增大不太多。

中國人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/519中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.4嶺參數(shù)k的選擇

2024/3/520中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.4嶺參數(shù)k的選擇

嶺跡法確定k值缺少嚴(yán)格的令人信服的理論依據(jù),存在著一定的主觀人為性,這似乎是嶺跡法的一個明顯缺點。從另一方面說,嶺跡法確定k值的這種人為性正好是定性分析與定量分析有機結(jié)合的地方。例如在圖7-3中,當(dāng)k取時,各回歸系數(shù)的估計值基本上都能達到相對穩(wěn)定。當(dāng)然,上述種種要求并不總是能達到的。如在例7-1中由圖7-1看到,取k=0.5,嶺跡已算平穩(wěn)。從而已經(jīng)相當(dāng)接近于真值還相差很大。2024/3/521中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.4嶺參數(shù)k的選擇

7.4.2

方差擴大因子法

方差擴大因子可以度量多重共線性的嚴(yán)重程度,一般當(dāng)時,模型就有嚴(yán)重的多重共線性。計算嶺估計

的協(xié)方差陣,得7.4嶺參數(shù)k的選擇

的對角元素為嶺估計的方差擴大因子。不難看出,隨著k

的增大而減少。用方差擴大因子選擇k

的經(jīng)驗做法是:選擇k

使所有方差擴因子。當(dāng)時,所對應(yīng)的k

值的嶺估計就會相對穩(wěn)定。2024/3/522中國人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/5237.4.3由殘差平方和來確定k值

嶺估計在減小均方誤差的同時增大了殘差平方和,我們希望嶺回歸的殘差平方和SSE(k)的增加幅度控制在一定的限度以內(nèi),可以給定一個大于1的c值,要求:

SSE(k)<cSSE

(7.3)尋找使(7.3)式成立的最大的k值。中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.4嶺參數(shù)k的選擇

7.5用嶺回歸選擇變量2024/3/524嶺回歸選擇變量的原則:(1)在嶺回歸中設(shè)計矩陣X已經(jīng)中心化和標(biāo)準(zhǔn)化了,這樣可以直接比較標(biāo)準(zhǔn)化嶺回歸系數(shù)的大小??梢蕴蕹魳?biāo)準(zhǔn)化嶺回歸系數(shù)比較穩(wěn)定且絕對值很小的自變量。(2)隨著k的增加,回歸系數(shù)不穩(wěn)定,振動趨于零的自變量也可以剔除。(3)剔除標(biāo)準(zhǔn)化嶺回歸系數(shù)很不穩(wěn)定的自變量。如果依照上述去掉變量的原則,有若干個回歸系數(shù)不穩(wěn)定,究竟去掉幾個,去掉哪幾個,這并無一般原則可循,這需根據(jù)去掉某個變量后重新進行嶺回歸分析的效果來確定。中國人民大學(xué)六西格瑪質(zhì)量管理研究中心2024/3/525例7-2空氣污染問題。Mcdonald和Schwing在參考文獻[19]中曾研究死亡率與空氣污染、氣候以及社會經(jīng)濟狀況等因素的關(guān)系。考慮了15個解釋變量,收集了60組樣本數(shù)據(jù)。x1—Averageannualprecipitationininches平均年降雨量x2—AverageJanuarytemperatureindegreesF1月份平均氣溫x3—AverageJulytemperatureindegreesF

7月份平均氣溫x4—Percentof1960SMSApopulationaged65orolder年齡65歲及以上的人口占總?cè)丝诘陌俜直葂5—Averagehouseholdsize每家人口數(shù)x6—Medianschoolyearscompletedbythoseover22年齡在22歲以上的人受教育年限的中位數(shù)中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量2024/3/526x7—Percentofhousingunitswhicharesound&withallfacilities

住房符合標(biāo)準(zhǔn)的家庭比例數(shù)x8—Populationpersq.mileinurbanizedareas每平方公里人口數(shù)x9—Percentnon-whitepopulationinurbanizedareas非白種人占總?cè)丝诘谋壤齲10—Percentemployedinwhitecollaroccupations白領(lǐng)階層受雇百分?jǐn)?shù)x11—Percentoffamilieswithincome<$3000

收入在3000美元以下的家庭比例x12—Relativehydrocarbonpollutionpotential碳?xì)浠衔锏南鄬ξ廴緞葜袊嗣翊髮W(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量2024/3/527中國人民大學(xué)六西格瑪質(zhì)量管理研究中心計算

的15個特征根為:4.5272,2.7547,2.0545,1.3487,1.2227,0.9605,0.6124,0.4729,0.3708,0.2163,0.1665,0.1275,0.1142,0.0460,0.0049條件數(shù)

x13—Samefornitricoxides氮氧化合物的相對污染勢x14—Sameforsulphurdioxide二氧化硫的相對污染勢x15—Annualaverage%relativehumidityat1pm年平均相對濕度y—Totalage-adjustedmortalityrateper100,000每十萬人中的死亡人數(shù)7.5用嶺回歸選擇變量2024/3/528進行嶺跡分析把15個回歸系數(shù)的嶺跡畫到圖7-4中,我們可看到,當(dāng)k=0.20時嶺跡大體上達到穩(wěn)定。按照嶺跡法,應(yīng)取k=0.2。若用方差擴大因子法,當(dāng)k在0.02~0.08時,方差擴大因子小于10,故應(yīng)建議在此范圍選取k。由此也看到不同的方法選取的k值是不同的。中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量2024/3/529中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量2024/3/530中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量

在用嶺回歸進行變量選擇時,因為從嶺跡看到自變量有較穩(wěn)定且絕對值比較小的嶺回歸系數(shù),根據(jù)變量選擇的第一條原則,這些自變量可以去掉。又因為自變量的嶺回歸系數(shù)很不穩(wěn)定,且隨著k的增加很快趨于零,根據(jù)上面的第二條原則這些自變量也應(yīng)該去掉。再根據(jù)第三條原則去掉變量。這個問題最后剩的變量是。2024/3/531中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量例7-3

Gorman-Torman例子(見參考文獻[2])。本例共有10個自變量,X已經(jīng)中心化和標(biāo)準(zhǔn)化了,的特征根為:

3.692,1.542,1.293,1.046,0.972,

0.659,0.357,0.220,0.152,0.068

最后一個特征根,較接近于零。

2024/3/532中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量

條件數(shù)k=54.294<100。從條件數(shù)的角度看,似乎設(shè)計矩陣X沒有復(fù)共線性。但下面的研究表明,做嶺回歸還是必要的。關(guān)于條件數(shù),這里附帶說明它的一個缺陷,就是當(dāng)所有特征根都比較小時,雖然條件數(shù)不大,但多重共線性卻存在。本例就是一個證明。2024/3/533中國人民大學(xué)六西格瑪質(zhì)量管理研究中心

下面做嶺回歸分析。對15個k值算出,畫出嶺跡,如圖7-5(a)所示。可看到最小二乘估計的穩(wěn)定性很差。這反映在當(dāng)k與0略有偏離時,就有較大的差距,特別是變化最明顯。當(dāng)k從0上升到0.1時,的59%,而在正交設(shè)計的情形下只下降17%。這些現(xiàn)象在直觀上就使人懷疑最小二乘估計是否反映了回歸系數(shù)的真實情況。7.5用嶺回歸選擇變量2024/3/534中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量2024/3/535中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量另外,因素的回歸系數(shù)的最小二乘估計為負(fù)回歸系數(shù)中絕對值最大的,但當(dāng)k增加時,迅速上升且變?yōu)檎?。與此相反,對因素,為正的,且絕對值最大,但當(dāng)k

增加時,迅速下降。再考慮到,的樣本相關(guān)系數(shù)達到0.84,因此這兩個因素可近似地合并為一個因素。2024/3/536中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量再來看,它的回歸系數(shù)估計的絕對值偏高,當(dāng)k

增加時,很快接近零,這意味著

實際上對y

無多大影響。至于,其回歸系數(shù)的最小二乘估計的絕對值看來有點偏低,當(dāng)k

增加時,首先迅速上升,成為對因變量有負(fù)影響的最重要的自變量。當(dāng)k

較大時,穩(wěn)定地緩慢趨于零。這意味著,通常的最小二乘估計對

的重要性估計過低。2024/3/537中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量從整體上看,當(dāng)k達到0.2~0.3的范圍時,各個大體上趨于穩(wěn)定,因此,在這一區(qū)間取一個k值做嶺回歸可能得到較好的結(jié)果。本例中當(dāng)k從0略微增加時,很快趨于零,于是它們很自然應(yīng)該被剔除。剔除它們之后,重做嶺回歸分析,嶺跡基本穩(wěn)定,如圖7-5(b)所示,因此剔除

是合理的。2024/3/538中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回歸選擇變量2024/3/539例7-4用嶺回歸方法處理民航客運數(shù)據(jù)的多重共線性問題。用R軟件對例3-3做嶺回歸分析,其中嶺參數(shù)k及其相應(yīng)的回歸系數(shù)的計算結(jié)果見表7-3,輸出的嶺跡圖見圖7-6(a),相應(yīng)的計算代碼如下:

中國人民大學(xué)六西格瑪質(zhì)量管理研究中心7.5用嶺回

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論