版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、偏最小二乘回歸方法及其應(yīng)用王惠文著國(guó)防工業(yè)出版社 1999 年版偏最小二乘回歸 Q 多元線性回歸分析+典型相關(guān)分析+主成分分析與傳統(tǒng)多元線性回歸模型相比,偏最小二乘回歸的特點(diǎn)是:(1)能夠在自變量存在嚴(yán)重多重相關(guān)性的條件下進(jìn)行回歸建模;(2)允許在樣本點(diǎn)個(gè)數(shù)少于變量個(gè)數(shù)的條件下進(jìn)行回歸建模;(3)偏最小二乘回歸在最終模型中將包含原有的所有自變量;(4)偏最小二乘回歸模型更易于辨識(shí)系統(tǒng)信息與噪聲(甚至一些非隨機(jī)性的噪聲);(5)在偏最小二乘回歸模型中,每一個(gè)自變量的回歸系數(shù)將更容易解釋。在計(jì)算方差和協(xié)方差時(shí),求和號(hào)前面的系數(shù)有兩種取法:當(dāng)樣本點(diǎn)集合是隨機(jī)抽取得到時(shí),應(yīng)該取 1/(n-1);如果不
2、是隨機(jī)抽取的,這個(gè)系數(shù)可取 1/n。多重相關(guān)性的診斷1 經(jīng)驗(yàn)式診斷方法1、在自變量的簡(jiǎn)單相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系數(shù)值較大。2、回歸系數(shù)的代數(shù)符號(hào)與專業(yè)知識(shí)或一般經(jīng)驗(yàn)相反;或者,它同該自變量與 y 的簡(jiǎn)單相關(guān)系數(shù)符號(hào)相反。3、對(duì)重要自變量的回歸系數(shù)進(jìn)行 t 檢驗(yàn),其結(jié)果不顯著。特別典型的是,當(dāng) F 檢驗(yàn)?zāi)茉诟呔认峦ㄟ^(guò),測(cè)定系數(shù) R2的值亦很大,但自變量的 t檢驗(yàn)卻全都不顯著,這時(shí),多重相關(guān)性的可能性將很大。4、如果增加(或刪除)一個(gè)變量,或者增加(或刪除)一個(gè)觀測(cè)值,回歸系數(shù)的估計(jì)值發(fā)生了很大的變化。5、重要自變量的回歸系數(shù)置信區(qū)間明顯過(guò)大。6、在自變量中,某一個(gè)自變量是另一部分自
3、變量的完全或近似完全的線性組合。7、對(duì)于一般的觀測(cè)數(shù)據(jù),如果樣本點(diǎn)的個(gè)數(shù)過(guò)少,樣本數(shù)據(jù)中的多重相關(guān)性是經(jīng)常存在的。但是,采用經(jīng)驗(yàn)式方法診斷自變量系統(tǒng)中是否確實(shí)存在多重相關(guān)性,并不十分可靠,另一種較正規(guī)的方法是利用統(tǒng)計(jì)檢驗(yàn)(回歸分析),檢查每一個(gè)自變量相對(duì)其它自變量是否存在線性關(guān)系。2 方差膨脹因子最常用的多重相關(guān)性的正規(guī)診斷方法是使用方差膨脹因子。自變量 Xj的方差膨脹因子記為(VIF)j,它的計(jì)算方法為(4-5)(VIF)j=(1-Rj2)-1式中,Rj2是以 Xj為因變量時(shí)對(duì)其它自變量回歸的復(fù)測(cè)定系數(shù)。所有 Xj變量中最大的(VIF)j通常被用來(lái)作為測(cè)量多重相關(guān)性的指標(biāo)。 一般認(rèn)為, 如果
4、最大的(VIF)j超過(guò) 10,常常表示多重相關(guān)性將嚴(yán)重影響最小二乘的估計(jì)值。(VIF)j被稱為方差膨脹因子的原因,是由于它還可以度量回歸系數(shù)的估計(jì)方差與自變量線性無(wú)關(guān)時(shí)相比,增加了多少。不妨假設(shè) X1,X2,,Xp均是標(biāo)準(zhǔn)化變量。采用最小二乘法得到回歸系數(shù)向量 B,它的精度是用它的方差來(lái)測(cè)量的。B 的協(xié)方差矩陣為Cov(B)=(T2(XX)-1式中,J 是誤差項(xiàng)方差。所以,對(duì)于回歸系數(shù) bj,有2Var(bj)=o-CjjCjj是(XX)-1矩陣中第 j 個(gè)對(duì)角元素??梢宰C明,Cjj=(VIF)j嶺回歸分析1 嶺回歸估計(jì)量嶺回歸分析是一種修正的最小二乘估計(jì)法,當(dāng)自變量系統(tǒng)中存在多重相關(guān)性時(shí),它
5、可以提供一個(gè)比最小二乘法更為穩(wěn)定的估計(jì),并且回歸系數(shù)的標(biāo)準(zhǔn)差也比最小二乘估計(jì)的要小。根據(jù)高斯一一馬爾科夫定理,多重相關(guān)性并不影響最小二乘估計(jì)量的無(wú)偏性和最小方差性。但是,雖然最小二乘估計(jì)量在所有線性無(wú)偏估計(jì)量中是方差最小的,但是這個(gè)方差卻不一定小。于是可以找一個(gè)有偏估計(jì)量,這個(gè)估計(jì)量雖然有微小的偏差,但它的精度卻能夠大大高于無(wú)偏的估計(jì)量。在應(yīng)用嶺回歸分析時(shí),它的計(jì)算大多從標(biāo)準(zhǔn)化數(shù)據(jù)出發(fā)。對(duì)于標(biāo)準(zhǔn)化變量,最小二乘的正規(guī)方程為rxb=ryx式中,rxx是 X 的相關(guān)系數(shù)矩陣,ryx是 y 與所有自變量的相關(guān)系數(shù)向量。嶺回歸估計(jì)量是通過(guò)在正規(guī)方程中引入有偏常數(shù) c(c0)而求得的。它的正規(guī)方程為十(
6、4-8)(rxx+cI)bR=ryx所以,在嶺回歸分析中,標(biāo)準(zhǔn)化回歸系數(shù)為(4-9)bR=(rxx+cI)-1ryx2 嶺回歸估計(jì)量的性質(zhì)(1)嶺回歸系數(shù)是一般最小二乘準(zhǔn)則下回歸系數(shù)的線性組合,即(4-10)bR=(I+crxx1)-1b(2)記B是總體參數(shù)的理論值。 當(dāng)BW0時(shí), 可以證明一定存在一個(gè)正數(shù)co,使得當(dāng)0cco時(shí),一致地有(4-11)E|bR-B|2E|b-B|2(3)嶺回歸估計(jì)量的絕對(duì)值常比普通最小二乘估計(jì)量的絕對(duì)值小,即(4-12)|bR|=aXYbaXXa=1,bYYb=1其結(jié)果為,a 是對(duì)應(yīng)于矩陣 V11-1V12V22-1V21最大特征值的特征向量,而 b 是對(duì)應(yīng)于矩
7、陣V22-1V21V11-1V12最大特征值的特征向量,這兩個(gè)最大特征值相同。其中,V11次 X,V12=XY,V22=YY。F 與 G 之間存在著明顯的換算關(guān)系。有時(shí)只有一個(gè)典型成分還不夠,還可以考慮第二個(gè)典型成分多因變量的偏最小二乘回歸模型1 工作目標(biāo)偏最小二乘回歸分析的建模方法設(shè)有 q 個(gè)因變量和 p 個(gè)自變量。為了研究因變量與自變量的統(tǒng)計(jì)關(guān)系,觀測(cè)了 n 個(gè)樣本點(diǎn),由此構(gòu)成了自變量與因變量的數(shù)據(jù)表 X 和 Y。偏最小二乘回歸分別在 X 與 Y 中提取出 t 和 u,要求:(1)t 和 u 應(yīng)盡可能大地?cái)y帶它們各自數(shù)據(jù)表中的變異信息;(2)t和 u 的相關(guān)程度能夠達(dá)到最大。在第一個(gè)成分被
8、提取后,偏最小二乘回歸分別實(shí)施 X對(duì) t 的回歸以及 Y 對(duì) t 的回歸。 如果回歸方程已經(jīng)達(dá)到滿意的精度, 則算法終止; 否則,將利用 X 被 t 解釋后的殘余信息以及 Y 被 t 解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個(gè)較滿意的精度為止。若最終對(duì) X 共提取了多個(gè)成分,偏最小二乘回歸將通過(guò)施行 yk對(duì) X 的這些成分的回歸,然后再表達(dá)成 yk關(guān)于原自變量的回歸方程。2 計(jì)算方法首先將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。X 經(jīng)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)矩陣記為 E0=(E01,,E0p)nxp,Y 的相應(yīng)矩陣記為 Fo=(F01,,F(xiàn)q)nxq。第一步記 t1是 E0的第一個(gè)成分,t1=E0W,
9、W1是 E0的第一個(gè)軸,它是一個(gè)單位向量,即|W1|=1。記 u1是 F。的第一個(gè)成分,u1=F0C1,C1是 F0的第一個(gè)軸,并且|c1|=1。于是,要求解下列優(yōu)化問(wèn)題,即maxI(7-1)記 01=W1E0F0C1,即正是優(yōu)化問(wèn)題的目標(biāo)函數(shù)值。采用拉格朗日算法,可得(7-8)E0F0F0EOWI=912W1(7-9)F0E0E0FOCI=912c1所以,Wi是對(duì)應(yīng)于 E。 F0F0EO矩陣最大特征值的單位特征向量, 而 C1是對(duì)應(yīng)于 FOEOEOFO矩陣最大特征值812的單位特征向量。求得軸 W 和 C1后,即可得到成分t1=E0W1u1=F0C1然后,分別求 Eo和 Fo對(duì) t1的回歸方
10、程使得(7-10)Eo=t1p1+E1(7-12)Fo=t+F1式中,回歸系數(shù)向量是(7-13)p1=Eot1/|t1|2(7-15)r1=Fot1/|t1|2而已和 F1分別是兩個(gè)方程的殘差矩陣。第二步用殘差矩陣 E1和 F1取代 Eo和 F。,然后,求第二個(gè)軸悵和 C2以及第二個(gè)成分12,U2,有t2=E1W2U2=F1C292=W2E1F1C2W2是對(duì)應(yīng)于 E1F1F1E1矩陣最大特征值的單位特征向量,而 C2是對(duì)應(yīng)于 F1E1E1F1矩陣最大特征值8;的單位特征向量。計(jì)算回歸系數(shù)P2=E1t2/|t2|2r2=F1t2/|t2|2因此,有回歸方程E1=t2p2+E2F1=t2r2+F2
11、如此計(jì)算下去,如果 X 的秩是 A,則會(huì)有(7-16)Eo=t1p,+tAPA(7-17)F0=tir1+,+tArA+FA由于 ti,,tA均可以表示成 E01,,Eop的線性組合,因此,式(7-17)還可以還原成yk*=F0k關(guān)于 Xj*=Eoj的回歸方程形式,即 yk*=ak1x1*+akpxp*+FAk,k=1,2,qFAk是殘差矩陣 FA的第 k 歹I。3 交叉有效性如果多一個(gè)成分而少一個(gè)樣本的預(yù)測(cè)誤差平方和(所有因變量和預(yù)測(cè)樣本相加)除以少一個(gè)成分的誤差平方和 (所有的因變量和樣本相加) 小于 0.952,則多一個(gè)成分是值得的。4 一種更簡(jiǎn)潔的計(jì)算方法用下述原則提取自變量中的成分
12、t1,是與原則式(7-1)的結(jié)果完全等價(jià)的,即黨支加“小國(guó)叫)(7-24)杷、1(1)求矩陣 E。F0F0EO最大特征值所對(duì)應(yīng)的單位特征向量 wi,求成分 t1,得t1=E0W1E1=E0-t1p1式中,p1=E0t1/|t1|2(2)求矩陣日 FF0E1最大特征值所對(duì)應(yīng)的單位特征向量 w 求成分 t2,得t2=E1w2E2=E1-t2p22式中,p2=E1t2/|t2|(R)至第 m 步,求成分 tn=Em-1Wm,Wm是矩陣 Em-1F0F0Em-1最大特征值所對(duì)應(yīng)的單位特征向量.如果根據(jù)交叉有效性,確定共抽取 m 個(gè)成分 t1,,tm可以得到一個(gè)滿意的觀測(cè)模型,則求 F0在 t1,,tm
13、上的普通最小二乘回歸方程為F0=tir1+tnfn+Fm偏最小二乘回歸的輔助分析技術(shù)1 精度分析定義自變量成分 th的各種解釋能力如下(1)th對(duì)某自變量 Xj的解釋能力(8-1)Rd(Xj;th)=r2(xj,th)(2)th對(duì) X 的解釋能力(8-2)Rd(X;th)=r2(X1,th)+r2(Xp,th)/p(3)t1,,tm對(duì) X 的累計(jì)解釋能力(8-3)Rd(X;t1,,tn)=Rd(X;t1)+Rd(X;tn)(4)t1,,tm 對(duì)某自變量 Xj 的累計(jì)解釋能力(8-4)Rd(Xj;t1,,tm)=Rd(Xj;t1)+Rd(Xj;tn)(5)th對(duì)某因變量 yk的解釋能力(8-5)
14、Rd(yk;th)=r2(yk,th)(6)th對(duì) Y 的解釋能力(8-6)Rd(Y;th)=r2(y1,th)+r2(yq,th)/q(7)t1,,tm對(duì) Y 的累計(jì)解釋能力(8-7)Rd(Y;t1,,tm)=Rd(Y;t1)+Rd(Y;tm)(8)t1,,tm 對(duì)某因變量 yk 的累計(jì)解釋能力(8-8)Rd(yk;t1,,tm)=Rd(yk;t1)+Rd(yk;tm)2 自變量Xj 在解釋因變量集合 Y 的作用Xj在解釋 Y 時(shí)作用的重要性,可以用變量投影重要性指標(biāo) VIPj來(lái)測(cè)度VIPj2=pRd(Y;t1)W1j2+Rd(Y;tm)wmj2/Rd(Y;t1)+Rd(Y;tm)式中,帥是
15、軸 Wi 的第 j 個(gè)分量。注意 VIP12+VIPp2=p3 特異點(diǎn)的發(fā)現(xiàn)定義第 i 個(gè)樣本點(diǎn)對(duì)第 h 成分 th的貢獻(xiàn)率丁川2,用它來(lái)發(fā)現(xiàn)樣本點(diǎn)集合中的特異點(diǎn),即(8-10)Thi2=thi2/(n-1)sh2)式中,sh2是成分 th的方差。由此,還可以測(cè)算樣本點(diǎn) i 對(duì)成分 tl,,tm的累計(jì)貢獻(xiàn)率(8-11)Ti2=Tii2+Tmi2當(dāng)Ti2m(n2-1)F0.05(m,n-m)/(n2(n-m)時(shí),可以認(rèn)為在 95%勺檢驗(yàn)水平上,樣本點(diǎn) i 對(duì)成分 t1,,tm的貢獻(xiàn)過(guò)大。單因變量的偏最小二乘回歸模型1 簡(jiǎn)化算法第一步已知數(shù)據(jù)日,F(xiàn)。,由于 u1=F。,可得w 尸 EOFO/IIEOFOIIt1=E0w1PI=EOt1/|t1|2EI=Eo-t1PI檢驗(yàn)交叉有效性。若有效,繼續(xù)計(jì)算;否則只提取一個(gè)成分 t1第 h 步(h=2,m)已知數(shù)據(jù) Eh-1,F。,有w.=Eh-1FO/|Eh-1FO|th=Eh-
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人貴金屬交易融資合同范本民間版4篇
- 二零二五年度網(wǎng)絡(luò)安全股份公司成立股東數(shù)據(jù)安全協(xié)議3篇
- 2025版危險(xiǎn)品運(yùn)輸駕駛員勞動(dòng)合同標(biāo)準(zhǔn)范本3篇
- 2025年高標(biāo)準(zhǔn)圍墻建設(shè)及維護(hù)服務(wù)合同細(xì)則3篇
- 二零二五年酒類企業(yè)產(chǎn)品追溯與防偽技術(shù)合作合同3篇
- 2024破樁勞務(wù)分包合同
- 2025年食堂承包合同補(bǔ)充協(xié)議強(qiáng)調(diào)食品安全與衛(wèi)生規(guī)范3篇
- 與物業(yè)公司合同范本(2024版)
- 鄭州科技學(xué)院《藝術(shù)考察與創(chuàng)新設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度戶外景觀門(mén)窗工程分包合同范本8篇
- 南通市2025屆高三第一次調(diào)研測(cè)試(一模)地理試卷(含答案 )
- 2025年上海市閔行區(qū)中考數(shù)學(xué)一模試卷
- 2025中國(guó)人民保險(xiǎn)集團(tuán)校園招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- 勞務(wù)派遣招標(biāo)文件范本
- 信息安全意識(shí)培訓(xùn)課件
- Python試題庫(kù)(附參考答案)
- 碳排放管理員 (碳排放核查員) 理論知識(shí)考核要素細(xì)目表三級(jí)
- 2024年河北省中考數(shù)學(xué)試題(含答案解析)
- 小學(xué)二年級(jí)數(shù)學(xué)口算練習(xí)題1000道
- 納布啡在產(chǎn)科及分娩鎮(zhèn)痛的應(yīng)用
- DZ/T 0462.4-2023 礦產(chǎn)資源“三率”指標(biāo)要求 第4部分:銅等12種有色金屬礦產(chǎn)(正式版)
評(píng)論
0/150
提交評(píng)論