版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、多重線性回歸模型多重線性回歸模型 內(nèi)容提要 模型簡介 簡單實例分析 逐步回歸 殘差分析 模型進一步診斷與修正 小結(jié) 內(nèi)容提要 模型簡介模型簡介 生活中發(fā)生的許多現(xiàn)象都不是獨立的,而是相互作用、相互影響的。一種結(jié)果的出現(xiàn)往往是多個因素、多個環(huán)節(jié)共同作用的結(jié)果。拋開其他因素,僅考察其中一個影響因素對結(jié)果的影響,所得出的結(jié)論是片面的,甚至可能是錯誤的。 本章所要討論的問題是如何同時考慮多個因素對同一結(jié)果的影響。此時,因變量只有一個,也稱反應變量,常用y表示。自變量也稱解釋變量,有多個。模型簡介 生活中發(fā)生的許多現(xiàn)象都不是獨立的,而是相互作用、相模型簡介 多重線性回歸模型其中,j是偏回歸系數(shù)(Part
2、ial regression coefficient),它表示在其它自變量固定不變的情況下,Xj每改變一個測量單位時所引起的應變量Y的平均改變量,p為自變量的個數(shù),為殘差,獨立服從 N(0,2)分布。模型簡介 多重線性回歸模型其中,j是偏回歸系數(shù)(Parti 自變量與因變量之間存在線性關系,可以通過繪制“散點圖矩陣”予以考察; 各觀測間相互獨立; 殘差服從正態(tài)分布; 方差齊性。模型簡介應用條件 多重線性回歸模型使用最小二乘法來解決方程的估計和檢驗問題。 自變量與因變量之間存在線性關系,可以通過繪制“散點圖矩陣”簡單分析實例例1 為研究男性高血壓患者血壓與年齡、身高、體重等變量的關系,隨機測量了
3、32名40歲以上男性的血壓y、年齡x1、體重指數(shù)x2, 試建立多重線性回歸方程。數(shù)據(jù)文件見mreg2.sav。簡單分析實例例1 為研究男性高血壓患者血壓與年齡、身高、體簡單分析實例初步分析初步分析:與簡單線性回歸相類似,先繪制散點圖,以便在進行回歸分析之前了解各變量之間是否存在線性關系。本例有兩個自變量與一個反應變量,繪制散點圖矩陣,如下。簡單分析實例初步分析初步分析: 繪制散點圖矩陣簡單分析實例初步分析 繪制散點圖矩陣簡單分析實例初步分析簡單分析實例簡單分析實例簡單分析實例簡單分析實例簡單分析實例結(jié)果分析 給出了自變量進入模型的方式,此處尚未涉及變量篩選問題,因為兩個變量是被強行納入模型的(
4、Method為Enter),當然就不存在剔除變量的事情了。簡單分析實例結(jié)果分析 給出了自變量進入模型的方式,此處尚未涉簡單分析實例結(jié)果分析 模型擬合優(yōu)度情況的檢驗,結(jié)果顯示,復相關系數(shù)為0.840,決定系數(shù)為0.706,調(diào)整的決定系數(shù)為0.686,還輸出了剩余標準差。簡單分析實例結(jié)果分析 模型擬合優(yōu)度情況的檢驗,結(jié)果顯示,復相簡單分析實例結(jié)果分析 回歸模型的假設檢驗結(jié)果,顯示F34.808,P3的觀測為異常值。探測自變量中強影響點:杠桿值,hij大于2或3倍的平均值即為異常;庫克距離1為異常;標準化回歸系數(shù)和標準化預測值的變化;模型的進一步診斷與修正強影響點的診斷樣本中的異常值和強影響點是指遠
5、離均值的數(shù)據(jù)點。 強影響點的處理模型的進一步診斷與修正 考慮是否錄入錯誤,如果是,予以改正;否則予以刪除強影響點記錄; 進行穩(wěn)健回歸,如最小一乘法和加權(quán)最小二乘法; 進行非參數(shù)回歸及變量變換等。 強影響點的處理模型的進一步診斷與修正 考慮是否錄入錯誤, 多重共線性的識別模型的進一步診斷與修正多重共線性:是指自變量間存在相關關系,即一個自變量可以用其他一個或幾個自變量的線性表達式進行表示。有以下表現(xiàn)形式: 整個模型的方差分析結(jié)果為P ; 專業(yè)上認為應該有統(tǒng)計學意義的自變量檢驗結(jié)果卻無統(tǒng)計學意義; 自變量的偏回歸系數(shù)取值大小甚至符號明顯與實際情況違背,難以解釋; 增加或刪除一條記錄或一個自變量,偏
6、回歸系數(shù)發(fā)生很大變化。 多重共線性的識別模型的進一步診斷與修正多重共線性:是指自變 多重共線性的識別模型的進一步診斷與修正可以通過statistics 子對話框中的Collinearity Diagnostics 復選框予以實現(xiàn)。其中提供了以下統(tǒng)計量: 容忍度 方差膨脹因子 條件指數(shù) 變異構(gòu)成 多重共線性的識別模型的進一步診斷與修正可以通過statis容忍度(Toli=1-Ri2):Ri2是自變量xi與其他自變量間的決定系數(shù)。方差膨脹因子(VIF=1/Toli)10,表明共線性嚴重特征根:最大特征根遠遠大于其他特征根,說明自變量間有大量的信息重疊。條件指數(shù)ki=SQRT( m / i ):10
7、,表明存在共線性。模型的進一步診斷與修正容忍度(Toli=1-Ri2):Ri2是自變量xi與其他自變 多重共線性的識別(例2分析結(jié)果)模型的進一步診斷與修正 多重共線性的識別(例2分析結(jié)果)模型的進一步診斷與修正 多重共線性的處理模型的進一步診斷與修正 增加樣本量逐步回歸(當共線性很嚴重時,仍然不行) ; 嶺回歸( Ridge Regression,為有偏估計) ; 主成分回歸; 路徑分析。 多重共線性的處理模型的進一步診斷與修正 增加樣本量小 結(jié) 回歸模型的建立步驟回歸分析已經(jīng)被應用的非常廣泛,作為一個嚴肅的統(tǒng)計學模型,它有著自己嚴格的適用條件,在擬合時需要不斷進行這些適用條件的判斷。但是,
8、許多使用者往往忽視了這一點,只是把模型做完就好了。這不僅浪費信息,更有可能得出錯誤的結(jié)論。這里給出一個比較合適的回歸分析操作步驟,供大家參考。小 結(jié) 回歸模型的建立步驟回歸分析已經(jīng)被應用的非常廣泛,作為小 結(jié) 回歸模型的建立步驟 繪制散點圖,觀察變量間的趨勢。(不能隨意省略) 考察數(shù)據(jù)分布,進行必要的預處理。 進行直線回歸分析。 殘差分析。(最重要和直觀的方法是圖示法) 強影響點的診斷和多重共線性的判斷。小 結(jié) 回歸模型的建立步驟 繪制散點圖,觀察變量間的趨勢。小 結(jié)建立一個“完美”的多重線性回歸模型是一個需要反復進行的過程,不能指望一蹴而就。小 結(jié)建立一個“完美”的多重線性回歸模型是一個需要
9、反復進行的基本操作:Analyze-Regression-LinearDependent:因變量Independent:自變量Method:自變量篩選方法,默認為EnterBlock:不同變量有不同篩選方法時可定義BlockSelection Variable:變量值滿足條件的樣本才參與分析Case Labels:指定圖示中數(shù)據(jù)點的標志變量基本操作:Analyze-Regression-Linear應用統(tǒng)計學多重線性回歸模型課件應用統(tǒng)計學多重線性回歸模型課件應用統(tǒng)計學多重線性回歸模型課件應用統(tǒng)計學多重線性回歸模型課件應用統(tǒng)計學多重線性回歸模型課件對于呈非線性關系的變量之間的統(tǒng)計關系進行大體估計
10、(但經(jīng)變量變換可轉(zhuǎn)化為線性關系本質(zhì)線性關系)。繪制擬合曲線并進行預測。做為線性回歸分析的預分析步驟:選擇變量變換的方法。曲線估計對于呈非線性關系的變量之間的統(tǒng)計關系進行大體估計(但經(jīng)變量變常用的幾種非線性模型(一)拋物線模型(二次曲線模型)具體形式為:式中0、1 和2 為待估計參數(shù)。判斷某種現(xiàn)象是否適合應用拋物線,可以利用“差分法”。其步驟如下:首先將樣本觀察值按X 的大小順序排列,然后按以下兩式計算X 和Y 的一階差分Xt、Yt 以及Y 的二階差分Y2t。 Xt=Xt-Xt-1; Yt=Yt-Yt-1 Y2t=Yt-Yt-1當Xt 接近于一常數(shù),而Y2t 的絕對值接近于常數(shù)時,Y 與X 之間
11、的關系可以用拋物線模型近似加以反映。常用的幾種非線性模型(一)拋物線模型(二次曲線模型)(二)雙曲線模型假如Y 隨著X 的增加而增加(或減少),最初增加(或減少)很快,以后逐漸放慢并趨于穩(wěn)定,則可以選用雙曲線來擬合。雙曲線模型形式是:Y=0+1 (1/X) +(二)雙曲線模型假如Y 隨著X 的增加而增加(或減少),最初(三)冪函數(shù)模型冪函數(shù)模型的一般形式是:這類函數(shù)的優(yōu)點在于:方程中的參數(shù)可以直接反映因變量Y 對于某一個自變量的彈性。所謂Y 對于Xj 的彈性,是指在其他情況不變的條件下,Xj 變動時所引起Y 變動的百分比。 彈性是一個無量綱的數(shù)值,它是經(jīng)濟定量分析中常用的一個尺度。它在生產(chǎn)函數(shù)
12、分析和需求函數(shù)分析中,得到了廣泛的應用。(三)冪函數(shù)模型冪函數(shù)模型的一般形式是:(四)指數(shù)函數(shù)模型指數(shù)函數(shù)模型為:這種曲線被廣泛應用于描述社會經(jīng)濟現(xiàn)象的變動趨勢。例如產(chǎn)值、產(chǎn)量按一定比率增長,成本、原材料消耗按一定比例降低。(四)指數(shù)函數(shù)模型指數(shù)函數(shù)模型為:(五)邏輯曲線模型邏輯曲線的方程式如下:邏輯曲線具有以下性質(zhì)。Y 是X 的非減函數(shù),開始時隨著X 的增加,Y 的增長速度也逐漸加快,但是Y 達到一定水平之后, 其增長速度又逐漸放慢。最后無論X 如何增加,Y 只會趨近于L,而永遠不會超過L。(五)邏輯曲線模型邏輯曲線的方程式如下:可擬合的曲線本質(zhì)線性關系:形式上呈非線性關系,但可通過變量變換
13、化為線性關系。擬合原則:一般來說,涉及的變量越多,變量的冪次越高,計算量就越大,誤差也將越大。一般盡量避免采用多元高次多項式。能擬合的曲線見下頁可擬合的曲線本質(zhì)線性關系:形式上呈非線性關系,但可通過變量變應用統(tǒng)計學多重線性回歸模型課件基本操作:AnalyzeRegressionCurve Estimation基本操作:AnalyzeRegressionCurve Independent: X2Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 X5 QUA .987 10 382.64 .000 252.698 -.1475 2.5E-05 X5 CUB .99
14、4 9 516.46 .000 -41.314 .0754 -2.E-05 2.6E-09 X5 COM .995 11 2086.35 .000 20.9550 1.0004 X5 POW .954 11 229.58 .000 3.6E-05 1.8460應用統(tǒng)計學多重線性回歸模型課件應用統(tǒng)計學多重線性回歸模型課件例:打開年人均消費支出和教育數(shù)據(jù),對居民在外就餐的趨勢進行分析,預測2003年和2004年度的居民在外就餐的費用。例:打開年人均消費支出和教育數(shù)據(jù),對居民在外就餐的趨勢進操作:GraphsSequence操作:GraphsSequence應用統(tǒng)計學多重線性回歸模型課件Depend
15、ent variable. X4 Method. EXPONENTListwise Deletion of Missing DataMultiple R .96856R Square .93810Adjusted R Square .93501Standard Error .26294 Analysis of Variance: DF Sum of Squares Mean SquareRegression 1 20.956004 20.956004Residuals 20 1.382742 .069137F = 303.10787 Signif F = .0000- Variables in
16、 the Equation -Variable B SE B Beta T Sig TTime .153837 .008836 .968556 17.410 .0000(Constant) 12.521790 1.751183 7.150 .0000The following new variables are being created: Name Label FIT_6 Fit for X4 from CURVEFIT, MOD_6 EXPONENTIAL1 new cases have been added.Dependent variable. X4 二項Logistic 回歸適用于進
17、行二分類因變量的影響因素分析用于控制混雜因素,描述自變量對因變量的獨立作用下的影響程度用于預測或判別分析二項Logistic 回歸適用于進行二分類因變量的影響因素分與線性回歸的不同之處被解釋變量為0/1二分類定性變量時,不適合線性回歸模型分析:被解釋變量取值范圍不一致殘差為二值離散型分布而非正態(tài)分布等方差性不再滿足與線性回歸的不同之處被解釋變量為0/1二分類定性變量時,不適二項Logistic回歸將yi=1的概率值直接擬合線性回歸模型:Py=1=0+ixi可對概率P值做變量變換,使之取值范圍為- +解釋變量與被解釋變量概率值的實際關系一般呈增長曲線發(fā)生比(Odds)=p/(1-p)Logit
18、P轉(zhuǎn)換:ln() = ln(p/(1-p) = 0+ixi二項Logistic回歸將yi=1的概率值直接擬合線性回歸模i為解釋變量增加一個單位時, ln()的變化量經(jīng)變換,= exp(0+ixi)固定其他變量,研究變量x1的作用exp(i)稱為固定其他變量的作用時,變量xi增加一個單位引起的發(fā)生比之比(Odds Ratio,OR).二項Logistic回歸-參數(shù)意義i為解釋變量增加一個單位時, ln()的變化量二項Log最大似然估計法,通過最大化對數(shù)似然值(log likelihood)估計參數(shù)。最大似然估計法是一種迭代算法,它以一個預測估計值作為參數(shù)的初始值,根據(jù)算法確定能增大對數(shù)似然值的參
19、數(shù)的方向和變動。估計了該初始函數(shù)后,對殘差進行檢驗并用改進的函數(shù)進行重新估計,直到收斂為止(即對數(shù)似然不再顯著變化)。二項Logistic回歸-參數(shù)估計最大似然估計法,通過最大化對數(shù)似然值(log likelih-2 對數(shù)似然值(-2Log Likelihood,-2LL)似然(likelihood)即概率,反映該模型能較好地擬合樣本數(shù)據(jù)的可能性。對數(shù)似然值(log likelihood,LL)是它的自然對數(shù)形式,取值在0 至-之間。對數(shù)似然值通過最大似然估計的迭代算法計算而得。LL最大為0,越大意味著回歸方程的擬合程度越好。因為數(shù)學上較方便,常計算-2LL。二項Logistic回歸-檢驗統(tǒng)計
20、量-2 對數(shù)似然值(-2Log Likelihood,-2LL比分檢驗(Score Test)以未包含某個(或幾個)參數(shù)的模型為基礎,保留模型中參數(shù)的估計值,并假設新增加的參數(shù)為0,計算似然函數(shù)的一階偏導數(shù)及信息矩陣,二者乘積即為比分檢驗統(tǒng)計量S,樣本量大時,S服從卡方分布,比分檢驗結(jié)果一般與似然比檢驗一致。二項Logistic回歸-檢驗統(tǒng)計量比分檢驗(Score Test)二項Logistic回歸-檢回歸方程的顯著性檢驗 似然比卡方檢驗H0:各回歸系數(shù)同時為0檢驗統(tǒng)計量:似然比卡方服從近似卡方分布L0為解釋變量未引入方程時的對數(shù)似然函數(shù)值, L為解釋變量引入方程后的對數(shù)似然函數(shù)值.回歸方程的
21、顯著性檢驗 似然比卡方檢驗H0:各回歸系數(shù)同時回歸方程的擬合優(yōu)度檢驗回歸方程能夠解釋的被解釋變量變異程度越高,擬合優(yōu)度越高.Cox & Snell R2統(tǒng)計量= 1-(L0/L)2/nNaglkerke R2= Cox & Snell R2/(1-(L0)2/n),取值01回歸方程預測值與實際值之間的吻合程度,總體預測準確率越高,擬合優(yōu)度越高.錯判矩陣Hosmer-Lemeshow統(tǒng)計量服從n-2個自由度的卡方分布:當自變量較多且多為連續(xù)性變量時殘差分析回歸方程的擬合優(yōu)度檢驗回歸方程能夠解釋的被解釋變量變異程度越回歸系數(shù)的顯著性檢驗H0:i=0檢驗統(tǒng)計量:Wald統(tǒng)計量服從近似卡方分布Waldi=(i/Si)2Wald檢驗統(tǒng)計量的缺點:它考慮因素的綜合作用,當因素間存在多重共線性的時候,結(jié)果不可靠,較不宜于拒絕零假設,使得本應保留在方程中的變量未能保留。當回歸系數(shù)很大時,Wald統(tǒng)計量存在一定偏差?;貧w系數(shù)的顯著性檢驗H0:i=0虛擬變量回歸虛擬變量(啞變量,dummy variable):對于模型中的分類自變量,如有序或無序多分類變量,其值間距離并不相等,因此不能用一個回歸系數(shù)表示其影響.必須轉(zhuǎn)化為虛擬變量參與分析如變量X分為K類,則生成K-1個虛擬變量原變量X新的啞變量VxaVxbA10B01
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年在線預約服務協(xié)議
- 2025年倉庫出租合同
- 2025年現(xiàn)金贈與合同的風險評估
- 2025年進口擔保協(xié)議
- 2025年存貨質(zhì)押法律法規(guī)匯編
- 2025版委托代銷與授權(quán)經(jīng)營合同3篇
- 2025版高端酒店客房裝修與維護服務合同4篇
- 2025年度商鋪租賃預付定金合同范本4篇
- 二零二五年度企業(yè)裁員補償解除勞動合同賠償協(xié)議
- 二零二五年度鐵路貨運合同貨物運輸合同糾紛解決機制協(xié)議
- 機電安裝工程安全管理
- 2024年上海市第二十七屆初中物理競賽初賽試題及答案
- 信息技術(shù)部年終述職報告總結(jié)
- 高考滿分作文常見結(jié)構(gòu)完全解讀
- 理光投影機pj k360功能介紹
- 六年級數(shù)學上冊100道口算題(全冊完整版)
- 八年級數(shù)學下冊《第十九章 一次函數(shù)》單元檢測卷帶答案-人教版
- 帕薩特B5維修手冊及帕薩特B5全車電路圖
- 小學五年級解方程應用題6
- 年月江西省南昌市某綜合樓工程造價指標及
- 作物栽培學課件棉花
評論
0/150
提交評論