大課第一講 多重線性回歸(1)_第1頁
大課第一講 多重線性回歸(1)_第2頁
大課第一講 多重線性回歸(1)_第3頁
大課第一講 多重線性回歸(1)_第4頁
大課第一講 多重線性回歸(1)_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多重線性回歸第一節(jié)第一節(jié) 偏相關(guān)分析偏相關(guān)分析概念概念: 偏相關(guān)系數(shù)是用來衡量任何兩個偏相關(guān)系數(shù)是用來衡量任何兩個變量之間的關(guān)系,而使與這兩個變變量之間的關(guān)系,而使與這兩個變量有聯(lián)系的其它變量都保持不變。量有聯(lián)系的其它變量都保持不變。即控制了其它一個或多個變量的影即控制了其它一個或多個變量的影響下,計算兩個變量的相關(guān)性。響下,計算兩個變量的相關(guān)性。當控制一個變量時,偏相關(guān)系數(shù)的計算公式:)1)(1 (22|XZYZXZYZYXZYXrrrrrr 當控制多個變量時,偏相關(guān)系數(shù)的計算公式較為復雜,此處省略。例題:例題: 現(xiàn)測得某地現(xiàn)測得某地29名名13歲男童身高歲男童身高X1(cm)、體重)、體重

2、X2(kg)和肺活量)和肺活量Y(ml)的數(shù)據(jù))的數(shù)據(jù), 請用該資料計算體重請用該資料計算體重與肺活量的偏相關(guān)系數(shù)。與肺活量的偏相關(guān)系數(shù)。SPSS操作步驟:操作步驟:Analyze-Correlation-Partial把分析變量選入把分析變量選入 Variable 框框把控制變量選入把控制變量選入 Controlling for 框框ContinueOKCorrelationsCorrelations1.741*.600*.000.001292929.741*1.751*.000.000292929.600*.751*1.001.000292929Pearson CorrelationSig

3、. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N身高體重肺活量身高體重肺活量Correlation is significant at the 0.01 level (2-tailed).*. 身高、體重與肺活量的簡單相關(guān)系數(shù)身高、體重與肺活量的簡單相關(guān)系數(shù)C Co or rr re el la at ti io on ns s1.000.569.002026.5691.000.002.260CorrelationSignificance (2-tailed)dfCorrela

4、tionSignificance (2-tailed)df體重肺活量Control Variables身高體重肺活量身高作為控制變量,肺活量與體重的偏相關(guān)系數(shù)身高作為控制變量,肺活量與體重的偏相關(guān)系數(shù)第二節(jié) 多重(多元)線性回歸 在醫(yī)學研究中,影響某個結(jié)局指標的因在醫(yī)學研究中,影響某個結(jié)局指標的因素常常有很多個,特別對于慢性非傳染性素常常有很多個,特別對于慢性非傳染性疾病更是如此,例如心血管疾病、腫瘤等。疾病更是如此,例如心血管疾病、腫瘤等。 多重線性回歸分析可以用來發(fā)現(xiàn)影響某多重線性回歸分析可以用來發(fā)現(xiàn)影響某個結(jié)局變量的多個因素,并有可能建立有個結(jié)局變量的多個因素,并有可能建立有效的預(yù)測模型

5、。效的預(yù)測模型。一、多重線性回歸模型 多重線性回歸模型可視為簡單直線模型多重線性回歸模型可視為簡單直線模型的直接推廣。簡單的說,只有一個自變量的直接推廣。簡單的說,只有一個自變量的線性模型為簡單直線回歸模型,具有兩的線性模型為簡單直線回歸模型,具有兩個以上自變量的線性模型即為多重線性回個以上自變量的線性模型即為多重線性回歸模型。歸模型。 這里提及的回歸模型中,都只有一個因這里提及的回歸模型中,都只有一個因變量。變量??傮w回歸模型:總體回歸模型: 0 0為常數(shù)項,為常數(shù)項,1 1 , , , ,m m 稱為稱為總體偏回歸系數(shù)??傮w偏回歸系數(shù)。mmXXY110樣本回歸模型:樣本回歸模型:mmxbx

6、bxbby.22110偏回歸系數(shù)偏回歸系數(shù): b0為常數(shù)項,為常數(shù)項,b1,b2,bm為樣本偏回歸系數(shù)。為樣本偏回歸系數(shù)。 偏回歸系數(shù)表示在其它所有自變量固定不變的情況偏回歸系數(shù)表示在其它所有自變量固定不變的情況下,某一個自變量變化一個單位時引起因變量下,某一個自變量變化一個單位時引起因變量y變化的變化的平均大小。平均大小。 殘差殘差e:y 的變化中不能為自變量所解釋的部分。的變化中不能為自變量所解釋的部分。eyy 1.L:線性:線性自變量自變量x與應(yīng)變量與應(yīng)變量y之間存在線性之間存在線性關(guān)系;關(guān)系;2.I:獨立性:獨立性Y值相互獨立,在模型中則要值相互獨立,在模型中則要求殘差相互獨立,不存在

7、自相關(guān);求殘差相互獨立,不存在自相關(guān); 3.N:正態(tài)性:正態(tài)性隨機誤差(即殘差)隨機誤差(即殘差)e服從均服從均值為零,方差為值為零,方差為 的正態(tài)分布;的正態(tài)分布;4. E:等方差:等方差 對于所有的自變量對于所有的自變量x,殘差,殘差e的方差齊。的方差齊。數(shù)據(jù)類型要求: 因變量必須是數(shù)值型變量(連續(xù)變量)。因變量必須是數(shù)值型變量(連續(xù)變量)。 自變量既可以是數(shù)值型變量,也可以是分自變量既可以是數(shù)值型變量,也可以是分類型變量。但如果是多分類變量,則不能直類型變量。但如果是多分類變量,則不能直接進入回歸方程,而要先進行啞變量設(shè)置接進入回歸方程,而要先進行啞變量設(shè)置(略)。(略)。例例2. 某研

8、究者測量了某研究者測量了29名兒童血液中血紅蛋名兒童血液中血紅蛋白(白(g)、鈣)、鈣(g)、鎂、鎂(g) 、鐵、鐵(g) 、錳、錳(g) 、銅、銅(g)的含量。試以血紅蛋白為因的含量。試以血紅蛋白為因變量,其它的為自變量,建立回歸模型。變量,其它的為自變量,建立回歸模型。 做回歸分析做回歸分析的的第一步第一步通常是做通常是做散點圖散點圖,以發(fā)現(xiàn)因變量與自變量之間是否大致存在以發(fā)現(xiàn)因變量與自變量之間是否大致存在直線關(guān)系。如有明顯的曲線關(guān)系,則不能直線關(guān)系。如有明顯的曲線關(guān)系,則不能直接做線性回歸模型。直接做線性回歸模型。 另外,散點圖還有助于發(fā)現(xiàn)異常點。另外,散點圖還有助于發(fā)現(xiàn)異常點。采用最小

9、二乘法(采用最小二乘法(LSLS)估計回歸系數(shù))估計回歸系數(shù)b b即要求殘差平方和:即要求殘差平方和:達到最小值。達到最小值。 求解過程需要進行矩陣運算,并要借助計算機完成。求解過程需要進行矩陣運算,并要借助計算機完成。二、回歸系數(shù)的估計212211012)()(niimmiiiniiixbxbxbbyyyQ或?qū)懗桑夯驅(qū)懗桑?Y=XB+E如矩陣如矩陣XX的逆存在,則回歸系數(shù)矩陣的逆存在,則回歸系數(shù)矩陣B=(XX)-1XYnmmnmmnneeebbbxxxxxxyyy2110211121121 11 1所有樣本點數(shù)據(jù)代入模型后可寫成如下矩陣形式:所有樣本點數(shù)據(jù)代入模型后可寫成如下矩陣形式:Coe

10、fficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508(Constant)鈣鎂鐵錳銅Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血紅蛋白a. A AN NO OV VA Ab b113.259522.652

11、26.306.000a19.80523.861133.06428RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 銅, 錳, 鐵, 鈣, 鎂a. Dependent Variable: 血紅蛋白b. SPSS回歸分析輸出結(jié)果1.對整個方程的檢驗:對整個方程的檢驗:H0: 1 2 m 0殘回殘殘回回MSMSSSSSF/bbstb三、方程的顯著性檢驗:三、方程的顯著性檢驗:對整個方程的檢驗:H0: 回歸系數(shù)全為零回歸系數(shù)全為零 1=2=m=0H1: 回歸系數(shù)不全為零回歸系數(shù)不全為零

12、 0.05FMS回回/MS剩剩26.306自由度自由度 df剩剩5, dfe23, Pt20.023 df2=23 p=0.982t38.079 df3=23 p0.001t50.672 df5=23 p=0.508只有鐵的偏回歸系數(shù)有意義。四、篩選有影響的自變量四、篩選有影響的自變量選擇標準:對各自變量的偏回歸平方和進行選擇標準:對各自變量的偏回歸平方和進行檢驗,檢驗,F(xiàn)值大于預(yù)先設(shè)定的值大于預(yù)先設(shè)定的F,則將此變,則將此變量選入或保留在方程內(nèi)。量選入或保留在方程內(nèi)。偏回歸平方和:將某個變量引入方程后所引偏回歸平方和:將某個變量引入方程后所引起的回歸平方和增加的部分;或者,將某起的回歸平方和

13、增加的部分;或者,將某個變量剔除方程后所引起的回歸平方和減個變量剔除方程后所引起的回歸平方和減少的部分。少的部分。例如:將本例中鈣剔除后,回歸平方和從例如:將本例中鈣剔除后,回歸平方和從113.26 變?yōu)樽優(yōu)?09.94,則鈣的偏回歸平方,則鈣的偏回歸平方和為和為113.26-109.943.32自變量的選擇方法自變量的選擇方法1. 強行進入法(強行進入法(Enter):為默認選擇項,定):為默認選擇項,定義的全部自變量均引入方程。義的全部自變量均引入方程。2. 后退法(后退法(Backward):先建立一個包含全):先建立一個包含全部自變量的回歸方程,然后每次剔除一個部自變量的回歸方程,然后

14、每次剔除一個偏回歸平方和最小且無統(tǒng)計學意義的自變偏回歸平方和最小且無統(tǒng)計學意義的自變量,直到不能剔除為止。量,直到不能剔除為止。3. 前進法(前進法(Forward):回歸方程由一個自變量):回歸方程由一個自變量開始,每次引入一個偏回歸平方和最大,且具開始,每次引入一個偏回歸平方和最大,且具有統(tǒng)計學意義的自變量,由少到多,直到無統(tǒng)有統(tǒng)計學意義的自變量,由少到多,直到無統(tǒng)計學意義的自變量被引入為止。計學意義的自變量被引入為止。4. 逐步法(逐步法(Stepwise):它是前進法和后退法的):它是前進法和后退法的結(jié)合。結(jié)合。5. 消去法(消去法(Remove):建立回歸方程時,根據(jù)):建立回歸方程

15、時,根據(jù)設(shè)定的條件剔除部分自變量。設(shè)定的條件剔除部分自變量。選用后退法選用后退法CoefficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508.3651.338.273.787-.048.023-.208-2.075.049.033.003.95311.235.000-.6501.056-.050-.616.544.513.697.074.736.469

16、.3921.321.297.769-.046.023-.203-2.053.051.033.003.94111.540.000.534.687.077.777.445.2911.304.223.825-.036.018-.159-1.979.058.033.003.94911.846.000(Constant)鈣鎂鐵錳銅(Constant)鈣鐵錳銅(Constant)鈣鐵銅(Constant)鈣鐵Model1234BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血

17、紅蛋白a. 鈣保留下來的鈣保留下來的原因:后退法原因:后退法的默認剔除標的默認剔除標準是準是0.1最終回歸模型: 以血紅蛋白含量作為因變量y,鈣、鎂、鐵、錳、銅的含量作為自變量進行多元線性回歸分析,變量篩選方法為后退法(backward),剔除標準為p0.1()。最后結(jié)果只有鈣和鐵保留在方程中。31033. 0036. 0291. 0 xxY其中x1代表鈣,x3代表鐵(方程和偏回歸系數(shù)的檢驗略)兩個自變量與因變量的擬合面示意圖0X1X2Y注意:自變量的選擇不是一個單獨的數(shù)學問注意:自變量的選擇不是一個單獨的數(shù)學問題,可以放心地交給計算機自動完成,而題,可以放心地交給計算機自動完成,而必須結(jié)合專

18、業(yè)知識,綜合考察。必須結(jié)合專業(yè)知識,綜合考察。1.對因變量確實有影響的,應(yīng)當選入。對因變量確實有影響的,應(yīng)當選入。2.不同篩選方法結(jié)果不一致時要謹慎,重點不同篩選方法結(jié)果不一致時要謹慎,重點考慮共線性的問題。考慮共線性的問題。3.所做出的模型不能視為所做出的模型不能視為“最佳最佳”模型,而模型,而應(yīng)視為應(yīng)視為“局部最優(yōu)局部最優(yōu)”模型,因為所納入分模型,因為所納入分析的自變量中常常不能包括全部的影響因析的自變量中常常不能包括全部的影響因素,甚至是很重要的因素。素,甚至是很重要的因素。iyiissbb CoefficientsCoefficientsa a.2911.304.223.825-.03

19、6.018-.159-1.979.058.033.003.94911.846.000(Constant)鈣鐵Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血紅蛋白a. 從本例來看,鈣和鐵的偏回歸系數(shù)的從本例來看,鈣和鐵的偏回歸系數(shù)的絕對值差不多,但鐵的絕對值差不多,但鐵的標準化偏回歸系數(shù)標準化偏回歸系數(shù)確要大得多,表示鐵對血紅蛋白的作用比確要大得多,表示鐵對血紅蛋白的作用比鈣要大。鈣要大。六、回歸模型的優(yōu)良性評價(擬和六、回歸模型的優(yōu)良性評價(擬和效

20、果)效果)1.決定系數(shù)決定系數(shù)R2:殘回總SSSSSS總回SSSSR 20R21 決定系數(shù)反映決定系數(shù)反映Y的全部變異中能夠被回的全部變異中能夠被回歸方程中的全部自變量所解釋的比例。歸方程中的全部自變量所解釋的比例。R21, 越接近于越接近于1,說明模型擬和得越好。,說明模型擬和得越好。2.復相關(guān)系數(shù)復相關(guān)系數(shù)R:2RR 0R1 復相關(guān)系數(shù)描述了因變量復相關(guān)系數(shù)描述了因變量y與方程中與方程中m個自變量的總體相關(guān)性大小。個自變量的總體相關(guān)性大小。R越接近于越接近于1,說明因變量與自變量的關(guān)系越密切,模型擬說明因變量與自變量的關(guān)系越密切,模型擬和得越好。和得越好。 復相關(guān)系數(shù)定義為因變量實測值與預(yù)

21、測值的簡單直線相關(guān)系數(shù):R corr( y, y) 復相關(guān)系數(shù)與決定系數(shù)有如下關(guān)系:3.校正決定系數(shù)校正決定系數(shù)R2adj: R和和R2有一個缺陷,隨著自變量有一個缺陷,隨著自變量個數(shù)的增加,個數(shù)的增加,R2總是增加,造成變量總是增加,造成變量數(shù)目越多,則擬和效果越優(yōu)良的錯覺。數(shù)目越多,則擬和效果越優(yōu)良的錯覺。為解決這一問題,可采用校正決定系為解決這一問題,可采用校正決定系數(shù)。數(shù)。3.校正決定系數(shù)校正決定系數(shù)R2adj:總殘總回SS12SSSSSSR MS代表均方,用離均差平方和代表均方,用離均差平方和SS除以自由度得到除以自由度得到(詳見方差分析):(詳見方差分析): MS殘殘SS殘殘/(n-m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論