多元線性回歸分析課件_第1頁
多元線性回歸分析課件_第2頁
多元線性回歸分析課件_第3頁
多元線性回歸分析課件_第4頁
多元線性回歸分析課件_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第13章多重線性回歸與相關

(multiplelinear

regression&multiplecorrelation)第13章多重線性回歸與相關

(multipleline1content第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷第二節(jié)假設檢驗及其評價第三節(jié)復相關系數與偏相關系數第四節(jié)

自變量篩選第五節(jié)多元線性回歸的應用與注意事項content第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷2目的:作出以多個自變量估計應變量的多元線性回歸方程。資料:應變量為定量指標;自變量全部或大部分為定量指標,若有少量定性或等級指標需作轉換。用途:解釋和預報。更精確意義:由于事物間的聯(lián)系常常是多方面的,一個應變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標的影響。目的:作出以多個自變量估計應變量的多元線性回歸方程。3第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷4變量:應變量1個,自變量k個,共k+1個。樣本含量:n數據格式見表13-1回歸模型一般形式:一、數據與多元線性回歸模型變量:應變量1個,自變量k個,共k+1個。一、數據5多元回歸分析數據格式

條件多元回歸分析數據格式條件6車流(X1)氣溫(X2)氣濕(X3)風速(X4)一氧化氮(Y)車流(X1)氣溫(X2)氣濕(X3)風速(X4)一氧化氮(Y)130020.0800.450.06694822.5692.000.005144423.0570.500.076144021.5792.400.01178626.5641.500.001108428.5593.000.003165223.0840.400.170184426.0731.000.140175629.5720.900.156111635.0922.800.039175430.0760.800.120165620.0831.450.059120022.5691.800.040153623.0571.500.087150021.8770.600.12096024.8671.500.039120027.0581.700.100178423.3830.900.222147627.0650.650.129149627.0650.650.145182022.0830.400.135106026.0581.830.029143628.0682.000.099143628.0682.000.099車流氣溫氣濕風速一氧化氮(Y)車流氣溫氣濕風速一氧化氮(Y)7一般步驟建立回歸方程(樣本)(2)檢驗并評價回歸方程及各自變量的作用大小一般步驟建立回歸方程(樣本)(2)檢驗并評價回歸方程8二、多元線性回歸方程的建立樣本估計而得的多重線性回歸方程bj為自變量Xj的偏回歸系數(partialregressioncoefficient),是βj的估計值,表示當方程中其他自變量保持常量時,自變量Xj變化一個計量單位,反應變量Y的平均值變化的單位數。

二、多元線性回歸方程的建立樣本估計而得的多重線性9求偏導數(一階)原理最小二乘法統(tǒng)計軟件包求偏導數(一階)原理統(tǒng)計軟件包10第二節(jié)假設檢驗及其評價

1.方差分析法:(一)對回歸方程第二節(jié)假設檢驗及其評價1.方差分析法:(一)對回歸11

多元線性回歸方差分析表多元線性回歸方差分析表12變異來源自由度SSMSFP回歸模型40.063960.0159917.59<.0001殘差190.017270.00090903總變異230.08123表13-2顯示,P<0.0001,拒絕H0。說明從整體上而言,用這四個自變量構成的回歸方程解釋空氣中NO濃度的變化是有統(tǒng)計學意義的。變異來源自由度SSMSFP回歸模型40.063960.01513偏回歸系數的t檢驗偏回歸系數的t檢驗是在回歸方程具有統(tǒng)計學意義的情況下,檢驗某個總體偏回歸系數等于零的假設,以判斷是否相應的那個自變量對回歸確有貢獻

偏回歸系數的t檢驗14利用SAS對例13-1的四個偏回歸系數進行t檢驗與標準化偏回歸系數的結果如表13-3所示。變量自由度回歸系數標準誤t值P值標準化偏回歸系數截距1-0.141660.06916-2.050.05460X110.000116190.000027484.230.00050.59249X210.004490.001902.360.02890.27274X31-0.000006550.00069083-0.010.9925-0.00110X41-0.034680.01081-3.210.0046-0.44770利用SAS對例13-1的四個偏回歸系數進行t檢驗與標準化偏回15第三節(jié)復相關系數與偏相關系數

確定系數、復相關系數與調整確定系數復相關系數的平方稱為確定系數(coefficientofdetermination),或決定系數,記為R2,用以反映線性回歸模型能在多大程度上解釋反應變量Y的變異性。其定義為

第三節(jié)復相關系數與偏相關系數確定系數、復相關系數與調整16復相關系數:確定系數的算術平方根

對例13-1,由方差分析表可得:SSR=0.06396SSE=0.01727SST=0.08123表示變量Y與k個自變量(X1,X2,…Xk)的線性相關的密切程度。說明,用包含氣車流量、氣溫、氣濕與風速這四個自變量的回歸方程可解釋交通點空氣NO濃度變異性的78.74%。復相關系數:確定系數的算術平方根對例13-1,由方差分析17表示交通點空氣NO濃度與氣車流量、氣溫、氣濕與風速等四個變量的復相關系數為0.8703

表示交通點空氣NO濃度與氣車流量、氣溫、氣濕與風速等四個變量18調整的R2(AdjustedR-Square)當回歸方程中包含有很多自變量,即使其中有一些自變量(如本例中的X3)對解釋反應變量變異的貢獻極小,隨著回歸方程的自變量的增加,R2值表現為只增不減,這是復相關系數R2的缺點。調整的R2定義為調整的R2(AdjustedR-Square)當回歸19偏相關系數冷飲銷售量(元)X1游泳人數(人)X2氣溫(oC)X3267722293978143045192431528106632618125333655136934690159335740176136780193137889223138996274939偏相關系數冷飲銷售量(元)游泳人數(人)氣溫(oC)26720多元線性回歸分析課件21偏相關系數(partialcorrelationcoefficient):一般地,扣除其他變量的影響后,變量Y與X的相關.表13-5空氣中NO濃度與各自變量的相關系數和偏相關系數自變量相關系數偏相關系數偏相關系數P值車流X10.808000.696200.0005氣溫X20.017240.476700.0289氣濕X30.27854-0.002180.9925風速X4-0.67957-0.592750.0046偏相關系數(partialcorrelationcoef22多元線性回歸分析課件23(二)對各自變量

指明方程中的每一個自變量對Y的影響(即方差分析和決定系數檢驗整體)。1.偏回歸平方和

(二)對各自變量1.偏回歸平方和24多元線性回歸分析課件25

各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到各自變量的偏回歸平方和可以通過擬合包含不同26結果結272.t檢驗法是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為2.t檢驗法是一種與偏回歸平方和檢驗完全等價的一種方28結論結論29標準化回歸系數

變量標準化是將原始數據減去相應變量的均數,然后再除以該變量的標準差。計算得到的回歸方程稱作標準化回歸方程,相應的回歸系數即為標準化回歸系數。

標準化回歸系數

變量標準化是將原始數據30注意:

一般回歸系數有單位,用來解釋各自變量對應變量的影響,表示在其它自變量保持不變時,增加或減少一個單位時Y的平均變化量。不能用各來比較各對的影響大小。

標準化回歸系數無單位,用來比較各自變量對應變量的影響大小,越大,對的影響越大。注意:31第四節(jié)

自變量篩選

目的:使得預報和(或)解釋效果好第四節(jié)

自變量篩選

目的:使得預報和(或)解釋效果好32自變量篩選的標準與原則

1.殘差平方和(SSE)縮小與確定系數(R2)增大2.殘差均方(SSE)縮小與調整確定系數增大3.CP統(tǒng)計量選擇既具有較小CP值,在圖中又接近于CP=q直線的模型作為“最優(yōu)”的準則自變量篩選的標準與原則1.殘差平方和(SSE)縮小與確定系33全局擇優(yōu)法目的:預報效果好意義:對自變量各種不同的組合所建立的回歸方程進行比較擇優(yōu)。選擇方法:全局擇優(yōu)法目的:預報效果好34多元線性回歸分析課件35多元線性回歸分析課件36逐步選擇法1.

1.前進法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。這種選擇自變量的方法基于殘差均方縮小的準則,不一定能保證“最優(yōu)”.此法已基本淘汰。

2.

后退法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學意義的自變量。剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統(tǒng)計學意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復這一過程,直至方程中所有的自變量都不能剔除為止。理論上最好,建議使用采用此法。3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎上,進行雙向篩選的一種方法。該方法本質上是前進法。

逐步選擇法1.1.前進法,回歸方37多元線性回歸分析課件38第五節(jié)多元線性回歸的應用與注意事項多元線性回歸的應用第五節(jié)多元線性回歸的應用與注意事項多元線性回歸的應用39多元線性回歸應用的注意事項1、非同質資料的合并問題

斜率相同(同質):可以利用男、女合并的資料擬合共同的回歸模型;不同質:此時應按不同性別分別擬合回歸模型。2、指標的數量化

多元線性回歸應用的注意事項1、非同質資料的合并問題403、樣本含量:n=(5~10)m。4、關于逐步回歸:對逐步回歸得到的結果不要盲目的信任,所謂的“最優(yōu)”回歸方程并不一定是最好的,沒有選入方程的變量也未必沒有統(tǒng)計學意義。例如,例15-3中若將選入標準和剔除標準定為和,選入的變量是,而不是,結果發(fā)生了改變。不同回歸方程適應于不同用途,依專業(yè)知識定。3、樣本含量:n=(5~10)m。415、多重共線性

即指一些自變量之間存在較強的線性關系。如高血壓與年齡、吸煙年限、飲白酒年限等,這些自變量通常是高度相關的,有可能使通過最小二乘法建立回歸方程失效,引起下列一些不良后果:(1)參數估計值的標準誤變得很大,從而t值變得很小。(2)回歸方程不穩(wěn)定,增加或減少某幾個觀察值,估計值可能會發(fā)生很大的變化。(3)t檢驗不準確,誤將應保留在模型中的重要變量舍棄。(4)估計值的正負符號與客觀實際不一致。消除多重共線性:剔除某個造成共線性的自變量,重建回歸方程;合并自變量,采用逐步回歸方法。

5、多重共線性即指一些自變量之間存在較強的線性關系。如高42多元線性回歸分析課件43第13章多重線性回歸與相關

(multiplelinear

regression&multiplecorrelation)第13章多重線性回歸與相關

(multipleline44content第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷第二節(jié)假設檢驗及其評價第三節(jié)復相關系數與偏相關系數第四節(jié)

自變量篩選第五節(jié)多元線性回歸的應用與注意事項content第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷45目的:作出以多個自變量估計應變量的多元線性回歸方程。資料:應變量為定量指標;自變量全部或大部分為定量指標,若有少量定性或等級指標需作轉換。用途:解釋和預報。更精確意義:由于事物間的聯(lián)系常常是多方面的,一個應變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標的影響。目的:作出以多個自變量估計應變量的多元線性回歸方程。46第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷第一節(jié)

多重線性回歸的概念與統(tǒng)計推斷47變量:應變量1個,自變量k個,共k+1個。樣本含量:n數據格式見表13-1回歸模型一般形式:一、數據與多元線性回歸模型變量:應變量1個,自變量k個,共k+1個。一、數據48多元回歸分析數據格式

條件多元回歸分析數據格式條件49車流(X1)氣溫(X2)氣濕(X3)風速(X4)一氧化氮(Y)車流(X1)氣溫(X2)氣濕(X3)風速(X4)一氧化氮(Y)130020.0800.450.06694822.5692.000.005144423.0570.500.076144021.5792.400.01178626.5641.500.001108428.5593.000.003165223.0840.400.170184426.0731.000.140175629.5720.900.156111635.0922.800.039175430.0760.800.120165620.0831.450.059120022.5691.800.040153623.0571.500.087150021.8770.600.12096024.8671.500.039120027.0581.700.100178423.3830.900.222147627.0650.650.129149627.0650.650.145182022.0830.400.135106026.0581.830.029143628.0682.000.099143628.0682.000.099車流氣溫氣濕風速一氧化氮(Y)車流氣溫氣濕風速一氧化氮(Y)50一般步驟建立回歸方程(樣本)(2)檢驗并評價回歸方程及各自變量的作用大小一般步驟建立回歸方程(樣本)(2)檢驗并評價回歸方程51二、多元線性回歸方程的建立樣本估計而得的多重線性回歸方程bj為自變量Xj的偏回歸系數(partialregressioncoefficient),是βj的估計值,表示當方程中其他自變量保持常量時,自變量Xj變化一個計量單位,反應變量Y的平均值變化的單位數。

二、多元線性回歸方程的建立樣本估計而得的多重線性52求偏導數(一階)原理最小二乘法統(tǒng)計軟件包求偏導數(一階)原理統(tǒng)計軟件包53第二節(jié)假設檢驗及其評價

1.方差分析法:(一)對回歸方程第二節(jié)假設檢驗及其評價1.方差分析法:(一)對回歸54

多元線性回歸方差分析表多元線性回歸方差分析表55變異來源自由度SSMSFP回歸模型40.063960.0159917.59<.0001殘差190.017270.00090903總變異230.08123表13-2顯示,P<0.0001,拒絕H0。說明從整體上而言,用這四個自變量構成的回歸方程解釋空氣中NO濃度的變化是有統(tǒng)計學意義的。變異來源自由度SSMSFP回歸模型40.063960.01556偏回歸系數的t檢驗偏回歸系數的t檢驗是在回歸方程具有統(tǒng)計學意義的情況下,檢驗某個總體偏回歸系數等于零的假設,以判斷是否相應的那個自變量對回歸確有貢獻

偏回歸系數的t檢驗57利用SAS對例13-1的四個偏回歸系數進行t檢驗與標準化偏回歸系數的結果如表13-3所示。變量自由度回歸系數標準誤t值P值標準化偏回歸系數截距1-0.141660.06916-2.050.05460X110.000116190.000027484.230.00050.59249X210.004490.001902.360.02890.27274X31-0.000006550.00069083-0.010.9925-0.00110X41-0.034680.01081-3.210.0046-0.44770利用SAS對例13-1的四個偏回歸系數進行t檢驗與標準化偏回58第三節(jié)復相關系數與偏相關系數

確定系數、復相關系數與調整確定系數復相關系數的平方稱為確定系數(coefficientofdetermination),或決定系數,記為R2,用以反映線性回歸模型能在多大程度上解釋反應變量Y的變異性。其定義為

第三節(jié)復相關系數與偏相關系數確定系數、復相關系數與調整59復相關系數:確定系數的算術平方根

對例13-1,由方差分析表可得:SSR=0.06396SSE=0.01727SST=0.08123表示變量Y與k個自變量(X1,X2,…Xk)的線性相關的密切程度。說明,用包含氣車流量、氣溫、氣濕與風速這四個自變量的回歸方程可解釋交通點空氣NO濃度變異性的78.74%。復相關系數:確定系數的算術平方根對例13-1,由方差分析60表示交通點空氣NO濃度與氣車流量、氣溫、氣濕與風速等四個變量的復相關系數為0.8703

表示交通點空氣NO濃度與氣車流量、氣溫、氣濕與風速等四個變量61調整的R2(AdjustedR-Square)當回歸方程中包含有很多自變量,即使其中有一些自變量(如本例中的X3)對解釋反應變量變異的貢獻極小,隨著回歸方程的自變量的增加,R2值表現為只增不減,這是復相關系數R2的缺點。調整的R2定義為調整的R2(AdjustedR-Square)當回歸62偏相關系數冷飲銷售量(元)X1游泳人數(人)X2氣溫(oC)X3267722293978143045192431528106632618125333655136934690159335740176136780193137889223138996274939偏相關系數冷飲銷售量(元)游泳人數(人)氣溫(oC)26763多元線性回歸分析課件64偏相關系數(partialcorrelationcoefficient):一般地,扣除其他變量的影響后,變量Y與X的相關.表13-5空氣中NO濃度與各自變量的相關系數和偏相關系數自變量相關系數偏相關系數偏相關系數P值車流X10.808000.696200.0005氣溫X20.017240.476700.0289氣濕X30.27854-0.002180.9925風速X4-0.67957-0.592750.0046偏相關系數(partialcorrelationcoef65多元線性回歸分析課件66(二)對各自變量

指明方程中的每一個自變量對Y的影響(即方差分析和決定系數檢驗整體)。1.偏回歸平方和

(二)對各自變量1.偏回歸平方和67多元線性回歸分析課件68

各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到各自變量的偏回歸平方和可以通過擬合包含不同69結果結702.t檢驗法是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為2.t檢驗法是一種與偏回歸平方和檢驗完全等價的一種方71結論結論72標準化回歸系數

變量標準化是將原始數據減去相應變量的均數,然后再除以該變量的標準差。計算得到的回歸方程稱作標準化回歸方程,相應的回歸系數即為標準化回歸系數。

標準化回歸系數

變量標準化是將原始數據73注意:

一般回歸系數有單位,用來解釋各自變量對應變量的影響,表示在其它自變量保持不變時,增加或減少一個單位時Y的平均變化量。不能用各來比較各對的影響大小。

標準化回歸系數無單位,用來比較各自變量對應變量的影響大小,越大,對的影響越大。注意:74第四節(jié)

自變量篩選

目的:使得預報和(或)解釋效果好第四節(jié)

自變量篩選

目的:使得預報和(或)解釋效果好75自變量篩選的標準與原則

1.殘差平方和(SSE)縮小與確定系數(R2)增大2.殘差均方(SSE)縮小與調整確定系數增大3.CP統(tǒng)計量選擇既具有較小CP值,在圖中又接近于CP=q直線的模型作為“最優(yōu)”的準則自變量篩選的標準與原則1.殘差平方和(SSE)縮小與確定系76全局擇優(yōu)法目的:預報效果好意義:對自變量各種不同的組合所建立的回歸方程進行比較擇優(yōu)。選擇方法:全局擇優(yōu)法目的:預報效果好77多元線性回歸分析課件78多元線性回歸分析課件79逐步選擇法1.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論