多元線形回歸_第1頁
多元線形回歸_第2頁
多元線形回歸_第3頁
多元線形回歸_第4頁
多元線形回歸_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多元線形回歸第一頁,共三十九頁,編輯于2023年,星期五一、多元線形回歸的概念1。直線方程的回顧

直線回歸:研究兩個變量之間的回歸關(guān)系。如體重與身高等。在一定年齡階段,體重與身高之間可以表達(dá)為:

y(體重)=a+bx(身高)

a:截距

b:斜率2。多元線形回歸 研究一個變量(因變量)與多個自變量之間的關(guān)系。如兒童的心象面積與身高、體重、月齡等有關(guān)系。第二頁,共三十九頁,編輯于2023年,星期五一、多元線形回歸的概念(續(xù))1。方程形式:

y=b0+b1x1+b2x2+…+bpxp b0:截距

bi:偏回歸系數(shù)。其意義為: 在其他自變量不變的條件下,某個自變量變化一個單位導(dǎo)致的因變量變化。 線性的意義:回歸系數(shù)及自變量均為一階的。2。條件

1)自變量之間獨(dú)立

2)個體之間獨(dú)立3。對多元回歸求解結(jié)果的要求:

找出確實影響因變量的因素

1)建立的方程必須有意義

2)方程內(nèi)不存在對因變量沒有顯著影響的變量第三頁,共三十九頁,編輯于2023年,星期五二、多元線形回歸方程的求解過程1.數(shù)據(jù)的收集、整理2.方程的建立

1)偏回歸系數(shù)的估計

2)對方程顯著性的檢驗

3)對每個偏回歸系數(shù)的顯著性檢驗

4)比較不同自變量的作用的大小第四頁,共三十九頁,編輯于2023年,星期五1。數(shù)據(jù)的收集、整理1)數(shù)據(jù)收集要求盡可能包括影響自變量的因素/與自變量有影響的因素數(shù)據(jù)應(yīng)該成組的收集2)數(shù)據(jù)的整理要求最后的數(shù)據(jù)可以整理成一下形式:某校20名一年級女大學(xué)生肺活量及相關(guān)變量測量結(jié)果

———————————————————————————————序號 體重(Kg) 胸圍(cm) 肩寬(cm) 肺活量(L) (X1) (X2) (X3) (Y)

———————————————————————————————

1 51.3 73.6 36.4 2.992 48.9 83.9 34.0 3.11 。。。 。。。 。。。 。。。20 45.2 74.7 32.1 1.92

———————————————————————————————最后想建立的方程為:Y

=

?0+?

1x1+?

2x2+…+?

p

xp第五頁,共三十九頁,編輯于2023年,星期五2.方程的建立1)方程中參數(shù)的求解最小二乘法的原理: ∑(△y)2最小 求解上述方程,得到使上述方程成立的參數(shù)a及b △y為實測值與理論(擬合)值之差。第六頁,共三十九頁,編輯于2023年,星期五最小二乘法示例第七頁,共三十九頁,編輯于2023年,星期五求解過程:1。設(shè)計若干個矩陣如下:1)因變量矩陣Y=(y1

y2…..yn)′2)設(shè)計矩陣X3)誤差矩陣ε

=(ε1

ε2…εn)′4)系數(shù)矩陣?=(?

0

?

1

?

2…?

p)′Yi=?

0+?

1xi1+?

2xi2+…+?

pxip+εiY=X?+ε假設(shè):E(ε)=0就有:E(Y)

=

X?第八頁,共三十九頁,編輯于2023年,星期五2.解正規(guī)方程:對于待估計的回歸系數(shù),可以用b0,b1,b2,….,bp等表示。設(shè):B=(b0,b1,b2,….,bp)’正規(guī)方程. XB=Y可以進(jìn)一步表述成如下形式: X′XB=X′Y根據(jù)正規(guī)方程,我們可以得到:

B=(X′X)-1X′Y第九頁,共三十九頁,編輯于2023年,星期五2)對方程的顯著性檢驗 方差可以分解為兩個主要部分:

i)回歸可以解釋的部分

ii)回歸不能解釋的部分 比較這兩部分的差異是否存在顯著差異。方差分析表———————————————————————————

變異 平方和 自由度 均方 F值 來源 (MS)———————————————————————————

回歸 SS回

p

SS回/p MS回/MS誤 剩余 SS誤

n-p-1

SS誤/(n-p-1)————————————————————————————————————

SS總

n-1______________________________________________________第十頁,共三十九頁,編輯于2023年,星期五方差分析表中參數(shù)的計算回歸變異:

SS回=

∑biliybi:為每個自變量的偏回歸系數(shù)liy:每個自變量與因變量的離均差積和回歸自由度=方程內(nèi)的自變量數(shù)

剩余(誤差):SS誤=

SS總-SS回

剩余自由度=總自由度-回歸自由度總自由度=建立方程用的樣本量-1第十一頁,共三十九頁,編輯于2023年,星期五方差分析表中參數(shù)的計算(續(xù))F值的自由度: 分子自由度:為回歸自由度(p) 分母自由度:為誤差(剩余)自由度第十二頁,共三十九頁,編輯于2023年,星期五舉例:

SASOutputDependentVariable:WEIGHTAnalysisofVarianceSource DF SumofMean FValueProb>F Squares SquareModel 2 7215.6371 3607.8186 27.2280.001 Error 16 2120.0997 132.5062CTotal189335.7368RootMSE11.5111Dep.Mean 100.0263 R-Square 0.7729C.V. 11.5081 AdjR-Sq.0.7445第十三頁,共三十九頁,編輯于2023年,星期五3)對方程中每一個變量的顯著性檢驗?zāi)康模簩Ψ匠痰娘@著性檢驗只是說明就整體而言,因變量的總變異中,由于回歸變量導(dǎo)致的變異要遠(yuǎn)大于誤差。 但它, a.未解釋眾多回歸變量中是那一個/些的作用。

b.變量中是否存在對因變量的作用不顯著者。第十四頁,共三十九頁,編輯于2023年,星期五3)對方程中每一個變量的顯著性檢驗(續(xù))檢驗統(tǒng)計量

tti=bi

/

Sbi自由度=誤差自由度(n-p-1)第十五頁,共三十九頁,編輯于2023年,星期五SASOutput(cont.)ParameterEstimates ParameterStandardTforH0VariableDFEstimateErrorParameter=0 Prob>|T|INTERCEP 1-141.2238 33.3831 -4.230 0.0006AGE 1 1.2784 3.1101 0.411 0.6865HEIGHT 1 3.5970 0.9055 3.973 0.0011第十六頁,共三十九頁,編輯于2023年,星期五尚須回答的幾個問題1。用什么指標(biāo)評價擬合的好壞?2。如何比較方程中不同變量對因變量的影響大???3。對定性變量如何處理?其結(jié)果如何解釋?4。如果方程中有的變量不顯著,該怎么處理?如何從眾多的變量中選出確實對因變量有顯著意義的變量?5。如何利用方程進(jìn)行預(yù)報、預(yù)測?第十七頁,共三十九頁,編輯于2023年,星期五評價擬合優(yōu)度的指標(biāo)決定系數(shù)R2:表示在總的因變量的變異中,可以由回歸來解釋部分。

R2=SS回

/SS總復(fù)相關(guān)系數(shù)R:為決定系數(shù)的平方根剩余標(biāo)準(zhǔn)差Sy.x1,x2…xp:誤差的標(biāo)準(zhǔn)誤

Sy.x1,x2…xp

=√(SS誤

/

(n-p-1))第十八頁,共三十九頁,編輯于2023年,星期五標(biāo)準(zhǔn)偏回歸系數(shù)1。偏回歸系數(shù)由于單位不同,不能進(jìn)行直接的比較。為此有必要對此進(jìn)行標(biāo)準(zhǔn)化,使它們都成為無量綱的系數(shù)。2。標(biāo)準(zhǔn)化的方法 對每一個變量的每個觀察值(包括因變量在內(nèi)),減去該變量的平均數(shù),再除以標(biāo)準(zhǔn)差。此時得到的值相當(dāng)于實際觀察值離開均數(shù)有幾個標(biāo)準(zhǔn)差。第十九頁,共三十九頁,編輯于2023年,星期五標(biāo)準(zhǔn)偏回歸系數(shù)的意義:

標(biāo)準(zhǔn)偏回歸系數(shù)表示該自變量對因變量的直接貢獻(xiàn)。

例:調(diào)查了某地29名13歲男童的身高(cm)、體重(kg)與肺活量(L)。擬研究肺活量與身高及體重之間的關(guān)系。

1。三個變量之間的相關(guān)系數(shù)為:

身高 肺活量

體重 0.7421 0.7362

肺活量 0.5884

2。建立肺活量與兩個變量的回歸方程;

y=-0.565664+0.005017x1+0.054061x2

標(biāo)準(zhǔn)化偏回歸系數(shù)為(直接貢獻(xiàn)):

0.09352(身高),0.66682(體重)

第二十頁,共三十九頁,編輯于2023年,星期五標(biāo)準(zhǔn)偏回歸系數(shù)的意義(續(xù))兩個變量對因變量的間接貢獻(xiàn):身高對于肺活量的間接貢獻(xiàn): 0.66682x0.7421=0.4948體重對于肺活量的間接貢獻(xiàn): 0.09352x0.7421=0.0694各個變量對于因變量的總貢獻(xiàn)(相當(dāng)于各自對因變量的相關(guān)系數(shù)):

身高;0.09352+0.4948=0.5884

體重:0.66682+0.0694=0.7362第二十一頁,共三十九頁,編輯于2023年,星期五自變量間接作用的估計假設(shè)有三個自變量,一個因變量??梢援嫵梢韵玛P(guān)系圖:Yx2x3x1r23r12b2’b1’b3’第二十二頁,共三十九頁,編輯于2023年,星期五變量之間的相關(guān)系數(shù)矩陣 X1 X2 X3 YX1 1 R12 R13 R1Y

X2 R21 1 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1第二十三頁,共三十九頁,編輯于2023年,星期五間接作用的估計X1對因變量的間接作用等于

b2′

r12+b3′r13

X2對因變量的間接作用等于

b1′

r21+b3′r23X3對因變量的間接作用等于

b1′r13+b2′r32第二十四頁,共三十九頁,編輯于2023年,星期五數(shù)量化方法

以例子來說明數(shù)量化方法。 以地區(qū)為例。變量名為‘region’,有5個地區(qū),若用1、2、3、4、5來表示,顯然不合適。 解決辦法:采用設(shè)置啞變量的方法。用一組啞變量的取值來表示一個地區(qū)。 地區(qū)名原賦值 R1 R2 R3 R4

北京 1 1 0 0 0

上海 2 0 1 0 0

天津 3 0 0 1 0

河北 4 0 0 0 1

江蘇 5 0 0 0 0第二十五頁,共三十九頁,編輯于2023年,星期五多元線形回歸中的變量選擇1。為什么要進(jìn)行變量選擇?

1)自變量不一定都對因變量有顯著意義。

2)變量之間存在共線性2。變量選擇方法—

逐步回歸分析

1)前進(jìn)法

2)后退法

3)逐步法第二十六頁,共三十九頁,編輯于2023年,星期五多元線形回歸方程的應(yīng)用1。因素分析:比較各因素對因變量的作用2。用比較容易測量的自變量推算不容易測量的變量3。預(yù)測預(yù)報

1)點(diǎn)估計 假設(shè)有方程:13歲男童的肺活量與身高及體重之間的方程為:

y=-0.5657+0.005017x1+0.05406x2

則,一名身高為150cm、體重40kg的13歲男童,其肺活量的估計值為:

y=-0.5657+0.005017x150+0.05406x40 =2.3493(L)第二十七頁,共三十九頁,編輯于2023年,星期五多元線形回歸方程的應(yīng)用(2)2.)區(qū)間估計

區(qū)間估計的兩層意義:

a.身高為150cm、體重為40kg的男童肺活量均數(shù)的95%可信區(qū)間 計算公式:

?i±tα

(N-p-1)S?其中:S?=SY,1.2…p√(Xi’L-1Xi)

b.身高為150cm、體重為40kg的男童肺活量的95%容許區(qū)間(即95%的孩子其肺活量的范圍) 計算公式:

?i±tα

(N-p-1)Syi其中:Syi=SY,1.2…p√(1+Xi’L-1Xi)第二十八頁,共三十九頁,編輯于2023年,星期五多元回歸SAS程序1。多元回歸SAS程序的基本語句Procreg選擇項;Model因變量=自變量表(至少一個)/選擇項;其它選擇語句;quit;其中頭兩句是必需語句(required);解釋:

1)Procreg選擇項;可用的選擇項有:

a.DATA=SAS數(shù)據(jù)集

b.OUTEST=SAS數(shù)據(jù)集

c.OUTSSCP=SAS數(shù)據(jù)集以下為僅限于屏幕輸出的選擇項:

d.ALL e.CORR f.NOPRINT g.SIMPLE h.USSCP第二十九頁,共三十九頁,編輯于2023年,星期五多元回歸SAS程序的基本語句(續(xù))2)Model語句Model因變量=自變量表(至少一個)/選擇項;

本語句定義了建模用的因變量、自變量、模型及結(jié)果輸出選擇等。Model語句的主要輸出選擇項:

a)corrb:

輸出參數(shù)估計的相關(guān)陣

b)covb:

輸出參數(shù)估計的協(xié)方差陣

c)STB:輸出標(biāo)準(zhǔn)化偏回歸系數(shù)

d)CLI:計算并在屏幕輸出每個個體觀測預(yù)測值的95%上下限

e)CLM:

計算并在屏幕輸出每個觀測因變量期望值的95%上下限

f)R:計算并在屏幕輸出每個個體預(yù)測值、殘差及標(biāo)準(zhǔn)誤

g)P:同上第三十頁,共三十九頁,編輯于2023年,星期五—

模型選擇語句1.前進(jìn)法(Forward):

Modely=x1x2…/selection=forwardslentry=;2.后退法(backward):

Modely=x1x2…/selection=backwardslstay=;3.逐步法(stepwise);

Modely=x1x2…/selection=stepwiseslentry=slstay=;多元回歸SAS程序的基本語句(續(xù))第三十一頁,共三十九頁,編輯于2023年,星期五—

模型選擇中的幾個小技巧1.當(dāng)要求有幾個自變量(如x5x8)必須進(jìn)入方程時,而采用逐步回歸又有可能由于它們對因變量的影響不太大而難以進(jìn)入,此時可以將它們放在模型語句自變量列表的前面,并且用選擇項include=n,表示自變量列表中的前n個必須進(jìn)入方程: Modely=x5x8…/include=2selection=stepwiseslentry=;2. 規(guī)定模型中的自變量不超過若干個時,可以用stop=s來限定。

Modely=x1x2…/stop=4;表示方程內(nèi)最多只保留4個自變量。3. 無截距回歸模型:當(dāng)經(jīng)過檢驗發(fā)現(xiàn)截距沒有顯著意義時,可以建立無截距模型:

Modely=x1x2…/nointselection=stepwiseslentry=slstay=;多元回歸SAS程序的基本語句(續(xù))第三十二頁,共三十九頁,編輯于2023年,星期五多元回歸SAS程序的基本語句(續(xù))2)其它選擇語句 在其它選擇語句中,相當(dāng)一部分是SAS的通用語句,如by,freq語句等。不在此介紹。

a)outputout=SAS數(shù)據(jù)集關(guān)鍵字=名1…;

b)Plot語句:

在屏幕輸出兩變量的散點(diǎn)圖。

Plotx1*y;c)test語句:用于對參數(shù)的假設(shè)檢驗。

如testb1b2;

(合法語句及非法語句。)第三十三頁,共三十九頁,編輯于2023年,星期五多元回歸SAS程序舉例1。數(shù)據(jù)的收集及SAS數(shù)據(jù)集的建立(數(shù)據(jù)集名為test.包含變量有身高x1,體重x2及肺活量y).2。多元回歸SAS基本程序Procregdata=test;Modely=x1x2;Modely=x1x2/stb;Modely=x1x2/clmclir;第三十四頁,共三十九頁,編輯于2023年,星期五多元線形回歸輸出結(jié)果解釋第三十五頁,共三十九頁,編輯于2023年,星期五回歸診斷簡介

所謂回歸診斷是指通過一定的手段,判斷回歸方程擬合的優(yōu)劣及可能存在的問題。在SASReg過程中的回歸診斷主要包括3個方面的內(nèi)容;1。殘差分析2。共線性診斷3。影響分析第三十六頁,共三十九頁,編輯于2023年,星期五回歸診斷簡介(續(xù))1。殘差分析

殘差的定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論