逐步回歸課件_第1頁
逐步回歸課件_第2頁
逐步回歸課件_第3頁
逐步回歸課件_第4頁
逐步回歸課件_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1.1多重回歸分析的一般步驟多重線性回歸分析的知識(shí)回顧1、確定回歸方程中的解釋變量和被解釋變量2、確定回歸模型3、建立回歸方程4、對(duì)回歸方程進(jìn)行檢驗(yàn)5、利用回歸方程進(jìn)行預(yù)測1.2多重線性回歸方程研究者往往是根據(jù)自己的經(jīng)驗(yàn)或借鑒他人的研究結(jié)果選定若干個(gè)自變量,這些自變量對(duì)因變量的影響作用是否都有統(tǒng)計(jì)學(xué)意義還有待于考察。通過多重性線回歸分析,常常會(huì)發(fā)現(xiàn)其中有很多自變量對(duì)因變量的影響無意義。確定回歸方程中解釋變量的方法:同時(shí),也常會(huì)遇到自變量間存在共線性的問題,影響到偏回歸系數(shù)估計(jì)和回歸方程的“質(zhì)量”。在建立回歸方程的過程中有必要考慮對(duì)自變量進(jìn)行篩選,挑選出若干個(gè)與因變量作用較大的變量建立回歸方程。剔除那些對(duì)因變量沒有多大影響的變量,從而建立一個(gè)較理想、較穩(wěn)定的回歸方程。一、逐步回歸基本概念與方法二、逐步回歸的軟件實(shí)現(xiàn)主要內(nèi)容多重逐步回歸的思想:事先給定挑選自變量進(jìn)入方程的P界值,開始方程中沒有自變量,首先,按自變量對(duì)y的貢獻(xiàn)大小由大到小依次挑選進(jìn)入方程,每選入一個(gè)變量,都要對(duì)已在模型中的變量進(jìn)行檢驗(yàn),對(duì)大于剔除標(biāo)準(zhǔn)的變量要逐一剔除。多重逐步回歸要求回歸方程中包含所有對(duì)因變量作用顯著的自變量,而不包含作用不顯著的自變量,從而建立最優(yōu)回歸方程。一、逐步回歸的基本概念與方法(一)多重逐步回歸的基本思想(二)自變量篩選方法1.變量多增加了模型的復(fù)雜度

2.計(jì)算量增大

3.估計(jì)和預(yù)測的精度下降

4.模型應(yīng)用費(fèi)用增加自變量篩選方法主要包括:

全局擇優(yōu)法與局部擇優(yōu)法。

校正決定系數(shù)(考慮了自變量的個(gè)數(shù))Cp準(zhǔn)則(C即criterion,p為所選模型中變量的個(gè)數(shù);Cp接近(p+1)模型為最優(yōu))AIC(Akaike’sInformationCriterion)準(zhǔn)則;AIC越小越好1、全局擇優(yōu)法全局擇優(yōu)法:是對(duì)自變量各種不同組合所建立的回歸方程進(jìn)行比較,根據(jù)一些準(zhǔn)則(criterion)建立“最優(yōu)”的回歸方程。1)校正決定系數(shù)(Adjusteddeterminationcoefficient)“最優(yōu)”回歸方程是方程中最大的方程。

2)Cp準(zhǔn)則的計(jì)算公式3)AIC準(zhǔn)則的計(jì)算公式

如果自變量個(gè)數(shù)為4,則所有的回歸有:24-1=15個(gè)當(dāng)自變量數(shù)個(gè)數(shù)為10時(shí),所有可能的回歸有

210-1=

1023個(gè)

…;當(dāng)自變量數(shù)個(gè)數(shù)為50時(shí),所有可能的回歸有

250-1≈1015個(gè)全局擇優(yōu)法的局限性1)前進(jìn)法事先確定一個(gè)選入自變量的標(biāo)準(zhǔn)。開始時(shí)方程只含有常數(shù)項(xiàng),按自變量對(duì)因變量貢獻(xiàn)大小由大到小依次選入方程。每選入一個(gè)自變量,則重新計(jì)算方程外各自變量(剔除已選入變量影響后)對(duì)應(yīng)變量的貢獻(xiàn),直到方程外變量均達(dá)不到選入標(biāo)準(zhǔn)為止。變量一旦進(jìn)入模型,就不會(huì)被剔除。2、局部擇優(yōu)法特點(diǎn):自變量從無到有、從少到多

思想方法:Y對(duì)每一個(gè)自變量作直線回歸,對(duì)回歸平方和最大的自變量作F檢驗(yàn),有意義(P?。﹦t引入。在此基礎(chǔ)上,計(jì)算其它自變量的偏回歸平方和,選取偏回歸平方和最大者作F檢驗(yàn),…。局限性:即后續(xù)變量的引入可能會(huì)使先進(jìn)入方程的自變量變得不重要或自變量共線。2)后退法事先確定一個(gè)剔除自變量的標(biāo)準(zhǔn)。開始時(shí)方程中包含全部自變量,按自變量對(duì)因變量貢獻(xiàn)大小由小到大依次剔除。每剔除一個(gè)自變量,則重新計(jì)算未被剔除的各自變量對(duì)應(yīng)變量的貢獻(xiàn)大小,直到方程中所有變量均不符合剔除標(biāo)準(zhǔn)為止。自變量一旦被剔除,則不考慮進(jìn)入模型。特點(diǎn):先將全部自變量放入方程,然后逐步剔除思想方法:偏回歸平方和最小的變量,作F檢驗(yàn)及相應(yīng)的P值,決定它是否剔除(P大)。建立新的回歸方程。重復(fù)上述過程。局限性:自變量高度相關(guān)時(shí),可能得不出正確的結(jié)果。3)逐步回歸法本法的根本之處是:每引入一個(gè)自變量,都會(huì)對(duì)已在方程中的變量進(jìn)行檢驗(yàn),對(duì)符合剔除標(biāo)準(zhǔn)的變量逐一剔除。雙向篩選;引入有意義的變量(前進(jìn)法),剔除無意義變量(后退法)小樣本檢驗(yàn)水準(zhǔn)a定為0.10或0.15,大樣本把值定為0.05。值越小表示選取自變量的標(biāo)準(zhǔn)越嚴(yán)。注意,引入變量的檢驗(yàn)水準(zhǔn)要小于或等于剔除變量的檢驗(yàn)水準(zhǔn)。軟件提供自變量的篩選1、強(qiáng)行進(jìn)入法(Enter):

預(yù)先選定的自變量全部進(jìn)入回歸模型,這是系統(tǒng)默認(rèn)方式。2、消去法(Remove):

根據(jù)設(shè)定的條件剔除部分自變量。3、向前引入法(Forward):

自變量由少到多一個(gè)一個(gè)引入回歸方程,將與因變量的相關(guān)系數(shù)最大的第一個(gè)自變量選入方程并進(jìn)行檢驗(yàn),如果F值>Fa

,拒絕H0;將其余的變量中與因變量的相關(guān)系數(shù)最大的第二個(gè)自變量選入方程,當(dāng)F值>Fa

,拒絕H0;如此下去,不斷引入新的自變量,直到不能拒絕H0,再?zèng)]有變量被引入為止。4、向后剔除法(Backward):

自變量由多到少一個(gè)一個(gè)從回歸方程中剔除,首先,對(duì)預(yù)先選定自變量全部進(jìn)行回歸,然后把對(duì)因變量影響不顯著的自變量從方程中剔除并進(jìn)行檢驗(yàn),如果F值<Fa

,接受H0,一個(gè)一個(gè)剔除對(duì)因變量不顯著的自變量,直到再不能剔除為止。

5、逐步引入—剔除法(Stepwise):

向前引入法與向后剔除法的結(jié)合。SPSS統(tǒng)計(jì)軟件包多重線性回歸建模方法:強(qiáng)迫引入法Enter逐步回歸法Stepwise強(qiáng)迫剔除法Remove向后逐步法Backward向前逐步法Forward四、逐步回歸的主要用途1、建立一個(gè)自變量個(gè)數(shù)較少的多重線性回歸方程,可用于描述某些自變量與某一醫(yī)學(xué)現(xiàn)象間的數(shù)量關(guān)系,以及進(jìn)行疾病的預(yù)測預(yù)報(bào),輔助診斷等。2、進(jìn)行因素篩選,有助于從大量因素中篩選出對(duì)某一醫(yī)學(xué)現(xiàn)象作用顯著的因素和因素組,因此在病因分析和療效分析中有著廣泛的應(yīng)用。五、多元線性回歸應(yīng)用注意事項(xiàng)1、應(yīng)用影響因素分析,控制混雜因素預(yù)測:由自變量值推出應(yīng)變量Y的值控制:指定應(yīng)變量Y的值查看自變量的改變量線性給定X1,X2…,Xp的數(shù)值后,相應(yīng)的y隨機(jī)變動(dòng),其總體均數(shù)與自變量之間存在線性關(guān)系。(2)獨(dú)立n個(gè)個(gè)體之間互相獨(dú)立;(3)正態(tài)給定X1,X2,…,Xp的數(shù)值后,相應(yīng)的y值服從正態(tài)分布;(4)等方差當(dāng)X1,X2,…,Xp的數(shù)值變動(dòng)時(shí),相應(yīng)的y有相同的方差。2、應(yīng)用條件3、樣本含量不同準(zhǔn)則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標(biāo)準(zhǔn)獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的正確性、共線性影響4、統(tǒng)計(jì)“最優(yōu)”與專業(yè)的“最優(yōu)”一般樣本含量要求是參與分析的變量(自變量+因變量)個(gè)數(shù)的5~10倍,對(duì)多重線性回歸醫(yī)學(xué)中甚至要求20倍。整個(gè)方程決定系數(shù)R2高,但各自變量對(duì)應(yīng)的回歸系數(shù)均不顯著。解決共線性的主要方法:篩選自變量用主成分回歸嶺回歸。多重共線性的識(shí)別與解決辦法例1有學(xué)者認(rèn)為血清中低密度脂蛋白增高和高密度脂蛋白降低是引起動(dòng)脈硬化的一個(gè)重要原因?,F(xiàn)測量30名懷疑患有動(dòng)脈硬化的就診患者的栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C、低密度脂蛋白中的膽固醇、高密度脂蛋白中的膽固醇含量,資料見data12-1。分別求出低、高密度脂蛋白中的膽固醇含量對(duì)栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C的回歸方程二、逐步回歸的軟件實(shí)現(xiàn)2.1建立數(shù)據(jù)文件2.2操作步驟第一步:單擊Analyze/Regression/Linear打開線性回歸分析主對(duì)話框,選擇分析。第二步:選擇低密度脂蛋白中的膽固醇含量進(jìn)入因變量框,選擇栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C進(jìn)入自變量框選擇逐步篩選自變量篩選方法選項(xiàng)第三步:設(shè)置統(tǒng)計(jì)量對(duì)話框,選項(xiàng)如下圖,單擊確定返回;第四步:設(shè)置圖形對(duì)話框,選項(xiàng)如下圖,單擊確定返回;初步操作完成。單擊確定返回,單擊確定,完成操作。結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:結(jié)果解釋:作業(yè)預(yù)習(xí)10.33、應(yīng)用的注意事項(xiàng)(一)變量的數(shù)量化(1)自變量為連續(xù)型變量:必要時(shí)作變換(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1(3)自變量為二分類:如令男=1,女=0(4)自變量為名義分類:需要采用啞變量(dummyvariables)進(jìn)行編碼假如職業(yè)分類為工、農(nóng)、商、學(xué)、兵5類,則可定義比分類數(shù)少1個(gè),即4個(gè)啞變量。編碼方法如下:名義分類變量的啞變量化多重線性回歸建立的回歸方程包含了所有的自變量,但

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論