統(tǒng)計(jì)學(xué)回歸分析_第1頁(yè)
統(tǒng)計(jì)學(xué)回歸分析_第2頁(yè)
統(tǒng)計(jì)學(xué)回歸分析_第3頁(yè)
統(tǒng)計(jì)學(xué)回歸分析_第4頁(yè)
統(tǒng)計(jì)學(xué)回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)回歸分析第1頁(yè),共56頁(yè),2023年,2月20日,星期二問(wèn)題提出:

醫(yī)學(xué)研究中常研究某因素存在條件下某結(jié)果是否發(fā)生?以及之間的關(guān)系如何?因素(X)疾病結(jié)果(Y)

x1,x2,x3…XK

發(fā)生Y=1

不發(fā)生Y=0例:暴露因素冠心病結(jié)果高血壓史(x1):有或無(wú)有或無(wú)高血脂史(x2):有或無(wú)吸煙(x3):有或無(wú)第2頁(yè),共56頁(yè),2023年,2月20日,星期二研究問(wèn)題可否用多元線性回歸方法?

1.多元線性回歸方法要求Y的取值為計(jì)量的連續(xù)性隨機(jī)變量。2.多元線性回歸方程要求Y與X間關(guān)系為線性關(guān)系。3.多元線性回歸結(jié)果不能回答“發(fā)生與否”logistic回歸方法補(bǔ)充多元線性回歸的不足第3頁(yè),共56頁(yè),2023年,2月20日,星期二Logistic回歸方法

該法研究是當(dāng)y取某值(如y=1)發(fā)生的概率(p)與某暴露因素(x)的關(guān)系。

P(概率)的取值波動(dòng)0~1范圍?;驹恚河靡唤M觀察數(shù)據(jù)擬合Logistic模型,揭示若干個(gè)x與一個(gè)因變量取值的關(guān)系,反映y對(duì)x的依存關(guān)系。第4頁(yè),共56頁(yè),2023年,2月20日,星期二

一、基本概念

1.變量的取值

logistic回歸要求應(yīng)變量(Y)取值為分類(lèi)變量(兩分類(lèi)或多個(gè)分類(lèi))

自變量(Xi)稱(chēng)為危險(xiǎn)因素或暴露因素,可為連續(xù)變量、等級(jí)變量、分類(lèi)變量??捎衜個(gè)自變量X1,X2,…Xm

第5頁(yè),共56頁(yè),2023年,2月20日,星期二2.兩值因變量的logistic回歸模型方程一個(gè)自變量與Y關(guān)系的回歸模型如:y:發(fā)生=1,未發(fā)生=0x有=1無(wú)=0,記為p(y=1/x)表示某暴露因素狀態(tài)下,結(jié)果y=1的概率(P)模型?;蚰P兔枋隽藨?yīng)變量p與x的關(guān)系第6頁(yè),共56頁(yè),2023年,2月20日,星期二P概率10.5Z值0123-1-2-3圖16-1Logistic回歸函數(shù)的幾何圖形Β為正值,x越大,結(jié)果y=1發(fā)生的可能性(p)越大。第7頁(yè),共56頁(yè),2023年,2月20日,星期二幾個(gè)logistic回歸模型方程第8頁(yè),共56頁(yè),2023年,2月20日,星期二logistic回歸模型方程的線性表達(dá)對(duì)logistic回歸模型的概率(p)做logit變換,截距(常數(shù))回歸系數(shù)Y~(-∞至+∞)線性關(guān)系方程如下:第9頁(yè),共56頁(yè),2023年,2月20日,星期二在有多個(gè)危險(xiǎn)因素(Xi)時(shí)多個(gè)變量的logistic回歸模型方程的線性表達(dá):或第10頁(yè),共56頁(yè),2023年,2月20日,星期二2.模型中參數(shù)的意義Β0(常數(shù)項(xiàng)):暴露因素Xi=0時(shí),個(gè)體發(fā)病概率與不發(fā)病概率之比的自然對(duì)數(shù)比值。第11頁(yè),共56頁(yè),2023年,2月20日,星期二

的含義:某危險(xiǎn)因素,暴露水平變化時(shí),即Xi=1與Xi=0相比,發(fā)生某結(jié)果(如發(fā)?。﹥?yōu)勢(shì)比的對(duì)數(shù)值。

P1(y=1/x=1)的概率P0(y=1/x=0)的概率第12頁(yè),共56頁(yè),2023年,2月20日,星期二

危險(xiǎn)因素

Yx=1x=0發(fā)病=130(a)10(b)不發(fā)病=070(c)90(d)

a+cb+d

危險(xiǎn)因素

Yx=1x=0發(fā)病=1p1p0

不發(fā)病=01-p11-p0

有暴露因素人群中發(fā)病的比例第13頁(yè),共56頁(yè),2023年,2月20日,星期二

反映了在其他變量固定后,X=1與x=0相比發(fā)生Y事件的對(duì)數(shù)優(yōu)勢(shì)比?;貧w系數(shù)β與ORX與Y的關(guān)聯(lián)

β=0,OR=1,無(wú)關(guān)

β>0,OR>1,有關(guān),危險(xiǎn)因素

β<0,OR<1,有關(guān),保護(hù)因子事件發(fā)生率很小,OR≈RR。多元回歸模型的的概念第14頁(yè),共56頁(yè),2023年,2月20日,星期二二、Logistic回歸模型Logistic回歸的分類(lèi)

二分類(lèi)多分類(lèi)條件Logistic回歸非條件Logistic回歸第15頁(yè),共56頁(yè),2023年,2月20日,星期二Logit變換

也稱(chēng)對(duì)數(shù)單位轉(zhuǎn)換

logitP=第16頁(yè),共56頁(yè),2023年,2月20日,星期二流行病學(xué)概念:設(shè)P表示暴露因素X時(shí)個(gè)體發(fā)病的概率,則發(fā)病的概率P與未發(fā)病的概率1-P

之比為優(yōu)勢(shì)(odds),logitP就是odds的對(duì)數(shù)值。第17頁(yè),共56頁(yè),2023年,2月20日,星期二Logistic回歸模型

Logistic回歸的logit模型

Logistic回歸模型第18頁(yè),共56頁(yè),2023年,2月20日,星期二三、參數(shù)估計(jì)最大似然估計(jì)法(Maximumlikehoodestimate)似然函數(shù):L=∏Pi

對(duì)數(shù)似然函數(shù):

lnL=∑(lnP)=lnP1+lnP2+…+lnPn

非線性迭代方法——

Newton-Raphson法第19頁(yè),共56頁(yè),2023年,2月20日,星期二四、參數(shù)檢驗(yàn)似然比檢驗(yàn)(likehoodratiotest)

通過(guò)比較包含與不包含某一個(gè)或幾個(gè)待檢驗(yàn)觀察因素的兩個(gè)模型的對(duì)數(shù)似然函數(shù)變化來(lái)進(jìn)行,其統(tǒng)計(jì)量為G

(又稱(chēng)Deviance)。

G=-2(lnLp-lnLk)

樣本量較大時(shí),G近似服從自由度為待檢驗(yàn)因素個(gè)數(shù)的2分布。第20頁(yè),共56頁(yè),2023年,2月20日,星期二比分檢驗(yàn)(scoretest)以未包含某個(gè)或幾個(gè)變量的模型為基礎(chǔ),保留模型中參數(shù)的估計(jì)值,并假設(shè)新增加的參數(shù)為零,計(jì)算似然函數(shù)的一價(jià)偏導(dǎo)數(shù)(又稱(chēng)有效比分)及信息距陣,兩者相乘便得比分檢驗(yàn)的統(tǒng)計(jì)量S

。樣本量較大時(shí),S近似服從自由度為待檢驗(yàn)因素個(gè)數(shù)的2分布。第21頁(yè),共56頁(yè),2023年,2月20日,星期二Wald檢驗(yàn)(waldtest)即廣義的t檢驗(yàn),統(tǒng)計(jì)量為u

u服從正態(tài)分布,即為標(biāo)準(zhǔn)正態(tài)離差。

Logistic回歸系數(shù)的區(qū)間估計(jì)

第22頁(yè),共56頁(yè),2023年,2月20日,星期二

上述三種方法中,似然比檢驗(yàn)最可靠,比分檢驗(yàn)一般與它相一致,但兩者均要求較大的計(jì)算量;而Wald檢驗(yàn)未考慮各因素間的綜合作用,在因素間有共線性時(shí)結(jié)果不如其它兩者可靠。第23頁(yè),共56頁(yè),2023年,2月20日,星期二五、回歸系數(shù)的意義

單純從數(shù)學(xué)上講,與多元線性回歸分析中回歸系數(shù)的解釋并無(wú)不同,亦即bi表示xi改變一個(gè)單位時(shí),logitP的平均變化量。第24頁(yè),共56頁(yè),2023年,2月20日,星期二流行病學(xué)中的一些基本概念:相對(duì)危險(xiǎn)度(relativerisk):RR=P1/P2比數(shù)

Odds=P/(1-P)比數(shù)比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率較小情況下,OR≈RR第25頁(yè),共56頁(yè),2023年,2月20日,星期二Logistic回歸中的常數(shù)項(xiàng)(b0)表示,在不接觸任何潛在危險(xiǎn)/保護(hù)因素條件下,效應(yīng)指標(biāo)發(fā)生與不發(fā)生事件的概率之比的對(duì)數(shù)值。Logistic回歸中的回歸系數(shù)(bi

)表示,某一因素改變一個(gè)單位時(shí),效應(yīng)指標(biāo)發(fā)生與不發(fā)生事件的概率之比的對(duì)數(shù)變化值,即OR的對(duì)數(shù)值。第26頁(yè),共56頁(yè),2023年,2月20日,星期二Logistic回歸系數(shù)的意義分析因素xi為二分類(lèi)變量時(shí),存在(暴露)xi

=1,不存在(未暴露)xi

=0,則Logistic回歸中xi的系數(shù)bi就是暴露與非暴露優(yōu)勢(shì)比的對(duì)數(shù)值.即OR=exp(bi)=e(bi)第27頁(yè),共56頁(yè),2023年,2月20日,星期二分析因素xi為多分類(lèi)變量時(shí),為方便起見(jiàn),常用1,2,…,k分別表示k個(gè)不同的類(lèi)別。進(jìn)行Logistic回歸分析前需將該變量轉(zhuǎn)換成k-1個(gè)指示變量或啞變量(design/dummyvariable),這樣指示變量都是一個(gè)二分變量,每一個(gè)指示變量均有一個(gè)估計(jì)系數(shù),即回歸系數(shù),其解釋同前。第28頁(yè),共56頁(yè),2023年,2月20日,星期二分析因素xi為等級(jí)變量時(shí),如果每個(gè)等級(jí)的作用相同,可按計(jì)量資料處理:如以最小或最大等級(jí)作參考組,并按等級(jí)順序依次取為0,1,2,…。此時(shí),e(bi)

表示xi增加一個(gè)等級(jí)時(shí)的優(yōu)勢(shì)比,e(k*bi)表示xi增加k個(gè)等級(jí)時(shí)的優(yōu)勢(shì)比。如果每個(gè)等級(jí)的作用不相同,則應(yīng)按多分類(lèi)資料處理。分析因素xi為連續(xù)性變量時(shí),e(bi)表示xi增加一個(gè)計(jì)量單位時(shí)的優(yōu)勢(shì)比。第29頁(yè),共56頁(yè),2023年,2月20日,星期二

多因素Logistic回歸分析時(shí),對(duì)回歸系數(shù)的解釋都是指在其它所有自變量固定的情況下的優(yōu)勢(shì)比。存在因素間交互作用時(shí),Logistic回歸系數(shù)的解釋變得更為復(fù)雜,應(yīng)特別小心。第30頁(yè),共56頁(yè),2023年,2月20日,星期二

根據(jù)Wald檢驗(yàn),可知Logistic回歸系數(shù)bi服從u分布。因此其可信區(qū)間為進(jìn)而,優(yōu)勢(shì)比e(bi)的可信區(qū)間為第31頁(yè),共56頁(yè),2023年,2月20日,星期二六、Logistic回歸分析方法基本思想同線性回歸分析。從所用的方法看,有強(qiáng)迫法、前進(jìn)法、后退法和逐步法。在這些方法中,篩選變量的過(guò)程與線性回歸過(guò)程的完全一樣。但其中所用的統(tǒng)計(jì)量不再是線性回歸分析中的F統(tǒng)計(jì)量,而是以上介紹的參數(shù)檢驗(yàn)方法中的三種統(tǒng)計(jì)量之一。第32頁(yè),共56頁(yè),2023年,2月20日,星期二

為計(jì)算方便,通常向前選取變量用似然比或比分檢驗(yàn),而向后剔除變量常用Wald檢驗(yàn)。第33頁(yè),共56頁(yè),2023年,2月20日,星期二七、條件Logistic回歸對(duì)配對(duì)/比調(diào)查資料,應(yīng)該用條件Logistic回歸分析。

對(duì)于配比資料,第i個(gè)配比組可以建立一個(gè)Logistic回歸:第34頁(yè),共56頁(yè),2023年,2月20日,星期二假設(shè)自變量在各配比組中對(duì)結(jié)果變量的作用是相同的,即自變量的回歸系數(shù)與配比組無(wú)關(guān)。配比設(shè)計(jì)的Logistic回歸模型其中不含常數(shù)項(xiàng)。第35頁(yè),共56頁(yè),2023年,2月20日,星期二可以看出此回歸模型與非條件Logistic回歸模型十分相似,只不過(guò)這里的參數(shù)估計(jì)是根據(jù)條件概率得到的,因此稱(chēng)為條件Logistic回歸模型。條件Logistic回歸的回歸系數(shù)檢驗(yàn)與分析,和非條件Logistic回歸完全相同。第36頁(yè),共56頁(yè),2023年,2月20日,星期二

八、logistic回歸的應(yīng)用

1.疾病(某結(jié)果)的危險(xiǎn)因素分析和篩選

用回歸模型中的回歸系數(shù)(βi)和OR說(shuō)明危險(xiǎn)因素與疾病的關(guān)系。適用的資料:

前瞻性研究設(shè)計(jì)、病例對(duì)照研究設(shè)計(jì)、橫斷面研究設(shè)計(jì)的資料。三類(lèi)研究計(jì)算的logistic回歸模型的β意義是一致。僅常數(shù)項(xiàng)不同。(證明略)第37頁(yè),共56頁(yè),2023年,2月20日,星期二2.校正混雜因素,對(duì)療效做評(píng)價(jià)在臨床研究和療效的評(píng)價(jià),組間某些因素構(gòu)成不一致干擾療效分析,通過(guò)該法可控制非處理因素,正確評(píng)價(jià)療效。3.預(yù)測(cè)與判別預(yù)測(cè)個(gè)體在某因素存在條件下,發(fā)生某事件(發(fā)?。┑母怕剩瑸檫M(jìn)一步治療提供依據(jù)。第38頁(yè),共56頁(yè),2023年,2月20日,星期二輸精管切除術(shù)與動(dòng)脈粥樣硬化疾病的研究1.問(wèn)題的描述(1)輸精管切除術(shù)是否與動(dòng)脈粥樣硬化疾病有關(guān)?(2)如果存在聯(lián)系,與其他已知的危險(xiǎn)因素相比,輸精管切除術(shù)的相對(duì)重要性有多大?(3)哪些男性亞群在輸精管切除術(shù)以后發(fā)生動(dòng)脈粥樣硬化疾病的可能性特別大?

九、logistic回歸的應(yīng)用舉例第39頁(yè),共56頁(yè),2023年,2月20日,星期二2.研究目的(1)一般目的確定輸精管切除術(shù)與其后因動(dòng)脈粥樣硬化疾病而住院之間是否有因果聯(lián)系;如果有,則確定輸精管切除術(shù)與患動(dòng)脈粥樣硬化性疾病的危險(xiǎn)性是否因觀察對(duì)象具有其他冠心病危險(xiǎn)因素,如吸煙、高血壓和高膽固醇等而增強(qiáng)。第40頁(yè),共56頁(yè),2023年,2月20日,星期二(2)特殊目的A.估計(jì)輸精管切除術(shù)及其男性動(dòng)脈粥樣硬化性疾病危險(xiǎn)因素的相對(duì)危險(xiǎn)度(使用單變量分析方法);B.估計(jì)輸精管切除術(shù)對(duì)動(dòng)脈粥樣硬化性疾病獨(dú)立的作用(利用條件Logistic回歸模型);C.檢測(cè)輸精管切除術(shù)導(dǎo)致動(dòng)脈粥樣硬化性疾病的可能期限;D.檢測(cè)在輸精管切除術(shù)、吸煙和高血壓之間可能的協(xié)同作用。第41頁(yè),共56頁(yè),2023年,2月20日,星期二3.研究變量(1)按照世界衛(wèi)生組織標(biāo)準(zhǔn)來(lái)診斷動(dòng)脈粥樣硬化性疾??;(2)病人特征:年齡,出生日期,宗教,教育,職業(yè),家庭史,婚姻狀況。(3)生育史:存活子女的數(shù)量與性別,妻子的生育情況。(4)生活方式:吸煙習(xí)慣,飲酒量,飲食習(xí)慣,食鹽量,喝咖啡量,體力活動(dòng)。(5)醫(yī)學(xué)史:有無(wú)可能導(dǎo)致不育的疾病或手術(shù)、高血壓、糖尿病或高膽固醇血癥。第42頁(yè),共56頁(yè),2023年,2月20日,星期二4.研究設(shè)計(jì)

①抽樣:以完全隨機(jī)抽樣方式確定樣本。樣本量大小的計(jì)算是基于事先確定顯著性水平、把握度和打算測(cè)知的相對(duì)危險(xiǎn)度水平。假定樣本量確定為病例組500例,對(duì)照組1000例。本設(shè)計(jì)力圖避免或減少在病例一對(duì)照研究中常見(jiàn)的偏倚與誤差?;貞浧小⑦x擇偏倚和輸精管切除術(shù)報(bào)告偏倚對(duì)研究結(jié)果的真實(shí)性是極其重要的。第43頁(yè),共56頁(yè),2023年,2月20日,星期二②資料收集:病例組的選?。赫{(diào)查員審閱每日住院病人情況→如果診斷適合研究的范圍,將病例轉(zhuǎn)給心臟病主任醫(yī)師作評(píng)估→由他做出病例診斷是否合格的決定→調(diào)查人員核對(duì)病人背景資料是否合格→如果病人滿(mǎn)足診斷標(biāo)椎和背景資料合格→調(diào)查人員開(kāi)始詢(xún)問(wèn)并填寫(xiě)調(diào)查表→每完成5個(gè)病例和10個(gè)配對(duì)對(duì)照以后,請(qǐng)研究中心的工作人員對(duì)調(diào)查表進(jìn)行評(píng)估→重復(fù)以上步驟。第44頁(yè),共56頁(yè),2023年,2月20日,星期二對(duì)照組的選?。赫{(diào)查人員評(píng)估入院?jiǎn)尾⑦x擇符合配對(duì)標(biāo)椎和入院診斷合適的對(duì)照病例→核對(duì)病人背景資料是否符合入院標(biāo)準(zhǔn)→如對(duì)照組成員合格,則進(jìn)行調(diào)查。第45頁(yè),共56頁(yè),2023年,2月20日,星期二③統(tǒng)計(jì)分析:A.計(jì)算未校正的相對(duì)危險(xiǎn)比(OR)與95%可信限范圍,以估計(jì)輸精管切除術(shù)和其他危險(xiǎn)因素的相對(duì)危險(xiǎn)度。B.利用配對(duì)的條件Logistic回歸模型計(jì)算校正相對(duì)危險(xiǎn)比,用此比來(lái)評(píng)價(jià)輸精管切除術(shù)對(duì)動(dòng)脈粥樣硬化的獨(dú)立影響。C.利用動(dòng)脈粥樣硬化作為因變量,輸精管切除術(shù)后間隔時(shí)間作為自變量,用條件Logistic回歸模型來(lái)檢驗(yàn)輸精管切除術(shù)后時(shí)間長(zhǎng)短對(duì)發(fā)生動(dòng)脈粥樣硬化的時(shí)間效應(yīng)。第46頁(yè),共56頁(yè),2023年,2月20日,星期二二、Logistic回歸應(yīng)用的注意事項(xiàng)

1.模型中自變量的取值自變量(X)可為計(jì)量數(shù)據(jù)、分類(lèi)數(shù)據(jù)和等級(jí)數(shù)據(jù)。計(jì)量數(shù)據(jù)常重新劃為有序組段,OR的實(shí)際意義較大。例1:年齡(歲,x1)

十、logistic回歸的注意事項(xiàng)第47頁(yè),共56頁(yè),2023年,2月20日,星期二數(shù)據(jù)的幾種賦值形式1)兩分類(lèi)變量,賦值為:有=1,無(wú)=02)有序變量,賦值;無(wú)=0,少=1,中=2,多=3

例;年齡<45=145-54=255-64=3≥65=43.)多分類(lèi)無(wú)序變量:賦值為:?jiǎn)∽兞浚╠ummyvariable)形式見(jiàn)例:注:變量取值不同,方程的系數(shù)和符號(hào)將發(fā)生變化。第48頁(yè),共56頁(yè),2023年,2月20日,星期二

冠心病可能的危險(xiǎn)因素與賦值因素變量名賦值說(shuō)明年齡(歲)X1<45=1,4554=2,5564=3,65=4高血壓史X2無(wú)=0,有=1高血壓家族史X3無(wú)=0,有=1吸煙X4不吸=0,吸=1第49頁(yè),共56頁(yè),2023年,2月20日,星期二年齡(X)化為啞變量的賦值年齡(歲)有序變量啞變量(方法一)X水平D1D2D3<40100040~

210050~301060~4001方程1:有序變量方程Β含義:x每增加1個(gè)單位(10歲),發(fā)病的lnOR平均增加β1第50頁(yè),共56頁(yè),2023年,2月20日,星期二方程2:?jiǎn)∽兞糠匠蹋▎∽兞總€(gè)數(shù)=分類(lèi)數(shù)-1)方程系數(shù)的解釋?zhuān)?/p>

表示40-歲/<40歲相比的對(duì)數(shù)優(yōu)勢(shì)比表示50-歲/<40歲相比的對(duì)數(shù)優(yōu)勢(shì)比表示60-歲/<40歲相比的對(duì)數(shù)優(yōu)勢(shì)比第51頁(yè),共56頁(yè),2023年,2月20

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論