版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、多元Logistics回歸分析,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用,從數學角度看,logistic回歸模型非常巧妙地避開了分類型變量的分布問題,補充完善了線性回歸模型和廣義線性回歸分析的缺陷,因變量y 是分類型變量,自變量x是與之有關的一些因素。但是,這樣的問題卻不能直接用線性回歸分析方法來解決,其根本原因就在于因變量是分類型變量,嚴重違背了線性回歸分析對數據的假設條件,從數學角度看,很難找到一個函數y=f (x),當x變化時,它對應的函數值y僅取兩個或幾個有限值,研究者
2、將所要研究的問題轉換了一個角度,不是直接分析y與x的關系,而是分析y取某個值的概率p與x的關系,分析因變量y取某個值的概率p與自變量x的關系,等價于尋找一個連續(xù)函數p=p(x),使得當x變化時,它對應的函數值p不超出0,1范圍。數學上這樣的函數是存在且不唯一的,logistic回歸模型就是滿足這種要求的函數之一,根據數據的類型,logistic回歸分析分為兩種: 一種是條件logistic回歸(conditional logistic regression),用于分析配對病例對照研究數據。 另一種是非條件logistic回歸(unconditional logistic regression)
3、,用于分析成組數據或非配對的病例對照研究。 非條件logistic回歸分析也簡稱為logistic回歸分析,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用,logistic回歸模型對變量的要求,Logistic回歸分析要求因變量是分類變量,包括順序變量和名義變量。不論是哪種變量都要用數字來表示它的取值。自變量可以是數值型連續(xù)變量,也可以是順序型分類變量,如果是名義變量,則需要轉換成啞變量來處理,logistic回歸模型的個數,取決于因變量的取值個數。因為 logistic回歸模型描述的是因變量取每個值的概率與自變量的關系,因此因變量的每一個值都對應一個模型。但是
4、由于概率之和為1,所以當因變量是g值變量時,只需要估計g-1個模型,二值因變量的 logistic回歸模型,假設因變量 y是一個取值為1和0的二值變量(binary variable),x 是一個影響y 的危險因子(risk factor)。令在x 條件下y=1的概率是 p=p(y=1| x),那么,表達式,多元 logistic回歸模型,如果對模型的概率 p 進行l(wèi)ogit 變換,logistic回歸模型的另一種形式,它給出的是變量z=logit(p)關于x 的線性函數,多值變量的 logistic回歸模型,p j = p( y j | x ),它表示了 y 取前 j 個值的累積概率(cum
5、ulative probability,累積概率函數,第一個模型表示了y 取第一個值的概率p1與x的關系;第二個模型表示了y 取前兩個值的累積概率p2與x的關系。這兩個模型的常數項不同,回歸系數完全相同的。 y 取第一個值的概率p(1)=p1 ,y 取第二個值的概率p(2)=p2 -p1,y 取第三個值的概率p(3)=1- p2 。它們的截距不同,斜率相同,所以是g-1條平行直線族。多值因變量logistic回歸模型要求進行數據的平行性檢驗,內容,基本原理 數學模型 方法步驟 - 參數估計 - 檢驗參數 - 模型檢驗 - 平行性檢驗 系數解釋 條件Logistics分析 應用,參數估計,在lo
6、gistic回歸分析模型中,回歸系數的估計方法通常是最大似然法(Maximum Likelihood method)。最大似然法就是選取使得總體真參數落在樣本觀察值領域里的概率達到最大的參數值作為真參數的估計值,為了得到一個非偏估計(non-biased estimate),需采用重復遞推的方法,將最大似然估計值不斷修正。軟件系統(tǒng)使用的是重復加權最小二乘遞推法(iteratively reweighted least squares algorithm)來估計回歸系數,和線性回歸分析一樣,logistic回歸模型的回歸系數是自變量對應變量作用大小的一種度量。因為自變量的單位不同,不能用回歸系數
7、的估計值來判斷哪一個自變量對因變量的影響作用最大。為了要進行比較,需要計算出標準回歸系數。計算原理和線性回歸分析一樣。在標準回歸系數估計值中,絕對值最大的標準回歸系數對應的 x 變量對 y 變量的影響最大,檢驗參數,統(tǒng)計假設常用的方法是Ward卡方檢驗。當大于樣本對應的Ward卡方值的概率小于0.05時,在統(tǒng)計意義上可以拒絕上述零假設。即,可以認為第 j個 x 變量對y=1的概率p有顯著性影響,其犯第一類錯誤的可能性不超過5% 。和線性回歸分析一樣,當自變量個數較多時,可采用逐步回歸分析方法來篩選危險因子,模型檢驗,logistic回歸模型的總體檢驗常用的方法有,AIC檢驗法(Akaike I
8、nformation Criterion)。用于比較同一數據下的不同模型(含自變量個數不同)。AIC值越小,模型越合適。AIC值的計算公式是,SC檢驗法(Schwarte Coriterion)。和AIC一樣,用于比較同一數據下的不同模型(含自變量個數不同)。SC值越小,模型越合適。SC的計算公式是,似然比檢驗法(G= -2log L)。用于檢驗全部自變量(包括常數項)對因變量的聯(lián)合作用。它的計算公式是,計分檢驗法(Score)。用于檢驗全部自變量(不包括常數項)對因變量的聯(lián)合作用,因變量取值個數,平行性檢驗,當因變量為多值變量時,模型包含多個回歸方程。Logistic回歸分析要求這多個回歸方
9、程中自變量的系數是相等的。因此對于多值變量的logistic回歸模型,要求作平行性檢驗,也稱為比例比數假設檢驗(test for the proportional odds assumption),使用的方法是計分檢驗法,當檢驗結果p0.05時,沒有理由拒絕上述無效假設,這時,多值變量的logistic回歸模型有統(tǒng)計意義。否則,應當將因變量的某些值合并,減少因變量的取值個數,使得多值變量logistic回歸模型的平行性成立,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用,常數項):暴露因素Xi=0時,個體發(fā)病概率與不發(fā)病概率之比的自然對數比值,的含義:某危險因素
10、,暴露水平變化時,即Xi=1與Xi=0相比,發(fā)生某結果(如發(fā)?。﹥?yōu)勢比的對數值,P1(y=1/x=1)的概率,P0(y=1/x=0)的概率,多元回歸模型的的 概念,反映了在其他變量固定后,X=1與x=0相比發(fā)生Y事件的對數優(yōu)勢比。 回歸系數與OR X與Y的關聯(lián) =0,OR=1, 無關 1,OR1 , 有關,危險因素 1,OR1, 有關,保護因子 事件發(fā)生率很小,ORRR,復習相關概念,相對危險,比數比,相對危險RR表示暴露在危險因子下的發(fā)病率與不暴露在危險因子下的發(fā)病率的比。例如,如果RR=2.5,那么,暴露下的發(fā)病率是非暴露下的發(fā)病率的2.5倍。比數比OR表示暴露在危險因子下的發(fā)病率與不發(fā)病
11、率之比與非暴露在危險因子下的發(fā)病率與不發(fā)病率之比的比。比較以上公式可以看出,當發(fā)病率很低時,ORRR。因此,當發(fā)病率很低時,OR=2.5也可以解釋為:暴露下的發(fā)病率是非暴露下的發(fā)病率的2.5倍,或暴露下發(fā)病的幾率比非暴露下發(fā)病的幾率高150,一元logistic回歸模型系數的解釋,當發(fā)病率很低時,ORRR,因此這時e RR,也就是說,e 近似地表示了相對危險度,即暴露下的發(fā)病率與非暴露下的發(fā)病率之比,有啞變量的logistic回歸模型系數的解釋,每一個組與對照組的相對危險度的估計值。 任意兩組間的OR=ei / ej,無交互影響的多元Logistic回歸模型的系數解釋,如果模型中因變量y=1,
12、0分別表示有胃病和無胃病;自變量 x 1 =1,0分別表示吸煙和不吸煙;自變量 x 2 =1,0分別表示飲酒和不飲酒,那么,e1 近似地表示消去了飲酒因素的影響后吸煙者患胃病的幾率與不吸煙者患胃病的幾率之比。e2 近似地表示消去了吸煙因素的影響后飲酒者患胃病的幾率與不飲酒者患胃病的幾率之比,設因變量 y 取值1和0,分別表示患病和未患病。設自變量 x 1取值1和0,設自變量 x 2取值1和0。這樣 x 1 和 x 2 的交叉水平有四個,它們是(1,1)、(1,0)、(0,1)、(1,1),建立四個啞變量分別代表這四個水平,記為 x11、 x 10、 x 01、 x 00 ,它們表示了四種不同的
13、方式。將前三個啞變量放進模型,則可以得前三種方式相對于最后一種方式患病的相對危險度,有交互影響的多元logistic回歸模型的系數解釋,多值變量的logistic回歸模型的系數解釋,對于多值因變量模型,平行性假設決定了每個自變量的OR值對于前g-1個模型是相同的。例如,變量x1的OR=5.172,它表示使用第一種的可能性是使用第二種的5.172倍;它也表示使用第一種至少有效的可能性是使用第二種的5.172倍,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用,條件似然函數,共有n個匹配組,1:m配對,p個變量資料的條件似然函數,再用最大似然法求解參數估計值,由于匹配
14、關系,在模型中不含常數項,數據資料特征,1:3配對,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用,Logistic回歸分析在醫(yī)學研究中有著相當廣泛的應用價值。歸納起來主要的應用有: 1)篩選危險因子。它常用在流行病學的病因學研究中。 2)校正混雜因子,校正非研究因素對研究因素的混雜作用。如它可以消除性別、年齡、病情等對治療效果分析的干擾,消除年齡、職業(yè)、收入等對生活嗜好與疾病關系分析的干擾等。 3)預測疾病或事件發(fā)生的概率。非條件logistic回歸模型是一個概率模型,它可以用來預測事件發(fā)生的概率,如暴露在某些危險因素下得病的概率,這是其它模型不具有特性。 4
15、)將樣本進行判別分類。它起的作用和判別分析(第十三章,例13-2)一樣,但它對數據的分布沒有嚴格要求,在醫(yī)學研究中使用很方便。 5)logistic曲線的擬和。醫(yī)學中不少指標變量之間的關系呈現如圖7-1所示的logistic曲線形狀。例如劑量和反應的關系。根據擬和曲線可以作有效劑量估計,劑量反應的趨勢分析等,內容,基本原理 數學模型 方法步驟 系數解釋 條件Logistics分析 應用 - 實例分析,某大學醫(yī)院外科采用兩種不同的繃帶(bandage-4-layer和convatee)和兩種不同的包扎方式(Granuflex和Na)進行腿潰瘍的治療處理。治療的結果分三種:不愈、有效和痊愈。治療方
16、式和治療效果列在表7-6中。試分析治療方法對治療效果的影響。 設因變量 y 表示治療效果,0=不愈、1=有效、2=痊愈。設因變量 x 1表示繃帶種類,1=bandage-4-layer、2=convatee。自變量 x 2 表示包扎方式,1=Granuflex、2=Na,data eg7_6; input y x1 x2 wt ; cards; 0 0 0 19 2 1 1 5 run; proc logistic descending; model y=x1 x2; weight wt; run,SAS程序,SAS輸出結果】 The LOGISTIC Procedure Response P
17、rofile Ordered Total Value Y Count Weight 1 2 4 15.000000 2 1 4 25.000000 3 0 4 59.000000 Score Test for the Proportional Odds Assumption Chi-Square = 0.7505 with 2 DF (p=0.6871) Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi
18、-Square for Covariates AIC 190.499 178.977 . SC 191.469 180.916 . -2 LOG L 186.499 170.977 15.522 with 2 DF (p=0.0004) Score . . 14.849 with 2 DF (p=0.0006) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCP1 1 -2.6680 0.4657 32.8270 0.0001 . . INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 . . X1 1 1.6433 0.4380 14.0736 0.0002 1.358335 5.172 X2 1 -
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度互聯(lián)網廣告行業(yè)勞動合同范本及廣告內容審核責任協(xié)議3篇
- 脫丙烷課程設計
- 船舶原理課程設計散貨船
- 美術生創(chuàng)新思維課程設計
- 線上花束插花課程設計
- 茶園生產 課程設計
- 線上課程設計公司
- 《精神分析技巧》課件
- 2024年美術教案設計(7篇)
- 穿銷單元課程設計
- 直流屏安裝施工方案
- 幼兒園食堂食品安全主體責任風險管控清單(日管控)
- 九年級上冊第二單元民主與法治 單元作業(yè)設計
- 陜西華縣皮影戲調研報告
- 2016年食堂期末庫存
- 運籌學課程設計報告
- (完整)雙溪課程評量表
- 人教版高中物理選擇性必修第二冊《法拉第電磁感應定律》教案及教學反思
- 網絡安全培訓-網絡安全培訓課件
- 項目部布置圖方案
- 《文明城市建設問題研究開題報告3000字》
評論
0/150
提交評論