統(tǒng)計學課件72cox回歸分析_第1頁
統(tǒng)計學課件72cox回歸分析_第2頁
統(tǒng)計學課件72cox回歸分析_第3頁
統(tǒng)計學課件72cox回歸分析_第4頁
統(tǒng)計學課件72cox回歸分析_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

宋曼殳公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系Cox回歸分析

醫(yī)學科研中的統(tǒng)計學方法影響因素的分析方法:-多重線性回歸-logistic回歸生存資料同時考慮生存結局和生存時間,生存時間非正態(tài)分布且可能含有刪失時間的特點是傳統(tǒng)多因素分析方法不能解決的1.有截尾數(shù)據(jù)(censoreddata)隨訪中未能知道病人的確切生存時間,只知道病人的生存時間大于某時間。截尾數(shù)據(jù)可記為t+,如:4+=生存時間大于4年。雖然截尾數(shù)據(jù)提供的信息是不完全的,但不能刪去,因為這不僅損失了資料,而且會造成偏性。2.生存期的資料一般不服從正態(tài)分布。生存時間不同于一般指標的二個特點由于上述原因,常用的統(tǒng)計方法不適用,而要用特殊的統(tǒng)計方法。生存分析是指對于生存時間這一指標進行分析的一系列特殊的統(tǒng)計方法。生存時間不同于一般指標的二個特點Logistic回歸以生存結局為因變量,僅考慮結局的好壞(死亡或生存),而未考慮出現(xiàn)該結局的時間長短,無論死亡發(fā)生在隨訪早期或晚期,對他們的處理均相同。多重線性回歸以生存時間為因變量,雖能考慮生存時間,但生存時間一般不呈正態(tài)分布,而且傳統(tǒng)線性回歸不能有效利用刪失時間。剔除刪失數(shù)據(jù)只適用于刪失比例較小的情況,如刪失比例較大時,剔除會導致較大的偏差。如將1年未死亡者的生存時間假定為1年的話,會明顯低估生存時間,同樣會造成大的偏差。因此傳統(tǒng)分析方法不能同時處理生存結局和生存時間,也不能處理刪失時間,而生存分析方法可以巧妙地解決這兩個問題。Cox回歸分析(Coxregression)影響生存時間的長短不僅與治療措施有關,

還可能與病人的體質、年齡、病情的輕重等多種因素有關。如何找出它們之間的關系呢?對生存資料不能用多重線性回歸分析。1972年英國統(tǒng)計學家CoxDR.提出了一種能處理多因素生存分析數(shù)據(jù)的比例風險模型

(Cox'sproportionalharzardmodel)。Cox回歸分析(Coxregression)目前對生存資料的多因素分析最常用的方法是Cox比例風險回歸模型(Coxproportionalhazardsregressionmodel),簡稱Cox模型。該模型以生存結局和生存時間為因變量,可同時分析眾多因素對生存期的影響,分析帶有刪失生存時間的資料,且不要求估計生存資料的分布類型。由于上述優(yōu)良性質,該模型在醫(yī)學隨訪研究中得到廣泛的應用。

設含有p個變量X1,X2,…,Xp及時間T和結局C的n個觀察對象。其數(shù)據(jù)結構如下。

表1.

Cox模型數(shù)據(jù)結構實驗對象tCX1X2X3….XP

1t11a11a12a13…a1p

2t20a21a22a23…a2p

3t30a31a32a33…a3p

……

ntn1an1an2an3…anp1、數(shù)據(jù)結構(1)風險率(hazardrate):

患者在t時刻仍存活,在時間t后的瞬間死亡率,以h(t)表示。2、Cox回歸模型(Coxregressionmodel)(2)COX回歸模型的構造多重線性回歸模型:

設不存在因素X1,X2,…,Xp的影響下,病人t

時刻死亡的風險率為h0(t),存在因素X1、X2

、Xp

對t的影響下,t時刻死亡的風險率為h(t).用死亡風險率的比h(t)/h0(t)代替P/(1-P)即得。Logistic回歸模型:

(3)Cox比例風險回歸模型

Ln(h(t)/h0(t))=β1X1+β2X2+…+βpXpCox比例風險函數(shù)的另一種形式:h(t)=h0(t)exp(β1X1+β2X2+…+βpXp)參數(shù)β1,β2…,βp稱為偏回歸系數(shù),由于h0(t)是未知的,所以COX模型稱為半?yún)?shù)模型。(3)Cox比例風險回歸模型

變量Xj暴露水平時的風險率與非暴露水平時的風險率之比稱為風險比hr(hazardratio)

hr=eβi

(4)流行病學意義hr風險比相對危險度RR任兩個個體風險函數(shù)之比,即風險比(riskratio,RR)或相對危險度(relativerisk,RR)該比值與

無關,在時間t上為常數(shù),即模型中協(xié)變量的效應不隨時間而改變,稱為比例風險假定(assumptionofproportionalhazard),簡稱PH假定,比例風險模型由此得名。式中,左邊為相對危險度的自然對數(shù),右邊為協(xié)變量的變化量與相應回歸系數(shù)的線性組合。上式又可表示為故()的實際意義是:在其它協(xié)變量不變條件下,變量每增加一個單位所引起的相對危險度的自然對數(shù);而的實際意義則是:在其它協(xié)變量不變條件下,變量每增加一個單位所引起的相對危險度。

()

(4)流行病學意義

(4)流行病學意義

(4)流行病學意義兩者的比值為:未接受治療的病人的危險度為

(4)流行病學意義(5)Cox回歸模型的檢驗Score檢驗:常用于模型中新變量的引入Wald檢驗:常用于模型中不重要變量的剔除最大似然比檢驗:常用于模型中不重要變量的剔除和新變量的引入。以上三種檢驗方法均為

檢驗,自由度為模型中待檢驗的參數(shù)個數(shù)。

(5)Cox回歸模型的檢驗對Cox模型的檢驗采用似然比檢驗。假設為H0:所有的βi

為0,

H1:至少有一個βi

不為0將Ho和H1條件下的最大部分似然函數(shù)的對數(shù)值分別記為和可以證明在H0成立的條件下,統(tǒng)計量

χ2=-2[-]服從自由度為p的χ2分布。(6)Cox模型中回歸系數(shù)的檢驗假設為H0:,其它參數(shù)β固定;

H1:,其它參數(shù)β固定。H0成立時,統(tǒng)計量Z=bk/SE(bk)服從標準正態(tài)分布。SE(bk)是回歸系數(shù)bk的標準誤。3、Cox回歸模型的作用

(1)分析各因素的作用(2)計算各因素的相對危險度

(relativerisk,RR)(3)用預后指數(shù)PI估計疾病的預后。3、Cox回歸模型的作用

(1)分析各因素的作用(因素分析)和LOGISTIC回歸相似分析哪些因素(協(xié)變量)對生存期的長短有顯著作用。對各偏回歸系數(shù)作顯著性檢驗,如顯著,則說明在排除其它因素的影響后,該因素對生存期長短的影響有統(tǒng)計學意義。(2)計算各因素的相對危險度

(relativerisk,RR)

假定

變量的取值為0和1,其對應的回歸系數(shù)為

,且具有統(tǒng)計學意義,該因素取值1與取值為0相比其對應的相對危險度的估計為

3、Cox回歸模型的作用

從Cox模型可以看出,病人的風險率與該病人具有的危險因素及各因素對應的回歸系數(shù)有關。3、Cox回歸模型的作用

(3)用預后指數(shù)PI估計疾病的預后。(3)用預后指數(shù)PI估計疾病的預后。3、Cox回歸模型的作用

時,表示該病人對應的危險度達到平均水平;當

時,表示該病人對應的危險度大于平均水平;當

時,表示該病人對應的危險度小于平均水平。因素的篩選影響生存時間的因素稱為協(xié)變量當協(xié)變量較多時,在擬合模型以前需要對這些協(xié)變量進行篩選,常用的方法有2檢驗、log-rank檢驗等,如果這些因素通過上述檢驗有統(tǒng)計學意義,再進行逐步Cox模型分析4、篩選變量(逐步COX回歸分析)因素的初步篩選與最佳模型的建立4、篩選變量(逐步COX回歸分析)因素的初步篩選與最佳模型的建立因素的篩選也可以對每個協(xié)變量進行單因素的Cox模型分析,將沒有統(tǒng)計學意義的協(xié)變量剔除,然后再做多元逐步Cox模型分析如果研究的協(xié)變量不多,也可以直接將各協(xié)變量納入模型進行逐步Cox模型分析4、篩選變量(逐步COX回歸分析)最佳模型的建立為建立最佳模型常需對研究的因素進行篩選,篩選因素的方法有前進法、后退法和逐步回歸法,實際工作中要根據(jù)具體情況選擇使用。最常用的方法為逐步回歸法初步篩選的水準確定為0.1或0.15,設計較嚴格的研究可確定為0.054、篩選變量(逐步COX回歸分析)(1)向前法(forwardselection)

(2)后退法(backwardselection)

(3)逐步回歸法逐步引入-剔除法(stepwiseselection)SPSS實現(xiàn)方法與Logistic回歸相同Enter和Remove的確定同前調試法:P從大到小取值0.5,0.1,0.05一般實際用時,Enter,Remove應多次選取調整。4、篩選變量(逐步COX回歸分析)最佳模型的建立檢驗各因素是否有統(tǒng)計學意義的方法有似然比檢驗、Wald檢驗和計分檢驗。在實際工作中可根據(jù)具體的情況而定。在篩選因素時,還要考慮因素間是否有共線性的影響,當各因素間存在共線性時,可先用其他分析方法排除共線性的影響,再進行Cox模型分析。多重共線性35多重共線性(也稱多重相關性),是指在自變量之間存在著線性相關的現(xiàn)象。如果自變量之間存在著完全的線性關系,它們之間的相關系數(shù)的絕對值為1,則稱自變量之間存在著完全的相關性;如果自變量之間完全沒有相關關系,它們之間的相關系數(shù)為0,則稱自變量之間完全不存在相關現(xiàn)象,這是兩種極端的狀態(tài)。多重共線性的識別361.直觀的判斷方法(1)自變量之間的相關系數(shù)值比較大;(2)回歸系數(shù)的符號與專業(yè)知識或一般經(jīng)驗相反;(3)模型的F檢驗顯著,自變量的回歸系數(shù)t檢驗結果不顯著;(4)增加/刪除一個變量,回歸系數(shù)的估計值發(fā)生很大變化;(5)重要變量的回歸系數(shù)置信區(qū)間明顯過大。372.方差擴大因子法(VarianceInflationFactor,VIF)經(jīng)驗表明:當VIFj≥10時,就說明自變量有嚴重的多重共線性且這種多重共線性可能會過度地影響最小二乘估計值Rj為xj對其余p-1個自變量的復相關系數(shù)

多重共線性的識別5、Cox模型的統(tǒng)計描述1.回歸系數(shù)和標準回歸系數(shù)Cox模型在分析時可以給出回歸系數(shù)和標準回歸系數(shù)?;貧w系數(shù)用來反映因素對生存時間影響的強度;標準回歸系數(shù)可以比較不同因素間對生存時間的影響程度,標準回歸系數(shù)較大的因素對生存時間的影響也較大。5、Cox模型的統(tǒng)計描述2.相對危險度假定

個變量的取值為0和1,其對應的回歸系數(shù)為

,且具有統(tǒng)計學意義,該因素取值1與取值為0相比其對應的相對危險度的估計為

可信區(qū)間為

5、Cox模型的統(tǒng)計描述2.相對危險度如果因素的取值為有序分類變量,則采用類似的方法估計其相對危險度及其可信區(qū)間如果變量為無序分類變量,則可以采用啞變量的方法來分析其意義對于名義分類變量,為了讓計算機識別其分類,可以輸入任何代碼。每一個代碼或數(shù)字

只起名稱或標識作用,無數(shù)值的含義。在多因素分析中,為了將名義分類變量代入模型,需要進行啞變量(dummyvariable)編碼。實例中的職業(yè)分類為工人、農(nóng)民、管理人員、知識分子、商業(yè)服務、其他等6類,則可定義5個啞變量(比總的分類數(shù)6少1個),分別記為職業(yè)(J

)啞變量的水平標識J1J2J3J4J5工人10000農(nóng)民01000管理人員00100知識分子00010商業(yè)服務00001其他00000表1.啞變量編碼方法這5個啞變量分別代表以“其他”為參照的工人、農(nóng)民、管理人員、知識分子、商業(yè)服務等職業(yè)。大多數(shù)統(tǒng)計軟件(如SPSS、SAS),只要說明變量屬于分類變量,并告知類別數(shù),都可以自動產(chǎn)生類似上述的啞變量。例:某醫(yī)師對1988年收治的16例鼻腔淋巴瘤患者隨訪了13年,數(shù)據(jù)見表7,試作COX回歸。表2.鼻腔淋巴瘤患者隨訪資料編項目登記觀察記錄整理號性別年齡分期鼻血放療化療開始日終止日結局生存天數(shù)

1145220188-1-1789-8-1715782036220188-1-2192-4-171088-2-290-12-3104717……………051221088-12-195-5-2212363注:性別‘1’為男性,放療‘1’表示采用,‘0’表示未采用,結局‘1’表示死亡。SPSS軟件實現(xiàn)方法File→Open→相應數(shù)據(jù)(已存在)Analyze→Survival→Coxregression→Time→Status→Defineevent→Singlevalue(1)→Continue→Covariates(自變量)→method→Forward→Continue

Options→Correlationofestimate→Displaymodel→atlaststep→Entry-removal(0.05,0.10)→Maximumiterations(20)→Continue→OKSPSS軟件實現(xiàn)方法(cont.)選擇Survival,輸出累積生存率曲線點擊options,選RR的95%CI和只輸出最后一步結果.輸出結局事件例數(shù)、刪失例數(shù)、失訪例數(shù)、總例數(shù)及各自百分比病例(觀察記錄)處理信息摘要模型檢驗結果計分檢驗(Sore)P=0.022似然比檢驗(ChangeFromPreviousBlock)P=0.13兩種檢驗方法顯示模型整體檢驗有統(tǒng)計學意義未校正混雜因素的結果(單因素的Cox回歸)RR值未被選入方程的變量

(按照COX回歸的最大似然估計原則)Cox模型篩選的危險因素及參數(shù)估計

校正了混雜因素的結果顯示:校正了X5(放療)后,X4(鼻血)與鼻腔淋巴瘤患者預后有關,RR=3.978,與校正前比較,未校正X5時的RR=3.023不相同校正了X4(鼻血)后,X5(放療)與鼻腔淋巴瘤患者預后有關,RR=0.204,與校正前比較,未校正X4時的RR=0.075不相同解釋設第i個因素的回歸系數(shù)為bi,對應的風險比(riskratio,記為RRi):RRi=exp(bi),表示該因素每增加一個單位時,風險度改變多少倍。在本例中,“鼻血”X4取值是0、1、2,b=1.38,RR=3.979,表示因子水平每增加1個等級,風險度增加3.979倍,提示“鼻血”是不利因素。放療X5,取值0和1,b=-1.589,RR=0.204,表示因子水平1與0比較,前者的風險度是后者的0.204倍(20.4%),提示“放療”是有利因素應用實例例:為探討某惡性腫瘤的預后,收集了63例病人的生存時間、結局及影響因素。影響因素包括病人的治療方式、腫瘤的浸潤程度、組織學類型、是否有淋巴結轉移及病人的性別、年齡。生存時間以月計算。變量的賦值和收集的原始資料見表1和表2。試用Cox模型進行分析。因素變量名賦值說明病人的年齡X1實際年齡(歲)性別X2男=1,女=0組織學類型X3

高分化=1,低分化=0治療方式X4

傳統(tǒng)治療方式=1,新治療方式=0淋巴節(jié)是否轉移X5

是=1,否=0腫瘤的浸潤程度X6

突破漿膜層=1,未突破漿膜層=0病人的生存時間t

實際生存時間(月)病人的結局Y

死亡=0,截尾=1表1.某惡性腫瘤的影響因素與賦值表2.63名某惡性腫瘤患者的生存時間(月)及影響因素采用逐步回歸法進行Cox模型分析,擬合模型時,進入模型和從模型中剔除變量的水準分別定為0.05和0.06。篩選后的最佳模型包含兩個協(xié)變量,為x4和x5。默認的情況下,統(tǒng)計軟件提供了檢驗Cox模型有無統(tǒng)計學意義的三種方法,分別為對數(shù)似然比檢驗、Wald檢驗和計分檢驗,其對應的P值分別為0.0001、0.0002

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論