生存分析完整版本_第1頁(yè)
生存分析完整版本_第2頁(yè)
生存分析完整版本_第3頁(yè)
生存分析完整版本_第4頁(yè)
生存分析完整版本_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章基本概念

第1節(jié)生存資料的特點(diǎn)

生存資料(SurvivalData)或失效時(shí)間資料(Failure-timeData)與多元線性回歸資料很相似,只不過(guò)因變量(或反應(yīng)變量)通常為觀測(cè)對(duì)象生存的時(shí)間,常用t來(lái)表示。當(dāng)然,生存時(shí)間是廣義的,可以指在通常意義下生物體的生存時(shí)間、也可以指所關(guān)心的某現(xiàn)象(如疾病治愈后、合格品使用后)持續(xù)的時(shí)間。若生存時(shí)間是準(zhǔn)確觀測(cè)到的,則稱為完全數(shù)據(jù)。生存資料的一個(gè)明顯特點(diǎn)是:所收集的資料中常常包含不完全數(shù)據(jù),也稱為截尾數(shù)據(jù)、刪失數(shù)據(jù)、終檢數(shù)據(jù)(CensoredData)。包括刪失數(shù)據(jù)的資料,稱為刪失資料。對(duì)于刪失數(shù)據(jù),既不能簡(jiǎn)單地棄之,踴能像對(duì)待完全數(shù)據(jù)那樣給予充分的信任,需要采取一些技術(shù)處理。專門處理這種資料的統(tǒng)計(jì)方法,稱為生存分析(SurvivalAnalysis)。

導(dǎo)致數(shù)據(jù)刪失有多種原因,最常見的有:失訪(病人因搬家、隨訪信件丟失、車禍等原因,導(dǎo)致醫(yī)生對(duì)他們的隨訪觀察中斷)和研究截止。由隨機(jī)因素引起的,稱為隨機(jī)刪失;若事先就定了截止日期,則稱為定時(shí)刪失(也稱Ⅰ型刪失);若事先就定了觀察完多少例就截止研究,則稱為Ⅱ型刪失(也稱為定數(shù)刪失)。在表達(dá)刪失數(shù)據(jù)時(shí),常在其右上角放一個(gè)“+”號(hào);而用SAS軟件分析時(shí),常在其前放一個(gè)“-”號(hào)或產(chǎn)生1個(gè)指示變量(如:C=0表示刪失數(shù)據(jù)、C=1表示完全數(shù)據(jù),反過(guò)來(lái)也可以),便于計(jì)算時(shí)區(qū)別對(duì)待。為了使數(shù)據(jù)的表達(dá)與計(jì)算在形式上統(tǒng)一起來(lái),本篇一律用負(fù)數(shù)表示刪失數(shù)據(jù),因生存時(shí)間不可能為負(fù)值,故不會(huì)產(chǎn)生混淆。

第2節(jié)生存時(shí)間函數(shù)

描述生存時(shí)間規(guī)律的函數(shù)很多,統(tǒng)稱為生存時(shí)間函數(shù)。其中最主要的有生存函數(shù)、死亡概率函數(shù)、概率密度函數(shù)和危險(xiǎn)率函數(shù)。

1.生存函數(shù)(SurvivalFunction)

生存函數(shù)也稱為生存概率或累積生存率,常用S(t)表示,它表示一個(gè)體生存時(shí)間長(zhǎng)于t的概率。在具體問(wèn)題中,該函數(shù)在t時(shí)刻的取值可用式(5.1.1)來(lái)估計(jì)∶

S(t)≈生存時(shí)間長(zhǎng)于t的病人數(shù)/病人總數(shù)(5.1.1)

2.死亡概率函數(shù)(FailureProbabilityFunction)

死亡概率函數(shù)簡(jiǎn)稱為死亡概率,常用F(t)表示,它表示一個(gè)體從開始觀察起到時(shí)刻t為止的死亡概率。它可以通過(guò)S(t)求得(詳后)。

3.概率密度函數(shù)(ProbabilityDensityFunction)

概率密度函數(shù)簡(jiǎn)稱為密度函數(shù),常用f(t)表示,它表示一個(gè)體死于(t,t+△t)小區(qū)間內(nèi)的概率的極限。在具體問(wèn)題中,該函數(shù)在t時(shí)刻的取值可用式(5.1.2)來(lái)估計(jì)∶

f(t)≈t時(shí)刻開始的區(qū)間內(nèi)死汀人數(shù)/(病人總數(shù)×區(qū)間寬度)(5.1.2)

4.危險(xiǎn)率函數(shù)(HazardFunction)

危險(xiǎn)率函數(shù)也稱為風(fēng)險(xiǎn)函數(shù)、瞬時(shí)死亡率、年齡別死亡率、條件死亡率,常用h(t)表示,它表示已存活到t的一個(gè)體,死于(t,t+△t)小區(qū)間內(nèi)的概率的極限。在具體問(wèn)題中,該函數(shù)在t時(shí)刻的取值可用式(5.1.3)來(lái)估計(jì)∶

h(t)≈t時(shí)刻開始的區(qū)間內(nèi)死汀人數(shù)/(生存到t的病人數(shù)×區(qū)間寬度)(5.1.3)

5.上述幾個(gè)函數(shù)之間的相互關(guān)系(5.1.4)(5.1.5)(5.1.6)(5.1.7)

上述各函數(shù)中“'”代表對(duì)t求導(dǎo)數(shù),“∫”代表積分。

第3節(jié)生存分析方法的分類

像普通統(tǒng)計(jì)分析一樣,生存分析也有一套完整的方法:統(tǒng)計(jì)描述(包括求生存時(shí)間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計(jì)、判斷生存時(shí)間的圖示法);非參數(shù)檢驗(yàn)(檢驗(yàn)分組變量各水平所對(duì)應(yīng)的生存曲線是否一致,常用的方法有對(duì)數(shù)秩檢驗(yàn)(Log-rankTest)、威爾科克森檢驗(yàn)(WilcoxonTest)和似然比檢驗(yàn)(LikelihoodratioTest));COX模型(半?yún)?shù)模型)回歸分析(在特定的假設(shè)之下,建立生存時(shí)間隨多個(gè)危險(xiǎn)因素變化的回歸方程);參數(shù)模型回歸分析(已知生存時(shí)間服從特定的參數(shù)模型時(shí),擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地刻劃變量之間的變化規(guī)律)。

第2章生存資料的非參數(shù)統(tǒng)計(jì)方法

第1節(jié)統(tǒng)計(jì)描述與非參數(shù)分析概述

1.統(tǒng)計(jì)描述

常用來(lái)反映一組生存時(shí)間平均水平的統(tǒng)計(jì)指標(biāo)有中位數(shù)、平均數(shù)2種,因生存資料多為正偏態(tài),故往往選用中位數(shù)更符合資料的特點(diǎn)。

對(duì)于壽命資料,首先需給出各時(shí)間點(diǎn)上生存函數(shù)的估計(jì)值,常用的方法有:乘積─極限法(Product-LimitMethod,簡(jiǎn)稱PL法)和壽命表法(Life-TableMethod,簡(jiǎn)稱LT法)。PL法是利用ti時(shí)刻之前各時(shí)間點(diǎn)上生存率的乘積來(lái)估計(jì)在時(shí)刻ti的生存函數(shù)S(ti)、而LT表法是通過(guò)計(jì)數(shù)落入時(shí)間區(qū)間[ti-1,ti]內(nèi)的失效和刪失的觀察例數(shù)來(lái)估計(jì)S(ti)。

若能知道壽命函數(shù)的具體,可有的放矢地去選用相應(yīng)的參數(shù)模型擬合資料,是非常有益的。實(shí)現(xiàn)這一目的途經(jīng)是圖解法,如:用(t,-logS(t))畫圖,若成一條直線,表明S(t)呈指數(shù);又如:用(logt,log(-logS(t))畫圖,若成一條直線,表明S(t)呈圖爾。當(dāng)然,也有一些統(tǒng)計(jì)檢驗(yàn)方法,如:判斷是否服從指數(shù)的G檢驗(yàn)法、判斷是否服從圖爾的Mann-Scheuer-FertigTiku檢驗(yàn)法和判斷是否服從對(duì)數(shù)正態(tài)的W檢驗(yàn)法等,具體檢驗(yàn)方法參見有關(guān)專著。

2.各層間生存曲線的齊性檢驗(yàn)

設(shè)全部受試者接受了k只同的處理,這k種處理實(shí)際上就是一個(gè)名義分類變量或楓因素的k個(gè)水平,于是,可按層估計(jì)生存函數(shù)。研究者常需比較k條生存曲線之間是否有顯著差別,其方法有多種,SAS中用了以下3種:對(duì)數(shù)秩檢驗(yàn)(Log-rankTest)、威爾科克森檢驗(yàn)(WilcoxonTest)和似然比檢驗(yàn)(LikelihoodratioTest)。用它們來(lái)實(shí)現(xiàn)各層之間的齊性檢驗(yàn)。

3.上述3種非參數(shù)檢驗(yàn)的比較

當(dāng)生存時(shí)間的為指數(shù)、圖爾或?qū)儆诒壤kU(xiǎn)模型時(shí),Log-rank檢驗(yàn)效率較高;當(dāng)生存時(shí)間的為對(duì)數(shù)正態(tài)等時(shí),Wilcoxon檢驗(yàn)效率較高;似然比檢驗(yàn)是建立在指數(shù)模型上的,故當(dāng)資料偏離此模型時(shí),其結(jié)果不如前2種檢驗(yàn)方法穩(wěn)健。

4.協(xié)變量與生存時(shí)間聯(lián)系密切程度的檢驗(yàn)

當(dāng)資料中還包含與生存時(shí)間有關(guān)的其他連續(xù)變量(即協(xié)變量)時(shí),也可分析它們與生存時(shí)間聯(lián)系的密切程度。為實(shí)現(xiàn)此檢驗(yàn),LIFETEST過(guò)程中提供了2個(gè)分別建立在指數(shù)得分和威爾科克森得分基礎(chǔ)之上的刪失數(shù)據(jù)線性秩統(tǒng)計(jì)量─Log-rankTest和WilcoxonTest,這2種檢驗(yàn)通過(guò)合并楓變量后進(jìn)行計(jì)算,從而,校正了楓變量的影響。除了對(duì)重復(fù)(ties)生存時(shí)間的處理方法不同外,這里所說(shuō)的2種檢驗(yàn)與實(shí)現(xiàn)各層之間齊性檢驗(yàn)中所提到的前2種檢驗(yàn)是相同的。

為了不把讀者的注意力引向復(fù)雜的計(jì)算,特將上述各種方法的具體計(jì)算公逝在本章第3節(jié)中再介紹,以便必要時(shí)備查。

第2節(jié)用LIFETEST過(guò)程實(shí)現(xiàn)統(tǒng)計(jì)計(jì)算

[例5.2.1]某醫(yī)生收集到35例白血病患者治療后的生存時(shí)間t(月),仔細(xì)觀察后發(fā)現(xiàn)這些病人中有一部分人出現(xiàn)了白細(xì)胞(WBC)倍增的現(xiàn)象?,F(xiàn)將他們按是否出現(xiàn)WBC倍增分成2組如下(注:負(fù)值代表刪失數(shù)據(jù)),試用生存分析方法分析患者有無(wú)WBC倍增,對(duì)其生存時(shí)間長(zhǎng)短有無(wú)顯著影響。

A組(有WBC倍增):2,-2.5,3.5,4,4,-5,6,-6,7,-7,8,-9,10.5,12.5,19;

B組(無(wú)WBC倍增):2.5,5,7,-8.5,9,-10,11,-11,12,13,-14,15,-16,17,-18,19,-20,21,

24,32。

[SAS程序]──[D5P1.PRG]

DATAabc;PROCLIFETESTMETHOD=PL

INFILE'a:hlwbc.dat';PLOTS=(S,LS,LLS);

INPUTlt@@;TIMEt*censor(1);

IFlt<0THENcensor=1;STRATAgroup;

ELSEcensor=0;RUN;

IF_N_<16THENgroup='high-wbc';PROCLIFETESTMETHOD=LIFE

ELSEgroup='low-wbc';PLOTS=(S,H);

t=ABS(lt);TIMEt*censor(1);

STRATAgroup;

RUN;

(程序的第1部分)(程序的第2部分)

[程序修改指導(dǎo)]用全部35個(gè)數(shù)據(jù)建立的數(shù)據(jù)文件名為HLWBC.DAT,第1個(gè)IF語(yǔ)句產(chǎn)生1個(gè)指示變量CENSOR,其取值為1時(shí)為刪失數(shù)據(jù)、取值為0時(shí)為完全數(shù)據(jù)。第2個(gè)IF語(yǔ)句產(chǎn)生1個(gè)分組變量GROUP,前15個(gè)數(shù)據(jù)屬于有WBC倍增組、后20個(gè)數(shù)據(jù)屬于無(wú)WBC倍增組。對(duì)表示刪失和完全數(shù)據(jù)的變量lt取絕對(duì)值是為了保證參與計(jì)算的生存時(shí)間t都是正值。

第1個(gè)過(guò)程步是選擇PL法計(jì)算(它也是隱含的方法)、第2個(gè)過(guò)程步是選擇LT法計(jì)算。PLOTS=要求繪圖,其中S表示生存函數(shù)、L表示取對(duì)數(shù)、H表示危險(xiǎn)率函數(shù),圖形的橫坐標(biāo)與縱坐標(biāo)分別為:

S─(t,S)、LS─(t,-log(S))、LLS─(log(t),log(-(log(S))))、H─(t,H)

生存時(shí)間t與指示變量以乘法的形式寫在TIME語(yǔ)句中、分組變量寫在STRATA語(yǔ)句中。

當(dāng)用壽命表(LT)法分析資料時(shí),程序會(huì)自動(dòng)形成生存時(shí)間的區(qū)間,也可人為指定生存時(shí)間的分組區(qū)間。做法是:在PROC語(yǔ)句的分號(hào)之前加上INTERVALS=(atobbyc),a、b、c分別為初值、終值、步長(zhǎng)(必須是具體數(shù)值),步長(zhǎng)的缺省值為1。

如果資料中還含有數(shù)值型的協(xié)變量,可將它們寫在TEST語(yǔ)句中,如:TESTx1x2x3;以便檢驗(yàn)協(xié)變量與生存時(shí)間聯(lián)系的密切程度。當(dāng)然,若有PHREG和LIFEREG過(guò)程,用它們建立起因變量t隨自變量(即危險(xiǎn)因素)變化的回歸模型,可更好地揭示變量之間的內(nèi)在聯(lián)系。

[輸出結(jié)果及其解釋]

Product-LimitSurvivalEstimates

GROUP=high-wbc

①②③④⑤⑥

Survival

StandardNumberNumber

TSurvivalFailureErrorFailedLeft

0.00001.000000015

2.00000.93330.06670.0644114

2.5000*...113

3.50000.86150.13850.0911212

4.0000...311

4.00000.71790.28210.1198410

5.0000*...49

6.00000.63820.36180.130458

6.0000*...57

7.00000.54700.45300.140066

7.0000*...65

8.00000.43760.56240.148774

9.0000*...73

10.50000.29170.70830.155082

12.50000.14590.85410.129091

19.000001.00000100

*CensoredObservation

Quantiles75%12.5000Mean9.0775

50%8.0000StandardError1.6768

25%4.0000

這是用PL法對(duì)第1組生存資料進(jìn)行統(tǒng)計(jì)描述的結(jié)果。標(biāo)號(hào)①~⑥分別是生存時(shí)間、生存概率、死亡概率、生存概率的標(biāo)準(zhǔn)誤差、已觀察到的不同失效時(shí)間的數(shù)目、尚未觀察到的不同失效或刪失時(shí)間的數(shù)目,打*號(hào)的是刪失觀察值。接著,給出了生存時(shí)間的四分位數(shù)、均數(shù)及其標(biāo)準(zhǔn)誤差。結(jié)果顯示∶第1組患者中有25%的人(約4人)的生存時(shí)間短于4個(gè)月,即有75%的人的生存時(shí)間長(zhǎng)于4個(gè)月;同理,可解釋P50=8(個(gè)月)、P75=12.5(個(gè)月)的含義。由此可知∶該組患者的中數(shù)生存期為8?jìng)€(gè)月、平均生存期約為9個(gè)月。

Product-LimitSurvivalEstimates

GROUP=low-wbc

Survival

StandardNumberNumber

TSurvivalFailureErrorFailedLeft

0.00001.000000020

2.50000.95000.05000.0487119

5.00000.90000.10000.0671218

7.00000.85000.15000.0798317

8.5000*...316

9.00000.79690.20310.0908415

10.0000*...414

11.00000.74000.26000.1006513

11.0000*...512

12.00000.67830.32170.1095611

13.00000.61660.38340.1156710

14.0000*...79

15.00000.54810.45190.121488

16.0000*...87

17.00000.46980.53020.126896

18.0000*...95

19.00000.37590.62410.1317104

20.0000*...103

21.00000.25060.74940.1348112

24.00000.12530.87470.1113121

32.000001.00000130

*CensoredObservation

Quantiles75%24.0000Mean17.1618

50%17.0000StandardError2.2053

25%11.0000

這是用PL法對(duì)第2組生存資料的統(tǒng)計(jì)描述結(jié)果。各列的解釋同上,從略。第2組患者的

中數(shù)生存期為17個(gè)月、平均生存期約為17個(gè)月。

SummaryoftheNumberofCensoredandUncensoredValues

GROUPTotalFailedCensored?nsored

high-wbc1510533.3333

low-wbc2013735.0000

Total35231234.2857

這是2組患者的總?cè)藬?shù)、死亡數(shù)、刪失數(shù)和刪失百分比。

SurvivalFunctionEstimates

SSDF|

u1.0+*---HL

r|H*-HH-L---L

v||L---L---L

i|H---HL-L-L

v|H-HL---L

a0.5+H-HL---L---L

l|H----HL---L

|H---HL-----L

D|||

i|H------------HL---------------L

s0.0+HL

t---+----+----+----+----+----+----+----+----+----+----+----+----+----+---

r0.02.55.07.510.012.515.017.520.022.525.027.530.032.5

i

T

這是反映2組患者生存情況的生存曲線圖,H表示有WBC倍增組、L表示無(wú)WBC倍增組,從圖上可明顯看出:無(wú)WBC倍增患者比有WBC倍增患者的生存期長(zhǎng)。

CensoredObservations

Strata

L+LLLLLLL

H+HHHHH

-------+------+------+------+------+------+------+------+-------

05101520253035

T

這幅圖反映了各組患者刪失時(shí)間的情況。

-Log(SurvivalFunction)Estimates

N-LOGSDF|

e2+H+L

g|+++

a|+++

t|++L

i|+H++

v1+++++L

e|+H+++L+

|+H++L+

L|H+++H++L+L+L+

o|+H++L+++L+++L+

g0+*+++H*++

-+----+----+----+----+----+----+----+----+----+----+----+----+----+

S0.02.55.07.510.012.515.017.520.022.525.027.530.032.5

D

T

這是按(t,-log(S(t))繪出的圖,2條線都不呈直線趨勢(shì),說(shuō)明生存時(shí)間不呈指數(shù)。

Log(-Log(SurvivalFunction))Estimates

LL(-L(S))|

o2+

g|

|++H+L

N0++H++++H++L+L+L+

e|++++H++H++LL++L+

g|+H+++++L+++L

a-2++++++H++++++L++++++L++

t|H+++*++++++

i|

v-4+

e|

---+----+----+----+----+----+----+----+----+----+----+----+----+---

L0.500.751.001.251.501.752.002.252.502.753.003.253.50

o

LogT

LegendforStrataSymbols

H:GROUP=high-wbcL:GROUP=low-wbc

這是按(logt,log(-log(S(t)))繪出的圖,2條現(xiàn)別近似呈直線趨勢(shì),說(shuō)明生存時(shí)間近似呈圖爾。

TestingHomogeneityofSurvivalCurvesoverStrata

RankStatistics

①GROUPLog-RankWilcoxon

high-wbc5.073946117

low-wbc-5.07395-117

②CovarianceMatrixfortheLog-RankStatistics

GROUPhigh-wbclow-wbc

high-wbc3.36249-3.36249

low-wbc-3.362493.36249

③CovarianceMatrixfortheWilcoxonStatistics

GROUPhigh-wbclow-wbc

high-wbc2161.30-2161.30

low-wbc-2161.302161.30

④TestofEqualityoverStrata

Pr>

TestChi-SquareDFChi-Square

Log-Rank7.656510.0057

Wilcoxon6.333710.0118

-2Log(LR)2.834710.0922

這是關(guān)于各層生存曲線之間齊性檢驗(yàn)的結(jié)果。①用2種檢驗(yàn)方法算得公式(5.2.20)中的向量v,即v=(5.073946,-5.07395)'(Log-Rank法)、v=(117,-117)'(Wilcoxon法)。②、③分別用2種檢驗(yàn)法算得此式中的協(xié)方差矩陣V,它們都是計(jì)算④中卡方值的中間結(jié)果,讀者最需要的是第④部分。這里給出了3種檢驗(yàn)法的檢驗(yàn)結(jié)果∶P值依次為0.0057(Log-Rank法)、0.0118(Wilcoxon法)、0.0922(似然比檢驗(yàn)法,-2Log(LR))。

LifeTableSurvivalEstimates

GROUP=high-wbc

⑴⑵⑶⑷⑸⑹

Conditional

EffectiveConditionalProbability

IntervalNumberNumberSampleProbabilityStandard

[Lower,Upper)FailedCensoredSizeofFailureError

054114.50.27590.1174

510348.00.37500.1712

1015203.00.66670.2722

1520101.01.00000

⑺⑻⑼⑽⑾

SurvivalMedianMedian

IntervalStandardResidualStandard

[Lower,Upper)SurvivalFailureErrorLifetimeError

051.0000009.12702.4177

5100.72410.27590.11746.50002.1213

10150.45260.54740.14403.75002.1651

15200.15090.84910.1322..

EvaluatedattheMidpointoftheInterval

⑿⒀⒁⒂

PDFHazard

IntervalStandardStandard

[Lower,Upper)PDFErrorHazardError

050.05520.02350.0640.031588

5100.05430.02630.0923080.051855

10150.06030.03120.20.122474

15200.03020.02640.40

這是用LT法對(duì)第1組資料進(jìn)行統(tǒng)計(jì)描述的結(jié)果。編號(hào)⑴~⒂所代表的含義分別為:⑴按區(qū)間寬度=5將生存時(shí)間自動(dòng)劃分成若干區(qū)間、⑵死亡數(shù)、⑶刪失數(shù)、⑷有效樣本大小、⑸死亡的條件概率、⑹第⑸列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⑺區(qū)間左端點(diǎn)處生存概率、⑻區(qū)間左端點(diǎn)處死亡概率、⑼第⑺列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⑽中數(shù)剩余生存壽命(即在時(shí)刻ti活著的人有一半可望生存到的時(shí)間)、⑾第⑽列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⑿區(qū)間中點(diǎn)概率密度函數(shù)的估計(jì)值、⒀第⑿列數(shù)據(jù)的標(biāo)準(zhǔn)誤差、⒁區(qū)間左端點(diǎn)處危險(xiǎn)概率的估計(jì)值、⒂第⒁列數(shù)據(jù)的標(biāo)準(zhǔn)誤差。

此處是用LT法對(duì)第2組資料進(jìn)行統(tǒng)計(jì)描述的結(jié)果(從略),解釋方法同上。用3種檢驗(yàn)方法給出的結(jié)果與用PL方法算得的結(jié)果相同,從略。

PL法與LT法的區(qū)別:在用計(jì)算機(jī)處理數(shù)據(jù)時(shí),計(jì)算麻煩的苦惱已不存在,故PL法可適用于各種情況;當(dāng)用手工計(jì)算且樣本含量較大時(shí),用LT法更方便一些。哩的計(jì)算結(jié)果基本上是一致的。PL法可看成是LT法的特殊情況,每個(gè)生存時(shí)間的區(qū)間寬度都為1。

[專業(yè)結(jié)論]因前面的圖示結(jié)果已表明此資料不服從指數(shù),近似服從圖爾,故宜選用Log-Rank法或Wilcoxon法檢驗(yàn)的結(jié)果。均拒絕H0、接受H1,即2組生存曲線之間差別顯著,無(wú)WBC倍增患者的生存期顯著地長(zhǎng)于有WBC倍增的患者。

【例5.2.2】1965年某市腫瘤醫(yī)院總結(jié)隨訪了15年曾在該醫(yī)院住院手術(shù)的乳腺癌患者607例,整理后的資料如下,試分析該醫(yī)院乳腺癌患者手術(shù)后的生存率。

術(shù)后年數(shù):0~1~2~3~4~5~6~7~8~9~10~

期內(nèi)死亡人數(shù):59694330137144300

期內(nèi)失訪人數(shù):6371553831262111151222

【分析與解答】此生存資料以分組的形式給出,SAS程序可按如下方式編寫。

【SAS程序】━━【D5P2.PRG】

DATAabc;6359

KEEPftc;7169

RETAINt-0.5;5543

INPUTwithdrawfail;3830

t=t+1;3113

c=0;267

f=fail;2114

OUTPUT;114

c=1;153

f=withdraw;120

OUTPUT;220

CARDS;;

(程序的第1部分)(程序的第2部分)

PROCLIFETESTPLOTS=(S,LS,LLS,H,P)

INTERVALS=(0TO10)METHOD=LT;

TIMEt*c(1);

FREQf;

RUN;

(程序的第3部分)

因篇幅所限,程序修改指導(dǎo)、輸出結(jié)果及其解釋等項(xiàng)內(nèi)容從略。

第3節(jié)生存資料非參數(shù)統(tǒng)計(jì)方法中的有關(guān)計(jì)算公式

1.乘積─極限法(Product-Limit,PL法或稱為Kaplan-Meier,KM法)

讓t1<t2<…<tk代表離散的失效(死亡或復(fù)發(fā)等)時(shí)間,設(shè)ni為第i個(gè)時(shí)刻開始之前生存的個(gè)體數(shù)目,即危險(xiǎn)集的大小(i=1,2,…,k),再設(shè)di是在時(shí)刻ti失效的個(gè)體數(shù)目、si=ni-di。則在時(shí)刻ti的生存函數(shù)的PL估計(jì)值是ti時(shí)刻之前各時(shí)間點(diǎn)上生存率的乘積,即(5.2.1)

式中的估計(jì)量屬于右連續(xù)的,即在ti時(shí)刻發(fā)生的失效事件已包括在S^(ti)的估計(jì)中。與它對(duì)

應(yīng)的標(biāo)準(zhǔn)誤的估計(jì)值可用Greenwood的公式來(lái)計(jì)算:(5.2.2)

生存時(shí)間的第1樣本四分位數(shù)定義如下:(5.2.3)

第2、3樣本分位數(shù)可用類似的方式計(jì)算。q.50(即第2樣本分位數(shù))就是中位數(shù),也就是中數(shù)生存期。

平均生存時(shí)間的估計(jì)值為∶(5.2.4)

式中t0=0。若最后一個(gè)是刪失數(shù)據(jù),此式就低估了平均數(shù)。μ^的標(biāo)準(zhǔn)誤差被定義為:(5.2.5)

式中。

2.壽命表法(Life-Table,LT法)

壽命表估計(jì)量通過(guò)計(jì)數(shù)落入時(shí)間區(qū)間[ti-1,ti]內(nèi)的失效和刪失的觀察例數(shù)來(lái)計(jì)算,這

里i=1,2,…,k+1,t0=0、tk+1=∞。令ni為進(jìn)入?yún)^(qū)間[ti-1,ti]內(nèi)的個(gè)體數(shù)目、di和wi分別為發(fā)生在此區(qū)間內(nèi)的事件(指死亡或失效,下同)數(shù)目和刪失數(shù)目、bi=ti-ti-1、n'i=ni-wi/2;

n'i被稱為此區(qū)間內(nèi)有效的樣本大小。再令tmi為此區(qū)間的中點(diǎn)、p^i=1-q^i。事件在此區(qū)間內(nèi)發(fā)生的條件概率及其標(biāo)準(zhǔn)誤差的估計(jì)值分別由式(5.2.6)和(5.2.7)定義:(5.2.6)(5.2.7)

在時(shí)刻ti生存函數(shù)的估計(jì)值及其標(biāo)準(zhǔn)誤差的估計(jì)值分別由式(5.2.8)和(5.2.9)定義:(5.2.8)(5.2.9)

在tmi處的密度函數(shù)及其標(biāo)準(zhǔn)誤差的估計(jì)值分別由式(5.2.10)和(5.2.11)定義:(5.2.10)

(5.2.11)

在tmi處的危險(xiǎn)率函數(shù)及其標(biāo)準(zhǔn)誤差的估計(jì)值分別由式(5.2.12)和(5.2.13)定義:(5.2.12)

(5.2.13)

設(shè)在區(qū)間[tj-1,tj]內(nèi)滿足關(guān)系式S^(tj-1)≥S^(ti)/2>S^(tj),則在ti處的中數(shù)剩余壽命(即在ti活著的人有一半可望生存到的時(shí)間)及其標(biāo)準(zhǔn)誤差的估計(jì)值由式(5.2.14)和(5.2.15)

定義:(5.2.14)(5.2.15)

3.各層間生存曲線的齊性檢驗(yàn)

(1)對(duì)數(shù)秩檢驗(yàn)和Wilcoxon檢驗(yàn)

檢驗(yàn)各層之間齊性所用的秩統(tǒng)計(jì)量為:

v'V-v~χ2,df=R(V)(5.2.16)

式中R(V)(即協(xié)方差矩陣V的秩),從而可獲得近似的概率水平。這里,v是一個(gè)c×1的向量(v1,v2,…,vc)',其具體表達(dá)式為:(5.2.17)]

這里c是分層變量的層數(shù);協(xié)方差矩陣V=(Vjl)由下式來(lái)估計(jì):(5.2.18)

這里下標(biāo)i表示離散的失效時(shí)間,當(dāng)j=l時(shí),δjl=1;其他情況下,δ=0。nij和dij分別是第i個(gè)失效時(shí)間第j層中危險(xiǎn)集的大小與事件數(shù)目,、、。Vj可以解釋為:在生存曲線相同的假設(shè)之下,觀察的與期望的失效數(shù)目之差的加權(quán)和。

當(dāng)權(quán)wi=1時(shí)為對(duì)數(shù)秩檢驗(yàn);當(dāng)權(quán)wi=ni時(shí)為Wilcoxon檢驗(yàn)。V-代表V的廣義逆矩陣。由此可知:數(shù)值較大的失效時(shí)間在對(duì)數(shù)秩檢驗(yàn)統(tǒng)計(jì)量中所起的作用大;而數(shù)值較小的失效時(shí)間在威爾科克森檢驗(yàn)統(tǒng)計(jì)量中所起的作用大(因通常壽命短的頻數(shù)較大)。

(2)似然比檢驗(yàn)

當(dāng)資料各層之間服從指數(shù)的假設(shè)成立時(shí),檢驗(yàn)各層之間齊性(即檢驗(yàn)指數(shù)的尺度參數(shù)相等)的似然比檢驗(yàn)統(tǒng)計(jì)量由式(5.2.19)定義:(5.2.19)

這里Nj是第j層內(nèi)事件的總例數(shù),,是第j層中用于檢驗(yàn)的總時(shí)間、mj是第j層中觀察的總例數(shù)、。把Z視為服從自由度為c-1的卡方分布,從而求得近似的概率水平。

4.協(xié)變量與生存時(shí)間聯(lián)系密切程度的檢驗(yàn)

用于檢驗(yàn)協(xié)變量與生存時(shí)間聯(lián)系密切程度的秩檢驗(yàn)是用于齊性檢驗(yàn)的秩檢驗(yàn)的更一般推廣,這種秩檢驗(yàn)統(tǒng)計(jì)量具有如下的形式:(5.2.20)

式中v由式(5.2.21)定義、V-為V的廣義逆矩陣、V分別由式(5.2.22)與(5.2.24)定義:(5.2.21)

當(dāng)此式中時(shí),為對(duì)數(shù)秩得分檢驗(yàn);

當(dāng)此式中時(shí),為Wilcoxon得分檢驗(yàn)。

式(5.2.21)中下標(biāo)及符號(hào)的含義如下:

α是觀測(cè)對(duì)象的編號(hào),α=1,2,…,n;n是觀察的總數(shù);i,j=1,2,…,k(k為不同的時(shí)間點(diǎn)數(shù));t(j)代表有序的事件時(shí)間;Z(j)代表相應(yīng)的協(xié)變量向量;tα代表有序時(shí)間(含刪失與事件時(shí)間)。δα=1(如果觀察到事件發(fā)生)、δα=0(如果觀察到刪失發(fā)生);得分Cα,δα取決于刪失的類型、且對(duì)全部觀察值求和。

用于對(duì)數(shù)秩統(tǒng)計(jì)量的協(xié)方差矩陣的估計(jì)量是:(5.2.22)

式中Vi是與t(j)時(shí)危險(xiǎn)集所對(duì)應(yīng)的校正的平和與交叉乘積和構(gòu)成的矩陣,即(5.2.23)

式中

用于Wilcoxon統(tǒng)計(jì)量的協(xié)方差矩陣的估計(jì)量為下式(其編號(hào)為∶(5.2.24))∶此式中ai、a*i、Si、xi、si分別為:、、

、

第3章COX模型回歸分析

第1節(jié)COX回歸模型(半?yún)?shù)回歸模型)

像通常的回歸分析一樣,人們也希望能建立起生存時(shí)間(因變量或反應(yīng)變量)隨危險(xiǎn)因素(自變量或協(xié)變量)變化的回歸方程,以便對(duì)危險(xiǎn)因素的作用大小有一個(gè)全面的了解和掌握、并根據(jù)危險(xiǎn)因素的不同取值對(duì)生存概率(或危險(xiǎn)率)進(jìn)行預(yù)測(cè)。由于生存時(shí)間的準(zhǔn)確很難獲得,前述目的很難直接實(shí)現(xiàn)。1972年COX提出了比例危險(xiǎn)模型(ProportionalHazardModel),簡(jiǎn)稱為COX模型。由于此模型在表達(dá)形式上與參數(shù)模型相似,但在對(duì)模型中各參數(shù)進(jìn)行估計(jì)時(shí)踴依賴于特定的假設(shè),所以又有半?yún)?shù)模型之稱。此模型的實(shí)用面很寬,在生存分析中占有特殊的地位。其模型的具體形式為:

hi(t)=h0(t)exp(β1xi1+β2xi2+…+βmxim)(5.3.1)

式中hi(t)為第i名受試者生存到ti時(shí)刻的危險(xiǎn)率函數(shù),h0(t)是當(dāng)所有危險(xiǎn)因素(即xij=0)不存在時(shí)的基礎(chǔ)危險(xiǎn)率函數(shù),X=(xi1,xi2,…,xim)'是可能與生存時(shí)間有關(guān)的m個(gè)危險(xiǎn)因素所構(gòu)成的向量。將式(5.3.1)變形如下:

ln[hi(t)/h0(t)]=β1xi1+β2xi2+…+βmxim(5.3.2)

此式表明:各危險(xiǎn)因素與回歸系數(shù)的線性組合就是第i名受試者的相對(duì)危險(xiǎn)率函數(shù)的自然對(duì)數(shù)值。再設(shè)有i、j2個(gè)受試者,其危險(xiǎn)因素向量分別為X1與X2,由式(5.3.1)不難得出他們的相對(duì)危險(xiǎn)率的自然對(duì)數(shù)為:

ln[hi(t)/hj(t)]=β1(xi1-xj1)+β2(xi2-xj2)+…+βm(xim-xjm)(5.3.3)

即利用“具有某預(yù)后因素向量的受試者的死亡風(fēng)險(xiǎn)與不具有該預(yù)后因素向量的受試者的死亡風(fēng)險(xiǎn)在所有時(shí)間上都保持一個(gè)恒定比例”的假設(shè),巧妙地獲得了各時(shí)間點(diǎn)上2個(gè)受試者相對(duì)危險(xiǎn)率函數(shù)的估計(jì)值。

然而,當(dāng)資料不滿足上述假設(shè)時(shí),即有些危險(xiǎn)因素作用的強(qiáng)度是隨時(shí)間而變化的,2個(gè)受試者的危險(xiǎn)率函數(shù)之比(相對(duì)危險(xiǎn))隨時(shí)間而改變,就應(yīng)改用時(shí)變協(xié)變量模型,也稱為非比例危險(xiǎn)模型(Nonproportionalhazardmodel)。當(dāng)只有一個(gè)危險(xiǎn)因素時(shí),其模型的具體形式為:

hi(t)=h0(t)exp[βxi+γ(xiti)](5.3.4)

式中ti為第i個(gè)受試者的生存時(shí)間。

上述各式中的回歸系數(shù)需用最大似然法進(jìn)行估計(jì),一旦有了危險(xiǎn)率函數(shù)的估計(jì)值,再利用生存時(shí)間函數(shù)之間的相互關(guān)系,可獲得其他生存時(shí)間函數(shù)的估計(jì)值。

第2節(jié)COX模型回歸分析應(yīng)用舉例

[例5.3.1]某醫(yī)院腫瘤科提供的一份關(guān)于肺癌病人的失效時(shí)間資料,因變量(或反應(yīng)變量)為病人治療后的生存時(shí)間t(天),當(dāng)t為刪失數(shù)據(jù)時(shí),用前面加一個(gè)負(fù)號(hào)來(lái)表示;考察的協(xié)變量(即危險(xiǎn)或預(yù)后因素)如下。

①癌細(xì)胞的類型(Cell$),它有4個(gè)水平,即腺癌細(xì)胞(adeno)、鱗癌細(xì)胞(squamous)、小細(xì)胞肺癌(small)和大細(xì)胞肺癌(large);

②治療類型(THERAPY$),它有2個(gè)水平,即標(biāo)準(zhǔn)的方法(standard)和試驗(yàn)的方法(test);

③療前處理(PRIOR$),它有2個(gè)水平,即采取了療前處理(yes)和未采取療前處理(no);

④病人的年齡(age)(歲);

⑤從診斷到治療的等待時(shí)間(diagtime);

ⅰ人的行動(dòng)狀態(tài)用Karnofsky率來(lái)度量,其取值用KPS表示,10≤KPS≤30表明病人完全靠醫(yī)院護(hù)理、40≤KPS≤60表明病人的行動(dòng)部分地受到限制、70≤KPS≤90表明病人的行動(dòng)可以自理。

前3個(gè)變量被當(dāng)作分類變量,后3個(gè)變量被當(dāng)作連續(xù)性變量。資料的形式為:

各組病人的治療方法、癌細(xì)胞類型,同一組中的樣本含量

生存時(shí)間、KPS值、diagtime值、年齡、與療前處理對(duì)應(yīng)的指示變量PR值

(注:PR=0等價(jià)于令PRIOR='YES',即表示采取了療前處理;PR=10等價(jià)于令PRIOR='NO',即表示未采取療前處理)。全部數(shù)據(jù)如下(文件名:lung.dat):

STANDARDSQUAMOUS15

7260769041170564102286033801266096310

118701165101020549082401069101108029680

3145018430-10070670042604810840586310

144304630-2580952101170114810

STANDARDSMALL30

306036103846094204402350548046310

13604560-123403550-9760567015360146310

593026501178034601630453101515012690

226046805680124310214025510182015420

139802640203056503175365052702550

2876025661018304600516016701228028530

27608620547016707507720635011480

3924046801040236710

STANDARDADENO9

82019611092701060035406620117802380

1328055001250463101628056403303430

95804340

STANDARDLARGE15

177501666101628056202165015520553702470

2786012630124012681026080545020080124110

156702660-1829026201439086001058011660

103805380250708531010060133710

TESTSQUAMOUS20

99990125410112806600-87803480-2315085210

2425017009917075010111703620120216510

58760358038990262033306640252036630

3577013580467902640201802852101507350

30701163044601370102839025101550134010

TESTSMALL18

25302690-103702236102120471013302620

8760260024036441020309541072011660

2460849099703720880268099854620

617027102570270095701610805017710

513087591029408670

TESTADENO18

24402600184056910-8399357031803390

5160562090602250105260343073603700

850566036708610481048107404580

140703630186903600848046210195010420

4540369080404630

TESTLARGE12

5260445016470156810193043910536012660

15305630436011491034080106410133751650

1116056402317018671037880465049303370

[SAS程序]──[D5P3.PRG]

DATAvalung;PROCPHREG;

RETAINtherapycell;MODELt*censor(1)=kpsagediagtime;

LENGTHprior$3;RUN;

INFILE'a:lung.dat';PROCPHREG;

INPUTtherapy$cell$n;MODELt*censor(1)=kpsagediagtime;

DOi=1TOn;STRATAcell;

INPUTtkpsdiagtimeagepr@@;RUN;

censor=(t<0);PROCPHREG;

t=ABS(t);MODELt*censor(1)=kpsagediagtime;

IFpr=10THENprior='yes';STRATAcelltherapyprior;

ELSEprior='no';RUN;

OUTPUT;

END;

(程序的第1部分)(程序的第2部分)

[程序修改指導(dǎo)]調(diào)用PHREG過(guò)程時(shí),MODEL語(yǔ)句等號(hào)右邊必須是連續(xù)性變量。這里所寫的3個(gè)過(guò)程步的區(qū)別在于STRATA語(yǔ)句中所包含的楓變量的個(gè)數(shù):第1個(gè)過(guò)程步不含STRATA語(yǔ)句,就是把所有資料看成來(lái)自1個(gè)總體;第2個(gè)過(guò)程步要求按CELL的4個(gè)水沏分析資料;第3個(gè)過(guò)程步要求按CELL、THERAPY、PRIOR的16種水平組合楓分析資料。顯然,在分層的條件下,COX所作的比例危險(xiǎn)假設(shè)容易得到滿足,但各層的樣本含量不應(yīng)太小。

另外,若連續(xù)變量很多時(shí),可在MODEL語(yǔ)句最后增加選擇項(xiàng)/SELECTION=方法名,進(jìn)行變量篩選。方法名有如下幾種:

BACKWARD或B(后退法)、FORWARD或F(前進(jìn)法)、STEPWISE或S(逐步回歸法)、SCORE(最優(yōu)回歸子集法)。

[輸出結(jié)果及其解釋]ThePHREGProcedure

TestingGlobalNullHypothesis:BETA=0

WithoutWith

CriterionCovariatesCovariatesModelChi-Square

-2LOGL397.545363.88133.665with3DF(p=0.0001)

Score..34.158with3DF(p=0.0001)

Wald..31.510with3DF(p=0.0001)

此結(jié)果表明:含3個(gè)自變量的COX回歸模型是顯著的(P<0.0001)。

AnalysisofMaximumLikelihoodEstimates

ParameterStandardWaldPr>Risk

VariableDFEstimateErrorChi-SquareChi-SquareRatio

KPS1-0.0361270.0065530.446860.00010.965

AGE1-0.0215710.011573.476020.06230.979

DIAGTIME10.0064260.012450.266240.60591.006

這是用最大似然法對(duì)模型中各參數(shù)估計(jì)并檢驗(yàn)的結(jié)果,顯然,只有變量KPS是顯著的(P<0.0001)。這里給出的只是最后1個(gè)過(guò)程步輸出的結(jié)果,因前2個(gè)過(guò)程步輸出的結(jié)果與此結(jié)果相似,從略。詳細(xì)的討論請(qǐng)看下面的例子。

[例5.3.2]若用LIFETEST過(guò)程預(yù)處理此資料會(huì)發(fā)現(xiàn):不同細(xì)胞類型的生存曲線之間差別非常顯著,生存曲線從左到右依次為:ADENO、SMALL、LARGE、SQUAMOUS。在[例5.3.1]中,請(qǐng)?jiān)O(shè)法將變量CELL引入COX模型中來(lái),重建模型。

[分析與解答]因分類變量無(wú)法直接放入回歸方程,這對(duì)模型的擬合是不利的。補(bǔ)救的辦法是:引入啞變量,使分類變量轉(zhuǎn)變成數(shù)值袖量后再用PHREG過(guò)程(請(qǐng)看本例);若已知生存時(shí)間近似服從某特定的參數(shù)模型時(shí),可直接用LIFEREG過(guò)程擬合參數(shù)模型,因參數(shù)模型中可包含2類變量(請(qǐng)看[例5.4.1])。于是,可對(duì)變量CELL作變換,使它變成3個(gè)啞變量。對(duì)數(shù)據(jù)文件作如下修改(改程序較困難):把ADENO改成100;把SMALL改成010;把LARGE改成001;把SQUAMOUS改成000。如第1行

STANDARDSQUAMOUS15應(yīng)改為:STANDARD00015,其他如法炮制。

程序[COXLUNG.PRG]的數(shù)據(jù)步中第1個(gè)INPUT語(yǔ)句和過(guò)程步需作如下修改

INPUTtherapy$adenosmalllargen;

程序[COXLUNG.PRG]中的過(guò)程步需作如下修改(因其他連續(xù)變量的作用不顯著,故未將它們寫入下面的模型語(yǔ)句之中):

PROCPHREG;

MODELt*censor(1)=kpsadenosmalllarge;

STRATAtherapyprior;

RUN;

[輸出結(jié)果及其解釋]

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論