醫(yī)學(xué)數(shù)據(jù)挖掘第二章1預(yù)測型知識_第1頁
醫(yī)學(xué)數(shù)據(jù)挖掘第二章1預(yù)測型知識_第2頁
醫(yī)學(xué)數(shù)據(jù)挖掘第二章1預(yù)測型知識_第3頁
醫(yī)學(xué)數(shù)據(jù)挖掘第二章1預(yù)測型知識_第4頁
醫(yī)學(xué)數(shù)據(jù)挖掘第二章1預(yù)測型知識_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于臨床數(shù)據(jù)發(fā)現(xiàn)預(yù)測型知識例1從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇(mmol/L)的測量結(jié)果

2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26單變量資料例對10例肺癌病人和12例矽肺(硅沉著?。?期工人用X線片測量肺門橫徑右側(cè)距RD值(cm),結(jié)果見下表。問肺癌病人的RD值是否高于矽肺0期工人的RD值?肺癌病人矽肺0期工人RD值RD值2.783.233.233.504.204.044.874.155.124.286.214.347.184.478.054.648.564.759.604.824.955.10單變量資料表212只大白鼠的進(jìn)食量與體重增加量序號進(jìn)食量(g)體重增加量(g)1305.723.62188.614.73277.219.24364.827.75285.318.96244.716.17255.917.28149.812.99268.918.310247.617.711168.813.712200.615.6合計2957.9215.6變量y變量x雙變量資料醫(yī)學(xué)上,還有許多現(xiàn)象之間也都有類似的或強(qiáng)或弱的相互依存變化的關(guān)系,如:身高與體重、體溫與脈搏、年齡與血壓、胰島素與血糖水平、癌癥病人術(shù)后的生存時間和腫瘤級別與年齡等等多變量資料預(yù)測型知識、分類知識、關(guān)聯(lián)知識預(yù)測型知識指的是預(yù)測連續(xù)值,是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù)。這類知識可以被認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識,因此關(guān)聯(lián)知識挖掘方法可以應(yīng)用到以時間為關(guān)鍵屬性的源數(shù)據(jù)挖掘中。分類知識挖掘:分類通常用來預(yù)測對象的類標(biāo)號。然而,在某些應(yīng)用中,人們可能希望預(yù)測某些遺漏的或不知道的數(shù)據(jù)值,而不是類標(biāo)號。當(dāng)被預(yù)測的值是數(shù)值數(shù)據(jù)時,通常稱之為預(yù)測。預(yù)測用于預(yù)測數(shù)據(jù)對象的連續(xù)取值,如:可以構(gòu)造一個分類模型來對銀行貸款進(jìn)行風(fēng)險評估(安全或危險);挖掘預(yù)測型/關(guān)聯(lián)知識線性回歸(LinearRegression)一元線性回歸多元線性回歸Cox回歸(CoxRegression)logistic回歸(logisticRegression)線性回歸兩變量間存在某種內(nèi)在聯(lián)系,且某一變量Y隨著另一變量X的變動而變動,其散點(diǎn)圖呈直線趨勢,則統(tǒng)計上把這種描述兩變量間依存變化的數(shù)量關(guān)系的現(xiàn)象稱為直線回歸數(shù)據(jù)散點(diǎn)圖直線回歸方程的一般表達(dá)式X:自變量(independentvariable),通常也稱為“解釋變量”(explanatoryvariable)

*只有一個自變量,稱簡單回歸(simpleregression)

*多個自變量,稱多元回歸(multipleregression)Y:應(yīng)變量(dependentvariable),通常也稱為“反應(yīng)變量”(responsevariable)a為截距(intercept),b為回歸系數(shù)(regressioncoefficient)回歸系數(shù)b的統(tǒng)計學(xué)意義:X每增加(或減少)一個單位,Y平均改變b個單位目的:作出以多個自變量估計應(yīng)變量的多元線性回歸方程。資料:應(yīng)變量為定量指標(biāo);自變量全部或大部分為定量指標(biāo),若有少量定性或等級指標(biāo)需作轉(zhuǎn)換。用途:解釋和預(yù)報。意義:由于事物間的聯(lián)系常常是多方面的,一個應(yīng)變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標(biāo)的影響。線性回歸(LinearRegression)

表1多元線性回歸分析的數(shù)據(jù)結(jié)構(gòu)實(shí)驗(yàn)對象yX1X2X3

….XP

1y1a11a12a13

…a1p

2y2a21a22a23

…a2p

3y3a31a32a33

…a3p

nynan1an2an3

…anp

━━━━━━━━━━━━━━━━━━其中:y取值是服從正態(tài)分布表27名糖尿病人的血糖及有關(guān)變量的測量結(jié)果

缺失值及處理多元線性回歸中,由于觀察變量較多,容易造成缺失(20%以內(nèi))處理:剔除缺失過多的研究對象或變量用均數(shù)替代缺失值-4-202442-2-4極端值造成回歸線上抬刪除該極端值極端值及處理剔除極端值1.賦值錯誤2.單個極端值影響結(jié)果明顯明顯違背理論與常規(guī)機(jī)制保留極端值極端值較多非強(qiáng)影響值非線性處理:結(jié)合專業(yè)知識,考慮回歸方程中加入變量多次方項。

?=a1+b1x1+b2x12對變量數(shù)據(jù)進(jìn)行轉(zhuǎn)換對數(shù)變換、log變換

XY原則:各實(shí)測點(diǎn)至直線的縱向距離的平方和為最小求解回歸直線最小二乘法(leastsquaremethod)原理表27名糖尿病人的血糖及有關(guān)變量的測量結(jié)果

R實(shí)現(xiàn)線性回歸lm(formula,data,method="qr")參數(shù)解釋:formula代表要做回歸的式子,data是數(shù)據(jù),選定方法例子:data<-read.table("C:\\R實(shí)現(xiàn)\\線性回歸數(shù)據(jù).txt",header=T);colnames(data)<-c("X1","X2","X3","X4","Y");#%總膽固醇(X1)、甘油三酯(X2)、胰島素(X3)、糖化血紅蛋白(X4)、血糖(Y)lm(Y~X1+X2+X3+X4,data);結(jié)果:Y=5.94+0.14X1+0.35X2-0.27X3+0.64X4挖掘預(yù)測型知識線性回歸(LinearRegression)一元線性回歸多元線性回歸Cox回歸(CoxRegression)

logistic回歸(logisticRegression)Cox比例風(fēng)險回歸模型在醫(yī)學(xué)中,一方面要看治療結(jié)局的好壞,另一方面還要看生存時間的長短隨訪研究(follow-upstudy)是醫(yī)學(xué)中常用前瞻性研究。該類數(shù)據(jù)通過隨訪得到,稱為隨訪資料不同方法對某病人(癌癥、反復(fù)發(fā)作疾?。┥鏁r間(緩解時間)與結(jié)局(生存率)比較兩種方法腎移植病人術(shù)后腎的生存時間和結(jié)局(生存率)比較生存時間(t):從起始事件到終點(diǎn)事件之間所經(jīng)歷的時間跨度稱為生存時間

t=結(jié)局事件出現(xiàn)日期-事件的起始日期疾病確診隨訪時間死亡治療開始隨訪時間死亡/治愈結(jié)局事件:指結(jié)局出現(xiàn)的特征,如疾病的死亡、復(fù)發(fā)、發(fā)生(y=1或0)生存數(shù)據(jù)的結(jié)果變量(Y)有兩個:時間(t)值,t>0結(jié)局狀態(tài)(y)=“如死亡或截尾值”生存數(shù)據(jù)完全和不完全數(shù)據(jù)一部分研究對象可觀察到死亡,從而得到準(zhǔn)確的生存時間,所提供的信息是完全的,稱為完全數(shù)據(jù)另一部分病人由于失訪、意外事故或到觀察結(jié)束時仍存活等原因,無法知道確切的生存時間,提供了不完全的信息,稱為不完全數(shù)據(jù)(截尾數(shù)據(jù)、刪失數(shù)據(jù):consordata)時間(t)=截尾事件日期-起始事件日期記為t+。(例:10+月)隨訪的方式1.全部觀察對象同時接受不同處理(起點(diǎn)相同)隨訪方式:多見于動物實(shí)驗(yàn)隨訪的方式2.觀察對象在不同時間接受處理因素(起點(diǎn)不同)隨訪方式:臨床試驗(yàn)研究Cox比例風(fēng)險回歸模型生存時間的長短不僅與治療措施有關(guān),還可能與病人的體質(zhì)、年齡、病情的輕重等多種因素有關(guān)。如何找出其中那些因素與生存時間有關(guān)、哪些無關(guān)呢?生存資料的特點(diǎn)生存時間的分布一般為非正態(tài)分布含有截尾數(shù)據(jù)(consoreddata),信息不完全截尾數(shù)據(jù)提供的信息雖然是不完全的,但也很有價值,不應(yīng)隨便刪除。由于存在不完全數(shù)據(jù),不能用多元線性回歸分析1972年英國統(tǒng)計學(xué)家CoxDR.提出了一種能處理多因素生存分析數(shù)據(jù)的比例危險模型(Cox'sproportionalharzardmodel)。

設(shè)含有p個變量x1,x2,…,xp及時間T和結(jié)局C的n個觀察對象.其數(shù)據(jù)結(jié)構(gòu)見表3。

表3COX模型數(shù)據(jù)結(jié)構(gòu)實(shí)驗(yàn)對象tCX1X2X3

….XP

1t11a11a12a13

…a1p

2t20a21a22a23

…a2p

3t30a31a32a33

…a3p

ntn1an1an2an3

…anp數(shù)據(jù)結(jié)構(gòu)Cox比例風(fēng)險回歸模型在分析單個因素或同時分析2個或2個以上因素對生存時間影響的時候,我們需要通過Cox比例風(fēng)險模型來解決這些問題。借助于多元線回歸及Logistic模型構(gòu)造的思想

Logistic模型:

ln[P/(1-P)]=β0+β1X1+β2X2…+βpXp多元線回歸

Y^=β0+β1X1+β2X2+…+βpXp

等式右邊不變。能不能左邊直接用時間T代替Y或者P?設(shè)不存在因素X1、X2、Xp的影響下,病人t時刻死亡的風(fēng)險率為h0(t),

存在因素X1、X2、Xpt的影響下,t時刻死亡的風(fēng)險率為h(t)。COX提出:用死亡風(fēng)險率的比h(t)/h0(t)代替P/(1-P)即得。h(t,x)=h0(t)exp(-0.7169X3b

-1.0077X3c+0.3585X4+0.1603X5+0.7019X8c+0.2703X9)Cox比例風(fēng)險回歸模型當(dāng)事件發(fā)生時間與多個影響因素有關(guān)時,可用Cox比例風(fēng)險回歸分析影響因素對自變量的影響情況??捎糜谘芯扛鞣N因素對于生存期長短的關(guān)系,進(jìn)行單因素或多因素分析。以風(fēng)險函數(shù)(hazardfunction)作為應(yīng)變量,以各影響因素作為自變量,做自然指數(shù)回歸方程。回歸方程的表達(dá)式為X1,X2,????,Xm是協(xié)變量

1,2,??????,m是回歸系數(shù),由樣本估計而得。Cox比例風(fēng)險回歸模型Cox回歸分析是生存分析的一種半?yún)?shù)分析方法h0(t)是未知的由于Cox比例風(fēng)險模型不是直接利用時間t的全部信息,而只是利用了時間t所提供的順序統(tǒng)計量的信息,故稱之為半?yún)?shù)方法優(yōu)點(diǎn):多因素分析方法不考慮生存時間分布利用截尾數(shù)據(jù)風(fēng)險函數(shù)(風(fēng)險率)h(t,x)表示當(dāng)各協(xié)變量值X固定時的風(fēng)險函數(shù),它和h0(t)成比例,所以該模型又稱為比例風(fēng)險模型(proportionalhazardmodel)表示已生存到時間t的觀察對象,從生存時間t到t+Δt這一非常小的區(qū)間內(nèi)死亡的概率極限,即生存時間已達(dá)到t的一群觀察對象在時刻t的瞬時死亡率。用來估計死亡風(fēng)險的大小。表示所有協(xié)變量Xi均為0時的危險率,一般是未知的?;A(chǔ)風(fēng)險率是未知數(shù),但它和風(fēng)險函數(shù)呈比例。H0(t)與時間有關(guān)的任意函數(shù),其分布和形狀無明確的假定,是非參數(shù)的部分?;A(chǔ)風(fēng)險函數(shù)(率)j表示自變量變化一個單位,引起的死亡風(fēng)險改變倍數(shù)的自然對數(shù)值。j是模型中參數(shù)部分,通過樣本觀察值估計,j的計算采用偏似然函數(shù)?;貧w系數(shù)的意義參數(shù)部分j>0,表示當(dāng)Xj增大時,h(t)也增大,即病人死亡的風(fēng)險增大,越大使生存時間越短,說明該自變量是死亡的危險因素。j=0,表示Xj的變化不會引起病人死亡風(fēng)險的改變。j<0,表示當(dāng)Xj增大,h(t)則減小,即病人死亡的風(fēng)險減小,越大使生存時間越長,說明該自變量是死亡的保護(hù)因素。j的假設(shè)檢驗(yàn)可用最大似然比檢驗(yàn)、Wald檢驗(yàn)和計分檢驗(yàn),并以此作為篩選變量的依據(jù)?;貧w系數(shù)的意義相對危險度表示其他自變量不變的情況下,某自變量從某個值變化為另一個值時,風(fēng)險函數(shù)的變化情況。這是一個與時間無關(guān)的統(tǒng)計量。計算公式為:假定自變量Xj的取值為0和1時,其相對危險度為

變量xj暴露水平時的風(fēng)險率與非暴露水平時的風(fēng)險率之比稱為風(fēng)險比HR(hazardratio)hr=eβi

hr風(fēng)險比相對危險度RR風(fēng)險比HR如果HR/RR接近1,說明該自變量不會影響危險函數(shù);如果大于1,則是危險因素;如果小于1,則是保護(hù)因素。COX回歸的應(yīng)用1)因素分析分析哪些因素(協(xié)變量)對生存期的長短有顯著作用。對各偏回歸系數(shù)作顯著性檢驗(yàn),如顯著,則說明在排除其它因素的影響后,該因素與生存期的長短有顯著關(guān)系。(2)求各因素在排除其它因素的影響后,對于死亡的相對危險度(或比數(shù)比)如某因素Xi的偏回歸系數(shù)為bi,

則該因素Xi對于死亡的相對危險度為exp(bi)當(dāng)Xi為二值變量時,如轉(zhuǎn)移(1=轉(zhuǎn)移,0=不轉(zhuǎn)移),exp(bi)為轉(zhuǎn)移相對于不轉(zhuǎn)移對于死亡的相對危險度(或比數(shù)比)當(dāng)Xi為等級變量時,如淋巴結(jié)轉(zhuǎn)移,分0,1,2,3,4五個等級。exp(bi)為每增加一個等級,死亡的相對危險度,如等級3相對于等級0其死亡的相對危險度為:

exp(3bi)當(dāng)Xi為連續(xù)變量時,如年齡(歲)exp(bi)為每增加一歲時,死亡的相對危險度如60歲相對于35歲其死亡的相對危險度為exp(25bi)3)比較各因素對于生存期長短的相對重要性比較各標(biāo)準(zhǔn)化偏回歸系數(shù)bi’絕對值的大小,絕對值大的對生存期長短的作用也大。(4)考察因素之間的交互作用如考察XL和XK之間的交互作用是否顯著,再增加一各指標(biāo):XLK=XL*XK

,如其偏回歸系數(shù)bLK顯著,則XL和XK之間的交互作用顯著。R實(shí)現(xiàn)cox回歸coxph(Surv(time,censored)~class,data=)library(survival);參數(shù)解釋:

time代表樣本的生存時間,censored是刪失數(shù)據(jù),0代表未知,1代表死亡class可以分為兩種,一種是離散數(shù)據(jù),一種是連續(xù)數(shù)據(jù)data代表cox回歸所用的數(shù)據(jù)R實(shí)現(xiàn)單變量cox回歸library(splines);library(survival);data<-read.table("C:\\R實(shí)現(xiàn)\\coxregressiondata.txt",sep="\t",header=T);colnames(data)<-c("type","sample","grade","age","sex","mutation","time","censored");R實(shí)現(xiàn)單變量cox回歸data[data[,5]==0,5]<-"female";data[data[,5]==1,5]<-"male";data[data[,6]==0,6]<-"nomutation";data[data[,6]==1,6]<-"mutation";t1<-coxph(Surv(time,censored)~type,data);t2<-coxph(Surv(time,censored)~age,data);t3<-coxph(Surv(time,censored)~sex,data);t4<-coxph(Surv(time,censored)~mutation,data);R實(shí)現(xiàn)單變量cox回歸回歸系數(shù)HR值P值TypeII1(refrence)III-2.3350.09692.7e-05IV0.8952.44732.2e-03Age0.03691.040.00049Sexfemale1(refrence)male0.1511.160.55Mutationmutation1(refrence)nomutation1.213.379.5e-05R實(shí)現(xiàn)單變量cox回歸coxph(Surv(time,censored)~type+age+mutation,data);生存分析總流程1.篩選影響生存的風(fēng)險因素通過單變量分析篩選有價值的自變量,然后通過多變量cox回歸考慮因素的獨(dú)立性采用前進(jìn)法、后退法和逐步回歸法篩選進(jìn)入模型的自變量,建立最佳模型。2.生存率的估計與生存曲線估計生存函數(shù)。比較各組的生存函數(shù)。幾個率概念死亡率、死亡概率、生存概率、生存率死亡率:表示在單位時間(年)內(nèi)死亡發(fā)生的頻率(年平均死亡水平)。死亡概率(F):在某時間(t)開始存活的個體,死于(t+△t)該時段內(nèi)的可能性。生存概率、生存率生存概率(pi=1-F)指某時間段開始存活的個體到該時間段結(jié)束時仍存活的概率。生存率(survivalrate)稱為生存函數(shù)記為S(t)指觀察對象從起始事件(如手術(shù)時間為0點(diǎn))開始,到t時刻仍存活的概率。常用n年生存率表示。時間ti,i=1,2,3…n例:某病病人術(shù)后生存率

生存期初死亡生存死亡生存生存率時段人數(shù)人數(shù)人數(shù)概率概率[0,1]10010900.10.90.90[1,2]9010800.110.890.80[2,3]8020600.250.750.60

生存曲線2.生存曲線:(survivalcurve)指各時點(diǎn)(t)為橫軸,生存率S(t)為縱軸,連接一起的曲線圖。描述生存率在各時點(diǎn)(t)的變化過程。3.半數(shù)生存期(中位數(shù)生存時間)即生存率為0.5時對應(yīng)的時間(t),描述一組數(shù)據(jù)平均生存時間。注:生存時間(t)是正偏態(tài)分布。生存曲線以時間t為橫坐標(biāo),S(t)為縱坐標(biāo)所作的曲線稱為生存率曲線,

它是一條下降的曲線,下降的坡度越陡,表示生存率越低或生存時間越短,其斜率表示死亡速率。生存率的估計方法

生存率S(t)的估計方法有參數(shù)法和非參數(shù)法。參數(shù)法可求出一個方程表示生存函數(shù)S(t)和時間t的關(guān)系,畫出的生存曲線是光滑的下降曲線。常用非參數(shù)法非參數(shù)法只能得到某幾個時間點(diǎn)上的生存函數(shù),再用直線聯(lián)起來,畫出的生存曲線是呈梯型的。非參數(shù)法主要有二個,即,乘積極限法與壽命表法,前者主要用于觀察例數(shù)較少而未分組的生存資料,后者適用于觀察例數(shù)較多而分組的資料,不同的分組壽命表法的計算結(jié)果亦會不同當(dāng)分組資料中每一個分組區(qū)間中最多只有1個觀察值時,壽命表法的計算結(jié)果與乘積極限法完全相同。乘積極限法(Product-LimitMethod)簡稱為積限法或PL法,它是由統(tǒng)計學(xué)家Kaplan和Meier于1958年首先提出的,因此又稱為Kaplan-Meier法,是利用條件概率及概率的乘法原理計算生存率及其標(biāo)準(zhǔn)誤的。設(shè)S(t)表示t年的生存率,s(ti/ti-1)表示活過ti-1年又活過ti年的條件概率,例如s(1),s(2)分別表示一年,二年的生存率,而s(2/1)表示活過一年者,再活一年的條件概率,據(jù)概率的乘法定律有:S(2)=S(1)S(2/1),一般地有S(ti)=S(ti-1)S(ti/ti-1)例22.1用某中藥加化療(中藥組)和化療(對照組)兩種療法治療白血病后,隨訪記錄各患者的生存時間,不帶"+"號者表示已死亡,即完全數(shù)據(jù),帶"+"號者表示尚存活,即截尾數(shù)據(jù),試作生存分析。時間單位為月。中藥組(16名,死亡8人)10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24對照組(10名,死亡7人)2+,13,7+,11+,6,1,11,3,17,7資料中藥組積限法計算生存率─────────────────────────────────────時間狀態(tài)期初人數(shù)死亡人數(shù)條件生存率累積生di∑di/ni(ni-di)累積生存

tisinidi(ni-di)/ni存率^S(ti)ni(ni-di)率標(biāo)準(zhǔn)誤①②③④⑤⑥⑦⑧⑨=⑥√⑧─────────────────────────────────────2活

4死1510.93330.93330.0047620.0047620.06446活

6活

8活

9死1110.90900.84850.0090910.0138530.09999活

10死910.88890.75420.0138890.0277420.125612活

13死710.85710.64650.0238100.0515510.146818死610.83330.53870.0333330.0848850.157019活

24死410.75000.40400.0833330.1682180.165726死310.66670.26940.1666670.3348850.155931死210.50000.13470.5000000.8348850.123143活─────────────────────────────────────壽命表法(LifeTableMethod)適用于隨訪的病例數(shù)較多,將資料按生存期進(jìn)行分組,在分組的基礎(chǔ)上計算生存率,本法也能用于不分組的資料,此時計算結(jié)果與積限法相同。

某醫(yī)院1946年1月1日到1951年12月31日收治的126例胃癌病例,生存情況如表22.2,試用壽命表法估計生存率。表22.2126例胃癌患者壽命表法估計生存率─────────────────────────────────────────────────────時間(年)期初例數(shù)死亡例數(shù)失訪例數(shù)截尾例數(shù)有效例數(shù)條件生存率累積生存率di∑di/ni(ni-di)累積生存

tin'idiuiwini^S(ti/ti-1)^S(ti)ni(ni-di)率標(biāo)準(zhǔn)誤⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽⑾=⑻√⑽─────────────────────────────────────────────────────0-12647415116.50.59660.59665.805×10-35.805×10-30.04551-60561151.50.90290.53862.088×10-37.893×10-30.04792-38201530.50.93440.50332.301×10-30.01020.05083-2122716.50.87880.44238.359×10-30.01860.06024-100067.01.00000.442300.01860.06025-40042.01.00000.442300.01860.0602─────────────────────────────────────────────────────

壽命表法估計生存率步驟如下:1.將觀察例數(shù)按時間段(年)0-,1-,2-,劃分,分別計數(shù)期初例數(shù),死亡,失訪,截尾例數(shù)列入表22.2的1-5列。事實(shí)上,從第二個時間段開始,期初人數(shù)ni系由下式算得:n'i=n'i-1-di-ui-wi

例如第二行,即時間段1-,有

n'2=126-47-4-15=602.計算各時間段期初實(shí)際觀察例數(shù),(亦稱有效例數(shù))nini=n'i-ui/2-wi/2

上式表明該時間段期初例數(shù)中的失訪,及截尾例數(shù)只計其半時,即得有效例數(shù)。如第一行,n1=126-4/2-15/2=116.53.分別用(22.5)(22.6)(22.7)式計算條件生存率^S(ti/ti-1),累積生存率s(ti)及其標(biāo)準(zhǔn)誤。計算結(jié)果已列于表22.2中,第7,8,11列,表中9,10二列系用于第11列的計算。例如時間段0--中

^S(ti/ti-1)=(116.5-47)/116.5=0.5966^S(ti)=1×0.5966=0.5966SE(S(ti))=0.5966×√5.805×10-3=0.0455

故一年生存率的估計為0.5966±0.0455

同樣二年生存率的估計為0.5386±0.0479

由于壽命表法與積限法的累積生存率及其標(biāo)準(zhǔn)誤的計算公式完全相同,所以,當(dāng)分組資料中每一個分組區(qū)間中最多只有1個觀察值時,壽命表法就是積限法。性別做生存分析p=??第三節(jié)生存曲線的統(tǒng)計檢驗(yàn)當(dāng)有兩個或兩個以上的生存分布時,我們常需比較它們是否來自同一生存分布,常進(jìn)行生存率曲線間的比較。方法:時序檢驗(yàn)(Log-Ranktest),可對兩組或多組生存率曲線做比較.檢驗(yàn)假設(shè):H0:兩總體的生存率曲線相同

H1:兩總體的生存率曲線不同α=0.05,如P≤α,拒絕H0Logrank檢驗(yàn)(LogRankTest)當(dāng)比較的幾個樣本生存分布,全部為完全數(shù)據(jù)時,本檢驗(yàn)又稱為Savage檢驗(yàn)。Logrank檢驗(yàn)的計算步驟如下:1.將兩樣本的生存數(shù)據(jù)混合,由小到大排列,并給以秩次i1,當(dāng)截尾數(shù)據(jù)與完全數(shù)據(jù)數(shù)值相同時,截尾數(shù)據(jù)排列在后。并設(shè)兩樣本含量分別為m1,m2,總例數(shù)n=m1+m2。2.列出所比較的兩組中任一個組的序號i2(本處選用中藥組),記入表22.3中第3列。3.列出死亡例的序號i3(見表22.3中第4列)。4.計算完全數(shù)據(jù)各時間點(diǎn)處于危險狀態(tài)的例數(shù)r,它表示該時刻時還剩下多少例數(shù)。r系由與i3相應(yīng)的i1值計算而得。

r=n-i1+1

5.對秩次i1作logrank變換,即計算logrank變換值W,其算法為秩次為i1的序號為i3非截尾數(shù)據(jù)的W值為秩次為i1的截尾數(shù)據(jù),首先判斷它在那二個非截尾數(shù)據(jù)之間,如果它在序號i3與i3+1之間則W為特別地,當(dāng)截尾數(shù)據(jù)在第一個非截尾數(shù)據(jù)之前時,取W=0,幾個截尾數(shù)據(jù)落在同樣序號的非截尾數(shù)據(jù)之間時,它們具有相同的W值。6.計算所指定的組別(本例為中藥組,序號為i2)的logrank變換值之和T

上式的連加系在指定的i2范圍內(nèi)相加。其均數(shù)與方差分別為

E(T)=m1/n∑WV(T)=m1m2/[n(n-1)]∑(W-E(T)/m1)2

式中連加系在全部觀察值上完成,m1系指所指定的組別的例數(shù),(本例為中藥組m1=16),n為總例數(shù)。

Z=[T-E(T)]/√V(T)Z服從標(biāo)準(zhǔn)正態(tài)分布,故可由Z0.05=1.96,Z0.01=2.58作出統(tǒng)計推斷。本例資料有T=3.822,E(T)=0.4402×10-6,

V(T)=3.1755,Z=2.145,故P<0.05,拒絕H0,認(rèn)為兩種療法生存分布不相同。R實(shí)現(xiàn)對所有變量畫KMplot,并計算logrankpvaluest11<-survfit(Surv(time,censored)~type,data);plot(t11,col=c(“yellow"","orange","red"),xlab="Time",ylab="Estimatedsurvivalfunctions");legend(1300,0.8,c("typeII","typeIII","typeIV"),col=c(“yellow"","orange","red"),lty=c(1,1,1));survdiff(Surv(time,censored)~type,data);性別做生存分析挖掘預(yù)測型知識線性回歸(LinearRegression)一元線性回歸多元線性回歸Cox回歸(CoxRegression)logistic回歸(logisticRegression)logistic回歸模型應(yīng)變量Y是一個二值變量,取值為如果發(fā)生為0,未發(fā)生為1,則模型中回歸系數(shù)絕對值不變,但符號相反。自變量X1,X2,……,Xm。自變量全部或大部分為定量指標(biāo),若有少量定性或等級指標(biāo)需作轉(zhuǎn)換。P表示在m個自變量作用下陽性結(jié)果發(fā)生的條件概率。1-P=P(y=0|x)為不發(fā)病概率數(shù)據(jù)結(jié)構(gòu)概率型非線性回歸模型S-形曲線,符合流行病學(xué)對危險因素與疾病風(fēng)險關(guān)系的認(rèn)識logit變換事件發(fā)生概率與未發(fā)生概率之比的自然對數(shù),稱為P的logit變換,記作logit(P)。概率P的取值范圍在0~1之間,而logit(P)取值是沒有界限的。0(常數(shù)項):所有影響因素均為0時(記作X=0),個體發(fā)生事件概率與不發(fā)生事件的概率之比的自然對數(shù)值。j

的含義:某因素因素Xj改變一個單位時,個體發(fā)生事件概率與不發(fā)生事件的概率之比的自然對數(shù)變化值。優(yōu)勢(odds)是指某影響因素控制在某種水平時,事件發(fā)生率與事件不發(fā)生率的比值,即P/(1-P)。某影響因素的兩個不同水平的優(yōu)勢的比值稱為優(yōu)勢比如某影響因素的一個水平為c1,另一個水平為c0,則這兩個水平的優(yōu)勢比為:優(yōu)勢比(oddsratio,OR)結(jié)果吸煙不吸煙合計食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合計517(a+c)369(b+d)886吸煙與食管癌關(guān)系的病例對照調(diào)查結(jié)果優(yōu)勢比(oddsratio,OR)OR表示影響因素對事件發(fā)生的影響方向和影響能力大小。一般地,OR>1表示該因素取值越大,事件發(fā)生的概率越大,又稱危險因素。OR<1表示該因素取值越大,事件發(fā)生的概率越小,又稱保護(hù)因素。OR=1表示該因素與事件的發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論