版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨機(jī)森林模型在生存分析中的應(yīng)用【摘要】目的:本文探討隨機(jī)森林方法用于高維度、強(qiáng)相關(guān)、小樣本的生存資料分析時(shí),可以起到變量篩選的作用.方法:以乳腺癌數(shù)據(jù)集構(gòu)建乳腺癌轉(zhuǎn)移風(fēng)險(xiǎn)評(píng)估模型為實(shí)例進(jìn)行實(shí)證分析,使用隨機(jī)森林模型進(jìn)行變量選擇,然后擬合cox回歸模型.結(jié)果:隨機(jī)森林模型通過(guò)對(duì)變量的選擇,有效的解決數(shù)據(jù)維度高且強(qiáng)相關(guān)的情況,得到了較高的AUC值.一、數(shù)據(jù)說(shuō)明該乳腺癌數(shù)據(jù)集來(lái)自于NCBI,有77個(gè)觀測(cè)值以及22286個(gè)基因變量.通過(guò)篩選選取454個(gè)基因變量.將數(shù)據(jù)隨機(jī)分為練習(xí)集合測(cè)試集,其中2/3為練習(xí)集,1/3為測(cè)試集.繪制K-M曲線圖:UEUUnJ*士AJM二、隨機(jī)森林模型隨機(jī)森林由許多的決策
2、樹(shù)組成,由于這些決策樹(shù)的形成采用了隨機(jī)的方法,因此也叫做隨機(jī)決策樹(shù).隨機(jī)森林中的樹(shù)之間是沒(méi)有關(guān)聯(lián)的.當(dāng)測(cè)試數(shù)據(jù)進(jìn)入隨機(jī)森林時(shí),其實(shí)就是讓每一顆決策樹(shù)進(jìn)行分類,最后取所有決策樹(shù)中分類結(jié)果最多的那類為最終的結(jié)果.因此隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器,并且其輸出的類別是由個(gè)別樹(shù)輸出的類別的眾數(shù)而定.使用randomForestSRC包得到的隨機(jī)森林模型具有以下性質(zhì):Numberofdeaths:27Numberoftrees:800Minimumterminalnodesize:3Averageno.ofterminalnodes:14.4275No.ofvariablestriedateach
3、split:3Totalno.ofvariables:452Analysis:RSFFamily:survSplittingrule:logrankErrorrate:19.87%發(fā)現(xiàn)直接使用隨機(jī)森林得到的模型,預(yù)測(cè)誤差很大,到達(dá)了19.8%,進(jìn)一步考慮使用隨機(jī)森林模型進(jìn)行變量選擇,結(jié)果如下:>our.rf$rfsrc.refit.objSamplesize:52Numberofdeaths:19Numberoftrees:500Minimumterminalnodesize:2Averageno.ofterminalnodes:11.554No.ofvariablestriedatea
4、chsplit:3Totalno.ofvariables:9Analysis:RSFFamily:survSplittingrule:logrank*random*Numberofrandomsplitpoints:10Errorrate:11.4%>our.rf$topvars1 "213821_s_at""219778_at""204690_at""220788_s_at""202202_s_at6"211603_s_at""213055_at""
5、;219336_s_at""37892_at"一共選取了9個(gè)變量,同時(shí)誤差只有11.4%接下來(lái),使用這些變量做cox回歸,剔除模型中不顯著(>0.01)的變量,最終參與模型建立的變量共有4個(gè).模型結(jié)果如下:exp(coef)exp(-coef)lower.95upper.95'218150_at'1.65410.60460.1108624.6800'202114_x_at'0.99151.00860.340942.8833'220788_s_at'0.26493.77500.059441.1805'20
6、2198_s_at'1.74570.57290.331099.2038'202119_s_at'2.47080.40470.938086.5081'202945_at'0.41182.42840.039904.2499'203261_at'3.15020.31740.3364129.4983'203757_s_at'0.78611.27200.616561.0024'205068sat'0.10739.31800.022230.5181最后選取六個(gè)變量擬合生存模型,繪制生存曲線如下:CoxModel0268
7、10丁12Time下面繪制練習(xí)集:ROCffl線,分別在練習(xí)集和測(cè)試集上繪制ROC®線,結(jié)果如下:gHqoQotrETSCd8ZJ1000.20.406081.0Time-dependentROCcurveFalsePositiveRate測(cè)試集:Time-dependentROCcurve80o1.FalsePositiveRate由于測(cè)試集上的樣本過(guò)少,所以得到的AUC值波動(dòng)大,考慮使用bootstrap屢次計(jì)算練習(xí)集上的AUC值并求平均來(lái)測(cè)試模型的效果:AUCat1year0.8039456AUCat3year:0.6956907AUCat5year:0.7024846由此可以
8、看到,隨機(jī)森林通過(guò)刪除奉獻(xiàn)較低的變量,完成變量選擇的工作,在測(cè)試集上具有較高的AUC值,但是比lasso-cox模型得到的AUC略低.附錄:10ad("/R/brea.rda")library(survival)set.seed(10)i<-sample(1:77,52)train<-dati,test<-dat-i,library(randomForestSRC)disease.rf<-rfsrc(Surv(time,status).,data=train,ntree=800,mtry=3,nodesize=3,splitrule="lo
9、grank")disease.rfour.rf<-var.select(object=disease.rf,vdv,method="vh.vimp",nrep=50)our.rf$rfsrc.refit.objour.rf$topvarsindex<-numeric(var.rf$modelsize)for(iin1:var.rf$modelsize)indexi<-which(names(dat)=var.rf$topvarsi)data<-dat,c(1,2,index)i<-sample(1:77,52)train<-da
10、tai,test<-data-i,mod.brea<-coxph(Surv(time,status).,data=train)train_data<-train,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)tset_data<-test,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)mod.brea1<-coxph(Surv(time,status).,data=train_data)summary(mod.brea1)names(
11、coef(mod.brea1)plot(survfit(mod.brea1),xlab="Time",ylab="Proportion",main="CoxModel",=TRUE,col=c("black","red","red"),ylim=c(0.6,1)index0<-numeric(length(coef(mod.brea1)coefficients<-coef(mod.brea1)name<-gsub("",&
12、quot;",names(coefficients)for(jin1:length(index0)index0j<-which(names(dat)=namej)library(survivalROC)riskscore<-as.matrix(dati,index0)%*%as.matrix(coefficients)y1<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=1,span=0.25*(nrow(train)A(-0.20)y3<-surv
13、ivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=3,span=0.25*(nrow(train)A(-0.20)y5<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=5,span=0.25*(nrow(train)A(-0.20)a<-matrix(data=c("y1","y3","y5",y1$AUC,y3$
14、AUC,y5$AUC),nrow=3,ncol=2);aplot(y1$FP,y1$TPype="l",xlab="FalsePositiveRate",ylab="TruePositiveRate",main="Time-dependentROCcurve",col="green")lines(y3$FP,y3$TP,col="red",lty=2)lines(y5$FP,y5$TP,col="blue",lty=3)legend("botto
15、mright",bty="n",legend=c("AUCat1year:0.9271","AUCat3years:0.8621","AUCat5years:0.8263"),col=c("green","red","blue"),lty=c(1,2,3),cex=0.9)abline(0,1)riskscore<-as.matrix(dat-i,index0)%*%as.matrix(coefficients)y1<-surviva
16、lROC(Stime=test$time,status=test$status,marker=riskscore,predict.time=1,span=0.25*(nrow(train)A(-0.20)y3<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,predict.time=3,span=0.25*(nrow(train)A(-0.20)y5<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,predict.tim
17、e=5,span=0.25*(nrow(train)A(-0.20)a<-matrix(data=c("y1","y3","y5",y1$AUC,y3$AUC,y5$AUC),nrow=3,ncol=2);aplot(y1$FP,y1$T|Pype=T,xlab="FalsePositiveRate",ylab="TruePositiveRate,main="Time-dependentROCcurve",col="green")lines(y3$FP,y3$
18、TP,col="red",lty=2)lines(y5$FP,y5$TP,col="blue",lty=3)legend("bottomright",bty="n",legend=c("AUCat1year:0.8761","AUCat3years:0.7611","AUCat5years:0.7611"),col=c("green","red","blue"),lty=c(1,2,3),cex=
19、0.9)abline(0,1)a<-matrix(0,30,3)for(cin1:30)i<-sample(1:77,52)train<-datai,test<-data-i,mod.brea<-coxph(Surv(time,status).,data=train)train_data<-train,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)tset_data<-test,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)mod.brea1<-coxph(Surv(time,status).,data=train_data)names(coef(mod.br
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度能源管理咨詢居間合同范本4篇
- 2025年高端社區(qū)車庫(kù)租賃管理協(xié)議范本2篇
- 二零二五版?zhèn)€人房產(chǎn)抵押貸款資產(chǎn)證券化合作協(xié)議3篇
- 基于二零二五年度計(jì)劃的商業(yè)秘密保密協(xié)議2篇
- 二零二五版廣告宣傳效果數(shù)據(jù)收集與分析合同3篇
- 二零二四年塔吊設(shè)備租賃價(jià)格調(diào)整合同3篇
- 2024自愿離婚協(xié)議書范本
- 二零二五年度權(quán)威公證二手度假村買賣合同模板3篇
- 二零二五版螺桿機(jī)維修技術(shù)培訓(xùn)與認(rèn)證合同4篇
- 2025年度跨境電商承包合同國(guó)際法律適用與風(fēng)險(xiǎn)防范4篇
- 2025年度杭州市固廢處理與資源化利用合同3篇
- 2024年安徽省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 部編版二年級(jí)下冊(cè)《道德與法治》教案及反思(更新)
- 充電樁項(xiàng)目運(yùn)營(yíng)方案
- 退休人員出國(guó)探親申請(qǐng)書
- 高中物理競(jìng)賽真題分類匯編 4 光學(xué) (學(xué)生版+解析版50題)
- 西方經(jīng)濟(jì)學(xué)-高鴻業(yè)-筆記
- 幼兒園美術(shù)教育研究策略國(guó)內(nèi)外
- 2024屆河南省五市高三第一次聯(lián)考英語(yǔ)試題及答案
- 孕婦學(xué)校品管圈課件
- 《愿望的實(shí)現(xiàn)》交流ppt課件2
評(píng)論
0/150
提交評(píng)論