




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨機(jī)森林模型在生存分析中的應(yīng)用【摘要】目的:本文探討隨機(jī)森林方法用于高維度、強(qiáng)相關(guān)、小樣本的生存資料分析時,可以起到變量篩選的作用。方法:以乳腺癌數(shù)據(jù)集構(gòu)建乳腺癌轉(zhuǎn)移風(fēng)險評估模型為實(shí)例進(jìn)行實(shí)證分析,使用隨機(jī)森林模型進(jìn)行變量選擇,然后擬合cox回歸模型。結(jié)果:隨機(jī)森林模型通過對變量的選擇,有效的解決數(shù)據(jù)維度高且強(qiáng)相關(guān)的情況,得到了較高的AUC值。一、數(shù)據(jù)說明該乳腺癌數(shù)據(jù)集來自于NCBI,有77個觀測值以及22286個基因變量。通過篩選選取454個基因變量。將數(shù)據(jù)隨機(jī)分為訓(xùn)練集合測試集,其中2/3為訓(xùn)練集,1/3為測試集。繪制K-M曲線圖:UEUUnJ*士AJM二、隨機(jī)森林模型隨機(jī)森林由許多的決策
2、樹組成,因?yàn)檫@些決策樹的形成采用了隨機(jī)的方法,因此也叫做隨機(jī)決策樹。隨機(jī)森林中的樹之間是沒有關(guān)聯(lián)的。當(dāng)測試數(shù)據(jù)進(jìn)入隨機(jī)森林時,其實(shí)就是讓每一顆決策樹進(jìn)行分類,最后取所有決策樹中分類結(jié)果最多的那類為最終的結(jié)果。因此隨機(jī)森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。使用randomForestSRC包得到的隨機(jī)森林模型具有以下性質(zhì):Numberofdeaths:27Numberoftrees:800Minimumterminalnodesize:3Averageno.ofterminalnodes:14.4275No.ofvariablestriedateach
3、split:3Totalno.ofvariables:452Analysis:RSFFamily:survSplittingrule:logrankErrorrate:19.87%發(fā)現(xiàn)直接使用隨機(jī)森林得到的模型,預(yù)測誤差很大,達(dá)到了19.8%,進(jìn)一步考慮使用隨機(jī)森林模型進(jìn)行變量選擇,結(jié)果如下:>our.rf$rfsrc.refit.objSamplesize:52Numberofdeaths:19Numberoftrees:500Minimumterminalnodesize:2Averageno.ofterminalnodes:11.554No.ofvariablestriedatea
4、chsplit:3Totalno.ofvariables:9Analysis:RSFFamily:survSplittingrule:logrank*random*Numberofrandomsplitpoints:10Errorrate:11.4%>our.rf$topvars1 "213821_s_at""219778_at""204690_at""220788_s_at""202202_s_at”6"211603_s_at""213055_at"&quo
5、t;219336_s_at""37892_at"一共選取了9個變量,同時誤差只有11.4%接下來,使用這些變量做cox回歸,剔除模型中不顯著(>0.01)的變量,最終參與模型建立的變量共有4個。模型結(jié)果如下:exp(coef)exp(-coef)lower.95upper.95'218150_at'1.65410.60460.1108624.6800'200914_x_at'0.99151.00860.340942.8833'220788_s_at'0.26493.77500.059441.1805'2
6、01398_s_at'1.74570.57290.331099.2038'201719_s_at'2.47080.40470.938086.5081'202945_at'0.41182.42840.039904.2499'203261_at'3.15020.31740.3364129.4983'203757_s_at'0.78611.27200.616561.0024'205068sat'0.10739.31800.022230.5181最后選取六個變量擬合生存模型,繪制生存曲線如下:CoxModel026
7、810丁12Time下面繪制訓(xùn)練集:ROCffl線,分別在訓(xùn)練集和測試集上繪制ROC®線,結(jié)果如下:gHqoQotrETSCd8ZJ1000.20.406081.0Time-dependentROCcurveFalsePositiveRate測試集:Time-dependentROCcurve80o1.FalsePositiveRate由于測試集上的樣本過少,所以得到的AUC值波動大,考慮使用bootstrap多次計(jì)算訓(xùn)練集上的AUC值并求平均來測試模型的效果:AUCat1year0.8039456AUCat3year:0.6956907AUCat5year:0.7024846由此可
8、以看到,隨機(jī)森林通過刪除貢獻(xiàn)較低的變量,完成變量選擇的工作,在測試集上具有較高的AUC值,但是比lasso-cox模型得到的AUC略低。附錄:10ad("/R/brea.rda")library(survival)set.seed(10)i<-sample(1:77,52)train<-dati,test<-dat-i,library(randomForestSRC)disease.rf<-rfsrc(Surv(time,status).,data=train,ntree=800,mtry=3,nodesize=3,splitrule="l
9、ogrank")disease.rfour.rf<-var.select(object=disease.rf,vdv,method="vh.vimp",nrep=50)our.rf$rfsrc.refit.objour.rf$topvarsindex<-numeric(var.rf$modelsize)for(iin1:var.rf$modelsize)indexi<-which(names(dat)=var.rf$topvarsi)data<-dat,c(1,2,index)i<-sample(1:77,52)train<-d
10、atai,test<-data-i,mod.brea<-coxph(Surv(time,status).,data=train)train_data<-train,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)tset_data<-test,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)mod.brea1<-coxph(Surv(time,status).,data=train_data)summary(mod.brea1)names
11、(coef(mod.brea1)plot(survfit(mod.brea1),xlab="Time",ylab="Proportion",main="CoxModel",=TRUE,col=c("black","red","red"),ylim=c(0.6,1)index0<-numeric(length(coef(mod.brea1)coefficients<-coef(mod.brea1)name<-gsub("",
12、"",names(coefficients)for(jin1:length(index0)index0j<-which(names(dat)=namej)library(survivalROC)riskscore<-as.matrix(dati,index0)%*%as.matrix(coefficients)y1<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=1,span=0.25*(nrow(train)A(-0.20)y3<-sur
13、vivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=3,span=0.25*(nrow(train)A(-0.20)y5<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,predict.time=5,span=0.25*(nrow(train)A(-0.20)a<-matrix(data=c("y1","y3","y5",y1$AUC,y3
14、$AUC,y5$AUC),nrow=3,ncol=2);aplot(y1$FP,y1$TPype="l",xlab="FalsePositiveRate",ylab="TruePositiveRate",main="Time-dependentROCcurve",col="green")lines(y3$FP,y3$TP,col="red",lty=2)lines(y5$FP,y5$TP,col="blue",lty=3)legend("bott
15、omright",bty="n",legend=c("AUCat1year:0.9271","AUCat3years:0.8621","AUCat5years:0.8263"),col=c("green","red","blue"),lty=c(1,2,3),cex=0.9)abline(0,1)riskscore<-as.matrix(dat-i,index0)%*%as.matrix(coefficients)y1<-surviv
16、alROC(Stime=test$time,status=test$status,marker=riskscore,predict.time=1,span=0.25*(nrow(train)A(-0.20)y3<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,predict.time=3,span=0.25*(nrow(train)A(-0.20)y5<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,predict.ti
17、me=5,span=0.25*(nrow(train)A(-0.20)a<-matrix(data=c("y1","y3","y5",y1$AUC,y3$AUC,y5$AUC),nrow=3,ncol=2);aplot(y1$FP,y1$T|Pype=T,xlab="FalsePositiveRate",ylab="TruePositiveRate”,main="Time-dependentROCcurve",col="green")lines(y3$FP,y
18、3$TP,col="red",lty=2)lines(y5$FP,y5$TP,col="blue",lty=3)legend("bottomright",bty="n",legend=c("AUCat1year:0.8761","AUCat3years:0.7611","AUCat5years:0.7611"),col=c("green","red","blue"),lty=c(1,2,3),ce
19、x=0.9)abline(0,1)a<-matrix(0,30,3)for(cin1:30)i<-sample(1:77,52)train<-datai,test<-data-i,mod.brea<-coxph(Surv(time,status).,data=train)train_data<-train,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)tset_data<-test,c(1,2,which(summary(mod.brea)$coefficients,5<=0.1)+2)mod.brea1<-coxph(Surv(time,status).,data=train_data)names(coef(mod.br
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣西壯族自治區(qū)河池市2022-2023學(xué)年高二下學(xué)期化學(xué)期末考試試題(含答案)
- 代賬公司續(xù)簽活動方案
- 以嶺品牌日活動方案
- 以迪士尼活動策劃方案
- 仲夏簽到活動方案
- 企業(yè)下鄉(xiāng)活動方案
- 企業(yè)上市活動方案
- 企業(yè)代表參加活動方案
- 企業(yè)公司九周年活動方案
- 企業(yè)參加活動方案
- 人工智能訓(xùn)練師4級模擬復(fù)習(xí)測試卷附答案
- 針對醫(yī)療行業(yè)工控系統(tǒng)的網(wǎng)絡(luò)安全防護(hù)策略研究報(bào)告
- 【公開課】巴西+課件-2024-2025學(xué)年七年級地理下學(xué)期人教版
- 2025年安全生產(chǎn)月主題培訓(xùn) (編號30)
- 溫州市普通高中2025屆高三第三次適應(yīng)性考試技術(shù)試題及答案
- 航空制造領(lǐng)域供應(yīng)商選擇與評價體系的優(yōu)化研究-以SDTG公司為例
- 毛細(xì)支氣管炎診斷及治療標(biāo)準(zhǔn)流程
- 大學(xué)化學(xué)重要實(shí)驗(yàn)異常情況處理試題及答案
- 2025年暑假安全教育家長會
- 2024年深圳市煙草專賣局招聘筆試真題
- 子宮頸炎護(hù)理查房
評論
0/150
提交評論