




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 基于深度學習的細胞癌惡化程度預(yù)測方法研究 銀溫社胡楊升董青青Summary:細胞癌是當今致死率最高的癌癥之一,細胞癌惡化程度預(yù)測方法對治療該病癥具有重大意義。對細胞圖像病理識別數(shù)據(jù)集中的癌癥細胞切片進行檢測,首先利用數(shù)據(jù)增加(DATA Augmentation,DA)技術(shù),增加模型訓練集和測試集,然后設(shè)計卷積神經(jīng)網(wǎng)絡(luò)訓練和測試網(wǎng)絡(luò)結(jié)構(gòu),再結(jié)合經(jīng)驗設(shè)置優(yōu)化參數(shù)進行預(yù)測模型訓練,從而為細胞癌惡化程度預(yù)測提供一個深度模型的檢測手段。隨著深度學習的發(fā)展和醫(yī)學圖像在臨床上的應(yīng)用,以及醫(yī)學影像數(shù)據(jù)集的不斷完善,該方法有望為醫(yī)生診斷細胞癌惡化程度提供一種有效工具。KeyKey:深度學習;細胞癌;檢測;卷積
2、神經(jīng)網(wǎng)絡(luò)DOIDOI:10.11907/rjdk.172498:TP301:A:16727800(2018)003001104英文SummaryAbstract:Cell carcinoma is one of the highest mortality rates in todays society. The prediction of cell cancer progression have a great significance for the treatment of this disease. In this paper, the cell image provided in th
3、e pathological identification data set by JuShuLi are detected. First, data augmentation is used to add the model training set and test set, and then, the convolution neural network training network structure and testing network is designed, the predictor model is trained by setting the optimization
4、 parameters combined with experience. Thus providing a depth detection method for the prediction of cell cancer progression. With the development of deep learning and the clinical application of medical images, the medical image data sets are constantly improved. This method is expected to provide a
5、n effective tool for doctors diagnose the deterioration of cell carcinoma.英文KeyKey Words:deep learning; cell carcinoma; detection; convolution neural network0引言細胞是組成人體的最基本單位,其規(guī)則的生長衰變對人體健康至關(guān)重要。當出現(xiàn)不規(guī)則的生長情況時,病理學家可以對惡化細胞進行檢測,以確定細胞是否惡化癌變。由于空間和時間上的基因異質(zhì)性以及紋理和形狀上的不確定性,盡管病理學家經(jīng)驗豐富,但診斷誤差率仍有30%40%。病理學家通過活體檢測或醫(yī)學
6、影像主觀地分析細胞的形態(tài)是否由正常的扁平梭狀變成了惡化的球形、細胞核是否分葉、顏色是否淡化等特征,往往只能作出初步診斷,必須結(jié)合個人病史,甚至家族病史才能給出最終診斷結(jié)果。此類主觀診斷方法周期很長,而且臨床數(shù)據(jù)顯示誤診率較高。因此,找到一種高效、準確的細胞癌惡化程度預(yù)測方法尤為重要。癌癥惡化程度預(yù)測方法備受關(guān)注,特別是隨著特征提取、分類器、機器學習算法的產(chǎn)生以及深度學習思想的提出,這一領(lǐng)域研究很多。如張利文團隊1提出了基于定量影像組學的肺腫瘤良惡性預(yù)測方法。該方法先通過雪橇自動生長對病灶區(qū)域進行分割,然后進行特征提取和特征選擇,最后通過SVM訓練預(yù)測模型,預(yù)測準確度在80%左右,但工作量較大。
7、Rejintal 團隊2提出的基于圖像處理的白血病癌細胞檢測方法,主要采用k均值分割、灰度共生矩陣和SVM分類器,但此方法提取特征較少,文章中沒有給出識別精度。在相關(guān)研究基礎(chǔ)上,本文提出一種基于深度學習的細胞癌惡化程度預(yù)測方法。深度學習是機器學習研究的一個新領(lǐng)域,其目標在于建立能模擬人腦進行學習的神經(jīng)網(wǎng)絡(luò)來解釋數(shù)據(jù),通過組合低層特征形成更加抽象的高層特征,從而發(fā)現(xiàn)分布式特征。卷積神經(jīng)網(wǎng)絡(luò)是模擬人腦網(wǎng)絡(luò)的一種,它不但具有尺度不變性,而且具有權(quán)值共享等特點3。卷積神經(jīng)網(wǎng)絡(luò)從特征提取到特征選擇再到權(quán)值優(yōu)化,模型構(gòu)建完全組合在神經(jīng)網(wǎng)絡(luò)的隱含層內(nèi)4,大大降低了復(fù)雜度。在預(yù)測方面,使用有監(jiān)督的標記訓練,模
8、型預(yù)測結(jié)果就是標記對應(yīng)值。1預(yù)測模型及預(yù)測方法1.1深度學習框架選擇本文選擇開源的Caffe深度學習框架,其高效,簡潔的特點是選擇它的原因之一5,在圖像識別和分類領(lǐng)域擁有大部分資源,很多圖像領(lǐng)域的研究都是在Caffe框架下進行實驗的,開源項目很多也可在GitHub上找到。當然在硬件方面,NVIDIA為其提供的多GPU加速也是選擇Caffe的原因。1.2卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計卷積神經(jīng)網(wǎng)絡(luò)同感知機、BP神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)以及自適應(yīng)共振理論一樣,也屬于人工神經(jīng)網(wǎng)絡(luò)的一種69。卷積神經(jīng)網(wǎng)絡(luò)經(jīng)歷了感受野和神經(jīng)認知機兩大階段1011,它更加擬合于生物神經(jīng)網(wǎng)絡(luò),其權(quán)值共享和可多維圖片輸入的特點,使其占領(lǐng)了
9、人工智能的大部分領(lǐng)域,避免了例如SVM等監(jiān)督學習模型的特征提取、特征選擇和數(shù)據(jù)重建過程12,其尺度不變性也為卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了技術(shù)基礎(chǔ)。 訓練網(wǎng)絡(luò)結(jié)構(gòu)輸入層即數(shù)據(jù)層,設(shè)置批處理大小scale為64,此參數(shù)可根據(jù)實驗者的計算機處理能力進行調(diào)整。因為本文是基于GPU訓練的,所以設(shè)置批處理大小為64;對于數(shù)據(jù)導(dǎo)入文件,Caffe支持LMDB和LEVELDB兩種類型文件,它們都是鍵/值對(Key/Value Pair)嵌入式數(shù)據(jù)庫管理系統(tǒng)編程庫。雖然LMDB的內(nèi)存消耗是LEVELDB的1.1倍,但是LMDB的速度比LEVELDB快15%左右,所以本文選擇數(shù)據(jù)導(dǎo)入文件為LMDB類型。為了把通道圖像
10、的像素值定在0,1區(qū)間內(nèi),設(shè)置scale為0.003 906 25。卷積層設(shè)置濾波器的權(quán)重學習率參數(shù)lr_mult為1,偏置學習率參數(shù)bias為2。一般bias為lr_mult的2倍,這樣,收斂速度會有一個很好的提升;卷積核的個數(shù)、大小、步長以及是否有填充都對特征信息提取和最后的驗證集預(yù)測產(chǎn)生較大影響,本文基于先驗知識和經(jīng)驗分別設(shè)置卷積核個數(shù)為32,步長為1,卷積核大小為55,填充為1。因為服從高斯分布,可以將中心點作為原點,從而在正態(tài)曲線上分配權(quán)重和偏置參數(shù),產(chǎn)生規(guī)整的特征映射圖且支持稀疏性。使用高斯分布隨機初始化卷積核,高斯分布標準差為0.001。對于池化層,因為細胞的紋理特征對預(yù)測惡化程
11、度很重要,而最大值池化方法能夠更好地保留紋理特征,因此使用最大值池化方法,經(jīng)驗性地設(shè)置池化窗口大小為33,窗口滑動步長為2。激活層使用RELU層,使用max(x,0)作為激活函數(shù),當x0時,輸出x,當x0時,輸出0。其具有稀疏性,并且可以很大程度地降低梯度。全連接層同卷積層一樣,但是設(shè)置高斯分布標準差為0.1,設(shè)置輸出類別數(shù)為5,輸入類別數(shù)是和惡化程度級別數(shù)相同的。核函數(shù)對于準確度的提升也有一定的影響13,本文在第一個全連接層中使用sigmoid函數(shù),在第二個全連接層也就是輸出層中選擇徑向基函數(shù),定義如下:sigmoid函數(shù):(v)=tanhv2=1-exp-v1+exp(-v)(1)徑向基函
12、數(shù):yj=hi=1wijexp-122xp-ci2(2)以上網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和方法函數(shù)可隨需要進行調(diào)節(jié),例如:如果用CPU預(yù)測模型,可以減小批處理大小,從而解決內(nèi)存溢出問題;如果計算機內(nèi)存不夠,可考慮把訓練集和測試集轉(zhuǎn)化為LEVELDB類型作為輸入文件,從而減小內(nèi)存消耗;如果要進一步提高收斂速度和精度,可以制作均值文件。權(quán)重學習率參數(shù)、偏置學習率參數(shù)、卷積核個數(shù)、卷積核大小、步長、填充大小以及池化窗口大小和步長,可根據(jù)損失值和精度進行反饋調(diào)節(jié)。對于隨機初始化卷積核的方式,也可選擇常量初始化(constant)、均勻分布初始化(uniform)、xavier初始化、雙線性初始化(bilinear)等
13、方式;對于池化層,可選擇均值池化和隨機池化方法。均值池化有保留整體特征的特點,隨機池化不會造成特征圖的過度失真,以上池化方式也可穿插在各池化層中使用,以保證特征提取的整體性;對于激活層,可以用sigmoid函數(shù)代替RELU函數(shù),但是sigmoid函數(shù)容易飽和,從而導(dǎo)致?lián)p失函數(shù)收斂較慢。具體訓練網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,預(yù)測模型結(jié)構(gòu)如圖2所示。1.3學習率策略隨著數(shù)據(jù)集增加及網(wǎng)絡(luò)結(jié)構(gòu)變得更深,深度模型的訓練往往會花費較長時間,所以如何選擇或設(shè)計深度學習策略是提高收斂速度和減少訓練時間的一個重要因素14。因為Solver優(yōu)化方法包括多種學習策略15,所以在此介紹Slover方法。Slover方法是通過前
14、向推斷和反向梯度計算對參數(shù)進行更新從而減小loss。其定義為L(W)=1DDtfw(X(t)+r(W)(3)L(W)1NNtfw(X(t)+r(W)(4)式(3)、式(4)中,D是給定的數(shù)據(jù)集,N為隨機子集,N遠遠小于D,L(W)為平均損失,為權(quán)重,W為更新權(quán)重,fw(X(t)是數(shù)據(jù)中X(t)項的損失,r(W)是正則項。對于前向過程,計算fw即loss,對于反向過程,計算fw即梯度,然后根據(jù)梯度fw、正則項的梯度r(W)等計算參數(shù)更新W。學習率策略很多,例如隨機梯度下降SGD(Stochastic Gradient Descent)16、Adam(來源于adaptive moment esti
15、mation)17、AdaDelta18以及賀昱曜等14提出的組合型AdaMix學習率方法。利用Mnist數(shù)據(jù)集19進行手寫數(shù)字識別模型訓練,觀察迭代過程,Adam、AdaDelta與SGD的訓練損失(Train loss)、測試準確度(Test accuracy)和測試損失(Test loss)變化曲線如圖3所示。圖3基于Adam、AdaDelta與SGD學習策略的Loss下降過程和Accuracy上升過程從圖3可以看出,基于Adam學習策略的識別準確度可達90%以上,但在迭代中會產(chǎn)生大的震蕩,這不利于精度的穩(wěn)定上升?;贏daDelta學習策略的識別準確度也可達到90%以上,但其收斂速度過
16、慢,而且迭代后期準確度難以提高?;赟GD學習策略的識別準確度將近100%,而且收斂速度很快,大約在迭代1 000次左右就已達98%的準確度。SGD雖然不像Adam和AdaGrad(Adaptive Gradient)學習率優(yōu)化方法一樣是自適應(yīng)優(yōu)化方法,但根據(jù)函數(shù)本身的特點調(diào)節(jié)學習率大小,在很多情況下也不失為一種簡單有效的優(yōu)化方法14。本文沿用隨機梯度下降方法SGD,其定義如下:Vt+1=Vt-L(Wt)(5)Wt+1=Wt+Vt+1(6)式(5)、式(6)中,Vt+1為本次更新值,Wt+1為本次權(quán)重,Vt為上次計算的更新值,Wt為當前權(quán)重,學習參數(shù)和分別是負梯度權(quán)重和一次更新值的權(quán)重,L(W
17、t)為負梯度。 1.4數(shù)據(jù)選擇本文應(yīng)用聚數(shù)力網(wǎng)絡(luò)平臺提供的細胞圖像數(shù)據(jù)集的165張圖片作為訓練集和測試集原本(http:/Dataju/web/datasetInstanceDetail/242),通過數(shù)據(jù)增加(DATA Augmentation,DA)把訓練集擴展為4 950張,測試集為1 573張。數(shù)據(jù)增加通過旋轉(zhuǎn)、變形、扭曲、裁剪以及噪聲添加等功能增加數(shù)據(jù)集20,然后根據(jù)聚數(shù)力提供的惡化程度信息,分為良性健康、良性腺瘤、惡性中度分化、惡性中度至差分和惡性5類。訓練集中包括21例良性健康、16例良性腺瘤、24例惡性中度分化、12例惡性中度至差分、12例惡性。測試集中包括21例良性健康、16
18、例良性腺瘤、23例惡性中度分化、8例惡性中度至差分、12例惡性。2實驗結(jié)果本文基于深度學習的細胞癌惡化程度預(yù)測模型,設(shè)計了深度學習訓練網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)。預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)相比訓練網(wǎng)絡(luò)結(jié)構(gòu)沒有訓練和測試數(shù)據(jù)層,沒有損失層和精度層,增加了測試圖片的輸入層和輸出似然值的Softmax層。選擇SGD作為本文學習策略。迭代170 000次進行模型訓練,預(yù)測模型的最終訓練損失值為0.016 889 6,測試損失值為0.035 688 9,預(yù)測準確度為 87.38%。利用訓練出的惡化程度預(yù)測模型對5張不同惡化程度的圖片進行預(yù)測,良性健康的預(yù)測準確率為87.21%,良性腺瘤的預(yù)測準確率為94.17%,惡性中度
19、分化預(yù)測準確率為89.33%,惡性中度至差分預(yù)測準確度為81.58%,惡性預(yù)測準確度為90.91%,詳細數(shù)據(jù)見表1。本文訓練預(yù)測模型的Loss下降和Accuracy上升曲線如圖4所示。3結(jié)語細胞圖像病理識別數(shù)據(jù)集中含有較少的無關(guān)信息,通過構(gòu)建深度訓練網(wǎng)絡(luò)結(jié)構(gòu),從而訓練出惡化程度預(yù)測模型,實驗結(jié)果顯示基于深度學習的細胞癌惡化程度預(yù)測方法的預(yù)測準確度達到87.38%。該模型可以輔助病理學家進行相關(guān)研究。本文方法有深度模型化及高準確預(yù)測的優(yōu)點,可用于病理學家的臨床研究中。本文方法也可用于其它癌癥的預(yù)測和分析,但如果數(shù)據(jù)集中含有較多的無關(guān)信息,建議首先對病灶區(qū)域進行分割,利用分割出來的病灶區(qū)域進行預(yù)測
20、模型訓練,這對提高預(yù)測準確度和解決過擬合很重要,后續(xù)將對本文方法的普適性進行分析和研究。隨著國內(nèi)外相關(guān)數(shù)據(jù)集的不斷公開,深度學習樣本會不斷增加,預(yù)測準確率會相應(yīng)提高。ReferenceReference:1張利文,劉俠,王俊,等.基于定量影像組學的肺腫瘤良惡性預(yù)測方法J.自動化學報,2017,43(2):16.2REJINTAL A, ASWINI N. Image processing based leukemia cancer cell detectionC. Recent Trends in Electronics, Information & Communication Technol
21、ogy(RTEICT),2016.3VINCENTP, LAROCHELLEH, BENGIOY, et al. Extracting and composing robust features with denoising autoencodersC. Proc of the 25th International Conference on Machine Learning, New York:ACM Press, 2008:10961103.4JIFENG D, KAIMING H, JIAN S. Convolutional feature masking for joint objec
22、t and stuff segmentationC. Computer Vision and Pattern Recognition (CVPR),2015.5YANGQING J, SHELHAMER E, DONAHUE J, et al. Caffe:convolutional architecture for fast feature embeddingC. Proceedings of The 22nd ACM International Conference on Multimedia, Orlando:ACM, 2014:675678.6MCCULLOCH W S, PITTS
23、W A. Logical calculus of the ideas immanent in nervous activityJ. Journal of Symbolic Logic,1944,9(2):4950.7ROSENBLATT F. The perceptron: a probabilistic model for information storage and organization in the brainJ. Psychological Review,1958,65(6):386387.8CARPENTER G A, GROSSBERG S, ROSEN D B. Fuzzy
24、 art: fast stable learning and categorization of analog patterns by an adaptive resonance systemJ. Neural Networks,1991,4(6):759771.9BENGIO Y. Learning deep architectures for AIM. Fundations & Trends in Machine Learning,2009. 10HUBEL D H, WIESEL T N. Receptive fields of single neurones in the cats s
25、triate cortexJ. Journal of Physiology,1959,148(3):574591.11ALBERICO A. Analysis of the process of visual pattern recognition by the neocognitron: kunihiko fukushimaJ. Communications in Partial Differential Equations,2016(1):2223.12YIMING H, DI W, ZHIFEN Z, et al. Emdbased pulsed tig welding process porosity defect detection and defect diagnosis using GASVMJ. Journal of Materials Processing Technology,2017,239(1):92102.13KAI Y, WEI X, YIHONG G. Deep learning with kernel regularization for visual recognitionC. Proceedings of the TwentySecond Annual Conference on Neural Information Processin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 糖尿病酮癥酸中毒
- 網(wǎng)絡(luò)與新媒體行業(yè)分析
- 七年級道德與法治下冊《男生女生》
- 防踩踏課件百度
- 2025血站操作技術(shù)規(guī)程解讀
- 氣管切開非機械通氣患者氣道護理
- 醫(yī)院感染的問題處置課件
- 球罐現(xiàn)場安裝施工方案
- 校園創(chuàng)新創(chuàng)業(yè)與文創(chuàng)發(fā)展
- 2024年6月份租賃期間電梯門機聯(lián)桿銹蝕處理協(xié)議
- 人教版七年級下冊數(shù)學各單元基礎(chǔ)知識填空+專項復(fù)習題
- 2023版初中化學跨學科實踐活動(化學)
- 機械基礎(chǔ) 第2版全書電子教案
- 影響免疫組化染色的因素及對策
- 人教版高二英語-選擇性必修2第二冊-Unit4-Reading-and-Thinking-課件
- 一、長方體和正方體表面涂色的
- GPS施工放樣測量記錄表
- DBJ∕T45-099-2020 城鎮(zhèn)道路瀝青路面施工技術(shù)規(guī)范
- [龍湖地產(chǎn)]薪酬體系報告(全部圖表說明)
- 主動脈夾層護理查房-PPT課件
- 零星工程施工組織設(shè)計方案
評論
0/150
提交評論