一種基于決策樹的乳腺癌計算機輔助診斷新方法_第1頁
一種基于決策樹的乳腺癌計算機輔助診斷新方法_第2頁
一種基于決策樹的乳腺癌計算機輔助診斷新方法_第3頁
一種基于決策樹的乳腺癌計算機輔助診斷新方法_第4頁
一種基于決策樹的乳腺癌計算機輔助診斷新方法_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、江南大學(xué)學(xué)報(自然科學(xué)版 第3卷第3期Vol. 3No. 32004年6月J un. 2004Journal of Southern Yangtze U niversity(N atural Science Edition文章編號:1671-7147(2004 03-0227-03一種基于決策樹的乳腺癌計算機輔助診斷新方法毛利鋒, 瞿海斌(浙江大學(xué)藥物信息學(xué)研究所, 摘要:選取500, , 將樣本隨機分為訓(xùn)練集和測試集, , 經(jīng)測試集測試. 結(jié)果%, 98. 28%和96. 74%.因此, 決策樹.關(guān)鍵詞:; 乳腺癌; 細(xì)針吸取細(xì)胞學(xué); 數(shù)據(jù)挖掘; 診斷中圖分類號:TP 391. 77; R

2、737. 9文獻標(biāo)識碼:AA N e w Computer 2Aided Method for Diagnosis ofBreast C ancer B ased on Decision T reeMAO Li 2feng , QU Hai 2bin(Pharmaceutical Informatics Institute , Zhe jiang University , Hangzhou 310027,China Abstract :In this research the efficacy and prospect of applying decision tree method in a

3、ssisting fine needle aspiration cytology (FNAC for breast cancer diagnosis is evaluated. Data from 500breast can 2cer patient records comprised of 9FNAC variables in each sample are randomly divided into training set and testing set. The decision tree method is used to construct a classification mod

4、el for the training data. The results show that the model achieves up to 97. 33%of classification accuracy , 98. 28%of sensitivity of and 96. 74%of specificity. Therefore , the decision tree method is a simple and useful tool for computer 2aided diagnosis.K ey w ords :decision tree ; breast cancer ;

5、 fine needle aspiration cytology ; data mining ; diagnosis乳腺癌是女性常見的腫瘤疾病, 由于乳腺癌的發(fā)病機理尚未完全清楚, 因此早期診斷對于防治乳腺癌十分重要. 細(xì)針吸取細(xì)胞學(xué)檢查(fine needle as 2piration cytology , 簡稱FNAC 作為是診斷早期乳腺癌的有效手段1, 具有簡便、安全、創(chuàng)傷極小的特點, 臨床推廣應(yīng)用具有重要意義. 目前FNAC 診斷乳腺癌的準(zhǔn)確率約在70%90%之間, 為進一步提收稿日期:2003-11-18; 修訂日期:2003-12-20.高FNAC 診斷乳腺癌的準(zhǔn)確率, 文中對乳腺

6、癌計算機輔助FNAC 診斷進行研究.數(shù)據(jù)挖掘是為解決“數(shù)據(jù)豐富, 知識貧乏”狀況而興起的邊緣學(xué)科之一2, 主要研究從海量數(shù)據(jù)中發(fā)現(xiàn)知識的技術(shù). 決策樹方法是數(shù)據(jù)挖掘最常用的技術(shù)之一, 具有快速學(xué)習(xí)、可產(chǎn)生簡單易懂的分類規(guī)則、分類準(zhǔn)確率高等優(yōu)點, 在許多領(lǐng)域(包括醫(yī)學(xué)基金項目:國家自然科學(xué)基金項目(30000218 資助課題, 國家中醫(yī)藥管理局科研基金重點項目(20002J 2Z 203 資助課題. 作者簡介:毛利鋒(1976- , 男, 浙江寧波人, 生物化工專業(yè)碩士研究生.瞿海斌(1969- , 男, 浙江溫嶺人, 工學(xué)博士, 副教授, 碩士生導(dǎo)師. 主要從事數(shù)據(jù)挖掘、中醫(yī)定量診斷及智能儀器

7、的研究.江南大學(xué)學(xué)報(自然科學(xué)版 第3卷228領(lǐng)域 已得到廣泛應(yīng)用3,4. 文中采用決策樹方法對500例乳腺癌病例進行判別分析.實驗用Wisconsin Breast Cancer Database(WBCD 數(shù)據(jù)6來自美國威斯康星州醫(yī)學(xué)院. 500個病例中確診為乳腺癌惡性(Malignant 的172例, 占34. 4%; 良性(Benign 的328例, 占65. 6%.每一病例由11個數(shù)字型屬性組成. 屬性1(Sample code number 是樣本編碼, 屬性11(class 是診斷結(jié)果, 其值2代表惡性,4; 其余9個(2的9個指, ( 、細(xì)胞大小Size 、細(xì)胞形狀均勻性(of

8、 Cell Shape 、邊界粘連(Marginal Ad 2hesion 、單個上皮細(xì)胞大小(Single Epithelial Cell Size 、裸核(Bare Nuclei 、微受激染色質(zhì)(Bland Chromatin 、正常核(Normal Nucleoli 、有絲分裂(Mitoses , 所有FNAC 指標(biāo)的屬性值都是110的1決策樹原理決策樹理論5由J R Quinlan 提出, 其基本原理可用C5. 0算法說明. 該算法的基本步驟如下:1 考慮樣本數(shù)為s 的訓(xùn)練集S. 假定類標(biāo)號屬性(target attribute 具有m 個不同值, 即有m 個類別, 分別用C i (i

9、 =1, , m 定義. 設(shè)s i 是S 中屬于類C i 的樣本數(shù), 信息熵由下式給出mI =-i 1log 2(ii其中P i C i 的概率, 用s i /s 估計.2 分別計算每一個屬性劃分所形成的子集的信息熵. 設(shè)屬性A 具有v 個不同值a 1, a 2, , a v , 那么屬性A 可將S 劃分為v 個子集S 1, S 2, S v , 其中S j 是在屬性A 上取值為a j 的S 的子集. 設(shè)s j 是子集S j 的樣本數(shù), 由A 劃分成子集的信息熵的計算公式為v整數(shù),1代表正常狀態(tài),10代表極不正常狀態(tài), 值越大表示該患者乳腺癌惡性的可能性就越大7. 這些FNAC 指標(biāo)數(shù)據(jù)中有少

10、量屬性值缺省, 以“? ”表示,整個數(shù)據(jù)集的記錄格式如下所示:1148873,3,6,6,6,5,10,6,8,3,4846423,10,6,3,6,4,10,7,8,4,4560680,1,1,1,1,2,1,1,1,1,21237674,3,1,2,1,2,1,2,1,1,22. 2特征選擇I T (A =j =1I (s j s3 計算各屬性劃分樣本的信息增益. 對于屬性A , 信息增益的計算公式為G ain (A =I (T -I T (A 由于樣本編碼與乳腺癌診斷明顯無關(guān), 因此不作為決策樹的輸入變量. 2. 3數(shù)據(jù)劃分4 具有最高信息增益的屬性選為給定樣本集合S 的測試屬性, 創(chuàng)建

11、決策樹的第一個節(jié)點(根節(jié)點 , 并以該屬性標(biāo)記, 對屬性的每一個值創(chuàng)建分枝, 并據(jù)此劃分樣本. 在每個分枝中, 重復(fù)建立樹的下層節(jié)點和分枝, 直至終止條件(即所有樣本都屬同一類 出現(xiàn), 停止決策樹的構(gòu)建, 并在分枝的端點創(chuàng)建一個節(jié)點, 用該子集樣本所屬的類別號標(biāo)記, 稱為葉節(jié)點. 創(chuàng)建的決策樹每一個葉節(jié)點都會對應(yīng)一個特定的類別.決策樹產(chǎn)生后, 沿著決策樹從上到下遍歷的過程中, 在每個節(jié)點處都會遇到一個問題(對該節(jié)點所代表屬性的屬性值判斷 , 對問題的不同回答(即不同取值 可導(dǎo)致不同的分支, 最終到達一個葉節(jié)點. 這個過程是利用決策樹進行分類, 利用幾個屬性(每個屬性對應(yīng)一個問題 來判斷所屬的類

12、別. 同時, 沿著根節(jié)點到每一個葉節(jié)點的路徑都可產(chǎn)生一條分類規(guī)則, 并可轉(zhuǎn)換成If 2Then 規(guī)則.將數(shù)據(jù)隨機劃分為訓(xùn)練集和測試集. 訓(xùn)練集包含350個樣本, 占整個數(shù)據(jù)集的70%, 用于建立決策樹分類模型; 測試集包含150個樣本, 占整個數(shù)據(jù)集的30%, 用于評估所得決策樹模型的分類性能. 2. 4決策樹分析利用Matlab6. 5編寫決策樹程序, 對訓(xùn)練集數(shù)據(jù)進行學(xué)習(xí), 得到?jīng)Q策樹的分類模型, 并從分類模型中歸納出用于FNAC 診斷乳腺癌的診斷規(guī)則, 再將獲得的決策樹診斷規(guī)則應(yīng)用于訓(xùn)練集和測試集, 做出相應(yīng)的診斷決策. 2. 5結(jié)果評估對訓(xùn)練集和測試集數(shù)據(jù)進行診斷決策后, 計算相應(yīng)的準(zhǔn)

13、確率(accuracy 、靈敏度(sensitivity 和特異度(specificity , 用于評價利用決策樹方法得到的診斷規(guī)則的推廣(診斷 性能.準(zhǔn)確率=(a +b /(c +d ; 靈敏度=a/c ; 特異度=b/d .其中:a 為判斷正確的乳腺癌惡性患者樣本數(shù); b 為2材料與方法2. 1材料第3期毛利鋒等:一種基于決策樹的乳腺癌計算機輔助診斷新方法229判斷正確的乳腺癌良性患者樣本數(shù); c 為乳腺癌惡性患者樣本總數(shù); d 為乳腺癌良性患者樣本總數(shù).3結(jié)果數(shù)據(jù)隨機劃分為訓(xùn)練集和測試集兩個數(shù)據(jù)集合. 訓(xùn)練集中有350例患者, 其中診斷為乳腺癌惡性的114例, 良性的236例; 測試集中

14、有150例患者, 其中診斷為乳腺癌惡性的58例, 良性的 92例.決策樹對訓(xùn)練集數(shù)據(jù)進行學(xué)習(xí), 得到?jīng)Q策樹分類模型(見圖1 . 該模型包括一個根節(jié)點(裸核 、2個內(nèi)部節(jié)點(和4個葉節(jié)點, 性>=2. 5Then 診斷=惡性.應(yīng)用上述診斷規(guī)則對訓(xùn)練集和測試集數(shù)據(jù)進行診斷預(yù)測, 結(jié)果見表1. 其中, 訓(xùn)練集數(shù)據(jù)結(jié)果為:114例惡性病例中, 正確判斷109例, 錯判5例;236例良性病例中, 正確判斷227例, 錯判9例. 靈敏度、特異度和準(zhǔn)確率分別為95. 61%、96. 19%和96. 00%.測試集數(shù)據(jù)結(jié)果為:58, 正57, , 正確判3例33%.表1決策樹靈敏度、特異度和準(zhǔn)確率T a

15、b. 1Decision tree sensitivity , specif icity and accuracy數(shù)據(jù)集訓(xùn)練集測試集惡性良性惡性良性實際/例1142365892正確靈敏特異度/%96. 1996. 74準(zhǔn)確率/%96. 0097. 33判斷/例度/%10995. 61227578998. 284結(jié)論圖1決策樹分類模型Fig. 1Decision tree classif ication model沿著根節(jié)點到每一個葉節(jié)點的路徑都可產(chǎn)生一條分類規(guī)則, 將它們轉(zhuǎn)換成If 2Then 規(guī)則, 得到四條乳腺癌的診斷規(guī)則:1 If 裸核<2. 5and 細(xì)胞大小均勻性<3.

16、5Then 診斷=良性;2 If 裸核<2. 5and 細(xì)胞大小均勻性>=3. 5Then 診斷=惡性;3 If 裸核>=2. 5and 細(xì)胞形狀均勻性<2. 54 IfThen 診斷=良性;研究表明, 綜合FNAC 檢查9項參數(shù)進行決策樹分析, 對乳腺癌的診斷正確率可達到97. 33%; 決策樹方法提取的診斷規(guī)則描述簡單, 應(yīng)用方便; 決策樹方法在輔助FNAC 診斷乳腺癌的同時, 還可判斷各參數(shù)對乳腺癌診斷貢獻的大小; 從決策樹模型中可見, 裸核對乳腺癌診斷起決定性作用, 細(xì)胞大小均勻性和細(xì)胞形狀均勻性則可作為診斷的重要指標(biāo), 因此, 決策樹方法是一種簡便可行的計算機

17、輔助診斷方法, 可從病例自動提取診斷規(guī)則, 具有較廣泛的實用價值, 可應(yīng)用于其它疾病的診斷研究.致謝本研究得到了美國威斯康新州立大學(xué)醫(yī)院William HWolberg 的幫助, 在此一并致謝.裸核>=2. 5and 細(xì)胞形狀均勻參考文獻:1賀青卿, 范西紅, 劉少蘭, 等. 細(xì)針針吸細(xì)胞學(xué)診斷乳腺癌的臨床價值J.中華普通外科雜志, 2001,16(9 :568.2姚美村, 袁月梅, 艾路, 等. 數(shù)據(jù)挖掘及其在中醫(yī)藥現(xiàn)代化研究中的應(yīng)用J.北京中醫(yī)藥大學(xué)學(xué)報,2002, 25(5 :20-23. 3CHRISTIN E L TSIEN , ISAAC S KOHAN E , N EIL

18、MCLN TOSH. Multi p le signal integration by decision tree induction to de 2tect artifacts in the neonatal intensive care unit J.Artif icial Intelligence in Medicine , 2000, 19:189-202.4Y OUN G MOON CHAE , SEUN G HEE HO. Data minin g approach to policy analysis in a health insurance domainJ.Interna 2tional Journal of Medical Informatics , 2001, 62:103-111.5J IEWEI HAN , MICHEL IN E K AMBER. 數(shù)據(jù)挖掘:概念與技術(shù) M .范明譯. 北京:機械工業(yè)出版社,2001.6WILL IAM H WOLBER G , MANASARIAN O L. Multisurface method of pattern separation for medical diagnosis applied tobreast cytology J.Proceedings of the N ational Aca

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論