利用數(shù)據(jù)挖掘技術(shù)構(gòu)造醫(yī)學(xué)圖像分類器的研究_第1頁
利用數(shù)據(jù)挖掘技術(shù)構(gòu)造醫(yī)學(xué)圖像分類器的研究_第2頁
利用數(shù)據(jù)挖掘技術(shù)構(gòu)造醫(yī)學(xué)圖像分類器的研究_第3頁
利用數(shù)據(jù)挖掘技術(shù)構(gòu)造醫(yī)學(xué)圖像分類器的研究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    利用數(shù)據(jù)挖掘技術(shù)構(gòu)造醫(yī)學(xué)圖像分類器的研究【摘要】  基于數(shù)據(jù)挖掘的醫(yī)學(xué)圖像分類方法研究是多媒體數(shù)據(jù)挖掘的一個重要組成部分。在分析和 總結(jié) 了現(xiàn)有各種特征提取方法的基礎(chǔ)上,提出了基于競爭聚類和關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類算法和基于關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類器框架。該算法先用競爭聚集算法實(shí)現(xiàn)醫(yī)學(xué)圖像的聚類,利用聚類的結(jié)果提取局部特征,基于局部特征用關(guān)聯(lián)規(guī)則實(shí)現(xiàn)醫(yī)學(xué)圖像的分類。實(shí)驗(yàn)結(jié)果表明,用此方法較好地提高了醫(yī)學(xué)圖像分類的準(zhǔn)確率,進(jìn)而為數(shù)字化臨床診斷提供了有利的證據(jù)。 【關(guān)鍵詞】  數(shù)據(jù)挖掘 圖像分類 醫(yī)學(xué)圖像 數(shù)字化診

2、斷Abstract:The multi-media data mining is the key part of the whole researches about the method of medical images classification. Under the base of the analysis and conclusion about the methods of deriving the various characteristics previously provided by other researchers, this framework of the med

3、ical images classification with the association rules and clustering was provided. At first, the clustering algorithm was used for the characteristic in local areas ,and then the medical image classification was realized by the association rules. The results of the experiment showed that the accurat

4、e rate could be improved by this method, and better testimony could be provided for digital diagnosis.Key words:Data mining; Images classification; Medical images; Digital diagnosis數(shù)據(jù)挖掘立于數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫應(yīng)用學(xué)科最活躍的前沿。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的數(shù)據(jù)中,提取新穎的、有效的和潛在有用的信息,發(fā)現(xiàn)隱含在其中的模式、特征、 規(guī)律 和知識。其所處理的數(shù)據(jù)類型很豐富,其應(yīng)用領(lǐng)域也非常廣泛,但針對特定

5、領(lǐng)域(如醫(yī)學(xué))的復(fù)雜數(shù)據(jù)類型的數(shù)據(jù)挖掘新方法還有待研究。醫(yī)學(xué)圖像的數(shù)據(jù)挖掘旨在從海量的圖像數(shù)據(jù)中挖掘出有效的模型、關(guān)聯(lián)、規(guī)則、變化、不規(guī)則以及普遍的規(guī)律,以加速醫(yī)生決策診斷的過程和提高其決策診斷的準(zhǔn)確度。隨著醫(yī)療數(shù)字化設(shè)備的快速 發(fā)展 ,醫(yī)學(xué)信息數(shù)據(jù)庫中不僅包括病人的結(jié)構(gòu)化的信息,還包括病人大量非結(jié)構(gòu)化的醫(yī)學(xué)圖像信息,為醫(yī)學(xué)圖像的數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)源。近年來,隨著 計算 機(jī)相關(guān)技術(shù)及圖形圖像技術(shù)的廣泛應(yīng)用,使醫(yī)學(xué)領(lǐng)域尤其是臨床診斷發(fā)生了重大的變化,開創(chuàng)了數(shù)字診斷新時代。借助于圖形、圖像技術(shù)的有力手段,醫(yī)學(xué)影像的質(zhì)量和顯示方式得到了極大的改善,從而借助于圖像處理與分析技術(shù)使得診療水平大大提

6、高。本研究將醫(yī)學(xué)圖像的處理技術(shù)與數(shù)據(jù)挖掘技術(shù)有機(jī)結(jié)合,研究醫(yī)學(xué)圖像數(shù)據(jù)的特征提取和醫(yī)學(xué)圖像數(shù)據(jù)的分類方法。醫(yī)學(xué)圖像分類效果的好壞在很大程度上取決于提取的特征。目前國內(nèi)外有大量的學(xué)者正在進(jìn)行這方面的研究:Maria - Luiza, Osm1提出的關(guān)聯(lián)規(guī)則分類器和李丙春等2的徑向基函數(shù) 網(wǎng)絡(luò) 分類器都采用了均值、方差、傾斜度和峰度4個特征;韓培友設(shè)計的是基于模糊粗糙集、數(shù)學(xué)形態(tài)學(xué)和分形特征分類器等3。分析這些研究結(jié)果可以發(fā)現(xiàn),醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究是一項(xiàng)復(fù)雜的、具有挑戰(zhàn)性的和多學(xué)科交叉的工作,開展基于醫(yī)學(xué)圖像的數(shù)據(jù)挖掘技術(shù)的研究具有重要的理論意義和實(shí)用價值。 1 腦部腫瘤圖像預(yù)處理和特征提取 1

7、.1 圖像預(yù)處理由于實(shí)際數(shù)據(jù)常常存在不完整性、噪聲和不一致性,預(yù)處理就變得很重要。有兩種數(shù)據(jù)預(yù)處理技術(shù)用于圖像數(shù)據(jù)的數(shù)據(jù)挖掘,即數(shù)據(jù)清洗和數(shù)據(jù)變換3,4。數(shù)據(jù)清洗用于清除影響數(shù)據(jù)挖掘的噪聲和孤立點(diǎn)。我們使用的圖像包含大量有噪聲的背景,有的圖像看起來太暗,有的太亮。在預(yù)處理階段,已有的方法都是進(jìn)行圖像的二值化,忽略了圖像的最基本元素-像素本身的灰度所具有的意義,而且也沒有很好地利用領(lǐng)域知識對圖像進(jìn)行預(yù)處理。本研究采用的圖像預(yù)處理的步驟如下:1.1.1 利用去噪技術(shù)對圖像進(jìn)行處理經(jīng)過去噪聲處理后,可去掉圖像中的大多數(shù)背景信息和噪聲。1.1.2 圖像增強(qiáng)在圖像生成、傳輸和變換過程中,由于多種因素的影

8、響,總會造成圖像質(zhì)量的下降。圖像增強(qiáng)的目的是采用一系列技術(shù)改造圖像的效果或?qū)D像轉(zhuǎn)換成更適合處理的形式。圖像的增強(qiáng)處理有兩種方法:空域法和頻域法。直方圖均衡化是在空域中進(jìn)行的灰度增強(qiáng)算法。一幅對比度較小的圖像,其所有灰度級出現(xiàn)的相對頻數(shù)相同,此時圖像的熵最大,圖像所包含的信息量最大。本研究采用廣泛使用的直方圖均衡化技術(shù)來實(shí)現(xiàn)圖像的增強(qiáng)。同時,在此前應(yīng)該完成去噪聲處理,否則噪聲也會同時得到增強(qiáng)。1.2 特征提取原始的腦部醫(yī)學(xué)圖像的噪聲處理和增強(qiáng)處理后,就可以從這些清晰的圖像中抽取與分類相關(guān)的圖像特征。被抽取的特征組織在一個事物數(shù)據(jù)庫中作為分類系統(tǒng)挖掘的輸入。數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)主要包括:圖像編碼、圖像

9、類型、患者年齡、組織類型、病灶位置等原始病案數(shù)據(jù)以及從圖像中提取出來的多個圖像特征。如圖像的鈣化點(diǎn),圖像的紋理特征:角二階矩、對比度、方差、逆階矩、和平均、熵、以及和方差等。在這樣的數(shù)據(jù)集上應(yīng)用后面討論的關(guān)聯(lián)規(guī)則算法實(shí)施數(shù)據(jù)挖掘操作,從而將腦部腫瘤分類為良性和惡性。 2 利用競爭聚集算法進(jìn)行數(shù)據(jù)離散化 為了使用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,數(shù)量型屬性必須離散化。劃分區(qū)間時,對于某些屬性,若醫(yī)生已經(jīng)有約定的分割點(diǎn),我們可以直接采用。但是,對提取出的圖像特征屬性,沒有經(jīng)驗(yàn)閾值。Agrawal等4提出的基于支持度的部分K度完全離散化的方法,擴(kuò)展了布爾型屬性的關(guān)聯(lián)規(guī)則算法,并將其應(yīng)用于數(shù)量型屬性關(guān)聯(lián)規(guī)則的提取

10、。但是這種方法對于一些高偏度的數(shù)據(jù)存在一些問題,它傾向于將那些盡管具有典型相似性能的相鄰數(shù)據(jù)因具有高支持率而被擱開。而競爭聚集算法5綜合了分層聚類和劃分聚類的優(yōu)點(diǎn),它能夠有效地體現(xiàn)數(shù)據(jù)的實(shí)際分布情況并得到優(yōu)化的聚類個數(shù)。我們利用競爭聚集算法將數(shù)量型屬性離散化成若干個優(yōu)化的區(qū)間。對于給定的不同的初始類個數(shù),競爭聚集能隨著迭代過程的進(jìn)展不斷改變類的數(shù)目,一些競爭力差的類,即類的基數(shù)小于給定閾值的類將在迭代過程中不斷消失,并最終得到優(yōu)化的聚類個數(shù)。最后,根據(jù)模糊集合中的最大隸屬原則,將數(shù)據(jù)集中的元素聚成N個類,并取出類中最小值和最大值分別作為區(qū)間的左右端點(diǎn),這樣數(shù)據(jù)型屬性就被離散化成N個優(yōu)化區(qū)間。

11、3 基于關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類器的構(gòu)造 3.1 關(guān)聯(lián)規(guī)則定義如下:設(shè)I=i1,i2,im是項(xiàng)的集合。記 D為數(shù)據(jù)庫事務(wù)T的集合,并且TI。對應(yīng)每一個事務(wù)有唯一的標(biāo)識,記做TID。設(shè)X是一個I中項(xiàng)的集合,如果XT,那么稱事務(wù)T包含X。一個關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)涵式,這里XI,YI ,并且XY。規(guī)則XY在事務(wù)數(shù)據(jù)庫D中的支持度(Support)是事務(wù)集中包含X和Y的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為Support(XY),即:Support(XY) =T;XYT,TD/D規(guī)則XY事務(wù)集中的可信度(Confidence)是指包含X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為confidence(XY),即con

12、fidence(XY)=T:XYT,TD/XT,TD3.2 利用關(guān)聯(lián)規(guī)則對腦部腫瘤圖像數(shù)據(jù)進(jìn)行分類本研究用關(guān)聯(lián)規(guī)則挖掘?qū)?shù)字化的腦部腫瘤圖像分為正常和異常兩類。利用關(guān)聯(lián)規(guī)則挖掘時,首先發(fā)現(xiàn)頻繁項(xiàng)目集(即支持度不低于最小支持度的項(xiàng)目集),然后從頻繁項(xiàng)目集中提取關(guān)聯(lián)規(guī)則。本研究用Apriori算法6來發(fā)現(xiàn)從腦部腫瘤圖像提取出的特征和腫瘤圖像所屬類別的關(guān)聯(lián)規(guī)則。我們約束挖掘出的關(guān)聯(lián)規(guī)則,使規(guī)則的前提為腦部腫瘤圖像提取出的特征,規(guī)則的結(jié)論為圖像所屬類別。用關(guān)聯(lián)規(guī)則分類的過程分兩個階段:第1階段為訓(xùn)練階段,用已知類型的圖像訓(xùn)練分類系統(tǒng),輸入數(shù)據(jù)為經(jīng)過預(yù)處理、特征提取和數(shù)據(jù)離散化后得到的事務(wù)數(shù)據(jù)庫,然后應(yīng)

13、用改進(jìn)的Apriori算法來挖掘滿足以上約束條件的關(guān)聯(lián)規(guī)則;第2階段為測試階段,該階段對未知類型的圖像利用發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則進(jìn)行分類。3.3 圖像分類器的構(gòu)造圖像分類器的設(shè)計框架見圖1。 4 結(jié)果與結(jié)論 我們從185個腦部腫瘤典型病例數(shù)據(jù)中經(jīng)圖像預(yù)處理及特征提取了27個屬性特征數(shù)據(jù),這些抽取的特征數(shù)據(jù)被組織在一個數(shù)據(jù)庫中,經(jīng)過數(shù)量型屬性離散化等數(shù)據(jù)預(yù)處理,將數(shù)量型屬性關(guān)聯(lián)規(guī)則問題映射成布爾型關(guān)聯(lián)規(guī)則問題,X到一個布爾屬性的數(shù)據(jù)庫,作為分類系統(tǒng)挖掘的輸入,此時通過Aprior算法進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘。最后分別 計算 訓(xùn)練樣本和測試樣本分類的準(zhǔn)確率。結(jié)果表明對腦部腫瘤典型病例數(shù)據(jù)分類準(zhǔn)確率達(dá)到86%

14、,測試準(zhǔn)確率達(dá)到82%。本研究在介紹了圖像預(yù)處理及特征提取和數(shù)量型屬性離散化的基礎(chǔ)上,提出了一個基于關(guān)聯(lián)規(guī)則的醫(yī)學(xué)圖像分類器。可以看出,該挖掘方法中,數(shù)據(jù)預(yù)處理工作十分重要,會直接影響到分類的準(zhǔn)確性。從實(shí)驗(yàn)結(jié)果看,本文提出的醫(yī)學(xué)圖像分類器精確度較高,在數(shù)字化臨床診斷方面具有很好的實(shí)用價值?!?參考  文獻(xiàn) 】 1Maria一Luiza Antonie, Osmar R Zaiane. Associative Classifiers for Medical imageJ.Mining Multimedia and Canplex Data,2003,27:9768.2李丙春,耿國華,周明全,等.一個醫(yī)學(xué)圖像分類器的設(shè)計J.計算機(jī)工程與應(yīng)用,2004,40(17):230.3韓培友,郝重陽,張先勇,等.基于模糊粗糙集、數(shù)學(xué)形態(tài)學(xué)和分形理論的醫(yī)學(xué)圖像分類研究J.計算機(jī)應(yīng)用研究,2004,21(2):241.4Srikant R, Agrawal R. Mining Quantitative Association Rules in Large Relational TablesJ.ACM SIGMOD Issues, 1996, 25(2):1.5Frigui

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論