![醫(yī)學(xué)圖像數(shù)據(jù)挖掘方法研究_第1頁](http://file4.renrendoc.com/view/604a7afa85c29edbbff30e89650bc407/604a7afa85c29edbbff30e89650bc4071.gif)
![醫(yī)學(xué)圖像數(shù)據(jù)挖掘方法研究_第2頁](http://file4.renrendoc.com/view/604a7afa85c29edbbff30e89650bc407/604a7afa85c29edbbff30e89650bc4072.gif)
![醫(yī)學(xué)圖像數(shù)據(jù)挖掘方法研究_第3頁](http://file4.renrendoc.com/view/604a7afa85c29edbbff30e89650bc407/604a7afa85c29edbbff30e89650bc4073.gif)
![醫(yī)學(xué)圖像數(shù)據(jù)挖掘方法研究_第4頁](http://file4.renrendoc.com/view/604a7afa85c29edbbff30e89650bc407/604a7afa85c29edbbff30e89650bc4074.gif)
![醫(yī)學(xué)圖像數(shù)據(jù)挖掘方法研究_第5頁](http://file4.renrendoc.com/view/604a7afa85c29edbbff30e89650bc407/604a7afa85c29edbbff30e89650bc4075.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
醫(yī)學(xué)圖像數(shù)據(jù)挖掘方法研究本文針對醫(yī)學(xué)圖像數(shù)據(jù)挖掘所涉及的一些關(guān)鍵技術(shù)和主要算法進行深入的分析研究。在此基礎(chǔ)上,針對乳腺X線圖像,進行將粗集理論應(yīng)用到醫(yī)學(xué)圖像領(lǐng)域的關(guān)鍵技術(shù)的研究和嘗試。主要進行了以下兒方面的研究:1)研究多種數(shù)據(jù)挖掘方法,分析醫(yī)學(xué)圖像數(shù)據(jù)挖掘的特點,根據(jù)醫(yī)學(xué)圖像數(shù)據(jù)挖掘的一般過程,提出基于特征的應(yīng)用粗集進行醫(yī)學(xué)圖像數(shù)據(jù)挖掘的方法。2)分析醫(yī)學(xué)圖像的預(yù)處理、特征提取的有關(guān)技術(shù)和方法,及各方面的最新成果。在研究圖像預(yù)處理的去噪和圖像增強算法的基礎(chǔ)上,重點針對乳腺X線圖像的特點,研究鈣化點的區(qū)域分割及特征提取問題。3)對醫(yī)學(xué)圖像進行數(shù)據(jù)挖掘的主要目的是實現(xiàn)對疾病的預(yù)測和分類。粗集理論是一個強大的數(shù)據(jù)分析工具,在應(yīng)用中不需要先驗知識,完全根據(jù)現(xiàn)有數(shù)據(jù)分析得出結(jié)論,是數(shù)據(jù)挖掘的一個重要分支。Rough集的主要思想是在保持信息系統(tǒng)分類能力不變的前提3通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則,其核心內(nèi)容是屬性約簡和規(guī)則提取。本文對粗集理論、算法應(yīng)用以及理論發(fā)展方向進行全面研究,提出一種屬性約簡和規(guī)則提取的結(jié)合算法,提取精簡的規(guī)則,并應(yīng)用在確診分類器中,實現(xiàn)對乳腺X線圖像的分類。4)開發(fā)乳腺X線圖像數(shù)據(jù)挖掘軟件,進行圖像的管理、預(yù)處理、特征提取和分類,實現(xiàn)對乳腺X線圖像的良性與惡性的分類。關(guān)鍵詞:數(shù)據(jù)挖掘,醫(yī)學(xué)圖像,粗集,屬性簡約,規(guī)則提取ASTUDYOFDATAMININGMETHODSFORMEDICALIMAGEABSTRACTThisdissertationfocusesonmaintechniquesandalgorithmsofapplyingdataminingtoprocessingmedicalimages.Basedonmammographdatabase,theapplicationofRoughSettheoryinmedicalimageisexplored.Themainworkisasfollows:Ontheresearchofmanykindsofdataminingmethods,aswellastheanalyzeofcharactersofdataminingfbrmedicalimages,adataminingmethodnamedfeature-basedRoughsetisproposed.Therelatedtechniquesandmethodsofmedicalimagepretreatmentandfeatureextraction,andthelatestproductionsarediscussed.Basedonthestudyofdenoisingandenhancementalgorithmforimagepretreatment,regardingtothecharacteristicofmammography,theissuesofregionsegmentationandfeatureselectionatcalcifypointarestudied.Thepurposeofdataminingonmedicalimagesistopredictandclassifydiseases.Roughsettheoryisapowerfuldataanalysistool.Itdoesn'tneedaprioriknowledge;theresultcanbeobtainedaccordingtotheanalysisofavailabledata.Roughsettheoryisanimportantbranchofdatamining.Themainideaofroughsettheoryistoextractdecisionrulesorclassificationrulesbyknowledgereduction,onconditionthatkeepingthesystem'sabilityofclassification.Thecorecontentisattributereductionandruleextraction.Inthispaper,withtheresearchofroughsettheoryaswellastheapplicationofalgorithmandthedevelopmentoftheory,Roughsetapproachcombinedwithassociationrulealgorithmareproposedinassociationruleabstraction.Itisappliedinthediagnoseclassificationapparatustoclassifymammography.Themammographydataminingsoftwareisdeveloped.Withthefunctionofimagemanagement,imagepretreatment,featureextractionandclassification,itcanbeusedfordistinguishingthebenignfromthemalignantmammographytumor.KEYWORDS:datamining,medicalimages,roughset,attributereduction,ruleextraction原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、已公開發(fā)表或者沒有公開發(fā)表的作品的內(nèi)容。對本論文所涉及的研究工作做出貢獻的其他個人和集體,均已在文中以明確方式標明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔。學(xué)位論文作者簽名: 日期:關(guān)于學(xué)位論文版權(quán)使用授權(quán)的說明本人完全了解河北工業(yè)大學(xué)關(guān)于收集、保存、使用學(xué)位論文的規(guī)定。同意如下各項內(nèi)容:按照學(xué)校要求提交學(xué)位論文的印刷本和電子版本;學(xué)校有權(quán)保存學(xué)位論文的印刷本和電子版,并采用影印、縮印、掃描、數(shù)字化或其它手段保存論文;學(xué)校有權(quán)提供目錄檢索以及提供本學(xué)位論文全文或者部分的閱覽服務(wù);學(xué)校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或者機構(gòu)送交論文的復(fù)印件和電子版;在不以贏利為目的的前提下,學(xué)校可以適當復(fù)制論文的部分或全部內(nèi)容用于學(xué)術(shù)活動。(保密的學(xué)位論文在解密后適用本授權(quán)說明)日期:日期:學(xué)位論文作者簽名:日期:日期:導(dǎo)師簽名:第一章緒論本文研究內(nèi)容來源于河北省科技廳計劃項目“腫瘤靶向治療中的計算機精確定位技術(shù)研究及系統(tǒng)開發(fā)“(項目編號:042435144D),本章主要介紹醫(yī)學(xué)圖像數(shù)據(jù)挖掘的有關(guān)概念、產(chǎn)生的背景和意義,論述了醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究現(xiàn)狀和存在的問題,最后說明了本文的研究內(nèi)容及全文的組織結(jié)構(gòu)?!?-1引言醫(yī)學(xué)是關(guān)系到TT-萬萬人身心健康的應(yīng)用學(xué)科,醫(yī)學(xué)的發(fā)展水平體現(xiàn)一個國家的人民生活標準,也代表一個國家的綜合實力。各種疾病嚴重威脅著人類的健康,惡性病變的發(fā)病率和死亡率正在迅速匕升,這是一個世界性趨勢。自1895年倫琴發(fā)現(xiàn)X射線并由此開創(chuàng)了醫(yī)學(xué)圖像技術(shù)以來,醫(yī)學(xué)的診斷方式發(fā)生了重大的變化。隨著可視化技術(shù)的不斷發(fā)展,現(xiàn)代醫(yī)學(xué)己經(jīng)越來越離不開醫(yī)學(xué)圖像,醫(yī)學(xué)圖像在臨床診斷、教學(xué)科研等方面正發(fā)揮著重要的作用。目前,對惡性腫痛的病因還沒有完全清楚的情況下,只有早發(fā)現(xiàn)早治療才能降低惡性病變的發(fā)病死亡率,利用無損傷的醫(yī)學(xué)圖像及早發(fā)現(xiàn)病變是世界性防癌抗癌的發(fā)展趨勢。隨著經(jīng)濟水平的不斷提高,進行醫(yī)學(xué)圖像檢查的人越來越多,醫(yī)院每天都會有巨大的醫(yī)學(xué)圖像產(chǎn)生,單憑醫(yī)生個人的臨床經(jīng)驗診斷難免會11T誤診漏診,而且其工作量之大也是醫(yī)生難以承受的。如何從這些醫(yī)學(xué)圖像中提取出■用的知識,利用這些知識幫助醫(yī)生進行疾病診斷有著顯著的意義。數(shù)據(jù)挖掘(DataMining,DM)是數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫應(yīng)用的最新和最活躍的學(xué)科前沿,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的數(shù)據(jù)中,提取新穎的、有效的和潛在有用的信息,發(fā)現(xiàn)隱含在其中的模式、特征、規(guī)律和知識[1]。它是從龐大的數(shù)據(jù)集或數(shù)據(jù)庫中提煉有用信息的新興的交叉學(xué)科,匯集了統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)庫、模式識別、人工智能等學(xué)科的內(nèi)容。數(shù)據(jù)挖掘處理的數(shù)據(jù)類型非常豐富,包括文本數(shù)據(jù)、關(guān)系數(shù)據(jù)庫、多媒體數(shù)據(jù)和Web頁面等,其應(yīng)用領(lǐng)域非常廣泛,可將數(shù)據(jù)挖掘獲取的知識應(yīng)用于信息管理、查詢優(yōu)化、決策支持、過程控制、計算機輔助診斷以及數(shù)據(jù)自身的維護。隨著數(shù)字成像技術(shù)和設(shè)備的廣泛應(yīng)用,每天都要產(chǎn)生大量的圖像數(shù)據(jù),如數(shù)字照片、醫(yī)學(xué)圖像、衛(wèi)星圖像等,對這些數(shù)量巨大的圖像進行自動分析以獲取有用知識的需求日益增加。圖像數(shù)據(jù)挖掘(ImageDataMining,1DM)提供了有效的方法和技術(shù)來解決這一問題。圖像數(shù)據(jù)挖掘就是在圖像數(shù)據(jù)庫中自動提取隱含的、先前未知的和潛在有■用的知識,以及圖像數(shù)據(jù)關(guān)系,抽取具有語義意義的信息,從而為圖像智能化處理服務(wù)的非凡過程。它是一個集中了計算機視覺、圖像處理、圖像檢索、數(shù)據(jù)挖掘、機器學(xué)習(xí)、數(shù)據(jù)庫和人工智能等技術(shù)的多學(xué)科交叉的研究領(lǐng)域。圖像數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個分支,但是由于圖像挖掘?qū)ο蟮膹?fù)雜性,圖像數(shù)據(jù)挖掘不是傳統(tǒng)的數(shù)據(jù)挖掘理論與技術(shù)在圖像數(shù)據(jù)上的簡單應(yīng)用和延伸,而是一個具有自己獨特研究內(nèi)容、理論與技術(shù)框架的新的研究領(lǐng)域。由于缺乏對圖像數(shù)據(jù)挖掘的深刻理解及其本身存在一些理論和技術(shù)障礙,所以研究進展緩慢。自從國際計算機協(xié)會(AssociationforComputingMachinery,ACM)于2000年召開了第一屆多媒體數(shù)據(jù)挖掘年會(MDM/KDD2000)以后,越來越多的科學(xué)家進行了這方面的研究,取得了一定的進展,并開始向醫(yī)學(xué)圖像、臺風(fēng)預(yù)報預(yù)測等領(lǐng)域的應(yīng)用中擴展,但針對特定領(lǐng)域(如醫(yī)學(xué))的復(fù)雜數(shù)據(jù)類型的數(shù)據(jù)挖掘方法還有待研究。近年來,隨著計算機及相關(guān)技術(shù)及圖形圖像技術(shù)的廣泛應(yīng)用,使醫(yī)學(xué)領(lǐng)域,尤其是臨床診斷發(fā)生了重大的變化,開創(chuàng)了數(shù)字診斷新時代。隨著X線、計算機斷層掃描(ComputedTomography,CT),核磁共振成像(MagneticResonanceImaging,MRI),超聲(Ultrasonography,US)等醫(yī)學(xué)成像技術(shù)的產(chǎn)生和發(fā)展,以及這些醫(yī)學(xué)數(shù)字成像技術(shù)的廣泛應(yīng)用,借助于圖形圖像技術(shù)的有力手段,醫(yī)學(xué)圖像的質(zhì)埴和顯示方式得到了極大的改善,從而使得診療水平大大提高。這些醫(yī)學(xué)圖像設(shè)備的廣泛使用不僅極大地提高了醫(yī)學(xué)臨床診斷水平,而且還為醫(yī)學(xué)培訓(xùn)、醫(yī)學(xué)研究與教學(xué)、計算機輔助臨床外科手術(shù)提供了數(shù)字影像手段,為醫(yī)學(xué)的研究和發(fā)展提供堅實的基礎(chǔ).因此,日前世界上許多國家的研究機構(gòu)開始致力于這個領(lǐng)域的研發(fā)工作,醫(yī)學(xué)圖像處理與分析的研究正受到普遍的重視。隨著各大醫(yī)院已普及了計算機的使用,尤其是許多醫(yī)院使用了醫(yī)學(xué)影像存檔與通訊系統(tǒng)(PictureArchivingandCommunicationSystem.PACS),收集了大量病人的影像數(shù)據(jù),如何充分利用以前的確診病例和醫(yī)生的臨床診斷經(jīng)瞼以及當前病人的信息,使計算機快速有效地幫助醫(yī)生診斷病例,正是計算機輔助醫(yī)學(xué)診斷系統(tǒng)要實現(xiàn)的目標。人們致力于這一領(lǐng)域的研究做了許多的工作,開發(fā)了一弊計算機輔助醫(yī)學(xué)診斷系統(tǒng)。但現(xiàn)存的計算機輔助醫(yī)學(xué)診斷系統(tǒng)基本上都是基于知識的專家系統(tǒng),往往存在知識獲取的瓶頸、知識的脆弱性、推理的單調(diào)性等方面的缺陷。這些系統(tǒng)在知識的獲取與表達上存在困難,且?guī)в幸欢ǖ闹饔^性,智能性和魯棒性都比較差。數(shù)據(jù)挖掘和模式識別是目前人工智能領(lǐng)域研究最為活躍的方面,如果引入數(shù)據(jù)挖掘和知識發(fā)現(xiàn)則可部分地解決上述問題。基于醫(yī)學(xué)圖像數(shù)據(jù)庫的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(KDD),揭示其中的醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生做出正確的診斷,是一項具有挑戰(zhàn)性和很大應(yīng)用價值的研究。醫(yī)學(xué)圖像的數(shù)據(jù)挖掘旨在從海量的醫(yī)學(xué)圖像數(shù)據(jù)中挖掘出有效的模型、關(guān)聯(lián)、規(guī)則、變化、不規(guī)則以及普遍的規(guī)律,以加速醫(yī)生決策診斷的過程并提高診斷的準確性。隨著醫(yī)療數(shù)字化設(shè)備的快速發(fā)展,醫(yī)學(xué)信息數(shù)據(jù)庫中不僅包括病人的結(jié)構(gòu)化信息,還包括病人大量非結(jié)構(gòu)化的醫(yī)學(xué)圖像信息,為醫(yī)學(xué)圖像的數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)源。由于每天都產(chǎn)生了大量的醫(yī)學(xué)圖像,利用圖像數(shù)據(jù)挖掘技術(shù),對這些醫(yī)學(xué)圖像進行大量分析以獲取有用知識的需求日益增加。醫(yī)學(xué)圖像數(shù)據(jù)挖掘可揭示醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生對病變體和周圍組織進行分析,極大地提高醫(yī)療診斷的準確性和科學(xué)性,從而提高醫(yī)療診斷水平。同時還在手術(shù)規(guī)劃與模擬、解剖教育和醫(yī)學(xué)研究中發(fā)揮著重要作用,是一項具有挑戰(zhàn)性和很大應(yīng)用價值的研究。因此,目前世界上許多國家的研究機構(gòu)開始致力于這個領(lǐng)域的研發(fā)工作,醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究正受到普遍的重視。但是,醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究還處在起步階段,由于醫(yī)學(xué)圖像數(shù)據(jù)的復(fù)雜性,以及本身存在一些理論和技術(shù)障礙,造成研究進展比較緩慢,采用的技術(shù)和方法還有待研究。綜上所述,醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究是一項更雜的,具有挑戰(zhàn)性的和多學(xué)科交叉的工作,正方興未艾,開展醫(yī)學(xué)圖像的數(shù)據(jù)挖掘技術(shù)和方法的研究具有事要的理論意義和實用價值?!?-2國內(nèi)外研究現(xiàn)狀近年來,美國、H本、加拿大等國家都已開展了醫(yī)學(xué)圖像數(shù)據(jù)挖掘技術(shù)的研究,并取得了一定的進展。美國愛荷華州立大學(xué)的A.Kusiak等人⑵提取了50個肺癌病人的一般信息(如年齡、性別等)和X線圖像數(shù)據(jù)等18個特征數(shù)據(jù),將粗集理論應(yīng)用「數(shù)據(jù)挖掘,從而提高了肺癌病人早期診斷的正確率:日本的YusukeUeharea等人[3]在MDM/KDD2002年會上提出了基于假設(shè)驅(qū)動(hypothesisYriven)的多媒體數(shù)據(jù)挖掘過程的思想理論;加拿大Alberta大學(xué)計算機系的OsmarR.Zaiyane等人⑷就神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則挖掘技術(shù)在乳腺癌分類研究中的應(yīng)用進行了分析對比,認為神經(jīng)網(wǎng)絡(luò)的方法對數(shù)據(jù)集不平衡性的敏感程度低于關(guān)聯(lián)規(guī)則挖掘方法,這兩種方法對乳腺X線圖像的分類精確度在70%以上。在數(shù)據(jù)挖掘研究方面,基于神經(jīng)網(wǎng)絡(luò)、遺傳規(guī)劃的知識發(fā)現(xiàn)系統(tǒng)的研究有了很大的進展,如A.B.Tickle等人提出了規(guī)則提取方法,Kohonen等人提出了自組織聚類方法,Ryu等人提出MASSON系統(tǒng),Teller等人提出用進化規(guī)劃做多媒體數(shù)據(jù)挖掘,Xu等人提出用進化規(guī)劃做非線性多元|口|歸分析,Noda等人用遺傳算法做規(guī)則發(fā)現(xiàn),Lopes等人提出用進化算法做關(guān)聯(lián)規(guī)則。在國內(nèi)數(shù)據(jù)挖掘研究方面,清華大學(xué)石純一、陸玉昌教授、中科院計算所史忠植研究員、中國科技大學(xué)王煦法教授等已取得了許多研究成果。但在醫(yī)學(xué)圖像的數(shù)據(jù)挖掘方面的研究較少,上海交通大學(xué)生物醫(yī)學(xué)工程系莊天戈教授采用《當代乳腺疾病X線診斷圖譜》中的230個病例數(shù)據(jù),應(yīng)用決策樹算法進行了數(shù)據(jù)挖掘的嘗試。中國科學(xué)院自動化研究所田捷教授、北京大學(xué)包尚聯(lián)教授、西北大學(xué)周明全教授等進行了醫(yī)學(xué)圖像數(shù)據(jù)挖掘方面的研究,推動了我國醫(yī)學(xué)圖像的數(shù)據(jù)挖掘技術(shù)的研究(5)。由于醫(yī)學(xué)圖像信息量大、關(guān)聯(lián)信息多、對象復(fù)雜,使得醫(yī)學(xué)圖像的數(shù)據(jù)挖掘不同于一般的數(shù)據(jù)庫挖掘,導(dǎo)致醫(yī)學(xué)圖像數(shù)據(jù)挖掘技術(shù)發(fā)展緩慢,用于特定醫(yī)學(xué)領(lǐng)域的復(fù)雜數(shù)據(jù)類型處理的數(shù)據(jù)挖掘的工具還不多見。對醫(yī)學(xué)圖像的數(shù)據(jù)挖掘與利用已成為計算機輔助診療系統(tǒng)中的瓶頸,迫切需要研究醫(yī)學(xué)圖像數(shù)據(jù)挖掘的新技術(shù)和新方法。由于醫(yī)學(xué)圖像數(shù)據(jù)挖掘的復(fù)雜性,即使在美國那樣技術(shù)高度發(fā)達的國家也還沒有形成一個產(chǎn)業(yè)。在中國,系統(tǒng)開展這方面研究工作的單位還不多,和臨床的結(jié)合還rr相當遠的距離,因此需要解決的問題還很多,在中國開展這方面的研究是非?!鲆饬x的。本課題的研究將醫(yī)學(xué)圖像的處理技術(shù)與數(shù)據(jù)挖掘技術(shù)有機結(jié)合,研究醫(yī)學(xué)圖像數(shù)據(jù)的特征提取和醫(yī)學(xué)圖像數(shù)據(jù)的分類方法。利用粗集方法從醫(yī)學(xué)圖像數(shù)據(jù)中挖掘出規(guī)則與有用的信息,輔助決策診斷過程,提高醫(yī)生診斷和治療的準確度。本項研究具有重要的理論意義與廣闊的應(yīng)用前景?!?-3本論文研究內(nèi)容導(dǎo)師劉麗冰教授在醫(yī)學(xué)圖像處理及腫瘤治療影像軟件開發(fā)等方面已取得了一些成績,圍繞醫(yī)學(xué)圖像數(shù)據(jù)處理領(lǐng)域開展了大量的研究工作,承擔了“醫(yī)學(xué)圖像二維重建系統(tǒng)''和"腫瘤靶向治療中的計克機精確定位技術(shù)研究及系統(tǒng)開發(fā)”等多項省部級項目,在醫(yī)學(xué)圖像處理技術(shù)方面積累了重要的研究數(shù)據(jù)與經(jīng)驗。廣州珠江醫(yī)院張積仁教授提供了課題所需的醫(yī)學(xué)數(shù)據(jù)和圖像資料,為本課題開展這方面的研究工作提供了基礎(chǔ)。1-3-1主要研究內(nèi)容本文系統(tǒng)地分析研究數(shù)據(jù)挖掘、圖像數(shù)據(jù)挖掘和醫(yī)學(xué)圖像數(shù)據(jù)挖掘的典型方法,并結(jié)合計算機圖像處理、模式識別等技術(shù),利用當前關(guān)于醫(yī)學(xué)圖像數(shù)據(jù)挖掘的最新研究成果,針對醫(yī)學(xué)圖像的特點,提出基于特征的應(yīng)用粗集進行數(shù)據(jù)挖掘的方法,并基于LabVIEW開發(fā)乳腺X線圖像數(shù)據(jù)挖掘軟件,有效地實現(xiàn)乳腺癌的自動診斷,提高診斷準確率,減少把良性病人做活檢的比例。具體研究內(nèi)容?以下幾個方面:1)針對數(shù)據(jù)挖掘原理、數(shù)據(jù)挖掘的各種典型方法、圖像數(shù)據(jù)挖掘方法和醫(yī)學(xué)圖像數(shù)據(jù)挖掘的特點進行分析和研究,根據(jù)醫(yī)學(xué)圖像數(shù)據(jù)挖掘的?般過程,確定基于特征的應(yīng)用粗集進行醫(yī)學(xué)圖像數(shù)據(jù)挖掘的方法。2)分析醫(yī)學(xué)圖像的預(yù)處理、特征提取的各種技術(shù)和方法,及各方面的最新成果。圖像預(yù)處理所包含的圖像去噪和圖像增強是非常重要和必要的。由于實際圖像數(shù)據(jù)常常存在不完整性、噪聲和不一致性;而且在圖像的生成、傳輸或變換過程中,由于多種因素的影響,總會造成圖像質(zhì)量的下降,利用圖像增強技術(shù)可能改善圖像的效果或?qū)D像轉(zhuǎn)換成更適合處理的形式。本課題在研究圖像預(yù)處理的去噪和圖像增強算法的基礎(chǔ)上,重點針對乳腺X線圖像的特點,研究鈣化點的區(qū)域分割及特征提取問題。3)粗集(RoughSet,RS)理論是一個強大的數(shù)據(jù)分析工具,在應(yīng)用中不需要先驗知識,完全根據(jù)現(xiàn)有數(shù)據(jù)分析得出結(jié)論,是數(shù)據(jù)挖掘的一個重要分支。粗集的主要思想是在保持信息系統(tǒng)分類能力不變的前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則,其核心內(nèi)容是屬性約簡和規(guī)則提取。粗集方法只能針對離散數(shù)據(jù),因此應(yīng)用粗集處理連續(xù)屬性之前必須先對連續(xù)屬性進行離散化。對數(shù)據(jù)采用不同程度以及不同方法的離散化,運算的結(jié)果可能會有所不同,所以要根據(jù)離散對象來選取合適的離散化算法。本文對常用的離散化算法進行研究,分析其優(yōu)劣,將連續(xù)型屬性離散化成若干個優(yōu)化的區(qū)間。對醫(yī)學(xué)圖像數(shù)據(jù)庫進行數(shù)據(jù)挖掘的主要目的是實現(xiàn)對疾病的預(yù)測和分類。本文對粗集理論、算法應(yīng)用以及理論發(fā)展方向進行全面研究,提出一種屬性約簡和規(guī)則提取的結(jié)合算法,提取精簡的規(guī)則,并應(yīng)用在確診分類器中,實現(xiàn)對乳腺X線圖像的分類。4)基于LabVIEW開發(fā)乳腺X線圖像數(shù)據(jù)挖掘軟件,進行圖像的管理.、預(yù)處理、特征提取和分類,實現(xiàn)乳腺癌的自動診斷。本課題以對數(shù)據(jù)挖掘理論和典型方法的研究為基礎(chǔ),針對乳腺X線圖像,實現(xiàn)圖像預(yù)處理、腫塊的分割、醫(yī)學(xué)圖像特征提取、屬性的離散化、粗集在屬性約簡和圖像分類中的應(yīng)用,并依此開發(fā)基于LabVIEW的乳腺X線圖像數(shù)據(jù)挖掘軟件,實現(xiàn)對乳腺X線圖像的良性與惡性的分類。1-3-2論文的組織結(jié)構(gòu)全文共分六章,各章內(nèi)容安排如下:第一章為緒論,主要介紹數(shù)據(jù)挖掘、圖像數(shù)據(jù)挖掘和醫(yī)學(xué)圖像數(shù)據(jù)挖掘的概念、意義和背景,及其在國內(nèi)外的研究現(xiàn)狀和存在的問題,木文研究的背景、意義、研究內(nèi)容及全文的組織結(jié)構(gòu)。第二章介紹數(shù)據(jù)挖掘原理,分析數(shù)據(jù)挖掘的各種典型方法,綜述圖像數(shù)據(jù)挖掘方法,分析醫(yī)學(xué)圖像數(shù)據(jù)挖掘的特點,根據(jù)醫(yī)學(xué)圖像數(shù)據(jù)挖掘的?般過程,確定基于特征的應(yīng)用粗集進行醫(yī)學(xué)圖像數(shù)據(jù)挖掘的方法。第三章研究圖像數(shù)據(jù)的預(yù)處理和特征提取技術(shù),并對算法進行分析比較。針對乳腺X線圖像的特點,對鈣化點進行分割,對它們的形狀特征和紋理特征進行提取,被抽取的特征組織在一個結(jié)構(gòu)化的數(shù)據(jù)庫中,作為分類系統(tǒng)挖掘的輸入。第四章研究基于粗集的理論和方法,利用該方法實現(xiàn)圖像特征的降維,采用“屬性重要度”的概念,進行屬性約簡。首先對屬性數(shù)據(jù)進行離散化,再應(yīng)用粗集方法完成屬性約簡和規(guī)則提取,推導(dǎo)乳腺X線圖像的診斷規(guī)則。第五章研究開發(fā)基于LabVIEW的乳腺X線圖像數(shù)據(jù)挖掘軟件,實現(xiàn)乳腺癌的自動診斷。第六章對本文的各個技術(shù)點和工作做出總結(jié),同時提出進一步的研究方向,對相關(guān)技術(shù)的發(fā)展進行了展望。第二章數(shù)據(jù)挖掘方法研究本章首先介紹數(shù)據(jù)挖掘原理,分析數(shù)據(jù)挖掘的各種典型方法,綜述圖像數(shù)據(jù)挖掘方法,分析醫(yī)學(xué)圖像數(shù)據(jù)挖掘的特點,最后根據(jù)醫(yī)學(xué)圖像數(shù)據(jù)挖掘的一般過程,確定基于特征的應(yīng)用粗集進行醫(yī)學(xué)圖像數(shù)據(jù)挖掘的方法?!?-1數(shù)據(jù)挖掘概述隨著計算機技術(shù)的迅猛發(fā)展和網(wǎng)絡(luò)的快速普及,使得數(shù)據(jù)采集和數(shù)據(jù)存儲技術(shù)得到了飛速的發(fā)展,龐大的數(shù)據(jù)庫日益增多,信息過量幾乎成為人人需要面對的問題,并且這一趨勢仍將持續(xù)發(fā)展下去。在這樣一個信息爆炸時代,怎樣才能不被信息的汪洋大海所淹沒,而從這些龐大的數(shù)據(jù)集中提取出對其擁?者有價值的信息,即從中發(fā)現(xiàn)有用的知識成為了人們的迫切希望,而且變得越來越重要。由此產(chǎn)生了數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù),并且得以蓬勃發(fā)展,越來越顯示出其強大的生命力。2-1-1數(shù)據(jù)挖掘的產(chǎn)生背景20世紀計算機的問世及其技術(shù)的飛速進步,極大地促進了世界信息化的進程。20世紀60年代以來,數(shù)據(jù)庫和信息技術(shù)已經(jīng)從原始的文件處理演化到復(fù)雜的、功能強大的數(shù)據(jù)庫系統(tǒng)。70年代以來,數(shù)據(jù)庫系統(tǒng)的研究和開發(fā)從層次和網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)發(fā)展到關(guān)系數(shù)據(jù)庫、數(shù)據(jù)建模工具、索引和數(shù)據(jù)組織技術(shù),實現(xiàn)了大量數(shù)據(jù)的有效存儲、檢索和管理,使得關(guān)系數(shù)據(jù)庫管理系統(tǒng)日益成熟并得到廣泛應(yīng)用。20世紀80年代中期以來,陵著數(shù)據(jù)庫技術(shù)的不斷提高,先進數(shù)據(jù)模型的使用,研究和開發(fā)出了功能更強大的數(shù)據(jù)庫系統(tǒng),如擴展關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、對象一關(guān)系數(shù)據(jù)庫、演繹數(shù)據(jù)庫和基于Internet的全球信息系統(tǒng),產(chǎn)生了大量面向應(yīng)用的數(shù)據(jù)庫系統(tǒng),如空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、辦公室信息庫、全球信息庫等等。在過去30年中,計算機硬件的飛速發(fā)展,導(dǎo)致了功能強大的計算機、數(shù)據(jù)收集設(shè)備和存儲介質(zhì)的大量供應(yīng)。這些技術(shù)大大推動了數(shù)據(jù)庫和信息產(chǎn)業(yè)的發(fā)展,使得大量數(shù)據(jù)庫和信息存儲用于事務(wù)管理、信息檢索和數(shù)據(jù)分析。同時,由于雷達、紅外、光電、衛(wèi)星、電視攝像、電子顯微成像、CT成像等各種宏觀與微觀傳感器的使用,圖像數(shù)據(jù)的數(shù)量、大小和復(fù)雜性都在飛快地增長,己經(jīng)遠遠超出了人的分析和解譯能力。用戶不可能詳細地分析所干j■的這些數(shù)據(jù),并提取感興趣的知識,致使“數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫急劇膨脹加劇了大量的數(shù)據(jù)與薄弱的數(shù)據(jù)分析工具之間的矛盾,從而造成了重要的決定常常不是依據(jù)數(shù)據(jù)庫中信息豐富的數(shù)據(jù),而是基于決策者的直覺的現(xiàn)象。為了迎接需求帶來的挑戰(zhàn),開發(fā)從海量數(shù)據(jù)中提取有■價值知識的數(shù)據(jù)挖掘工具是當前最重要的任務(wù)之一。20世紀80年代末出現(xiàn)了一個新的術(shù)語 數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),它泛指所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法,人們接受了這個術(shù)語,并用KDD來描述整個數(shù)據(jù)發(fā)掘的過程,包括最開始的制定業(yè)務(wù)目標到最終的結(jié)果分析,用數(shù)據(jù)挖掘(DataMining)來描述使用挖掘算法進行知識挖掘的子過程。隨著研究的深入,人們逐漸發(fā)現(xiàn)數(shù)據(jù)挖掘中有許多工作可以由統(tǒng)計方法來完成,并認為最好的策略是將統(tǒng)計方法與數(shù)據(jù)挖掘有機的結(jié)合起來。研究數(shù)據(jù)挖掘的歷史,可以發(fā)現(xiàn)數(shù)據(jù)挖掘的快速發(fā)展是和商業(yè)數(shù)據(jù)庫的空前增長速度分不開的,并且20世紀90年代較為成熟的數(shù)據(jù)倉庫技術(shù)也同樣廣泛地應(yīng)用于各種商業(yè)領(lǐng)域。特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。數(shù)據(jù)挖掘不是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。例如加拿大BC省電話公司要求加拿大SimonFraser大學(xué)KDD研究組,根據(jù)其擁有十多年的客戶數(shù)據(jù),總結(jié)、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣一來,就把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢操作,提高到為各級經(jīng)營決策者提供決策支持。這種需求驅(qū)動力,比數(shù)據(jù)庫查詢更為強大。同時需要指出的是,這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機器定理證明。而是所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發(fā)現(xiàn)結(jié)果,并且其研究成果是很fT實際應(yīng)用價值的。2-1-2數(shù)據(jù)挖掘與知識發(fā)現(xiàn)數(shù)據(jù)挖掘起源「數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)(.在1989年8月由美國人工智能協(xié)會(AmericanAssociationforArtificialIntelligence,AAAI)主辦的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上,KDD一詞首次出現(xiàn)。并在隨后的1991年、1993年和1994年的該會議中都舉行了KDD專題討論會,并吸引了各個領(lǐng)域的研究人員投入到這一學(xué)科的研究中.與此同時,其他內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一,并逐漸成為計算機科學(xué)界的一大熱點[6]。此外,數(shù)據(jù)庫、人工智能、信息處理、知識工.程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了KDD專題或?qū)??。IEEE的KnowledgeandDataEngineering會刊率先在1993年出版了KDD技術(shù)專I刃,所發(fā)表的5篇論文代表了當時KDD研究的最新成果和動態(tài),較全面地論述了KDD系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價、KDD系統(tǒng)設(shè)計的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余、高噪聲和不確定性、空值等問題,還討論了KDD系統(tǒng)與其它傳統(tǒng)的機器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對策。KDDff多種定義,可理解為“從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、先前不知道的、潛在■用的信息的非平凡過程”。Fayyad等人⑺將其定義為:從大量數(shù)據(jù)中提取出可信的、新穎的、效的,并能被人理解的模式的高級處理過程。KDD處理過程可分為數(shù)據(jù)準備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、KDD目標確定、數(shù)據(jù)挖掘、模式評價等階段,并最終得到知識,如圖2.1所示。因此,數(shù)據(jù)挖掘定義為KDD中通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟,數(shù)據(jù)挖掘只是KDD的一個處理過程,但卻是一個關(guān)鍵環(huán)節(jié)??捎弥R初步知識分析與評價轉(zhuǎn)換后數(shù)據(jù)數(shù)據(jù)挖掘預(yù)處理后數(shù)據(jù)數(shù)據(jù)變換選擇的數(shù)據(jù)預(yù)處理原始數(shù)據(jù) 數(shù)據(jù)選擇數(shù)據(jù)準備圖2.1知識發(fā)現(xiàn)處理過程Fig.2.1KDDprocessprocedure然而在產(chǎn)業(yè)界、多媒體和數(shù)據(jù)庫研究界,有時將兩者混為一談,甚至“數(shù)據(jù)挖掘''比"數(shù)據(jù)庫知識發(fā)現(xiàn)“更流行。通常情況下,可將數(shù)據(jù)挖掘理解為從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及布一潛在應(yīng)用價值的信息或模式的動態(tài)的、交互的過程。2-1-3數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)知識,而知識要通過一定的模式來表示,知識的表示模式是非常豐富的。根據(jù)知識的特點和表示模式,可將數(shù)據(jù)挖掘任務(wù)分為對廣義知識、關(guān)聯(lián)知識、分類知識、預(yù)測知識和偏差知識的挖掘。.廣義知識挖掘廣義知識(Generalization)是指描述類別特征的概括性知識。廣義知識挖掘就是根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)普遍性的、更高層次概念的中觀和宏觀的知識,是對數(shù)據(jù)所蘊涵的概念特征信息、匯總信息和比較信息等的概括、精煉和抽象。被挖掘出的廣義知識,可以結(jié)合可視化技術(shù),以直觀的圖表(如餅圖、柱狀圖、曲線圖、立方體等)形式展示給用戶,也可以作為其它應(yīng)用(如分類、預(yù)測)的基礎(chǔ)知識。.關(guān)聯(lián)知識挖掘關(guān)聯(lián)分析(AssociationAnalysis)即關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個重要的且最為活躍的領(lǐng)域之一,主要目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)?關(guān)聯(lián)知識是反映一個屬性和其它屬性之間依賴或關(guān)聯(lián)的知識。數(shù)據(jù)集中的數(shù)據(jù)關(guān)聯(lián)是現(xiàn)實世界中事物聯(lián)系的表現(xiàn),如果數(shù)據(jù)集中的兩項或多項屬性之間存在關(guān)聯(lián),那么其中一項的屬性值就可依據(jù)其他屬性值來預(yù)測。.分類知識挖掘分類知識(Classification)描述了同類事物共同的特征型知識和不同類事物之間的差異特征知識。分類是數(shù)據(jù)挖掘中的一個重要的目標和任務(wù),也是目前研究和應(yīng)用最為廣泛的方向。分類的目標是構(gòu)造一個分類模型(稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中。要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入,這是一個機器學(xué)習(xí)的過程,每個訓(xùn)練樣本的實例已經(jīng)有類標識,通過學(xué)習(xí)可以形成表達數(shù)據(jù)對象與類標識間對應(yīng)的分類知識.分類知識可以表示為分類規(guī)則、決策樹,也可能是一種學(xué)習(xí)后的分類網(wǎng)絡(luò)等形式。它不僅可以對實例進行分類,進而也可以預(yù)測未來數(shù)據(jù)的歸類。實現(xiàn)分類的常用方法有■決策樹、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計學(xué)、粗集和遺傳算法等。.預(yù)測知識挖掘預(yù)測型知識(Prediction)是指由歷史的和當前的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的知識,也可以被認為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識,因此可將關(guān)聯(lián)知識挖掘方法應(yīng)用到以時間為關(guān)鍵屬性的預(yù)測型知識挖掘中。預(yù)測知識主要是對未來數(shù)據(jù)的概念分類和趨勢輸出。前而介紹的分類技術(shù)可以產(chǎn)生具有對未來數(shù)據(jù)進行歸類的預(yù)測型知識,統(tǒng)計學(xué)中的回歸方法也可以通過歷史數(shù)據(jù)直接產(chǎn)生對未來數(shù)據(jù)預(yù)測的連續(xù)值,即在其輸出形式中己經(jīng)蘊藏諸如趨勢曲線等預(yù)測型知識。有些學(xué)者將前者歸為分類問題,而把后者作為預(yù)測型知識挖掘的主要工作.實際上,有些分類知識不僅可對現(xiàn)有數(shù)據(jù)集中的數(shù)據(jù)進行歸類,還可對未來有指導(dǎo)意義的規(guī)律進行預(yù)測,如“老年人的癌癥發(fā)病率高”,因此可把這類分類知識作為預(yù)測型知識。預(yù)測型知識的挖掘方法以經(jīng)典的統(tǒng)計學(xué)方法為基礎(chǔ),可借助統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)等技術(shù)來實現(xiàn)。.偏差知識挖掘偏差知識(Deviation)是對數(shù)據(jù)集中所蘊涵的差異和極端特例的描述,揭示了事物偏離常規(guī)的異?,F(xiàn)象。數(shù)據(jù)庫中的數(shù)據(jù)常TT一些異常記錄,挖掘出這些數(shù)據(jù)所蘊涵的偏差知識是很TT意義的,例如在Web站點發(fā)現(xiàn)那些區(qū)別于正常登錄行為的用戶特點可以防止非法入侵。偏差包括很多知識,可以在挖掘普通知識的同時進一步獲得偏差知識,例如分類中的反常實例、不滿足普通規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、數(shù)據(jù)聚類外的離群值等等。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間有意義的差別,分析少數(shù)的、極端的特例的描述,提示內(nèi)在的原因?!?-2典型數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘的研究融合了多個不同學(xué)科領(lǐng)域的技術(shù)與成果,使得目前的數(shù)據(jù)挖掘方法表現(xiàn)出多種多樣的形式。數(shù)據(jù)挖掘涉及到數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計學(xué)、模式識別、知識庫系統(tǒng)、信息檢索、高性能計第和數(shù)據(jù)可視化等學(xué)科。典型的數(shù)據(jù)挖掘方法包括統(tǒng)計方法、決策樹、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、聚類分析、粗集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、支持向量機等方法。2-2-1統(tǒng)計方法采用統(tǒng)計學(xué)方法可對數(shù)據(jù)集中的數(shù)據(jù)進行分析,發(fā)現(xiàn)屬性之間存在的函數(shù)關(guān)系或相關(guān)關(guān)系,是最基本的數(shù)據(jù)挖掘方法。傳統(tǒng)的統(tǒng)計分析為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等方法。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,可處理數(shù)據(jù)挖掘中的分類問題?;貧w分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還布一用來為某些事件發(fā)生的概率建模以預(yù)測變量集的對數(shù)回歸。方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。數(shù)據(jù)挖掘中的統(tǒng)計分析并不是傳統(tǒng)的統(tǒng)計分析方法的簡單應(yīng)用,兩者的主要區(qū)別在于數(shù)據(jù)挖掘算法對大數(shù)據(jù)量的適應(yīng)性。2-2-2決策樹方法在數(shù)據(jù)挖掘的各種方法中,決策樹(Decisiontree)歸納學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。決策樹用一種逼近離散值函數(shù)的方法實現(xiàn)分類,咐噪聲數(shù)據(jù)有很好的健壯性,且能夠?qū)W習(xí)析取表達式[8]。決策樹是一個類似于流程圖的樹結(jié)構(gòu),樹的最頂層節(jié)點是根節(jié)點。樹中的每個內(nèi)部節(jié)點表示對一個屬性的邏輯判斷,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,而每個樹葉節(jié)點代表某類。使用決策樹分類時,將實例從根結(jié)點開始與該結(jié)點的屬性值進行比較,然后按照給定實例的該屬性值轉(zhuǎn)到對應(yīng)的分支,并依此向下移動直到某個葉子結(jié)點,該葉子結(jié)點即為實例所屬的分類。決策樹算法就是用一棵樹形的分類器實現(xiàn)對實例的分類,因此用決策樹進行分類一般需要兩步完成。第一步是利用訓(xùn)練集建立并精化一棵決策樹,構(gòu)造決策樹模型,這個過程實際上是從數(shù)據(jù)中獲取知識進行機器學(xué)習(xí)的過程。第二步是利用構(gòu)造完畢的決策樹對輸入數(shù)據(jù)進行分類,將輸入的記錄從根節(jié)點開始依次判斷記錄的相應(yīng)屬性值,進入匹配的分支,直到到達某個葉子節(jié)點,從而找到該記錄所在的類。決策樹算法的關(guān)鍵問題是構(gòu)造一-棵決策樹,包括建樹(Treebuilding)和剪枝(Treepruning)兩個階段。首先利用訓(xùn)練集生成一棵決策樹,然后使用非訓(xùn)練集檢驗生成的決策樹,剪去影響精度的分支,降低由于訓(xùn)練集存在噪聲而產(chǎn)生的起伏。決策樹方法最早產(chǎn)生于20世紀60年代Hunt等人[9]在研究人類概念建模時建立的一種學(xué)習(xí)系統(tǒng)LCS(ConceptLearningSystem)(,到70年代末,J.Ross.Quinlan提出了最著名的決策樹算法ID3(Iterativedichotomizerversion3),,ID3采用自頂向下不回朔策略,以信息隔的下降速度為標準,在樹的每個節(jié)點上使用信息增益(Informationgain)度量選擇判斷屬性。選擇具1ti最高信息增益(或最大蟒壓縮)的屬性作為當前節(jié)點的判斷屬性,使得對結(jié)果劃分中的樣本分類所需的信息量最小,并反映劃分的最小隨機性或“不純性”。這種信息理論方法使得對一個對象分類所需的期望測試數(shù)目達到最小,并確保找到一棵簡單的樹。在ID3算法基礎(chǔ)上,1986年J.C.Schlimmer提出了ID4,實現(xiàn)增量式構(gòu)造決策樹;1988年P(guān).E.U.tgoff提出的ID5R,對ID4算法進行了部分改進;1993年Quinlan本人以ID3算法為基礎(chǔ)研究出C4.5/C5O算法[10],克服了ID3算法只能處理離散型屬性的問題,可以實現(xiàn)對連續(xù)型屬性的處理,并增加了屬性值在缺情況的處理。除此之外,還有多種決策樹算法,1984年,Breiman等人提出了CART算法,即分類與歸|歸樹(ClassificationandRegressionTree)算法[11];Agrawal等人提出的SLIQ算法[12]和SPR法T算法[13],它們強調(diào)了決策樹對大訓(xùn)練集的適應(yīng)性。有關(guān)決策樹的大部分研究,集中在針對數(shù)據(jù)挖掘特點所進行的高效決策樹、裁減決策樹中規(guī)則的提取技術(shù)與算法等方面。決策樹是數(shù)據(jù)挖掘的常用算法,主耍優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。它不僅可以用于分類,還可以用來進行預(yù)測。2-2-3關(guān)聯(lián)規(guī)則分析方法關(guān)聯(lián)規(guī)則(Association)描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中用來表示H部模式的最流行方法之一。關(guān)聯(lián)知識是反映一個屬性和其它屬性之間依賴或關(guān)聯(lián)的知識。數(shù)據(jù)集中的數(shù)據(jù)關(guān)聯(lián)是現(xiàn)實世界中事物聯(lián)系的表現(xiàn),如果數(shù)據(jù)集中的兩項或多項屬性之間存在關(guān)聯(lián),那么其中一項的屬性值就可依據(jù)其他屬性值來預(yù)測.但是,屬性之間的關(guān)聯(lián)是復(fù)雜的,大部分是蘊藏的,關(guān)聯(lián)知識挖掘的目的就是找出數(shù)據(jù)集中隱藏的關(guān)聯(lián)知識。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序(TimeSeries)關(guān)聯(lián)、因果關(guān)聯(lián)、數(shù)量關(guān)聯(lián)等,這些關(guān)聯(lián)并不總是事先知道的,而是通過數(shù)據(jù)集中數(shù)據(jù)的關(guān)聯(lián)分析獲得的,因而對商業(yè)決策具有很高的價值。關(guān)聯(lián)規(guī)則的研究和應(yīng)用是數(shù)據(jù)挖掘中最活躍和比較深入的分支,許多關(guān)聯(lián)規(guī)則挖掘的理論和算法己經(jīng)被提出.最早也是最為著名的關(guān)聯(lián)規(guī)則挖掘方法是R.Agrawal等提出的Apriori算法及其改進算法[14?16]。Apriori算法先挖出所有的頻繁項集,然后由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則,為此需要給定兩個閾值:最小支持度(MinimumSupport)和最小可信度(MinimumConfidence)。挖掘出的關(guān)聯(lián)規(guī)則,必須滿足用戶規(guī)定的最小支持度,它表示了一組項目關(guān)聯(lián)在一起需要滿足的最低聯(lián)系程度;挖掘出的關(guān)聯(lián)規(guī)則,也必須滿足用戶規(guī)定的最小可信度,它反映了一個關(guān)聯(lián)規(guī)則的最低可靠度。在這個意義上,數(shù)據(jù)挖掘系統(tǒng)的目的,就是從源數(shù)據(jù)集中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。通常用AB的蘊含式來表示,在數(shù)據(jù)挖掘中用支持度與置信度作為有趣或相關(guān)的度量。支持度support為:support(tA-?B)=P(AUB) (2.1)可信度confidence為:confidence(eA-^B)=P(BIA) (2.2)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則,這些閾值一般由用戶或領(lǐng)域?qū)<以O(shè)定,且在設(shè)定過程中帶■一定的經(jīng)驗性。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛,特別適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間有意義的關(guān)系,原因之一是它不受只選擇一個因變量的限制,關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域最典型的應(yīng)用是購物籃分析。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,對這些關(guān)聯(lián)規(guī)則進行有效的評價,篩選出用戶真正感興趣的,有意義的關(guān)聯(lián)規(guī)則尤為重要。2-2-4聚類分析方法聚類分析把一個數(shù)據(jù)集按照相似性劃分成若干組,使得屬于同一組中的實例之間的差別盡可能的小,而不同組中的實例間的差別盡可能的大,這也是數(shù)據(jù)挖掘的目標之一。通過聚類技術(shù)可以對數(shù)據(jù)集中的記錄劃分為一系列有意義的子集,進而實現(xiàn)對數(shù)據(jù)的分析。聚類和分類技術(shù)不同,前者總是在特定的類標識下尋求新元素屬于哪個類,而后者則是通過對數(shù)據(jù)的分析比較生成新的類標識。當然,數(shù)據(jù)挖掘中的分類和聚類技術(shù)都是在已有的技術(shù)基礎(chǔ)上發(fā)展起來的,它們互rr交叉和補充。聚類方法研究也是目前數(shù)據(jù)挖掘研究中的一大熱點問題。1999年,Jain等給出了聚類研究中的主要問題和方法[17]。2000年,Han等歸納了基于劃分、層次、密度、網(wǎng)格和模型五大類聚類算法[18]。最近的研究傾向于利用多種技術(shù)的綜合性聚類方法探索,以解決大型數(shù)據(jù)庫或高維數(shù)據(jù)庫等聚類挖掘問題。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系,己被廣泛地應(yīng)用于經(jīng)濟分析、模式識別、圖像處理等多種領(lǐng)域,尤其在商業(yè)上,聚類分析可以幫助市場人員發(fā)現(xiàn)顧客群中所存在的不同特征組群。2-2-5粗集方法粗集(RoughSet)能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗集都具有邊界元素,也就是那咋既不能確定為集合元素,也不能確定為集合補集元素的元素。粗集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。2-2-6神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)作為一個相對獨立的研究分支很早就被提出,有許多著作和文獻詳細介紹了它的原理。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力等種種優(yōu)點。前饋神經(jīng)元網(wǎng)絡(luò)以感知器網(wǎng)絡(luò)、BP網(wǎng)絡(luò)等為代表,可以用于分類和預(yù)測等方Ifll:反饋式網(wǎng)絡(luò)以Hopfield網(wǎng)絡(luò)為代表,用于聯(lián)想記憶和優(yōu)化計算。自組織網(wǎng)絡(luò)以ART模型、Kohonon模型為代表,用于聚類[19]。由于神經(jīng)網(wǎng)絡(luò)具有高度的抗干擾能力和可以對未訓(xùn)練數(shù)據(jù)進行分類等優(yōu)點,在數(shù)據(jù)挖掘中使用神經(jīng)網(wǎng)絡(luò)技術(shù)是一件有意義但仍需要艱苦探索的工作。2-2-7遺傳算法遺傳算法是基于進化理論的機器學(xué)習(xí)方法,它采用遺傳結(jié)合、遺傳交叉變異以及自然選擇等操作,實現(xiàn)規(guī)則的生成。遺傳算法是一種受生物進化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當前已知的最好假設(shè)來生成后續(xù)的假設(shè)。在每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高.遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉(重組)選擇兩個不同個體(染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。2-2-8支持向量機方法支持向量機(SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上,盡量提高學(xué)習(xí)機的泛化能力,具rr良好的推廣性能和較好的分類精確性,能■效解決學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其它算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。除上述方法外,還有把數(shù)據(jù)與結(jié)果轉(zhuǎn)化和表達成可視化技術(shù)、云模型方法和歸納邏輯程序等方法。事實上,任何一種挖掘工作往往需要根據(jù)具體問題來選擇最合適的挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定?!?-3圖像數(shù)據(jù)挖掘數(shù)據(jù)挖掘作為信息爆炸時期知識發(fā)現(xiàn)的手段,一經(jīng)出現(xiàn)就吸引了大批學(xué)者投入到其中,很多理論技術(shù)在實際中得到了應(yīng)用,使其得到了迅速發(fā)展,產(chǎn)生了碩碩成果。但大多數(shù)工作都集中在事務(wù)型數(shù)據(jù)庫上,對于其它形式的數(shù)據(jù)挖掘,特別是圖像數(shù)據(jù)挖掘卻還只是開始。2-3-1多媒體數(shù)據(jù)挖掘隨著計算機性能的快速提高和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,數(shù)據(jù)庫中存儲了大量的音頻、視頻、圖像、文本格式的多媒體數(shù)據(jù)。從多媒體數(shù)據(jù)的轉(zhuǎn)化、同步、連續(xù)數(shù)據(jù)流的管理到檢索,發(fā)展到當前從這些大量的多媒體數(shù)據(jù)中發(fā)現(xiàn)有用的知識,使得多媒體數(shù)據(jù)挖掘成為人們關(guān)注的熱點。由于挖掘?qū)ο蟮膹?fù)雜性,不可能是將傳統(tǒng)的數(shù)據(jù)挖掘理論與技術(shù)直接應(yīng)用到多媒體數(shù)據(jù)挖掘中,因此,雖然多媒體數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個分支,但是它不同于普通數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘。正是由于多媒體數(shù)據(jù)的這種更雜性,從而導(dǎo)致多媒體數(shù)據(jù)挖掘理論和技術(shù)的發(fā)展十分緩慢。這種情況直到ACM于2000年召開了第一屆多媒體數(shù)據(jù)挖掘年會(MDM/KDD2000)后才有所改善。雖然會議論文主要是有關(guān)多媒體智能檢索、地理信息系統(tǒng)等內(nèi)容,但是從中可看出很多從事多媒體信息系統(tǒng)和數(shù)字媒體方面的專家已經(jīng)轉(zhuǎn)向以提高數(shù)字媒體檢索和索引速度的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)的研究中。到MDM/KDD的2001年會,多媒體數(shù)據(jù)挖掘技術(shù)已經(jīng)有了較大的發(fā)展。MDM/KDD2002年會表明多媒體數(shù)據(jù)挖掘的思想已經(jīng)開始向醫(yī)學(xué)圖像、臺風(fēng)預(yù)報預(yù)測等領(lǐng)域擴展,加拿大、美國和日本等國家的科學(xué)家已在這方面進行了研究,并取得了一定的進展。2-3-2圖像數(shù)據(jù)挖掘在多媒體數(shù)據(jù)挖掘中,人們更關(guān)注它的一個重要分支圖像數(shù)據(jù)挖掘。數(shù)字化時代產(chǎn)生了大量的圖像數(shù)據(jù),如數(shù)碼相機、監(jiān)視相機、衛(wèi)星遙感系統(tǒng)、醫(yī)學(xué)影像設(shè)備等,利用圖像挖掘技術(shù)對這些圖像進行自動分析以獲取大量有用知識的需求日益增加。圖像挖掘(ImageMining,IM)是在圖像數(shù)據(jù)庫中抽取隱含的、未知而潛在有用的知識、圖像數(shù)據(jù)關(guān)系的非平凡過程。圖像數(shù)據(jù)挖掘技術(shù)是用圖像分析技術(shù)、模式識別、人工智能等技術(shù)與理論來研究發(fā)現(xiàn)和挖掘隱含在圖像中信息的、影像數(shù)據(jù)之間關(guān)系的或隱臧在影像數(shù)據(jù)庫中的含蓄的不明確模式的技術(shù),是多媒體數(shù)據(jù)挖掘技術(shù)的一個重要的研究領(lǐng)域,是數(shù)據(jù)挖掘領(lǐng)域的一個重要的拓展分支[20?23]。由于圖像數(shù)據(jù)組織結(jié)構(gòu)的特殊性,圖像挖掘不是傳統(tǒng)數(shù)據(jù)挖掘理論與技術(shù)在圖像數(shù)據(jù)上的簡單擴展或延伸,要實現(xiàn)圖像數(shù)據(jù)挖掘所要涉及到的挖掘方法和領(lǐng)域知識比?般數(shù)據(jù)的挖掘技術(shù)更廣泛,除傳統(tǒng)的常規(guī)挖掘技術(shù)外,還要涉及計算機視覺、圖像處理、圖像檢索、模式識別、機器學(xué)習(xí)、數(shù)據(jù)庫和人工智能等等多學(xué)科交叉的研究領(lǐng)域。雖然目前圖像數(shù)據(jù)挖掘的理論和技術(shù)還遠未成熟,但已初步應(yīng)用于科學(xué)研究、農(nóng)業(yè)、醫(yī)學(xué)、生物、氣象、資源勘探、交通管理、自然災(zāi)害預(yù)測、監(jiān)測與防災(zāi)減災(zāi)等領(lǐng)域,并取得了一些成果。SimonFraser大學(xué)開發(fā)的多媒體挖掘器MultimediaMiner[24]可以使用三維可視化技術(shù)清楚地顯示相聯(lián)規(guī)則。KrzysztofKoperski等研制開發(fā)了用于遙感圖像數(shù)據(jù)挖掘和統(tǒng)計分析的VisiMine(GeoBrowse)系統(tǒng)。MitsuruKakimoto等[25]的BRAIN-imagedatabase原型系統(tǒng)以人的腦功能圖像為挖掘數(shù)據(jù),得到了講話者的手指活動與講話動作的關(guān)系規(guī)則。RieHonda等將時間序列關(guān)聯(lián)規(guī)則用于衛(wèi)星云圖分類,效果很好。QinDing等利用研究眼遙感圖像中不同波段之間的關(guān)聯(lián)關(guān)系,得到了波段反射值與農(nóng)業(yè)產(chǎn)量之間的關(guān)系,為農(nóng)業(yè)增產(chǎn)和產(chǎn)量預(yù)測提供依據(jù)。ThanapatKangkachit等研究了數(shù)字圖像中實體之間和特征與實體之間的關(guān)聯(lián)規(guī)則問題。布和敖斯爾等分別將遙感圖像數(shù)據(jù)挖掘用于鹽堿地分類、濕地分析、土地利用分類、土壤鹽度分析,提高了分類精度,取得了很好的效果[26]。目前圖像數(shù)據(jù)挖掘尚處于初始階段,技術(shù)方法尚不成熟,還沒Tf達到完全實用的要求。但從趨勢上看,圖像數(shù)據(jù)挖掘■若極好的發(fā)展和應(yīng)用前景,距離實際應(yīng)用不會太遠,很有必要進行相應(yīng)的技術(shù)研究。2-3-3常用圖像數(shù)據(jù)挖掘方法目前,圖像數(shù)據(jù)挖掘主要采用的方法有圖像數(shù)據(jù)的相似性搜索、圖像數(shù)據(jù)的多維分析、圖像數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘、圖像數(shù)據(jù)的分類與聚類分析、對象識別和神經(jīng)網(wǎng)絡(luò)等。1圖像數(shù)據(jù)的相似性搜索對圖像數(shù)據(jù)的相似性檢索主要有基于描述和基于內(nèi)容的兩種?;诿枋龅臋z索系統(tǒng)是在圖像描述之上建立和執(zhí)行對象檢索,如關(guān)鍵字、標題、尺寸和創(chuàng)建時間等,若用手工完成是很費力的,若自動完成又會造成檢索的結(jié)果的質(zhì)量較差?;趦?nèi)容的檢索系統(tǒng)支持對圖像內(nèi)容如顏色、紋理等的檢索,通常又分為兩種。一種是基于圖像樣本的行詢,該方法找出所有與給定的圖像樣本相似的圖像。另一種是圖像特征描述查詢,該方法給出圖像的特征描述或概括并把其轉(zhuǎn)換為特征向量,與數(shù)據(jù)庫中已有的圖像特征向量相匹配?;趦?nèi)容的檢索使用視覺的特征標引圖像并基于特征相似檢索對象,這在很多應(yīng)用中都是需要的,因而有著廣泛的應(yīng)用前景,目前在醫(yī)療診斷、氣象預(yù)報、遙感監(jiān)測以及電子商務(wù)等方面有了不錯的應(yīng)用。也有■些系統(tǒng)同時支持基于描述的檢索和基于內(nèi)容的檢索,如QBIC(QueryByImageContent)系統(tǒng)同時支持基于圖像樣本的查詢和圖像特征描述查詢。.圖像數(shù)據(jù)的多維分析為對圖像數(shù)據(jù)進行多維分析,可以按傳統(tǒng)的從關(guān)系數(shù)據(jù)庫中構(gòu)造數(shù)據(jù)立方體的方法去設(shè)計和構(gòu)造出圖像數(shù)據(jù)立方體。圖像數(shù)據(jù)立方體可以包含針對圖像信息的維和度量,如顏色、紋理和形狀,圖像數(shù)據(jù)立方體的建立有助于圖像數(shù)據(jù)的基于視覺內(nèi)容的多維分析和多種知識的挖掘,如特征化、分類、比較和關(guān)聯(lián)等。如何構(gòu)造圖像數(shù)據(jù)立方體是問題的關(guān)鍵,而構(gòu)造一個高維的圖像數(shù)據(jù)立方體是極其困難的。因為要考慮顏色、方位、紋理、關(guān)鍵字等多維屬性,并且這其中的很多屬性是集合值而不是單值。例如一個圖像可能對應(yīng)一組關(guān)鍵字,它可能包含一組對象,每一對象又對應(yīng)一組顏色。在設(shè)計圖像數(shù)據(jù)立方體時若以每一個關(guān)鍵字作為一維,或以每一種顏色作為一維,將導(dǎo)致立方體的維數(shù)太高。但如若不然,又會使對圖像的建模過于粗糙、受到限制和不精確。如何設(shè)計出既能滿足效率要求,又能有足夠表達能力的圖像數(shù)據(jù)立方體,是一個有待研究的問題。.圖像數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘相聯(lián)規(guī)則模型是由IBM公司Almaden研究中心的R.Agrawal首先提出的,它反映一個事物與其它事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,對其中的一個事物就可以通過其它事物進行預(yù)測。圖像的關(guān)聯(lián)規(guī)則挖掘是在相關(guān)的圖像集中找到一組關(guān)聯(lián)規(guī)則,顯示一組對象或特征的模式或相互關(guān)系的發(fā)生頻率。圖像的關(guān)聯(lián)規(guī)則是指圖像時象或特性之間頻繁出現(xiàn)的模式,可以是圖像的大小、顏色、紋理、密度、對象、空間位置、文本描述等。圖像的關(guān)聯(lián)規(guī)則的挖掘分兩個步驟:找出所ri■的頻繁描述集,從頻繁描述集中推導(dǎo)出關(guān)聯(lián)規(guī)則,并確定強美聯(lián)規(guī)則。圖像數(shù)據(jù)庫中至少可以挖掘如下三類涉及圖像對象的關(guān)聯(lián)規(guī)則:圖像內(nèi)容和非圖像內(nèi)容特征間的關(guān)聯(lián),與空間關(guān)系無關(guān)的圖像內(nèi)容的關(guān)聯(lián),與空間關(guān)系有關(guān)的圖像內(nèi)容的關(guān)聯(lián)。要挖掘圖像對象間的關(guān)聯(lián)規(guī)則,可以把每一個圖像看成一個事務(wù),從中找出不同圖像間出現(xiàn)頻率高的模式。但要注意圖像數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘和事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則的區(qū)別。.圖像分類和聚類基于內(nèi)容的智能圖像分類可通過將圖像與不同的信息類別相關(guān)聯(lián)實現(xiàn)。圖像分類是一種有監(jiān)督學(xué)習(xí)方法,過程分3步:首先建立圖像表示模型,對已進行類別標注的樣本圖像進行特征提取,建立每一圖像屬性描述;然后對每一類別的樣本集進行學(xué)習(xí),建立規(guī)則或公式;最后使用模型對未標注圖像進行分類判決和標注。常用的分類方法有決策樹、Bayes方法和神經(jīng)網(wǎng)絡(luò)方法,其它方法包括K-最近鄰分類、粗集分類等。圖像數(shù)據(jù)聚類就是運用某種算法,使得圖像對象集中具有相似特征的對象聚成組的過程。經(jīng)過聚類,同一類的對象之間的相似性盡可能大,而不同類別的數(shù)據(jù)之間的相似性盡可能小,圖像聚類的主在特征屬性是顏色,紋理和形狀。圖像聚類的一般過程包括:①圖像表示、特征抽取和特征選擇;②建立適合于特定應(yīng)用的圖像相似度量;③圖像聚類;④分組生成。圖像聚類完成后,需要領(lǐng)域?qū)<覍γ總€聚簇的圖像進行檢查,標注這個簇所形成的抽象概念。例如在醫(yī)學(xué)上對大量的CT照片進行聚類,找出某一疾病的特點,幫助診斷;在氣象科學(xué)中,可以將大量的衛(wèi)星云圖進行聚類,找出同一類天氣情況的特征,幫助提高天氣預(yù)報和災(zāi)害預(yù)報的準確性。圖像數(shù)據(jù)挖掘是F1前國際上數(shù)據(jù)庫、圖形圖像技術(shù)和信息決策領(lǐng)域最前沿的研究方向之一,是數(shù)據(jù)挖掘的一個新興的、富有挑戰(zhàn)性的領(lǐng)域,具有較高的學(xué)術(shù)價值和廣泛的應(yīng)用前景。雖然圖像數(shù)據(jù)挖掘的重要性已經(jīng)成為學(xué)者們的共識,但是由于采用傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)并不能充分展示圖像數(shù)據(jù)的特征,所以專門研究圖像數(shù)據(jù)挖掘技術(shù)具有重要的意義。圖像數(shù)據(jù)挖掘技術(shù)可以廣泛地應(yīng)用于醫(yī)學(xué)影像診斷分析、衛(wèi)星圖片分析、地下礦藏預(yù)測等各種領(lǐng)域,但是現(xiàn)階段的研究工作還處在初始階段,沒有達到實用的要求?!?-4醫(yī)學(xué)圖像數(shù)據(jù)挖掘本節(jié)首先介紹醫(yī)學(xué)圖像的產(chǎn)生、發(fā)展和廣泛應(yīng)用,然后分析醫(yī)學(xué)圖像數(shù)據(jù)挖掘的特點,根據(jù)醫(yī)學(xué)圖像數(shù)據(jù)挖掘過程,確定基于特征的粗集挖掘方法。2-4-1醫(yī)學(xué)圖像1895年德國物理學(xué)家倫琴(WilhelmConradRontgen)發(fā)現(xiàn)了X射線,并用X射線給他夫人成功地拍了人類歷史上第一張醫(yī)學(xué)圖像。這一成果開創(chuàng)了醫(yī)學(xué)影像技術(shù),倫琴也因此在1901年榮獲了首次頒發(fā)的諾貝爾物理學(xué)獎。X射線在醫(yī)學(xué)上的應(yīng)用使得人們能觀測到人體內(nèi)部客觀真實的組織結(jié)構(gòu),用圖像的方式為醫(yī)生展現(xiàn)機體的客觀真實面貌,極大地提高了醫(yī)學(xué)診斷和治療水平,并使得人們致力于各種醫(yī)療影像設(shè)備的研究。隨著科學(xué)技術(shù)特別是計算機技術(shù)的快速發(fā)展,1972年問世的第一臺計算機斷層成像儀給醫(yī)學(xué)影像診斷技術(shù)帶來了新的革命,使得影像的信息量得到了非常顯著的提高,成為X線被發(fā)現(xiàn)以來醫(yī)學(xué)影像技術(shù)史上新的里程碑。并使兩位研制醫(yī)用CT的學(xué)者,美國物理學(xué)家Cormack和英國工程師Hounsfield獲得了1979年度的諾貝爾醫(yī)學(xué)和生理學(xué)獎。核磁共振現(xiàn)象是1946年分別由美國理論物理學(xué)家EdwardPurcell和FelixBloch發(fā)現(xiàn)的,為現(xiàn)代的磁共振成像技術(shù)奠定了理論基礎(chǔ),也使這兩位學(xué)者獲得了1952年的諾貝爾物理學(xué)獎。1972年X-CT出現(xiàn)后,美國化學(xué)家PaulLauterbur提出了核磁共振成像的思想和方法,并因此獲得了2003年度的諾貝爾醫(yī)學(xué)和生理學(xué)獎。1978年英國EMI公司成功制造出第一臺NMR-CT機,自此使核磁共振成像技術(shù)成了醫(yī)學(xué)成像的一門新的技術(shù)。目前,在醫(yī)學(xué)影像領(lǐng)域廣泛應(yīng)用的成像技術(shù)主要包括計算機斷層掃描成像(ComputerizedTomography,CT)、正電子放射斷層成像技術(shù)(PositronEmissionTomography,PET)、單光子輻射斷層成像(Single-PhotomEmissionComputerizedTomography,SPECT)、磁共振成像(MagneticResonanceImaging,MRI)、超聲(Ultrasound)、光學(xué)斷層顯微成像、核磁共振顯微成像、X光計算機斷層顯微成像、正電子斷層顯微成像等。每種成像技術(shù)都從人體獲取某一方面的信息,不同的醫(yī)學(xué)成像技術(shù)獲取的醫(yī)學(xué)圖像提供了豐富的病人信息,供醫(yī)生診斷和治療參考。在實際應(yīng)用中,不同的成像技術(shù)得到的醫(yī)學(xué)圖像特點各不相同,而且各自針對不同的結(jié)構(gòu)或功能信息成像。例如CT和MR圖像給出了病人的解剖信息,PET和SPET圖像提供病人的功能信息。在研究人腦時,MR圖像可以很好的識別大腦灰質(zhì)、白質(zhì)等密度相近的軟組織,而CT在觀測密度相差較大的骨組織時具有很好的分辨率。超聲成像設(shè)備簡單、成本低、易攜帶而且對人體無損害,但得到的圖像分辨率低。醫(yī)生獲取醫(yī)學(xué)圖像信息本身不是最終目的,而是為了利用這些信息。在臨床上,獲取信息是為了診斷,為了制定治療的方案,也是為了實施治療方案。所以醫(yī)生不僅需要懂得通過那種成像方式獲得所需的信息,還需要知道如何處理這些圖像信息以適合醫(yī)學(xué)臨床上的需要,或者說,臨床上的需要決定了醫(yī)學(xué)圖像處理和分析中需要解決哪些技術(shù)問題。醫(yī)學(xué)影像設(shè)備的普及應(yīng)用,主要原因是在于影像檢查結(jié)果的形象化,無論是傳統(tǒng)的X線檢查還是近代的斷層掃描成像,影像設(shè)備產(chǎn)生的人體內(nèi)部狀況的圖像,直觀準確的展示了內(nèi)部的骨骼、肌肉、血管、器官等的形狀大小,使得臨床醫(yī)生,特別是外科醫(yī)生能夠?qū)颊叩牟∏橛星逦牧私?,對于診斷和治療■不可替代的價值。由于影像檢查在醫(yī)療中的巨大等醫(yī)學(xué)成像技術(shù)的產(chǎn)生和發(fā)展,以及這些醫(yī)學(xué)數(shù)字成像技術(shù)的廣泛應(yīng)用,每天都產(chǎn)生了大量的醫(yī)學(xué)圖像數(shù)據(jù),利用圖像數(shù)據(jù)挖掘技術(shù),對這些醫(yī)學(xué)圖像進行大量分析以獲取有用知識的需求日益增加。醫(yī)學(xué)圖像的數(shù)據(jù)挖掘旨在從海量的圖像數(shù)據(jù)中挖掘出有效的模型、關(guān)聯(lián)、規(guī)則、變化、不規(guī)則以及普遍的規(guī)律,以加速醫(yī)生決策診斷的過程和提高其決策診斷的準確度。2-4-2醫(yī)學(xué)圖像數(shù)據(jù)挖掘醫(yī)學(xué)圖像的數(shù)據(jù)挖掘旨在從海量的圖像數(shù)據(jù)中挖掘出有效的模型、關(guān)聯(lián)、規(guī)則、變化、不規(guī)則以及普遍的規(guī)律,以加速醫(yī)生決策診斷的過程和提高其決策診斷的準確度。對醫(yī)學(xué)圖像進行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的主要目的是實現(xiàn)對疾病的預(yù)測和分類。分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,分類是預(yù)測分類號(或離散值),而預(yù)測是建立連續(xù)函數(shù)模型。數(shù)據(jù)分類的基本技術(shù)有決策樹、粗集、貝葉斯分類及貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、K一最近鄰分類,基于案例的推理和支持向量機等。預(yù)測方法有線性、非線性和廣義線性回歸模型。具體情況下,可對上述的這些技術(shù)進行適當?shù)男薷摹U充和優(yōu)化,才能應(yīng)用到各種特殊的醫(yī)學(xué)
影像數(shù)據(jù)庫中進行疾病的分類和預(yù)測。通過對醫(yī)學(xué)圖像的數(shù)據(jù)挖掘,揭示其中的醫(yī)學(xué)診斷規(guī)則和模式,輔助醫(yī)生對病變體和周圍組織進行分析,可極大地提高醫(yī)療診斷的準確性和科學(xué)性,從而提高醫(yī)療診斷水平。目前世界上許多國家的研究機構(gòu)開始致力于這個領(lǐng)域的研發(fā)工作,醫(yī)學(xué)圖像數(shù)據(jù)挖掘的研究正受到普遍的重視。由于醫(yī)學(xué)圖像信息的非結(jié)構(gòu)化,非概念化,難「對其直接應(yīng)用數(shù)據(jù)挖掘方法發(fā)現(xiàn)知識,醫(yī)學(xué)圖像數(shù)據(jù)挖掘是一項復(fù)雜的研究,對醫(yī)學(xué)圖像的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)一般布一以下過程:1)確定數(shù)據(jù)挖掘的目標2)獲取數(shù)據(jù)集(圖像庫)3)圖像預(yù)處理4)特征的選擇與提取5)選擇合適的挖掘算法6)實施數(shù)據(jù)挖掘7)解釋和評估挖掘結(jié)果8)使用所發(fā)現(xiàn)的知識醫(yī)學(xué)圖像數(shù)據(jù)挖掘的過程如圖2.2所示。首先要確定數(shù)據(jù)挖掘的目標,然后進行圖像的數(shù)據(jù)采集和獲取,即從現(xiàn)實世界采集和獲取用于數(shù)據(jù)挖掘的原始圖像數(shù)據(jù)集。隨著醫(yī)療數(shù)字化設(shè)備的快速發(fā)展,醫(yī)院都存儲有病人大量的醫(yī)學(xué)圖像信息,而且每天都在逐漸增加,為醫(yī)學(xué)圖像的數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)源。圖像庫 圖像讀取特征庫圖像預(yù)處理特征庫圖像特征提取數(shù)據(jù)挖掘知識庫解釋與評價圖2.2醫(yī)學(xué)圖像數(shù)據(jù)挖掘流程Fig.2.2Flowofdataminingonmedicalimages圖像數(shù)據(jù)的預(yù)處理包括圖像數(shù)據(jù)格式的轉(zhuǎn)化、圖像去噪、圖像增強。由于醫(yī)學(xué)圖像格式的不統(tǒng)一,圖像數(shù)據(jù)庫中存放了各種格式的圖像,需要將不同的圖像格式集成到圖像的統(tǒng)一格式。而且醫(yī)學(xué)圖像在生成、傳輸或變換過程中會受到多種因素的影響,總會造成圖像質(zhì)量的下降,所以實際上常常存在不完整性、噪聲和不一致性,因此時醫(yī)學(xué)圖像進行去噪和增強等預(yù)處理是很有必要的。圖像的特征提取,為實現(xiàn)腫瘤的圖像診斷,要提取圖像的形狀、紋理等圖像屬性。研究分析醫(yī)學(xué)圖像屬性,提出適合醫(yī)學(xué)圖像挖掘的圖像特征是知識發(fā)現(xiàn)成敗的關(guān)鍵。對醫(yī)學(xué)圖像而言,圖像的特征提取可以使用多種圖像處理技術(shù)來實現(xiàn)。在對圖像特征這樣的高維數(shù)據(jù)集進行數(shù)據(jù)挖掘時,要避免維數(shù)禍根(Curseofdimensionality)的出現(xiàn),采用粗集方法對屬性進行約簡并推導(dǎo)出規(guī)則,形成知識庫。醫(yī)學(xué)圖像數(shù)據(jù)挖掘的目標之一是要實現(xiàn)分類,最后利用挖掘所得知識,可進行醫(yī)學(xué)圖像是否正常的自動分類,實現(xiàn)輔助診斷,提高診斷精確度。本章解決的核心問題是確定了基于特征的運用粗集方法進行醫(yī)學(xué)圖像的數(shù)據(jù)挖掘,將經(jīng)過圖像處理的醫(yī)學(xué)圖像的各項特征進行表達,并運用數(shù)據(jù)挖掘的粗集方法進行屬性約簡并形成基于醫(yī)學(xué)圖像特征的規(guī)則知識庫,利用知識庫中的規(guī)則實現(xiàn)醫(yī)學(xué)圖像的分類。第三章醫(yī)學(xué)圖像特征分析本章首先分析了常用的醫(yī)學(xué)圖像格式,接下來,針對乳腺X線圖像,首先經(jīng)過圖像預(yù)處理實現(xiàn)去噪和增強,然后對其中鈣化點或腫塊進行邊緣檢測,實現(xiàn)對鈣化點即全部亮點區(qū)域的有效分割。最后,對分割的鈣化點的特征進行提取并利用MicrosoftSQLServer建立特征數(shù)據(jù)庫存儲提取的圖像特征,為后面的數(shù)據(jù)挖掘奠定基礎(chǔ)?!?-1醫(yī)學(xué)圖像格式分析醫(yī)學(xué)影像作為人體的信息源是目前最大容量的人體信息載體,已經(jīng)可以對人體的形態(tài)、生理參數(shù)和心理參數(shù)實現(xiàn)成像,而這些信息對腫瘤的診斷和治療都是非常重要的。目前臨床上已廣泛使用的成像模態(tài)有X射線成像,核磁共振成像(MRI)、核醫(yī)學(xué)成像(NMI)和超聲波成像(UI)等多種,每種成像模態(tài)可以提供人體的某一部分的信息,包括平面成像、斷層成像和動態(tài)信息。圖像可用磁帶、光盤和網(wǎng)絡(luò)等進行傳輸,但影像設(shè)備自身帶的計算機一般是各生產(chǎn)廠家專用的,圖像數(shù)據(jù)存儲格式不盡相同,常見格式有DICOM、TIFF、BMP、JPEG等。到目前為止,由于還存在著各種各樣的原因,使得來自醫(yī)學(xué)影像設(shè)備的醫(yī)學(xué)圖像具有各種不同的格式,還沒有達到完全的統(tǒng)一,下面對常用醫(yī)學(xué)圖像格式進行分析。3-1-1BMP文件解析BMP文件是Microsoft公司為其Windows操作系統(tǒng)所定義的圖像文件格式。當前,隨著Windows的廣泛使用,BMP圖像文件格式也越來越受到人們關(guān)注,在Windows環(huán)境中運行的圖形圖像軟件都支持BMP圖像格式[27]。BMP圖像文件具有下列五個特點:1)該結(jié)構(gòu)只能存放一幅圖像;2)只能存儲四種圖像數(shù)據(jù):單色、16色、256色、全彩色;3)圖像數(shù)據(jù)有壓縮或不壓縮兩種處理方式;4)調(diào)色板的數(shù)據(jù)存儲結(jié)構(gòu)較為特殊;5)Windows設(shè)計了兩種壓縮方式:RLE4和RLE8。RLE4只能處理16色圖像數(shù)據(jù):而RLE8則只能壓縮256色圖像數(shù)據(jù)。BMP圖像文件的文件結(jié)構(gòu)分為三部分:表頭、調(diào)色板和圖像數(shù)據(jù)。表頭長度固定為54個字節(jié)。而只全彩色BMP圖像文件內(nèi)沒布■調(diào)色板數(shù)據(jù),其余不超過256種顏色的圖像文件都必須設(shè)定調(diào)色板信息,可見其結(jié)構(gòu)較為簡單。對于BMP圖像文件的顯示,16色BMP圖像與256色圖像的掃描行數(shù)據(jù)組織都是從左上角開始的,只是16色圖像采用緊縮像素法,每像素占用二分之一個字節(jié),即4bits,而256色圖像的每一個像素占用一個字節(jié)。3-1-2TIFF文件解析TIFF文件是“TagImageFileFormat”的縮寫,是由Aldus公司與微軟公司共同開發(fā)設(shè)計的圖像文件格式[31]。它有如下特點:1)善于應(yīng)用指針的功能,可以存儲多幅圖像;2)文件內(nèi)數(shù)據(jù)區(qū)沒有固定的排列順序,只規(guī)定表頭必須在文件前端,對于標識信息區(qū)和圖像數(shù)據(jù)區(qū)在文件中可以隨意存放;3)可制定私人用的標識信息;4)除了一般圖像處理常用的RGB模式之外,TIFF圖像文件還能夠接受CMYK、YcbCr等多種不同的圖像模式:5)可存儲多份調(diào)色板數(shù)據(jù);6)調(diào)色板的數(shù)據(jù)類型和排列順序較為特殊;7)能提供多種不同的壓縮數(shù)據(jù)的方法,便于?使用者選擇;8)圖像數(shù)據(jù)可分割成幾個部分分別存檔。TIFF圖像文件主要由三部分組成:表頭、標識信息區(qū)和圖像數(shù)據(jù)區(qū)。文件內(nèi)固定只有一個表頭,且一定要位于文件前端。表頭有一個標志參數(shù)指出標識信息區(qū)在文件中的存儲地址,而標識信息區(qū)也有一組標識信息,用于存儲圖像數(shù)據(jù)區(qū)的地址。標識信息區(qū)內(nèi)有多組標識信息,每組標識信息長度固定為12個字節(jié)。前8個字節(jié)分別代表標識信息的代號(2字節(jié))、數(shù)據(jù)類型(2字節(jié))、數(shù)據(jù)量(4字節(jié))。最后4個字節(jié)則存儲數(shù)據(jù)值或標志參數(shù)。文件有時還存放一些標識信息區(qū)容納不下的數(shù)據(jù),例如調(diào)色板數(shù)據(jù)就是其中的一項。由于應(yīng)用了標志的功能,TIFF圖像文件才能夠?qū)崿F(xiàn)多幅圖像的存儲。若文件內(nèi)只存儲一幅圖像,則將標識信息區(qū)內(nèi)容置0,表示文件內(nèi)無其他標識信息區(qū),只存儲單幅的TIFF圖像文件結(jié)構(gòu)。若文件內(nèi)存放多幅圖像,則在第一個標識信息區(qū)末端的標志參數(shù),將是一個值非0的長整數(shù),表示下一個標識信息區(qū)在文件中的地址,只布一最后一個標識信息區(qū)的末端才會出現(xiàn)值為0的長整數(shù),表示圖像文件內(nèi)不再有其他的標識信息區(qū)和圖像數(shù)據(jù)區(qū)。3-1-3JPEG文件解析JPEG(JointPhotographicExpertsGroup)是由國際標準組織(ISO)、國際電話電報咨詢委員會(CCITT)和國際電工委員會(IEC)為連續(xù)色調(diào)靜態(tài)圖像所建立的第一個國際數(shù)字圖像壓縮標準。圖像出縮的目的在于減少數(shù)據(jù)存儲空間、傳輸時間和費用。JPEG在壓縮與解壓縮的處理過程中,一般采用無失真和有失真兩種方式[29]。無失真方式壓縮比較低,采用有失真方式能提供很高的壓縮比,但壓縮比越高,失真程度也越大。JPEG東縮算法的使用者能夠調(diào)整壓縮參數(shù),以盡量減少圖像質(zhì)量的降低而使壓縮比增大。JPEG具有適中的計算更雜性,從而使得壓縮算法既可以用軟件實現(xiàn),也可用便件實現(xiàn),并且具有較好的實用性能。JPEG標準中定義了兩種不同性能的系統(tǒng):基本系統(tǒng)和擴展系統(tǒng)。基本系統(tǒng)采用順序工作方式,在燧編碼階段使用哈夫曼編碼方法來降低冗余度,解碼器只存儲兩個哈夫曼表。擴展系統(tǒng)提供增強功能,它是基本系統(tǒng)的擴展,使用累進方式」:作,編碼過程中采用自適應(yīng)的算術(shù)編碼。其壓縮和解壓過程如圖3.1'1圖3.2所示。圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 11908:2025 EN Binders for paints and varnishes - Amino resins - General methods of test
- 愚人節(jié)搞笑文案3篇
- 開展世界地球日的活動總結(jié)
- 崗前培訓(xùn)方案(17篇)
- 建材開業(yè)致辭7篇
- 超聲造影在乳腺良惡性腫瘤鑒別診斷中的應(yīng)用
- 二零二五版影視作品攝像授權(quán)合同范本3篇
- 暴力抗議事件應(yīng)急預(yù)案
- 二零二五年個人股權(quán)繼承協(xié)議范本4篇
- 提升醫(yī)院管理的關(guān)鍵策略
- 2025年中國南方航空股份有限公司招聘筆試參考題庫含答案解析
- 商務(wù)部發(fā)布《中國再生資源回收行業(yè)發(fā)展報告(2024)》
- 2025年福建新華發(fā)行(集團)限責(zé)任公司校園招聘高頻重點提升(共500題)附帶答案詳解
- 江蘇省駕校考試科目一考試題庫
- 四川省成都市青羊區(qū)成都市石室聯(lián)合中學(xué)2023-2024學(xué)年七上期末數(shù)學(xué)試題(解析版)
- 咨詢公司績效工資分配實施方案
- 2025新人教版英語七年級下單詞表
- 2024年專升本考試-專升本考試(機械設(shè)計基礎(chǔ))筆試歷年真題薈萃含答案
- 部編版五年級語文下冊第七單元大單元教學(xué)設(shè)計
- 藥品儲存養(yǎng)護知識大全
- 新版藥品批發(fā)企業(yè)質(zhì)量管理體系文件大全
評論
0/150
提交評論