




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用 隨著醫(yī)學(xué)機(jī)構(gòu)積累的數(shù)據(jù)越來(lái)越多,促進(jìn)了醫(yī)學(xué)信息包括中醫(yī)藥信息的數(shù)字化;如何利用海量信息為防控疾病提供科學(xué)依據(jù),總結(jié)優(yōu)化各種診治方案,已引起業(yè)內(nèi)專家的高度關(guān)注。于是數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究被日益重視,它將有力促進(jìn)中醫(yī)藥的現(xiàn)代化進(jìn)程。1 數(shù)據(jù)挖掘的概念、步驟及常用方法 1.1 數(shù)據(jù)挖掘概念、步驟 數(shù)據(jù)挖掘(Data mining,DM)即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大型數(shù)據(jù)庫(kù)的海
2、量數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱藏的、事先未知的、潛在有用的信息,挖掘的知識(shí)表現(xiàn)為概念、規(guī)則、規(guī)律、模式等形式1。數(shù)據(jù)挖掘的目的在于使用所發(fā)現(xiàn)的模式幫助解釋當(dāng)前的行為或預(yù)測(cè)未來(lái)的結(jié)果2。挖掘步驟大致有:?jiǎn)栴}定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識(shí)評(píng)估、結(jié)果應(yīng)用這六步。1.2 數(shù)據(jù)挖掘常用方法 描述統(tǒng)計(jì) 數(shù)據(jù)總結(jié)的目的是對(duì)數(shù)據(jù)進(jìn)行從低層次抽象、濃縮到高層次,得出它的緊湊描述。最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法是描述統(tǒng)計(jì),它包括平均數(shù)、中位數(shù)、分位數(shù)等,它常和統(tǒng)計(jì)圖配合應(yīng)用。 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則從本質(zhì)上講是條件概率,即當(dāng)A發(fā)生時(shí)、B同時(shí)出現(xiàn)的概率有多大?只要B離50較遠(yuǎn)就有意義。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存
3、在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)包括簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)我們并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也不確定。因此關(guān)聯(lián)分析生 數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用 成的規(guī)則帶有可信度。 分類和聚類 這是最常用的技術(shù)。分類方法主要有:回歸、決策樹、神經(jīng)網(wǎng)絡(luò)。分類分析在數(shù)據(jù)挖掘中是一項(xiàng)重要任務(wù)。分類器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。聚類是根據(jù)事物本身潛在的特性研究對(duì)象分類的方法。通過(guò)聚類把一個(gè)數(shù)據(jù)集合中的個(gè)體按照相似性歸成若干類別,使其“物以類聚”,將數(shù)據(jù)庫(kù)中的記錄劃分為
4、一系列有意義的子集。聚類要解決的就是實(shí)現(xiàn)滿足這種要求的類的聚合。在進(jìn)行聚類前,這些類別是潛在的,可分割的類的個(gè)數(shù)(聚類數(shù))也是未知的。聚類大致分為統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫(kù)的方法等。 偏差檢測(cè) 數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能有一些異常記錄,檢測(cè)這些偏差很有意義。偏差檢測(cè)的基本方法是尋找觀測(cè)結(jié)果與參照值之間有意義的差別。2 中醫(yī)病歷中醫(yī)學(xué)數(shù)據(jù)挖掘的特點(diǎn)目前中醫(yī)病歷中采集的中醫(yī)學(xué)信息具有如下特點(diǎn)。2.1 癥狀的模糊性 中醫(yī)學(xué)對(duì)疾病的診斷是通過(guò)望、聞、問(wèn)、切的四診合參,獲取有用信息,再結(jié)合醫(yī)生的經(jīng)驗(yàn),對(duì)疾病做出診斷。癥狀的模糊性不僅表現(xiàn)在獲得信息的形式多樣,而且因中醫(yī)癥狀存在著一癥多名,或
5、多癥一名的現(xiàn)象,因此不同醫(yī)生即使對(duì)同樣的癥狀,可能會(huì)用不同的文字加以描述,比如對(duì)“患者不欲進(jìn)食”的記錄,可能會(huì)有納差、食欲不振、納呆等的不同。這種模糊性模式加大了中醫(yī)學(xué)數(shù)據(jù)挖掘的難度。2.2 癥狀的不完整性 病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫(kù)不可能對(duì)任何一種疾病信息都能全面地反映出來(lái),表現(xiàn)為醫(yī)學(xué)信息的不完全性。同時(shí),許多醫(yī)學(xué)信息的表達(dá)、記錄本身就具有不確定和模糊性的特點(diǎn)3,這方面在中醫(yī)癥狀未做出標(biāo)準(zhǔn)量化方法并推行應(yīng)用之前,尤為突出。疾病信息體現(xiàn)的客觀不完整和描述疾病的主觀不確切,形成了中醫(yī)病歷中醫(yī)學(xué)信息的不完整性。2.3 證候的復(fù)雜性 著名的王永炎院士指出了證候具有動(dòng)態(tài)時(shí)空、內(nèi)實(shí)外虛、多維界面的特
6、點(diǎn),簡(jiǎn)明扼要的描述了證候的復(fù)雜性。中醫(yī)證候的復(fù)雜性給數(shù)據(jù)挖掘增加了難度,但這也恰好是數(shù)據(jù)挖掘發(fā)揮效力的用武之地。2.4 治療信息的個(gè)體化特性 中醫(yī)治病之本是辨證論治,體現(xiàn)在“三因治宜”、“同病異治、異病同治”等方面。即使針對(duì)同一疾病相同的證,醫(yī)生的處方用藥也可能會(huì)有差異。這種個(gè)體化的治療,充分體現(xiàn)了中醫(yī)治病的精髓,而其中所蘊(yùn)涵的深?yuàn)W哲理和規(guī)律,用一般的研究方法難以全面發(fā)掘。數(shù)據(jù)挖掘在這方面很可能會(huì)有很高的應(yīng)用價(jià)值。2.5 挖掘過(guò)程的復(fù)雜性 中醫(yī)藥領(lǐng)域中的數(shù)據(jù)屬性有離散型的,也有連續(xù)型和混合型的,對(duì)這些數(shù)據(jù)的噪聲處理等預(yù)處理相當(dāng)復(fù)雜,挖掘過(guò)程還需要人機(jī)交互、多次反復(fù),其中任何一個(gè)環(huán)節(jié)都不能缺少專
7、業(yè)人員。只有靠中醫(yī)藥專家的引導(dǎo),針對(duì)具體問(wèn)題,選擇合理的挖掘方法,才能挖掘出真正有價(jià)值的知識(shí)。在中醫(yī)學(xué)數(shù)據(jù)挖掘中,應(yīng)針對(duì)上述數(shù)據(jù)特點(diǎn)和挖掘目標(biāo),結(jié)合運(yùn)用不同的挖掘方法,對(duì)非線性、不完全的信息進(jìn)行智能處理,發(fā)揮各自的技術(shù)及其整合優(yōu)勢(shì)。3 數(shù)據(jù)挖掘在中醫(yī)藥研究中的應(yīng)用近年來(lái),數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中已得到應(yīng)用。有學(xué)者認(rèn)為中醫(yī)藥數(shù)據(jù)挖掘是中醫(yī)藥現(xiàn)代化研究的重要組成部分4。3.1 中醫(yī)藥信息化研究 姚氏等5綜合文獻(xiàn)指出對(duì)中醫(yī)藥理論和實(shí)踐進(jìn)行信息化、數(shù)字化、知識(shí)化,能夠克服中醫(yī)名詞術(shù)語(yǔ)過(guò)于繁雜造成的中醫(yī)發(fā)展障礙,對(duì)于中醫(yī)藥信息進(jìn)行文本數(shù)據(jù)挖掘是促進(jìn)中醫(yī)藥信息結(jié)構(gòu)化的途徑之一,該問(wèn)題的解決,能極大促進(jìn)中
8、醫(yī)藥現(xiàn)代化發(fā)展的進(jìn)程。3.2 中藥研究 陳凱先等6認(rèn)為對(duì)大量中藥化學(xué)成分進(jìn)行藥效基團(tuán)的建模研究,并對(duì)中藥化學(xué)成分?jǐn)?shù)據(jù)庫(kù)進(jìn)行柔性搜索,能夠?yàn)楦浞掷弥兴幓瘜W(xué)成分所含的化學(xué)信息提供技術(shù)支持。馮雪松等7對(duì)中藥指紋圖譜的特點(diǎn)及數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用做了綜述,指出中藥指紋圖譜由于反映了藥用植物的“共有特征”,又由于地域、生長(zhǎng)環(huán)境、采收等多種因素影響,具有統(tǒng)計(jì)數(shù)學(xué)中多元隨機(jī)分布的“模糊性”,利用模糊數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)技術(shù)等建立一種同時(shí)反應(yīng)這兩種特征數(shù)據(jù)庫(kù),存儲(chǔ)中藥指紋圖譜信息,應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)和解析其中潛在的信息,以評(píng)價(jià)和控制中藥質(zhì)量及研提 (,。)究中藥定量組效關(guān)系。3.3 方劑研究 喬延江等
9、4綜述了KDD在中藥研究開發(fā)中的意義。喬氏等認(rèn)為中藥(復(fù)方)的KDD研究是在中醫(yī)理論指導(dǎo)下,以數(shù)據(jù)挖掘技術(shù)作為知識(shí)發(fā)現(xiàn)的主要環(huán)節(jié),對(duì)中藥研發(fā)、設(shè)計(jì)、中醫(yī)組方理論及規(guī)律、中藥作用機(jī)制、構(gòu)效關(guān)系、中藥藥效集團(tuán)群的確認(rèn)、化學(xué)成分及藥理指標(biāo)的預(yù)測(cè)等進(jìn)行多方位、多學(xué)科、系統(tǒng)的現(xiàn)代化研究,是一個(gè)高度復(fù)雜的系統(tǒng)。其目的是建立傳統(tǒng)中醫(yī)理論同現(xiàn)代中藥的科學(xué)化、系統(tǒng)化、可描述化的關(guān)系,是中醫(yī)藥現(xiàn)代化的重要組成部分。楊林等8闡述了數(shù)據(jù)庫(kù)技術(shù)與Web結(jié)合實(shí)現(xiàn)網(wǎng)上中醫(yī)方劑的信息挖掘。將方劑文獻(xiàn)資料進(jìn)行全方位解析,設(shè)計(jì)內(nèi)容詳細(xì)的數(shù)據(jù)庫(kù)與Web技術(shù)結(jié)合,通過(guò)Internet開發(fā)了網(wǎng)上中醫(yī)方劑信息分析處理系統(tǒng),選擇支持Web
10、-DB的ORACLE數(shù)據(jù)庫(kù)管理系統(tǒng)作為系統(tǒng)開發(fā)和運(yùn)行平臺(tái)。經(jīng)過(guò)數(shù)據(jù)預(yù)處理、選擇和篩選數(shù)據(jù)、確定分析目標(biāo)、信息挖掘結(jié)果顯示等階段,完成對(duì)一批方劑數(shù)據(jù)的信息挖掘。姚美村等9應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)治療消渴病的中藥復(fù)方配伍的內(nèi)涵進(jìn)行探索性研究。以文獻(xiàn)收錄的106個(gè)治療消渴病的中藥復(fù)方為對(duì)象,經(jīng)解析后建立復(fù)方特征數(shù)據(jù)庫(kù);以數(shù)據(jù)挖掘系統(tǒng)Enterprise Miner為平臺(tái),在單味藥層次上進(jìn)行消渴病復(fù)方組成藥味之間的關(guān)聯(lián)規(guī)則分析研究,結(jié)果顯示單味藥、兩味藥組合、三味藥組合的應(yīng)用規(guī)律與歷代中醫(yī)在消渴病治療用藥方面的論述一致。挖掘結(jié)果的可信度可達(dá)到或接近中醫(yī)專家的分析能力。秦首科等10在構(gòu)建方劑、中藥和病癥數(shù)據(jù)倉(cāng)
11、庫(kù)的基礎(chǔ)上,通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部各種關(guān)聯(lián)和映射關(guān)系的定義,利用中藥和病癥數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析功能,探討了方劑和其針對(duì)癥狀之間的聯(lián)系。蔣永光等11對(duì)從中醫(yī)大辭典·方劑分冊(cè)中篩選出1355首脾胃方中的414種藥物,經(jīng)用聚類分析、對(duì)應(yīng)分析和頻繁集方法,從功效、歸經(jīng)、藥性和藥味等方面進(jìn)行了分類特征分析,并就脾胃方的核心藥物、方 劑結(jié)構(gòu)、“藥對(duì)藥”組和“方藥證”的對(duì)應(yīng)關(guān)聯(lián)方面形成了有關(guān)技術(shù)規(guī)則和處理程序。3.4 中醫(yī)證候研究 張世筠等12應(yīng)用流行病學(xué)和變量聚類分析的數(shù)理統(tǒng)計(jì)方法,對(duì)2442例中醫(yī)肝證患者進(jìn)行了初步研究。由調(diào)查組采集核對(duì)中醫(yī)四診資料,
12、按肝證辨證記分標(biāo)準(zhǔn)記分,分為11個(gè)證型。經(jīng)過(guò)聚類分為實(shí)證、風(fēng)證、虛證3類,解決了中醫(yī)各肝證的歸屬問(wèn)題,本研究還定量地闡明肝的實(shí)證、虛證、風(fēng)證的相互關(guān)系。白云靜等13在充分闡釋證候系統(tǒng)的非線性、復(fù)雜性特征的基礎(chǔ)上,探析了人工神經(jīng)網(wǎng)絡(luò)方法用于證候研究的可行性,并介紹了基于人工神經(jīng)網(wǎng)絡(luò)的證候研究方法。徐蕾等14采用boot strap方法對(duì)406例樣本進(jìn)行擴(kuò)增以滿足數(shù)據(jù)挖掘?qū)颖玖康囊?,采用基于信息熵的決策樹C4.5算法建立中醫(yī)辨證模型。通過(guò)決策樹C4.5算法篩選出對(duì)辨證分型有意義的26個(gè)因素,按其重要程度排序;產(chǎn)生出清楚易懂可用于分類的決策規(guī)則,建立辨證模型,模型分類符合率為:訓(xùn)練集83.6%,
13、驗(yàn)證集80.67%,測(cè)試集81.25%;模型區(qū)分各類證型的靈敏度和特異度也較高。認(rèn)為決策樹C4.5算法建立的模型效果較好,可用于慢性胃炎中醫(yī)證型的鑒別診斷。吳斌15等探討了腎陽(yáng)虛證的辨證因子分布規(guī)律。以腎陽(yáng)虛證量表為基礎(chǔ),從定性、定量角度收集資料。以定性評(píng)分計(jì)算各辨證因子的出現(xiàn)頻率,用定量評(píng)分進(jìn)行分層聚類分析。發(fā)現(xiàn):畏寒、肢冷、夜尿、腰背發(fā)冷等辨證因子出現(xiàn)頻率高,聚類分析提示腎陽(yáng)虛主證、舌象、脈象分布較有規(guī)律。認(rèn)為根據(jù)數(shù)理統(tǒng)計(jì)結(jié)果對(duì)腎陽(yáng)虛證的辨證因子進(jìn)行初篩,為腎陽(yáng)虛證的 ( 數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用(3) 量化研究奠定了基礎(chǔ)。4 小結(jié)與展望利用數(shù)據(jù)挖掘技術(shù)探求中醫(yī)藥診治疾病的規(guī)律,形成用數(shù)字描述和表達(dá)的中醫(yī)藥內(nèi)容,能有力推動(dòng)中醫(yī)藥研究的規(guī)范化進(jìn)程。但由于中醫(yī)藥信息的復(fù)雜性和特殊性,中醫(yī)藥數(shù)據(jù)挖掘在挖掘?qū)ο蟮膹V泛性、挖掘算法的高效性和魯棒性、提供知識(shí)或決策的準(zhǔn)確性方面有更高的要求。目前中醫(yī)藥數(shù)據(jù)庫(kù)資源已較豐富。數(shù)據(jù)挖掘技術(shù)將成為中醫(yī)藥現(xiàn)代化的重要組成部分。但從目前應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行的中醫(yī)藥研究來(lái)看,中醫(yī)數(shù)據(jù)挖掘尚處于起步階段,多數(shù)是對(duì)古文獻(xiàn)數(shù)據(jù)的整理挖掘,缺乏用于探求中醫(yī)診治疾病規(guī)律和復(fù)方用藥規(guī)律的研究。這可能與中醫(yī)數(shù)據(jù)的復(fù)雜性所致的數(shù)據(jù)預(yù)處理繁瑣有關(guān);如能通過(guò)建立結(jié)構(gòu)化數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 理論創(chuàng)新和實(shí)踐創(chuàng)新的關(guān)系
- 制定幼兒園具體教育目標(biāo)時(shí)應(yīng)注意的問(wèn)題
- 煤炭造價(jià)知識(shí)培訓(xùn)
- 支原體肺炎預(yù)防指南
- 培訓(xùn)剪發(fā)課件圖片大全
- 培訓(xùn)機(jī)構(gòu)團(tuán)隊(duì)合作
- 幼兒語(yǔ)言教育小班
- 員工角色認(rèn)知培訓(xùn)
- 國(guó)家職業(yè)鑒定保育員培訓(xùn)
- 護(hù)理人員換位思考
- 2025年中國(guó)AI智能鼠標(biāo)行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 2025年湖北省新華書店(集團(tuán))有限公司市(縣)分公司招聘筆試參考題庫(kù)含答案解析
- 2025至2030中國(guó)軍用推進(jìn)劑和炸藥行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- EPC總承包管理實(shí)施方案
- 廣東省廣州市越秀區(qū)2023-2024學(xué)年五年級(jí)下學(xué)期數(shù)學(xué)期末考試試卷(含答案)
- 三副實(shí)習(xí)記錄簿附頁(yè)
- 護(hù)林員考試題及答案
- 工程認(rèn)證背景下軟件工程專業(yè)實(shí)踐課程平臺(tái)研究與建設(shè)
- 2025年AI Agent+醫(yī)療行業(yè)研究報(bào)告
- 《危險(xiǎn)化學(xué)品企業(yè)動(dòng)火作業(yè)安全管理規(guī)定》知識(shí)培訓(xùn)
- 江蘇省宿遷市名校2025年七下數(shù)學(xué)期末檢測(cè)試題含解析
評(píng)論
0/150
提交評(píng)論