中醫(yī)診斷數(shù)據(jù)挖掘應(yīng)用研究_第1頁
中醫(yī)診斷數(shù)據(jù)挖掘應(yīng)用研究_第2頁
中醫(yī)診斷數(shù)據(jù)挖掘應(yīng)用研究_第3頁
中醫(yī)診斷數(shù)據(jù)挖掘應(yīng)用研究_第4頁
中醫(yī)診斷數(shù)據(jù)挖掘應(yīng)用研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中醫(yī)診斷數(shù)據(jù)挖掘應(yīng)用研究

0基于數(shù)據(jù)挖掘的中醫(yī)診斷研究方法問題現(xiàn)在,中醫(yī)診斷研究的中心主題是如何科學(xué)評價(jià)。包括疾病、疾病、證書等。這些研究無論是從宏觀還是微觀的角度,都不可避免地要開展對獲取數(shù)據(jù)的分析處理。許多研究都有這樣一個(gè)過程:設(shè)計(jì)一個(gè)實(shí)驗(yàn)→收集許多數(shù)據(jù)→統(tǒng)計(jì)分析→結(jié)果。這些研究存在的一個(gè)最大問題是:數(shù)據(jù)獲取階段是在假設(shè)的基礎(chǔ)上開展的,收集的數(shù)據(jù)都有針對性,而且數(shù)據(jù)量不可能很多,因而反映的問題也不可能很全面。另外,在數(shù)據(jù)的篩選上,往往是通過人工方式從臨床收集,工作量大。引入數(shù)據(jù)挖掘技術(shù),建立中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái),將會(huì)徹底改變這樣的局面。這是由于數(shù)據(jù)挖掘的工作是建立在數(shù)據(jù)庫或數(shù)據(jù)倉庫基礎(chǔ)上的,因此,為了采用數(shù)據(jù)挖掘技術(shù)必定會(huì)促使研究人員考慮科研數(shù)據(jù)的快捷收集與積累的方法,這勢必促進(jìn)臨床診療數(shù)據(jù)的規(guī)范研究。當(dāng)數(shù)據(jù)積累到一定程度時(shí),研究人員既可以利用計(jì)算機(jī)技術(shù)對各類所需的數(shù)據(jù)進(jìn)行篩選,也可以應(yīng)用各類挖掘工具開展諸如:癥狀-癥狀的相關(guān)性研究;證素與證素的相關(guān)性研究;病-證的相關(guān)性研究;證-西醫(yī)檢查數(shù)據(jù)的對應(yīng)分析、數(shù)字化中醫(yī)診斷建模、診斷指標(biāo)量化研究等。中醫(yī)數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。1中醫(yī)診斷和挖掘的目標(biāo)利用基于數(shù)據(jù)挖掘的中醫(yī)診斷實(shí)驗(yàn)研究平臺(tái),開展證素辨證研究,可以獲取如下5類知識(shí)。1.1從知識(shí)的角度對于數(shù)據(jù)的設(shè)計(jì)要根據(jù)信息包括類別特征的概括性描述知識(shí),根據(jù)臨床數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識(shí),反映同類事物共同性質(zhì),是對數(shù)據(jù)的概括、精煉和抽象。在醫(yī)院使用的臨床信息系統(tǒng)中,如果中醫(yī)電子病歷設(shè)計(jì)合理,臨床數(shù)據(jù)達(dá)到一定程度時(shí),則可利用知識(shí)發(fā)現(xiàn)的方法和技術(shù),獲得歸納出來的知識(shí)。如:癥狀的診斷能力分析,臨界癥狀的確定,癥狀之間的聯(lián)系,證素之間的聯(lián)系,證素與癥狀之間的聯(lián)系,以建立較為完整的客觀化中醫(yī)知識(shí)系統(tǒng)。1.2屬性的關(guān)聯(lián)與預(yù)測中醫(yī)診斷關(guān)聯(lián)知識(shí)是反映一個(gè)事件和其它事件之間依賴或關(guān)聯(lián)的知識(shí),如癥狀與癥狀之間、癥狀與證素之間、證素與證素之間,如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其它屬性值進(jìn)行預(yù)測。利用數(shù)據(jù)挖掘的技術(shù)對中醫(yī)臨床信息進(jìn)行處理,將會(huì)很好地得到:癥狀與證素之間、癥狀與癥狀之間、證素與證素之間的依存關(guān)系,癥狀與脈象、舌象之間,癥狀癥候與病人年齡、男女、地域、季節(jié)有什么普遍規(guī)律,癥狀、脈象與治則、方劑、療效之間有什么規(guī)律,疾病、癥狀與治療用藥規(guī)律、中藥方劑配伍有哪些規(guī)律等。1.3中醫(yī)診斷分類反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。1.4需要大量分析的情況可以發(fā)現(xiàn)時(shí)有可能導(dǎo)致感冒的發(fā)生情況根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。例如:根據(jù)連續(xù)幾年春季的某個(gè)時(shí)間段的大量感冒病歷數(shù)據(jù)進(jìn)行分析,可以推測來年的感冒發(fā)生情況,如來年感冒發(fā)生的人群年齡范圍、證型分布、主要癥狀、并發(fā)疾病等;再如,對大量某一種疾病的病人在不同時(shí)間的情況進(jìn)行分析,可以獲取該疾病發(fā)展變化的趨勢,以及證的演變過程。這些都屬于中醫(yī)診斷預(yù)測型知識(shí)。1.5對偏差型知識(shí)的挖掘偏差型知識(shí)是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。偏差型知識(shí)的挖掘有助于發(fā)現(xiàn)不規(guī)則和變化,例如,對一組類似的陽虛患者進(jìn)行比較,可以找出不同于一般陽虛患者的一些病人,這些病人可能癥狀不典型,或者出現(xiàn)不符合常規(guī)的癥狀,對于此類信息的分析所獲取的知識(shí)為偏差型知識(shí)。掌握了偏差型知識(shí),在處理某些問題時(shí),就能夠有的放矢,如對一組陽虛患者的基本數(shù)據(jù)進(jìn)行比較,在比較之前,可對該組的不同因素進(jìn)行調(diào)整,以減少其不規(guī)則性對整個(gè)比較結(jié)果的影響。2證素辨證中的關(guān)系本研究平臺(tái)是以中醫(yī)的證素辨證體系為基礎(chǔ)進(jìn)行設(shè)計(jì)的。證素辨證是中醫(yī)診斷的一種方法。所謂證素,即辨證的基本要素,是通過對“證候”(癥狀、體征等)的辨識(shí),而確定的病位和病性,是構(gòu)成“證名”的基本診斷單元。證素辨證研究的核心問題是證素的確認(rèn),它是通過對臨床信息的認(rèn)識(shí)尋找構(gòu)成證的基本元素,它需要把握的是臨床信息基元,也就是當(dāng)一組癥狀群呈現(xiàn)出穩(wěn)定的相互關(guān)系,它所反映的是病位與病性的最小單位。而這種穩(wěn)定的相互關(guān)系的發(fā)現(xiàn)與確定,主要涉及證素決策方法研究與證素辨證中的關(guān)系研究。證素辨證方法的好壞,取決于其是否方便臨床使用。證素辨證中的關(guān)系主要包括證素與證候、證素之間、癥狀之間的關(guān)系。深入了解證素辨證中的各種關(guān)系,對疾病的診斷、病情轉(zhuǎn)歸的預(yù)測等有著舉足輕重的作用。臨床中,對疾病變化的認(rèn)識(shí)體現(xiàn)在對證的認(rèn)識(shí)上,而對證的認(rèn)識(shí)又是通過對證候的觀察,判斷疾病的病位與病性,病位與病性是與疾病密切相關(guān)的兩大要素,研究證候與證素在不同時(shí)間、不同條件下的關(guān)聯(lián)程度,可以讓醫(yī)生及早把握病病發(fā)展的方向[7,8,9,10,11,12,13,14]。通過對證素辨證研究要點(diǎn)的分析,本研究設(shè)計(jì)了一個(gè)基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái),主要內(nèi)容如下:2.1基于醫(yī)院臨床信息的數(shù)據(jù)庫建立通用病歷信息文件結(jié)構(gòu),整合數(shù)據(jù)挖掘工具,為開展基于信息科學(xué)的中醫(yī)診斷宏觀辨證研究搭建一個(gè)平臺(tái)。針對數(shù)據(jù)倉庫,整合多種類型的數(shù)據(jù)挖掘算法,并將數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作規(guī)范起來,為解決中醫(yī)領(lǐng)域問題的多樣性提供技術(shù)條件。通過這個(gè)技術(shù)平臺(tái),將會(huì)讓研究人員在高度共享的臨床信息的基礎(chǔ)上,應(yīng)用最新最科學(xué)的數(shù)據(jù)挖掘方法,解決好辨證論治的問題。同時(shí),密切與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)學(xué)科人員的交流,促進(jìn)中醫(yī)診斷學(xué)研究水平的快速提升。2.2數(shù)據(jù)的整合與分析本著方便、實(shí)用、可擴(kuò)展性強(qiáng)的設(shè)計(jì)理念,系統(tǒng)主要包括如下功能(如圖1所示):(1)結(jié)構(gòu)化的中醫(yī)電子病歷系統(tǒng);可有效地管理病歷數(shù)據(jù),并方便數(shù)據(jù)挖掘;(2)基本的統(tǒng)計(jì)功能;可支持研究者對數(shù)據(jù)庫的資料有一個(gè)總體的認(rèn)識(shí);(3)經(jīng)典算法集;通過整合各類優(yōu)秀的挖掘工具達(dá)到要求;(4)方便的病歷數(shù)據(jù)篩選,以支持研究者快速獲取特定目標(biāo)的數(shù)據(jù);(5)方便的可擴(kuò)展算法接口,可支持研究者自行加入針對中醫(yī)診斷專業(yè)的有效算法;(6)方便的數(shù)據(jù)格式轉(zhuǎn)換,以支持各類整合進(jìn)來的數(shù)據(jù)挖掘工具。其中,病歷信息文件結(jié)構(gòu)設(shè)計(jì)如下:一行為一個(gè)病人的記錄,每條記錄由8個(gè)字段構(gòu)成,字段之間以空格分開:(1)標(biāo)志:a_;病人身份信息:身份號(hào)碼;(2)標(biāo)志:b_;望聞問切診收集的病狀信息:癥狀字符串,長度為4的倍數(shù)(每一個(gè)癥狀信息為4位編碼);(3)標(biāo)志:c_;儀器檢查信息:標(biāo)識(shí)碼為區(qū)間中的任一個(gè),后接實(shí)際測量數(shù)據(jù)串,每一個(gè)數(shù)據(jù)由數(shù)據(jù)類型編號(hào)+數(shù)據(jù)實(shí)測值,數(shù)據(jù)之間一以“#”號(hào)隔離開字符號(hào);(4)標(biāo)志:d_;中醫(yī)診斷結(jié)果:辨證結(jié)果,為證型術(shù)語的編碼(有標(biāo)準(zhǔn)按標(biāo)準(zhǔn),無標(biāo)準(zhǔn)要建立標(biāo)準(zhǔn));(5)標(biāo)志:e_;西醫(yī)診斷結(jié)果:按ICD-10疾病編碼;(6)標(biāo)志:f_;處方:一位處方識(shí)別碼:0標(biāo)準(zhǔn)中藥方劑+/-中藥,1中成藥、2西藥;(7)標(biāo)志:g_;初復(fù)診標(biāo)志:兩位,00:表示初診,01~99表示復(fù)診的次數(shù);(8)標(biāo)志:h_;醫(yī)生:身份號(hào)碼。通過上述結(jié)構(gòu)的病歷信息文件,便于數(shù)據(jù)交換,如,生成中間文件,供SVM或ROUGHSETS程序使用:根據(jù)用戶需求自動(dòng)建立LIBSVM用訓(xùn)練集與測試集、根據(jù)用戶需求自動(dòng)建立ROSETTA軟件用決策表、調(diào)用LIBSVM和ROSETTA軟件的接口函數(shù)等。2.3表達(dá)復(fù)雜中醫(yī)信息的系數(shù)據(jù)庫見表3以Caché數(shù)據(jù)庫作為技術(shù)支持進(jìn)行設(shè)計(jì),因?yàn)樗鼘⒈汝P(guān)系數(shù)據(jù)庫(如:Orecal、SQLServer等)能更好地表達(dá)復(fù)雜的中醫(yī)信息。下面給出一個(gè)利用Caché技術(shù)初步設(shè)計(jì)的一個(gè)數(shù)據(jù)庫(如圖2所示),主要內(nèi)容如下:2.3.1主要電子疾病“err”以一個(gè)類核心。一條記錄為某人一個(gè)時(shí)間的病人診療信息的記錄,如表1所示。2.3.2醫(yī)生的“門診”和疾病患者的“patint”這兩個(gè)類繼承于人類“Person”,人類里面嵌入了地址類“Address”。2.3.3兩形形“wrale”病狀類“Symptoms”,證素類“Items”,中醫(yī)診斷結(jié)果類“CResults”,中醫(yī)治則類“CRules”,西醫(yī)治則類“WRules”:這5個(gè)類屬于中間類,Emr和他們建立1對多的關(guān)系,EMR為1方,他們?yōu)槎喾健K麄冏陨聿槐4嫒魏沃?每一個(gè)對應(yīng)要素的值和代碼都是引用到相應(yīng)的字典類的具體的值。所以,這5個(gè)類里面存的是2個(gè)指針,一個(gè)是指向Emr類,一個(gè)是指向?qū)?yīng)的字典類。統(tǒng)計(jì)的時(shí)候,可以在這5個(gè)類上建立位圖索引,然后在這5個(gè)類上統(tǒng)計(jì)(暫時(shí)沒有加位圖索引,統(tǒng)計(jì)模塊也沒有加)。2.3.4simptoms,simptoms,gDcresult→中醫(yī)診斷結(jié)果類“CResults”的字典類Ditem→證素類“Items”的字典類Dsymp→病狀類“Symptoms”的字典類Dwrule→西醫(yī)治則類“WRules”的字典類2.3.5各品種、不同的學(xué)習(xí)內(nèi)容和查詢的高包含兩個(gè)方法:Init→初始化GetClassObject→獲取某個(gè)類隨機(jī)的一個(gè)實(shí)例該數(shù)據(jù)庫設(shè)計(jì)的優(yōu)勢主要有:節(jié)約空間——中間類一般是值的數(shù)目最多的,因?yàn)槊總€(gè)病歷如果有30個(gè)病狀,100個(gè)病歷,那么病狀的中間類將有3000個(gè)實(shí)例,但是因?yàn)橹淮嬷羔?空間節(jié)約很大;查詢的高效率——全部都采用對象之間的關(guān)系,很大程度避免了主鍵匹配帶來的效率問題;有利于統(tǒng)計(jì);所有內(nèi)容都是按元素存貯,挖掘十分方便。3基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)診斷研究實(shí)驗(yàn)平臺(tái)將進(jìn)一步完善中醫(yī)臨床積累的信息很多,數(shù)據(jù)類型及相互關(guān)系錯(cuò)綜復(fù)雜,在研究某些問題時(shí),如果只有分析技術(shù)而無相應(yīng)的外圍技術(shù)配合,工作難度更大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論