版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘技術在中醫(yī)小兒肺炎辨證規(guī)范中的應用【摘要】以小兒肺炎為例,采用數(shù)據(jù)挖掘技術建立中醫(yī)小兒肺炎辨證規(guī)范,并與“十五”前期的小兒肺炎辨證規(guī)范進行對比分析,以期為數(shù)據(jù)挖掘技術在中醫(yī)辨證規(guī)范化方面做出貢獻。
【關鍵詞】辨證規(guī)范數(shù)據(jù)挖掘小兒肺炎
傳統(tǒng)的中醫(yī)診斷疾病包括辨病和辨證兩部分。辨證是中醫(yī)學中最富有特色的科學精華,也是中醫(yī)診斷學的主要研究內(nèi)容。中醫(yī)辨證標準的研究,對于發(fā)展中醫(yī)理論及提高臨床診治水平,具有極其重要的意義。目前,中醫(yī)學尚缺乏公認的中醫(yī)辨證規(guī)范。已經(jīng)出現(xiàn)的中醫(yī)辨證的方法多采用統(tǒng)計方法和邏輯分析方法,但受人為經(jīng)驗因素的影響,難以擺脫傳統(tǒng)的經(jīng)驗模式。本文以小兒肺炎為例,提出運用數(shù)據(jù)挖掘技術,通過數(shù)據(jù)預處理、數(shù)據(jù)挖掘、挖掘結果處理,從而建立中醫(yī)小兒肺炎辨證規(guī)范。
1中醫(yī)小兒肺炎辨證規(guī)范數(shù)據(jù)挖掘的相關技術
數(shù)據(jù)挖掘是在大量的數(shù)據(jù)中自動發(fā)現(xiàn)有用的信息的過程,是知識發(fā)現(xiàn)的一部分。運用數(shù)據(jù)挖掘技術進行知識發(fā)現(xiàn)的過程如圖1所示。
1.1數(shù)據(jù)預處理
在進行數(shù)據(jù)挖掘之前必須要經(jīng)過數(shù)據(jù)預處理。數(shù)據(jù)預處理的任務是將現(xiàn)有的數(shù)據(jù)集轉(zhuǎn)換成符合挖掘算法要求的集中的數(shù)據(jù)集。預處理工作主要通過以下步驟完成:從多個數(shù)據(jù)源中進行數(shù)據(jù)的匯集;去掉噪聲數(shù)據(jù)和重復數(shù)據(jù);進行屬性選擇,可以采用交互的方式讓用戶自己進行屬性篩選,去掉那些與挖掘工作無關的屬性;維度約簡,可以通過某些技術,例如粗糙集技術,約簡掉那些對決策不重要的屬性;數(shù)據(jù)規(guī)范化處理,最終得到符合挖掘要求的數(shù)據(jù)集。由于數(shù)據(jù)集可能來自各種不同的途徑,因此數(shù)據(jù)預處理過程是整個知識發(fā)現(xiàn)過程中最耗費時間的步驟。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘過程就是根據(jù)挖掘人物的不同,選擇不同算法進行數(shù)據(jù)分析的過程,主要的算法包括關聯(lián)規(guī)則算法、聚類算法、時間序列分析算法。
1.2.1關聯(lián)規(guī)則
數(shù)據(jù)庫中關聯(lián)規(guī)則的挖掘可形式地定義為
設I={i1,i2,…im}是所有項目的集合,即數(shù)據(jù)庫中的所有字段;D是所有事務的集合,即數(shù)據(jù)庫;每個事務T是一些項目的集合,T包含在I中,每個事務可以用唯一的標識符TID來表示。設X為某些項目的集合,如果X?哿T,則稱事務T包含X。關聯(lián)規(guī)則表示為:XY,其中,XI,YI,X∩Y=。關聯(lián)模型主要描述了一組數(shù)據(jù)項目的密切度或關系。
1.2.2聚類算法
聚類就是把整個數(shù)據(jù)分成不同的組,并使組與組之間的差距盡可能地大,組內(nèi)數(shù)據(jù)的差異盡可能地小。聚類分析時數(shù)據(jù)集合的特征是未知的。聚類根據(jù)一定的聚類規(guī)則,將具有某種相同特征的數(shù)據(jù)聚在一起,也稱為無監(jiān)督學習。聚類的數(shù)學描述如下所示:給定數(shù)據(jù)集合V={νi|i=1,2,…n},其中νi為數(shù)據(jù)對象,根據(jù)對象間的相似度將數(shù)據(jù)集合分成k組,并滿足:{Cj|j=1,2,…k},其中CiV;Ci∩Cj=∪ki=1Ci=V,則該過程稱為聚類,Ci稱為簇。
1.2.3時間序列分析
時間序列是指系統(tǒng)中某一變量的觀測值按時間順序排列成一個數(shù)值序列,展示研究對象在一定時期內(nèi)的變動過程,從中尋找和分析事物的變化特征、發(fā)展趨勢和規(guī)律。它是系統(tǒng)中某一變量受其他各種因素影響的總結果。研究時間序列的實質(zhì)是通過處理預測目標本身的時間序列數(shù)據(jù),獲得事物隨時間過程的演變特性與規(guī)律,進而預測事物的未來發(fā)展。
1.2.4粗糙集
粗糙集理論[2]由波蘭科學家Z.Pawlak在1982年提出。它是一種刻劃不完整性和不確定性的數(shù)學工具,能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對數(shù)據(jù)進行分析和推理[3],從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。粗糙集中的一個特點就是對于所需處理的問題無需先驗知識,因此具有相當?shù)目陀^性。目前,粗糙集理論已經(jīng)被成功地應用于挖掘?qū)傩砸蕾嚩群蛯傩约s簡。
1.3挖掘結果處理
經(jīng)過數(shù)據(jù)挖掘之后得到的信息是一些數(shù)據(jù),并不能直接幫助用戶進行決策,需要將挖掘結果進行集成或可視化處理,確保將有效、有用的信息呈現(xiàn)出來,或者從多個不同角度進行數(shù)據(jù)分析和
挖掘結果的分析。
2中醫(yī)小兒肺炎辨證規(guī)范數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)
中醫(yī)小兒肺炎數(shù)據(jù)挖掘系統(tǒng)是在前期“十五”攻關課題“小兒肺炎中醫(yī)證治規(guī)律研究”的研究成果基礎上,通過1000例小兒肺炎前瞻性臨床研究建立計算機數(shù)據(jù)處理平臺,應用數(shù)據(jù)挖掘技術,客觀建立中醫(yī)辨證規(guī)范、療效評價指標和方法體系。通過臨床信息采集和數(shù)據(jù)挖掘,將重新確認小兒肺炎證型的分布;各證型癥狀的基本構成;確認癥狀間的關聯(lián)關系;確認癥狀對病證診斷和療效評價的貢獻率以及證型之間的轉(zhuǎn)換規(guī)律。系統(tǒng)的處理流程如圖2所示。
2.1數(shù)據(jù)預處理
在進行數(shù)據(jù)挖掘之前,必須經(jīng)過數(shù)據(jù)預處理。在本系統(tǒng)中,數(shù)據(jù)預處理完成的任務包括數(shù)據(jù)導入、缺失值處理、數(shù)據(jù)規(guī)范化處理、異常數(shù)據(jù)處理、屬性約簡、數(shù)據(jù)分割。
2.2數(shù)據(jù)挖掘過程
2.2.1聚類分析得到小兒肺炎證型的分布和癥狀構成
系統(tǒng)中挖掘工作的第一步是進行聚類分析。聚類過程是一個無指導地將對象進行歸類的過程。
聚類的結果包括以下兩部分
證的分布。證的分布指的是疾病證型的構成,很明顯這是一個無指導的過程。聚類的結果形成多個簇,每個簇就是所說的證。證的命名通過與專家的交互,完成了辨證標準的客觀功能部分。
證的構成。聚類后,每個證包含了若干癥狀向量,可以得到每個證的癥狀構成情況。
2.2.2關聯(lián)規(guī)則分析得到癥狀間的關聯(lián)關系
關聯(lián)規(guī)則分析是在聚類挖掘的基礎之上,在每個不同的證型中進行關聯(lián)規(guī)則挖掘,得到每個證的癥狀之間的關聯(lián)關系。中醫(yī)小兒肺炎數(shù)據(jù)的層次關系可用圖4表示。
系統(tǒng)中數(shù)據(jù)具有層次關系。在進行挖掘時,一方面,可以在最上層,即癥狀級,例如發(fā)熱、咳嗽、氣促這樣的級別中進行挖掘,尋找關聯(lián)關系;另一方面,也可以在具體的層次中進行挖掘,例如在稽留熱、弛張熱、間歇熱、劇烈咳嗽、咳聲無力、咳聲重濁、氣急、鼻煽、呼吸困難等這些具體的癥狀表現(xiàn)層次上進行挖掘,得到不同層次的不同的挖掘結果。通過關聯(lián)規(guī)則分析,得到癥狀之間的關聯(lián)關系。
2.2.3粗糙集屬性重要度計算癥狀對證的貢獻率
屬性的重要度[4]是指在一個信息系統(tǒng)中,不同的條件屬性對于決策屬性所起的作用是不同的。有些條件屬性可能對于決策屬性的取值起著重要作用,但有些可能不起作用。
用屬性的重要度來表示條件屬性對于決策屬性的影響程度,可以采用分別去掉各個屬性后,檢測整個信息系統(tǒng)是否因為去掉了這個屬性而導致了分類或決策結果發(fā)生了變化。若是,則這個屬性對于這個決策屬性是重要的,計算的值越大,重要性越大;反之,這個屬性不是重要的,計算出的值就小。dB-B’=rB-rB-B’,其中rB=■,屬性子集B’?B,POSB為正域,card為該集合的元素的基數(shù)。
2.2.4時間序列分析挖掘出證的變化規(guī)律
系統(tǒng)收錄了每個病人在整個病程中每天的病情數(shù)據(jù),構成了一個帶有時序的序列。對這些序列進行分析,獲得證隨時間過程的演變特性與規(guī)律。
2.3挖掘結果的驗證
為驗證挖掘結果,將從1000例樣本數(shù)據(jù)中隨機取出200例數(shù)據(jù)作為驗證數(shù)據(jù),用于多種辨證標準的驗證測試。這200例驗證數(shù)據(jù)將不參與數(shù)據(jù)挖掘,僅僅用于辨證標準的驗證。為保證驗證結果的可信度,將按照同年齡兒童中小兒肺
炎的患病率,通過采集非小兒肺炎兒童的數(shù)據(jù),將其與200例驗證數(shù)據(jù)混合構成混合樣本數(shù)據(jù)集。據(jù)統(tǒng)計,同年齡兒童中小兒肺炎的患病率為10%左右,這樣將采集2000例非小兒肺炎兒童的數(shù)據(jù),構成2200例數(shù)據(jù)組成的驗證數(shù)據(jù)及用于辨證標準的驗證,認為這一數(shù)據(jù)量基本能夠滿足需要。
2.3.1驗證處理
經(jīng)過數(shù)據(jù)挖掘處理后,可以得到挖掘的辨證標準、各證所屬癥狀的劃分方法以及具體癥狀的量化賦分方法。這樣系統(tǒng)具有四種辨證或診斷標準
《中醫(yī)病證診斷和療效標準》等確立的小兒肺炎辨證標準和各證所屬癥狀二級劃分方法以及具體癥狀的量化賦分方法。
進行小兒肺炎辨證規(guī)范和療效評價方法研究之初,先期在邏輯判斷基礎上建立第二套辨證標準。該標準針對小兒肺炎中醫(yī)各證的癥狀,依據(jù)各自對病證診斷的貢獻情況分為特異癥狀、主要癥狀和次要癥狀三級。并對復合癥狀、注釋性癥狀、極端癥狀、起鑒別作用癥狀、不宜作為療效判定癥狀等做出說明和處理,借以對每個癥狀的程度水平進行三級量化處理。
西醫(yī)的診斷標準,包括小兒肺炎臨床表現(xiàn):呼吸系統(tǒng)、循環(huán)系統(tǒng)、神經(jīng)系統(tǒng)、消化系統(tǒng)以及并發(fā)證;小兒肺炎實驗室檢查:病原學檢查、外周血檢查、X線檢查等。
數(shù)據(jù)挖掘的辨證標準。數(shù)據(jù)挖掘的辨證標準主要包括辨證指標以及具體癥狀的量化賦分方法。辨證指標包括關聯(lián)挖掘、時序挖掘、聚類挖掘??梢酝诰虺鼍唧w癥狀的量化賦分方法。4種辨證標準分別在驗證數(shù)據(jù)庫中進行測試,得出客觀度對比表,同時構造出整體的客觀度曲線。如圖5所示。
2.3.2優(yōu)化辨證標準
比較4套標準之間、3套辨證標準與西醫(yī)診斷標準之間在病證診斷方面的符合情況,修正各證構成比、癥狀對證診斷的貢獻率等;確定客觀的量化方法,形成新的分級量化表,最終建立小兒肺炎辨證規(guī)范和方法體系。
2.3.3建立輔助診斷系統(tǒng)
在客觀辨證標準的基礎上,設計輔助診斷系統(tǒng),輔助專家對小兒肺炎各證進行科學的診斷。
3結論
利用數(shù)據(jù)挖掘技術進行中醫(yī)辨證規(guī)范的研究具有重要意義和挑戰(zhàn)性。中醫(yī)海量的病例數(shù)據(jù)為挖掘工作提供了很好的研究基礎,中醫(yī)復雜的癥狀間的關系和證型間的變化為研究提出了挑戰(zhàn)。數(shù)據(jù)挖掘過程是一個需要人機交互、多次反饋修正的過程,高質(zhì)量的數(shù)據(jù)、相應算法的合理參數(shù)是有效挖掘的基礎。運用數(shù)據(jù)挖掘技術建立中醫(yī)小兒肺炎辯證規(guī)范,必將為促進中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智慧安全政務云數(shù)據(jù)中心整體解決方案
- 某文旅景區(qū)概念性策略-策劃案例
- 《治安管理處罰法》知識競賽參考試題庫150題(含答案)
- 2025年武漢鐵路職業(yè)技術學院高職單招職業(yè)適應性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年無錫城市職業(yè)技術學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年曹妃甸職業(yè)技術學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 新型航空器的研發(fā)與應用
- 物業(yè)公司管理完整方案及體系
- 數(shù)字出版敘事的量化方式及應用初探
- 基于CiteSpace的我國護理學歷繼續(xù)教育研究熱點分析
- 2025年度廚師職業(yè)培訓學院合作辦學合同4篇
- 《組織行為學》第1章-組織行為學概述
- 市場營銷試題(含參考答案)
- 2024年山東省泰安市高考物理一模試卷(含詳細答案解析)
- 護理指南手術器械臺擺放
- 腫瘤患者管理
- 四川省成都市高新區(qū)2024年七年級上學期語文期末試卷【含答案】
- 2025年中國航空部附件維修行業(yè)市場競爭格局、行業(yè)政策及需求規(guī)模預測報告
- 國土空間生態(tài)修復規(guī)劃
- 2024年醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范培訓課件
- DB11T 1136-2023 城鎮(zhèn)燃氣管道翻轉(zhuǎn)內(nèi)襯修復工程施工及驗收規(guī)程
評論
0/150
提交評論