下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 臨床數(shù)據(jù)挖掘中應(yīng)用的olap技術(shù) 王道本文討論了數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),在線交易處理系統(tǒng)(olap)的概念,以及從oltp中提取數(shù)據(jù)的問(wèn)題。同時(shí)也闡述了oltp的數(shù)據(jù)模型,以及在這些空間模型中的量值和緯度的概念。醫(yī)療管理部門(mén)、醫(yī)療監(jiān)測(cè)部門(mén)、醫(yī)院、醫(yī)療保險(xiǎn)公司等機(jī)構(gòu)每天都可能要處理數(shù)百萬(wàn)條的醫(yī)療數(shù)據(jù),因此都需要使用到醫(yī)療衛(wèi)生保健數(shù)據(jù)。這些醫(yī)療機(jī)構(gòu)對(duì)處理這種醫(yī)療數(shù)據(jù)是比較熟悉的,不過(guò)卻不擅長(zhǎng)對(duì)這些數(shù)據(jù)進(jìn)行深入的分析。臨床醫(yī)療數(shù)據(jù)的數(shù)據(jù)量、復(fù)雜性和安全性對(duì)臨床醫(yī)療數(shù)據(jù)的分析造成了很大的挑戰(zhàn)。值得一提的是,處理醫(yī)療數(shù)據(jù)和分析醫(yī)療數(shù)據(jù)之間的存在著巨大差異。臨
2、床數(shù)據(jù)挖掘系統(tǒng)是基于信息共享平臺(tái)的soa開(kāi)放式構(gòu)架,為醫(yī)療機(jī)構(gòu)提供智能化臨床數(shù)據(jù)挖掘與管理決策支持功能。對(duì)于信息的展示方式,臨床數(shù)據(jù)挖掘系統(tǒng)采用報(bào)表、各類(lèi)統(tǒng)計(jì)圖、趨勢(shì)分析圖和儀表盤(pán)(dashboard)等技術(shù),把重要的決策支持信息整合在一起,便于綜合判斷決策。同時(shí),臨床數(shù)據(jù)挖掘系統(tǒng)需要從數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建開(kāi)始。醫(yī)療數(shù)據(jù)的特點(diǎn)及數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的是大量的醫(yī)療數(shù)據(jù),醫(yī)療數(shù)據(jù)具有如下特點(diǎn)。1. 醫(yī)療數(shù)據(jù)的隱私性(privacy)醫(yī)療數(shù)據(jù)不可避免的涉及到患者的一些隱私信息,當(dāng)這些隱私信息使患者在日常生活中遭遇到不可預(yù)料的侵?jǐn)_時(shí),就產(chǎn)生了侵犯患者隱私的問(wèn)題。醫(yī)療數(shù)據(jù)挖掘者有義務(wù)和責(zé)任在保護(hù)患者隱私
3、的基礎(chǔ)上進(jìn)行科學(xué)研究,并且確保這些醫(yī)療數(shù)據(jù)的安全性和機(jī)密性。2. 醫(yī)療數(shù)據(jù)的多樣性由于醫(yī)療數(shù)據(jù)是從醫(yī)學(xué)影像、實(shí)驗(yàn)數(shù)據(jù)以及醫(yī)生與患者的交流中獲得的,所以原始的醫(yī)療數(shù)據(jù)具有多種形式。醫(yī)療數(shù)據(jù)的多樣性是它區(qū)別于其它領(lǐng)域數(shù)據(jù)的最顯著特征。3. 醫(yī)療數(shù)據(jù)的不完整性醫(yī)療數(shù)據(jù)的搜集和處理過(guò)程經(jīng)常相互脫節(jié),這使得醫(yī)療數(shù)據(jù)庫(kù)不可能對(duì)任何疾病信息都能全面的反映。4.醫(yī)療數(shù)據(jù)的冗余性醫(yī)療數(shù)據(jù)庫(kù)是一個(gè)龐大的數(shù)據(jù)資源,每天都會(huì)有大量的記錄存儲(chǔ)到數(shù)據(jù)庫(kù)中,其中可能會(huì)包含重復(fù)的、無(wú)關(guān)緊要的、甚至是相互矛盾的記錄。此外,醫(yī)療數(shù)據(jù)還具有時(shí)間性特征。數(shù)據(jù)倉(cāng)庫(kù)是支持決策過(guò)程的、面向主題的、集成的、與時(shí)間有關(guān)的、持久的數(shù)據(jù)集合,它以
4、傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)作為存儲(chǔ)數(shù)據(jù)和管理資源的基本手段,以統(tǒng)計(jì)分析技術(shù)作為分析數(shù)據(jù)和提取信息的有效方法,以人工智能技術(shù)作為挖掘知識(shí)和發(fā)現(xiàn)規(guī)律的科學(xué)途徑,是與網(wǎng)絡(luò)通信技術(shù)、面向?qū)ο蠹夹g(shù)、并行技術(shù)、多媒體技術(shù)、人工智能技術(shù)等相互滲透、互相結(jié)合與綜合應(yīng)用的技術(shù)。創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),是從已有數(shù)據(jù)出發(fā)的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)方法,稱(chēng)之為“數(shù)據(jù)驅(qū)動(dòng)”的系統(tǒng)設(shè)計(jì)方法,它的基本思路是:利用以前建設(shè)的數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù),按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考慮,組織數(shù)據(jù)倉(cāng)庫(kù)中的主題,利用數(shù)據(jù)模型有效的識(shí)別數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中的主題數(shù)據(jù)的“共同性”(即建立主題間相互聯(lián)系的屬性)。構(gòu)建一個(gè)數(shù)據(jù)倉(cāng)庫(kù)需要完成抽取主題、組織數(shù)據(jù)、獲取與集成數(shù)據(jù)
5、和建立應(yīng)用。湖南省第二人民醫(yī)院的臨床數(shù)據(jù)挖掘與管理決策支持系統(tǒng)將在數(shù)據(jù)倉(cāng)庫(kù)上展開(kāi)。在線分析處理系統(tǒng)(olap)通常情況下,臨床醫(yī)生和醫(yī)療管理者等醫(yī)療數(shù)據(jù)的最終使用用戶都不得不依賴(lài)于程序來(lái)將自己的需求翻譯成程序查詢語(yǔ)言后,才能使用醫(yī)療數(shù)據(jù)。由于數(shù)據(jù)提取過(guò)程非常復(fù)雜,因此臨床醫(yī)生和醫(yī)療管理者很少能夠直接訪問(wèn)到原始數(shù)據(jù)。olap數(shù)據(jù)庫(kù)在結(jié)構(gòu)和使用方法上與關(guān)系數(shù)據(jù)庫(kù)有所不同。關(guān)系數(shù)據(jù)庫(kù)在結(jié)構(gòu)上主要圍繞“表”、“視圖”和“查詢”這些關(guān)系數(shù)據(jù)庫(kù)中的基本數(shù)據(jù)術(shù)語(yǔ)來(lái)解決相關(guān)的數(shù)據(jù)庫(kù)問(wèn)題。與其形成對(duì)照的是,olap數(shù)據(jù)庫(kù)的結(jié)構(gòu)圍繞著維度和量值來(lái)設(shè)計(jì)解決相關(guān)的數(shù)據(jù)庫(kù)問(wèn)題。關(guān)系數(shù)據(jù)庫(kù)的首要問(wèn)題是保存數(shù)據(jù),olap數(shù)
6、據(jù)庫(kù)的設(shè)計(jì)是以快速和有效的方法來(lái)重新獲取數(shù)據(jù)。olap數(shù)據(jù)庫(kù)的使用界面與關(guān)系數(shù)據(jù)庫(kù)的使用界面是完全不同的。多數(shù)普通的olap使用者界面是excel表格,可以自動(dòng)將數(shù)據(jù)排列到表格的行和列中。大多數(shù)臨床和醫(yī)療管理者是熟悉excel的,且有一定的電子制表軟件的使用經(jīng)驗(yàn),經(jīng)過(guò)短期的培訓(xùn)就可以使用olap系統(tǒng)。olap數(shù)據(jù)庫(kù)中,自己的設(shè)計(jì)方法是最重要的。一個(gè)好的olap數(shù)據(jù)庫(kù)的設(shè)計(jì)首先要定義更多的方法來(lái)報(bào)告項(xiàng)目,這些項(xiàng)目應(yīng)保持正確性和一致性。例如,一個(gè)“內(nèi)科醫(yī)生訪視”項(xiàng)目可以定義為僅包括診室內(nèi)的訪視,也可以包括整個(gè)醫(yī)院內(nèi)或者急診部門(mén)的訪視。一旦定義的項(xiàng)目達(dá)成統(tǒng)一,就可以通過(guò)選擇合適的cpt編碼定義量度,
7、使用者今后將使用“內(nèi)科醫(yī)生訪視”量度,而不用擔(dān)心它的定義。為了創(chuàng)建這些定義,需要徹底理解這些數(shù)據(jù)和可能使用的數(shù)據(jù),這些在設(shè)計(jì)olap數(shù)據(jù)庫(kù)時(shí)是最基礎(chǔ)的。olap數(shù)據(jù)庫(kù)通常比關(guān)系數(shù)據(jù)庫(kù)更容易升級(jí),體現(xiàn)了它適應(yīng)數(shù)據(jù)增長(zhǎng)的能力。關(guān)系數(shù)據(jù)庫(kù)的大小依賴(lài)于記錄的數(shù)目,而olap數(shù)據(jù)庫(kù)的大小則由將被報(bào)告的數(shù)據(jù)信息類(lèi)型來(lái)定義。另外,olap數(shù)據(jù)庫(kù)也可以事先集合數(shù)據(jù),來(lái)完成使用者希望詢問(wèn)的一些數(shù)據(jù)結(jié)合的結(jié)果。這些事實(shí)表明,olap數(shù)據(jù)結(jié)構(gòu)比關(guān)系數(shù)據(jù)結(jié)構(gòu)有更有效的儲(chǔ)藏能力,olap模型可以適應(yīng)包括百萬(wàn)條記錄在內(nèi)的數(shù)據(jù)庫(kù),也可以在幾秒鐘內(nèi)響應(yīng)查詢要求。olap數(shù)據(jù)庫(kù)可以被看作是一個(gè)“立方體”,因?yàn)榫S度是可以被組合的
8、。立方體結(jié)構(gòu)推近了數(shù)據(jù)的分組和摘要,而關(guān)系數(shù)據(jù)庫(kù)則不能產(chǎn)生這種效果。所有立方體的參數(shù)基于組成立方體的量度和維度。使用者不需要擔(dān)心分組、集合、計(jì)算總數(shù)或者其他的數(shù)據(jù)庫(kù)操作,而僅僅需要掌握立方體的設(shè)計(jì)過(guò)程。設(shè)計(jì)olap立方體1. 如何構(gòu)建一個(gè)立方體一個(gè)olap立方體是基于維度和量度設(shè)計(jì)的。在立方體建立之前,維度就已經(jīng)建立了,而且一些“共享維度”可以在很多立方體中共享。一旦共享維度設(shè)計(jì)好,立方體就可以從實(shí)際表中構(gòu)建了。量度是從實(shí)際表中識(shí)別,維度表是通過(guò)在數(shù)據(jù)庫(kù)設(shè)計(jì)中確定的外鍵連接實(shí)際表。計(jì)算量度可以使用立方體中的基礎(chǔ)量度演算出來(lái)。多重的立方體可以結(jié)合到一個(gè)“虛擬立方體”,允許含有多重的“商業(yè)元素”。
9、最后,創(chuàng)建立方體的安全性也非常重要,以保證只有授權(quán)用戶才可以使用立方體。2. 創(chuàng)立立方體維度維度是從創(chuàng)建在數(shù)據(jù)庫(kù)中的維度表中設(shè)計(jì)的。每個(gè)維度表包括一個(gè)主鍵,用來(lái)連接實(shí)際表的維度,也包含用來(lái)創(chuàng)建層次和屬性的維度的信息。在多數(shù)情況下,維度都被設(shè)計(jì)成共享維度,這意味著它們可以被許多立方體共享。如果維度表在關(guān)系數(shù)據(jù)庫(kù)中恰當(dāng)?shù)拇_定,它們就可以直接裝載成共享維度,然后由定義層次和少許的附加效果來(lái)確定。所有維度必須在創(chuàng)建立方體之前完成。3. 設(shè)計(jì)立方體當(dāng)維度表裝載完成后,就要?jiǎng)?chuàng)建立方體。立方體的中心是連接各個(gè)維度表的實(shí)際表。當(dāng)指定完實(shí)際表后,就可以增加維度表。如果共享維度表已經(jīng)創(chuàng)建了,它們就更容易增加,而且
10、可以自動(dòng)連接到實(shí)際表。當(dāng)立方體創(chuàng)建完成時(shí),實(shí)際表已經(jīng)被指定了,從實(shí)際表的量度將被引用到立方體設(shè)計(jì)的量度部分。維度通過(guò)設(shè)計(jì)器維度部分的右鍵增加,現(xiàn)有的維度可以被選擇并加入到立方體。立方體編輯器中可以使用關(guān)鍵詞將維度表連接到實(shí)際表,但是如果維度表關(guān)鍵詞的名字與實(shí)際表字段不相配時(shí),必須手工連接。注意這個(gè)連接并不依照外鍵自動(dòng)創(chuàng)建,實(shí)際上立方體編輯器是將維度表的字段和實(shí)際表相應(yīng)的名字創(chuàng)建連接。這可以解決不必要或者不正確的連接。立方體建立后,它們就開(kāi)始處理數(shù)據(jù)了。這里的處理有兩步“集合體設(shè)計(jì)”和實(shí)際的立方體創(chuàng)建進(jìn)程。集合體設(shè)計(jì)可以用來(lái)改善立方體的性能,但同時(shí)也增加了處理需要的時(shí)間和立方體使用的磁盤(pán)空間。正
11、確的解決方法是在這兩項(xiàng)中進(jìn)行平衡。olap在數(shù)據(jù)挖掘中的應(yīng)用1. 提取、轉(zhuǎn)移和下載數(shù)據(jù)第一步是從oltp系統(tǒng)(聯(lián)機(jī)事務(wù)處理系統(tǒng))中提取數(shù)據(jù),轉(zhuǎn)移到包含分析數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)中,并以可以使用的格式裝載到數(shù)據(jù)倉(cāng)庫(kù)中。2.“清潔”數(shù)據(jù)未編輯或者未加工的數(shù)據(jù)經(jīng)常包括大量的不完整性數(shù)據(jù),對(duì)分析結(jié)果沒(méi)有用處。因此,在對(duì)數(shù)據(jù)進(jìn)行編輯之前,要對(duì)數(shù)據(jù)進(jìn)行處理,來(lái)保證數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)環(huán)境時(shí)是合適的。需要糾正的錯(cuò)誤包括:去除空值、在字段內(nèi)去除空格、修改日期、創(chuàng)建正確的數(shù)據(jù)類(lèi)型、為相同的服務(wù)合并相同的要求、去除多重的患者號(hào)碼。3. 統(tǒng)一分析數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一旦數(shù)據(jù)裝載到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)倉(cāng)庫(kù)就被定義成olap立方體需要的維度和量度。4. 發(fā)展查詢表除了數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)要求外,還有許多附加表必須加入到分析數(shù)據(jù)庫(kù)中,以提供有用的報(bào)告,包括ibnr要素、提供者查詢表等等。每個(gè)表必須完整的加入到數(shù)據(jù)倉(cāng)庫(kù),以便在報(bào)告時(shí)能夠包括完整的信息。5. 數(shù)據(jù)挖掘最后,數(shù)據(jù)挖掘技術(shù)可以通過(guò)發(fā)現(xiàn)數(shù)據(jù)的模式處理大量數(shù)據(jù),包括許多維度,并使用很多運(yùn)算法則來(lái)識(shí)別一些因素。臨床數(shù)據(jù)挖掘系統(tǒng)采用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度床上用品行業(yè)數(shù)據(jù)共享與分析合同3篇
- 2024石料批發(fā)市場(chǎng)運(yùn)營(yíng)與管理采購(gòu)合同3篇
- 2024熟料綠色采購(gòu)與節(jié)能減排合作協(xié)議3篇
- 2025年會(huì)展中心場(chǎng)地租賃分成及會(huì)展服務(wù)合同3篇
- 二零二五年度餐飲企業(yè)冷鏈物流配送合同9篇
- 2024年高性能電動(dòng)汽車(chē)交易協(xié)議一
- 專(zhuān)項(xiàng)不良資產(chǎn)盡職調(diào)查服務(wù)協(xié)議版
- 2024稅務(wù)代理委托合同樣本
- 2024離婚協(xié)議范本及注意事項(xiàng)
- 2025年健康醫(yī)療大數(shù)據(jù)分析承包合同2篇
- MT/T 199-1996煤礦用液壓鉆車(chē)通用技術(shù)條件
- GB/T 6144-1985合成切削液
- GB/T 10357.1-2013家具力學(xué)性能試驗(yàn)第1部分:桌類(lèi)強(qiáng)度和耐久性
- 第三方在線糾紛解決機(jī)制(ODR)述評(píng),國(guó)際商法論文
- 第5章-群體-團(tuán)隊(duì)溝通-管理溝通
- 腎臟病飲食依從行為量表(RABQ)附有答案
- 深基坑-安全教育課件
- 園林施工管理大型園林集團(tuán)南部區(qū)域養(yǎng)護(hù)標(biāo)準(zhǔn)圖例
- 排水許可申請(qǐng)表
- 低血糖的觀察和護(hù)理課件
- 計(jì)量檢定校準(zhǔn)技術(shù)服務(wù)合同協(xié)議書(shū)
評(píng)論
0/150
提交評(píng)論