醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)_第1頁
醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)_第2頁
醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)_第3頁
醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)_第4頁
醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、醫(yī)療大數(shù)據(jù)及相關(guān)技術(shù)介紹翟運開 博士/副教授河南省數(shù)字醫(yī)療工程技術(shù)研究中心 副主任數(shù)字化遠程醫(yī)療服務(wù)河南省工程實驗室 副主任鄭州大學(xué)第一附屬醫(yī)院 河南省遠程醫(yī)學(xué)中心 主任中國衛(wèi)生信息學(xué)會遠程醫(yī)療信息化專業(yè)委員會 常委/秘書長目錄大數(shù)據(jù)簡介大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)挖掘大數(shù)據(jù)平臺摩爾定律,正在走向終結(jié)摩爾定律:集成電路芯片上所集成的電路的數(shù)目,每隔18個月就翻一番,同時性能也提升一倍單芯片容納晶體管的增加,對制造工藝提出要求CPU制造18nm技術(shù),電子泄漏問題CPU主頻已達3GHz時代,難以繼續(xù)提高散熱問題(發(fā)熱太大,且難以驅(qū)散)功耗太高并發(fā)計算發(fā)展成熟大數(shù)據(jù)時代正在來臨1000+PB24億網(wǎng)民1天產(chǎn)

2、生的數(shù)據(jù)63% GAGR非結(jié)構(gòu)化數(shù)據(jù)增長率數(shù)據(jù)摩爾定律:Y=C2XX代表時間,Y代表用戶的信息分享量,C代表現(xiàn)在時刻的分享信息量30+TB交易量3000+萬筆/天1PB/SCERN:核爆產(chǎn)生數(shù)據(jù)的速度單位英語標(biāo)識大小例子位Bit1或0一個二進制數(shù)位:0或1字節(jié)Byte8Bit一個英文字母:8Bit千字節(jié)KB1024Byte一頁紙上的文字:5KB兆字節(jié)MB1024KB一首普通MP3的歌曲:4MB吉字節(jié)GB1024MB一部電影:1GB太字節(jié)TB1024GB美國國會圖書館所有登記印刷版書本的消息:15TB2011年底,其網(wǎng)絡(luò)備份的數(shù)據(jù)量為280太字節(jié)拍字節(jié)PB1024TB美國郵政局一年處理的信件大約

3、為5拍谷歌每小時處理的數(shù)據(jù)為1拍艾字節(jié)EB1024EB相當(dāng)與13億中國人人手一本500頁的書加起來澤字節(jié)ZB1024ZB截止2010年,人類擁有的信息總量大概是1.2ZB堯字節(jié)YB1024YB超出想象數(shù)據(jù)量的表達單位當(dāng)前典型大數(shù)據(jù)的處理量傳統(tǒng)數(shù)據(jù) vs. 大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)海量數(shù)據(jù)的高存儲成本數(shù)據(jù)批量處理性能不足流式數(shù)據(jù)處理缺失有限的擴展能力單一數(shù)據(jù)源數(shù)據(jù)資產(chǎn)對外增值數(shù)據(jù)擴展性需求和硬件性能之間存在差距傳統(tǒng)框架:小型機磁陣商用數(shù)據(jù)倉庫傳統(tǒng)的IOE模式已經(jīng)不能滿足PB級海量數(shù)據(jù)的存儲、分析和應(yīng)用需求小型機+DWH+SAN成本高企、擴容昂貴無法滿足海量數(shù)據(jù)的離線分析和實時分析無法滿足

4、對非結(jié)構(gòu)化數(shù)據(jù)的快速處理要求Scale-Up已到極限,必須支持Scale-Out大數(shù)據(jù)處于成長階段,即將廣泛商用大數(shù)據(jù)是對數(shù)據(jù)更大的掌控和應(yīng)用能力大數(shù)據(jù)是淘煉黃金而不是制造更多的石頭“大數(shù)據(jù)”是數(shù)據(jù)存儲、管理、處理和分析的技術(shù)和解決方案“大數(shù)據(jù)”帶來數(shù)據(jù)分析能力的質(zhì)變性增強,不僅是傳統(tǒng)BI領(lǐng)域 ,也為新商業(yè)機會和新商業(yè)模式提供了更大的創(chuàng)新空間;“大數(shù)據(jù)”是“以數(shù)據(jù)為中心”,這不僅是技術(shù)需要,也是管理需要;存儲、計算、分析合一的系統(tǒng)成為必然的需求、趨勢“大數(shù)據(jù)”的本質(zhì)不在于更多(更快)的數(shù)據(jù),而在于對數(shù)據(jù)中蘊含信息價值的巨大掌控和應(yīng)用能力;使企業(yè)更好認識數(shù)據(jù)中所蘊含的巨大信息價值,影響和改變企業(yè)

5、決策依據(jù)與過程和生產(chǎn)業(yè)務(wù)的開展過程 “Big Data is nothing without Big Analysis”大數(shù)據(jù)要解決的問題Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsReal timeNear timeBatchTBPBEBStructuredUnstructuredSemi-structuredAll the aboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價值目錄大數(shù)據(jù)簡介大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)挖掘大數(shù)據(jù)平臺大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)之間的關(guān)系 云計算來源:互聯(lián)網(wǎng)進化論物聯(lián)網(wǎng)移動互聯(lián)網(wǎng)傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)生海量數(shù)據(jù)大數(shù)據(jù)是對海量數(shù)據(jù)的高效處理。

6、云計算是硬件資源的虛擬化,是大數(shù)據(jù)分析的支撐平臺。處理分析需求技術(shù)描述Data Warehouse數(shù)據(jù)倉庫ETL, Data Quality信息整合、元數(shù)據(jù)Text Analytics EngineVisual Data Modeling文本內(nèi)容分詞與分析Hadoop Map Reduce分布式文件系統(tǒng)流計算引擎Streaming Data海量非結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)處理實時數(shù)據(jù)處理非結(jié)構(gòu)數(shù)據(jù)分析各類信息整合數(shù)據(jù)處理技術(shù)的變化:滿足數(shù)據(jù)的多樣化大數(shù)據(jù)技術(shù) 成本可承受(economically)的情況下 通過非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析; 在大量化(volumes)、

7、 多類別(variety)的數(shù)據(jù)中提取價值(value) 分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實 能夠從這些數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個環(huán)節(jié)相融合計算存儲數(shù)據(jù)庫網(wǎng)絡(luò)單機集群文件存儲單機設(shè)備間連接設(shè)備內(nèi)連接關(guān)系型數(shù)據(jù)庫10GE FC IB分布式數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫塊存儲10GE SAS IB橫向擴展塊級虛擬化橫向擴展分布式文件系統(tǒng)大數(shù)據(jù)帶來哪些技術(shù)變革-技術(shù)驅(qū)動大數(shù)據(jù)的基本技術(shù)MapReduceHBaseHDFSStreaming分布式文件系統(tǒng)HDFS(hadoop Distributed File System)并行數(shù)據(jù)處理MapReduce非結(jié)構(gòu)化數(shù)據(jù)表HBase流式數(shù)據(jù)

8、處理StreamingMapReduce 分布式數(shù)據(jù)處理架構(gòu)分組聚合DATA計算(IOE架構(gòu))輸入結(jié)果輸出傳統(tǒng)方式X86 服務(wù)器X86 服務(wù)器HDFS 分布式文件系統(tǒng)架構(gòu)Hadoop 集群 HBase NoSQL數(shù)據(jù)庫HBase的數(shù)據(jù)模型分布式的多維映射,以(row, column, timestamp)索引RowsColumnstimestamps“contents:”“anchor: baidu”“anchor:google”“”t1“”t2“”t3Column FamilyTableletStreaming:流式數(shù)據(jù)處理-StormStorm 廣泛應(yīng)用于實時分析,在線機器學(xué)習(xí),持續(xù)計算等

9、領(lǐng)域。分批處理實時處理VSStorm框架大數(shù)據(jù) 的 預(yù)處理技術(shù)濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼含有各種噪聲數(shù)據(jù)污染格式標(biāo)準化異常數(shù)據(jù)清除錯誤糾正重復(fù)數(shù)據(jù)的清除數(shù)據(jù)處理大數(shù)據(jù)預(yù)處理技術(shù)主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作目的是將數(shù)據(jù)按統(tǒng)一的格式提取出來,然后再轉(zhuǎn)化,集成,載入數(shù)據(jù)倉庫的工具 (ETL)抽?。阂颢@取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達到快速分析處理的目的。清洗:對于大數(shù)據(jù),并不全是有價值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是

10、完全錯誤的干擾項。因此要對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)大數(shù)據(jù) 的 存儲技術(shù)結(jié)構(gòu)化數(shù)據(jù):傳統(tǒng)的關(guān)系數(shù)據(jù)模式海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲存儲與分析融合,提升處理效率傳統(tǒng)大數(shù)據(jù)處理大數(shù)據(jù)存儲與分析統(tǒng)一平臺拷貝共享存儲分析存儲拷貝導(dǎo)入存儲數(shù)據(jù)生產(chǎn)數(shù)據(jù)共享數(shù)據(jù)分析數(shù)據(jù)生產(chǎn)數(shù)據(jù)共享數(shù)據(jù)分析一份數(shù)據(jù)3次存儲,浪費空間67%一份數(shù)據(jù)2次拷貝,浪費時間2倍一份數(shù)據(jù)1次存儲,節(jié)省空間67%一份數(shù)據(jù)0次拷貝,提升效率2倍存儲資源池大數(shù)據(jù) 的 其他技術(shù)數(shù)據(jù)倉庫 數(shù)據(jù)倉庫是商務(wù)

11、智能的依托,是對海量數(shù)據(jù)庫進行分析的核心物理構(gòu)架,是一種格式一致的多源數(shù)據(jù)存儲中心。數(shù)據(jù)源可以來自多個不同的系統(tǒng),如企業(yè)內(nèi)部的財務(wù)系統(tǒng)、客戶管理系統(tǒng)、人力資源系統(tǒng),甚至是企業(yè)外部系統(tǒng)。數(shù)據(jù)倉庫的出現(xiàn)以后,一系列的產(chǎn)業(yè)鏈也逐步形成聯(lián)機分析 聯(lián)機分析也稱多維分析,本意是把分立的數(shù)據(jù)庫“相聯(lián)”,進行多維的分析; “維”是聯(lián)機分析的核心概念,指的是人們觀察事物、計算數(shù)據(jù)的特定角度;可以從任意的維度交叉和細分問題,用戶能根據(jù)自己的需要,隨時創(chuàng)建“萬維”動態(tài)報表數(shù)據(jù)挖掘 通過特定的計算機算法對大量的數(shù)據(jù)進行自動分析,從而揭示數(shù)據(jù)之間的關(guān)系,模式和趨勢,為決策者提供新的知識。如果說聯(lián)機分析是對數(shù)據(jù)的一種探測

12、,數(shù)據(jù)挖掘則是對數(shù)據(jù)進行開采,發(fā)現(xiàn)數(shù)據(jù)之下的歷史規(guī)律,對未來進行預(yù)測。大數(shù)據(jù)的分析挖掘技術(shù)技術(shù)方法分類根據(jù)挖掘任務(wù):分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等根據(jù)挖掘?qū)ο螅嚎煞譃殛P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web根據(jù)挖掘方法:可分為:機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。重點技術(shù)可視化分析。數(shù)據(jù)可視化可以讓數(shù)據(jù)自己說話,讓用戶直觀的感受到結(jié)果。數(shù)據(jù)挖掘算法。分割、集群、孤立點分析還有各種算法讓我們精煉數(shù)據(jù),挖掘價值。這些算法要能夠應(yīng)付

13、大數(shù)據(jù)的量,同時還具有很高的處理速度。預(yù)測性分析。預(yù)測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。語義引擎。人工智能從數(shù)據(jù)中主動地提取信息。包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。透過標(biāo)準化流程和機器對數(shù)據(jù)進行處理可以確保獲得一個預(yù)設(shè)質(zhì)量的分析結(jié)果。目錄大數(shù)據(jù)簡介大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)挖掘大數(shù)據(jù)平臺數(shù)據(jù)挖掘(DM) 與 知識發(fā)現(xiàn)(KDD)顧名思義,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息數(shù)據(jù)挖掘技術(shù)投入商用的三種基礎(chǔ)技術(shù)已發(fā)展成熟(1)海量數(shù)據(jù)搜集(2)強大的分布式并行處理技術(shù)(3)數(shù)據(jù)挖掘算法知識發(fā)現(xiàn)(KDD):從源數(shù)據(jù)中發(fā)掘模式或

14、聯(lián)系的方法KDD被用來描述整個數(shù)據(jù)發(fā)掘的過程, 包括最開始的制定業(yè)務(wù)目標(biāo)到最終的結(jié)果分析,而用數(shù)據(jù)挖掘(DM, Data Mining)來描述使用挖掘算法進行數(shù)據(jù)挖掘的子過程。數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識有以下四類:廣義知識: 指類別特征的概括性描述知識關(guān)聯(lián)知識:反應(yīng)一個事件和其他時間之間依賴或關(guān)聯(lián)的知識分類知識:反應(yīng)同類事物共同性質(zhì)的特征性知識和不同事物之間的差異性特征知識預(yù)測性知識:根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù)。數(shù)據(jù)挖掘流程及方法模型確定業(yè)務(wù)對象數(shù)據(jù)準備數(shù)據(jù)挖掘結(jié)果分析知識的同化數(shù)據(jù)挖掘的技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Descripti

15、on):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測關(guān)聯(lián)關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計、 loss-leader analysis、聚集、分類等。買尿布的客戶二者都買的客戶買啤酒的客戶序列 序列模式定義:給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值應(yīng)用

16、領(lǐng)域:客戶購買行為模式預(yù)測Web訪問模式預(yù)測疾病診斷自然災(zāi)害預(yù)測DNA序列分析工業(yè)控制分類 & 預(yù)測分類:預(yù)測分類標(biāo)號(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值典型應(yīng)用信譽證實目標(biāo)市場醫(yī)療診斷性能預(yù)測分類是發(fā)現(xiàn) 質(zhì)變預(yù)測是發(fā)現(xiàn) 量變聚類簇(Cluster):一個數(shù)據(jù)對象的集合在同一個類中,對象之間具有相似性不同類的對象之間是相異的聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇聚類是一種無監(jiān)督分類法: 沒有預(yù)先指定的類別典型的應(yīng)用作為一個獨立的分析工具,用于了解數(shù)據(jù)的分布作為其它算法的一個數(shù)據(jù)預(yù)處理步驟聚類(續(xù))將物理或

17、抽象對象的集合分組成為由類似的對象組成的多個類聚類在不同的應(yīng)用領(lǐng)域,用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中;聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性聚類與分類不同,聚類所要求劃分的類是未知的異常探測異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測故障檢測與診斷等 異常的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機偏差,而是產(chǎn)生于完全不同

18、的機制。目錄大數(shù)據(jù)簡介大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)挖掘大數(shù)據(jù)平臺揭開Hadoop神秘的面紗Hadoop是Apache基金會的一個項目總稱,主要由HDFS和MapReduce組成。 Hadoop 來源于其創(chuàng)始人Doug Cutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺。Hadoop已成為大數(shù)據(jù)事實標(biāo)準第一階段(20052009年):模仿Google的“三駕馬車”,主導(dǎo)者是Yahoo!,Facebook等互聯(lián)網(wǎng)廠商,相關(guān)項目第二階段(2009年):模仿Google的“新三駕馬車”,主導(dǎo)者是Cloudera、Hortonworks等Hadoop發(fā)

19、行版廠商,IBM、EMC、Intel、Huawei等傳統(tǒng)IT廠商開始集成Hadoop,Haoop進入企業(yè)市場,相關(guān)項目第三階段(2012年):博采眾長,吸納AMP Lab、流計算等成果,通過配套工具構(gòu)筑大數(shù)據(jù)領(lǐng)域生態(tài)系統(tǒng),形成事實標(biāo)準;相關(guān)項目。6大Hadoop 發(fā)行版廠商Cloudera、Hortonworks、MapR、 IBM 、EMC、Huawei數(shù)據(jù)處理技術(shù)與架構(gòu)發(fā)展趨勢傳統(tǒng)數(shù)據(jù)倉庫SQL、UPFSQL執(zhí)行引擎行存、磁盤、單機/SE集群I/O存在瓶頸擴展能力差實時性差非結(jié)構(gòu)化數(shù)據(jù)存儲無法支持復(fù)雜計算數(shù)據(jù)處理能力弱UPF: User-defined Process FunctionSE: Share EverythingSN:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論