大數(shù)據(jù)中心建設(shè)的再認(rèn)識課件_第1頁
大數(shù)據(jù)中心建設(shè)的再認(rèn)識課件_第2頁
大數(shù)據(jù)中心建設(shè)的再認(rèn)識課件_第3頁
大數(shù)據(jù)中心建設(shè)的再認(rèn)識課件_第4頁
大數(shù)據(jù)中心建設(shè)的再認(rèn)識課件_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、(一)建設(shè)什么樣的大數(shù)據(jù)中心 大數(shù)據(jù)利用是個性化的數(shù)據(jù)研究服務(wù),簡單例子: 數(shù)據(jù)檢索: 化療后白細胞數(shù)下降的患者30天內(nèi)二次住院的患者 數(shù)據(jù)分析: 65歲以上老年人患兩種以上疾病的排名前三的共病組合老年下肢關(guān)節(jié)手術(shù)麻醉方式與術(shù)后肺部感染的相關(guān)性 大數(shù)據(jù)中心的職責(zé)是服務(wù),與傳統(tǒng)的信息中心有所不同大信息中心數(shù)據(jù)中心大信息系統(tǒng)建設(shè)與運維數(shù)據(jù)應(yīng)用系統(tǒng)數(shù)據(jù)服務(wù)CHIMA 2019之一:數(shù)據(jù)管理中心 職責(zé) 數(shù)據(jù)采集、整合 數(shù)據(jù)存儲管理 數(shù)據(jù)訪問授權(quán)數(shù)據(jù)檢索數(shù)據(jù)瀏覽虛擬桌面 工作平臺數(shù)據(jù)管理 數(shù)據(jù)整合平臺(ETL) 數(shù)據(jù)檢索系統(tǒng) 數(shù)據(jù)瀏覽系統(tǒng)數(shù)據(jù)存儲授權(quán)提取 數(shù)據(jù)在線使用(虛擬桌面) 所需人才數(shù)據(jù)整合平臺

2、IT工程師CHIMA 2019之二:數(shù)據(jù)加工中心 職責(zé) 根據(jù)用戶需求,從原始數(shù)據(jù)加工生成特征數(shù)據(jù)專病數(shù)據(jù)庫平臺 工作平臺 自然語言處理工具 專病數(shù)據(jù)庫平臺 組學(xué)等專業(yè)數(shù)據(jù)處理平臺 SQL特征數(shù)據(jù)特征數(shù)據(jù)特征數(shù)據(jù)結(jié)構(gòu)化處理、SQL、組學(xué)數(shù)據(jù)平臺 所需人才原始數(shù)據(jù) IT工程師CHIMA 2019之三:數(shù)據(jù)分析中心 職責(zé) 為用戶提供數(shù)據(jù)分析服務(wù) 工作平臺 各類建模工具人工服務(wù) 數(shù)據(jù)可視化工具 深度學(xué)習(xí)平臺SAS、SPSS、R、深度學(xué)習(xí) 所需人才 IT工程師 數(shù)據(jù)分析工程師數(shù)據(jù)存儲CHIMA 2019大數(shù)據(jù)中心的職能定位 大數(shù)據(jù)中心的三種職能定位數(shù)據(jù)分析全功能的+大數(shù)據(jù)中心數(shù)據(jù)加工+數(shù)據(jù)管理CHIMA

3、 2019(一)建設(shè)什么樣的大數(shù)據(jù)中心觀點認(rèn)識:“大數(shù)據(jù)中心”是數(shù)據(jù)服務(wù)中心而不是系統(tǒng)建設(shè)中心,“服務(wù)”有不同的內(nèi)涵,不同的職能定位對應(yīng)不同的技術(shù)平臺與人才團隊建設(shè)內(nèi)容。在提出建設(shè)大數(shù)據(jù)中心規(guī)劃時,首先要明確大數(shù)據(jù)中心的職能定位。CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理大數(shù)據(jù)中心數(shù)據(jù)處理的兩種流程分析分析分析分析歸一化歸一化清洗后數(shù)據(jù)歸一化結(jié)構(gòu)化 結(jié)構(gòu)化VS結(jié)構(gòu)化原始數(shù)據(jù)數(shù)據(jù)整合數(shù)據(jù)整合整體預(yù)處理針對應(yīng)用的預(yù)處理數(shù)據(jù)治理可以一次性完成嗎?CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理 信息的損失 病歷文本結(jié)構(gòu)化的結(jié)果不能完整表達原病歷文本的語義 標(biāo)準(zhǔn)化(歸一化)可能導(dǎo)致特定信息丟失,

4、如藥品名稱轉(zhuǎn)換:諾欣、鉑龍、順鉑順鉑 技術(shù)上的困難 歷史數(shù)據(jù)的不一致,如疾病編碼 ICD-9與ICD-10由于編碼原則可能不同導(dǎo)致轉(zhuǎn)換難以自動對照完成 整體結(jié)構(gòu)化的困難,如不同病種的病歷文本有不同的特點,目前尚難以做到泛病種的結(jié)構(gòu)化處理CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理 病歷結(jié)構(gòu)化不能完整反映文本語義,如癥狀之間的順序關(guān)系CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理 如,判斷不同腫瘤分期的結(jié)構(gòu)化處理方法不同肺癌N分期判定胃癌N分期判定N0:無區(qū)域淋巴結(jié)轉(zhuǎn)移N0:無區(qū)域淋巴結(jié)轉(zhuǎn)移N1:同側(cè)支氣管或肺門淋巴結(jié)轉(zhuǎn)移N2:同側(cè)縱隔和/隆突下淋巴結(jié)轉(zhuǎn)移N1:區(qū)域淋巴結(jié)轉(zhuǎn)移12個N2:區(qū)

5、域淋巴結(jié)轉(zhuǎn)移36個N3:區(qū)域淋巴結(jié)轉(zhuǎn)移715個N4:區(qū)域淋巴結(jié)轉(zhuǎn)移16個以上格式:陽性個數(shù)/送檢個數(shù)CHIMA 2019(二)數(shù)據(jù)是否要做整體預(yù)處理觀點認(rèn)識:在大數(shù)據(jù)中心數(shù)據(jù)資源建設(shè)中,預(yù)先將數(shù)據(jù)整體進行預(yù)處理的過程會帶來信息丟失,技術(shù)上也存在較大困難,一次性的數(shù)據(jù)治理難以滿足數(shù)據(jù)后續(xù)利用需求。采用“數(shù)據(jù)湖”概念,保留數(shù)據(jù)的原始性,針對特定研究問題開展數(shù)據(jù)預(yù)處理是更好的選擇。CHIMA 2019(三)臨床數(shù)據(jù)研究的兩種路徑建立專病庫選擇特征預(yù)先分析時數(shù)據(jù)分析原始數(shù)據(jù)抽取數(shù)據(jù)/特征提取分析時 專病數(shù)據(jù)庫路徑:按病種設(shè)置特征,建立數(shù)據(jù)模型,預(yù)先整理加工 隨機特征提取路徑:按照研究問題抽取和處理特征

6、,在分析時進行建立科研病種數(shù)據(jù)庫是臨床數(shù)據(jù)研究的必然選擇嗎?CHIMA 2019科研數(shù)據(jù)庫的局限性 泛研究目的的科研病種數(shù)據(jù)庫 以收集準(zhǔn)備病種數(shù)據(jù)為目的,用以支持本病種不同目的的研究 數(shù)據(jù)庫涉及數(shù)據(jù)項多,結(jié)構(gòu)復(fù)雜,人工加工工作量巨大,持續(xù)難度大 針對問題分析時需要二次加工 難以滿足所有研究需求 例:糖尿病視網(wǎng)膜病變專病數(shù)據(jù)庫(片段)是否降血壓藥物、服用降血壓藥物種類數(shù)量、開始日期、服用時長(月)、目前規(guī)律服用降血壓藥物;鈣離子拮抗劑降壓藥是否使用、藥物名稱、劑量、開始日期、服用時長(月);受體阻滯劑降壓藥是否使用、藥物名稱、劑量、開始日期、服用時長(月);血管擴張藥是否使用、藥物名稱、劑量、開

7、始日期、服用時長(月);Ang受體阻滯劑是否使用、藥物名稱、劑量、開始日期、服用時長(月);CHIMA 2019科研數(shù)據(jù)庫的局限性 單一研究目的的科研病種數(shù)據(jù)庫 以特定問題為導(dǎo)向收集病種數(shù)據(jù) 數(shù)據(jù)庫涉及數(shù)據(jù)少,人工加工工作量小 難以滿足特定問題以外的研究需求 例:肺癌患者生存研究數(shù)據(jù)庫性別、年齡、吸煙史、是否戒煙、家族史、ABO血型、RhD血型、基礎(chǔ)疾病、合并癥、病理類型、分化程度、基因檢測方法、基因突變狀態(tài)、PD-L1(陽性/陰性)、MMR/MSI、TNMG分期、手術(shù)、輔助治療(化療、放療)、一線治療、療效評估、副反應(yīng)、PFS、二線治療、生存狀態(tài)、隨訪時間、總生存時間、最后一次隨訪時間、是否

8、存活、是否復(fù)發(fā)/進展、復(fù)發(fā)/進展位置、復(fù)發(fā)/進展時間CHIMA 2019(三)臨床數(shù)據(jù)研究的兩種路徑觀點認(rèn)識:通過建立專病數(shù)據(jù)庫和直接基于原始數(shù)據(jù)庫開展臨床數(shù)據(jù)研究是大數(shù)據(jù)中心兩種數(shù)據(jù)研究路徑。依托專病數(shù)據(jù)庫的路徑有較大的局限性。在現(xiàn)實研究實踐中,特別是在回顧性研究中,更多地采用直接依托原始數(shù)據(jù)的方式。CHIMA 2019(四)對醫(yī)療大數(shù)據(jù)平臺的認(rèn)識問題:醫(yī)療大數(shù)據(jù)平臺是什么?是一體化的產(chǎn)品嗎?技術(shù)形態(tài)是什么? 面向一線臨床研究人員的需求 數(shù)據(jù)檢索與瀏覽系統(tǒng) 科研專病數(shù)據(jù)庫管理系統(tǒng) 多中心數(shù)據(jù)采集系統(tǒng) 數(shù)理統(tǒng)計工具 面向數(shù)據(jù)處理分析人員的需求 數(shù)據(jù)處理工具SQL、ETL工具 自然語言處理及結(jié)構(gòu)化工具 去隱私工具 各類建模工具:R、Matlab、SAS、SPSS 院后隨訪系統(tǒng) 深度學(xué)習(xí)數(shù)據(jù)標(biāo)注工具 可視化分析工具 深度學(xué)習(xí)平臺 組學(xué)數(shù)據(jù)處理分析平臺功能形態(tài)CHIMA 2019(四)對醫(yī)療大數(shù)據(jù)平臺的認(rèn)識 數(shù)據(jù)形態(tài) 數(shù)據(jù)檢索:列數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù)),文本分布式索引(病歷文本) 數(shù)據(jù)處理:傳統(tǒng)關(guān)系數(shù)據(jù)庫 數(shù)據(jù)分析:傳統(tǒng)關(guān)系數(shù)據(jù)庫 專病系統(tǒng):傳統(tǒng)關(guān)系數(shù)據(jù)庫/XML檢索處理分析專病 多重數(shù)據(jù)存在 針對不同的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論