數(shù)據(jù)倉庫的數(shù)據(jù)標(biāo)準化思路_第1頁
數(shù)據(jù)倉庫的數(shù)據(jù)標(biāo)準化思路_第2頁
數(shù)據(jù)倉庫的數(shù)據(jù)標(biāo)準化思路_第3頁
數(shù)據(jù)倉庫的數(shù)據(jù)標(biāo)準化思路_第4頁
數(shù)據(jù)倉庫的數(shù)據(jù)標(biāo)準化思路_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫的數(shù)據(jù)標(biāo)準化思路數(shù)據(jù)標(biāo)準化對于大型公司而言,各個下層子公司都使用自己本地的業(yè)務(wù)系統(tǒng),當(dāng)這些子公司數(shù)據(jù)往上匯總到總公司時,常常出現(xiàn)代碼不一致,數(shù)據(jù)歧義等等各種各樣的問題,在這種情況下,數(shù)據(jù)標(biāo)準化就變得不得不行了。典型的例子,比如醫(yī)院,大型醫(yī)院往往包含多個分院,而分院都是用自己的業(yè)務(wù)系統(tǒng)。業(yè)務(wù)數(shù)據(jù)采集匯總后,發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)本身出現(xiàn)歧義,無法直接使用。因此,就不得不對本院及分院的業(yè)務(wù)數(shù)據(jù)進行標(biāo)準化處理,避免歧義,使數(shù)據(jù)更真實可用,簡單易理解。數(shù)據(jù)標(biāo)準化處理應(yīng)當(dāng)注意兩個關(guān)鍵點:1. 一號對應(yīng)一對象。以病人為例,病人可能在各分院及本院都注冊建檔,因此同一病人可能在各分院都有不同的ID號,但數(shù)據(jù)采集到本院,與本院數(shù)據(jù)合并后,進行標(biāo)準化處理,應(yīng)保證此病人具有新的唯一ID號。同時需保留病人曾經(jīng)的各分院及本院ID號,便于其他分院數(shù)據(jù)的關(guān)聯(lián)(如分院的病人繳費數(shù)據(jù)需要關(guān)聯(lián)原始分院號碼,之后以標(biāo)準化后唯一ID號,進入本院系統(tǒng))。2. 事實數(shù)據(jù)標(biāo)明數(shù)據(jù)來源。如病人繳費信息,因為繳費事實產(chǎn)生的位置不同,需要進行來源標(biāo)注,分清本院及各分院,便于數(shù)據(jù)理解及之后的查詢和統(tǒng)計。在構(gòu)建DW時的數(shù)據(jù)標(biāo)準化處理流程上,可以考慮通過以下方式來完成。標(biāo)準化準備在標(biāo)準化處理之前,需要對DW表格結(jié)構(gòu)進行一些處理,使得標(biāo)準化過程易于實施,也保證標(biāo)準化的結(jié)果更易于理解。對于不同的表格上,所需新增的字段也不盡相同。下面分類進行說明:維表比如病人信息,科室信息,員工信息,設(shè)備信息等,新加字段如下:字段名類型說明備注ID數(shù)字代理鍵,主鍵由序列生成,新的唯一ID號HISTORY_IDLIST文本曾經(jīng)使用的編號列表對應(yīng)分院+分院ID號,以;分隔START_DATE日期記錄生效時間拉鏈使用,可選END_DATE日期記錄失效時間拉鏈使用,可選事實表如病人繳費,醫(yī)生處方,手術(shù)記錄等,新加字段如下:字段名類型說明備注SOURCE_ID數(shù)字數(shù)據(jù)來源,本院、分院表示數(shù)據(jù)來源;應(yīng)新增本院/分院信息維表,記錄source_id對應(yīng)的分院名,地址,熱線等信息ARCHIVE_FLAG文本記錄是否可歸檔(Y/N)對于已處理完成的信息,如病人已出院,進行可歸檔標(biāo)記;DW保留一段時間后,可考慮部分歸檔數(shù)據(jù)遷移到二級存儲,減輕壓力START_TIME日期記錄生效時間拉鏈使用,可選END_DATE日期記錄失效時間拉鏈使用,可選數(shù)據(jù)標(biāo)準化處理在數(shù)據(jù)標(biāo)準化的處理過程中,也應(yīng)分為兩步進行處理,先進行維表的代碼(如ID號)標(biāo)準化,然后將事實表中的記錄以標(biāo)準化后的代碼配合原來的事實信息(如繳費)及數(shù)據(jù)來源標(biāo)記(哪個分院)采集到DW標(biāo)準事實表中。維表標(biāo)準化1. 維表標(biāo)準化以病人維表為例進行說明2. 將本院及各分院的維表數(shù)據(jù)采集到DW標(biāo)準庫的緩沖區(qū)(可將本院及各分院數(shù)據(jù)放置于緩沖區(qū)的不同用戶下)3. 首先標(biāo)準化本院數(shù)據(jù),標(biāo)準化后的數(shù)據(jù)寫入標(biāo)準表格。以病人身份證號進行區(qū)分,身份證號第一次出現(xiàn)時,取新的序列值為病人的標(biāo)準化ID號,并將病人的原始信息(本院編號+原始ID號)記入history_idlist字段;同一身份證號之后重復(fù)出現(xiàn)時,將病人的原始信息添加到history_idlist字段即可。4. 之后標(biāo)準化分院數(shù)據(jù),對于本院中未出現(xiàn)的身份證號,取新的序列值為病人的標(biāo)準化ID號,并將病人的原始信息(分院編號+原始ID號)記入history_idlist字段;同一身份證號之后重復(fù)出現(xiàn)時,將病人的原始信息添加到history_idlist字段即可。注:在病人的原始信息記入history_idlist字段時,可選擇同時將標(biāo)準化的病人ID號和原始ID號寫入一個代碼轉(zhuǎn)換表,便于之后分院事實表通過此代碼轉(zhuǎn)換表,根據(jù)原始ID號,找到新的標(biāo)準化ID號。當(dāng)然,分院事實表也可通過對標(biāo)準化病人維表的history_idlist字段的全文搜索,找到對應(yīng)的標(biāo)準化ID號。實際實施中,以實施效率進行靈活調(diào)整即可。事實表標(biāo)準化1. 將本院及分院的事實表數(shù)據(jù)采集到DW標(biāo)準庫的緩沖區(qū)2. 本院及分院事實表需與上一步生成的代碼轉(zhuǎn)換表關(guān)聯(lián)(或搜索history_idlist字段),根據(jù)原始病人ID號,找到新生成的標(biāo)準化ID號,聯(lián)合其它的事實數(shù)據(jù)(如繳費),寫入到新的標(biāo)準化事實表3. 本院及分院事實表數(shù)據(jù)寫入DW標(biāo)準庫的同時,在標(biāo)準化事實表的source_id字段中標(biāo)注事實數(shù)據(jù)來源(本院或分院的編號)DW數(shù)據(jù)標(biāo)準化實施在實施標(biāo)準化時,可分為標(biāo)準化初始化-增量標(biāo)準化來實施,標(biāo)準化初始化處理數(shù)據(jù)量最大,之后增量標(biāo)準化,只要采集增量數(shù)據(jù)到緩沖區(qū)即可。標(biāo)準化初始化標(biāo)準化初始化示意圖如下:初始化主要完成以下工作:1. 以某個時間點為界,采集本院、分院數(shù)據(jù)到DW標(biāo)準庫緩沖區(qū)2. 在緩沖區(qū)進行數(shù)據(jù)標(biāo)準化后,寫入DW標(biāo)準庫3. 寫入完成后,清理緩沖區(qū),但建立了代碼轉(zhuǎn)換表的話,代碼轉(zhuǎn)換表可保留標(biāo)準化增量標(biāo)準化增量示意圖如下:標(biāo)準化增量主要完成以下工作:1.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論