




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
元數據及數據質量介紹20160303議程內容數據管控元數據數據質量問題與討論2>9/3/2023Confidential隨著數據倉庫的不斷成長,你能回答下面的問題嗎?3>9/3/2023源系統發(fā)生變化后數據倉庫到底需要修改多少程序?發(fā)生了多少次變化?從年初到現在哪些系統變化最頻繁?某個ETL加工程序到底經過多少開發(fā)人員的修改?每次改動的內容是什么?哪個源系統的數據質量最好?哪個小組開發(fā)質量最高?哪些字段采用了公共代碼?代碼映射規(guī)則是什么?哪些字段是需要做變形的敏感字段?在不同環(huán)境下同步的變形策略是什么?企業(yè)級信息管控體系企業(yè)級信息管控戰(zhàn)略性和策略性管理,項目所有權和優(yōu)先次序設定數據管理界定日常持續(xù)創(chuàng)建、使用和廢止數據的職責元數據管理用來描述如何、何時和由誰來負責數據的接收、創(chuàng)建、訪問、修改和格式的數據數據標準數據的業(yè)務、技術規(guī)范性文檔數據質量數據滿足特定使用的適用度,包括完整性和業(yè)務規(guī)則遵從性數據整合對各主題進行數據清理、轉換、整合和豐富的流程數據安全與隱私各業(yè)務主題對安全性和保密性的要求,包括審計能力主數據管理數據資產以及定義企業(yè)運營的關系人員、流程和技術企業(yè)級信息管控數據管理主數據
管理數據質量元數據
管理數據模型&
業(yè)務視圖數據安全與隱私數據整合數據
標準4>9/3/2023數據管控實施的三個方向5>9/3/2023Confidential平臺:數據管控團隊的工作必須建立在自動化的高效的信息平臺。接口:企業(yè)的信息系統之間應按照數據管控接口規(guī)范進行交互。模板:信息系統向數據管控平臺提交數據可以通過標準模板。技術流程:根據管控要求建立可執(zhí)行工作流程,并嚴格執(zhí)行工作流程。規(guī)范:企業(yè)的各工作崗位有數據管控團隊制訂的工作規(guī)范。制度:企業(yè)須建立數據管控的制度。流程組織:建立企業(yè)級的數據管控團隊是數據管控的基礎。角色:團隊中按照管控的內容進行崗位的設置,即角色。職責:不同的角色擁有詳細的工作職責。組織數據管控特點企業(yè)的分析型應用發(fā)展到一定的成熟度,就能發(fā)現數據管控的價值。數據管控是跨系統、跨部門的管理。數據管控必須有先進的管理方法論支持。數據管控是需要長期的、漸進式的工作。數據倉庫是執(zhí)行數據管控理想的平臺。6>9/3/2023Confidential企業(yè)數據管控成熟度7>9/3/2023Confidential系統A系統B系統n人員流程數據A數據B系統A系統B系統n人員數據管控部門系統A系統B系統n人員流程統一的數據管控系統標準企業(yè)級數據管控環(huán)境數據管控部門系統A系統B非系統人員流程標準服務符合業(yè)界規(guī)范的雙向數據管控系統系統n成熟度1:未知級成熟度2:被動級成熟度3:主動級成熟度4:預測級數據管控成熟度模型我們建立了企業(yè)數據管控成熟度模型,該模型能夠使企業(yè)識別和量化數據管控的成熟度,為企業(yè)的下一步數據管控提供指導。你的企業(yè)處在哪一級?Unaware:未知的Reactive:被動的Proactive:能動的Predictive:預測的8>9/3/2023Confidential回報人員、流程、技術的整合程度風險數據管控平臺架構Database數據管控知識庫MetadataDQDSETL數據管控平臺B/S應用DDLExcelXMLSourceDataSQL登錄瀏覽搜索管理下載分析管理安全MartPDMStage用戶層DBAAdminApplicationPlatform(TAP)業(yè)務單元MVC獨立單元系統管理數據標準元數據數據質量需求管理數據安全靈活查詢訪問層應用層模型層數據層數據管控平臺C/S應用ETLDBCPerl開發(fā)應用需求開發(fā)SDM信息調研版本控制測試ETL開發(fā)工作模板控制批量加工數據管控平臺應用10>9/3/2023Confidential業(yè)務應用數據管控門戶數據管控的統一的登錄網站,下列的數據管控系統均部署在數據管控門戶上元數據元數據是數據管控的IT基礎,包含業(yè)務元數據和技術元數據。建立企業(yè)級的元數據管理平臺,支持雙向的、動態(tài)的元數據。數據質量企業(yè)級的數據質量管理平臺,擁有統一的檢查規(guī)則管理、檢查規(guī)則的審批流程定義,并在各業(yè)務系統上部署檢查Agent程序,匯總檢查結果與錯誤明細。數據標準數據標準管理平臺,數據標準的維護與發(fā)布,標準與元數據建立對應關系。在各業(yè)務系統部署標準執(zhí)行監(jiān)控Agent程序,統計標準執(zhí)行情況。數據安全統一的數據安全管理平臺,根據與元數據的關系,定義數據在整個業(yè)務線、數據線的安全管理規(guī)則。需求管理管理需求生命周期,需求確認、需求跟蹤、需求變更等內容,以及需求與開發(fā)模塊之間的關系,需求與最終的接口、映射加工內容等元數據的關系。倉庫資源計費通過給出資源(磁盤、CPU)的價格,計算出應用在中消耗的資源成本,以計算應用的ROI靈活查詢基于B/S的靈活查詢平臺,能進行企業(yè)BI知識管理,數據挖掘與分析。管控知識庫數據管控的培訓與交流平臺、支持遠程網絡培訓、倉庫WiKi、學習材料下載、BI信息發(fā)布、提供企業(yè)的BI用戶交流、用戶投訴與反饋等技術應用數據生命周期數據生命周期管理平臺,能夠在企業(yè)范圍統一定義的數據生命周期,數據的業(yè)務請求級別,備份策略,數據分布。企業(yè)級ECTL統一的ECTL平臺,定義與規(guī)劃高效率的ECTL流程與策略,并能有效的嵌入其他管控工具。EDW開發(fā)集成的EDW、BI應用開發(fā)管理平臺。議程內容數據管控元數據數據質量問題與討論11>9/3/2023Confidential什么是元數據定義官方定義(CWM):描述數據的信息。Metadataisstructuredinformationthatdescribesthecharacteristics/attributesofadataelement.數據分析界定義:分散在企業(yè)中的關鍵數據描述。Metadatadescribescriticalelementsofdatascatteredacrosstheorganization.通俗的說:如果數據倉庫是一座城市的話,元數據就是城市的地圖。12>9/3/2023Confidential數據倉庫元數據元數據的國際標準-CWM公共倉庫元模型(CWM:CommonWarehouseMetamodel)是為數據倉庫及商業(yè)智能環(huán)境間方便地交換元數據而制定的一個標準,其主要目的是在異構環(huán)境下,幫助不同的數據倉庫工具、平臺和元數據知識庫進行元數據交換。CWM模型為數據倉庫和商業(yè)智能(BI)工具之間共享元數據,制定了一整套關于語法和語義的規(guī)范。它主要包含以下四個方面的規(guī)范:CWM元模型(Metamodel):描述數據倉庫系統的模型;CWMXML:CWM元模型的XML表示;CWMDTD:DW/BI共享元數據的交換格式;CWMIDL:DW/BI共享元數據的應用程序訪問接口(API)。13>9/3/2023Confidential
CWM標準涉及到的元數據模型結構
數據倉庫為什么需要元數據管理普通應用系統為什么不需要元數據管理?表的數量少數據加工簡單數據來源單一訪問方式單一交鑰匙的應用數據倉庫為什么必須元數據管理?上下游系統多,變更頻繁數據加工復雜用戶訪問方式復雜維護周期長某銀行的DW數據舉例:上游系統60個,下游系統20多個,倉庫內部的表12000多個,運行的ETL任務6000多個,每個月都有新版本上線14>9/3/2023Confidential元數據架構功能清單-元數據16>9/3/2023Confidential元數據瀏覽元數據地圖瀏覽元數據統計信息瀏覽全局版本比對DW來源系統元數據DW集市元數據DW/PDM元數據LDM元數據ETL、映射信息元數據數據文件元數據用戶查詢樣例元數據對象版本查看與比對影響分析血緣分析元數據質量分析孤立對象分析全局檢索用戶注釋元數據下載批量元數據加載元數據緩沖區(qū)管理元數據版本回滾業(yè)務元數據管理源系統元數據管理DW集市元數據管理DW/PDM元數據管理LDM元數據管理ETL元數據管理數據文件元數據管理查詢樣例管理元數據上傳元數據模板管理元數據橋接器管理版本管理管理執(zhí)行元數據自動更新模塊ETL相關數據同步SQL解析處理模塊元數據瀏覽的靈活性元數據對象關系呈立體網狀看本體——查看對象本身定義,例如表的名稱、注釋等信息。向上看——查看對象所屬對象的定義,例如表所歸屬的數據庫。向下看——查看對象包含的對象的定義,例如表所包含的字段、索引等。向前看——查看對象的上游信息對象,例如該表的數據的來源表。向后看——查看對象的下游信息對象,例如該表的數據的目標表??礆v史——查看對象的歷史變更信息。例如該表在上一個版本中的內容??从燕彙榭磁c對象有關系的其他對象,例如涉及該表的腳本等信息。17>9/3/2023Confidential歷史對象所屬對象包含對象目標對象來源對象本體對象友鄰對象友鄰對象友鄰對象友鄰對象核心價值:元數據分析功能18>9/3/2023Confidential影響分析向下分析一個元數據對象對下游對象的影響。血緣分析與影響分析的方向相反,向上追溯一個對象的數據來源。全鏈分析從某對象出發(fā),向上下游雙方向進行分析?;盍Ψ治龇治鲆粋€數據庫對象被訪問的頻度。孤立對象分析分析數據準備區(qū)(SData)、物理模型區(qū)(PData)中的孤立元數據對象。一致性分析定期分析元模型中的元數據是否與實際情況一致。版本比對選擇任意兩個時點的版本進行比對。質量分析分析數據倉庫中的元數據的質量。徹底解決影響/血緣分析放大的問題由于DW的LDM大多采用三范式建模,因此LDM的核心表會有大量的來源與目標,一旦做影響分析,結果就會擴散放大。最終導致分析結果無法使用。采用智能SQL解析器模塊,能分析數據的真實來源與目標。此項技術是業(yè)界領先的。19>9/3/2023Confidential非精細化解析結果精細化解析結果系統簡要介紹-元數據20>9/3/2023Confidential選擇的元數據管理的10個理由完美結合數據庫的產品,充分利用數據庫性能。完美結合的數據倉庫實施方法論,貼合項目實際。是CWM規(guī)范制定者之一,符合業(yè)界標準的元數據產品。能快速動態(tài)生成全域元數據地圖,DW信息一目了然。徹底解決影響/血緣分析放大的問題。能夠直接導入LDM,并以圖形化顯示。是企業(yè)級數據管控架構的基礎。元數據驅動數據倉庫開發(fā)過程,支持模型設計、ETL開發(fā)??蓴U展性好,能夠無縫實現企業(yè)級元數據管理。功能強大,性能卓越,性價比高。21>9/3/2023Confidential議程內容數據管控元數據數據質量問題與討論22>9/3/2023Confidential中國金融行業(yè)數據質量管理的發(fā)展歷程23>9/3/2023Confidential2003200620082010……1.簡單的檢查腳本。2.少量的技術和業(yè)務檢查規(guī)則。3.沒有專門的數據質量檢查團隊,包含在ETL工作中。4.被動式檢查,救火隊式工作。1.第一次開發(fā)出數據質量檢查管理系統,并且在建行DW部署。2.大量的技術檢查,少量的業(yè)務檢查。3.有了專門的質量小組。1.數據管理平臺開發(fā)完成,數據質量與元數據、數據標準等集成在一起,并在建行、工行部署。2.大量的技術和業(yè)務檢查規(guī)則。3.主動的技術檢查;被動的業(yè)務檢查。1.完善數據管理平臺。2.抽象出規(guī)范化的金融行業(yè)的業(yè)務檢查規(guī)則。3:推動質量檢查的閉環(huán)工作。4:實現主動式的業(yè)務檢查。數據質量管理的指標我們需要什么樣的數據完整的所需求的數據是否都已經獲得一致的從不同應用獲得數據能否保持一致有效的數據是否容易理解而不被曲解準確的數據是否在任何時間點都反應了數據的真實情況相關的有關聯的數據之間的關系是否準確有效及時的從信息產生到數據可用需要多長時間24>9/3/2023Confidential數據質量問題成因魚骨圖分析數據質量問題來源廣泛、復雜25>9/3/2023Confidential數據質量問題技術人流程信息培訓管理激勵上崗培訓進修目標責任心優(yōu)先級反饋獎勵元數據模型定義加工完整性精確性度量有效性數據傳遞及時性漏傳基礎設施OS網絡硬件實施復查產品性能缺陷測試配置覆蓋率數據變化頻度流程設計優(yōu)化架構設計工具數據質量問題氣泡圖分析26>9/3/2023Confidential項目組數據管理團隊企業(yè)客戶可控范圍不可控技術質量性質業(yè)務唯一性完整性管理客戶信息源系統系統調研樣本數據開發(fā)測試外鍵主鍵架構值域業(yè)務規(guī)則模型有效性相關性溝通及時性數據質量改進流程PDCAPDCA環(huán)簡稱DemingCycle,由質量大師戴明發(fā)明P計劃
D執(zhí)行
C檢查
A行動沒有形成這個閉環(huán),就不會有質量的改進根據PDCA原理,設計出適合企業(yè)的質量提升流程27>9/3/2023Confidential計劃PDCA環(huán)執(zhí)行檢查行動PDCA例子P:在眾多的質量問題中選擇某一個問題準備改進。D:在部分分支機構執(zhí)行質量改進方案。C:通過DW反饋評估質量改進效果。A:制定數據質量改進指引,下發(fā)全部機構,并監(jiān)督改進情況。戴明名言:質量無須驚人之舉。每個人都有客戶,如果他不知道自己的客戶是誰,也不知道客戶需要的是什么,那么他還沒有了解自己的工作。質量提高不是來自于檢驗而是來源于過程的改進。企業(yè)買不到高質量的方法。質量以滿足客戶的需求為原則數據流轉概述:核心系統的數據文件通過文件傳輸平臺傳輸到數據倉庫,數據倉庫加工數據后傳送給數據集市。問題:數據集市報告數據倉庫傳送的數據有錯誤,但是據數據倉庫的技術人員反饋,以前出過類似情況,這可能是核心系統下數錯誤,也不排除文件傳輸平臺漏數的情況,因此,數據集市應該就這個質量問題找誰?28>9/3/2023Confidential核心系統文件傳輸平臺數據倉庫數據集市A:找數據倉庫B:找文件傳輸平臺C:找核心系統D:按順序全找正確答案:A 企業(yè)要建立起下游即用戶,用戶永遠是第一的原則,任何系統都要接受下游投訴并妥善處理的原則。完善開發(fā)管理流程DW相關應用開發(fā)遵守軟件開發(fā)管理流程建立三套隔離環(huán)境:開發(fā)及SIT測試、UAT測試、生產29>9/3/2023Confidential數據管控的數據質量組織角色與職責數據質量組組長(1)數據質量組個人工作計劃收集,制定中長期工作計劃定期向項目經理匯報數據質量治理情況協調本組與數據倉庫各小組之間的工作數據質量專家顧問(1)為數據質量工作制定中長期的建設規(guī)劃熟悉模型建設,應用開發(fā),為數據質量組工作提供指導審核數據質量組組間的工作聯系單和檢核腳本質量問題外部聯絡與追蹤人員(1)數據質量組與源系統工作聯系單的收集與跟蹤數據倉庫運維過程中事故記錄與日常問題的整理數據質量知識庫的維護日常檢查人員(1-2)每日數據記錄,代碼檢查,主鍵重復等日常檢查的結果查看與報告數據質量運行平臺系統的維護專項檢查人員(1-2)處理臨時性的協同工單數據質量問題檢查專項的數據質量問題治理檢查數據倉庫的數據治理與改進30>9/3/2023Confidential數據管控的數據質量問題治理流程31>9/3/2023Confidential數據管理平臺-數據質量管理子系統架構32>9/3/2023Confidential數據質量管理的手段與工具數據質量手段分類數據收集手段數據分析手段文檔技術手段結果展現手段問題與改進手段QA控制手段33>9/3/2023Confidential數據質量技術與工具數據質量指標積分卡數據質量管理平臺(含元數據、數據標準)用戶調查表、溝通成本分析、問題起源分析、時間-行動分析評估與選擇、頭腦風暴、優(yōu)先級技術過程文檔、項目管理圖表(清單、柱圖、原因-效果矩陣圖、帕累托圖、數據流程圖)質
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2021深圳寶安區(qū)展華實驗學校小學三年級數學下期末第一次模擬試題(含答案)
- 2020-2021北京第一零五中學小學三年級數學下期末一模試題(及答案)
- 單軌空中列車施工方案
- 2025年新高考地理全真模擬試卷 5套(含答案解析)
- 2024年河南省中考滿分作文《不畏困難勇攀高峰》
- 專題01 地球和地圖-2025年中考地理一輪復習知識清單(背誦版)
- 個人購買柴油合同范例
- 財務業(yè)務合規(guī)程序計劃
- 手工制作社團活動計劃
- 學習困難學生幫扶方案計劃
- 人教版小學三年級數學下冊《復式統計表》名師公開課獲獎課件百校聯賽一等獎課件
- 心衰護理課件教學課件
- 基于人工智能的供應鏈協同優(yōu)化平臺建設方案
- 《大學語文》普通高等院校語文課程完整全套教學課件
- 預防校園欺凌主題班會課件(共36張課件)
- 伸縮臂式22m高空作業(yè)車安全操作規(guī)程
- 全國國家版圖知識競賽題庫及答案(中小學組)
- 顧客滿意度調查分析報告表
- 《托育服務政策法規(guī)與職業(yè)倫理》全套教學課件
- 湖北省武漢市實驗外國語學校小學部小學六年級小升初期末語文試題(含答案)
- 山東省專升本綜合一(機械設計制造及其自動化)模擬試卷1(共264題)
評論
0/150
提交評論