版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)治理:數(shù)據(jù)質(zhì)量評價體系
數(shù)據(jù)質(zhì)量人人有責,這不僅僅只是一句口號,更是數(shù)據(jù)工作者的生命
線。數(shù)據(jù)質(zhì)量的好壞直接決定著數(shù)據(jù)價值高低。
數(shù)據(jù)質(zhì)量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展
數(shù)據(jù)質(zhì)量定義、過程控制、監(jiān)測、問題分析和整改、評估與考核等一系
列管理活動,提高數(shù)據(jù)質(zhì)量以滿足業(yè)務要求。
可按照"誰創(chuàng)建、誰負責;誰加工、誰負責;誰提供、誰負責"的原則界
定數(shù)據(jù)質(zhì)量管理責任,由數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的各責任方對管轄范圍內(nèi)的數(shù)據(jù)
質(zhì)量負責。對數(shù)據(jù)質(zhì)量規(guī)則優(yōu)先采取系統(tǒng)程序的自動化控制措施,并盡
可能前移管控點,從源頭上控制數(shù)據(jù)質(zhì)量。
01數(shù)據(jù)治理問題場景
在日常工作中,業(yè)務領(lǐng)導經(jīng)常會通過報表看板等數(shù)據(jù)產(chǎn)品來了解各項業(yè)
務的發(fā)展趨勢以及KPI的達成情況。倘若某天,他打開某張核心報表,
發(fā)現(xiàn)當日的數(shù)據(jù)一直是空白的,詢問報表開發(fā)人員,開發(fā)經(jīng)排查分析,
發(fā)現(xiàn)是依賴的上游有延遲,上游數(shù)據(jù)預計要下午才能到達,導致業(yè)務領(lǐng)
導在正常時點無法查看業(yè)務數(shù)據(jù)情況。
又或某天,業(yè)務人員點開報表發(fā)現(xiàn)當日AUM規(guī)模暴增,數(shù)據(jù)增長當然
開心,但仔細推敲,發(fā)現(xiàn)這波動有點不合常理,于是通知數(shù)據(jù)負責人驗
證下數(shù)據(jù)是否存在異常。經(jīng)過幾個小時的排查分析,數(shù)據(jù)負責人報告說
數(shù)據(jù)確實算的有些問題,業(yè)務業(yè)務以后對該報表數(shù)據(jù)的準確性將會打上
問號。
若類似的數(shù)據(jù)問題經(jīng)常出現(xiàn),估計迎接你的不是美好明天,而是你的職
業(yè)生涯的最后一天。
02數(shù)據(jù)質(zhì)量的重要性
數(shù)據(jù)質(zhì)量為什么至關(guān)重要?因為擁有高質(zhì)量的數(shù)據(jù)可以讓您更好地了解
任何情況,從而更精準地執(zhí)行任何事情。反之亦然。
伴隨著技術(shù)的進步,組織或者企業(yè)能夠收集大量的數(shù)據(jù),用好這些數(shù)據(jù)
已成為焦點。然而,由于以下原因,很多組織或者企業(yè)并沒有實施數(shù)據(jù)
質(zhì)量計劃:
?沒有業(yè)務部門負責數(shù)據(jù)質(zhì)量問題
?數(shù)據(jù)質(zhì)量需要跨職能合作
?它要求組織認識到數(shù)據(jù)質(zhì)量是一個重要問題
?它需要數(shù)據(jù)質(zhì)量準則
?它需要投入財力和人力資源
?它被認為是非常人力密集的
?投資回報往往難以量化
看起來,挑戰(zhàn)大于好處。
但是,數(shù)據(jù)質(zhì)量務必重視,原因有三。
原因一:成本
數(shù)據(jù)質(zhì)量差,是IT項目失敗的主要原因,也是客戶流逝背后的驅(qū)動因素
之一。
原因二:合規(guī)
質(zhì)量差的數(shù)據(jù)會帶來重大的法律或者聲譽風險。一些例子如下:
?數(shù)據(jù)缺失導致信用風險不準確
?信用記錄不完整致使風險評估錯誤
?監(jiān)管違規(guī)
原因三:決策
質(zhì)量好的數(shù)據(jù)意味著有準確及時的信息來管理從研發(fā)到銷售的產(chǎn)品和服
務。質(zhì)量差的數(shù)據(jù)導致錯誤的洞察力,從而做出錯誤的決策。決策的錯
誤,公司會付出沉重的代價。
在企業(yè),數(shù)據(jù)服務的方式有報表看板、標簽指標和數(shù)據(jù)接口等,而這些
數(shù)據(jù)服務要想為業(yè)務帶來價值的,其首要前提就是要保證數(shù)據(jù)的準確
性,輸出高質(zhì)量的數(shù)據(jù)。
低質(zhì)量的數(shù)據(jù)會誤導業(yè)務做出錯誤的決定,致使行動方向發(fā)生偏離。特
別是在數(shù)據(jù)驅(qū)動的組織中,是否有準確的、可用的高質(zhì)量的數(shù)據(jù),將直
接影響領(lǐng)導層能否做出正確的決策和戰(zhàn)略目標的實現(xiàn)。
因此需要特別重視數(shù)據(jù)的質(zhì)量問題,針對數(shù)據(jù)質(zhì)量進行專項治理。
03數(shù)據(jù)質(zhì)量常見問題
在前面的場景案例中,我們可以發(fā)現(xiàn)有如下幾個數(shù)據(jù)質(zhì)量問題:
1.數(shù)據(jù)延遲,導致業(yè)務無法在正常時效內(nèi)獲得數(shù)據(jù)結(jié)果。
2.數(shù)據(jù)錯誤,導致數(shù)據(jù)結(jié)果完全不可信,以致無法使用。
3.數(shù)據(jù)恢復慢,問題發(fā)生后,排查分析耗時長,數(shù)據(jù)恢復時間慢。
發(fā)現(xiàn)滯后,數(shù)據(jù)開發(fā)晚于業(yè)務人員發(fā)現(xiàn)數(shù)據(jù)異常,導致影響已傳導到數(shù)
據(jù)應用端。
04數(shù)據(jù)質(zhì)量問題原因
那應該如何解決這些質(zhì)量問題,保證數(shù)據(jù)的高質(zhì)量交付呢?
首先,我們需要了解這些質(zhì)量問題產(chǎn)生的根本原因,了解問題才能更好
地去解決問題。通過對歷次數(shù)據(jù)質(zhì)量問題進行復盤、總結(jié),發(fā)現(xiàn)質(zhì)量問
題主要由下面幾類原因引發(fā):
?數(shù)據(jù)平臺問題:平臺不穩(wěn)定、隊列資源不足等,導致作業(yè)運行延
遲、報錯。
?數(shù)據(jù)開發(fā)問題:數(shù)據(jù)開發(fā)人員的任務腳本性能太差,計算嚴重耗
時,導致數(shù)據(jù)延遲;或是代碼邏輯設計有問題,導致數(shù)據(jù)計算有
誤。
?上游系統(tǒng)異常:上游源系統(tǒng)異常,數(shù)據(jù)文件晚到,導致下游依賴作
業(yè)延遲。
05數(shù)據(jù)質(zhì)量治理
出現(xiàn)問題不可怕,可怕的是出現(xiàn)問題后,我們毫無感知,不能做到"早發(fā)
現(xiàn)、早處理、早恢復",以致問題直接傳導到業(yè)務方,影響業(yè)務的開展工
作。
在大數(shù)據(jù)產(chǎn)品矩陣中,我們使用數(shù)據(jù)質(zhì)量監(jiān)控平臺來支持數(shù)據(jù)質(zhì)量的監(jiān)
控、治理。
數(shù)據(jù)質(zhì)量監(jiān)控平臺,主要是對Hive數(shù)倉中的庫表數(shù)據(jù)的質(zhì)量進行監(jiān)
控,包括表級別和字段級別的數(shù)據(jù)進行監(jiān)控,以減少或避免由數(shù)據(jù)質(zhì)量
引起的事故和損失。
借助數(shù)據(jù)質(zhì)量監(jiān)控平臺,我們通過實施下面幾個關(guān)鍵步驟來進行數(shù)據(jù)質(zhì)
量的治理:
(1)配置監(jiān)控規(guī)則
對高價值分的作業(yè),我們要求強制配置基礎(chǔ)監(jiān)控規(guī)則,如:主鍵唯一性
校驗、數(shù)據(jù)非空校驗;
另還可以根據(jù)業(yè)務場景需要,配置對應的業(yè)務規(guī)則監(jiān)控,如:字段總值
環(huán)比校驗、字段極值校驗等,監(jiān)控平臺內(nèi)置了約17種字段級校驗規(guī)
則、5種表級校驗規(guī)則,供直接配置使用;
監(jiān)控規(guī)則規(guī)則描述
表非空校驗表沒有記錄時發(fā)送告警
表環(huán)比校驗如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
表原表對比如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
表主鍵唯一如果表根據(jù)主鍵值去重計數(shù)不等于表記錄數(shù),則發(fā)送告警
字段字符非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段字符長度校驗如果字段數(shù)值長度超過預定義上下限范圍.則會發(fā)送告警
字段字符只允許數(shù)字校驗如果出現(xiàn)非數(shù)字的字符或符號,則會發(fā)送告警
字段字符非法校驗如果出現(xiàn)預定義禁止值.則會發(fā)送告警
字段字符空值增長率如果空值常長率超出預定義上下值.則會發(fā)送告警
字段字符格式校驗如果字段值的格式非指定格式,則會發(fā)送告警
字段枚舉允許值校驗如果字段值出現(xiàn)非預定義允許值,則會發(fā)送告警
字段枚舉空值增長率如果空值增長率超出預定義上下值,則會發(fā)送告警
字段枚舉非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段數(shù)字非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段數(shù)字空值增長率如果空值增長率超出預定義上下值.則會發(fā)送告警
字段數(shù)字極值校驗如果字段數(shù)值超過預定義上下限范圍,則會發(fā)送告警
字段數(shù)字非法值校驗如果出現(xiàn)預定義禁止值,則會發(fā)送告警
字段數(shù)字環(huán)比校驗如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
字段數(shù)字均值校驗如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
字段枚舉環(huán)比如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警…_.
字段空值占比校驗如果空值的記錄條數(shù)和總記錄數(shù)對比,則會發(fā)送吉警歸于三
除內(nèi)置了豐富的校驗規(guī)則,質(zhì)量監(jiān)控平臺還支持SQL自定義監(jiān)控規(guī)則,
極大地滿足各種數(shù)據(jù)監(jiān)控場景。
(2)監(jiān)控告警
當校驗規(guī)則識別異常時,需要通知負責人進行跟進處理,質(zhì)量監(jiān)控平臺
支持以電話、郵件和短信等方式通知作業(yè)屬主。作業(yè)屬主收到告警后,
需及時地處理和關(guān)閉告警,否則告警將一直掛在那,在后面的告警響應
度中會被稽核到,上報其領(lǐng)導。
(3)全鏈路數(shù)據(jù)監(jiān)控
根據(jù)作業(yè)的價值分級,針對高價值作業(yè),開發(fā)人員可根據(jù)數(shù)據(jù)血緣,對
上游作業(yè)依次配上監(jiān)控,實現(xiàn)全鏈路的數(shù)據(jù)質(zhì)量監(jiān)控。
06數(shù)據(jù)質(zhì)量評價體系
在執(zhí)行了一系列的舉措來提高數(shù)據(jù)質(zhì)量后,如何來驗證數(shù)據(jù)質(zhì)量的治理
效果呢?
根據(jù)企業(yè)本身的數(shù)據(jù)特點,設計并構(gòu)建了一個數(shù)據(jù)質(zhì)量七維評價模型,
如下圖所示:
數(shù)據(jù)度量整體評分:74.15
副版完整性
7.BJ
告警響應度
..「-
,:/溷字星
數(shù)據(jù)質(zhì)量評價模型,分別從數(shù)據(jù)完整性、監(jiān)控覆蓋率、告警響應度、作
業(yè)準確性、作業(yè)穩(wěn)定性、作業(yè)時效性、作業(yè)性能分等七個維度來考量平
臺的數(shù)據(jù)質(zhì)量,基于該模型,還設計了"數(shù)據(jù)質(zhì)量分"這個指標,來直觀
地反映平臺數(shù)據(jù)質(zhì)量的建設水平及健康狀況。
數(shù)據(jù)質(zhì)量七維模型的評價視角及其計算口徑:
數(shù)據(jù)質(zhì)量?績效評分指標
考量數(shù)據(jù)項信息是否全面、完整、無抉失
1數(shù)據(jù)完整性指標公式:表完整性和字段完整性的平均值
2監(jiān)控覆蓋率,確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標準或規(guī)范要求
指標公式:巳監(jiān)控作業(yè)個數(shù)/作業(yè)總個數(shù)
通過日常管理、應急響應,降低或消除問題影響,避免數(shù)據(jù)損毀、丟失
3告警響應度指標公式:巳處理告警個數(shù)/告警總個數(shù)
<
作業(yè)準確性考量數(shù)據(jù)是否符合預設的質(zhì)量要求,如唯一性約束、記錄量校驗等
4指標公式:1-告警作業(yè)個數(shù)/監(jiān)控作業(yè)總個數(shù)
5作業(yè)穩(wěn)定性考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導致數(shù)據(jù)事故
指標公式:1-錯誤作業(yè)個數(shù)/作業(yè)總個數(shù)
6作業(yè)及時性考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預期要求
?指標公式:1-延遲作業(yè)個數(shù)/作業(yè)總個數(shù)
考量作業(yè)的執(zhí)行效率和逑康度,診斷作業(yè)是否假斜等性能問題
7作業(yè)性能分指標公式:1-(嚴重I危急)作業(yè)個數(shù)/作業(yè)總個數(shù);冊據(jù)學堂
數(shù)據(jù)完整性
☆考量數(shù)據(jù)項信息是否全面、完整、無缺失
★指標公式:表完整性和字段完整性的平均值
2
監(jiān)控覆蓋率
☆確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標準或規(guī)范要求
★指標公式:監(jiān)控的高價值作業(yè)個數(shù)/高價值作業(yè)總個數(shù)
其中,高價值作業(yè)是指作業(yè)價值分在80分以上的作業(yè)
3
告警響應度
☆通過日常管理、應急響應,降低或消除問題影響,避免數(shù)據(jù)損毀、
丟失
★指標公式:已處理告警個數(shù)(本周)/告警總個數(shù)(本周)
4
作業(yè)準確性
☆考量數(shù)據(jù)是否符合預設的質(zhì)量要求,如唯一性約束、記錄量校驗等
★指標公式:1-告警作業(yè)個數(shù)(本周)/監(jiān)控作業(yè)總個數(shù)
作業(yè)穩(wěn)定性
☆考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導致數(shù)據(jù)事故
★指標公式:1-錯誤作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)
作業(yè)時效性
☆考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預期要求
★指標公式:1-延遲的高價值作業(yè)個數(shù)(本周)/高價值作業(yè)總個數(shù)
其中,基準時間為作業(yè)近30天平均完成時間加30分鐘,作業(yè)晚于
基準即延遲
7
作業(yè)性能分
☆考量作業(yè)的執(zhí)行效率和健康度,診斷作業(yè)是否傾斜等性能問題
★指標公式:1-危急作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)
從各質(zhì)量維度的評價視角和指標公式可以發(fā)現(xiàn),雖然數(shù)據(jù)質(zhì)量監(jiān)控的是
表及字段的質(zhì)量情況,但我們的質(zhì)量分是設定在庫這個層級。這么設計
主要是為了更好地責任劃分、統(tǒng)籌治理。
比如在銀行業(yè),每個庫都有其對應的所屬分層(如明細層、匯總層、應
用層等),且每個庫都有對應的庫負責人,所以到庫這個層級,我們能
更好的分而治之,由庫負責人對庫的質(zhì)量水平負責。
基于數(shù)據(jù)質(zhì)量模型,我們還配套對應的數(shù)據(jù)質(zhì)量監(jiān)控報告。在報告中我
們不僅能看到數(shù)據(jù)平臺的整體質(zhì)量評分,了解質(zhì)量發(fā)展趨勢,更能通過
多維分析、單維深鉆來了解平臺的質(zhì)量問題根源。
多維分析:詳細展示七個質(zhì)量維度的評分及趨勢變化,每個維度下還配
有TOP榜,用來展示低質(zhì)量的庫排名,督促庫負責人進行優(yōu)化、治
理;
作業(yè)準確性(TOP10窿及整體)作業(yè)準確性(表明他)
*nsMilft8ftftNUf作m■tHBAA已處哀”個《l
RLDRLD71A3?XMS_COR£.28390no
第"IM
ZCtMIftOMOO1MS.CORE:如“5DO28390390
JIHAJ^WB
XUMta?5986671MS.COW378378
6KCHtWMtfBUNX89.71-\MS.COR£臥?837>378
ZH
AP嚼1RZHIS
9000-KMS.CORE‘r348548
SAf!li^Kg_MDe」1HA9P非
SUMK0690X)01U4S.COR£APWt>.洲iZH15348348
TBBUCza^fp9Z02I\MS_COREb決qZH/3klZHb271271
28
1PJIH^^BZHA1RlZHlS
192161kMS.CORE?Kf?B->w271271
GUV!
92471\MS.CORETHHZHH)28h238238
ALG92.921XMS.CORtJIHAIA28GUvj史圖據(jù)冬空
無無95.361IMSCORfEITHAMKVK7HAMAI7HI?i
1-2$A1.486ft?
單維深鉆:每一個質(zhì)量維度都能從整體下鉆到具體庫及表,深入了解該
維度質(zhì)量評分低的具體原因,以便針對性地解決問題、提高質(zhì)量;
告譬規(guī)弼(各庫表嬲)
asm*8
ttaaStcfTiiMIDBMfluaaMfNLQKBRRfWBUTALQ2
ttiWftSttMIDF$_8W|^M|^^mEILtNFCFS_BS9MMK_SU2
作業(yè)MIDv.FSjtMMBTivrV
作ikt&SttMID
ttSMl:MIDFS.WMHaflUrtfO
盛婷量?本MIDV.FSjtaHBHMtl1*FS-WMSHRARY,
盤IS量■率MIDFSjM>M9hFO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 柳州職業(yè)技術(shù)學院《動畫劇本與分鏡設計》2023-2024學年第一學期期末試卷
- 江西中醫(yī)藥大學《畫法幾何與土建制圖》2023-2024學年第一學期期末試卷
- 新蘇教版一年級下冊數(shù)學第1單元第1課時《9加幾》教案
- 華僑大學《思想道德修養(yǎng)》2023-2024學年第一學期期末試卷
- 湖北科技職業(yè)學院《Web應用與開發(fā)》2023-2024學年第一學期期末試卷
- 河南中醫(yī)藥大學《音樂基礎(chǔ)理論2》2023-2024學年第一學期期末試卷
- 重慶輕工職業(yè)學院《辦公空間設計》2023-2024學年第一學期期末試卷
- 駐馬店職業(yè)技術(shù)學院《馬克思主義中國化》2023-2024學年第一學期期末試卷
- 浙江萬里學院《金融風險分析師(FRM)專題(雙語)》2023-2024學年第一學期期末試卷
- 浙江工貿(mào)職業(yè)技術(shù)學院《證券投資常識》2023-2024學年第一學期期末試卷
- 開展課外讀物負面清單管理的具體實施舉措方案
- 中國骨關(guān)節(jié)炎診療指南(2024版)解讀
- 2025年內(nèi)蒙古包鋼集團公司招聘筆試參考題庫含答案解析
- 企業(yè)內(nèi)訓師培訓師理論知識考試題庫500題(含各題型)
- 2025年云南中煙工業(yè)限責任公司招聘420人高頻重點提升(共500題)附帶答案詳解
- 2024年山西省晉中市公開招聘警務輔助人員(輔警)筆試專項訓練題試卷(2)含答案
- 2023九年級歷史上冊 第二單元 5《羅馬城邦和羅馬帝國》教學實錄 新人教版
- 仁愛英語八年級上冊詞匯練習題全冊
- 報價單模板及范文(通用十二篇)
- 鈑金部品質(zhì)控制計劃
- 標準內(nèi)包骨架油封規(guī)格及公差
評論
0/150
提交評論