




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)治理實(shí)踐
導(dǎo)讀:
本文主要介紹數(shù)據(jù)治理的歷程和實(shí)踐經(jīng)驗(yàn),以及業(yè)務(wù)發(fā)展各個(gè)階段中
數(shù)據(jù)體系遇到的問題和解決方案。最后,將探討數(shù)據(jù)治理在現(xiàn)階段的建設(shè)思
路和發(fā)展方向。
一、背景介紹
數(shù)據(jù)治理這個(gè)話題這兩年非?;馃幔芏喙居绕浯笮突ヂ?lián)網(wǎng)公司都
在做一些數(shù)據(jù)治理的規(guī)劃和動作。為什么大家都要做數(shù)據(jù)治理?我個(gè)人的
理解是,從數(shù)據(jù)產(chǎn)生、采集、生產(chǎn)、存儲、應(yīng)用到銷毀的全過程中,可能在
各環(huán)節(jié)中引入各種問題。初始發(fā)展階段,這些數(shù)據(jù)問題對我們的影響不大,
大家對問題的容忍度比較高。但是,隨著業(yè)務(wù)發(fā)展數(shù)據(jù)質(zhì)量和穩(wěn)定性要求提
升,并且數(shù)據(jù)積累得越來越多,我們對一些數(shù)據(jù)的精細(xì)化要求也越來越高,
就會逐漸發(fā)現(xiàn)有很多問題需要治理。數(shù)據(jù)開發(fā)過程中會不斷引入一些問題,
而數(shù)據(jù)治理就是要不斷消除引入的問題,以高質(zhì)量、高可用、高安全的方式
為業(yè)務(wù)提供數(shù)據(jù)。
為什么要做數(shù)據(jù)治理?
數(shù)據(jù)開發(fā)
產(chǎn)生問題
1.需要治理哪些問題
數(shù)據(jù)治理過程中哪些問題需要治理?總結(jié)了有五大類問題。
需要治理哪些問題?
數(shù)據(jù)常見問題
?數(shù)據(jù)質(zhì)量
?標(biāo)準(zhǔn)規(guī)范
?成本控制
?數(shù)據(jù)安全
?研發(fā)及管理效率
?質(zhì)量問題,是最重要的問題,很多公司數(shù)據(jù)部門或者業(yè)務(wù)線組做數(shù)據(jù)
治理的一個(gè)大背景就是數(shù)據(jù)質(zhì)量存在很多問題,比如數(shù)倉的及時(shí)性、
準(zhǔn)確性、一致性、規(guī)范性和數(shù)據(jù)應(yīng)用指標(biāo)的邏輯一致性問題。
?成本問題,互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)膨脹速度非??欤笮突ヂ?lián)網(wǎng)公司在大數(shù)
據(jù)基礎(chǔ)設(shè)施上的成本投入占比非常高,而且隨著數(shù)據(jù)量的增加成本也
將繼續(xù)攀升。
?安全問題,尤其是業(yè)務(wù)特別關(guān)注的用戶類數(shù)據(jù),一旦泄露,對業(yè)務(wù)的
影響非常大,甚至能影響整個(gè)業(yè)務(wù)的生死。
?標(biāo)準(zhǔn)化問題,當(dāng)公司業(yè)務(wù)部門比較多的時(shí)候,各業(yè)務(wù)部門、開發(fā)團(tuán)隊(duì)
的數(shù)據(jù)標(biāo)準(zhǔn)不一致,在數(shù)據(jù)打通和整合過程中會出現(xiàn)很多問題。
?效率問題,在數(shù)據(jù)開發(fā)和數(shù)據(jù)管理過程中都會遇到一些效率低的問題,
很多時(shí)候是靠堆人力在做。
2.數(shù)據(jù)現(xiàn)狀
從2014年成立為獨(dú)立業(yè)務(wù)部門,到2018年成為國內(nèi)重要的在線預(yù)訂
平臺,業(yè)務(wù)發(fā)展速度比較快,數(shù)據(jù)增長速度也非??臁?017到2018兩年
里,生產(chǎn)任務(wù)數(shù)以每年超過一倍的速度增長,數(shù)據(jù)量的增長速度每年兩倍多。
如果不做治理,按指數(shù)級增長趨勢,未來數(shù)據(jù)生產(chǎn)任務(wù)的復(fù)雜性還是成本負(fù)
擔(dān)都非常大。
針對我們當(dāng)時(shí)面臨的情況,總結(jié)了五大類問題:
?標(biāo)準(zhǔn)化的規(guī)范缺失,開始建設(shè)的時(shí)候業(yè)務(wù)發(fā)展非???,但多個(gè)業(yè)務(wù)線
之間的標(biāo)準(zhǔn)化和規(guī)范化建設(shè)都只是以規(guī)范文檔的形式存在,每個(gè)人的
理解不一致,導(dǎo)致多個(gè)研發(fā)同學(xué)開發(fā)出來的數(shù)據(jù)標(biāo)準(zhǔn)就很難達(dá)到一致。
?數(shù)據(jù)質(zhì)量問題比較多,突出在幾個(gè)方面,第一個(gè)是數(shù)據(jù)冗余很多,從
數(shù)據(jù)任務(wù)增長的速度來看,新上線人多,下線任務(wù)少,數(shù)據(jù)表的生命
周期控制較少。第二個(gè)是在數(shù)據(jù)建設(shè)過程中很多應(yīng)用層數(shù)據(jù)都是煙囪
式建設(shè),很多指標(biāo)口徑?jīng)]有統(tǒng)一的管理規(guī)范,數(shù)據(jù)一致性無法保證。
.成本增長非???,在某些業(yè)務(wù)線大數(shù)據(jù)存儲和計(jì)算資源的機(jī)器費(fèi)用占
比已經(jīng)超過了35%,如果不加以控制,大數(shù)據(jù)成本費(fèi)用只會越來越
iWlo
?數(shù)據(jù)安全的控制,各業(yè)務(wù)線之間可以共用的數(shù)據(jù)比較多,而且每個(gè)業(yè)
務(wù)線沒有統(tǒng)一的數(shù)據(jù)權(quán)限管理。
?數(shù)據(jù)管理和運(yùn)維效率低,數(shù)據(jù)使用和咨詢多,數(shù)據(jù)RD需要花費(fèi)大量
時(shí)間解答業(yè)務(wù)用戶的問題。
二、治理實(shí)踐
2018年以前數(shù)據(jù)組也做過數(shù)據(jù)治理,從數(shù)倉建模、指標(biāo)管理和應(yīng)用上
做優(yōu)化和流程規(guī)范,當(dāng)時(shí)沒有做體系化的數(shù)據(jù)治理規(guī)劃。從2018年以后我
們基于上面提到的五個(gè)問題,我們做了一個(gè)整體的數(shù)據(jù)治理策略。
我們把數(shù)據(jù)治理的內(nèi)容劃分為幾大部分:組織、標(biāo)準(zhǔn)規(guī)范、技術(shù)、衡量
指標(biāo)。整體數(shù)據(jù)治理的實(shí)現(xiàn)路徑是以標(biāo)準(zhǔn)化的規(guī)范和組織保障為前提,通過
做技術(shù)體系整體保證數(shù)據(jù)治理策略的實(shí)現(xiàn)。同時(shí)會做數(shù)據(jù)治理的衡量體系,
隨時(shí)觀測和監(jiān)控?cái)?shù)據(jù)治理的效果,保障數(shù)據(jù)治理長期向好發(fā)展。
數(shù)據(jù)治理策略
數(shù)據(jù)治理的內(nèi)容數(shù)據(jù)治理的實(shí)現(xiàn)路徑
標(biāo)準(zhǔn)化規(guī)范及組織保障
技術(shù)體系
陸a淺,■成小■支主
元數(shù)據(jù)
衡量指標(biāo)
1.標(biāo)準(zhǔn)化和組織保障
每個(gè)公司在做數(shù)據(jù)治理時(shí)都會提到標(biāo)準(zhǔn)化,我們總體思路也沒有太大
區(qū)別。數(shù)據(jù)標(biāo)準(zhǔn)化包括三個(gè)方面:第一是標(biāo)準(zhǔn)制定,第二是標(biāo)準(zhǔn)執(zhí)行,第三
是在標(biāo)準(zhǔn)制定和執(zhí)行過程中的組織保障,比如怎么讓標(biāo)準(zhǔn)能在數(shù)據(jù)技術(shù)部
門、業(yè)務(wù)部門和相關(guān)商業(yè)分析部門統(tǒng)一。
標(biāo)準(zhǔn)化及組織保障
制定數(shù)據(jù)管理委員會
「
標(biāo)準(zhǔn)化,1
執(zhí)行組織
分
后
產(chǎn)
業(yè)
大
商
析
臺
品
務(wù)
數(shù)
業(yè)
工
開
及
銷
據(jù)
分
具
發(fā)
全鏈路數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)運(yùn)
售
析
平
中
S團(tuán)
部
都
臺
心
隊(duì)
?數(shù)據(jù)采集部
?數(shù)倉開發(fā)
?指標(biāo)管理
業(yè)務(wù)部門技術(shù)團(tuán)隊(duì)
?數(shù)據(jù)應(yīng)用
?數(shù)據(jù)生命周期管理
從標(biāo)準(zhǔn)制定上,我們制定了一個(gè)全鏈路的數(shù)據(jù)標(biāo)準(zhǔn)方法,從數(shù)據(jù)采集、
數(shù)倉開發(fā)、指標(biāo)管理到數(shù)據(jù)生命周期管理建立了很多標(biāo)準(zhǔn),在標(biāo)準(zhǔn)化建立過
程中聯(lián)合組建了一個(gè)業(yè)務(wù)部門的數(shù)據(jù)管理委員會。管理委員會是一個(gè)虛擬
的組織,主要組成是技術(shù)部門和業(yè)務(wù)部門,技術(shù)部門是業(yè)務(wù)數(shù)據(jù)的開發(fā)團(tuán)隊(duì),
業(yè)務(wù)部門是業(yè)務(wù)數(shù)據(jù)的產(chǎn)品團(tuán)隊(duì),這兩個(gè)團(tuán)隊(duì)作為實(shí)現(xiàn)的負(fù)責(zé)人,各自對接
技術(shù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì),比如技術(shù)團(tuán)隊(duì)負(fù)責(zé)協(xié)調(diào)后臺開發(fā)團(tuán)隊(duì)、大數(shù)據(jù)平臺團(tuán)
隊(duì)、數(shù)據(jù)分析系統(tǒng)團(tuán)隊(duì)等。業(yè)務(wù)則會協(xié)調(diào)商業(yè)分析、產(chǎn)品運(yùn)營和一些業(yè)務(wù)部
門。業(yè)務(wù)各個(gè)部門分別出人把數(shù)據(jù)管理委員會運(yùn)行起來,為標(biāo)準(zhǔn)制定、執(zhí)行
提供組織保障。讓大家對標(biāo)準(zhǔn)化制定能有更加統(tǒng)一的認(rèn)知,執(zhí)行過程阻力也
更小,還能定期在組織內(nèi)同步信息。
2.技術(shù)體系
在執(zhí)行過程中也不希望完全通過人力和組織來推動達(dá)成,總體希望以
一些自動化的方式進(jìn)行。下面介紹一下我們的技術(shù)體系。
①數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量是數(shù)據(jù)質(zhì)量中最重要的一個(gè)問題,現(xiàn)在數(shù)據(jù)治理的
大部分問題都屬于數(shù)據(jù)質(zhì)量。這里有四大問題:
.數(shù)據(jù)倉庫的綜合性比較差,雖然有一些規(guī)范文檔,但更依賴個(gè)人理解
去執(zhí)行。
?數(shù)據(jù)一致性問題多,主要表現(xiàn)在數(shù)據(jù)指標(biāo)的管理上。指標(biāo)管理以前在
文檔中定義指標(biāo),沒有系統(tǒng)化的統(tǒng)一管理邏輯和查詢邏輯。
?數(shù)據(jù)應(yīng)用非常多,使用數(shù)據(jù)的方式包括數(shù)據(jù)表同步、接口消息推送、
OLAP引擎查詢等,不能保證數(shù)據(jù)應(yīng)用端的數(shù)據(jù)一致性。
.產(chǎn)品非常多,業(yè)務(wù)數(shù)據(jù)產(chǎn)品入口有十多個(gè),沒有統(tǒng)一的入口,也沒有
人對這些產(chǎn)品統(tǒng)一把關(guān),導(dǎo)致數(shù)據(jù)應(yīng)用和使用方式有很多分歧。
我們的技術(shù)實(shí)現(xiàn)方式是為了解決上面這四大類質(zhì)量問題,首先在數(shù)據(jù)倉庫
規(guī)范性上進(jìn)行統(tǒng)一,然后統(tǒng)一指標(biāo)邏輯,在此之上統(tǒng)一數(shù)據(jù)服務(wù)接口,最后
在產(chǎn)品上統(tǒng)一用戶產(chǎn)品入口。從這四大方向?qū)⒊R姷臄?shù)據(jù)質(zhì)量問題管控起
來,具體技術(shù)實(shí)現(xiàn)方式如下。
數(shù)據(jù)質(zhì)量
技術(shù)實(shí)現(xiàn)
常見問題
?數(shù)倉規(guī)范性基
-數(shù)據(jù)一致性何息多
?數(shù)據(jù)應(yīng)用無法把控
?多個(gè)產(chǎn)品中指標(biāo)邏輯不同
數(shù)倉建模規(guī)范
統(tǒng)一數(shù)倉建模規(guī)范分三大部分實(shí)現(xiàn),以前我們只有事前的一些標(biāo)準(zhǔn)化
規(guī)范,大家按自己的理解去建模實(shí)現(xiàn)。在這個(gè)基礎(chǔ)上增加了事中和事后兩個(gè)
部分,針對事中開發(fā)了系統(tǒng)化工具,做數(shù)倉配置化開發(fā)。事后做規(guī)則化驗(yàn)證。
事前會有標(biāo)準(zhǔn)化文檔給大家提前理解、宣貫,事中很多標(biāo)準(zhǔn)化的事項(xiàng)會通過
配置化自動約束規(guī)范,事后會有上線時(shí)的檢驗(yàn)和上線后每周定期檢驗(yàn),檢驗(yàn)
數(shù)據(jù)倉庫的建模規(guī)范是否符合標(biāo)準(zhǔn),把不符合標(biāo)準(zhǔn)的及時(shí)提示出來、及時(shí)改
進(jìn)。
統(tǒng)一數(shù)倉規(guī)范建模
事中|事后
I事前II
I標(biāo)」化夜范I髭般化開發(fā)|規(guī)則?化驗(yàn)證!
模型設(shè)計(jì)規(guī)范模型開發(fā)工具數(shù)倉規(guī)范監(jiān)控
?收倉分層和主題?模里多砒信息?數(shù)倉分層
?命名、矣契、詞根?抬倉主愿和分層?敬搪血緣
?公共維度、關(guān)取關(guān)系?E"代碼生成?數(shù)倉相似度
模能開發(fā)規(guī)范命名規(guī)則工具數(shù)倉規(guī)范報(bào)告
?開發(fā)流程
?模型命名標(biāo)準(zhǔn)化?數(shù)倉規(guī)范報(bào)告
?代碼編寫
?自瑞命名標(biāo)用化?數(shù)相冗余報(bào)告
?注釋信息
上線規(guī)則監(jiān)測工具
?效倉規(guī)范性監(jiān)測
?依據(jù)依賴監(jiān)測
事前的標(biāo)準(zhǔn)化規(guī)范幾個(gè)方向,第一是數(shù)據(jù)倉庫的設(shè)計(jì)規(guī)范,在做一個(gè)新
業(yè)務(wù)或模塊之前,以文檔形式做一些設(shè)計(jì)規(guī)范。第二是開發(fā)規(guī)范,包括一些
開發(fā)流程、代碼編寫規(guī)范和注釋信息。
這些形成之后還想在事中以系統(tǒng)化的方式進(jìn)行控制,保證不會因?yàn)槊?/p>
個(gè)人的不同理解而對數(shù)倉的規(guī)范化構(gòu)成影響。這里主要包含三部分工具:
?模型開發(fā)過程中的開發(fā)工具,主要控制模型的基礎(chǔ)信息、數(shù)倉主題和
分層以及ETL代碼生成。
?命名規(guī)范工具,針對模型、表、字段、指標(biāo)建了很多一些規(guī)范化的系
統(tǒng)實(shí)現(xiàn),控制這些命名的標(biāo)準(zhǔn)化。
?上線規(guī)則監(jiān)控工具,上線過程中會監(jiān)控一些數(shù)據(jù)規(guī)范,還有一些性能
監(jiān)控,有問題會及時(shí)發(fā)現(xiàn)。
事后會定期監(jiān)控,生成報(bào)告來看每個(gè)業(yè)務(wù)線、每個(gè)組、具體每個(gè)人的數(shù)
倉規(guī)范性情況。
對于具體的實(shí)現(xiàn)方案,我舉一個(gè)簡單的例子,一個(gè)數(shù)倉開發(fā)配置化的命
名規(guī)范工具。我們工具的實(shí)質(zhì)還是從規(guī)范化、標(biāo)準(zhǔn)化再到工具化,所以在前
期做了一些規(guī)范化、標(biāo)準(zhǔn)化,在通過工具化把標(biāo)準(zhǔn)化和規(guī)范化通過系統(tǒng)實(shí)現(xiàn),
有了工具之后,比如人在數(shù)倉時(shí),都會統(tǒng)一按相同的方式來命名,即便在幾
千個(gè)ETL里都有這個(gè)字段也能非??斓剡M(jìn)行定位。命名工具和數(shù)倉建模ETL
工具也進(jìn)行了打通,命名審核通過后,直接點(diǎn)擊就能在ETL工具的平臺中
生成一段代碼,只需要將查詢邏輯補(bǔ)充進(jìn)去就可以了。這樣就達(dá)到了控制數(shù)
倉命名規(guī)范的目的。
數(shù)倉開發(fā)配置化-命名規(guī)范工具
險(xiǎn)財(cái):(時(shí)間周期詞卜[修飾詞卜字段描述詞+ouj
揚(yáng)康畬名概財(cái):【閭」修飾詞卜字段描述詞?[后媚/度■卜[時(shí)間周期同j
英文詞根
近義同修
n丁
同電車
08英文修飾一
統(tǒng)一指標(biāo)管理系統(tǒng)
指標(biāo)在數(shù)倉中非常重要,所有數(shù)據(jù)應(yīng)用都是以指標(biāo)方式使用的。指標(biāo)管
理系統(tǒng)化主要做了流程管理標(biāo)準(zhǔn)化、指標(biāo)定義標(biāo)準(zhǔn)化和指標(biāo)使用標(biāo)準(zhǔn)化。系
統(tǒng)化分三層,第一層是物理表管理,第二層是模型管理,第三層是指標(biāo)管理,
這些信息在元數(shù)據(jù)管理中統(tǒng)一進(jìn)行。
統(tǒng)一指標(biāo)管理系統(tǒng)
1.標(biāo)準(zhǔn)化
?流程管理標(biāo)準(zhǔn)化
?指標(biāo)定義標(biāo)準(zhǔn)化
?指標(biāo)使用標(biāo)準(zhǔn)化
2.系統(tǒng)化
?指標(biāo)僖息管理系統(tǒng)化
?查詢解析系統(tǒng)化
?元數(shù)據(jù)管理系統(tǒng)化
統(tǒng)一規(guī)范只是指標(biāo)管理的第一步,除了指標(biāo)管理外,所有數(shù)據(jù)應(yīng)用還能
通過這個(gè)工具查詢數(shù)據(jù)。具體做法,一個(gè)應(yīng)用無非要查詢兩種數(shù)據(jù),一是維
度,二是指標(biāo)。在查詢指標(biāo)時(shí),可能會有一些維度限制條件。在指標(biāo)管理模
塊中通過指定指標(biāo)定位到數(shù)倉模型,了解指標(biāo)的獲取方式(是sum還是
count等)。相應(yīng)的數(shù)倉模型可是能是星型模型、寬表、循環(huán)模型,從模型
中解析出對應(yīng)的底層物理表。解析后,結(jié)合指標(biāo)、維度和篩選條件,經(jīng)過不
同的存儲引擎,解析成不同的查詢語句。這樣控制好數(shù)據(jù)指標(biāo)管理之后,數(shù)
據(jù)應(yīng)用可以通過指標(biāo)管理模塊獲得一致性的解析。
指標(biāo)一致性查詢
數(shù)據(jù)應(yīng)用
統(tǒng)一數(shù)據(jù)服務(wù)
我們的數(shù)據(jù)被很多下游系統(tǒng)使用,比如數(shù)據(jù)產(chǎn)品、業(yè)務(wù)系統(tǒng)、運(yùn)營系統(tǒng)、
管理系統(tǒng)等。有些下游既需要我們提供數(shù)據(jù)表,還要提供接口,但數(shù)據(jù)組開
發(fā)和維護(hù)后臺接口難度較大,而且接口提供后很難把控?cái)?shù)據(jù)的用途。所以我
們做了一個(gè)統(tǒng)一的數(shù)據(jù)服務(wù)平臺。平臺目標(biāo)是提高效率、提高數(shù)據(jù)準(zhǔn)確性、
提供數(shù)據(jù)監(jiān)控、將整個(gè)數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用鏈路打通。提供的方式有兩種,
一種是對于B端應(yīng)用,提供按需使用,每天提供幾萬次的調(diào)用額度;一種
是對于C端,通過推送的方式,比如每天推送一次最新數(shù)據(jù)。以推和拉兩
種方式保證服務(wù)功能的全面性,具體實(shí)現(xiàn),大家可以參考下圖:
統(tǒng)一數(shù)據(jù)服務(wù)平臺
敷據(jù)應(yīng)用方
的售工作臺商家后臺運(yùn)法索燒
應(yīng)用
數(shù)據(jù)服務(wù)平臺-Buffalo
at-
Kii?Hj
統(tǒng)一依據(jù)服務(wù)平臺
[
低據(jù)倉庫
數(shù)據(jù)倉庫
分為幾大層次:
?導(dǎo)入層。
?存儲層,數(shù)據(jù)根據(jù)不同的使用場景會有很多種不同的存儲方式,比如
根據(jù)條件查詢一條數(shù)據(jù)的情況KV最合適,一些對定性條件要求很高
的簡單匯總用MySQL,一些數(shù)據(jù)量非常大但頻率低的用OLAP引擎。
?服務(wù)層,對存儲引擎查詢進(jìn)行一些封裝。
?控制層,進(jìn)行權(quán)限管理、參數(shù)校驗(yàn)和業(yè)務(wù)資源隔離。
?接口層,提供不同的查詢方式,如聚合查詢、KV查詢、詳情杳詢和
分組查詢。
統(tǒng)一用戶產(chǎn)品入口
因?yàn)閿?shù)據(jù)入口非常多,我們又做了一個(gè)數(shù)據(jù)入口的統(tǒng)一,分成三大類:
?管理者和商業(yè)分析使用的分析決策產(chǎn)品
?業(yè)務(wù)銷售運(yùn)營用的業(yè)務(wù)銷售數(shù)據(jù)產(chǎn)品
?數(shù)據(jù)資產(chǎn)管理產(chǎn)品
通過這種方式,某一類用戶只需要在一類入口里訪問一類產(chǎn)品,不會出
現(xiàn)同一類產(chǎn)品中的數(shù)據(jù)不一致。我們又通過數(shù)據(jù)倉庫的統(tǒng)一建模、數(shù)據(jù)指標(biāo)
管理保證了三大類底層數(shù)據(jù)集市的一致,從而保證了所有數(shù)據(jù)的一致性。
統(tǒng)一用戶產(chǎn)品入口
整體系統(tǒng)架構(gòu)
整體的技術(shù)架構(gòu)分為三層,從統(tǒng)一數(shù)據(jù)建模到統(tǒng)一指標(biāo)邏輯、統(tǒng)一數(shù)據(jù)
服務(wù)和統(tǒng)一產(chǎn)品入口,整體保障了數(shù)據(jù)的質(zhì)量,同時(shí)配合數(shù)據(jù)管理的組織保
障體系和流程規(guī)范,將整體數(shù)據(jù)質(zhì)量相關(guān)的架構(gòu)搭建起來。
整體系統(tǒng)架構(gòu)
②數(shù)據(jù)運(yùn)營效率
作為數(shù)據(jù)提供方,我們有很多數(shù)據(jù)資產(chǎn),但數(shù)據(jù)使用方能不能快速找到、
找到怎么用、有哪些數(shù)據(jù),有三大類問題:
?找不到,不知道數(shù)據(jù)有沒有、在哪里。
?看不懂,有很多業(yè)務(wù)方不是技術(shù)研發(fā)團(tuán)隊(duì)的,看不懂?dāng)?shù)據(jù)到底什么含
義、怎么關(guān)聯(lián)查詢、來源于哪個(gè)業(yè)務(wù)系統(tǒng)。
?不會用,如何寫SQL或者哪些產(chǎn)品里面能查詢到自己想要的數(shù)據(jù)指
標(biāo)。
基于此有三大目標(biāo):找得到、看得懂、用得對。為了提效,我們選用一
些智能化系統(tǒng)代替人工。對于運(yùn)營相關(guān)的數(shù)據(jù)問題,先提供系統(tǒng)化的數(shù)據(jù)指
南。該指南包含三大類信息:指標(biāo)類、數(shù)倉模型、推薦使用方式。這個(gè)方式
能解決可能60%的問題,剩下的40%再通過答疑機(jī)器人,用一些機(jī)器的方
式替人回答問題,這又能解決其中60%的問題。最后還有一些還是沒找到
的,落到人工答疑環(huán)節(jié)就非常少了,通過自動化把需要人工做的事情降到原
來的20%以下。
數(shù)據(jù)運(yùn)營效率-解決思路
用戶
具體的實(shí)現(xiàn)方式,針對數(shù)據(jù)使用指南做了一個(gè)系統(tǒng),把指標(biāo)元數(shù)據(jù)、
維度元數(shù)據(jù)、數(shù)據(jù)表和各種產(chǎn)品元數(shù)據(jù)等管理起來。用戶從入口查詢能夠
快速定位,支持分類檢索和重點(diǎn)詞檢索,還會提供排序進(jìn)行重點(diǎn)推薦,對
每一個(gè)主題數(shù)據(jù)分類描述。通過數(shù)據(jù)指南能解決很多問題,不能解決的就
進(jìn)入答疑機(jī)器人系統(tǒng),這里主要解決一些元數(shù)據(jù)里沒有的問題。我們?nèi)粘?/p>
通訊工具上會有問答,把這些問題和答案總結(jié)成一個(gè)知識庫,進(jìn)行清洗和
規(guī)則匹配。對這類問答的解析成一個(gè)問題對應(yīng)一個(gè)答案,通過一些規(guī)則和
關(guān)鍵字匹配后存起來。之后再查的時(shí)候只輸入一個(gè)問題時(shí),根據(jù)這個(gè)解析
出來他想問的可能有幾個(gè)問題,將這幾個(gè)答案拋給他。
數(shù)據(jù)運(yùn)營系統(tǒng)化
平臺元數(shù)據(jù)數(shù)據(jù)問題和答疑知識庫
③數(shù)據(jù)成本
業(yè)務(wù)的數(shù)據(jù)成本也很大,每一年的數(shù)據(jù)存儲、計(jì)算相關(guān)的成本增長非常
快。目前大概的比例是70%的計(jì)算成本、20%是存儲成本、10%為采集日
志。針對這三大類,我們也分別做了一些數(shù)據(jù)成本治理的方案。
數(shù)據(jù)成本
成本治理分類成本精細(xì)化拆分
大數(shù)據(jù)資源成本占比
無效任務(wù)治現(xiàn)
超長任務(wù)優(yōu)化
計(jì)算
提高資源滿用窣
資源統(tǒng)一曾理
?冷被據(jù)治理
?復(fù)數(shù)據(jù)管理
存儲St
?數(shù)據(jù)生命周期管理
?存儲格式壓樵
日志下的應(yīng)用監(jiān)控
日志?
?日志上接方式優(yōu)化
采集
?無效埋點(diǎn)優(yōu)化
-HJI?存儲日本采集
針對計(jì)算類,主要做了如下事情:
?無效任務(wù)治理
.超長任務(wù)優(yōu)化
?提高資源滿用率
?資源統(tǒng)一管理
針對存儲類:
?冷數(shù)據(jù)治理
?重復(fù)數(shù)據(jù)治理
?數(shù)據(jù)生命周期管理
?存儲格式壓縮
日志采集類:
?日志下游應(yīng)用監(jiān)控
.日志上報(bào)方式優(yōu)化
?無效埋點(diǎn)優(yōu)化
整體的方案策略方面做了精細(xì)化拆分,比如按租戶(每個(gè)業(yè)務(wù)線的用戶)
來看,租戶下有隊(duì)列,隊(duì)列有離線、有實(shí)時(shí)。隊(duì)列下面有計(jì)算、存儲、采集,
計(jì)算之中又分離線、實(shí)時(shí),有些配置量、使用量。這樣可以非常容易地定位
到哪些租戶、哪些數(shù)倉是有問題的,對應(yīng)快速治理。
這方面也做了很多系統(tǒng)化的事情,比如有一個(gè)數(shù)據(jù)冗余判斷的邏輯,每
次做完數(shù)倉建模之后,會做冗余判斷。元數(shù)據(jù)生成之后進(jìn)行預(yù)處理,根據(jù)現(xiàn)
有的數(shù)據(jù)做預(yù)判,看是否已存在。通過配置的對比邏輯,如果認(rèn)為數(shù)據(jù)重復(fù),
會做標(biāo)記并每周推送到數(shù)據(jù)治理的看板上,及時(shí)將冗余數(shù)據(jù)治理掉。
④數(shù)據(jù)安全
數(shù)據(jù)安全我們是以事前預(yù)防、事中監(jiān)控、事后追蹤三個(gè)方式來進(jìn)行的。
實(shí)踐經(jīng)驗(yàn)上,通過三層系統(tǒng)控制加五個(gè)使用原則實(shí)現(xiàn)。從數(shù)據(jù)產(chǎn)生的源頭業(yè)
務(wù)系統(tǒng)里就會將一些非常敏感的用戶數(shù)據(jù)加密,數(shù)據(jù)倉庫層會對各分層的
數(shù)據(jù)進(jìn)行脫敏和二次加密,第三層專門做一些數(shù)據(jù)審計(jì),在數(shù)據(jù)使用全流程
中提供信息提示和審計(jì)報(bào)告。
安全規(guī)范及系統(tǒng)實(shí)現(xiàn)
三層系統(tǒng)控制+五個(gè)使用原則
依據(jù)使用展
全程監(jiān)控審計(jì)數(shù)據(jù)使用原則
?密文傳嫡原則
??晚壽原則
數(shù)據(jù)存儲層??小范圍提取原則
分居脫壁加及
?■少授權(quán)原則
?全程審計(jì)原則
依據(jù)源頭展
生成過程加史
數(shù)據(jù)使用過程中應(yīng)當(dāng)遵循的五個(gè)原則:
?密文處置原則,所有高敏感的數(shù)據(jù)都要密文傳輸。
?最晚解密原則,在應(yīng)用層產(chǎn)品使用的話,不要在數(shù)據(jù)倉庫層解密。
?最小范圍提取原則,如果只用一萬條數(shù)據(jù)只能對一萬條數(shù)據(jù)解密。
?最小授權(quán)原則,用多少給多少。
?全程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微量泵使用與護(hù)理
- 2-14邏輯函數(shù)的化簡-卡諾圖法3
- 臺州科技職業(yè)學(xué)院《全科醫(yī)學(xué)概論理論》2023-2024學(xué)年第二學(xué)期期末試卷
- 鐵門關(guān)職業(yè)技術(shù)學(xué)院《礦物加工技術(shù)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 南京醫(yī)科大學(xué)康達(dá)學(xué)院《學(xué)前兒童游戲與指導(dǎo)》2023-2024學(xué)年第一學(xué)期期末試卷
- 四川省宜賓市翠屏區(qū)2025年初三十月月考化學(xué)試題試卷含解析
- 上海民遠(yuǎn)職業(yè)技術(shù)學(xué)院《物流配送中心設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧省阜新二高2025屆高三第二學(xué)期入學(xué)檢測試題試卷英語試題含解析
- 江西生物科技職業(yè)學(xué)院《分子生物學(xué)實(shí)驗(yàn)技術(shù)與原理》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇省揚(yáng)州市梅嶺2025屆中考第二次模擬考試語文試題理試題含解析
- 私人水源轉(zhuǎn)讓協(xié)議合同
- 汽車?yán)鋮s系統(tǒng)課件
- 防脫洗發(fā)水培訓(xùn)課件
- 2025年河南省三門峽黃河明珠集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 北京市網(wǎng)球運(yùn)動管理中心2024年下半年公開招聘工作人員筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 電視臺采編崗試題及答案
- 《羅萊生活公司基于平衡計(jì)分卡的業(yè)績評價(jià)應(yīng)用案例》9700字【論文】
- 第19課 清朝君主專制的強(qiáng)化-2024-2025學(xué)年七年級歷史下冊互動課堂教學(xué)設(shè)計(jì)寶典
- 舟山西堠門大橋mmm課件
- 世界讀書日主題活動-書香潤童心閱讀伴成長課件
- DB11∕T791-2024文物建筑消防設(shè)施設(shè)置規(guī)范
評論
0/150
提交評論