數(shù)據(jù)治理實(shí)踐_第1頁
數(shù)據(jù)治理實(shí)踐_第2頁
數(shù)據(jù)治理實(shí)踐_第3頁
數(shù)據(jù)治理實(shí)踐_第4頁
數(shù)據(jù)治理實(shí)踐_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)治理實(shí)踐

導(dǎo)讀:

本文主要介紹數(shù)據(jù)治理的歷程和實(shí)踐經(jīng)驗(yàn),以及業(yè)務(wù)發(fā)展各個(gè)階段中

數(shù)據(jù)體系遇到的問題和解決方案。最后,將探討數(shù)據(jù)治理在現(xiàn)階段的建設(shè)思

路和發(fā)展方向。

一、背景介紹

數(shù)據(jù)治理這個(gè)話題這兩年非?;馃幔芏喙居绕浯笮突ヂ?lián)網(wǎng)公司都

在做一些數(shù)據(jù)治理的規(guī)劃和動作。為什么大家都要做數(shù)據(jù)治理?我個(gè)人的

理解是,從數(shù)據(jù)產(chǎn)生、采集、生產(chǎn)、存儲、應(yīng)用到銷毀的全過程中,可能在

各環(huán)節(jié)中引入各種問題。初始發(fā)展階段,這些數(shù)據(jù)問題對我們的影響不大,

大家對問題的容忍度比較高。但是,隨著業(yè)務(wù)發(fā)展數(shù)據(jù)質(zhì)量和穩(wěn)定性要求提

升,并且數(shù)據(jù)積累得越來越多,我們對一些數(shù)據(jù)的精細(xì)化要求也越來越高,

就會逐漸發(fā)現(xiàn)有很多問題需要治理。數(shù)據(jù)開發(fā)過程中會不斷引入一些問題,

而數(shù)據(jù)治理就是要不斷消除引入的問題,以高質(zhì)量、高可用、高安全的方式

為業(yè)務(wù)提供數(shù)據(jù)。

為什么要做數(shù)據(jù)治理?

數(shù)據(jù)開發(fā)

產(chǎn)生問題

1.需要治理哪些問題

數(shù)據(jù)治理過程中哪些問題需要治理?總結(jié)了有五大類問題。

需要治理哪些問題?

數(shù)據(jù)常見問題

?數(shù)據(jù)質(zhì)量

?標(biāo)準(zhǔn)規(guī)范

?成本控制

?數(shù)據(jù)安全

?研發(fā)及管理效率

?質(zhì)量問題,是最重要的問題,很多公司數(shù)據(jù)部門或者業(yè)務(wù)線組做數(shù)據(jù)

治理的一個(gè)大背景就是數(shù)據(jù)質(zhì)量存在很多問題,比如數(shù)倉的及時(shí)性、

準(zhǔn)確性、一致性、規(guī)范性和數(shù)據(jù)應(yīng)用指標(biāo)的邏輯一致性問題。

?成本問題,互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)膨脹速度非??欤笮突ヂ?lián)網(wǎng)公司在大數(shù)

據(jù)基礎(chǔ)設(shè)施上的成本投入占比非常高,而且隨著數(shù)據(jù)量的增加成本也

將繼續(xù)攀升。

?安全問題,尤其是業(yè)務(wù)特別關(guān)注的用戶類數(shù)據(jù),一旦泄露,對業(yè)務(wù)的

影響非常大,甚至能影響整個(gè)業(yè)務(wù)的生死。

?標(biāo)準(zhǔn)化問題,當(dāng)公司業(yè)務(wù)部門比較多的時(shí)候,各業(yè)務(wù)部門、開發(fā)團(tuán)隊(duì)

的數(shù)據(jù)標(biāo)準(zhǔn)不一致,在數(shù)據(jù)打通和整合過程中會出現(xiàn)很多問題。

?效率問題,在數(shù)據(jù)開發(fā)和數(shù)據(jù)管理過程中都會遇到一些效率低的問題,

很多時(shí)候是靠堆人力在做。

2.數(shù)據(jù)現(xiàn)狀

從2014年成立為獨(dú)立業(yè)務(wù)部門,到2018年成為國內(nèi)重要的在線預(yù)訂

平臺,業(yè)務(wù)發(fā)展速度比較快,數(shù)據(jù)增長速度也非??臁?017到2018兩年

里,生產(chǎn)任務(wù)數(shù)以每年超過一倍的速度增長,數(shù)據(jù)量的增長速度每年兩倍多。

如果不做治理,按指數(shù)級增長趨勢,未來數(shù)據(jù)生產(chǎn)任務(wù)的復(fù)雜性還是成本負(fù)

擔(dān)都非常大。

針對我們當(dāng)時(shí)面臨的情況,總結(jié)了五大類問題:

?標(biāo)準(zhǔn)化的規(guī)范缺失,開始建設(shè)的時(shí)候業(yè)務(wù)發(fā)展非???,但多個(gè)業(yè)務(wù)線

之間的標(biāo)準(zhǔn)化和規(guī)范化建設(shè)都只是以規(guī)范文檔的形式存在,每個(gè)人的

理解不一致,導(dǎo)致多個(gè)研發(fā)同學(xué)開發(fā)出來的數(shù)據(jù)標(biāo)準(zhǔn)就很難達(dá)到一致。

?數(shù)據(jù)質(zhì)量問題比較多,突出在幾個(gè)方面,第一個(gè)是數(shù)據(jù)冗余很多,從

數(shù)據(jù)任務(wù)增長的速度來看,新上線人多,下線任務(wù)少,數(shù)據(jù)表的生命

周期控制較少。第二個(gè)是在數(shù)據(jù)建設(shè)過程中很多應(yīng)用層數(shù)據(jù)都是煙囪

式建設(shè),很多指標(biāo)口徑?jīng)]有統(tǒng)一的管理規(guī)范,數(shù)據(jù)一致性無法保證。

.成本增長非???,在某些業(yè)務(wù)線大數(shù)據(jù)存儲和計(jì)算資源的機(jī)器費(fèi)用占

比已經(jīng)超過了35%,如果不加以控制,大數(shù)據(jù)成本費(fèi)用只會越來越

iWlo

?數(shù)據(jù)安全的控制,各業(yè)務(wù)線之間可以共用的數(shù)據(jù)比較多,而且每個(gè)業(yè)

務(wù)線沒有統(tǒng)一的數(shù)據(jù)權(quán)限管理。

?數(shù)據(jù)管理和運(yùn)維效率低,數(shù)據(jù)使用和咨詢多,數(shù)據(jù)RD需要花費(fèi)大量

時(shí)間解答業(yè)務(wù)用戶的問題。

二、治理實(shí)踐

2018年以前數(shù)據(jù)組也做過數(shù)據(jù)治理,從數(shù)倉建模、指標(biāo)管理和應(yīng)用上

做優(yōu)化和流程規(guī)范,當(dāng)時(shí)沒有做體系化的數(shù)據(jù)治理規(guī)劃。從2018年以后我

們基于上面提到的五個(gè)問題,我們做了一個(gè)整體的數(shù)據(jù)治理策略。

我們把數(shù)據(jù)治理的內(nèi)容劃分為幾大部分:組織、標(biāo)準(zhǔn)規(guī)范、技術(shù)、衡量

指標(biāo)。整體數(shù)據(jù)治理的實(shí)現(xiàn)路徑是以標(biāo)準(zhǔn)化的規(guī)范和組織保障為前提,通過

做技術(shù)體系整體保證數(shù)據(jù)治理策略的實(shí)現(xiàn)。同時(shí)會做數(shù)據(jù)治理的衡量體系,

隨時(shí)觀測和監(jiān)控?cái)?shù)據(jù)治理的效果,保障數(shù)據(jù)治理長期向好發(fā)展。

數(shù)據(jù)治理策略

數(shù)據(jù)治理的內(nèi)容數(shù)據(jù)治理的實(shí)現(xiàn)路徑

標(biāo)準(zhǔn)化規(guī)范及組織保障

技術(shù)體系

陸a淺,■成小■支主

元數(shù)據(jù)

衡量指標(biāo)

1.標(biāo)準(zhǔn)化和組織保障

每個(gè)公司在做數(shù)據(jù)治理時(shí)都會提到標(biāo)準(zhǔn)化,我們總體思路也沒有太大

區(qū)別。數(shù)據(jù)標(biāo)準(zhǔn)化包括三個(gè)方面:第一是標(biāo)準(zhǔn)制定,第二是標(biāo)準(zhǔn)執(zhí)行,第三

是在標(biāo)準(zhǔn)制定和執(zhí)行過程中的組織保障,比如怎么讓標(biāo)準(zhǔn)能在數(shù)據(jù)技術(shù)部

門、業(yè)務(wù)部門和相關(guān)商業(yè)分析部門統(tǒng)一。

標(biāo)準(zhǔn)化及組織保障

制定數(shù)據(jù)管理委員會

標(biāo)準(zhǔn)化,1

執(zhí)行組織

產(chǎn)

業(yè)

務(wù)

數(shù)

業(yè)

據(jù)

發(fā)

全鏈路數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)運(yùn)

S團(tuán)

隊(duì)

?數(shù)據(jù)采集部

?數(shù)倉開發(fā)

?指標(biāo)管理

業(yè)務(wù)部門技術(shù)團(tuán)隊(duì)

?數(shù)據(jù)應(yīng)用

?數(shù)據(jù)生命周期管理

從標(biāo)準(zhǔn)制定上,我們制定了一個(gè)全鏈路的數(shù)據(jù)標(biāo)準(zhǔn)方法,從數(shù)據(jù)采集、

數(shù)倉開發(fā)、指標(biāo)管理到數(shù)據(jù)生命周期管理建立了很多標(biāo)準(zhǔn),在標(biāo)準(zhǔn)化建立過

程中聯(lián)合組建了一個(gè)業(yè)務(wù)部門的數(shù)據(jù)管理委員會。管理委員會是一個(gè)虛擬

的組織,主要組成是技術(shù)部門和業(yè)務(wù)部門,技術(shù)部門是業(yè)務(wù)數(shù)據(jù)的開發(fā)團(tuán)隊(duì),

業(yè)務(wù)部門是業(yè)務(wù)數(shù)據(jù)的產(chǎn)品團(tuán)隊(duì),這兩個(gè)團(tuán)隊(duì)作為實(shí)現(xiàn)的負(fù)責(zé)人,各自對接

技術(shù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì),比如技術(shù)團(tuán)隊(duì)負(fù)責(zé)協(xié)調(diào)后臺開發(fā)團(tuán)隊(duì)、大數(shù)據(jù)平臺團(tuán)

隊(duì)、數(shù)據(jù)分析系統(tǒng)團(tuán)隊(duì)等。業(yè)務(wù)則會協(xié)調(diào)商業(yè)分析、產(chǎn)品運(yùn)營和一些業(yè)務(wù)部

門。業(yè)務(wù)各個(gè)部門分別出人把數(shù)據(jù)管理委員會運(yùn)行起來,為標(biāo)準(zhǔn)制定、執(zhí)行

提供組織保障。讓大家對標(biāo)準(zhǔn)化制定能有更加統(tǒng)一的認(rèn)知,執(zhí)行過程阻力也

更小,還能定期在組織內(nèi)同步信息。

2.技術(shù)體系

在執(zhí)行過程中也不希望完全通過人力和組織來推動達(dá)成,總體希望以

一些自動化的方式進(jìn)行。下面介紹一下我們的技術(shù)體系。

①數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量是數(shù)據(jù)質(zhì)量中最重要的一個(gè)問題,現(xiàn)在數(shù)據(jù)治理的

大部分問題都屬于數(shù)據(jù)質(zhì)量。這里有四大問題:

.數(shù)據(jù)倉庫的綜合性比較差,雖然有一些規(guī)范文檔,但更依賴個(gè)人理解

去執(zhí)行。

?數(shù)據(jù)一致性問題多,主要表現(xiàn)在數(shù)據(jù)指標(biāo)的管理上。指標(biāo)管理以前在

文檔中定義指標(biāo),沒有系統(tǒng)化的統(tǒng)一管理邏輯和查詢邏輯。

?數(shù)據(jù)應(yīng)用非常多,使用數(shù)據(jù)的方式包括數(shù)據(jù)表同步、接口消息推送、

OLAP引擎查詢等,不能保證數(shù)據(jù)應(yīng)用端的數(shù)據(jù)一致性。

.產(chǎn)品非常多,業(yè)務(wù)數(shù)據(jù)產(chǎn)品入口有十多個(gè),沒有統(tǒng)一的入口,也沒有

人對這些產(chǎn)品統(tǒng)一把關(guān),導(dǎo)致數(shù)據(jù)應(yīng)用和使用方式有很多分歧。

我們的技術(shù)實(shí)現(xiàn)方式是為了解決上面這四大類質(zhì)量問題,首先在數(shù)據(jù)倉庫

規(guī)范性上進(jìn)行統(tǒng)一,然后統(tǒng)一指標(biāo)邏輯,在此之上統(tǒng)一數(shù)據(jù)服務(wù)接口,最后

在產(chǎn)品上統(tǒng)一用戶產(chǎn)品入口。從這四大方向?qū)⒊R姷臄?shù)據(jù)質(zhì)量問題管控起

來,具體技術(shù)實(shí)現(xiàn)方式如下。

數(shù)據(jù)質(zhì)量

技術(shù)實(shí)現(xiàn)

常見問題

?數(shù)倉規(guī)范性基

-數(shù)據(jù)一致性何息多

?數(shù)據(jù)應(yīng)用無法把控

?多個(gè)產(chǎn)品中指標(biāo)邏輯不同

數(shù)倉建模規(guī)范

統(tǒng)一數(shù)倉建模規(guī)范分三大部分實(shí)現(xiàn),以前我們只有事前的一些標(biāo)準(zhǔn)化

規(guī)范,大家按自己的理解去建模實(shí)現(xiàn)。在這個(gè)基礎(chǔ)上增加了事中和事后兩個(gè)

部分,針對事中開發(fā)了系統(tǒng)化工具,做數(shù)倉配置化開發(fā)。事后做規(guī)則化驗(yàn)證。

事前會有標(biāo)準(zhǔn)化文檔給大家提前理解、宣貫,事中很多標(biāo)準(zhǔn)化的事項(xiàng)會通過

配置化自動約束規(guī)范,事后會有上線時(shí)的檢驗(yàn)和上線后每周定期檢驗(yàn),檢驗(yàn)

數(shù)據(jù)倉庫的建模規(guī)范是否符合標(biāo)準(zhǔn),把不符合標(biāo)準(zhǔn)的及時(shí)提示出來、及時(shí)改

進(jìn)。

統(tǒng)一數(shù)倉規(guī)范建模

事中|事后

I事前II

I標(biāo)」化夜范I髭般化開發(fā)|規(guī)則?化驗(yàn)證!

模型設(shè)計(jì)規(guī)范模型開發(fā)工具數(shù)倉規(guī)范監(jiān)控

?收倉分層和主題?模里多砒信息?數(shù)倉分層

?命名、矣契、詞根?抬倉主愿和分層?敬搪血緣

?公共維度、關(guān)取關(guān)系?E"代碼生成?數(shù)倉相似度

模能開發(fā)規(guī)范命名規(guī)則工具數(shù)倉規(guī)范報(bào)告

?開發(fā)流程

?模型命名標(biāo)準(zhǔn)化?數(shù)倉規(guī)范報(bào)告

?代碼編寫

?自瑞命名標(biāo)用化?數(shù)相冗余報(bào)告

?注釋信息

上線規(guī)則監(jiān)測工具

?效倉規(guī)范性監(jiān)測

?依據(jù)依賴監(jiān)測

事前的標(biāo)準(zhǔn)化規(guī)范幾個(gè)方向,第一是數(shù)據(jù)倉庫的設(shè)計(jì)規(guī)范,在做一個(gè)新

業(yè)務(wù)或模塊之前,以文檔形式做一些設(shè)計(jì)規(guī)范。第二是開發(fā)規(guī)范,包括一些

開發(fā)流程、代碼編寫規(guī)范和注釋信息。

這些形成之后還想在事中以系統(tǒng)化的方式進(jìn)行控制,保證不會因?yàn)槊?/p>

個(gè)人的不同理解而對數(shù)倉的規(guī)范化構(gòu)成影響。這里主要包含三部分工具:

?模型開發(fā)過程中的開發(fā)工具,主要控制模型的基礎(chǔ)信息、數(shù)倉主題和

分層以及ETL代碼生成。

?命名規(guī)范工具,針對模型、表、字段、指標(biāo)建了很多一些規(guī)范化的系

統(tǒng)實(shí)現(xiàn),控制這些命名的標(biāo)準(zhǔn)化。

?上線規(guī)則監(jiān)控工具,上線過程中會監(jiān)控一些數(shù)據(jù)規(guī)范,還有一些性能

監(jiān)控,有問題會及時(shí)發(fā)現(xiàn)。

事后會定期監(jiān)控,生成報(bào)告來看每個(gè)業(yè)務(wù)線、每個(gè)組、具體每個(gè)人的數(shù)

倉規(guī)范性情況。

對于具體的實(shí)現(xiàn)方案,我舉一個(gè)簡單的例子,一個(gè)數(shù)倉開發(fā)配置化的命

名規(guī)范工具。我們工具的實(shí)質(zhì)還是從規(guī)范化、標(biāo)準(zhǔn)化再到工具化,所以在前

期做了一些規(guī)范化、標(biāo)準(zhǔn)化,在通過工具化把標(biāo)準(zhǔn)化和規(guī)范化通過系統(tǒng)實(shí)現(xiàn),

有了工具之后,比如人在數(shù)倉時(shí),都會統(tǒng)一按相同的方式來命名,即便在幾

千個(gè)ETL里都有這個(gè)字段也能非??斓剡M(jìn)行定位。命名工具和數(shù)倉建模ETL

工具也進(jìn)行了打通,命名審核通過后,直接點(diǎn)擊就能在ETL工具的平臺中

生成一段代碼,只需要將查詢邏輯補(bǔ)充進(jìn)去就可以了。這樣就達(dá)到了控制數(shù)

倉命名規(guī)范的目的。

數(shù)倉開發(fā)配置化-命名規(guī)范工具

險(xiǎn)財(cái):(時(shí)間周期詞卜[修飾詞卜字段描述詞+ouj

揚(yáng)康畬名概財(cái):【閭」修飾詞卜字段描述詞?[后媚/度■卜[時(shí)間周期同j

英文詞根

近義同修

n丁

同電車

08英文修飾一

統(tǒng)一指標(biāo)管理系統(tǒng)

指標(biāo)在數(shù)倉中非常重要,所有數(shù)據(jù)應(yīng)用都是以指標(biāo)方式使用的。指標(biāo)管

理系統(tǒng)化主要做了流程管理標(biāo)準(zhǔn)化、指標(biāo)定義標(biāo)準(zhǔn)化和指標(biāo)使用標(biāo)準(zhǔn)化。系

統(tǒng)化分三層,第一層是物理表管理,第二層是模型管理,第三層是指標(biāo)管理,

這些信息在元數(shù)據(jù)管理中統(tǒng)一進(jìn)行。

統(tǒng)一指標(biāo)管理系統(tǒng)

1.標(biāo)準(zhǔn)化

?流程管理標(biāo)準(zhǔn)化

?指標(biāo)定義標(biāo)準(zhǔn)化

?指標(biāo)使用標(biāo)準(zhǔn)化

2.系統(tǒng)化

?指標(biāo)僖息管理系統(tǒng)化

?查詢解析系統(tǒng)化

?元數(shù)據(jù)管理系統(tǒng)化

統(tǒng)一規(guī)范只是指標(biāo)管理的第一步,除了指標(biāo)管理外,所有數(shù)據(jù)應(yīng)用還能

通過這個(gè)工具查詢數(shù)據(jù)。具體做法,一個(gè)應(yīng)用無非要查詢兩種數(shù)據(jù),一是維

度,二是指標(biāo)。在查詢指標(biāo)時(shí),可能會有一些維度限制條件。在指標(biāo)管理模

塊中通過指定指標(biāo)定位到數(shù)倉模型,了解指標(biāo)的獲取方式(是sum還是

count等)。相應(yīng)的數(shù)倉模型可是能是星型模型、寬表、循環(huán)模型,從模型

中解析出對應(yīng)的底層物理表。解析后,結(jié)合指標(biāo)、維度和篩選條件,經(jīng)過不

同的存儲引擎,解析成不同的查詢語句。這樣控制好數(shù)據(jù)指標(biāo)管理之后,數(shù)

據(jù)應(yīng)用可以通過指標(biāo)管理模塊獲得一致性的解析。

指標(biāo)一致性查詢

數(shù)據(jù)應(yīng)用

統(tǒng)一數(shù)據(jù)服務(wù)

我們的數(shù)據(jù)被很多下游系統(tǒng)使用,比如數(shù)據(jù)產(chǎn)品、業(yè)務(wù)系統(tǒng)、運(yùn)營系統(tǒng)、

管理系統(tǒng)等。有些下游既需要我們提供數(shù)據(jù)表,還要提供接口,但數(shù)據(jù)組開

發(fā)和維護(hù)后臺接口難度較大,而且接口提供后很難把控?cái)?shù)據(jù)的用途。所以我

們做了一個(gè)統(tǒng)一的數(shù)據(jù)服務(wù)平臺。平臺目標(biāo)是提高效率、提高數(shù)據(jù)準(zhǔn)確性、

提供數(shù)據(jù)監(jiān)控、將整個(gè)數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用鏈路打通。提供的方式有兩種,

一種是對于B端應(yīng)用,提供按需使用,每天提供幾萬次的調(diào)用額度;一種

是對于C端,通過推送的方式,比如每天推送一次最新數(shù)據(jù)。以推和拉兩

種方式保證服務(wù)功能的全面性,具體實(shí)現(xiàn),大家可以參考下圖:

統(tǒng)一數(shù)據(jù)服務(wù)平臺

敷據(jù)應(yīng)用方

的售工作臺商家后臺運(yùn)法索燒

應(yīng)用

數(shù)據(jù)服務(wù)平臺-Buffalo

at-

Kii?Hj

統(tǒng)一依據(jù)服務(wù)平臺

[

低據(jù)倉庫

數(shù)據(jù)倉庫

分為幾大層次:

?導(dǎo)入層。

?存儲層,數(shù)據(jù)根據(jù)不同的使用場景會有很多種不同的存儲方式,比如

根據(jù)條件查詢一條數(shù)據(jù)的情況KV最合適,一些對定性條件要求很高

的簡單匯總用MySQL,一些數(shù)據(jù)量非常大但頻率低的用OLAP引擎。

?服務(wù)層,對存儲引擎查詢進(jìn)行一些封裝。

?控制層,進(jìn)行權(quán)限管理、參數(shù)校驗(yàn)和業(yè)務(wù)資源隔離。

?接口層,提供不同的查詢方式,如聚合查詢、KV查詢、詳情杳詢和

分組查詢。

統(tǒng)一用戶產(chǎn)品入口

因?yàn)閿?shù)據(jù)入口非常多,我們又做了一個(gè)數(shù)據(jù)入口的統(tǒng)一,分成三大類:

?管理者和商業(yè)分析使用的分析決策產(chǎn)品

?業(yè)務(wù)銷售運(yùn)營用的業(yè)務(wù)銷售數(shù)據(jù)產(chǎn)品

?數(shù)據(jù)資產(chǎn)管理產(chǎn)品

通過這種方式,某一類用戶只需要在一類入口里訪問一類產(chǎn)品,不會出

現(xiàn)同一類產(chǎn)品中的數(shù)據(jù)不一致。我們又通過數(shù)據(jù)倉庫的統(tǒng)一建模、數(shù)據(jù)指標(biāo)

管理保證了三大類底層數(shù)據(jù)集市的一致,從而保證了所有數(shù)據(jù)的一致性。

統(tǒng)一用戶產(chǎn)品入口

整體系統(tǒng)架構(gòu)

整體的技術(shù)架構(gòu)分為三層,從統(tǒng)一數(shù)據(jù)建模到統(tǒng)一指標(biāo)邏輯、統(tǒng)一數(shù)據(jù)

服務(wù)和統(tǒng)一產(chǎn)品入口,整體保障了數(shù)據(jù)的質(zhì)量,同時(shí)配合數(shù)據(jù)管理的組織保

障體系和流程規(guī)范,將整體數(shù)據(jù)質(zhì)量相關(guān)的架構(gòu)搭建起來。

整體系統(tǒng)架構(gòu)

②數(shù)據(jù)運(yùn)營效率

作為數(shù)據(jù)提供方,我們有很多數(shù)據(jù)資產(chǎn),但數(shù)據(jù)使用方能不能快速找到、

找到怎么用、有哪些數(shù)據(jù),有三大類問題:

?找不到,不知道數(shù)據(jù)有沒有、在哪里。

?看不懂,有很多業(yè)務(wù)方不是技術(shù)研發(fā)團(tuán)隊(duì)的,看不懂?dāng)?shù)據(jù)到底什么含

義、怎么關(guān)聯(lián)查詢、來源于哪個(gè)業(yè)務(wù)系統(tǒng)。

?不會用,如何寫SQL或者哪些產(chǎn)品里面能查詢到自己想要的數(shù)據(jù)指

標(biāo)。

基于此有三大目標(biāo):找得到、看得懂、用得對。為了提效,我們選用一

些智能化系統(tǒng)代替人工。對于運(yùn)營相關(guān)的數(shù)據(jù)問題,先提供系統(tǒng)化的數(shù)據(jù)指

南。該指南包含三大類信息:指標(biāo)類、數(shù)倉模型、推薦使用方式。這個(gè)方式

能解決可能60%的問題,剩下的40%再通過答疑機(jī)器人,用一些機(jī)器的方

式替人回答問題,這又能解決其中60%的問題。最后還有一些還是沒找到

的,落到人工答疑環(huán)節(jié)就非常少了,通過自動化把需要人工做的事情降到原

來的20%以下。

數(shù)據(jù)運(yùn)營效率-解決思路

用戶

具體的實(shí)現(xiàn)方式,針對數(shù)據(jù)使用指南做了一個(gè)系統(tǒng),把指標(biāo)元數(shù)據(jù)、

維度元數(shù)據(jù)、數(shù)據(jù)表和各種產(chǎn)品元數(shù)據(jù)等管理起來。用戶從入口查詢能夠

快速定位,支持分類檢索和重點(diǎn)詞檢索,還會提供排序進(jìn)行重點(diǎn)推薦,對

每一個(gè)主題數(shù)據(jù)分類描述。通過數(shù)據(jù)指南能解決很多問題,不能解決的就

進(jìn)入答疑機(jī)器人系統(tǒng),這里主要解決一些元數(shù)據(jù)里沒有的問題。我們?nèi)粘?/p>

通訊工具上會有問答,把這些問題和答案總結(jié)成一個(gè)知識庫,進(jìn)行清洗和

規(guī)則匹配。對這類問答的解析成一個(gè)問題對應(yīng)一個(gè)答案,通過一些規(guī)則和

關(guān)鍵字匹配后存起來。之后再查的時(shí)候只輸入一個(gè)問題時(shí),根據(jù)這個(gè)解析

出來他想問的可能有幾個(gè)問題,將這幾個(gè)答案拋給他。

數(shù)據(jù)運(yùn)營系統(tǒng)化

平臺元數(shù)據(jù)數(shù)據(jù)問題和答疑知識庫

③數(shù)據(jù)成本

業(yè)務(wù)的數(shù)據(jù)成本也很大,每一年的數(shù)據(jù)存儲、計(jì)算相關(guān)的成本增長非常

快。目前大概的比例是70%的計(jì)算成本、20%是存儲成本、10%為采集日

志。針對這三大類,我們也分別做了一些數(shù)據(jù)成本治理的方案。

數(shù)據(jù)成本

成本治理分類成本精細(xì)化拆分

大數(shù)據(jù)資源成本占比

無效任務(wù)治現(xiàn)

超長任務(wù)優(yōu)化

計(jì)算

提高資源滿用窣

資源統(tǒng)一曾理

?冷被據(jù)治理

?復(fù)數(shù)據(jù)管理

存儲St

?數(shù)據(jù)生命周期管理

?存儲格式壓樵

日志下的應(yīng)用監(jiān)控

日志?

?日志上接方式優(yōu)化

采集

?無效埋點(diǎn)優(yōu)化

-HJI?存儲日本采集

針對計(jì)算類,主要做了如下事情:

?無效任務(wù)治理

.超長任務(wù)優(yōu)化

?提高資源滿用率

?資源統(tǒng)一管理

針對存儲類:

?冷數(shù)據(jù)治理

?重復(fù)數(shù)據(jù)治理

?數(shù)據(jù)生命周期管理

?存儲格式壓縮

日志采集類:

?日志下游應(yīng)用監(jiān)控

.日志上報(bào)方式優(yōu)化

?無效埋點(diǎn)優(yōu)化

整體的方案策略方面做了精細(xì)化拆分,比如按租戶(每個(gè)業(yè)務(wù)線的用戶)

來看,租戶下有隊(duì)列,隊(duì)列有離線、有實(shí)時(shí)。隊(duì)列下面有計(jì)算、存儲、采集,

計(jì)算之中又分離線、實(shí)時(shí),有些配置量、使用量。這樣可以非常容易地定位

到哪些租戶、哪些數(shù)倉是有問題的,對應(yīng)快速治理。

這方面也做了很多系統(tǒng)化的事情,比如有一個(gè)數(shù)據(jù)冗余判斷的邏輯,每

次做完數(shù)倉建模之后,會做冗余判斷。元數(shù)據(jù)生成之后進(jìn)行預(yù)處理,根據(jù)現(xiàn)

有的數(shù)據(jù)做預(yù)判,看是否已存在。通過配置的對比邏輯,如果認(rèn)為數(shù)據(jù)重復(fù),

會做標(biāo)記并每周推送到數(shù)據(jù)治理的看板上,及時(shí)將冗余數(shù)據(jù)治理掉。

④數(shù)據(jù)安全

數(shù)據(jù)安全我們是以事前預(yù)防、事中監(jiān)控、事后追蹤三個(gè)方式來進(jìn)行的。

實(shí)踐經(jīng)驗(yàn)上,通過三層系統(tǒng)控制加五個(gè)使用原則實(shí)現(xiàn)。從數(shù)據(jù)產(chǎn)生的源頭業(yè)

務(wù)系統(tǒng)里就會將一些非常敏感的用戶數(shù)據(jù)加密,數(shù)據(jù)倉庫層會對各分層的

數(shù)據(jù)進(jìn)行脫敏和二次加密,第三層專門做一些數(shù)據(jù)審計(jì),在數(shù)據(jù)使用全流程

中提供信息提示和審計(jì)報(bào)告。

安全規(guī)范及系統(tǒng)實(shí)現(xiàn)

三層系統(tǒng)控制+五個(gè)使用原則

依據(jù)使用展

全程監(jiān)控審計(jì)數(shù)據(jù)使用原則

?密文傳嫡原則

??晚壽原則

數(shù)據(jù)存儲層??小范圍提取原則

分居脫壁加及

?■少授權(quán)原則

?全程審計(jì)原則

依據(jù)源頭展

生成過程加史

數(shù)據(jù)使用過程中應(yīng)當(dāng)遵循的五個(gè)原則:

?密文處置原則,所有高敏感的數(shù)據(jù)都要密文傳輸。

?最晚解密原則,在應(yīng)用層產(chǎn)品使用的話,不要在數(shù)據(jù)倉庫層解密。

?最小范圍提取原則,如果只用一萬條數(shù)據(jù)只能對一萬條數(shù)據(jù)解密。

?最小授權(quán)原則,用多少給多少。

?全程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論