金融級數(shù)據(jù)研發(fā)DataOps落地實(shí)踐_第1頁
金融級數(shù)據(jù)研發(fā)DataOps落地實(shí)踐_第2頁
金融級數(shù)據(jù)研發(fā)DataOps落地實(shí)踐_第3頁
金融級數(shù)據(jù)研發(fā)DataOps落地實(shí)踐_第4頁
金融級數(shù)據(jù)研發(fā)DataOps落地實(shí)踐_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

金融級數(shù)據(jù)研發(fā)

Data

Ops實(shí)踐平安銀行數(shù)據(jù)及AI平臺團(tuán)隊(duì)負(fù)責(zé)人/

廖曉格目錄一

、

數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二

數(shù)據(jù)研發(fā)Data

Ops實(shí)踐三

、

未來展望

平臺數(shù)據(jù)事故引起客戶投訴

資損甚至監(jiān)管報(bào)送。

在數(shù)字化轉(zhuǎn)型過程中,

高質(zhì)量的數(shù)據(jù)保證越發(fā)重要

必須有數(shù)據(jù)研發(fā)工程師+后端開發(fā)工程師參與完整的業(yè)務(wù)需求

作業(yè)上線流程嚴(yán),

即使不接入生產(chǎn)應(yīng)用/最小權(quán)限的分析任務(wù),

批流程也要小時(shí)到天不等,

影響一些分析場景的效能;

指標(biāo)口徑不統(tǒng)一,

存在煙囪式開發(fā)。

缺少實(shí)時(shí)數(shù)據(jù)分析能力

重復(fù)作業(yè),

數(shù)據(jù)冗余度高。

數(shù)據(jù)未進(jìn)行冷熱分析,

存在垃圾數(shù)據(jù)。

數(shù)據(jù)價(jià)值難以評估,

需求價(jià)值的度量標(biāo)準(zhǔn)。

敏感數(shù)據(jù)外泄

如何既能實(shí)現(xiàn)共享又能符合各項(xiàng)法規(guī)數(shù)據(jù)研發(fā)平臺問題和挑戰(zhàn)

問題和挑戰(zhàn)

》》

問題舉例

》》

方向

如何提高數(shù)據(jù)交付

效率和批量數(shù)據(jù)時(shí)

效?如何有效賦能業(yè)

務(wù),

同時(shí)控制好平臺成本?重質(zhì)量升時(shí)效降成本保安全如何減少數(shù)據(jù)事

故,

保證數(shù)據(jù)交付質(zhì)量?如何保證數(shù)據(jù)共享

安全?

計(jì)算負(fù)載極高存儲成本劇增數(shù)據(jù)安全隱患ulu不可靠決策…

數(shù)據(jù)治理急需一套工程體系支撐數(shù)據(jù)研發(fā),Data

Ops是一種面向數(shù)據(jù)全生命周期,

以價(jià)值最大化為目標(biāo)的最佳實(shí)踐

。

聚焦于協(xié)同從數(shù)據(jù)需求輸入到交付物輸出的全過程

。

構(gòu)建集開發(fā)

、

治理

、運(yùn)營于一體的自動(dòng)化數(shù)據(jù)流水線,

不斷提高數(shù)據(jù)產(chǎn)品交付

效率與質(zhì)量,

實(shí)現(xiàn)高質(zhì)量數(shù)字化發(fā)展。數(shù)據(jù)治理價(jià)值數(shù)據(jù)成本越來越高,

價(jià)值難以評估控制數(shù)據(jù)風(fēng)險(xiǎn)改善數(shù)據(jù)質(zhì)量賦能管理決策降低成本提升數(shù)據(jù)加工效率資產(chǎn)!包袱?數(shù)據(jù)

理據(jù)治理BAC數(shù)數(shù)據(jù)研發(fā)平臺Data

Ops目標(biāo)?統(tǒng)一數(shù)據(jù)研發(fā)平臺核心目標(biāo)將Data

Ops的數(shù)據(jù)管理方法論融入數(shù)據(jù)開發(fā),

以及一些自動(dòng)化測試,

部署等技術(shù),構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)研發(fā)生產(chǎn)流水線

。

撐數(shù)據(jù)資產(chǎn)中心的數(shù)據(jù)全民化,

安心計(jì)劃,

破壁計(jì)劃。精細(xì)化數(shù)據(jù)

運(yùn)營保障數(shù)據(jù)研發(fā)質(zhì)量;提高數(shù)據(jù)研發(fā)效率;

降低數(shù)據(jù)使用門檻;

低代碼,自動(dòng)化數(shù)據(jù)安全保

護(hù)傘提升數(shù)據(jù)時(shí)效

夯實(shí)平臺穩(wěn)定研發(fā)流程標(biāo)

準(zhǔn)化治理工具化數(shù)據(jù)ROI,

控IT成本;價(jià)值最大化;加強(qiáng)平臺規(guī)范運(yùn)營符合各項(xiàng)法規(guī);事前制度建設(shè);事中技術(shù)管控;事后監(jiān)控審計(jì);深入湖倉一體架構(gòu)擴(kuò)大實(shí)時(shí)數(shù)據(jù)使用場

景。目錄一

數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二

、

數(shù)據(jù)研發(fā)Data

Ops實(shí)踐三

未來展望事前治理項(xiàng)事故復(fù)盤管理字段相似度流批

、

湖倉血緣作業(yè)成本價(jià)值ROI數(shù)據(jù)對象指標(biāo)

標(biāo)簽/特征服務(wù)APICI數(shù)據(jù)加工建立以價(jià)值最大化為目標(biāo)的數(shù)據(jù)全生命周期管理最佳實(shí)踐重質(zhì)量降成本升時(shí)效保安全數(shù)據(jù)研發(fā)平臺Data

Ops邏輯框架CT測試發(fā)布推動(dòng)數(shù)據(jù)

運(yùn)營數(shù)據(jù)

開發(fā)基礎(chǔ)底

座時(shí)效檢查

相似作業(yè)識別

相似加工鏈路統(tǒng)一權(quán)限統(tǒng)一調(diào)度生成測試一體化數(shù)據(jù)安全保護(hù)傘業(yè)務(wù)系統(tǒng)表數(shù)據(jù)源CD運(yùn)維監(jiān)控支撐》》目標(biāo)湖/倉表字段數(shù)據(jù)集成數(shù)據(jù)模型數(shù)據(jù)服務(wù)質(zhì)量運(yùn)營異常診斷指標(biāo)加工資產(chǎn)盤點(diǎn)湖/倉表事后治理數(shù)據(jù)源數(shù)據(jù)研發(fā)平臺Data

Ops-全流程開發(fā)流程標(biāo)準(zhǔn)化?基于《數(shù)據(jù)研發(fā)流程基線細(xì)則》

和《大數(shù)據(jù)平臺管理細(xì)則》

,

統(tǒng)一數(shù)據(jù)研發(fā)全周期流程(包括數(shù)據(jù)源

數(shù)據(jù)集成

、

數(shù)據(jù)加工

、

指標(biāo)定義

數(shù)據(jù)服

務(wù)等),

引入CI/CT/CD方法融入并標(biāo)準(zhǔn)化數(shù)據(jù)研發(fā)流程,

降低模型研發(fā)過程中的人為風(fēng)險(xiǎn)同時(shí),

提升整個(gè)數(shù)據(jù)研發(fā)效率。核心能力n

Dataops全研發(fā)流程:

融合數(shù)

據(jù)集成

、

數(shù)據(jù)加工

、

業(yè)務(wù)資

產(chǎn)定義開發(fā)

Oneservice數(shù)據(jù)

服務(wù)配置全流程;n

數(shù)據(jù)治理嵌入研發(fā):

改變以

往先產(chǎn)生后治理的流程邏輯,

將治理規(guī)范融入數(shù)據(jù)研發(fā)流程;n

先設(shè)計(jì)再開發(fā)服務(wù):

以數(shù)據(jù)

服務(wù)和數(shù)據(jù)指標(biāo)驅(qū)動(dòng)數(shù)據(jù)研

發(fā)過程,

遵循先設(shè)計(jì)再研發(fā)

的治理設(shè)計(jì)理念n

核心開發(fā)工具:

面向數(shù)據(jù)自

動(dòng)校驗(yàn)端,

提供數(shù)據(jù)質(zhì)量/數(shù)

據(jù)血緣/元數(shù)據(jù)管理/規(guī)范檢

查/開發(fā)測試一體/能力服務(wù),實(shí)現(xiàn)線上數(shù)據(jù)的自動(dòng)檢核數(shù)據(jù)服務(wù)應(yīng)用管理數(shù)據(jù)準(zhǔn)備項(xiàng)目注冊服務(wù)配置

并發(fā)布服務(wù)交付數(shù)據(jù)加工作業(yè)建模作業(yè)發(fā)布自動(dòng)發(fā)布數(shù)據(jù)

測試數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源

注冊數(shù)據(jù)源

管理統(tǒng)一數(shù)據(jù)研發(fā)平臺數(shù)據(jù)研發(fā)的全生命周期流程數(shù)據(jù)集定義數(shù)據(jù)研發(fā)流程規(guī)范數(shù)據(jù)架構(gòu)規(guī)范數(shù)據(jù)安全規(guī)范數(shù)據(jù)運(yùn)營規(guī)范異構(gòu)

采集方式

數(shù)據(jù)源

設(shè)定加解密配置采集頻率

設(shè)定數(shù)據(jù)

測試數(shù)據(jù)

運(yùn)營語法

校驗(yàn)UAT

驗(yàn)證指標(biāo)定義

指標(biāo)發(fā)布One

service數(shù)據(jù)集成指標(biāo)定義研發(fā)流程數(shù)據(jù)

采集數(shù)據(jù)

加密指標(biāo)

定義數(shù)據(jù)

定義數(shù)據(jù)

上線數(shù)據(jù)

開發(fā)模型

映射合規(guī)

檢查維度

定義模型管理表注冊數(shù)據(jù)資產(chǎn)經(jīng)分營銷風(fēng)險(xiǎn)監(jiān)管報(bào)送AI建模運(yùn)營需求管理

(starlink)需求

登記需求

評審需求

分發(fā)數(shù)據(jù)研發(fā)平臺Data

Ops-總體功能架構(gòu)?建設(shè)目標(biāo):研發(fā)層面,

基于湖倉一體存儲,

面向全行提供流批數(shù)據(jù)一體化的研發(fā)平臺,

覆蓋從需求階段-研發(fā)階段-運(yùn)行階段-運(yùn)營階段,

支持業(yè)

務(wù)BU模型開發(fā);

管理層面,

集成架構(gòu)治理規(guī)范

、

運(yùn)行規(guī)范

、

跑批規(guī)范,

實(shí)現(xiàn)數(shù)據(jù)和架構(gòu)治理工具的平臺化落地。數(shù)據(jù)研發(fā)平臺DI

Cloud指標(biāo)研發(fā)統(tǒng)一SQL語義層引擎

研發(fā)階段安全規(guī)范(包括權(quán)限)基礎(chǔ)

設(shè)施指標(biāo)加工數(shù)據(jù)建模維度/

指標(biāo)定義設(shè)計(jì)即研發(fā)指標(biāo)物化指標(biāo)上下架

規(guī)范數(shù)據(jù)集成實(shí)時(shí)采集

Flinkcdc離線采集

waterdrop流批采集Flinkcdc->Spark測試/發(fā)布測試用例自動(dòng)化測試自動(dòng)化發(fā)布自動(dòng)化部署數(shù)據(jù)加工批任務(wù)Spark流任務(wù)Flink流轉(zhuǎn)批

Flink->SparkAPI開發(fā)某省市場資源隔離服務(wù)計(jì)量服務(wù)編排資產(chǎn)全景數(shù)據(jù)血緣數(shù)據(jù)質(zhì)量業(yè)務(wù)圖譜風(fēng)險(xiǎn)審計(jì)安全標(biāo)準(zhǔn)權(quán)限審批流程管理外部數(shù)據(jù)源數(shù)據(jù)源注冊數(shù)據(jù)源管理File數(shù)據(jù)源DB數(shù)據(jù)源分布式文件系統(tǒng)生產(chǎn)環(huán)境流批一體數(shù)據(jù)研發(fā)任務(wù)成本運(yùn)

營中心實(shí)時(shí)計(jì)算引

擎Flink統(tǒng)一智能調(diào)

度作業(yè)血緣鏈

路治理數(shù)據(jù)服務(wù)化

規(guī)范數(shù)據(jù)質(zhì)量檢

測統(tǒng)一資源管

理Yarn全鏈路

監(jiān)控診斷指標(biāo)盤點(diǎn)

(精品/kpi)數(shù)據(jù)服務(wù)OneService跑批規(guī)范運(yùn)行規(guī)范架構(gòu)治理

規(guī)范前端業(yè)務(wù)運(yùn)營階段沙箱環(huán)境需求階段運(yùn)行階段Nosql存儲湖倉一體Mpp存儲流程規(guī)范設(shè)計(jì)規(guī)范質(zhì)量規(guī)范治理全景監(jiān)控運(yùn)營健康排名缺陷作業(yè)識別治理離線數(shù)據(jù)研發(fā)元數(shù)據(jù)管理架構(gòu)治理檢查數(shù)據(jù)脫敏數(shù)據(jù)發(fā)布管理

組件管理

組件Spark/Hive

Sqoop

Da

tax

Es-spark

Jdbc?全行統(tǒng)一大數(shù)據(jù)作業(yè)調(diào)度平臺,

支持離線數(shù)據(jù)研發(fā),

血緣自動(dòng)計(jì)算,

生產(chǎn)測試一體,

作業(yè)線上發(fā)布,

作業(yè)運(yùn)營等數(shù)據(jù)研發(fā)的生命周期過程,

標(biāo)準(zhǔn)

化全行數(shù)據(jù)研發(fā)服務(wù)過程,目標(biāo)提升全行數(shù)據(jù)治理與數(shù)據(jù)質(zhì)量成果,

融合研發(fā)和治理的一體化平臺體系;數(shù)據(jù)研發(fā)平臺Data

Ops-數(shù)據(jù)調(diào)度統(tǒng)一研發(fā)IDE作業(yè)

運(yùn)營作業(yè)

研發(fā)調(diào)度

服務(wù)作業(yè)/數(shù)據(jù)生命周期運(yùn)營重跑調(diào)度(級聯(lián)/批量重跑)權(quán)限管理日志管理在線診斷關(guān)聯(lián)服務(wù)風(fēng)險(xiǎn)管控經(jīng)營分析在線分析業(yè)務(wù)營銷自動(dòng)調(diào)度服務(wù)編排Hive執(zhí)行器Spark執(zhí)行器數(shù)據(jù)出倉

執(zhí)行器多源異構(gòu)

數(shù)據(jù)集成防重復(fù)調(diào)度多租戶

資源隔離執(zhí)行加速自動(dòng)監(jiān)控優(yōu)先級管控生命周期運(yùn)營發(fā)布作業(yè)監(jiān)控SLA運(yùn)營作業(yè)成本治理技術(shù)

組件層服務(wù)

場景執(zhí)行

服務(wù)實(shí)時(shí)質(zhì)量異常阻斷(依據(jù)血緣依賴阻斷下游自動(dòng)調(diào)度)通過數(shù)據(jù)血緣關(guān)系,

實(shí)

時(shí)呈現(xiàn)數(shù)據(jù)調(diào)度進(jìn)度數(shù)據(jù)研發(fā)平臺Data

Ops-質(zhì)量治理能力?數(shù)據(jù)質(zhì)量已經(jīng)成為銀行數(shù)據(jù)治理的核心組成部分,

從治理視角而言,

建立完整全流程的數(shù)據(jù)質(zhì)量體系,

及時(shí)發(fā)現(xiàn)質(zhì)量問題->實(shí)時(shí)預(yù)警屬主修復(fù)->

事后復(fù)盤增強(qiáng)測試發(fā)布環(huán)節(jié)檢測

、

提升銀行數(shù)據(jù)整體質(zhì)量,

提供更精準(zhǔn)的決策分析數(shù)據(jù);1)

表粒度規(guī)則監(jiān)控2)

字段粒度規(guī)則監(jiān)控3)

自定義規(guī)則監(jiān)控事后-異常質(zhì)量問題追蹤復(fù)盤事前-質(zhì)量核驗(yàn)規(guī)則事中-質(zhì)量核驗(yàn)基于過程質(zhì)量問題,

工單追蹤異常整改數(shù)據(jù)研發(fā)平臺Data

Ops-開發(fā)測試一體化?為解決大數(shù)據(jù)數(shù)據(jù)質(zhì)量測試痛點(diǎn),

在測試環(huán)境無法完全復(fù)現(xiàn)生產(chǎn)問題,

生產(chǎn)數(shù)據(jù)脫敏到測試環(huán)境仍有安全隱患,

因此需要構(gòu)建數(shù)據(jù)研發(fā)測試一體

化平臺,

完善數(shù)據(jù)研發(fā)流程,

滿足監(jiān)控合規(guī)的評審需求,

數(shù)據(jù)需求閉環(huán)管理,

數(shù)據(jù)開發(fā)

測試

、

變更流程統(tǒng)一管理,

并和數(shù)據(jù)監(jiān)控規(guī)則打通,

證全流程質(zhì)量閉環(huán)心能單/雙表、

字段級基礎(chǔ)數(shù)據(jù)規(guī)則自定義資損模型場景建模場景自適應(yīng)數(shù)據(jù)模型

(待建)日期型類型數(shù)值型類型枚舉型類型字符型類型監(jiān)管模型風(fēng)控模型營銷模型機(jī)器學(xué)習(xí)自適應(yīng)

算法場景模擬精準(zhǔn)測試效率優(yōu)化作業(yè)調(diào)度/用例執(zhí)行質(zhì)量門檻UAT/業(yè)務(wù)驗(yàn)收數(shù)據(jù)研發(fā)平臺脫敏系統(tǒng)ROUTER權(quán)限系統(tǒng)Jira需求管理DQM數(shù)據(jù)監(jiān)控對接系統(tǒng)用戶&權(quán)限一鍵UM登錄數(shù)據(jù)權(quán)限自動(dòng)識別數(shù)據(jù)

準(zhǔn)備聚合報(bào)告分析結(jié)果大盤流程

管理消金缺陷標(biāo)注測試自動(dòng)

執(zhí)行風(fēng)險(xiǎn)某省市私行某省市…分級別

流程定制信某省市需求評審測試驗(yàn)收數(shù)據(jù)研發(fā)平臺Data

Ops-數(shù)據(jù)安全治理?從事前

、

事中

、

事后分別管控?cái)?shù)據(jù)安全

以“事中數(shù)據(jù)脫敏”為例,

是通過在SQL/作業(yè)埋點(diǎn)用戶帳號,

分析SQL/Job對應(yīng)的元數(shù)據(jù)字段,

判斷用戶

權(quán)限,

返回用戶對應(yīng)的脫敏數(shù)據(jù)。統(tǒng)一SQL引擎Router血緣分析

元數(shù)據(jù)管理

權(quán)限管理

脫敏引擎

安全決策引擎事中技術(shù)管控:

采用“數(shù)據(jù)加密”、“數(shù)據(jù)脫

敏”、“敏感客群保護(hù)”、”智能阻斷”、“數(shù)據(jù)

外發(fā)”等手段構(gòu)筑強(qiáng)固的數(shù)據(jù)安全保護(hù)傘;事后監(jiān)控審計(jì):

基于規(guī)則引擎建立數(shù)據(jù)訪

問審計(jì)平臺——實(shí)時(shí)的\自動(dòng)+人工的識別

可能的異常訪問;事前制度建設(shè):

數(shù)據(jù)安全“制度”先行,

此我行修改制定了“平安銀行數(shù)據(jù)安全管理

辦法(

2.0版,

2019年)”;大數(shù)據(jù)

平臺事中事后事前大數(shù)據(jù)SQL計(jì)算引擎Spark

SQL

Presto調(diào)度平臺.

SQL

/

JobKyligenceHIVE客戶端AI算法平臺Jupyter數(shù)據(jù)研發(fā)平臺Data

Ops-數(shù)倉分層加密處理過程?ODS

貼源層(raw):

敏感字段識別,

利用

正則+算法+人工,

識別出貼源數(shù)據(jù)表的敏感字段。?ODS

加密層(mid):

高敏感字段加密,

將銀行卡號,

手機(jī)號,

證件號進(jìn)行加密儲存。?數(shù)倉

某省市等層:

利用字段級血緣關(guān)系,

標(biāo)識出每感字段。?數(shù)據(jù)查詢訪問:

應(yīng)用端查詢數(shù)據(jù)時(shí),

對統(tǒng)一查詢中心(router),

根據(jù)訪問的敏感字段及敏感脫敏類型進(jìn)行脫敏處理。數(shù)據(jù)產(chǎn)出流轉(zhuǎn)過程加密層數(shù)據(jù)建設(shè)組織過程對公MID風(fēng)險(xiǎn)DM個(gè)消金DM消金DW公共庫一致性維度DIM接口(對外服務(wù))私庫

(基本法)報(bào)表指標(biāo)

庫(

BU)貼源層

RAW財(cái)務(wù)DM個(gè)標(biāo)簽

指標(biāo)對公DW對公DM數(shù)據(jù)研發(fā)平臺Data

Ops-敏感數(shù)據(jù)發(fā)現(xiàn)?源生產(chǎn)系統(tǒng)數(shù)據(jù)集成過程中,

無論實(shí)時(shí)或者離線采集,

開發(fā)治理一體化平臺基于數(shù)據(jù)規(guī)則自動(dòng)實(shí)現(xiàn)敏感數(shù)據(jù)發(fā)現(xiàn);識別環(huán)節(jié)1,

數(shù)據(jù)識別:

依據(jù)預(yù)定義規(guī)則庫+命名實(shí)體算法服務(wù)自動(dòng)識別敏感信息;

識別環(huán)節(jié)2,

血緣分析:

依據(jù)上游字段的安全標(biāo)記,

下游字段自動(dòng)繼承;識別環(huán)節(jié)3,

人工復(fù)核:

開放白名單數(shù)據(jù)環(huán)境,

數(shù)據(jù)標(biāo)準(zhǔn)由人工進(jìn)行復(fù)核確認(rèn);4身份證規(guī)則:([1-9]\d{5}(18|19|([23]\d))\d{2}((0

[1-

9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])數(shù)據(jù)自動(dòng)

識別字段名安全標(biāo)識Cert_noe身份證Email郵箱CHILD_C

NT子女?dāng)?shù)量Cert_noemailname算法識別:利用大規(guī)模語料學(xué)習(xí)標(biāo)注模型,

可快速識別文本中的實(shí)體數(shù)據(jù)表A字段名安全標(biāo)識字段1身份證字段2郵箱

字段血緣分析

白名單數(shù)據(jù)環(huán)境采集表A數(shù)據(jù)表B識別說明規(guī)則庫人工

復(fù)核數(shù)據(jù)表A數(shù)據(jù)表B12√√…….數(shù)據(jù)研發(fā)平臺Data

Ops-數(shù)據(jù)沙箱實(shí)現(xiàn)數(shù)據(jù)流通

、

安全共享?基于沙箱數(shù)據(jù)只進(jìn)不出和分析應(yīng)用相互隔離兩大原則構(gòu)建數(shù)據(jù)沙箱環(huán)境,

差異化數(shù)據(jù)融合模式,

確保安全可控要求下,

提升訓(xùn)練和探索環(huán)節(jié)效

率,

便捷化數(shù)據(jù)應(yīng)用通道。數(shù)據(jù)沙箱環(huán)境業(yè)務(wù)

數(shù)據(jù)數(shù)據(jù)生產(chǎn)環(huán)境B模型結(jié)果

寫出資金同業(yè)權(quán)限最小化申請信用卡

消金

資金同業(yè)其他場景

可有效解決類似數(shù)據(jù)融合

、

公私聯(lián)動(dòng)融合分析等數(shù)據(jù)類場景沙箱數(shù)據(jù)只進(jìn)不出No

Sql存儲沙箱YARN分析應(yīng)用相互隔離沙箱HDFS批流開發(fā)平臺A結(jié)果查看A模型輸出Adhoc即席查詢Aicloud數(shù)據(jù)分析HDFS/IcebergHbase/MongoDB/ES原則原則信用卡

消金

資金同業(yè)其他統(tǒng)一SQL語義引擎C模型輸出B模型輸出開發(fā)分

析平臺生產(chǎn)YARNA模型結(jié)果

寫出信用卡基礎(chǔ)

資源C模型結(jié)果

寫出消金無需權(quán)限申請統(tǒng)

敏B結(jié)果

查看C結(jié)果

查看xx√√?構(gòu)建支持?jǐn)?shù)據(jù)開發(fā)全流程的沙箱環(huán)境,

確保與生產(chǎn)庫分離,

只進(jìn)不出,數(shù)據(jù)采樣

。

既滿足應(yīng)用系統(tǒng)的沙箱環(huán)境數(shù)據(jù)探索需求,同時(shí)提升數(shù)據(jù)研發(fā)使用效大數(shù)據(jù)SQL引擎數(shù)倉層血緣分析原始層數(shù)據(jù)研發(fā)平臺Data

Ops-沙箱環(huán)境數(shù)據(jù)流程KAFKA

消息隊(duì)列跑

批沙

環(huán)

境分

析沙

環(huán)

境1

、

沙箱環(huán)境2

、

生產(chǎn)環(huán)境1

用戶日志異步發(fā)送算法平臺

生產(chǎn)環(huán)境外部沙箱應(yīng)用外部生產(chǎn)應(yīng)用沙箱作業(yè)算法平臺

(沙箱環(huán)境)

生產(chǎn)

數(shù)據(jù)源沙箱數(shù)據(jù)源生產(chǎn)作業(yè)

生產(chǎn)庫

2

用戶脫敏/抽樣/

保真/單向脫敏引擎/

采樣引擎

沙箱庫

沙箱賬號寫入脫敏/采樣/

保真是否命中

阻斷規(guī)則采集團(tuán)隊(duì)標(biāo)注敏感字段獲取脫敏字段添加脫敏字段元數(shù)據(jù)管理安全決策引擎執(zhí)行

SQL提供

數(shù)據(jù)沙箱庫報(bào)

警2用戶輸出數(shù)據(jù)研發(fā)平臺Data

Ops-成本價(jià)值管理能力?平臺層面深化數(shù)據(jù)價(jià)值評估體系探索,

實(shí)現(xiàn)數(shù)據(jù)成本與價(jià)值的多維度可量化分析,

基于成本/價(jià)值實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的ROI分析以及成本治理。存儲成本=存儲用量*存儲單價(jià)

計(jì)算成本=計(jì)算用量*計(jì)算單價(jià)成本樣例數(shù)據(jù),參考,

不代表實(shí)際情況標(biāo)簽

價(jià)值組合標(biāo)簽拉新關(guān)聯(lián)提升資產(chǎn)關(guān)聯(lián)提升PV/UV基礎(chǔ)標(biāo)簽組合調(diào)用量直接調(diào)用量

成本量化分析

基礎(chǔ)平臺從存儲和計(jì)算兩個(gè)維度,

計(jì)算每一份數(shù)據(jù)成本,

計(jì)算公式如下:資源用量范圍包括:?

存儲用量?

計(jì)算用量對應(yīng)資源的使用單價(jià):?

存儲使用單價(jià):

0.67(元/TB每天)?

計(jì)算使用單價(jià):業(yè)務(wù)場景資金相關(guān)重要鏈路HIVESASPrestoPV/UVUSER職級明細(xì)下載調(diào)用量點(diǎn)擊率轉(zhuǎn)化率數(shù)據(jù)使用成本資源用量資源單價(jià)價(jià)值量化分析訪問

熱度模型人工

標(biāo)注存儲成本+計(jì)算成本;0.0000093(元/vcoreseconds)"

開發(fā)治理一體化平臺

元數(shù)據(jù)檢查開發(fā)治理一體化平臺

業(yè)務(wù)屬主定義

數(shù)

平臺

數(shù)據(jù)分類識別

數(shù)據(jù)盤點(diǎn)

數(shù)

平臺

資產(chǎn)目錄運(yùn)營

資產(chǎn)自動(dòng)掛載

數(shù)

平臺

資產(chǎn)查找服務(wù)

資產(chǎn)鏈路地圖

質(zhì)量檢查

血緣鏈路核驗(yàn)數(shù)倉開發(fā)加工指標(biāo)加工API服務(wù)加工資產(chǎn)認(rèn)定定義資產(chǎn)業(yè)務(wù)屬主資產(chǎn)自動(dòng)打標(biāo)(表類型/是否敏感)↓資產(chǎn)信息盤點(diǎn)↓資產(chǎn)信息變更↓資產(chǎn)生命周期運(yùn)營資產(chǎn)全景地圖資產(chǎn)場景搜索(5).資產(chǎn)化應(yīng)用:數(shù)據(jù)資產(chǎn)治理之

,結(jié)合數(shù)據(jù)價(jià)值/成本

,面向數(shù)據(jù)

用戶

,提供資產(chǎn)目錄和搜索服務(wù),并打通資產(chǎn)與使用場景的平臺斷點(diǎn)數(shù)據(jù)研發(fā)平臺Data

Ops-數(shù)據(jù)資產(chǎn)沉淀(4).

自動(dòng)掛載:基于第三步的

自動(dòng)盤點(diǎn),

完成對于資產(chǎn)目錄掛載(事前治理側(cè)需先完成標(biāo)準(zhǔn)資

產(chǎn)目錄維護(hù))(2).認(rèn)責(zé)定義;:基于推送的數(shù)

據(jù)(元數(shù)據(jù));定義業(yè)務(wù)屬主和認(rèn)

責(zé)

,將數(shù)據(jù)責(zé)任方界定清楚(3).

自動(dòng)盤點(diǎn):按照事前定義的

業(yè)務(wù)全景圖譜,依賴治理工具實(shí)

現(xiàn)資產(chǎn)的自動(dòng)打標(biāo)

,并最終完成

分類盤點(diǎn)(1).生成:依賴元數(shù)據(jù)治理規(guī)

范工具

,檢測通過的數(shù)據(jù)(元

數(shù)據(jù))

,接口推送至數(shù)據(jù)資產(chǎn)

平臺據(jù)

產(chǎn)

據(jù)

產(chǎn)

據(jù)

產(chǎn)(5).資產(chǎn)服務(wù)(3).資產(chǎn)管理與盤點(diǎn)(1).資產(chǎn)產(chǎn)生(4).資產(chǎn)編目(2).資產(chǎn)認(rèn)責(zé)資產(chǎn)目錄掛載數(shù)倉目錄管理平臺

工具層目標(biāo)

用戶資產(chǎn)目錄導(dǎo)航打通資產(chǎn)場景

資產(chǎn)運(yùn)營人員

數(shù)據(jù)加工人員資產(chǎn)運(yùn)營人員

資產(chǎn)使用人員資產(chǎn)管理人員

資產(chǎn)開發(fā)人員數(shù)據(jù)加工人員目錄一

、

數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二

、

數(shù)據(jù)研發(fā)Data

Ops實(shí)踐三

、

未來展望核心能力:

邏輯數(shù)倉層構(gòu)建面向用戶和下游應(yīng)用消費(fèi)的邏輯數(shù)倉層,

將邏輯表與物理表隔離,

將物理

表交給系統(tǒng)層優(yōu)化

物理層智能調(diào)度透明數(shù)據(jù)ETL邏輯和物理存儲介質(zhì),

邏輯層用戶行為和需求觸發(fā),

實(shí)現(xiàn)數(shù)據(jù)生

產(chǎn)鏈路的智能編排和調(diào)度,

針對重復(fù)

、

似計(jì)算進(jìn)行自動(dòng)合并,

下線或降權(quán)無效

、

低頻

、低價(jià)值數(shù)據(jù)生產(chǎn)

性能自優(yōu)化基于用戶查詢行為實(shí)現(xiàn)自適應(yīng)的查詢

性能優(yōu)化,自動(dòng)實(shí)現(xiàn)物化

、緩存或構(gòu)建Cube/索引

從被動(dòng)到主動(dòng)的數(shù)據(jù)治理,

實(shí)現(xiàn)“數(shù)據(jù)自動(dòng)駕駛”邏輯層基于業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論