




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
金融級數(shù)據(jù)研發(fā)
Data
Ops實(shí)踐平安銀行數(shù)據(jù)及AI平臺團(tuán)隊(duì)負(fù)責(zé)人/
廖曉格目錄一
、
數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二
、
數(shù)據(jù)研發(fā)Data
Ops實(shí)踐三
、
未來展望
平臺數(shù)據(jù)事故引起客戶投訴
、
資損甚至監(jiān)管報(bào)送。
在數(shù)字化轉(zhuǎn)型過程中,
高質(zhì)量的數(shù)據(jù)保證越發(fā)重要
必須有數(shù)據(jù)研發(fā)工程師+后端開發(fā)工程師參與完整的業(yè)務(wù)需求
作業(yè)上線流程嚴(yán),
即使不接入生產(chǎn)應(yīng)用/最小權(quán)限的分析任務(wù),
審
批流程也要小時(shí)到天不等,
影響一些分析場景的效能;
指標(biāo)口徑不統(tǒng)一,
存在煙囪式開發(fā)。
缺少實(shí)時(shí)數(shù)據(jù)分析能力
重復(fù)作業(yè),
數(shù)據(jù)冗余度高。
數(shù)據(jù)未進(jìn)行冷熱分析,
存在垃圾數(shù)據(jù)。
數(shù)據(jù)價(jià)值難以評估,
需求價(jià)值的度量標(biāo)準(zhǔn)。
敏感數(shù)據(jù)外泄
如何既能實(shí)現(xiàn)共享又能符合各項(xiàng)法規(guī)數(shù)據(jù)研發(fā)平臺問題和挑戰(zhàn)
問題和挑戰(zhàn)
》》
問題舉例
》》
方向
如何提高數(shù)據(jù)交付
效率和批量數(shù)據(jù)時(shí)
效?如何有效賦能業(yè)
務(wù),
同時(shí)控制好平臺成本?重質(zhì)量升時(shí)效降成本保安全如何減少數(shù)據(jù)事
故,
保證數(shù)據(jù)交付質(zhì)量?如何保證數(shù)據(jù)共享
安全?
計(jì)算負(fù)載極高存儲成本劇增數(shù)據(jù)安全隱患ulu不可靠決策…
…
數(shù)據(jù)治理急需一套工程體系支撐數(shù)據(jù)研發(fā),Data
Ops是一種面向數(shù)據(jù)全生命周期,
以價(jià)值最大化為目標(biāo)的最佳實(shí)踐
。
聚焦于協(xié)同從數(shù)據(jù)需求輸入到交付物輸出的全過程
。
構(gòu)建集開發(fā)
、
治理
、運(yùn)營于一體的自動(dòng)化數(shù)據(jù)流水線,
不斷提高數(shù)據(jù)產(chǎn)品交付
效率與質(zhì)量,
實(shí)現(xiàn)高質(zhì)量數(shù)字化發(fā)展。數(shù)據(jù)治理價(jià)值數(shù)據(jù)成本越來越高,
價(jià)值難以評估控制數(shù)據(jù)風(fēng)險(xiǎn)改善數(shù)據(jù)質(zhì)量賦能管理決策降低成本提升數(shù)據(jù)加工效率資產(chǎn)!包袱?數(shù)據(jù)
治
理據(jù)治理BAC數(shù)數(shù)據(jù)研發(fā)平臺Data
Ops目標(biāo)?統(tǒng)一數(shù)據(jù)研發(fā)平臺核心目標(biāo)將Data
Ops的數(shù)據(jù)管理方法論融入數(shù)據(jù)開發(fā),
以及一些自動(dòng)化測試,
部署等技術(shù),構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)研發(fā)生產(chǎn)流水線
。
支
撐數(shù)據(jù)資產(chǎn)中心的數(shù)據(jù)全民化,
安心計(jì)劃,
破壁計(jì)劃。精細(xì)化數(shù)據(jù)
運(yùn)營保障數(shù)據(jù)研發(fā)質(zhì)量;提高數(shù)據(jù)研發(fā)效率;
降低數(shù)據(jù)使用門檻;
低代碼,自動(dòng)化數(shù)據(jù)安全保
護(hù)傘提升數(shù)據(jù)時(shí)效
夯實(shí)平臺穩(wěn)定研發(fā)流程標(biāo)
準(zhǔn)化治理工具化數(shù)據(jù)ROI,
控IT成本;價(jià)值最大化;加強(qiáng)平臺規(guī)范運(yùn)營符合各項(xiàng)法規(guī);事前制度建設(shè);事中技術(shù)管控;事后監(jiān)控審計(jì);深入湖倉一體架構(gòu)擴(kuò)大實(shí)時(shí)數(shù)據(jù)使用場
景。目錄一
、
數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二
、
數(shù)據(jù)研發(fā)Data
Ops實(shí)踐三
、
未來展望事前治理項(xiàng)事故復(fù)盤管理字段相似度流批
、
湖倉血緣作業(yè)成本價(jià)值ROI數(shù)據(jù)對象指標(biāo)
標(biāo)簽/特征服務(wù)APICI數(shù)據(jù)加工建立以價(jià)值最大化為目標(biāo)的數(shù)據(jù)全生命周期管理最佳實(shí)踐重質(zhì)量降成本升時(shí)效保安全數(shù)據(jù)研發(fā)平臺Data
Ops邏輯框架CT測試發(fā)布推動(dòng)數(shù)據(jù)
運(yùn)營數(shù)據(jù)
開發(fā)基礎(chǔ)底
座時(shí)效檢查
相似作業(yè)識別
相似加工鏈路統(tǒng)一權(quán)限統(tǒng)一調(diào)度生成測試一體化數(shù)據(jù)安全保護(hù)傘業(yè)務(wù)系統(tǒng)表數(shù)據(jù)源CD運(yùn)維監(jiān)控支撐》》目標(biāo)湖/倉表字段數(shù)據(jù)集成數(shù)據(jù)模型數(shù)據(jù)服務(wù)質(zhì)量運(yùn)營異常診斷指標(biāo)加工資產(chǎn)盤點(diǎn)湖/倉表事后治理數(shù)據(jù)源數(shù)據(jù)研發(fā)平臺Data
Ops-全流程開發(fā)流程標(biāo)準(zhǔn)化?基于《數(shù)據(jù)研發(fā)流程基線細(xì)則》
和《大數(shù)據(jù)平臺管理細(xì)則》
,
統(tǒng)一數(shù)據(jù)研發(fā)全周期流程(包括數(shù)據(jù)源
、
數(shù)據(jù)集成
、
數(shù)據(jù)加工
、
指標(biāo)定義
、
數(shù)據(jù)服
務(wù)等),
引入CI/CT/CD方法融入并標(biāo)準(zhǔn)化數(shù)據(jù)研發(fā)流程,
降低模型研發(fā)過程中的人為風(fēng)險(xiǎn)同時(shí),
提升整個(gè)數(shù)據(jù)研發(fā)效率。核心能力n
Dataops全研發(fā)流程:
融合數(shù)
據(jù)集成
、
數(shù)據(jù)加工
、
業(yè)務(wù)資
產(chǎn)定義開發(fā)
、
Oneservice數(shù)據(jù)
服務(wù)配置全流程;n
數(shù)據(jù)治理嵌入研發(fā):
改變以
往先產(chǎn)生后治理的流程邏輯,
將治理規(guī)范融入數(shù)據(jù)研發(fā)流程;n
先設(shè)計(jì)再開發(fā)服務(wù):
以數(shù)據(jù)
服務(wù)和數(shù)據(jù)指標(biāo)驅(qū)動(dòng)數(shù)據(jù)研
發(fā)過程,
遵循先設(shè)計(jì)再研發(fā)
的治理設(shè)計(jì)理念n
核心開發(fā)工具:
面向數(shù)據(jù)自
動(dòng)校驗(yàn)端,
提供數(shù)據(jù)質(zhì)量/數(shù)
據(jù)血緣/元數(shù)據(jù)管理/規(guī)范檢
查/開發(fā)測試一體/能力服務(wù),實(shí)現(xiàn)線上數(shù)據(jù)的自動(dòng)檢核數(shù)據(jù)服務(wù)應(yīng)用管理數(shù)據(jù)準(zhǔn)備項(xiàng)目注冊服務(wù)配置
并發(fā)布服務(wù)交付數(shù)據(jù)加工作業(yè)建模作業(yè)發(fā)布自動(dòng)發(fā)布數(shù)據(jù)
測試數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)源
注冊數(shù)據(jù)源
管理統(tǒng)一數(shù)據(jù)研發(fā)平臺數(shù)據(jù)研發(fā)的全生命周期流程數(shù)據(jù)集定義數(shù)據(jù)研發(fā)流程規(guī)范數(shù)據(jù)架構(gòu)規(guī)范數(shù)據(jù)安全規(guī)范數(shù)據(jù)運(yùn)營規(guī)范異構(gòu)
采集方式
數(shù)據(jù)源
設(shè)定加解密配置采集頻率
設(shè)定數(shù)據(jù)
測試數(shù)據(jù)
運(yùn)營語法
校驗(yàn)UAT
驗(yàn)證指標(biāo)定義
指標(biāo)發(fā)布One
service數(shù)據(jù)集成指標(biāo)定義研發(fā)流程數(shù)據(jù)
采集數(shù)據(jù)
加密指標(biāo)
定義數(shù)據(jù)
定義數(shù)據(jù)
上線數(shù)據(jù)
開發(fā)模型
映射合規(guī)
檢查維度
定義模型管理表注冊數(shù)據(jù)資產(chǎn)經(jīng)分營銷風(fēng)險(xiǎn)監(jiān)管報(bào)送AI建模運(yùn)營需求管理
(starlink)需求
登記需求
評審需求
分發(fā)數(shù)據(jù)研發(fā)平臺Data
Ops-總體功能架構(gòu)?建設(shè)目標(biāo):研發(fā)層面,
基于湖倉一體存儲,
面向全行提供流批數(shù)據(jù)一體化的研發(fā)平臺,
覆蓋從需求階段-研發(fā)階段-運(yùn)行階段-運(yùn)營階段,
支持業(yè)
務(wù)BU模型開發(fā);
管理層面,
集成架構(gòu)治理規(guī)范
、
運(yùn)行規(guī)范
、
跑批規(guī)范,
實(shí)現(xiàn)數(shù)據(jù)和架構(gòu)治理工具的平臺化落地。數(shù)據(jù)研發(fā)平臺DI
Cloud指標(biāo)研發(fā)統(tǒng)一SQL語義層引擎
研發(fā)階段安全規(guī)范(包括權(quán)限)基礎(chǔ)
設(shè)施指標(biāo)加工數(shù)據(jù)建模維度/
指標(biāo)定義設(shè)計(jì)即研發(fā)指標(biāo)物化指標(biāo)上下架
規(guī)范數(shù)據(jù)集成實(shí)時(shí)采集
Flinkcdc離線采集
waterdrop流批采集Flinkcdc->Spark測試/發(fā)布測試用例自動(dòng)化測試自動(dòng)化發(fā)布自動(dòng)化部署數(shù)據(jù)加工批任務(wù)Spark流任務(wù)Flink流轉(zhuǎn)批
Flink->SparkAPI開發(fā)某省市場資源隔離服務(wù)計(jì)量服務(wù)編排資產(chǎn)全景數(shù)據(jù)血緣數(shù)據(jù)質(zhì)量業(yè)務(wù)圖譜風(fēng)險(xiǎn)審計(jì)安全標(biāo)準(zhǔn)權(quán)限審批流程管理外部數(shù)據(jù)源數(shù)據(jù)源注冊數(shù)據(jù)源管理File數(shù)據(jù)源DB數(shù)據(jù)源分布式文件系統(tǒng)生產(chǎn)環(huán)境流批一體數(shù)據(jù)研發(fā)任務(wù)成本運(yùn)
營中心實(shí)時(shí)計(jì)算引
擎Flink統(tǒng)一智能調(diào)
度作業(yè)血緣鏈
路治理數(shù)據(jù)服務(wù)化
規(guī)范數(shù)據(jù)質(zhì)量檢
測統(tǒng)一資源管
理Yarn全鏈路
監(jiān)控診斷指標(biāo)盤點(diǎn)
(精品/kpi)數(shù)據(jù)服務(wù)OneService跑批規(guī)范運(yùn)行規(guī)范架構(gòu)治理
規(guī)范前端業(yè)務(wù)運(yùn)營階段沙箱環(huán)境需求階段運(yùn)行階段Nosql存儲湖倉一體Mpp存儲流程規(guī)范設(shè)計(jì)規(guī)范質(zhì)量規(guī)范治理全景監(jiān)控運(yùn)營健康排名缺陷作業(yè)識別治理離線數(shù)據(jù)研發(fā)元數(shù)據(jù)管理架構(gòu)治理檢查數(shù)據(jù)脫敏數(shù)據(jù)發(fā)布管理
組件管理
組件Spark/Hive
Sqoop
Da
tax
Es-spark
Jdbc?全行統(tǒng)一大數(shù)據(jù)作業(yè)調(diào)度平臺,
支持離線數(shù)據(jù)研發(fā),
血緣自動(dòng)計(jì)算,
生產(chǎn)測試一體,
作業(yè)線上發(fā)布,
作業(yè)運(yùn)營等數(shù)據(jù)研發(fā)的生命周期過程,
標(biāo)準(zhǔn)
化全行數(shù)據(jù)研發(fā)服務(wù)過程,目標(biāo)提升全行數(shù)據(jù)治理與數(shù)據(jù)質(zhì)量成果,
融合研發(fā)和治理的一體化平臺體系;數(shù)據(jù)研發(fā)平臺Data
Ops-數(shù)據(jù)調(diào)度統(tǒng)一研發(fā)IDE作業(yè)
運(yùn)營作業(yè)
研發(fā)調(diào)度
服務(wù)作業(yè)/數(shù)據(jù)生命周期運(yùn)營重跑調(diào)度(級聯(lián)/批量重跑)權(quán)限管理日志管理在線診斷關(guān)聯(lián)服務(wù)風(fēng)險(xiǎn)管控經(jīng)營分析在線分析業(yè)務(wù)營銷自動(dòng)調(diào)度服務(wù)編排Hive執(zhí)行器Spark執(zhí)行器數(shù)據(jù)出倉
執(zhí)行器多源異構(gòu)
數(shù)據(jù)集成防重復(fù)調(diào)度多租戶
資源隔離執(zhí)行加速自動(dòng)監(jiān)控優(yōu)先級管控生命周期運(yùn)營發(fā)布作業(yè)監(jiān)控SLA運(yùn)營作業(yè)成本治理技術(shù)
組件層服務(wù)
場景執(zhí)行
服務(wù)實(shí)時(shí)質(zhì)量異常阻斷(依據(jù)血緣依賴阻斷下游自動(dòng)調(diào)度)通過數(shù)據(jù)血緣關(guān)系,
實(shí)
時(shí)呈現(xiàn)數(shù)據(jù)調(diào)度進(jìn)度數(shù)據(jù)研發(fā)平臺Data
Ops-質(zhì)量治理能力?數(shù)據(jù)質(zhì)量已經(jīng)成為銀行數(shù)據(jù)治理的核心組成部分,
從治理視角而言,
建立完整全流程的數(shù)據(jù)質(zhì)量體系,
及時(shí)發(fā)現(xiàn)質(zhì)量問題->實(shí)時(shí)預(yù)警屬主修復(fù)->
事后復(fù)盤增強(qiáng)測試發(fā)布環(huán)節(jié)檢測
、
提升銀行數(shù)據(jù)整體質(zhì)量,
提供更精準(zhǔn)的決策分析數(shù)據(jù);1)
表粒度規(guī)則監(jiān)控2)
字段粒度規(guī)則監(jiān)控3)
自定義規(guī)則監(jiān)控事后-異常質(zhì)量問題追蹤復(fù)盤事前-質(zhì)量核驗(yàn)規(guī)則事中-質(zhì)量核驗(yàn)基于過程質(zhì)量問題,
工單追蹤異常整改數(shù)據(jù)研發(fā)平臺Data
Ops-開發(fā)測試一體化?為解決大數(shù)據(jù)數(shù)據(jù)質(zhì)量測試痛點(diǎn),
在測試環(huán)境無法完全復(fù)現(xiàn)生產(chǎn)問題,
生產(chǎn)數(shù)據(jù)脫敏到測試環(huán)境仍有安全隱患,
因此需要構(gòu)建數(shù)據(jù)研發(fā)測試一體
化平臺,
完善數(shù)據(jù)研發(fā)流程,
滿足監(jiān)控合規(guī)的評審需求,
數(shù)據(jù)需求閉環(huán)管理,
數(shù)據(jù)開發(fā)
、
測試
、
變更流程統(tǒng)一管理,
并和數(shù)據(jù)監(jiān)控規(guī)則打通,
保
證全流程質(zhì)量閉環(huán)心能單/雙表、
字段級基礎(chǔ)數(shù)據(jù)規(guī)則自定義資損模型場景建模場景自適應(yīng)數(shù)據(jù)模型
(待建)日期型類型數(shù)值型類型枚舉型類型字符型類型監(jiān)管模型風(fēng)控模型營銷模型機(jī)器學(xué)習(xí)自適應(yīng)
算法場景模擬精準(zhǔn)測試效率優(yōu)化作業(yè)調(diào)度/用例執(zhí)行質(zhì)量門檻UAT/業(yè)務(wù)驗(yàn)收數(shù)據(jù)研發(fā)平臺脫敏系統(tǒng)ROUTER權(quán)限系統(tǒng)Jira需求管理DQM數(shù)據(jù)監(jiān)控對接系統(tǒng)用戶&權(quán)限一鍵UM登錄數(shù)據(jù)權(quán)限自動(dòng)識別數(shù)據(jù)
準(zhǔn)備聚合報(bào)告分析結(jié)果大盤流程
管理消金缺陷標(biāo)注測試自動(dòng)
執(zhí)行風(fēng)險(xiǎn)某省市私行某省市…分級別
流程定制信某省市需求評審測試驗(yàn)收數(shù)據(jù)研發(fā)平臺Data
Ops-數(shù)據(jù)安全治理?從事前
、
事中
、
事后分別管控?cái)?shù)據(jù)安全
。
以“事中數(shù)據(jù)脫敏”為例,
是通過在SQL/作業(yè)埋點(diǎn)用戶帳號,
分析SQL/Job對應(yīng)的元數(shù)據(jù)字段,
判斷用戶
權(quán)限,
返回用戶對應(yīng)的脫敏數(shù)據(jù)。統(tǒng)一SQL引擎Router血緣分析
元數(shù)據(jù)管理
權(quán)限管理
脫敏引擎
安全決策引擎事中技術(shù)管控:
采用“數(shù)據(jù)加密”、“數(shù)據(jù)脫
敏”、“敏感客群保護(hù)”、”智能阻斷”、“數(shù)據(jù)
外發(fā)”等手段構(gòu)筑強(qiáng)固的數(shù)據(jù)安全保護(hù)傘;事后監(jiān)控審計(jì):
基于規(guī)則引擎建立數(shù)據(jù)訪
問審計(jì)平臺——實(shí)時(shí)的\自動(dòng)+人工的識別
可能的異常訪問;事前制度建設(shè):
數(shù)據(jù)安全“制度”先行,
為
此我行修改制定了“平安銀行數(shù)據(jù)安全管理
辦法(
2.0版,
2019年)”;大數(shù)據(jù)
平臺事中事后事前大數(shù)據(jù)SQL計(jì)算引擎Spark
SQL
Presto調(diào)度平臺.
SQL
/
JobKyligenceHIVE客戶端AI算法平臺Jupyter數(shù)據(jù)研發(fā)平臺Data
Ops-數(shù)倉分層加密處理過程?ODS
貼源層(raw):
敏感字段識別,
利用
正則+算法+人工,
識別出貼源數(shù)據(jù)表的敏感字段。?ODS
加密層(mid):
高敏感字段加密,
將銀行卡號,
手機(jī)號,
證件號進(jìn)行加密儲存。?數(shù)倉
某省市等層:
利用字段級血緣關(guān)系,
標(biāo)識出每感字段。?數(shù)據(jù)查詢訪問:
應(yīng)用端查詢數(shù)據(jù)時(shí),
對統(tǒng)一查詢中心(router),
根據(jù)訪問的敏感字段及敏感脫敏類型進(jìn)行脫敏處理。數(shù)據(jù)產(chǎn)出流轉(zhuǎn)過程加密層數(shù)據(jù)建設(shè)組織過程對公MID風(fēng)險(xiǎn)DM個(gè)消金DM消金DW公共庫一致性維度DIM接口(對外服務(wù))私庫
(基本法)報(bào)表指標(biāo)
庫(
BU)貼源層
RAW財(cái)務(wù)DM個(gè)標(biāo)簽
指標(biāo)對公DW對公DM數(shù)據(jù)研發(fā)平臺Data
Ops-敏感數(shù)據(jù)發(fā)現(xiàn)?源生產(chǎn)系統(tǒng)數(shù)據(jù)集成過程中,
無論實(shí)時(shí)或者離線采集,
開發(fā)治理一體化平臺基于數(shù)據(jù)規(guī)則自動(dòng)實(shí)現(xiàn)敏感數(shù)據(jù)發(fā)現(xiàn);識別環(huán)節(jié)1,
數(shù)據(jù)識別:
依據(jù)預(yù)定義規(guī)則庫+命名實(shí)體算法服務(wù)自動(dòng)識別敏感信息;
識別環(huán)節(jié)2,
血緣分析:
依據(jù)上游字段的安全標(biāo)記,
下游字段自動(dòng)繼承;識別環(huán)節(jié)3,
人工復(fù)核:
開放白名單數(shù)據(jù)環(huán)境,
數(shù)據(jù)標(biāo)準(zhǔn)由人工進(jìn)行復(fù)核確認(rèn);4身份證規(guī)則:([1-9]\d{5}(18|19|([23]\d))\d{2}((0
[1-
9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])數(shù)據(jù)自動(dòng)
識別字段名安全標(biāo)識Cert_noe身份證Email郵箱CHILD_C
NT子女?dāng)?shù)量Cert_noemailname算法識別:利用大規(guī)模語料學(xué)習(xí)標(biāo)注模型,
可快速識別文本中的實(shí)體數(shù)據(jù)表A字段名安全標(biāo)識字段1身份證字段2郵箱
字段血緣分析
白名單數(shù)據(jù)環(huán)境采集表A數(shù)據(jù)表B識別說明規(guī)則庫人工
復(fù)核數(shù)據(jù)表A數(shù)據(jù)表B12√√…….數(shù)據(jù)研發(fā)平臺Data
Ops-數(shù)據(jù)沙箱實(shí)現(xiàn)數(shù)據(jù)流通
、
安全共享?基于沙箱數(shù)據(jù)只進(jìn)不出和分析應(yīng)用相互隔離兩大原則構(gòu)建數(shù)據(jù)沙箱環(huán)境,
差異化數(shù)據(jù)融合模式,
確保安全可控要求下,
提升訓(xùn)練和探索環(huán)節(jié)效
率,
便捷化數(shù)據(jù)應(yīng)用通道。數(shù)據(jù)沙箱環(huán)境業(yè)務(wù)
數(shù)據(jù)數(shù)據(jù)生產(chǎn)環(huán)境B模型結(jié)果
寫出資金同業(yè)權(quán)限最小化申請信用卡
消金
資金同業(yè)其他場景
可有效解決類似數(shù)據(jù)融合
、
公私聯(lián)動(dòng)融合分析等數(shù)據(jù)類場景沙箱數(shù)據(jù)只進(jìn)不出No
Sql存儲沙箱YARN分析應(yīng)用相互隔離沙箱HDFS批流開發(fā)平臺A結(jié)果查看A模型輸出Adhoc即席查詢Aicloud數(shù)據(jù)分析HDFS/IcebergHbase/MongoDB/ES原則原則信用卡
消金
資金同業(yè)其他統(tǒng)一SQL語義引擎C模型輸出B模型輸出開發(fā)分
析平臺生產(chǎn)YARNA模型結(jié)果
寫出信用卡基礎(chǔ)
資源C模型結(jié)果
寫出消金無需權(quán)限申請統(tǒng)
一
脫
敏B結(jié)果
查看C結(jié)果
查看xx√√?構(gòu)建支持?jǐn)?shù)據(jù)開發(fā)全流程的沙箱環(huán)境,
確保與生產(chǎn)庫分離,
只進(jìn)不出,數(shù)據(jù)采樣
。
既滿足應(yīng)用系統(tǒng)的沙箱環(huán)境數(shù)據(jù)探索需求,同時(shí)提升數(shù)據(jù)研發(fā)使用效大數(shù)據(jù)SQL引擎數(shù)倉層血緣分析原始層數(shù)據(jù)研發(fā)平臺Data
Ops-沙箱環(huán)境數(shù)據(jù)流程KAFKA
消息隊(duì)列跑
批沙
箱
環(huán)
境分
析沙
箱
環(huán)
境1
、
沙箱環(huán)境2
、
生產(chǎn)環(huán)境1
用戶日志異步發(fā)送算法平臺
生產(chǎn)環(huán)境外部沙箱應(yīng)用外部生產(chǎn)應(yīng)用沙箱作業(yè)算法平臺
(沙箱環(huán)境)
生產(chǎn)
數(shù)據(jù)源沙箱數(shù)據(jù)源生產(chǎn)作業(yè)
生產(chǎn)庫
2
用戶脫敏/抽樣/
保真/單向脫敏引擎/
采樣引擎
沙箱庫
沙箱賬號寫入脫敏/采樣/
保真是否命中
阻斷規(guī)則采集團(tuán)隊(duì)標(biāo)注敏感字段獲取脫敏字段添加脫敏字段元數(shù)據(jù)管理安全決策引擎執(zhí)行
SQL提供
數(shù)據(jù)沙箱庫報(bào)
警2用戶輸出數(shù)據(jù)研發(fā)平臺Data
Ops-成本價(jià)值管理能力?平臺層面深化數(shù)據(jù)價(jià)值評估體系探索,
實(shí)現(xiàn)數(shù)據(jù)成本與價(jià)值的多維度可量化分析,
基于成本/價(jià)值實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的ROI分析以及成本治理。存儲成本=存儲用量*存儲單價(jià)
計(jì)算成本=計(jì)算用量*計(jì)算單價(jià)成本樣例數(shù)據(jù),參考,
不代表實(shí)際情況標(biāo)簽
價(jià)值組合標(biāo)簽拉新關(guān)聯(lián)提升資產(chǎn)關(guān)聯(lián)提升PV/UV基礎(chǔ)標(biāo)簽組合調(diào)用量直接調(diào)用量
成本量化分析
基礎(chǔ)平臺從存儲和計(jì)算兩個(gè)維度,
計(jì)算每一份數(shù)據(jù)成本,
計(jì)算公式如下:資源用量范圍包括:?
存儲用量?
計(jì)算用量對應(yīng)資源的使用單價(jià):?
存儲使用單價(jià):
0.67(元/TB每天)?
計(jì)算使用單價(jià):業(yè)務(wù)場景資金相關(guān)重要鏈路HIVESASPrestoPV/UVUSER職級明細(xì)下載調(diào)用量點(diǎn)擊率轉(zhuǎn)化率數(shù)據(jù)使用成本資源用量資源單價(jià)價(jià)值量化分析訪問
熱度模型人工
標(biāo)注存儲成本+計(jì)算成本;0.0000093(元/vcoreseconds)"
開發(fā)治理一體化平臺
元數(shù)據(jù)檢查開發(fā)治理一體化平臺
業(yè)務(wù)屬主定義
數(shù)
資
平臺
數(shù)據(jù)分類識別
數(shù)據(jù)盤點(diǎn)
數(shù)
資
平臺
資產(chǎn)目錄運(yùn)營
資產(chǎn)自動(dòng)掛載
數(shù)
資
平臺
資產(chǎn)查找服務(wù)
資產(chǎn)鏈路地圖
質(zhì)量檢查
血緣鏈路核驗(yàn)數(shù)倉開發(fā)加工指標(biāo)加工API服務(wù)加工資產(chǎn)認(rèn)定定義資產(chǎn)業(yè)務(wù)屬主資產(chǎn)自動(dòng)打標(biāo)(表類型/是否敏感)↓資產(chǎn)信息盤點(diǎn)↓資產(chǎn)信息變更↓資產(chǎn)生命周期運(yùn)營資產(chǎn)全景地圖資產(chǎn)場景搜索(5).資產(chǎn)化應(yīng)用:數(shù)據(jù)資產(chǎn)治理之
后
,結(jié)合數(shù)據(jù)價(jià)值/成本
,面向數(shù)據(jù)
用戶
,提供資產(chǎn)目錄和搜索服務(wù),并打通資產(chǎn)與使用場景的平臺斷點(diǎn)數(shù)據(jù)研發(fā)平臺Data
Ops-數(shù)據(jù)資產(chǎn)沉淀(4).
自動(dòng)掛載:基于第三步的
自動(dòng)盤點(diǎn),
完成對于資產(chǎn)目錄掛載(事前治理側(cè)需先完成標(biāo)準(zhǔn)資
產(chǎn)目錄維護(hù))(2).認(rèn)責(zé)定義;:基于推送的數(shù)
據(jù)(元數(shù)據(jù));定義業(yè)務(wù)屬主和認(rèn)
責(zé)
,將數(shù)據(jù)責(zé)任方界定清楚(3).
自動(dòng)盤點(diǎn):按照事前定義的
業(yè)務(wù)全景圖譜,依賴治理工具實(shí)
現(xiàn)資產(chǎn)的自動(dòng)打標(biāo)
,并最終完成
分類盤點(diǎn)(1).生成:依賴元數(shù)據(jù)治理規(guī)
范工具
,檢測通過的數(shù)據(jù)(元
數(shù)據(jù))
,接口推送至數(shù)據(jù)資產(chǎn)
平臺據(jù)
產(chǎn)
據(jù)
產(chǎn)
據(jù)
產(chǎn)(5).資產(chǎn)服務(wù)(3).資產(chǎn)管理與盤點(diǎn)(1).資產(chǎn)產(chǎn)生(4).資產(chǎn)編目(2).資產(chǎn)認(rèn)責(zé)資產(chǎn)目錄掛載數(shù)倉目錄管理平臺
工具層目標(biāo)
用戶資產(chǎn)目錄導(dǎo)航打通資產(chǎn)場景
資產(chǎn)運(yùn)營人員
數(shù)據(jù)加工人員資產(chǎn)運(yùn)營人員
資產(chǎn)使用人員資產(chǎn)管理人員
資產(chǎn)開發(fā)人員數(shù)據(jù)加工人員目錄一
、
數(shù)據(jù)研發(fā)問題及挑戰(zhàn)二
、
數(shù)據(jù)研發(fā)Data
Ops實(shí)踐三
、
未來展望核心能力:
邏輯數(shù)倉層構(gòu)建面向用戶和下游應(yīng)用消費(fèi)的邏輯數(shù)倉層,
將邏輯表與物理表隔離,
將物理
表交給系統(tǒng)層優(yōu)化
物理層智能調(diào)度透明數(shù)據(jù)ETL邏輯和物理存儲介質(zhì),
由
邏輯層用戶行為和需求觸發(fā),
實(shí)現(xiàn)數(shù)據(jù)生
產(chǎn)鏈路的智能編排和調(diào)度,
針對重復(fù)
、
相
似計(jì)算進(jìn)行自動(dòng)合并,
下線或降權(quán)無效
、
低頻
、低價(jià)值數(shù)據(jù)生產(chǎn)
性能自優(yōu)化基于用戶查詢行為實(shí)現(xiàn)自適應(yīng)的查詢
性能優(yōu)化,自動(dòng)實(shí)現(xiàn)物化
、緩存或構(gòu)建Cube/索引
從被動(dòng)到主動(dòng)的數(shù)據(jù)治理,
實(shí)現(xiàn)“數(shù)據(jù)自動(dòng)駕駛”邏輯層基于業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 黃山健康職業(yè)學(xué)院《英語國家風(fēng)土人情》2023-2024學(xué)年第一學(xué)期期末試卷
- 山東省泰安市泰山區(qū)2024年數(shù)學(xué)七年級第一學(xué)期期末學(xué)業(yè)水平測試試題含解析
- 貴州裝備制造職業(yè)學(xué)院《法國社會(huì)與文化》2023-2024學(xué)年第一學(xué)期期末試卷
- 曲靖市師宗縣城區(qū)學(xué)校遴選教師考試真題2024
- 2024年煙臺黃渤海新區(qū)社會(huì)事業(yè)發(fā)展局所屬事業(yè)單位招聘考試真題
- 白山市江源區(qū)事業(yè)單位招聘考試真題2024
- 2024年河北石家莊財(cái)經(jīng)職業(yè)學(xué)院招聘考試真題
- 教育技術(shù)在國際教育領(lǐng)域的廣泛應(yīng)用
- 教育科技創(chuàng)新項(xiàng)目AI輔助寫作教學(xué)的推廣
- 大數(shù)據(jù)時(shí)代的教育隱私權(quán)保障與應(yīng)對策略
- 部編人教版小學(xué)語文1-6年級詞語表
- 2025屆山東省青島市超銀中學(xué)英語八下期末綜合測試試題含答案
- 工地切割樁頭合同協(xié)議書
- 手術(shù)室環(huán)境衛(wèi)生管理要求
- 2025-2030中國激光噴碼機(jī)行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資前景研究報(bào)告
- 《鐵路旅客運(yùn)輸組織(活頁式)》課件 7.3 旅客傷害應(yīng)急處置
- 通信光纜割接施工方案
- 小微公司成立章程范本
- 農(nóng)村生活污水治理專項(xiàng)施工方案
- 全屋定制員工培訓(xùn)體系
- 2024北京西城區(qū)四年級(下)期末英語試題及答案
評論
0/150
提交評論