




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)資產(chǎn)管理平臺設計與研發(fā)技術(shù)創(chuàng)新,變革未來目 錄Contents背景概述 (06P)01關鍵挑戰(zhàn) (04P)02詳細介紹 (23P)03整體總結(jié) (01P)042020數(shù)據(jù)倉庫 DataWarehouse 1991大數(shù)據(jù)平臺 BigData 2012數(shù)據(jù)中樞? 云數(shù)據(jù)倉庫? LakeHouse? DataOps? 2019數(shù)據(jù)中臺 DataLake 2015數(shù)據(jù)處理技術(shù)演進與行業(yè)趨勢數(shù)據(jù)資產(chǎn)定義:一切皆數(shù)據(jù),數(shù)據(jù)是一切廣義概念企業(yè)生產(chǎn)經(jīng)營中產(chǎn)生的信息及其載體都屬于數(shù)據(jù)資產(chǎn)。狹義概念可確定歸屬權(quán),且能被交易、使用的 數(shù)據(jù)。數(shù)據(jù)資產(chǎn)哪些是數(shù)據(jù)資產(chǎn)?各業(yè)務域和數(shù)據(jù)域在數(shù)據(jù)生產(chǎn)消費過程中形成的數(shù)據(jù)
2、沉淀及其載體都是數(shù)據(jù)資產(chǎn)。存儲過程表KPI報表標簽函數(shù)主機集群頁面應用系統(tǒng)2020指標模型ETL任務字段視圖數(shù)據(jù)庫數(shù)據(jù)過程業(yè)務設備大數(shù)據(jù)資產(chǎn)管理平臺邊界:數(shù)據(jù)業(yè)務數(shù)據(jù)平臺基礎設施(基礎算力+大數(shù)據(jù)&微服務&容器云&云原生等技術(shù)底座)數(shù)據(jù)中臺數(shù)據(jù)中臺數(shù)據(jù)組織數(shù)據(jù)倉庫平臺數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)治理體系數(shù)據(jù)科學能力C?2020A?B?數(shù)據(jù)資產(chǎn)管理 VS 數(shù)據(jù)治理 VS DataOps ?數(shù)據(jù)中臺落地實踐過程中的加速器,數(shù)據(jù)平臺開發(fā)運維和數(shù)據(jù)治理活動實施的潤滑劑,數(shù)據(jù)科學建模分析和數(shù)據(jù)資產(chǎn)運營管理價值化的催化劑。關于數(shù)據(jù)資產(chǎn)管理整體框架與方法論理論基石數(shù)據(jù)治理項目實施總體原則數(shù)據(jù)管理體系數(shù)據(jù)質(zhì)量優(yōu)化戰(zhàn)略高度
3、:制定公司 數(shù)據(jù)治理基本原則、 管理辦法、文化導向合規(guī)運營:DS+DTS/ DCT多元業(yè)務安全要求監(jiān)督審計:制定各業(yè)務 條線、組織監(jiān)督機制和 審計要求建立企業(yè)數(shù)據(jù)戰(zhàn)略規(guī)范數(shù)據(jù)管理制度支撐數(shù)據(jù)標準、數(shù)據(jù)質(zhì) 量、數(shù)據(jù)安全、數(shù)據(jù)模 型、生命周期、數(shù)據(jù)應 用等各領域治理要求明確數(shù)據(jù)質(zhì)量管理目標明確對質(zhì)量監(jiān)控體系、 檢查制度、整改機制以 及考評體系的建設要求持續(xù)提升能力開放業(yè)務 租戶運營水平數(shù)據(jù)智能科技 服務專家深挖運營商數(shù)據(jù)服務內(nèi)在價值 轉(zhuǎn)型DS+DTS/DCT多元業(yè)務 升級生態(tài)營運能力組織架構(gòu)體系架構(gòu)要求:職責清晰、多層次、相互銜接落實數(shù)據(jù)認責機制培育數(shù)據(jù)驅(qū)動文化建立治理溝通渠道建立評價與考核制度D
4、AMA-DMBOKCMMI-DMMDCMM找癥狀, 明確目標理數(shù)據(jù), 現(xiàn)狀分析數(shù)據(jù)治理 成熟度評估數(shù)據(jù)質(zhì)量 根因分析業(yè)務影響及實施優(yōu)先級評估12346制定數(shù)據(jù)治理行動路線與計劃7監(jiān)控評估數(shù)據(jù) 治理實施效果5總體方針:以服務公司愿景為導向,以問題為切入點,切實解決業(yè)務問題??蚣芊椒ㄕ?020如何制定數(shù)據(jù)戰(zhàn)略? 收益、安全、質(zhì)量、架構(gòu)、流程、效率?聯(lián)通大數(shù)據(jù)資產(chǎn)管理平臺能力架構(gòu)-全景圖模數(shù)據(jù)可視化報表大規(guī)模即席分析數(shù)據(jù)知識圖譜數(shù)據(jù)敏捷探索能力開放門戶敏 捷 項 目 管 理開 發(fā) 運 維 一 體 化持 續(xù) 集 成 與 交 付數(shù)據(jù) 追蹤 溯源數(shù)據(jù) 安全 網(wǎng)關安 全 保 障 體 系數(shù)據(jù) 出口 審計數(shù)據(jù)
5、脫敏 系統(tǒng)應用資產(chǎn)資產(chǎn)總覽資產(chǎn)注冊資產(chǎn)服務資產(chǎn)安全資產(chǎn)評估管理資產(chǎn)價值資產(chǎn)運營資產(chǎn)治理資產(chǎn)運維資產(chǎn)盤點數(shù)據(jù)開放平臺數(shù)據(jù)計算治理CMDB成本核算數(shù)據(jù)租戶自建數(shù)據(jù)存儲治理ITSM價值評估數(shù)據(jù)生態(tài)合作數(shù)據(jù)質(zhì)量治理統(tǒng)一監(jiān)控數(shù)據(jù)大 規(guī) 模 集 群 治 理服務行為興趣分析平臺位置時序洞察平臺關系圖譜挖掘平臺數(shù)據(jù)管理數(shù)據(jù)標準管理數(shù)據(jù)質(zhì)量管理數(shù)據(jù)指標管理數(shù)據(jù)API網(wǎng)關數(shù)據(jù)地圖門戶數(shù)據(jù)能力開放數(shù)據(jù) 開發(fā) 運維 治理 平臺數(shù)據(jù)集成/采集交換數(shù)據(jù)開發(fā)過程數(shù)據(jù)治理管控數(shù)據(jù)運維中心實時流批融合敏捷數(shù)據(jù)建模元數(shù)據(jù)采集與存儲數(shù)據(jù)平臺監(jiān) 控多租戶安全隔離可視化數(shù)據(jù)調(diào)度數(shù)據(jù)生命周期管理智能運維預警 多源異構(gòu)數(shù)據(jù)采集數(shù)據(jù)平臺開發(fā)
6、IDEAI輔助數(shù)據(jù)治理故障自愈修 復基礎FlinkHiveElasticSearch平臺數(shù)據(jù)源B域數(shù)據(jù)O域數(shù)據(jù)各省數(shù)據(jù)三方數(shù)據(jù)其他數(shù)據(jù)2020聯(lián)通大數(shù)據(jù)資產(chǎn)管理平臺價值地圖運維域運營域開發(fā)域治理域安全域數(shù)據(jù)腳本標準化 數(shù)據(jù)開發(fā)平臺 數(shù)據(jù)云平臺數(shù)據(jù)生產(chǎn)監(jiān)控大屏 數(shù)據(jù)運維平臺 數(shù)據(jù)云平臺數(shù)據(jù)能力開放平臺 數(shù)據(jù)多方安全計算 數(shù)據(jù)云平臺數(shù)據(jù)治理-疏整促 集群治理-巡山 數(shù)據(jù)云平臺2020Contents背景概述 (06P)01關鍵挑戰(zhàn) (04P)02詳細介紹 (23P)03整體總結(jié) (01P)04目 錄2020ODSDWDM面 向 應 用面 向 分 析面 向 生 產(chǎn)DWDDWA指標庫立方體輕度匯總核心
7、事件與實體數(shù)據(jù)采集展現(xiàn)視圖分析衍生實時標準化2020事件捕獲實時統(tǒng)計與分析圍繞批量與流式場景分離、業(yè)務規(guī)范統(tǒng)一、空間效率平衡等原則構(gòu)建分層分類大數(shù)據(jù)模型體系實時流式處理離線批處理數(shù)據(jù)資產(chǎn)管理平臺關鍵挑戰(zhàn)#1 搭建數(shù)據(jù)倉庫統(tǒng)一平臺數(shù)據(jù)采集鏈路監(jiān)控數(shù)據(jù)跨集群同步數(shù)據(jù)生命周期管理數(shù)據(jù)開發(fā)&運維數(shù)據(jù)ETL調(diào)度系統(tǒng)元數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)血緣分析數(shù)據(jù)質(zhì)量保障元數(shù)據(jù)&數(shù)據(jù)模型&數(shù)據(jù)元&數(shù)據(jù)標準概念對齊2020通用的商業(yè)化元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量工具的問題數(shù)據(jù)資產(chǎn)管理平臺關鍵挑戰(zhàn)#2 實踐數(shù)據(jù)平臺治理管控數(shù)據(jù)脫敏系統(tǒng)2020數(shù)據(jù)安全監(jiān)測與審計系統(tǒng)行為基線和用戶畫像系統(tǒng)數(shù)據(jù)追蹤溯源系統(tǒng)數(shù)據(jù)出口管控系統(tǒng)平臺統(tǒng)一訪問控制和
8、審計系統(tǒng)數(shù)據(jù)資產(chǎn)管理平臺關鍵挑戰(zhàn)#2 實踐數(shù)據(jù)平臺治理管控數(shù)據(jù)采集數(shù)據(jù)倉庫數(shù)據(jù)集市B域數(shù)據(jù)數(shù)據(jù)采集交換數(shù)據(jù)源DM 全 流 程數(shù) 據(jù) 治理體 系數(shù)據(jù)標準接口文件規(guī)范接口數(shù)據(jù)模型倉庫數(shù)據(jù)模型數(shù)據(jù)集市模型數(shù)據(jù)質(zhì)量編碼管理工單處理數(shù)據(jù)源編碼映射申請工單生成數(shù)據(jù)源側(cè)自檢文件稽核、記錄稽核分層數(shù)據(jù)稽核發(fā)布數(shù)據(jù)稽核全域關鍵數(shù)據(jù)抽樣質(zhì)量稽核數(shù)據(jù)元管理、標準業(yè)務術(shù)語、統(tǒng)一命名規(guī)范數(shù)據(jù)應用ELS數(shù)據(jù) 服務T倉庫編碼統(tǒng)一編碼更新發(fā)布S數(shù) 據(jù) 流 向數(shù)據(jù)調(diào)度文件偵測倉庫數(shù)據(jù)加工流程調(diào)度集市流程調(diào)度采集流程調(diào)度應用發(fā)布控制編碼稽核數(shù)據(jù)稽核流程調(diào)度申請工單處理問題工單處理處理結(jié)果反饋元數(shù)據(jù)設備信息硬件信息指標標準接口規(guī)范
9、倉庫劃分實體對象業(yè)務管理編碼標準O域數(shù)據(jù)T數(shù)據(jù)資產(chǎn)管理平臺關鍵挑戰(zhàn)#3 探索數(shù)據(jù)資產(chǎn)運營體系用戶畫像 標簽體系 推薦系統(tǒng)能力開放平 臺運營BI報表大數(shù)據(jù)產(chǎn)品數(shù)盾風控數(shù)贏洞察旅游大數(shù)據(jù)數(shù)睿廣告智慧足跡能力開放平臺2020Contents背景概述 (06P)01關鍵挑戰(zhàn) (04P)02詳細介紹 (23P)03整體總結(jié) (01P)04目 錄2020數(shù)據(jù)資產(chǎn)管理平臺基本概述定位與目標:基于數(shù)據(jù)驅(qū)動的理念,讓數(shù)據(jù)資產(chǎn)開發(fā)、運維、治理、運營過程更安全、敏捷、 精益、自動化、服務化和智能化。借鑒DevOps持續(xù)集成與交付方法論,建立數(shù) 據(jù)治理基礎框架,實現(xiàn)數(shù)據(jù)采集、加工、運維、 服務過程一站式、體系化、規(guī)范
10、化、透明化的 流水線管理模式,消除數(shù)據(jù)生命周期管理、數(shù) 據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等方面的隱患?;诖髷?shù)據(jù)集群健康評分機制,實現(xiàn)數(shù)據(jù)平 臺降本增效,從數(shù)據(jù)計算、存儲、調(diào)度、分析 挖掘等各個方面分析程序效能、數(shù)據(jù)資源冗余 畫像,確保數(shù)據(jù)平臺、模型和應用的快速部署 與開發(fā),整合各類數(shù)據(jù)處理框架,為上層數(shù)據(jù) 分析和智能化應用提供高效的算力和算法支持。實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務,建立數(shù)據(jù)資產(chǎn)運營體系, 讓數(shù)據(jù)資產(chǎn)開發(fā)、運維、治理、能力開放運營 過程更加安全、敏捷、精益、服務化和智能化。2020模塊1:數(shù)據(jù)集成平臺功能需求核心模塊1:數(shù)據(jù)采集交換平臺核心模塊2:數(shù)據(jù)工作流程調(diào)度核心模塊3:數(shù)據(jù)應用代理程序定位與目標
11、:把企業(yè)內(nèi)外部數(shù)據(jù)快速整合到一起,提供大數(shù)據(jù)平臺與生產(chǎn)應用系統(tǒng)的雙向通信 能力,方便構(gòu)建數(shù)據(jù)開發(fā)、運維、治理、運 營閉環(huán)系統(tǒng)。2020模塊1:數(shù)據(jù)集成平臺產(chǎn)品設計基于運營商領域多年數(shù)據(jù)平臺建設經(jīng)驗圖形化的數(shù)據(jù)流設計器可視化數(shù)據(jù)轉(zhuǎn)換功能跨地域多源異構(gòu)數(shù)據(jù)集成跨系統(tǒng)跨平臺統(tǒng)一調(diào)度自動化任務調(diào)度機制節(jié)點級全方位實時監(jiān)控2020模塊1:數(shù)據(jù)集成平臺研發(fā)實踐高度分散的異構(gòu)的數(shù)據(jù)源數(shù)據(jù)大量分散在企業(yè)的不同業(yè)務系統(tǒng)、數(shù)據(jù)庫、甚至企業(yè)外部的第三方系統(tǒng)中; 數(shù)據(jù)源類型、結(jié)構(gòu)、模式不盡相同,必 須經(jīng)過采集、清洗與標準化才能進入數(shù)據(jù)倉庫。開發(fā)腳本的復雜性(如接口機+Shell模式)數(shù)據(jù)加工過程一般通過執(zhí)行復雜冗長晦
12、澀的腳本來完成, 要求開發(fā)人員必須有較高的專業(yè)技能;數(shù)據(jù)加工過程的邏輯錯誤、語法錯誤也不容易捕捉;集群作業(yè)提交參數(shù)的合理性問題。ETL調(diào)度流程編排問題(運營商VS 互聯(lián)網(wǎng))數(shù)據(jù)處理的流程大量依賴各種腳本程序,難以理解與修改 維護;數(shù)據(jù)處理流程經(jīng)常無法復用,缺乏統(tǒng)一管理;因為數(shù)據(jù)斷傳、漏傳、補傳造成的數(shù)據(jù)重跑問題突出。飛速增長的數(shù)據(jù)量和非結(jié)構(gòu)化數(shù)據(jù)類型隨著5G+物聯(lián)網(wǎng)場景超大規(guī)模數(shù)據(jù)的輸入;數(shù)據(jù)持續(xù)不斷的到達,數(shù)據(jù)集成應當具備PB級實時或準實時數(shù)據(jù)處理能力; 需要支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等不同數(shù)據(jù)類型。易用性 VS 功能完備性穩(wěn)定性 與 兼容性數(shù)據(jù)平臺的基礎模塊產(chǎn)品設計技術(shù)研發(fā)運營實踐20
13、20模塊2:數(shù)據(jù)開發(fā)平臺功能需求核心模塊1:數(shù)據(jù)加工模型設計2020核心模塊2:數(shù)據(jù)腳本過程管理核心模塊3:數(shù)據(jù)生命周期管理定位與目標:支撐數(shù)據(jù)模型設計、數(shù)據(jù)加工腳本標準化,實現(xiàn)開發(fā)、測試、上 線過程自動化,保障數(shù)據(jù)模型與生 命周期管理標準落地。模塊2:數(shù)據(jù)開發(fā)平臺產(chǎn)品設計標準化腳本模版規(guī)則基于企業(yè)數(shù)據(jù)治理標準化需求,形成數(shù)據(jù)加工腳本從生成、測試、審批、到部署的全流程管控統(tǒng)一的腳本執(zhí)行機器管控開發(fā)腳本標準化創(chuàng)建腳本運行測試自動化部署上線審批環(huán)節(jié)2020模塊2:數(shù)據(jù)開發(fā)平臺運營實踐數(shù)據(jù)開發(fā)平臺與數(shù)據(jù)治理(從源頭治理)數(shù)據(jù)開發(fā)平臺支撐數(shù)據(jù)治理文化落地,數(shù)據(jù)治理過程強調(diào) 組織、文化、工具、流程的全方
14、位協(xié)同,數(shù)據(jù)開發(fā)平臺僅僅是數(shù)據(jù)治理工具體系的一部分。產(chǎn)線環(huán)境安全與便捷實用性的博弈(安全)為了保障產(chǎn)線環(huán)境下數(shù)據(jù)加工腳本執(zhí)行的安全性,平臺需要覆蓋腳本模板配置、腳本創(chuàng)建、審核、測試、部署上線的完整 流程,整體使用復雜度相對提升,需要配套的運營流程。IT墻、組織墻問題(推廣成本)數(shù)據(jù)開發(fā)平臺研發(fā)背景往往跟生產(chǎn)環(huán)境實際痛點相關,涉 及組織較多,在向其他部門或項目組推廣時,因不同組織績效目標差異,通常會遇到不同程度的IT墻和部門組織墻問題。從腳本標準化自動化到在線IDE(一體化)企業(yè)各開發(fā)團隊的技術(shù)棧和開發(fā)習慣差異較大;平臺腳本模板很難兼容所有團隊的靈活需求;在線IDE需兼顧數(shù)據(jù)治理 標準落地和個性
15、化需求開發(fā)的要求。產(chǎn)品設計技術(shù)研發(fā)運營實踐2020模塊3:元數(shù)據(jù)管理平臺功能需求核心模塊1:元數(shù)據(jù)采集核心模塊2:元數(shù)據(jù)分析核心模塊3:元數(shù)據(jù)應用定位與目標:基于技術(shù)元數(shù)據(jù)、業(yè)務元數(shù)據(jù)和管理元數(shù)據(jù)的采集與分析, 實現(xiàn)數(shù)據(jù)血緣、影響分析和全鏈 分析,解決企業(yè)內(nèi)部數(shù)據(jù)資產(chǎn)統(tǒng) 一盤點和運營問題。2020模塊3:元數(shù)據(jù)管理平臺產(chǎn)品設計資產(chǎn)發(fā)布元數(shù)據(jù)管理功能規(guī)劃和原則、元數(shù)據(jù)管理的統(tǒng)一方法多種數(shù)據(jù)源管控元數(shù)據(jù)變更稽核數(shù)據(jù)血緣數(shù)據(jù)地圖元數(shù)據(jù)獲取2020模塊3:元數(shù)據(jù)管理平臺運營實踐多種元數(shù)據(jù)采集方案的抉擇(MetadataAPI&公有云平臺的坑)針對不同數(shù)據(jù)源/集群的采集有多種方案,站在交付目標、無侵入性
16、的角度考慮,綜合權(quán)衡好安全性、性能和擴展性要求。元數(shù)據(jù)管理應用作為內(nèi)部 推廣抓手(價值驅(qū)動)從數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)視圖、元數(shù)據(jù)檢索、元數(shù)據(jù)稽核、數(shù)據(jù)地圖、數(shù)據(jù)血緣、影響分析、全鏈分析、活性分析、數(shù)據(jù)價 值圖譜等應用方向?qū)ふ覂?nèi)部推廣應用的突破口。數(shù)據(jù)血緣分析準確性、完整性、實用性由于企業(yè)數(shù)倉存儲介質(zhì)、加工方式、調(diào)度手段多樣,在采集多種元數(shù)據(jù)后,整合血緣分析的困難度較高,建議定向?qū)χ付▓鼍斑M行血緣分析。(HiveHBase: 跨庫跨集群跨源全鏈 路端到端分析)元數(shù)據(jù)稽核與數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量協(xié)同元模型管理、元數(shù)據(jù)屬性填充率、貫標落地統(tǒng)計、生產(chǎn)環(huán)境最新版本與資產(chǎn)管理平臺、測試環(huán)境雙向稽核。(業(yè)務&IT協(xié)
17、同:自治文化)產(chǎn)品設計技術(shù)研發(fā)運營實踐2020模塊4:數(shù)據(jù)質(zhì)量平臺功能需求核心模塊1:數(shù)據(jù)源、數(shù)據(jù)對象、元數(shù)據(jù)分類管理核心模塊2:數(shù)據(jù)質(zhì)量檢測模型、方案、規(guī)則管理核心模塊3:數(shù)據(jù)質(zhì)檢任務調(diào)度、報告、流程管理定位與目標:針對數(shù)據(jù)進行稽核來確保數(shù)據(jù)的質(zhì)量,覆蓋及時性、完整性、準確性、一致性、唯一性 及合理性等,及各系統(tǒng)之間數(shù)據(jù)的統(tǒng)一性。建 立標準化度量系統(tǒng),方便系統(tǒng)性改進質(zhì)量問題。2020模塊4:數(shù)據(jù)質(zhì)量平臺產(chǎn)品設計跨地域多源異構(gòu)數(shù)據(jù)集成數(shù)據(jù)質(zhì)量方案管理數(shù)據(jù)質(zhì)量規(guī)則管理數(shù)據(jù)質(zhì)量模型管理數(shù)據(jù)源質(zhì)檢對象管理數(shù)據(jù)質(zhì)檢SQL看板數(shù)據(jù)質(zhì)量任務調(diào)度管理2020模塊4:數(shù)據(jù)質(zhì)量平臺運營實踐數(shù)據(jù)質(zhì)量稽核投入產(chǎn)出比
18、問題(性能和成本)當關鍵業(yè)務域數(shù)據(jù)體量太大(如每日新增超過百TB)、集群 規(guī)模較大(無法建立對等測試環(huán)境),總體質(zhì)量稽核成本過高。(通用SQL稽核方式帶來的資源浪費和性能問題)數(shù)據(jù)質(zhì)量報告的問題 (項目交付)常態(tài)化的質(zhì)量稽核統(tǒng)計報表,無法給非技術(shù)口領導層直觀 的呈現(xiàn),需要結(jié)合業(yè)務領域知識和組織結(jié)構(gòu)做進一步封裝。數(shù)據(jù)稽核對象和策略的選擇針對省分不同賬期不同主題域數(shù)據(jù),如何根據(jù)業(yè)務要求和 實時流代碼埋點處理流程進行抽樣,選擇性做質(zhì)量稽核?優(yōu)先 解決采集鏈路質(zhì)量監(jiān)控、數(shù)據(jù)斷傳補傳漏傳、波動性監(jiān)測等基 礎層稽核問題。然后解決業(yè)務層稽核問題。(數(shù)倉開發(fā)、數(shù)據(jù)應用業(yè)務沖突)與元數(shù)據(jù)、數(shù)據(jù)標準、調(diào)度系統(tǒng)協(xié)同
19、數(shù)據(jù)源目錄分類和質(zhì)檢對象來源于元數(shù)據(jù)系統(tǒng),數(shù)據(jù)表模 型質(zhì)檢要求來自于數(shù)據(jù)標準系統(tǒng),數(shù)據(jù)質(zhì)量任務執(zhí)行通常要跟 工作流調(diào)度系統(tǒng)對接。產(chǎn)品設計技術(shù)研發(fā)運營實踐2020模塊5:數(shù)據(jù)標準平臺功能需求核心模塊1:數(shù)據(jù)元、代碼集、標準術(shù)語管理核心模塊2:數(shù)據(jù)標準分類檢索、實施流程管理核心模塊3:數(shù)倉建模管理(邏輯模型設計與物化)定位與目標:數(shù)據(jù)標準是大數(shù)據(jù)治理生態(tài)中重要的一環(huán),與數(shù)據(jù)過程管理、元數(shù)據(jù)管理、質(zhì)量管理等模塊 進行協(xié)作,組成完整工具集,促進公司、組織內(nèi) 數(shù)據(jù)處理、交換相關流程、功能的標準化,有效 提高數(shù)倉平臺建設和數(shù)據(jù)管理的質(zhì)量和效率,加 速數(shù)據(jù)流轉(zhuǎn),從而促進業(yè)務創(chuàng)新。2020模塊5:數(shù)據(jù)標準平臺
20、產(chǎn)品設計跨地域多源異構(gòu)數(shù)據(jù)集成數(shù)據(jù)標準化構(gòu)成數(shù)據(jù)命名標準數(shù)據(jù)模型標準數(shù)倉邏輯模型設計與物化模型在線編輯數(shù)據(jù)標準導入2020模塊5:數(shù)據(jù)標準平臺運營實踐數(shù)據(jù)標準分類管理問題國家標準、行業(yè)標準、企業(yè)標準同時管理成本較大,其實 踐層面的指導意義待深入探索研究和試錯。數(shù)據(jù)標準的內(nèi)部推廣應用問題數(shù)據(jù)標準管理工具在內(nèi)部推廣應用的實際困難往往會超出 預期,需要持續(xù)迭代,離不開一把手的支持和長期的努力。數(shù)據(jù)標準制定相關的業(yè)務梳理工作數(shù)據(jù)標準的制定往往依賴于領域業(yè)務能手、IT架構(gòu)專家等 組織團隊的通力協(xié)作,相關的業(yè)務梳理工作工程量很大。基于數(shù)據(jù)標準做數(shù)倉全局規(guī)劃和落地(一體化設計)主要是從邏輯模型設計和物化入手
21、,逐漸完善數(shù)據(jù)倉庫分 層分域、數(shù)據(jù)質(zhì)量、數(shù)據(jù)指標標準等數(shù)據(jù)架構(gòu)規(guī)范的落地。(大規(guī)模數(shù)據(jù)平臺匹配度較低,適合推到重來)產(chǎn)品設計技術(shù)研發(fā)運營實踐2020模塊6:集群治理平臺功能需求核心模塊1:集群治理數(shù)據(jù)采集2020核心模塊2:集群治理分析引擎核心模塊3:集群治理平臺應用定位與目標:基于Hadoop集群底層組件運行機制和大數(shù)據(jù)開發(fā)運維等組織活動進行多維交叉洞察,以降本 增效為中心,向下保障大規(guī)模Hadoop集群算力, 向上指導數(shù)據(jù)治理動作實施和業(yè)務連續(xù)性。模塊6:集群治理平臺技術(shù)架構(gòu)38自底向上,用大數(shù)據(jù)的技術(shù)手段解決大規(guī)模數(shù)據(jù)集群治理層面的各種問題設計原則統(tǒng)一實時、離線元數(shù)據(jù)自動化采集 多種元數(shù)
22、據(jù)數(shù)據(jù)源,研發(fā)可配置式支持 不同引擎作業(yè)元數(shù)據(jù)采集、審計日志采 集、變更日志采集、分布式存儲元數(shù)據(jù) 采集、Hive元數(shù)據(jù)采集等統(tǒng)一采集工具統(tǒng)一離線、流式分布式計算引擎 采用業(yè)界成熟的分布式實時、離線數(shù)據(jù) 處理引擎,保證高吞吐、低延遲、高性 能數(shù)據(jù)處理融合多種存儲服務滿足各種場景 采用高可用分布式多種存儲系統(tǒng),分布 式列數(shù)據(jù)庫存儲、分布式搜索引擎、高 可用圖數(shù)據(jù)庫、高并發(fā)時序數(shù)據(jù)庫無侵入性2020實時審計模塊6:集群治理平臺產(chǎn)品設計用戶行為告警冗余計算挖掘待優(yōu)化作業(yè)定位待優(yōu)化作業(yè)排行數(shù)據(jù)血緣分析集群資源畫像數(shù)據(jù)作業(yè)畫像HDFS文件畫像大數(shù)據(jù)集群治理平臺針對大數(shù)據(jù)集群和數(shù)據(jù)加工流程進行精細化監(jiān)控分
23、析,從資源畫像、存儲畫像、作業(yè)畫像、RPC畫像、冗余計算挖掘、數(shù)據(jù)血緣分 析、用戶行為告警八大維度幾十個小維度交叉洞察可優(yōu)化作業(yè)和業(yè)務處理流程,不斷驅(qū)動集群資源優(yōu)化。2020模塊6:集群治理平臺運營實踐優(yōu)化前集群負載(201X年7月)優(yōu)化后集群負載(201X年3月)公司業(yè)務高速發(fā)展過程中數(shù)據(jù)業(yè)務需求越來越復雜,所需要的算力也越來 越大,進一步導致集群的規(guī)模越來越大,承擔的產(chǎn)品也越來越多,集群面 臨資源負載過高、資源搶占嚴重、RPC請求負載過高等問題,存儲系統(tǒng)也 面臨空文件過多、垃圾文件過多、小文件過多、平均文件大小過小、文件 數(shù)持續(xù)增長等一系列問題,存儲系統(tǒng)穩(wěn)定性面臨很大隱患,作業(yè)又面臨執(zhí) 行
24、耗時過長、耗資源大、數(shù)據(jù)傾斜嚴重等問題,直接導致數(shù)據(jù)加工異常率 過高、數(shù)據(jù)具備時間有延遲風險、產(chǎn)品交付面臨很多風險。面臨的挑戰(zhàn)大數(shù)據(jù)分析方法價值創(chuàng)新場景描述實際應用效果存儲 畫像資源 畫像作業(yè) 畫像HDFS文件存儲洞察開發(fā)NameNode 元數(shù)據(jù)持久化文件 Fsimage和元數(shù)據(jù)操作 文件記錄文件EditLog 的反序列化解析項目, 無侵入性洞察全集群, 冷溫熱存儲狀態(tài),千萬 級目錄精細畫像。Job數(shù)據(jù) 作業(yè)洞察實現(xiàn)資源監(jiān)控與異常 作業(yè)多維度洞察、高效協(xié) 同優(yōu)化。綜合幾十個小維 度進行集群交叉治理并協(xié) 同各相關組織進行全域治 理,使集群逐步向良性健 康方向發(fā)展。冗余計算 挖掘分析通 過 對 H
25、DFS JOB BINARY FILE分析,定位疑 似冗余計算作業(yè),與組織 架構(gòu)復雜度無關、不依賴 上層業(yè)務的大量輸入,其 核心提取出具有相同輸入 路徑的作業(yè),以目錄維度 視角挖掘作業(yè)。核心技術(shù)框架集群健康分2020 精準洞察:能夠精準定位問題根因,提升優(yōu)化效率數(shù)據(jù)準確:從底層采集強關系元數(shù)據(jù)以及日志,數(shù)據(jù)準確度高無侵入性:優(yōu)化洞察不需要修改產(chǎn)線環(huán)境配置,不影響產(chǎn)線環(huán)境生產(chǎn) 多維畫像:從多個大維度幾十小維度交叉洞察潛在問題與可優(yōu)化方向 深入內(nèi)核:通過閱讀內(nèi)核源碼深入了解底層組件,找到解決方案跨組協(xié)同:根據(jù)洞察報告多組協(xié)同自發(fā)優(yōu)化實現(xiàn)了在算力不增加,數(shù)據(jù)處理量翻倍的情況下,算力整體負 載下降20
26、%以上,每年直接節(jié)省固定資產(chǎn)投資上千萬元成本。先后解決集群小文件治理、作業(yè)模型高級參數(shù)自動化、數(shù)據(jù)模 型治理專題優(yōu)化等難題,并形成了集群深度治理平臺化能力。模塊7:數(shù)據(jù)服務平臺功能需求核心模塊1:云計算資源池核心模塊2:數(shù)據(jù)能力商店核心模塊3:多租戶控制臺定位與目標:以生產(chǎn)環(huán)境的運營支撐和應用開發(fā)為主要IT 訴求,構(gòu)建IaaS、PaaS、SaaS三層私有云體系,提供可復用、可隔離的存儲計算資源、數(shù)據(jù)資源、 開發(fā)組件資源,同時保證多租戶安全隔離,方便 數(shù)據(jù)資源開放共享和數(shù)據(jù)資產(chǎn)運營。2020模塊7:數(shù)據(jù)服務平臺產(chǎn)品設計統(tǒng)一能力開放云數(shù)據(jù)服務平臺各項業(yè)務功能,為租戶提供基礎設施、云數(shù)據(jù)庫、計算框架
27、、數(shù)據(jù)指令平臺、應用與服務、安全控制等產(chǎn)品的統(tǒng)一瀏覽、申請、劃配,并對租戶使用的產(chǎn)品和運營進行統(tǒng)一管理??绲赜蚨嘣串悩?gòu)數(shù)據(jù)集成圖形化的數(shù)據(jù)管控套件自助式可視化建模平臺數(shù)據(jù)服務API管理統(tǒng)一的計費報表管理數(shù)據(jù)服務門戶系統(tǒng)BI自助分析工具2020模塊7:數(shù)據(jù)服務平臺運營實踐能力開放平臺向租戶提供資源、數(shù)據(jù)以及服務,為租戶方便有效的使用平臺環(huán)境保駕護航。租戶基于能力開放平臺獲取全國樣例數(shù)據(jù),可結(jié)合本地數(shù)據(jù)進行模型訓練,訓練后的腳本提交平臺反饋至 大數(shù)據(jù)生產(chǎn)服務平臺進行加工計算,計算后的結(jié)果推 送至租戶空間,滿足租戶基于全國數(shù)據(jù)的分析挖掘。2020數(shù)據(jù)資產(chǎn)運營=數(shù)據(jù)能力開放+數(shù)據(jù)生態(tài)合作Contents背景概述 (06P)01關鍵挑戰(zhàn) (04P)02詳細介紹 (23P)03整體總結(jié) (01P)04目 錄2020數(shù)據(jù)治理/數(shù)據(jù)資產(chǎn)管理失敗的5個主要原因:在認知戰(zhàn)略層面,沒有真正上升到數(shù)據(jù)戰(zhàn)略層面,沒有一把手牽頭去規(guī)劃和執(zhí)行,在中途放棄了很多目標。在組織協(xié)同層面,沒有建立起高效的數(shù)據(jù)組織協(xié)同機制,沒有形成合力,互相推諉扯皮,組織墻問題突出。在文化價值層面,沒有形成精益實用的數(shù)據(jù)驅(qū)動文化,大量歷史習慣阻礙了文化的落地,無法突破舒適圈。在人才體系層面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度浙江省二級造價工程師之建設工程造價管理基礎知識題庫綜合試卷B卷附答案
- 2024年度浙江省二級造價工程師之安裝工程建設工程計量與計價實務強化訓練試卷B卷附答案
- 主動脈夾層疑難病例討論
- 客船船員特殊培訓
- DB43-T 2865-2023 雙纖維瀝青混合料設計與施工技術(shù)規(guī)程
- 閱讀區(qū)主題活動策劃與實施
- 職高學生心理健康與情緒管理
- 部編版語文七下《驛路梨花》教學設計
- 中考化學測試題及答案
- 園本文化培訓
- 110kv油浸電力變壓器基礎知識介紹
- 8.3平面及其方程教案
- 礦山開采承包合同參考
- GA∕T 743-2016 閃光警告信號燈
- 亳州基準地價成果資料
- 《體操—隊形隊列》單元教學計劃和教案
- 二年級《時間單位換算口算題(共100道)》專題練習訓練
- 空壓機保修手冊
- 工業(yè)機器人編程與實操期末精彩試題
- 管片破損修補及接縫滲漏水防治施工方案
- 《聲音的數(shù)字化》PPT課件.ppt
評論
0/150
提交評論