統(tǒng)一數(shù)據(jù)治理平臺解決方案_第1頁
統(tǒng)一數(shù)據(jù)治理平臺解決方案_第2頁
統(tǒng)一數(shù)據(jù)治理平臺解決方案_第3頁
統(tǒng)一數(shù)據(jù)治理平臺解決方案_第4頁
統(tǒng)一數(shù)據(jù)治理平臺解決方案_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)一數(shù)據(jù)治理平臺解決方案1大數(shù)據(jù)的挑戰(zhàn)2數(shù)據(jù)平臺的建設(shè)3總結(jié)及展望目錄CONTENTS1大數(shù)據(jù)的挑戰(zhàn)2數(shù)據(jù)平臺的建設(shè)3總結(jié)及展望目錄CONTENTS大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)帶來的信息風(fēng)暴正在 變革我們的生活、工作和思 維,大數(shù)據(jù)開啟了一次重大 的時代轉(zhuǎn)型-維克托邁爾舍恩伯格大數(shù)據(jù)的挑戰(zhàn)VolumePB級別數(shù)據(jù)量、 T級別日增長量、 龐大的集群 節(jié)點Velocity毫秒級別實時查詢、秒級別離線處理、時效性強(qiáng)Variety用戶數(shù)據(jù)、運(yùn)營數(shù)據(jù)、系統(tǒng)日志Value精細(xì)化運(yùn)營、精準(zhǔn)化決策、規(guī)范化運(yùn)維、提升客戶滿意度和質(zhì)量P級別運(yùn)營數(shù)據(jù)T級別物料數(shù)據(jù)P級別系統(tǒng)日志提升客戶滿意度精細(xì)化運(yùn)營系統(tǒng)穩(wěn)定性和安全性優(yōu)化業(yè)

2、務(wù)流程增強(qiáng)業(yè)務(wù)決策能力數(shù)據(jù)孤島現(xiàn)象嚴(yán)重數(shù)據(jù)格式參差不齊數(shù)據(jù)分析時效性弱數(shù)據(jù)安全無法保證數(shù)據(jù)使用成本過高痛點大數(shù)據(jù)的挑戰(zhàn)1大數(shù)據(jù)的挑戰(zhàn)2數(shù)據(jù)平臺的建設(shè)3總結(jié)及展望目錄CONTENTS平臺架構(gòu)痛點數(shù)據(jù)孤島現(xiàn)象嚴(yán)重數(shù)據(jù)質(zhì)量參差不齊數(shù)據(jù)分析時效性不強(qiáng)數(shù)據(jù)安全無法保證數(shù)據(jù)使用成本過高解決思路統(tǒng)一數(shù)據(jù)接入存儲數(shù)據(jù)校驗&格式轉(zhuǎn)換實時分析&離線分析數(shù)據(jù)治理&權(quán)限控制OLAP查詢?nèi)罩緮?shù)據(jù)用戶數(shù)據(jù)運(yùn)營數(shù)據(jù)其他數(shù)據(jù)實時數(shù)據(jù)采集離線數(shù)據(jù)采集數(shù)據(jù)處理HBaseHDFS實時計算 任務(wù)離線計算 任務(wù)任務(wù) 調(diào)度即席查詢文件接口數(shù)據(jù)庫平 臺 運(yùn) 行 監(jiān) 控可視化展現(xiàn)訪 問 層計 算 層存 儲 層采 集 層源 數(shù) 據(jù) 層處 理

3、層自助查詢實時分 析任務(wù) 管理一體化 管理數(shù)據(jù)源 管理數(shù)據(jù)接 入管理數(shù)據(jù)源 用戶 管理離線分 析任務(wù) 管理平臺架構(gòu)日志數(shù)據(jù)用戶數(shù)據(jù)運(yùn)營數(shù)據(jù)其他數(shù)據(jù)實時數(shù)據(jù)采集離線數(shù)據(jù)采集數(shù)據(jù)處理HBaseHDFS實時計算 任務(wù)離線計算 任務(wù)任務(wù) 調(diào)度即席查詢文件接口數(shù)據(jù)庫平 臺 運(yùn) 行 監(jiān) 控可視化展現(xiàn)訪 問 層計 算 層存 儲 層采 集 層源 數(shù) 據(jù) 層處 理 層自助查詢實時分 析任務(wù) 管理一體化 管理數(shù)據(jù)源 管理數(shù)據(jù)接 入管理數(shù)據(jù)源 用戶 管理離線分 析任務(wù) 管理數(shù)據(jù)接入數(shù)據(jù)接入面臨的挑戰(zhàn)實時數(shù)據(jù)接入離線數(shù)據(jù)接入數(shù)據(jù)接入優(yōu)化數(shù)據(jù)接入-面臨的挑戰(zhàn)數(shù)據(jù)源類型多種多樣RDBMS、傳統(tǒng)rsync數(shù)據(jù)源、mongo

4、數(shù)據(jù)源等大流量業(yè)務(wù)高峰期每小時產(chǎn)生G級別增量數(shù)據(jù)擁抱變化接入數(shù)據(jù)源越多,數(shù)據(jù)源變化概率就越大離線接入及實時接入業(yè)務(wù)場景對時效性的要求不同,不同類型數(shù)據(jù)有不同計算時效性數(shù)據(jù)接入-實時數(shù)據(jù)接入采集器實時采集數(shù)據(jù)源數(shù)據(jù),通過消息隊列提供給不同消費(fèi)者針對不同的實時數(shù)據(jù)源提供不同Adaptor實時處理1消息隊列數(shù)據(jù)源1Adaptor1數(shù)據(jù)源2Adaptor2數(shù)據(jù)源MAdaptorM實時處理2HDFSHBase實時處理3Mysql數(shù)據(jù)接入-離線數(shù)據(jù)接入大批量且無實時分析場景的數(shù)據(jù)通過離線接入方式接入平臺離線接入通過定時任務(wù)調(diào)度將數(shù)據(jù)源中數(shù)據(jù)匯總到存儲層接入任務(wù)1數(shù)據(jù)源1數(shù)據(jù)源2數(shù)據(jù)源消息隊列HDFSHBa

5、se數(shù)據(jù)源接入層存儲層接入任務(wù)2數(shù)據(jù)源3接入任務(wù)3接入任務(wù)N數(shù)據(jù)接入-數(shù)據(jù)接入優(yōu)化數(shù)據(jù)源及接入任務(wù)增加,帶來的開發(fā)和維護(hù)工作量陡增,且效率不高新增數(shù)據(jù)源需要從采集端到存儲端進(jìn)行定制開發(fā),成本高數(shù)據(jù)源格式或參數(shù)發(fā)生變化需要修改一系列相對應(yīng)的采集器, 不易維護(hù)為此我們設(shè)計出數(shù)據(jù)接入流程,抽取接入配置模板數(shù)據(jù)接入-實時接入優(yōu)化實時處理1消息隊列數(shù)據(jù)源源1Adaptor1數(shù)據(jù)源源2Adaptor2數(shù)據(jù)源源MAdaptorM實時處理2HDFSHBase實時處理3Mysql數(shù)據(jù)源1-1Channel1Channel2ChannelM實時處理1消息隊列數(shù)據(jù)源2-1數(shù)據(jù)源M-1實時處理2HDFSHBase實時

6、處理3Mysql數(shù)據(jù)源1-2數(shù)據(jù)源2-2數(shù)據(jù)源M-2數(shù)據(jù)接入-離線接入優(yōu)化接入任務(wù)1數(shù)據(jù)源1數(shù)據(jù)源2數(shù)據(jù)源消息隊列HDFSHBase數(shù)據(jù)源接入層存儲層接入任務(wù)2數(shù)據(jù)源3接入任務(wù)3接入任務(wù)NImporter1數(shù)據(jù)源1-1消息隊列HDFSHBase數(shù)據(jù)源接入層存儲層Importer2ImporterM任務(wù) 調(diào)度數(shù)據(jù)源1-2數(shù)據(jù)源2-1數(shù)據(jù)源2-2數(shù)據(jù)源M-1數(shù)據(jù)源M-2數(shù)據(jù)接入-優(yōu)化收益新增接入需求只需通過界面配置相關(guān)數(shù)據(jù)源參數(shù)及目標(biāo)存儲參數(shù)即可數(shù)據(jù)源參數(shù)發(fā)生修改只需要調(diào)整數(shù)據(jù)源參數(shù),無需修改代碼, 一處修改,所有生效數(shù)據(jù)源維護(hù)交給運(yùn)維負(fù)責(zé),RD專注于業(yè)務(wù)邏輯開發(fā)平臺已接入數(shù)據(jù)一目了然,避免重復(fù)接

7、入存儲計算日志數(shù)據(jù)用戶數(shù)據(jù)運(yùn)營數(shù)據(jù)其他數(shù)據(jù)實時數(shù)據(jù)采集離線數(shù)據(jù)采集數(shù)據(jù)處理HBaseHDFS實時計算 任務(wù)離線計算 任務(wù)任務(wù) 調(diào)度即席查詢文件接口數(shù)據(jù)庫平 臺 運(yùn) 行 監(jiān) 控可視化展現(xiàn)訪 問 層計 算 層存 儲 層采 集 層源 數(shù) 據(jù) 層處 理 層自助查詢實時分 析任務(wù) 管理一體化 管理數(shù)據(jù)源 管理數(shù)據(jù)接 入管理數(shù)據(jù)源 用戶 管理離線分 析任務(wù) 管理存儲計算面臨的挑戰(zhàn)數(shù)據(jù)倉庫ETL計算任務(wù)調(diào)度存儲計算-面臨的挑戰(zhàn)數(shù)據(jù)治理不同用戶、不同用途的數(shù)據(jù)進(jìn)行隔離,防止多個用戶冗余存儲,數(shù)據(jù)安全等計算任務(wù)多業(yè)務(wù)快速發(fā)展導(dǎo)致計算任務(wù)也快速增加,并發(fā)任務(wù)多造成資源利用不均勻故障評估與故障恢復(fù)一旦某個數(shù)據(jù)出現(xiàn)問

8、題,需要快速評估影響面及快速恢復(fù)數(shù)據(jù)依賴及計算任務(wù)依賴由于計算任務(wù)所使用的數(shù)據(jù)存在依賴關(guān)系,導(dǎo)致了計算任務(wù)之間存在復(fù)雜的依賴關(guān)系存儲計算-數(shù)據(jù)倉庫使用數(shù)據(jù)倉庫理念梳理數(shù)據(jù)不同應(yīng)用場景采用不同存儲方式控制數(shù)據(jù)讀寫權(quán)限保護(hù)數(shù)據(jù)安全提供多種元數(shù)據(jù)查詢界面ori_table1ori_table2ori_tableMODSfact_table1fact_table2fact_tableMdim_table1dim_table2dim_tableM衍生擴(kuò)展 DW聚合抽取HDFS/Hive/HBase使用場景存儲策略離線統(tǒng)計Hive分區(qū)表詳情查詢HBase表文件存儲HDFS存儲存儲計算-數(shù)據(jù)倉庫存儲計算-血

9、緣關(guān)系快速定位數(shù)據(jù)影響,減少依賴路徑基于ETL任務(wù)抽取血緣關(guān)系存儲計算-ETL計算涉及到數(shù)據(jù)接入后及業(yè)務(wù)統(tǒng)計等多個場景包括抽取、轉(zhuǎn)換、加載等多個動作公共ETL計算統(tǒng)一編碼方式、數(shù)據(jù)格式轉(zhuǎn)換業(yè)務(wù)ETL計算產(chǎn)生維度表、計算業(yè)務(wù)指標(biāo)ETL結(jié)果一致性保證統(tǒng)計口徑規(guī)范化、核對同一口徑下產(chǎn)出數(shù)據(jù)ETL計算優(yōu)化存儲計算-ETL計算ETL計算優(yōu)化建立數(shù)據(jù)處理工作流,抽取公共計算邏輯配置ETL元數(shù)據(jù)及任務(wù)依賴關(guān)系,抽取數(shù)據(jù)血緣關(guān)系Data SourceImporter2Result1ETL2Result2ResultNImporter1ETL1ImporterNETLNData SourceImporterET

10、L1Result1ETL2Result2ETLNResultNCommon ETLCommon Data Source存儲計算-ETL計算元數(shù)據(jù)配置結(jié)果校驗inputoutputprepareetlcleanETLmetadataauthorvalidatedata1data2preparepreparediffcheck if emptyValidate存儲計算-任務(wù)調(diào)度平臺化多任務(wù)依賴可擴(kuò)展性穩(wěn)定性支持多業(yè)務(wù)支持多個前管理節(jié)點、管理節(jié)點、線任務(wù)統(tǒng)一驅(qū)任務(wù)或后調(diào)度節(jié)點、調(diào)度節(jié)點、管理與調(diào)度提升任務(wù)開 發(fā)效率、運(yùn) 維效率繼任務(wù)支持任務(wù)依 賴執(zhí)行及跟 蹤執(zhí)行節(jié)點可水平擴(kuò)展支持任務(wù)運(yùn) 行類型可擴(kuò)

11、展彈性擴(kuò)展執(zhí)行節(jié)點支持熱備節(jié)點宕機(jī)時 不影響任務(wù) 正常調(diào)度存儲計算-任務(wù)調(diào)度任務(wù)按組劃分每組可有多個任務(wù)節(jié)點任務(wù)并發(fā)限制多個前驅(qū)任務(wù)或后繼任務(wù)任務(wù)運(yùn)行結(jié)束后回調(diào)調(diào)度器調(diào)度器根據(jù)任務(wù)報警配置發(fā)出失敗報警存儲計算-任務(wù)調(diào)度實時查看任務(wù)依賴鏈節(jié)點執(zhí)行狀態(tài)實時查看任務(wù)依賴配置規(guī)則通過任務(wù)依賴聯(lián)調(diào)反推數(shù)據(jù)血緣關(guān)系存儲計算-任務(wù)調(diào)度任務(wù)并發(fā)情況監(jiān)控,方便合理分配資源任務(wù)依賴鏈路執(zhí)行情況跟蹤,方便日志跟蹤和問題快速排查即席查詢?nèi)罩緮?shù)據(jù)用戶數(shù)據(jù)運(yùn)營數(shù)據(jù)其他數(shù)據(jù)實時數(shù)據(jù)采集離線數(shù)據(jù)采集數(shù)據(jù)處理HBaseHDFS實時計算 任務(wù)離線計算 任務(wù)任務(wù) 調(diào)度即席查詢文件接口數(shù)據(jù)庫平 臺 運(yùn) 行 監(jiān) 控可視化展現(xiàn)訪 問 層

12、計 算 層存 儲 層采 集 層源 數(shù) 據(jù) 層處 理 層自助查詢實時分 析任務(wù) 管理一體化 管理數(shù)據(jù)源 管理數(shù)據(jù)接 入管理數(shù)據(jù)源 用戶 管理離線分 析任務(wù) 管理即席查詢面臨的挑戰(zhàn)固定指標(biāo)查詢隨機(jī)指標(biāo)查詢即席查詢-面臨的挑戰(zhàn)快查詢響應(yīng)越 快越好臨時統(tǒng)計指 標(biāo)緊急支持準(zhǔn)同一統(tǒng)計口 徑數(shù)據(jù)保持 一致多個指標(biāo)互 相完備易業(yè)務(wù)使用門 檻低界面操作一 站式即席查詢-固定指標(biāo)查詢報表數(shù)據(jù)大多數(shù)統(tǒng)計維度固定空間換時間,基礎(chǔ)表按固定維度定時匯總統(tǒng)計結(jié)果校驗即席查詢-隨機(jī)指標(biāo)查詢采用Phoenix優(yōu)化HBase查詢支持JDBC方式訪問和SQL標(biāo)準(zhǔn)支持視圖和支持索引協(xié)處理器加速定制優(yōu)化,貢獻(xiàn)多個patch即席查詢-p

13、hoenix優(yōu)化(Join)將原有的Join全局廣播優(yōu)化為只通知Rowkey所在RegionServer減少通信IO時間,提高Join性能right table server2right table server3right table serverNright table server5right table server1left table serverright table server4left table serverright table server1right table server4right table server2right table server3right t

14、able serverNright table server5XXXX即席查詢-phoenix優(yōu)化(聚合)原有的聚合排序全部在客戶端完成,增加客戶端內(nèi)存和CPU負(fù)擔(dān)優(yōu)化為RegionServer先內(nèi)部聚合排序,后客戶端進(jìn)行二次排序Clientregion server1region server4region server2region server3region serverNregion server5Clientregion server1region server4region server2region server3region serverNregion server5數(shù)據(jù)訪問日

15、志數(shù)據(jù)用戶數(shù)據(jù)運(yùn)營數(shù)據(jù)其他數(shù)據(jù)實時數(shù)據(jù)采集離線數(shù)據(jù)采集數(shù)據(jù)處理HBaseHDFS實時計算 任務(wù)離線計算 任務(wù)任務(wù) 調(diào)度即席查詢文件接口數(shù)據(jù)庫平 臺 運(yùn) 行 監(jiān) 控可視化展現(xiàn)訪 問 層計 算 層存 儲 層采 集 層源 數(shù) 據(jù) 層處 理 層自助查詢實時分 析任務(wù) 管理一體化 管理數(shù)據(jù)源 管理數(shù)據(jù)接 入管理數(shù)據(jù)源 用戶 管理離線分 析任務(wù) 管理數(shù)據(jù)訪問可視化展現(xiàn)自助查詢數(shù)據(jù)訪問-可視化展現(xiàn)提供柱圖、餅圖、曲線圖等多種富有表現(xiàn)力展示形式方便平臺使用者將統(tǒng)計結(jié)果一站式轉(zhuǎn)換所見即所得數(shù)據(jù)訪問-自助查詢數(shù)據(jù)訪問-自助查詢平臺監(jiān)控日志數(shù)據(jù)用戶數(shù)據(jù)運(yùn)營數(shù)據(jù)其他數(shù)據(jù)實時數(shù)據(jù)采集離線數(shù)據(jù)采集數(shù)據(jù)處理HBaseHDF

16、S實時計算 任務(wù)離線計算 任務(wù)任務(wù) 調(diào)度即席查詢文件接口數(shù)據(jù)庫平 臺 運(yùn) 行 監(jiān) 控可視化展現(xiàn)訪 問 層計 算 層存 儲 層采 集 層源 數(shù) 據(jù) 層處 理 層自助查詢實時分 析任務(wù) 管理一體化 管理數(shù)據(jù)源 管理數(shù)據(jù)接 入管理數(shù)據(jù)源 用戶 管理離線分 析任務(wù) 管理平臺監(jiān)控集群狀態(tài)監(jiān)控硬盤、內(nèi)存、CPU、網(wǎng)絡(luò)IO、.基礎(chǔ)設(shè)施監(jiān)控Hadoop集群、HBase集群、消息隊列、實時計算引擎、.數(shù)據(jù)接入監(jiān)控數(shù)據(jù)源狀態(tài)、數(shù)據(jù)接入狀態(tài)、接入數(shù)據(jù)波動、.業(yè)務(wù)計算監(jiān)控業(yè)務(wù)計算任務(wù)狀態(tài)、計算結(jié)果一致性、.平臺使用監(jiān)控基礎(chǔ)數(shù)據(jù)使用頻度、業(yè)務(wù)數(shù)據(jù)使用頻度、功能PV、.平臺監(jiān)控監(jiān)控Yarn資源在各個時間段的使用情況監(jiān)控YARN任務(wù)在各個業(yè)務(wù)線的分布情況應(yīng)用案例分布式追蹤,快速定位系統(tǒng)瓶頸和故障微服務(wù)安全監(jiān)控,非法入侵即刻感知及時處理1大數(shù)據(jù)的挑戰(zhàn)2數(shù)據(jù)平臺的建設(shè)3總結(jié)及展望目錄CONTENTS總結(jié)數(shù)據(jù)接入-實時數(shù)據(jù)接入,離線數(shù)據(jù)接入存儲計算-數(shù)據(jù)倉庫,ETL配置,調(diào)度平臺即席查詢-固定指標(biāo)空間換時間,隨機(jī)指標(biāo)借助于phoenix數(shù)據(jù)使用-可視化展現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論