愛奇藝大數(shù)據(jù)OLAP技術(shù)體系演進(jìn)_第1頁
愛奇藝大數(shù)據(jù)OLAP技術(shù)體系演進(jìn)_第2頁
愛奇藝大數(shù)據(jù)OLAP技術(shù)體系演進(jìn)_第3頁
愛奇藝大數(shù)據(jù)OLAP技術(shù)體系演進(jìn)_第4頁
愛奇藝大數(shù)據(jù)OLAP技術(shù)體系演進(jìn)_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)創(chuàng)新,變革未來愛奇藝大數(shù)據(jù) OLAP技術(shù)體系演進(jìn)愛奇藝數(shù)據(jù)現(xiàn)狀移動(dòng)端月活躍用戶數(shù) 5.3 億數(shù)據(jù)來源: Quest Mobile 2020年10月離線:日增 1 PB 以上 實(shí)時(shí):日處理萬億級消息20+ AppsPCMobileTV報(bào)表分析推薦批處理 固定報(bào)表 即席查詢 實(shí)時(shí)更新 時(shí)序分析愛奇藝 OLAP 分析場景HiveImpalaKylinKuduDruid愛奇藝 OLAP 體系A(chǔ)GENDAOLAP 服務(wù)矩陣OLAP 平臺建設(shè)OLAP 服務(wù)治理未來規(guī)劃OLAP 服務(wù)矩陣演變2016 2018多樣化 交互查詢2018 2020實(shí)時(shí)化統(tǒng)一入口12013 2015離線分析 批處理23離線批處

2、理 - HiveHive 挑戰(zhàn)變更難:報(bào)表調(diào)整需開發(fā)擴(kuò)展差:分庫、分表查詢慢:交互查詢需分鐘級時(shí)效差:T+1 數(shù)據(jù)延遲更新弱:不支持更新1+LYH 064/$G KRF4(7/23愛奇藝現(xiàn)狀場景:批處理、備份 查詢:100 K 查詢/天存儲:300 PB優(yōu)點(diǎn):穩(wěn)定、吞吐高批處理正在用 Spark SQL 代替+LYH.OLQ,PSDOD6SDUN64/.XGX Hive實(shí)踐 - 總覽存儲生命周期管理小文件治理存儲格式優(yōu)化元數(shù)據(jù)統(tǒng)一元數(shù)據(jù)水平擴(kuò)展(TiDB)任務(wù)掃描數(shù)據(jù)過大創(chuàng)建文件過快并發(fā)過大組件HiveServer2自愈HiveServer2內(nèi)存 泄露Hive實(shí)踐 - 性能優(yōu)化創(chuàng)建文件過快 -

3、 Scratch目錄切換 背景:NameNode高峰期創(chuàng)建文件壓力大定位:來源50%為/tmp/hive,即Scratch目錄 調(diào)整:將其切換至其他NameSpace效果:高峰期創(chuàng)建文件壓力減半NS01 08點(diǎn)創(chuàng)建操數(shù)路徑修改前修改后/hive/warehouse3.44M3.52M/tmp/hive3.63M0.3MHiveServer2內(nèi)存泄露 背景:HiveServer2頻繁自愈定位:通過內(nèi)存分析定位為ClassLoader泄露 調(diào)整:應(yīng)用相關(guān)Patch效果:不再自愈不再發(fā)生自愈固定報(bào)表場景 - KylinKylin1. 變更容易頁面修改定義自動(dòng)翻譯構(gòu)建計(jì)算快:層級計(jì)算、優(yōu)化擴(kuò)展好:HB

4、ase水平擴(kuò)展Hive變更難手動(dòng)撰寫 SQL需開發(fā)排期計(jì)算慢:重復(fù)計(jì)算擴(kuò)展差:Cube 膨脹場景示例:分析各頁面、城市、平臺組合下的展示量、點(diǎn)擊量+)6+LYH 6SDUN064/64/ 123+)605+%DVH+LYH.OLQKylin 架構(gòu)+LYH5(67 6HUYHU-%&/2%&SQL&XEH05/2/$3 &XEH+%DVHKylin是基于Hadoop針對固定報(bào)表的SQL引擎空間換時(shí)間計(jì)算優(yōu)化示例業(yè)務(wù)變更:頁面拖拽,半小時(shí)完成計(jì)算:耗時(shí)縮短 10 倍,成本省 50% 擴(kuò)展:輸入 4 TB/天,9 維度Kylin - 落地效果公司落地情況業(yè)務(wù):30 余個(gè),BI、推薦、搜索等Cube:

5、386 個(gè)輸入:4 千億行/天最大Cube:2 PB 輸入Cube增量:800 TB/天查詢:6 萬余個(gè)/天耗時(shí):P95 4秒背景:混布 HBase 互相影響,穩(wěn)定差 調(diào)整:獨(dú)立 Kylin HBase,針對性調(diào)優(yōu)寫:僅 Bulkload讀:緩存、線程增大比例協(xié)處理器分裂策略效果:查詢不可用時(shí)間降低至混用 HBase 的 25%Kylin優(yōu)化 - 獨(dú)立HBase.OLQ+%DVH+)6 &XEH.OLQ+%DVH+)6 &XEH$%+%DVH+)6&XEH +)6&XEH %.OLQ$.OLQ場景1:報(bào)表維度靈活 場景2:臨時(shí)排障分析即席查詢場景 - Impala+)6+LYH06TO$G-K

6、RF12痛點(diǎn)擴(kuò)展差查詢慢排障時(shí)提交完 Hive 查詢,喝杯咖啡目標(biāo)引擎需求支持維度多無需預(yù)計(jì)算交互級響應(yīng)能水平擴(kuò)展Impala是構(gòu)建于HDFS之上的 大數(shù)據(jù)分析引擎關(guān)鍵特性常駐進(jìn)程元數(shù)據(jù)緩存無需落盤Impala - 架構(gòu)Impala - 落地+)6+)6.XGX,PSDOD,PSDOD+LYH適用于 Ad-hoc 查詢,介于 MySQL 跟 Hive 之間MySQL:300G,秒級響應(yīng)Hive:TB級別,分鐘級別響應(yīng)Impala:TB級別,秒級響應(yīng)3個(gè)獨(dú)立集群,百萬查詢/天,99%延時(shí)3秒7個(gè)公共集群,30萬查詢/天,99%延時(shí)1分鐘階段1 - 獨(dú)立計(jì)算結(jié)點(diǎn)Impala實(shí)踐 - 公共集群存算分

7、離,PSDODGDUQ+)6+)6,PSDODG 80-maintenance_manager_num_threads 1 - disk-num/3-block_cache_capacity_mb 30分 鐘內(nèi)智能電視實(shí)時(shí)預(yù)警5分鐘實(shí)時(shí)報(bào)警,多維分析追溯根因Druid - 落地愛奇藝落地集群規(guī)模:三百結(jié)點(diǎn)輸入消息:千億消息/天輸出消息:減少10倍 查詢規(guī)模:千萬查詢/天查詢延時(shí):99%延時(shí)1秒內(nèi);決策要素時(shí)效性:天級、小時(shí)、分鐘級查詢延時(shí):離線分析、交互級、線上查詢頻次:用戶發(fā)起,定時(shí)發(fā)起查詢模式:固定查詢、靈活分析寫入模式:批量導(dǎo)入、實(shí)時(shí)更新數(shù)據(jù)規(guī)模:行數(shù)、大小OLAP 產(chǎn)品技術(shù)選型6&$1

8、2/$32/$3.XGX.OLQ,PSDOD+LYH (6SDUN)UXLG 300* 300* 15 064/+%DVHOLAP 平臺建設(shè)統(tǒng)一查詢分析Pilot智能SQL引擎魔鏡即席查詢平臺RAP實(shí)時(shí)分析平臺統(tǒng)一指標(biāo)系統(tǒng)統(tǒng)一SQL引擎 屏蔽底層服務(wù)統(tǒng)一數(shù)據(jù)模型 開發(fā)和查詢統(tǒng)一指標(biāo)口徑SQL化平臺化指標(biāo)化Pilot是一款智能SQL引擎,提供OLAP訪問的 統(tǒng)一入口問題入口眾多:缺乏限制、審計(jì)異常查詢能力開發(fā)低效:重復(fù)開發(fā)HA、降級、監(jiān)控、診 斷等模塊引擎鎖定:Hive MR仍是主流,替換引擎 業(yè)務(wù)代價(jià)大核心功能路由:基于查詢特征(大小、復(fù)雜度)智 能選擇引擎管控:攔截大查詢、緩存重復(fù)查詢、限流

9、 過多查詢審計(jì):記錄所有查詢,提供監(jiān)控、告警優(yōu)化:調(diào)整執(zhí)行參數(shù),透明替換執(zhí)行引擎Pilot -智能SQL引擎Pilot智能SQL引擎查詢 路由權(quán)限 管理限流高可用HiveKylinImpalaDruid數(shù)據(jù)調(diào)度SQLProfilerPilot - 落地效果背景(引擎升級All or nothing)Hive on MR占比大,執(zhí)行慢,耗資源灰度困難:集群粒度業(yè)務(wù)抗拒:需修改線上服務(wù)工作重復(fù):語法修改、參數(shù)調(diào)優(yōu)Pilot(持續(xù)迭代)灰度:業(yè)務(wù)線、任務(wù)級動(dòng)態(tài)控制透明:業(yè)務(wù)無感,雙跑,降級機(jī)制復(fù)用:語法兼容、資源優(yōu)化等工作 Spark優(yōu)化Spark Thrift Server穩(wěn)定性Dynamic R

10、esource Allocate特性效果:逐步切換10%查詢,時(shí)間減半,資源下降Pilot - 引擎灰度升級定位:一站式自助查詢工具,讓取數(shù)變得更高效魔鏡 - 即席查詢平臺后臺管理數(shù)據(jù)管理字典管理數(shù)據(jù)依賴產(chǎn)品功能服務(wù)層調(diào)度/引擎數(shù)據(jù)管理用戶登錄計(jì)算模板關(guān)聯(lián)計(jì)算留存分析漏斗分析計(jì)算配置SQL生成任務(wù)執(zhí)行定時(shí)任務(wù)定制計(jì)算計(jì)算列表計(jì)算配置計(jì)算結(jié)果表注冊日志表管理Pilot執(zhí)行引擎ImpalaSparkHiveSQL特征特征模型引擎路由集群路由任務(wù)限流Realtime Analysis Platfrom:基于超大規(guī)模實(shí)時(shí)數(shù)據(jù)的快速分析平臺全向?qū)渲糜?jì)算存儲透明豐富報(bào)表類型數(shù)據(jù)延時(shí)低秒級查詢靈活變更需求

11、RAP - 實(shí)時(shí)分析平臺數(shù) 據(jù) 源前 端處 理存 儲MySQL大屏展示DruidImpalaKudu實(shí)時(shí)報(bào)I分析(漏斗、留存)D戶數(shù)據(jù)Ka(kaMySQL IO實(shí)時(shí)報(bào)表F控?cái)?shù)據(jù)PilotSparkFlink魔鏡/RAP問題重復(fù)計(jì)算相似的指標(biāo) 統(tǒng)一指標(biāo)系統(tǒng)定義、提供業(yè)務(wù)指標(biāo)無需SQL/工作流OLAP 服務(wù)治理DevOps (平臺化、自動(dòng)化)自助查詢:展示表、SQL查詢等信息,便于用戶 自助優(yōu)化自動(dòng)化:增加工單自動(dòng)化率DataOps (數(shù)據(jù)驅(qū)動(dòng))數(shù)據(jù)驅(qū)動(dòng):分析運(yùn)維瓶頸(告警、工單) 服務(wù)優(yōu)化:系統(tǒng)性、程序性優(yōu)化AIOps (智能化)上線Hive查詢智能診斷、自助排障系統(tǒng)接入智能客服,50%自動(dòng)回答,大幅減少運(yùn)維壓 力上線告警自愈,故障響應(yīng)時(shí)間從30分鐘縮短至5 分鐘服務(wù)治理 - 運(yùn)維體系建設(shè)服務(wù)治理 - Hive自助排障服務(wù)治理 - 數(shù)據(jù)生命周期管理管理平臺:多種策略,簡單配置,自動(dòng)執(zhí)行 落地效果成本優(yōu)化:累計(jì)清理/歸檔 500 P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論