FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第1頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第2頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第3頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第4頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第5頁
已閱讀5頁,還剩471頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

節(jié)點自愈節(jié)點自愈算法算法豐富的Connector生態(tài)場景使用場景使用方式商業(yè)化數(shù)倉數(shù)倉熱點機器單個機器瞬時負(fù)載過高熱點機器單個機器瞬時負(fù)載過高作業(yè)硬件故障作業(yè)硬件故障網(wǎng)絡(luò)異常網(wǎng)絡(luò)異常硬件故障熱點機器網(wǎng)絡(luò)異常某機器掉盤導(dǎo)致該節(jié)點上的作業(yè)進行Checkpoint載過高導(dǎo)致該節(jié)點上所有相關(guān)作業(yè)出現(xiàn)延遲交換機故障導(dǎo)致轉(zhuǎn)發(fā)表機器通信時頻繁丟包導(dǎo)致作業(yè)大規(guī)模頻繁重啟排查時間長:大量作業(yè)失敗,很難通過人工排查短時間內(nèi)定位到真正的問題節(jié)點爆炸半徑大:問題節(jié)點出現(xiàn)在高優(yōu)隊列則涉及較多高優(yōu)任務(wù),若未能及時排除異常節(jié)點則會導(dǎo)致資損投票選出投票選出延遲檢測器延遲檢測器020213·根據(jù)作業(yè)報警配置確定觸發(fā)閾值 ·延遲并發(fā)數(shù)小于整體并發(fā)30%32 32·作業(yè)必須存在高于閾值的延遲 ·問題并發(fā)數(shù)小于整體并發(fā)30% ·問題并發(fā)吞吐低于平均值80%000111222·作業(yè)必須存在高于閾值的延遲 ·問題并發(fā)吞吐低于平均值50% ·問題并發(fā)算子延遲高于平均值80% ·問題并發(fā)數(shù)小于整體并發(fā)30%000111222102102 ·問題并發(fā)數(shù)小于整體并發(fā)30%·節(jié)點上所有問題作業(yè)擁有投票權(quán)·不少于50%的作業(yè)認(rèn)為該節(jié)點為可疑節(jié)點則輸出根據(jù)Task失敗情況尋找可疑節(jié)點,以下情況將被記錄 心跳超時之間網(wǎng)絡(luò)錯誤TaskManager出現(xiàn)兩次記錄出現(xiàn)三次記錄 ·數(shù)據(jù)傾斜難以判定·指標(biāo)可能存在延遲·數(shù)據(jù)質(zhì)量問題也可能導(dǎo)致假陽性·網(wǎng)絡(luò)丟包率波動并未導(dǎo)致作業(yè)失敗·拉慢節(jié)點:調(diào)低指定節(jié)點在調(diào)度時的選擇權(quán)重·拉黑節(jié)點:禁止新進程調(diào)度到指定節(jié)點·驅(qū)逐作業(yè):驅(qū)逐節(jié)點上部分或所有作業(yè)·業(yè)務(wù)或機器指標(biāo)得出的·業(yè)務(wù)或機器指標(biāo)得出的·業(yè)務(wù)和機器指標(biāo)相互印·黑名單聚合節(jié)點MasterFailover與Task單點恢復(fù)異常節(jié)點自愈耗時長任務(wù)斷流時間長Task單點恢復(fù)Task單點恢復(fù)MasterFailover-為什么耗時長? 如何做到不斷流? ·Task上報信息,Master做信息重建 ·結(jié)合作業(yè)狀態(tài)判斷是否需要ReleaseTask ·ReleaseTask行為延時處理 ·OperatorCoordinator狀態(tài)重建TM側(cè)rr 映射關(guān)系SharedSlotSourceReaderSourceReaderSourceReaderSplitAssign的流程(以Flip-27KafkaSource為例)·chechpoint狀態(tài)滯后1 ·Coordinator恢復(fù)失敗集齊后統(tǒng)一FailorCancel,避免額外狀態(tài)管理A2A2A2…Netty通信模型 ·上游主動清理不完整subpartition(社區(qū)已實 只重啟失敗TaskRegion+計次回退-rAbnormalerrorrateAnoTHANKTHANKYOU實例級穩(wěn)定性體系建設(shè)實踐實例級穩(wěn)定性體系總結(jié)實例級穩(wěn)定性體系總結(jié)價值與展望全球部署X個地域X千個用戶實例實時鏈路大屏FlinkTPS超大規(guī)模總規(guī)模X百萬核雙十一峰值TPS突破XX億阿里云控制臺&SDK數(shù)據(jù)庫數(shù)據(jù)庫阿里云控制臺&SDK數(shù)據(jù)庫數(shù)據(jù)庫日常應(yīng)急80%來自單客戶動失敗動慢日常應(yīng)急80%來自單客戶日常應(yīng)急80%來自單客戶作業(yè)非作業(yè)非動失敗動慢處置報警處置不易找到關(guān)鍵指標(biāo)不易找到關(guān)鍵指標(biāo)處置報警處置不易找到關(guān)鍵指標(biāo)不易找到關(guān)鍵指標(biāo)處置報警處置不易找到關(guān)鍵指標(biāo)不易找到關(guān)鍵指標(biāo)不科學(xué)不科學(xué)問題思路問題思路2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難問題思路問題思路1.單客戶問題頻發(fā)2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難1.穩(wěn)定性視角由集群級1.單客戶問題頻發(fā)2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難問題思路問題思路并圍繞其增強自動化3.使用可用率度量穩(wěn)定性Flink作業(yè)能否成功啟動與停止建設(shè)以提高關(guān)鍵鏈路的可用率為目標(biāo)的實例級穩(wěn)定性體系Flink實例級穩(wěn)定性體系項目大圖變更熔斷外部協(xié)作外部協(xié)作發(fā)現(xiàn)診斷恢復(fù)異常預(yù)防發(fā)現(xiàn)診斷恢復(fù)異常預(yù)防Flink實例級穩(wěn)定性體系項目大圖變更熔斷外部協(xié)作外部協(xié)作發(fā)現(xiàn)診斷恢復(fù)異常預(yù)防發(fā)現(xiàn)診斷恢復(fù)異常預(yù)防實例級穩(wěn)定性體系實例級穩(wěn)定性體系04可用率運營提升方案04可用率運營提升方案作業(yè)啟動、停止、刪除作業(yè)啟動、停止、刪除用戶探針8阿里云控制臺&SDK探針作業(yè)管控面計算面K8s集群用戶探針8阿里云控制臺&SDK管控面計算面為每個VC創(chuàng)建獨立Namespace不參與計費K8s集群監(jiān)控作業(yè)定義部署多地?zé)醾涓呖捎梅€(wěn)定灰度分批推平日均百萬頻次探測殘留資源巡檢CREATETEMPORARYTABLECREATETEMPORARYTABLEdatagen_source(作業(yè)定義部署多地?zé)醾涓呖捎梅€(wěn)定灰度分批推平日均百萬頻次探測殘留資源巡檢CREATETEMPORARYTABLECREATETEMPORARYTABLEdatagen_source(04可用率運營提升方案實例級灰度發(fā)布實例級灰度切流。變更三板斧實例月不可用時間速算實例級灰度發(fā)布實例級灰度切流。變更三板斧實例月不可用時間速算2.指標(biāo)類巡檢類型問題2.指標(biāo)類巡檢類型問題2.指標(biāo)類巡檢類型問題類型問題AlOps智能巡檢+LLMOps智能巡檢(算法服務(wù))實體&觀測觀測數(shù)據(jù)實體&觀測觀測數(shù)據(jù)維度維度查詢Tool時序畫像時序建?!L(fēng)險判別時序畫像LLM知識庫樣本建?!猄RE介入診斷結(jié)果反饋打標(biāo)診斷結(jié)果AlOps智能巡檢+LLMOps智能巡檢(算法服務(wù))實體&觀測觀測數(shù)據(jù)實體&觀測觀測數(shù)據(jù)維度維度查詢Tool時序畫像時序建?!L(fēng)險判別時序畫像LLM知識庫樣本建模—SRE介入診斷結(jié)果反饋打標(biāo)診斷結(jié)果*大模型引擎:*大模型引擎:*可見性:產(chǎn)品線:流/批節(jié)點異常集群水位趨勢風(fēng)險事件集群水位趨勢風(fēng)險事件陡增公開僅租戶內(nèi)可見flink智能體說明:你是一個flink的集群資源管理員,能夠回答集群相關(guān)的任何問題。集群的水位是cpu使用數(shù)/cpu總數(shù)的百分比。智能體說明:其中集群邏輯水位百分比=集群使用的CPU核數(shù)/集群的CPU總核數(shù)。如果水位過高,可能是cpu使用過高,也可能是cpu總數(shù)過低。cpu使用過高是由于flink作業(yè)導(dǎo)致的,cpu總數(shù)過低是由于集群節(jié)點數(shù)少,提供的cpu過少導(dǎo)致的。分析時請先從異常情況開始進行下鉆分析。陡降分析的時候,建議查詢前后1小時的數(shù)據(jù)。注意時間數(shù)據(jù)格式為YYYY-MM-DDHH:MM,陡降*可見性:流/批集群水位趨勢風(fēng)險事件集群水位趨勢風(fēng)險事件陡增flink其中集其中集于flinkf分析時分析的工具綁定:Flink集Flink集群CPU邏輯水位查詢工具v自由調(diào)用V陡降VFlink集群作業(yè)數(shù)查詢工具陡降V集群水位趨勢風(fēng)險事件集群水位趨勢風(fēng)險事件陡陡降陡增流/批流/批節(jié)點異常*可見性:公開僅租戶內(nèi)可見產(chǎn)品線:flink集群的其中集工具綁定:分析時HH:MNFlink集群CPU邏輯水位查詢工具v自由調(diào)用請問8.1日01:30收到了a集群CPU邏輯水位超限報警,flink集群資源管理員V2(flink_manager_v2)8.1日01:38集群CPU邏輯水位超限據(jù)的順因是作業(yè)數(shù)量的端加導(dǎo)致cPU使用率上開。該時段內(nèi)作業(yè)平均地加了約■個,與此同時,cPU使用達到了78.53的高水位,接近或超過了系閾值,而CPU總核數(shù)保持穩(wěn)定,未有增加,因此作業(yè)負(fù)載的增加是導(dǎo)致此次報警的主要原04可用率運營提升方案SLI、SLO、可用率與SLA定義實踐探測作業(yè)生命周期總耗時<=X分鐘可用率(服務(wù)周期總時長-SLOBreak總時長)/服務(wù)周期總時長SLA可用率不達標(biāo)會產(chǎn)生賠付SLI、SLO、可用率與SLA定義實踐探測作業(yè)生命周期總耗時<=X分鐘可用率(服務(wù)周期總時長-SLOBreak總時長)/服務(wù)周期總時長SLA可用率不達標(biāo)會產(chǎn)生賠付20/30分鐘20/30分鐘15分鐘 粒度集群級影響面根據(jù)異常組件推測理論影響面人工統(tǒng)計,格式雜亂,信息不全 現(xiàn)在現(xiàn)在粒度實例級影響面根據(jù)探針結(jié)果獲得實際影響面自動拉取播報,信息全面準(zhǔn)確 通知卡片實例級影響面快照與累積明細(xì)影響面輔助應(yīng)急決策當(dāng)前管控狀態(tài)當(dāng)前計算狀態(tài)華北2(北京)0◎●華北3(張家口)◎◎◎◎○●華北6(烏蘭察布)◎o◎◎o◎◎華東1(杭州)◎◎◎◎○◎◎◎◎◎◎◎華南1(深圳)◎o◎o◎·中國香港○o◎o日本(東京)◎◎○◎◎◎○美國(弗吉尼亞)◎◎◎◎◎o美國(硅谷)◎◎◎◎印度尼西亞(雅加達)◎◎○●馬來西亞(吉隆坡)○◎○◎○○●英國(倫敦)◎◎0德國(法蘭克福)◎O◎◎◎◎ 大數(shù)據(jù)技術(shù)智能助理白機器人計算平臺大數(shù)據(jù)技術(shù)智能助理白機器人計算平臺Flink子產(chǎn)品狀態(tài)通知異常異常實例級影響面快照與累積影響面明細(xì)影響面輔助應(yīng)急決策明細(xì)影響面輔助應(yīng)急決策 通知卡片實例級影響面快照與累積明細(xì)影響面輔助應(yīng)急決策 「異常處置」診斷定界定位診斷實時看護作業(yè)運行生命周期的全過程能力啟動e.g.由于剩余資源不足,導(dǎo)致作業(yè)無階段法啟動,請擴容解決法正?;謴?fù),請重啟解決e.g.由于產(chǎn)品老版本過低隱患,導(dǎo)致停止作業(yè)慢,請重啟解決豐富異常診斷規(guī)則覆蓋高頻且復(fù)雜問題場景用戶啟動Flink作業(yè)網(wǎng)絡(luò)接入網(wǎng)絡(luò)接入應(yīng)用網(wǎng)關(guān)管控面JobManager主容器啟動Super集群資源創(chuàng)建VC集群資源創(chuàng)建計算面作業(yè)運行面向業(yè)務(wù)增加診斷項原子面向場景組織診斷DAG 接口層運行風(fēng)運行風(fēng)險配置風(fēng)險數(shù)據(jù)風(fēng)險停止緩慢資源異常網(wǎng)絡(luò)異??煺债惓_\行異常啟動緩慢啟動失敗歷史錯誤變更抖動節(jié)點宕機決策樹服務(wù)層決策樹事前風(fēng)險事前風(fēng)險存儲層數(shù)據(jù)層事件日志數(shù)據(jù)層事件日志數(shù)據(jù)源 接口層運行風(fēng)運行風(fēng)險配置風(fēng)險數(shù)據(jù)風(fēng)險停止緩慢資源異常網(wǎng)絡(luò)異??煺债惓_\行異常啟動緩慢啟動失敗歷史錯誤變更抖動節(jié)點宕機決策樹服務(wù)層決策樹事前風(fēng)險事前風(fēng)險存儲層數(shù)據(jù)層事件日志數(shù)據(jù)層事件日志數(shù)據(jù)源 接口層運行風(fēng)運行風(fēng)險配置風(fēng)險數(shù)據(jù)風(fēng)險停止緩慢資源異常網(wǎng)絡(luò)異常快照異常運行異常啟動緩慢啟動失敗歷史錯誤變更抖動節(jié)點宕機決策樹服務(wù)層決策樹事前風(fēng)險事前風(fēng)險存儲層數(shù)據(jù)層事件日志數(shù)據(jù)層事件日志數(shù)據(jù)源 田運行中部署詳情狀態(tài)總覽數(shù)據(jù)曲線田運行中部署詳情狀態(tài)總覽數(shù)據(jù)曲線運行事件狀態(tài)集管理作業(yè)日志自動調(diào)優(yōu)血緣關(guān)系智能診斷告警配置健康評分:76開始診斷健康評分:76開始診斷山√資源分析V展開詳情將作業(yè)并發(fā)從7改為35立刻應(yīng)用vState分析 ◎運行中停止創(chuàng)建快照刪除大數(shù)據(jù)技術(shù)智能助理由機器人服務(wù)執(zhí)行中,請稍候服務(wù)執(zhí)行中,請稍候德國(法蘭克福)計算面發(fā)生時間:發(fā)生時間:>作業(yè)分析>作業(yè)分析影響面影響客戶:當(dāng)前3/累計3影響實例:當(dāng)前13/累計138異常工單[1]來源:計算集群批量實例影響客戶:當(dāng)前3/累計3影響實例:當(dāng)前13/累計138異常工單[1]來源:計算集群批量實例SLOBreak異常影響:用戶實例(VC)啟停異常全局觀測定界:定位:網(wǎng)卡未掛載“已關(guān)閉”ChatOps自助機器人報警自動化處置卡片 容量容量降級業(yè)務(wù)故障日常服務(wù)故障日常K8s節(jié)點物理機名稱5分鐘15分鐘60分鐘X月X日XX用戶Flink任務(wù)批量啟【】客訴工單【】GOC應(yīng)急【】不達標(biāo)【】錯誤●定界準(zhǔn)確性【】準(zhǔn)確【】自愈【】不達標(biāo)【】無效事中事中事后線上問題可以明確歸屬到對應(yīng)服務(wù)可運營可用率波動具備可解釋性根因根因可用率目標(biāo)合理并具備提升路徑線上問題可以明確歸屬到對應(yīng)服務(wù)可運營可用率波動具備可解釋性根因根因可用率目標(biāo)合理并具備提升路徑圖日圖日外部協(xié)同外部協(xié)同產(chǎn)品可用率線上全部實例可用率的均值賠付實例占比可用率不達標(biāo)的實例占比配置錯誤Advisor發(fā)現(xiàn)問題Advisor發(fā)現(xiàn)問題使得各相關(guān)方看到項目的價值甚至是預(yù)期外的收獲是可用率目標(biāo)持續(xù)提升的關(guān)鍵探針探針 穩(wěn)定性協(xié)同協(xié)同客戶1.1服務(wù)周期:一個服務(wù)周期為一個自然月。1.2服務(wù)周期總分鐘數(shù):服務(wù)周期內(nèi)的總天數(shù)×24(小時)×60(分鐘)計算。1.3服務(wù)不可用分鐘數(shù):在連續(xù)3分鐘(或者更長的時間內(nèi),客戶所有試圖與指定的Flnk全托管實例建立連接的嘗試均失敗,則視為這段時間內(nèi)該Fink全托管實例服務(wù)不可用。在一個服務(wù)周期內(nèi)單個Fnk全托管實例不可用分鐘數(shù)之和即服務(wù)不可用分鐘數(shù)。1.4月度服務(wù)費用:客戶在一個自然月中就單個Fink全托管實例所支付的服務(wù)費用總額,如果客戶一次性支付了多個月份的服務(wù)費用,則將按照所購買的月數(shù)分?jǐn)傆嬎阍露确?wù)費用。1.2服務(wù)周期總分鐘數(shù):服務(wù)周期內(nèi)的總天數(shù)×24(小時)×60(分鐘)計算。實時計算優(yōu)化實踐陶王飛|抖音集團數(shù)據(jù)工程師羊藝超|抖音集團數(shù)據(jù)工程師未來規(guī)劃未來規(guī)劃視頻《體然我行我素》knchotsoWrn0年坑選平-上萬睡火監(jiān)程箱-你玩的相干稿美首頁特點視頻場景特點:流量大直播場景特點:狀態(tài)大數(shù)據(jù)源數(shù)據(jù)存儲書數(shù)據(jù)存儲書業(yè)務(wù)應(yīng)用品品報表分析實時數(shù)倉異?;謴?fù)慢資源消耗大異?;謴?fù)慢資源消耗大66子作業(yè)1(機房A)子作業(yè)2(機房B)子作業(yè)2(機房C)優(yōu)化DWD擴展Shuffle優(yōu)化Shuffle優(yōu)化視頻*1天累計作業(yè)(高優(yōu)場景&寬表建模)高低優(yōu)作業(yè)&隊列拆分自動化容災(zāi)JIT編譯失敗占40%資源占40%資源GC資源消耗20萬+頭部任務(wù)分析問題總結(jié)能力推廣資源消耗20萬+業(yè)務(wù)應(yīng)用數(shù)據(jù)存儲實時數(shù)倉業(yè)務(wù)應(yīng)用數(shù)據(jù)存儲推薦策略數(shù)據(jù)產(chǎn)品推薦策略數(shù)據(jù)產(chǎn)品視頻*1天流量熱點借助cache,請求仍然達到千萬級。無論是成本還是鏈路穩(wěn)定性,壓力大?,F(xiàn)狀:億級RPS下,維表關(guān)聯(lián)在開啟緩存,且緩存命中率90%+時,維表關(guān)聯(lián)qps仍高達千萬級視頻(幾千億條)、用戶維表(離線)、監(jiān)控規(guī)則(百萬條)作業(yè)1(機房A)作業(yè)2(機房B)作業(yè)2(機房C)大流量維表關(guān)聯(lián)優(yōu)化-解決方案【subtask1【subtask2【subtask2【subtaskN算子算子waterwater據(jù)【subtask1【subtaskN【subtaskN維表構(gòu)建時間一應(yīng)用場景:大流量場景下的維表關(guān)聯(lián),業(yè)務(wù)對維度更新感知接受時間在分鐘級別收益:部分Flink作業(yè)無需訪問Abase,節(jié)約400萬+qps。相關(guān)任務(wù)追數(shù)據(jù)場景下不再有外部訪問瓶頸。視頻*1天作業(yè)數(shù)據(jù)重復(fù)下大流量冪等計算-解決方案冪等處理:保留同1min最新結(jié)果1小時粒度結(jié)果大流量冪等計算-性能優(yōu)化數(shù)據(jù)時間粒度:數(shù)據(jù)時間粒度:1分鐘=60000msbucketsize=上卷時間粒度/數(shù)據(jù)時間粒度上卷時間粒度:1天=86400000msmaxDiffTimes[1440]590005910059000輸入數(shù)據(jù):(10,10,1),1653840299000基礎(chǔ)時間戳=946656000000(對應(yīng)日期2000-01-0100:00:00)bucket=(timestamp-基礎(chǔ)時間戳)%上卷時間粒度/數(shù)據(jù)時間粒度=(1653840299000-946656000000)%86400000/6bucket上的最大時間戳偏移量:bucket_diff_time=(timestamp-基礎(chǔ)時間戳)%上卷時間粒度%數(shù)據(jù)時間粒度=(1653840299000-946656000000)%86400000%6maxDiffTimes[4]<59000,所以metrics[4]="10.10.1.max1440個分鐘1440個分鐘bucket視頻*1天作業(yè)視頻*1分鐘作業(yè)視頻*1天作業(yè)視頻*1分鐘作業(yè)8流量營收…流量營收…>>狀態(tài))→穩(wěn)定性差&重啟恢復(fù)大2000core、18T慢狀態(tài))→穩(wěn)定性差&重啟恢復(fù)大狀態(tài)優(yōu)化-場景分析直播間特點:開關(guān)播時間、開播時長不固定最大30天最大30天開播時長狀態(tài)大小占比分析時長<1天多存了6天+少存分析結(jié)論:狀態(tài)固定TTL與直播間動態(tài)TTL矛盾導(dǎo)致99%+狀態(tài)存儲時長過長,5‰oo+過短解決思路:對齊狀態(tài)TTL和直播間TTL,實現(xiàn)直播間關(guān)播后才刪除狀態(tài)大狀態(tài)優(yōu)化-方案設(shè)計直播流量數(shù)據(jù)MQ直播間關(guān)播MQ啟發(fā)啟發(fā)流量接收關(guān)播消息刪除流量接收關(guān)播消息刪除聚合結(jié)果MQ直播流量數(shù)據(jù)MQ直播間維表聚合結(jié)果MQRetract機制刪除狀態(tài)高低解耦擴展性差優(yōu)不兼容高中資源消耗高中6方案落地table.exec.state.ttl=30d①運行參數(shù)配置/**+USECOMPACTIONFILTER('path'='xxx.xxx.clearudf','field'='room性能優(yōu)化方案收益優(yōu)化分類優(yōu)化手段優(yōu)化收益>業(yè)務(wù)視角:支持直播間場次30天累計計算技術(shù)視角:直播場次作業(yè)狀態(tài)平均下降60%;CPU資源使用上漲CPU漲幅:400%→70%場景(作業(yè)平穩(wěn)運行)場景(作業(yè)平穩(wěn)運行)目標(biāo)目標(biāo)流處理批處理分析結(jié)論:追lag場景下流處理的低吞吐現(xiàn)狀與預(yù)期的高吞吐目標(biāo)存在矛盾解決思路:流處理作業(yè)動態(tài)監(jiān)測消費積壓指標(biāo)判斷作業(yè)對高吞吐和低延遲的傾向性,通過在當(dāng)前算子上引入Sorter排序及動態(tài)調(diào)整MiniBatch大小的能力實現(xiàn)流批執(zhí)行模式動態(tài)切換6大流量回溯優(yōu)化-方案設(shè)計③動態(tài)啟用Sorter并調(diào)整MiniBatch大?、俜e壓檢測②檢測結(jié)果傳遞自動檢測積壓狀態(tài)的時間間隔createtabledwd_log_live_show_even'scan.partition-lag.discovery'scan.backlog.max-avg-partit'scan.backlog.min-avg-parti方案收益未來規(guī)劃未來規(guī)劃未來規(guī)劃恢復(fù)場景優(yōu)化通用優(yōu)化場景優(yōu)化通用優(yōu)化汽車之家實時平臺4.0建設(shè)實踐Paimon豐富的功能給數(shù)倉帶來提效 用的功能·數(shù)據(jù)實時/批量寫入·豐富的合并引擎 ·數(shù)據(jù)全增量的查詢·歷史版本回溯99 計計算引擎AoMg0M加速數(shù)據(jù)加工個計算查詢個計算查詢臺臺FDFDM存儲層臺臺個數(shù)據(jù)加工離線鏈路通過使用Paimon流量寬表加速流量數(shù)據(jù)的清洗 Paimon流量檢查數(shù)據(jù)完整性策略:流量數(shù)據(jù)加工鏈路的時效性整體提升1小時以上排序過Paimon的數(shù)據(jù)文件查詢SQL:select*from查詢SQL:select*fromtablewherefield='c'排序合并之后,通過查看排序字段的值在每個文件的范圍在執(zhí)行計劃階段更加容易濾掉不需要的文件Mapper數(shù)12131個24-1367個業(yè)務(wù)庫數(shù)據(jù)實時入湖通過調(diào)度任務(wù)天/小時周期同步業(yè)務(wù)庫數(shù)據(jù)入倉主鍵表通過業(yè)務(wù)庫CDC數(shù)據(jù)更新Paimon主鍵表業(yè)務(wù)庫數(shù)據(jù)時效性從天/小時級別提升到分鐘級別 設(shè)置源設(shè)置源Topic信息接入作業(yè):1482接入作業(yè)_mysql_binlog_chuangkeyun_mw0_3306√□cky_stars_formal.s□cky_stars_formal.starcky_stars.star_product_it□全選2.設(shè)置目標(biāo)Paimon的信息_rtsnapshot.time-retained1數(shù)據(jù)源表: 計算引擎/表類型Paimon表Hive表Hive引擎spark引擎優(yōu)化后,不同引擎查詢Paimon表對HDFS訪問次數(shù)均有減少,低于對Hive表的訪問次數(shù)家使用 ·使用Hive引擎查詢,Paimon表對HDFS的請求次數(shù)較優(yōu)化前減少83%,比Hive表減少65% ·使用Spark引擎查詢,Paimon表對HDFS的請求次數(shù)較優(yōu)化前減少49計算引擎/表類型Paimon表(優(yōu)化前)Paimon表(優(yōu)化后)Hive表Hive引擎spark引擎排序合并localsampleglobalsample讀取數(shù)據(jù)排序合并localsample排序合并解決采樣階段瓶頸: --table_confsort-compaction.local-sample.m解決數(shù)據(jù)大小傾斜: --table_confsort-compaction.range-strategy=SIZE效果:資源相同的情況下效率會有2倍以上的提升13分鐘22秒013分鐘22秒0自動調(diào)度18分鐘47秒0自動調(diào)度11分鐘5秒0自動調(diào)度12分鐘7秒0自動調(diào)度10分鐘15秒0自動調(diào)度17分鐘6秒0自動調(diào)度10分鐘38秒0自動調(diào)度13分鐘10秒0自動調(diào)度13分鐘35秒0自動調(diào)度自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度背景背景:·實時集群資源緊張,資源需求日益增長,較21年任務(wù)數(shù)和計算量都增長了一倍·實時離線任務(wù)分別在獨立集群,不能互相錯峰利用資源錯峰利用服務(wù)器資源,保證資源被充分利用在治理任務(wù)過程中沉淀出治理方案和引擎改造,賦能給用戶隊列監(jiān)控隊列監(jiān)控調(diào)度客戶端開發(fā)客戶端Spark客戶端離線隊列 任務(wù)離線資源 8.將伸縮容后的配置持久化8.將伸縮容后的配置持久化真正執(zhí)行伸縮容操作3.通知任務(wù)伸縮容.從prometheus拉取metric,計算健康及資源評分9.反饋伸縮容結(jié)果,異常恢復(fù)策略處理平臺服務(wù)平臺服務(wù)1.請求伸縮容Yarn提供基于時間,資源量等規(guī)則的隊列調(diào)度機制,將任務(wù)調(diào)度到實時隊列 ·混部時間段調(diào)度規(guī)則:指定時間段開啟任務(wù)到隊列的動態(tài)綁定,例如:00:50~09:00 背景背景:燈塔平臺燈塔平臺診斷類型:內(nèi)存浪費CPU浪費CPU內(nèi)存比例不合理重啟時間配置時間過長(核數(shù))(個)(個)負(fù)責(zé)人診斷類型:內(nèi)存浪費診斷類型:診斷類型:CPU浪費分析造成Full分析造成Fullgc的原因,0數(shù)據(jù)/空閑slot數(shù)量占比24小時內(nèi)FullGC次數(shù)24小時內(nèi)CPU綜合使用率小于25%的時間占比24小時內(nèi)CPU(分TaskManager)綜合使用率[含補償…24小內(nèi)GC釋放的內(nèi)存大小的平均相對占比24小時內(nèi)任務(wù)網(wǎng)絡(luò)隊列占滿的時間占比必須CPU使用率低,請減少Slot數(shù)或者降低Slot與CPU的PU綜合使用率小于25%的時間映射比例,如果存在數(shù)據(jù)傾斜,請調(diào)整數(shù)據(jù)交換策0---線程ID線程名線程組>18LegacySourceThread-Source:kafkaV2-with-wakanda-…FlinkTask比>120LegacySourceThread-So>>116LegacySourceThread-Source:kafkaV2-with-wakanda-.FlinkTask..47.48%2377ms實現(xiàn)步驟:請求的時候?qū)⒄埱蟮臅r候?qū)? 效果:任務(wù)診斷助手、任務(wù)指標(biāo)查詢助手感知+規(guī)劃智能智能查詢排查平臺@實時平臺助手②實時任務(wù)5265為什么重啟@實時平臺助手②實時任務(wù)5265為什么重啟任務(wù)5688為什么消費延遲任務(wù)5688為什么消費延遲任務(wù)5688為什么消費延遲任務(wù)5688在最近1小時內(nèi),平均延遲數(shù)為70085779。了100,可能會導(dǎo)致任務(wù)處理能力下降,從而導(dǎo)致任·主機名:128-246-100.If.autohome.cc,·主機名:128-248-27.If.autohome.cc,load1:94這兩臺主機的load1值均超過了閾值80,說明@王剛正在查詢?nèi)蝿?wù)指標(biāo),稍后將根據(jù)查詢到的信息實時平臺助手鹵機器人17:08@王剛1.錯誤分類:用戶配置(代碼)2.錯誤原因:堆內(nèi)存不足導(dǎo)致的內(nèi)存溢出異常。3.錯誤原因分析:根據(jù)異常堆棧信息,“java.lang.OutOfMemoryError:Javaheap4.改進或優(yōu)化建議:增加taskmanager內(nèi)存,參數(shù)用戶用戶回復(fù)4094最近3小時cpu4094最近3小時cpu使用率查詢時間:2024-11-0816:42:26到-If_hadoop_apollo_28_240_2...隨時隨地按需查詢隨時隨地按需查詢指標(biāo)頁面復(fù)雜,指標(biāo)眾多,翻看耗時結(jié)果解析用戶回復(fù)查詢模版回復(fù)查詢參數(shù)未來規(guī)劃未來規(guī)劃1.探索Paimon+StarRocks近實時OLAP場景2.Flink引擎版本升級3.推廣FlinkCDC替換自研的業(yè)務(wù)庫CDC微信掃描二維碼,關(guān)注我的公眾號DataOps能力建設(shè)未來規(guī)劃與展望是否新增任務(wù)務(wù)數(shù)是否新增任務(wù)準(zhǔn)確性驗證管理規(guī)范能力DataOps是一種協(xié)同數(shù)據(jù)管理實踐,專注于提升跨組織的數(shù)據(jù)管理者與數(shù)據(jù)消費者之間DataOps是一套實踐、流程程的數(shù)據(jù)觀點與敏捷軟件工程中的自動化和方法相結(jié)合,以提高質(zhì)量、速度和協(xié)作,促進信通院DataOps是一種現(xiàn)代數(shù)據(jù)研發(fā)DataOps以安全、高質(zhì)量、高通過人員、技術(shù)和流程間的緊密協(xié)同關(guān)系,實現(xiàn)對數(shù)據(jù)研發(fā)運營管理全生命周期的持續(xù)優(yōu)化,進而提升組織數(shù)據(jù)研發(fā)運營管理工作的自動化、敏捷化、協(xié)同化水構(gòu)建高效協(xié)同機制構(gòu)建高效協(xié)同機制產(chǎn)質(zhì)量產(chǎn)質(zhì)量平臺·全流程管控沉淀至工具平臺●搭建需求全鏈路度量及反饋體系精化數(shù)據(jù)運營,實現(xiàn)降本增效●搭建需求全鏈路度量及反饋體系精化數(shù)據(jù)運營,實現(xiàn)降本增效管控規(guī)劃持續(xù)開放共建開發(fā)版本控制運維自動化測試反饋自學(xué)習(xí)自學(xué)習(xí)ExtensionPipelineOpenEventOpenAPI規(guī)劃-流程管理-能力介紹規(guī)劃-流程管理-能力介紹定義需求管理流程作業(yè)變更與需求綁定需求流程需求開始需求評審開發(fā)&自測部署上線驗收交付綁定開發(fā)流程狀態(tài)更新綁定作業(yè)開發(fā)數(shù)據(jù)測試流水線發(fā)布規(guī)劃-流程管理-方案實現(xiàn)規(guī)劃-流程管理-方案實現(xiàn)【營收活動POO開發(fā)進行中已進行5天8|田|8復(fù)制標(biāo)題和鏈接|…求排完成+新增任務(wù)需求模版*實時需求需價值回收需求交付需求臨收kStreamingsQL智能/DE指×需求管理綁定需綁定需求創(chuàng)建需求C【營收激勵】拓展寶石積分激勵…直播中臺-國內(nèi)數(shù)據(jù)需求開發(fā)-環(huán)境管理-能力介紹->線上環(huán)通過項目控制臺開啟多環(huán)境,定義任務(wù)在不同環(huán)境之間的流轉(zhuǎn)規(guī)則(測試環(huán)境->線上環(huán)境)以及元信息映射(數(shù)據(jù)源/隊列/配置)來實現(xiàn)生產(chǎn)和測試環(huán)境隔離。提交部署提交部署數(shù)數(shù)據(jù)源/隊列/配置開發(fā)-環(huán)境管理-方案實現(xiàn)進行環(huán)境配置加載,不同環(huán)境部署的代碼會在提交階段根據(jù)環(huán)境配置動態(tài)生成。生產(chǎn)版本測試版本草稿版本復(fù)查人上線說明數(shù)上線檢查提交環(huán)境配置上線檢查重構(gòu)測試-數(shù)據(jù)自測-能力介紹需求ID請輸入信息Owner請輸入信息日期范圍開-結(jié)新增測試新增測試測試ID創(chuàng)建日期測試表名需求IDOwner搜索重置-則名城不面代碼開發(fā)實時自測模塊實時自測模塊勾選自測規(guī)則輕量級自測一鍵質(zhì)量測試產(chǎn)出單次質(zhì)量一鍵提測按鈕一鍵提測按鈕測試規(guī)范測試規(guī)范通知QAQA測試Source參數(shù)合理性TM/JM資源推薦Source參數(shù)合理性報警配置報警配置Mini-Batch參數(shù)合理性部署-上線檢測-方案實現(xiàn)部署-上線檢測-方案實現(xiàn)數(shù)據(jù)數(shù)據(jù)寫出數(shù)據(jù)寫出數(shù)據(jù)檢查不通過,任務(wù)上線被阻斷,請修改任務(wù)配置再次嘗試遍歷篩選匹配規(guī)則流式任務(wù)上線杉遍歷篩選匹配規(guī)則結(jié)果結(jié)果是式中是式中式部署-發(fā)布管控-能力介紹部署-發(fā)布管控-能力介紹通知通知流水線編排插件集成觸發(fā)流水線流水線編排插件集成技術(shù)技術(shù)基于開放能力,進行發(fā)布流水線定義與編排部署-發(fā)布管控-方案實現(xiàn)采集抽樣新任務(wù)上線×原有任務(wù)迭代×新增指標(biāo)×雙胞切換×值周運維×縮減資源×任務(wù)泊理×任務(wù)下線×DwD×DIM×DwsxAPP×ADS×ODs×DU3353否是時效性目標(biāo):5分鐘發(fā)現(xiàn),5分鐘響應(yīng)處理,30分鐘恢復(fù)?;€操作GG黃鑫0915EECC'sink.metrics.bucketA規(guī)劃-需求管理開發(fā)-環(huán)境管理測試-數(shù)據(jù)自測100%管控部署-上線檢測/發(fā)布管控運維-基線監(jiān)控質(zhì)量質(zhì)量規(guī)劃規(guī)劃●自動容災(zāi)入湖場景的應(yīng)用實踐演講人|陳吉通(顧軒)阿里云高級開發(fā)工程師,DataXMaintainer02DataWorks數(shù)據(jù)集成入湖解決方案的架構(gòu)和原理03DataWorks數(shù)據(jù)集成入湖場景的產(chǎn)品化案例分享04未來規(guī)劃Q發(fā)布阿里云正式對外(公有云、專有云)提供服務(wù)發(fā)布實時同步實時同步數(shù)據(jù)入湖彈性擴縮容2011201420192020數(shù)據(jù)平臺事業(yè)部成立同步中心公有云商業(yè)化獨享資源組發(fā)布新版引擎重構(gòu)升級數(shù)據(jù)上云的核心樞紐:異構(gòu)數(shù)據(jù)存儲、可靠、安全、低成本、可彈性擴展的數(shù)據(jù)同步平臺離線/實時全覆蓋支持離線同步,實現(xiàn)數(shù)據(jù)主動抽取離線/實時全覆蓋支持離線同步,實現(xiàn)數(shù)據(jù)主動抽取實時同步被動接受變更刷新,變更動態(tài)同步離線支持50+種數(shù)據(jù)源,實時支持10+種數(shù)據(jù)源支持復(fù)雜網(wǎng)絡(luò)無論數(shù)據(jù)源在哪里,公網(wǎng)、IDC、VPC內(nèi)等數(shù)據(jù)集成都具備成熟的辦法可以提供連接到數(shù)據(jù)源的網(wǎng)絡(luò)解決方案同步解決方案整庫遷移、批量上云增量同步、分庫分表一鍵實時全增量安全控制開發(fā)生產(chǎn)環(huán)境隔離數(shù)據(jù)源權(quán)限安全控制,可分享獨享資源組保障高可用運維監(jiān)控流量控制、臟數(shù)據(jù)控制資源組使用監(jiān)控任務(wù)告警設(shè)置,支持電話、短信、郵件、釘釘10萬億流量控制權(quán)限檢查權(quán)限檢查啟動集成任務(wù)開發(fā)態(tài)運行態(tài)開發(fā)態(tài)運行態(tài)基于基于FlinkCDC框架+DataX(重構(gòu)后的新版流批一體同步引擎6整庫級別同步整庫級別同步性能成本Pkshuffle避免數(shù)據(jù)熱點DML/DDL全事件流解析功能特性豐富的T節(jié)點能力彈性擴縮容關(guān)系型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫甲增量同步增量同步FlinkCDCSource事件解析數(shù)據(jù)分發(fā)表映射字符串替換Transformer算子阿里云DLF數(shù)據(jù)湖構(gòu)建目的端數(shù)據(jù)湖獲取源表表結(jié)構(gòu)映射目標(biāo)表表結(jié)構(gòu)、生成目標(biāo)表建表語句映射目標(biāo)表表結(jié)構(gòu)、生成目標(biāo)表建表語句·執(zhí)行目標(biāo)表建表→→·完成全量數(shù)據(jù)遷移 對齊啟動點位啟動增量同步·全量初始化階段和業(yè)務(wù)高峰期需要較多的資源·全量初始化階段和業(yè)務(wù)高峰期需要較多的資源·數(shù)據(jù)集成需要支持資源的動態(tài)擴縮,達到動態(tài)調(diào)優(yōu)和節(jié)省資源。消息隊列消息隊列針對數(shù)據(jù)集成業(yè)務(wù)場景,利用AutoCopilot針對數(shù)據(jù)集成業(yè)務(wù)場景,利用AutoCopilot能力實現(xiàn)彈性擴縮容業(yè)務(wù)場景:客戶成本下降近50%客戶成本下降近50%未來規(guī)劃rrrDataScientistsMutabilitycauseddivergenceacrosClusterWorkerWorkerNodeManagerWorkerWorkerjobs鷹角基于Flink+Paimon+Trino朱正軍|鷹角大數(shù)據(jù)開發(fā)工程師鷹角數(shù)據(jù)平臺架構(gòu)明日舟泡舊泡姆明日舟泡舊泡姆消息隊列數(shù)據(jù)同步消息隊列數(shù)據(jù)同步觀遠數(shù)據(jù)數(shù)據(jù)質(zhì)量平臺數(shù)據(jù)質(zhì)量平臺數(shù)據(jù)權(quán)限質(zhì)量管理平臺引擎PolarDB/Hologres(算法側(cè))引擎引擎Trino1、實時入湖用戶門檻高2、歷史快照存儲成本高場景2、歷史快照存儲成本高戰(zhàn)3、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論