![阿里智能化故障治理流程探索和實(shí)踐_第1頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e631.gif)
![阿里智能化故障治理流程探索和實(shí)踐_第2頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e632.gif)
![阿里智能化故障治理流程探索和實(shí)踐_第3頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e633.gif)
![阿里智能化故障治理流程探索和實(shí)踐_第4頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e634.gif)
![阿里智能化故障治理流程探索和實(shí)踐_第5頁](http://file4.renrendoc.com/view/1f3083c2379de74217f28d87c1c06e63/1f3083c2379de74217f28d87c1c06e635.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、阿里智能化故障治理流程 探索和實(shí)踐阿里巴巴故障治理背景介紹阿里巴巴全局故障治理流程基于AIOps的全局故障治理架構(gòu)故障治理實(shí)戰(zhàn)案例新零售/云計(jì)算等新業(yè)態(tài)給故障治理帶來的挑戰(zhàn)智能運(yùn)維大圖目錄業(yè)務(wù)環(huán)境給穩(wěn)定性帶來的挑戰(zhàn)業(yè)務(wù)數(shù)量巨大訂單量49.1萬筆/秒業(yè)務(wù)形態(tài)差異較大電商、金融、云計(jì)算、物流、新 零售、文娛、社交業(yè)務(wù)關(guān)聯(lián)性復(fù)雜用戶行為對(duì)業(yè)務(wù)的影響 應(yīng)用調(diào)用鏈路復(fù)雜線上故障需要統(tǒng)一的治理機(jī)制業(yè)務(wù)故障統(tǒng)一發(fā)現(xiàn)跨BU故障協(xié)同處理故障的影響面及根因統(tǒng)一收口推送故障快速恢復(fù)需要 統(tǒng)一的機(jī)制要解決的問題:平衡監(jiān)控準(zhǔn)確率和召回率報(bào)警規(guī)則維護(hù)成本較大故障等級(jí)定義仁者見仁故障判斷條件繁多千萬級(jí)別的運(yùn)維事件 哪些與業(yè)
2、務(wù)故障相關(guān)?跨BU故障如何定位根因快速恢復(fù)場景稍縱即逝 如何實(shí)時(shí)決策觸發(fā)切換?如何快速響應(yīng)并組織故 障處理阿里巴巴全局故障治理流程故障發(fā)現(xiàn)故障定級(jí)故障通告故障輔助 定位處理決策故障快速 恢復(fù)故障復(fù)盤故障演練業(yè)務(wù)流程基于AIOps的全局故障治理架構(gòu)AIOps故障治理產(chǎn)品架構(gòu)監(jiān)控展示異常發(fā)現(xiàn)故障通告根因分析相關(guān)事件推送智能監(jiān)控大盤智能基線多指標(biāo)關(guān)聯(lián)分析自動(dòng)化通告智能干系人管理可疑應(yīng)用分析多維下鉆故障信息檢索快速恢復(fù)切換故障自定義分析信息流轉(zhuǎn)故障恢復(fù)故障治理生命周期故障治理實(shí)戰(zhàn)案例故障發(fā)現(xiàn)故障定級(jí)故障通告故障輔助 定位處理決策故障快速 恢復(fù)故障復(fù)盤故障演練通告排查自動(dòng)化通告核心故障秒級(jí)通告故障知識(shí)圖
3、譜智能水位故障自定義分析人工故障通告人工根據(jù)故障 等級(jí)定義定級(jí)業(yè)務(wù)監(jiān)控報(bào)警慢人工判斷故障影響等級(jí)并組織通告內(nèi)容發(fā)送一 般在5分鐘左右人工判斷影響 是否達(dá)到故障不可靠人的主觀因素會(huì)影響故障判級(jí),不能確保故障 通告時(shí)效SLA,通告文案可能有錯(cuò)自動(dòng)化故障通告故障等級(jí)定義結(jié)構(gòu)化智能基線計(jì)算跌幅數(shù)據(jù)預(yù)處理基線擬合平滑去噪聲Modified STL滑動(dòng)平均插值補(bǔ)缺故障自動(dòng)定級(jí) 通告95%準(zhǔn)確 快速發(fā)出業(yè)務(wù)量下跌count失敗率跌至percent自動(dòng)化故障通告自動(dòng)化故障通告通過多條監(jiān)控規(guī)則, 觸發(fā)自動(dòng)化故障通告生成自動(dòng)化通告內(nèi) 容,發(fā)送給業(yè)務(wù)方故障概述故障等級(jí)影響范圍監(jiān)控等級(jí)定義從分鐘級(jí)通告到秒級(jí)通告故障發(fā)
4、生報(bào)警發(fā)出1-2分鐘涵蓋了大部分業(yè)務(wù),在業(yè)務(wù)發(fā)生重大故障時(shí),一 般最快可在1-2分鐘內(nèi)發(fā)出報(bào)警,3-5分鐘發(fā)出詳 細(xì)故障通告報(bào)警發(fā)出快慢與故障持續(xù)時(shí)長有直接的關(guān)系分鐘級(jí)監(jiān)控部分核心業(yè)務(wù)(如淘寶交易創(chuàng)建、支付寶交易創(chuàng) 建),一旦發(fā)生故障,等到分鐘級(jí)報(bào)警發(fā)出,即 使立刻發(fā)出通告,報(bào)警發(fā)出之前業(yè)務(wù)已經(jīng)產(chǎn)生巨 大損失故障處理需要爭分奪秒減少故障損失縮短故障時(shí)長 加快報(bào)警發(fā)現(xiàn)改分鐘級(jí)監(jiān)控 為秒級(jí)監(jiān)控核心故障秒級(jí)通告秒級(jí)指標(biāo)波動(dòng)大,傳統(tǒng)報(bào)警策略誤報(bào)多減少故障損失縮短故障時(shí)長 加快報(bào)警發(fā)現(xiàn)接入條件:監(jiān)控指標(biāo)每秒數(shù)據(jù)量級(jí)=500趨勢預(yù)測異常發(fā)現(xiàn)通告發(fā)出10-20秒故障發(fā)生準(zhǔn)確率:80%召回率:80%零監(jiān)控配置
5、成本異常判 定孤立森林邏輯回歸特征工程集成 策略時(shí)序分析N-sigma統(tǒng)計(jì)特征One-hot自動(dòng)反饋調(diào)節(jié)機(jī)器學(xué)習(xí)智能異常檢測故障知識(shí)圖譜故障場景復(fù)雜多樣,目前暫無法做到所有故障自動(dòng)化 通告。存在大量人工通告人工故障通告,由值班同學(xué)根據(jù)平臺(tái)提供的故障信 息,結(jié)合個(gè)人經(jīng)驗(yàn),組織發(fā)送給處理人。易出錯(cuò)2、通過非結(jié)構(gòu)化的故障通告, 如何快速找到故障處理人?快速 發(fā)現(xiàn)歷史相關(guān)故障幫助處理?rdma1、人工發(fā)送的通告,出錯(cuò)率10%。其中90%由錯(cuò)別字導(dǎo)致WHO?口錯(cuò)誤通告示例故障知識(shí)圖譜歷史故障信息實(shí)體識(shí)別產(chǎn)品線、BU、人名、 關(guān)鍵詞等實(shí)體抽取實(shí)體關(guān)系故障知識(shí)圖譜新故障通告實(shí)體抽取智能糾錯(cuò)歷史故障匹配 度查
6、詢實(shí)體匹配度查 詢?cè)虺醪綉岩蔀镽DMA異常故障推薦干系人推薦實(shí)體查詢?nèi)斯ねǜ驽e(cuò)誤率 減少50%智能水位多個(gè)系統(tǒng)指標(biāo)映射為水位指標(biāo)取值0- 100衡量應(yīng)用實(shí)時(shí)容量通過水位發(fā)現(xiàn)業(yè)務(wù)容量瓶頸,提 供擴(kuò)容依據(jù)不受應(yīng)用擴(kuò)縮容影響不受應(yīng)用流量成分變化影響無需應(yīng)用壓測極限值作輸入無需預(yù)先假設(shè)服務(wù)異常CPU臨界值多維指標(biāo)映射,部分權(quán)重為線性關(guān)系,部分為非線性(階躍拉升):水位=w*cpu, load, T+f(disk, mem, )業(yè)務(wù)需求水位特點(diǎn)關(guān)鍵業(yè)務(wù)包含的應(yīng)用成百上千,如何快速發(fā)現(xiàn)應(yīng)用容量瓶頸故障自定義分析分機(jī)房指標(biāo) 分析查看關(guān)聯(lián)變 更基礎(chǔ)設(shè)施故 障分析全鏈路應(yīng)用 狀態(tài)分析關(guān)聯(lián)業(yè)務(wù) 分析監(jiān)控、開發(fā)同
7、學(xué)根據(jù)經(jīng)驗(yàn)排查異常容量問題排 查故障發(fā)生人工故障分析故障平均排查時(shí)間10分 鐘,影響故障恢復(fù)時(shí)長排查結(jié)果受不同人影響 較大,不可控往往查詢多個(gè)平臺(tái),影 響效率故障自定義分析多維下鉆 分析變更分析跨BU基 礎(chǔ)設(shè)施故 障分析全鏈路應(yīng) 用分析關(guān)聯(lián)業(yè)務(wù) 分析通用分析自定義分析故障發(fā)生分機(jī)房下鉆分門店下鉆變更大盤IDC/網(wǎng)絡(luò)中間件智能異常檢 測智能異常檢測自動(dòng)化故障 通告故障秒級(jí)通告監(jiān)控組故障知識(shí)圖譜智能異常檢 測故障平均排查時(shí)間1分鐘排查結(jié)論不受經(jīng)驗(yàn)限制新零售給故障監(jiān)控帶來的挑戰(zhàn)實(shí)體店故障給客戶造成 的感受更直接高峰期、活動(dòng)業(yè)務(wù)不可 用,易引發(fā)社會(huì)群體事件業(yè)務(wù)門店零散分布,中心 難及時(shí)感知故障及影響面
8、故障分門店下鉆分析-及時(shí)啟動(dòng)應(yīng)急預(yù)案故障分門店下鉆故障定位 20Min2Min故障總時(shí)長減少4倍1/4云計(jì)算給故障監(jiān)控帶來的挑戰(zhàn)ECSRDSSLBOSSCDN.監(jiān)控 系統(tǒng)GOC故障應(yīng)急無法統(tǒng) 一查看監(jiān)控、報(bào) 警數(shù)據(jù),故障處 理成本高報(bào)警發(fā)送云服務(wù)由于業(yè)務(wù)特 性,擁有大量個(gè)性 化基礎(chǔ)設(shè)施,無法 統(tǒng)一監(jiān)控統(tǒng)一監(jiān)控網(wǎng)關(guān)ECSRDSSLBOSSCDN.監(jiān)控 系統(tǒng)GOC報(bào)警發(fā)送Monitor GW抽象不同監(jiān)控 系統(tǒng)報(bào)警/監(jiān)控統(tǒng) 一查看監(jiān)控查看提高故障應(yīng)急效率通用參數(shù)特定參數(shù)智能運(yùn)維大圖AIOPS質(zhì)量監(jiān)控時(shí)序異常檢測指標(biāo)相關(guān)性分析報(bào)警收斂根因分析故障類型判定歷史故障推薦可疑應(yīng)用/事件推薦故障自愈自動(dòng)化觸發(fā)快恢腳本執(zhí)行環(huán)境成本容量容量預(yù)測自動(dòng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代眼科醫(yī)院的網(wǎng)絡(luò)與移動(dòng)營銷
- 電動(dòng)汽車保養(yǎng)延長電池壽命的關(guān)鍵
- 生物信息學(xué)在現(xiàn)代醫(yī)學(xué)研究中的作用
- 現(xiàn)代企業(yè)品牌建設(shè)與營銷策略
- 新北師大版數(shù)學(xué)一年級(jí)下冊(cè)《美麗的田園》聽評(píng)課記錄
- 【基礎(chǔ)卷】同步分層練習(xí):四年級(jí)下冊(cè)語文第2課《鄉(xiāng)下人家》(含答案)
- 湘教版數(shù)學(xué)七年級(jí)上冊(cè)3.3《一元一次方程模型的應(yīng)用》聽評(píng)課記錄5
- 【基礎(chǔ)卷】同步分層練習(xí):四年級(jí)下冊(cè)語文第16課《海上日出》(含答案)
- 現(xiàn)代家居裝飾藝術(shù)與心理舒適度研究
- 蘇科版數(shù)學(xué)九年級(jí)上冊(cè)4.2.3《等可能條件下的概率(一)》聽評(píng)課記錄
- 【MOOC】數(shù)字?jǐn)z影技術(shù)與藝術(shù)-西南石油大學(xué) 中國大學(xué)慕課MOOC答案
- 心內(nèi)科心衰一病一品護(hù)理成果匯報(bào)
- 2025檢驗(yàn)檢測中心年度工作總結(jié)及工作計(jì)劃
- 2024年總經(jīng)理助理年終工作總結(jié)(3篇)
- 2024年考研英語(二)真題及參考答案
- 山西省太原市2023-2024學(xué)年高二上學(xué)期期末物理試題(含答案)
- B區(qū)地下室碳纖維加固施工方案
- 幼兒園園安全培訓(xùn)
- 沖突礦產(chǎn)課件教學(xué)課件
- 三甲醫(yī)院臨床試驗(yàn)機(jī)構(gòu)-44 V00專業(yè)組SOP目錄
- 旅行社脫團(tuán)安全協(xié)議書范文模板
評(píng)論
0/150
提交評(píng)論