




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
從“救火”走向“防火”——商業(yè)平臺業(yè)務(wù)運維實踐商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第1頁救火防火商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第2頁時間都去哪兒了救火防火?
越是做到高級階段,防火工作所占
比重就會越高。?
從救火到防火,不是一蹴而就事情,
應(yīng)該是個逐步演進過程商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第3頁思索點發(fā)生發(fā)覺響應(yīng)全部恢復(fù)時間故障發(fā)覺故障響應(yīng)故障修復(fù)開始處理故障定位提升故障
發(fā)覺率提升故障處理速度降低故障率目標(biāo)故障預(yù)防過程商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第4頁
Agenda怎樣提升故障處理速度怎樣提升故障發(fā)覺率怎樣降低故障率123商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第5頁故障響應(yīng)規(guī)范應(yīng)急處理預(yù)案這些都做了,還有提升空間嗎?
準(zhǔn)確識別故障響應(yīng)時間目標(biāo)與辦法
快速判斷
故障定位時間
快速執(zhí)行故障修復(fù)時間?????7*24值班規(guī)范
?
分析數(shù)據(jù)及圖表
?
流量切換工具
?
報警內(nèi)容
?
服務(wù)降級工具職責(zé)與分工
?
故障運維手冊
?
數(shù)據(jù)修復(fù)工具故障預(yù)演
?
任務(wù)修復(fù)工具?
回滾工具?
數(shù)據(jù)提取工具?
……商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第6頁主要受哪些影響原因
影響原因
1、新手2、故障處理步驟繁雜
應(yīng)對方法優(yōu)化報警內(nèi)容,使報警內(nèi)容變得可依賴。報警內(nèi)容除了匯報問題,還將故障判斷和處理方法附在其中。
利用數(shù)據(jù)任務(wù)調(diào)度管理系統(tǒng),
對數(shù)據(jù)任務(wù)進行統(tǒng)一管理商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第7頁優(yōu)化報警內(nèi)容該報警對應(yīng)運維專員聯(lián)絡(luò)方式該報警對應(yīng)開發(fā)人員聯(lián)絡(luò)方式降低對運維人員經(jīng)驗依賴,使得新人和值班人員都能夠快速處理商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第8頁靈活配置報警內(nèi)容降低維護成本,提升工作效率商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第9頁繁雜數(shù)據(jù)故障處理存在問題:?
不能快速識別哪些任務(wù)失敗了,影響了誰?
一個任務(wù)失敗會造成多個任務(wù)失敗,每個任務(wù)任務(wù)都會發(fā)一個報警?
處理多個任務(wù)失敗時,需要人工確認(rèn)修復(fù)次序,還要等候每個任務(wù)執(zhí)
行完成后再人工執(zhí)行下一個?
假如所需數(shù)據(jù)源存在短暫延遲到位,會造成任務(wù)執(zhí)行失敗并報警,有
時會對運維人員產(chǎn)生干擾ABCDEFGHIJKLM…商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第10頁繁雜數(shù)據(jù)故障處理數(shù)據(jù)任務(wù)調(diào)度管理系統(tǒng):?
實時自動可視化數(shù)據(jù)任務(wù)關(guān)系圖?
能快速識別哪些執(zhí)行失敗及影響范圍?
父節(jié)點任務(wù)失敗后報警,子任務(wù)節(jié)點不再執(zhí)行(也不會報警)?
恢復(fù)關(guān)鍵路徑節(jié)點任務(wù)時,只需選擇帶依賴執(zhí)行,后續(xù)子節(jié)點任務(wù)會
自動執(zhí)行,無需人工干預(yù),等候?
支持每個任務(wù)自定義重試次數(shù)和間隔,假如任務(wù)所需數(shù)據(jù)源存在延遲
提供現(xiàn)象,不會馬上報警,直到抵達最大重試次數(shù)為止,降低對運維
人員干擾ABCDEFGHIJMLK……商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第11頁繁雜數(shù)據(jù)故障處理商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第12頁
Agenda怎樣提升故障處理速度怎樣提升故障發(fā)覺率怎樣降低故障率123商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第13頁????????網(wǎng)絡(luò)連通性機器存活遠(yuǎn)程可達丟包檢測容量監(jiān)控磁盤故障磁盤壞道內(nèi)存條檢測基礎(chǔ)資源類完善監(jiān)控指標(biāo)
常規(guī)業(yè)務(wù)類自定義業(yè)務(wù)類????端口進程Curl工作日志????????任務(wù)始止類關(guān)鍵組件監(jiān)控一致性類跨界類監(jiān)控數(shù)據(jù)流監(jiān)控超時/延時類失敗率/成功率……商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第14頁自定義業(yè)務(wù)類監(jiān)控…………商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第15頁監(jiān)控項低位警界限
業(yè)務(wù)系統(tǒng)健康度趨勢
高位警界限
監(jiān)
控
項加強關(guān)注!
加強關(guān)注!商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第16頁造成
全方面短信報警過多產(chǎn)生麻木心理商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第17頁
降噪?監(jiān)控系統(tǒng):300+?監(jiān)控實例:0+?運維人員短信接收:人均天天6條?報警策略?報警分層?精準(zhǔn)下發(fā)取得效果采取伎倆商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第18頁報警分層網(wǎng)段可用機器存活遠(yuǎn)程可達業(yè)務(wù)類ABCDEFGHIJMLK……數(shù)據(jù)依賴任務(wù)商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第19頁報警精準(zhǔn)下發(fā)運維值班1運維值班2運維專員1運維專員2運維專員3運維專員4運維專員N開發(fā)人員1開發(fā)人員2開發(fā)人員N商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第20頁商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第21頁
Agenda怎樣提升故障處理速度怎樣提升故障發(fā)覺率怎樣降低故障率123商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第22頁它山之石,能夠攻玉商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第23頁數(shù)聽說話有針對性推進改進!
防止重復(fù)性故障!商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第24頁代碼公布是故障導(dǎo)火索
上線次數(shù)趨勢圖異常處理趨勢圖推進開發(fā)人員有針對性處理
?
程序Bug
?
設(shè)計缺點
?
代碼配置
?
布署問題商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第25頁變更操作是故障導(dǎo)火索?????業(yè)務(wù)模塊新增機器機房遷移,變更IP機器故障更換下線業(yè)務(wù)模塊……??????維護系統(tǒng)配置布署相關(guān)監(jiān)控維護應(yīng)用環(huán)境及配置維護訪問控制關(guān)系更新代碼配置(研發(fā)人員)……常見運維變更包括哪方面操作包括大量IP、訪問關(guān)系等信息,操作繁雜!商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第26頁機器
1機器
2…機器N……………………系統(tǒng)配置監(jiān)控策略訪問關(guān)系其它
操作繁雜,易犯錯某個業(yè)務(wù)抽象運維對象降低人工干預(yù)優(yōu)化技術(shù)架構(gòu)商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第27頁抽象運維對象機器
1機器
2…機器N系統(tǒng)配置監(jiān)控策略訪問關(guān)系系統(tǒng)配置監(jiān)控策略訪問關(guān)系A(chǔ)ppID機器1機器2…機器N……………………其它運維人員之前之后級別等
……商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第28頁配置策略服務(wù)管理……報警策略監(jiān)控策略…自動機制機器列表
新機器發(fā)覺
自動生成監(jiān)控項
基礎(chǔ)監(jiān)控布署
App1機器1
…
機器N策略變更嗅探
通用配置分發(fā)
私有監(jiān)控布署
……
App2
機器1
…
機器N自動生成配置策略樹 私有配置分發(fā)自動更新發(fā)布目地 AppN 機器1…機器N機器規(guī)模越大效果越顯著1.
當(dāng)某App中有新機器
到位時,會對該機器
自動布署相關(guān)系統(tǒng)
配置、監(jiān)控項,同時
自動更新對應(yīng)App
代碼公布地址列表2.
當(dāng)某個App有系統(tǒng)配
置更新、監(jiān)控策略更
新時,會下發(fā)到全部
相關(guān)機器
降低人工干預(yù)只需針對Appid設(shè)置一次相關(guān)策略,其它工作全部自動完成商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第29頁…………機器11機器12…機器1NApp1機器21機器22…機器2NApp2機器31機器32…機器3NApp3機器41機器42…機器4NApp4機器51機器52…機器5NApp5機器61機器62…機器6NApp6機器71機器72…機器7NApp7機器81機器82…機器8NApp8
應(yīng)用間復(fù)雜且不透明訪問關(guān)系服務(wù)端要確認(rèn)被哪些客戶端訪問,才能確保正確開通訪問白名單:機器+接口+方法機器11、機器12……機器1N機器31、機器32……機器3N機器61、機器62……機器6N客戶端需要訪問服務(wù)端:機器11、機器12……機器1N機器21、機器22……機器2N商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第30頁規(guī)范化后開發(fā)架構(gòu)
客戶端(服務(wù)使用者)
服務(wù)端(服務(wù)提供者)1.2.3.4.5.人工在管理界面中進行服務(wù)注冊與維護,管理服務(wù)端及接口,以及客戶端對哪些接口訪問等客戶端開啟時獲取服務(wù)端機器及URL列表服務(wù)端開啟時獲取訪問控制列表服務(wù)端及接口發(fā)生變更時自動推送給客戶端,更新調(diào)用服務(wù)器機器及URL列表客戶端及接口發(fā)生改變時自動推送給服務(wù)端更新訪問控制列表
RPC協(xié)議客戶端代理
RPC協(xié)議客戶端代理…
RPC協(xié)議服務(wù)端代理客戶端代理負(fù)載均衡器并發(fā)訪問攔截器
白名單攔截器
服務(wù)對象代理3524
管理UI
1
服務(wù)注冊
中心服務(wù)治理框架層RPC協(xié)議層業(yè)務(wù)層商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第31頁…………機器11機器12…機器1NApp1機器21機器22…機器2NApp2機器31機器32…機器3NApp3…機器5N
App5機
機器
器5
51
2…機器6N
App6機
機器
器6
61
2小范圍試點,效果顯著,推廣使用訪問控制、自動路由、負(fù)載均衡
假如App1有新機器到位:
?
框架會自動通知App5、App6全部機器,
App1已經(jīng)有新機器為他們提供服務(wù),各機器
自動將請求均衡落到App1各臺機器上
?
同時,自動通知App2全部機器,有新機
器需要納入到他們訪問白名單
自動容錯、負(fù)載均衡假如App2有機器宕機:?
框架會自動通知訪問它App1、App3、
App6全部機器,App2有機器故障已不能
提供服務(wù)?
各機器訪問請求不再向故障機器發(fā)送,并
自動將請求均衡落到App2存活機器上商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第32頁
War
OrRPM標(biāo)準(zhǔn)化公布方式App1機器
1機器
1機器N機器N機器分組A
機
…
器
2機器分組B
機
…
器
2
自動布署重啟
回滾
檢驗一致性安裝
卸載開啟
停頓主任務(wù)子任務(wù)
War
OrRPMApp2………………商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第33頁商業(yè)平臺業(yè)務(wù)運維實踐培訓(xùn)資料第34頁從救火走向防火發(fā)生發(fā)覺響應(yīng)全部恢復(fù)時間故障發(fā)覺時間故障響應(yīng)時間故障修復(fù)時間開始處理故障定位時間
提升故障發(fā)覺率(及時全方面準(zhǔn)確)提升故障處理速度
(快速有效)
降低故障率(有效防御)
數(shù)據(jù)修復(fù)工具流量切換工具服務(wù)降級工具回滾工具數(shù)據(jù)提取工具……
職責(zé)與分工7*24值班規(guī)范
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 彩鋼房基礎(chǔ)防水施工方案
- 裝配式預(yù)留預(yù)埋施工方案
- 玻璃鋼除塵凈化塔施工方案
- 合盛包裝科技(徐州)有限公司玻璃瓶包裝裝潢及配套件加工項目環(huán)境影響報告表
- 保亭縣大件垃圾及園林垃圾破碎分揀及建筑垃圾轉(zhuǎn)運調(diào)配場項目環(huán)評報告表
- 超高速切削機床項目風(fēng)險識別與評估綜合報告
- 陽泉直埋式保溫管施工方案
- 場地平整及強夯施工方案
- 施工方案編制格式
- 湖北省黃岡市部分學(xué)校2024-2025學(xué)年九年級下學(xué)期入學(xué)化學(xué)試題(原卷版+解析版)
- 人教版2024-2025學(xué)年數(shù)學(xué)八年級下學(xué)期 16.2二次根式的乘除法同步練習(xí)【基礎(chǔ)練】(含答案)
- 2025高考誓師大會校長講話:最后100天從“青銅”逆襲成“王者”
- 《兒童繪本創(chuàng)編與應(yīng)用》課件 第1講 兒童繪本-緒論
- 2024-2025學(xué)年第二學(xué)期國旗下講話稿及安排
- 2025年天翼云解決方案架構(gòu)師認(rèn)證考試指導(dǎo)題庫-下(多選、判斷題)
- 2024年甘肅省白銀市中考數(shù)學(xué)試卷(附答案)
- 煤礦機電維護工職業(yè)技能理論考試題庫150題(含答案)
- 《走進汽車》課件
- 中國充電樁行業(yè)運營趨勢及投資價值評估研究報告
- 2025年小紅書品牌博主合作合同
- 2025年華能銅川照金煤電有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論