騰訊海量監(jiān)控包袱與創(chuàng)新_第1頁
騰訊海量監(jiān)控包袱與創(chuàng)新_第2頁
騰訊海量監(jiān)控包袱與創(chuàng)新_第3頁
騰訊海量監(jiān)控包袱與創(chuàng)新_第4頁
騰訊海量監(jiān)控包袱與創(chuàng)新_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、騰訊海量監(jiān)控包袱與創(chuàng)新騰訊 技術(shù)運(yùn)營重點(diǎn)監(jiān)控體系自動化能力架構(gòu)分布短信告警 5 萬條/天單人最高1500條/天監(jiān)控實(shí)例監(jiān)控系統(tǒng)指標(biāo)數(shù)告警量人均告警量900W2030040000500騰 訊 正 在 做 哪 些 監(jiān) 控有 哪 些 不 一 樣 的 地 方有 哪 些 值 得 關(guān) 注 點(diǎn)在監(jiān)控領(lǐng)域有三個主題快、準(zhǔn)、全 他們永遠(yuǎn)是矛盾的,調(diào)和矛盾成了運(yùn)維 技術(shù)或藝術(shù)正在做哪些監(jiān)控用戶瀏覽器終端APP邏輯Svr(S+,So)Web Svr(Qzhttp,Apache)DNS解析域名獲得實(shí)際IPCacheSvr(CMEM/CKV)DB Svr (CDB/TDB)CDN代理(Qhttpd)LVS/TGW-測速

2、-返回碼-錯誤碼IDC Speed IDC Probe-CDN自動化測試-CDN一致性監(jiān)控-基調(diào)模調(diào)模調(diào)自動化 測試組件監(jiān)控組件監(jiān)控組件監(jiān)控LDNSDBC監(jiān)控容基量礎(chǔ)監(jiān)網(wǎng)控管組件監(jiān)控自動化 測試LD監(jiān)控變更體檢報告入侵/攻擊監(jiān)控Ut客戶端上報 xN監(jiān)控體系演進(jìn)N:網(wǎng)絡(luò)質(zhì)量監(jiān)控B:網(wǎng)管基礎(chǔ)監(jiān)控A:自動化測試M:模塊間調(diào)用S:測速系統(tǒng)W:站點(diǎn)分析系統(tǒng)m:模塊監(jiān)控 L:容量管理l:L5組件監(jiān)控 Y:一致性Monitor特性監(jiān)控S:QZ組件監(jiān)控F:設(shè)備特性監(jiān)控R:返回碼監(jiān)控C:CDN監(jiān)控P:Ptlogin監(jiān)控D:存儲質(zhì)量H:客戶端環(huán)境R:ROOT根源分析I:華佗移動端分析Q:輿情監(jiān)控G:日志大數(shù)據(jù)分析

3、U:UIN染色分析DLP核心指標(biāo)Habo多維分析Q調(diào)撥測監(jiān)控 移動端卡慢 全鏈路日志20062007200920112013201420152016覆蓋完整用戶端監(jiān)控服務(wù)內(nèi)監(jiān)控業(yè)務(wù)側(cè)監(jiān)控測速核心產(chǎn)品指標(biāo)模塊間調(diào)用返回碼各緯度業(yè)務(wù)指標(biāo)L5失敗率自動化測試攻擊防御組件監(jiān)控基調(diào)輿情監(jiān)控強(qiáng)制一致性移動分析(mua)html5Gslb、lvs基礎(chǔ)資源丟包斷線死機(jī)重啟硬件故障容量監(jiān)控業(yè)務(wù)增長 VS 監(jiān)控系統(tǒng)發(fā)展客戶端、數(shù)據(jù)層監(jiān) 控 覆蓋 率 弱 ;系統(tǒng)建設(shè)離散,監(jiān) 控 數(shù)據(jù) 分 散 ;綜合 分析 能力弱 , 定 位 時 間 長 ;告警數(shù)量過多 ;多、大、雜2009年2010年2014年2017年主要監(jiān)控系

4、統(tǒng)數(shù)91120+18主要監(jiān)控指標(biāo)數(shù)132178300+400監(jiān)控實(shí)例數(shù)-45w900w2000w基礎(chǔ)告警數(shù)/天1923003000+5000+業(yè)務(wù)告警數(shù)/天3623903.9w4.97w個人告警量/天(包含運(yùn)維開發(fā))-最大:177平均:13500+1500184有哪些不一樣的地方放下包袱來 創(chuàng)新不是破舊立新而是尊重歷史堅決優(yōu)化歷史演進(jìn)中的架構(gòu)落后ROOT 根源智能分析法基于業(yè)務(wù)架構(gòu),結(jié)合數(shù)據(jù)流關(guān)系,通過時間相關(guān) 性、面積權(quán)重等算法,將監(jiān)控告警進(jìn)行篩選分類, 發(fā)掘有業(yè)務(wù)價值的告警,并直接分析給出告警根源ROOT原理 : 多維關(guān)系降維ROOT原理 : 告警疊加時間片與時間相關(guān)性原因告警、現(xiàn)象告警原

5、因告警:往往是造成故障的根源,卻往往無需處理現(xiàn)象告警:故障的結(jié)果,往往看不出根源,需要分析持續(xù)告警、波動告警、關(guān)聯(lián)告警持續(xù)告警:不緊急、不重要波動告警:業(yè)務(wù)重要性決定告警重要性關(guān)聯(lián)告警:有因有果,即時處理分類篩選和選擇性處理持續(xù)告警, 65.0%波動告警, 24.1%關(guān)聯(lián)告警, 9.2%1、鏈路中告警模塊數(shù)=1長=1(只有一個模塊告警時固定為1),寬=(1+告警模塊所在鏈路的序號除以鏈路總模塊數(shù)),面積=長*寬=1*(1+(iarr+1)/lnkcout)*100a、1-0-0-0,b、0-1-0-0,c、0-0-0-1,權(quán)重面積=1*(1+(0+1)/4)*100=125; 權(quán)重面積=1*(

6、1+(1+1)/4)*100=150; 權(quán)重面積=1*(1+(3+1)/4)*100=200;備注:鏈路中只有一個模塊告警,并且結(jié)合業(yè)務(wù)鏈路生成的特性,告警模塊越靠后,權(quán)重面積越大;2、鏈路中告警模塊數(shù)1長=鏈路中連著告警模塊的最大個數(shù)(iarrmax),寬=連著或不連著告警模塊寬都為1+1/(連著不告警的模塊個數(shù)),面積=長*寬=iarrmax*(1+1/N+)*100a、1-0-0-0-1,b、1-0-0-1-0,c、1-1-0-0-1,d、1-1-0-1-0,e、1-1-0-0-1-1-0-0-1,f、1-1-0-0-1-1-0-1-1,g、1-1-1-0-1-0-0-1-1,權(quán)重面積=

7、1*(1+1/3+1)*100=233; 權(quán)重面積=1*(1+1/2+1)*100=250; 權(quán)重面積=2*(1+1/2+1)*100=500; 權(quán)重面積=2*(1+1/1+1)*100=600;權(quán)重面積=2*(1+1/2+1+1/2+1)*100=800; 權(quán)重面積=2*(1+1/2+1+1/1+1)*100=900; 權(quán)重面積=3*(1+1/1+1+1/2+1)*100=1350;3、特殊情況:1、鏈路中,前面模塊都沒有告警,但最后模塊連著告警(相當(dāng)于鏈路中全模塊告警),權(quán)重面積*10;2、鏈路中,模塊全告警,權(quán)重面積*10;a、0-0-0-1-1,b、1-1-1-1-1,權(quán)重面積=(2*

8、1*100)*10=2000; 權(quán)重面積=(5*1*100)*10=5000;算法案例DLP業(yè)務(wù)生死指標(biāo)衡量業(yè)務(wù)死、活的指標(biāo)無閥值設(shè)定,完全根據(jù)指標(biāo)值做波動判斷 一個服務(wù)只能有一個生死指標(biāo)不建議用業(yè)務(wù)指標(biāo)做生死指標(biāo)自定義-告警泛濫的罪魁禍?zhǔn)?3-3無閥值設(shè)定,完全根據(jù)指標(biāo)值做波動判斷一個服務(wù)只能有一個生死指標(biāo)DLP案例跟蹤警聚聯(lián)比構(gòu)告匯關(guān)對架關(guān)聯(lián)計算自身故障/變更網(wǎng)絡(luò)故障公告DBC故障公告關(guān)聯(lián)鏈路告警幫業(yè)務(wù)組織數(shù)據(jù)全鏈路監(jiān)控?zé)o接入門檻的數(shù)據(jù)組織方式不把數(shù)據(jù)多當(dāng)包袱界定數(shù)據(jù)的生產(chǎn)者 與 消費(fèi)者幫助生產(chǎn)者消費(fèi)數(shù)據(jù)一條消息在系統(tǒng)內(nèi)的51個狀態(tài)早期染色監(jiān)控業(yè)務(wù)格式數(shù)據(jù) 織云輿情監(jiān)控現(xiàn)網(wǎng)各類日志織云多維

9、監(jiān)控織云基礎(chǔ)監(jiān)控 織云特性監(jiān)控 其他已有數(shù)據(jù)源織云日志中心兼容各種數(shù)據(jù)源E l a s t i c s e a r c h篩 選&轉(zhuǎn) 意 預(yù)處 理抽 取 公 共 特 性預(yù) 計 算 大 盤 值展 現(xiàn)&告 警全鏈路分析監(jiān)控平臺各類數(shù)據(jù)的再利用數(shù)據(jù)中挖掘各種緯度收到用戶反饋織云查該日志舉個栗子吧至此:根因是用戶進(jìn)了機(jī)場后,因wifi開關(guān)開啟,自動試連,并跳轉(zhuǎn)登陸界面驗證分析結(jié)果跟進(jìn)時代,踐行機(jī)器學(xué)習(xí)海量業(yè)務(wù)的監(jiān)控優(yōu)勢 機(jī)器該學(xué)習(xí)什么教機(jī)器正確學(xué)習(xí)咖啡運(yùn)維運(yùn) 維 需 要 這 么 多 技 能 嗎狹義人工智能。對于特定任務(wù),這樣的技術(shù)能做得像人類一樣好,甚至更好視頻 圖像 文本推薦20122015AI 走

10、向咖啡運(yùn)維之路趨勢、對比、波動、閥值、分布、聚類常見的分析模型重新檢視ROOT、DLP、全鏈路DLPROOT全鏈路基于架構(gòu) 基于經(jīng)驗 基于概率基于規(guī)范基于分工基于數(shù)據(jù) 基于模型收斂告警事件產(chǎn)生告警事件提高事件處理能力織云輿情監(jiān)控 + AI客服數(shù)據(jù)積累問題發(fā)現(xiàn)問題處理第一個階段機(jī)器學(xué)習(xí) 之 文本圖像相似性機(jī)器學(xué)習(xí) 之 圖像第二個階段如何告訴AI規(guī)則是什么如果用了自動找出來的歷史告警,模型就會學(xué)成歷史告警的策略 = nothing有監(jiān)督學(xué)習(xí)告警第三個階段機(jī) 器 學(xué) 習(xí)告訴AI數(shù)據(jù)的意義第四個階段有哪些有值得關(guān)注點(diǎn)監(jiān)控是 平臺也是 產(chǎn)品更重要是 運(yùn)營快準(zhǔn)全無遺漏 覆蓋廣即時性 告警快告警準(zhǔn) 誤告少如果監(jiān)控是產(chǎn)品穩(wěn)強(qiáng)易如果監(jiān)控是平臺 指標(biāo)閉環(huán)生態(tài)如何運(yùn)營監(jiān)控指標(biāo)很具體SMART可衡量可達(dá)到可觀察有時間DLP告警 = 服務(wù)異常服務(wù)異常 x DLP告警時間 = 服務(wù)不可靠性SUM ( 服務(wù)可靠性,) = 業(yè)務(wù)不可靠性業(yè)務(wù)不可靠性/一段時間(如月,年)= 業(yè)務(wù)可靠性指標(biāo)(年,月)可橫向?qū)Ρ扔汹厔葑兓梢阅繕?biāo)明確閉環(huán)發(fā)起跟進(jìn)技術(shù) 解決結(jié)單 反饋分析 總結(jié)持續(xù) 改進(jìn)監(jiān)控發(fā)現(xiàn)業(yè)務(wù)可靠性/質(zhì)量 提升生態(tài)自動化測試摸調(diào)摸調(diào)自動化測試摸調(diào)摸調(diào)自動化測試摸調(diào)摸調(diào)橫向業(yè)務(wù)指標(biāo)對比成功率ATT摸調(diào)monitor業(yè)務(wù)特性告警 組件監(jiān)控Crash /卡慢移動端監(jiān)控速度體驗APP H5測速web測速多媒體圖片 海外速

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論