版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 企業(yè)開源監(jiān)控平臺實踐高可用架構 微信號 ArchNotes功能介紹 高可用架構公眾號。提起監(jiān)控,相信大家都不陌生。從馬路上的監(jiān)控探頭、手機地圖的實時路況到特斯拉的自動駕駛傳感器,監(jiān)控無處不在。設想有一天,路上的監(jiān)控攝像頭都消失了,你還放心讓孩子一個人過馬路嗎?IT運維領域也是一樣,為保證系統(tǒng)的正常運行,便于運維人員及時了解當前狀態(tài),必須建設一套完整的監(jiān)控體系。假設IT運維沒有監(jiān)控,必然導致事故頻發(fā)(CPU/內存使用率、進程狀態(tài)無從知曉)、debug困難(無法定位問題原因)、產品推廣緩慢(用戶指標、實時業(yè)務無法知曉)。到頭來,怎么死的都不知道!筆者就職于中國人壽數據中心,負責智能監(jiān)控系統(tǒng)建設,
2、在長期的工作中對監(jiān)控體系建設有一些心得體會,愿與大家分享。一、監(jiān)控體系的金字塔結構我們先來談談IT運維的監(jiān)控結構。這里說的IT運維監(jiān)控,是在機房基礎建設之上的,不包括機房的風、水、電等基礎建設的監(jiān)控。IT運維監(jiān)控主要分為三大領域:基礎環(huán)境監(jiān)控、安全監(jiān)控、應用監(jiān)控?;A環(huán)境監(jiān)控指針對數據中心所有運行的服務器、數據庫、存儲、網絡設施的運行狀態(tài)的監(jiān)控,如CPU/內存/磁盤空間使用率、網絡延遲、帶寬占用、數據庫死鎖、磁盤IOPS等,可理解為IaaS層的監(jiān)控;安全監(jiān)控包括對內網用戶訪問的審計和外部攻擊的監(jiān)控等。對于金融企業(yè)而言,信息安全永遠是最重要的話題之一,所以要單獨把安全監(jiān)控列出來,作為單獨的一個領
3、域;應用監(jiān)控是在基礎和安全監(jiān)控之上的領域,側重應用系統(tǒng)的運行指標,如訪問量、交易時長、交易占比、業(yè)務指標等,可理解為PaaS或SaaS層的監(jiān)控。尤其是業(yè)務指標,每個系統(tǒng)的功能不一樣,有業(yè)務系統(tǒng)、有客戶服務系統(tǒng)、有辦公系統(tǒng),關注的業(yè)務指標也不一而足。因此,除了些共性的指標,針對每一個應用系統(tǒng)設計不同的監(jiān)控指標,也是一件龐大而復雜的工作。基礎環(huán)境監(jiān)控、安全監(jiān)控、應用監(jiān)控室最主要的三大領域,撐起這些領域的,是廣泛部署的監(jiān)控探針。就像汽車的傳感器,道路的攝像頭一樣,探針作為監(jiān)控系統(tǒng)的末梢,接入大量的被采集服務器,肩負起了獲取最原始監(jiān)控數據的重任。再好的監(jiān)控算法、再牛X的實時計算平臺,若原始數據都無法準
4、確、實時獲取,都是白費。很多人問筆者如何衡量一套監(jiān)控系統(tǒng)的好壞,筆者的回答是,先看探針!圖一、監(jiān)控系統(tǒng)的金字塔體系二、智能預警金字塔頂的明珠探針、三大監(jiān)控領域(基礎環(huán)境、安全、應用)共同組成了中國人壽的IT監(jiān)控金字塔體系,不過我們不能忘了,在塔的頂端,還有一個領域,這就是需要著重強調的智能預警。前文提到的監(jiān)控,均是在系統(tǒng)發(fā)生故障后或指標達到預設的閾值后才發(fā)出告警,閾值是事先固定的,例如java進程down,CPU使用率超過85%等,是一個固定的值,不會隨著系統(tǒng)及時間的變化而變化。固定值會有一個問題:假如我們設定CPU使用率超過85%就告警,那么請問系統(tǒng)在凌晨沒什么人使用的時候,CPU使用率超過
5、了50%,系統(tǒng)是正常還是異常的?按照固定閾值算法,CPU使用率未超過85%,系統(tǒng)正常,不觸發(fā)告警。但是用常識想一想,業(yè)務閑時系統(tǒng)的CPU使用率也超過50%,明顯不正常??!這個問題怎么破?有人會說,把告警閾值動態(tài)調整,閑時設低一點,忙時設高一點。這個想法不錯,但是會有兩個問題:1、怎么識別閑時和忙時?2、每個指標都動態(tài)調整的話,自定義的量太大。所以,智能預警就非常重要。簡單地說,所謂智能預警,就是根據該指標歷史數據,動態(tài)調整當前的告警閾值,做到早發(fā)現(xiàn)、早追蹤、早處理。智能預警引入了時間的維度,利用大數據和實時計算技術,將之前幾周甚至幾個月的指標進行聚合計算,得出當前時間的動態(tài)告警閾值,并根據時間
6、的變化而不斷調整。如果說監(jiān)控是看現(xiàn)在,那么智能預警就是觀過去,測未來。別小看智能預警,中國人壽自主開發(fā)的智能預警系統(tǒng)“響尾蛇”,在2016年成功預測了12起潛在的故障,避免了嚴重的生產事故。圖二、中國人壽預警系統(tǒng)“響尾蛇”智能預警系統(tǒng)三、監(jiān)控的平臺化思路監(jiān)控系統(tǒng)是一個統(tǒng)一的平臺,其輸入為各種原始監(jiān)控數據和配置信息,輸出為各類業(yè)務和告警信息,監(jiān)控系統(tǒng)負責將輸入數據經過處理和計算,輸出需要的信息。監(jiān)控系統(tǒng)平臺化架構如下圖所示:圖三、監(jiān)控系統(tǒng)的平臺化思路其中輸入的監(jiān)控數據可通過本地、遠程或手工錄入的方式獲取,配置信息(服務器類別、用途、通知人、聯(lián)系方式等)從CMDB獲取;輸出的信息除發(fā)送至短信、郵件
7、系統(tǒng)外,也可以通過REST API供第三方系統(tǒng)調用,或對接自動化運維平臺。平臺化架構的優(yōu)勢在于開放。除了監(jiān)控系統(tǒng)配套的探針傳來的數據,也可以通過API接收合規(guī)的第三方的數據,大大拓展了監(jiān)控平臺的業(yè)務場景。四、中國人壽的監(jiān)控選型市場上的監(jiān)控產品種類繁多,收費的有,開源的也有。中國人壽根據自身特點,結合長期的運維經驗,走出了最適合自身的一條監(jiān)控選型道路?;A環(huán)境監(jiān)控方面,我們選用了zabbix。眾所周知,在開源的服務器和網絡監(jiān)控產品中,zabbix是較為突出的一個。它具有自主發(fā)現(xiàn)服務器、分布式監(jiān)控、可視化配置等功能。同時zabbix社區(qū)會員眾多,一般的問題都可以直接解決。同時,我們針對zabbix
8、進行了二次開發(fā),增加了諸如統(tǒng)一告警頁面、對接cmdb、對接云助理(一款內部辦公軟件)等功能。目前zabbix已接入近萬臺服務器,為中國人壽基礎環(huán)境穩(wěn)定運行提供監(jiān)控保障。安全監(jiān)控方面,我們采用了ELK技術棧對大量的安全設備日志進行統(tǒng)一采集和管理。ELK是ElasticSearch、Logstash、Kibana三款開源系統(tǒng)的統(tǒng)稱,其一般作為套件統(tǒng)一使用,提供日志檢索服務。作為國內市值最大的保險集團,我們每天都會受到大量的外部網絡攻擊,部署的安全設備每天會生成大量的防護日志。因為品牌不同,日志格式不一致,監(jiān)控界面也不盡相同。因此,我們以ELK為核心,將分布在各品牌安全設備中的日志統(tǒng)一收集,統(tǒng)一展現(xiàn)
9、,統(tǒng)一管理,提高了公司整體的安全防護能力。圖四、中國人壽安全監(jiān)控“大黃蜂”安全監(jiān)控應用監(jiān)控方面,針對不同的業(yè)務場景,我們選用了兩套不同的方案。對于運維人員,我們采用了和安全監(jiān)控相同的ELK方案,并在此基礎上增加了Filebeat作為agent,采集應用系統(tǒng)的access log和server log,并根據統(tǒng)一模板定制展示。ElasticSearch強大的實時搜索能力可在毫秒內搜索上億的業(yè)務日志信息,為告警和展現(xiàn)提供強有力的引擎支撐。同時,我們也自開發(fā)了遠程采集接口,可以做到無agent監(jiān)控,減少對被管機的壓力。圖五、中國人壽應用監(jiān)控“全球鷹”應用監(jiān)控(應用監(jiān)控界面)針對業(yè)務管理人員,我們自開發(fā)了業(yè)務監(jiān)控系統(tǒng),展現(xiàn)渠道保費、區(qū)域分布、用戶數量、訪問量等信息,便于管理層實時決策;同時大屏監(jiān)控系統(tǒng)在每年開門紅期間(保險業(yè)的“雙十一”)提供強大的業(yè)務決策支撐。圖六、中國人壽應用監(jiān)控“全球
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年奉林公司技術改造及擴產項目可行性研究報告
- 2024-2030年基因工程霍亂疫苗藥品搬遷改造項目可行性研究報告
- 2024-2030年國家甲級資質:中國移動式自凈器融資商業(yè)計劃書
- 2024-2030年內外胎熱補機公司技術改造及擴產項目可行性研究報告
- 2024-2030年全球及中國貴金屬化學品行業(yè)運行態(tài)勢及供應情況預測報告~
- 2024年度圖書采購合同:圖書館特色活動配套圖書與數字資源采購協(xié)議3篇
- 2024-2030年全球及中國樹脂定量分配機行業(yè)需求態(tài)勢及前景規(guī)劃分析報告
- 2024-2030年全球及中國射頻除霜機行業(yè)發(fā)展態(tài)勢及應用前景預測報告
- 2024-2030年全球及中國吸引式藥物輸送設備行業(yè)需求動態(tài)及投資前景展望報告
- 2024-2030年云計算公司技術改造及擴產項目可行性研究報告
- 腦機接口技術在教育領域的應用前景
- 鐵路檢車員個人工作總結2篇
- 勞動防護用品的使用和維護安全培訓
- 京東財務部門組織架構
- 土壤污染治理與修復
- 保健品“番茄紅素軟膠囊”的研發(fā)-醫(yī)學資料
- 北京市石景山區(qū)2023-2024學年六年級上學期期末語文試卷
- 天津市和平區(qū)第一中學2023-2024學年八年級上學期期末英語試卷
- 組裝簡易太陽能小車
- 2023年天津中學業(yè)水平合格性考試物理試卷試題(含答案詳解)
- 廣東省深圳市2022-2023學年五年級上學期數學期末考試試卷(含答案)5
評論
0/150
提交評論