企業(yè)IT事中故障處理關(guān)鍵環(huán)節(jié)如何控制_第1頁
企業(yè)IT事中故障處理關(guān)鍵環(huán)節(jié)如何控制_第2頁
企業(yè)IT事中故障處理關(guān)鍵環(huán)節(jié)如何控制_第3頁
企業(yè)IT事中故障處理關(guān)鍵環(huán)節(jié)如何控制_第4頁
企業(yè)IT事中故障處理關(guān)鍵環(huán)節(jié)如何控制_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

企業(yè)IT事中故障處理關(guān)鍵環(huán)節(jié)如何控制

【摘要】面對(duì)不斷復(fù)雜的生產(chǎn)環(huán)境,如何圍繞“故障發(fā)現(xiàn)、故障響應(yīng)、故障定位、故障恢復(fù)”四個(gè)關(guān)鍵環(huán)節(jié),進(jìn)行多方面統(tǒng)籌建設(shè),從而達(dá)到增加TBF和縮短TTR的目標(biāo)?TBF(無故障時(shí)長(zhǎng))和TTR(故障修復(fù)時(shí)長(zhǎng))是業(yè)務(wù)連續(xù)性管理兩個(gè)重要指標(biāo),故障處置管理的目標(biāo)就是為了最大限度的增加TBF和縮短TTR。在具體管理中,我們通常會(huì)根據(jù)故障應(yīng)急處置時(shí)間軸擴(kuò)展以下指標(biāo):MTBF(無故障時(shí)長(zhǎng))、MTTI(平均故障發(fā)現(xiàn)時(shí)長(zhǎng))、MTTK(故障定位時(shí)長(zhǎng))、MTTF(平均故障處理時(shí)長(zhǎng))、MTTR(平均故障響應(yīng)時(shí)長(zhǎng)),MTTF(平均故障恢復(fù)時(shí)長(zhǎng))的思路,從故障發(fā)生時(shí)間、發(fā)現(xiàn)時(shí)間、響應(yīng)時(shí)間、嘗試處置時(shí)間、診斷時(shí)間、生效應(yīng)急處置開始時(shí)間、故障恢復(fù)時(shí)間等梳理應(yīng)急處置的關(guān)鍵節(jié)點(diǎn)。通常,MTTI=發(fā)現(xiàn)時(shí)間-發(fā)生時(shí)間;MTTR=響應(yīng)時(shí)間-發(fā)現(xiàn)時(shí)間;MTTK=定位時(shí)間-發(fā)現(xiàn)時(shí)間;MTTF=恢復(fù)時(shí)間-定位時(shí)間。面對(duì)不斷復(fù)雜的生產(chǎn)環(huán)境,要增加TBF和縮短TTR的目標(biāo),需要圍繞“故障發(fā)現(xiàn)、故障響應(yīng)、故障定位、故障恢復(fù)”四個(gè)關(guān)鍵環(huán)節(jié),在人員技能、協(xié)同機(jī)制、工具平臺(tái)、數(shù)字化感知等方面進(jìn)行統(tǒng)籌建設(shè)。一、故障發(fā)現(xiàn)故障發(fā)現(xiàn)指生產(chǎn)故障或潛在風(fēng)險(xiǎn)被監(jiān)控等機(jī)器或運(yùn)維人員發(fā)現(xiàn)的過程,重點(diǎn)關(guān)注發(fā)現(xiàn)及時(shí)性。從故障發(fā)現(xiàn)角度看,主要包括監(jiān)控發(fā)現(xiàn)、協(xié)同發(fā)現(xiàn)、數(shù)據(jù)運(yùn)營三個(gè)方式。良好運(yùn)維組織的故障發(fā)現(xiàn)應(yīng)該大部分來自監(jiān)控等自動(dòng)化手段,甚至對(duì)一些確定性很強(qiáng)的故障進(jìn)行自愈行為。其次,當(dāng)前故障處置過程是一個(gè)多角色協(xié)同的場(chǎng)景,構(gòu)建在線協(xié)同網(wǎng)絡(luò)有助于提升協(xié)同效率,基于協(xié)同網(wǎng)絡(luò)建立高效的信息傳遞是當(dāng)前提升故障發(fā)現(xiàn)能力的重要手段。另外,隨著系統(tǒng)復(fù)雜性不斷提高,運(yùn)維組織也在推動(dòng)數(shù)據(jù)運(yùn)營分析工作,主動(dòng)的基于數(shù)據(jù)運(yùn)營推動(dòng)故障發(fā)現(xiàn)將是一個(gè)有力補(bǔ)充。1.監(jiān)控發(fā)現(xiàn)從人機(jī)協(xié)同角度看運(yùn)維管理,監(jiān)控相當(dāng)于給運(yùn)維團(tuán)隊(duì)分配了成千上萬上機(jī)器人,這些機(jī)器人駐扎在硬件、平臺(tái)軟件等對(duì)象中,7*24不間斷的采集指標(biāo)數(shù)據(jù),并將指標(biāo)的異常情況實(shí)時(shí)推送出來。監(jiān)控已經(jīng)是發(fā)現(xiàn)潛在風(fēng)險(xiǎn)或異常的源頭,推動(dòng)監(jiān)控發(fā)現(xiàn)的覆蓋面、準(zhǔn)確率、告警觸達(dá)能力的提升,是縮短故障發(fā)現(xiàn)時(shí)長(zhǎng)的關(guān)鍵舉措。以下從被動(dòng)監(jiān)控、上帝視角、主動(dòng)撥測(cè)三個(gè)角度分析如何提升監(jiān)控發(fā)現(xiàn)能力。1)被動(dòng)監(jiān)控此處強(qiáng)調(diào)“被動(dòng)”監(jiān)控是為了區(qū)別主動(dòng)監(jiān)控,指代傳統(tǒng)在基礎(chǔ)設(shè)施、硬件資源、平臺(tái)軟件、應(yīng)用可用性、客戶體驗(yàn)多個(gè)層級(jí)的監(jiān)控管理,以及統(tǒng)一的監(jiān)控告警管理。這類監(jiān)控方案通常是針對(duì)已知異常環(huán)節(jié),采集指標(biāo)數(shù)據(jù),配置監(jiān)控策略,以及觸發(fā)策略后將監(jiān)控告警統(tǒng)一推送到統(tǒng)一告警系統(tǒng)。對(duì)于源端監(jiān)控端強(qiáng)調(diào)“不漏報(bào)、少誤報(bào)”,實(shí)施上關(guān)注平臺(tái)能力建設(shè)與工具運(yùn)營兩點(diǎn):監(jiān)控平臺(tái)方面采用樂高式組合提升能力,比如缺性能監(jiān)控補(bǔ)充APM、NPM,提升監(jiān)控覆蓋面;工具運(yùn)營方面采用數(shù)據(jù)與機(jī)制運(yùn)營推動(dòng),監(jiān)控策略需要運(yùn)維人員在工作過程中,結(jié)合企業(yè)系統(tǒng)的實(shí)際特點(diǎn),在平臺(tái)通用監(jiān)控策略上持續(xù)的豐富針對(duì)性策略,運(yùn)維組織需要建立事件或任務(wù)觸發(fā)機(jī)制,比如事件復(fù)盤對(duì)監(jiān)控發(fā)現(xiàn)能力的分析,并通過主動(dòng)的監(jiān)控評(píng)審、監(jiān)控告警數(shù)據(jù)分析等運(yùn)營工作發(fā)現(xiàn)哪些系統(tǒng)監(jiān)控監(jiān)控的覆蓋面與誤報(bào)情況。2)上帝視角傳統(tǒng)被動(dòng)性的監(jiān)控管理是針對(duì)已知異常,進(jìn)行補(bǔ)丁式的增強(qiáng)監(jiān)控的方式持續(xù)完善的過程。但運(yùn)維面臨三個(gè)困難,一是隨著架構(gòu)復(fù)雜性越來越高,運(yùn)維組織面臨越來越多的的未知的故障;二是數(shù)據(jù)量與風(fēng)險(xiǎn)觸發(fā)因素增強(qiáng)后,單維指標(biāo)監(jiān)控監(jiān)控能力不足,而多維指標(biāo)讓人配置又面臨無法窮舉的問題;三是運(yùn)維對(duì)于故障發(fā)現(xiàn)已經(jīng)在可用性故障基礎(chǔ)上,增加了功能邏輯、數(shù)據(jù)類故障的發(fā)現(xiàn)要求,對(duì)于日志、鏈路的監(jiān)控發(fā)現(xiàn)能力要求越來越高。提出上帝視角是運(yùn)維組織需要借助算法、海量數(shù)據(jù)、平臺(tái)能力,構(gòu)建一個(gè)全數(shù)字化監(jiān)控感知的能力。這種感知能力需要盡量減少運(yùn)維打補(bǔ)丁式的增加細(xì)化的指標(biāo)策略,利用算法能力加深感知監(jiān)控深度,利用海量數(shù)據(jù)加大感知監(jiān)控廣度,利用平臺(tái)加快感知監(jiān)控的速度與窮舉的能力。當(dāng)然,當(dāng)前這種上帝視角對(duì)監(jiān)控發(fā)現(xiàn)的準(zhǔn)確率、覆蓋面仍需要一個(gè)提升的過程,應(yīng)該作為傳統(tǒng)監(jiān)控的一個(gè)補(bǔ)充手段,而非替代。3)主動(dòng)撥測(cè)主動(dòng)撥測(cè)監(jiān)控是采用模擬用戶訪問終端、域名、頁面URL、功能、API等,從客戶視角監(jiān)測(cè)功能可用性、感知用戶端體驗(yàn)、檢測(cè)網(wǎng)絡(luò)鏈路質(zhì)量,系統(tǒng)事務(wù)可用性,領(lǐng)先一步發(fā)現(xiàn)問題,提升客戶體驗(yàn)。在企業(yè)推動(dòng)以客戶體驗(yàn)為中心的數(shù)字化轉(zhuǎn)型中,撥測(cè)是監(jiān)控發(fā)現(xiàn)的一種有力補(bǔ)充。借助機(jī)器不間斷、自動(dòng)化執(zhí)行,提前設(shè)計(jì)好撥測(cè)執(zhí)行的腳本步驟,可幫助運(yùn)維執(zhí)行更細(xì)粒度的功能操作,主動(dòng)獲取應(yīng)用運(yùn)行的性能體驗(yàn)指標(biāo),更準(zhǔn)確地了解客戶訪問業(yè)務(wù)功能級(jí)的體驗(yàn),以及應(yīng)用層及網(wǎng)絡(luò)層性能。同時(shí),站在故障處置角度看撥測(cè),當(dāng)發(fā)生異常時(shí)將執(zhí)行過程進(jìn)行截圖留痕,還可以輔助快速定位問題。在撥測(cè)的解決方案中,通常包括公有云或私有化撥測(cè)方案,前者是通過撥測(cè)運(yùn)營商提供部署在世界或全國各地的撥測(cè)源進(jìn)行測(cè)試,用戶不需要管理撥測(cè)終端,只要根據(jù)SLA明確的時(shí)效性、次數(shù)等付費(fèi),就可以獲得撥測(cè)結(jié)果。私有化部署的撥測(cè)方案則運(yùn)維組織管理撥測(cè)涉及的服務(wù)器、終端設(shè)備等環(huán)境。運(yùn)維組織可以根據(jù)政策、風(fēng)險(xiǎn)、成本等維度考慮選擇不同的解決方案。2.協(xié)同反饋雖然我們希望故障盡量由機(jī)器自動(dòng)化發(fā)現(xiàn),但是隨著基礎(chǔ)架構(gòu)、應(yīng)用邏輯、業(yè)務(wù)邏輯越來越復(fù)雜,系統(tǒng)一個(gè)小模塊異常都可能導(dǎo)致系統(tǒng)自身甚至關(guān)聯(lián)系統(tǒng)的業(yè)務(wù)連續(xù)性故障,建立一個(gè)在線的協(xié)同網(wǎng)絡(luò),提升協(xié)同節(jié)點(diǎn)中業(yè)務(wù)、客戶、同業(yè)、開發(fā)、測(cè)試等團(tuán)隊(duì)的反饋的效率,仍然是故障發(fā)現(xiàn)的有力手段。1)業(yè)務(wù)、客戶、同業(yè)反饋理想情況下,應(yīng)盡量減少由業(yè)務(wù)與客戶側(cè)反饋的故障發(fā)現(xiàn)占比。但是現(xiàn)實(shí)中仍有部分故障,當(dāng)前監(jiān)控或運(yùn)營分析比較難實(shí)時(shí)發(fā)現(xiàn),比如功能邏輯性、數(shù)據(jù)準(zhǔn)確性等類別,這些故障雖然不會(huì)帶來全局性的可用性故障,但是站在以客戶為中心角度,此類故障對(duì)個(gè)別或部分客戶屬于可用性故障,尤其是對(duì)公重要客戶或權(quán)益類交易故障。針對(duì)這類故障,運(yùn)維要提前建立一個(gè)高效的信息反饋的渠道,基于用戶旅程梳理并建立全線上化的問題反饋是一個(gè)好的選擇,比如:將問題反饋整合在業(yè)務(wù)系統(tǒng)中,系統(tǒng)可以獲得快速獲知用戶反饋問題的熱點(diǎn)信息,并通知運(yùn)維處理;建立全線上化的服務(wù)臺(tái)、一線、二線的問題處理流程,問題反饋的業(yè)務(wù)人員可以在線獲知問題處理進(jìn)度,機(jī)器可以根據(jù)問題反饋時(shí)長(zhǎng)進(jìn)行線上督辦。另外,在企業(yè)內(nèi)部建立必要的信息系統(tǒng)即時(shí)通訊溝通群,方便公司內(nèi)業(yè)務(wù)人員的即時(shí)反饋,安排相應(yīng)的問題服務(wù)崗位正在被很多運(yùn)維組織接受。同業(yè)反饋是針對(duì)同類業(yè)務(wù)事故的一個(gè)比較好的方法。比如,銀行里涉及人行結(jié)算中心、銀聯(lián)、第三方支付、通信運(yùn)營商等;券商里涉及的交易所、銀行、通信運(yùn)營商、重點(diǎn)廠商等,通常事故會(huì)有一定的共性,如能建立實(shí)時(shí)的故障信息互通互聯(lián)的渠道,將有助于故障發(fā)現(xiàn)、定位、恢復(fù)決策與執(zhí)行。參考前面提到的企業(yè)內(nèi)容信息系統(tǒng)問題反饋的即時(shí)通訊群,提前建立行業(yè)間的即時(shí)通訊溝通群也很有必要,在預(yù)案中提前確定關(guān)注、咨詢的溝通預(yù)案步驟與責(zé)任人是一個(gè)有效的方法。2)開發(fā)或測(cè)試發(fā)現(xiàn)開發(fā)或測(cè)試發(fā)現(xiàn)的故障是一個(gè)邊界比較難界定,但又不可忽視的故障發(fā)現(xiàn)方式。邊界難界定,有一些客觀原因,比如很多系統(tǒng)或變更是帶缺陷上線,這些缺陷本身在生產(chǎn)運(yùn)行中會(huì)觸發(fā)故障條件;很多線上的問題,如果是業(yè)務(wù)反饋,可能會(huì)先到達(dá)開發(fā)人員,由于故障通常在組織內(nèi)會(huì)被用于質(zhì)量考核,部分開發(fā)人員可能延遲問題的反饋。不可忽視,前面已經(jīng)提到開發(fā)與測(cè)試反饋的故障,由于個(gè)體的重視程度或主觀因素,可能導(dǎo)致故障處置的及時(shí)性。這里暫不探討故障涉及的考核方式,但是建議在流程中建立線上化的問題反饋閉環(huán),比如在變更環(huán)節(jié),制定緊急變更類型,這類變更與一般需求變更區(qū)別,緊急變更的變更ID由線上化的運(yùn)維問題單分配,緊急變更支持更高優(yōu)先級(jí)的上線支持。再比如建立線上存量缺陷的管理,包括缺陷觸發(fā)條件、缺陷影響、缺陷計(jì)劃修復(fù)時(shí)間,將部分中高風(fēng)險(xiǎn)的缺陷轉(zhuǎn)為生產(chǎn)問題管理,并定期對(duì)線上存量缺陷問題進(jìn)行復(fù)盤管理。3.數(shù)據(jù)運(yùn)營數(shù)據(jù)運(yùn)營強(qiáng)調(diào)主動(dòng)的運(yùn)行分析。主動(dòng)是當(dāng)前運(yùn)維組織轉(zhuǎn)型的一個(gè)重點(diǎn)方向,對(duì)應(yīng)的是當(dāng)前被動(dòng)響應(yīng)服務(wù)請(qǐng)求、需求工單、監(jiān)控告警、生產(chǎn)故障的工作模式。數(shù)智萬物的運(yùn)維世界為主動(dòng)分析提供了數(shù)據(jù)原材料與平臺(tái)賦能支持。1)常規(guī)巡檢本節(jié)的巡檢針對(duì)常規(guī)的例行巡檢,在監(jiān)控不斷完善的今天,經(jīng)常會(huì)引發(fā)“是否還需要巡檢”或“巡檢是否可以被監(jiān)控替代”的話題。監(jiān)控能代替巡檢,主要思路是因?yàn)楦采w面與機(jī)器執(zhí)行力更強(qiáng)角度出發(fā),由于監(jiān)控覆蓋面越來越廣,且很多巡檢的指標(biāo)數(shù)據(jù)也來源于監(jiān)控系統(tǒng),且監(jiān)控執(zhí)行力更好、實(shí)時(shí)性更強(qiáng),認(rèn)為監(jiān)控將代替巡檢。認(rèn)為巡檢仍是一個(gè)必要手段的主要思路是監(jiān)控的覆蓋面與可靠性角度出發(fā),覆蓋面是指仍有一些重要的點(diǎn)監(jiān)控?zé)o法發(fā)現(xiàn),引入專家經(jīng)驗(yàn)進(jìn)行巡檢可以發(fā)現(xiàn)一些疑難雜癥。我的觀點(diǎn)是,要區(qū)分運(yùn)維組織的職能,對(duì)于一些以設(shè)備或服務(wù)可用性為保障的組織,隨著監(jiān)控與自動(dòng)化巡檢手段的覆蓋,巡檢將慢慢被機(jī)器代替。但如果是需要對(duì)業(yè)務(wù)層進(jìn)行保障的團(tuán)隊(duì),巡檢仍將與監(jiān)控等自動(dòng)化手段并存,是一個(gè)重要手段,一方面是因?yàn)楸O(jiān)控對(duì)于業(yè)務(wù)層的問題發(fā)現(xiàn)覆蓋面有待提升,另一方面由于業(yè)務(wù)層的保障要求運(yùn)維人員要持續(xù)深入的學(xué)習(xí)系統(tǒng),巡檢是運(yùn)維人員保持必要的學(xué)習(xí)力、關(guān)注度一個(gè)手段,尤其像證券行業(yè)這種重點(diǎn)保障開盤、銀行業(yè)的批次清算等時(shí)點(diǎn)??傮w來說,巡檢的常規(guī)操作性工作是一個(gè)被自動(dòng)化替代的過程,巡檢內(nèi)容則需要運(yùn)維專家不斷深入,巡檢的管理機(jī)制則需要不斷的固化為巡檢規(guī)則、任務(wù)、報(bào)告、數(shù)據(jù)感知等解決方案。從技術(shù)角度看巡檢,在巡場(chǎng)上可以分為定時(shí)巡檢與基于事件驅(qū)動(dòng)的臨時(shí)巡檢,實(shí)現(xiàn)上通常需要數(shù)據(jù)采集與執(zhí)行的代理(或復(fù)用現(xiàn)在的自動(dòng)化能力),巡檢策略規(guī)則,巡檢任務(wù),巡檢報(bào)告、值班管理幾塊內(nèi)容。2)深度巡檢/分析深度巡檢/分析,我更傾于命名為深度巡檢,因?yàn)檠矙z意味著例行工作任務(wù),對(duì)于運(yùn)維數(shù)據(jù)例行的深度分析將是主動(dòng)運(yùn)營工作一個(gè)轉(zhuǎn)變。一個(gè)潛在問題的觸發(fā),通常觸發(fā)三種策略:診斷誤報(bào)并取消,潛在風(fēng)險(xiǎn)掛起,發(fā)起故障響應(yīng)流程。與常規(guī)巡檢針對(duì)線上問題的即時(shí)反饋并發(fā)起故障響應(yīng)流程,深度巡檢主要是針對(duì)潛在風(fēng)險(xiǎn)的發(fā)現(xiàn)或預(yù)測(cè)。深度巡檢通常從分析牽頭方看,通常可能包括兩類,一類是由運(yùn)維組織內(nèi)專家發(fā)起的主動(dòng)性的運(yùn)行分析;另一類是通常商務(wù)合同要求供應(yīng)商定時(shí)執(zhí)行的深度巡檢。深度巡檢分析的主題應(yīng)該關(guān)注影響業(yè)務(wù)連續(xù)性的風(fēng)險(xiǎn)點(diǎn),比如應(yīng)用及數(shù)據(jù)庫等平臺(tái)軟件性能容量、容災(zāi)/應(yīng)用架構(gòu)高可用、應(yīng)用邏輯缺陷、數(shù)據(jù)質(zhì)量、高可用有效性、應(yīng)急方案、技術(shù)保障方案、數(shù)據(jù)備份、數(shù)據(jù)丟失、監(jiān)控發(fā)現(xiàn)及時(shí)性等。在實(shí)施上,要區(qū)別于常規(guī)巡檢,更加深入分析。同時(shí),深度巡檢最好是一項(xiàng)聯(lián)合運(yùn)維組織硬件及系統(tǒng)軟件運(yùn)維人員、第三方軟硬件廠商、應(yīng)用系統(tǒng)維護(hù)人員等人員協(xié)同進(jìn)行的深度分析工作,要建立線上化的協(xié)同機(jī)制,確保各環(huán)節(jié)的銜接緊密與落實(shí)。3)運(yùn)行感知此處指的運(yùn)行感知與監(jiān)控與巡檢有一些區(qū)別,監(jiān)控與巡檢都是根據(jù)已經(jīng)制定的策略或任務(wù)發(fā)現(xiàn)問題并觸發(fā)故障流程,是針對(duì)一個(gè)個(gè)細(xì)分點(diǎn)的分析,運(yùn)行感知是一個(gè)面的分析。運(yùn)行感知是從運(yùn)維專家視角,感知運(yùn)維對(duì)象的運(yùn)行狀況,需要從感知面與感知策略制定感知方案。在感知面上,要廣泛使用運(yùn)行數(shù)據(jù),將影響運(yùn)維對(duì)象運(yùn)行的數(shù)據(jù)指標(biāo)化,比如基礎(chǔ)設(shè)施層的網(wǎng)絡(luò)鏈路延時(shí)、丟包率等,平臺(tái)軟件層的響應(yīng)時(shí)間、資源負(fù)載等,應(yīng)用系統(tǒng)層的端口監(jiān)聽、JVM內(nèi)存利率等,業(yè)務(wù)及體驗(yàn)層的交易成功率、頁面加載錯(cuò)誤率等,也就是說只要與運(yùn)行對(duì)象相關(guān)的關(guān)鍵運(yùn)行狀況的數(shù)據(jù)都要指標(biāo)化。在感知策略上,要善用基線的策略,比如偏離度,制定同比、環(huán)比、首筆出現(xiàn)等,或引入一些AIOps的算法獲得更加有效的基線。在實(shí)現(xiàn)上,運(yùn)行感知不僅僅獨(dú)立存在的實(shí)時(shí)運(yùn)行看板,還應(yīng)該與當(dāng)前主干的運(yùn)維流程結(jié)合在一起,才能不斷的加深感知面與感知策略的深度。比如,將運(yùn)行感知與巡檢的定時(shí)任務(wù)結(jié)合在一起,要求每天都分析感知數(shù)據(jù);將運(yùn)行感知的異常數(shù)據(jù)推送到監(jiān)控告警系統(tǒng),融入到監(jiān)控處理的流程中;將運(yùn)行感知融入到故障診斷的環(huán)節(jié),作為問題診斷、影響分析的一個(gè)工具。隨著運(yùn)行數(shù)據(jù)分析能力的提升,運(yùn)行感知在故障發(fā)現(xiàn)環(huán)節(jié)中將起到越來越重要的角色。二、故障響應(yīng)故障響應(yīng)指故障發(fā)現(xiàn)后機(jī)器或運(yùn)維人員介入應(yīng)急處理的過程。相比故障發(fā)現(xiàn)、定位、恢復(fù),故障響應(yīng)環(huán)節(jié)對(duì)協(xié)同的順暢要求更高,通常可以圍繞應(yīng)急協(xié)同、告警觸達(dá)、影響分析3方面進(jìn)行建設(shè)。其中對(duì)故障影響初步判斷是一個(gè)難點(diǎn),考驗(yàn)運(yùn)維人員的故障識(shí)別能力,不僅要求有基本的應(yīng)急技能,還要對(duì)系統(tǒng)有深刻的理解。另外,在故障響應(yīng)過程中,系統(tǒng)故障受理人,關(guān)聯(lián)上下游系統(tǒng)運(yùn)維人員,值班經(jīng)理等各個(gè)角色的作用都尤其重要,需要不斷的練習(xí)、實(shí)戰(zhàn)來提升協(xié)同順暢性。1.應(yīng)急協(xié)同在降低故障處置過程中TTR時(shí)間過程中,故障響應(yīng)是最容易被忽視,但又可以占用最長(zhǎng)時(shí)間的環(huán)節(jié)。很多運(yùn)維組織會(huì)制定“故障先報(bào)告后處理的”要求,其中一個(gè)考慮因素就是要加快故障的響應(yīng)速度,以免延誤戰(zhàn)機(jī)。應(yīng)急協(xié)同的管理是故障響應(yīng)的關(guān)鍵舉措,以下從ECC管理、信息在線、服務(wù)臺(tái)三點(diǎn)對(duì)應(yīng)急協(xié)同進(jìn)行介紹。1)ECC管理ECC又叫總控中心,或監(jiān)控指揮中心,是成熟運(yùn)維組織對(duì)運(yùn)行監(jiān)控、現(xiàn)場(chǎng)值班、聯(lián)絡(luò)調(diào)度、事件處置等職責(zé)的日常工作場(chǎng)所。從人看,ECC主包括:值班經(jīng)理、流程經(jīng)理、一線運(yùn)維、二三線條線專家、服務(wù)臺(tái)(也可以將服務(wù)臺(tái)歸到一線運(yùn)維)等崗位。從ECC形態(tài)看,ECC通常是一個(gè)獨(dú)立的房間,里面有值班與應(yīng)急需要的設(shè)備。在對(duì)于單個(gè)主數(shù)據(jù)中心的運(yùn)維組織中,ECC里面值班的人員包括所有運(yùn)維團(tuán)隊(duì)的值班人員,是公司最核心的應(yīng)急處置場(chǎng)所,做好ECC管理是加快應(yīng)急協(xié)同的最重要措施。從故障響應(yīng)看,ECC定位應(yīng)急指揮中心的角色,需要制定一些工作機(jī)制。比如制定一線值班的工作職責(zé),處理監(jiān)控事件、應(yīng)急響應(yīng)與處置、問題咨詢的解答、變更工單處理等,明確的工作職責(zé)有助于值班人員專注最重要的工作,提升故障響應(yīng)的及時(shí)性。再比如落實(shí)好應(yīng)急環(huán)境準(zhǔn)備,里面要有運(yùn)行情況的大屏,一線運(yùn)維需要的辦公終端,二線現(xiàn)場(chǎng)支持時(shí)需要的終端,用于應(yīng)急使用的日志、運(yùn)行數(shù)據(jù)、監(jiān)控報(bào)警的工具系統(tǒng),用于對(duì)故障臨時(shí)決策討論的房間,以及一些聯(lián)絡(luò)的通訊設(shè)備,故障定級(jí)、分析、聯(lián)絡(luò)人員的文檔。2)信息在線由于信息的復(fù)雜性越來越高,一個(gè)業(yè)務(wù)關(guān)聯(lián)的設(shè)備與系統(tǒng)越來越多,應(yīng)急管理是一個(gè)多團(tuán)隊(duì)協(xié)同的工作,充分保持故障過程中的信息在線是一個(gè)重要舉措。從故障響應(yīng)角度看信息在線,又可以分解為協(xié)同在線、數(shù)據(jù)在線、工具在線。協(xié)同在線指故障處置過程的線上化,比如故障處置過程中涉及監(jiān)控報(bào)警或工單轉(zhuǎn)化故障、故障通報(bào)、故障升級(jí)、故障定位、故障恢復(fù)、應(yīng)急集結(jié)等環(huán)節(jié)線上化。從故障響應(yīng)角度看協(xié)同在線,重點(diǎn)關(guān)注面的轉(zhuǎn)化故障、故障通報(bào)、應(yīng)急集結(jié)、故障升級(jí)幾個(gè)步驟。其中故障集結(jié)是對(duì)故障關(guān)聯(lián)人員的即時(shí)觸達(dá),或要求相關(guān)人員到達(dá)ECC現(xiàn)場(chǎng)參與應(yīng)急,可以借助全自動(dòng)化手段或半自動(dòng)的手段。要做好以上協(xié)同在線,需要提前做好協(xié)同機(jī)制,并進(jìn)行演練,減少實(shí)際故障過程中的溝通成本。數(shù)據(jù)在線指將故障處置過程需要的數(shù)據(jù)在線化,讓參與故障響應(yīng)的人員可以方便的獲取數(shù)據(jù),提升并發(fā)處理故障的能力。數(shù)據(jù)在線關(guān)注要提前準(zhǔn)備哪些數(shù)據(jù),數(shù)據(jù)如何讓參與處理故障的專家方便看,如何方便專家獲得數(shù)據(jù),如何獲得故障進(jìn)度。在數(shù)據(jù)方面,關(guān)注與故障涉及對(duì)象的故障數(shù)據(jù),比如運(yùn)行對(duì)象負(fù)載、性能、關(guān)鍵運(yùn)行指標(biāo)、服務(wù)狀態(tài)與數(shù)據(jù)、近期變更、監(jiān)控告警、上游系統(tǒng)狀況等。要讓專家方便看數(shù)據(jù),要提前將相關(guān)數(shù)據(jù)以服務(wù)化方式提供給運(yùn)維以外的團(tuán)隊(duì),或進(jìn)行桌面演練與混沌工程工作。要方便獲取數(shù)據(jù),則需要建立線上化的運(yùn)維數(shù)據(jù)服務(wù)門戶,一站式開放數(shù)據(jù)。要即時(shí)獲知故障處理進(jìn)度,則要讓故障進(jìn)度及時(shí)通告,并線上化觸達(dá)關(guān)聯(lián)人員。工具在線與數(shù)據(jù)在線類似,只是數(shù)據(jù)關(guān)注提前落地好關(guān)鍵指標(biāo)的數(shù)據(jù),工具則關(guān)注提供一個(gè)更靈活的功能集合,比如日志查詢工具、數(shù)據(jù)庫查詢工具等。3)服務(wù)臺(tái)ITIL對(duì)服務(wù)臺(tái)定位是連接用戶和IT部門的唯一信息交換平臺(tái),它起雙向信息反饋?zhàn)饔?,并且與多個(gè)服務(wù)管理流程密切相關(guān),為用戶提供與問題、變更、服務(wù)級(jí)別、發(fā)布、配置、IT服務(wù)持續(xù)等管理流程的接口?;诖?,IT服務(wù)臺(tái)承擔(dān)了故障發(fā)現(xiàn)、故障響應(yīng)、故障解釋等工作,方便用戶方便快速地獲得故障處理進(jìn)度,讓運(yùn)維應(yīng)急專家專注應(yīng)急響應(yīng),減少溝通解釋的工作。在不同行業(yè)中,IT服務(wù)臺(tái)的能力起到的作用不同,比如一些大型制造業(yè),服務(wù)臺(tái)一天可能會(huì)受理成千上萬的服務(wù)工單,這些企業(yè)的服務(wù)在故障響應(yīng)過程中起來極為關(guān)鍵的作用。要更好的支持服務(wù)臺(tái)能力的提升,服務(wù)臺(tái)應(yīng)該提供快速響應(yīng)IT部門內(nèi)部呼叫涉及的渠道工具、在線的工單分派、工單級(jí)別升級(jí)等工具,讓服務(wù)臺(tái)工單處理全在線。比如一個(gè)涉及故障的工單的過程:請(qǐng)求登記、故障匹配(知識(shí)庫或經(jīng)驗(yàn))、故障分派、跟蹤狀態(tài)與反饋故障處理狀況、故障與應(yīng)急方案解釋、故障解決、客戶或業(yè)務(wù)溝通。要提升故障響應(yīng)效率,服務(wù)臺(tái)是一個(gè)很關(guān)鍵的角色,需要通過提升線上化與自動(dòng)化能力為服務(wù)臺(tái)賦能。2.告警觸達(dá)對(duì)于告警觸達(dá),強(qiáng)調(diào)“統(tǒng)一、高響應(yīng)”。統(tǒng)一指全公司的監(jiān)控的監(jiān)控告警需要實(shí)時(shí)匯總于一個(gè)告警系統(tǒng),由這個(gè)告警系統(tǒng)進(jìn)行告警的整合、收斂、豐富、升級(jí)、觸達(dá)處理人或機(jī)器。高響應(yīng)則需要推動(dòng)告警觸達(dá)人或機(jī)器后,針對(duì)告警能得到快速的應(yīng)急動(dòng)作,要實(shí)現(xiàn)高響應(yīng)需要即時(shí)知道哪些告警處理發(fā)生后沒有響應(yīng),或響應(yīng)了但是長(zhǎng)時(shí)間未關(guān)閉,對(duì)這類告警實(shí)時(shí)進(jìn)行再次觸達(dá)或升級(jí),并定期對(duì)低響應(yīng)的運(yùn)維對(duì)象(人、系統(tǒng)、機(jī)器等)進(jìn)行排名公示。1)統(tǒng)一告警下面這個(gè)統(tǒng)一告警歸納圖是我?guī)啄昵罢?,現(xiàn)在看起來仍然是一個(gè)比較完整的產(chǎn)品功能圖。站在故障響應(yīng)角度看統(tǒng)一告警,需要關(guān)注是否所有監(jiān)控告警都進(jìn)行了集中,是否從告警風(fēng)暴角度對(duì)告警進(jìn)行收斂,是否從告警定位角度看對(duì)告警進(jìn)行豐富關(guān)聯(lián),監(jiān)控告警是否與故障處置線上化系統(tǒng)線上化打通等。具體的內(nèi)容在監(jiān)控專項(xiàng)的文章中有提及,本節(jié)不作過多的介紹。2)告警描述從我的個(gè)人經(jīng)歷看,告警描述是一個(gè)很重要的環(huán)節(jié),尤其是對(duì)于ECC值班的工作。但遺憾的事,好像對(duì)于告警描述,大家關(guān)注得不太夠。我引用一段之前寫過的內(nèi)容:

完善的監(jiān)控策略需要有清晰的監(jiān)控告警提示,值班人員要以根據(jù)監(jiān)控告警即可作出簡(jiǎn)單的問題定位與應(yīng)急處理方案。比如類似以下的監(jiān)控短信:22時(shí),【理財(cái)應(yīng)用系統(tǒng)】中【應(yīng)用服務(wù)器LC_APPsvrA10.2.111.111】的【前置應(yīng)用模塊】出現(xiàn)【應(yīng)用端口:9080】不存在,該端口作用【提供理財(cái)應(yīng)用處理(負(fù)載均衡部署)】,原因可能為【SERVER1服務(wù)異常停止】,監(jiān)控系統(tǒng)己進(jìn)行以下應(yīng)急處理【自動(dòng)執(zhí)行端口進(jìn)程啟動(dòng)】,該事件緊急程度【高】。管理員可以通過短信內(nèi)容看到哪個(gè)系統(tǒng)、哪個(gè)應(yīng)用、哪個(gè)模塊出了什么問題,可能是什么原因,對(duì)業(yè)務(wù)有什么影響,是否需要馬上處理(比如凌晨出現(xiàn)此預(yù)警是否可以延遲到次日處理)等信息。3)告警升級(jí)告警已經(jīng)成為最為關(guān)鍵的故障發(fā)現(xiàn)渠道,提升故障響應(yīng)需要提升監(jiān)控告警的升級(jí)機(jī)制。要升級(jí),要先分級(jí),運(yùn)維組織可能根據(jù)實(shí)際情況對(duì)級(jí)別進(jìn)行劃分,我建議告警的分級(jí)應(yīng)該結(jié)合應(yīng)急響應(yīng)機(jī)制進(jìn)行分級(jí),如果組織的精細(xì)化程度還沒那么高不要分太多級(jí),比如分為三級(jí):一級(jí)對(duì)應(yīng)高響應(yīng)的告警,二級(jí)是對(duì)客戶或業(yè)務(wù)有影響的告警,三級(jí)是潛在風(fēng)險(xiǎn)但未對(duì)客戶產(chǎn)生影響。制定了告警分級(jí),下一步是將告警響應(yīng)線上化,系統(tǒng)可以針對(duì)告警響應(yīng)的時(shí)長(zhǎng),進(jìn)行升級(jí)。對(duì)于高風(fēng)險(xiǎn)的告警,升級(jí)可以通過觸達(dá)方式的升級(jí),比如先用短信通知,不及時(shí)用電話通知,或通過大屏的色彩,或觸達(dá)處理人上司與值班經(jīng)理,或按級(jí)別推送到團(tuán)隊(duì)的IM群中進(jìn)行公示。對(duì)于低風(fēng)險(xiǎn)級(jí)別的告警,長(zhǎng)時(shí)間不響應(yīng)的低級(jí)別告警,可以升級(jí)為高風(fēng)險(xiǎn)級(jí)別的事件,并根據(jù)高風(fēng)險(xiǎn)級(jí)別告警進(jìn)行告警觸達(dá)。3.影響分析在故障處理過程中,運(yùn)維人員很容易鉆進(jìn)故障定位與恢復(fù)環(huán)節(jié),但要加強(qiáng)故障響應(yīng)的協(xié)同效率,讓應(yīng)急協(xié)同中的決策者、值班經(jīng)理、上下游系統(tǒng)運(yùn)維、開發(fā)、測(cè)試、業(yè)務(wù)、服務(wù)臺(tái)共同參與到應(yīng)急中,對(duì)故障現(xiàn)象與影響面的描述必不可少。同時(shí)在處理故障前,故障現(xiàn)象直接決定故障應(yīng)急方案的制定,這依賴于運(yùn)維人員需要對(duì)應(yīng)用系統(tǒng)的整體功能有一定的熟悉程度,清晰的故障影響面描述,有助于資源的準(zhǔn)確調(diào)配。1)關(guān)鍵指標(biāo)遺憾的是故障影響面有時(shí)很難判斷,尤其是在應(yīng)急的那個(gè)爭(zhēng)分奪秒的時(shí)刻,要準(zhǔn)確判斷故障影響面需要具備對(duì)應(yīng)用架構(gòu)、業(yè)務(wù)功能等有綜合能力的專家。針對(duì)短時(shí)間很難快速判斷影響面的問題,提前做好準(zhǔn)確性工作是一個(gè)比較好的方向。比如提前對(duì)影響業(yè)務(wù)系統(tǒng)、平臺(tái)軟件、基礎(chǔ)設(shè)施等層面的運(yùn)維對(duì)象進(jìn)行分析,對(duì)影響這些對(duì)象的關(guān)鍵KPI指標(biāo)進(jìn)行提前定義。所謂的關(guān)鍵指標(biāo),是指衡量系統(tǒng)運(yùn)行情況的可量化的數(shù)據(jù),比如性能管理中常提到的交易量、成功率、延時(shí)等指標(biāo)數(shù)據(jù)。這類指標(biāo)數(shù)字不要求很多,但要求指標(biāo)能能反映故障產(chǎn)生的影響面,可參考故障定級(jí)、業(yè)務(wù)影響程度、上下游依賴等角度去定義指標(biāo)。制定了關(guān)鍵指標(biāo)后,接下來要解決的是讓關(guān)鍵指標(biāo)在線、可觀察,要讓應(yīng)急協(xié)同的參與人都能快速的獲知關(guān)鍵指標(biāo)的實(shí)時(shí)運(yùn)行的數(shù)字。關(guān)鍵指標(biāo)能夠讓運(yùn)維專家,尤其是故障協(xié)調(diào)的決策層快速判斷故障級(jí)別,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論