![運維體系建設(shè)方案_第1頁](http://file4.renrendoc.com/view/8a27a478df90625e71de02477914fd98/8a27a478df90625e71de02477914fd981.gif)
![運維體系建設(shè)方案_第2頁](http://file4.renrendoc.com/view/8a27a478df90625e71de02477914fd98/8a27a478df90625e71de02477914fd982.gif)
![運維體系建設(shè)方案_第3頁](http://file4.renrendoc.com/view/8a27a478df90625e71de02477914fd98/8a27a478df90625e71de02477914fd983.gif)
![運維體系建設(shè)方案_第4頁](http://file4.renrendoc.com/view/8a27a478df90625e71de02477914fd98/8a27a478df90625e71de02477914fd984.gif)
![運維體系建設(shè)方案_第5頁](http://file4.renrendoc.com/view/8a27a478df90625e71de02477914fd98/8a27a478df90625e71de02477914fd985.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
運維體系建設(shè)方案運維體系建設(shè)方案一、 體系建設(shè)目標(biāo)查閱了大量資料,也沒有找到對“運維體系”的明確定義,大多數(shù)資料對運維體系的解讀及建設(shè)方案都是基于ITIL認證體系與GoogleSRE,通過一系列的制度、標(biāo)準(zhǔn)、規(guī)范及流程,輔以高效的IT管理系統(tǒng),向用戶提供高質(zhì)量的運維服務(wù),保證系統(tǒng)的可靠運行?;趯TIL及GoogleSRE的理解,部門的運維體系建設(shè)目標(biāo)可以確定為:以積極、負責(zé)、嚴謹?shù)墓ぷ鲬B(tài)度,正確、高效、規(guī)范的工作方法,保證系統(tǒng)7*24小時正常服務(wù),全心全意為客戶服務(wù),讓客戶滿意。二、 運維現(xiàn)狀分析隨著部門研發(fā)的產(chǎn)品日趨成熟,系統(tǒng)的復(fù)雜度日益提升,主要體現(xiàn)在業(yè)務(wù)功能增多、業(yè)務(wù)流程復(fù)雜、業(yè)務(wù)組件多且依賴關(guān)系復(fù)雜、系統(tǒng)硬件數(shù)量多等,導(dǎo)致整個系統(tǒng)運維的工作量及難度均大幅度增加。運維做了很多的工作,卻依然保證不了系統(tǒng)的可靠服務(wù)能力,并不能完全滿足來自公司內(nèi)夕卜部〃客戶〃的運維服務(wù)要求。通過運維團隊內(nèi)部的討論與分析,發(fā)現(xiàn)運維工作提升困難的主要原因與其所處現(xiàn)狀息息相關(guān),主要存在如下亟待解決的痛點:1) 運維人員的技能參差不齊,深度不夠,專業(yè)化不足;2) 運維人員分工及職責(zé)不明確,要求全棧運維,工作上出現(xiàn)相互推諉、拖延;3) 運維操作隨意性強,容易出現(xiàn)疏忽與失誤,導(dǎo)致系統(tǒng)事故;4) 運維服務(wù)接入點不單一,任何運維人員都可以接入服務(wù);5) 運維工作范圍繁雜瑣碎,出了問題就有責(zé)任,有失公平,影響團隊成員的積極性;6) 運維對問題的復(fù)盤分析不夠深入,運維質(zhì)量改進緩慢;7) 大量的硬件資產(chǎn)缺乏全面細致的管理,不能做到全生命周期管理;8) 大量的業(yè)務(wù)系統(tǒng),全手工運維與巡檢,耗時耗力;9) 缺乏全面的系統(tǒng)監(jiān)控手段/系統(tǒng),不能及時發(fā)現(xiàn)系統(tǒng)中的問題;10) 業(yè)務(wù)系統(tǒng)復(fù)雜度高,運維還沒有完全了解業(yè)務(wù)系統(tǒng)的功能及依賴關(guān)系;11) 業(yè)務(wù)系統(tǒng)質(zhì)量低、可靠性差,導(dǎo)致升級變更的工作量超大。以上并不是全部的問題,這些問題均不是一天兩天形成的,有很多歷史原因,在此就不再詳述了。但是如果不解決這些問題,運維團隊將會繼續(xù)維持低下的工作效率,運維工作質(zhì)量也得不到改善。為此,我們需要對癥下藥,借鑒他人的優(yōu)秀實踐,結(jié)合我們自己的實際情況,建立科學(xué)、高效地運維體系,以解決所有上述的運維工作中的痛點,提升運維工作效率及服務(wù)質(zhì)量。三、體系建設(shè)規(guī)劃通過調(diào)研大量的資料,并根據(jù)運維現(xiàn)狀、資源投入等實際情況,提出了“五化一庫”的體系建設(shè)規(guī)劃,即“分工專業(yè)化、工作精細化、服務(wù)流程化、操作規(guī)范化、運維自動化、運維知識庫”,逐步提升運維工作的效率與質(zhì)量。3.1分工專業(yè)化目前,運維人員就像是“全能騎士”,即要懂業(yè)務(wù),也要懂硬件、網(wǎng)絡(luò)、安全、架構(gòu)等多方面的知識與技能,人人都需要是全棧運維工程師。的確存在這樣的能人,但是畢竟是少數(shù),大多數(shù)的結(jié)果是〃廣而不精”,各方面都知道皮毛,遇到問題了找不到根本原因,對運維工作的質(zhì)量及效率均有影響。因此,在本運維體系中,計劃將運維人員按運維工作內(nèi)容進行專業(yè)分組,分為基礎(chǔ)設(shè)施組、網(wǎng)絡(luò)組、平臺組、業(yè)務(wù)組及安全組,如圖1所示。
理忤來購、上線、變更、忍線、標(biāo)釜、資1配黃菅理(線上成M子怕)T劇眼施組I-政.._操作嘉航盅蓊、性能監(jiān)姓、容量監(jiān)控網(wǎng)絡(luò)流里苗控、帝竟咨量監(jiān)控T_f絡(luò)吭J網(wǎng)絡(luò)憂化(性旎、可伺性). 業(yè),平甘的安逑時蜃,捋營戶(含仇化)■:':'臺淚一2.業(yè)務(wù)甲白的性觥監(jiān)控、山能監(jiān)惶、容量監(jiān)控業(yè)務(wù)組業(yè)務(wù)軟件的宕裝一升級一配置&審護業(yè)務(wù)組業(yè)務(wù)軟件的宕裝一升級一配置&審護業(yè)客軟件*監(jiān)控、事件處理,?可題赴理等―八心 負M方全莒控,宕全匚1叵、漏同掃措,哀全盲計等女矣出.二J圖1運維團隊分工及職責(zé)通過專業(yè)化分組,可以讓運維人員在其所負責(zé)的專業(yè)上做全、做深、做強,各個專業(yè)小組有相對獨立的、明確的工作內(nèi)容、職責(zé)及標(biāo)準(zhǔn),計劃編制《崗位職責(zé)說明書》進行詳細地定義與描述。各個專業(yè)小組的負責(zé)人要想盡一切辦法保證自己所負責(zé)內(nèi)容的質(zhì)量。在實際操作上,考慮到運維人員數(shù)量少的情況,可以一個人參加兩個小組,形成主備關(guān)系,但是在同一時刻只存在一位負責(zé)人,只有當(dāng)主負責(zé)人由于請假等原因不在崗的時候才由另一人臨時頂替其工作。同時,為了擴大大家的技能廣度,制定〃輪崗計劃”,計劃每兩個月進行一次專業(yè)小組(安全組除外)輪換,讓所有運維人員都有機會負責(zé)所有專業(yè)小組。在日常工作期間,各個專業(yè)的負責(zé)人要進行培訓(xùn)分享,為其他團隊伙伴進行輪崗提前做知識儲備,也利于大家逐漸具備值班處理問題的能力。在專業(yè)化的分組模式下,可以有效地讓運維人員提升專注,減少瑣事的消耗,提高工作效率及質(zhì)量。各專業(yè)小組的工作內(nèi)容相對獨立,但是也需要相互協(xié)作,共同完成整個系統(tǒng)的運維,因此,將梳理各項工作的執(zhí)行流程,將各專業(yè)的工作有效地組織起來,做到統(tǒng)籌高效。3.2工作精細化當(dāng)前的運維大多時候可以說是“面向整體”的運維,關(guān)注最終結(jié)果是否正確,比如系統(tǒng)各項功能正常、各項指標(biāo)正常即可,只有在出現(xiàn)異常的時候,才會去分析細節(jié),找具體的原因。平時對系統(tǒng)的各個局部與細節(jié)的關(guān)注度不夠,導(dǎo)致很多的問題不能及時發(fā)現(xiàn),造成不必要的損失。因此,運維計劃通過體系建設(shè)細化各專業(yè)的具體工作內(nèi)容,將每一項工作內(nèi)容都寫到《崗位職責(zé)說明書》中,做到全面、無死角的運維。運維的工作將不再僅是面向整體,還將面向局部、面向細節(jié)。通過專業(yè)化的分組,將整個系統(tǒng)運維拆分成不同的部分,各個專業(yè)小組還將就各自負責(zé)的部分進行更加細致的梳理,明確所有的配置項(需要關(guān)注并維護的對象),做好配置管理與變更管理,做好日常監(jiān)控與維護,做好容量規(guī)劃管理等各種精細化工作。3.3服務(wù)流程化目前,運維的工作范圍有生產(chǎn)系統(tǒng)運維、開發(fā)測試協(xié)助、售前支持、售后支持、信息安全管理等方面的工作,除了生產(chǎn)系統(tǒng)運維外的工作,各類繁雜瑣碎很多,公司夕卜部客戶、公司內(nèi)部的同事均有可能提出運維服務(wù)需求,提出需求的渠道也很多(如QQ、微信、郵件、電話、當(dāng)面溝通等),而且直接到運維人員,沒有統(tǒng)一接入各類服務(wù)需求的〃點”,因此,各類需求分散,沒有根據(jù)工作安排及人力情況進行綜合安排與調(diào)度,導(dǎo)致運維工作〃雜亂”,運維人員成天“忙碌”,但是工作效率卻非常低下,亟待進行改進。經(jīng)過分析,計劃通過“建立運維服務(wù)臺及運維服務(wù)流程”的方式對運維服務(wù)進行流程化。1)建立運維服務(wù)臺制定《運維服務(wù)管理規(guī)定》對運維服務(wù)進行規(guī)范化管理,統(tǒng)一運維服務(wù)入口,引進工單系統(tǒng)。所有的運維服務(wù)(如:問題處理、事務(wù)性工作等)均通過服務(wù)臺統(tǒng)一接入,由服務(wù)臺值班人員創(chuàng)建工單,如果是問題則派發(fā)給相應(yīng)專業(yè)小組負責(zé)人員進行處理,如果是事務(wù)性工作,則轉(zhuǎn)發(fā)給運維組長進行統(tǒng)一安排調(diào)度,如圖2所示。做到“不見工單不處理問題”,以便對運維服務(wù)工作進行全面的跟蹤及有序地組織實施。注意:運維服務(wù)不區(qū)分公司內(nèi)外、部門內(nèi)外,對于運維團隊外的所有對運維的需求均視為運維服務(wù),均需要通過運維服務(wù)臺統(tǒng)一接入管理。圖2運維服務(wù)臺主要服務(wù)流程2)建立事件/問題處理流程前面提到了運維服務(wù)臺的大致工作模式及流程,但是具體要把服務(wù)做完還需要更多的人參與,更多的流程與分工協(xié)作。為了保證整個過程有序開展、資源合理配置,需要協(xié)同開發(fā)組建服務(wù)團隊,分層級逐步處理,一層一層上升,直至問題最終解決。大致的流程是:需求方提出需求-服務(wù)臺創(chuàng)建工單-分派給一線人員(值班人員)處理-轉(zhuǎn)交給二線人員(各專業(yè)負責(zé)人)-轉(zhuǎn)交給三線人員(相關(guān)開發(fā)人員)-管理者。任何一個環(huán)節(jié)將事件/問題處理掉就可關(guān)閉此工單,否則逐級流轉(zhuǎn)與上報直至工單最終關(guān)閉,問題得到解決。3)建立事務(wù)性工作處理流程除了事件(或問題)處理,還有各種事務(wù)性服務(wù)需求,這類需求將轉(zhuǎn)交給運維團隊的小組長統(tǒng)一安排調(diào)度。在專業(yè)分組過后,一件事務(wù)性工作,可能需要各個專業(yè)組相互協(xié)作才能最終完成,其協(xié)作流程并不能統(tǒng)一,運維團隊將周期對各類事務(wù)性工作進行總結(jié)與分析,找出主要的(頻次高且需要多專業(yè)協(xié)作)的事務(wù),制定標(biāo)準(zhǔn)化的處理流程,以保證這些工作有序開展并保證質(zhì)量及效率。3.4操作規(guī)范化長期以來,運維的操作事故沒有得到有效的控制,缺乏嚴格的審批流程,沒有明確的管理制度,各種變更操作隨意性強,運維工作無章可依,無規(guī)可循。因此需要制定運維操作的相關(guān)制度、標(biāo)準(zhǔn)、規(guī)范及流程,做到變更管理與配置管理等運維操作的制度化、標(biāo)準(zhǔn)化、規(guī)范化與流程化,讓運維的工作有章可依,有規(guī)可循。1) 制定變更管理的制度與流程各個專業(yè)均會遇到變更需求,對這些變更必須進行管理及控制。首先所有變更必須進行記錄,可以通過〃工單系統(tǒng)”或“任務(wù)管理”進行追蹤,做到全生命周期管理。對所有的變更進行分析,根據(jù)復(fù)雜度、影響范圍及程度、風(fēng)險大小進行分類,設(shè)置不同的審批級別,如:對系統(tǒng)有嚴重影響且風(fēng)險較高的必須由主管領(lǐng)導(dǎo)進行審批,簡單且風(fēng)險小的可直接授權(quán)執(zhí)行人員進行實施。對于事件或問題導(dǎo)致的變更,必須同時符合《事件/問題管理規(guī)定》與《變更管理規(guī)定》的要求。運維對事件或問題要進行復(fù)盤與分析,找出主要的變更點及關(guān)聯(lián)問題,制定《應(yīng)急預(yù)案》并在其中明確其變更的審批要求及授權(quán)說明。2) 制定配置管理的制度與流程配置管理即配置項管理,配置項即為〃需要關(guān)注并維護的對象”,硬件如服務(wù)器、CPU、硬盤,軟件如業(yè)務(wù)軟件實例、軟件配置參數(shù)等。凡是需要進行關(guān)注并維護的對象,均可以是配置項,均可以納入配置管理的范圍。配置管理將通過CMDB進行管理。不同的配置項,有不同的屬性,通過數(shù)據(jù)庫建模將其納入到系統(tǒng)中進行管理。配置項也常由于各種原因的變更導(dǎo)致變化,我們也需要跟隨這些變更同步更新配置項,同時記錄變更的細節(jié),做到變更的全生命周期可追溯。配置管理需要符合《配置管理規(guī)定》的要求,所有配置項的變更不獨立進行,而是與〃工單”或〃任務(wù)”關(guān)聯(lián)起來,必須有變更依據(jù)(或變更來源),符合變更管理的各項管理規(guī)定及審批流程,避免或降低操作失誤。3) 制定運維操作的通過標(biāo)準(zhǔn)制度及流程保證了運維操作的有序執(zhí)行及有效控制,但是沒有解決運維工作質(zhì)量保證的問題,因此,需要對每一項的運維操作或每一個操作組合確定其通過的標(biāo)準(zhǔn)。運維將對于各類運維操作進行分析,找出關(guān)鍵控制點(如重要的功能點、配置項或容易疏忽的點),制作出《檢查清單》,由操作人員或指定專人執(zhí)行檢查,確保結(jié)果準(zhǔn)確無誤。運維團隊還將設(shè)置審計人員對各類制度、流程及清單的執(zhí)行結(jié)果進行不定期的審計并進行記錄,明確各崗位人員的職責(zé),對于違反規(guī)定,導(dǎo)致的后果,依規(guī)進行追責(zé)處理。3.5運維自動化現(xiàn)在的系統(tǒng)越來越復(fù)雜,系統(tǒng)的配置項也越來越多,對運維團隊的服務(wù)需求及工作量均與日俱增,但是運維團隊的工作方式仍然處理“原始的人肉運維"模式,運維的效率及質(zhì)量均受到了嚴重的挑戰(zhàn),需要我們直面問題,改變現(xiàn)狀。1) 引進開源的監(jiān)控系統(tǒng)引入各類成熟的監(jiān)控系統(tǒng)(如Zabbix,Prometheus,Grafana等)加強對系統(tǒng)各個層面的實時監(jiān)控與預(yù)警,及時發(fā)現(xiàn)系統(tǒng)中的問題。2) 引入開源CMDB系統(tǒng)目前也有一些達人或公司開發(fā)的CMDB系統(tǒng),并開源免費下載使用,如CODO、openspug等,可以研究一下對于配置項的管理是否可以借用這些系統(tǒng)進行,盡量避免重復(fù)造輪子。3) 研發(fā)運維支撐系統(tǒng)(OSS)除了通用的監(jiān)控及CMDB夕卜,涉及到一些公司具體業(yè)務(wù)的監(jiān)控就需要自己開發(fā)專門的運維支撐系統(tǒng)(OSS)來進行了。運維團隊的各個專業(yè)小組將深入研究自己的專業(yè),根據(jù)實際工作需要向OSS系統(tǒng)提需求,逐步完善OSS系統(tǒng)的功能。同時,運維使用的開源工具或系統(tǒng)多起來之后,數(shù)據(jù)分散,不利于管理,OSS可以接入這些信息并進行整合,進一步挖掘數(shù)據(jù)的價值,提供更實用的功能,提升運維工作的效率。4) 開發(fā)小的自動化工具或腳本運維團隊可以就批量的、重復(fù)性高的人工操作場景進行分析,與OSS團隊、開發(fā)團隊一起協(xié)作,開發(fā)自動化的工具或腳本,盡量做到〃一鍵執(zhí)行”或〃自動執(zhí)行”,分階段逐步實現(xiàn)系統(tǒng)自治以及運維的自動化,降低“人肉”運維的比重,減少瑣事,提升工作效率。3.6運維知識庫在運維工作的過程中,會總結(jié)出各種經(jīng)驗與知識,對這些通過實踐獲得的寶貴經(jīng)驗與知識進行科學(xué)的管理與利用,將有效地提升運維團隊的技能水平、知識儲備,從而間接提升運維工作的質(zhì)量。而建立運維知識庫將會是一種有效的手段,運維知識庫將主要由產(chǎn)品資料庫、系統(tǒng)問題庫、檢查清單庫、制度規(guī)范庫與培訓(xùn)資料庫組成,可根據(jù)實際的資料積累情況進行調(diào)整。1) 產(chǎn)品資料庫產(chǎn)品資料庫主要存放與產(chǎn)品相關(guān)的資料,如《系統(tǒng)安裝手冊》、《用戶使用手冊》、《系統(tǒng)運行視圖》、《系統(tǒng)物理視圖》、《系統(tǒng)升級方案》等,其版本迭代隨著系統(tǒng)的變更進行,因此需要做好版本管理。一些資料是事務(wù)性工作的產(chǎn)物,可與具體的,,工單,,或,,任務(wù),,關(guān)聯(lián)起來,以便進行全過程跟蹤與追溯。2) 系統(tǒng)問題庫對各類運維過程中遇到的事件或問題進行深入的復(fù)盤分析,形成文檔并歸檔到運維系統(tǒng)問題庫,利用開源系統(tǒng)或自制的系統(tǒng)進行管理,方便查詢與分享,促進知識共享與交流。當(dāng)遇到同類問題的時候可以提供快速的處理方案,同時也有利于對問題進行統(tǒng)計分析,找出系統(tǒng)中的弱點并進行完善,從而有效提升系統(tǒng)的可用率與可靠度。3) 檢查清單庫清單是保證運維工作質(zhì)量的有效手段,對于不同的工作有不同的清單模板,需要進行有效地組織與管理,方便歸檔與查詢。隨著系統(tǒng)的變化,清單也會進行不停地迭代更新,因此需要進行及時的維護,并做好版本管理。清單的執(zhí)行結(jié)果也需要進行歸檔管理,方便查詢與審計,清單執(zhí)行結(jié)果需要與具體的“工單”或“任務(wù)”關(guān)聯(lián),以便進行全過程跟蹤與追溯。4) 制度規(guī)范庫運維工作管理的各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 華師大版數(shù)學(xué)七年級上冊《2.13 有理數(shù)的混合運算》聽評課記錄2
- 《兩漢的科技和文化》名師聽課評課記錄(新部編人教版七年級上冊歷史)
- 陜教版道德與法治九年級下冊9.2《做負責(zé)公民》聽課評課記錄
- 現(xiàn)場安全方案協(xié)議書(2篇)
- 人教部編版八年級下冊道德與法治1.2《治國安邦的總章程》 聽課評課記錄
- 小學(xué)數(shù)學(xué)-五年級下冊-1-1觀察物體(聽評課記錄)
- 部編版八年級歷史上冊《第17課 中國工農(nóng)紅軍長征》表格式聽課評課記錄
- 中圖版歷史七年級下冊第12課《影響世界的宋元科技成就》聽課評課記錄
- 魯教版歷史六年級上冊第8課《大變革的時代》聽課評課記錄
- 五年級上冊數(shù)學(xué)聽評課記錄《5.5 分數(shù)基本性質(zhì)》(4)-北師大版
- 湖南省長沙市長郡教育集團2024-2025學(xué)年七年級上學(xué)期期末考試英語試題(含答案)
- 公司員工升職加薪制度模板
- 2024上海市招聘社區(qū)工作者考試題及參考答案
- 2024-2025學(xué)年人教版三年級(上)英語寒假作業(yè)(九)
- 2024版市政工程承包合同簽約流程規(guī)范指南2篇
- 立春氣象與健康
- 河南退役軍人專升本計算機真題答案
- 卵圓孔未閉病因介紹
- 室內(nèi)空氣治理技術(shù)培訓(xùn)
- 小紅書文旅營銷CityWalk城市漫游(通案)
- 湖南省長沙市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末考試試卷
評論
0/150
提交評論