




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、 中國移動通信科技進步獎勵申報書項目名稱:探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)的研究及應(yīng)用 申報單位:中國移動通信集團浙江有限公司中國移動通信集團公司2009年11月4日一、項目基本情況項目名稱中文探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)的研究及應(yīng)用英文the research and practice of boss applications monitor system based on probe主要完成人主要完成單位中國移動通信集團浙江有限公司主 題 詞業(yè)務(wù)監(jiān)控、boss監(jiān)控、探針、業(yè)務(wù)預(yù)警、健康度、故障定位任務(wù)來源a . 中國移動通信集團公司計劃 項目起止時間 起始: 2007 年 7月 5 日 完成: 2
2、009 年 6 月 1 日二、項目簡介(不超過800個漢字)有別于通信網(wǎng),中國電信運營商的運營支撐系統(tǒng)(boss)從誕生的那天起,就存在一個“可監(jiān)控性差”先天性軟肋。從02年開始中國移動業(yè)務(wù)支撐系統(tǒng)(boss)全面實施以省為單位的集中化建設(shè),各省boss系統(tǒng)規(guī)模和能力不斷擴大,boss系統(tǒng)已成為一個通信運營商的核心競爭力之一。然而,boss系統(tǒng)的運營監(jiān)控能力提升不明顯,it模式的支撐系統(tǒng)建設(shè),導(dǎo)致boss缺乏有效的監(jiān)控。懦弱的boss維護三部曲模式:客戶投訴-發(fā)現(xiàn)故障-故障修復(fù)。boss監(jiān)控存在核心問題是:沒有一種好的boss系統(tǒng)運營評價機制,沒有能力提前“預(yù)知”故障的發(fā)生。傳統(tǒng)的boss監(jiān)控
3、僅能簡單的收集主機、數(shù)據(jù)庫的參數(shù)狀態(tài),未能從業(yè)務(wù)應(yīng)用的整體有機的進行監(jiān)控和管理。為解決以上問題,我們建設(shè)了探針式boss業(yè)務(wù)監(jiān)控系統(tǒng):首先它針對boss的核心業(yè)務(wù),建立能夠反映業(yè)務(wù)運營狀態(tài)的ci/kqi指標(biāo)體系,如:一分鐘充值筆數(shù);然后在boss系統(tǒng)上部署主動式探針采集各項業(yè)務(wù)指標(biāo)值;接著進行業(yè)務(wù)監(jiān)控度指標(biāo)健康度模型,全面表征boss系統(tǒng)業(yè)務(wù)運營狀態(tài),實現(xiàn)了業(yè)務(wù)運營的提前預(yù)警;最后應(yīng)用boss系統(tǒng)的資源配置,快速定位故障(或即將發(fā)生故障)所在環(huán)節(jié)點。同時還提供了大量翔實準(zhǔn)確的業(yè)務(wù)活動綜合分析功能,幫助運維人員進行主動式的業(yè)務(wù)運營管理,真正做到了“防患未然,御變于先”,最大化業(yè)務(wù)價值,提升最終用
4、戶滿意度。本項目建設(shè)過程中實施了多項創(chuàng)新技術(shù),已申報了五項國家專利,并在2009年全國業(yè)務(wù)支撐工作會議上專題介紹推廣。主要特點是:一是突破傳統(tǒng)以設(shè)備監(jiān)控為主的boss監(jiān)控定式,解決了設(shè)備狀態(tài)表征業(yè)務(wù)運營的不準(zhǔn)確性,開創(chuàng)了boss業(yè)務(wù)應(yīng)用監(jiān)控新時代;二是通過建立業(yè)務(wù)健康度評價模型,有效發(fā)現(xiàn)潛在業(yè)務(wù)威脅,自此boss業(yè)務(wù)運營的好壞有了一個客觀的評估標(biāo)準(zhǔn)模型;三是采用boss業(yè)務(wù)探針實現(xiàn)boss業(yè)務(wù)信息數(shù)據(jù)采集,確保信息采集對boss零改造、零影響、全自動、全再現(xiàn);四是突破性的解決了業(yè)務(wù)可用性的預(yù)警難題,實現(xiàn)boss端到端的業(yè)務(wù)監(jiān)控,通過建立實用簡潔的預(yù)警模型,解決了業(yè)務(wù)端到端“軟故障”的監(jiān)控盲點問
5、題;五是通過巡航式坐標(biāo)導(dǎo)向,實現(xiàn)boss故障原因快速定位與查找;六是建立了三維立體業(yè)務(wù)監(jiān)控視圖,提供了boss運管的基礎(chǔ)平臺,實現(xiàn)用戶業(yè)務(wù)體驗的立體監(jiān)控運營管理。在本項目試運行以來,系統(tǒng)效果相當(dāng)顯著,月均成功預(yù)警業(yè)務(wù)問題29次,預(yù)警有效率和覆蓋率均達到96以上,預(yù)警時間點比傳統(tǒng)模式告警和客服報障平均提前42分鐘,方便維護人員提前介入,避免了故障的發(fā)生,每月減少boss核心系統(tǒng)故障37分鐘。通過業(yè)務(wù)故障快速定位,使業(yè)務(wù)故障處理時長平均縮短了42%。充分實現(xiàn)了提前預(yù)警避免故障為主,故障發(fā)生后快速定位修復(fù)為輔的項目目標(biāo)。三、項目詳細(xì)內(nèi)容1、 立項背景(不超過800個漢字)boss系統(tǒng)集中化建設(shè)完成后
6、,boss系統(tǒng)的運營維護的重要性是不言而喻的。boss系統(tǒng)故障會引起營業(yè)廳關(guān)門、客戶升級投訴等重大問題發(fā)生,嚴(yán)重影響公司業(yè)務(wù)的正常運營。為此,每年各省公司投入近百人員、上千萬元資金進行boss運營維護管理。由于boss系統(tǒng)一直以來采用it模式建設(shè),可靠性、可維護性離電信級產(chǎn)品差距較遠(yuǎn)。目前boss運營維護管理面臨的主要問題有:(1)業(yè)務(wù)應(yīng)用監(jiān)控困難,boss業(yè)務(wù)狀態(tài)缺乏評估模型缺乏對業(yè)務(wù)“軟故障”的監(jiān)控手段,對漸進式的業(yè)務(wù)故障很難做到及時發(fā)現(xiàn),缺乏有效的指標(biāo)表征業(yè)務(wù)應(yīng)用的運營狀態(tài),不知不覺中,故障已發(fā)生,目前業(yè)界沒有一個模型可評估boss的運營狀態(tài),對業(yè)務(wù)支撐系統(tǒng)應(yīng)用的實時有效監(jiān)控一直是世界性
7、難題。(2)boss監(jiān)控被分塊割裂,無法實現(xiàn)端到端的監(jiān)控 boss網(wǎng)管只能獨立地進行設(shè)備狀態(tài)的監(jiān)控,但因boss系統(tǒng)是由主機、存儲、中間件軟件、數(shù)據(jù)庫、應(yīng)用軟件聯(lián)合組成的,每個環(huán)節(jié)問題都會造成boss故障,現(xiàn)有分塊式監(jiān)控?zé)o法實現(xiàn)boss整個業(yè)務(wù)鏈、整體式監(jiān)控。(3)故障發(fā)生時,無法快速故障定位缺乏業(yè)務(wù)與后臺資源關(guān)聯(lián)模型,發(fā)生系統(tǒng)故障后不能準(zhǔn)確定位業(yè)務(wù)影響;系統(tǒng)后臺處理仍處于“黑盒子”狀態(tài),得知業(yè)務(wù)故障后也無法快速定位故障原因,造成發(fā)生業(yè)務(wù)故障后不能快速定位故障原因,客觀上延長了故障處理時間。(4)運營信息分散,分析不到位業(yè)務(wù)實時效率、辦理量、成功率和服務(wù)投訴等數(shù)據(jù),分散存放在各自生產(chǎn)系統(tǒng)中,維
8、護人員為獲得這些信息,需不斷到生產(chǎn)系統(tǒng)的后臺上提取數(shù)據(jù),嚴(yán)重影響生產(chǎn)系統(tǒng)的安全性。boss運維人員一直希望能有一站式運維界面,全面掌握各種運營信息。 (5)為獲得boss業(yè)務(wù)信息,需大規(guī)模改造boss,造成巨大的風(fēng)險和財務(wù)成本為了解決boss系統(tǒng)的業(yè)務(wù)監(jiān)控問題,集團公司下發(fā)了相關(guān)業(yè)務(wù)技術(shù)規(guī)范。業(yè)界曾有嘗試嘗試在boss系統(tǒng)中直接增加維護代碼模式,但因與boss系統(tǒng)捆綁太密切,無法推廣到其他省。本系統(tǒng)是在集團公司規(guī)范基礎(chǔ)上,采用了探針式提取、指標(biāo)引導(dǎo)、建模驅(qū)動方式,打造一站式端到端boss業(yè)務(wù)監(jiān)控系統(tǒng),從傳統(tǒng)的以主機、存儲等硬件監(jiān)控為主要手段,轉(zhuǎn)變?yōu)橐詁oss業(yè)務(wù)應(yīng)用監(jiān)控為核心,滿足boss運營
9、管理需要。 本系統(tǒng)07年開始了boss的停機復(fù)機、開戶銷戶等三個核心業(yè)務(wù)模型試點監(jiān)控建設(shè),目前已逐步推廣到整個boss的門戶、渠道、綜合查詢等子系統(tǒng);在采集的具體技術(shù)應(yīng)用上,從最初的bpm模式探針,發(fā)展到rum網(wǎng)絡(luò)采集探針。2、 詳細(xì)技術(shù)內(nèi)容(不超過1000個漢字)(1) 系統(tǒng)架構(gòu) 探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)整個系統(tǒng)由五層組成(圖1):數(shù)據(jù)采集層、業(yè)務(wù)建模層、數(shù)據(jù)聚集層、告警管控層、分析展示層。數(shù)據(jù)采集層是基礎(chǔ),對于采集難度最大的應(yīng)用數(shù)據(jù),本次創(chuàng)新性使用探針模式。在業(yè)務(wù)建模層方面,應(yīng)用ci模型,建立業(yè)務(wù)應(yīng)用的監(jiān)控度模型和可用性模型。各層的具體功能如下:業(yè)務(wù)建模層數(shù)據(jù)聚集層告警管控層分析展示層c
10、i模型kpi模型健康度模型可用性模型全量數(shù)據(jù)監(jiān)控業(yè)務(wù)探針模擬業(yè)務(wù)體驗數(shù)據(jù)采集配置數(shù)據(jù)趨勢閾值告警告警通知拓?fù)浞謱右晥D狀態(tài)維度視圖自動運維報告生成業(yè)務(wù)多維度分析耗時細(xì)分環(huán)節(jié)定位業(yè)務(wù)邏輯拓?fù)湮锢黻P(guān)聯(lián)關(guān)系綜合數(shù)據(jù)集成應(yīng)用平臺性能告警數(shù)據(jù)預(yù)警管理告警定位處理全路徑資源定位業(yè)務(wù)全景展示業(yè)務(wù)分析報告數(shù)據(jù)采集層業(yè)務(wù)應(yīng)用數(shù)據(jù)庫中間件主機存儲/備份網(wǎng)絡(luò)圖1:系統(tǒng)架構(gòu)圖(2) 數(shù)據(jù)采集層在業(yè)務(wù)健康度建模和可用性建模中,業(yè)務(wù)應(yīng)用數(shù)據(jù)采集是基礎(chǔ)。本系統(tǒng)數(shù)據(jù)采集采用了3種探針(圖2):探針a直接模擬boss前臺業(yè)務(wù)操作,采集到boss門戶各應(yīng)用的可用狀態(tài);探針b將boss后臺數(shù)據(jù)操作日志統(tǒng)計值發(fā)送業(yè)務(wù)監(jiān)控系統(tǒng),采集到b
11、oss后臺系統(tǒng)運營狀態(tài);探針c從boss接入交換機中全量采集boss交易記錄,第一時間采集到實際boss運營的狀態(tài)。 建模和故障診斷所需要的其他數(shù)據(jù)庫、主機、中間件的數(shù)據(jù)信息采用smnp協(xié)議采集。圖2: 三種監(jiān)控信息采集模式圖2:三種探針采集資費配置相關(guān)boss門戶渠道系統(tǒng)綜合查詢其他子系統(tǒng)boss系統(tǒng)boss客戶端boss業(yè)務(wù)監(jiān)控系統(tǒng)a式探針b式探針c式探針boss維護人員(3)業(yè)務(wù)建模層boss業(yè)務(wù)監(jiān)控可量化是本系統(tǒng)的一個創(chuàng)新,而量化管理的根本就是實現(xiàn)指標(biāo)管理。在業(yè)務(wù)建模層中統(tǒng)涵蓋了幾乎所有的boss管理資源要素,包括業(yè)務(wù)、應(yīng)用、服務(wù)及其他平臺類資源,這些信息都建立并實時更新于企業(yè)集中的c
12、mdb中?;赾mdb中動態(tài)調(diào)整的實時ci項以及ci關(guān)系,本項目以結(jié)構(gòu)化的模型框架為指導(dǎo),建立了完整的業(yè)務(wù)ci/kpi指標(biāo)體系,并繪制以業(yè)務(wù)為中心的boss系統(tǒng)地圖。本項目與傳統(tǒng)系統(tǒng)監(jiān)控最大的區(qū)別就在于監(jiān)控的角度不同,從原來自下而上評估業(yè)務(wù)狀態(tài)和影響,變成以結(jié)構(gòu)化模型框架的為指導(dǎo),以對體系化的ci/kpi指標(biāo)監(jiān)控來了解業(yè)務(wù)狀態(tài)和定位業(yè)務(wù)故障。指標(biāo)體系的建立是以業(yè)務(wù)為主線的,按照業(yè)務(wù)-應(yīng)用-平臺的分層結(jié)構(gòu),針對每一層設(shè)定了支撐域、運營域和服務(wù)域的指標(biāo)分類標(biāo)準(zhǔn),并在這些指標(biāo)基礎(chǔ)上通過關(guān)系推導(dǎo)和加權(quán)計算實現(xiàn)創(chuàng)新的業(yè)務(wù)健康度量化模型。目前ci/kpi指標(biāo)體系已包括337個ci,1020個kpi,涵蓋了
13、業(yè)務(wù)、服務(wù)、應(yīng)用、進程、數(shù)據(jù)庫、web服務(wù)器、中間件和主機等各個方面。(4)數(shù)據(jù)聚集層在確定的ci/kpi指標(biāo)模型基礎(chǔ)上,系統(tǒng)匯聚了與業(yè)務(wù)相關(guān)的各類用戶體驗指標(biāo):業(yè)務(wù)監(jiān)控數(shù)據(jù)(業(yè)務(wù)可用性、業(yè)務(wù)量、業(yè)務(wù)辦理時長、業(yè)務(wù)的后臺服務(wù)器負(fù)載情況等)、配置數(shù)據(jù)(從cmdb中定時同步配置項信息和配置關(guān)聯(lián)信息),業(yè)務(wù)感性數(shù)據(jù)(業(yè)務(wù)量、積壓量和投訴等信息),使得運維人員不僅能直觀得到客戶層面的業(yè)務(wù)使用感知,還能從it支撐角度掌握業(yè)務(wù)運行情況。(5)告警管控層本系統(tǒng)通過采集了業(yè)務(wù)全方位數(shù)據(jù),了解了比其他系統(tǒng)更多,更全的數(shù)據(jù)。綜合這些數(shù)據(jù)并按照歷史數(shù)據(jù)和運維經(jīng)驗,通過設(shè)定靈活的提前預(yù)警條件形成預(yù)警模型。當(dāng)預(yù)警模型條
14、件都滿足的情況下,通過工單系統(tǒng)發(fā)出相關(guān)的預(yù)警工單,使運維人員及時處理,避免實際的業(yè)務(wù)中斷。本系統(tǒng)通過提供了基于邏輯拓?fù)涞娜窂焦收腺Y源定位和基于業(yè)務(wù)操作耗時細(xì)分的故障環(huán)節(jié)定位功能。通過對邏輯拓?fù)渲衱eb、中間件和數(shù)據(jù)庫層的全路徑業(yè)務(wù)模擬,都能將故障具體到集群中的某個服務(wù)器和某個應(yīng)用端口;通過包括網(wǎng)絡(luò)耗時和后臺耗時等的業(yè)務(wù)操作耗時細(xì)分,究竟是網(wǎng)絡(luò)問題還是后臺問題也就能清晰的展現(xiàn)在運維人員面前。(6)分析展示層boss業(yè)務(wù)監(jiān)控系統(tǒng)包含了多個采集了各類業(yè)務(wù)運營情況的特征值,獲取了綜合性反映業(yè)務(wù)狀態(tài)的指標(biāo),同時為了使運維人員直觀方便的全面了解業(yè)務(wù)運營情況變化,構(gòu)建了業(yè)務(wù)全景視圖以支持對各類指標(biāo)的一站式
15、查看。在豐富的圖表展示基礎(chǔ)上,系統(tǒng)提供鉆取方式層層進入非常詳細(xì)的原始數(shù)據(jù),方便運維人員分析業(yè)務(wù)與支撐之間的關(guān)系,從而不斷改進系統(tǒng)支撐短木板,提高總體的業(yè)務(wù)支撐服務(wù)水平。3、主要技術(shù)創(chuàng)新點(不超過800個漢字)(1)突破傳統(tǒng)以設(shè)備監(jiān)控為主的boss監(jiān)控定式,開創(chuàng)了boss業(yè)務(wù)的整體式監(jiān)控模式 由于沒有合適的工具,各省boss網(wǎng)管系統(tǒng)一直只能采用監(jiān)控boss的硬件設(shè)備運營狀態(tài)來判斷boss是否可用,如:數(shù)據(jù)庫是否吊死、主機的cpu使用率、內(nèi)存使用率。這種粗放的監(jiān)控存在很大的弊端,實際工作中經(jīng)常發(fā)現(xiàn)硬件系統(tǒng)各項指標(biāo)完好,但boss系統(tǒng)應(yīng)用已故障。 本系統(tǒng)采用在boss業(yè)務(wù)系統(tǒng)中設(shè)置應(yīng)用探針方式,通過
16、探針提取業(yè)務(wù)應(yīng)用信息指標(biāo),通過硬件、中間件、數(shù)據(jù)庫及應(yīng)用聯(lián)合指標(biāo)建模,實現(xiàn)了boss業(yè)務(wù)的整體式監(jiān)控。(2)通過建立業(yè)務(wù)健康度模型,解決boss難以量化管控難題針對業(yè)務(wù)運營情況缺乏有效的分析指標(biāo),這主要是因為業(yè)務(wù)層層嵌套,互相關(guān)聯(lián),且受制于后臺軟硬件平臺的穩(wěn)定性,故運維人員很難具體衡量出業(yè)務(wù)運營是否健康,更談不上有效發(fā)現(xiàn)業(yè)務(wù)運營的潛在威脅了。如何從眾多紛繁復(fù)雜的數(shù)據(jù)中,找出能直觀有效表征業(yè)務(wù)運營情況的指標(biāo),成為一大難點。本系統(tǒng)創(chuàng)新性的設(shè)立了業(yè)務(wù)健康度模型,通過對父子業(yè)務(wù)間關(guān)系、業(yè)務(wù)與后臺資源間關(guān)系的結(jié)構(gòu)化梳理,通過對多維度數(shù)據(jù)的采集計算,有效量化了業(yè)務(wù)健康度指標(biāo)。根據(jù)此模型,系統(tǒng)可自動實時針對
17、各業(yè)務(wù)進行健康度評分,實現(xiàn)對業(yè)務(wù)運營情況的科學(xué)度量,因其綜合了業(yè)務(wù)可用性、業(yè)務(wù)辦理量、后臺資源使用情況等全方位信息,特別適合公司管理人員了解業(yè)務(wù)通體運營情況。圖3:boss業(yè)務(wù)監(jiān)控度模型(3)探針式業(yè)務(wù)信息數(shù)據(jù)采集方式,實現(xiàn)零改造、零影響、全自動、全再現(xiàn)本項目采用了三種a、b、c三種探針,主動進行業(yè)務(wù)信息數(shù)據(jù)的采集。a、c兩種探針首次應(yīng)用到boss監(jiān)控。a式探針:7*24不間斷的模擬著最終用戶的全流程業(yè)務(wù)操作,其定時所采的可用性和性能數(shù)據(jù)實際上真實反映了用戶的操作體驗,以及業(yè)務(wù)在后臺各處理環(huán)節(jié)的性能。通過不同模擬點的部署,可以很好監(jiān)控到這些模擬點的實際用戶體驗數(shù)據(jù),實現(xiàn)了業(yè)務(wù)流程操作在全時間和
18、全流程的橫向全監(jiān)控。 c式探針:利用旁錄的全量用戶訪問業(yè)務(wù)系統(tǒng)的數(shù)據(jù)包,再經(jīng)過創(chuàng)新的業(yè)務(wù)包構(gòu)造技術(shù),無論失敗還是成功的業(yè)務(wù)操作的量、時長、時長細(xì)分都能實時統(tǒng)計。另外,按照客戶端ip、登錄用戶名等多維度對最終用戶進行分類,可以及時監(jiān)控到區(qū)域性業(yè)務(wù)操作異常,保障業(yè)務(wù)支撐的正常運行。實現(xiàn)了業(yè)務(wù)流程操作在全地域全用戶的縱向監(jiān)控。圖4是全流程全時間的業(yè)務(wù)探測監(jiān)控(a式)和全地域全用戶的全量用戶監(jiān)控(c式)示意圖:圖4:一個業(yè)務(wù)應(yīng)用的采集采用探針式采集的優(yōu)勢是:零改造:對現(xiàn)有系統(tǒng)沒有任何改造,與現(xiàn)有系統(tǒng)完全解耦,使大范圍推廣成為可能零影響:探針和全量采集都是獨立的系統(tǒng),即使失效也不會影響業(yè)務(wù)系統(tǒng)本身;另一
19、方面,探針是單用戶操作,全量數(shù)據(jù)監(jiān)控是交換機的數(shù)據(jù)包旁錄,都不增加系統(tǒng)壓力全再現(xiàn):探針完全再現(xiàn)了用戶和系統(tǒng)在操作過程中的動作,忠實記錄了動作背后的交互協(xié)議與數(shù)據(jù)包,全量數(shù)據(jù)監(jiān)控也完全再現(xiàn)了所有用戶的請求和服務(wù)器的響應(yīng)。全自動:自動靈活的探針調(diào)度使得探針能夠7x24小時無人值守式監(jiān)控業(yè)務(wù)、應(yīng)用等的狀態(tài),全量用戶監(jiān)控自動接收交換機鏡像數(shù)據(jù),自動分類、匯總和展示。(4)突破性的解決了業(yè)務(wù)可用性的預(yù)警難題,實現(xiàn)boss端到端的業(yè)務(wù)監(jiān)控維護人員關(guān)注集中在業(yè)務(wù)體驗上,即端到端的業(yè)務(wù)是否可用,而傳統(tǒng)的系統(tǒng)級監(jiān)控往往是事后告警,因此無法避免故障的發(fā)生。實際上,業(yè)務(wù)不可用往往是個從量變到質(zhì)變的過程,而如何及時察
20、覺到量變過程,成為避免業(yè)務(wù)中斷的關(guān)鍵。本項目通過創(chuàng)新的端到端在線業(yè)務(wù)模擬技術(shù),實時監(jiān)控了業(yè)務(wù)操作響應(yīng)時長,并結(jié)合從業(yè)務(wù)系統(tǒng)中獲取的實時業(yè)務(wù)量指標(biāo),突破性的解決了業(yè)務(wù)可用性的預(yù)警難題。圖5是某日從0:30分開始,前臺充值卡、現(xiàn)金和505充值的業(yè)務(wù)探針出現(xiàn)多次超時,時長達35秒(正常<1秒),平臺生成趨勢預(yù)警。值班人員據(jù)此檢查這幾個業(yè)務(wù)共用的充值數(shù)據(jù)庫的性能,發(fā)現(xiàn)某個定時job出現(xiàn)了掛起,并不斷消耗數(shù)據(jù)庫性能,經(jīng)過緊急處理于凌晨3點50分排除故障隱患,避免了充值業(yè)務(wù)中斷:圖5:一個業(yè)務(wù)預(yù)警的例子(5)通過巡航式坐標(biāo)導(dǎo)向,實現(xiàn)故障原因快速定位模擬探針中的耗時細(xì)分能夠把將時間分解到網(wǎng)絡(luò)和后臺,針
21、對業(yè)務(wù)故障,運維人員能夠快速將故障的可能原因定位到網(wǎng)絡(luò)還是后臺的故障,并針對性的處理故障。同時利用業(yè)務(wù)應(yīng)用的運營過程中包含的大量狀態(tài)數(shù)據(jù),包含了配置關(guān)系、性能、告警等數(shù)據(jù),通過配置關(guān)系列出所有可能的故障根源配置項,通過配置項的詳細(xì)性能和告警狀態(tài)幫助業(yè)務(wù)活動監(jiān)控平臺快速定位業(yè)務(wù)故障根源。圖6是某次統(tǒng)一門戶登錄時間過長預(yù)警,通過耗時細(xì)分發(fā)現(xiàn)cpu和內(nèi)存利用率過高問題案例。圖6:一個故障定位的案例(6)建立了三維立體業(yè)務(wù)監(jiān)控視圖,提供了boss運管的基礎(chǔ)平臺本系統(tǒng)將每個業(yè)務(wù)系統(tǒng)劃分為三個層次:業(yè)務(wù)層、邏輯層、物理層。系統(tǒng)全面提供三個層次的監(jiān)控。在每一層的具體業(yè)務(wù)、設(shè)備的展示上,又把性能數(shù)據(jù)、告警數(shù)據(jù)
22、和配置信息同時展現(xiàn),實現(xiàn)了真正的業(yè)務(wù)三維立體展現(xiàn)。三維立體業(yè)務(wù)監(jiān)控視圖都能夠更有機組織監(jiān)控管理數(shù)據(jù),大幅度提升運維管控效率,極大方便各類人員查看操作,使boss運營監(jiān)控可以實現(xiàn)一站式監(jiān)管控。圖7和圖8是統(tǒng)一門戶系統(tǒng)按照業(yè)務(wù)層、邏輯層和物理層進行劃分的展示界面以及業(yè)務(wù)細(xì)分的數(shù)據(jù)展示:圖7:立體業(yè)務(wù)監(jiān)控視圖1圖8:立體業(yè)務(wù)監(jiān)控視圖23、 應(yīng)用情況(不超過800個漢字)提供了有效的業(yè)務(wù)問題預(yù)警探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)平臺正式運行后,業(yè)務(wù)監(jiān)控的范圍已覆蓋了統(tǒng)一門戶、渠道系統(tǒng)、網(wǎng)上營業(yè)廳、充值系統(tǒng)等boss核心系統(tǒng)的19類業(yè)務(wù)辦理和關(guān)鍵操作,同時通過通過數(shù)據(jù)接口集成了資源配置管理平臺、工單系統(tǒng)、網(wǎng)管監(jiān)
23、控系統(tǒng)、帳務(wù)、充值、計費、營業(yè)、統(tǒng)一開通、綜合查詢、五項指標(biāo)考核等10個應(yīng)用系統(tǒng)共計近千個指標(biāo)。平均每月針對業(yè)務(wù)效率的有效預(yù)警29次,預(yù)警有效率和覆蓋率均達到96以上,相關(guān)人員據(jù)此進行主動式運維服務(wù),使得月均故障數(shù)下降了34%。boss核心系統(tǒng)的故障時間每月減少37分鐘(圖9)。圖9:月均故障次數(shù)分析本系統(tǒng)正式運行以來的告警數(shù)據(jù),發(fā)現(xiàn)趨勢預(yù)警時間點比原有的平臺級告警和客服報障平均提前42分鐘(圖10)。圖10:故障提前預(yù)警情況故障處理時長明顯縮短本系統(tǒng)試商用以來,依靠業(yè)務(wù)耗時細(xì)分、前后臺資源模型等系統(tǒng)工具,實現(xiàn)了業(yè)務(wù)故障的快速定位,明顯縮短了故障處理時長,與系統(tǒng)啟用前相比,業(yè)務(wù)故障處理時長平均
24、縮短了42%(圖11)。圖11:故障處理時間情況運營分析效率明顯提升本系統(tǒng)為業(yè)務(wù)應(yīng)用維護和系統(tǒng)平臺維護人員提供了大量業(yè)務(wù)運營分析數(shù)據(jù),運維人員原來需要分別從boss系統(tǒng)、平臺監(jiān)控系統(tǒng)和工作流平臺界面查看對應(yīng)的數(shù)據(jù),而目前只需要本系統(tǒng)一個界面就可以完成所有運維所需數(shù)據(jù)的查看。同時通過運營平臺的7大類25張運維報表的自動生成功能,大大節(jié)約了定期業(yè)務(wù)維護的時間,有效提升了運營分析效率。內(nèi)部客戶滿意度明顯改善依托本系統(tǒng),業(yè)務(wù)維護支撐人員的工作模式逐步轉(zhuǎn)為業(yè)務(wù)問題主動發(fā)現(xiàn),業(yè)務(wù)故障主動解決。同時,由于能直觀地以前臺人員視角審視業(yè)務(wù)故障和問題,維護人員更能了解內(nèi)部客戶感知,解決問題做到有的放矢,明顯改善了
25、內(nèi)部客戶滿意度。08年底,業(yè)務(wù)支撐滿意度全國第四。5、經(jīng)濟及社會效益(不超過800個漢字)(1)經(jīng)濟效益(單位:人民幣萬元)項目總投資額400回收期(年)0.1年 欄目年份新增利潤新增稅收創(chuàng)收外匯(美元)節(jié)支總額2008年5月2009年9月5209萬 · 每年可挽回3907.2業(yè)務(wù)中斷損失根據(jù)國際著名戰(zhàn)略研究公司(strategic rssearch corp.)和國際評估公司yankee group的研究報告評估,電信運營商業(yè)務(wù)運營支撐系統(tǒng)每小時停止服務(wù)而導(dǎo)致停復(fù)機不及時、用戶無法開戶、充值繳費約帶來528萬元人民幣的經(jīng)濟損失。事實上,以國內(nèi)電信公司用戶規(guī)模,此數(shù)據(jù)估計的相當(dāng)保守。
26、按目前運行情況分析,it運營管理平臺建設(shè)能夠使業(yè)務(wù)每月中斷平均時間減少37分鐘,則按此保守估計,每年能為公司挽回經(jīng)濟損失為:528萬*37分鐘/60*12=3907.2萬元生產(chǎn)、應(yīng)用單位財務(wù)專用章和財務(wù)負(fù)責(zé)人簽字 年 月 日(2)社會效益探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)是以業(yè)務(wù)為中心,以客戶為導(dǎo)向的,使業(yè)務(wù)支撐部門的運維目標(biāo)與業(yè)務(wù)部門的目標(biāo)更加一致,共同為客戶提供優(yōu)質(zhì)的服務(wù),同時在在客戶中進一步樹立了中國移動優(yōu)質(zhì)服務(wù)的形象。本系統(tǒng)能及時有效甚至提前發(fā)現(xiàn)業(yè)務(wù)的使用問題,提升了業(yè)務(wù)的可用性,從而使客戶能夠更順暢的使用移動的各項業(yè)務(wù),減少了實際發(fā)生業(yè)務(wù)中斷時的客戶投訴數(shù)量,提升了客戶滿意度和忠誠度,在保持
27、浙江移動市場占有率、提升服務(wù)競爭力方面發(fā)揮了重要作用。本系統(tǒng)轉(zhuǎn)變了業(yè)務(wù)支撐部門運維員工的思路,從基礎(chǔ)平臺架構(gòu)的監(jiān)控向業(yè)務(wù)運營管理轉(zhuǎn)變,提示了員工對于業(yè)務(wù)的了解程度,拓展了業(yè)務(wù)支撐部門員工的發(fā)展規(guī)劃道路,并且該平臺通過自動化監(jiān)控、準(zhǔn)確故障定位診斷功能,能夠有效減輕員工工作量,避免了監(jiān)控運維人員陷入疲于奔命,忙于救火,增加了員工的滿意度。浙江公司在boss業(yè)務(wù)監(jiān)控上的研究與實踐,在09年昆明全國業(yè)務(wù)支撐工作會議上做了專題介紹,并cio insight信息方略(2008年12月23日 第24期 總第28期)發(fā)表了專題文章,為中國電信運營商的業(yè)務(wù)支撐系統(tǒng)維護做了積極有益的探索。 四、本項目曾獲獎勵情況
28、獲獎時間獎 項 名 稱獎勵等級授獎部門(單位)2008年業(yè)務(wù)服務(wù)創(chuàng)新獎二等獎中國移動通信集團浙江有限公司本表所填獎勵是指: 1.國家設(shè)立的科技獎勵;2.各省、自治區(qū)、直轄市移動通信公司設(shè)立的獎勵3.各省、自治區(qū)、直轄市政府設(shè)立的獎勵;4. 經(jīng)科技部批準(zhǔn)的社會力量設(shè)立的獎勵。 五、申請、獲得專利情況表序號公司編號申請?zhí)枌@Q專利類別是否授權(quán)是否本項目產(chǎn)出1zj0905001200910092985.4一種多業(yè)務(wù)系統(tǒng)有效共享公共資源信息的方法發(fā)明專利是2zj0906001已通過集團公司審核監(jiān)控用戶體驗的方法和系統(tǒng)發(fā)明專利是3zj0910011集團評審中一種基于snmp協(xié)議的中間件性能監(jiān)控方法發(fā)明
29、專利是4zj0910012通過集團公司預(yù)審一種高可擴展小型機性能遠(yuǎn)程監(jiān)控方法發(fā)明專利是5zj0910013通過集團公司預(yù)審一種基于最小二乘法的趨勢告警方法發(fā)明專利是七、主要完成單位情況單位名稱中國移動通信集團浙江有限公司第 1 完成單位中國移動通信集團浙江有限公司聯(lián)系人沈紅群傳系電子信箱shenhongqun主要貢獻探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)是中國移動通信集團浙江有限公司信息技術(shù)部根據(jù)針對boss系統(tǒng)業(yè)務(wù)應(yīng)用監(jiān)控難度大,但又非常迫切的現(xiàn)狀,根據(jù)etom模型,參考國內(nèi)外業(yè)務(wù)支撐系統(tǒng)監(jiān)控的失敗的教訓(xùn)與成功的經(jīng)驗,提出的一種boss業(yè)務(wù)監(jiān)控方法
30、。在公司領(lǐng)導(dǎo)的支持下,完成了項目的立項、建設(shè),并在實際的生產(chǎn)中應(yīng)用推廣。 項目的資金、主要思路、項目的設(shè)計、實施均來自本單位。單位公章: 年 月 日八、申報單位意見申報單位中國移動通信集團浙江有限公司通信地址杭州市環(huán)城北路288號郵編310006聯(lián)系人基本信息姓名余建利電門信息技術(shù)部手務(wù)傳真電郵nova探針式boss業(yè)務(wù)監(jiān)控系統(tǒng)是浙江公司信息技術(shù)部為解決boss業(yè)務(wù)應(yīng)用監(jiān)控難題,嘗試性進行研究和建設(shè)的新型項目,通過2年多時間的優(yōu)化與應(yīng)用,在boss業(yè)務(wù)應(yīng)用監(jiān)控方法取得了較突破性工作,目前已廣泛應(yīng)用到浙江公司boss系統(tǒng)各子系統(tǒng)的監(jiān)控中,取得了
31、比較好的效果。因此同意推薦! 申報單位公章 年 月 日 九、用戶使用證明單位名稱中國移動通信集團浙江有限公司通信地址杭州市環(huán)城北路288號郵編310006聯(lián)系人基本信息姓名項捷電門信息技術(shù)部業(yè)務(wù)支撐中心手務(wù)應(yīng)用優(yōu)化室主任傳真電郵xiangjie用戶使用情況說明項目從2007年12月份上線應(yīng)用以來,一期實現(xiàn)了統(tǒng)一門戶上的開戶銷戶、停機復(fù)機等核心應(yīng)用的監(jiān)控,2009年4月完成二期上線,業(yè)務(wù)監(jiān)控的范圍已覆蓋了統(tǒng)一門戶、渠道系統(tǒng)、網(wǎng)上營業(yè)廳、充值系統(tǒng)等boss核心系統(tǒng)的19類業(yè)務(wù)辦理和關(guān)鍵操作,同時通過通過數(shù)據(jù)接口集成了資源配置管理平臺、工單系統(tǒng)、網(wǎng)
32、管監(jiān)控系統(tǒng)、帳務(wù)、充值、計費、營業(yè)、統(tǒng)一開通、綜合查詢、五項指標(biāo)考核等10個應(yīng)用系統(tǒng)共計近千個指標(biāo)。系統(tǒng)的應(yīng)用有效解決了boss業(yè)務(wù)監(jiān)控難題,提高了故障提前預(yù)警能力,每月故障時間減少37分鐘,提升了客戶滿意度3個百分點。 單位公章年 月 日 十、證明材料1、專利(1) 監(jiān)控用戶體驗的方法和系統(tǒng)(2)一種多業(yè)務(wù)系統(tǒng)有效共享公共資源信息的方法 (3) 一種基于snmp協(xié)議的中間件性能監(jiān)控方法(4)一種高可擴展小型機性能遠(yuǎn)程監(jiān)控方法(5)一種基于最小二乘法的趨勢告警方法2、獲獎證明(09年初公司下發(fā)文件)(二)二等獎(3項)1.應(yīng)用運營指標(biāo)體系,建立it統(tǒng)一運營及業(yè)務(wù)活動管理平臺(省公司信息技術(shù)部)3、文章 用it透視業(yè)務(wù)以業(yè)務(wù)為中心的it運營管理平臺cio insight信息方略2008年12月23日 第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海高一(下)期末物理測試題及答案
- 家用電器產(chǎn)品維護維修服務(wù)協(xié)議
- 2022學(xué)年上海交大附中高一(下)期中地理試題及答案
- 探望同學(xué)150字(10篇)
- 歷史朝代變遷及重要事件探究教案
- 八年級英語閱讀活動方案
- 農(nóng)戶與農(nóng)業(yè)種植合作社種植協(xié)議
- 公交公司避暑活動方案
- 公交營運活動方案
- 公眾聚餐活動方案
- 砌筑擋土墻搭設(shè)腳手架專項方案設(shè)計
- 長篇情感電臺讀文(10篇)精選
- “文化引導(dǎo)型”城市更新思想思考與實踐課件
- 卷心菜中過氧化物酶熱穩(wěn)定性的初步研究
- DB35_T 169-2022 森林立地分類與立地質(zhì)量等級
- 渦輪增壓器系統(tǒng)及常見故障案例
- 動火作業(yè)危害識別及控制措施清單
- 宋大叔教音樂第三單元進階版講義2
- 26個科室建設(shè)指南
- 安全帶檢測報告(共8頁)
- 河道治理監(jiān)理月報
評論
0/150
提交評論