![2022數(shù)據(jù)中心智能運(yùn)維報(bào)告_第1頁](http://file4.renrendoc.com/view11/M00/0C/14/wKhkGWX5t-qAWh-LAACpvU4hj0I002.jpg)
![2022數(shù)據(jù)中心智能運(yùn)維報(bào)告_第2頁](http://file4.renrendoc.com/view11/M00/0C/14/wKhkGWX5t-qAWh-LAACpvU4hj0I0022.jpg)
![2022數(shù)據(jù)中心智能運(yùn)維報(bào)告_第3頁](http://file4.renrendoc.com/view11/M00/0C/14/wKhkGWX5t-qAWh-LAACpvU4hj0I0023.jpg)
![2022數(shù)據(jù)中心智能運(yùn)維報(bào)告_第4頁](http://file4.renrendoc.com/view11/M00/0C/14/wKhkGWX5t-qAWh-LAACpvU4hj0I0024.jpg)
![2022數(shù)據(jù)中心智能運(yùn)維報(bào)告_第5頁](http://file4.renrendoc.com/view11/M00/0C/14/wKhkGWX5t-qAWh-LAACpvU4hj0I0025.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
中國智能運(yùn)維實(shí)踐年度報(bào)告數(shù)據(jù)中心中國智能運(yùn)維實(shí)踐年度報(bào)告中國智能運(yùn)維實(shí)踐年度報(bào)告????目??國Я智能運(yùn)維???研10????A??fl?19??實(shí)踐?Γ??29國?標(biāo)準(zhǔn)研制??
記得去年,ITSS–DCMG發(fā)布的《中國行業(yè)數(shù)據(jù)中心運(yùn)營管理2019年度報(bào)告》中指出,“智能運(yùn)維?處于?索開g之際,卻已是?爭勢(shì)”,果然,即便是突如其來的?情也?不??前進(jìn)的步?戶在各類細(xì)分場(chǎng)景中創(chuàng)新實(shí)踐,高校和研究機(jī)構(gòu)的學(xué)術(shù)成果層出不?,產(chǎn)品?代也是日新月異,儼然一?千???、$?爭流的態(tài)勢(shì)。與此同時(shí),智能運(yùn)維國家標(biāo)準(zhǔn)的編制也在緊?密?地推進(jìn),?然標(biāo)準(zhǔn)從立項(xiàng)、編制、征求意見、定稿再到報(bào)批發(fā)布的過程看似?長,但編制組的同?們上下求索、不???,¤力思?著智能運(yùn)維的方法、路徑與未來。我們明白國家標(biāo)準(zhǔn)的普適性和對(duì)行業(yè)發(fā)展起到的引領(lǐng)作用,這需要大量、廣泛和長?的調(diào)研及分析;我們?信“智能運(yùn)維”將是??g、實(shí)現(xiàn)價(jià)值轉(zhuǎn)型的新時(shí)代,這需要$?的態(tài)度和對(duì)未來的??;$行“從實(shí)踐中來,到實(shí)踐中去”的原則,這需要來自用戶最佳實(shí)踐案例的精?分析和深刻?結(jié);我們這‰“?標(biāo)準(zhǔn)人”正在創(chuàng)造著一段?,而這需要熱情的投入和無?的$?。正如習(xí)??記所說,要“文寫在?國大地上”,這正是我們)志?求的目標(biāo)!學(xué)問無?力、工夫$?成,一路所思所見所?,匯成本年度報(bào)告的四部分:國內(nèi)現(xiàn)狀調(diào)研分析、前???及趨勢(shì)分析、最佳實(shí)踐案例?國標(biāo)研制進(jìn)展,??閱?!國Я智能運(yùn)維國Я智能運(yùn)維???研03???研???研?? ????????? ??本次調(diào)研共收集50家單位的智能運(yùn)維實(shí)踐現(xiàn)狀,調(diào)研單位主要分布北京、上海、?I、廣?、云南、四?等地區(qū)?!氨敬握{(diào)研共收集50家單位的智能運(yùn)維實(shí)踐現(xiàn)狀,調(diào)研單位主要分布北京、上海、?I、廣?、云南、四?等地區(qū)。?Q?研$??45.0042.00% ?¢12.00%@?科技4.00%?¢12.00%@?科技4.00% 10.00%10.00%12.00%6.00%4.00%35.0030.0025.0020.0015.0010.005.000.00銀行 保? 能源 運(yùn)營商 技術(shù)廠商 其?04本次調(diào)研單位主要來自于銀行、保?、?商、?融科技、能源、技術(shù)廠商、運(yùn)營商、??機(jī)關(guān)等。04中國智能運(yùn)維實(shí)踐年度報(bào)告國Я智能運(yùn)維???中國智能運(yùn)維實(shí)踐年度報(bào)告國Я智能運(yùn)維???在運(yùn)維領(lǐng)域,智能運(yùn)維包φ自動(dòng)化運(yùn)維的認(rèn)知在增強(qiáng)。 ???運(yùn)維????智能運(yùn)維? 2.70%29.73%屬于不屬于其?67.57%滿足智能特征的運(yùn)維才能被?智能運(yùn)維并不僅僅是某個(gè)或某幾個(gè)算法的地
從各家急需提升的能力來看,智能運(yùn)維的基礎(chǔ)–運(yùn)維數(shù)據(jù)治理和傳統(tǒng)運(yùn)維能力首當(dāng)其ф。?然已經(jīng)實(shí)施智能運(yùn)維場(chǎng)景,并取得一些成?,?是能用技術(shù)解決的都不是問題,很不?,?Щ自動(dòng)化運(yùn)維能力業(yè)務(wù)創(chuàng)新能力?Щ自動(dòng)化運(yùn)維能力業(yè)務(wù)創(chuàng)新能力技術(shù)平臺(tái)建設(shè)能力數(shù)據(jù)整合管理能力整體規(guī)劃能力數(shù)據(jù)治理能力大數(shù)據(jù)運(yùn)維能力分析決策能力故障自愈能力數(shù)據(jù)算法能力場(chǎng)景設(shè)計(jì)能力當(dāng)AI類技術(shù)不斷引入到環(huán)境中來?助人處理問題時(shí),我們才意識(shí)到運(yùn)維到了一個(gè)新?當(dāng)智能運(yùn)維應(yīng)用的越來越深,我們發(fā)現(xiàn)智能運(yùn)維要解決的是人、環(huán)境、技術(shù)和數(shù)據(jù)之間“四維”?此影?的問題。0606 ?$ ?$??AI$??運(yùn)維能?$R智能運(yùn)維 2.70%屬于35.14%不屬于其?62.16%0505智能運(yùn)維場(chǎng)景應(yīng)用當(dāng)下出現(xiàn)長?的特點(diǎn)。 智能運(yùn)維場(chǎng)景 25.00% 智能運(yùn)維場(chǎng)景 25.00%21.88%20.00%17.71%15.63%15.00%10.42%10.00%5.21%5.00%4.17%3.13%2.08%0.00%7.29%12.50%
智能運(yùn)維平臺(tái)的分析能力利用算法和模型來支持,然而結(jié)果并不?因此,算法價(jià)值是有的。 ?$AI$??數(shù)據(jù)?? 其?5.33%管理數(shù)據(jù)14.67%配置數(shù)據(jù)20.00%文本數(shù)據(jù)25.33%時(shí)序數(shù)據(jù)34.67%0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00% 35.00% 40.00%智能運(yùn)維在難的運(yùn)維數(shù)據(jù)治理中難地前行。是繼續(xù)難度日,還是借力打$,如何選擇將影?智能運(yùn)維未來2到3年發(fā)展的速度以及持提升的基礎(chǔ)。運(yùn)維數(shù)據(jù)?外部φ?運(yùn)維數(shù)據(jù)?外部φ?兩$都有,10.81%其?有做過以內(nèi)部實(shí)踐為主,40.54%內(nèi)部實(shí)踐,64.86%2021年?8.11%考慮外部13.51%內(nèi)部實(shí)踐?外部兩$都有2021年?考慮外部以內(nèi)部實(shí)踐為主其各有千?,但?有?一個(gè)能夠R???,R步I湖!)hameleon
N–Sigma
HTM
KDEArimaProphet
K–means聚類算法LSTM?進(jìn)g度回歸?
單指標(biāo)異常檢測(cè)算法08HR‰080707中國智能運(yùn)維實(shí)踐年度報(bào)告中國智能運(yùn)維實(shí)踐年度報(bào)告????????析10國Я智能運(yùn)維???研國Я智能運(yùn)維???研運(yùn)維數(shù)據(jù)治理重要,但業(yè)界缺少適合的工具平臺(tái)來支持運(yùn)維數(shù)據(jù)治理的價(jià)值體現(xiàn)。智能運(yùn)維建設(shè)?智能運(yùn)維建設(shè)?知識(shí)?結(jié)5%人員?Щ6%業(yè)界指導(dǎo)8%數(shù)據(jù)治理31%技術(shù)及平臺(tái)應(yīng)用10%應(yīng)用效果度量11%算法應(yīng)用16%應(yīng)用場(chǎng)景設(shè)計(jì)13%目前國內(nèi)各單位智能運(yùn)維建設(shè)基本處于起步水準(zhǔn)。 智能運(yùn)維建設(shè)?點(diǎn) 智能運(yùn)維場(chǎng)景達(dá)到業(yè)務(wù)?望效果11.43%45.72%42.86%智能運(yùn)維場(chǎng)景達(dá)到用戶?望效果11.43%54.29%34.29%智能運(yùn)維場(chǎng)景11.43%31.43%57.15%0.00% 10.00%20.00%30.00%40.00%50.00%60.00%70.00%3(較好) 2(一般) 1(起步)0909中國智能運(yùn)維實(shí)踐年度報(bào)告????????中國智能運(yùn)維實(shí)踐年度報(bào)告?????????場(chǎng)Т?智能運(yùn)維??¢?????場(chǎng)Т?智能運(yùn)維??¢????)體???建??智能運(yùn)維成?標(biāo)?從Gartner的IT運(yùn)營技術(shù)成熟度?線變化來看,智能運(yùn)維從2019年的創(chuàng)新?發(fā)?段進(jìn)入通?預(yù)??數(shù)字化業(yè)務(wù)轉(zhuǎn)型及從被動(dòng)應(yīng)對(duì)問題過?到主動(dòng)解決問題兩方面影?,Gartner推測(cè),2020年到2025年,智能運(yùn)維市場(chǎng)規(guī)模復(fù)合年增長率?為15%。到2024年,將有30%的企業(yè)領(lǐng)導(dǎo)$將依靠IT運(yùn)營(AIOps)平臺(tái)中的Al來推動(dòng)與業(yè)務(wù)相關(guān)的決策。但如÷這一比例還達(dá)不到3%,基于智能運(yùn)維的潛力,市場(chǎng)對(duì)智能運(yùn)維的У?及投資在持續(xù)上升,主要因?yàn)椋?/p>
智能運(yùn)維的建設(shè)?蓋了組織高層、業(yè)務(wù)相關(guān)方和IT運(yùn)維人員,所以應(yīng)考慮建立一個(gè)自上而下的智能運(yùn)維建設(shè)框架。Т??№?$的??3?智能運(yùn)維可在不同運(yùn)維團(tuán)隊(duì)中應(yīng)用,如DevOps、SRE、IT運(yùn)維、網(wǎng)絡(luò)安全,以及企業(yè)領(lǐng)導(dǎo)等。具體所需場(chǎng)景、用例和數(shù)據(jù)因應(yīng)用團(tuán)隊(duì)或角色的需求不同而表現(xiàn)出一定差異性。;??導(dǎo)更關(guān)注用戶參與度,而應(yīng)用性能?是影;??導(dǎo)更關(guān)注用戶參與度,而應(yīng)用性能?是影?整體參與度的一個(gè)參數(shù)。在一些全?性的組織中,業(yè)務(wù)領(lǐng)導(dǎo)已經(jīng)不再區(qū)分員工和客戶,所以這$的“用戶”既指員工也指客戶。這個(gè)?IT的用戶影?的相關(guān)性開?,但?大到包括技術(shù)、人和現(xiàn)有流程的效率和生產(chǎn)力等定性的關(guān)鍵?成熟的組織中,更好的參與而不是?員是這種關(guān)鍵?指標(biāo)背后的驅(qū)動(dòng)力。對(duì)于這樣的場(chǎng)景,選擇專注于聚類和人口統(tǒng)計(jì)學(xué)的平臺(tái),并在不同的數(shù)據(jù)集上提供因果?力,包括情感和滿意度。12(RE??通常有與IT運(yùn)維和DevOps用例重?目標(biāo)。例如,事件關(guān)聯(lián)和日志?取不是團(tuán)隊(duì)的主要目標(biāo)。?們的重點(diǎn)領(lǐng)域包括IT于SRE用例,選擇為IT架構(gòu)提供實(shí)時(shí)拓?和依?性見的平臺(tái)作為主要用例之一。D@Y?pT??主要專注于日志D@Y?pT??主要專注于日志?取和分析。隨著DevOps熟,用例從對(duì)生產(chǎn)前的關(guān)注?和業(yè)務(wù)相關(guān)性等生產(chǎn)指標(biāo)。這就產(chǎn)生了對(duì)新的KPI的需求,在多個(gè)?慮到這種情況,應(yīng)選擇能夠?取?點(diǎn)的數(shù)據(jù)(??標(biāo)和日志)的平臺(tái),并??為DevOps視圖的工作。IT運(yùn)維通常需要指標(biāo)和日志?開‰即用的功能。數(shù)據(jù)采集和變動(dòng)的高速率使得數(shù)據(jù)呈現(xiàn)了多樣化趨勢(shì)由于采用云原生和過?性架構(gòu),在維護(hù)可觀測(cè)性和參與性方面存在挑戰(zhàn)通過智能化及自適應(yīng)方式驅(qū)動(dòng)重復(fù)性工作自動(dòng)化,并預(yù)測(cè)變更的成功和SLA的}?圖:Gartner2020年IT自動(dòng)化運(yùn)營技術(shù)?線1111對(duì)運(yùn)維數(shù)據(jù)進(jìn)行治理,不是僅僅上一?“數(shù)據(jù)治理”工具就能解決,而是需要在組織配?流程制度、技術(shù)實(shí)現(xiàn)的實(shí)和推廣層面多管齊下并持續(xù)改進(jìn)才能收效。這一切改進(jìn)的前提又需要組織對(duì)自身實(shí)際所處的位置和能力有著清認(rèn)知,然而很多企業(yè)?知道有問題或?看問題表象,?有深入思考或$?有能力去判斷分析這些問題的根源。?№運(yùn)維模式?運(yùn)維數(shù)據(jù)T№的Т???№業(yè)務(wù)特征決定支撐該業(yè)務(wù)的應(yīng)用系統(tǒng)及其關(guān)聯(lián)系統(tǒng)的運(yùn)行特征,結(jié)合業(yè)界實(shí)踐和各種理論模型,運(yùn)維模式大致分為穩(wěn)態(tài)模式、‰態(tài)模式、?態(tài)模式。不同運(yùn)維模式的劃分并不?對(duì),也需要因地制?進(jìn)行調(diào)整。?$g??.???的智能運(yùn)維??建議組建?蓋業(yè)務(wù)、數(shù)據(jù)所有$和工程?的跨?能團(tuán)隊(duì)。?人員結(jié)合在一起,才能體現(xiàn)出智能運(yùn)維的真正價(jià)值。運(yùn)維????的?????{系化??智能運(yùn)維
????????????
有效@???????性?@?3?定運(yùn)
應(yīng)用——?態(tài)融合APM/BPM/AMDB應(yīng)用配置信息,交易/進(jìn)程信息基于云化/虛擬化技術(shù)的持續(xù)資源交付云管平臺(tái):資源性能和?g性信息傳統(tǒng)IDC監(jiān)控和CMDB設(shè)備/IT基礎(chǔ)環(huán)境(風(fēng)?水電)信息運(yùn)維??????的定制化平臺(tái)關(guān)注?到?邏輯運(yùn)維數(shù)據(jù)治理從場(chǎng)景切入運(yùn)維??????的運(yùn)維??????的定制化平臺(tái)關(guān)注?到?邏輯運(yùn)維數(shù)據(jù)治理從場(chǎng)景切入運(yùn)維??????的 從單點(diǎn)做起關(guān)注某一項(xiàng)運(yùn)維工具/能力CMDB管理能力?運(yùn)維成熟度高的組織更加清?在起步?段,運(yùn)維數(shù)據(jù)治理建設(shè)將影?智能運(yùn)維來建設(shè)和發(fā)展速度及質(zhì)量。運(yùn)維成熟度低的組織?于內(nèi)外部條件,更多從單點(diǎn)實(shí)施,場(chǎng)景單一,運(yùn)維數(shù)質(zhì)量由當(dāng)前CMDB管理水平?jīng)Q定。運(yùn)維數(shù)據(jù)??成??х;]智能運(yùn)維???運(yùn)維數(shù)據(jù)??成??х;]智能運(yùn)維???14從很多企業(yè)或組織的信息化建設(shè)?程來看,信息系統(tǒng)建設(shè)過程常常是由部門主導(dǎo),由于這種項(xiàng)目式、??式的建設(shè)模式14
運(yùn)維數(shù)據(jù)?$$???÷目前主流的數(shù)據(jù)治理方法論有DAMA的DMBOK2.0、DGI的數(shù)據(jù)治理模型等,可借鑒標(biāo)準(zhǔn)有國際標(biāo)準(zhǔn)ISO38505–1、國家標(biāo)準(zhǔn)GB/T34960.5和GB/T36073。在運(yùn)維數(shù)據(jù)治理的實(shí)踐中,這些方法論和標(biāo)準(zhǔn)?是參考,運(yùn)維數(shù)據(jù)治理團(tuán)隊(duì)需要基于企業(yè)自身情況在理論基礎(chǔ)上進(jìn)行配適性調(diào)整和選用。運(yùn)維數(shù)據(jù)治理在中國才??起步,由于企業(yè)規(guī)模、管理成熟度和技術(shù)能力所,現(xiàn)?段多運(yùn)維數(shù)據(jù)治理實(shí)踐僅基于企業(yè)現(xiàn)有條件和業(yè)務(wù)特點(diǎn)實(shí)現(xiàn)治理框架中某些域或$點(diǎn)。從DCMG《中國行業(yè)數(shù)據(jù)中心運(yùn)營管理2019年度報(bào)告》中看到2019年工作?結(jié)和2020工作計(jì)劃中“運(yùn)維數(shù)據(jù)”是?頻最高的關(guān)鍵?。在DCMG《中國行業(yè)數(shù)據(jù)中心運(yùn)營管理年度報(bào)告》編制過程中,基于2020年?回收的42?有效樣本,運(yùn)維數(shù)據(jù)治理已經(jīng)被當(dāng)作單領(lǐng)域進(jìn)行統(tǒng)計(jì),其下出現(xiàn)運(yùn)維數(shù)據(jù)安全治理、運(yùn)維數(shù)據(jù)運(yùn)營和運(yùn)維數(shù)據(jù)治理體系等關(guān)鍵?。1313Ц??$能??智能運(yùn)維平臺(tái)Ц??$能??智能運(yùn)維平臺(tái)??$??智能運(yùn)維?場(chǎng);??三???要?未來智能運(yùn)維工具及平臺(tái)將區(qū)分為具有通用能力的平臺(tái)及專注某一領(lǐng)域的智能運(yùn)維平臺(tái)。具有通用能力的智能運(yùn)維平臺(tái)正在作為一個(gè)R立市場(chǎng)出現(xiàn),未來推測(cè)市場(chǎng)將更專注于具有通用能力的智能運(yùn)維平臺(tái)。開源技術(shù)的商品化降低了許多供應(yīng)商的準(zhǔn)入門?,為數(shù)據(jù)采集、存儲(chǔ)和可視化工具提供許多選擇。具有通用能力的智能運(yùn)維平臺(tái)的采集、存儲(chǔ)和展示技術(shù)相對(duì)容易部?和整合。Ц有通用能力的智能運(yùn)維?φ供應(yīng)商以具有通用能力的智能運(yùn)維平臺(tái)進(jìn)入市場(chǎng)。這些產(chǎn)品??主要依靠監(jiān)控工具來Ц有通用能力的智能運(yùn)維?φ供應(yīng)商以具有通用能力的智能運(yùn)維平臺(tái)進(jìn)入市場(chǎng)。這些產(chǎn)品??主要依靠監(jiān)控工具來未來趨勢(shì):市場(chǎng)正在轉(zhuǎn)向具有通用能力的智能運(yùn)維平臺(tái),不僅僅關(guān)注異常狀態(tài)識(shí)別,還包括行為分析、客戶參與和識(shí)別潛在機(jī)會(huì)。??$一??的智能運(yùn)維?φ供應(yīng)商?有核心組件及有的使用場(chǎng)景。平臺(tái)用算法代?了規(guī)則。專注于某一領(lǐng)域(如,網(wǎng)絡(luò)、?點(diǎn)系統(tǒng)或APM)。對(duì)于某一領(lǐng)域的解決方案,供應(yīng)商已經(jīng)基于算法提升平臺(tái)能力,滿足具體領(lǐng)域的智能運(yùn)維需要。從自身平臺(tái)以外獲取數(shù)據(jù),并將這些數(shù)據(jù)?入分析過程。未來趨勢(shì):專注某一領(lǐng)域的供應(yīng)商對(duì)g些關(guān)注少數(shù)點(diǎn)狀應(yīng)用,并優(yōu)先考慮少數(shù)重點(diǎn)用例的組織有效。隨著用例的增加,將?具有通用能力的智能運(yùn)維平臺(tái)轉(zhuǎn)?。未來,智能運(yùn)維通用平臺(tái)的主要功能將?蓋:采? ?? Т? ?? ξ采???Т???ξ
數(shù)據(jù)采???$智能運(yùn)維平臺(tái)必須能夠?qū)?態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)進(jìn)行采集、索引和存儲(chǔ)。智能運(yùn)維平臺(tái)能夠進(jìn)行實(shí)時(shí)數(shù)據(jù)分析,而不需要在分析前將數(shù)據(jù)保存到數(shù)據(jù)庫。平臺(tái)還必須提供跨越多個(gè)實(shí)時(shí)和??數(shù)據(jù)流的關(guān)聯(lián)分析。????9?智能運(yùn)維平臺(tái)使用以下類型的分析方法。自動(dòng)模式發(fā)現(xiàn)和預(yù)測(cè):發(fā)現(xiàn)隱φ?述??和/據(jù)中相關(guān)性的模式、集‰或‰體。然后,這些模式可用于預(yù)測(cè)具有不同程度?率的事件。異常檢測(cè):使用前述方法發(fā)現(xiàn)的模式來確定正常行為,
然后識(shí)別與正常行為的偏差,包括單變量和多變量。超越單?異常值檢測(cè),?們必須與業(yè)務(wù)影?和其?并發(fā)程(如發(fā)布管理)相關(guān)聯(lián),才能充分發(fā)揮作用,而不是產(chǎn)生出更多告警噪?。可能原因判定:對(duì)自動(dòng)發(fā)現(xiàn)和基于圖數(shù)據(jù)建立關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu),以確定?接因果關(guān)系的因果關(guān)系鏈。拓?分析:可以使用應(yīng)用程序、網(wǎng)絡(luò)、基礎(chǔ)設(shè)施等拓結(jié)構(gòu)來提供上下文分析?;谕?述出依?關(guān)系,并將依?關(guān)系作為因果判斷的一部分增加其準(zhǔn)確性和有效性。規(guī)范性建議:提供問題的解決方案,形成??知識(shí)庫。????隨著技術(shù)的成熟,用戶將能夠利用知識(shí)庫指導(dǎo)故障自愈的行為。但目前?部分基本腳本外,很少看到規(guī)范性解決方案。???的???的???的???的???的運(yùn)行解決方案??解決方案效對(duì)效果進(jìn)行評(píng)估建議可能的解決方案在數(shù)據(jù)庫中將一類問題與一組已知解決方案進(jìn)行?配在一個(gè)知識(shí)庫中記錄成功的解決方案將問題進(jìn)行分類$據(jù)???ц?化算法1616智能運(yùn)維平臺(tái)處理事件和監(jiān)控?cái)?shù)據(jù),從而檢測(cè)或預(yù)測(cè)重要事件或事故。不斷地從人工的?入和優(yōu)化的機(jī)制中學(xué)習(xí)和強(qiáng)化重要事件的R特模式。行關(guān)聯(lián)和智能運(yùn)維平臺(tái)發(fā)現(xiàn)并建立IT資產(chǎn)的統(tǒng)一拓?結(jié)構(gòu)。拓?以表達(dá)為物理上的接性、邏輯上的依性或捕捉到IT資產(chǎn)和服務(wù)之間其?關(guān)系。智能運(yùn)維平臺(tái)可以從多個(gè)領(lǐng)域、信息提供源進(jìn)行數(shù)據(jù)采集、索引和規(guī)范化事件或監(jiān)控?cái)?shù)據(jù),包括基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、應(yīng)用程序、云或現(xiàn)有監(jiān)控工具。該平臺(tái)需至少使用機(jī)器學(xué)習(xí)進(jìn)行?點(diǎn)實(shí)時(shí)分析(流分析)和存儲(chǔ)數(shù)據(jù)的?分析。1515場(chǎng)景?“和J?№”?智能運(yùn)維§??點(diǎn)????化場(chǎng)景?“和J?№”?智能運(yùn)維§??點(diǎn)目前智能運(yùn)維場(chǎng)景分成幾大類,主要為異常檢測(cè)、故障發(fā)現(xiàn)、根因分析等。每一個(gè)場(chǎng)景會(huì)包φ很多細(xì)分場(chǎng)景,比如“根因分析”場(chǎng)景就包括“異常機(jī)器定位”、“交易鏈條定位”、“多維度異常定位”等多種類型的細(xì)分場(chǎng)景。????化
處理的異常時(shí),因場(chǎng)景不同,檢測(cè)Ο重點(diǎn)會(huì)有所不安全行為檢測(cè)場(chǎng)景基于安全算法對(duì)??行建模,并以近?實(shí)時(shí)的方式檢測(cè)異常情況和與?模式的偏差。例如,當(dāng)?客?圖進(jìn)入或??墻時(shí),可以通過數(shù)據(jù)量變化或?圖?問?置變化來檢測(cè)。一?檢測(cè)到異常就可以通過自動(dòng)化手段來?斷?客攻擊,保護(hù)網(wǎng)絡(luò)安全。
(指標(biāo),日志或事務(wù))。未來,數(shù)據(jù)科學(xué)家將設(shè)計(jì)可用于多個(gè)數(shù)據(jù)集的AI算法,將指標(biāo)、日志和交易數(shù)據(jù)放在一起,注重其關(guān)聯(lián)性以及在所有這些噪?中究?有?些信號(hào)可以被過?R,幫助運(yùn)維員更快地排?問題。最8目標(biāo)是,人們可以通過$?預(yù)警系統(tǒng),從噪?中過?出清信號(hào)來輔維工作,從而;?時(shí)間,提高效率。????????????????中國智能運(yùn)維實(shí)踐年度報(bào)告??? $??場(chǎng)景???A??—???Я?點(diǎn)目前更多智能運(yùn)維實(shí)踐是將不同?率方法(例如AI,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析)應(yīng)用于單一數(shù)據(jù)類型故障修復(fù)時(shí)間(TTR):是一個(gè)故障發(fā)生之后到故障被修復(fù)之前的時(shí)間段。?是故障發(fā)現(xiàn)時(shí)間、故障定位時(shí)間、故障診斷分析時(shí)間、故障決策時(shí)間和故障處置時(shí)間的?和。無故障時(shí)間(TBF):是從故障修復(fù)之后到下一個(gè)故障發(fā)生之前的時(shí)間段。這段時(shí)間內(nèi),運(yùn)維人員會(huì)?對(duì)前一個(gè)故障背后的根因進(jìn)行識(shí)別和解?,從而避免故障的重復(fù)發(fā)生,同時(shí)也會(huì)識(shí)別和置一些故障的潛在隱患。故障修復(fù)時(shí)間(TTR)可以通過故障發(fā)現(xiàn)、故障定位、故障£?及故障解決等環(huán);采用多種算法,進(jìn)行分析和優(yōu)化,快速定位并高效處置問題。1818 智能運(yùn)維Q安??Т場(chǎng)景?ˊ???A???fl? 智能運(yùn)維Q安??Т場(chǎng)景?ˊ???A???fl? 運(yùn)營效率543?客攻擊企圖識(shí)別智能警報(bào)升級(jí)預(yù)防?索?組織可行性210業(yè)務(wù)?技術(shù)可行性服務(wù)質(zhì)量??mF–$。–RFpe?y(R?8 Time–to–IdentifyTime–to–KnowTime–to–Fix???Q2??定3??£?4???х錯(cuò)誤配置修復(fù) SQL優(yōu)化修復(fù)策?推薦 容量預(yù)測(cè)智能流量 影?調(diào)度 分析£?策?推薦 智能流調(diào)用鏈 多維數(shù)據(jù)異常定位 定位多指標(biāo) 變量分布異常檢測(cè) 異常檢測(cè)多實(shí)體 智能告警異常定位 關(guān)聯(lián)單指標(biāo) 日志異常異常檢測(cè) 檢測(cè)1717最佳實(shí)踐案例剖析最佳實(shí)踐案例剖析19中國智能運(yùn)維實(shí)踐年度報(bào)告?國建設(shè)???國建設(shè)??智能運(yùn)維建設(shè)實(shí)踐2019年起,建設(shè)銀行運(yùn)營數(shù)據(jù)中心踐行?融科技戰(zhàn)?,以項(xiàng)目‰方式啟動(dòng)了智能運(yùn)維體系設(shè)。我們基于建設(shè)銀行新一代工程設(shè)計(jì)理念,以運(yùn)維數(shù)據(jù)為基礎(chǔ),以自動(dòng)化實(shí)施、智能數(shù)據(jù)分析為支撐,打造具備“安全風(fēng)?管控、快速業(yè)務(wù)?應(yīng)、高效運(yùn)維交付和標(biāo)準(zhǔn)運(yùn)營支撐”四大能力全方位數(shù)字化運(yùn)維應(yīng)用,?在構(gòu)建?融行業(yè)最佳運(yùn)維管理能力,為數(shù)字化經(jīng)營保?護(hù)?。經(jīng)過兩年多的探索與實(shí)踐,建設(shè)銀行運(yùn)營數(shù)據(jù)中心完成了流程與工具的全面打通,實(shí)現(xiàn)了?到的自動(dòng)化,投產(chǎn)效率成φ提升;實(shí)現(xiàn)了?秒級(jí)采集、1?道上率先發(fā)?,?頭推進(jìn)智能運(yùn)維國家標(biāo)準(zhǔn)建設(shè),實(shí)現(xiàn)運(yùn)維能力從?隨到創(chuàng)先的跨越。20未來,我們將g承自主可控的要求,發(fā)揮“企業(yè)級(jí)”融合統(tǒng)一的特點(diǎn),對(duì)內(nèi)建設(shè)持續(xù)進(jìn)化型智能運(yùn)維、保障穩(wěn)?運(yùn)營,對(duì)外拓展開放共享型運(yùn)維生態(tài)、實(shí)現(xiàn)創(chuàng)新發(fā)展,建設(shè)具備安全穩(wěn)定、自主可控、?性‰、高速?接、?色智能、融合共享6大特征的新型數(shù)據(jù)中心。20中國智能運(yùn)維實(shí)踐年度報(bào)告最佳實(shí)踐案例剖析中國智能運(yùn)維實(shí)踐年度報(bào)告最佳實(shí)踐案例剖析;?I;?I?——?$數(shù)?????基于企業(yè)級(jí)架構(gòu),建設(shè)銀行通過技術(shù)和管理創(chuàng)新,突破性地解決了IT架構(gòu)數(shù)字化、可視化及管控能力不足的問題,搭建企業(yè)級(jí)IT架構(gòu)數(shù)字化管控及展示平臺(tái)。標(biāo)/挑戰(zhàn)構(gòu)建架構(gòu)數(shù)據(jù)自動(dòng)采集解析與人工設(shè)計(jì)相結(jié)合的架構(gòu)數(shù)字化能力;形成一?與IT系統(tǒng)開發(fā)、測(cè)?、生產(chǎn)相結(jié)合的架構(gòu)常態(tài)化管控機(jī)制;利用可視化、大數(shù)據(jù)技術(shù)實(shí)現(xiàn)IT架構(gòu)資產(chǎn)以及運(yùn)行態(tài)數(shù)據(jù)的全景視圖展示;$接從業(yè)務(wù)規(guī)劃、架構(gòu)管控、開發(fā)設(shè)計(jì)、測(cè)?投產(chǎn)、生產(chǎn)運(yùn)維全領(lǐng)域應(yīng)用。???果/收?通過架構(gòu)視圖系統(tǒng)建設(shè),有效提升了建行IT架構(gòu)數(shù)字化水平,保?企業(yè)級(jí)戰(zhàn)?高質(zhì)量地實(shí)施和可持續(xù)性地發(fā)展推動(dòng)運(yùn)維模式的改進(jìn)和效率的提升。主要建設(shè)效果如下:形成了統(tǒng)一的IT架構(gòu)視圖數(shù)字化模型及視圖設(shè)計(jì)標(biāo)準(zhǔn),構(gòu)建以監(jiān)控、配置及流程管控為一體的架構(gòu)資產(chǎn)數(shù)字化能力,打通了業(yè)務(wù)應(yīng)用、系統(tǒng)及基礎(chǔ)設(shè)施的關(guān)系,實(shí)現(xiàn)架構(gòu)設(shè)計(jì)“?同文、車同?”。
有效融合架構(gòu)信息和運(yùn)維信息,以場(chǎng)景化的模式匯聚系統(tǒng)、工具及基礎(chǔ)設(shè)施信息進(jìn)行可視化展示,實(shí)現(xiàn)重要應(yīng)用場(chǎng)景的場(chǎng)景化監(jiān)控及應(yīng)急展現(xiàn)。構(gòu)建應(yīng)用架構(gòu)的數(shù)據(jù)治理體系,建立并在全行推廣了交易線主動(dòng)檢核及常態(tài)化閉環(huán)管控方法,完成了上萬條交易線的治理,識(shí)別?交易、}?交易,推動(dòng)架構(gòu)資產(chǎn)實(shí)現(xiàn)企業(yè)級(jí)項(xiàng)目?體架構(gòu)圖和作戰(zhàn)地圖的在線編輯和展示,確保各作戰(zhàn)單ň提供?到?的?同作戰(zhàn)能力,支企業(yè)級(jí)項(xiàng)目的架構(gòu)設(shè)計(jì)、分析決策、可視化應(yīng)急等場(chǎng)景應(yīng)用,推進(jìn)企業(yè)級(jí)架構(gòu)數(shù)字化。?????能?——??運(yùn)?????能?——??運(yùn)??隨著銀行系統(tǒng)的分布式架構(gòu)轉(zhuǎn)型和上級(jí)監(jiān)管要求的提高,故障的發(fā)現(xiàn)與處置需要更加及時(shí)和?‰,對(duì)于監(jiān)控來說,就必須要提供更精細(xì)化、更全面的監(jiān)控及分析能力,并具備實(shí)時(shí)的監(jiān)控能力、快速的告警能力和故障分析能力,以滿足重要交易系統(tǒng)$發(fā)現(xiàn)$處理的監(jiān)控要求。?х?案建設(shè)銀行的精細(xì)化監(jiān)控能力,包括以下三個(gè)方面:實(shí)時(shí)監(jiān)控能力:具備全面覆蓋的秒級(jí)指標(biāo)監(jiān)控能力,計(jì)算能力達(dá)到?秒級(jí)采集、一秒級(jí)計(jì)算,提供能夠準(zhǔn)確評(píng)價(jià)系統(tǒng)運(yùn)行情況的指標(biāo)體系(每秒交易量、成功率等),并能覆蓋各種計(jì)算維度(子系統(tǒng)維度、AP維度等),保?全面、快速地發(fā)現(xiàn)系統(tǒng)運(yùn)行異常。全面告警能力:通過通用與特色相結(jié)合的告警規(guī)則體
系,達(dá)到覆蓋各種情況的系統(tǒng)異常場(chǎng)景。制定標(biāo)準(zhǔn)化的通用告警?礎(chǔ)上,??積告警規(guī)則、窗口?積類型的告警規(guī)則以及告警自應(yīng)升降級(jí)規(guī)則,以滿足不同類型的系統(tǒng)對(duì)告警策?性化需求。故障分析能力:基于已經(jīng)采集的交易數(shù)據(jù),提供了多種監(jiān)控查?分析方式,如監(jiān)控指標(biāo)視圖趨勢(shì)圖、單???、根因輔助分析等。監(jiān)控指標(biāo)趨勢(shì)圖提供全維度層級(jí)的查看能力,幫助用戶在發(fā)生故障時(shí)迅速?范圍;單?鏈路??功能提供單?交易的完整鏈路能力,?的服務(wù)間調(diào)用關(guān)系,能夠快速確定故障影?障所在;點(diǎn);根因輔助分析幫助用戶迅速確定故障可能發(fā)生的根源系統(tǒng)及根源對(duì)象,并輔助展示與根源系統(tǒng)有關(guān)的?件、?件等相關(guān)設(shè)備運(yùn)行狀態(tài),以提升應(yīng)急過中的排查效率。???果/收?在提升了監(jiān)控的精細(xì)化水平以后,目前監(jiān)控系統(tǒng)已經(jīng)成為建設(shè)銀行故障發(fā)現(xiàn)及問題處置過程中必不可少的工具。22目前監(jiān)控系統(tǒng)能夠?yàn)楦髦匾到y(tǒng)提供秒級(jí)監(jiān)控能力,日數(shù)據(jù)處理能力達(dá)到TB級(jí),指標(biāo)計(jì)算時(shí)間控制在一秒內(nèi),可以更快地為用戶提供各維度統(tǒng)計(jì)指標(biāo)數(shù)據(jù),并為可視化大屏展示中提供了有效的數(shù)據(jù)支持;提供多種類型的告警策?,支持不同類型系統(tǒng)的個(gè)性化告警定制策?,全面地識(shí)別出系統(tǒng)異常場(chǎng)景并通知用戶,保?無?錯(cuò)告、高?‰告警能力;提供強(qiáng)大的故障分析能力,包括單?交易的鏈路??能力、監(jiān)控指標(biāo)各種視圖展示能力22
????;?——?}運(yùn)維效?????;?——?}運(yùn)維效???在實(shí)際生產(chǎn)環(huán)境中,由于在線服務(wù)的復(fù)雜性和動(dòng)態(tài)性,系統(tǒng)會(huì)產(chǎn)生成大量告警,亟需一種準(zhǔn)確的、自適應(yīng)的告警定級(jí)算法,對(duì)告警進(jìn)行嚴(yán)重性排序,嚴(yán)重的告警推薦給運(yùn)維工程?,以便快速發(fā)現(xiàn)潛在的故障,??修復(fù)時(shí)間。告警數(shù)量大、種類多; 數(shù)據(jù)標(biāo)注難以獲得系統(tǒng)具有復(fù)雜性和動(dòng)態(tài)性; 數(shù)據(jù)不??。?х?案動(dòng)態(tài)告警定級(jí)方案分為離線??和在線排序兩個(gè)模?,下圖所示。該方案的主要?jiǎng)?chuàng)新點(diǎn)是:首次圍繞告警動(dòng)態(tài)定級(jí)問題提出了基于機(jī)器學(xué)習(xí)的智能運(yùn)維解決方案;利用??事件工單和告警處置記錄,自動(dòng)給每條????告警數(shù)據(jù)的特點(diǎn),采用數(shù)據(jù)融合和特征融合的?,從告警數(shù)據(jù)和指標(biāo)數(shù)據(jù)中提取了一系列可解?有物理意義的特征來區(qū)分告警的嚴(yán)重性;2121???果/收? ?х?案通過??大規(guī)模告警數(shù)據(jù)的測(cè)?,驗(yàn)?推薦嚴(yán)重告警,平?準(zhǔn)確率和平?召回率分別超過86%91%。實(shí)驗(yàn)?明,該方案中設(shè)計(jì)的兩部分特征(告警特征和指標(biāo)特征)都是必不可少的,對(duì)結(jié)果都有較大的增加告警特征,平?準(zhǔn)確率可以提升40%;征,平?準(zhǔn)確率可以提升?10%。同時(shí),和基于規(guī)則的?費(fèi)的時(shí)間,;?了人力成本,提高了運(yùn)維效率。智能運(yùn)?fl?——??ˊ?§?智能運(yùn)?fl?——??ˊ?§???近年發(fā)生的重大生產(chǎn)事件中,變更實(shí)施和容量?問題?比非常高,很多大型故障在發(fā)生之前都有潛在的隱患持續(xù)發(fā)生,但是?當(dāng)前的監(jiān)控手段所,對(duì)于持續(xù)發(fā)生的潛在隱患無法進(jìn)行有效識(shí)別。隨著運(yùn)維體量不斷?精細(xì)化管理要求不斷提高,對(duì)運(yùn)行風(fēng)?識(shí)別能力、??識(shí)別手段等方面提出了更高的要求,需要更有效地識(shí)別運(yùn)行風(fēng)?,延長系統(tǒng)平?無故障時(shí)間。另一方面,隨著工智能技術(shù)手段的豐富和對(duì)智能運(yùn)維場(chǎng)景理解的深入,3合各種智能手段去滿足智能運(yùn)行分析的條件也愈加成熟。因此,我行建立了智能運(yùn)行分析系統(tǒng),對(duì)?礎(chǔ)設(shè)施變更后的風(fēng)?、容量??風(fēng)?以及特定場(chǎng)景(;?日系統(tǒng)容量預(yù)測(cè))的風(fēng)?進(jìn)行識(shí)別,3合保障系統(tǒng)的安全穩(wěn)定運(yùn)行。
???果/收?我行建立的運(yùn)行風(fēng)?在實(shí)踐中能夠幫助運(yùn)維人員更$問題影?范圍,從被動(dòng)運(yùn)維轉(zhuǎn)向主動(dòng)運(yùn)維。特別是?產(chǎn)后的變更風(fēng)?識(shí)別,通過?本投產(chǎn)后進(jìn)行的指標(biāo)比對(duì)可以及$地發(fā)現(xiàn)交易、基礎(chǔ)設(shè)施資源指標(biāo)的顯g及由于配置問題導(dǎo)致的離‰機(jī)器問題。??本投產(chǎn)后的指標(biāo)和離‰比對(duì),最$可以在?分鐘級(jí)內(nèi)發(fā)現(xiàn)隱患。?對(duì)業(yè)務(wù)系統(tǒng)重大;?日的容量風(fēng)進(jìn)行識(shí)別,提前發(fā)現(xiàn)容量隱患,便于應(yīng)用管理員提前準(zhǔn)備相應(yīng)?容方案。目前容量長時(shí)預(yù)測(cè)準(zhǔn)確率可達(dá)到時(shí)預(yù)測(cè)準(zhǔn)確率可達(dá)到96%。
數(shù)?А?智能?RА???科技運(yùn)營數(shù)據(jù)平臺(tái)建設(shè)實(shí)踐在新一輪科技革?和產(chǎn)業(yè)變革的背景下?融科技8?發(fā)展,人工智能、大24光大銀行數(shù)據(jù)中心以數(shù)字化運(yùn)營為指導(dǎo),建立以數(shù)據(jù)、標(biāo)準(zhǔn)、技術(shù)、平臺(tái)為基礎(chǔ)的數(shù)據(jù)中心新一代智能運(yùn)維服務(wù)體系,為生產(chǎn)運(yùn)營、安全運(yùn)營、業(yè)務(wù)運(yùn)營提供數(shù)據(jù)支持、共享、服務(wù)和管理,支撐光大銀行數(shù)據(jù)中心運(yùn)營管理的“‰化、數(shù)字化、智能化、服務(wù)化”四化轉(zhuǎn)型。242323科技運(yùn)營數(shù)據(jù)平臺(tái)建設(shè)目標(biāo)全面性:科技運(yùn)營數(shù)據(jù)必須具有各個(gè)維度、各個(gè)粒度的數(shù)據(jù),才能滿足不同領(lǐng)域,不同層級(jí)的運(yùn)營需求??萍歼\(yùn)營數(shù)據(jù)平臺(tái)建設(shè)目標(biāo)
搭建一個(gè)適合實(shí)時(shí)數(shù)據(jù)、時(shí)序性數(shù)據(jù)管理的數(shù)據(jù)存儲(chǔ)、處理層,將科技運(yùn)營數(shù)據(jù)按照數(shù)據(jù)類型、數(shù)據(jù)時(shí)效性等方式分類存儲(chǔ),支撐科技運(yùn)營數(shù)據(jù)使用的時(shí)效性和準(zhǔn)確性要求??萍歼\(yùn)營數(shù)字化數(shù)據(jù)中心精細(xì)化管理需要以數(shù)據(jù)資產(chǎn)為核心,推動(dòng)科技運(yùn)營數(shù)據(jù)資產(chǎn)管理,為各領(lǐng)域人員提供科技運(yùn)營數(shù)據(jù)的共享和開放,充分發(fā)揮數(shù)據(jù)價(jià)值,實(shí)現(xiàn)可見、可懂、可用和可運(yùn)營的數(shù)據(jù)中心運(yùn)行態(tài)??萍歼\(yùn)營智能化隨著分布式架構(gòu)轉(zhuǎn)型,數(shù)據(jù)中心運(yùn)維對(duì)象快速增長,運(yùn)維管理面臨多重挑戰(zhàn),要利用大數(shù)據(jù)、人工智能等新技術(shù)提升數(shù)據(jù)中心運(yùn)營管理中的觀測(cè)、分析和決策能力。科技運(yùn)營服務(wù)化科技運(yùn)營數(shù)據(jù)平臺(tái)不僅要做好數(shù)據(jù)管理的角色,還需要用互聯(lián)網(wǎng)思維去運(yùn)營,根據(jù)業(yè)務(wù)行為數(shù)據(jù)實(shí)時(shí)的優(yōu)化改進(jìn)運(yùn)維服務(wù),提升科技服務(wù)水平。科技運(yùn)營數(shù)據(jù)平臺(tái)建設(shè)要點(diǎn)科技運(yùn)營數(shù)據(jù)平臺(tái)建設(shè)要點(diǎn)科技運(yùn)營數(shù)據(jù)平臺(tái)是圍繞數(shù)據(jù)資產(chǎn)的管理和應(yīng)用建設(shè),但與傳統(tǒng)數(shù)據(jù)倉庫又有不同,主要是因?yàn)榭萍歼\(yùn)營數(shù)據(jù)在數(shù)據(jù)生產(chǎn)和消費(fèi)應(yīng)用場(chǎng)景有著一些重要特性:實(shí)時(shí)性:科技運(yùn)營數(shù)據(jù)需要達(dá)到分鐘級(jí),甚至秒級(jí)的實(shí)時(shí)性,才能實(shí)時(shí)反映業(yè)務(wù)系統(tǒng)運(yùn)行的狀態(tài)。
準(zhǔn)確性:科技運(yùn)營數(shù)據(jù)必須與當(dāng)前環(huán)境一致、準(zhǔn)確,才能真實(shí)反映當(dāng)前IT環(huán)境運(yùn)行的狀態(tài)。因此在科技運(yùn)營數(shù)據(jù)平臺(tái)的建設(shè)中需要著重考慮以下幾個(gè)方面:一是以實(shí)時(shí)數(shù)據(jù)的處理、分析應(yīng)用為目標(biāo),突破傳統(tǒng)數(shù)據(jù)倉庫以ETL為基礎(chǔ)進(jìn)行數(shù)據(jù)加工應(yīng)用的思路;二是以平臺(tái)化能力框架建設(shè)為指導(dǎo),以服務(wù)化的理念、開放的模式、多維度的思維建立平臺(tái)各項(xiàng)功能;三是以數(shù)據(jù)資產(chǎn)管理理念為指導(dǎo),結(jié)合大數(shù)據(jù)、人工智能技術(shù)進(jìn)行數(shù)據(jù)治理,實(shí)現(xiàn)業(yè)務(wù)和科技運(yùn)營相關(guān)領(lǐng)域工作的智能化;四是結(jié)合機(jī)器學(xué)習(xí)方法對(duì)交易特征和故障根源進(jìn)行智能分析與診斷,提高對(duì)事件的感知與分析決策能力。數(shù)據(jù)采控層網(wǎng)絡(luò)數(shù)據(jù)采控層網(wǎng)絡(luò)物理資源 虛擬化資源 容器資源 數(shù)據(jù)庫/中間件 應(yīng)用系統(tǒng)實(shí)時(shí)流處理與離線分析Store(數(shù)據(jù)模型+大數(shù)據(jù))CMDB數(shù)據(jù)存儲(chǔ)層機(jī)器學(xué)習(xí)功能腳本庫接口服務(wù)組件庫數(shù)據(jù)服務(wù)層統(tǒng)一大屏智能助手移動(dòng)APP數(shù)據(jù)可視化網(wǎng)絡(luò)報(bào)文采集智能算法庫統(tǒng)一門戶數(shù)據(jù)采集日志采集代理調(diào)度無代理調(diào)度26流量、文件采集等多種手段,從網(wǎng)絡(luò)報(bào)文、數(shù)據(jù)庫sql性26
搭建一個(gè)計(jì)算服務(wù)層,結(jié)合人工智能算法庫,通過Spark、Flink等流計(jì)算技術(shù)實(shí)現(xiàn)數(shù)據(jù)計(jì)算服務(wù)與算法服務(wù),支撐科技運(yùn)營數(shù)據(jù)時(shí)效性要求和智能場(chǎng)景應(yīng)用。搭建一個(gè)數(shù)據(jù)展示層,提供快速數(shù)據(jù)組織、有效信息展示等能力,支撐運(yùn)營可視化??萍歼\(yùn)營數(shù)據(jù)平臺(tái)建設(shè)成效科技運(yùn)營數(shù)據(jù)平臺(tái)建設(shè)成效依托科技運(yùn)營數(shù)據(jù)平臺(tái)的快速檢索能力,科技人員通過集中式的日志檢索和生產(chǎn)運(yùn)行信息大屏等功能,有效提高問題分析效率,無需逐一登錄生產(chǎn)系統(tǒng),降低科技人員工作強(qiáng)度。科技運(yùn)營數(shù)據(jù)平臺(tái)通過構(gòu)建智能算法服務(wù),建立指標(biāo)異常檢測(cè)、多維指標(biāo)定位、調(diào)用鏈根因定位、日志異常檢測(cè)、異常機(jī)器定位、批量超時(shí)異常檢測(cè)等多個(gè)智能運(yùn)維算法場(chǎng)景,實(shí)現(xiàn)日基線計(jì)算X萬余條,覆蓋行內(nèi)所有對(duì)外關(guān)鍵業(yè)務(wù)系統(tǒng)。利用基于動(dòng)態(tài)基線閾值的異常檢測(cè),提前預(yù)見生產(chǎn)潛在隱患,提升生產(chǎn)故障快速定位能力。如,生產(chǎn)系統(tǒng)XX%的批量任務(wù)通過智能算法實(shí)現(xiàn)超時(shí)閾值優(yōu)化,并與二線管理員配合完善“兩級(jí)閥值運(yùn)行”機(jī)制,整體超時(shí)報(bào)警率環(huán)比明顯下降。應(yīng)用系統(tǒng)通過異常告警與機(jī)器學(xué)習(xí)推薦,聯(lián)動(dòng)自動(dòng)化運(yùn)維平臺(tái)進(jìn)行特定異常告警的自動(dòng)化處置,實(shí)現(xiàn)故障自愈??萍歼\(yùn)營數(shù)據(jù)平臺(tái)在安全運(yùn)營領(lǐng)域通過全量采集網(wǎng)絡(luò)流量、安全設(shè)備日志等數(shù)據(jù),利用智能算法進(jìn)行異常威脅信息檢測(cè),聯(lián)動(dòng)自動(dòng)化運(yùn)維平臺(tái)實(shí)現(xiàn)智能化的運(yùn)營安全防控。當(dāng)前已經(jīng)實(shí)現(xiàn)每日推送相關(guān)威脅生產(chǎn)運(yùn)營的IP次數(shù)X余次,每周自動(dòng)封堵攻擊IP地址X余個(gè)??萍歼\(yùn)營數(shù)據(jù)平臺(tái)實(shí)現(xiàn)科技運(yùn)營數(shù)據(jù)服務(wù)于業(yè)務(wù),利用數(shù)據(jù)創(chuàng)造價(jià)值。依托實(shí)時(shí)業(yè)務(wù)運(yùn)行數(shù)據(jù),利用流計(jì)算技術(shù)搭建業(yè)務(wù)數(shù)據(jù)的可視化場(chǎng)景,為手機(jī)銀行、自助設(shè)備、電子支付、互聯(lián)網(wǎng)信貸、大小額等業(yè)務(wù)場(chǎng)景實(shí)時(shí)呈現(xiàn)業(yè)務(wù)運(yùn)行動(dòng)態(tài),精準(zhǔn)掌握客戶需求,有效支撐數(shù)字化業(yè)務(wù)運(yùn)營。2525整體設(shè)計(jì)整體設(shè)計(jì)檢測(cè)模式運(yùn)用機(jī)器學(xué)習(xí)方法,首先通過識(shí)別重要日志中的變量,對(duì)日志做實(shí)時(shí)聚類形成日志模式,并與正常時(shí)段日志模式對(duì)比,出現(xiàn)異常時(shí)發(fā)出告警來輔助運(yùn)維人員快速定位異常,這彌補(bǔ)現(xiàn)有業(yè)務(wù)監(jiān)控中,難以通過規(guī)則事先設(shè)置監(jiān)控。AI賦能國泰君安運(yùn)維
算法邏輯
圖:日志異常檢測(cè)實(shí)現(xiàn)流程海量接入:允許接入海量日志,并對(duì)其進(jìn)行必要的格式清洗。目前,日志異常檢測(cè)應(yīng)用已接需求和挑戰(zhàn)智能運(yùn)維場(chǎng)景落地實(shí)踐需求和挑戰(zhàn)日志作為運(yùn)維人員最為關(guān)注的一類數(shù)據(jù),是程序運(yùn)行過程中由代碼打印記錄的對(duì)一些程序完成的任務(wù)和系統(tǒng)的狀態(tài)。國泰君安專家團(tuán)隊(duì)在對(duì)日志異常檢測(cè)進(jìn)行充分解讀和分析和,發(fā)現(xiàn)目前面臨如下挑戰(zhàn):歸類設(shè)置告警困難:每天數(shù)據(jù)中心會(huì)產(chǎn)生數(shù)以千萬計(jì)的系統(tǒng)日志信息,且系統(tǒng)日志格式多樣,因此歸類設(shè)置告警困難。NLP方法不適用:當(dāng)下流行的NLP方法并不適用,國泰君安需要結(jié)合運(yùn)維領(lǐng)域知識(shí)從日志中提煉日志模板。
錯(cuò)誤日志數(shù)量多:當(dāng)線上發(fā)生異常時(shí),打印的大量錯(cuò)誤日志難以閱讀。日志變化頻繁:日志會(huì)隨著設(shè)備廠商和設(shè)備型號(hào)的變化而變化,如何對(duì)日志模板進(jìn)行增量式學(xué)習(xí),是對(duì)算法性能提出的巨大挑戰(zhàn)。28面對(duì)上述這些問題國泰君安專家團(tuán)隊(duì)認(rèn)為需要提供一種日志異常檢測(cè)機(jī)制,準(zhǔn)確、高效地解析日志,且自動(dòng)、準(zhǔn)確地檢測(cè)各種型號(hào)設(shè)備或應(yīng)用的多語法語義的單條異常日志和異常日志序列,從日志結(jié)構(gòu)中找到未知故障,完善當(dāng)前監(jiān)控體系,對(duì)感知不及時(shí)、維護(hù)工作量巨大和誤報(bào)率高等現(xiàn)狀問題進(jìn)行解決。28
日志日志異常檢測(cè)的核心處理步驟分為三步:實(shí)時(shí)讀取日志、模式提取和模式異常檢測(cè)。實(shí)時(shí)讀取日志:國泰君安系統(tǒng)的應(yīng)用實(shí)踐采用的是每次讀取固定長度時(shí)間段日志,如每次讀取某5分鐘的日志;模式提?。簩?duì)一定數(shù)量的日志做聚類,基于提取的日志模式的時(shí)序趨勢(shì),根據(jù)同環(huán)比、基線偏離度、波動(dòng)性、時(shí)間窗口等特征判定其是否異常;模式異常檢測(cè):在出現(xiàn)異常時(shí)發(fā)出告警,有效解決新增、時(shí)段新增、數(shù)量異常等三種故障情況,彌補(bǔ)現(xiàn)有業(yè)務(wù)監(jiān)控中,難以通過規(guī)則事先設(shè)置的監(jiān)控。應(yīng)用效果日志異常檢測(cè)的優(yōu)越性體現(xiàn)在如下幾個(gè)方面:
入多達(dá)34種日志,每日分析日志量1.5T以上實(shí)時(shí)解析:支持對(duì)海量日志進(jìn)行實(shí)時(shí)解析。日志從接入到解析完畢歸檔的時(shí)間延遲不超過1分鐘,并且可對(duì)解析出來的日志模板數(shù)量異常情況進(jìn)行實(shí)時(shí)檢測(cè)。告警收斂:借助日志異常檢測(cè)應(yīng)用,告警降噪聚類效果達(dá)到近90%。捕捉異常:借助日志異常檢測(cè)應(yīng)用,發(fā)現(xiàn)多起原有監(jiān)控系統(tǒng)未報(bào)出的問題。日志異常檢測(cè)應(yīng)用較好地捕捉到如新增錯(cuò)誤日志、日志數(shù)量突增、指標(biāo)異常、無數(shù)據(jù)等多種異常情況,對(duì)提升運(yùn)維監(jiān)控質(zhì)量有很好的促進(jìn)作用。提高效率:日志異常檢測(cè)智能算法有效解決基于人工規(guī)則檢測(cè)單條異常日志存在的人工開銷大、召回率低、不通用、計(jì)算效率低等缺點(diǎn)。2727案例1案例2如圖例所示,在該時(shí)段出現(xiàn)多個(gè)新增日志和異常增多日志,國泰君安以趨勢(shì)圖形式表示數(shù)量變化,直觀展示,通過多種告警合并,既避免管理員重復(fù)收到大量告警,又能分析比對(duì)便于定位原因。點(diǎn)擊趨勢(shì)圖,可查看該種日志模式具體趨勢(shì)變化及日志原文,幫助管理員迅速定位根因。案例1案例2如圖例所示,在該時(shí)段出現(xiàn)多個(gè)新增日志和異常增多日志,國泰君安以趨勢(shì)圖形式表示數(shù)量變化,直觀展示,通過多種告警合并,既避免管理員重復(fù)收到大量告警,又能分析比對(duì)便于定位原因。點(diǎn)擊趨勢(shì)圖,可查看該種日志模式具體趨勢(shì)變化及日志原文,幫助管理員迅速定位根因。圖例:日志模板和對(duì)應(yīng)趨勢(shì)圖以生產(chǎn)系統(tǒng)某一次故障為例。某業(yè)務(wù)系統(tǒng)在一次變更后,運(yùn)維人員收到業(yè)務(wù)密碼錯(cuò)增多的告警信息,查看后發(fā)現(xiàn),平時(shí)休市之后該類日志僅有幾條,而該日卻頻繁出現(xiàn)。排查之后發(fā)現(xiàn)是變更引起登錄接口報(bào)錯(cuò)。通過這種方式,使得管理員在變更后能第一時(shí)間發(fā)現(xiàn)問題,故障隱患及時(shí)被解決。且該類報(bào)錯(cuò)屬于業(yè)務(wù)錯(cuò)誤而非系統(tǒng)錯(cuò)誤,一般情況下管理員不會(huì)去配置這一類的關(guān)鍵字告警。通過這種基于算法的檢測(cè),豐富監(jiān)控范圍,使得收集的各類日志能夠發(fā)揮效用。圖:排障頁面圖:‘交易密碼錯(cuò)’異常模式趨勢(shì)圖中國智能運(yùn)維實(shí)踐年度報(bào)告國家標(biāo)準(zhǔn)研制進(jìn)展30最佳實(shí)踐案例剖析最佳實(shí)踐案例剖析落地實(shí)踐落地實(shí)踐2929中國智能運(yùn)維實(shí)踐年度報(bào)告中國智能運(yùn)維實(shí)踐年度報(bào)告指引,從而,實(shí)現(xiàn)相應(yīng)的最佳實(shí)踐。智能運(yùn)維領(lǐng)域亟需集合相關(guān)方的力量形成體系化指導(dǎo)框架和規(guī)范,一方面可填補(bǔ)國內(nèi)外智能運(yùn)維領(lǐng)域的空白,另一方面也有助于推動(dòng)國內(nèi)智能運(yùn)維領(lǐng)域邁入更高的發(fā)展水平。智能運(yùn)維國家標(biāo)準(zhǔn)研制挑戰(zhàn)用戶方在面對(duì)當(dāng)下急切的運(yùn)維挑戰(zhàn),都做出許多新探索及實(shí)踐。在標(biāo)準(zhǔn)編制過程中,用戶方對(duì)于當(dāng)下組織正在進(jìn)行的探索和實(shí)踐是否在“智能運(yùn)維”范疇內(nèi)感到困惑?;诋?dāng)下缺乏對(duì)于智能運(yùn)維的統(tǒng)一定義,各方持有對(duì)智能運(yùn)維不同的理解。目前對(duì)于智能運(yùn)維的定義有從運(yùn)維數(shù)據(jù)角度出發(fā),也有的定義以智能運(yùn)維應(yīng)用技術(shù)的角度與傳統(tǒng)運(yùn)維進(jìn)行區(qū)分。從對(duì)于市場(chǎng)上的智能運(yùn)維定義研究來看,定義多是從應(yīng)用導(dǎo)向開展,并基于運(yùn)維中應(yīng)用的算法、運(yùn)維數(shù)據(jù)的認(rèn)知及使用的技術(shù)方面來區(qū)分智能運(yùn)維與傳統(tǒng)運(yùn)維。在智能運(yùn)維編制組2020年開展的標(biāo)準(zhǔn)研討會(huì)議上,編制組從結(jié)果導(dǎo)向?qū)τ谥悄苓\(yùn)維進(jìn)行定義,即,更注重智能運(yùn)維的能力特征,以表達(dá)智能運(yùn)維與傳統(tǒng)運(yùn)維的不同。在標(biāo)準(zhǔn)編制研討會(huì)議中,編制組對(duì)于能力框架中智能運(yùn)維能力特征的確定、及不同智能運(yùn)維場(chǎng)景中的特征表現(xiàn)反復(fù)進(jìn)行探討。目前對(duì)于各行業(yè)來說,各組織的業(yè)態(tài)及面臨的挑戰(zhàn)也不全相同,如何確保智能運(yùn)維能力框架的普遍適用性,智能運(yùn)維場(chǎng)景的全面性等問題是編制組需要繼續(xù)探索的課題。通用要求對(duì)智能運(yùn)維提出通用性要求,而智能運(yùn)維具體實(shí)施需要運(yùn)維數(shù)據(jù)治理、智能運(yùn)維算法及智能運(yùn)維技術(shù)等方面的系列標(biāo)準(zhǔn)進(jìn)一步指導(dǎo)。32系列標(biāo)準(zhǔn)的考慮能力框架的普遍通用性如何定義智能運(yùn)維國家標(biāo)準(zhǔn)研制進(jìn)展國家標(biāo)準(zhǔn)研制進(jìn)展智能運(yùn)維標(biāo)準(zhǔn)研制背景智能運(yùn)維標(biāo)準(zhǔn)研制背景在智能運(yùn)維國家標(biāo)準(zhǔn)的編制過程中,匯集學(xué)術(shù)界和產(chǎn)業(yè)界研究人員,展示各方在智能運(yùn)維這一領(lǐng)域的經(jīng)驗(yàn)、成果和進(jìn)展。集合各家力量,統(tǒng)一定義智能運(yùn)維,構(gòu)建完整智能運(yùn)維能力框架,為國內(nèi)智能運(yùn)維領(lǐng)域的發(fā)展奠定基礎(chǔ)。智能運(yùn)維提升之路還在繼續(xù),對(duì)于運(yùn)維數(shù)據(jù)治理、智能運(yùn)維算法、及智能運(yùn)維技術(shù)平臺(tái)提出標(biāo)準(zhǔn)性指南,驅(qū)動(dòng)各家單位的運(yùn)維智能化轉(zhuǎn)型,實(shí)現(xiàn)從基礎(chǔ)運(yùn)維到自動(dòng)化運(yùn)維、再到智能運(yùn)維的轉(zhuǎn)變升級(jí),全面提升數(shù)據(jù)中心的服務(wù)質(zhì)量和水平,為公司業(yè)務(wù)發(fā)展提供強(qiáng)有力的支撐。智能運(yùn)維缺乏統(tǒng)一指導(dǎo)標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型時(shí)代已經(jīng)來臨,黨中央、國務(wù)院要求加快推動(dòng)國有企業(yè)組織創(chuàng)新、技術(shù)創(chuàng)新、融合創(chuàng)新、跨界創(chuàng)新,深入推進(jìn)數(shù)字化轉(zhuǎn)型工作,促進(jìn)質(zhì)量變革、效率變革、動(dòng)力變革。企業(yè)數(shù)字化轉(zhuǎn)型給企業(yè)業(yè)務(wù)帶來極大便利和增長,其背后是IT系統(tǒng)與企業(yè)業(yè)務(wù)深度融合。隨之而來的是業(yè)務(wù)應(yīng)用系統(tǒng)方面的改造和新增需求以及對(duì)支撐應(yīng)用系統(tǒng)方面的要求的增量、復(fù)雜性提高、高要求。當(dāng)前IT運(yùn)維難度增加,依靠人力堆積的傳統(tǒng)方式運(yùn)維已經(jīng)無法滿足數(shù)字化時(shí)代對(duì)IT運(yùn)維的要求,借助更先進(jìn)工具和技術(shù)手段成為應(yīng)對(duì)這些挑戰(zhàn)的必然選擇。數(shù)據(jù)中心面臨著從制度和流程為主驅(qū)動(dòng)的時(shí)代,快速向數(shù)據(jù)與算法為主驅(qū)動(dòng)的智能運(yùn)維時(shí)代邁進(jìn)。近年來,國內(nèi)用戶、廠商、高校和研究機(jī)構(gòu)已經(jīng)廣泛開展智能運(yùn)維的理論研究和實(shí)踐,并已形成良好應(yīng)用實(shí)踐經(jīng)驗(yàn),然而,由于缺乏統(tǒng)一認(rèn)知和框架指導(dǎo),各家用戶單位實(shí)踐應(yīng)用效果參差不齊。用戶方在探索智能運(yùn)維應(yīng)用過程中,因?yàn)槿鄙俳y(tǒng)一標(biāo)準(zhǔn),導(dǎo)致經(jīng)常有以下疑惑:What我們?cè)谧龅奶剿骱蛯?shí)踐是不是屬于“智能運(yùn)維范疇”?What我們?cè)谧龅奶剿骱蛯?shí)踐是不是屬于“智能運(yùn)維范疇”?是否已在“智能運(yùn)維”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)文化宣傳合同范例
- 農(nóng)村裝修貸款合同范本
- 2021-2026年中國電力維護(hù)合板市場(chǎng)競爭策略及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 中醫(yī)私承合同范本
- 一租房合同范本個(gè)人
- 獸藥代加工合同范本
- 上海汽車租車合同范本
- 保潔補(bǔ)簽合同范本
- 2025年度酒水行業(yè)知識(shí)產(chǎn)權(quán)保護(hù)與糾紛解決合同范本
- 勞務(wù)公司之間合同范本
- 廣東大灣區(qū)2024-2025學(xué)年度高一上學(xué)期期末統(tǒng)一測(cè)試英語試題(無答案)
- 失效模式和效應(yīng)分析護(hù)理
- 2025年四川中煙工業(yè)限責(zé)任公司招聘110人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年山東菏澤投資發(fā)展集團(tuán)限公司招聘61人管理單位筆試遴選500模擬題附帶答案詳解
- 2025山東能源集團(tuán)新能源限公司招聘12人管理單位筆試遴選500模擬題附帶答案詳解
- 課題申報(bào)書:反饋對(duì)青少年努力投入的影響機(jī)制及干預(yù)研究
- 康復(fù)評(píng)定頸椎病
- 公司章程范本(完整版)
- 廠房委托經(jīng)營管理合同范本
- 高中語文《記念劉和珍君》隨堂練習(xí)(含答案)
- 部編教材《村居》《詠柳》1-古詩兩首名師公開課獲獎(jiǎng)?wù)n件百校聯(lián)賽一等獎(jiǎng)?wù)n件
評(píng)論
0/150
提交評(píng)論