版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
利用大數(shù)據(jù)分析重新定義企業(yè)服務(wù)質(zhì)量楊振宇yangzy@軟件部技術(shù)顧問我們的數(shù)據(jù)從哪里來?我們要處理什么樣的數(shù)據(jù)?我們要如何處理這些數(shù)據(jù)?基于大數(shù)據(jù)的企業(yè)服務(wù)管理之道案例分享議程:問題:除了他,任何人都必須用數(shù)據(jù)來說話!我們的數(shù)據(jù)從哪里來?End-userexperiencemonitoring—捕捉應(yīng)用或服務(wù)的終端用戶體驗(yàn)Runtimeapplicationarchitecturemodeling—發(fā)現(xiàn)應(yīng)用所依賴的軟硬件基礎(chǔ)設(shè)施,以及它們之間在運(yùn)行時(shí)的通信關(guān)系。User-definedtransactionflowmonitoring—對(duì)指定交易,在執(zhí)行的過程中,穿越的各邏輯節(jié)點(diǎn),所占用的資源和響應(yīng)時(shí)間能夠跟蹤Applicationcomponentdeepdive—單一領(lǐng)域,基于應(yīng)用環(huán)境上下文的的深入分析,和問題診斷ITOperationAnalytics(ITOA)
—將數(shù)據(jù)整合、格式化、分類后,通過關(guān)聯(lián)和智能分析來提供更準(zhǔn)確的業(yè)務(wù)管理能力摘自: GARTNER
G00263442(28May2014)數(shù)據(jù)的來源:企業(yè)業(yè)務(wù)管理的五個(gè)維度6…需要分析很多數(shù)據(jù)并結(jié)合業(yè)務(wù)拓?fù)?,才能識(shí)別問題很少有公司是真正以預(yù)防為主的大多數(shù)企業(yè)只是在業(yè)務(wù)中斷時(shí)被動(dòng)應(yīng)對(duì)企業(yè)的信息孤島,分離的工具,以及數(shù)據(jù)的復(fù)雜性及如此浩瀚,加大了診斷故障的難度系統(tǒng)宕機(jī)與變壞將造成數(shù)以百萬計(jì)美元的損失,傷害品牌、客戶印象及忠誠度管理層從嚴(yán)要求其團(tuán)隊(duì):事先預(yù)防,而不是事后補(bǔ)救IT環(huán)境爆炸性增長的數(shù)據(jù)(日志通常包含了最準(zhǔn)確、最真實(shí)的關(guān)鍵信息)擁有5000臺(tái)服務(wù)器的企業(yè)每天產(chǎn)生超過1.3TB的數(shù)據(jù)宕機(jī)成本超過以往任何時(shí)候關(guān)鍵性業(yè)務(wù)的宕機(jī)會(huì)給企業(yè)造成每小時(shí)數(shù)以百萬計(jì)美元的損失:券商
~$5-7百萬/每小時(shí),信用卡機(jī)構(gòu)~$2-3百萬/每小時(shí),移動(dòng)業(yè)務(wù)服務(wù)提供商~$66萬/每小時(shí),民航代理~$9萬/每小時(shí)。相對(duì)于迅猛增長的要求而言,IT員工的水平則在下滑或沒有起色預(yù)防性管理的時(shí)代已經(jīng)到來運(yùn)維團(tuán)隊(duì)做不到預(yù)防性管理的主要障礙如果在宕機(jī)前沒有"預(yù)先診斷"的話,運(yùn)維團(tuán)隊(duì)則只能被動(dòng)應(yīng)對(duì),眼睜睜看著宕機(jī)惡果蔓延有如燒錢一般...海量數(shù)據(jù),無法進(jìn)行人工分析現(xiàn)行分析技術(shù)如標(biāo)準(zhǔn)閾值分析法,無法實(shí)現(xiàn)預(yù)防目的無法診斷到正在發(fā)生的問題(在造成業(yè)務(wù)損失之前)閾值要么定得太高,在完全宕機(jī)之前沒有足夠的警告閾值要么定得太低,噪音太多,所有一切都忽略掉了傳統(tǒng)業(yè)務(wù)管理與基于IT運(yùn)維分析(ITOA)進(jìn)行業(yè)務(wù)管理的區(qū)別狀態(tài)考察
客戶業(yè)務(wù)系統(tǒng)的應(yīng)用日志包含準(zhǔn)確、詳細(xì)的交易信息,真實(shí)、全面的體現(xiàn)了用戶業(yè)務(wù)系統(tǒng)的狀態(tài)
望聞問切
將非結(jié)構(gòu)化的業(yè)務(wù)系統(tǒng)的應(yīng)用日志,通過大數(shù)據(jù)技術(shù)進(jìn)行高效收集、格式化、索引、分析,將業(yè)務(wù)系統(tǒng)的應(yīng)用性能狀態(tài)準(zhǔn)確、及時(shí)的體現(xiàn)出來,并結(jié)合認(rèn)知技術(shù)、邏輯算法,實(shí)現(xiàn)故障的提前預(yù)警靜態(tài)研究
需要了解被管理業(yè)務(wù)的邏輯拓?fù)?,建立業(yè)務(wù)模型
通過監(jiān)控工具獲得性能數(shù)據(jù),獲得KPI數(shù)據(jù),更有效的性能管理需要結(jié)合動(dòng)態(tài)性能基線來判斷業(yè)務(wù)偏離
先進(jìn)儀器
借助于各種先進(jìn)的儀器,目的是弄清病因、發(fā)現(xiàn)病灶,找準(zhǔn)病位:資源監(jiān)控、模擬交易、用戶真實(shí)交易體驗(yàn)等管理工具基于ITOA方案傳統(tǒng)方案我們要處理什么樣的數(shù)據(jù)?IT運(yùn)維是一種典型大數(shù)據(jù)挑戰(zhàn)典型的大型企業(yè):5000服務(wù)器
+網(wǎng)絡(luò)
+存儲(chǔ)
+中間件,每天產(chǎn)生大約1.3TB的可用性和性能管理數(shù)據(jù)跨國公司及服務(wù)提供商則擁有超過20,000服務(wù)器,…每天產(chǎn)生大約4.5TB數(shù)據(jù)Web及移動(dòng)應(yīng)用所要求的研發(fā)與敏捷開發(fā),產(chǎn)生的數(shù)據(jù)量則大到難以統(tǒng)計(jì)
APM文摘2013:
75%的高級(jí)IT總監(jiān)對(duì)傳統(tǒng)的管理方式感到不滿意,30%表示他們無法預(yù)測潛在的宕機(jī)威脅智慧的基礎(chǔ)設(shè)施帶來大數(shù)據(jù)的機(jī)遇
典型的企業(yè)產(chǎn)生數(shù)以萬計(jì)的工單和服務(wù)申請(qǐng)
來管理他們核心的資產(chǎn)
–約每天
1TB非結(jié)構(gòu)化數(shù)據(jù)
智能的網(wǎng)絡(luò)資產(chǎn)自身就會(huì)產(chǎn)生大量數(shù)據(jù):電源,溫度,流量
…
用戶需要提供對(duì)資產(chǎn)性能,可用性及成本管理的洞察和趨勢運(yùn)維管理的需求與焦點(diǎn)轉(zhuǎn)向敏捷與簡潔可用性?性能?容量?使用率?構(gòu)成?運(yùn)維和業(yè)務(wù)線需要洞察
…服務(wù)請(qǐng)求故障通知單社交媒體庫存與資產(chǎn)用戶文檔與技術(shù)文檔運(yùn)維大數(shù)據(jù)的來源:包括結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)搜索預(yù)測優(yōu)化…取得洞察力…基于洞察力…提供洞察力網(wǎng)絡(luò)流量與事務(wù)處理日志文件警告/報(bào)警與事件性能指標(biāo)核心文件與內(nèi)存痕跡配置文件我們要如何處理這些數(shù)據(jù)?應(yīng)用性能管理(APM)事件管理Applications|Systems|Workloads|Wireless|Network|Voice|Security|Mainframe|Storage|Assets業(yè)務(wù)成果能力IBM大數(shù)據(jù)平臺(tái)IBM或者第三方解決方案運(yùn)維環(huán)境系統(tǒng)&日志監(jiān)控OptimizeIT應(yīng)用基礎(chǔ)架構(gòu)優(yōu)化Search在海量的數(shù)據(jù)中進(jìn)行快速搜索快速解決問題Predict問題發(fā)生之前進(jìn)行預(yù)測主動(dòng)規(guī)避宕機(jī)性能優(yōu)化RaveSPSSInfoSphereBigInsightsWatsonStreamsCloudInsightsIBMSmartCloudAnalyticsIBM持續(xù)對(duì)分析領(lǐng)域進(jìn)行投資,并在此基礎(chǔ)上構(gòu)建運(yùn)維分析能力使用全自動(dòng)的學(xué)習(xí)算法來定義什么是“正常”。
然后采用對(duì)現(xiàn)有條件的實(shí)時(shí)評(píng)估來預(yù)測和盡早發(fā)現(xiàn)異常,避免對(duì)業(yè)務(wù)產(chǎn)生實(shí)際影響。挑戰(zhàn):被動(dòng)的對(duì)性能瓶頸進(jìn)行反應(yīng)是不夠的–為了保證重要的業(yè)務(wù)系統(tǒng)24X7小時(shí)可用,必須在問題產(chǎn)生影響之前通過預(yù)測來進(jìn)行規(guī)避預(yù)測適應(yīng)未來發(fā)展方案靈捷,支持動(dòng)態(tài)的基礎(chǔ)設(shè)施如云計(jì)算,變化不斷支持異構(gòu)方案靈活,易于支持多平臺(tái)及多廠商的性能管理方案利用現(xiàn)有投資不用推倒重來或替換,利用好現(xiàn)有性能管理方案預(yù)測性解決方案的理想特征SmartCloudAnalytics–PredictiveInsights提供預(yù)測分析和自學(xué)習(xí)為檢測和避免服務(wù)中斷,進(jìn)行實(shí)時(shí)的分析采用先進(jìn)的沃森多變量和單變量分析算法.關(guān)聯(lián)跨多個(gè)域和異構(gòu)數(shù)據(jù)源的指標(biāo)PredictiveInsights觀察行為單個(gè)KPI
分析對(duì)每個(gè)KPI學(xué)習(xí)其歷史的行為當(dāng)KPI偏離其歷史的行為時(shí),認(rèn)為是異常多KPI分析識(shí)別KPI之間的關(guān)系,并按照統(tǒng)計(jì)分析所了解的模式進(jìn)行分組
了解正常的行為模式,并在識(shí)別到行為模式與正常的行為相異時(shí),發(fā)送警告PredictiveInsights觀察因果關(guān)系使用統(tǒng)計(jì)的方法最可能確定哪些KPI有因果關(guān)系識(shí)別大量的數(shù)據(jù)中,KPI之間的因果關(guān)系,并使用他們建立預(yù)測模型,并使用這些模型來持續(xù)的探測,預(yù)測和進(jìn)行異常分析基于
GrangerCausalityTest(格蘭杰因果關(guān)系檢驗(yàn))的方法進(jìn)行實(shí)現(xiàn)由諾貝爾獎(jiǎng)獲得者,經(jīng)濟(jì)學(xué)家CliveGranger提出使用統(tǒng)計(jì)的測試來確定因果關(guān)系
對(duì)大量的時(shí)間序列的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)存在于這些數(shù)據(jù)中的因果關(guān)系觀察KPI數(shù)據(jù)的模式PredictiveInsights可以識(shí)別時(shí)間序列數(shù)據(jù)的模式使用算法來確定數(shù)據(jù)是否是季節(jié)性的PredictiveInsights觀察數(shù)據(jù)每周的模式Webservers在周一和周五會(huì)比較繁忙對(duì)每個(gè)KPI進(jìn)行自動(dòng)的分析KPI可以在季節(jié)性和非季節(jié)性中切換異常顯示(單個(gè)KPI)與異常行為相關(guān)的指標(biāo)會(huì)被繪制成圖形綠色的區(qū)域是正常的行為基線異常的區(qū)域以紅色文字描述異常的行為異常顯示(多個(gè)KPI關(guān)系)自動(dòng)繪制所有的關(guān)聯(lián)指標(biāo)數(shù)據(jù)異常領(lǐng)域紅色顯示文字描述異常的行為針對(duì)大量的時(shí)間序列數(shù)據(jù),找出其中關(guān)鍵的因果關(guān)系并為時(shí)間序列數(shù)據(jù)建立預(yù)測模型利用該模型進(jìn)行異常診斷和預(yù)測Application#2availabilityServer3NoofProcessorsServer#1AlertsServer#2MemoryFreeServer#1OutPacketsApplication#1availabilityTradevolume時(shí)間序列數(shù)據(jù)Granger因果邏輯算法
因果/統(tǒng)計(jì)模型多KPI分析(Granger因果邏輯算法)對(duì)于KPI異常偏離的檢測NetworkPerformanceServerMonitoringMiddlewareMonitoringApplicationMonitoringCustomerExperienceStorageMonitoringPacketsReceivedErrors>20PingResponseTime>100msCountdowntoServiceImpactSwap_Space_UsedMainframeMonitoringGC_Rate>20MB/sTransactionResponseTime>5secsCPUUsed>90%JVMMemoryUsed>10TotalTransactionLocksTotalCriticalAlertsFailed_RequestsAvgMQRespTimeAverageTransmitKB/SecCPU_usedContext_Switches/SecSwap_Space_UsedPage_Faults_per_secJVM_Memory_UsedMethod_Average_Response_TimeGC_RatePingresponsetimePacketsReceivedErrors%_Total_Privileged_Time%_Total_Processor_Time%_Total_User_TimeContext_Switches/SecFile_Control_Operations/SecFile_Data_Operations/SecFile_Read_Operations/SecFile_Write_Operations/SecProcessor_Queue_LengthSystem_Calls/SecProcessor_Queue_Length_ExcessFile_Control_Bytes/Sec_64File_Read_Bytes/Sec_64File_Write_Bytes/Sec_64Total_Wait_TimeConnection_RateQuery_RateAverage_Query_Processing_TimeAverage_Processing_TimePercent_FailedPercent_Slow,Percent_GoodPercent_AvailableAverage_Response_TimeFailed_RequestsTotal_RequestsSlow_RequestsGood_Requests需要花費(fèi)很多時(shí)間來響應(yīng)故障縮短MTTR提升運(yùn)營效率如果沒有針對(duì)故障的“提前感知”能力,運(yùn)維團(tuán)隊(duì)只能被動(dòng)響應(yīng)故障,令企業(yè)遭受業(yè)務(wù)上的損失…基于認(rèn)知技術(shù)對(duì)于關(guān)鍵業(yè)務(wù)系統(tǒng)異常進(jìn)行預(yù)警的典型業(yè)務(wù)場景TX00101.RespTimeTX00108.TxCountTX00345.RespTimeTX00086.RespTimeTX00221.RespTimeTX00004.RespTimeTX00189.TxCountTX00143.FailRateTX00101.CountTX00004.TxCountTX00350.TxCountTX00078.RespTimeBusyRatioTX00200.FailRateen01.InByteen01.OutBytehdisk001.readhdisk002.writehdisk001.writedb-A.db2lockCountdb-A.bufferpoolHitRatiodb-A.sortOverflowsub-X.RespTimesub-R.RespTimesub-R.TxCountsub-X.TxCounthdisk003.readhdisk004.writeTX00189.RespTimeen03.InByteNode-X.cpuNode-X.memoryTX00004.RespTimesub-X.RespTimeBusyRatio如何確定KPI之間的關(guān)系,找到問題根源舉例:指標(biāo)關(guān)系異常(多變量)提前預(yù)警-學(xué)習(xí)指標(biāo)之間的關(guān)系,基于動(dòng)態(tài)閾值和模型實(shí)現(xiàn)異常告警大量數(shù)據(jù)的高級(jí)搜索和文本分析索引、搜索和分析應(yīng)用系統(tǒng)、中間件和基礎(chǔ)設(shè)施的運(yùn)維數(shù)據(jù)在大量日志記錄中進(jìn)行快速搜索和可視化應(yīng)用錯(cuò)誤日志和文檔之間交叉索引搜索預(yù)置豐富的知識(shí)庫要點(diǎn)高級(jí)搜索和文本分析采用SOLR處理引擎使用預(yù)定義模式和發(fā)現(xiàn)模式搜索日志來快速定位問題在大量日志記錄中快速搜索和可視化應(yīng)用錯(cuò)誤快速下載、安裝和配置加速問題隔離,定位和修復(fù)日志分析及時(shí)預(yù)警(少于10秒latency)日志分析及預(yù)警搜索基于大數(shù)據(jù)技術(shù)實(shí)現(xiàn)運(yùn)維數(shù)據(jù)分析的典型業(yè)務(wù)場景基于大數(shù)據(jù)的企業(yè)服務(wù)管理之道SCA(LA)大數(shù)據(jù)存儲(chǔ)、查詢平臺(tái)SCA(PI)實(shí)時(shí)數(shù)據(jù)處理引擎日志文件WebServiceSocketData集中事件平臺(tái)HADOOPHDFSTEXTAnalyticsKPI指標(biāo)結(jié)構(gòu)化數(shù)據(jù)IBM完整解決方案告警預(yù)測告警預(yù)測自學(xué)習(xí)認(rèn)知技術(shù)WATSON算法預(yù)測偏離SCM(基礎(chǔ)架構(gòu)優(yōu)化)主動(dòng)避免業(yè)務(wù)故障Predic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版品德與社會(huì)五年級(jí)上冊(cè)全冊(cè)教案
- 開發(fā)耐低溫材料保障極地工程安全
- 現(xiàn)代工程圖學(xué)習(xí)題集答案-第三版-主編楊裕根第3章
- 高一化學(xué)達(dá)標(biāo)訓(xùn)練:第一單元化學(xué)反應(yīng)速率與反應(yīng)限度
- 2024屆西安市航空六一八中學(xué)高考化學(xué)四模試卷含解析
- 2024高中語文第一單元第2課裝在套子里的人提升訓(xùn)練含解析新人教版必修5
- 2024高考地理一輪復(fù)習(xí)第二章地球上的大氣第三講氣壓帶和風(fēng)帶學(xué)案
- 2024高考化學(xué)一輪復(fù)習(xí)第九章有機(jī)化合物第一講甲烷乙烯苯規(guī)范演練含解析新人教版
- 貸款違約調(diào)解協(xié)議書
- 大數(shù)據(jù)時(shí)代語言學(xué)
- 手術(shù)室應(yīng)對(duì)突發(fā)事件、批量傷員應(yīng)急預(yù)案及處理流程
- 動(dòng)機(jī)-行為背后的原因課件
- 尺骨鷹嘴護(hù)理查房
- 美國簽證-個(gè)人信息表
- 天一大聯(lián)考2024屆物理高一上期末學(xué)業(yè)水平測試試題含解析
- 2-8RLC串聯(lián)交流電路分析
- 2022年淮安市漣水縣輔警考試試卷真題
- 2.1特種設(shè)備安全法、容規(guī)、管規(guī)等法律法規(guī)培訓(xùn)
- 慢性腎病高磷血癥
- 廣告牌計(jì)算程序
- 名著:駱駝祥子
評(píng)論
0/150
提交評(píng)論