IT運(yùn)維管理解決方案V1.0_第1頁(yè)
IT運(yùn)維管理解決方案V1.0_第2頁(yè)
IT運(yùn)維管理解決方案V1.0_第3頁(yè)
IT運(yùn)維管理解決方案V1.0_第4頁(yè)
IT運(yùn)維管理解決方案V1.0_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第39頁(yè)共40頁(yè)富滇銀行信息中心運(yùn)維平臺(tái)-技術(shù)方案商業(yè)機(jī)密*妥善保存第97頁(yè)共131頁(yè)系統(tǒng)運(yùn)維管理整體解決方案目錄TOC\o"1-5"\h\z\u第一章 項(xiàng)目概述 4第二章 監(jiān)控技術(shù)方案 51 系統(tǒng)總體框架設(shè)計(jì) 51.1 設(shè)計(jì)原則 51.1.1 管理系統(tǒng)自動(dòng)化 51.1.2 管理系統(tǒng)化 51.1.3 管理系統(tǒng)實(shí)時(shí)性 61.1.4 管理系統(tǒng)簡(jiǎn)單直觀性 61.1.5 管理系統(tǒng)對(duì)資源的占用 61.1.6 管理體系的開(kāi)放性 61.1.7 管理系統(tǒng)的安全性 61.1.8 管理系統(tǒng)的擴(kuò)展性 71.2 方案概述 71.2.1 總體結(jié)構(gòu) 7 ITM架構(gòu) 8 TPC架構(gòu) 10 ITCAM架構(gòu) 10 Netcool網(wǎng)絡(luò)及事件管理平臺(tái) 11 報(bào)表系統(tǒng)架構(gòu) 111.2.2 架構(gòu)分析 122 項(xiàng)目實(shí)施技術(shù)方案 122.1 監(jiān)控功能 122.1.1 與事件管理平臺(tái)整合 122.1.2 用ITM實(shí)現(xiàn)對(duì)操作系統(tǒng)的監(jiān)控 13 磁盤(pán)監(jiān)控: 13 文件監(jiān)控: 14 網(wǎng)卡 14 NFS統(tǒng)計(jì) 14 RPC統(tǒng)計(jì) 14 進(jìn)程 15 CPU 15 系統(tǒng)屬性 15 用戶屬性 162.1.3 用ITM實(shí)現(xiàn)Windows平臺(tái)的監(jiān)控 162.1.4 用ITCAMFordatabase實(shí)現(xiàn)對(duì)Oracle、SQL等數(shù)據(jù)庫(kù)監(jiān)控 18 ITCAM實(shí)現(xiàn)Oracle數(shù)據(jù)庫(kù)監(jiān)控 18 ITM實(shí)現(xiàn)SQLServer數(shù)據(jù)庫(kù)監(jiān)控 212.1.5 用ITCAM實(shí)現(xiàn)對(duì)WebSphere、Tuxedo的監(jiān)控 222.1.6 用TPC實(shí)現(xiàn)對(duì)存儲(chǔ)的監(jiān)控 242.1.7 事件管理實(shí)施 252.1.8 報(bào)表管理實(shí)施 25 報(bào)表展現(xiàn) 262.1.9 數(shù)據(jù)采集頻率 272.1.10 報(bào)警處理 28 報(bào)警分級(jí) 28 報(bào)警方式 282.2 分布式支持 282.3 系統(tǒng)安全性 292.4 擴(kuò)展接口 292.4.1 與Tivoli其他產(chǎn)品的接口 292.4.2 二次開(kāi)發(fā)的接口 292.4.3 通用代理(UniversalAgent) 292.5 性能分析 302.6 方案總結(jié) 312.7 本方案的優(yōu)勢(shì) 31第三章 IT運(yùn)維流程管理方案 324.1需求分析 324.2流程設(shè)計(jì) 334.3TivoliServiceRequestManager的流程實(shí)現(xiàn) 334.3.1TivoliServiceRequestManager支持的管理流程 334.3.2管理對(duì)象分類和管理?xiàng)l目定義 334.3.3服務(wù)申請(qǐng) 344.3.4突發(fā)事件管理 354.3.5問(wèn)題管理 364.3.6變更管理 374.3.7配置管理 384.3.8服務(wù)水平管理 384.4TivoliServiceRequestManager的技術(shù)實(shí)現(xiàn) 394.4.1TivoliServiceRequestManager體系架構(gòu) 39項(xiàng)目概述客戶IT環(huán)境復(fù)雜,IT資源類型眾多,維護(hù)難度高,亟需建立一個(gè)集中的運(yùn)維監(jiān)控體系。以達(dá)到IT資源的集中管理、綜合分析,提高工作效率和運(yùn)維質(zhì)量的目標(biāo)。項(xiàng)目建設(shè)的整體目標(biāo)為:整體規(guī)劃、分布實(shí)施、重點(diǎn)突破,務(wù)求實(shí)效,作為整個(gè)系統(tǒng)與網(wǎng)絡(luò)監(jiān)控平臺(tái)建設(shè)的知道思想;采用成熟的技術(shù),配置要平衡;具有良好的穩(wěn)定性、高效性、安全性、靈活性;具有良好的開(kāi)放性,有較好的兼容能力;具有較強(qiáng)的擴(kuò)充能力;需要能保護(hù)現(xiàn)有投資??傮w需求分析包括:監(jiān)控:主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)、應(yīng)用(數(shù)據(jù)庫(kù)、中間件),故障告警、性能分析、自動(dòng)發(fā)現(xiàn)2.服務(wù)流程:服務(wù)臺(tái)、事件管理、故障管理、變更管理、發(fā)布管理、配置管理、知識(shí)庫(kù)3.多維度展現(xiàn):4.報(bào)表:

監(jiān)控技術(shù)方案系統(tǒng)總體框架設(shè)計(jì)設(shè)計(jì)原則客戶信息系統(tǒng)的管理必須采用有效的方法,在客戶信息系統(tǒng)整個(gè)范圍內(nèi)實(shí)施管理策略和流程??蛻粜畔⑾到y(tǒng)的管理體系側(cè)重在如何提供一個(gè)適合客戶信息系統(tǒng)的低風(fēng)險(xiǎn)的IT管理模式,設(shè)計(jì)、建構(gòu)、實(shí)施一個(gè)統(tǒng)一、集成并可擴(kuò)展的管理結(jié)構(gòu),實(shí)現(xiàn)對(duì)復(fù)雜的計(jì)算機(jī)系統(tǒng)有效的管理??蛻粜畔⑾到y(tǒng)面對(duì)的是復(fù)雜的管理對(duì)象和多種管理需求。如果沒(méi)有一套統(tǒng)一、集成的管理系統(tǒng),在網(wǎng)絡(luò)、系統(tǒng)和服務(wù)發(fā)生變化時(shí),或者管理任務(wù)發(fā)生變化時(shí),將可能導(dǎo)致管理體系大的調(diào)整,管理員可能需要花費(fèi)很長(zhǎng)時(shí)間和精力重新學(xué)習(xí)新的管理技能,從而導(dǎo)致管理效率的下降。最終將導(dǎo)致管理工作實(shí)施的周期加長(zhǎng),管理錯(cuò)誤增多。統(tǒng)一和集成的管理將幫助最好的利用管理員的技能和精力,對(duì)客戶系統(tǒng)進(jìn)行高效、準(zhǔn)確的管理。根據(jù)客戶信息系統(tǒng)平臺(tái)建設(shè)需求和我們的經(jīng)驗(yàn),在設(shè)計(jì)信息監(jiān)控平臺(tái)時(shí)應(yīng)滿足以下原則:管理系統(tǒng)自動(dòng)化對(duì)于客戶信息系統(tǒng)而言,建構(gòu)在管理平臺(tái)上的,統(tǒng)一、集成的管理模式可以降低管理系統(tǒng)維護(hù)的費(fèi)用和風(fēng)險(xiǎn),主要體現(xiàn)在:能夠識(shí)別出管理復(fù)雜系統(tǒng)存在的困難和長(zhǎng)遠(yuǎn)發(fā)展的問(wèn)題,從而得到避免,防止用戶重復(fù)投資減少對(duì)將各種單點(diǎn)管理工具勉強(qiáng)組合在一起工作,以滿足管理工作的需要避免重復(fù)的管理工作,減少管理功能上的重復(fù)管理平臺(tái)可以實(shí)現(xiàn)各管理應(yīng)用間的通信,以更好的解決問(wèn)題自動(dòng)化管理減少管理員維護(hù)工作量,可以在統(tǒng)一平臺(tái)上完成自動(dòng)管理和監(jiān)控,從而提高管理效率。管理系統(tǒng)化該平臺(tái)要對(duì)客戶信息系統(tǒng)進(jìn)行綜合管理。系統(tǒng)的構(gòu)成層次從下至上為:物理網(wǎng)絡(luò)層、系統(tǒng)層、數(shù)據(jù)庫(kù)層及應(yīng)用層,只有做到對(duì)所有資源的統(tǒng)一管理,才能全面的管理好系統(tǒng)資源。任何管理上的遺漏,都將成為系統(tǒng)故障出現(xiàn)的隱患。同時(shí)在單一管理環(huán)境下,實(shí)現(xiàn)對(duì)所有IT資產(chǎn)的集中化管理,并且對(duì)所有的平臺(tái)都有統(tǒng)一的操作界面及管理,簡(jiǎn)化操作。全面的管理,提高客戶信息系統(tǒng)的整體可用性。減少系統(tǒng)管理人員對(duì)問(wèn)題的定位時(shí)間。管理系統(tǒng)實(shí)時(shí)性IT系統(tǒng)管理平臺(tái)的監(jiān)控對(duì)象是重要的IT資源,這些IT資源承載著多個(gè)關(guān)鍵的業(yè)務(wù)系統(tǒng),對(duì)于監(jiān)控系統(tǒng)來(lái)說(shuō),要在系統(tǒng)發(fā)生問(wèn)題時(shí)實(shí)時(shí)的捕捉,確保信息的實(shí)時(shí)、完整。管理系統(tǒng)簡(jiǎn)單直觀性系統(tǒng)應(yīng)采用直觀監(jiān)控界面,并采用直觀、清晰的展現(xiàn)形式;同時(shí)系統(tǒng)還應(yīng)具有操作簡(jiǎn)便、使用方便的功能。管理系統(tǒng)對(duì)資源的占用在實(shí)現(xiàn)管理的同時(shí),必然會(huì)占用一定的網(wǎng)絡(luò)系統(tǒng)資源,如何盡量減少資源的占用,是實(shí)現(xiàn)有效的管理系統(tǒng)的重要因素。因此在IT系統(tǒng)平臺(tái)的選擇上,需要管理平臺(tái)對(duì)資源的占用最少,盡量采用單一代理,輕客戶端程序,以減少對(duì)系統(tǒng)資源的占用。同時(shí)管理平臺(tái)需要具有分布式結(jié)構(gòu),以減少管理對(duì)網(wǎng)絡(luò)資源的占用。管理體系的開(kāi)放性管理系統(tǒng)的開(kāi)放性,是設(shè)計(jì)客戶監(jiān)控系統(tǒng)的一個(gè)原則。管理系統(tǒng)需要符合業(yè)界標(biāo)準(zhǔn),以實(shí)現(xiàn)對(duì)各種資源的統(tǒng)一管理和與其它管理軟件的集成。同時(shí)管理系統(tǒng)需要開(kāi)放開(kāi)發(fā)接口,以方便客戶擴(kuò)展管理功能。該系統(tǒng)管理需要基于開(kāi)放的管理平臺(tái),遵循業(yè)界標(biāo)準(zhǔn),并提供管理接口:網(wǎng)絡(luò)管理基于SNMP標(biāo)準(zhǔn)網(wǎng)管協(xié)議系統(tǒng)管理平臺(tái)基于面向?qū)ο髽?biāo)準(zhǔn):ObjectManagementGroup(OMG):ObjectRequestBrokerArchTECture(CORBA)支持第三方廠商的應(yīng)用集成,為系統(tǒng)管理的選型提供更高的靈活性開(kāi)放的API支持用戶應(yīng)用軟件的集成,為系統(tǒng)管理的內(nèi)容擴(kuò)充提供發(fā)展余地管理系統(tǒng)的安全性管理系統(tǒng)自身的安全性是保證管理工作正常進(jìn)行的關(guān)鍵因素,因此在設(shè)計(jì)監(jiān)控系統(tǒng)時(shí),充分考慮了管理系統(tǒng)的安全性,包括:提供管理工作的安全審計(jì)控制和日志記錄提供方便維護(hù)的安全通信結(jié)構(gòu),如信息的加密提供完整的策略和框架,并能適應(yīng)組織的變化,靈活地設(shè)定管理人員的角色及權(quán)限客戶系統(tǒng)監(jiān)控需要管理平臺(tái)具有優(yōu)秀的體系安全管理,以保證管理的安全。管理系統(tǒng)的擴(kuò)展性該監(jiān)控系統(tǒng)平臺(tái)規(guī)模會(huì)隨著網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用的擴(kuò)展而擴(kuò)展,因此選擇的信息運(yùn)維平臺(tái)的擴(kuò)展性對(duì)保護(hù)投資有重要意義。擴(kuò)展性主要體現(xiàn)在:管理功能的擴(kuò)展管理范圍的擴(kuò)展客戶監(jiān)控系統(tǒng)平臺(tái)體系建立在企業(yè)級(jí)管理平臺(tái)基礎(chǔ)之上,具有優(yōu)秀的擴(kuò)展性,用戶可以在需要時(shí)增加管理模塊,擴(kuò)展管理節(jié)點(diǎn),保護(hù)現(xiàn)有網(wǎng)絡(luò)系統(tǒng)以及應(yīng)用管理投資。方案概述總體結(jié)構(gòu)IBMTivoli管理總體架構(gòu)如下:最底層為管理對(duì)象層,包括數(shù)據(jù)中心內(nèi)部的各種被管理對(duì)象。中間為采集層,負(fù)責(zé)管理數(shù)據(jù)的采集,一般采用專用的協(xié)議和技術(shù)。在上層為數(shù)據(jù)處理層,主要為集中的告警信息、集中的性能數(shù)據(jù)和集中的配置信息管理最上層為集中展現(xiàn)層,展現(xiàn)數(shù)據(jù)中心的實(shí)時(shí)和歷史運(yùn)行狀況,通過(guò)個(gè)性化的界面提供給不同層面的管理人員。服務(wù)流程層則負(fù)責(zé)管理運(yùn)行流程的建立、運(yùn)行和落地實(shí)現(xiàn)。在數(shù)據(jù)采集層,分別采用不同的技術(shù)來(lái)管理不同的IT資源:管理對(duì)象采用技術(shù)IBM產(chǎn)品服務(wù)器和操作系統(tǒng)CORBA和運(yùn)行日志文件TivoliMonitoring存儲(chǔ)SNIA協(xié)議和syslogTivoliProductivityCenter數(shù)據(jù)庫(kù)、中間件產(chǎn)品自身接口或者標(biāo)準(zhǔn)協(xié)議ITCAM產(chǎn)品家族網(wǎng)絡(luò)Syslog、SNMPOmnibus下面就每個(gè)產(chǎn)品的具體實(shí)現(xiàn)進(jìn)行說(shuō)明:ITM架構(gòu)TivoliMonitoringv6基于CORBA版本v2.5實(shí)現(xiàn)。TivoliMonitoringv6主要邏輯部件:管理服務(wù)器TivoliEnterpriseMonitoringServer管理網(wǎng)關(guān)HubTivoliEnterpriseMonitoringServer管理代理TivoliEnterpriseMonitoringAgent展示門戶TivoliEnterprisePortalServer數(shù)據(jù)歷史保存TivoliDataWarehouse對(duì)于分布式環(huán)境,可以通過(guò)RemoteTEMS來(lái)實(shí)現(xiàn)高度的擴(kuò)展性ITM6.1與其他各tivoli產(chǎn)品的關(guān)系圖如下:由上圖可以看出,ITCAM產(chǎn)品可以作為一個(gè)agent直接和TEMS聯(lián)系。TPC架構(gòu)TPC為客戶提供完整的存儲(chǔ)基礎(chǔ)架構(gòu)-包括磁盤(pán),數(shù)據(jù)和光纖網(wǎng)絡(luò)-提供了一套管理,配置及分析工具。下圖舉例描述了一些可管理的組件。通用代理程序?yàn)閼?yīng)用程序特定代理提供了一個(gè)平臺(tái)。根據(jù)子代理所使用的任務(wù),通用代理將被選擇安裝至應(yīng)用服務(wù)器,桌面PC機(jī),或筆記本上。ITCAM架構(gòu)TivoliCompositApplicationManager基于TivoliMonitoring的底層實(shí)現(xiàn)技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)、J2EE服務(wù)器、應(yīng)用服務(wù)器等的中間件和應(yīng)用的監(jiān)控。Netcool網(wǎng)絡(luò)及事件管理平臺(tái)Netcool/OMNIbus提供了業(yè)務(wù)最為強(qiáng)大的事件處理能力使IT管理人員更高效地進(jìn)行原始數(shù)據(jù)的訪問(wèn)、處理和顯示。通過(guò)增加智能化來(lái)提高事件分析功能,該功能具備先進(jìn)的程序語(yǔ)言和數(shù)據(jù)觸發(fā)器,從而允許進(jìn)行批處理和更復(fù)雜的數(shù)據(jù)處理操作,這為先進(jìn)的商業(yè)服務(wù)管理和服務(wù)質(zhì)量管理提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。Netcool/OMNIbus應(yīng)用軟件包括一個(gè)成品軟件模塊庫(kù),從安全、聲音和IP、DSL/寬帶、無(wú)線、轉(zhuǎn)換器和路由器、企業(yè)管理系統(tǒng)和應(yīng)用軟件等超過(guò)一千個(gè)環(huán)境中收集并整理錯(cuò)誤信息。Netcool/OMNIbus居于各類Netcool解決方案的核心,包括那些商業(yè)服務(wù)管理、服務(wù)質(zhì)量管理、安全管理,以及先進(jìn)的關(guān)聯(lián)和診斷Netcool解決方案。Netcool/OMNIbus還為IT管理團(tuán)隊(duì)提供有關(guān)其基礎(chǔ)架構(gòu)和業(yè)務(wù)的重要信息,以及Netcool套件中那些備受贊譽(yù)的功能,包括可擴(kuò)展性、覆蓋面、適應(yīng)性,還有已成為實(shí)時(shí)錯(cuò)誤管理解決方案的公認(rèn)標(biāo)準(zhǔn)的快速部署能力。Micromuse公司首席技術(shù)官CraigFarrell表示:“Netcool/OMNIbus產(chǎn)品以經(jīng)被全球范圍內(nèi)超過(guò)一千八百家用戶選中,作為其Netcool解決方案的一部分,為大型企業(yè)和服務(wù)提供商提供安全、可升級(jí)的管理骨干。Netcool/OMNIbus增強(qiáng)了我們行業(yè)領(lǐng)先的可擴(kuò)展性、高效率和性能,并針對(duì)多區(qū)域服務(wù)管理提供更多的功能性,內(nèi)建更多操作智能標(biāo)準(zhǔn),從而保持了我們的行業(yè)領(lǐng)先地位。這些提升能使IBM的客戶實(shí)現(xiàn)更高的操作效率,并更為高效地訪商業(yè)服務(wù)管理數(shù)據(jù)。”報(bào)表系統(tǒng)架構(gòu)數(shù)據(jù)展示平臺(tái)從各管理模塊收集性能數(shù)據(jù),其中,主機(jī)系統(tǒng)運(yùn)行監(jiān)控、中間件運(yùn)行監(jiān)控、數(shù)據(jù)庫(kù)運(yùn)行監(jiān)控?cái)?shù)據(jù)從IBMTivoli系統(tǒng)數(shù)據(jù)庫(kù)中獲取,并匯總到本系統(tǒng)的報(bào)表統(tǒng)計(jì)模塊。報(bào)表統(tǒng)計(jì)模塊包含實(shí)時(shí)報(bào)表、歷史報(bào)表、運(yùn)行月報(bào)、趨勢(shì)報(bào)告、比較報(bào)告、主機(jī)健康報(bào)告子系統(tǒng),可對(duì)監(jiān)測(cè)數(shù)據(jù)實(shí)時(shí)統(tǒng)計(jì)和分析,并出具分析報(bào)告。并根據(jù)實(shí)際情況可以以曲線、餅圖、柱圖、表格等形式進(jìn)行展示,并可以根據(jù)用戶需求把巡檢性能報(bào)告定時(shí)發(fā)送到管理員的郵箱中。該系統(tǒng)可以根據(jù)管理員的需求設(shè)定不同用戶以及不同的訪問(wèn)權(quán)限。架構(gòu)分析由于客戶系統(tǒng)監(jiān)控規(guī)劃的監(jiān)控對(duì)象估計(jì)在100臺(tái)以上,考慮到Tivoli監(jiān)控服務(wù)器HUBTEMS(TivoliEnterpriseMonitoringServer)負(fù)載會(huì)比較大,我們會(huì)采用RemoteTEMS來(lái)分擔(dān)負(fù)載??梢钥紤]按照機(jī)房來(lái)規(guī)劃remotetems。ITMOSagent、ITMforMessageandCollaboration、ITMforDatabaseagent、ITCAMForWebResourceagent先連到remotetems,然后由remotetems去和hubtems通信,再由tivolienterpriseportalserver進(jìn)行展現(xiàn)。這樣的設(shè)計(jì),一方面方便了各機(jī)房系統(tǒng)管理員的維護(hù)工作;另一方面,HUBTEMS的負(fù)載減小很多,故可以不用對(duì)HUBTEMS做failover,減少了一臺(tái)PC服務(wù)期的采購(gòu),為客戶節(jié)省了成本。每個(gè)Agent配置primaryremotetems和secondlyremotetems。正常情況下,agent和primaryremotetems通信,當(dāng)primaryremotetems出現(xiàn)問(wèn)題的時(shí)候,agent會(huì)自動(dòng)連接到secondlyremotetems。這樣的設(shè)計(jì),可以保障agent和hubtems的通信,相當(dāng)于是做了remotetems的failover。由于歷史數(shù)據(jù)可以存放在agent端,采集經(jīng)常也是由agent自己驅(qū)動(dòng),所以當(dāng)TEMS出現(xiàn)問(wèn)題的時(shí)候,數(shù)據(jù)采集還是正常進(jìn)行,不會(huì)出現(xiàn)歷史數(shù)據(jù)丟失。項(xiàng)目實(shí)施技術(shù)方案監(jiān)控功能與事件管理平臺(tái)整合對(duì)于應(yīng)用系統(tǒng)來(lái)說(shuō),網(wǎng)絡(luò)、設(shè)備、各種分布式的系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、中間件、各種應(yīng)用程序都會(huì)產(chǎn)生各自的事件,在系統(tǒng)出現(xiàn)故障時(shí),故障信息通過(guò)事件的方式顯示在管理員的控制臺(tái)上。對(duì)于大型網(wǎng)絡(luò)系統(tǒng),一個(gè)系統(tǒng)管理員往往要面對(duì)成百上千個(gè)不同的事件,負(fù)擔(dān)很重,而且,由于事件量大,關(guān)系不清楚,管理員很難在眾多事件中分出事件的重要程度,難以把重點(diǎn)放在對(duì)關(guān)鍵事件上,同時(shí),也難以對(duì)問(wèn)題進(jìn)行準(zhǔn)確的分析。由于各種事件,如網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)庫(kù)、應(yīng)用的事件之間有相關(guān)性,因此對(duì)事件進(jìn)行統(tǒng)一處理可以大大提高管理效率,加快故障分析定位和故障處理,降低由于系統(tǒng)故障帶來(lái)的損失。IBMTivoli軟件提供專業(yè)的事件故障管理工具IBMNetCoolOmnibus為管理員提供企業(yè)統(tǒng)一的事件管理控制臺(tái),對(duì)來(lái)自各種管理應(yīng)用的事件和故障進(jìn)行統(tǒng)一處理,并且提供全周期的自動(dòng)化和事件控制。包括:事件集成--一個(gè)靈活且可擴(kuò)展地從分布式環(huán)境中各個(gè)信息源收集和集成消息及事件的事件集成機(jī)制,專門收集網(wǎng)的IT環(huán)境產(chǎn)生的事件。使管理員只需要面對(duì)一個(gè)事件控制臺(tái),就可以查看網(wǎng)絡(luò)中發(fā)生的所有事件。同時(shí),事件可以按照來(lái)源、類型進(jìn)行分組,管理員可以方便的進(jìn)行查看。事件處理--對(duì)于各種信息事件進(jìn)行處理。包括對(duì)事件進(jìn)行過(guò)濾,濾除某些不重要的設(shè)備的不重要的事件,避免事件風(fēng)暴的產(chǎn)生,減輕管理員的工作量。同時(shí)Omnibus提供強(qiáng)大的事件相關(guān)處理機(jī)制(EventCorrelation),管理員可以定義事件處理的規(guī)則、流程,在收到事件后,會(huì)自動(dòng)經(jīng)過(guò)流程處理,將多個(gè)不同事件之間的相關(guān)性進(jìn)行分析,將根源事件顯示到控制臺(tái)上。管理員可以通過(guò)定義不同的事件處理流程,完成故障的定位,相關(guān)事件的分析,大大提高事件處理的效率。事件響應(yīng)--一個(gè)通過(guò)從中央服務(wù)器發(fā)送和控制分布式應(yīng)答作為系統(tǒng)事件應(yīng)答的分布式自動(dòng)響應(yīng)引擎,負(fù)責(zé)根據(jù)對(duì)各種事件分析的結(jié)果實(shí)現(xiàn)對(duì)遠(yuǎn)程分布式系統(tǒng)進(jìn)行控制。管理員可以定義在收到相應(yīng)事件時(shí)的反應(yīng)方式,如聲電報(bào)警、執(zhí)行預(yù)定義的程序、重新啟動(dòng)出現(xiàn)故障的程序等自動(dòng)化處理方式,或者將本地?zé)o法處理的故障傳送給上級(jí)管理中心需求幫助。事件的自動(dòng)化處理可以減輕管理員的工作量,同時(shí)提高對(duì)故障的響應(yīng)速度。利用Omnibus提供的大量的事件收集Adapter可以將第三方的告警信息方便地傳送到Omnibus中,進(jìn)行集中管理,充分發(fā)揮Tivoli對(duì)系統(tǒng)的管理能力,同時(shí)也使整個(gè)系統(tǒng)的管理更統(tǒng)一。事件存放在內(nèi)存數(shù)據(jù)庫(kù)中,通過(guò)SQL語(yǔ)句命令,可以查詢并產(chǎn)生ASCII、Binary等格式,供第三方工具分析。用ITM實(shí)現(xiàn)對(duì)操作系統(tǒng)的監(jiān)控實(shí)現(xiàn)的指標(biāo)列舉如下(不限于此):磁盤(pán)監(jiān)控:監(jiān)控系統(tǒng)上配置的物理磁盤(pán)的相關(guān)屬性,主要監(jiān)控內(nèi)容包括Inode、,Mount點(diǎn),以及磁盤(pán)空間使用率、數(shù)據(jù)傳輸率、平均等待時(shí)間及繁忙程度等:基本信息監(jiān)控:包括磁盤(pán)名監(jiān)控:監(jiān)控當(dāng)前文件系統(tǒng)Mount的物理盤(pán)名稱;系統(tǒng)名監(jiān)控:監(jiān)控當(dāng)前系統(tǒng)的主機(jī)名等;Inode監(jiān)控:監(jiān)控磁盤(pán)當(dāng)前的Inode總數(shù)、正在使用的Inode的數(shù)量、剩余的Inode數(shù)量、某個(gè)文件系統(tǒng)上分配的Inode數(shù)量,以及Inode使用率等內(nèi)容,統(tǒng)計(jì)值包括平均、最大、最小及總計(jì)使用率等;Mount點(diǎn)監(jiān)控:監(jiān)控當(dāng)前文件系統(tǒng)Mount點(diǎn)的路徑名等;.文件系統(tǒng)監(jiān)控:包括文件系統(tǒng)尺寸監(jiān)控,統(tǒng)計(jì)值包括平均、最大、最小及總計(jì)使用率等;空間監(jiān)控:包括當(dāng)前可用的磁盤(pán)空間、可用的磁盤(pán)空間百分比、磁盤(pán)空間使用率等,統(tǒng)計(jì)值包括平均、最大、最小及總計(jì)使用率等;磁盤(pán)性能監(jiān)控:包括平均磁盤(pán)請(qǐng)求隊(duì)列監(jiān)控,平均磁盤(pán)訪問(wèn)等待時(shí)間監(jiān)控,磁盤(pán)數(shù)據(jù)傳輸時(shí)間百分比,當(dāng)物理磁盤(pán)使用時(shí)間百分率過(guò)高時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“磁盤(pán)時(shí)間百分率很高”的報(bào)警事件;當(dāng)磁盤(pán)每秒讀取過(guò)多的數(shù)據(jù)時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“每秒讀取字節(jié)數(shù)很高”的報(bào)警事件。這些報(bào)警事件會(huì)即時(shí)發(fā)送到故障管理控制臺(tái)與業(yè)務(wù)管理控制臺(tái)。文件監(jiān)控:監(jiān)控系統(tǒng)中文件和目錄的相關(guān)屬性,主要監(jiān)控內(nèi)容包括名稱、尺寸、擁有者、訪問(wèn)權(quán)限以及鏈接等基本監(jiān)控信息:包括被監(jiān)控文件的名稱、文件大小、文件的類型、文件所在的路徑名、文件和目錄的訪問(wèn)權(quán)限、鏈接名、擁有者、所屬組信息,以及文件最近被訪問(wèn)時(shí)間,上次修改時(shí)間等。網(wǎng)卡檢測(cè)與在基于Unix的操作系統(tǒng)上安裝的所有網(wǎng)絡(luò)接口卡有特定關(guān)聯(lián)的瓶頸,監(jiān)測(cè)內(nèi)容主要有:接收和發(fā)送幀統(tǒng)計(jì)、網(wǎng)絡(luò)接口名、接口IP地址以及接口狀態(tài)等。監(jiān)控所有網(wǎng)絡(luò)接口的幀平均沖突率、平均接收率、平均發(fā)送率,平均接收錯(cuò)誤率、平均發(fā)送錯(cuò)誤率、采樣周期包括1分鐘、5分鐘、15分鐘、60分鐘等;網(wǎng)卡流量統(tǒng)計(jì):包括在一個(gè)給定的采樣周期內(nèi)收到幀的數(shù)量、發(fā)送幀的數(shù)量、幀沖突、接收錯(cuò)誤;監(jiān)控所有網(wǎng)絡(luò)接口的包接收率,包沖突率、接收錯(cuò)誤率、發(fā)送率、發(fā)送錯(cuò)誤率、采樣周期包括1分鐘、5分鐘、15分鐘、60分鐘等;最大傳輸單元監(jiān)控(FMTU):監(jiān)控網(wǎng)卡上傳輸包的最大尺寸,統(tǒng)計(jì)值包括平均、最大、最小及總計(jì)使用率等。NFS統(tǒng)計(jì)檢測(cè)與NFS有特定關(guān)聯(lián)的瓶頸,主要關(guān)注:連接及錯(cuò)誤等。主要監(jiān)控內(nèi)容有:監(jiān)控一定時(shí)期內(nèi)的NFS客戶端的連接請(qǐng)求數(shù)量,以及被服務(wù)器拒絕的數(shù)量以及百分比等;通過(guò)分析各種NFS服務(wù)器及客戶端的各種調(diào)用類型如:System統(tǒng)計(jì)Calls、GetAttributeCalls、LinkCalls、MakeDirectoryCalls、NullCalls、ReadCalls、ReadDirectoryCalls、ReadLinkCallsRemoveDirectoryCalls、RemoveFileCalls、RenameFileCalls、rootCalls、SetAttributeCalls、SymbolicLinkCalls、WriteCacheCalls等幫助管理員分析和判斷NFS流量,修正相關(guān)問(wèn)題。RPC統(tǒng)計(jì)檢測(cè)與RPC有特定關(guān)聯(lián)的瓶頸,主要關(guān)注:調(diào)用及錯(cuò)誤信息等。主要監(jiān)控內(nèi)容有:監(jiān)控一定時(shí)期內(nèi)的RPC客戶端的連接請(qǐng)求數(shù)量,轉(zhuǎn)發(fā)、等待超時(shí)、以及被服務(wù)器拒絕的數(shù)量以及百分比等;監(jiān)控RPC傳輸包狀態(tài)如:在一個(gè)監(jiān)控周期內(nèi)的不正確的RPC包數(shù)量、如服務(wù)器包頭信息不正確,服務(wù)器返回包太短等。進(jìn)程檢測(cè)與進(jìn)程有特定關(guān)聯(lián)的瓶頸,如:進(jìn)程占用系統(tǒng)資源的情況監(jiān)控,以及進(jìn)程狀態(tài)等,當(dāng)某個(gè)進(jìn)程占用CPU時(shí)間過(guò)高時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“進(jìn)程占用CPU時(shí)間過(guò)高”的報(bào)警事件,并即時(shí)發(fā)送給故障管理控制臺(tái)與業(yè)務(wù)管理控制臺(tái)。進(jìn)程監(jiān)控參數(shù)包括:進(jìn)程組ID、用戶ID、父進(jìn)程ID、進(jìn)程會(huì)話ID、以及占用系統(tǒng)CPU時(shí)間、用戶CPU時(shí)間、占用內(nèi)存的百分比、占用的虛擬內(nèi)存地址、進(jìn)程開(kāi)始時(shí)間、進(jìn)程運(yùn)行時(shí)長(zhǎng)、啟動(dòng)該進(jìn)程的命令行等;進(jìn)程狀態(tài)監(jiān)控如:監(jiān)控處于不存在、活動(dòng)、正在運(yùn)行、停止、睡眠、等待狀態(tài)的進(jìn)程等;監(jiān)控啟動(dòng)該進(jìn)程的終端名、用戶名、MajorFault、MinorFault、進(jìn)程的優(yōu)先級(jí)等;在處理其中當(dāng)前運(yùn)行的進(jìn)程監(jiān)控,處于運(yùn)行隊(duì)列中等待CPU的進(jìn)程監(jiān)控,進(jìn)程Idle時(shí)間監(jiān)控,進(jìn)程等待CPU時(shí)間、處于等待鎖狀態(tài)的進(jìn)程監(jiān)控等。CPU檢測(cè)與中央處理器(CPU)相關(guān)的瓶頸,主要關(guān)注:CPU使用率很高,多個(gè)處理器問(wèn)題。在監(jiān)控過(guò)程中可以識(shí)別的CPU問(wèn)題有:當(dāng)系統(tǒng)有多個(gè)處理器且最多使用和最少使用的處理器的使用百分率之差很高時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“使用率差值百分率很高”的報(bào)警事件;當(dāng)系統(tǒng)中安裝的一個(gè)或多個(gè)設(shè)備占用過(guò)多處理器時(shí)間時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“硬件忙”的報(bào)警事件;當(dāng)某個(gè)進(jìn)程使用處理器時(shí)間百分率過(guò)高時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“進(jìn)程數(shù)很高”的報(bào)警事件;檢測(cè)在一定的時(shí)間范圍內(nèi),平均CPU繁忙時(shí)間、平均用戶CPU時(shí)間、平均系統(tǒng)CPU時(shí)間,采樣周期包括1分鐘、5分鐘、15分鐘、60分鐘等;當(dāng)處理器使用率很高,但并不是由于特定進(jìn)程或設(shè)備在運(yùn)行時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生“處理器忙”的報(bào)警事件;監(jiān)控處于等待I/O的狀態(tài)的CPU時(shí)間,當(dāng)系統(tǒng)調(diào)用達(dá)到監(jiān)控策略中的規(guī)定值時(shí),監(jiān)控系統(tǒng)會(huì)就此問(wèn)題產(chǎn)生報(bào)警事件;在多處理器環(huán)境中監(jiān)控CPU狀態(tài)包括CPUID、Online、Offline狀態(tài)等。系統(tǒng)屬性檢測(cè)與Unix系統(tǒng)有特定關(guān)聯(lián)的瓶頸,主要關(guān)注:虛擬內(nèi)存,Swap區(qū)、負(fù)載平均,邏輯塊讀寫(xiě)等。在監(jiān)控過(guò)程中可以識(shí)別的問(wèn)題有:監(jiān)控有關(guān)內(nèi)存的使用情況,可以識(shí)別系統(tǒng)中可用內(nèi)存過(guò)低,SWAP可用空間過(guò)低,額外的或異常的系統(tǒng)頁(yè)面調(diào)度,如in或out,當(dāng)這些情況的發(fā)生頻率達(dá)到監(jiān)控策略中的規(guī)定值時(shí),監(jiān)控系統(tǒng)會(huì)就此問(wèn)題產(chǎn)生報(bào)警事件,并即時(shí)發(fā)送到故障控制臺(tái)和業(yè)務(wù)管理控制臺(tái);在一定的采樣周期內(nèi),當(dāng)存在過(guò)度從磁盤(pán)物理塊讀取或向磁盤(pán)物理塊寫(xiě)入等情況時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生相應(yīng)的報(bào)警事件;在一定的采樣周期內(nèi),當(dāng)存在過(guò)度從磁盤(pán)邏輯塊讀取或向磁盤(pán)邏輯塊寫(xiě)入等情況時(shí),監(jiān)控系統(tǒng)會(huì)產(chǎn)生相應(yīng)的報(bào)警事件;監(jiān)控系統(tǒng)的平均負(fù)載,當(dāng)系統(tǒng)內(nèi)核運(yùn)行隊(duì)列中存在的進(jìn)程超過(guò)監(jiān)控策略中的規(guī)定值時(shí),監(jiān)控系統(tǒng)會(huì)就此問(wèn)題產(chǎn)生報(bào)警事件;監(jiān)控系統(tǒng)調(diào)用,當(dāng)系統(tǒng)調(diào)用達(dá)到監(jiān)控策略中的規(guī)定值時(shí),監(jiān)控系統(tǒng)會(huì)就此問(wèn)題產(chǎn)生報(bào)警事件;這些報(bào)警事件會(huì)即時(shí)發(fā)送到故障管理控制臺(tái)與業(yè)務(wù)管理控制臺(tái)。用戶屬性檢測(cè)與用戶有特定關(guān)聯(lián)的屬性,主要關(guān)注:用戶名、用戶ID、Idle時(shí)間、位置信息、登錄時(shí)間、登錄終端等。用ITM實(shí)現(xiàn)Windows平臺(tái)的監(jiān)控Windows系統(tǒng)應(yīng)監(jiān)控以下類別系統(tǒng)參數(shù):活動(dòng)服務(wù)器頁(yè)面DHCP服務(wù)器DNS動(dòng)態(tài)更新DNS內(nèi)存DNS查詢DNSWINSDNSZoneTransferFTP服務(wù)器統(tǒng)計(jì)FTP服務(wù)Gopher服務(wù)HTTP內(nèi)容索引HTTP服務(wù)ICMP統(tǒng)計(jì)IIS統(tǒng)計(jì)Indexing服務(wù)Indexing服務(wù)過(guò)濾器IP統(tǒng)計(jì)JobObjectJobObject詳細(xì)信息MSMQ信息存儲(chǔ)MSMQ隊(duì)列MSMQ服務(wù)MSMQ會(huì)話網(wǎng)卡網(wǎng)段NNTP命令NNTP服務(wù)器緩存設(shè)備相關(guān)性設(shè)備EventLog文件變更文件變化趨勢(shì)邏輯磁盤(pán)內(nèi)存日志報(bào)告對(duì)象虛擬內(nèi)存物理磁盤(pán)打印作業(yè)打印機(jī)進(jìn)程CPU注冊(cè)表服務(wù)器服務(wù)器工作隊(duì)列服務(wù)依賴性服務(wù)系統(tǒng)線程打印隊(duì)列進(jìn)程I/ORAS端口SMTP服務(wù)器TCP統(tǒng)計(jì)UDP統(tǒng)計(jì)WebService用ITCAMFordatabase實(shí)現(xiàn)對(duì)Oracle、SQL等數(shù)據(jù)庫(kù)監(jiān)控ITCAM實(shí)現(xiàn)Oracle數(shù)據(jù)庫(kù)監(jiān)控提供關(guān)于用戶指定的消息隊(duì)列(等待、就緒、過(guò)期狀態(tài))中的消息的數(shù)量;包括平均傳播率;平均就緒消息等待時(shí)間,傳播錯(cuò)誤;過(guò)期消息數(shù)量;就緒消息數(shù)量;等待消息數(shù)量;就緒狀態(tài)消息總等待時(shí)間。監(jiān)控從Oracle告警日志中收集的詳細(xì)信息。包括:消息ID;消息內(nèi)容;消息時(shí)間戳;上次報(bào)錯(cuò)周期;上次錯(cuò)誤時(shí)間;上次管理操作錯(cuò)誤時(shí)間;間隔期內(nèi)管理操作次數(shù);實(shí)例啟動(dòng)后管理操作次數(shù);Critical告警次數(shù);間隔期內(nèi)錯(cuò)誤總數(shù);實(shí)例啟動(dòng)后錯(cuò)誤總數(shù);Warning告警次數(shù)。監(jiān)控服務(wù)器實(shí)例的緩存使用信息,包括:目錄緩存內(nèi)條目數(shù);目錄緩存內(nèi)固定條目數(shù);清洗目錄緩存次數(shù);目錄緩存讀取次數(shù);目錄緩存命中率;目錄緩存錯(cuò)失次數(shù);目錄緩存修改次數(shù);目錄緩存掃描次數(shù);目錄緩存有效條目數(shù);庫(kù)緩存訪問(wèn)次數(shù);庫(kù)緩存命中率;庫(kù)緩存請(qǐng)求次數(shù);庫(kù)緩存無(wú)效次數(shù);庫(kù)緩存重轉(zhuǎn)次數(shù);redolog中現(xiàn)有Get次數(shù);Redolog現(xiàn)有miss次數(shù);Redolog中miss百分比。監(jiān)控指定cluster內(nèi)的行鏈接的數(shù)量。監(jiān)控服務(wù)器實(shí)例的配置信息,包括:默認(rèn)配置是否使用;參數(shù)名;參數(shù)ID;參數(shù)類型。監(jiān)控服務(wù)器內(nèi)鎖的爭(zhēng)奪情況,包括:最大爭(zhēng)奪分布比例;鎖命中率;最大允許DML鎖數(shù)量;最大爭(zhēng)奪內(nèi)等待會(huì)話數(shù);最多waiters的對(duì)象ID;被Block的進(jìn)程比例;等待的進(jìn)程比例;最大的DML鎖比例;指定樣本時(shí)間內(nèi)的:Blocker數(shù)量,Buffer鎖數(shù)量,CI鎖數(shù)量,CS鎖數(shù)量,Cross-instance鎖數(shù)量,Data鎖數(shù)量,DR鎖數(shù)量,DX鎖數(shù)量,DLL鎖數(shù)量,DML鎖數(shù)量,文件鎖數(shù)量,Generic鎖數(shù)量,實(shí)例鎖數(shù)量,庫(kù)鎖數(shù)量,Master鎖數(shù)量,Media鎖數(shù)量,Mount鎖數(shù)量,Mount-startup鎖數(shù)量,Redo鎖數(shù)量,行鎖數(shù)量,SN鎖數(shù)量,SQ鎖數(shù)量,SV鎖數(shù)量,SGA鎖數(shù)量,Space鎖數(shù)量,SC鎖數(shù)量,SH鎖數(shù)量,TS鎖數(shù)量,TT鎖數(shù)量,Transaction鎖數(shù)量,USE_ROW_ENQUEUE鎖數(shù)量;用戶鎖數(shù)量;Waiter數(shù);Write-atomic-log-switch鎖數(shù)量等等。監(jiān)控?cái)?shù)據(jù)庫(kù)的性能和可用性,包括:歸檔日志模式是否啟用;自動(dòng)歸檔;DBBlock大?。籇B文件打開(kāi)數(shù);數(shù)據(jù)庫(kù)可用空間比率;最大允許打開(kāi)文件數(shù);最大文件打開(kāi)比率;系統(tǒng)表空間空閑比例;系統(tǒng)表空間空閑待大??;數(shù)據(jù)庫(kù)總空間;總extent數(shù)量;定義文件總數(shù);脫機(jī)狀態(tài)文件總數(shù);總表空間大小。監(jiān)控爭(zhēng)奪協(xié)議的dispatcher進(jìn)程,包括:Dispatcher平均等待時(shí)間;Dispatcher繁忙率;Dispatcher名稱;Dispatcher網(wǎng)絡(luò)地址;監(jiān)控表空間內(nèi)的文件信息,提供大小,空間信息,碎片等文件管理信息:包括:備份狀態(tài);文件ID;文件名;文件狀態(tài);最大空閑塊KB數(shù);表空間內(nèi)最大連續(xù)空閑空間比例;文件分配的Extent數(shù);空閑塊數(shù);表空間空閑比率;表空間名稱;最近備份時(shí)間戳;文件或表空間的總空間。監(jiān)控表空間內(nèi)的索引信息:具體包括:索引名;索引類型;已刪除比例;索引對(duì)象名;索引對(duì)象類型;表空間名等。監(jiān)控一個(gè)命名空間內(nèi)的庫(kù)緩存信息,能夠報(bào)告對(duì)庫(kù)緩存的各類操作信息:包括:數(shù)據(jù)庫(kù)名;Execution命中率;Execution命中次數(shù);Get命中率;Get命中次數(shù);Get請(qǐng)求數(shù);對(duì)象無(wú)效次數(shù);命名空間;Reload次數(shù)等。監(jiān)控listener的狀態(tài):包括:Listener名稱,Listener端口,Listener協(xié)議,Listener狀態(tài)等。監(jiān)控等待鎖和鎖沖突的信息,能夠報(bào)告用戶ID,被阻塞對(duì)象類型和鎖模式等等具體包括:被阻塞會(huì)話鎖住的對(duì)象名稱、類型;阻塞會(huì)話的ID;阻塞會(huì)話的用戶ID;鎖模式;被鎖對(duì)象ID;等待會(huì)話的ID;等待LOCK的用戶ID;監(jiān)控日志信息報(bào)告回滾數(shù)據(jù)的使用和狀態(tài):具體包括:回滾段的平均extent數(shù)量;所有回滾段上的平均活動(dòng)交易數(shù)和總活動(dòng)交易數(shù);緩存繁忙等待百分比;需要恢復(fù)的回滾段百分比及數(shù)量;活動(dòng)回滾段大小;總在線活動(dòng)回滾段數(shù);總pending離線回滾段數(shù);總回滾段的extent數(shù)、extend數(shù)、Shrink數(shù);總回滾段數(shù);監(jiān)控buffer中在一個(gè)或者多個(gè)數(shù)據(jù)塊中的分布鎖,報(bào)告PCM鎖的轉(zhuǎn)換時(shí)間等;監(jiān)控服務(wù)器實(shí)例的單個(gè)進(jìn)程,報(bào)告進(jìn)程的ID,狀態(tài)等詳細(xì)信息,詳細(xì)包括:是否后臺(tái)進(jìn)程;進(jìn)程使用的CPU時(shí)間百分比;Latch地址;是否Latch等待;Oracle進(jìn)程ID;是否系統(tǒng)進(jìn)程;操作系統(tǒng)進(jìn)程ID;進(jìn)程地址;進(jìn)程執(zhí)行時(shí)間;進(jìn)程序列號(hào);進(jìn)程啟動(dòng)時(shí)間;程序名稱;CPU時(shí)間;進(jìn)程使用內(nèi)存數(shù);用戶ID等。監(jiān)控服務(wù)器實(shí)例的所有進(jìn)程信息,報(bào)告CPU使用情況;進(jìn)程活動(dòng);系統(tǒng)進(jìn)程等等,詳細(xì)包括:系統(tǒng)Archive標(biāo)志;系統(tǒng)CheckPoint標(biāo)志;系統(tǒng)Locking標(biāo)志狀態(tài);系統(tǒng)LogWriter標(biāo)志狀態(tài);實(shí)例的最大并發(fā)進(jìn)程數(shù);活動(dòng)進(jìn)程與最大并發(fā)進(jìn)程數(shù)占比;系統(tǒng)ProcessMonitor標(biāo)志狀態(tài);等待Latch的進(jìn)程數(shù);系統(tǒng)Recovery標(biāo)志設(shè)置狀態(tài);應(yīng)用進(jìn)程使用CPU時(shí)間百分比;實(shí)例使用CPU時(shí)間百分比;請(qǐng)求平均等待時(shí)間;系統(tǒng)Monitor標(biāo)志;SnapshotRefresh標(biāo)志設(shè)置狀態(tài);后臺(tái)活動(dòng)進(jìn)程數(shù);前臺(tái)活動(dòng)進(jìn)程數(shù)等監(jiān)控活動(dòng)回滾段,報(bào)告狀態(tài)、大小、交易負(fù)載、收縮等,詳細(xì)包括:平均收縮字節(jié)數(shù)、活動(dòng)extent平均字節(jié)數(shù)、每次回滾段寫(xiě)入字節(jié)數(shù)、當(dāng)前回滾段寫(xiě)入字節(jié)數(shù)、回滾段內(nèi)活動(dòng)交易數(shù)、回滾段優(yōu)化字節(jié)數(shù)、回滾段數(shù)量、回滾段收縮次數(shù)、回滾段狀態(tài)等監(jiān)控表空間內(nèi)定義的段信息,包括數(shù)據(jù)大小、空間使用和碎片信息,包括:段剩余空間不足;段內(nèi)初始extent大??;段內(nèi)最大extent數(shù);段內(nèi)最小extent數(shù);下一extent大小;自由列組數(shù);自由列組內(nèi)自由列數(shù);已分配extent百分比;段名;段屬主;段類型;表空間名;未分配extent數(shù);表空間或文件字節(jié)數(shù)監(jiān)控server實(shí)例,包括狀態(tài)、CPU使用;數(shù)據(jù)緩存大小和數(shù)據(jù)庫(kù)報(bào)警日志等信息,詳細(xì)包括:Archive目標(biāo)設(shè)備的剩余空間及使用空間;datacollector狀態(tài);SGA內(nèi)的數(shù)據(jù)緩存大小,日志緩存大??;實(shí)例的數(shù)據(jù)庫(kù)是否mount,是否open在用;服務(wù)器實(shí)例使用CPU百分比;服務(wù)器狀態(tài);SGA空閑空間百分比;總SGA大??;共享池大??;實(shí)例已啟動(dòng)時(shí)間;操作系統(tǒng)占用CPU百分比;磁盤(pán)內(nèi)可創(chuàng)建redolog數(shù)量等報(bào)告Oracle系統(tǒng)狀態(tài)、版本信息等企業(yè)視圖,除Server屬性包括內(nèi)容外:目錄緩存條目數(shù);目錄緩存命中率;日志緩存miss百分率;上一報(bào)錯(cuò)時(shí)間;上一間隔內(nèi)錯(cuò)誤總數(shù);實(shí)例啟動(dòng)后報(bào)錯(cuò)總數(shù)等監(jiān)控服務(wù)器實(shí)例,詳細(xì)包括:是否開(kāi)啟checkpoint進(jìn)程;Distributed選項(xiàng)是否開(kāi)啟;操作系統(tǒng)類型;parallelquery選項(xiàng)是否開(kāi)啟;parallelserver是否開(kāi)啟;Oracle版本狀態(tài);globalSQLtrace工具是否使用;實(shí)例啟動(dòng)具體時(shí)間等監(jiān)控服務(wù)器實(shí)例中的單個(gè)sessionforaserverinstance.報(bào)告session狀態(tài),waits、gets和鎖等信息,詳細(xì)包括:客戶進(jìn)程ID、用戶ID;session執(zhí)行正在執(zhí)行命令;session是否處于等待狀態(tài);session正在等待的資源名稱;session正在等待的鎖的地址;session內(nèi)最大可開(kāi)啟游標(biāo)數(shù);session所屬進(jìn)程地址;進(jìn)程執(zhí)行程序名稱;進(jìn)程執(zhí)行時(shí)間;session模式名稱;模式用戶ID;session序列號(hào);session緩存命中率;sessionID;session狀態(tài);session類型;session內(nèi)的阻塞變化數(shù);session內(nèi)發(fā)生的物理讀次數(shù);使用本次session的用戶ID;session是否等待鎖等信息監(jiān)控實(shí)例內(nèi)的所有sessions信息,報(bào)告總session數(shù)量;最大session數(shù)量和等待鎖的session數(shù)量等等;具體監(jiān)控內(nèi)容有:活動(dòng)session數(shù)量;同時(shí)間內(nèi)實(shí)例可支持活動(dòng)的session總數(shù);非活動(dòng)session數(shù)量;等待被SMON進(jìn)程清除的killedsession數(shù)量;已活動(dòng)的session百分比;等待鎖的session總數(shù);使用共享進(jìn)程的session數(shù)量;實(shí)例內(nèi)總session數(shù)量等信息監(jiān)控實(shí)例的SGA,提供.SGA的相信信息,包括:SGA的數(shù)據(jù)緩存大小;SGA內(nèi)的redolog大??;SGA最大空閑百分比;SGA最小百分比;SGA目錄緩存百分比;SGA空閑比例;SGA庫(kù)緩存比例;SGA存儲(chǔ)PL/SQL百分比;SGA內(nèi)共享池大??;總SGA空間等信息監(jiān)控庫(kù)緩存內(nèi)裝載的SQL語(yǔ)句內(nèi)容,格式為60個(gè)字符之內(nèi),超過(guò)60個(gè)字符將被截?cái)?。監(jiān)控實(shí)例內(nèi)的各類系統(tǒng)統(tǒng)計(jì)信息,提供各類詳細(xì)信息的平均、最大、最小delta值提供各種分類,包括統(tǒng)計(jì)信息,進(jìn)程,sessions,鎖,回滾段和數(shù)據(jù)庫(kù)的詳細(xì)信息監(jiān)控實(shí)例的性能統(tǒng)計(jì)信息,提供類似讀寫(xiě)的平均數(shù)和打開(kāi)的游標(biāo)數(shù)以及死鎖數(shù)等信息,詳細(xì)內(nèi)容有:checkpoint平均間隔;最長(zhǎng)被阻塞交易時(shí)間,間隔期內(nèi)死鎖數(shù)和死鎖超時(shí)數(shù);CoreDump目標(biāo)設(shè)備空間使用率;當(dāng)前打開(kāi)游標(biāo)數(shù);間隔期內(nèi)全表掃描行數(shù);間隔期內(nèi)行存儲(chǔ)數(shù)監(jiān)控單張表,尤其是行鏈接信息。監(jiān)控表空間,提供表空間可用空間和段及回滾段的數(shù)量,如:表空間狀態(tài);表空間空閑比率;回滾段數(shù)量監(jiān)控阻止回滾段到下一extent的交易的信息,包括回滾段正在寫(xiě)的extent數(shù)量;回滾段數(shù)量;交易序號(hào);交易其實(shí)extent號(hào);交易狀態(tài)等預(yù)報(bào)收集歷史數(shù)據(jù)的屬性組要耗費(fèi)的磁盤(pán)空間,當(dāng)定義數(shù)據(jù)收集策略后重點(diǎn)考慮磁盤(pán)容量ITM實(shí)現(xiàn)SQLServer數(shù)據(jù)庫(kù)監(jiān)控監(jiān)控?cái)?shù)據(jù)文件的空間使用情況,剩余空間所占的百分比,數(shù)據(jù)文件的大小。監(jiān)控?cái)?shù)據(jù)庫(kù)的狀態(tài)。監(jiān)控?cái)?shù)據(jù)庫(kù)名,數(shù)據(jù)庫(kù)的狀態(tài),數(shù)據(jù)庫(kù)的空間使用情況。監(jiān)控日志文件占用的空間使用情況,日志文件剩余空間所占的百分比。監(jiān)控事務(wù)復(fù)制的相關(guān)信息:包括事務(wù)復(fù)制的狀態(tài)、速度以及事務(wù)復(fù)制產(chǎn)生的延遲。監(jiān)控?cái)?shù)據(jù)庫(kù)的錯(cuò)誤匯總、數(shù)據(jù)庫(kù)的訪問(wèn)情況匯總等。監(jiān)控設(shè)備的剩余空間及剩余空間所占的空間百分比。報(bào)告被阻塞的進(jìn)程ID和請(qǐng)求進(jìn)程的ID。監(jiān)控頁(yè)面鎖、共享鎖、高級(jí)鎖、區(qū)域鎖、鎖更新等信息。監(jiān)控總錯(cuò)誤數(shù),TotalErrorsCurrentInterval以及總的錯(cuò)誤數(shù)目。當(dāng)前的CPU利用率、總的磁盤(pán)IO、總的CPU時(shí)間以及當(dāng)前被分配的內(nèi)存空間大小。當(dāng)前的時(shí)間間隔、主機(jī)名以及各種進(jìn)程的比例和系統(tǒng)CPU的使用情況。具體如下:各種進(jìn)程的比例包括:壞進(jìn)程所占比例被阻塞的進(jìn)程所占比例被感染的進(jìn)程所占比例處于LOCKSLEEP進(jìn)程所占比例處于其他睡眠狀態(tài)進(jìn)程所占比例處于停止?fàn)顟B(tài)的進(jìn)程所占比例CPU使用情況:每一個(gè)應(yīng)用程序所用的CPU資源每一個(gè)系統(tǒng)所用的CPU資源總進(jìn)程的狀態(tài):所有的壞進(jìn)程所有處于睡眠狀態(tài)的進(jìn)程所有被阻塞的進(jìn)程所有被感染的進(jìn)程所有被停止的進(jìn)程所有處于LOCKSLEEP狀態(tài)的進(jìn)程所有處于其它睡眠狀態(tài)的進(jìn)程所有被掛起的日志監(jiān)控遠(yuǎn)程SERVER的ID、狀態(tài)和主機(jī)名。監(jiān)控當(dāng)前使用的緩沖區(qū)、處于激和狀態(tài)的緩沖區(qū)和總的緩沖區(qū)大小等信息。監(jiān)控緩存利用率、處于激和狀態(tài)的緩存、總緩存大小等信息。監(jiān)控CPU的使用情況:每一個(gè)應(yīng)用程序占用的CPU資源;每一個(gè)進(jìn)程占用的CPU資源;OS占用的CPU資源。監(jiān)控Cache工作狀態(tài):Cache命中率、Cache剩余空間、Cache最大可用空間搜索、數(shù)據(jù)Cache空間的大小、進(jìn)程占用Cache的大小、SQL代理進(jìn)程失效的工作,正常使用的時(shí)間。監(jiān)控網(wǎng)絡(luò)的讀寫(xiě)速率和磁盤(pán)讀寫(xiě)速率,CPU的使用情況,IO忙的情況。監(jiān)控IO錯(cuò)誤的間隔,自啟動(dòng)以來(lái)的所有IO錯(cuò)誤,每個(gè)IO錯(cuò)誤的平均時(shí)間間隔。監(jiān)控?cái)?shù)據(jù)庫(kù)空間的碎片情況。監(jiān)控Client主機(jī)名和Client的進(jìn)程ID。用ITCAM實(shí)現(xiàn)對(duì)WebSphere、Tuxedo的監(jiān)控針對(duì)客戶企業(yè)中存在多廠商的中間件產(chǎn)品例如Websphere、Tuxedo等以及部署在上面的B/S、C/S應(yīng)用都可以通過(guò)ITCAMforApplication和ITCAMforJ2EE進(jìn)行系統(tǒng)、完善的監(jiān)控。使用ITCAMForApplication不用對(duì)應(yīng)用做任何改動(dòng),就可以實(shí)現(xiàn)深層的應(yīng)用/交易監(jiān)控。ITCAMForApplication主要對(duì)基于J2EE的應(yīng)用程序進(jìn)行實(shí)時(shí)監(jiān)控和歷史數(shù)據(jù)分析,它能夠發(fā)現(xiàn)并且報(bào)告J2EE應(yīng)用的健康度。它的監(jiān)控貫穿整個(gè)應(yīng)用流程,如應(yīng)用程序服務(wù)器、中間件適配器、傳輸協(xié)議、數(shù)據(jù)庫(kù)、并且能夠監(jiān)控后臺(tái)如Tuxedo、IMS等主機(jī)系統(tǒng)。ITCAMfWS可以收集應(yīng)用程序請(qǐng)求周期的數(shù)據(jù),然后存儲(chǔ)到監(jiān)控?cái)?shù)據(jù)庫(kù),數(shù)據(jù)包括請(qǐng)求開(kāi)始,結(jié)束的時(shí)間,所用的中央處理器時(shí)間等等,并且能夠通過(guò)一層層的遞進(jìn)跟蹤找到每個(gè)類,每個(gè)方法的響應(yīng)時(shí)間,中央處理器時(shí)間,從而定位發(fā)生交易失敗、響應(yīng)惡化的請(qǐng)求,并找到應(yīng)用程序需要改進(jìn)優(yōu)化的地方。ITCAMForApplication不需要用戶更改任何J2EE和Mainframe的代碼,收集到的數(shù)據(jù)能夠用來(lái)幫助應(yīng)用維護(hù)人員和應(yīng)用開(kāi)發(fā)人員分析系統(tǒng)和應(yīng)用程序的健康度。除了應(yīng)用級(jí)別的數(shù)據(jù)被收集外,系統(tǒng)級(jí)別的數(shù)據(jù),例如,應(yīng)用服務(wù)器的狀態(tài)、中央處理器的使用、內(nèi)存的使用、數(shù)據(jù)庫(kù)連接池、JVM線程池、EJB的使用等等,也會(huì)被收集,用來(lái)輔助用戶去分析問(wèn)題,解決問(wèn)題。ITCAMForApplication對(duì)于這些數(shù)據(jù)提供了實(shí)時(shí)的圖形化的監(jiān)控界面。對(duì)于當(dāng)前環(huán)境中基于WebSphere的標(biāo)準(zhǔn)J2EE應(yīng)用,可以通過(guò)部署ITCAMForApplication監(jiān)控來(lái)快速實(shí)現(xiàn)監(jiān)控。對(duì)于當(dāng)前首要的報(bào)警需求,可以根據(jù)業(yè)務(wù)特征進(jìn)行定義,例如對(duì)某些系統(tǒng)的特定重要交易的性能進(jìn)行監(jiān)控,并在它們發(fā)生異常時(shí)進(jìn)行報(bào)警。同時(shí),對(duì)于資源層面和應(yīng)用服務(wù)器整體的狀態(tài),也可以設(shè)置對(duì)應(yīng)的報(bào)警。附:資源報(bào)警列表――――――――CPU――――――――平臺(tái)CPU平均使用百分比JVMCPU平均使用百分比――――――――內(nèi)存――――――――JVM堆大小垃圾回收頻率垃圾回收時(shí)間垃圾回收后的平均JVM堆大小――――――――資源池――――――――JDBC池使用百分比JDBC并發(fā)等待數(shù)線程池使用百分JCA池使用百分比―――――――應(yīng)用能力―――――――請(qǐng)求頻率會(huì)話數(shù)不可用的服務(wù)器平均響應(yīng)時(shí)間未捕獲的Java異常數(shù)附:應(yīng)用性能報(bào)警列表請(qǐng)求發(fā)生次數(shù)方法發(fā)生次數(shù)SQL發(fā)生次數(shù)

請(qǐng)求消耗的CPU時(shí)間方法消耗的CPU時(shí)間

請(qǐng)求的駐留時(shí)間-已完成方法的駐留時(shí)間-已完成SQL的駐留時(shí)間-已完成

請(qǐng)求的等待時(shí)間方法的等待時(shí)間

請(qǐng)求駐留時(shí)間-正在進(jìn)行

請(qǐng)求的未捕獲異常方法的未捕獲異常

請(qǐng)求的鎖定獲得時(shí)間-正在進(jìn)行

請(qǐng)求的鎖定獲得時(shí)間-已完成方法的鎖定獲得時(shí)間-已完成當(dāng)上述請(qǐng)求的響應(yīng)發(fā)生異常時(shí),可發(fā)出報(bào)警。同時(shí)也可以設(shè)定對(duì)應(yīng)用的全局性報(bào)警:應(yīng)用會(huì)話數(shù)超過(guò)某個(gè)值應(yīng)用平均響應(yīng)時(shí)間超過(guò)某時(shí)間指標(biāo)JVM堆大小大于某百分比JVMCPU占用超過(guò)某百分比JDBC池使用百分比超過(guò)某百分比應(yīng)用服務(wù)器不可用(宕機(jī)或無(wú)法響應(yīng))用TPC實(shí)現(xiàn)對(duì)存儲(chǔ)的監(jiān)控隨著客戶業(yè)務(wù)不斷擴(kuò)大,其IT軟件平臺(tái)以及硬件平臺(tái)也在不斷的進(jìn)行擴(kuò)容,而處理這些需求的人員數(shù)目卻沒(méi)有增加,IT員工經(jīng)常不得不在情況最糟的需求高峰時(shí),超量供應(yīng)包括存儲(chǔ)量在內(nèi)的IT資源。存儲(chǔ)區(qū)域網(wǎng)絡(luò)的使挑戰(zhàn)更為嚴(yán)峻,使得解決存儲(chǔ)容量供應(yīng)成為一個(gè)人力密集性的過(guò)程:多達(dá)50個(gè)單獨(dú)步驟,即使是一個(gè)專家,也要花費(fèi)好幾天的時(shí)間。結(jié)果-IT環(huán)境變得非常不靈活、昂貴、無(wú)法充分利用而且難以管理。通過(guò)項(xiàng)目的實(shí)施同時(shí)借助于針對(duì)磁盤(pán)、數(shù)據(jù)和結(jié)構(gòu)的TPC軟件,可以幫助用戶簡(jiǎn)化和自動(dòng)化企業(yè)存儲(chǔ)基礎(chǔ)設(shè)施的管理:管理文件系統(tǒng)和數(shù)據(jù)庫(kù)的容量利用率,并自動(dòng)化文件系統(tǒng)容量供應(yīng)。管理、監(jiān)視和控制SAN結(jié)構(gòu)。從單一用戶界面執(zhí)行多設(shè)備的設(shè)備配置和管理。調(diào)優(yōu)和前攝性管理SAN上受支持的存儲(chǔ)設(shè)備的性能。通過(guò)IBMTotalStorageProductivityCenterStandardEdition所提供的管理功能,以便更好地以單一套件價(jià)格管理您的異構(gòu)存儲(chǔ)基礎(chǔ)設(shè)施(從應(yīng)用程序到后端存儲(chǔ)系統(tǒng))。借助于ProductivityCenterStandardEdition,您能夠使用基于角色的管理和單點(diǎn)登錄,從單一界面集中管理存儲(chǔ)基礎(chǔ)設(shè)施。這也提供單一管理應(yīng)用程序,此應(yīng)用程序具有易于安裝、配置和操作的模塊化整合組件。針對(duì)客戶SAN的存儲(chǔ)網(wǎng)絡(luò)IBMTotalStorageProductivityCenterforFabric提供存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)管理功能,以幫助管理SAN結(jié)構(gòu),此結(jié)構(gòu)將主機(jī)系統(tǒng)和應(yīng)用程序連接到存儲(chǔ)設(shè)備。它旨在提供用于異構(gòu)SAN的綜合管理解決方案,且允許用戶輕松查看和監(jiān)視設(shè)備的物理連接和支持物理網(wǎng)絡(luò)訪問(wèn)的區(qū)域配置。它具有自動(dòng)的資源和拓?fù)浒l(fā)現(xiàn)、監(jiān)控和報(bào)警、區(qū)域控制和SAN錯(cuò)誤預(yù)測(cè)功能。IBMTotalStorageProductivityCenterforFabric提供根據(jù)ANSISAN標(biāo)準(zhǔn)設(shè)計(jì)的企業(yè)可伸縮解決方案,此解決方案允許靈活選擇用于存儲(chǔ)基礎(chǔ)設(shè)施的產(chǎn)品。通過(guò)IBMTotalStorageProductivityCenterforData旨在幫助客戶識(shí)別、評(píng)估、控制和預(yù)測(cè)您的企業(yè)存儲(chǔ)管理需求。ProductivityCenterforData支持當(dāng)今復(fù)雜異構(gòu)環(huán)境,包括直接訪問(wèn)存儲(chǔ)(DAS)、網(wǎng)絡(luò)接入存儲(chǔ)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)存儲(chǔ)(包括智能磁盤(pán)系統(tǒng)和IBMTotalStorage3584TapeLibraries)。ProductivityCenterforData支持一流的數(shù)據(jù)庫(kù),并提供基于存儲(chǔ)使用的收費(fèi)功能。通過(guò)IBMTotalStorageProductivityCenterforDisk集中管理客戶網(wǎng)絡(luò)存儲(chǔ)設(shè)備,這些設(shè)備實(shí)現(xiàn)SNIASMI-S規(guī)范,此規(guī)范包括IBMTotalStorageDS家族和IBMTotalStorageSANVolumeController(SVC)。它旨在幫助降低存儲(chǔ)管理復(fù)雜性和成本,同時(shí)提高數(shù)據(jù)可用性,從而借助開(kāi)放標(biāo)準(zhǔn)(SMI-S)集中管理存儲(chǔ)設(shè)備,增強(qiáng)存儲(chǔ)管理人員生產(chǎn)力,提高存儲(chǔ)資源利用率,以及提供對(duì)存儲(chǔ)設(shè)備的前攝性管理。IBMTotalStorageProductivityCenterforDisk能夠借助服務(wù)位置協(xié)議(SLP)發(fā)現(xiàn)存儲(chǔ)設(shè)備,且能夠配置設(shè)備、收集事件和錯(cuò)誤日志,以及啟動(dòng)特定于設(shè)備的應(yīng)用程序或元素事件管理實(shí)施對(duì)于客戶產(chǎn)生的各類報(bào)警的事件通過(guò)ITMServer接口轉(zhuǎn)發(fā)或直接發(fā)送到客戶的事件管理平臺(tái)中(IBMTivoliOmnibusServer),通過(guò)該事件平臺(tái)完成自動(dòng)壓縮事件能力。用戶可靈活設(shè)定事件是否重復(fù)的判定標(biāo)準(zhǔn),事件唯一性標(biāo)識(shí)可靈活修改。對(duì)于重復(fù)的告警事件,系統(tǒng)應(yīng)具備將重復(fù)的告警信息歸并的能力,并能夠記錄重復(fù)告警發(fā)生的起止時(shí)間及重復(fù)告警重復(fù)的次數(shù)等,以方便管理員對(duì)故障發(fā)生的過(guò)程有一個(gè)比較清楚地認(rèn)識(shí)。報(bào)表管理實(shí)施報(bào)表Web管理端(ReportWebAdmin)是整個(gè)報(bào)表應(yīng)用的管理平臺(tái),提供報(bào)表展現(xiàn)、應(yīng)用管理、及權(quán)限管理功能。數(shù)據(jù)存儲(chǔ)采用XML數(shù)據(jù)池,所有的賬號(hào)、權(quán)限及應(yīng)用配置參數(shù)等,均存儲(chǔ)在XML數(shù)據(jù)池中。結(jié)構(gòu)圖如下:以下結(jié)合上圖,對(duì)ReportWebAdmin的功能模塊進(jìn)行描述。報(bào)表展現(xiàn)報(bào)表的展現(xiàn)風(fēng)格以簡(jiǎn)潔美觀為主,統(tǒng)計(jì)對(duì)象包括:TDW性能報(bào)表、ITM事件報(bào)表、OMNIBUSServer事件報(bào)表(預(yù)留接口);以統(tǒng)計(jì)對(duì)象與統(tǒng)計(jì)方式進(jìn)行劃分,提供多種查看方式。ITM報(bào)表統(tǒng)計(jì)對(duì)象包括:MEMORY、CPU等一系列系統(tǒng)對(duì)象。統(tǒng)計(jì)方式可分為:實(shí)時(shí)查詢報(bào)表、日?qǐng)?bào)表、周報(bào)表、月報(bào)表、年報(bào)表。如下圖所示:同時(shí)提供2種對(duì)“進(jìn)程”的報(bào)表統(tǒng)計(jì):HYPERLINK統(tǒng)計(jì)某一時(shí)間段內(nèi)耗費(fèi)物理內(nèi)存最多的進(jìn)程(前10位)、HYPERLINK統(tǒng)計(jì)某一時(shí)間段內(nèi)耗費(fèi)CPU最多的進(jìn)程(前10位)。提供報(bào)表統(tǒng)計(jì)樣式的快速切換功能,用戶可從各種角度進(jìn)行報(bào)表的查看。如,表格、餅圖、曲線圖、與柱型圖之間可進(jìn)行快速切換,滿足用戶不同的統(tǒng)計(jì)要求。數(shù)據(jù)采集頻率支持以下功能要求7*24監(jiān)控對(duì)不同的系統(tǒng)和應(yīng)用進(jìn)行不同的采集頻度設(shè)置,對(duì)主機(jī)可用性、重要服務(wù)可用性監(jiān)控,能夠達(dá)到靈活設(shè)置的采集頻率,以便能夠在系統(tǒng)出現(xiàn)故障的時(shí)候及時(shí)通知相關(guān)人員處理,采樣的最小顆粒度是1分鐘;數(shù)據(jù)采集過(guò)程對(duì)系統(tǒng)和應(yīng)用產(chǎn)生影響很小能夠根據(jù)需要對(duì)采集頻率作即時(shí)調(diào)整故障切換功能:當(dāng)primaryremotetems故障的時(shí)候,agent能自動(dòng)連到secondlyremotetems。報(bào)警處理報(bào)警分級(jí)監(jiān)控系統(tǒng)對(duì)報(bào)采集的信息進(jìn)行分級(jí),對(duì)系統(tǒng)采集的數(shù)據(jù),系統(tǒng)可以根據(jù)數(shù)據(jù)的不同類型,分別設(shè)定相應(yīng)的閥值或關(guān)鍵字,對(duì)滿足一定數(shù)值關(guān)系要求或者關(guān)鍵字要求的數(shù)據(jù),設(shè)定相應(yīng)的報(bào)警級(jí)別,進(jìn)行相應(yīng)處理。支持的數(shù)值關(guān)系要求包括:大于給定數(shù)值等于給定數(shù)值小于給定數(shù)值滿足多個(gè)以上條件的組合多次滿足以上條件支持的關(guān)鍵字包括:包含某個(gè)關(guān)鍵字(CaseSensitive&Not)等于某個(gè)字符串(CaseSensitive&Not)多個(gè)以上條件的組合多次滿足以上條件報(bào)警方式報(bào)警信息包含對(duì)相關(guān)參數(shù)的解釋和指導(dǎo)信息,系統(tǒng)提供以下方式的報(bào)警處理能力:發(fā)送含有相關(guān)信息的定制郵件到一個(gè)或多個(gè)指定郵箱發(fā)送含有相關(guān)信息的定制短信到一個(gè)或多個(gè)手機(jī)預(yù)先設(shè)定一段時(shí)間(Blackout),在這段時(shí)間里暫停服務(wù)器報(bào)警對(duì)相關(guān)監(jiān)控進(jìn)行設(shè)定,包括停止監(jiān)控、啟動(dòng)新的監(jiān)控等運(yùn)行特定腳本程序來(lái)處理分布式支持對(duì)于分布式環(huán)境或被監(jiān)控主機(jī)很多的情況下,考慮到HUBTEMS(TivoliEnterpriseMonitoringServer)負(fù)載會(huì)比較大,我們會(huì)采用RemoteTEMS來(lái)分擔(dān)負(fù)載;Agent先連到remotetems,然后由remotetems去和hubtems通信,再由tivolienterpriseportalserver進(jìn)行展現(xiàn)。agent可以配置成連接兩個(gè)remotetems(primary和secondary),當(dāng)primaryremotetemscrash的時(shí)候,agent會(huì)自動(dòng)連接到secondaryremotetems。TEMS支持failover,它可以配置成cluster軟件(HACMP或者M(jìn)C/SG)的一個(gè)資源組,當(dāng)active的主機(jī)crash的時(shí)候,自動(dòng)切換到backup的主機(jī)ITM支持firewall和NAT(networkaddresstranslate),故它能支持廣域網(wǎng)環(huán)境。系統(tǒng)安全性具有安全的管理體系結(jié)構(gòu),通過(guò)管理員安全定義,權(quán)限劃分和管理信息傳輸加密等措施保證管理系統(tǒng)的安全。-管理信息通訊可以采用DES加密方式得到保護(hù)-Tivoli管理員的授權(quán),可以細(xì)致劃分管理范圍和權(quán)限擴(kuò)展接口與Tivoli其他產(chǎn)品的接口IBMTivoli產(chǎn)品家族包含了實(shí)現(xiàn)IT服務(wù)管理的一系列產(chǎn)品,我們提供的是一個(gè)totalsolution的方案。IBMTivoliMonitoring作為一個(gè)收集性能數(shù)據(jù)的平臺(tái),為實(shí)現(xiàn)IT服務(wù)管理提供了基礎(chǔ)數(shù)據(jù)。它可以和TivoliRequestManager結(jié)合來(lái)實(shí)現(xiàn)ITIL流程,可以和TivoliBusinessServiceManager結(jié)合,來(lái)產(chǎn)生一個(gè)業(yè)務(wù)狀態(tài)的Dashboard。 二次開(kāi)發(fā)的接口TivoliDataWarehouse是用來(lái)存儲(chǔ)歷史的性能采集數(shù)據(jù)。該數(shù)據(jù)庫(kù)可以采用DB2/ORACLE/MSSQL等關(guān)系型數(shù)據(jù)庫(kù)。IBM有redbooks詳細(xì)說(shuō)明了schema,可以供二次開(kāi)發(fā)使用。通用代理(UniversalAgent)對(duì)于agent本身沒(méi)法實(shí)現(xiàn)的功能,IBM是通過(guò)UniversalAgent(通用代理)來(lái)實(shí)現(xiàn)的。UA是一個(gè)通用的數(shù)據(jù)收集器。它依靠以下dataprovider來(lái)收集數(shù)據(jù)FileHTTPSNMPODBCAPISocketScriptPostUA是ITM的一部分,安裝ITM的時(shí)候,UA會(huì)自動(dòng)安裝上。IBM開(kāi)放過(guò)程自動(dòng)化庫(kù)(OPAL)上提供了幾百種資源的監(jiān)控管理,而且以每月5個(gè)的速度遞增。OPAL網(wǎng)址是/wps/portal/topal/,該網(wǎng)址可在Internet上訪問(wèn)。IBM合作伙伴會(huì)上傳自己開(kāi)發(fā)的UA,隨著UA越來(lái)越多,ITM實(shí)施周期會(huì)越來(lái)越短。IBM提供了agentbuilder來(lái)開(kāi)發(fā)UA,agentbuilder是基于Eclipse的IDE,可以在幾十分鐘內(nèi)就創(chuàng)建一個(gè)特定的監(jiān)控代理,而不是數(shù)小時(shí)。下圖是機(jī)房弱電系統(tǒng)的監(jiān)控截圖,它是通過(guò)UA把各種監(jiān)控資源的數(shù)據(jù)集中展現(xiàn)到TivoliEnterprisePortal中。性能分析對(duì)于監(jiān)控服務(wù)器端的性能,主要有兩大消耗:TivoliEnterprisePortaldesktop是基于J2EE開(kāi)發(fā)的,故當(dāng)它運(yùn)行時(shí),會(huì)消耗系統(tǒng)幾百兆內(nèi)存TivoliDataWarehouse進(jìn)行數(shù)據(jù)summary和pruning的時(shí)候,如果歷史數(shù)據(jù)量非常大,那么會(huì)消耗一定的性能一般我們建議用一臺(tái)4個(gè)CPU、8G內(nèi)存的機(jī)器做監(jiān)控服務(wù)器,同時(shí)把summary和pruning的時(shí)間定在空閑的時(shí)候。TivoliAgent是輕型代理,在初始安裝后在AIX操作系統(tǒng)上大約占用1M內(nèi)存,<0.1%CPU(單CPU)。IBMTivoliMonitoring監(jiān)控軟件會(huì)自動(dòng)在被管理機(jī)上生成一個(gè)基于Java的子代理用于操作系統(tǒng)、數(shù)據(jù)庫(kù)等的監(jiān)控。對(duì)于單CPU(1GHz)的AIX操作系統(tǒng),只進(jìn)行操作系統(tǒng)的監(jiān)控CPU占用率不高于0.5%。如果運(yùn)行所有數(shù)據(jù)庫(kù)的監(jiān)控資源模型(超過(guò)30個(gè)),CPU占用率不高于5%。所以agent端對(duì)生產(chǎn)服務(wù)器的性能影響非常小,基本可以不予考慮。方案總結(jié)綜上所述,IBMTivoli解決方案是能夠滿足客戶系統(tǒng)監(jiān)控要求的一個(gè)方案,它具有人性化的展現(xiàn)界面、靈活的報(bào)表定制能力、廣泛的平臺(tái)支持;基于agent的數(shù)據(jù)收集可以在tems故障的時(shí)候繼續(xù)收集數(shù)據(jù),保障歷史數(shù)據(jù)的完整性;強(qiáng)大的UniversalAgent可以輕松實(shí)現(xiàn)agent本身沒(méi)法實(shí)現(xiàn)的功能;提供多個(gè)接口可以與客戶已有系統(tǒng)的集成。本方案的優(yōu)勢(shì)最低限度的重復(fù)投資,最大限度的度身定制本項(xiàng)目采用現(xiàn)有的Tivoli產(chǎn)品,整合客戶的現(xiàn)網(wǎng)應(yīng)用,再結(jié)合度身定制整合應(yīng)用的自主開(kāi)發(fā)產(chǎn)品。無(wú)需因?yàn)樾枰骋粌身?xiàng)功能采購(gòu)具有全方位功能的第三方產(chǎn)品,從而造成重復(fù)的投資浪費(fèi)和因?yàn)榈谌疆a(chǎn)品的固化而無(wú)法做到度身定制的開(kāi)發(fā)。面向業(yè)務(wù)的管理對(duì)于客戶的IT系統(tǒng)的管理而言,整個(gè)管理需要提升一個(gè)層次,從簡(jiǎn)單的資源管理上升到以業(yè)務(wù)為核心的管理系統(tǒng)。IBM的解決方案將以此為核心,通過(guò)鏈接IT資源管理和應(yīng)用管理,從而將應(yīng)用和基礎(chǔ)架構(gòu)資源的管理緊密聯(lián)系起來(lái),從而可以及時(shí)發(fā)現(xiàn)造成應(yīng)用故障的根本原因。完整的解決方案通過(guò)使用功能強(qiáng)大的管理系統(tǒng),管理人員可以更為快速地了解到整個(gè)系統(tǒng)運(yùn)行發(fā)生的各種情況,了解系統(tǒng)資源的變化趨勢(shì),同時(shí)通過(guò)大量的自動(dòng)化服務(wù)機(jī)制使管理人員可以從繁重的日常管理任務(wù)中解放出來(lái),從而使整個(gè)系統(tǒng)的管理水平得到較大的提高。IBM是全球關(guān)鍵業(yè)務(wù)IT系統(tǒng)的主要提供商,深刻理解客戶對(duì)于系統(tǒng)可靠性、系統(tǒng)管理的要求。旗下的Tivoli系統(tǒng)管理部門為業(yè)界著名的系統(tǒng)管理解決方案提供商,其TivoliITM是一個(gè)真正的分布式的面向?qū)ο蟮南到y(tǒng)管理解決方案,提供大量的基于Tivoli管理框架的管理模塊,從IT資源監(jiān)控到安全管理,從數(shù)據(jù)庫(kù)管理到操作管理,從數(shù)據(jù)備份到網(wǎng)絡(luò)管理,從服務(wù)管理到Internet管理,支持從IBM主機(jī)到各種UNIX平臺(tái),以及各種WinTel平臺(tái)。Tivoli作為專業(yè)的系統(tǒng)管理解決方案提供商,客戶遍布全球,在郵電、銀行、政府、零售等各種行業(yè)中都有大量的客戶群。IBM不僅能提供全面的解決方案,而且售后實(shí)施隊(duì)伍有著優(yōu)良的技術(shù)和豐富的經(jīng)驗(yàn),而專業(yè)的項(xiàng)目管理是項(xiàng)目成功的保障,從而能幫助客戶更好地使用產(chǎn)品,真正提高整個(gè)系統(tǒng)的整體對(duì)外服務(wù)能力。所以,IBM在推薦方案中充分考慮了客戶系統(tǒng)管理項(xiàng)目實(shí)施范圍廣泛、管理要求高等特點(diǎn),提供了從產(chǎn)品到售后實(shí)施、技術(shù)支持、培訓(xùn)等全方位的解決方案。領(lǐng)先的技術(shù)優(yōu)勢(shì)IBM的Tivoli系統(tǒng)管理產(chǎn)品是真正為分布式系統(tǒng)開(kāi)發(fā)的管理系統(tǒng)。采用CORBA作為整個(gè)管理平臺(tái)的核心,提供跨平臺(tái)一致的管理,同時(shí)支持大量的業(yè)界標(biāo)準(zhǔn),得到全球超過(guò)1000家軟件開(kāi)發(fā)商的共同支持。Tivoli產(chǎn)品經(jīng)過(guò)超過(guò)十年的不斷完善,與其它管理軟件廠家的產(chǎn)品相比,產(chǎn)品明顯成熟穩(wěn)定,在全球大型企業(yè)的分布式系統(tǒng)管理中占有最大的市場(chǎng)份額。Tivoli產(chǎn)品完全從一個(gè)運(yùn)行關(guān)鍵業(yè)務(wù)的客戶角度出發(fā),內(nèi)置多種安全機(jī)制,支持大量的業(yè)界安全標(biāo)準(zhǔn),產(chǎn)品具有很高的安全性,被眾多國(guó)家的安全、國(guó)防系統(tǒng)選用為管理平臺(tái)。產(chǎn)品支持Unicode,支持簡(jiǎn)體中文,在本地化方面領(lǐng)先競(jìng)爭(zhēng)對(duì)手。完善的規(guī)劃、設(shè)計(jì)、實(shí)施本公司信心在客戶IT系統(tǒng)提供比其它服務(wù)公司更為豐富的行業(yè)經(jīng)驗(yàn)和技術(shù)優(yōu)勢(shì)。本公司通過(guò)在南京中行、南京農(nóng)信、以及上海聯(lián)通、中國(guó)移動(dòng)等實(shí)施中獲得了大量的經(jīng)驗(yàn),同時(shí)也對(duì)這個(gè)金融行業(yè)的IT環(huán)境和管理有著更為深刻的理解。而且在過(guò)去的多次交流中,本公司的技術(shù)專家和工程師通過(guò)和客戶、集成商的全面合作,了解和熟悉客戶系統(tǒng)管理項(xiàng)目需求,可以針對(duì)系統(tǒng)的管理需求,提供最好的解決方案。高度的開(kāi)放性Tivoli基于大量的開(kāi)放標(biāo)準(zhǔn),如DMTFCIM、WMI、SNMP、JMX、J2EE、XML等,核心使用的CORBA技術(shù)是業(yè)界的標(biāo)準(zhǔn)。Tivoli產(chǎn)品除了內(nèi)置的功能外,都提供了強(qiáng)大的擴(kuò)展能力。豐富的實(shí)施經(jīng)驗(yàn)和強(qiáng)大的技術(shù)支持本公司向客戶和集成商保證提供一流的產(chǎn)品與技術(shù)支持,為確保項(xiàng)目的成功實(shí)施,本公司將會(huì)提供專家級(jí)的技術(shù)咨詢和售后支持。在系統(tǒng)管理解決方案的企業(yè)規(guī)劃設(shè)計(jì)和實(shí)施方面,本公司的實(shí)施工程師積累了相當(dāng)多的工程經(jīng)驗(yàn),屆時(shí),經(jīng)驗(yàn)豐富的工程師將會(huì)配合客戶、集成商提供及時(shí)的專家級(jí)技術(shù)支持。IT運(yùn)維流程管理方案4.1需求分析運(yùn)維管理涉及到工具、人員和流程,運(yùn)維流程是IT管理的重要組成部分,是運(yùn)維工具發(fā)揮作用的保證。IBM認(rèn)為以下幾個(gè)方面是建設(shè)運(yùn)維流程平臺(tái)中需要考慮:擴(kuò)展性:系統(tǒng)必須具有強(qiáng)大的擴(kuò)展性,考慮到客戶系統(tǒng)業(yè)務(wù)還在不斷發(fā)展之中,幫助臺(tái)系統(tǒng)的建立需要適應(yīng)未來(lái)管理手段和工具的變化,能滿足未來(lái)管理流程和規(guī)范推廣的需求。靈活性:可以預(yù)見(jiàn)隨著業(yè)務(wù)的發(fā)展和IT系統(tǒng)的擴(kuò)展,管理流程必然會(huì)做出相應(yīng)調(diào)整,因此要求所建設(shè)的運(yùn)維流程平臺(tái)必須具有足夠的靈活性,以適應(yīng)流程的改變??杉尚裕耗壳翱蛻羰褂玫泥]件系統(tǒng)、即時(shí)通信軟件等系統(tǒng)希望可以和幫助臺(tái)系統(tǒng)進(jìn)行對(duì)接,數(shù)據(jù)交換,實(shí)現(xiàn)更為便捷的通知和聯(lián)系易用性和可維護(hù)性:系統(tǒng)必須易于學(xué)習(xí)、使用和掌握,鑒于管理流程本身可能會(huì)根據(jù)實(shí)際業(yè)務(wù)變化而變化,必須能易于修改和維護(hù),不能給操作人員增加額外的工作壓力和技能要求。符合標(biāo)準(zhǔn):考慮業(yè)界服務(wù)臺(tái)流程管理的主流,所設(shè)計(jì)的管理流程需要參考并符合ITIL的相關(guān)規(guī)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論