運(yùn)行維護(hù)管理體系和制度規(guī)范_第1頁
運(yùn)行維護(hù)管理體系和制度規(guī)范_第2頁
運(yùn)行維護(hù)管理體系和制度規(guī)范_第3頁
運(yùn)行維護(hù)管理體系和制度規(guī)范_第4頁
運(yùn)行維護(hù)管理體系和制度規(guī)范_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

運(yùn)營維護(hù)管理體系和制度規(guī)范目錄1、總則 32、編制方法 33、運(yùn)維工作職責(zé) 34、運(yùn)維服務(wù)管理體系 54.1運(yùn)維服務(wù)管理對象 64.2運(yùn)維系統(tǒng)功能框架 64.3運(yùn)維管理組織結(jié)構(gòu) 74.3.1項目負(fù)責(zé)人 84.3.2項目經(jīng)理 84.3.3技術(shù)主管 94.3.4服務(wù)臺 94.3.5網(wǎng)絡(luò)管理員 104.3.5應(yīng)用、數(shù)據(jù)庫管理員 104.3.7終端管理員 114.4運(yùn)維服務(wù)流程 114.4.1項目運(yùn)維服務(wù)工作流程圖 124.4.2服務(wù)臺 123.4.3事件管理 134.4.4工單管理 134.4.5問題管理 144.4.6變更管理 144.4.7配置管理 144.4.8知識庫管理 154.4.9記錄及工作報告 155、運(yùn)維服務(wù)內(nèi)容 155.1服務(wù)目的 155.2 資產(chǎn)記錄服務(wù) 165.3網(wǎng)絡(luò)、安全系統(tǒng)運(yùn)維服務(wù) 165.4主機(jī)、存儲系統(tǒng)運(yùn)維服務(wù) 175.5數(shù)據(jù)庫系統(tǒng)運(yùn)維服務(wù) 185.6中間件運(yùn)維服務(wù) 195.7終端、外設(shè)運(yùn)維服務(wù) 196、應(yīng)急服務(wù)響應(yīng)措施 196.1應(yīng)急預(yù)案實(shí)行基本流程 206.2突發(fā)事件應(yīng)急策略 207、服務(wù)管理制度規(guī)范 217.1服務(wù)時間 217.2行為規(guī)范 221、總則為保障實(shí)驗(yàn)室系統(tǒng)軟硬件設(shè)備的良好運(yùn)營,使員工的運(yùn)維工作制度化、流程化、規(guī)范化,特制訂本制度。運(yùn)維工作總體目的:立足主線促發(fā)展,開拓運(yùn)維新局面。在公司發(fā)展壯大時期,通過網(wǎng)絡(luò)、桌面、系統(tǒng)等的運(yùn)維,促進(jìn)公司穩(wěn)定可連續(xù)性發(fā)展。運(yùn)維管理制度的合用范圍:運(yùn)維人員。2、編制方法本實(shí)行細(xì)則涉及運(yùn)維服務(wù)全生命周期管理方法、管理標(biāo)準(zhǔn)/規(guī)范、管理模式、管理支撐工具、管理對象以及基于流程的管理方法。本實(shí)行細(xì)則以ITIL/ISO20230為基礎(chǔ),以信息化項目的運(yùn)維為目的,以管理支撐工具為手段,以流程化、規(guī)范化、標(biāo)準(zhǔn)化管理為方法,以全生命周期的PDCA循環(huán)為提高途徑,體現(xiàn)了對運(yùn)維服務(wù)全過程的體系化管理。3、運(yùn)維部工作職責(zé)一、負(fù)責(zé)網(wǎng)站運(yùn)維和技術(shù)支持(一)根據(jù)網(wǎng)站運(yùn)營戰(zhàn)略和目的,負(fù)責(zé)網(wǎng)站整體架構(gòu)、欄目、應(yīng)用系統(tǒng)等技術(shù)開發(fā)方案制定和組織開發(fā),保障網(wǎng)站技術(shù)的穩(wěn)定性和先進(jìn)性。(二)負(fù)責(zé)網(wǎng)站欄目和應(yīng)用系統(tǒng)的使用培訓(xùn)和操作使用指南編寫,對用戶使用過程中出現(xiàn)問題的溝通和解決。(三)網(wǎng)站設(shè)備和軟件購買計劃書的擬定,涉及采購數(shù)量、品牌規(guī)格、技術(shù)參數(shù)。會同行政部進(jìn)行采購。(四)網(wǎng)站設(shè)備和軟件操作規(guī)程和應(yīng)用管理制度的制定,并負(fù)責(zé)監(jiān)督執(zhí)行。(五)網(wǎng)站設(shè)備和軟件安裝、調(diào)試和驗(yàn)收,使用培訓(xùn)和維修保養(yǎng)。(六)網(wǎng)站平常運(yùn)營過程中信息安全和技術(shù)問題的協(xié)調(diào)解決,保障網(wǎng)站24小時安全穩(wěn)定運(yùn)營。(七)網(wǎng)站技術(shù)服務(wù)外包管理,重要涉及技術(shù)外包開發(fā)、運(yùn)營服務(wù)托管和空間域名管理。(八)負(fù)責(zé)網(wǎng)站管理系統(tǒng)及設(shè)備保密口令的設(shè)立和保存,保密口令設(shè)立后報中心主任備案,保密口令設(shè)定后任何人不得隨意更改,保密口令每季度更新一次。(九)負(fù)責(zé)網(wǎng)站新程序、新系統(tǒng)和網(wǎng)站改版升級方案技術(shù)的設(shè)計開發(fā)。二、負(fù)責(zé)網(wǎng)站信息和技術(shù)安全(一)執(zhí)行國家和省上有關(guān)網(wǎng)絡(luò)信息技術(shù)安全的法律法規(guī),與通信管理和網(wǎng)絡(luò)安全監(jiān)管部門聯(lián)絡(luò),及時解決網(wǎng)站信息技術(shù)安全面存在的問題,保證網(wǎng)站安全、穩(wěn)定、可靠運(yùn)營。(二)網(wǎng)站信息技術(shù)安全保密制度和工作流程的制定,貫徹信息技術(shù)安全保密責(zé)任制,執(zhí)行“誰主管、誰負(fù)責(zé),誰主辦、誰負(fù)責(zé)”的原則,責(zé)任到人。(三)在服務(wù)器和計算機(jī)之間設(shè)立硬件防火墻,在服務(wù)器及工作站上均安裝防病毒軟件,進(jìn)行硬件和技術(shù)雙保護(hù),保證網(wǎng)站不受病毒和黑客襲擊。(四)負(fù)責(zé)網(wǎng)站信息技術(shù)安全應(yīng)急解決預(yù)案制定和實(shí)行。(五)安排專人監(jiān)控網(wǎng)站各頻道,各頁面,各版塊,各欄目信息內(nèi)容,建立網(wǎng)站信息技術(shù)安全監(jiān)控值班登記制度,發(fā)現(xiàn)問題及時解決,并登記問題和解決結(jié)果登記;(六)建立多機(jī)備份網(wǎng)站信息服務(wù)系統(tǒng)機(jī)制,一旦主系統(tǒng)碰到故障或受到襲擊導(dǎo)致不能正常運(yùn)營,可以在最短的時間內(nèi)替換主系統(tǒng)提供服務(wù)。(七)建立網(wǎng)站系統(tǒng)集中式權(quán)限管理,按照崗位職責(zé)設(shè)定工作人員操作權(quán)限,針對不同應(yīng)用系統(tǒng)、終端、操作人員,設(shè)立共享數(shù)據(jù)庫信息的訪問權(quán)限,并設(shè)立密碼。不同的操作人員設(shè)定不同的用戶名,且定期更換,嚴(yán)禁操作人員泄漏密碼。4、運(yùn)維服務(wù)管理體系運(yùn)維服務(wù)管理體系規(guī)定了運(yùn)維活動涉及的各類實(shí)體,以及這些實(shí)體間的互相關(guān)系。相關(guān)的實(shí)體按照運(yùn)維服務(wù)管理體系進(jìn)行有機(jī)組織,并協(xié)調(diào)工作,按照服務(wù)協(xié)議規(guī)定提供不同級別的IT運(yùn)維服務(wù)。4.1運(yùn)維服務(wù)管理對象運(yùn)維服務(wù)管理對象涉及基礎(chǔ)設(shè)施、應(yīng)用系統(tǒng)、用戶、研發(fā)部門以及IT運(yùn)維部門和人員,具體內(nèi)容如下:(1)基礎(chǔ)設(shè)施涉及網(wǎng)絡(luò)、主機(jī)系統(tǒng)、存儲系統(tǒng)、安全系統(tǒng)等。(2)應(yīng)用系統(tǒng)涉及uap云管理平臺、cloud門戶、demo、zabbix、機(jī)房設(shè)備管理系統(tǒng)、vmware以及yum源等。(3)用戶涉及使用如上應(yīng)用系統(tǒng)的用戶。(4)研發(fā)部門涉及Iaas平臺研發(fā)部門。(5)運(yùn)維部門和人員涉及內(nèi)部參與運(yùn)維活動的相關(guān)部門和人員,以及提供運(yùn)維服務(wù)的公司和相關(guān)人員。4.2運(yùn)維系統(tǒng)功能框架根據(jù)建設(shè)單位的系統(tǒng)結(jié)構(gòu)和業(yè)務(wù)開展需要,運(yùn)維項目組將項目的維護(hù)框架分為9個具體組成部分,分別為:服務(wù)臺、事件管理、工單管理、問題管理、變更管理、配置管理、工程師考核、知識庫管理、記錄、系統(tǒng)管理等9個子項。而具體運(yùn)維流程將以此為依據(jù)開展工作。4.3運(yùn)維管理組織結(jié)構(gòu)本運(yùn)維項目的運(yùn)維管理結(jié)構(gòu)位三層模式,具體如下圖所示。由項目負(fù)責(zé)人與甲方進(jìn)行業(yè)務(wù)范圍接洽,并將溝通結(jié)果向下傳遞。項目經(jīng)理負(fù)責(zé)項目的整體運(yùn)維工作,涉及各種制度的制定和實(shí)行。運(yùn)維工程師則在項目經(jīng)理的指導(dǎo)下開展維護(hù)工作。4.3.1運(yùn)維負(fù)責(zé)人職責(zé):負(fù)責(zé)項目商務(wù)、整體協(xié)調(diào)事宜。職位描述:1)、整體負(fù)責(zé)建設(shè)單位運(yùn)維項目服務(wù)計劃的制定,領(lǐng)導(dǎo)項目經(jīng)理并安排項目工作,指導(dǎo)項目經(jīng)理完畢具體維護(hù)工作,每周聽取項目經(jīng)理的工作報告,負(fù)責(zé)考核項目經(jīng)理工作完畢情況。2)、協(xié)助建設(shè)單位完畢新增項目的調(diào)研、方案設(shè)計并指導(dǎo)項目經(jīng)理進(jìn)行具體實(shí)行。4.3.2運(yùn)維主管職責(zé):規(guī)劃、執(zhí)行、完善信息化項目的運(yùn)維工作,指導(dǎo)網(wǎng)絡(luò)、數(shù)據(jù)庫維護(hù)工程師開展工作。職位描述:1、根據(jù)公司戰(zhàn)略目的,指導(dǎo)下屬工程師開展客戶服務(wù)工作,保證運(yùn)維工作可以滿足客戶的實(shí)際需要;2、建立和連續(xù)完善運(yùn)維管理體系,優(yōu)化運(yùn)維流程流程,解決運(yùn)維服務(wù)中出現(xiàn)的特殊問題;3、規(guī)劃并提高運(yùn)維工程師專業(yè)服務(wù)能力,在整體上提高客戶滿意度;4、制定和連續(xù)完善績效考核體系;5、制定整理運(yùn)維項目的應(yīng)急預(yù)案系統(tǒng),并指導(dǎo)運(yùn)維工程師實(shí)行;6、提高自身專業(yè)技能,在業(yè)務(wù)方面給予網(wǎng)絡(luò)管理員和數(shù)據(jù)庫管理員指導(dǎo)。4.3.3系統(tǒng)管理員職責(zé):操作系統(tǒng)、應(yīng)用、數(shù)據(jù)庫管理,oracle性能調(diào)優(yōu),實(shí)現(xiàn)應(yīng)用負(fù)載均衡。職位描述:技術(shù)主管非項目常駐人員,根據(jù)項目需要進(jìn)行專業(yè)方面指導(dǎo);負(fù)責(zé)數(shù)據(jù)庫性能分析與調(diào)優(yōu),數(shù)據(jù)庫運(yùn)營狀態(tài)監(jiān)控,及時發(fā)現(xiàn)異常并快速解決。純熟掌握Oracle10G的RAC技術(shù),可以實(shí)現(xiàn)部署及調(diào)優(yōu)。掌握WAS、Weblogic、Tomcat、websphere等中間件的工作原理,可以實(shí)現(xiàn)部署調(diào)優(yōu)及故障解決。純熟掌握red-flag、redhat等linux操作系統(tǒng),部署oracle10g、mysql數(shù)據(jù)庫。純熟掌握dataguard技術(shù),保證oracle數(shù)據(jù)庫冗災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)。負(fù)責(zé)應(yīng)用負(fù)載均衡的部署和調(diào)試。負(fù)責(zé)指導(dǎo)數(shù)據(jù)庫工程師管理員開展工作。4.3.4網(wǎng)絡(luò)管理員職責(zé):維護(hù)建設(shè)單位網(wǎng)絡(luò)系統(tǒng)正常,解決網(wǎng)絡(luò)相關(guān)故障。職位描述:1、對現(xiàn)有服務(wù)器、局域網(wǎng)絡(luò)及機(jī)房、配線間的平常管理維護(hù);2、對信息安全建設(shè)提出相關(guān)建議,保證網(wǎng)絡(luò)的安全;3、保證外網(wǎng)光纖線路正常,保證局域網(wǎng)運(yùn)營正常;4、對網(wǎng)絡(luò)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運(yùn)營狀態(tài)進(jìn)行監(jiān)控;5、純熟掌握域策略設(shè)立、DHCP、DNS、FTP服務(wù)器、NTFS權(quán)限設(shè)立等;6、編寫網(wǎng)絡(luò)部分的應(yīng)用解決預(yù)案并實(shí)行。7、工作認(rèn)真、細(xì)致,積極積極有條理性,具有良好的溝通能力及團(tuán)隊合作精神.4.3.5應(yīng)用、數(shù)據(jù)庫管理員職責(zé):維護(hù)建設(shè)單位業(yè)務(wù)系統(tǒng)運(yùn)營正常,解決應(yīng)用和數(shù)據(jù)庫故障。職位描述:1、監(jiān)測業(yè)務(wù)系統(tǒng)運(yùn)營狀況,應(yīng)用、數(shù)據(jù)庫性能監(jiān)視及優(yōu)化,作必要調(diào)整;2、規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復(fù)、遷移和災(zāi)備策略,根據(jù)業(yè)務(wù)的需要執(zhí)行數(shù)據(jù)轉(zhuǎn)換及遷移等操作;3、保證應(yīng)用和數(shù)據(jù)庫系統(tǒng)的安全性、完整性和運(yùn)營效率。4、負(fù)責(zé)數(shù)據(jù)庫平臺的整體架構(gòu)及解決方案的制定和實(shí)行;5、工作認(rèn)真、細(xì)致,積極積極有條理性,具有良好的溝通能力及團(tuán)隊合作精神.4.4運(yùn)維服務(wù)標(biāo)準(zhǔn)流程IT運(yùn)維服務(wù)管理流程涉及事件管理、問題管理、配置管理、變更管理、發(fā)布管理、服務(wù)級別管理、財務(wù)管理、能力管理、可用性管理、服務(wù)連續(xù)性管理、知識管理及供應(yīng)商管理等,隨著運(yùn)維活動的不斷進(jìn)一步和連續(xù)改善,其他流程也許會逐步獨(dú)立并規(guī)范。4.4.1項目運(yùn)維服務(wù)工作標(biāo)準(zhǔn)流程圖4.4.2服務(wù)臺(暫無)服務(wù)臺是支持運(yùn)維服務(wù)的核心功能,與各個流程聯(lián)系密切。所有管理流程都要通過服務(wù)臺為用戶提供單點(diǎn)聯(lián)系,解答用戶的相關(guān)問題和需求,或?yàn)橛脩魧で笙鄳?yīng)的支持人員。在本系統(tǒng)中,服務(wù)臺是接受各種來源服務(wù)請求和相關(guān)信息反饋的唯一入口和出口,同時服務(wù)臺還負(fù)責(zé)一般請求、通過知識庫(歷史事件)可以解決的請求;他也是復(fù)雜問題二線解決的橋梁。由于當(dāng)前人員局限性,服務(wù)臺的工作暫時由運(yùn)維工程師統(tǒng)一解決。4.4.3事件管理事件管理流程的重要目的是盡快恢復(fù)服務(wù)提供并減少其對業(yè)務(wù)的不利影響,盡也許保證最佳的服務(wù)質(zhì)量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類和支持、事件的調(diào)查和診斷、事件的解決和恢復(fù)以及事件的關(guān)閉。本系統(tǒng)把所有服務(wù)請求和報警歸結(jié)為事件。事件管理是提供服務(wù)臺和事件管理者對于事件記錄、解決、查詢、審核、派發(fā)等功能。它也涉及通過和第三方監(jiān)控系統(tǒng)對接,把其發(fā)送報警形成事件的功能。4.4.4工單管理工單管理:工單是現(xiàn)場運(yùn)維、二線支持的任務(wù)載體,運(yùn)維工程依據(jù)所接受工單進(jìn)行運(yùn)維工作。工單管理是對工單實(shí)現(xiàn)創(chuàng)建、變更、查詢?yōu)g覽、派發(fā)、監(jiān)督等功能的模塊。4.4.5問題管理問題管理流程的重要目的是防止問題和事故的再次發(fā)生,并將未能解決的事件的影響減少到最小。問題管理流程涉及診斷事件主線因素和擬定問題解決方案所需要的活動,通過合適的控制過程,特別是變更管理和發(fā)布管理,負(fù)責(zé)保證解決方案的實(shí)行。問題管理還將維護(hù)有關(guān)問題、應(yīng)急方案和解決方案的信息。問題管理是針對已解決事件的遺留問題或解決事件的方案只是治標(biāo)不治本的不能徹底解決問題而考慮的模塊。根據(jù)事件、及解決方案,問題解決人通過調(diào)查、診斷并提出最終解決方法。4.4.6變更管理變更管理實(shí)現(xiàn)所有基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)的變更,變更管理應(yīng)記錄并對所有規(guī)定的變更進(jìn)行分類,應(yīng)評估變更請求的風(fēng)險、影響和業(yè)務(wù)收益。其重要目的是以對服務(wù)最小的干擾實(shí)現(xiàn)有益的變更。變更管理是要對重大資源的新增、變更、升級等運(yùn)維活動進(jìn)行審核的功能,以免這些活動對現(xiàn)有資源的可用性導(dǎo)致沒有必要的影響和破壞;同時,他還要實(shí)現(xiàn)在工單中產(chǎn)生的變化進(jìn)行后審計的功能。4.4.7配置管理配置管理流程負(fù)責(zé)核算基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)中實(shí)行的變更以及配置項之間的關(guān)系是否已經(jīng)被對的記錄下來;保證配置管理數(shù)據(jù)庫可以準(zhǔn)確地反映現(xiàn)存配置項的實(shí)際版本狀態(tài)。配置管理事實(shí)上是所有資源的統(tǒng)一管理的功能,涉及資源整個生命周期的參數(shù)或配置的變化記錄的管理。管理信息重要涉及分類、型號、版本、位置,狀態(tài)、相關(guān)資料等基本信息還涉及核心參數(shù)等4.4.8知識庫管理運(yùn)維知識經(jīng)驗(yàn)的總結(jié)、維護(hù)和共享是提高員工運(yùn)維技能水平、增強(qiáng)單位凝聚力的重要手段,也是把寶貴的經(jīng)驗(yàn)教訓(xùn)從支持人員頭腦逐步沉淀、固化的重要方式。知識庫管理:知識庫是提供應(yīng)運(yùn)維人員重要的技術(shù)資料內(nèi)容,他匯集在工作的碰到的典型案例歸納總結(jié)的知識要點(diǎn)和全面實(shí)用資料手冊。在本系統(tǒng)中,知識庫管理提供便于使用的人機(jī)接口、快速查詢的技術(shù)手段和維護(hù)手段。4.4.9記錄及工作報告運(yùn)維管理系統(tǒng)提供一線解決率記錄、客戶滿意度記錄、按分類的事件匯總記錄、工作報告生成的功能,按照一定格式根據(jù)事件數(shù)據(jù)、工單數(shù)據(jù)、問題數(shù)據(jù)、配置數(shù)據(jù)、變更數(shù)據(jù)可以幫助運(yùn)維管理者能把運(yùn)維的所做的工作內(nèi)容清楚的羅列出來。5、運(yùn)維服務(wù)內(nèi)容5.1運(yùn)維服務(wù)目的實(shí)驗(yàn)室運(yùn)維部門提供的運(yùn)營維護(hù)服務(wù)涉及,虛擬機(jī)、主機(jī)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)安全設(shè)備和存儲設(shè)備的運(yùn)營維護(hù)服務(wù),保證云管理平臺的正常運(yùn)營,減少整體管理成本,提高Iaas平臺的整體服務(wù)水平。同時根據(jù)平常維護(hù)的數(shù)據(jù)和記錄,給研發(fā)部門提供Iaas平臺優(yōu)化及改善建議。實(shí)驗(yàn)室運(yùn)維的組成重要可分為兩類:硬件設(shè)備和軟件系統(tǒng)。硬件設(shè)備涉及網(wǎng)絡(luò)設(shè)備、安全設(shè)備、主機(jī)設(shè)備、存儲設(shè)備等;軟件設(shè)備可分為云管理平臺、操作系統(tǒng)、典型應(yīng)用軟件(如:數(shù)據(jù)庫軟件等)等。服務(wù)項目范圍覆蓋的信息系統(tǒng)資源以下方面的關(guān)鍵狀態(tài)及參數(shù)指標(biāo):運(yùn)營狀態(tài)、故障情況配置信息可用性情況及健康狀況性能指標(biāo)IT資產(chǎn)記錄服務(wù)服務(wù)內(nèi)容涉及:硬件設(shè)備型號、數(shù)量、版本等信息記錄記錄軟件產(chǎn)品型號、版本和補(bǔ)丁等信息記錄記錄網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)路由、網(wǎng)絡(luò)IP地址記錄記錄綜合布線系統(tǒng)結(jié)構(gòu)圖的繪制其它附屬設(shè)備的記錄記錄5.3網(wǎng)絡(luò)、安全系統(tǒng)運(yùn)維服務(wù)從網(wǎng)絡(luò)的連通性、網(wǎng)絡(luò)的性能、網(wǎng)絡(luò)的監(jiān)控管理三個方面實(shí)現(xiàn)對網(wǎng)絡(luò)系統(tǒng)的運(yùn)維管理,網(wǎng)絡(luò)設(shè)備位于IT架構(gòu)的骨干位置,下面是需要監(jiān)控的指標(biāo),及相應(yīng)健康狀況故障以后也許引起的問題。設(shè)備基礎(chǔ)性能檢測:cpu、內(nèi)存使用情況監(jiān)測。當(dāng)cpu、內(nèi)存使用率過高,會導(dǎo)致用戶網(wǎng)絡(luò)訪問質(zhì)量下降,丟包、時延較高等狀況的產(chǎn)生。說明當(dāng)前網(wǎng)絡(luò)設(shè)備負(fù)載較高,需要對下行設(shè)備進(jìn)行遷移,分流,減輕負(fù)載。設(shè)備日記查看;當(dāng)設(shè)備日記出現(xiàn)異常時,也許是設(shè)備出現(xiàn)異常訪問或者異常配置,也許會導(dǎo)致網(wǎng)絡(luò)中斷。需要檢測防火墻等安全設(shè)備狀態(tài)。設(shè)備snmp、telnet狀態(tài);當(dāng)snmp、telnet都不可達(dá)時,一般是設(shè)備脫網(wǎng)情況的產(chǎn)生,會導(dǎo)致網(wǎng)絡(luò)中斷。需要人工查看設(shè)備運(yùn)營狀態(tài)。測試Ping,tracert等工具的連通性;當(dāng)ping丟包率過高,說明網(wǎng)絡(luò)訪問質(zhì)量有問題,需要tracert查看網(wǎng)絡(luò)途徑是哪一跳相應(yīng)的IP設(shè)備時延較高或者不可達(dá)。分析是哪個網(wǎng)關(guān)路由或者策略引起的問題。網(wǎng)絡(luò)安全策略應(yīng)用是否正常;安全策略異常會導(dǎo)致網(wǎng)絡(luò)設(shè)備遭受入侵,會影響整個網(wǎng)絡(luò)的訪問。Internet帶寬流量的實(shí)時監(jiān)測;流量所占帶寬比較高,會導(dǎo)致當(dāng)前網(wǎng)絡(luò)設(shè)備相應(yīng)端口網(wǎng)關(guān)的所有網(wǎng)絡(luò)訪問質(zhì)量下降。需要抓包查看是哪些設(shè)備相應(yīng)的訪問流量較高,決定是加大帶寬還是服務(wù)器中毒。網(wǎng)絡(luò)拓?fù)滏溌窢顟B(tài)監(jiān)測;鏈路狀態(tài)異常說明網(wǎng)絡(luò)中某個設(shè)備異常,需要查看鏈路相應(yīng)的網(wǎng)絡(luò)設(shè)備健康狀況,結(jié)合其他指標(biāo)分析問題所在。異常網(wǎng)絡(luò)數(shù)據(jù)包流量、Dos、ddos等網(wǎng)絡(luò)襲擊情況監(jiān)測;存在異常網(wǎng)絡(luò)數(shù)據(jù)流量包等,會導(dǎo)致正常的網(wǎng)絡(luò)質(zhì)量下降,說明網(wǎng)絡(luò)也許受到襲擊,需要結(jié)合netflow和流量狀況查看異常流量的訪問網(wǎng)段,從路由策略或者防火墻限制該網(wǎng)段的訪問光纖光口光功率、光電口誤碼率大小。光功率值不在光模塊的默認(rèn)光功率范圍內(nèi),會導(dǎo)致光口不可用,也許是光模塊出現(xiàn)故障,需要聯(lián)系廠家查看光模塊是否正常5.4主機(jī)、存儲系統(tǒng)運(yùn)維服務(wù)提供的主機(jī)、存儲系統(tǒng)的運(yùn)維服務(wù)涉及:主機(jī)、存儲設(shè)備的平常監(jiān)控,設(shè)備的運(yùn)營狀態(tài)監(jiān)控,故障解決,操作系統(tǒng)維護(hù),補(bǔ)丁升級等內(nèi)容。進(jìn)行監(jiān)控管理的內(nèi)容涉及:CPU性能管理;GPU指標(biāo)過高,會導(dǎo)致服務(wù)器程序運(yùn)營緩慢,出現(xiàn)卡死狀況。需要查看引起GPU過高因素,做虛機(jī)遷移等操作,減輕服務(wù)器壓力。內(nèi)存使用情況管理;內(nèi)存使用率過大,會導(dǎo)致服務(wù)器崩潰,需要及時擴(kuò)充內(nèi)存資源,或者回收不再使用的虛機(jī)資源。硬盤運(yùn)用情況管理;硬盤使用率過高,會導(dǎo)致開始啟動失敗,需要定期清理服務(wù)器臨時文獻(xiàn),或者擴(kuò)充服務(wù)器硬盤。系統(tǒng)進(jìn)程管理;服務(wù)器關(guān)鍵進(jìn)程運(yùn)營是否正常,異常會導(dǎo)致服務(wù)器崩潰,需要查看進(jìn)程異常因素。實(shí)時監(jiān)控主機(jī)電源、風(fēng)扇的使用情況及主機(jī)機(jī)箱內(nèi)部溫度;電源狀態(tài)異常,也許會導(dǎo)致服務(wù)器斷電,風(fēng)扇異常,主機(jī)穩(wěn)定過高會導(dǎo)致服務(wù)器重啟,需要與廠商聯(lián)系,查看硬件是否正常監(jiān)控主機(jī)硬盤運(yùn)營狀態(tài);硬盤讀寫狀態(tài)等標(biāo)記硬盤可用性,需要查看是否硬盤壓力過大,考慮更換存儲類型ssd等監(jiān)控主機(jī)網(wǎng)卡等硬件狀態(tài);主機(jī)網(wǎng)卡down掉,會影響服務(wù)器的網(wǎng)絡(luò)訪問,硬件異常會影響服務(wù)器正常運(yùn)營,需要聯(lián)系廠商做硬件檢測。監(jiān)控主機(jī)HA運(yùn)營狀況;災(zāi)備系統(tǒng)運(yùn)營異常,會導(dǎo)致HA切換異常,需要查看引起HA異常的因素,是軟件問題還是硬件問題,逐步排除因素。5.5數(shù)據(jù)庫系統(tǒng)運(yùn)維服務(wù)提供的數(shù)據(jù)庫運(yùn)營維護(hù)服務(wù)是涉及積極數(shù)據(jù)庫性能管理,數(shù)據(jù)庫的積極性能管理對系統(tǒng)運(yùn)維非常重要。通過積極式性能管理可了解數(shù)據(jù)庫的平常運(yùn)營狀態(tài),辨認(rèn)數(shù)據(jù)庫的性能問題發(fā)生在什么地方,有針對性地進(jìn)行性能優(yōu)化。同時,密切注意數(shù)據(jù)庫系統(tǒng)的變化,積極地防止也許發(fā)生的問題。進(jìn)行監(jiān)控管理的內(nèi)容涉及:數(shù)據(jù)庫基本信息:文獻(xiàn)系統(tǒng)、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。存在上面會導(dǎo)致業(yè)務(wù)訪問緩慢,需要定位那些SQL占用內(nèi)存較大或者死鎖,針對具體情況進(jìn)行優(yōu)化代碼。表空間使用信息監(jiān)測;表空間占用太大會影響查詢效率,需要優(yōu)化存儲結(jié)構(gòu),將集中存儲換為單表文獻(xiàn),索引根據(jù)實(shí)際業(yè)務(wù)進(jìn)行優(yōu)化,是否需要索引,或者索引刪除重建,或者建立分區(qū)表。數(shù)據(jù)庫文獻(xiàn)I/0讀寫情況;數(shù)據(jù)庫I/0反映數(shù)據(jù)庫瓶頸,查看引起I/O較大的因素是業(yè)務(wù)量較大還是服務(wù)器I/O現(xiàn)在,更換存儲類型,必要情況下更換內(nèi)存數(shù)據(jù)庫等。Session連接數(shù)量監(jiān)控;Session長鏈接數(shù)量較大會導(dǎo)致數(shù)據(jù)庫負(fù)載較高,需要考慮將長鏈接更換為短連接。數(shù)據(jù)庫監(jiān)聽運(yùn)營狀態(tài)監(jiān)測;數(shù)據(jù)庫運(yùn)營狀態(tài)為down會導(dǎo)致業(yè)務(wù)中斷,查看是業(yè)務(wù)層還是網(wǎng)絡(luò)層引起的問題,假如為網(wǎng)絡(luò)層,需要對網(wǎng)絡(luò)情況排除,假如為業(yè)務(wù)層導(dǎo)致,要進(jìn)行SQL優(yōu)化。查看每日數(shù)據(jù)備份、數(shù)據(jù)同步是否正常;數(shù)據(jù)庫備份異常,會導(dǎo)致備份數(shù)據(jù)丟失,對于數(shù)據(jù)庫遷移,和數(shù)據(jù)恢復(fù)導(dǎo)致不可恢復(fù)的影響,需要具體查看引起該問題是數(shù)據(jù)庫自身還是服務(wù)器問題,具體問題具體分析解決。對表和索引進(jìn)行Analyze,檢查表空間碎片;數(shù)據(jù)庫表和索引的占用量太大會影響查詢效率,需要調(diào)整表結(jié)構(gòu)或者索引刪除重建。數(shù)據(jù)庫對象的空間擴(kuò)展情況監(jiān)測;表空間擴(kuò)展太快會導(dǎo)致數(shù)據(jù)庫服務(wù)器存儲空間占滿,數(shù)據(jù)庫down掉等異常情況,需要優(yōu)化表結(jié)構(gòu)。5.6云管理平臺運(yùn)維服務(wù)云管理平臺重要涉及管理節(jié)點(diǎn)、計算節(jié)點(diǎn)、存儲節(jié)點(diǎn)的運(yùn)維。同時,實(shí)時監(jiān)控重點(diǎn)虛擬機(jī),保證重要業(yè)務(wù)不中斷。重要內(nèi)容涉及:ManagementServer狀態(tài)及性能監(jiān)控(cpu、內(nèi)存、磁盤、io、mysql數(shù)據(jù)庫、系統(tǒng)及應(yīng)用日記等);虛擬化主機(jī)agent狀態(tài)監(jiān)控;主存儲及二級存儲使用率監(jiān)控;數(shù)據(jù)中心虛擬資源(cpu、內(nèi)存、磁盤)使用量監(jiān)控;單臺計算節(jié)點(diǎn)cpu、內(nèi)存分派及實(shí)際使用量監(jiān)控;單臺存儲節(jié)點(diǎn)硬盤分派及實(shí)際使用量監(jiān)控;虛擬機(jī)模版、網(wǎng)絡(luò)、方案策略制定;系統(tǒng)虛擬機(jī)、虛機(jī)路由狀態(tài)監(jiān)控;非計費(fèi)用戶閑置虛擬資源回收;用戶資源審批、賬戶充值及余額管理;虛擬機(jī)外網(wǎng)網(wǎng)絡(luò)及端口開通;計算節(jié)點(diǎn)主機(jī)及存儲節(jié)點(diǎn)擴(kuò)容;5.7運(yùn)維工具監(jiān)控工具實(shí)驗(yàn)室選用開源運(yùn)維工具Zabbix,Zabbix是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)控以及網(wǎng)絡(luò)監(jiān)控功能的公司級開源運(yùn)維平臺,也是目前國內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件。 Grafana-zabbix展示效果入門容易、上手簡樸、功能強(qiáng)大并且開源免費(fèi)是對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較美麗的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕平常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進(jìn)行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的設(shè)備。理論上,通過Zabbix提供的插件式架構(gòu),可以滿足公司的任何需求。優(yōu)點(diǎn):1.支持多平臺的公司級分布式開源監(jiān)控軟件;2.安裝部署簡樸、管理方便;3.功能強(qiáng)大,監(jiān)控靈活,可實(shí)現(xiàn)復(fù)雜多條件告警;4.多種數(shù)據(jù)采集插件,靈活集成;5.自帶畫圖功能,得到的數(shù)據(jù)可以繪成圖形;6.同時支持調(diào)用腳本,很方便;7.提供多種API接口,定制化最高的監(jiān)控軟件;8.出現(xiàn)問題時可自動遠(yuǎn)程執(zhí)行命令(需對agent設(shè)立執(zhí)行權(quán)限);缺陷:1.項目批量修改不方便;2.社區(qū)雖然成熟,但是中文資料相對較少,服務(wù)支持有限;3.入門容易,能實(shí)現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進(jìn)行大量的二次定制開發(fā),難度較大;4.系統(tǒng)級別報警設(shè)立相對比較多,假如不篩選的話報警郵件會很多;并且自定義的項目報警需要自己設(shè)立,過程比較繁瑣;5.缺少數(shù)據(jù)匯總功能,如無法查看一組\o"服務(wù)器"服務(wù)器平均值,需進(jìn)行二次開發(fā);6.數(shù)據(jù)報表需要特殊二次開發(fā)定義;實(shí)驗(yàn)室監(jiān)控體系也有集中式監(jiān)控擴(kuò)展到分布式監(jiān)控,監(jiān)控系統(tǒng)之間的耦合性逐步減少。在分布式系統(tǒng)中,整個系統(tǒng)有一個監(jiān)控中心服務(wù)器,若干個子監(jiān)控服務(wù)器和被監(jiān)控對象組成的,每一個子監(jiān)控服務(wù)器負(fù)責(zé)監(jiān)控屬于它所屬的子系統(tǒng),不同的子系統(tǒng)之間也不完全獨(dú)立,他們之間的規(guī)模也不大,產(chǎn)生的數(shù)據(jù)也不是很大。這樣就大大減小中心監(jiān)控服務(wù)器的工作壓力。圖:分布式監(jiān)控架構(gòu)分布式監(jiān)控重要分三個層次,最底層是需要監(jiān)控的節(jié)點(diǎn),他通過啟動snmp服務(wù)或者積極發(fā)送trapped或者啟動agent進(jìn)程。收集每個節(jié)點(diǎn)的狀態(tài)信息,并向監(jiān)控子服務(wù)器發(fā)送收集的信息。中間層是proxy服務(wù)器層,它負(fù)責(zé)收集每個節(jié)點(diǎn)發(fā)送給它的監(jiān)控信息,然后向中心的監(jiān)控服務(wù)器發(fā)送搜集到的監(jiān)控信息。最上面一層是中心監(jiān)控服務(wù)器,它重要負(fù)責(zé)收集每個子監(jiān)控服務(wù)器的數(shù)據(jù),然后存入數(shù)據(jù)庫,再通過web服務(wù)器發(fā)送提供展現(xiàn)、查詢、等服務(wù)。分布式的監(jiān)控結(jié)構(gòu)將大量數(shù)據(jù)采集的工作分散到每個監(jiān)控子系統(tǒng)中,從而極大的減少了監(jiān)控中心服務(wù)器的壓力,減少了網(wǎng)絡(luò)的負(fù)載,但是也也許帶來一定的系統(tǒng)延遲。Zabbix性能優(yōu)化:性能指標(biāo)的采集方式根據(jù)不同指標(biāo)類型進(jìn)行指標(biāo)分組,如CPU組、內(nèi)存組、文獻(xiàn)系統(tǒng)組、進(jìn)程組等,每個性能組又相應(yīng)若干個性能,根據(jù)不同用戶對于不同指標(biāo)關(guān)注度不同,指標(biāo)采集力度也不同,如CPU內(nèi)存等實(shí)時度規(guī)定比較高的,需要1分鐘采集一次,而相應(yīng)存儲的硬盤檢測也許趨勢變化不大,所以采集力度也許比較大一周或者一月。而隨著設(shè)備量的增長,虛機(jī)的擴(kuò)張變快,zabbix服務(wù)器的優(yōu)化不得不加入考慮,Zabbix雖然采用分布式結(jié)構(gòu),但是指標(biāo)計算(按照通用指標(biāo)記錄):2500(服務(wù)器數(shù)量)*15(指標(biāo)數(shù)量)*3600(一天)=Zabbixserver的性能同過查看指標(biāo),每秒解決數(shù)和等待隊列長度Zabbix數(shù)據(jù)庫調(diào)優(yōu):使用innodb,為每一張數(shù)據(jù)庫表使用一個文獻(xiàn),修改my.cfinnodb_file_per_table=1;使用分區(qū)表關(guān)閉houerkeeper,zabbix_server.conf參數(shù)DisableHousekeeper=1;使用分區(qū)表,需要建立分區(qū)的相關(guān)表f配置文獻(xiàn)相關(guān)樣例如下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論