版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 運(yùn)行維護(hù)管理體系和制度規(guī)范目 錄1、總則32、編制方法33、運(yùn)維工作職責(zé)34、運(yùn)維服務(wù)管理體系54.1運(yùn)維服務(wù)管理對象64.2 運(yùn)維系統(tǒng)功能框架64.3運(yùn)維管理組織結(jié)構(gòu)7484849494104.3.5應(yīng)用、數(shù)據(jù)庫管理員104114.4運(yùn)維服務(wù)流程11412412134134144144144154155、運(yùn)維服務(wù)內(nèi)容155.1服務(wù)目標(biāo)155.2資產(chǎn)統(tǒng)計服務(wù)165.3網(wǎng)絡(luò)、安全系統(tǒng)運(yùn)維服務(wù)165.4主機(jī)、存儲系統(tǒng)運(yùn)維服務(wù)175.5數(shù)據(jù)庫系統(tǒng)運(yùn)維服務(wù)185.6中間件運(yùn)維服務(wù)195.7終端、外設(shè)運(yùn)維服務(wù)196、應(yīng)急服務(wù)響應(yīng)措施196.1應(yīng)急預(yù)案實(shí)施基本流程206.2突發(fā)事件應(yīng)急策略207、服務(wù)管
2、理制度規(guī)范217.1服務(wù)時間217.2行為規(guī)范221、總則第一條 為保障實(shí)驗(yàn)室系統(tǒng)軟硬件設(shè)備的良好運(yùn)行,使員工的運(yùn)維工作制度化、流程化、規(guī)范化,特制訂本制度。第二條 運(yùn)維工作總體目標(biāo):立足根本促發(fā)展,開拓運(yùn)維新局面。在企業(yè)發(fā)展壯大時期,通過網(wǎng)絡(luò)、桌面、系統(tǒng)等的運(yùn)維,促進(jìn)企業(yè)穩(wěn)定可持續(xù)性發(fā)展。第三條 運(yùn)維管理制度的適用范圍:運(yùn)維人員。2、編制方法本實(shí)施細(xì)則包括運(yùn)維服務(wù)全生命周期管理方法、管理標(biāo)準(zhǔn)/規(guī)范、管理模式、管理支撐工具、管理對象以及基于流程的管理方法。本實(shí)施細(xì)則以ITIL/ISO20000為基礎(chǔ),以信息化項(xiàng)目的運(yùn)維為目標(biāo),以管理支撐工具為手段,以流程化、規(guī)范化、標(biāo)準(zhǔn)化管理為方法,以全生命周
3、期的PDCA循環(huán)為提升途徑,體現(xiàn)了對運(yùn)維服務(wù)全過程的體系化管理。3、運(yùn)維部工作職責(zé)一、負(fù)責(zé)網(wǎng)站運(yùn)維和技術(shù)支持(一)根據(jù)網(wǎng)站運(yùn)營戰(zhàn)略和目標(biāo),負(fù)責(zé)網(wǎng)站整體架構(gòu)、欄目、應(yīng)用系統(tǒng)等技術(shù)開發(fā)方案制定和組織開發(fā),保障網(wǎng)站技術(shù)的穩(wěn)定性和先進(jìn)性。(二)負(fù)責(zé)網(wǎng)站欄目和應(yīng)用系統(tǒng)的使用培訓(xùn)和操作使用指南編寫,對用戶使用過程中出現(xiàn)問題的溝通和解決。(三)網(wǎng)站設(shè)備和軟件購買計劃書的擬定,包括采購數(shù)量、品牌規(guī)格、技術(shù)參數(shù)。會同行政部進(jìn)行采購。(四)網(wǎng)站設(shè)備和軟件操作規(guī)程和應(yīng)用管理制度的制定,并負(fù)責(zé)監(jiān)督執(zhí)行。(五)網(wǎng)站設(shè)備和軟件安裝、調(diào)試和驗(yàn)收,使用培訓(xùn)和維修保養(yǎng)。(六)網(wǎng)站日常運(yùn)行過程中信息安全和技術(shù)問題的協(xié)調(diào)解決,保障
4、網(wǎng)站24小時安全穩(wěn)定運(yùn)行。(七)網(wǎng)站技術(shù)服務(wù)外包管理,主要包括技術(shù)外包開發(fā)、運(yùn)行服務(wù)托管和空間域名管理。(八)負(fù)責(zé)網(wǎng)站管理系統(tǒng)及設(shè)備保密口令的設(shè)置和保存,保密口令設(shè)置后報中心主任備案,保密口令設(shè)定后任何人不得隨意更改,保密口令每季度更新一次。(九)負(fù)責(zé)網(wǎng)站新程序、新系統(tǒng)和網(wǎng)站改版升級方案技術(shù)的設(shè)計開發(fā)。二、負(fù)責(zé)網(wǎng)站信息和技術(shù)安全(一)執(zhí)行國家和省上有關(guān)網(wǎng)絡(luò)信息技術(shù)安全的法律法規(guī),與通信管理和網(wǎng)絡(luò)安全監(jiān)管部門聯(lián)絡(luò),及時處理網(wǎng)站信息技術(shù)安全方面存在的問題,確保網(wǎng)站安全、穩(wěn)定、可靠運(yùn)行。(二)網(wǎng)站信息技術(shù)安全保密制度和工作流程的制定,落實(shí)信息技術(shù)安全保密責(zé)任制,執(zhí)行“誰主管、誰負(fù)責(zé),誰主辦、誰負(fù)責(zé)”
5、的原則,責(zé)任到人。( 三 )在服務(wù)器和計算機(jī)之間設(shè)置硬件防火墻,在服務(wù)器及工作站上均安裝防病毒軟件,進(jìn)行硬件和技術(shù)雙保護(hù),確保網(wǎng)站不受病毒和黑客攻擊。(四)負(fù)責(zé)網(wǎng)站信息技術(shù)安全應(yīng)急處理預(yù)案制定和實(shí)施。(五)安排專人監(jiān)控網(wǎng)站各頻道,各頁面,各版塊,各欄目信息內(nèi)容,建立網(wǎng)站信息技術(shù)安全監(jiān)控值班登記制度,發(fā)現(xiàn)問題及時處理,并登記問題和處理結(jié)果登記;(六)建立多機(jī)備份網(wǎng)站信息服務(wù)系統(tǒng)機(jī)制,一旦主系統(tǒng)遇到故障或受到攻擊導(dǎo)致不能正常運(yùn)行,可以在最短的時間內(nèi)替換主系統(tǒng)提供服務(wù)。(七)建立網(wǎng)站系統(tǒng)集中式權(quán)限管理,按照崗位職責(zé)設(shè)定工作人員操作權(quán)限,針對不同應(yīng)用系統(tǒng)、終端、操作人員,設(shè)置共享數(shù)據(jù)庫信息的訪問權(quán)限,
6、并設(shè)置密碼。不同的操作人員設(shè)定不同的用戶名,且定期更換,嚴(yán)禁操作人員泄漏密碼。4、運(yùn)維服務(wù)管理體系運(yùn)維服務(wù)管理體系規(guī)定了運(yùn)維活動涉及的各類實(shí)體,以及這些實(shí)體間的相互關(guān)系。相關(guān)的實(shí)體按照運(yùn)維服務(wù)管理體系進(jìn)行有機(jī)組織,并協(xié)調(diào)工作,按照服務(wù)協(xié)議要求提供不同級別的IT運(yùn)維服務(wù)。4.1運(yùn)維服務(wù)管理對象運(yùn)維服務(wù)管理對象包括基礎(chǔ)設(shè)施、應(yīng)用系統(tǒng)、用戶、研發(fā)部門以及IT運(yùn)維部門和人員,具體內(nèi)容如下:(1)基礎(chǔ)設(shè)施包括網(wǎng)絡(luò)、主機(jī)系統(tǒng)、存儲系統(tǒng)、安全系統(tǒng)等。(2)應(yīng)用系統(tǒng)包括uap云管理平臺、cloud門戶、demo、zabbix、機(jī)房設(shè)備管理系統(tǒng)、vmware以及yum源等。(3)用戶包括使用如上應(yīng)用系統(tǒng)的用戶。
7、(4)研發(fā)部門包括Iaas平臺研發(fā)部門。(5)運(yùn)維部門和人員包括內(nèi)部參與運(yùn)維活動的相關(guān)部門和人員,以及提供運(yùn)維服務(wù)的企業(yè)和相關(guān)人員。4.2 運(yùn)維系統(tǒng)功能框架根據(jù)建設(shè)單位的系統(tǒng)結(jié)構(gòu)和業(yè)務(wù)開展需要,運(yùn)維項(xiàng)目組將項(xiàng)目的維護(hù)框架分為9個具體組成部分,分別為:服務(wù)臺、事件管理、工單管理、問題管理、變更管理、配置管理、工程師考核、知識庫管理、統(tǒng)計、系統(tǒng)管理等9個子項(xiàng)。而具體運(yùn)維流程將以此為依據(jù)開展工作。4.3運(yùn)維管理組織結(jié)構(gòu)本運(yùn)維項(xiàng)目的運(yùn)維管理結(jié)構(gòu)位三層模式,具體如下圖所示。由項(xiàng)目負(fù)責(zé)人與甲方進(jìn)行業(yè)務(wù)范圍接洽,并將溝通結(jié)果向下傳遞。項(xiàng)目經(jīng)理負(fù)責(zé)項(xiàng)目的整體運(yùn)維工作,包括各種制度的制定和實(shí)施。運(yùn)維工程師則在項(xiàng)
8、目經(jīng)理的指導(dǎo)下開展維護(hù)工作。4運(yùn)維負(fù)責(zé)人職責(zé):負(fù)責(zé)項(xiàng)目商務(wù)、整體協(xié)調(diào)事宜。職位描述:1)、整體負(fù)責(zé)建設(shè)單位運(yùn)維項(xiàng)目服務(wù)計劃的制定,領(lǐng)導(dǎo)項(xiàng)目經(jīng)理并安排項(xiàng)目工作,指導(dǎo)項(xiàng)目經(jīng)理完成具體維護(hù)工作,每周聽取項(xiàng)目經(jīng)理的工作匯報,負(fù)責(zé)考核項(xiàng)目經(jīng)理工作完成情況。2)、協(xié)助建設(shè)單位完成新增項(xiàng)目的調(diào)研、方案設(shè)計并指導(dǎo)項(xiàng)目經(jīng)理進(jìn)行具體實(shí)施。4運(yùn)維主管職責(zé):規(guī)劃、執(zhí)行、完善信息化項(xiàng)目的運(yùn)維工作,指導(dǎo)網(wǎng)絡(luò)、數(shù)據(jù)庫維護(hù)工程師開展工作。職位描述:1、根據(jù)公司戰(zhàn)略目標(biāo),指導(dǎo)下屬工程師開展客戶服務(wù)工作,確保運(yùn)維工作能夠滿足客戶的實(shí)際需要;2、建立和持續(xù)完善運(yùn)維管理體系,優(yōu)化運(yùn)維流程流程,解決運(yùn)維服務(wù)中出現(xiàn)的特殊問題;3、規(guī)劃并
9、提升運(yùn)維工程師專業(yè)服務(wù)能力,在整體上提高客戶滿意度;4、制定和持續(xù)完善績效考核體系;5、制定整理運(yùn)維項(xiàng)目的應(yīng)急預(yù)案系統(tǒng),并指導(dǎo)運(yùn)維工程師實(shí)施;6、提高自身專業(yè)技能,在業(yè)務(wù)方面給予網(wǎng)絡(luò)管理員和數(shù)據(jù)庫管理員指導(dǎo)。4系統(tǒng)管理員 職責(zé):操作系統(tǒng)、應(yīng)用、數(shù)據(jù)庫管理,oracle性能調(diào)優(yōu),實(shí)現(xiàn)應(yīng)用負(fù)載均衡。職位描述:1、 技術(shù)主管非項(xiàng)目常駐人員,根據(jù)項(xiàng)目需要進(jìn)行專業(yè)方面指導(dǎo);2、 負(fù)責(zé)數(shù)據(jù)庫性能分析與調(diào)優(yōu),數(shù)據(jù)庫運(yùn)行狀態(tài)監(jiān)控,及時發(fā)現(xiàn)異常并快速處理。3、 熟練掌握Oracle10G的RAC技術(shù),能夠?qū)崿F(xiàn)部署及調(diào)優(yōu)。4、 掌握WAS、Weblogic、Tomcat、websphere等中間件的工作原理,能夠
10、實(shí)現(xiàn)部署調(diào)優(yōu)及故障解決。5、 熟練掌握red-flag、redhat等linux操作系統(tǒng),部署oracle10g、mysql數(shù)據(jù)庫。熟練掌握dataguard技術(shù),保證oracle數(shù)據(jù)庫冗災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)。6、 負(fù)責(zé)應(yīng)用負(fù)載均衡的部署和調(diào)試。7、 負(fù)責(zé)指導(dǎo)數(shù)據(jù)庫工程師管理員開展工作。4網(wǎng)絡(luò)管理員職責(zé):維護(hù)建設(shè)單位網(wǎng)絡(luò)系統(tǒng)正常,解決網(wǎng)絡(luò)相關(guān)故障。職位描述:1、對現(xiàn)有服務(wù)器、局域網(wǎng)絡(luò)及機(jī)房、配線間的日常管理維護(hù);2、對信息安全建設(shè)提出相關(guān)建議,確保網(wǎng)絡(luò)的安全;3、保證外網(wǎng)光纖線路正常,保證局域網(wǎng)運(yùn)行正常;4、對網(wǎng)絡(luò)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)進(jìn)行監(jiān)控;5、熟練掌握域策略設(shè)置、DHCP、DNS、F
11、TP服務(wù)器、NTFS權(quán)限設(shè)置等;6、編寫網(wǎng)絡(luò)部分的應(yīng)用處理預(yù)案并實(shí)施。7、工作認(rèn)真、細(xì)致,積極主動有條理性,具有良好的溝通能力及團(tuán)隊(duì)合作精神.4.3.5應(yīng)用、數(shù)據(jù)庫管理員職責(zé):維護(hù)建設(shè)單位業(yè)務(wù)系統(tǒng)運(yùn)行正常,解決應(yīng)用和數(shù)據(jù)庫故障。職位描述:1、監(jiān)測業(yè)務(wù)系統(tǒng)運(yùn)行狀況,應(yīng)用、數(shù)據(jù)庫性能監(jiān)視及優(yōu)化,作必要調(diào)整;2、規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復(fù)、遷移和災(zāi)備策略,根據(jù)業(yè)務(wù)的需要執(zhí)行數(shù)據(jù)轉(zhuǎn)換及遷移等操作;3、保證應(yīng)用和數(shù)據(jù)庫系統(tǒng)的安全性、完整性和運(yùn)行效率。4、負(fù)責(zé)數(shù)據(jù)庫平臺的整體架構(gòu)及解決方案的制定和實(shí)施;5、工作認(rèn)真、細(xì)致,積極主動有條理性,具有良好的溝通能力及團(tuán)隊(duì)合作精神.4.4運(yùn)維服務(wù)標(biāo)準(zhǔn)流
12、程IT運(yùn)維服務(wù)管理流程涉及事件管理、問題管理、配置管理、變更管理、發(fā)布管理、服務(wù)級別管理、財務(wù)管理、能力管理、可用性管理、服務(wù)持續(xù)性管理、知識管理及供應(yīng)商管理等,隨著運(yùn)維活動的不斷深入和持續(xù)改進(jìn),其他流程可能會逐步獨(dú)立并規(guī)范。 4標(biāo)準(zhǔn)流程圖4(暫無)服務(wù)臺是支持運(yùn)維服務(wù)的核心功能,與各個流程聯(lián)系密切。所有管理流程都要通過服務(wù)臺為用戶提供單點(diǎn)聯(lián)系,解答用戶的相關(guān)問題和需求,或?yàn)橛脩魧で笙鄳?yīng)的支持人員。在本系統(tǒng)中,服務(wù)臺是接收各種來源服務(wù)請求和相關(guān)信息反饋的唯一入口和出口,同時服務(wù)臺還負(fù)責(zé)一般請求、通過知識庫(歷史事件)能夠解決的請求;他也是復(fù)雜問題二線處理的橋梁。由于當(dāng)前人員不足,服務(wù)臺的工作暫
13、時由運(yùn)維工程師統(tǒng)一處理。4事件管理流程的主要目標(biāo)是盡快恢復(fù)服務(wù)提供并減少其對業(yè)務(wù)的不利影響,盡可能保證最好的服務(wù)質(zhì)量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類和支持、事件的調(diào)查和診斷、事件的解決和恢復(fù)以及事件的關(guān)閉。本系統(tǒng)把所有服務(wù)請求和報警歸結(jié)為事件。事件管理是提供服務(wù)臺和事件管理者對于事件記錄、處理、查詢、審核、派發(fā)等功能。它也包括通過和第三方監(jiān)控系統(tǒng)對接,把其發(fā)送報警形成事件的功能。4工單管理:工單是現(xiàn)場運(yùn)維、二線支持的任務(wù)載體,運(yùn)維工程依據(jù)所接收工單進(jìn)行運(yùn)維工作。工單管理是對工單實(shí)現(xiàn)創(chuàng)建、變更、查詢?yōu)g覽、派發(fā)、監(jiān)督等功能的模塊。4問題管理流程的主要目標(biāo)是預(yù)防問題和事
14、故的再次發(fā)生,并將未能解決的事件的影響降低到最小。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,通過合適的控制過程,尤其是變更管理和發(fā)布管理,負(fù)責(zé)確保解決方案的實(shí)施。問題管理還將維護(hù)有關(guān)問題、應(yīng)急方案和解決方案的信息。問題管理是針對已處理事件的遺留問題或處理事件的方案只是治標(biāo)不治本的不能徹底解決問題而考慮的模塊。根據(jù)事件、及處理方案,問題處理人經(jīng)過調(diào)查、診斷并提出最終解決方法。4變更管理實(shí)現(xiàn)所有基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)的變更,變更管理應(yīng)記錄并對所有要求的變更進(jìn)行分類,應(yīng)評估變更請求的風(fēng)險、影響和業(yè)務(wù)收益。其主要目標(biāo)是以對服務(wù)最小的干擾實(shí)現(xiàn)有益的變更。變更管理是要對重大資源的新增、變
15、更、升級等運(yùn)維活動進(jìn)行審核的功能,以免這些活動對現(xiàn)有資源的可用性造成沒有必要的影響和破壞;同時,他還要實(shí)現(xiàn)在工單中產(chǎn)生的變化進(jìn)行后審計的功能。4配置管理流程負(fù)責(zé)核實(shí)基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)中實(shí)施的變更以及配置項(xiàng)之間的關(guān)系是否已經(jīng)被正確記錄下來;確保配置管理數(shù)據(jù)庫能夠準(zhǔn)確地反映現(xiàn)存配置項(xiàng)的實(shí)際版本狀態(tài)。 配置管理實(shí)際上是全部資源的統(tǒng)一管理的功能,包括資源整個生命周期的參數(shù)或配置的變化記錄的管理。管理信息主要涉及分類、型號、版本、位置,狀態(tài)、相關(guān)資料等基本信息還包括核心參數(shù)等 4運(yùn)維知識經(jīng)驗(yàn)的總結(jié)、維護(hù)和共享是提高員工運(yùn)維技能水平、增強(qiáng)單位凝聚力的重要手段,也是把寶貴的經(jīng)驗(yàn)教訓(xùn)從支持人員頭腦逐步沉淀、固
16、化的重要方式。知識庫管理:知識庫是提供給運(yùn)維人員重要的技術(shù)資料內(nèi)容,他匯集在工作的遇到的典型案例歸納總結(jié)的知識要點(diǎn)和全面實(shí)用資料手冊。在本系統(tǒng)中,知識庫管理提供便于使用的人機(jī)接口、快速查詢的技術(shù)手段和維護(hù)手段。4 運(yùn)維管理系統(tǒng)提供一線解決率統(tǒng)計、客戶滿意度統(tǒng)計、按分類的事件匯總統(tǒng)計、工作報告生成的功能,按照一定格式根據(jù)事件數(shù)據(jù)、工單數(shù)據(jù)、問題數(shù)據(jù)、配置數(shù)據(jù)、變更數(shù)據(jù)可以幫助運(yùn)維管理者能把運(yùn)維的所做的工作內(nèi)容清晰的羅列出來。5、運(yùn)維服務(wù)內(nèi)容5.1運(yùn)維服務(wù)目標(biāo) 實(shí)驗(yàn)室運(yùn)維部門提供的運(yùn)行維護(hù)服務(wù)包括,虛擬機(jī)、主機(jī)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)安全設(shè)備和存儲設(shè)備的運(yùn)行維護(hù)服務(wù),保證云管理平臺的正常運(yùn)行,
17、降低整體管理成本,提高Iaas平臺的整體服務(wù)水平。同時根據(jù)日常維護(hù)的數(shù)據(jù)和記錄,給研發(fā)部門提供Iaas平臺優(yōu)化及改善建議。實(shí)驗(yàn)室運(yùn)維的組成主要可分為兩類:硬件設(shè)備和軟件系統(tǒng)。硬件設(shè)備包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、主機(jī)設(shè)備、存儲設(shè)備等;軟件設(shè)備可分為云管理平臺、操作系統(tǒng)、典型應(yīng)用軟件(如:數(shù)據(jù)庫軟件等)等。服務(wù)項(xiàng)目范圍覆蓋的信息系統(tǒng)資源以下方面的關(guān)鍵狀態(tài)及參數(shù)指標(biāo):Ø 運(yùn)行狀態(tài)、故障情況Ø 配置信息Ø 可用性情況及健康狀況性能指標(biāo)5.2 IT資產(chǎn)統(tǒng)計服務(wù)服務(wù)內(nèi)容包括:Ø 硬件設(shè)備型號、數(shù)量、版本等信息統(tǒng)計記錄Ø 軟件產(chǎn)品型號、版本和補(bǔ)丁等信息統(tǒng)計記錄&
18、#216; 網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)路由、網(wǎng)絡(luò)IP地址統(tǒng)計記錄Ø 綜合布線系統(tǒng)結(jié)構(gòu)圖的繪制Ø 其它附屬設(shè)備的統(tǒng)計記錄5.3網(wǎng)絡(luò)、安全系統(tǒng)運(yùn)維服務(wù)從網(wǎng)絡(luò)的連通性、網(wǎng)絡(luò)的性能、網(wǎng)絡(luò)的監(jiān)控管理三個方面實(shí)現(xiàn)對網(wǎng)絡(luò)系統(tǒng)的運(yùn)維管理,網(wǎng)絡(luò)設(shè)備位于IT架構(gòu)的骨干位置,下面是需要監(jiān)控的指標(biāo),及對應(yīng)健康狀況故障以后可能引起的問題。Ø 設(shè)備基礎(chǔ)性能檢測:cpu、內(nèi)存使用情況監(jiān)測。當(dāng)cpu、內(nèi)存使用率過高,會導(dǎo)致用戶網(wǎng)絡(luò)訪問質(zhì)量下降,丟包、時延較高等狀況的產(chǎn)生。說明當(dāng)前網(wǎng)絡(luò)設(shè)備負(fù)載較高,需要對下行設(shè)備進(jìn)行遷移,分流,減輕負(fù)載。Ø 設(shè)備日志查看;當(dāng)設(shè)備日志出現(xiàn)異常時,可能是設(shè)備出現(xiàn)異常訪問
19、或者異常配置,可能會導(dǎo)致網(wǎng)絡(luò)中斷。需要檢測防火墻等安全設(shè)備狀態(tài)。Ø 設(shè)備snmp、telnet狀態(tài);當(dāng)snmp、telnet都不可達(dá)時,一般是設(shè)備脫網(wǎng)情況的產(chǎn)生,會導(dǎo)致網(wǎng)絡(luò)中斷。需要人工查看設(shè)備運(yùn)行狀態(tài)。Ø 測試Ping,tracert等工具的連通性;當(dāng)ping丟包率過高,說明網(wǎng)絡(luò)訪問質(zhì)量有問題,需要tracert查看網(wǎng)絡(luò)路徑是哪一跳對應(yīng)的IP設(shè)備時延較高或者不可達(dá)。分析是哪個網(wǎng)關(guān)路由或者策略引起的問題。Ø 網(wǎng)絡(luò)安全策略應(yīng)用是否正常;安全策略異常會導(dǎo)致網(wǎng)絡(luò)設(shè)備遭受入侵,會影響整個網(wǎng)絡(luò)的訪問。Ø Internet帶寬流量的實(shí)時監(jiān)測;流量所占帶寬比較高,會造
20、成當(dāng)前網(wǎng)絡(luò)設(shè)備對應(yīng)端口網(wǎng)關(guān)的所有網(wǎng)絡(luò)訪問質(zhì)量下降。需要抓包查看是哪些設(shè)備對應(yīng)的訪問流量較高,決定是加大帶寬還是服務(wù)器中毒。 Ø 網(wǎng)絡(luò)拓?fù)滏溌窢顟B(tài)監(jiān)測;鏈路狀態(tài)異常說明網(wǎng)絡(luò)中某個設(shè)備異常,需要查看鏈路對應(yīng)的網(wǎng)絡(luò)設(shè)備健康狀況,結(jié)合其他指標(biāo)分析問題所在。Ø 異常網(wǎng)絡(luò)數(shù)據(jù)包流量、Dos、ddos等網(wǎng)絡(luò)攻擊情況監(jiān)測;存在異常網(wǎng)絡(luò)數(shù)據(jù)流量包等,會導(dǎo)致正常的網(wǎng)絡(luò)質(zhì)量下降,說明網(wǎng)絡(luò)可能受到攻擊,需要結(jié)合netflow和流量狀況查看異常流量的訪問網(wǎng)段,從路由策略或者防火墻限制該網(wǎng)段的訪問Ø 光纖光口光功率、光電口誤碼率大小。光功率值不在光模塊的默認(rèn)光功率范圍內(nèi),會導(dǎo)致光口不可用,可
21、能是光模塊出現(xiàn)故障,需要聯(lián)系廠家查看光模塊是否正常5.4主機(jī)、存儲系統(tǒng)運(yùn)維服務(wù)提供的主機(jī)、存儲系統(tǒng)的運(yùn)維服務(wù)包括:主機(jī)、存儲設(shè)備的日常監(jiān)控,設(shè)備的運(yùn)行狀態(tài)監(jiān)控,故障處理,操作系統(tǒng)維護(hù),補(bǔ)丁升級等內(nèi)容。進(jìn)行監(jiān)控管理的內(nèi)容包括:Ø CPU 性能管理;GPU指標(biāo)過高,會導(dǎo)致服務(wù)器程序運(yùn)行緩慢,出現(xiàn)卡死狀況。需要查看引起GPU過高原因,做虛機(jī)遷移等操作,減輕服務(wù)器壓力。Ø 內(nèi)存使用情況管理;內(nèi)存使用率過大,會導(dǎo)致服務(wù)器崩潰,需要及時擴(kuò)充內(nèi)存資源,或者回收不再使用的虛機(jī)資源。Ø 硬盤利用情況管理;硬盤使用率過高,會導(dǎo)致開始啟動失敗,需要定期清理服務(wù)器臨時文件,或者擴(kuò)充服務(wù)器
22、硬盤。Ø 系統(tǒng)進(jìn)程管理;服務(wù)器關(guān)鍵進(jìn)程運(yùn)行是否正常,異常會導(dǎo)致服務(wù)器崩潰,需要查看進(jìn)程異常原因。Ø 實(shí)時監(jiān)控主機(jī)電源、風(fēng)扇的使用情況及主機(jī)機(jī)箱內(nèi)部溫度;電源狀態(tài)異常,可能會導(dǎo)致服務(wù)器斷電,風(fēng)扇異常,主機(jī)穩(wěn)定過高會導(dǎo)致服務(wù)器重啟,需要與廠商聯(lián)系,查看硬件是否正常Ø 監(jiān)控主機(jī)硬盤運(yùn)行狀態(tài);硬盤讀寫狀態(tài)等標(biāo)識硬盤可用性,需要查看是否硬盤壓力過大,考慮更換存儲類型ssd等Ø 監(jiān)控主機(jī)網(wǎng)卡等硬件狀態(tài);主機(jī)網(wǎng)卡down掉,會影響服務(wù)器的網(wǎng)絡(luò)訪問,硬件異常會影響服務(wù)器正常運(yùn)行,需要聯(lián)系廠商做硬件檢測。Ø 監(jiān)控主機(jī)HA運(yùn)行狀況;災(zāi)備系統(tǒng)運(yùn)行異常,會導(dǎo)致HA切換
23、異常,需要查看引起HA異常的原因,是軟件問題還是硬件問題,逐步排除原因。 5.5數(shù)據(jù)庫系統(tǒng)運(yùn)維服務(wù)提供的數(shù)據(jù)庫運(yùn)行維護(hù)服務(wù)是包括主動數(shù)據(jù)庫性能管理,數(shù)據(jù)庫的主動性能管理對系統(tǒng)運(yùn)維非常重要。通過主動式性能管理可了解數(shù)據(jù)庫的日常運(yùn)行狀態(tài),識別數(shù)據(jù)庫的性能問題發(fā)生在什么地方,有針對性地進(jìn)行性能優(yōu)化。同時,密切注意數(shù)據(jù)庫系統(tǒng)的變化,主動地預(yù)防可能發(fā)生的問題。進(jìn)行監(jiān)控管理的內(nèi)容包括:Ø 數(shù)據(jù)庫基本信息:文件系統(tǒng)、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。存在上面會導(dǎo)致業(yè)務(wù)訪問緩慢,需要定位那些SQL占用內(nèi)存較大或者死鎖,針對具體情況進(jìn)行優(yōu)化代碼。Ø 表空間使用信息監(jiān)測;表空
24、間占用太大會影響查詢效率,需要優(yōu)化存儲結(jié)構(gòu),將集中存儲換為單表文件,索引根據(jù)實(shí)際業(yè)務(wù)進(jìn)行優(yōu)化,是否需要索引,或者索引刪除重建,或者建立分區(qū)表。Ø 數(shù)據(jù)庫文件I/0讀寫情況;數(shù)據(jù)庫I/0反應(yīng)數(shù)據(jù)庫瓶頸,查看引起I/O較大的原因是業(yè)務(wù)量較大還是服務(wù)器I/O現(xiàn)在,更換存儲類型,必要情況下更換內(nèi)存數(shù)據(jù)庫等。Ø Session連接數(shù)量監(jiān)控;Session長鏈接數(shù)量較大會造成數(shù)據(jù)庫負(fù)載較高,需要考慮將長鏈接更換為短連接。Ø 數(shù)據(jù)庫監(jiān)聽運(yùn)行狀態(tài)監(jiān)測;數(shù)據(jù)庫運(yùn)行狀態(tài)為down會導(dǎo)致業(yè)務(wù)中斷,查看是業(yè)務(wù)層還是網(wǎng)絡(luò)層引起的問題,如果為網(wǎng)絡(luò)層,需要對網(wǎng)絡(luò)情況排除,如果為業(yè)務(wù)層導(dǎo)致,要進(jìn)
25、行SQL優(yōu)化。Ø 查看每日數(shù)據(jù)備份、數(shù)據(jù)同步是否正常;數(shù)據(jù)庫備份異常,會導(dǎo)致備份數(shù)據(jù)丟失,對于數(shù)據(jù)庫遷移,和數(shù)據(jù)恢復(fù)造成不可恢復(fù)的影響,需要具體查看引起該問題是數(shù)據(jù)庫本身還是服務(wù)器問題,具體問題具體分析解決。Ø 對表和索引進(jìn)行Analyze,檢查表空間碎片;數(shù)據(jù)庫表和索引的占用量太大會影響查詢效率,需要調(diào)整表結(jié)構(gòu)或者索引刪除重建。Ø 數(shù)據(jù)庫對象的空間擴(kuò)展情況監(jiān)測;表空間擴(kuò)展太快會導(dǎo)致數(shù)據(jù)庫服務(wù)器存儲空間占滿,數(shù)據(jù)庫down掉等異常情況,需要優(yōu)化表結(jié)構(gòu)。5.6云管理平臺運(yùn)維服務(wù)云管理平臺主要包括管理節(jié)點(diǎn)、計算節(jié)點(diǎn)、存儲節(jié)點(diǎn)的運(yùn)維。同時,實(shí)時監(jiān)控重點(diǎn)虛擬機(jī),保證主要業(yè)
26、務(wù)不中斷。主要內(nèi)容包括:Ø Management Server狀態(tài)及性能監(jiān)控(cpu、內(nèi)存、磁盤、io、mysql數(shù)據(jù)庫、系統(tǒng)及應(yīng)用日志等);Ø 虛擬化主機(jī)agent狀態(tài)監(jiān)控;Ø 主存儲及二級存儲使用率監(jiān)控;Ø 數(shù)據(jù)中心虛擬資源(cpu、內(nèi)存、磁盤)使用量監(jiān)控;Ø 單臺計算節(jié)點(diǎn)cpu、內(nèi)存分配及實(shí)際使用量監(jiān)控;Ø 單臺存儲節(jié)點(diǎn)硬盤分配及實(shí)際使用量監(jiān)控;Ø 虛擬機(jī)模版、網(wǎng)絡(luò)、方案策略制定;Ø 系統(tǒng)虛擬機(jī)、虛機(jī)路由狀態(tài)監(jiān)控;Ø 非計費(fèi)用戶閑置虛擬資源回收;Ø 用戶資源審批、賬戶充值及余額管理;
27、16; 虛擬機(jī)外網(wǎng)網(wǎng)絡(luò)及端口開通;Ø 計算節(jié)點(diǎn)主機(jī)及存儲節(jié)點(diǎn)擴(kuò)容;5.7運(yùn)維工具Ø 監(jiān)控工具實(shí)驗(yàn)室選用開源運(yùn)維工具Zabbix,Zabbix是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)控以及網(wǎng)絡(luò)監(jiān)控功能的企業(yè)級開源運(yùn)維平臺,也是目前國內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件。Grafana-zabbix展示效果入門容易、上手簡單、功能強(qiáng)大并且開源免費(fèi)是對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕日常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進(jìn)行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的設(shè)備。理論上,通過Zabbi
28、x提供的插件式架構(gòu),可以滿足企業(yè)的任何需求。優(yōu)點(diǎn):1. 支持多平臺的企業(yè)級分布式開源監(jiān)控軟件;2. 安裝部署簡單、管理方便;3. 功能強(qiáng)大,監(jiān)控靈活,可實(shí)現(xiàn)復(fù)雜多條件告警;4. 多種數(shù)據(jù)采集插件,靈活集成;5. 自帶畫圖功能,得到的數(shù)據(jù)可以繪成圖形;6. 同時支持調(diào)用腳本,很方便;7. 提供多種API接口,定制化最高的監(jiān)控軟件;8. 出現(xiàn)問題時可自動遠(yuǎn)程執(zhí)行命令(需對agent設(shè)置執(zhí)行權(quán)限);缺點(diǎn):1. 項(xiàng)目批量修改不方便;2. 社區(qū)雖然成熟,但是中文資料相對較少,服務(wù)支持有限;3. 入門容易,能實(shí)現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進(jìn)行大量的二次定制開發(fā),難度較大;4. 系
29、統(tǒng)級別報警設(shè)置相對比較多,如果不篩選的話報警郵件會很多;并且自定義的項(xiàng)目報警需要自己設(shè)置,過程比較繁瑣;5. 缺少數(shù)據(jù)匯總功能,如無法查看一組服務(wù)器平均值,需進(jìn)行二次開發(fā);6. 數(shù)據(jù)報表需要特殊二次開發(fā)定義;實(shí)驗(yàn)室監(jiān)控體系也有集中式監(jiān)控擴(kuò)展到分布式監(jiān)控,監(jiān)控系統(tǒng)之間的耦合性逐步降低。在分布式系統(tǒng)中,整個系統(tǒng)有一個監(jiān)控中心服務(wù)器,若干個子監(jiān)控服務(wù)器和被監(jiān)控對象組成的,每一個子監(jiān)控服務(wù)器負(fù)責(zé)監(jiān)控屬于它所屬的子系統(tǒng),不同的子系統(tǒng)之間也不完全獨(dú)立,他們之間的規(guī)模也不大,產(chǎn)生的數(shù)據(jù)也不是很大。這樣就大大減小中心監(jiān)控服務(wù)器的工作壓力。圖:分布式監(jiān)控架構(gòu)分布式監(jiān)控主要分三個層次,最底層是需要監(jiān)控的節(jié)點(diǎn),他通
30、過啟動snmp服務(wù)或者主動發(fā)送trapped或者啟動agent進(jìn)程。收集每個節(jié)點(diǎn)的狀態(tài)信息,并向監(jiān)控子服務(wù)器發(fā)送收集的信息。中間層是proxy服務(wù)器層,它負(fù)責(zé)收集每個節(jié)點(diǎn)發(fā)送給它的監(jiān)控信息,然后向中心的監(jiān)控服務(wù)器發(fā)送搜集到的監(jiān)控信息。最上面一層是中心監(jiān)控服務(wù)器,它主要負(fù)責(zé)收集每個子監(jiān)控服務(wù)器的數(shù)據(jù),然后存入數(shù)據(jù)庫,再通過web服務(wù)器發(fā)送提供展現(xiàn)、查詢、等服務(wù)。 分布式的監(jiān)控結(jié)構(gòu)將大量數(shù)據(jù)采集的工作分散到每個監(jiān)控子系統(tǒng)中,從而極大的減少了監(jiān)控中心服務(wù)器的壓力,減少了網(wǎng)絡(luò)的負(fù)載,但是也可能帶來一定的系統(tǒng)延遲。Zabbix性能優(yōu)化:性能指標(biāo)的采集方式根據(jù)不同指標(biāo)類型進(jìn)行指標(biāo)分組,如CPU組、內(nèi)存組、
31、文件系統(tǒng)組、進(jìn)程組等,每個性能組又對應(yīng)若干個性能,根據(jù)不同用戶對于不同指標(biāo)關(guān)注度不同,指標(biāo)采集力度也不同,如CPU內(nèi)存等實(shí)時度要求比較高的,需要1分鐘采集一次,而對應(yīng)存儲的硬盤檢測可能趨勢變化不大,所以采集力度可能比較大一周或者一月。而隨著設(shè)備量的增加,虛機(jī)的擴(kuò)張變快,zabbix服務(wù)器的優(yōu)化不得不加入考慮,Zabbix雖然采用分布式結(jié)構(gòu),但是指標(biāo)計算(按照通用指標(biāo)統(tǒng)計) : 2500(服務(wù)器數(shù)量)*15(指標(biāo)數(shù)量)*3600(一天) = 135000000Zabbix server的性能同過查看指標(biāo),每秒處理數(shù)和等待隊(duì)列長度Zabbix數(shù)據(jù)庫調(diào)優(yōu):a) 使用innodb,為每一張數(shù)據(jù)庫表使用一個文件 ,修改my.cf innodb_file_per_table = 1;b) 使用分區(qū)表關(guān)閉houerkeeper,zabbix_server.conf 參數(shù) DisableHousekeeper=1;c) 使用分區(qū)表,需要建立分區(qū)的相關(guān)表f配置文件相關(guān)樣例如下圖:6、應(yīng)急服務(wù)響應(yīng)措施運(yùn)維項(xiàng)目組制定了詳盡的應(yīng)急處理預(yù)案,整個流程嚴(yán)謹(jǐn)而有序。但在服務(wù)維護(hù)過程中,意外情況將難以完全避免。我們將對項(xiàng)目實(shí)施的突發(fā)風(fēng)險進(jìn)行詳細(xì)分析,并且針對各類突發(fā)事件,設(shè)計了相應(yīng)的預(yù)防與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五一座談會方案
- 基于流形擬合的對抗性防御算法研究
- 2025年六安b2貨運(yùn)資格證考試題庫
- 大氣湍流與水下環(huán)境下單像素成像研究
- 影視導(dǎo)演藝術(shù)與音像制品制作考核試卷
- 2025年外研版三年級起點(diǎn)九年級生物上冊月考試卷含答案
- 2025年人教版八年級地理上冊階段測試試卷
- 智能交通資源共享合同(2篇)
- 智慧城市平臺合作開發(fā)合同(2篇)
- 服務(wù)申請高新企業(yè)保密協(xié)議書(2篇)
- 非哺乳期乳腺炎患者的護(hù)理
- 淋巴瘤的治療及護(hù)理
- 骨科抗菌藥物應(yīng)用分析報告
- 中職安全管理方案
- 百詞斬托福詞匯excel版本
- 高考寫作指導(dǎo)常見議論文論證方法知識梳理與舉例解析課件27張
- 玻璃反應(yīng)釜安全操作及保養(yǎng)規(guī)程
- 高中英語新課標(biāo)詞匯表(附詞組)
- 證券公司信用風(fēng)險和操作風(fēng)險管理理論和實(shí)踐中金公司
- 一級建造師繼續(xù)教育最全題庫及答案(新)
- 2022年高考湖南卷生物試題(含答案解析)
評論
0/150
提交評論