




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、運行維護管理體系和制度規(guī)范目錄333566788991、總則第一條 為保障實驗室系統(tǒng)軟硬件設備的良好運行,使員工的運維工作制度化、流程化、規(guī)范化,特制訂本制度。第二條 運維工作總體目標:立足根本促發(fā)展,開拓運維新局面。在企業(yè)發(fā)展壯大時期,通過網絡、桌面、系統(tǒng)等的運維,促進企業(yè)穩(wěn)定可持續(xù)性發(fā)展。第三條 運維管理制度的適用范圍:運維人員。2、編制方法本實施細則包括運維服務全生命周期管理方法、管理標準 / 規(guī)范、管理模式、管理支撐 工具、管理對象以及基于流程的管理方法。本實施細則以 ITIL/ISO20000 為基礎,以信息化項目的運維為目標,以管理支撐工具為 手段,以流程化、規(guī)范化、標準化管理為方
2、法,以全生命周期的PDC循環(huán)為提升途徑,體現(xiàn)了對運維服務全過程的體系化管理。3、運維部工作職責一、負責網站運維和技術支持(一)根據(jù)網站運營戰(zhàn)略和目標 , 負責網站整體架構、欄目、應用系統(tǒng)等技術開發(fā)方 案制定和組織開發(fā),保障網站技術的穩(wěn)定性和先進性。(二)負責網站欄目和應用系統(tǒng)的使用培訓和操作使用指南編寫,對用戶使用過程中 出現(xiàn)問題的溝通和解決。(三)網站設備和軟件購買計劃書的擬定,包括采購數(shù)量、品牌規(guī)格、技術參數(shù)。會 同行政部進行采購。(四)網站設備和軟件操作規(guī)程和應用管理制度的制定,并負責監(jiān)督執(zhí)行。五)網站設備和軟件安裝、調試和驗收,使用培訓和維修保養(yǎng)(六)網站日常運行過程中信息安全和技術問
3、題的協(xié)調解決, 保障網站 24 小時安全穩(wěn) 定運行。(七)網站技術服務外包管理,主要包括技術外包開發(fā)、運行服務托管和空間域名管 理。(八)負責網站管理系統(tǒng)及設備保密口令的設置和保存,保密口令設置后報中心主任 備案,保密口令設定后任何人不得隨意更改,保密口令每季度更新一次。(九)負責網站新程序、新系統(tǒng)和網站改版升級方案技術的設計開發(fā)。二、負責網站信息和技術安全(一)執(zhí)行國家和省上有關網絡信息技術安全的法律法規(guī),與通信管理和網絡安全監(jiān) 管部門聯(lián)絡,及時處理網站信息技術安全方面存在的問題,確保網站安全、穩(wěn)定、可靠運 行。(二) 網站信息技術安全保密制度和工作流程的制定, 落實信息技術安全保密責任制,
4、 執(zhí)行“誰主管、誰負責,誰主辦、誰負責”的原則,責任到人。( 三 ) 在服務器和計算機之間設置硬件防火墻,在服務器及工作站上均安裝防病毒軟 件,進行硬件和技術雙保護,確保網站不受病毒和黑客攻擊。(四)負責網站信息技術安全應急處理預案制定和實施。(五)安排專人監(jiān)控網站各頻道,各頁面,各版塊,各欄目信息內容,建立網站信息 技術安全監(jiān)控值班登記制度,發(fā)現(xiàn)問題及時處理,并登記問題和處理結果登記;六)建立多機備份網站信息服務系統(tǒng)機制,一旦主系統(tǒng)遇到故障或受到攻擊導致不 能正常運行,可以在最短的時間內替換主系統(tǒng)提供服務。(七)建立網站系統(tǒng)集中式權限管理,按照崗位職責設定工作人員操作權限,針對不同應用系統(tǒng)、
5、終端、操作人員,設置共享數(shù)據(jù)庫信息的訪問權限,并設置密碼。不同的操 作人員設定不同的用戶名,且定期更換,嚴禁操作人員泄漏密碼。4、運維服務管理體系運維服務管理體系規(guī)定了運維活動涉及的各類實體,以及這些實體間的相互關系。相關的實體按照運維服務管理體系進行有機組織,并協(xié)調工作,按照服務協(xié)議要求提供不同 級別的IT運維服務。4.1 運維服務管理對象運維服務管理對象包括基礎設施、應用系統(tǒng)、用戶、研發(fā)部門以及IT運維部門和人員,具體內容如下:(1) 基礎設施包括網絡、主機系統(tǒng)、存儲系統(tǒng)、安全系統(tǒng)等。(2) 應用系統(tǒng)包括uap云管理平臺、cloud門戶、demo zabbix、機房設備管理系統(tǒng)、vmwar
6、e以及yum源等。(3) 用戶包括使用如上應用系統(tǒng)的用戶。(4) 研發(fā)部門包括 Iaas 平臺研發(fā)部門。(5) 運維部門和人員包括內部參與運維活動的相關部門和人員,以及提供運維服務的企 業(yè)和相關人員。4.2 運維系統(tǒng)功能框架根據(jù)建設單位的系統(tǒng)結構和業(yè)務開展需要,運維項目組將項目的維護框架分為9個具體組成部分,分別為:服務臺、事件管理、工單管理、問題管理、變更管理、配置管理、工 程師考核、知識庫管理、統(tǒng)計、系統(tǒng)管理等 9個子項。而具體運維流程將以此為依據(jù)開展工 作。4.3 運維管理組織結構本運維項目的運維管理結構位三層模式,具體如下圖所示。由項目負責人與甲方進行 業(yè)務范圍接洽,并將溝通結果向下傳
7、遞。項目經理負責項目的整體運維工作,包括各種制 度的制定和實施。運維工程師則在項目經理的指導下開展維護工作。4.3.1 運維負責人職責:負責項目商務、整體協(xié)調事宜。職位描述:1)、整體負責建設單位運維項目服務計劃的制定,領導項目經理并安排項目工作,指 導項目經理完成具體維護工作,每周聽取項目經理的工作匯報,負責考核項目經理工作完 成情況。2)、協(xié)助建設單位完成新增項目的調研、方案設計并指導項目經理進行具體實施。4.3.2 運維主管職責:規(guī)劃、執(zhí)行、完善信息化項目的運維工作,指導網絡、數(shù)據(jù)庫維護工程師開展 工作職位描述:1、根據(jù)公司戰(zhàn)略目標,指導下屬工程師開展客戶服務工作,確保運維工作能夠滿足客
8、 戶的實際需要;2、建立和持續(xù)完善運維管理體系,優(yōu)化運維流程流程,解決運維服務中出現(xiàn)的特殊問 題;3、規(guī)劃并提升運維工程師專業(yè)服務能力,在整體上提高客戶滿意度;4、制定和持續(xù)完善績效考核體系;5、制定整理運維項目的應急預案系統(tǒng),并指導運維工程師實施;6、提高自身專業(yè)技能,在業(yè)務方面給予網絡管理員和數(shù)據(jù)庫管理員指導。4.3.3 系統(tǒng)管理員職責:操作系統(tǒng)、應用、數(shù)據(jù)庫管理, oracle 性能調優(yōu),實現(xiàn)應用負載均衡。職位描述:1、技術主管非項目常駐人員,根據(jù)項目需要進行專業(yè)方面指導;2、負責數(shù)據(jù)庫性能分析與調優(yōu),數(shù)據(jù)庫運行狀態(tài)監(jiān)控,及時發(fā)現(xiàn)異常并快速處理。3、熟練掌握OraclelOG的RA技術,
9、能夠實現(xiàn)部署及調優(yōu)。4、掌握WAS Weblogic、Tomcat、websphere等中間件的工作原理,能夠實現(xiàn)部署調優(yōu) 及故障解決。5、熟練掌握red-flag、redhat等linux操作系統(tǒng),部署oracle10g、mysql數(shù)據(jù)庫。熟練掌握 dataguard 技術,保證 oracle 數(shù)據(jù)庫冗災、數(shù)據(jù)保護、故障恢復。6、負責應用負載均衡的部署和調試。7、負責指導數(shù)據(jù)庫工程師管理員開展工作。4.3.4 網絡管理員職責:維護建設單位網絡系統(tǒng)正常,解決網絡相關故障。職位描述:1、對現(xiàn)有服務器、局域網絡及機房、配線間的日常管理維護;2、對信息安全建設提出相關建議,確保網絡的安全;3、保證外
10、網光纖線路正常,保證局域網運行正常;4、對網絡系統(tǒng)和網絡設備的運行狀態(tài)進行監(jiān)控;5、熟練掌握域策略設置、DHCP DNS FTP服務器、NTFS權限設置等;6、編寫網絡部分的應用處理預案并實施。7、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神4.3.5 應用、數(shù)據(jù)庫管理員職責:維護建設單位業(yè)務系統(tǒng)運行正常,解決應用和數(shù)據(jù)庫故障。職位描述:1、監(jiān)測業(yè)務系統(tǒng)運行狀況,應用、數(shù)據(jù)庫性能監(jiān)視及優(yōu)化,作必要調整;2、規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復、遷移和災備策略,根據(jù)業(yè)務的需要執(zhí) 行數(shù)據(jù)轉換及遷移等操作;3、保證應用和數(shù)據(jù)庫系統(tǒng)的安全性、完整性和運行效率。4、負責數(shù)據(jù)庫平臺
11、的整體架構及解決方案的制定和實施;5、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.4.4 運維服務標準流程IT 運維服務管理流程涉及事件管理、問題管理、配置管理、變更管理、發(fā)布管理、服 務級別管理、財務管理、能力管理、可用性管理、服務持續(xù)性管理、知識管理及供應商管 理等,隨著運維活動的不斷深入和持續(xù)改進,其他流程可能會逐步獨立并規(guī)范。4.4.1 項目運維服務工作標準流程圖4.4.2 服務臺(暫無)服務臺是支持運維服務的核心功能,與各個流程聯(lián)系密切。所有管理流程都要通過服 務臺為用戶提供單點聯(lián)系,解答用戶的相關問題和需求,或為用戶尋求相應的支持人員。在本系統(tǒng)中 , 服務臺
12、是接收各種來源服務請求和相關信息反饋的唯一入口和出口,同時 服務臺還負責一般請求、通過知識庫(歷史事件)能夠解決的請求;他也是復雜問題二線 處理的橋梁。由于當前人員不足,服務臺的工作暫時由運維工程師統(tǒng)一處理4.4.3 事件管理事件管理流程的主要目標是盡快恢復服務提供并減少其對業(yè)務的不利影響,盡可能保 證最好的服務質量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類 和支持、事件的調查和診斷、事件的解決和恢復以及事件的關閉。本系統(tǒng)把所有服務請求和報警歸結為事件。事件管理是提供服務臺和事件管理者對于 事件記錄、處理、查詢、審核、派發(fā)等功能。它也包括通過和第三方監(jiān)控系統(tǒng)對接,把其 發(fā)送
13、報警形成事件的功能。4.4.4 工單管理工單管理:工單是現(xiàn)場運維、二線支持的任務載體,運維工程依據(jù)所接收工單進行運維工作。工單管理是對工單實現(xiàn)創(chuàng)建、變更、查詢?yōu)g覽、派發(fā)、監(jiān)督等功能的模塊。4.4.5 問題管理問題管理流程的主要目標是預防問題和事故的再次發(fā)生,并將未能解決的事件的影響 降低到最小。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,通 過合適的控制過程,尤其是變更管理和發(fā)布管理,負責確保解決方案的實施。問題管理還 將維護有關問題、應急方案和解決方案的信息。問題管理是針對已處理事件的遺留問題或處理事件的方案只是治標不治本的不能徹底 解決問題而考慮的模塊。根據(jù)事件、及處理
14、方案,問題處理人經過調查、診斷并提出最終 解決方法。4.4.6 變更管理變更管理實現(xiàn)所有基礎設施和應用系統(tǒng)的變更,變更管理應記錄并對所有要求的變更 進行分類,應評估變更請求的風險、影響和業(yè)務收益。其主要目標是以對服務最小的干擾 實現(xiàn)有益的變更。變更管理是要對重大資源的新增、變更、升級等運維活動進行審核的功能,以免這些 活動對現(xiàn)有資源的可用性造成沒有必要的影響和破壞;同時,他還要實現(xiàn)在工單中產生的 變化進行后審計的功能。4.4.7 配置管理配置管理流程負責核實基礎設施和應用系統(tǒng)中實施的變更以及配置項之間的關系是否 已經被正確記錄下來;確保配置管理數(shù)據(jù)庫能夠準確地反映現(xiàn)存配置項的實際版本狀態(tài)。配置
15、管理實際上是全部資源的統(tǒng)一管理的功能,包括資源整個生命周期的參數(shù)或配置 的變化記錄的管理。管理信息主要涉及分類、型號、版本、位置,狀態(tài)、相關資料等基本 信息還包括核心參數(shù)等4.4.8 知識庫管理運維知識經驗的總結、維護和共享是提高員工運維技能水平、增強單位凝聚力的重要 手段,也是把寶貴的經驗教訓從支持人員頭腦逐步沉淀、固化的重要方式。知識庫管理:知識庫是提供給運維人員重要的技術資料內容,他匯集在工作的遇到的 典型案例歸納總結的知識要點和全面實用資料手冊。在本系統(tǒng)中,知識庫管理提供便于使 用的人機接口、快速查詢的技術手段和維護手段。4.4.9 統(tǒng)計及工作報告運維管理系統(tǒng)提供一線解決率統(tǒng)計、客戶滿
16、意度統(tǒng)計、按分類的事件匯總統(tǒng)計、工作 報告生成的功能,按照一定格式根據(jù)事件數(shù)據(jù)、工單數(shù)據(jù)、問題數(shù)據(jù)、配置數(shù)據(jù)、變更數(shù)據(jù)可以幫助運維管理者能把運維的所做的工作內容清晰的羅列出來。5、運維服務內容5.1運維服務目標實驗室運維部門提供的運行維護服務包括,虛擬機、主機設備、操作系統(tǒng)、數(shù)據(jù)庫、 網絡安全設備和存儲設備的運行維護服務,保證云管理平臺的正常運行,降低整體管理成 本,提高Iaas平臺的整體服務水平。同時根據(jù)日常維護的數(shù)據(jù)和記錄,給研發(fā)部門提供 Iaas平臺優(yōu)化及改善建議。實驗室運維的組成主要可分為兩類:硬件設備和軟件系統(tǒng)。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為云管
17、理平臺、操作系統(tǒng)、典型應用軟 件(如:數(shù)據(jù)庫軟件等)等。服務項目范圍覆蓋的信息系統(tǒng)資源以下方面的關鍵狀態(tài)及參數(shù)指標:運行狀態(tài)、故障情況配置信息可用性情況及健康狀況性能指標5.2IT資產統(tǒng)計服務服務內容包括:硬件設備型號、數(shù)量、版本等信息統(tǒng)計記錄 軟件產品型號、版本和補丁等信息統(tǒng)計記錄網絡結構、網絡路由、網絡IP地址統(tǒng)計記錄 綜合布線系統(tǒng)結構圖的繪制其它附屬設備的統(tǒng)計記錄5.3網絡、安全系統(tǒng)運維服務從網絡的連通性、網絡的性能、網絡的監(jiān)控管理三個方面實現(xiàn)對網絡系統(tǒng)的運維管理,網絡設備位于IT架構的骨干位置,下面是需要監(jiān)控的指標,及對應健康狀況故障以后可能 引起的問題。設備基礎性能檢測:cpu、內存
18、使用情況監(jiān)測。當cpu、內存使用率過高,會導致用戶網絡訪問質量下降,丟包、時延較高等狀況的產生。說明當前網絡設備負載較高,需要對下行設備進行遷移,分流,減輕負載。設備日志查看;當設備日志出現(xiàn)異常時,可能是設備出現(xiàn)異常訪問或者異常配置,可能會導致網絡中斷。需要檢測防火墻等安全設備狀態(tài)。設備 snmp telnet 狀態(tài);當snmp tel net都不可達時,一般是設備脫網情況的產生,會導致網絡中斷。需 要人工查看設備運行狀態(tài)。測試Ping,tracert 等工具的連通性;當ping丟包率過高,說明網絡訪問質量有問題,需要tracert查看網絡路徑是哪一跳對應的IP設備時延較高或者不可達。分析是哪
19、個網關路由或者策略引起的問網絡安全策略應用是否正常;安全策略異常會導致網絡設備遭受入侵,會影響整個網絡的訪問。In ternet帶寬流量的實時監(jiān)測;流量所占帶寬比較高,會造成當前網絡設備對應端口網關的所有網絡訪問質量下降。需要抓包查看是哪些設備對應的訪問流量較高,決定是加大帶寬還是服務器中毒。網絡拓撲鏈路狀態(tài)監(jiān)測;鏈路狀態(tài)異常說明網絡中某個設備異常,需要查看鏈路對應的網絡設備健康狀況,結合其他指標分析問題所在。異常網絡數(shù)據(jù)包流量、Dos、ddos等網絡攻擊情況監(jiān)測;存在異常網絡數(shù)據(jù)流量包等,會導致正常的網絡質量下降,說明網絡可能受到攻擊, 需要結合netflow和流量狀況查看異常流量的訪問網段
20、, 從路由策略或者防火墻限 制該網段的訪問光纖光口光功率、光電口誤碼率大小。光功率值不在光模塊的默認光功率范圍內,會導致光口不可用,可能是光模塊出現(xiàn)故障,需要聯(lián)系廠家查看光模塊是否正常5.4主機、存儲系統(tǒng)運維服務提供的主機、存儲系統(tǒng)的運維服務包括:主機、存儲設備的日常監(jiān)控,設備的運行狀 態(tài)監(jiān)控,故障處理,操作系統(tǒng)維護,補丁升級等內容。進行監(jiān)控管理的內容包括:CPU性能管理;GPU旨標過高,會導致服務器程序運行緩慢,出現(xiàn)卡死狀況。需要查看引起GPU過高原因,做虛機遷移等操作,減輕服務器壓力。內存使用情況管理;內存使用率過大,會導致服務器崩潰,需要及時擴充內存資源,或者回收不再使用 的虛機資源。硬
21、盤利用情況管理;硬盤使用率過高,會導致開始啟動失敗,需要定期清理服務器臨時文件,或者擴充 服務器硬盤。系統(tǒng)進程管理;服務器關鍵進程運行是否正常,異常會導致服務器崩潰,需要查看進程異常原因。實時監(jiān)控主機電源、風扇的使用情況及主機機箱內部溫度;電源狀態(tài)異常,可能會導致服務器斷電,風扇異常,主機穩(wěn)定過高會導致服務器重 啟,需要與廠商聯(lián)系,查看硬件是否正常監(jiān)控主機硬盤運行狀態(tài);硬盤讀寫狀態(tài)等標識硬盤可用性, 需要查看是否硬盤壓力過大,考慮更換存儲類型 ssd等監(jiān)控主機網卡等硬件狀態(tài);主機網卡down掉,會影響服務器的網絡訪問,硬件異常會影響服務器正常運行, 需要聯(lián)系廠商做硬件檢測。監(jiān)控主機HA運行狀況
22、;災備系統(tǒng)運行異常,會導致HA切換異常,需要查看引起HA異常的原因,是軟件問 題還是硬件問題,逐步排除原因。5.5數(shù)據(jù)庫系統(tǒng)運維服務提供的數(shù)據(jù)庫運行維護服務是包括主動數(shù)據(jù)庫性能管理,數(shù)據(jù)庫的主動性能管理對系 統(tǒng)運維非常重要。通過主動式性能管理可了解數(shù)據(jù)庫的日常運行狀態(tài),識別數(shù)據(jù)庫的性能 問題發(fā)生在什么地方,有針對性地進行性能優(yōu)化。同時,密切注意數(shù)據(jù)庫系統(tǒng)的變化,主 動地預防可能發(fā)生的問題。進行監(jiān)控管理的內容包括:數(shù)據(jù)庫基本信息:文件系統(tǒng)、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。存在上面會導致業(yè)務訪問緩慢,需要定位那些SQL占用內存較大或者死鎖,針對具 體情況進行優(yōu)化代碼。表空間使用
23、信息監(jiān)測;表空間占用太大會影響查詢效率,需要優(yōu)化存儲結構,將集中存儲換為單表文件,索引根據(jù)實際業(yè)務進行優(yōu)化,是否需要索引,或者索引刪除重建,或者建立分區(qū)表。數(shù)據(jù)庫文件I/O讀寫情況;數(shù)據(jù)庫I/O反應數(shù)據(jù)庫瓶頸,查看引起I/O較大的原因是業(yè)務量較大還是服務器 I/O現(xiàn)在,更換存儲類型,必要情況下更換內存數(shù)據(jù)庫等。Session連接數(shù)量監(jiān)控;Session長鏈接數(shù)量較大會造成數(shù)據(jù)庫負載較高,需要考慮將長鏈接更換為短連接。數(shù)據(jù)庫監(jiān)聽運行狀態(tài)監(jiān)測;數(shù)據(jù)庫運行狀態(tài)為down會導致業(yè)務中斷,查看是業(yè)務層還是網絡層引起的問題, 如果為網絡層,需要對網絡情況排除,如果為業(yè)務層導致,要進行 SQL優(yōu)化。查看每日
24、數(shù)據(jù)備份、數(shù)據(jù)同步是否正常;數(shù)據(jù)庫備份異常,會導致備份數(shù)據(jù)丟失,對于數(shù)據(jù)庫遷移,和數(shù)據(jù)恢復造成不可恢 復的影響,需要具體查看引起該問題是數(shù)據(jù)庫本身還是服務器問題,具體問題具體分析解決。對表和索引進行Analyze,檢查表空間碎片;數(shù)據(jù)庫表和索引的占用量太大會影響查詢效率,需要調整表結構或者索引刪除重 建。數(shù)據(jù)庫對象的空間擴展情況監(jiān)測;表空間擴展太快會導致數(shù)據(jù)庫服務器存儲空間占滿,數(shù)據(jù)庫down掉等異常情況,需要優(yōu)化表結構5.6云管理平臺運維服務云管理平臺主要包括管理節(jié)點、計算節(jié)點、存儲節(jié)點的運維。同時,實時監(jiān)控重點虛擬機,保證主要業(yè)務不中斷。主要內容包括:ManagemenServer狀態(tài)及性
25、能監(jiān)控(cpu、內存、磁盤、io、mysql數(shù)據(jù)庫、系統(tǒng)及應用日志等);虛擬化主機age nt狀態(tài)監(jiān)控;主存儲及二級存儲使用率監(jiān)控;數(shù)據(jù)中心虛擬資源(cpu、內存、磁盤)使用量監(jiān)控;單臺計算節(jié)點cpu、內存分配及實際使用量監(jiān)控;單臺存儲節(jié)點硬盤分配及實際使用量監(jiān)控;虛擬機模版、網絡、方案策略制定;系統(tǒng)虛擬機、虛機路由狀態(tài)監(jiān)控;非計費用戶閑置虛擬資源回收;用戶資源審批、賬戶充值及余額管理;虛擬機外網網絡及端口開通; 計算節(jié)點主機及存儲節(jié)點擴容;5.7運維工具監(jiān)控工具實驗室選用開源運維工具Zabbix , Zabbix是一個基于WE界面的提供分布式系統(tǒng)監(jiān)控以 及網絡監(jiān)控功能的企業(yè)級開源運維平臺,
26、也是目前國內互聯(lián)網用戶中使用最廣的監(jiān)控軟件。Grafana-zabbix 展示效果入門容易、上手簡單、功能強大并且開源免費是對 Zabbix的最直觀評價。Zabbix 易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕日常管理的工作量, 豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進行數(shù)據(jù)采集,而分布式系統(tǒng)架構可以支持 監(jiān)控更多的設備。理論上,通過 Zabbix提供的插件式架構,可以滿足企業(yè)的任何需求。優(yōu)點:1. 支持多平臺的企業(yè)級分布式開源監(jiān)控軟件;2. 安裝部署簡單、管理方便;3. 功能強大,監(jiān)控靈活,可實現(xiàn)復雜多條件告警;4. 多種數(shù)據(jù)采集插件,靈活集成;5. 自帶畫圖功能,
27、得到的數(shù)據(jù)可以繪成圖形;6. 同時支持調用腳本,很方便;7. 提供多種API接口,定制化最高的監(jiān)控軟件;8. 出現(xiàn)問題時可自動遠程執(zhí)行命令(需對age nt設置執(zhí)行權限);缺點:1. 項目批量修改不方便 ;2. 社區(qū)雖然成熟,但是中文資料相對較少,服務支持有限 ;3. 入門容易,能實現(xiàn)基礎的監(jiān)控,但是深層次需求需要非常熟悉Zabbix 并進行大量的二次定制開發(fā),難度較大 ;4. 系統(tǒng)級別報警設置相對比較多, 如果不篩選的話報警郵件會很多 ; 并且自定義的 項目報警需要自己設置,過程比較繁瑣 ;5. 缺少數(shù)據(jù)匯總功能,如無法查看一組平均值,需進行二次開發(fā) ;6. 數(shù)據(jù)報表需要特殊二次開發(fā)定義 ;
28、實驗室監(jiān)控體系也有集中式監(jiān)控擴展到分布式監(jiān)控,監(jiān)控系統(tǒng)之間的耦合性逐步降低。在分布式系統(tǒng)中,整個系統(tǒng)有一個監(jiān)控中心服務器,若干個子監(jiān)控服務器和被監(jiān)控對 象組成的,每一個子監(jiān)控服務器負責監(jiān)控屬于它所屬的子系統(tǒng),不同的子系統(tǒng)之間也不完 全獨立,他們之間的規(guī)模也不大,產生的數(shù)據(jù)也不是很大。這樣就大大減小中心監(jiān)控服務 器的工作壓力。圖:分布式監(jiān)控架構分布式監(jiān)控主要分三個層次,最底層是需要監(jiān)控的節(jié)點,他通過啟動snmr服務或者主動發(fā)送trapped或者啟動age nt進程。收集每個節(jié)點的狀態(tài)信息,并向監(jiān)控子服務器發(fā)送收 集的信息。中間層是 proxy 服務器層,它負責收集每個節(jié)點發(fā)送給它的監(jiān)控信息,然后
29、向中 心的監(jiān)控服務器發(fā)送搜集到的監(jiān)控信息。最上面一層是中心監(jiān)控服務器,它主要負責收集每個子監(jiān)控服務器的數(shù)據(jù),然后存入數(shù)據(jù)庫,再通過 web服務器發(fā)送提供展現(xiàn)、查詢、等服 務。 分布式的監(jiān)控結構將大量數(shù)據(jù)采集的工作分散到每個監(jiān)控子系統(tǒng)中, 從而極大的 減少了監(jiān)控中心服務器的壓力,減少了網絡的負載,但是也可能帶來一定的系統(tǒng)延遲。Zabbix 性能優(yōu)化:性能指標的采集方式根據(jù)不同指標類型進行指標分組,如CPU&、內存組、文件系統(tǒng)組、 進程組等,每個性能組又對應若干個性能,根據(jù)不同用戶對于不同指標關注度不同,指標 采集力度也不同,如CP內存等實時度要求比較高的,需要1分鐘采集一次,而對應存儲的 硬盤檢
30、測可能趨勢變化不大,所以采集力度可能比較大一周或者一月。而隨著設備量的增 加,虛機的擴張變快,zabbix服務器的優(yōu)化不得不加入考慮,Zabbix雖然采用分布式結構, 但是指標計算 (按照通用指標統(tǒng)計 ) : 2500( 服務器數(shù)量 )*15( 指標數(shù)量)*3600( 一天) = 135000000Zabbix server 的性能同過查看指標,每秒處理數(shù)和等待隊列長度Zabbix數(shù)據(jù)庫調優(yōu):a)使用innodb,為每一張數(shù)據(jù)庫表使用一個文件,修改my.cf innodb_file_per_table= 1;b)使用分區(qū)表關閉 houerkeeper,zabbix_server.conf 參數(shù) DisableHousekeeper=1;c)使用分區(qū)表,需要建立分區(qū)的相關表my.c nf配置文件相關樣例如下圖:6應急服務響應措施運維項目組制定了詳盡的應急處理預案,整個流程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子商務平臺運營銷售合作協(xié)議
- 股份制企業(yè)合同文書范例與解析
- 網絡直播行業(yè)版權使用許可協(xié)議
- 教育信息化產品采購安裝協(xié)議
- 經典個人手車轉讓合同
- 海洋資源開發(fā)項目合作框架協(xié)議
- 電子發(fā)票開具專項協(xié)議
- 粵教版高中信息技術必修教學設計:4.1編制計算機程序解決問題
- Unit 5 There is a big bed 單元整體(教學設計)-2024-2025學年人教PEP版英語五年級上冊
- 2025年冷拔鋼項目合作計劃書
- 殯儀服務員考試:殯儀服務員考試考試卷及答案
- 2024運動明星營銷市場與趨勢觀察
- 2024年全國職業(yè)院校技能大賽高職組(建筑裝飾數(shù)字化施工賽項)備賽試題庫(含答案)
- 往年面試 (軍隊文職)考試試卷含答案解析
- 2024中智集團招聘重要崗位(高頻重點提升專題訓練)共500題附帶答案詳解
- DL-T+5442-2020輸電線路桿塔制圖和構造規(guī)定
- 穴位按摩法操作評分標準
- 旅游服務質量評價體系優(yōu)化策略
- 六年級上冊口算題1000道(打印版)
- 圍手術期護理管理制度
- T-CAME 59-2023 醫(yī)院消毒供應中心建設與運行管理標準
評論
0/150
提交評論