云平臺服務器存儲應急預案_第1頁
云平臺服務器存儲應急預案_第2頁
云平臺服務器存儲應急預案_第3頁
云平臺服務器存儲應急預案_第4頁
云平臺服務器存儲應急預案_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

云平臺服務器存儲應急預案目錄TOC\o"1-5"\h\z目的 3\o"CurrentDocument"適用范圍 3\o"CurrentDocument"規(guī)范內(nèi)容 3\o"CurrentDocument"故障分類 3\o"CurrentDocument"應急準備 3\o"CurrentDocument"具體措施 3\o"CurrentDocument"故障處理規(guī)范 4\o"CurrentDocument"機房停電 4\o"CurrentDocument"主機故障 4\o"CurrentDocument"存儲系統(tǒng)故障 4\o"CurrentDocument"云平臺軟件系統(tǒng)故障 4\o"CurrentDocument"云平臺管理服務器故障預防 5\o"CurrentDocument"云平臺日常告警故障排除 5\o"CurrentDocument"硬件故障預防與排除 5\o"CurrentDocument"故障預防 5\o"CurrentDocument"故障排除 5\o"CurrentDocument"故障處理 6目的為提高云平臺服務器、存儲故障處理能力,形成科學、有效、反應迅速的日常管理流程和應急處理機制,確保平臺的安全和穩(wěn)定運行,最大限度地減小故障對生產(chǎn)的影響,降低業(yè)務中斷風險,特制定本規(guī)范。適用范圍本規(guī)范適用于提供云計算虛擬化平臺服務的服務器、存儲管理,應對發(fā)生和可能發(fā)生的故障。規(guī)范內(nèi)容服務器運維和應急處理應包括風險評估,檢測體系和應急處理三個環(huán)節(jié),合理有效的執(zhí)行控制將防止故障影響擴大。故障分類平臺故障包括服務器硬件和存儲系統(tǒng)故障;自然災害(水、火、電等)造成的物理破壞;人為誤操作造成的損害等。應急準備部門責任人員明確職責和管理范圍,根據(jù)實際情況,安排應急值班,確保到崗到人,聯(lián)絡暢通,處理及時準確。具體措施建立安全、可靠、穩(wěn)定運行的機房環(huán)境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統(tǒng)。虛擬化平臺服務器應采用可靠、穩(wěn)定、兼容性硬件,落實責任管理機制,遵守安全操作規(guī)范;對虛擬機和管理服務器進行定時備份;采用有效的虛擬化監(jiān)控工具,及時發(fā)現(xiàn)問題和日報告。故障處理規(guī)范機房停電接到停電通知后,相關人員應及時部署應對具體措施,啟動備用電源,保證服務器正常運行。主機故障平臺服務器出現(xiàn)硬件告警需要停機維護,服務器責任人應立即通知相關人員,將業(yè)務虛機遷移到集群中其他服務器主機上,再將故障服務器切換至維護模式并從HA集群中移除,負責陪同硬件廠家現(xiàn)場更換至成功恢復。若服務器硬件24小時內(nèi)無法恢復,服務器責任人需書面報告原因并立即通知業(yè)務管理人員進行數(shù)據(jù)應急備份,防止災難擴大。(3)若虛擬化存儲硬件出現(xiàn)告警,第一目擊人應立即通知存儲管理員,并上報主管領導,存儲管理員應在報告1小時內(nèi)聯(lián)系廠家到場處理,處理完成后因報告原因,找到解決方法;并立即對數(shù)據(jù)做完整性檢查,消除重復發(fā)生隱患。存儲系統(tǒng)故障(1)做好存儲系統(tǒng)的定時備份,一旦出現(xiàn)數(shù)據(jù)損壞、丟失,能夠及時恢復系統(tǒng)。(2)發(fā)生存儲系統(tǒng)故障后,相關人員應檢查出現(xiàn)故障的原因并盡快排除。(3)如遇系統(tǒng)崩潰,數(shù)據(jù)丟失,應啟用備份文件進行數(shù)據(jù)恢復。云平臺軟件系統(tǒng)故障(1)日常做好虛擬機的定時備份和快照,系統(tǒng)崩潰后,能夠及時恢復虛擬機。(2)發(fā)生虛擬機系統(tǒng)故障后,相關人員應及時通知業(yè)務人員檢查出現(xiàn)故障的原因并盡快排除。(3)如遇虛擬機系統(tǒng)需要啟用備份系統(tǒng)進行恢復時,應在恢復后和業(yè)務管理員仔細檢查業(yè)務是否恢復并做好恢復記錄。云平臺管理服務器故障預防虛擬化服務器采用群集配置。配套管理軟件對虛擬數(shù)據(jù)中心管理單元進行集中管理,系統(tǒng)平臺常年24小時運行,每天將產(chǎn)生大量的任務日志和記錄信息。同時管理服務器擔任了整個平臺主機管理和集中配置的角色,使用率極高。為了安全,應定期備份配置數(shù)據(jù)庫,定期檢查告警日志。云平臺日常告警故障排除當虛擬化平臺出現(xiàn)告警信息,通過以下步驟排除:確定故障原因。查看已觸發(fā)的警報內(nèi)容,確定故障前操作是否是引發(fā)該故障的原因,對合規(guī)操作引起的告警,進行消除。對提示硬件產(chǎn)生的告警,應查看硬件狀態(tài)信息,對確認是硬件的問題按硬件維護預案處理。對提示因資源不足或性能引發(fā)的告警,因查看近期性能圖表,找出原因,消除故障提示。對于無法判斷的故障,可導出系統(tǒng)日志發(fā)給廠家分析處理。5 硬件故障預防與排除故障預防保持雙機運行狀態(tài)正常,單機出現(xiàn)故障后,及時對故障單機進行修復。故障排除當服務器出現(xiàn)硬件故障,通過以下步驟排除:(1)確定故障原因。依次查看電源、硬盤、內(nèi)存、主板、處理器等,如條件許可,可使用替換法檢測各硬件。(2)恢復固件缺省配置。比如去除第三方廠商備件和非標配備件。故障處理(1)硬盤故障處理:當硬盤出現(xiàn)黃燈提示預警時,應先查看硬盤數(shù)據(jù)是否丟失,如數(shù)據(jù)存在應先做好數(shù)據(jù)備份,將此服務器各應用迅速轉(zhuǎn)移,然后排查報警具體原因,如由于錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務器,重新插拔硬盤等操作即可解決問題。如硬盤損壞,應及時將備用硬盤替換下故障硬盤,使服務器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便操作,可向售后服務咨詢處理。內(nèi)存故障:由于我們的服務器有多組內(nèi)存,單條內(nèi)存故障時,會對服務器性能稍有影響,當不會影響整體使用,所以如發(fā)現(xiàn)內(nèi)存條損壞時,安排時間將損壞的內(nèi)存條替換掉即可。RAID卡故障:服務器的RAID卡出現(xiàn)故障時,系統(tǒng)會無法識別出硬盤,服務器不能正常使用,所以應第一時間啟動備用服務器。將故障服務器移出生產(chǎn)網(wǎng)絡后更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息后即可恢復使用。(4)電源故障:現(xiàn)階段我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論