版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據中心運維服務與管理定期巡檢計劃:每月對設備定期巡檢一次,檢查服務器、電腦、打印機、路由器、交換機、視頻會議設備、網絡設備等維護內容中的所有設備的使用狀況,集中處理相關故障,并嚴格按照相關表格填寫局域網及各設備的運行狀況,并做出分析意見與建議。測試記錄各設備的運行狀態(tài),如正常,則在對應的維護檢查表內寫測試數據,如有異常,則在表格內寫測試數據,在備注欄內寫原因;并在遺留問題中總結測試結果。對非測試項目的問題在檢修過程中是否發(fā)現新的問題及對內容作填寫,同時在相應的設備記錄表上填寫詳細的異常內容,并按相關規(guī)定進行處理。設備維護及更換流程甲方與我公司簽訂維護合同后,維護內容中的設備,在維護合同內出現損壞需要維修或更換,將由我公司代為負責處理。保修期內返廠維修:指企業(yè)需要維修或更換的設備在廠家規(guī)定的標準保修期內,壞件返回工廠維修,維護人員跟進全返廠維修過程,直至設備正常投入使用。保修期外返廠維修:對已過保修期的壞件,由維護人員聯系廠家,根據廠家的維修費用收費要求向甲方提交《設備維修費用申請報告》,獲得批準后,維護人員將壞件送入工廠進行維修,跟進全過程,直至設備正常投入使用。技術人員現場值守運行維護服務的基本操作流程如下圖所示:一.服務與管理1.服務時間接收服務請求和咨詢:在5*8小時工作時間內在現場值守,設置由常駐人員的電話,接聽內部的服務請求,并記錄事件處理結果。在非工作時間設置7*24小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24小時機房監(jiān)控人員的機房突發(fā)情況匯報。服務響應時間:故障級別響應時間故障解決時間I級:屬于緊急問題;其具體現象為:系統(tǒng)崩潰導致業(yè)務停止、數據丟失。1小時,2小時內提交故障處理方案12小時以內II級:屬于嚴重問題;其具體現象為:出現部分部件失效、系統(tǒng)性能下降但能正常運行,不影響正常業(yè)務運作。2小時,3小時內提交故障處理方案24小時以內III級:屬于較嚴重問題;其具體現象為:出現系統(tǒng)報錯或警告,但業(yè)務系統(tǒng)能繼續(xù)運行且性能不受影響。3小時,4小時內提交故障處理方案48小時以內IV級:屬于普通問題;其具體現象為:系統(tǒng)技術功能、安裝或配置咨詢,或其他顯然不影響業(yè)務的預約服務。4小時,4小時內提交故障處理方案72小時以內技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的文檔,力爭恢復到故障點前的業(yè)務狀態(tài)。對于“系統(tǒng)癱瘓,業(yè)務系統(tǒng)不能運轉”的故障級別,如果不能于12小時內解決故障,公司將在24小時內提出應急方案,確保業(yè)務系統(tǒng)的運行。故障解決后24小時后,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。2.行為規(guī)范遵守用戶的各項規(guī)章制度,嚴格按照用戶相應的規(guī)章制度辦事。與用戶運行維護體系其他部門和環(huán)節(jié)協同工作,密切配合,共同開展技術支持工作。出現疑難技術、業(yè)務問題和重大緊急情況時,及時向負責人報告?,F場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。遵守保密原則。對被支持單位的網絡、主機、系統(tǒng)軟件、應用軟件等的密碼、核心參數、業(yè)務數據等負有保密責任,不得隨意復制和傳播。3.現場服務支持規(guī)范運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。現場支持工程師應著裝整潔、言行禮貌大方,技術專業(yè),操作熟練、嚴謹、規(guī)范;現場支持時必須遵守用戶單位的相關規(guī)章制度?,F場支持工程師在進行現場支持工作時必須在保證數據和系統(tǒng)安全的前提下開展工作。現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并及時上報負責人,尋找其他解決途徑。故障解決后,現場支持工程師要詳細記錄問題的發(fā)生時間、地點、提出人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。4問題反饋 根據使用人員提出問題的類別,將問題分為咨詢類問題和系統(tǒng)缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支持人員處即可中止,對于該類問題的記錄可使用咨詢類問題記錄模版進行記錄。系統(tǒng)缺陷類問題是指使用人員提出的問題涉及到系統(tǒng)相應環(huán)節(jié)的確認修改,需要經過逐級提交、診斷、確認、處理和回復等環(huán)節(jié),處理解決需要IT系統(tǒng)運維服務項目組的分析確認,問題有解決方案后,將解決方案反饋給用戶。具體提交流程如下:問題提交。應用信息系統(tǒng)的用戶發(fā)現屬于系統(tǒng)缺陷類的問題時,填寫系統(tǒng)缺陷類問題提交單,提交服務支持中心。問題分析。服務中心接到用戶提交的問題單,要組織相應人員對問題單中描述的問題進行分析研判,確定問題的類型(技術問題、業(yè)務問題或者操作問題)。屬于技術問題,提交服務中心技術人員對存在的問題提出具體的處理意見和建議;屬于業(yè)務問題,提交服務中心業(yè)務人員進行處理;屬于操作問題,可安排相關人員對問題提出人進行解釋,并將系統(tǒng)缺陷類問題提交單轉為系統(tǒng)咨詢類問題提交單。問題確認、解決。服務中心的技術人員和業(yè)務人員收到系統(tǒng)缺陷類問題提交單后,對提交的問題進行歸類匯總和分析、確認。可以解決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意后,交實施人員進行解決方案的實施。服務人員確認是否解決,并將解決方法附在系統(tǒng)缺陷類問題提交單上反饋給問題提出人員。問題上報。服務人員收到經業(yè)務或技術人員確認的系統(tǒng)缺陷類問題提交單后,上報服務中心。問題回復。服務中心根據提交問題的進行分析,制定解決方案并進行實施的解決,同時做好變更記錄。將解決方案匯總后及時向問題提交單位或問題交辦單位作出回復,并將分析過程和問題產生原因一并提交。二.應急服務響應措施 公司已經針對本項目制定了詳盡的設計、應急處理預案,整個流程嚴謹而有序。但是,在服務維護過程中,意外情況將難以完全避免。下面,我們將對項目實施的突發(fā)風險進行詳細分析,并且針對各類突發(fā)事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。1.應急基本流程維護服務應急處理流程2.預防措施 針對上門服務過程中可能遇到的各種各樣的風險,公司總結多年維護服務經驗,針對一些可能出現的情況,制定了一系列預防處理措施,舉例如下:類型事件預防措施處理應用軟件無法啟動軟件可執(zhí)行文件上門人員提前準備好各類需維護軟件安裝程序將應用軟件數據文件備份后,重新安裝軟件打開過程中或運行中異常錯誤關閉上門人員準備好安裝程序,操作系統(tǒng)優(yōu)化和修補軟件,查殺病毒軟件判斷出錯原因,備份數據,采取相關修復措施操作系統(tǒng)使用者本機操作系統(tǒng)異常或系統(tǒng)資源占用嚴重準備好系統(tǒng)檢查程序及修補程序,以及查殺病毒軟件告知使用者錯誤原因可能類型,提出解決方案,經使用者認可后采取相應措施B/S結構系統(tǒng),IE瀏覽器異?;驘o法下載控件準備流氓軟件清理程序、修復瀏覽器軟件、查殺病毒軟件檢查IE瀏覽器選項設置,分析原因進行修復網絡或服務器B/S結構系統(tǒng)網絡流量異?;蚍掌鞯卿洰惓E袛喾掌魇欠癞惓#駝t準備殺毒軟件檢查網絡流量,流量異常小則報修網絡服務商,流量異常大則查殺病毒3.突發(fā)事件應急策略 系統(tǒng)運維應急方案是對中斷或嚴重影響業(yè)務的故障,如宕機、數據丟失、業(yè)務中斷等,進行快速響應和處理,在最短時間內恢復業(yè)務系統(tǒng),將損失降到最低。在系統(tǒng)維護過程中,突發(fā)事件的出現將是很難完全避免的,針對這種情況,公司設計了完善的突發(fā)事件應急策略。 系統(tǒng)巡檢人員要定期規(guī)范檢查各硬件設備的運轉情況和應用軟件運行情況,同時做好日常的數據增量備份和定期全備份。對發(fā)現的問題在報各級負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩(wěn)定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發(fā)生。 對發(fā)現的問題在報負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩(wěn)定或徹底解決后,要形成問題匯報,避免以后類似重大緊急情況的發(fā)生。 **公司不但擁有經驗豐富的技術支持工程師,而且根據長期以來的客戶服務工作經驗,建立了常用知識庫,其中包括多種常見技術故障和突發(fā)事件的應急策略。當獲悉出現突發(fā)事件時,技術支持人員可以立即從知識庫中獲取相應的應急策略,并綜合用戶方的具體情況,給出相關解決方案,然后在第一時間以電話、郵件支持或現場服務的方式幫助用戶解決問題,盡最大努力減小突發(fā)事件對用戶日常應用的影響。緊急情況預防措施應急策略硬件損壞項目單位操作用電腦硬件損壞在磁盤數據未丟失情況下,保證數據安全性,建議項目單位替換相關硬件。操作失誤加強培訓力度,掌握培訓效果,檢驗操作人員操作水準,提示注意事項。操作失誤未造成即成結果或數據未丟失情況下,保障數據安全,反之,協調相關部門,進行補救。對操作人員強調注意事項配置丟失培訓時強調使用前配置方法和步驟,并特別提示需在使用前按要求操作派出上門維護、培訓人員重新配置,并耐心講解。數據丟失培訓時強調使用過程中注意定期備份重要數據,日常維護過程中,上門服務人員實時備份數據并告知用戶協調有關部門,進行補救,無法補救,提交報告說明原因。突發(fā)事件應急策略服務流程圖如下:三.機房服務器維護說明1.機房環(huán)境及物理檢查1.1) 機房環(huán)境1.溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度濕度:10-60%(在23攝氏度條件下)2.同時機房要保證服務器清潔.機房應保持服務器清潔,若空氣灰塵過多,很容易造成資源讀寫錯誤及磁盤機中磁盤或讀寫磁頭毀損。定時使用皮老虎、刷子清除服務器灰塵。1.2) 電源電壓:要求電壓穩(wěn)定,尖峰電壓會損壞設備電壓范圍:220V+/-10%,即200-240V,50-60Hz電源功率:視機器類型和系統(tǒng)配置而定電源線:標準的零,地,火三相電,其中零,地電壓不得超過3.0V.電源接駁:用符合電流要求的空氣開關或其他設備和主機電源線接駁,保證計算機系統(tǒng)的可靠工作應使用穩(wěn)壓電源和UPS,對于冗于電源的接入,采用兩路單獨輸入.1.3) 硬件檢查檢查服務器、磁陣的安裝、電源線主機接線符合要求。服務器狀態(tài)檢查:1.當服務器處于啟動和正常工作狀態(tài)時,其前面板上的液晶顯示屏上應無信息顯示。2.當液晶顯示器上出現帶數字和字母的信息時,說明有硬件告警。可以通過查詢相關機型的面板報警數字信息查到相應告警原因,情況嚴重的,則要立即通知服務器廠商進行問題排查。3.當服務器的狀態(tài)燈出現橙黃色時,說明有硬件告警,此時要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進行更換和更正,如果查不出具體問題,則需要聯系相關廠商進一步診斷。4.當硬盤工作正常時,與各硬盤對應的硬盤燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會不規(guī)則閃爍,當硬盤損壞時或RAID出現問題時,則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍。2.系統(tǒng)日常維護流程2.1) 系統(tǒng)啟動系統(tǒng)啟動正常順序如下:首先對外設(磁盤陣列、磁帶庫等)加電。待所有外設加電自檢完成后,主機加電正常起機。主機加電后,才能按POWER鍵起機.2.2) 系統(tǒng)關閉服務器系統(tǒng)關閉時,需要確認服務器的服務是否對現網業(yè)務有影響,同時需要對關閉的服務器運行中的程序進程確認,明確軟件安全的關閉步驟,在進行關機操作。2.3) 系統(tǒng)與數據備份有效及時的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當系統(tǒng)出現故障時,特別是文件系統(tǒng)被嚴重損壞或硬盤損壞時,常需要使用系統(tǒng)備份來恢復系統(tǒng)。在以下情況下應做系統(tǒng)備份:1、新裝機。在硬件及系統(tǒng)軟件安裝完成后,應做系統(tǒng)備份。2、軟件改動。系統(tǒng)軟件或應用軟件有改動時,應做系統(tǒng)備份。3、定期備份。對系統(tǒng)進行定期備份,最好每三個月做一次備份2.4) 系統(tǒng)恢復當系統(tǒng)發(fā)生比較嚴重的故障以致采取一般性維護手段不能在短期內恢復原系統(tǒng),與上級確認后,可將最近一次的系統(tǒng)備份倒回機器內以全面恢復系統(tǒng)到最近一次做備份時的系統(tǒng)環(huán)境,然后可將當日的數據備份再倒回系統(tǒng)內。至此,系統(tǒng)可恢復正常運行。此后,應當廠商再進行整個事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應措施以杜絕類似事件再次發(fā)生。2.5) 安全工作守則a統(tǒng)定期進行系統(tǒng)備份。b.當有系統(tǒng)變更或進行操作系統(tǒng)補丁安裝的時候,必須作一次系統(tǒng)備份。c.在發(fā)現有硬盤故障的時候,注意當天的數據備份。在更換硬盤的時候,請確認當天數據備份已經完成。d.在更換敏感的電子元件,時候一定要防靜電。e.在插拔外圍設備的時候,請把外圍設備下電。f.在進行文件刪除的時候,請留意當前路徑是否正確。g.在進行文件解壓縮的時候,請留意參數和路徑。3.故障定位、故障排除根據實際運行的系統(tǒng)中碰到問題,總結出了以下幾種常見故障及其定位方式和解決方法。故障處理流程3.1) 硬件故障硬件故障有很多種,對系統(tǒng)產生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進行硬件分類:其損壞對系統(tǒng)產生致命影響(將使機器宕機或無法啟動)的硬件包括:主板、CPU、RAID卡、電源模塊、風扇、本地硬盤、內存損壞等等這些設備的損壞等將使系統(tǒng)無法完成自檢、引導和啟動,液晶顯示屏上都將有錯誤信息,可根據液晶顯示屏上的錯誤碼對照錯誤原因,如果是工作狀態(tài)下出現這些硬件損壞,則系統(tǒng)將被掛起或宕機。其損壞對僅對系統(tǒng)產生功能影響(機器不會宕機并能正常啟動)的硬件包括:網卡、本地硬盤有壞塊、顯卡、和其他外圍設備這些設備的損壞只影響特定功能,如網絡功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。故障定位和排除:液晶屏上的錯誤碼根據錯誤碼確定是什么硬件出了故障,對系統(tǒng)來講,原則上必須業(yè)務切換使得損壞服務器離線不影響用戶使用的情況下,然后修復故障機器,恢復系統(tǒng)。3.2) 磁陣故障磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據不完全統(tǒng)計,其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤、主機上的RAID卡、與主機相連的SAS線、硬盤的位置和接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/RAID卡等都可能造成異常。磁陣的問題是最復雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照經驗,不管是什么硬件故障導致故障,系統(tǒng)都會產生告警,如果能及時發(fā)現問題并采取措施,如果存在硬件故障時,可從狀態(tài)燈上觀察到:當單塊硬盤出現故障或未被使用時,其面板上的硬盤狀態(tài)燈會不亮陣列的狀態(tài)燈黃燈會亮服務器的磁陣所配置的RAID卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下保護RAID卡上的信息不丟失,這塊電池的安全壽命一般是22000小時,差不多兩年半的時間,也就是說,一般兩年半以后需要更換這塊電池。處理步驟:(按優(yōu)選方式列出,從中選擇一種即可)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 老榆木家具灰色施工方案
- 陰極保護施工方案
- 番禺區(qū)輕質磚施工方案
- 軸組稱基礎施工方案
- 物業(yè)裝修地面保護方案
- 軟包墻面施工方案
- 2025年中國航空航天新材料行業(yè)市場運行態(tài)勢及投資前景展望報告
- 包裝油桶行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 粉煤灰制建筑砂漿運輸
- 鋼芯鋁鉸項目可行性研究報告
- 危險性較大分部分項工程及施工現場易發(fā)生重大事故的部位、環(huán)節(jié)的預防監(jiān)控措施
- 繼電保護試題庫(含參考答案)
- 《榜樣9》觀后感心得體會四
- 2023事業(yè)單位筆試《公共基礎知識》備考題庫(含答案)
- 《水下拋石基床振動夯實及整平施工規(guī)程》
- 2025年云南大理州工業(yè)投資(集團)限公司招聘31人管理單位筆試遴選500模擬題附帶答案詳解
- 風電危險源辨識及控制措施
- 《教師職業(yè)道德與政策法規(guī)》課程教學大綱
- 營銷策劃 -麗亭酒店品牌年度傳播規(guī)劃方案
- 兒童傳染病預防課件
- 護理組長年底述職報告
評論
0/150
提交評論