




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、前言:相對PC機而言服務器出故障的機率是小多了,但是它的故障給企業(yè)也帶來了一些影響。作為服務器工程師除要有服務器基礎知識以外,還需要具備服務器故障的診斷思路,這樣才能最快速的解決問題也可以減少故障停機時間。本文并不是針對某個廠家服務器故障完全手冊,而是根據個人經驗總結出來的一些經驗思路還有一些總結案例。按照下面思路和方法基本上能夠解決目前服務器更換式維修的大多 數問題。而且里面的一些操作風險性也不是很大,因為服務器本身就是壞的,最壞的情況下就是它一點都不能工作了唄,( 主要確認是否有數據,數據無價?。┒椰F在很多廠商都有自己的客服電話關于產品問題打個電話也很方便,所以安心做啦當然如果服務器在保
2、修期內就打電話讓售后工程師上門服務,畢竟顧客就是上帝嘛, 但是如果上帝比較著急使用, 一般小故障自己解決一下就好了,因為一般報修最快都是第二天(大客戶如銀行等除外,一般當天還得是晚上才能停機解決)目錄:一、服務器常見故障分類二、服務器常見故障現象及其對應排錯方法三、服務器排錯基本原則四、服務器故障需要收集哪些信息五、服務器硬件故障排錯實例六、服務器軟件故障排錯實例七、服務器常見內存故障現象一、服務器常見故障類型分類:A. 開機無顯示B. 加電BIOS自檢階段故障C. 系統(tǒng)和軟件安裝階段故障和現象D. 操作系統(tǒng)啟動失敗E. 系統(tǒng)運行階段故障二、服務器常見故障現象及其對應的排除方法A. 服務器開機
3、無顯示(加電無顯示和不加電無顯示)1. 檢查供電環(huán)境2. 檢查電源和故障指示燈(故障指示燈狀態(tài),目前很多廠商的服務器都有故障指示燈,或故障診斷卡等。)3. 按下電源開關時,鍵盤指示燈是否亮、風扇是否全部轉動4. 是否更換過顯示器,嘗試更換另外一臺顯示器5. 插拔內存,用橡皮擦擦拭一下金手指,如果在故障之前有增加內存,去掉增加的內存嘗試6. 是否添加了 CPU如果有增加CPUH試去掉7. 去掉增加的第三方I/O卡包括Raid卡等8. ClearCMOS (記得使用跳線來清除,盡量不要直接拔電池,每款服務器清除跳線位置不一致,具體找不到電話聯系一下廠商客服)9. 嘗試更換主板、內存等主要部件10.
4、 清除靜電,將電源線等外插在服務器上的線纜全部拔掉,然后輕按開機鍵幾下B. 加電BIOS自檢報錯1. 根據BIOS自檢報錯信息提示2. 查看是否外插了第三方的卡或者添加部件,如果有還原基本配置重啟3. 做最小化測試4. 嘗試清除CMOS5. 看能否正常進入BIOSC. 系統(tǒng)安裝階段故障和現象1. 查看服務器支持操作系統(tǒng)的兼容版本(從廠商能查到兼容性列表)2. 系統(tǒng)安裝藍屏(對藍屏故障代碼診斷)3. 安裝在分區(qū)格式化的時候找不到硬盤(陣列驅動沒有安裝或者沒有配置陣列,可以嘗試適應引導光盤安裝)4. 大于2T的硬盤式應該如何分區(qū)(必須使用陣列卡才能實現或者有外插識別卡)(使用陣列卡配置陣列分成一個
5、小于2T的空間,一個大于 2T的空間,然后將系統(tǒng)安裝在小于2T的上面,安裝好系統(tǒng)后在使用GPTT式分區(qū)即可)5. 安裝過程是死機(檢查兼容性列表-查看硬盤接口選擇是否正確 -陣列驅動安裝是否正確-嘗 試最小化配置安裝檢查是否為內存和CP郵問題)6. 引導光盤安裝失敗(使用引導光盤安裝失敗,查看引導光盤版本是否匹配,嘗試手動安裝系統(tǒng),如有陣列重新配置陣列引導安裝)D. 操作系統(tǒng)啟動失敗1. 在系統(tǒng)啟動自檢過程中有報錯(具體查看啟動報錯信息在定方案)2. 啟動系統(tǒng)藍屏(查看藍屏代碼核對)3. 進入登陸界面死機(查看進入單用戶或者安全模式是否正常,進入BIOS是否正常、是否會死機,進入磁盤陣列查看陣
6、列狀態(tài)是否正常,檢查測試硬盤是否有壞道,最小化配置啟動)4. 忘記密碼(windows 使用PE破解,linux進入單用戶破解)E. 系統(tǒng)運行階段故障1. 安裝數據庫等應用軟件報錯(對系統(tǒng)版本和軟件版本是否兼容,查看報錯信息是否缺少插件)2. 系統(tǒng)運行速度變慢(查殺病毒,檢測陣列狀態(tài),測試硬盤有無壞道,重新安裝系統(tǒng)或者 修復)3. 運行藍屏 (查看藍屏代碼目錄)4. 運行死機 (檢查進入BIOS是否死機,進入系統(tǒng)后測試部件溫度是否正常,windows系統(tǒng) 查看dump文件)5. 硬盤拷貝數據文件速度變慢(測試硬盤是否有壞道,如果有陣列檢查陣列狀態(tài),檢查改變條帶大小,與軟件應用要求測試對比)三.
7、 服務器故障排錯的基本原則:1. 盡量恢復系統(tǒng)出廠配置a:硬件配置:去除第三方廠商備件和非標配備件b:資源配置:清除 CMOS恢復資源初始配置c: BIOS、F/WA驅動程序:升級最新的BIOS F/W和相關驅動程序d: TPL :擴展的第三方的I/O卡是否屬于該機型的硬件兼容列表(TPL)2. 從基本到復雜a:系統(tǒng)上從個體到網絡:首先將存在故障的服務器獨立運行,待測試正常后再接入網絡運行,觀察故障現象變化并處理。b:硬件上從最小系統(tǒng)到現實系統(tǒng):指從可以運行的硬件開始逐步到現實系統(tǒng)為止。c:軟件上從基本系統(tǒng)到現實系統(tǒng):指從基本操作系統(tǒng)開始逐步到現實系統(tǒng)為止。3. 部件交換對比測試a:在最大可能
8、相同的條件下,交換操作簡單效果明顯的部件b:交換NOSa體,既交換軟件環(huán)境c:交換硬件,既交換硬件環(huán)境d:交換整機,既交換整體環(huán)境總結:在服務器的維修中,線索都會顯得撲朔迷離,有的甚至按起葫蘆翹起瓢。一般來說不 可能一次就可以準確地判斷出問題的所在。這樣就要求工程師要有信心和耐心。出現錯誤 一般的方法都是根據經驗優(yōu)先使用最簡單排錯方法測試,如果沒有解決問題再找其它因素 進行測試。總之,服務器出錯后必須一步一步解決,沒有捷徑可言。四、服務器故障排除需要收集哪些信息1. 服務器信息: .機器型號:什么廠家的機器、什么型號如: DELL R720服務器 . 機器序列號或主機編號(如:主機編號為 NC
9、00755666) .是否增加其它設備,如網卡、 Raid 卡、內存、CPU亭 .硬盤配置,如是否做磁盤陣列,陣列級別 .安裝什么操作系統(tǒng)及版本(win2003、Redhat等) .在故障前有沒有做過操作、或者運行了什么軟件 .BIOS 版本2. 故障信息: .在POST自檢時,屏幕顯示的異常信息 .服務器本身指示燈的狀態(tài) .報警聲和BEEP CODES .系統(tǒng)的事件記錄文件 .Sel 日志五、 服務器硬件故障處理實際案例(因廠家機型不同,在實際問題中如果遇到相似現象,也需要具體問題具體分 析,請不要盲目套用)硬件故障是指服務器硬件出現異常而導致的各類錯誤,由于服務器構成比較復雜,因此在檢查的
10、時候必須認真、仔細。實例一:有一臺XXX型號服務器,配有 256M內存,使用一個 PIIIXEON 500帶2M高速緩存的處 理器。 開機后沒有任何顯示, 但系統(tǒng)日志上提示了一條 CPU電壓為0伏的信息,系統(tǒng)指示燈三燈不 停在閃爍(指示燈三燈閃爍是服務器的另一種報警方式,我會在文后說明)。這種錯誤一般是處理器電壓調節(jié)模塊 (VRM出錯或CPU出錯或CPU CPU塊接觸不良,但也可能是CPU 板塊出錯,這時情況就比較復雜了,必須經過認真慎重的思考。因為CP堀塊在整個服務器中,占有舉足輕重的地位,如果它出錯服務器是會報致命錯 誤的,并且在系統(tǒng)日志中會提示致命錯誤,但報CPU電壓報錯的情況也有 5%
11、£右。我們立刻把CPU換在另一 CPU插槽中,開機后依然是剛才的那種故障。所以在初步判斷中, 可以排除是CP堀塊壞。這時取出 CPU子細擦拭金手指,以及 CP堀塊中與CPU接觸的地方后, 開機依然無顯示。相對處理器壞的情況來說處理器電壓模塊(VRM出現故障的情況比較大。于是立即在另一臺同型號服務器中取下一個處理器電壓模塊,安裝在此服務器中。開機后, 服務器依然沒有任何顯示,系統(tǒng)日志上依然提示 CPU電壓為0伏的信息,系統(tǒng)指示燈三燈依然不停在閃爍。這時的情況就比較明顯了。于是立即從另一臺同類型服務器中取下一個CPU安裝后,開機正常。實例二:有一臺XXX型號服務器不顯示, 發(fā)現開機時系統(tǒng)
12、日志沒有任何信息,且系統(tǒng)指示燈不亮。初步判斷是電源方面出現了錯誤。經過仔細檢查,發(fā)現服務器的電源是正常的,因此最大的可能就是服務器的電源管理板出現故障。更換電源管理板后,開機顯示正常。但這時,新的問題來了:自檢時,用 CTRL+"能檢測到硬盤。硬盤在別的服務器上是正常的,因此立即清除此服務器的CMO S但依然不正常。立刻上網找到此服務器的最新BIOS,升級BIOS后也不能解決問題。又檢查硬盤籠子和服務器里的數據線及電源線后依然出錯。這時,一般情況會懷疑是服務器的 I/O板(輸入輸出板塊)有問題。但就在這個時候,工程師發(fā)現在I/O板上有一個非 XXX型號服務器標配的舊式網卡,立即去除此
13、網卡后服務器就一切正常。硬件故障并不單單指硬件有問題,它也指硬件之間不兼容。因為服務器的正常運作需要各部件之間的大力協調。建議大家在采購各元件時,都采用同一品牌原裝的,并且要采用能發(fā)揮服務器性能的元件(上例中的舊式網卡即使正常也會嚴重影響服務器性能),這樣才不會發(fā)生莫明其妙的故障。實例三:用戶需要把他的 XXX型號服務器升級到雙網卡,我建議他購買原裝網卡,但當他看到 XXX型號服務器的網卡是采用的INTEL 82559芯片后,斷然決定不使用原裝網卡而采用另一品牌也采用INTEL 82559的網卡。過了幾天,他打電話給我說,他的新網卡不能使用網絡冗 余及數據校驗,并懷疑服務器有問題。工程師帶了一
14、個INTEL 82559網卡到用戶那里,仔細檢查了服務器的環(huán)境完全正常后,把INTEL 82559網卡安裝到機器上后一切正常。這個例子更加說明了,要發(fā)揮服務器的最大性能及功能,必須使用原品牌原裝的配件。非原品牌非原裝的配件,不能支持服務器的某些功能,嚴重的會影響到服務器的正常使用。要避免硬件故障發(fā)生頻率, 服務器管理人員必須注意服務器的使用環(huán)境完全正常。比較重要的服務器必須在恒溫、恒濕的環(huán)境;電壓也要符合,不僅要采用UPS還必須接地線, 必須是左零線、右火線,零地電壓在13伏。在開、關服務器上必須符合正常的流程。工作人員必須嚴格執(zhí)行操作流程。實例四:服務器故障現象:一臺XXX型號服務器,近期頻
15、繁出現幾次藍屏幕死機故障。趁死機關閉的機會,將內存由原來的128M升級到512M(普通內存),并且在系統(tǒng)CMO股置中選擇裝入(Load) 最優(yōu)參數設置,對內存每個單元進行檢測。怪異服務器故障出現了,當我開機后,內存檢測正常,但是屏幕提示須重新 SETUP按指定的 F2鍵后卻死機。我裝個內存條招誰惹誰了, 怎么會死機?而且內存檢測正常???服務器故障處理:服務器出了故障就要解決,哪怕是怪異服務器故障。按照縮小故障源的思路,換回原來 的內存條,逐步去掉各個部分(軟驅、硬盤、光驅等),可是這個怪異服務器故障依然存在。 分析可能與系統(tǒng) SETUPS置有關,特別是關于對內存每個單元進行檢測的設置。于是,拔
16、出電池,對電池插腳短接放電,沒有奏效??磥?,這個怪異服務器故障還真是頑固。后來,找 到主板清除CMOE線設置,將插腳線由1-2改到2-3 一會兒,然后恢復原位,開機正常(提 示:不要輕易拔出電池,而是要找CMO箱除跳線)。再次將內存升級,調整 CMOS SETUP設置,特別注意到對內存的檢測,設置為檢測到每兆,至此系統(tǒng)完全恢復正常。服務器故障經驗這個怪異服務器故障發(fā)生的根本原因是服務器的內存缺省設置為ECC(帶校驗),由于使用普通不帶校驗的內存,而系統(tǒng)中設置每個單元都進行檢測,所以導致了上面的故障。排除的方法是清除 CMO股置,調整有關參數設置。另外CMOSSETUP入最優(yōu)參數設置通常有2種:
17、一種是BIOS優(yōu)化參數,這種參數穩(wěn)定性最好;另一種是SETUPB化參數,優(yōu)化整個系統(tǒng),但是需要系統(tǒng)支持,其穩(wěn)定性不能保證最好。所以,當系統(tǒng)出現故障時,不妨先將穩(wěn) 定性最好的參數裝入,解決問題后再行實例五:一臺XXX型號服務器 使用8708E的raid 卡在讀取某個文件或運行某個軟件時經常出錯,或者要經過很長時間才能成功,其間硬盤不斷讀盤并發(fā)出刺耳的雜音,這種現象意味著硬盤上載有數據的某些扇區(qū)已壞。一旦硬盤有比較刺耳的雜音可以嘗試使用HDa件來測試硬盤時候有壞道,進入ctrl+H配置界面進行查看,陣列是否降級 六、服務器常見軟故障解決思路與實例服務器軟件故障是在服務器故障中占有比例最高的部份,約
18、占 70%解決的過程必須更 加深思熟慮。導致服務器出現軟件故障的原因有很多,最常見的是服務器BIOS版本太低、服務器的管理軟件或服務器的驅動程序有BUG應用程序有沖突及人為造成的軟件故障。下面分別舉例說明各類軟件故障的維修方法。實例一:有一臺XXX型號服務器,配置為雙PIII500 帶521K高速緩存的CPU 512M內存。開機 后,系統(tǒng)日志報電壓調節(jié)模塊異常(VRM的錯誤,報錯的信息是:"Voltage Regulator Module(VRM) over/under-voltage 2.88V/0V"。從表面來看,極有可能是服務器的電壓調節(jié)模塊或其它硬件出現故障,極容易
19、導致維護人員認為是硬件故障。維護人員立刻使用其它同類型服務器的硬件來測試,發(fā)現即使使用新的配件,此服務器依然報 VRM昔。就在一籌莫展的時候,維修工程師帶來了最新的 CPU管理板(CPUManagementControl )的固件(FIRMWARE, 于是升級了 CPU管理板塊的FIRMWAR后,服務器恢復立即正常。FIRMWARE級方法是每個廠家的服務器都有專門的firmware升級方法和軟件,以聯想為例,一般需要使用PE或dos環(huán)境下使用專門的升級軟件來使用,任何一款服務器的FIRMWARE及BIOS都會有不同的BUG因為BU砒所難免,所以我們不能錯誤地認為服務器的BIOS程序就很完善,最
20、新的不是一定是最好的最穩(wěn)定的才是最好的,在升級之前應該小心謹慎,升級了錯誤的版本和使用錯誤的步驟會導致機器徹底的黑屏和癱瘓。目前流行的中高檔服務器都擁有強大的管理程序,為客戶提供了方便的管理途徑;服務器也擁有各種操作系統(tǒng)下的驅動程序,方便了客戶在各種操作系統(tǒng)中的使用。但是,世上任何一款程序都會有一些 BUG這些BUG等影響用戶使用。但是服務器廠商總是會在第一時間 內開發(fā)出新的程序,客戶只需要及時更新這些程序就可以避免這類故障。當服務器的軟件故障為此類時,表現的現象也不盡相同。一般來說,管理程序BUG導致系統(tǒng)速度變慢,CPU占用率變高,無法正常使用某些功能等;驅動程序的BUG會導致死機、與某些軟
21、件有沖突,磁盤工作不穩(wěn)定等。查看管理程序是否出錯的最好的辦法就是在系 統(tǒng)中首先禁止此類管理工具,再觀察服務器是否還是異常。由于管理工具是隨著系統(tǒng)啟動而 啟動的,所以應首先避免它的啟動。以 WINDOWST4為例,就首先在管理工具服務中禁用某 些服務器軟件服務,再修改注冊表中的啟動項即可。如果是驅動程序有問題的話,就以安全 模式進入系統(tǒng),看是否正常。但是需要注意的是,在安全模式中,系統(tǒng)速度變慢是正常的(特 別是磁盤I/O方面)。服務器的維護人員就應該經常在服務器網站上下載最新的管理工具程序及驅動程序。 這樣會減少很大一部份軟件故障的發(fā)生。相比之下,軟件沖突造成的故障判斷比較困難,需要管理人員有比
22、較豐富的經驗以及敏銳的觀察力。實例二:一位用戶說,他有一臺 XXX型號服務器無法安裝 SQL SERVER 200Q已經重裝N次NT 了,排除是系統(tǒng)故障。而這唯一的服務器又將作為非常重要數據庫服務器,因此非常著急。 于是維修工程師去了他的公司查看。這臺服務器所在的機房是非常標準、完善的機房,檢查了這臺服務器的情況,發(fā)現并沒有硬件上的故障,于是排除了光驅讀盤力差的可能。 但是,用戶刻的 SQL SERVER 200洗盤引起了工程師的懷疑,工程師讓他拿出了正版的SQLSERVERS裝,結果還是不行。在安裝的過程中,沒有出現絲毫錯誤,可就是在運行的時候 會自動退出,沒有任何提示。但是,我在管理工具中
23、的事件查看器的系統(tǒng)日志中卻發(fā)現了一 條信息:windata.exe導致一個無效的數據溢出。Windata是用戶自己編寫的一個程序,而且是隨操作系統(tǒng)啟動而啟動的程序。立即結束掉這個進程后,再運行SQL一切正常。對于此類軟件故障,操作員最好先查看有關的日志,看看系統(tǒng)中是否有可疑的進程。目前的服務器無論是高端還是低端,對于SQL等標準程序的支持是相當可靠的,所以排除的重點就是結束可疑進程。還有一種軟件故障是人為因素造成的,它一般是人為誤操作(包括沒按操作流程的 操作)、意外關機(包括電源突然不供電)或非正常關閉應用程序造成的。人為誤操作因素只要加強管理都可以避免此類故障發(fā)生。在這里就詳細說明意外關機或非正常關閉程序造成故障的方法。正常關閉系統(tǒng)程序非常重要,尤其是WE囹艮務器,一個用戶就是因為沒有正常關閉系統(tǒng)程序而經歷了一次數據損壞甚至丟失的經歷。七、服務器常見內存故障現象實例服務器常用部件除了硬盤以外就是內存了,內存為服務器主要部件以個人經驗來講它一旦出現問題不是很好來判定,因為服務器一般來講都會由陣列功能的,一旦硬盤故障硬盤前面板會有指示燈,沒有指示燈的在陣列的配置界面里面也會看到有降級或者硬盤離線 的報錯信息的。實在不行我們還有很多像HD等硬盤檢測工具來給我們現場使用。但是內存不是很好來觀察只能通過一些
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度工廠員工固定期限勞動合同簽訂與員工職業(yè)素養(yǎng)培訓合同
- 奶茶店裝修改造合同
- 2025年度安防設備維修服務與節(jié)能合同
- 2025年度交通事故現場私了賠償協議書
- 二零二五年度租賃車輛租賃合同解除及責任歸屬合同
- 中百倉儲代銷合同范本
- 2025年度養(yǎng)老服務機構護理人員勞務合同
- 2025年度鋼結構廠房施工與節(jié)能設備采購合同
- 人事派遣合同范本
- 2025-2030年中國噴油泵行業(yè)市場運行態(tài)勢及投資前景研判報告
- 三禁 兩不 十不準 課件-2024-2025學年高一上學期新生入學系列教育主題班會
- 圖解《匠心筑夢職啟未來》主題團日活動課件
- 2024年上海市普通高中學業(yè)水平等級性考試化學試卷(含答案)
- 【喜德盛自行車營銷策略探究13000字】
- 乳制品及含乳飲料制造行業(yè)作業(yè)活動風險分級管控清單
- 免疫檢查點抑制劑相關肺炎診治專家共識
- 計算機網絡技術基礎 (項目式微課版) 課件全套 崔升廣 第1-6章-計算機網絡概述 - 廣域網技術
- 康復治療技術專業(yè)《康復工程技術》課程標準
- (高清版)TDT 1013-2013 土地整治項目驗收規(guī)程
- 床位預約管理提高患者就診效率減少等待時間
- 吉利圍墻施工組織設計樣本
評論
0/150
提交評論