IBM小型機(jī)培訓(xùn)高級篇(EM培訓(xùn)資料)_第1頁
IBM小型機(jī)培訓(xùn)高級篇(EM培訓(xùn)資料)_第2頁
IBM小型機(jī)培訓(xùn)高級篇(EM培訓(xùn)資料)_第3頁
IBM小型機(jī)培訓(xùn)高級篇(EM培訓(xùn)資料)_第4頁
IBM小型機(jī)培訓(xùn)高級篇(EM培訓(xùn)資料)_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

IBM小型機(jī)培訓(xùn)(高級篇)2023年2月1日故障定位、故障排除系統(tǒng)日常維護(hù)流程機(jī)房環(huán)境及物理檢查目錄機(jī)房環(huán)境及物理檢查

機(jī)房內(nèi)需求一、機(jī)房內(nèi)環(huán)境要求溫度與濕度:最佳工作溫度:20-25攝氏度極限工作溫度:10-40攝氏度濕度:8-80%(在23攝氏度條件下)如果不是工作在最佳溫度,請注意改善機(jī)房環(huán)境同時(shí)機(jī)房要保證清潔.機(jī)房應(yīng)保持清潔,若空氣灰塵過多,很容易造成資源讀寫錯(cuò)誤及磁盤機(jī)中磁盤或讀寫磁頭毀損。機(jī)房環(huán)境及物理檢查

機(jī)房內(nèi)需求二、電源要求電壓:要求電壓穩(wěn)定,尖峰電壓會(huì)損壞設(shè)備電壓范圍:220V+/-10%,即200-240V,50-60Hz電源功率:視機(jī)器類型和系統(tǒng)配置而定電源線:標(biāo)準(zhǔn)的零,地,火三相電,其中零,地電壓不得超過3.0V.電源接駁:用符合電流要求的空氣開關(guān)或其他設(shè)備和主機(jī)電源線接駁,保證計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,并建議配備發(fā)電機(jī)組;對于冗于電源的接入,建議采用兩路單獨(dú)輸入.機(jī)房環(huán)境及物理檢查

機(jī)房內(nèi)需求三、硬件檢查檢查服務(wù)器、磁陣的安裝、電源線、7133和主機(jī)接線符合要求。服務(wù)器狀態(tài)檢查:當(dāng)服務(wù)器處于啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無信息顯示。當(dāng)液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時(shí),說明有硬件告警??梢酝ㄟ^查詢相關(guān)機(jī)型的ServiceGuide查到相應(yīng)告警原因,情況嚴(yán)重的,則要立即通知IBM技術(shù)專家進(jìn)行問題排查。機(jī)房環(huán)境及物理檢查

機(jī)房內(nèi)需求7133狀態(tài)檢查:磁陣前面板上有7133機(jī)柜的狀態(tài)燈(與電源燈并排)和各硬盤的狀態(tài)燈(一排小燈,與各硬盤位置一一對應(yīng))。1.

當(dāng)機(jī)柜的狀態(tài)燈出現(xiàn)橙黃色時(shí),說明有硬件告警,此時(shí)要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進(jìn)行更換和更正,如果查不出具體問題,則需要聯(lián)系相關(guān)專家進(jìn)一步診斷。2.當(dāng)硬盤工作正常時(shí),與各硬盤對應(yīng)的硬盤燈會(huì)呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會(huì)不規(guī)則閃爍,當(dāng)硬盤損壞時(shí)或SSA環(huán)路出現(xiàn)問題時(shí),則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍。故障定位、故障排除系統(tǒng)日常維護(hù)流程機(jī)房環(huán)境及物理檢查目錄日常系統(tǒng)維護(hù)流程系統(tǒng)啟動(dòng)與關(guān)閉

2.1系統(tǒng)啟動(dòng)系統(tǒng)啟動(dòng)正常順序如下:首先對外設(shè)(磁盤陣列、磁帶庫等)加電。待所有外設(shè)加電自檢完成后,主機(jī)加電正常起機(jī)。主機(jī)加電后,系統(tǒng)進(jìn)行自檢,在液晶顯示屏顯示”ok”后,才能按白色POWER鍵起機(jī).啟動(dòng)主機(jī)HACMP,啟動(dòng)后可用命令

tail-f/tmp/hacmp.out

來檢查啟動(dòng)情況,在HACMP未完全啟動(dòng)前不要進(jìn)行下一步。檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat-i,netstat-rn等),檢查文件系統(tǒng),邏輯卷(可用mount,lsvg-o等)。檢查各項(xiàng)應(yīng)用是否工作正常。日常系統(tǒng)維護(hù)流程系統(tǒng)啟動(dòng)與關(guān)閉

2.2系統(tǒng)關(guān)閉停止HACMP(smittyclstop)。查看HACMP的狀態(tài),檢查服務(wù)器的網(wǎng)絡(luò)地址,路由表(可用netstat-i,netstat-rn等),檢查文件系統(tǒng),邏輯卷(可用mount,lsvg-o等)。在HACMP未完全停止前不要進(jìn)行下一步。關(guān)閉主機(jī)(shutdown–F)。重啟系統(tǒng)可以使用:shutdown-Fr如有必要的話,按磁盤陣列前方的白色按鈕關(guān)閉磁盤陣列。日常系統(tǒng)維護(hù)流程查看系統(tǒng)的錯(cuò)誤記錄

2.3查看系統(tǒng)的錯(cuò)誤記錄在系統(tǒng)運(yùn)行時(shí),一些系統(tǒng)錯(cuò)誤會(huì)記錄在errlog中,其中有些錯(cuò)誤還會(huì)在終端上顯示。檢查錯(cuò)誤日志可用以下命令:#errpt|more 查看系統(tǒng)所有的記錄IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONE85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION日常系統(tǒng)維護(hù)流程查看系統(tǒng)的錯(cuò)誤記錄

其中,IDENTIFIER為錯(cuò)誤編號,當(dāng)需要檢查詳細(xì)信息時(shí)常會(huì)用到。TIMESTAMP為時(shí)間標(biāo)簽,它記錄的是出錯(cuò)時(shí)間,其格式:月月日日時(shí)時(shí)分分年年T為Type,它記錄的是錯(cuò)誤類型P:為永久錯(cuò)誤,需引起注意T:為臨時(shí)錯(cuò)誤。C為Class,它記錄的是錯(cuò)誤種類,日常系統(tǒng)維護(hù)流程查看系統(tǒng)的錯(cuò)誤記錄

如:H:HardwareS:SoftwareO:ErrlogercommandmessagesU:undeterminedRESOURCE_NAME為錯(cuò)誤來源DESCRIPTION 為錯(cuò)誤描述#errpt-aj<IDENTIFIER> 查看系統(tǒng)詳細(xì)記錄內(nèi)容其中IDENTIFIER為錯(cuò)誤編號,如#errpt-aj0426104399#errpt-dH 查看系統(tǒng)所有的硬件出錯(cuò)記錄日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

2.4系統(tǒng)與數(shù)據(jù)備份有效及時(shí)的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文件系統(tǒng)被嚴(yán)重?fù)p壞或硬盤損壞時(shí),常需要使用系統(tǒng)備份來恢復(fù)系統(tǒng)。在以下情況下應(yīng)做系統(tǒng)備份:1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份。2、軟件改動(dòng)。系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份。3、定期備份。對系統(tǒng)進(jìn)行定期備份,最好每兩或三個(gè)月做一次備份。系統(tǒng)備份操作介紹:在命令行中輸入smittymksysb,可見到以下畫面:日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

按F4鍵,見到以下畫面:日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

通過上下鍵選擇備份的目標(biāo)設(shè)備(選/dev/rmt0

磁帶機(jī)),按回車,見到以下畫面:日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

再按回車,開始備份,直到見到以下畫面,表示備份完成:備份注意事項(xiàng):進(jìn)行系統(tǒng)備份無須停止業(yè)務(wù),業(yè)務(wù)可以繼續(xù)進(jìn)行。建議客戶進(jìn)行定期的系統(tǒng)備份(使用命令smittymksysb)??蛻粢部筛鶕?jù)需要利用SMIT對系統(tǒng)的特定的VG或FS進(jìn)行備份。smittymksysb只備份rootvg中mount起來的文件系統(tǒng),其它文件系統(tǒng)或數(shù)據(jù)并沒有做備份,所以數(shù)據(jù)備份需要另外完成(建議客戶使用TAR格式)在條件允許的情況下,最好有一盤以上備份帶,以防止磁帶損壞。系統(tǒng)備份過程中有時(shí)候會(huì)提示有些/tmp目錄下的文件無法備份,顯示如下:日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

Creatinglistoffilestobackup...Backingup34025files1694of34025files(4%)2733of34025files(8%)backup:0511-449Anerroroccurredaccessing./tmp/sh34736.1:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/sh34736.2:Afileordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing./tmp/sh34736.3:Afileordirectoryinthepathnamedoesnotexist.15458of34025files(45%)31920of34025files(93%)0512-003mksysbmaynothavebeenabletoarchivesomefiles.ThemessagesdisplayedontheStandardErrorcontainedadditionalinformation.這是正?,F(xiàn)象,備份成功

日常系統(tǒng)維護(hù)流程系統(tǒng)與數(shù)據(jù)備份

日常系統(tǒng)維護(hù)流程系統(tǒng)回復(fù)與DUMP

2.5系統(tǒng)恢復(fù)

當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采取一般性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),在與客戶進(jìn)行蹉商后,可將最近一次的系統(tǒng)備份帶倒回機(jī)器內(nèi)以全面恢復(fù)系統(tǒng)到最近一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,客戶應(yīng)當(dāng)與IBM工程師再進(jìn)行整個(gè)事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應(yīng)措施以杜絕類似事件再次發(fā)生。

日常系統(tǒng)維護(hù)流程系統(tǒng)回復(fù)與DUMP

2.6DUMP

當(dāng)系統(tǒng)運(yùn)行出現(xiàn)軟件故障導(dǎo)致系統(tǒng)down機(jī)時(shí),機(jī)器的液晶顯示器會(huì)出現(xiàn)888102xxx0c0(xxx可能為700或其它),AIX常會(huì)將當(dāng)時(shí)系統(tǒng)的運(yùn)行情況記錄下來,這就是DUMP。

當(dāng)DUMP產(chǎn)生后,請將磁帶放入磁帶機(jī),用命令#snap-a-o/dev/rmt0將DUMP文件拷貝到磁帶設(shè)備/dev/rmt0中。注明磁帶機(jī)的blocksize,DUMP產(chǎn)生的日期和機(jī)器的型號及序列號。同時(shí),請用#errpt-a>/tmp/err.log將errorlog記在/tmp/err.log中,并將/tmp/err.log和/tmp/hacmp.*拷貝到軟盤或磁帶上。將磁帶和軟盤交給IBM工程師。日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

2.7日常檢查服務(wù)器狀態(tài)的項(xiàng)目及其相關(guān)命令1運(yùn)行l(wèi)sdev命令配以各種參數(shù),所列各種設(shè)備狀態(tài)都應(yīng)為Available。#lsdev–C–H–Sa 列出系統(tǒng)中可用設(shè)備。#lsdev–Ccprocessor 列出系統(tǒng)中的所有CPU。#lsdev–Ccmemory 列出系統(tǒng)中的所有內(nèi)存。#lsdev–Ccdisk 列出系統(tǒng)中的所有硬盤。#lsdev-Ccadapter|grepent 列出系統(tǒng)中的所有網(wǎng)卡#lsdev-Ccadapter|grepscsi 列出系統(tǒng)中的所有SCSI卡。#lsdev-Ccadapter|grepssa 列出系統(tǒng)中的所有SSA卡。日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

2lspv命令#lspv 顯示系統(tǒng)中可用的PV。#lspvhdiskn 顯示hdiskn的具體信息。#lsdev–Ccpdisk顯示磁盤陣列的硬盤的具體信息。對SSA硬盤的檢測:在對主機(jī)進(jìn)行工作之前可以先把磁盤陣列上電,等主機(jī)完全啟動(dòng)后,登錄到主機(jī)上,運(yùn)行以下命令“l(fā)sdev–Ccpdisk“,應(yīng)該可以看到所有SSA硬盤,并且狀態(tài)應(yīng)為Available.。

日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

3lsattr命令#lsattr–E–lmem0 列出系統(tǒng)中內(nèi)存mem0的大小,本項(xiàng)目中內(nèi)存有4GBlsvg命令#lsvg 列出系統(tǒng)中所有的vg。#lsvgrootvg 列出rootvg的詳細(xì)信息。#lsvg–o列出激活的vg日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

5oslevel命令#oslevel 顯示操作系統(tǒng)版本信息。6netstat命令#netstat–in 顯示系統(tǒng)中各網(wǎng)卡的配置??刹榭淳W(wǎng)卡的IP配置好了沒有。7通過運(yùn)行#diag命令運(yùn)行硬件診斷程序檢測主機(jī)內(nèi)所有硬件,檢測結(jié)果為“Notroublefound”顯示各部分工作正常。

日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

使用#diag命令(選擇:TaskSelection->SSAServiceAids)對SSA硬盤鏈路連接的校驗(yàn),可以通過SSA工具里的LinkVerification來檢測。如有必要,可以用CertifyDisk運(yùn)行硬盤診斷部分進(jìn)行硬盤的表面分析測試,由1%至100%,檢測結(jié)果顯示主機(jī)內(nèi)置硬盤的所有扇區(qū)均讀寫正常。lsps–a查看PAGINGSPACE的使用情況,如果使用率超過70%,就需要采取措施。日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

10lsvg–o|lsvg–il|grep–istale查看有無stale的lv,如果輸入該命令之后有輸出結(jié)果,就需要采取措施11有否發(fā)給root用戶的錯(cuò)誤報(bào)告(mail)。日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

12檢查雙機(jī)狀態(tài):lssrc–gcluster檢查ha三個(gè)工作進(jìn)程是否激活,/usr/sbin/cluster/clstat–a檢查雙機(jī)狀態(tài)是否up,并檢查hacmp.out日志,看是否有異常信息。

13用vmstat,topas,sar命令檢查系統(tǒng)性能,檢查cpu\memoyr\IO,是否存在性能瓶頸。

14檢查能否順利進(jìn)入CDE界面,如果不能進(jìn)入的話,要檢查/etc/hosts表中有否錯(cuò)誤的項(xiàng)目。

日常系統(tǒng)維護(hù)流程日常檢查服務(wù)器狀態(tài)

15用smittyssaraid查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了

16用sysdumpdev–l查看系統(tǒng)的DUMP設(shè)置是否正常。

17用instfix–ik|grepML當(dāng)前操作系統(tǒng)補(bǔ)丁版本補(bǔ)丁程序(PTF)是否滿足穩(wěn)定運(yùn)行的需要。一般要求433操作系統(tǒng)補(bǔ)丁要打到10以上,5.1操作系統(tǒng)補(bǔ)丁要打到5以上

18使用df–kP查看磁盤空間占用率,請確保以下文件系統(tǒng)的占用率高于80%立即上報(bào):

//var/usr/home/tmp/zxindata/zxinbak,其余文件系統(tǒng)的占用率高于95%立即上報(bào)也可以到各文件系統(tǒng)下使用組合命令:find.–size+2048–octime1–execls–l{}\;查出大于1M或一天之內(nèi)修改過的文件。日常系統(tǒng)維護(hù)流程性能監(jiān)控與優(yōu)化

2.8性能監(jiān)控與調(diào)優(yōu)通過命令vmstat1來觀察.kthrmemorypagefaultscpu

rbavmfrerepipofrsrcyinsycsussyidwa

命令解析:vmstat命令的輸出可以反映系統(tǒng)整體運(yùn)行狀況,包括cpu、內(nèi)存、虛擬頁面、系統(tǒng)進(jìn)程和系統(tǒng)調(diào)用情況。檢查CPU是否為瓶頸,分別檢查CPU的四項(xiàng)數(shù)值和kthr的兩項(xiàng)數(shù)值.檢查MEM是否為瓶頸,分別檢查Memory的兩項(xiàng)數(shù)值和Page的六項(xiàng)數(shù)值.日常系統(tǒng)維護(hù)流程性能監(jiān)控與優(yōu)化

通過命令sar–mu–PALL來觀察命令解析:

sar可以用來收集反映系統(tǒng)運(yùn)行狀況,在這里主要是查看CPU的運(yùn)行狀況,CPU是否負(fù)載均衡,是否存在分配不均的情況。

通過命令psgv|more來觀察。PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND0-A4:2071214516xx0145040.05.0swapper1-A1:3310378952790443276825360.029.0/etc/init日常系統(tǒng)維護(hù)流程性能監(jiān)控與優(yōu)化

命令解析:ps可以用來查看進(jìn)程的當(dāng)前狀態(tài)。在這里通過參數(shù)的配搭,可以觀察目前正在運(yùn)行的進(jìn)程所耗的時(shí)間,CPU和memory量.其中,%CPU表示進(jìn)程所占用的CPU資源情況,%MEM表示進(jìn)程所占用的內(nèi)存情況。主要檢查是否有標(biāo)示為<defunc>的僵尸進(jìn)程耗用系統(tǒng)資源,以及informix數(shù)據(jù)庫的oninit進(jìn)程的系統(tǒng)消耗情況在機(jī)器上用dd命令進(jìn)行磁盤陣列的寫操作校驗(yàn),與此同時(shí)用iostat1–dhdiskX觀察磁盤。Disks:%tm_actKbpstpsKb_readKb_wrtn命令解析:iostat可以用來查看系統(tǒng)的

I/O的輸入輸出情況,在這里主要查看陣列上的硬盤的每秒讀寫量,同時(shí)估算磁盤陣列讀寫速度HHhHhh通過命令netstat–a進(jìn)行查看。ActiveInternetconnections(includingservers)ProtoRecv-QSend-QLocalAddressForeignAddress (state)命令解析:netstat可以用來查看系統(tǒng)的網(wǎng)絡(luò)情況,在這里主要是查看網(wǎng)絡(luò)客戶端連接的情況和開銷,檢查參數(shù)為state,如有死連接,state狀態(tài)為fin_wait,這樣耗用系統(tǒng)網(wǎng)絡(luò)資源,從而導(dǎo)致網(wǎng)絡(luò)性能下降構(gòu)成瓶頸日常系統(tǒng)維護(hù)流程安全工作守則

2.9安全工作守則a.系統(tǒng)定期進(jìn)行系統(tǒng)備份,系統(tǒng)盤建議鏡像。b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時(shí)候,必須作一次系統(tǒng)備份。c.在7133和shark發(fā)現(xiàn)有硬盤故障的時(shí)候,請?zhí)嵝芽蛻糇⒁猱?dāng)天的數(shù)據(jù)備份。在更換硬盤的時(shí)候,請確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完成。d.在更換敏感的電子元件,時(shí)候一定要防靜電。e.在插拔外圍設(shè)備的時(shí)候,請把外圍設(shè)備下電。f.在進(jìn)行主機(jī)微碼升級時(shí)候,請留意微碼的完整性。

g.在進(jìn)行文件刪除的時(shí)候,請留意當(dāng)前路徑是否正確。h.在進(jìn)行文件解壓縮的時(shí)候,請留意參數(shù)和路徑。故障定位、故障排除系統(tǒng)日常維護(hù)流程機(jī)房環(huán)境及物理檢查目錄故障定位、故障排除3.1硬件故障硬件故障有很多種,對系統(tǒng)產(chǎn)生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進(jìn)行硬件分類:其損壞對系統(tǒng)產(chǎn)生致命影響(將使機(jī)器宕機(jī)或無法啟動(dòng))的硬件包括:主板、CPU、I/O柜(包含本地盤、光驅(qū)、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜與CEC柜的接線、電源模塊、風(fēng)扇、本地硬盤、內(nèi)存損壞等等注:I/O柜和CEC柜一般在比較高端的小型機(jī)才有,如M80,低端的是合一的。這些設(shè)備的損壞等將使系統(tǒng)無法完成自檢、引導(dǎo)和啟動(dòng),液晶顯示屏上都將有錯(cuò)誤信息,可根據(jù)液晶顯示屏上的錯(cuò)誤碼對照ServiceGuide查的錯(cuò)誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機(jī)。硬件故障故障定位、故障排除其損壞對僅對系統(tǒng)產(chǎn)生功能影響(機(jī)器不會(huì)宕機(jī)并能正常啟動(dòng))的硬件包括:網(wǎng)卡、本地硬盤有壞塊、顯卡、SSA卡和其他外圍設(shè)備這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡(luò)功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的錯(cuò)誤碼或:errpt–dH查看到根據(jù)錯(cuò)誤碼確定是什么硬件出了故障,對商用系統(tǒng)來講,由于是雙機(jī)系統(tǒng),如果損壞機(jī)器是主機(jī)可以將此服務(wù)器切換成備機(jī),然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng)。故障定位、故障排除3.2磁陣故障磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計(jì),其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:磁陣硬盤、7133柜子、主機(jī)上的SSA卡、連接7133與主機(jī)的SSA線、硬盤的位置和ssa線的接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/ssa卡的微碼等都可能造成7133的異常。磁陣故障故障定位、故障排除7133磁陣的問題是最復(fù)雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時(shí)查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照我們的經(jīng)驗(yàn),不管是什么硬件故障導(dǎo)致7133故障,系統(tǒng)都會(huì)產(chǎn)生告警,如果能及時(shí)發(fā)現(xiàn)問題并采取措施,一般都能防止故障的發(fā)生。磁陣故障故障定位、故障排除故障定位:7133硬件故障也可以使用:errpt–dH查看到伴隨的錯(cuò)誤碼有:B4C006180115140004PHssa0RESOURCEUNAVAILABLEFE9E93570401082304PHssa0DISKOPERATIONERRORFE9E93571205000803PHpdisk3DISKOPERATIONERROR03913B941122031103UHLVDDHARDWAREDISKBLOCKRELOCATIONACHIEVED613E5F381121125103PHLVDDI/OERRORDETECTEDBYLVM625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK26CA120B0206081104PHssa0CACHESTORAGECARD磁陣故障故障定位、故障排除

所有的錯(cuò)誤碼都預(yù)示著7133有異常,紅色部分則表示肯定出現(xiàn)了硬件故障,需要立即進(jìn)行檢查并采取措施,否則磁陣將很快不能訪問。對于藍(lán)色部分:625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK表示ssa出現(xiàn)了開環(huán),出現(xiàn)開環(huán)不僅影響IO性能,也增加了風(fēng)險(xiǎn),即如果另一個(gè)環(huán)路也出現(xiàn)問題,將不能訪問磁陣。開環(huán)一般有兩種情況:1)如果625E6B9A報(bào)錯(cuò)比較頻繁,如每天幾次,則表示系統(tǒng)很有可能出了硬件故障,雖然不會(huì)導(dǎo)致訪問磁陣失敗,但需要立即查出原因并解決。查錯(cuò)方法可以參考下面的描述。2)如果625E6B9A錯(cuò)誤偶爾報(bào)一次,則要具體情況具體對待,有可能是讀寫忙出現(xiàn)的誤報(bào),也按下面方法進(jìn)行排查,如果沒有查出具體的原因,則可以繼續(xù)觀察。磁陣故障故障定位、故障排除26CA120B0206081104PHssa0CACHESTORAGECARD該錯(cuò)誤一般是在:SSA卡帶writecache并打開FastWrite,而ssa卡上用于writecache供電的可充電鎳鎘電池達(dá)到或接近安全壽命的情況下產(chǎn)生的。這類錯(cuò)誤產(chǎn)生將影響IO寫性能,并且由于在FastWrite打開的情況下,主備機(jī)需要同步ssa卡上的writecache,所以甚至?xí)绊懙街鱾錂C(jī)同步。具體解決方法可參考下文。磁陣故障故障定位、故障排除

故障排除:對于紅色部分錯(cuò)誤的問題排除,一般可以使用diag命令進(jìn)行進(jìn)一步診斷:#diag->TaskSelection->SSAServiceAids->LinkVerification檢查環(huán)路中是否出現(xiàn)了???的盤符或狀態(tài)不是good的硬盤或使用:#smittyssaraid->ListAllDefinedSSARAIDArrays

查看磁盤陣列RAID盤的狀態(tài)是否是Good。如果是degrade或其他狀態(tài)表示RAID盤出現(xiàn)問題了

這時(shí)候不建議再進(jìn)行單獨(dú)硬盤的Certify,而是趕緊通知IBM準(zhǔn)備好相同型號和大小的硬盤(至少兩塊)到現(xiàn)場進(jìn)行進(jìn)一步的診斷和壞盤更換。磁陣故障故障定位、故障排除625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK的排查方法:1、要求將7133中未插硬盤的槽位全部插上dummy盤。(dummy盤:啞元盤,就是那個(gè)空殼子,相當(dāng)于代替SSA硬盤裝在磁盤陣列的塑料模型,當(dāng)磁盤陣列的16個(gè)槽位沒有被SSA硬盤插滿時(shí)才用到.)2、看看Loop狀態(tài):diag>TaskSelection-->SSAServiceAids-->LinkVerification.正常AdapterPort下的兩列數(shù)字是連續(xù)不間斷的排列,且Status都為good,如果Physical列有???????符號.或Status不是good,則說明已經(jīng)存在硬盤或鏈路故障,這種情況則要立即采取行動(dòng),做進(jìn)一步檢查以確定是否要更換硬盤。檢查單盤是否有問題的方法如下:diag>TaskSelection-->SSAServiceAids-->CertifyDisk

選擇認(rèn)為存在故障的硬盤進(jìn)行檢查磁陣故障故障定位、故障排除3、如果7133存在硬件故障時(shí),可從狀態(tài)燈上觀察到:

當(dāng)單塊硬盤出現(xiàn)故障或未被使用時(shí),其面板上的硬盤狀態(tài)燈會(huì)不亮

陣列的狀態(tài)燈黃燈會(huì)亮

或接SSA線的端口的指示燈也會(huì)熄滅

如果通過以上三種方法都未發(fā)現(xiàn)問題,而系統(tǒng)仍報(bào)OpenSerialLink錯(cuò)誤,建議繼續(xù)跟蹤。磁陣故障故障定位、故障排除26CA120B0206081104PHssa0CACHESTORAGECARD的處理方法:背景介紹:

IBM小型機(jī)上連接7133磁陣所配置的SSA卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下保護(hù)ssa卡上的fastwritecache中的信息不丟失,這塊電池的安全壽命一般是22000小時(shí),差不多兩年半的時(shí)間,也就是說,當(dāng)fastwrite模式啟動(dòng)的情況下,一般兩年半以后需要更換這塊電池。問題表現(xiàn):磁陣故障故障定位、故障排除對ssa卡上的電池保護(hù)是通過卡上的一個(gè)計(jì)數(shù)器實(shí)現(xiàn)的,每運(yùn)行一小時(shí)該計(jì)數(shù)器會(huì)增加一,當(dāng)該計(jì)數(shù)接近或超過22000時(shí),系統(tǒng)會(huì)有26CA120B硬件報(bào)警:26CA120B0206120904PHssa1CACHESTORAGECARD

可以用如下命令檢查ssa卡上的狀態(tài):(-a后帶上卡的邏輯設(shè)備名,這里假設(shè)是ssa0)ssa_fw_status-assa0-p(檢查電池已經(jīng)工作的時(shí)間,小時(shí)為單位)ssa_fw_status-assa0-l(檢查電池安全工作壽命,小時(shí)為單位)ssa_fw_status-assa0-c(檢查ssa卡上的fastwrite功能是否被激活)磁陣故障故障定位、故障排除處理步驟:(按優(yōu)選方式列出,從中選擇一種即可)1)更換電池

選擇系統(tǒng)閑時(shí),更換主備機(jī)ssa卡電池,可以采用:

停備機(jī)-》更換備機(jī)ssa卡電池-》起備機(jī)(雙機(jī)服務(wù))-》主備倒換-》

停原主機(jī)-》更換原主機(jī)ssa卡電池-》起原主機(jī)(雙機(jī)服務(wù))

磁陣故障故障定位、故障排除2)如果系統(tǒng)出現(xiàn)26CA120B電池告警,使用ssa_fw_status-assa0-c檢查主用ssa卡(一般是ssa0)的FastWrite是否處于inactive(未被激活)狀態(tài),如果是,則以root執(zhí)行如下命令:ssa_format-lssa0-berrclear0/usr/lib/errstop/usr/lib/errdemon

可以暫緩更換電池時(shí)間,等有電池后再更換,但這段時(shí)間對磁陣讀寫性能會(huì)有所影響。

磁陣故障故障定位、故障排除3)如果短期內(nèi)不能更換電池,同時(shí)主機(jī)主用卡的FastWrite仍然處于Active狀態(tài),建議手工屏蔽fastwrite功能1)先停止雙機(jī);2)在1號機(jī)修改hdisk該屬性; smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no];3)在1號機(jī)激活卷組varyonvgzxinvg;4)在1號機(jī)去激活卷組varyoffvgzxinvg;

5)在2號機(jī)上執(zhí)smittydev->ssadisks->ssalogicaldisks->change/showcharactersof...->[choosehdisk2]->fastwrite[no]檢查fastwrite是否已經(jīng)改為no(只要1號機(jī)做了2好機(jī)就不用再修改了);6)在2號機(jī)上執(zhí)行rmdev-dlhdisk2,cfgmgr–v;7)在2號機(jī)上執(zhí)行l(wèi)spv(查看hdisk2是否已找到);8)然varyonvgzxinvg,varyoffvgzxinvg;9)重新啟動(dòng)雙機(jī)磁陣故障故障定位、故障排除3.3網(wǎng)絡(luò)故障由于我們應(yīng)用對網(wǎng)絡(luò)依賴很強(qiáng),所以當(dāng)網(wǎng)絡(luò)出現(xiàn)全阻或瞬斷都將對系統(tǒng)產(chǎn)生重大影響,網(wǎng)絡(luò)故障一般可分為硬件故障(如網(wǎng)卡故障和交換機(jī)、路由器故障)和軟件故障(網(wǎng)絡(luò)中有IP包攻擊或網(wǎng)絡(luò)擁塞)兩種情況。硬件故障:1.網(wǎng)卡對于網(wǎng)卡故障,由于商用系統(tǒng)中都是采用IBM的HA雙機(jī)系統(tǒng),而且每臺(tái)機(jī)器都配置有至少兩塊網(wǎng)卡,所以當(dāng)單塊網(wǎng)卡或網(wǎng)線出現(xiàn)問題時(shí),HA軟件都將采取措施實(shí)現(xiàn)ServiceIP切換。網(wǎng)卡故障定位方法:使用errpt–dH可查看到網(wǎng)卡服務(wù)中斷的錯(cuò)誤,再使用diag進(jìn)行網(wǎng)卡診斷網(wǎng)卡故障排查方法:如果診斷出網(wǎng)卡有問題,則關(guān)閉系統(tǒng)后進(jìn)行更換。(如果是主機(jī),則先手工切換為備機(jī)后再操作)網(wǎng)路故障故障定位、故障排除2.交換機(jī)我們的網(wǎng)絡(luò)一般都采取雙網(wǎng)雙平面的結(jié)構(gòu),所以當(dāng)一個(gè)網(wǎng)絡(luò)平面的交換機(jī)出現(xiàn)問題時(shí),也不會(huì)中斷網(wǎng)絡(luò)服務(wù),但值得重視的是:主、備交換機(jī)之間的直連線要保持暢通,否則一單發(fā)生IBM服務(wù)器主機(jī)或SIU主機(jī)的網(wǎng)卡切換,將導(dǎo)致IBM服務(wù)器主機(jī)和SIU主機(jī)斷鏈,從而導(dǎo)致業(yè)務(wù)全阻。還有一種情況,有些地方為了網(wǎng)絡(luò)安全,對連到switch上的不同設(shè)備劃分了不同的VLAN,同時(shí)又將主、備switch之間改成通過兩個(gè)口連接,并劃分在一個(gè)channelgroup里,當(dāng)時(shí)碰到的一種情況是:1)當(dāng)時(shí)IBM服務(wù)器的主網(wǎng)卡從缺省VLAN0到VLAN6實(shí)現(xiàn)遷移時(shí),網(wǎng)絡(luò)將出現(xiàn)15秒~30秒的瞬斷2)當(dāng)時(shí)主、備交換機(jī)之間的channelgroup工作不正常,鏈路不通。當(dāng)1)發(fā)生時(shí),IBM雙機(jī)發(fā)生主、備網(wǎng)卡倒換,但由于2)的問題,導(dǎo)致IBM主機(jī)無法與SIU建鏈。交換機(jī)故障定位、故障排除問題排查及建議:建議開局時(shí)一定要做雙網(wǎng)雙平面中一個(gè)平面的swith發(fā)生掉電的故障測試建議一定要做主、備交換機(jī)之間的設(shè)備之間的網(wǎng)絡(luò)互訪測試,確保暢通盡量不要在白天在switch上進(jìn)行配置修改,如果需要修改,也要在晚上進(jìn)行,并有嚴(yán)格的方案交換機(jī)故障定位、故障排除軟件故障:1.網(wǎng)絡(luò)擁塞由于系統(tǒng)在封閉網(wǎng)絡(luò)中運(yùn)行,所以發(fā)生網(wǎng)絡(luò)擁塞的可能性比較小,但如果網(wǎng)絡(luò)拓?fù)浔容^復(fù)雜的話,也可能發(fā)生這種情況,在主機(jī)上的表現(xiàn)為ping主機(jī)丟包嚴(yán)重,主機(jī)到SIU之間鏈路時(shí)通時(shí)斷,數(shù)據(jù)包丟失,設(shè)備功能異常。問題排查及建議:盡量使NT/2000的機(jī)器從網(wǎng)絡(luò)上隔離出去如果情況仍未改善,建議啟動(dòng)SIU應(yīng)急流程在恢復(fù)呼叫的前提下,使用網(wǎng)絡(luò)工具抓包,找出攻擊源、逐步將設(shè)備恢復(fù)到網(wǎng)絡(luò)。軟件故障故障定位、故障排除2.切換失敗現(xiàn)場碰到過一種情況,當(dāng)發(fā)生主、備機(jī)切換時(shí)老是切換不成功,檢查發(fā)現(xiàn)是備機(jī)的主網(wǎng)卡綁定浮動(dòng)IP老是失敗,再進(jìn)一步排查,發(fā)現(xiàn)失敗的原因是備機(jī)主網(wǎng)卡綁定MAX地址失敗,由于IBM雙機(jī)配置時(shí)需要將ServiceIP配置為一個(gè)固定的MAC地址,規(guī)則是取主機(jī)主網(wǎng)卡的MAC地址,將最后兩位改為固定的兩個(gè)數(shù)字(要求與原主網(wǎng)卡地址不同,如定制為89)。但這樣的規(guī)則在現(xiàn)場不成功問題排除:最后修改了HA拓?fù)鋱D中以太網(wǎng)配置中ServiceAdapter配置,去掉MAC地址的配置(置為空),讓后同步雙機(jī),再進(jìn)行倒換,一切OK由于網(wǎng)絡(luò)故障出現(xiàn)會(huì)導(dǎo)致遠(yuǎn)程登錄失效,所以無法進(jìn)行系統(tǒng)維護(hù)。所以建議任何一套IBM服務(wù)器都要配置一個(gè)維護(hù)臺(tái)。軟件故障故障定位、故障排除3.4OS故障AIX是一個(gè)比較穩(wěn)定的操作系統(tǒng),出現(xiàn)故障一般是人為因素引起的:沒按要求打OS補(bǔ)丁,如433打了09的補(bǔ)丁造成內(nèi)存泄漏應(yīng)用程序或數(shù)據(jù)庫消耗內(nèi)存太多或存在內(nèi)存泄漏導(dǎo)致物理內(nèi)存和pagingspace被耗盡導(dǎo)致系統(tǒng)掛起人為刪除了重要的目錄或文件,如:/dev、/usr、/bin、/sbin、/etc等故障排查:1.查操作系統(tǒng)補(bǔ)丁是否符合要求(433要求10以上,5.1要求5以上)2.檢查內(nèi)存、pagingspace的使用情況(使用lsps–a查看使用率要小于20%)3.檢查shell命令執(zhí)行時(shí)是否有報(bào)錯(cuò),errpt有無相關(guān)報(bào)錯(cuò)OS故障故障定位、故障排除3.5HA故障對于HA安裝時(shí)出現(xiàn)的故障,如同步拓?fù)鋱D失敗,要求檢查以下條款看是否符合要求:1.對于4.4.1版本的HA一定要打上15以上的補(bǔ)丁,4.5版本的HA要求打上9以上的補(bǔ)丁2.網(wǎng)絡(luò)相關(guān)的配置文件一定要按照安裝手冊去設(shè)置3.網(wǎng)絡(luò)ip配置要正確并且保證物理鏈路暢通4.所有4.4.1、4.4.0版本一律使用標(biāo)準(zhǔn)版5.不能在同一臺(tái)機(jī)器中同時(shí)安裝標(biāo)準(zhǔn)版或ES版6.打補(bǔ)丁時(shí)請使用smittyupdate_all方式,不要選擇打所有補(bǔ)丁,因?yàn)闃?biāo)準(zhǔn)版和ES版的補(bǔ)丁往往在一起,這樣會(huì)導(dǎo)致版本不一致HA故障故障定位、故障排除如果是新開局,一定要保證做雙機(jī)倒換測試并確保成功。如果在后續(xù)使用中,進(jìn)行了如下操作,以后再做雙機(jī)切換會(huì)失敗:1.在主機(jī)上做過磁陣RAID或共享VG相關(guān)信息的修改,如:增加了新的RAID盤,修改了共享VG的配置2.在共享VG中增加了新的FS、增加了新LV3.以上配置或修改只在主機(jī)上進(jìn)行了操作,而未將共享VG信息及時(shí)同步到備機(jī)4.備機(jī)雖然導(dǎo)入了新的共享VG信息,但未修改共享VG屬性為系統(tǒng)啟動(dòng)時(shí)不自動(dòng)啟動(dòng)5.未在共享VG激活、共享文件系統(tǒng)mount狀態(tài)下修改備機(jī)共享文件系統(tǒng)、裸設(shè)備的權(quán)限改為數(shù)據(jù)庫可操作的權(quán)限HA故障故障定位、故障排除以下是HA的正常操作流程和異常情況下的處理,供參考:HA正常操作流程a、啟動(dòng)HA前必須保證:雙機(jī)結(jié)構(gòu)組件物理連接正確無誤操作系統(tǒng)運(yùn)行正常HA軟件安裝配置正確,拓?fù)浣Y(jié)構(gòu)和資源組同步成功完成系統(tǒng)當(dāng)前無任何HA進(jìn)程如clstrmgr、clsmuxpd或clinfo運(yùn)行,如果有則首先執(zhí)行HA關(guān)閉操作系統(tǒng)當(dāng)前無任何HA資源組中定義的應(yīng)用進(jìn)程或設(shè)備擊活,如共享磁盤vg未掛接在任何節(jié)點(diǎn)上、屬于資源組的數(shù)據(jù)庫和應(yīng)用進(jìn)程未啟動(dòng)等HA故障故障定位、故障排除b、HA啟動(dòng)過程是clstrmgr被擊活后由它在后臺(tái)調(diào)用執(zhí)行相關(guān)腳本完成,所以啟動(dòng)過程是否結(jié)束不能單看cluster進(jìn)程是否被擊活,最好方法是跟蹤hacmp.out日志記錄:#tail-f/tmp/hacmp.out啟動(dòng)結(jié)束標(biāo)志:hacmp.out記錄HACMPEventSummary(任何動(dòng)作結(jié)束標(biāo)志)建議主備節(jié)點(diǎn)順序啟動(dòng),不可主備機(jī)同時(shí)啟動(dòng)HAc、任何事件操作必須等待該事件完全執(zhí)行完畢后方可執(zhí)行下一個(gè)事件HA故障故障定位、故障排除d、HA結(jié)合服務(wù)器的冗余部件可以完全消除雙機(jī)系統(tǒng)中的單點(diǎn)故障,但當(dāng)系統(tǒng)出現(xiàn)多點(diǎn)故障時(shí)并不保證系統(tǒng)正常運(yùn)行,多點(diǎn)故障包括雙機(jī)同時(shí)出現(xiàn)多個(gè)與HA相關(guān)部件錯(cuò)誤,或者雙機(jī)出現(xiàn)某個(gè)錯(cuò)誤引起HA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論