IBM小型機維護指導(dǎo)書_第1頁
IBM小型機維護指導(dǎo)書_第2頁
IBM小型機維護指導(dǎo)書_第3頁
IBM小型機維護指導(dǎo)書_第4頁
IBM小型機維護指導(dǎo)書_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、江西建行IBM 小型機日常維護第一篇:日常維護部分第二篇:故障處理部分第三篇:安圖特公司技術(shù)支持電話iii / 58下載文檔可編輯第一篇 日常維護部分第1章AIX系統(tǒng)管理日常工作(檢查篇)11.1 常用的命令11.2 語法介紹11.2.1 vmstat :檢查內(nèi)存、CPU進程狀態(tài) 11.2.2 sar:檢查 CPU IO31.2.3 PS :檢查進程狀態(tài)命令31.2.4 svmon 顯示進程占用內(nèi)存41.2.5 iostat:顯示磁盤IO41.2.6 netstat,entstat :顯示網(wǎng)卡信息51.2.7 no: 顯示 tcpip 參數(shù)設(shè)置61.2.8 其它命令6第2章 AIX系統(tǒng)管理日常

2、工作(LV篇)72.1 舊MAIX系統(tǒng)管理的日常工作 72.1.1 開關(guān)機步驟72.1.2 用戶組及用戶管理72.1.3 文件系統(tǒng)維護72.1.4 系統(tǒng)日常管理82.1.5 系統(tǒng)備份82.1.6 定時清洗磁帶機82.1.7 定時檢查設(shè)備指示燈狀態(tài)92.1.8 簡單故障的判斷92.1.9 熟悉 ibm aix 操作系統(tǒng)92.2 關(guān)于 舊M AIX的邏輯卷管理 92.3 LV喻令10第3章AIX系統(tǒng)管理日常工作(關(guān)鍵參數(shù)檢查篇)133.1 AIO參數(shù)檢查133.2 磁盤陣列QUEUEDEPT#數(shù)檢查 143.3 用戶參數(shù)檢查143.4 激活SSAFAST-WRITE CACHE153.5 IO 參

3、數(shù)設(shè)置153.6 SYNCD daemON數(shù)據(jù)刷新頻率153.7 檢查系統(tǒng)硬盤的鏡像15第4章AIX系統(tǒng)管理日常工作(性能分析篇) 174.1 性能瓶頸定義174.2 性能范圍1718第5章 AIX系統(tǒng)管理日常工作(SHUTDOVWN)5.1 概念 185.2 關(guān)機命令18第6章AIX系統(tǒng)管理日常工作(備份與恢復(fù)篇) 186.1 用 SMIT備份186.2 手工備份186.3 恢復(fù)系統(tǒng)19第7章 HACMP雙機系統(tǒng)的管理和維護 197.1 HACM雙機系統(tǒng)的啟動197.2 HACM雙機系統(tǒng)的關(guān)閉207.3 察看雙機系統(tǒng)的當(dāng)前狀態(tài)217.4 HACM環(huán)境下白排錯227.4.1 了解問題的存在 2

4、27.4.2 判斷問題的出處 23第1章 AIX系統(tǒng)管理日常工作(檢查篇)1.1常用的命令CPUMemoryDiskNetwork標準UNIX命 令(包括HP SUN)vmstat, sar, psvmstat, psiostat, sar, vmstat,netstat, nfsstatAIX詳細輸出Tprofsvmon, rmss,entstatAIX非常詳細 輸出syscalls, trace, emstattracetracetrace, iptrace分析工具topastopastopasTopas1.2語法介紹1.2.1 vmstat :檢查內(nèi)存、CPU進程狀態(tài)# vmstat 1

5、 15kthr memorypagefaults cpu r b avm fre re pi po fr sr cyin sy cs us sy id wa1 0 28132 81277 0 0 0 0 0 0 132375 67 65 1 34 02 0 28132 81277 0 0 0 0 0 0 127338 131 99 0 0 0 2 0 28132 81277 0 0 0 0 0316 131 99 0 0 02 0 28132 8127700000317 126 99 0 0 02 0 28132 8127700000316 127 99 0 0 02 0 28132 8127

6、700000317 125 99 0 0 02 0 28132 8127700000316 127 99 0 0 02 0 28132 8127700000317 124 99 0 0 02 0 28132 8127700000304 127 99 0 0 0r :正在運行的進程b:被阻擋的進程0 1320 1200 1460 1300 1350 1290 133avmx活動的虛內(nèi)存,單位4kbfre :自由列表,位4kbpo:頁換出pi :頁換入sy:系統(tǒng)占用CPUid :空閑 CPUwa:等彳f的CPU1.2.2 sar :檢查CPU、 IO例如:sar -u 1 30sar -P ALL

7、 1 10語法:sar -abckmqruvwyA inteval repetition- b buffer 活動- c 系統(tǒng)調(diào)用- k 內(nèi)核進程統(tǒng)計.- m 消息及信號量活動- q 正在運行的隊列數(shù)及等待隊列數(shù)- r 頁交換統(tǒng)計- u CPU 利用- P CPU負載.1.2.3 PS:檢查進程狀態(tài)命令ps:顯示當(dāng)前SHELLS所有進程ps -ef :顯示系統(tǒng)中所有進程,f 顯示更詳細信息ps -u oracle :顯示 oracle 用戶進程ps emo THREAD顯示線程信息ps au ; ps vg :按使用時間顯示進程(最近一次調(diào)用)ps aux:按使用時間顯示進程(進程啟動)1.2

8、.4 svmon :顯示進程占用內(nèi)存svmon - G:顯示系統(tǒng)占用內(nèi)存svmon -C command_nam: e顯示某個用戶進程占用內(nèi)存svmon -P pid顯示某個進程占用內(nèi)存svmon - S:顯示段占用內(nèi)存1.2.5 iostat :顯示磁盤IOtty:tin tout avg-cpu: % user %sys % idle % iowait0.0 4.00.9 1.3 95.42.5Disks:% tm_act KbpstpsKb_read Kb_wrtnhdisk058.4218.341.2172920hdisk1428016.885.621.4hdisk211002050.

9、6223.955.6hdisk3428016.885.621.4hdisk4000.00.00.0hdisk51396043.4279.169.8hdisk6000.00.00.0hdisk7013616.427.220.2hdisk8000.00.00.0hdisk907809.4156.011.4hdisk10013616.427.220.2cd0000.00.00.01.2.6 netstat, entstat :顯示網(wǎng)卡信息顯示網(wǎng)卡信息netstat en0:顯示en0信息5 / 58下載文檔可編輯netstat s:顯示網(wǎng)絡(luò)信息netstat -m顯示網(wǎng)絡(luò)sta

10、t -i顯示網(wǎng)卡狀態(tài)netstat -I en0 1顯示eno網(wǎng)卡塞(1秒間隔)1.2.7 no:顯示tcpip 參數(shù)設(shè)置no - a:顯示tcpip所有參數(shù)當(dāng)前設(shè)置no -o tcp_keepalivetime=7200000設(shè)置 tcp_keepalivetime 等于 3600000秒no d恢復(fù)默認值注:該方法在重啟后失效1.2.8其它命令檢查文件系統(tǒng)df -k檢查設(shè)備lsdev -C檢查物理卷lspv檢查交換區(qū)lsps -a檢查配置lscfg -vp檢查軟件lslpp -l檢查用戶who第2章AIX系統(tǒng)管理日常工作(LV篇)2.1 IBM AIX系統(tǒng)管理的日常工作系統(tǒng)管理員對小型機系

11、統(tǒng)的正確管理是系統(tǒng)穩(wěn)定運行 的保障,作為系統(tǒng)管理員應(yīng)注意以下幾個方面:2.1.1 開關(guān)機步驟在系統(tǒng)管理員控制下進行正確的操作。(第5章有專門 介紹)2.1.2 用戶組及用戶管理2.1.3 文件系統(tǒng)維護發(fā)現(xiàn)文件系統(tǒng)已滿,應(yīng)及時刪除無用文件或擴大文件系統(tǒng)。查看文件系統(tǒng)使用率命令:df - k ,查看Used%Iused1024-blocks Free %Used lused %IusedMounted on/dev/hd4327682018039%2070 13% /dev/hd22293760123098447%330456% /usr7 / 58下載文檔可編輯/dev/hd9var327681

12、583252%3675% /var/dev/hd3327682330029%1102% /tmp/dev/hd132768313845%721% /home/dev/informixlv52428819906063%35213% /home/informix注意系統(tǒng)文件系統(tǒng)中的/ /var /tmp 使用率不要超過 902.1.4 系統(tǒng)日常管理系統(tǒng)管理員最好用smit 來進行系統(tǒng)管理。 Smit 是以菜單方式工作的工具包,它包括了日常管理工作的所有命令,操作簡便。2.1.5 系統(tǒng)備份備份是保護用戶數(shù)據(jù)不丟失的重要手段。一般系統(tǒng)備份的要求如下:A. 每一臺機器的操作系統(tǒng)至少有一個全備份。B. 每

13、天備份用戶數(shù)據(jù)。C. 操作系統(tǒng)配置修改后重新備份操作系統(tǒng)。(系統(tǒng)備份方法在第六章專門介紹)1.1.6 定時清洗磁帶機可以每月定時清洗一次,將清洗帶插入磁帶機,清洗完畢后會自動退出磁帶。當(dāng)磁帶機需要清洗時,磁帶機左邊第一個起綠色指示燈會亮。1.1.7 定時檢查設(shè)備指示燈狀態(tài)RS6000小型機出現(xiàn)硬件故障時,系統(tǒng)前面板上會亮一 個橙色的告警燈。液晶面板上面會有顯示錯誤代碼1.1.8 簡單故障的判斷詳細信息見“第二部分:故障處理指導(dǎo)書”1.1.9 熟悉 ibm aix 操作系統(tǒng)2.2 關(guān)于 IBM AIX 的邏輯卷管理IBM AIX 存儲管理的五個基本概念:物理卷Physical Volume,稱為

14、PW:指物理上硬盤,一 個硬盤就是一個 PV,名字為HDISK0 HDISK1物理分區(qū)(Physical Partitions ):物理卷被劃分成大小一樣的物理分區(qū)PPs邏輯卷組 Logical Volume Group ,稱為 VG 一 個 VG 包含整數(shù)個PY可理解為一個大硬盤。邏輯卷Logical Volume,稱為LV:相當(dāng)于對大硬盤進行邏輯分區(qū), 一個VG里可有若干個LV,對用戶講, LV上的數(shù)據(jù)是連續(xù)的,但PV上的數(shù)據(jù)可能是分散的。邏輯分區(qū)(Logical Partitions ):每個LV有若干邏 輯分區(qū)(LPs)組成,每個邏輯分區(qū)至少有一個 PV組成。9 / 58下載文檔可編輯

15、文件系統(tǒng):在邏輯卷的基礎(chǔ)上,可建立文件系統(tǒng) JFS, 然后MOUNTS一個目錄下,這樣就可以文件存取的方 式來使用這塊硬盤了。當(dāng)然,您也可以不建文件系統(tǒng),而直接把 LV當(dāng)作裸設(shè) 備,以TRUN直式來存取數(shù)據(jù),許多數(shù)據(jù)庫都是用這種 方式存取數(shù)據(jù)。LVM勺關(guān)系如下圖:PV Physical Volumes (disks)Volume GroupLV - Logical Volume (old UNIX partition)PP PhysicalPartition(smallest chunkTerms-Summaryof disk typically 8,16 or 32 MB)Logical V

16、iew =VG with many LVs containing PPs from particular PVs11 / 58下載文檔可編輯2.3 LV喻令一般采用smit命令可對PM VG LV、JFS等進行圖形 化管理,命令如下:smit lvm屏幕顯示如下:Add a Logical VolumeNAMELogicalvolumescratchVOLUMEGROUPname13 / 58下載文檔可編輯testvg* Number of LOGICAL PARTITIONS64#PHYSICALVOLUMEnameshdisk1 hdisk2 hdisk3 +Logical volume

17、TYPEjfsPOSITIONon physical volume middle +RANGE ofphysicalvolumesminimum +MAXIMUMNUMBERof PHYSICALVOLUMES #to use for allocationNumberof COPIESof each logical 2+partitionMirror Write Consistency?yes+Allocate each logical partitioncopy yes+on a SEPARATE physical volume?RELOCATEthe logical volume duri

18、ng yes +reorganization?Logical volume LABELMAXIMUM NUMBER of LOGICAL PARTITIONS 512 #Enable BAD BLOCK relocation?yes+SCHEDULING POLICY for reading/writing parallel +logical partition copiesEnable WRITE VERIFY?no+ALLOCATION MAP Stripe Size?64K行命令:.lsvg :查看 vg 名字查看 vg 詳細信息: lsvg <vgname>查看vg 內(nèi)的L

19、Vs:lsvg -l <vgname>查看vg 內(nèi)的PV:lsvg -p <vgname>查看激活的VG lsvg - o. lspv :查看物理卷組查看PV詳細信息:查看PV內(nèi)的LVs查看PV內(nèi)的PP :.lslv: 查看LV的信息查看LV 名字:查看LV 詳細信息 :pg 名字lspv hdiskNlspv -l hdiskNlspv -p hdiskNlsvg -l <vgname>lslv <lvname>查看PV內(nèi)的LVs :查看PV內(nèi)的PP :查看鏡像的LV:lslv -l <lvname>lslv -p <pvna

20、me>lslv -m <lvname>18 / 58下載文檔可編輯第3章 AIX系統(tǒng)管理日常工作(關(guān)鍵參數(shù)檢查篇)3.1 AIO參數(shù)檢查# Isattr -El aio0minservers X MINIMUM number of servers Truemaxservers 80 MAXIMUM number of servers Truemaxreqs 4096 Maximum number of REQUESTS Truekprocprio 39Server PRIORITYTrueautoconfig available STATE to be configured

21、atsystem restart Truefastpath enable State of fast path TrueMaxServers = 10 * number of disksMinServers = MaxServers /2其中MaxServers最大為80可用命令 #smitty aio Change / Show Characteristics of Asynchronous I/O修改相應(yīng)的值。3.2 磁盤陣列queue_depth 參數(shù)檢查彳段設(shè) DATAVG RAID盤為 hdisk2# lsattr -El hdisk2pvid 00019081a0dc91ea000

22、00 Physical volume identifier Falqueue_depth 8Queue depthTruequeue_depth 值設(shè)置為7133硬盤個數(shù)可用命令 #chdev - l hdisk2 - a queue_depth=x 修改, 但VG必須為VARYOFF態(tài)。3.3 用戶參數(shù)檢查#smitty chlicense修改 Maximum number of FIXED licenses 為 10#lsattr -El sys0|grep maxuprocmaxuproc 200 Maximum number of PROCESSES allowed per user

23、True用 #smitty chgsys 修改利 用 lsattr -Elsys0 檢 查 maxuproc, minpout, maxpout等參數(shù)的大小。maxuproc為每個用戶的最大進 程數(shù) , 當(dāng)應(yīng)用涉及大量的順序讀寫而影響前臺程序響應(yīng)時間時,可考慮將 maxpout設(shè)為33, minpout設(shè)為16, 利用 smitty chgsys 來設(shè)置。3.4 激活 SSA Fast-Write Cache利用 smitty ssafastw 來激活每一個邏輯盤hdiskn 的Fast-Write Cache: 選擇硬盤后,把 Enable Fast-Write一項改為Yes后回車即可。對于

24、 OPS必須關(guān)閉,對于 GAILOVE或單機必須打開。3.5 IO 參數(shù)設(shè)置High water mark for pending write I/Os per )和Low water mark for pending write I/Os per file它們?nèi)笔≈禐?,在雙機環(huán)境中一般應(yīng)設(shè)High watermark 為 33,Low water mark 為24,這兩個參數(shù)可用smitty chgsys 來設(shè)置。3.6 syncd daemon 的數(shù)據(jù)刷新頻率該值表示刷新內(nèi)存數(shù)據(jù)到硬盤的頻率,缺省為60,一般可改為20,也可根據(jù)實際情況更改。該參數(shù)通過vi/sbin/rc.boot 更改

25、,其中一行如下:nohup /usr/sbin/syncd60 >/dev/null 2>&1 &改為:nohup /usr/sbin/syncd20 >/dev/null 2>&1 &3.7檢查系統(tǒng)硬盤的鏡像#lsvg l rootvg rootvg:LV NAMETYPELPs PPs PVsLV STATEMOUNT POINThd5boot12 2closed/syncd N/Ahd6paging48 96 2open/syncd N/Apaging00 paging 32 64 2 open/syncd N/Ahd8jfslog

26、 122open/syncd N/Ahd4jfs122open/syncd /hd2jfs32 64 2open/syncd /usrhd9var jfs 510 2open/syncd /varhd3jfs4 82open/syncd /tmphd1jfs122open/syncd /home注意:PPs為LPs的兩倍,PVs為2如果系統(tǒng)盤未鏡像,而系統(tǒng)盤為18G盤,用命令鏡像# mirrorvg rootvg hdisk0 hdisk1(對 rootvg 進行鏡像)# bosboot - a(在兩塊盤上重建bootimage)# bootlist - m normal hdiskO hdi

27、skl(設(shè)置機器的啟動順序)第4章 AIX系統(tǒng)管理日常工作(性能分析篇)4.1 性能瓶頸定義項目 判斷標準CPUvmstat+ %sys greater 大于 75%Disk I/Ovmstat大于 30% (AIX 4.3.3 or later)程序磁盤%tm_act應(yīng)用交換區(qū) 60%頁交換數(shù)量CPK量4.2 性能范圍CPUDiskMemorylsps -aiostat vmstat好壞60%75%<30%<40%010 pages/檢查命令%user%iowaitiostat大于 60%大于大于10X極差90%+<50%+秒 CPU >50AIX系統(tǒng)管理日常工作(S

28、HUTDOVWN)5.1 概念I(lǐng)BM AIX的啟動分為多用戶(normal)和單用戶 (service )模式,在正常情況下,一般選擇多用戶模 式。5.2關(guān)機命令快速關(guān)機,不警告用戶shutdown -F ; halt快速關(guān)機并重啟shutdown - Fr; reboot警告一分鐘后關(guān)機并重啟shutdown -r發(fā)送關(guān)機命令,但不關(guān)機shutdown -k關(guān)機并警告用戶推出Shutdown now關(guān)機到單用戶模式Shutdown m; init s; telinit s第6章 AIX系統(tǒng)管理日常工作(備份與恢復(fù)篇)6.1 用SMIT備份#smitty mksysb 進行系統(tǒng)備份當(dāng) COMM

29、AND STATUS中 Command: OKB現(xiàn)后,表示 備份成功。取出制作完畢的磁帶,在磁帶上的標簽上注明備份機器 的名稱和序列號6.2 手工備份# mksysb i /dev/rmt019 / 58下載文檔可編輯6.3 恢復(fù)系統(tǒng)# bootinfo - e檢查系統(tǒng)所帶的磁帶機是否能啟動系統(tǒng),如果返回值是1,表示該磁帶機支持啟動系統(tǒng),如果返回值是0,就是不支持。插入備份帶,檢查設(shè)備啟動順序: bootlist m service o如果需要,將啟動順序改為從磁帶啟動: bootlist m service rmt0重啟機器,系統(tǒng)從磁帶讀數(shù)據(jù),根據(jù)提示恢復(fù)系統(tǒng)。第7章 HACM的 雙機系統(tǒng)的

30、管理和維護7.1 HACMPX機系統(tǒng)的啟動要啟動HACMP機系統(tǒng)必須要有root用戶的特權(quán)分別進入到系統(tǒng)各節(jié)點主機在命令行上執(zhí)行下述命令即可。# smit clstart或# /usr/sbin/cluster/etc/rc.cluster-boot-N -i注:在雙機系統(tǒng)中HACM雙機軟件先啟動的節(jié)點將成為主節(jié)點擁有資源,后啟動的節(jié)點將成為備用節(jié)點。20 / 58下載文檔可編輯7.2 HACM雙機系統(tǒng)的關(guān)閉要關(guān)閉某節(jié)點上的HACMPX機軟件必須要有該節(jié)點root 用戶的特權(quán),以root 用戶進入到該節(jié)點主機在命令行上執(zhí)行下述命令即可。# smit clstop或# clstop -gr說明:

31、若該節(jié)點是主節(jié)點并且備節(jié)點上的HACM歌件亦正常運行,則clstop關(guān)閉模式的三種選 項行為不同。 forced : 是指立即關(guān)閉雙機軟件不調(diào)用 任何客戶應(yīng)用的善后處理例程。 graceful 是指在關(guān)閉雙機軟件時將調(diào)用客 戶應(yīng)用預(yù)定義的善后處理例程。 takeover 是指該節(jié)點將關(guān)閉雙機軟件并釋 放資源請求備節(jié)點進行接管。檢查HACM雙機軟件在該節(jié)點是否已啟,動命令如下:# lssrc -g cluster若 是 系統(tǒng) 顯 示 出 下 面 類似 的 信 息 則 說 明 HACM雙機軟件已正常啟動.Subsystem Group PID StatusClstrmgr cluster 2250

32、0 activeClsmuxpd cluster 23674 activeClinfo cluster 28674 active20 / 58下載文檔可編輯7.3 察看雙機系統(tǒng)的當(dāng)前狀態(tài)# /usr/sbin/cluster/clstat -a如果雙機系統(tǒng)一切工作正常則系統(tǒng)將顯示下述類似信息:clstat - HACMP for AIX Cluster Status MonitorCluster: cluster(80) Thu Jan 20 08:45:17 TAIST2000State: UP Nodes: 2SubState: STABLENode: oracle1 State: UPI

33、nterface: oracle1_svc (0) Address: 1State: UPInterface: oracle1_tty (1) Address: State: UPNode: oracle2 State: UPInterface: oracle2_svc (0) Address: 1State: UPInterface: oracle2_tty (1) Address: State: UP21 / 58下載文檔可編輯7.4 HACM邸境下的排錯在一般情況下,HACM瞰件很少需要手工干預(yù),但一旦 有問題發(fā)生, 診斷和

34、恢復(fù)的技巧是很重要的. 需要能很快地斷定問題然后運用你對HACMP勺理解來恢復(fù)HACMP的正常運作.一般地,HACMP環(huán)境下的排錯包括:. 了解問題的存在. 判斷問題的出處. 解決問題 .7.4.1 了解問題的存在您可以通過以下途徑了解到一個 CLUSTERS境下出現(xiàn) 了問題 . 最終用戶的投訴, 他們無法訪問應(yīng)用程序.控制臺上出現(xiàn)一些HACMP勺信息.1 . 應(yīng)用服務(wù)無法訪問最終用戶的抱怨通常預(yù)示 CLUSTE變現(xiàn)了問題.他們無 法正常執(zhí)行應(yīng)用或是無法登錄到系統(tǒng). 我們必須采集到詳細的信息以判斷到底那里出現(xiàn)了問題. 是否有錯誤的信息提示?如果可能的話, 讓用戶重復(fù)步驟以確定那里是錯誤的開始.

35、 您也可以在自己的系統(tǒng)上重復(fù). 要知道用戶應(yīng)用不可用并不代表HACMPT問題.問題可能出現(xiàn)在22 / 58下載文檔可編輯應(yīng)用程序本身或是它的啟動或終止腳本出現(xiàn)了問題. 因此應(yīng)用程序本身的排錯也應(yīng)是HA排錯的一部分.2 .控制臺上出現(xiàn)一些HACMP勺信息在HACMRO動,終止或出錯時,控制臺上會出現(xiàn)一些 HACMP勺信息,同時也會寫入相應(yīng)的文件中.7.4.2 判斷問題的出處當(dāng)錯誤出現(xiàn)時, 我們應(yīng)嘗試發(fā)現(xiàn)錯誤的所在. 但我們常常被錯誤的表面所誤導(dǎo). 以下的步驟可以使我們得到更詳細的信息.1 . 保 存 好 一 些 LOG 文 件 .(/tmp/hacmp.out & /tmp/cm.log

36、). 因為它們可能被覆蓋.2 .仔細檢查HACM所產(chǎn)生的LOGC件.它們能提供最初的判斷線索.3 .用HACMP勺工具和AIX的命令來檢查HACMP勺部件是否正常 .4 .打開HACMP勺跟蹤工具來產(chǎn)生更詳細的信息.HACMP勺LOGC件:以下文件都是文本文件,可以用VI來看 . 每個日志文件都含有每個信息的產(chǎn)生時間./usr/adm/cluster.log :記錄了 HACMP 狀態(tài),由 HA的守護進程所產(chǎn)生./tmp/hacmp.out :記錄了 HA的詳細腳本./usr/sbin/cluster/history/cluster.mmdd: 記 錄 了HA的各個事件的發(fā)生./tmp/cm.

37、log : 由clstrmgr 進程產(chǎn)生,每次HA重起時會被覆蓋 .HACMP FOR AIX 的結(jié)構(gòu)應(yīng)用層HACM歌件層LVM & TCPIP 層AIX 層物理網(wǎng)絡(luò)層物理硬盤層硬件層在 物 理 網(wǎng) 絡(luò) 層 , 物 理 硬 盤 層 , 硬 件 層 ,LVM & TCPIP層 ,AIX 層我們可以用AIX系統(tǒng)命令來看是否硬件和系統(tǒng)出現(xiàn)了問題. 一般地 , 在用 errpt 命令來看沒有類型為PH的錯誤,lsvg -o來看我們所須的VG已varyon,mount來看我們所須的文件系統(tǒng)已安裝 , netstat -i 來看我們所須的service IP 是 UP的狀態(tài) ( 或用 if

38、configen*),cluster node 之 間 的 service 與 service IP ,standby 與 standby IP 互相可以 ping 通 . 在各個節(jié)點上執(zhí)行stty<</dev/tty* 有相應(yīng)的信息出現(xiàn). 說明硬件層 ,LVM & TCPIP 層 ,AIX 層沒有問題, 問題可能出現(xiàn)在應(yīng)用層與HACM歌件層上.否則問題就出現(xiàn)在相應(yīng)的層次上.在HACM嗽件層上,我們可以用vi /tmp/hacmp.out 來 看 , 如果出現(xiàn)eventfailed 的字段 , 則有可能問題出現(xiàn)在該層, 如果在問題出現(xiàn)的時段,hacmp.out 無信息出現(xiàn)

39、, 則問題可能出現(xiàn)在應(yīng)用層 .以下是HA排錯的一些守則:. 在第一時間保存好相關(guān)的日志文件 , 特別是那些會被覆蓋的文件. 嘗試去重復(fù)問題的出現(xiàn). 不要被用戶所反映的問題迷惑. 漸進地去重復(fù)問題, 如果有多個可能導(dǎo)致問題的出現(xiàn),一個一個地去重復(fù), 而不要一次重復(fù)多個可能. 不要憑經(jīng)驗來判斷問題, 而是要在各種測試后 , 由結(jié)果來判斷 . 隔離問題的來源, 根據(jù)我們上面所敘述的層次關(guān)系, 至頂向下地診斷. 由簡到繁地做測試, 我們先從一個簡單的環(huán)境來做測試 , 不要嘗試在一個復(fù)雜的環(huán)境中測試 . 一次做一次改動, 否則我們無法知道是那個改動解決了問題 . 不要忽略各種可能, 因小可失大, 留心系

40、統(tǒng)的每一個細節(jié) , 包括電源 , 插頭 , 連線等 . 保持各種測試的記錄以及解決的步驟, 用做將來排錯的參考 .。撥打技術(shù)支持工程師電話,到現(xiàn)場解決問題。第二篇:故障處理部分目錄第 1章故障的定義 27第 2 章 故障信息的收集282.1 收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要 282.2 系統(tǒng)故障記錄( ERRORLO)G282.3 控制面板上的LED代碼 302.4 SMS(SYSTEMMANAGEMENSTERVICE) 故障記錄 312.5 MAIL 322.6 運行故障診斷程序(DIAGNOSTIC) 對系統(tǒng)硬件進行檢查和診斷. . 322.7 其他用于收集系統(tǒng)信息的命令

41、 32第 3 章 硬件故障定位方法363.1 IPL 流程 363.2 系統(tǒng)的啟動順序: 373.3 系統(tǒng)不能啟動 373.4 系統(tǒng)停在551555或557 383.5 CDES形界面掛死 393.6 系統(tǒng) DUMP40第4章7133-D40SSAB盤柜的故障定位 42第 5 章 軟件故障定位方法435.1 文件系統(tǒng)空間不夠 435.2 檢查文件系統(tǒng)的完整性 445.3 查看卷組信息( LSVG- LVG_NAM)E 4437 / 58下載文檔可編輯5.4 檢查內(nèi)存交換區(qū)(PAGINGSPAC頻用率(LSPS-S) 445.5 小型機內(nèi)存泄漏問題 45第 6 章 常用的系統(tǒng)狀態(tài)查詢命令第 7

42、章 網(wǎng)絡(luò)故障定位方法7.1 網(wǎng)絡(luò)不通的診斷過程 487.2 網(wǎng)絡(luò)配置的基本方法 49第8章 HACM環(huán)境下的排錯 508.1 了解問題的存在 508.2 判斷問題的出處 51第 9 章 附常用命令列表4748錯誤 ! 未定義書第 1章 故障的定義根據(jù)以下這些方面來考慮故障定位:弄清楚系統(tǒng)發(fā)生了什么問題系統(tǒng)現(xiàn)在能做什么不能做什么故障什么時候發(fā)生的有沒有做平時不同的操作故障有沒有規(guī)律定時還是不定時發(fā)生的頻率有多高是一臺機器出現(xiàn)故障還是多臺機器故障故障現(xiàn)象是否 相同最近有沒有做改動如安裝了新的硬件軟件改變了系統(tǒng)的一些設(shè)置第 2章 故障信息的收集2.1 收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常重要

43、2.2 系統(tǒng)故障記錄(errorlog)errdemon 進程在系統(tǒng)啟動時自動運行記錄包括硬件軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog 可備份下來或拷貝到別的機器上分析errpt 命令的使用( 普通用戶權(quán)限也可使用)#errpt |more 列出簡短出錯信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC00 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 07010

44、00000 T 0 errdemon Error logging turned on038F25800624131000UHscdisk0 UNDETERMINEDRRORAA8AB241 0405130900 T O OPERATOR OPERATORNOTIFICATIONTIMESTAMP: MMDDHHMMYY 時分年T 類型: P 永久; T 臨時 ; U 未知永久性的錯誤應(yīng)引起重視C 分類: H 硬件; S 軟件 ; O 用戶 ; U 未知# errpt -d H列出所有硬件出錯信息# errpt -d S列出所有軟件出錯信息# errpt -aj ERROR_ID 列出詳細出錯信

45、息# errpt -aj 0502f666 <- ERROR_ID用大小寫均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product DataDevice Driver Level0

46、0Diagnostic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial Number00002849ROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFEC

47、TIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 00000000 00002.3控制面板上的LED代碼8 位代碼通常系統(tǒng)故障燈會同時亮起某些機型還會同時顯示故障設(shè)備位置代碼4 位代碼通常是Exxx3 位代碼通常為0yyy 只看后 3位8 位和 4位代碼可查看系統(tǒng)服務(wù)手冊(Service Guide)3 位代碼可查看系統(tǒng)診斷手冊

48、(DiagnosticInformation for Multiple BusSystem)閃動的 888, 系統(tǒng)崩潰硬件或軟件原因造成按reset 鍵會顯示更多內(nèi)容888-102 一般為軟件故障888-102-207 例外系統(tǒng)會產(chǎn)生一個dump888-102-xxx-0C9 系統(tǒng)正在做dump, 請等待888-102-xxx-0C0 系統(tǒng)dum院成可關(guān)電重啟888-103 或 105硬件故障一般有SRN代碼及位置代碼2.4 SMS (System Management Service) 故障記錄如何進入SMS菜單當(dāng)主控臺出現(xiàn)鍵盤圖標后(LED顯示E1F1日t)按1鍵選擇"Utili

49、ties"選擇"Error Log",抄下 8位故障代碼在SMS中還可以更改系統(tǒng)啟動順序表2.5 MAIL#mail系統(tǒng)會向 root 用戶發(fā) mail 報告出錯信息通常系統(tǒng)出現(xiàn)故障后沒有進行檢查修復(fù)系統(tǒng)會定時提醒root2.6 運行故障診斷程序(Diagnostic)對系統(tǒng)硬件進行檢查和診斷當(dāng)發(fā)現(xiàn)有硬件故障時應(yīng)立即使用diag#diag> 選高級診斷Advance Diagnostic)> 選問題診斷Problem Determination)或選系統(tǒng)檢查System Verification)(選PD會對系統(tǒng)錯誤記錄進行分析)diag運行后會給出S

50、RN代碼故障設(shè)備名稱及百分比地址代碼等對于 PCI 機型應(yīng)在系統(tǒng)報錯7 天之內(nèi)運行diag 程序?qū)Τ鲥e記錄里的sense 數(shù)據(jù)進行分析2.7 其他用于收集系統(tǒng)信息的命令lsdev -C 系統(tǒng)設(shè)備信息# lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSIDisk Drivehdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSIDisk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdis

51、k0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷組信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b# G STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3

52、 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件組信息# lslpp -L |grep 23100020devicespci23100020rte 4327 C IBM PCI 10/100Ethernet Adapt看某個文件組是否已安裝如以太網(wǎng)卡驅(qū)動也用于查詢補

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論