




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 HACMP維護文檔 什么是HACMP 在我們解釋什么是HACMP以前,我們先來定義一下高可用性的概念。 High availability:在當今復(fù)雜的環(huán)境下,成功實現(xiàn)IT應(yīng)用的一個關(guān)鍵要素就是提供不間斷的應(yīng)用服務(wù)和數(shù)據(jù)保護。HA就是這樣一個可以通過消除計劃內(nèi)/計劃外宕機事件從而向客戶應(yīng)用提供不間斷服務(wù)的部件,它能達到消除從硬件到軟件的單點故障(SPOFs)。 實現(xiàn)一個高可用性解決方案,需要: 冗余服務(wù)器、冗余網(wǎng)絡(luò)、冗余網(wǎng)絡(luò)接口卡、監(jiān)視、故障檢測、故障診斷、自動接管、自動重新控制 HACMP的主要目標就是消除單點故障。 IBM針對AIX的高可用性解決方案-HACMP群集技術(shù),它包括以下兩個組
2、件: 高可用性(HA): 該進程保證應(yīng)用在用戶復(fù)制共享資源時是可用的。 群集多處理(CMP): 該進程提供在同一節(jié)點上多個應(yīng)用共享或并發(fā)訪問 數(shù)據(jù)。 基于HACMP的高可用性解決方案提供自動失效檢測、診斷、應(yīng)用恢復(fù)和節(jié)點重新控制。在恰當?shù)膽?yīng)用中,HACMP還可以在并行應(yīng)用處理中提供對數(shù)據(jù)的并發(fā)訪問,從而提供更高的可擴展性。高可用性系統(tǒng)VS容錯系統(tǒng)容錯系統(tǒng): 它是提供冗余的設(shè)計為不間斷操作。這樣的系統(tǒng)中所有的組件都是雙份的(不管硬件還是軟件),CPU、內(nèi)存、磁盤都有特殊的設(shè)計來提供不間斷服務(wù)。這樣的系統(tǒng)是非常昂貴和非常專業(yè)的。只有在要求0宕機的環(huán)境中,容錯系統(tǒng)設(shè)備和方案才有需求。高可用性系統(tǒng):
3、配置為高可用性的系統(tǒng)是一組軟件、硬件的組合,可以保證系統(tǒng)失效后在可接受的宕機時間內(nèi)恢復(fù)。在這種系統(tǒng)中,軟件負責監(jiān)測到環(huán)境故障后將應(yīng)用交給另一個機器實現(xiàn)隊員機器的接管。因此,在這種環(huán)境下重要的是消除SPOF。例如,如果只有一個網(wǎng)絡(luò)連接,就需要提供第二塊網(wǎng)卡以備主網(wǎng)卡失效后接管。另一點就是通過將數(shù)據(jù)放在所有節(jié)點都可以訪問的共享磁盤上并實現(xiàn)鏡像。HACMP相關(guān)概念1、群集拓撲: 包含基本的群集組件節(jié)點、網(wǎng)絡(luò)、通訊接口、通訊設(shè)備、通訊適配器。2、群集資源: 被設(shè)為高可用性的實體(例如文件系統(tǒng)、裸設(shè)備、服務(wù)IP標簽、應(yīng)用等)。所有資源被組織成資源組(RG),HACMP保持唯一實體資源組的高可用性。資源組
4、可以被一個節(jié)點訪問或者在并發(fā)應(yīng)用中同時被多個節(jié)點訪問。3、Fallover: 在活動節(jié)點出現(xiàn)故障時,將資源組從活動節(jié)點轉(zhuǎn)移到備份節(jié)點的動作。4、Fallback: 原來的活動節(jié)點恢復(fù)時,將資源組切換回原節(jié)點的動作。這是將失效節(jié)點重新集成到集群的標準動作。HACMP相關(guān)術(shù)語 要理解HACMP的正確功能并利用它,就必須知道一些術(shù)語:1、群集(Cluster):為共享資源和相互通訊而通過網(wǎng)絡(luò)連接在一起的獨立主機(節(jié)點)。HACMP負責定義在協(xié)同的系統(tǒng)中哪個節(jié)點提供服務(wù)哪個節(jié)點不提供服務(wù)。所有節(jié)點共同負責維護應(yīng)用的功能可用。2、節(jié)點(Node):在群集中所有運行AIX系統(tǒng)和HACMP軟件的IBMp系列
5、服務(wù)器都是節(jié)點。每個節(jié)點都有一個資源集(磁盤、文件系統(tǒng)、IP地址、應(yīng)用)在該節(jié)點失效時可以被群集中其他節(jié)點接管。3、資源(Resource):是在群集配置中可以從一個節(jié)點轉(zhuǎn)移到其他節(jié)點的邏輯組件。所有必須提供高可用性應(yīng)用的資源被構(gòu)成資源組(RG)。當節(jié)點失效時,資源組中的組件被一同從一個節(jié)點移動到另一個節(jié)點。一個群集可以有多個RG,從而提高節(jié)點的效率(也就是HACMP中的Multi-Processing)。HACMP相關(guān)術(shù)語4、接管:在群集內(nèi)部節(jié)點之間傳送資源的操作稱為接管。如果一個節(jié)點發(fā)生硬件故障或AIX故障,它的資源應(yīng)用會被移到另一個節(jié)點。5、客戶:客戶就是可以通過局域網(wǎng)訪問群集節(jié)點應(yīng)用的
6、一個系統(tǒng)??蛻敉ㄟ^運行客戶端程序連接到應(yīng)用所在的服務(wù)器上。 HACMP的實現(xiàn)(此處略去)安裝配置HACMP共分三步:1、準備AIX: 在AIX中配置硬件、軟件。2、安裝HACMP軟件3、配置HACMP群集AIX中需要配置網(wǎng)絡(luò)、共享磁盤、LVM組件等 配置IP 配置串行網(wǎng)絡(luò) 配置共享磁盤 定義LVM組件 編輯文件/.rhosts串行網(wǎng)絡(luò) 每個運行Cluster Manager進程軟件的節(jié)點會通過HACMP中配置的所有網(wǎng)卡持續(xù)送出Keep-alive包(心跳信號)到Cluster的其它各個節(jié)點。HACMP就是通過檢測節(jié)點間keep-alive包的中斷來檢測網(wǎng)絡(luò)事件。 Keep-alive包通常在同
7、一網(wǎng)絡(luò)上的服務(wù)網(wǎng)卡間和備份網(wǎng)卡間雙向傳輸。傳輸中的任何中斷都會激活故障檢測過程,此時,Keepalive向所有網(wǎng)卡上傳送。通過簡單的“淘汰過程”,故障原因被很快發(fā)現(xiàn),然后群集可采取正確的事件處理腳本處理故障。 由于服務(wù)網(wǎng)卡和備份網(wǎng)卡都是采用TCP/IP進行通訊的,如果某節(jié)點的TCP/IP子系統(tǒng)發(fā)生故障或者網(wǎng)絡(luò)擁塞,就會造成Keep-alive包無法正常傳輸。此時因為所有的心跳停止了,其它節(jié)點將錯誤地認為該節(jié)點故障,導(dǎo)致其它節(jié)點試圖接管資源,群集及其資源將處于不穩(wěn)定狀態(tài)。 因此HACMP中必須配置一條串行網(wǎng)絡(luò),當LAN故障時,可以提供另外的Keep alive路由。由于串行網(wǎng)絡(luò)不用TCP/IP協(xié)
8、議,所以TCP/IP子系統(tǒng)的故障并不意味著HACMP故障,使得群集可以分清網(wǎng)絡(luò)故障和節(jié)點故障,避免出現(xiàn)孤立節(jié)點串行網(wǎng)絡(luò)HACMP日常系統(tǒng)管理維護 日常日志1: 日常日志主要是記錄平時事件的啟動,從中可以了解HACMP的動作,例如主機standby網(wǎng)卡故障,有fail_standby事件發(fā)生,系統(tǒng)管理員可從日志中得知何時出的故障,及有沒有解決。主要日志文件有:(查找文件命令find / -name “文件名”)/var/hacmp/log/hacmp.out.1-7:存放由HACMP腳本產(chǎn)生的帶時間戳信息,包括執(zhí)行的命令及其輸出。腳本中的每一命令及其參數(shù)占一行。此文件一天刷新一次,保留七天;/v
9、ar/hacmp/adm/cluster.log:存放由HACMP腳本和daemon產(chǎn)生的帶時間戳的信息。每個事件在記錄文件中有兩行一行在開始時寫入,一行在結(jié)束時寫入。 日常日志2:/tmp/cm.log:(未找到)保存HACMP中clstrmgr進程產(chǎn)生信息的時間;HACMP技術(shù)人員在clstrmgr處于debug模式下排錯需要參考此文件內(nèi)容。重啟集群服務(wù),這個文件就會被重寫,因此需要做好備份。(/var/hacmp/log中有參考日志文件)/var/hacmp/adm/history/cluster.mmddyyyy:HACMP的歷史記錄文件,不同日期發(fā)生的集群事件記錄在不同的文件中。mm
10、-月 dd-日 yyyy-年HACMP日常系統(tǒng)管理維護 啟動和關(guān)閉HACMP 啟動群集是指在一個或幾個節(jié)點上啟動Cluster Manager,并使客戶機能夠訪問群集的資源。 HACMP可以配置為自動啟動或手動啟動,自動啟動是通過在文件/etc/inittab/etc/inittab中的一條命令來實現(xiàn)的,但是配置為自動啟動后,故障節(jié)點返回群集時可能發(fā)生資源的接管,造成不必要的停機。因此,建議配置為手動啟動。啟動關(guān)閉HA必須有root權(quán)限! 啟動命令:# smit clstart 選項按缺省,建議在一個節(jié)點完全啟動后再啟動另一個節(jié)點,并在啟動過程中監(jiān)視事件腳本的輸出(tail f /var/ha
11、cmp/log/hacmp.out.7 )。 HACMP日常系統(tǒng)管理維護 關(guān)閉命令:# smit clstop 該命令中尤其要注意第四個選項Select an Action on Resource Groups:指停止HACMP后,其上的資源如何處理:三種選擇1、Bring Resource Groups Offline:釋放資源,但其它節(jié)點不接管2、Move Resource Groups:釋放資源,其它節(jié)點接管資源3、Unmanage Resource Groups:停止進程,但不釋放資源(不處理) 我們的配置中默認是其他節(jié)點接管資源。 注意:我們不推薦在同一時間在多個節(jié)點上使用第三個選項
12、來停止群注意:我們不推薦在同一時間在多個節(jié)點上使用第三個選項來停止群集服務(wù)。集服務(wù)。HACMP日常系統(tǒng)管理維護無論何時,都應(yīng)該避免用kill -9命令停止群集管理后臺進程。在這種情況下(使用kill -9命令),系統(tǒng)資源控制器(SRC)會檢測到clstrmgr后臺進程異常退出。這會造成系統(tǒng)停止并有可能造成共享存儲數(shù)據(jù)的破壞。依照資源組策略,其他節(jié)點會初始化接管。 當出現(xiàn)主、備機在關(guān)電后,再次啟動時,備機正常,主機不能啟動,要按指定步驟操作:在備機上執(zhí)行 # smit hacmp選擇System Management(C-SPOC)-Resource Group and Applications
13、-Move a Resource Group to Another Node/Site- Move Resource Groups to Another Node-選擇需要移動的資源組,選擇備機節(jié)點進行接管。退出命令行,啟動HACMP,這時備機接管主機資源。HACMP日常系統(tǒng)管理維護 查看HACMP狀態(tài)在HACMP中,它啟動一個進程來監(jiān)控各節(jié)點。用# ps ef|grep clinfo 命令查看clinfo進程是否啟動。若未啟動,有兩種方法啟動此進程:1、執(zhí)行 # /usr/sbin/cluster/clinfo2、啟動HACMP時, # smit clstart 中 Startup Clus
14、ter Information Daemon (后臺守護程序)改為 true用/usr/sbin/cluster/clstat 命令查看各節(jié)點狀態(tài),因現(xiàn)使用的是字符終端,出現(xiàn)的將是字符界面。須注意的是群集的substate屬性,正常為Stable( 穩(wěn)定的;堅定的;牢固的),不是Stable時,HACMP可能有動作或者是不正常。HACMP日常系統(tǒng)管理維護HACMP日常系統(tǒng)管理維護獲取集群狀態(tài)(一) 檢查集群服務(wù)daemon狀態(tài): lssrc -g cluster; lssrc -g lock 檢查集群和網(wǎng)絡(luò)接口狀態(tài): /usr/sbin/cluster/clstat (在smit hacmp
15、中用問題診斷工具查看更好) 查看集群記錄文件: tail -f /var/hacmp/log/hacmp.out.1-7 more /var/hacmp/adm/history/cluster.mmddyyyy tail -f /var/hacmp/adm/cluster.log 檢查節(jié)點名的正確性: odmget HACMPcluster獲取集群狀態(tài)(二) 檢驗集群配置:/usr/sbin/cluster/diag/clconfig -v -tr /一般慎用 顯示集群配置:/usr/sbin/cluster/utilities/cllscf 顯示clstrmgr版本:snmpinfo -m
16、dump -o /usr/sbin/cluster/hacmp.defs clstrmgrHACMP日常系統(tǒng)管理維護 校驗HACMP 執(zhí)行 # /usr/es/sbin/cluster/diag/clverify,將會出現(xiàn)一個交互式界面,可以檢驗HACMP軟件(bos)和拓撲結(jié)構(gòu)(topology),管理員可按提示操作。HACMP日常系統(tǒng)管理維護 在磁盤陣列上添加邏輯卷、擴大卷組:首先把主、備機的HACMP停下。在主機上: # varyonvg sharevg; 擴大卷組或增加邏輯卷 (在AIX中已講) # varyoffvg sharevg;在備機上:# exportvg sharevg;
17、# smit importvg 將sharevg重新import進來; # smit chvg 將sharevg在下次啟動時不自動激活; # varyoffvg sharevg。HACMP日常系統(tǒng)管理維護 增加文件系統(tǒng)、新的卷組,并要接管首先把主、備機的HACMP停下。在主機上: # varyonvg sharevg; 增加文件系統(tǒng)、新的卷組;(AIX中講述) # varyoffvg sharevg;在備機上: # exportvg sharevg; # smit importvg 將sharevg重新import進來; # smit chvg 將 sharevg在下次啟動時不自動激活; #
18、varyoffvg sharevg。在主機上:#smit hacmp-Cluster Configuration-Cluster Resource-Change/Show Resources for a Resource Group 在Filesystems選項中加入新的文件系統(tǒng),Volume Groups選項中加入新的卷組名; # smit hacmp-Cluster Configuration-Cluster Resources-Synchronize Cluster Resources 按缺省選項執(zhí)行。HACMP日常系統(tǒng)管理維護 HACMP備份 HACMP允許將群集的配置存儲在一個文件中
19、,稱為snapshot,系統(tǒng)管理員可從此文件中恢復(fù)HACMP的配置。 文件缺省存放在/usr/es/sbin/cluster/etc/snapshot目錄下,生成兩個文件,后綴名分別為.odm、.info,.odm文件存放AIX ODM數(shù)據(jù)庫類的信息,.info為群集的信息,可查看。 創(chuàng)建方法:# smit hacmp-Cluster Configuration-Cluster Snapshots-Add a Cluster Snapshot,在Cluster Snapshot Name中填寫XX,在Cluster Snapshot Description中填寫 Xxbackup,執(zhí)行。 系統(tǒng)
20、管理員將/usr/sbin/cluster/snapshots下的XX.odm、XX.info備份。 恢復(fù)方法:先將備份的XX.odm、XX.info文件拷入/usr/sbin/cluster/snapshots目錄下,執(zhí)行#smit hacmp-Cluster Configuration-Cluster Snapshots-Apply a Cluster Snapshot選擇XX,執(zhí)行。HACMP日常系統(tǒng)管理維護 錯誤恢復(fù):當HACMP配置出現(xiàn)問題時,啟動不能正常結(jié)束,此時/tmp/hacmp.out文件中會出現(xiàn)event errot ,管理員應(yīng)按以下步驟停止HACMP:# smit hac
21、mp-Cluster Recovery Aids-Recovery from Scrip Failure選擇一塊正在工作的網(wǎng)卡,建議用standby網(wǎng)卡,執(zhí)行。然后再將HACMP關(guān)閉。HACMP日常系統(tǒng)管理維護 錯誤舉例:腳本運行超時錯誤(config_too_long)(發(fā)生原因及現(xiàn)象)每當集群狀態(tài)發(fā)生變化時,HACMP軟件將運行相應(yīng)的腳本在某些情況下,比如腳本編寫錯誤、應(yīng)用運行錯誤、特殊集群狀態(tài)等,可能造成腳本運行掛起HACMP判斷腳本運行掛起的超時條件是6分鐘(默認) HACMP認為腳本運行掛起后,將在/tmp/hacmp.out中記錄config_too_long信息: This cl
22、uster has been in reconfiguration too long: Something may be wrongHACMP日常系統(tǒng)管理維護腳本運行超時錯誤(config_too_long)(原因分析及解決方法)多數(shù)情況下,是由于腳本運行失敗。但腳本中的命令確實需要運行較長時間的情況也不能排除,這種情況下,腳本運行并未失敗,集群管理程序也正常,因此需要查看/tmp/hacmp.out以確定原因如果存在錯誤,可根據(jù)/tmp/hacmp.out和/var/adm/cluster.log的內(nèi)容查找并排除錯誤運行clruncmd命令或使用SMIT的“Cluster Recovery Aids”屏,使集群管理器恢復(fù)集群處理HACMP日常系統(tǒng)管理維護Deadman Switch(發(fā)生錯誤接管的情況)集群中的主機定時向其他主機發(fā)送heartbeat信息服務(wù)主機并未失效,但可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年軟考網(wǎng)絡(luò)管理員考試復(fù)習(xí)指導(dǎo)試題及答案
- 2025年網(wǎng)絡(luò)管理員考試心得試題及答案
- 第二次月考提升卷(Unit 4、Unit 5)(含答案)-2024-2025學(xué)年人教精通版英語六年級下冊
- 學(xué)習(xí)云原生技術(shù)考試考題及答案解析
- 2025合同范本 租房協(xié)議書
- 2025法學(xué)概論考試的常見問題及試題及答案
- 學(xué)期重點項目與計劃推進
- 保安人員心理素質(zhì)提升的實踐方案計劃
- 2025帶薪休假合同「下載」
- 信息處理技術(shù)員商務(wù)溝通題及答案
- GB/T 26251-2010氟和氟氮混合氣
- GB/T 24815-2009起重用短環(huán)鏈吊鏈等用6級普通精度鏈
- 無機化學(xué)氧族元素課件
- 儲煤場管理制度(6篇)
- 線描畫基本功教學(xué)課件
- 齒軌卡軌車課件
- 醫(yī)院工會經(jīng)費使用與管理辦法、制度規(guī)則
- 重癥胰腺炎(1)課件
- 克拉潑改進型電容三點式振蕩器
- 介入導(dǎo)管室耗材準備及管理
- SPC基礎(chǔ)知識培訓(xùn)教材-入門級_課件
評論
0/150
提交評論