


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、8月23日xxx雙機熱備維護(hù)事件23日上午接公司任務(wù), 要求去 XXX 單位在雙機熱備上將 E 分區(qū)也加入雙機熱備共享盤, 受 EMC 熱備軟件控制管理,實現(xiàn) E 分區(qū)上的數(shù)據(jù)和軟件雙機熱備。到達(dá) XXX 單位機房后打開雙機熱備軟件查看,發(fā)現(xiàn)主機 2 圖標(biāo)為紅色,表示主機 2 已 掉線無法和主機 1 心跳同步, 但是此時任然是主機 2 在對外提供應(yīng)運系統(tǒng)服務(wù)。 經(jīng)過檢查各 項設(shè)置,以及網(wǎng)絡(luò)通信情況,沒有發(fā)現(xiàn)任何故障, 隨后詢問單位相關(guān)管理人員,可否重啟服 務(wù)器2,裝在服務(wù)器2的0A系統(tǒng)是否要退出才可關(guān)閉系統(tǒng)重啟, 得到答復(fù)說0A不用退出, 萬維系統(tǒng)可暫時中斷,可直接重啟服務(wù)器,隨即重啟服務(wù)器2
2、,重啟后發(fā)現(xiàn)兩臺服務(wù)器雙機熱備連接正常, 隨后配置將 E 盤加入雙機熱備共享盤, 再次重啟服務(wù)器 2,重啟進(jìn)入系統(tǒng)時, 發(fā)現(xiàn) 0A 自啟動時已報錯,提示大意為找不到文件路徑,進(jìn)入 EMC 熱備軟件發(fā)現(xiàn) E 分區(qū)共 享盤已經(jīng)開始同步, 還有之前的共享 D分區(qū)也開始同步,此時知道,0A啟動時提示找不到 文件路徑的原因就是因為 E分區(qū)已經(jīng)被熱備軟件控制接管,0A系統(tǒng)無法訪問讀取 E分區(qū)。由于 0A 系統(tǒng)沒有在雙機上安裝,沒有加入雙機熱備,所以 E 分區(qū)是不應(yīng)該加入雙機熱備 共享盤的。此時立刻將資源組脫機,刪除加入資源組的E 分區(qū),在數(shù)據(jù)源里刪除加入的 E共享盤, 再次重啟服務(wù)器 2,啟動后 E 分區(qū)
3、已經(jīng)不在熱備軟件共享盤資源里, E 分區(qū)已經(jīng)變?yōu)?普通分區(qū)。但是此時發(fā)現(xiàn) 0A 依然在啟動時報錯,中斷無法登陸使用。此時原來的 D 共享 盤又再次從頭開始同步, 在終端測試萬維系統(tǒng)也無法登陸使用。 現(xiàn)在服務(wù)器上的兩個應(yīng)運系 統(tǒng)全部不能使用。萬維系統(tǒng)不能使用的原因是當(dāng)數(shù)據(jù)共享盤在完全同步時,類似于ghost 鏡像,此時應(yīng)運服務(wù)停止對外服務(wù)。 在雙機熱備兩臺服務(wù)器通信正常情況下是不會進(jìn)行完全同步的,而是實時在后臺同步數(shù)據(jù), 此時應(yīng)運系統(tǒng)對數(shù)據(jù)共享盤讀寫正常, 對外應(yīng)運服務(wù)不受影響。 雙機熱 備軟件只有在兩種情況下才會進(jìn)行完全數(shù)據(jù)同步工作,第一種情況是在新安裝熱備軟件時, 第一次數(shù)據(jù)完全同步; 第二
4、種情況是在雙機熱備正常運行過程中, 由于其中一臺服務(wù)器掉線, 導(dǎo)致掉線的服務(wù)器共享盤和對外服務(wù)的服務(wù)器對應(yīng)的共享盤數(shù)據(jù)差別太大而必須進(jìn)行完全 同步。此次共享盤完全同步就是服務(wù)器2掉線造成,掉線的原因可能是因為在 21日機房停電導(dǎo)致。雖然已經(jīng)將加入共享盤的 E 分區(qū)重新變?yōu)槠胀ǚ謪^(qū),但是安裝在 E 分區(qū)的 0A 系統(tǒng)還 是無法正常運行, 咨詢 0A 系統(tǒng)運維人員, 運維人員的解答是因為我們在重啟服務(wù)器時沒有 正常退出0A系統(tǒng),退出的方法是在 OA “DOS”界面命令提示符后輸入 ”Q”回車即可,如 果沒有正常退出就關(guān)閉系統(tǒng), 在下次啟動操作系統(tǒng)時, 0A 系統(tǒng)啟動時就要重新掃描數(shù)據(jù)庫, 查找數(shù)據(jù)
5、,時間大致需要 15分鐘后0A才能正常運行。但是過了 15分鐘之后在終端測試, 發(fā)現(xiàn) 0A 系統(tǒng)還是無法正常訪問,再次咨詢 0A 運維人員, 0A 運維人員說在他們那端發(fā)現(xiàn) 有一個服務(wù)沒有啟動,啟動服務(wù)后 0A 系統(tǒng)訪問正常。在下午 2 點多后,雙機熱備共享盤同步完畢,雙機熱備軟件界面里一切顯示綠色正常, 但是萬維系統(tǒng)還是無法正常使用, 此時聯(lián)系萬維公司, 萬維公司工程師上門后檢查發(fā)現(xiàn)萬維 系統(tǒng)已損壞, 共享盤有大量損壞文件無法讀取, 經(jīng)過運行磁盤掃描修復(fù)程序后, 損壞的文件 可以刪除重建,當(dāng)萬維系統(tǒng)故障處理完成可以登錄后,發(fā)現(xiàn)7月 29日之后大約 500份文件已經(jīng)丟失。 此時分析這一系列故障
6、, 萬維系統(tǒng)文件損壞混亂的原因是, 當(dāng)雙機熱備掉線的服 務(wù)器正常上線后在共享盤在完全同步過程中服務(wù)器多次重啟,因為共享盤在同步未完成時重啟服務(wù)器后同步工作會自動從零開始同步, 就像分區(qū)在做 GH0S 鏡像過程中強制終止一樣, 會導(dǎo)致分區(qū)上的文件丟失和損壞及混亂。而 7月 29日之后的文件丟失是因為熱備軟件在自 動同步共享盤時同步方向搞錯, 本應(yīng)該是將數(shù)據(jù)較新的數(shù)據(jù)向數(shù)據(jù)少的另一臺服務(wù)器共享盤 同步,卻把數(shù)據(jù)少的共享盤數(shù)據(jù)同步到數(shù)據(jù)新的服務(wù)器共享盤上。丟失的文件在24 日已經(jīng) 通過我方維護(hù)人員掃描后全部導(dǎo)入萬維系統(tǒng)。此次事件總結(jié)如下:關(guān)于 OA 系統(tǒng),首先是 OA 系統(tǒng)及數(shù)據(jù)全部在第二臺服務(wù)器的
7、 E 分區(qū)。并沒有在第一臺 服務(wù)器上安裝, OA 系統(tǒng)服務(wù)也沒有加入雙機熱備管理軟件,受熱備軟件管理控制,所以 E 分區(qū)是不可以加入雙機熱備共享盤的,由于 OA 系統(tǒng)相應(yīng)服務(wù)沒有加入熱備軟件控制管理。 E 分區(qū)加入熱備共享盤后會導(dǎo)致 OA 系統(tǒng)無法正常訪問讀寫數(shù)據(jù),導(dǎo)致 OA 系統(tǒng)故障。第二,根據(jù)在 XXX 單位日常服務(wù)的同事反應(yīng),當(dāng)雙機熱備的對外提供應(yīng)運的服務(wù)器切 換到第一臺服務(wù)器時, OA 系統(tǒng)也無法正常運行。據(jù)此推測有兩種情況,首先是第二臺服務(wù) 器 E 分區(qū)上安裝的 OA 系統(tǒng)可能是和服務(wù)器上 SQL 數(shù)據(jù)庫有關(guān)聯(lián),當(dāng)承擔(dān)對外服務(wù)的服務(wù) 器切換到第一臺服務(wù)器時,第二臺服務(wù)器的數(shù)據(jù)庫服務(wù)會
8、被 EMC 熱備軟件關(guān)閉而導(dǎo)致 OA 系統(tǒng)故障,第二就是 OA 系統(tǒng)在安裝時可能使用了 EMC 熱備軟件設(shè)定的虛擬映射 IP 地址, 當(dāng)雙機熱備的對外提供應(yīng)運的服務(wù)器切換到第一臺服務(wù)器時,虛擬的 IP 地址映射的已經(jīng)是 第一臺服務(wù)器了,但事實上 OA 系統(tǒng)是安裝在第二臺服務(wù)器的 E 分區(qū)的。第三,OA系統(tǒng)在退出時一定要在桌面 OA系統(tǒng)啟動窗口中命令提示符后鍵入“ Q”回 車退出后才可以關(guān)閉或重啟操作系統(tǒng)。 否則在下次啟動進(jìn)入系統(tǒng)后 OA 系統(tǒng)會重新掃描數(shù)據(jù) 庫,查找文件,導(dǎo)致 OA 系統(tǒng)大約需要 15 分鐘后才能正常使用。關(guān)于雙機熱備 ,雙機熱備的兩臺服務(wù)器在斷電關(guān)機后, 再次開機時, 開啟的
9、順序是有講 究的。就是需要哪臺服務(wù)器作為主機對外提供服務(wù)時, 就要先開哪臺服務(wù)器, 之后再開備機, 都開啟后要在熱備軟件主界面里檢查, 看看有無顯示橙色或紅色的項目, 如果有看看是哪一 項,然后找到原因處理即可。而雙機熱備服務(wù)器在關(guān)閉時,要先關(guān)閉備機,再關(guān)主機,如果 先關(guān)主機, 對外應(yīng)運服務(wù)會自動被雙機熱備軟件切換到備機。 此次事件熱備軟件在做數(shù)據(jù)同 步時, 同步反的原因就是, 雖然顯示第二臺服務(wù)器掉線, 但是當(dāng)時對外提供應(yīng)運服務(wù)的還是 第二臺服務(wù)器。 當(dāng)重啟第二臺服務(wù)器的過程中對外應(yīng)運的服務(wù)器已經(jīng)被雙機熱備軟件切換到 了第一臺服務(wù)器上。 由于掉線時間較長, 服務(wù)器重啟后, 雙機熱備恢復(fù)正常后
10、發(fā)現(xiàn)數(shù)據(jù)共享 盤差異較大, 勢必要對數(shù)據(jù)共享盤做完全同步。 熱備軟件數(shù)據(jù)同步的規(guī)律是正常情況下數(shù)據(jù) 同步實時在后臺即時同步, 而不影響應(yīng)運服務(wù)對數(shù)據(jù)的訪問讀寫操作, 同步的方向是對外提 供服務(wù)的服務(wù)器, 也就是主機的共享盤作為源數(shù)據(jù)盤把數(shù)據(jù)同步到備機的對應(yīng)共享盤。 此次 就是因為第二臺服務(wù)器重啟后, 雙機熱備恢復(fù)了正常, 但此時對外應(yīng)運的服務(wù)器已經(jīng)切換到 了第一臺服務(wù)器, 所以完全同步就把第一臺服務(wù)器的數(shù)據(jù)共享盤作為原數(shù)據(jù)給第二臺服務(wù)器 同步。結(jié)果就是不完整的舊數(shù)據(jù)覆蓋了新數(shù)據(jù),導(dǎo)致近期500 份文件丟失。當(dāng)前 XXX 單位雙擊熱備使用狀況: 現(xiàn)在由于萬維系統(tǒng)只有一個加密狗是插在第二臺服 務(wù)器
11、上,且0A系統(tǒng)只安裝了一臺服務(wù)器,也安裝在第二臺服務(wù)器上,所以現(xiàn)在的情況是雙 機熱備不能發(fā)揮應(yīng)有的作用, 一旦雙機熱備切換到了第一臺服務(wù)器, 必須手動切換回第二臺 服務(wù)器, 因為第一臺服務(wù)器沒有萬維系統(tǒng)的加密狗, 也沒有安裝 0A 系統(tǒng)。 切換到第一臺服 務(wù)器后兩個應(yīng)運系統(tǒng)全部無法使用。解決方案: 解決方案只有兩種辦法, 一種是萬維系統(tǒng)再提供一個加密狗裝在第一臺服務(wù) 器,在確認(rèn) EMC 這個雙機熱備軟件支持 0A 系統(tǒng)后,讓電子政務(wù)辦給第一臺服務(wù)器也安裝 0A 系統(tǒng),然后我方將 0A 系統(tǒng)服務(wù)加入雙機熱備軟件資源組,并將 0A 系統(tǒng)安裝分區(qū)加入 雙擊熱備共享盤, 0A 系統(tǒng)完全受熱備軟件統(tǒng)一管
12、理控制。 真正實現(xiàn)兩種應(yīng)運服務(wù)雙機熱備。 第二種方案就是如果電子政務(wù)辦不同意安裝兩臺服務(wù)器, 那就只有把 0A 系統(tǒng)遷出雙機熱備 的服務(wù)器, 安裝在其他服務(wù)器上, 讓萬維的系統(tǒng)在雙機熱備上正常運行。 兩個應(yīng)運服務(wù)互不 干擾。避免此類事件再次發(fā)生的教訓(xùn): 最主要的是數(shù)據(jù)安全,在沒有外接存貯的情況下,雙 擊熱備并不能對數(shù)據(jù)保證安全, 只是盡量保證對外應(yīng)運服務(wù)不中斷, 所以我方維護(hù)人員必須至少每周對服務(wù)器上的數(shù)據(jù)進(jìn)行備份, 每天上班后都要在機房巡視一下, 看看雙機熱備系統(tǒng) 是否正常工作,有無報警或報錯,如有異常,通知公司,由公司指定人員去處理,并對每次 處理事件詳細(xì)記錄并上報。第二,如果雙機熱備服務(wù)
13、器要停機,或已停機, 在開機和關(guān)機順 序上是有講究的。如果兩臺服務(wù)器都在關(guān)機狀態(tài)下,要開機時想讓哪一臺服務(wù)器作為主機, 那就要先看哪一臺服務(wù)器,后開備機。如果要關(guān)閉雙機服務(wù)器時要先關(guān)備機,再關(guān)主機。如 果雙機熱備服務(wù)器都在運行, 但是在熱備軟件里出現(xiàn)了異常, 比如某項資源報警, 或出現(xiàn)一 臺服務(wù)器脫機等其他異常, (在 EMC 雙機熱備軟件界面里只有全部項目顯示為綠色才是完 全正常,如果是橙色就是告警, 紅色為嚴(yán)重告警, 總之如果不是綠色就不完全正常)要首先 在熱備軟件里查看當(dāng)前是哪臺服務(wù)器是在對外提供服務(wù), 這時就要注意雙機熱備同步的規(guī)律 “數(shù)據(jù)同步方向是對外提供服務(wù)的服務(wù)器共享盤作為源數(shù)據(jù), 數(shù)據(jù)同步到備機, 備機的共享 盤數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《機器學(xué)習(xí)技術(shù)應(yīng)用》課件-pro1-2-1校園消費數(shù)據(jù)的讀取與查看
- 《移動通信技術(shù)》課件-主題5 移動通信的編碼技術(shù)
- 先天性鼻咽部狹窄及閉鎖的臨床護(hù)理
- OPT美膚的臨床護(hù)理
- 手外傷的臨床護(hù)理
- 2025【合同范本】簡化版租約協(xié)議示例
- 企業(yè)招聘2025內(nèi)蒙古方鼎金榮集團派駐聯(lián)通數(shù)字科技有限公司內(nèi)蒙古分公司招聘53人筆試參考題庫附帶答案詳解
- 《2025合同違約金預(yù)先扣除的法律后果》
- 2025陜西西鳳露酒有限公司招聘(38人)筆試參考題庫附帶答案詳解
- 2025《數(shù)據(jù)中心升級改造合同》
- 蠕變、應(yīng)力松弛、滯后和內(nèi)耗講解
- 道德經(jīng)試題及答案
- (精心整理)歷年南京中考英語??荚~匯及例句解析
- 冷卻水預(yù)處理(預(yù)膜)方案
- 1000MW機組鍋爐本體檢修規(guī)程
- 鋼筆書法比賽用紙精美五言格
- 完全競爭市場習(xí)題及答案
- 高中氧化還原反應(yīng)方程式大全
- 27.3實際問題與一元二次方程(傳播問題)
- 河套大學(xué)晉升本科高等學(xué)校工作實施方案
- 科力達(dá)KTS-442系列全站儀使用說明書
評論
0/150
提交評論