上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告_第1頁(yè)
上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告_第2頁(yè)
上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告_第3頁(yè)
上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告_第4頁(yè)
上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩142頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 上海移動(dòng)容災(zāi)系 統(tǒng) 方案設(shè)計(jì)報(bào) 告 IBM 公司上海分公司 Version 5.0 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 IBM專 有 信息 聲 明 本設(shè)計(jì)報(bào) 告 屬商業(yè)機(jī) 密 文件,書 中 的所有信 息 均 為 IBM機(jī) 密信息, 僅 供上 海 移動(dòng)容災(zāi)項(xiàng)目使用 。務(wù)請(qǐng)妥善保管并且僅在與項(xiàng)目有關(guān)人員范圍內(nèi)使用 ,未經(jīng) IBM 公司明確做出的書面許可 , 不得為任何目的 、 以任何形式或手 段 (包括電子 、 機(jī) 械 、 復(fù)印 、 錄音或其他形式 ) 對(duì)本文檔的任何部分進(jìn)行復(fù)制 、 存儲(chǔ) 、 引入檢索系 統(tǒng)或 者傳播。 盡管 IBM已 經(jīng)盡力保 證 本文檔內(nèi) 容 的完整性 和 有效性, 但 仍可能存 在 某 些 方 面不夠 準(zhǔn)確 的地方 或印 刷錯(cuò)誤 。若 需求有 所變 化, IBM將 對(duì)有關(guān) 內(nèi)容 進(jìn)行相對(duì) 應(yīng) 的調(diào)整,并在本報(bào)告的未來(lái)版本中體現(xiàn)。 IBM是國(guó) 際 商業(yè)機(jī)器 公 司的注冊(cè) 商 標(biāo)。本文 檔 提及的其 他 公 司 、產(chǎn) 品 和服 務(wù) 的名稱,可能是其他公司的商標(biāo)或服務(wù)的標(biāo)志。 Copyright IBM China Company Limited All rights reserved 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 關(guān)于本文檔 文檔信息 文 檔 名 稱 上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告 作者 IBM全球服務(wù)部 說(shuō)明 本文檔是上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告 , 由 IBM公司上海 分公司和上海移動(dòng)容災(zāi)系統(tǒng)項(xiàng)目組共同編寫。 文 件 名稱 上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告 v5.0.doc 怱 訂 歷史 (REVISION HISTORY) Rev Section Type Date Author Remarks 1.0 All New 2004-09-13 IBM SHMCC team 創(chuàng) 建 方 案 第 一 版 本。 2.0 All Revis ed 2004-09-22 IBM SHMCC team 根據(jù) 客戶 反饋 怱 改 而成 3.0- 3.1 All Revis ed 2004-09-27 IBM SHMCC team 根據(jù) 客戶 反饋 怱 改 而成, 增 加 存 儲(chǔ)管 樅 和 災(zāi) 難 恢 復(fù) 計(jì) 劃,網(wǎng) 絡(luò) 設(shè)計(jì)考 慮 多種方案 4.0 ALL Revis ed 2004-10-08 IBM SHMCC team 整樅版本 5.0 All Revis ed 2004-10-25 IBM SHMCC team 加入 摘要 ,加 強(qiáng) 存 儲(chǔ)管樅內(nèi)容。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 內(nèi)容范圍 本文檔是上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告,屬于機(jī)密文件。 適用的對(duì)象 本文檔適用于參與上海移動(dòng)容災(zāi)項(xiàng)目組的決策者、評(píng)估者。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 目錄 1 摘要 7 2 容災(zāi)系統(tǒng)建設(shè)意義 8 3 容災(zāi)技術(shù)方案選型 12 3.1 容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計(jì)范圍 12 3.2 容災(zāi)技術(shù)方案設(shè)計(jì)方法 12 3.3 容災(zāi)系統(tǒng)建設(shè)目標(biāo) 12 3.4 容災(zāi) 7 層技術(shù)模型介紹 13 3.5 容災(zāi)技術(shù)方案選型考慮 16 4 容災(zāi)系統(tǒng)方案設(shè)計(jì) 23 4.1 上海移動(dòng)系統(tǒng)現(xiàn) 狀 23 4.2 容災(zāi)架構(gòu)整體設(shè)計(jì) 24 4.3 容災(zāi)系統(tǒng)詳細(xì)設(shè)計(jì) 31 4.3.1 本地?cái)?shù)據(jù)庫(kù)容災(zāi) 31 3.3.2 容災(zāi)系統(tǒng)主機(jī)設(shè)計(jì) 32 4.3.2 容災(zāi)系統(tǒng)存儲(chǔ)設(shè)計(jì) 46 3.3.4 容災(zāi)系統(tǒng)網(wǎng)絡(luò)設(shè)計(jì) 53 4.4 容災(zāi)系統(tǒng)備份方案設(shè)計(jì) 71 4.4.1 數(shù)據(jù)備份概述 71 4.4.2 備份系統(tǒng)現(xiàn)狀分析 73 4.4.3 容災(zāi)備份系統(tǒng)邏輯設(shè)計(jì) 75 4.4.4 容災(zāi)備份系統(tǒng)配置設(shè)計(jì) 82 4.4.5 容災(zāi)備份系統(tǒng)專業(yè)服務(wù) 84 4.5 容災(zāi)系統(tǒng)管理方案設(shè)計(jì) 86 4.5.1 存儲(chǔ)資源管理 86 4.5.2 存儲(chǔ)網(wǎng)絡(luò)管理 91 5 容災(zāi)系統(tǒng)實(shí)施計(jì)劃 94 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 5.1 災(zāi)難恢復(fù)計(jì)劃 94 5.2 上海移動(dòng)容災(zāi)項(xiàng)目實(shí)施計(jì)劃 95 6 附錄 96 6.1 機(jī)房工程技術(shù)說(shuō)明 96 6.2 上海移動(dòng)業(yè)務(wù)支撐系統(tǒng)平臺(tái)現(xiàn)狀概況一覽表。 105 6.3 IBM 項(xiàng)目管理服務(wù) 107 6.4 支持多廠商的網(wǎng)絡(luò)存儲(chǔ)通用管理軟件 SANavigator 版本 114 6.5 容災(zāi)系統(tǒng)管理方案設(shè)計(jì) 121 6.5.1 系統(tǒng) 管理現(xiàn)狀 121 6.5.2 系統(tǒng)管理需求 122 6.5.3 系統(tǒng)管理架構(gòu)建議 123 6.5.4 事件管理 126 6.5.5 網(wǎng)絡(luò)管理 128 6.5.6 數(shù)據(jù)庫(kù)管理 129 6.5.7 主機(jī)系統(tǒng)監(jiān)控 131 6.5.8 SLA 管理 133 6.5.9 BOSS 應(yīng) 用 管理 134 6.5.10 流程管理 134 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 1 摘要 一、項(xiàng) 目 背景 隨著電信市場(chǎng)的開放以及中國(guó)加入 WTO 進(jìn)程的進(jìn)行,中國(guó)移動(dòng)通信面臨著前 所未有的發(fā)展機(jī)遇和挑戰(zhàn)。作為一個(gè)電 信運(yùn)營(yíng)商,其 IT 系統(tǒng)的應(yīng)用直接關(guān)乎管 理、服務(wù)、成本、效率等各個(gè)重要環(huán)節(jié),并最終全面影響運(yùn)營(yíng)商的競(jìng)爭(zhēng)力。電信 行業(yè)是一個(gè)講究系統(tǒng)高可用性的行業(yè),它要求關(guān)鍵應(yīng)用服務(wù)器必須 24 7 的不間 斷運(yùn)行,以滿足超大量用戶的實(shí)時(shí)訪問(wèn),任何潛在的單點(diǎn)故障都有可能導(dǎo)致整個(gè) 系統(tǒng)的癱瘓。為了保證信息系統(tǒng)的穩(wěn)定和數(shù)據(jù)的安全,提高業(yè)務(wù)運(yùn)營(yíng)系統(tǒng)的服務(wù) 質(zhì)量,確保在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中確立主導(dǎo)地位,上海移動(dòng)決定在現(xiàn)有業(yè)務(wù)運(yùn) 營(yíng)支撐系統(tǒng)的基礎(chǔ)上,結(jié)合自身的特點(diǎn)和實(shí)踐經(jīng)驗(yàn)進(jìn)行上海移動(dòng)業(yè)務(wù)運(yùn)營(yíng)支撐容 災(zāi)系統(tǒng)工程的建設(shè)。 本次上海移動(dòng) 業(yè)務(wù)運(yùn)營(yíng)支撐容災(zāi)系統(tǒng)工程的目標(biāo),是按照移動(dòng)集團(tuán)公司 BOSS 系統(tǒng)容災(zāi)備份技術(shù)規(guī)范和業(yè)務(wù)規(guī)范,主要考慮中國(guó)移動(dòng)業(yè)務(wù)支撐網(wǎng)中的 BOSS 系統(tǒng),兼顧經(jīng)營(yíng)分析系統(tǒng)。對(duì)于 BOSS 系統(tǒng),將主要考慮其中的營(yíng)帳子系統(tǒng), 計(jì)費(fèi)子系統(tǒng),充值子系統(tǒng), 1860 子系統(tǒng) ,綜合結(jié)算中的網(wǎng)間結(jié)算子系統(tǒng)。整個(gè)容災(zāi)系統(tǒng)建設(shè)將遵循統(tǒng)一規(guī)劃,分步實(shí)施的原則。 二、本 設(shè) 計(jì)報(bào)告 內(nèi) 容結(jié)構(gòu) 本容災(zāi)設(shè)計(jì)報(bào)告主要分為四大部分:容災(zāi)系統(tǒng)建設(shè)意義、容災(zāi)技術(shù)方案選型、 容災(zāi)系統(tǒng)方案設(shè)計(jì)以及容災(zāi)系統(tǒng)實(shí)施計(jì)劃。 容災(zāi)系統(tǒng)建設(shè)意義部分主要從行業(yè)競(jìng)爭(zhēng)需要、 業(yè)務(wù)穩(wěn)定需要和企業(yè)管理需要 三方面闡述了容災(zāi)系統(tǒng)的建設(shè)意義。 容災(zāi)技術(shù)方案選型部分主要根據(jù)上海移動(dòng) BOSS 系統(tǒng)的現(xiàn)狀和將來(lái)的發(fā)展并 滿足對(duì)應(yīng)用和在用系統(tǒng)影響最小以及生產(chǎn)系統(tǒng)變動(dòng)的需要推薦使用存儲(chǔ)層 +數(shù)據(jù) 庫(kù)層的復(fù)合容災(zāi)方案。 容災(zāi)系統(tǒng)方案設(shè)計(jì)部分主要針對(duì)上海移動(dòng) BOSS 系統(tǒng)的各個(gè)子系統(tǒng)提出了各 自的容災(zāi)架構(gòu)設(shè)計(jì),根據(jù)各子系統(tǒng)的實(shí)時(shí)性恢復(fù)要求提出對(duì)于營(yíng)帳數(shù)據(jù)庫(kù),充值 數(shù)據(jù)庫(kù)和 1860 數(shù)據(jù)庫(kù)實(shí)施兩層容災(zāi)設(shè)計(jì);對(duì)于計(jì)費(fèi),經(jīng)營(yíng)分析,網(wǎng)間結(jié)算,批 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 價(jià)等提出存儲(chǔ)層的容災(zāi)設(shè)計(jì)。另外還從容災(zāi)系統(tǒng)的主機(jī)、存儲(chǔ)、網(wǎng) 絡(luò)、備份方案 以及存儲(chǔ)資源和存儲(chǔ)網(wǎng)絡(luò)管理方案方面作了詳細(xì)的設(shè)計(jì)。 容災(zāi)系統(tǒng)實(shí)施計(jì)劃部分介紹了如何系統(tǒng)的實(shí)施災(zāi)難恢復(fù)計(jì)劃以保證災(zāi)難發(fā) 生時(shí)業(yè)務(wù)操作地連續(xù)性。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 2 容災(zāi)系統(tǒng)建設(shè)意義 中國(guó)有句古話叫做“天有不測(cè)風(fēng)云,人有旦夕禍?!保浞终f(shuō)明災(zāi)難的不可 測(cè)性。 911 事件是對(duì)這句話的最好注腳,在里面辦公的 286 家公司的 5 萬(wàn)多名員 工是根本不會(huì)想到好端端的坐在辦公室里居然會(huì)有飛機(jī)撞過(guò)來(lái)。在這種近乎毀滅 性的局部災(zāi)難面前,是否有異地容災(zāi)系統(tǒng)就變成了關(guān)乎企業(yè)生存的現(xiàn)實(shí)問(wèn)題。最 近國(guó)內(nèi)也發(fā)生了類 似災(zāi)難,大連某個(gè)銀行的生產(chǎn)中心突然著火,因?yàn)闆](méi)有災(zāi)備系 統(tǒng),造成全部業(yè)務(wù)停止兩天,這還是不幸中的萬(wàn)幸,因?yàn)榻^大多數(shù)機(jī)器設(shè)備經(jīng)過(guò) 修復(fù)還可以使用,尤其是存儲(chǔ)設(shè)備,否則,后果真是不堪設(shè)想。 很多企業(yè)是從 911 事件后開始真正認(rèn)真考慮容災(zāi)的,以往容災(zāi)系統(tǒng)的建設(shè)往 往被視為錦上添花的項(xiàng)目而不是一個(gè)業(yè)務(wù)可持續(xù)性運(yùn)行的必須項(xiàng)目。我們可以吸 取的教訓(xùn)是一定要建立核心數(shù)據(jù)和業(yè)務(wù)的容災(zāi)系統(tǒng),并且平時(shí)要加強(qiáng)管理和演 習(xí),加強(qiáng)人員的培訓(xùn),核心管理人員和技術(shù)的分散,以提高計(jì)算機(jī)系統(tǒng)因?yàn)樘鞛?zāi) 或人為因素等意外事故導(dǎo)致系統(tǒng)毀壞無(wú)法運(yùn) 行時(shí)的抵御能力,至少將局部地區(qū)核 心業(yè)務(wù)支持在系統(tǒng)故障時(shí)的損失減至最小。 無(wú)論是國(guó)內(nèi)還是國(guó)外的用戶,無(wú)論是政府還是企業(yè),現(xiàn)在都在思考這樣一個(gè) 問(wèn)題,那就是,假設(shè)我們的企業(yè)發(fā)生了類似的情況,我們是否有足夠的備份措施, 企業(yè)的數(shù)據(jù)是否有足夠的保障?在美國(guó)、日本等一些發(fā)達(dá)國(guó)家,對(duì)于關(guān)乎國(guó)計(jì)民 生的行業(yè),有專門的法律要求該企業(yè)必須有災(zāi)難保護(hù)方案,(如美國(guó)是 BCC 177) 并且每年都會(huì)進(jìn)行審計(jì)和稽核。國(guó)內(nèi)因?yàn)槟壳斑€沒(méi)有類似的法律約束,很多企業(yè) 對(duì)于應(yīng)用比較重視,但是對(duì)于整體系統(tǒng)的可用性考慮得不多,甚至是一些金融企 業(yè),當(dāng)有類似數(shù)據(jù)庫(kù)出錯(cuò)等故障發(fā)生時(shí),還依然只能通過(guò)倒磁帶的方式恢復(fù)數(shù)據(jù)。 這種情況下,丟失數(shù)據(jù)就是不可避免的了,并且由于恢復(fù)時(shí)間的漫長(zhǎng),對(duì)廣大客 戶承諾的服務(wù)水平又如何能夠達(dá)到?現(xiàn)在,隨著中國(guó)加入 WTO,一些國(guó)內(nèi)先進(jìn)的 有前瞻性的企業(yè)也在這方面給予了足夠的重視,如上海移動(dòng)等單位。 隨著上海移動(dòng)業(yè)務(wù)的飛速發(fā)展,業(yè)務(wù)對(duì) IT 系統(tǒng)的依賴性也隨之增加,越來(lái) 越多的業(yè)務(wù)集中到生產(chǎn)主機(jī)上,對(duì)主機(jī)和存儲(chǔ)設(shè)備都造成了較大的壓力。當(dāng)一個(gè) 單位越來(lái)越依賴于數(shù)據(jù)處理去進(jìn)行它的業(yè)務(wù)行為時(shí),數(shù)據(jù)處理的高可靠性和高可 用性就尤為 關(guān)鍵,大部分單位的業(yè)務(wù)處理需要數(shù)據(jù)處理的高可用性。用戶發(fā)現(xiàn)如 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 果沒(méi)有了數(shù)據(jù)處理,業(yè)務(wù)的開展變得極端困難,也許手工操作還可以使用,但那 只能用于短期的應(yīng)付,一個(gè)計(jì)算機(jī)系統(tǒng)的長(zhǎng)期停止運(yùn)轉(zhuǎn)將直接導(dǎo)致明顯的業(yè)務(wù)后 果,也許還會(huì)被追究管理責(zé)任。更為重要的是,一旦數(shù)據(jù)由于某種原因永久性丟 失,不但會(huì)給企業(yè)的運(yùn)作帶來(lái)極大的困難,企業(yè)的商業(yè)信譽(yù)必將受到致命的打擊, 在競(jìng)爭(zhēng)中處于劣勢(shì),造成不可估量的后果。 基于這種考慮,中國(guó)移動(dòng)總部提出了在各省建設(shè) BOSS 系統(tǒng)容災(zāi)備份的要求, 這個(gè)報(bào)告書就是為上海移動(dòng)的容災(zāi)系統(tǒng)進(jìn)行方案設(shè) 計(jì)。本方案中將重點(diǎn)討論 BOSS 系統(tǒng)的詳細(xì)容災(zāi)方案,兼顧其他業(yè)務(wù)系統(tǒng),同時(shí)根據(jù)上海移動(dòng)的實(shí)際情況 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 分步實(shí)現(xiàn)。 當(dāng)然,我們考慮容災(zāi)系統(tǒng)建設(shè)時(shí),也應(yīng)該實(shí)事求是,從實(shí)際出發(fā)。能夠防御 所有災(zāi)難的方案是不存在的,也是不現(xiàn)實(shí)的。我們認(rèn)為,計(jì)算機(jī)系統(tǒng)的災(zāi)難定義 是可以由用戶自己來(lái)定義的,各個(gè)行業(yè)可以有不同的要求。設(shè)計(jì)容災(zāi)系統(tǒng)時(shí),應(yīng) 該基于一個(gè)合理的前提假設(shè),譬如,在主機(jī)房發(fā)生故障時(shí),備份機(jī)房可以保證數(shù) 據(jù)的完整性,并且可以在最短時(shí)間內(nèi)完成應(yīng)用、網(wǎng)絡(luò)和數(shù)據(jù)的接管。本方案中的 容災(zāi)系統(tǒng)正是基于這種前提來(lái)設(shè)計(jì),我們 暫不考慮那種同時(shí)損壞主備機(jī)房的可能 性。 讓我們?cè)賮?lái)看看容災(zāi)系統(tǒng)建設(shè)的意義,這個(gè)在移動(dòng)總部的容災(zāi)系統(tǒng)建設(shè)規(guī)范 中也有多次強(qiáng)調(diào): 行業(yè)競(jìng)爭(zhēng)的需要 美國(guó)明尼蘇達(dá)大學(xué)研究機(jī)構(gòu)的統(tǒng)計(jì)結(jié)果表明,對(duì)于銀行,金融,證券,電信 等行業(yè)的企業(yè)而言,如果業(yè)務(wù)停頓時(shí)間長(zhǎng)達(dá)兩天或更長(zhǎng),那么 25% 的企業(yè)將立 刻因信譽(yù)和業(yè)務(wù)問(wèn)題而倒閉, 40% 的企業(yè)將因?yàn)槭懿粩嗟暮罄m(xù)因素的影響導(dǎo)致綜 合競(jìng)爭(zhēng)力的下降而在今后兩至五年內(nèi)被淘汰,五年以后僅有 7% 的企業(yè)能夠繼續(xù) 在此行業(yè)內(nèi)生存。 目前,在國(guó)內(nèi),通訊行業(yè)內(nèi)的競(jìng)爭(zhēng)本來(lái)就很激烈,加之 WTO 之后,國(guó)外實(shí)力 雄厚的企業(yè)對(duì)國(guó)內(nèi)市場(chǎng)的窺視,將不可避免地造成企業(yè)爭(zhēng)奪客戶群的白熱化的局 面,因此企業(yè)總體服務(wù)的水平將是影響競(jìng)爭(zhēng)結(jié)果的重要因素。試想,一個(gè)時(shí)不時(shí) 就會(huì)抱歉地對(duì)客戶說(shuō):“對(duì)不起,由于我們的主機(jī)系統(tǒng)有問(wèn)題,您要求的業(yè)務(wù)暫 時(shí)無(wú)法辦理”的企業(yè)將無(wú)法贏得挑剔的客戶的芳心。即使在發(fā)生眾所周知的 災(zāi)害,如果系統(tǒng)也是長(zhǎng)時(shí)間的無(wú)法恢復(fù),也會(huì)帶來(lái)極嚴(yán)重的后果。所以, IT 系 統(tǒng)的完善程度是激烈競(jìng)爭(zhēng)的一個(gè)最重要的前提,在此基礎(chǔ)上,企業(yè)才能開發(fā)豐富 多樣的業(yè)務(wù)品種,提供高質(zhì)量的服務(wù)水平,在競(jìng)爭(zhēng)中取得優(yōu)勢(shì) 。不久前發(fā)生在南 京的“愛立信跳槽事件”已經(jīng)表明了中國(guó)加入 WTO 后行業(yè)競(jìng)爭(zhēng)的殘酷性和現(xiàn)實(shí)性。 根據(jù)業(yè)務(wù)的不同,對(duì)各種程度的中心系統(tǒng)可靠性要求也不同,如從最高等級(jí) 的 X X服務(wù),到在指定時(shí)間內(nèi)恢復(fù)。為了滿足這些要求,更好地為客 戶服務(wù),上海移動(dòng)應(yīng)當(dāng)未雨綢繆,盡早制定和建立完備的災(zāi)難恢復(fù)計(jì)劃系統(tǒng),以增強(qiáng)系統(tǒng)的知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 抗災(zāi)能力,最大限度地減小損失。 業(yè)務(wù)穩(wěn)定的需要 時(shí)至今日,企業(yè)業(yè)務(wù)運(yùn)營(yíng)對(duì)信息系統(tǒng)的運(yùn)作的依賴性越大,就對(duì)信息系統(tǒng)運(yùn) 作的穩(wěn)定性和可靠性的要求越高。 而信息系統(tǒng)可用的定義已不再局限于主機(jī)設(shè) 備的可用,而是從主機(jī),存儲(chǔ),用戶終端,網(wǎng)絡(luò)設(shè)備整體的物理可用,到系統(tǒng),數(shù)據(jù)庫(kù),應(yīng)用軟件,用戶數(shù)據(jù)的 邏輯可用。 然而,由于各種因素的影響,小至一般性的硬件故障,大到區(qū)域性的自然災(zāi) 害,從物理的設(shè)備不可用,到邏輯的人為失誤和破壞,都可能造成整個(gè)信息系統(tǒng) 的全面癱瘓,從而導(dǎo)致業(yè)務(wù)運(yùn)營(yíng)的停頓。因此,同一機(jī)房中的雙主機(jī)恢復(fù)系統(tǒng)有 很多企業(yè)已經(jīng)覺(jué)得不能滿足需求,特別是因?yàn)閼?yīng)用的要求而作了區(qū)域集中或全國(guó) 大集中的企業(yè),在享受數(shù)據(jù)集中帶來(lái)的諸多好處時(shí),同時(shí)也承擔(dān)著數(shù)據(jù)丟失或者 IT 系統(tǒng)不可用帶來(lái)的巨大風(fēng)險(xiǎn)。從以下這份國(guó)外的 研究報(bào)告中我們可以知道這 些擔(dān)憂不是杞人憂天。這是 1996 年 Source Contingency Planning Research Inc 。 對(duì)于各種因素包括自然災(zāi)害:水災(zāi)、風(fēng)災(zāi)、地震、大雪、野火 結(jié)構(gòu)破壞:電力中斷、火災(zāi)、爆炸 操作問(wèn)題:硬件問(wèn)題、病毒入侵、操作失誤、人為破壞。 讓我們暫時(shí)拋開滿腦子的災(zāi)難,來(lái)考慮一下即使是機(jī)器沒(méi)有發(fā)生故障是否也是 7小時(shí)可用呢?我們認(rèn)為,現(xiàn)實(shí)環(huán)境中,這種情況也是不現(xiàn)實(shí)的,我們 經(jīng)常會(huì)進(jìn)行一些正常的日常維護(hù)活動(dòng)。假設(shè)我們認(rèn)為,所有災(zāi)難都是屬于非計(jì)劃 中的系統(tǒng)不 可用,那么還有很大一部分系統(tǒng)不可用時(shí)間是屬于計(jì)劃中的,從下圖 中我們可以看到非計(jì)劃宕機(jī)只是占了 IT 系統(tǒng)不可用的 10%,而計(jì)劃中的宕機(jī)占了 90%。 如果我們有了容災(zāi)系統(tǒng),起碼我們可以將很多計(jì)劃中的停機(jī)事件避免,如數(shù)據(jù)備份,完全可以在容災(zāi)中心進(jìn)行,同時(shí),我們可以利用容災(zāi)中心做許多諸如新 的應(yīng)用程序測(cè)試,壓力測(cè)試等等,若是結(jié)合第二份數(shù)據(jù)鏡像功能,我們完全可以 輕松自如的在容災(zāi)中心進(jìn)行數(shù)據(jù)查詢,數(shù)據(jù)挖掘等業(yè)務(wù)。當(dāng)然,這些業(yè)務(wù)在只有 一份遠(yuǎn)程鏡像時(shí)也可以實(shí)現(xiàn),只是需要較為仔細(xì)和復(fù)雜的操作,并且有可能暫時(shí) 中斷 鏡像等,相比之下沒(méi)有前者操作方便簡(jiǎn)單,對(duì)生產(chǎn)系統(tǒng)的沖突更小。知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 Definition of Outages Most Customer Outages are caused by D ata Base Backup and C hange Control Planned Outages 90.0% Unplanned Outages 10.0% DB Backup 52.0% Operations 25.0% Software 30.0% Other 9.0% Application 8.0% Hardware 8.0% Software 13.0% Network 10.0% Hardware 15.0% Other 3.0% Application 27.0% l a n n e d n p la n n e d 圖:造成系統(tǒng)不可用的因素 企 業(yè) 管理的需要 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 美國(guó) 911 恐怖襲擊事件之后,華爾街上幾乎所有的金融機(jī)構(gòu)都未受到致命的 影響,這都要?dú)w功于企業(yè)制定的業(yè)務(wù)持續(xù)性計(jì)劃。企業(yè)管理標(biāo)準(zhǔn)要求,每個(gè)企業(yè) 應(yīng)該具 備一套保證企業(yè)在發(fā)生緊急事故時(shí)能夠從容應(yīng)對(duì)的管理計(jì)劃,這就是業(yè)務(wù) 持續(xù)性計(jì)劃。這套計(jì)劃將使得客戶能夠在災(zāi)難時(shí)啟動(dòng)相關(guān)的備份設(shè)備,協(xié)調(diào)人員 流動(dòng),應(yīng)對(duì)媒體訪問(wèn),確保業(yè)務(wù)的正常運(yùn)營(yíng)。 作為業(yè)務(wù)持續(xù)性計(jì)劃的一部分,信息系統(tǒng)的災(zāi)難恢復(fù)計(jì)劃的制定是非常重要 和關(guān)鍵的,它將直接決定企業(yè)業(yè)務(wù)應(yīng)用的恢復(fù)時(shí)間,制定信息系統(tǒng)的容災(zāi)計(jì)劃也 是對(duì)現(xiàn)有投資的保護(hù)。信息系統(tǒng)設(shè)備,軟件的購(gòu)買和應(yīng)用是為了能更好的處理業(yè) 務(wù),由此獲得的客戶滿意和競(jìng)爭(zhēng)實(shí)力不應(yīng)該因?yàn)橐淮螄?yán)重的故障而喪失殆盡。信 息系統(tǒng)的容災(zāi)計(jì)劃將使企業(yè)在緊急狀況下仍能夠正常營(yíng) 業(yè),從而顯示出更強(qiáng)于其 它企業(yè)的競(jìng)爭(zhēng)力。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 需 求 分 析 方 案 設(shè) 計(jì) 核核核核 心心心心 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 及及及及 其其其其 關(guān)關(guān)關(guān)關(guān) 聯(lián)聯(lián)聯(lián)聯(lián) 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 習(xí) 、 測(cè) 試 、 維 護(hù) 方 案 實(shí) 施 需 求 分 析 方 案 設(shè) 計(jì)核核核核 心心心心 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 及及及及 其其其其關(guān)關(guān)關(guān)關(guān) 聯(lián)聯(lián)聯(lián)聯(lián) 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù)習(xí) 測(cè) 試 維 護(hù) 方 案 實(shí) 施3 容災(zāi)技術(shù)方案選型 3.1 容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計(jì)范圍 根據(jù)上海移動(dòng)的要求,本次容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計(jì)將主要考慮中國(guó)移動(dòng)業(yè)務(wù) 支撐網(wǎng)中的 BOSS 系統(tǒng),兼顧經(jīng)營(yíng)分析系統(tǒng)。對(duì)于 BOSS 系統(tǒng),將主要考慮其中的 營(yíng)帳子系統(tǒng),計(jì)費(fèi)子系統(tǒng),充值子系統(tǒng), 1860 子系統(tǒng) ,綜合結(jié)算中的網(wǎng)間結(jié)算子 系統(tǒng)。整個(gè)容災(zāi)系統(tǒng)建設(shè)將遵循統(tǒng)一規(guī)劃,分步實(shí)施的原則,而不是一蹴而就的。 3.2 容災(zāi)技術(shù)方案設(shè)計(jì)方法 移動(dòng)總部的容災(zāi)系統(tǒng)業(yè)務(wù)規(guī)范建議容災(zāi)系統(tǒng)按 照以下的方法論進(jìn)行,本設(shè)計(jì) 是具體的方案設(shè)計(jì)部分。 人 員 調(diào) 控 需 求 分 析核 心 業(yè) 務(wù) 及 其 關(guān) 聯(lián) 業(yè) 務(wù)方 案 設(shè) 計(jì) En te rp ri 演 習(xí) 、 測(cè) 試 、 維 護(hù) 驅(qū) 動(dòng) 方 案 實(shí) 施 計(jì) 劃 流 程 技 術(shù) 映 射 3.3 容災(zāi)系統(tǒng)建設(shè)目標(biāo) 業(yè)界在建設(shè)容災(zāi)系統(tǒng)時(shí),主要考慮以下的目標(biāo)參數(shù): 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 恢復(fù)時(shí)間目標(biāo)( RTO) 在系統(tǒng)不可用的情況下,你可以忍受多長(zhǎng)時(shí)間?這 個(gè)參數(shù)定義了系統(tǒng)能夠容忍的最長(zhǎng)停機(jī)時(shí)間; 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 恢復(fù)點(diǎn)目標(biāo)( RPO)當(dāng)系統(tǒng)被恢復(fù)時(shí),你可以忍受多少數(shù)據(jù)需要重新建立? 這個(gè)參數(shù)定義了系統(tǒng)能夠容忍的最多數(shù)據(jù)丟失; 網(wǎng)絡(luò)恢復(fù)目標(biāo)( NRO) 需要多長(zhǎng)時(shí)間才可以切換網(wǎng)絡(luò)?這個(gè)參數(shù)定義了系 統(tǒng)能夠容忍的最長(zhǎng)網(wǎng)絡(luò)停機(jī)時(shí)間。 一個(gè)應(yīng)用的完全恢復(fù)應(yīng)該包括主機(jī),數(shù)據(jù)庫(kù),應(yīng)用程序,網(wǎng)絡(luò)連接,應(yīng)用服 務(wù)器和應(yīng)用界面的完全可用。所以具體到一個(gè)特定的應(yīng)用,具體的技術(shù)指標(biāo)會(huì)不 一樣。在移動(dòng)總部的規(guī)范中將 BOSS 的容災(zāi)恢復(fù)指標(biāo)定義為 2 級(jí)。根據(jù)上海移動(dòng) 的具體實(shí)際,我們認(rèn)為,將聯(lián)機(jī)交易處理類的應(yīng)用如營(yíng)帳, 1860,充值 等業(yè)務(wù)的 恢復(fù)目標(biāo)定義為 2 小時(shí)以內(nèi),非聯(lián)機(jī)交易如計(jì)費(fèi)的恢復(fù)時(shí)間定在 4 小時(shí)以內(nèi)是比 較現(xiàn)實(shí)的。(這個(gè)時(shí)間沒(méi)有包括決策是時(shí)間,但是包括網(wǎng)絡(luò)切換時(shí)間)。 3.4 容災(zāi) 7層技術(shù)模型介紹 首先讓我們看看業(yè)界公認(rèn)的容災(zāi)技術(shù)方案等級(jí),災(zāi)難備援技術(shù)方案的七個(gè)級(jí) 別: 7 Tiers for Disaster Recovery Solution,是指根據(jù)國(guó)際標(biāo)準(zhǔn) SHARE 78 的定義,災(zāi)難備援技術(shù)方案可以根據(jù)以 下主要方面所達(dá)到的程度而分為七級(jí): 1、 備份 /恢復(fù)的范圍 2、 災(zāi)難恢復(fù)計(jì)劃的狀態(tài) 3、 應(yīng)用站點(diǎn)與備援站點(diǎn)之間的 距離 4、 應(yīng)用站點(diǎn)與備援站點(diǎn)之間是如何相互連接的 5、 數(shù)據(jù)是怎樣在兩個(gè)站點(diǎn)之間傳送的 6、 允許有多少數(shù)據(jù)被丟失 7、 怎樣保證更新的數(shù)據(jù)在備援站點(diǎn)被更新 8、 備援站點(diǎn)可以開始備援工作的能力 即從低到高有七種不同層次的災(zāi)難恢復(fù)解決方案。 如下圖所示,該七個(gè)級(jí)別的災(zāi)難備援的技術(shù)方案分別是: 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 Tier 1 - PTAM“卡車”運(yùn)送訪問(wèn)方式 (Pickup Truck Access Method) Tier 2 - PTAM 卡車運(yùn)送訪問(wèn)方式 +熱備份站點(diǎn) (PTAM + Hotsite) Tier 3 - 電 子鏈接方式 (Electronic Vaulting) Tier 4 - 數(shù)據(jù)庫(kù)鏡像和日志方式 (Batch/Online Database Shadowing & Journaling) Tier 5 - 兩點(diǎn)兩階段提交 (Two-Site Two-Phase Commit) Tier 6 - 無(wú)數(shù)據(jù)丟失 (Zero Data Loss) Tier 7 - 無(wú)數(shù)據(jù)丟失和應(yīng)用自動(dòng)切管 ( Zero Data Loss + App Automatic takeover) 以上七個(gè)級(jí)別的災(zāi)難備援 的技術(shù)方案的特點(diǎn)和區(qū)別,可以參照如下描述: 七層模型的可恢復(fù)性比較 有無(wú)室 內(nèi) 備份 ? Y/N N Y Y Y Y Y Y Y 容災(zāi)層次 0 1 2 3 4 5 6 7 保存的 信 息 (數(shù) 據(jù),指 令 ,文 檔 ) N Y/N Y Y Y Y Y Y Determination of requirements N Y Y Y Y Y Y Y 專用的 容 災(zāi)硬 件 和機(jī)房 N Y/N Y Y Y Y Y Y 災(zāi)難恢 復(fù) 計(jì)劃 N N Y Y Y Y Y Y 選擇性 的 異地 數(shù) 據(jù)保存 N N Y Y Y Y Y Y 支持危 機(jī) 時(shí)候 的 足夠的 硬 件和 網(wǎng) 絡(luò)設(shè)備 N N Y Y Y Y Y Y 至少部 分 信息 的 電子方 式 的備份 N N N Y Y Y Y Y Active management of recovery data by a processor at the recovery site N N N N Y Y Y Y 雙向恢復(fù) N N N N Y Y Y Y 物理分離 N N N N Y Y Y Y 所選數(shù) 據(jù) 的鏡像 N N N N N Y Y Y 異地部 分 或全 部 的硬件 備 份 N N N N N Y Y Y 主備中 心 數(shù)據(jù) 即 時(shí)異地 傳 輸 N N N N N N Y Y 根據(jù)策 略 自動(dòng) 切 換到災(zāi) 備 中心 N N N N N N N Y 典 型 恢 復(fù) 時(shí) 間 Upto Never 1 week 1 day 1 day 1 day 12 hours 6 hours Few Mins. Tier 1 - PTAM“卡車” 運(yùn) 送訪問(wèn)方式 (Pickup Truck Access Method) Tier 1 的 災(zāi)難恢復(fù) 方 案必須設(shè) 計(jì) 一個(gè)嚴(yán)格 的 數(shù)據(jù)備份 方 案,能夠 備 份所 需 要的信息并將它遞送存放在異地 , 然后根據(jù)恢復(fù)的具體需求 , 有選擇地建立 備份平臺(tái),但不提供數(shù)據(jù)處理的硬件。 PTAM 是 一種被用于 許 多中心的 備 份的標(biāo)準(zhǔn) 的 方式,數(shù) 據(jù) 在完成寫 操 作的 一 些時(shí)候 , 將會(huì)被送到遠(yuǎn)離本地的地方 , 同時(shí)準(zhǔn)備有數(shù)據(jù)恢復(fù)的程序 。 在災(zāi)難 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 發(fā)生后 , 一整套安裝需要在一臺(tái)未開啟的計(jì)算機(jī)上重新完成 。 系統(tǒng)和數(shù)據(jù)可 以被恢 復(fù)并 重新與 網(wǎng)絡(luò) 相連。 這種 災(zāi)難恢 復(fù)方 案相對(duì) 來(lái)說(shuō) 成本較 低 (僅僅 需 要傳輸 工具 的消耗 以及 存儲(chǔ)設(shè) 備的 消耗 )。但 同時(shí)有 這樣 的問(wèn)題 , 那 就是 難 于管理,即很難知道什么樣的數(shù)據(jù)在什么樣的地方。 Tier 2 - PTAM 卡車運(yùn)送 訪 問(wèn)方式 +熱 備份站點(diǎn) (PTAM + Hotsite) Tier 2 相當(dāng)于 Tier 1 再加上熱備份中心能力的進(jìn)一步的災(zāi)難恢復(fù)。熱備份 中心擁有足夠的硬件和網(wǎng)絡(luò)設(shè)備去支持關(guān)鍵應(yīng)用的安裝需求 , 這樣的應(yīng)用是 十分的關(guān)鍵的 , 它必須在災(zāi)難發(fā)生的同時(shí) , 在異地有與生產(chǎn)環(huán)境相類似的硬 件提供支持 。 這種災(zāi)難恢復(fù)的方式依賴于 PTAM 方法去將日常數(shù)據(jù)放入倉(cāng)庫(kù), 當(dāng)災(zāi)難發(fā)生的時(shí)候 , 數(shù)據(jù)再被移動(dòng)到一個(gè)熱備份的中心 。 雖然移動(dòng)數(shù) 據(jù)到一 個(gè)熱備份中心增加了成本,但卻明顯降低了災(zāi)難恢復(fù)時(shí)間。 Tier 3 - 電 子 鏈接方式 (Electronic Vaulting) Tier 3 是在 Tier 2 的基礎(chǔ)上用電子鏈路取代了卡車進(jìn)行數(shù)據(jù)的傳送的進(jìn)一 步的災(zāi)難恢復(fù)。接收方的硬件必須與主中心物理地相分離,在災(zāi)難發(fā)生后, 存儲(chǔ)的數(shù)據(jù)用于災(zāi)難恢復(fù),由于熱備份中心要保持持續(xù)運(yùn)行,增加了成本。 但消除了傳輸工具的需要,提高了災(zāi)難恢復(fù)速度。 Tier 4 - 數(shù)據(jù)庫(kù) 鏡 像和日 志 方 式 (Batch/Online Database Shadowing & Journaling) Tier 4 是在 Tier3 的基礎(chǔ)上,以數(shù)據(jù)庫(kù)遠(yuǎn)程備份為基礎(chǔ)。災(zāi)難恢復(fù)具有兩 個(gè)中心同時(shí)處于活動(dòng)狀態(tài)并管理彼此的備份數(shù)據(jù) , 允許備份行動(dòng)在任何一個(gè) 方向發(fā)生。接收方硬件必須保證與另一方平臺(tái)物理地分離,在這種情況下, 工作負(fù)載可能在兩個(gè)中心之間分享,中心 1 成為中心 2 的備份,反之亦然。 在兩個(gè)中心之間 , 彼此的在線關(guān)鍵數(shù)據(jù)的拷貝不停地相互傳送著 。 在災(zāi)難發(fā) 生時(shí) , 需要的關(guān)鍵數(shù)據(jù)通過(guò)網(wǎng)絡(luò)可迅速恢復(fù) , 通過(guò)網(wǎng)絡(luò)的切換 , 關(guān)鍵應(yīng)用的 恢復(fù)也可降低到小時(shí)級(jí)。 Tier 5 - 兩 點(diǎn) 兩階段提交 (Two-Site Two-Phase Commit) Tier 5 在 Tier 4 的基礎(chǔ)上管理著被選擇的數(shù)據(jù) (根據(jù)單一 commit 的范圍在 本地和 遠(yuǎn)程 數(shù)據(jù)庫(kù) 中同 時(shí)更新 數(shù)據(jù) ),也 就是 說(shuō),在 更新 請(qǐng)求被 認(rèn)為 是滿 意 之前, Tier 5 需要 生 產(chǎn)中心與 備 份中心的 數(shù) 據(jù)都被更 新 。我們可 以 想象 這 樣一種情景,數(shù)據(jù)在兩個(gè)中心之間相互映像,由遠(yuǎn)程 two-phase commit 來(lái) 同步 。 Tier5 為關(guān)鍵應(yīng)用使用了雙重在線存儲(chǔ) , 在災(zāi)難發(fā)生時(shí) , 僅僅傳送中 的數(shù)據(jù)被丟失,恢復(fù)時(shí)間被降低到分鐘級(jí)。 Tier 6 - 無(wú) 數(shù) 據(jù)丟失 (Zero Data Loss) Tier 6 可 以實(shí)現(xiàn)零 數(shù) 據(jù)丟失率 , 同時(shí)保證 數(shù) 據(jù)立即自 動(dòng) 地被傳輸 到 恢復(fù) 中 心 。 Tier6 被認(rèn)為是災(zāi)難恢復(fù)的相當(dāng)高的級(jí)別 , 通過(guò)使用文件系統(tǒng)或存儲(chǔ)硬 件底層的數(shù)據(jù)同步 /異步鏡像功能,保證數(shù)據(jù)的實(shí)時(shí)一致性和完整性。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 Tier 7 - 無(wú) 數(shù) 據(jù)丟失和 應(yīng) 用自動(dòng)切管 ( Zero Data Loss + App Automatic takeover) Tier 7 在 Tier 6 的基礎(chǔ)上,在本地和遠(yuǎn)程的所有數(shù)據(jù)被更新的同時(shí),利用 了雙重在 線活動(dòng)的主機(jī) , 備份數(shù)據(jù)和完全的網(wǎng)絡(luò)切換能力 , 實(shí)現(xiàn)應(yīng)用程序的 實(shí)時(shí)監(jiān)控和接管 。 Tier7 是災(zāi)難恢復(fù)中最昂貴的方式 , 但也是需人工干預(yù)最 少,速度最快的恢復(fù)方式。 3.5 容災(zāi)技術(shù)方案選型考慮 首先讓我們確定一下此次容災(zāi)建設(shè)的一些背景條件: 1. 移動(dòng)總部發(fā)布了 BOSS 1.5 規(guī)范,上海移動(dòng)正在加緊進(jìn)行 BOSS 應(yīng)用的改 造 。 這個(gè)說(shuō)明在容災(zāi)系統(tǒng)實(shí)施的同時(shí) , 業(yè)務(wù)環(huán)境也在發(fā)生變化 。 所以對(duì) 于具體選用何種技術(shù)就有很高的要求 , 譬如說(shuō)通過(guò)應(yīng)用程序?qū)觼?lái)實(shí)現(xiàn)容 災(zāi)就不現(xiàn)實(shí)了 , 因?yàn)橐坏I(yè)務(wù)改動(dòng)就需要改動(dòng)容災(zāi) 方案 , 基本上是不可 能的事情。 2. 局方同時(shí)可能會(huì)啟動(dòng) BOSS 網(wǎng)管項(xiàng)目,整個(gè)業(yè)務(wù)支撐平臺(tái)的系統(tǒng)管理都 會(huì)在網(wǎng)管項(xiàng)目中考慮 , 所以在這個(gè)方案設(shè)計(jì)報(bào)告中就不對(duì)系統(tǒng)管理這一 塊內(nèi)容加以詳細(xì)闡述。 3. 本方案設(shè)計(jì)書將闡述 BOSS 網(wǎng)管沒(méi)有具體規(guī)定的存儲(chǔ)和存儲(chǔ)網(wǎng)的管理。 在我們的設(shè)計(jì)報(bào)告中 , 我們首先對(duì)整個(gè)容災(zāi)系統(tǒng)的架構(gòu)進(jìn)行設(shè)計(jì) , 然后對(duì)其 中的各個(gè)要素分別加以闡述。 容災(zāi)系統(tǒng)建設(shè)中很重要的是如何將生產(chǎn)數(shù)據(jù)傳輸或復(fù)制到容災(zāi)中心 , 我們需 要考慮 的是 在系統(tǒng) 的那 一個(gè)層 次上 的復(fù)制 數(shù)據(jù) 和采用 何種 機(jī)制 。 技 術(shù)的 發(fā)展 讓 我們有了更多更好的選擇而不必受一些具體產(chǎn)品的約束 。 下圖是目前業(yè)界最常用 的成熟的技術(shù)。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 我們認(rèn)為 , 首先需要一種技術(shù)方案 , 它的建設(shè)實(shí)施對(duì)應(yīng)用和在用系統(tǒng)影響最 小 , 同時(shí)又能滿足生產(chǎn)系統(tǒng)變動(dòng)的需要 。 而對(duì)于某些特定應(yīng)用 , 如果僅僅采用其 中的一種方案是可能不能完全滿足恢復(fù)需要 , 如一些聯(lián)機(jī)的實(shí)時(shí)交易的應(yīng)用 , 一 種方式顯得太單薄 , 所以對(duì)這些應(yīng)用 , 我們建議用復(fù)合式的容災(zāi)技術(shù)方案 。 究竟 以那種技術(shù)為主,那種為輔,應(yīng)該考慮實(shí)際情況。 下圖 是最近移動(dòng)欽州機(jī)房發(fā)生影響生產(chǎn)的故障統(tǒng)計(jì): 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 2004年 1月到 8月影 響 生產(chǎn)的故障統(tǒng)計(jì) 26% 39% 6% 26% 3% 數(shù) 據(jù) 庫(kù) 故 障 應(yīng) 用 故 障 網(wǎng) 絡(luò) 故 障 主 機(jī) 故 障 例 行 維 護(hù) 從中可以看出 , 發(fā)生頻率最高 , 對(duì)生產(chǎn)造成最大影響的是數(shù)據(jù)庫(kù)故障 , 其次 是至少每月一次的例行維護(hù)和較高的網(wǎng)絡(luò)故障 ,而應(yīng)用故障和主機(jī)故障相對(duì)影響 較小 。 其中的數(shù)據(jù)庫(kù)故障大多時(shí)候都可以通過(guò)重啟數(shù)據(jù)庫(kù)來(lái)解決 , 這些本身可能 由于 Oracle 8 版本軟件的缺陷造成,數(shù)據(jù)庫(kù)重啟時(shí)往往涉及到 recovery 過(guò)程, 如果有些意 外發(fā)生時(shí) , recovery 的過(guò)程會(huì) 很 長(zhǎng),可能 幾 個(gè)小時(shí)才 能 完成, 這時(shí) 重啟數(shù)據(jù)庫(kù)就遠(yuǎn)遠(yuǎn)不能滿足業(yè)務(wù)需求 。 針對(duì)這種情況 , 我們認(rèn)為 , 保持?jǐn)?shù)據(jù)庫(kù)的 高可用 性是 最重要 的, 其次是 網(wǎng)絡(luò) ,在上 海移 動(dòng), IP 網(wǎng) 絡(luò)目前 的故 障較多, 而 光網(wǎng)路相對(duì)來(lái)說(shuō)比較穩(wěn)定,這也為采用存儲(chǔ)層的使用 DWDM 技術(shù)的方案提供的基 礎(chǔ)保證 。 就數(shù)據(jù)本身而言 , 字節(jié)程度的一致性的重要性比不上交易程度的一致性 來(lái)得重要,所以,我們應(yīng)該強(qiáng)調(diào)當(dāng)生產(chǎn)數(shù)據(jù)庫(kù)發(fā)生故障時(shí),可以最快速度恢復(fù)。 基于以上考慮我們給出下表的推薦, 5 為最高 , 1 為最低。 容災(zāi)技術(shù) 技術(shù) 成熟 度 數(shù)據(jù)丟失 情況 硬件要求 實(shí)施難 易程度 對(duì)在用系 統(tǒng)影響 推薦程度 ( 1 5) 存儲(chǔ)服務(wù)器層 ( tier 6) 成熟 不丟或少 量 同一品牌 存儲(chǔ) 較易 較少 4 SAN 層 (tier 6) 成熟 不丟或少 量 FC 連接 較易 較少 3 操作系統(tǒng)層 (tier 6 or 7) 成熟 不丟或少 量 同一品牌 主機(jī) 較易 較大 3 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 數(shù)據(jù)庫(kù)層 (tire 4 or 5) 成熟 部分丟失 較易 較大 3.5 由表中可以看出 , 對(duì)于建議采用復(fù) 合方式的應(yīng)用來(lái)說(shuō) , 我們推薦使用數(shù)據(jù)庫(kù) 層和存儲(chǔ)層結(jié)合的復(fù)合方案 。存儲(chǔ)層可以在存儲(chǔ)產(chǎn)品層 ,也可以在 SAN 交換機(jī)層。 手 動(dòng) /自動(dòng)啟 動(dòng) 容災(zāi) 我們知道,自動(dòng)容災(zāi)技術(shù)可以自動(dòng)識(shí)別災(zāi)難的發(fā)生并且自動(dòng)啟動(dòng)恢復(fù)程序, 將應(yīng)用在容災(zāi)中心自動(dòng)重啟 。 可是結(jié)合國(guó)內(nèi)實(shí)情 , 自動(dòng)容災(zāi)方式并不是很適合上 海移動(dòng),因?yàn)槭欠駟?dòng)容災(zāi)系統(tǒng)不僅僅是一個(gè)技術(shù)問(wèn)題,其中有一個(gè)決策過(guò)程, 還有一個(gè)切換的程度的問(wèn)題。采用手動(dòng)切換,可以將主動(dòng)權(quán)握在手里。 傳 統(tǒng) 磁盤遠(yuǎn)程 鏡 像的基本 概 念 傳統(tǒng)基 于磁 盤的鏡 像方 式是由 存儲(chǔ) 設(shè)備控 制通 過(guò)數(shù)據(jù) 通道 ,以邏 輯卷 為 基 本單位, 將 本地磁盤 陣 列上的數(shù) 據(jù) 鏡像到遠(yuǎn) 端 的同構(gòu)磁 盤 陣列上 比 如 IBM 的 PPRC 和 EMC 的 SRDF。 基于磁盤的鏡像功能傳統(tǒng)上提供 2 種工作方式,同步(左圖)和異步方式 (右圖): 在同步方式下 , 磁盤鏡像功能只有在本地和遠(yuǎn)程磁盤都完成寫操作后才會(huì)向 主機(jī)發(fā)回“ IO 完成”消息,以確保源卷和目的卷的數(shù)據(jù)徹底一致。 好處是: 可以保證數(shù)據(jù)不會(huì)丟失 可以保證數(shù)據(jù)的一致性 缺點(diǎn)是: 對(duì)網(wǎng)絡(luò)和距離要求很高:需要高帶寬和距離一般不能超越城域 對(duì)生產(chǎn)系統(tǒng)的性能影響也比較大 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 在異步工作方式下 , 磁盤鏡像功能能夠在遠(yuǎn)端更新未完成的情況下 , 只要本 地更新成功就可以向主機(jī)返回“寫成功”信號(hào)。 好處是: 對(duì)網(wǎng)絡(luò)和距離的要求非常低 對(duì)性能的影響非常小 壞處是: 數(shù)據(jù)一般情況下會(huì)丟失 普通異步方式無(wú)法保證 IO 的次序,所以在進(jìn)行異步操作時(shí),遠(yuǎn)程鏡 像卷始終處于異步造成 的 “不一 致 ” 狀態(tài) , 直 到所有數(shù) 據(jù) “全部傳遞 完畢”。如果應(yīng)用是 7*24 小時(shí)不間斷的,就無(wú)法達(dá)到數(shù)據(jù)“全部傳 遞完畢 ” 狀 態(tài) 。 所以 , 異步備份一般只用于數(shù)據(jù)移植 , 或 者和磁盤本 地鏡像結(jié)合,用于傳遞相對(duì) 靜止的數(shù)據(jù) 保 證 數(shù)據(jù)一致 性 的異步遠(yuǎn) 程 鏡像 為了同時(shí)利用同步的數(shù)據(jù)一致性優(yōu)勢(shì)和異步的性能/距離優(yōu)勢(shì) , 各個(gè)存儲(chǔ)廠 商都推出了一些能夠保證數(shù)據(jù)一致性的異步遠(yuǎn)程鏡像方式,主要是 IBM 的 PPRC GM 和 EMC 的 SRDF/A。 為了 100%的保證數(shù)據(jù)一致性和可用性 , 所有類似的技術(shù)都必須采用 3 份數(shù) 據(jù)的方式進(jìn)行操作(本地 1 份,遠(yuǎn)程 2 份 )。 IBM PPRC GM 的 工作方式 如 下: 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 工作方式如下(其中綠色為生產(chǎn)站點(diǎn)磁盤 ,橙色 和藍(lán)色 為容災(zāi)站點(diǎn)磁盤 ): 1. 綠色和橙色磁盤之間進(jìn)行 PPRC-XD 異步操作 2. 綠色磁盤組根據(jù)預(yù)先設(shè)置的時(shí)間,生成“一致性組 ”( Consistency Group),并記錄狀態(tài) 3. 采用 PPRC-XD 異步操作方式,將且只將“一致性組”記錄下來(lái)的數(shù)據(jù) 傳遞從綠色磁盤組傳遞到橙色磁盤組 4. 3 完成后,立刻將橙色磁盤組數(shù)據(jù) FlashCopy 到藍(lán)色磁盤組,進(jìn)行一 致性數(shù)據(jù)保留 5. 4 完成后,回到步驟 1 由于有“一致性組”的保護(hù),雖然采用 異步方式,一旦每一個(gè)“一致性組” 數(shù)據(jù)包傳遞成功的那一時(shí)刻 , 橙色磁盤組的數(shù)據(jù)是一致的 ; 由于步驟 4, 藍(lán)色磁 盤組將能夠保留最近一 次 “一致性完全 ” 的數(shù)據(jù) 。 一旦出現(xiàn)災(zāi)難 , 客戶丟失 的 是 兩次生成“一致性組”間隔之間的數(shù)據(jù)。 如果網(wǎng) 絡(luò)發(fā) 生故障, PPRC GM 會(huì) 等 待網(wǎng)絡(luò) 恢復(fù) ,重新 生成 “一致 性組 ”( 對(duì) 于經(jīng)歷的較長(zhǎng)時(shí)間網(wǎng)絡(luò)故障的系統(tǒng)而言 , 只是新 的 “一致性組 ” 中的數(shù)據(jù)會(huì)比較 大而已 ),繼續(xù)進(jìn)行 PPRC GM 的正常操作。 PPRC GM 能夠每 3 5 秒生成一 次 “一致性組 ”, 意味著客戶即使采用異步方 式 ,也有可能只丟失 3 5 秒的數(shù)據(jù)。 EMC SRDF/A 的 工作方式 如 下: 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 SRDF/A 使用“增量集”來(lái)短期維護(hù)一組寫入操作。增量集是 SRDF/A 所 提供的所有功能的基礎(chǔ)。 SRDF/A 使 用四 種 類 型 的增 量 集 來(lái) 管理 數(shù) 據(jù) 流 處理 過(guò) 程 。 SRDF/A 的 數(shù) 據(jù) 流可歸結(jié)為幾個(gè)步驟 : 源位置的增量集: 捕 獲 - 在 緩存 中 捕 獲 所有 傳 入 到 SRDF/A 組 所涉 及 的 源 卷 的寫 入 操 作。 完 成 此“ 捕 獲 增量 集 ” 后, 該 集 合中 的 寫 入操 作 將被“ 折 疊”, 并升 級(jí)為“ 傳 輸 增量集 ”, 同時(shí)開 始傳 輸其中 的內(nèi) 容 。( 然 后另外創(chuàng)建一個(gè)新的 捕獲增量集 ,來(lái)維護(hù)下一個(gè)寫入操作增 量 集 。) 傳 輸 - 將 內(nèi)容從 源系 統(tǒng)傳輸 到目 標(biāo)系統(tǒng) ,僅 傳輸最 近的 寫入操 作 集。 目標(biāo)位置的增量集: 接收 - 接收增量集位于目標(biāo)系統(tǒng)上 , 用于接收由源位置的 傳輸增 量集傳來(lái)的數(shù)據(jù) 。 接收到全部數(shù)據(jù)后 , 它將升級(jí)為 應(yīng)用增量集 。 應(yīng)用 - 將增量集中的寫入操作應(yīng)用到目標(biāo)卷,以創(chuàng)建一致的可重新 啟動(dòng)的遠(yuǎn)程拷貝。這就完成了增量集循環(huán)。 如果網(wǎng)絡(luò)發(fā)生故障 , 由于 SRDF/A 使用 “ 增量集 ” 存在于磁盤系 統(tǒng)的高速緩存 中,一 定時(shí) 間的故 障會(huì) 造成高 速緩 存溢出 ,此 時(shí)必須 中斷 SRDF/A,等待網(wǎng)絡(luò) 恢 復(fù)。從網(wǎng)絡(luò)故障到恢復(fù)之間的數(shù)據(jù)只能夠采用傳統(tǒng)的 SRDF 異步方式傳遞,為了 防止異步傳遞被異常中斷而造成對(duì)遠(yuǎn)程數(shù)據(jù)庫(kù)的破壞 , 在傳遞數(shù)據(jù)之前必須采用 TimeFinder 保護(hù)一下遠(yuǎn)程的數(shù)據(jù),然后才能夠繼續(xù)操作。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 4 容災(zāi)系統(tǒng)方案設(shè)計(jì) 4.1 上海移動(dòng)系統(tǒng)現(xiàn)狀 上海移動(dòng)目前主要有兩個(gè)生產(chǎn)機(jī)房 , 一個(gè)在欽州 , 一個(gè)在橫浜 , 業(yè)務(wù)分布如 下圖所示: 欽州路生產(chǎn)中心: 營(yíng)帳 、計(jì)費(fèi)、網(wǎng) 間結(jié) 算 、充 值 、 經(jīng) 營(yíng) 分 析 和 OnDemand 橫浜路生產(chǎn)中心: 1860客服 系 統(tǒng) 上海移動(dòng)目前的主要應(yīng)用系統(tǒng)均運(yùn)行在 AIX 433和 Oracle 8174下,部分業(yè)務(wù) 運(yùn)行在 AIX 5.1/5.2下,但數(shù)據(jù)庫(kù)依然為 oracle 8i;存儲(chǔ)設(shè)備有 IBM ESS 和 7133 也有 EMC存儲(chǔ)。部分產(chǎn)品將根據(jù)實(shí)際情況升級(jí),但不在本方案中具體涉及。 系統(tǒng) 主 機(jī) 設(shè)備 /地點(diǎn) 存 儲(chǔ) 設(shè)備 /地點(diǎn) 營(yíng)帳 S85x2/欽州 ,2004年 4季度將 F20/欽州 ,2004年 4季度 更新為 p5-570x2 將新增一臺(tái) ESS800,計(jì) 費(fèi)與營(yíng)帳的存儲(chǔ) 將分 開。 計(jì)費(fèi) S85x2/欽州 F20/欽州 1860 P650x2/橫浜 E20/ 橫浜 經(jīng)營(yíng)分析 P690x2/欽州 EMC/ 欽州 充值 p630x2/欽州 7133/欽州 采集 H85x1/欽州 F20/ 欽州 網(wǎng)間結(jié)算 M80x2/欽州 F20/橫浜 下面將會(huì)對(duì)這些系統(tǒng)的容災(zāi)方案進(jìn)行具體闡述。 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 4.2 容災(zāi)架構(gòu)整體設(shè)計(jì) 容 災(zāi) 系統(tǒng)總體 架 構(gòu)設(shè)計(jì) 綜合以上要求 , 我們實(shí)際如下的容災(zāi)系統(tǒng)整體架構(gòu) , 在這個(gè)架構(gòu)中 , 對(duì)實(shí)時(shí) 性恢復(fù)要求高的核心業(yè)務(wù) 的數(shù)據(jù)庫(kù) , 我們考慮了兩層容災(zāi)設(shè)計(jì) 。 這里的核心業(yè)務(wù) 我們認(rèn)為是營(yíng)帳數(shù)據(jù)庫(kù) , 充值數(shù)據(jù)庫(kù)和 1860數(shù)據(jù)庫(kù) 。 對(duì)于計(jì)費(fèi) , 經(jīng)營(yíng)分析 , 網(wǎng) 間 結(jié)算,批價(jià)等,我們考慮存儲(chǔ)層的容災(zāi)。 由于從實(shí)際業(yè)務(wù)中 , 以下具體應(yīng)用模塊和數(shù)據(jù)庫(kù)是關(guān)鍵性的 , 所以單獨(dú)對(duì)這 些模塊進(jìn)行進(jìn)一步說(shuō)明 。 由于 BOSS 1.5的具體稱呼有些變化 , 但鑒于目前為止改 造項(xiàng)目并沒(méi)有實(shí)施完成 , 所以 , 我們主要從數(shù)據(jù)庫(kù)和數(shù)據(jù)一層考慮業(yè)務(wù)的具體特 性和容災(zāi)方式。 營(yíng) 帳 系統(tǒng) 營(yíng)帳系統(tǒng)是移動(dòng)業(yè)務(wù)中的核心系統(tǒng) , 實(shí)時(shí)性要求高 , 對(duì)于容災(zāi)系統(tǒng)的要求也 是最高 , 所以在此我 們考慮使用數(shù)據(jù)庫(kù)備份模式加上存儲(chǔ)層數(shù)據(jù)鏡像模式 。 使用 業(yè)界成熟流行的數(shù)據(jù)庫(kù)實(shí)時(shí)抽取技術(shù)或者 standby database技術(shù) , 在生產(chǎn)中心隨 時(shí)保留一個(gè)與生產(chǎn)庫(kù)基本同步的數(shù)據(jù)庫(kù) , 該數(shù)據(jù)庫(kù)是處于 open狀態(tài)的 。 這樣可以 在發(fā)生數(shù)據(jù)庫(kù)邏輯可以快速接管 。 這種方案的缺點(diǎn)是可能會(huì)有一些數(shù)據(jù)需要在事 后進(jìn)行補(bǔ)錄,但丟失的數(shù)據(jù)是非常少的。具體容災(zāi)架構(gòu)如下圖: 知識(shí)水壩(豆丁網(wǎng) pologoogle)為您傾心整理(下載后雙擊刪除) 百度一下 知識(shí)水壩 營(yíng)帳系統(tǒng)容災(zāi)架構(gòu)圖 所有營(yíng)帳數(shù)據(jù)庫(kù)里的數(shù)據(jù)都會(huì)通過(guò)存儲(chǔ)層的方案鏡像到金橋中心。 本 地通過(guò)數(shù)據(jù)抽取另生成一個(gè) active的數(shù)據(jù)庫(kù),與源數(shù)據(jù)庫(kù)近乎同步, 一旦需要,可立即將應(yīng)用切換過(guò)來(lái)。如果本地有兩個(gè)物理存儲(chǔ),考慮到 高可用性,可以將抽取出來(lái)的數(shù)據(jù)放到另外一個(gè)存儲(chǔ)設(shè)備上。 目前計(jì)劃進(jìn)行營(yíng)帳系統(tǒng)“瘦身”計(jì)劃,擬將目前營(yíng)帳數(shù)據(jù)庫(kù)中的歷史庫(kù) 剝離開,營(yíng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論