集團云數(shù)據(jù)中心災備體系規(guī)劃設計_第1頁
集團云數(shù)據(jù)中心災備體系規(guī)劃設計_第2頁
集團云數(shù)據(jù)中心災備體系規(guī)劃設計_第3頁
集團云數(shù)據(jù)中心災備體系規(guī)劃設計_第4頁
集團云數(shù)據(jù)中心災備體系規(guī)劃設計_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、PAGE 集團云數(shù)據(jù)中心災備體系規(guī)劃設計目錄 TOC o 1-3 h z u HYPERLINK l _Toc47297762 1前言 PAGEREF _Toc47297762 h 2 HYPERLINK l _Toc47297763 1.1背景 PAGEREF _Toc47297763 h 2 HYPERLINK l _Toc47297764 1.2文檔目的 PAGEREF _Toc47297764 h 2 HYPERLINK l _Toc47297765 1.3適用范圍 PAGEREF _Toc47297765 h 2 HYPERLINK l _Toc47297766 1.4參考文檔 PA

2、GEREF _Toc47297766 h 2 HYPERLINK l _Toc47297767 2容災 PAGEREF _Toc47297767 h 3 HYPERLINK l _Toc47297768 2.1災備的概念 PAGEREF _Toc47297768 h 3 HYPERLINK l _Toc47297769 2.2相關(guān)標準及考量依據(jù) PAGEREF _Toc47297769 h 4 HYPERLINK l _Toc47297770 2.3災備體系建設 PAGEREF _Toc47297770 h 7 HYPERLINK l _Toc47297771 2.4集團災備規(guī)劃 PAGERE

3、F _Toc47297771 h 9前言背景集團信息中心中心引入日趨成熟的云計算技術(shù),建設面向全院及國網(wǎng)相關(guān)單位提供云計算服務的電力科研云,支撐全院各個單位的資源供給、數(shù)據(jù)共享、技術(shù)創(chuàng)新等需求。實現(xiàn)云計算中心資源的統(tǒng)一管理及云計算服務統(tǒng)一提供;完成云計算中心的模塊化設計,逐漸完善云運營、云管理、云運維及云安全等模塊的標準化、流程化、可視化的建設;是本次咨詢規(guī)劃的主要考慮。文檔目的本文檔為集團云計算咨詢項目的咨詢設計方案,將作為集團信息中心云計算建設的指導性文件和依據(jù)。適用范圍本文檔資料主要面向負責集團信息中心云計算建設的負責人、項目經(jīng)理、設計人員、維護人員、工程師等,以便通過參考本文檔資料指導

4、集團云計算數(shù)據(jù)中心的具體建設。參考文檔集團云計算咨詢項目訪談紀要信息安全技術(shù)信息系統(tǒng)安全等級保護基本要求(GB/T 22239-2008)信息系統(tǒng)災難恢復規(guī)范(GB/T20988-2007)OpenStack Administrator Guide( HYPERLINK / /)OpenStack High Availability Guide( HYPERLINK / /)OpenStack Operations Guide( HYPERLINK / /)OpenStack Architecture Design Guide( HYPERLINK / /)容災災備的概念災備是由計劃和執(zhí)行過程

5、組成的策略,其目的是為了保證企業(yè)包括生產(chǎn)、銷售、市場、財務、管理以及其他各種重要的功能完全在內(nèi)的運營狀況百分之百可用??梢赃@樣說,業(yè)務連續(xù)性是覆蓋整個企業(yè)的技術(shù)以及操作方式的集合,其目的是保證企業(yè)信息流在任何時候以及任何需要的狀況下都能保持業(yè)務連續(xù)運行。據(jù)IDC在2000年的統(tǒng)計數(shù)字表明,美國在2000年以前的10年間因為各種威脅原因造成業(yè)務中斷災難事故的公司中,有55%當時倒閉。剩下的45%中,因為數(shù)據(jù)丟失,有29%也在兩年之內(nèi)倒閉,生存下來的僅占16%。 而隨著企業(yè)對數(shù)據(jù)處理依賴程度的遞增,此比例還有上升的趨勢。當人們看到以摩根斯坦利公司為代表的有著完善容災措施保證業(yè)務連續(xù)性的一批金融企業(yè)

6、在“9.11”事件后用很短的時間恢復正常運作,將損失降到最小,而在事件發(fā)生前350家在世貿(mào)大廈工作的企業(yè)中,有200多家企業(yè)由于重要系統(tǒng)的破壞,關(guān)鍵數(shù)據(jù)的丟失,缺乏業(yè)務連續(xù)性保證的措施而永遠的關(guān)閉、消失。業(yè)務連續(xù)性保障的重要性為人們所矚目。災難不僅指自然的原因,如火災、地震、恐怖襲擊等小概率、大影響的災難,也包括人為的原因,如人員錯誤,流程缺陷等事件的威脅。對于信息系統(tǒng)的連續(xù)性運行來說,災難的范圍很寬泛,任何必須恢復的數(shù)據(jù)訪問中斷都是災難。而容災是一個系統(tǒng)工程,從廣義上來說,所有與業(yè)務連續(xù)性相關(guān)的內(nèi)容都屬于容災的范疇。從狹義的角度,我們平常所談論的容災是指除了生產(chǎn)站點以外,用戶另外建立的冗余站

7、點,當災難發(fā)生,生產(chǎn)站點受到破壞時,冗余站點可以接管用戶正常的業(yè)務,達到業(yè)務盡量不間斷的目的,減少客戶的損失。但是,業(yè)務連續(xù)性并不是指業(yè)務永遠不中斷,它更強調(diào)業(yè)務在災難發(fā)生時快速的恢復能力。不僅要使業(yè)務功能在災難后能得到全面恢復,還要確保關(guān)鍵業(yè)務功能在中斷或災難事件中,能夠迅速地恢復持續(xù)運行。相關(guān)標準及考量依據(jù)隨著災難恢復業(yè)務的持續(xù)發(fā)展,國際和國內(nèi)均制定了一些有關(guān)災難恢復的標準。其中,國際上得到最廣泛承認和使用的標準是SHARE78,而我國國信辦出臺的信息安全技術(shù)信息系統(tǒng)災難恢復規(guī)范。兩個標準在劃分等級的個數(shù)上有所不同,如在國際標準SHARE78里,容災系統(tǒng)被分為7個等級;而國信辦的信息安全技

8、術(shù)信息系統(tǒng)災難恢復規(guī)范里,容災系統(tǒng)被分為6個等級,但是兩個標準的內(nèi)容基本一致。信息系統(tǒng)災難恢復標準SHARE78(國際標準)描述GB/T 20988-2007信息系統(tǒng)災難恢復規(guī)范Tier 0,沒有異地數(shù)據(jù)即沒有任何異地備份或應急計劃。數(shù)據(jù)在本地進行備份恢復,沒有數(shù)據(jù)送往異地。第一級,基本支持Tier 1,PTAM卡車運送訪問方式必須設計一個應急方案,能夠備份所需的信息并存儲在異地。PTAM指將本地備份的數(shù)據(jù)用交通工具送到異地。Tier 2,PTAM卡車運送訪問方式+熱備份中心Tier 1加上熱備份中心,熱備份中心有足夠的硬件和網(wǎng)絡設備支撐關(guān)鍵應用。第二級,備用場地支持Tier 3,電子鏈接Ti

9、er 2基礎(chǔ)上通過電子鏈路取代了卡車進行數(shù)據(jù)傳送的方式,熱備中心保持運行狀態(tài)。第三級,電子傳輸及部分設備支持Tier 4,活動狀態(tài)備份中心兩個中心同時處于活動狀態(tài),并同時相互備份。工作負載可在兩個中心分擔。第四級,電子傳輸及完整設備支持Tier 5,兩個活動數(shù)據(jù)中心,確保數(shù)據(jù)一致性保證數(shù)據(jù)完整性和一致性,兩數(shù)據(jù)中心的數(shù)據(jù)被同時更新(同步),災難時僅需要補回傳送中的丟失數(shù)據(jù)即可。第五級,實時數(shù)據(jù)傳輸及完整設備支持Tier 6,數(shù)據(jù)零丟失,自動系統(tǒng)故障切換零數(shù)據(jù)丟失,是災難恢復的最高級別,數(shù)據(jù)在兩中心被更新,利用雙重在線存儲和安全的網(wǎng)絡切換能力,提供快站點動態(tài)負載分擔和自動故障切換。第六級,數(shù)據(jù)零

10、丟失和遠程集群支持業(yè)務連續(xù)性主要關(guān)注的是IDC出現(xiàn)故障后能否以很短的時間恢復正常運行,是否能對核心業(yè)務的影響減輕到最小。因此,業(yè)務連續(xù)性考量的幾個關(guān)鍵指標是RTO、RPO和ROI。RTO (Recovery Time Objective)是恢復時間目標,是發(fā)生災難后,恢復業(yè)務系統(tǒng)環(huán)境的時間。表示完成應用(及其相關(guān)業(yè)務流程)并保證技術(shù)組件恢復到能夠正常執(zhí)行事務處理或業(yè)務職能的最長時間,即能夠接受的業(yè)務停機時間。理論上恢復的時間越短,損失就越小。但是,RTO 并不意味著“100%恢復”,它通常指的是降級處理模式(例如減少容量,降低性能)。RPO(Recovery Point Objective)是

11、恢復點目標,是發(fā)生災難前后一次數(shù)據(jù)備份的時間,也就是指某個時刻,應用數(shù)據(jù)必須恢復到這個時刻才能繼續(xù)執(zhí)行事務處理。它規(guī)定了需要將信息恢復到哪個數(shù)據(jù)流點,或者說,企業(yè)能夠忍受丟失多少數(shù)據(jù)。理論上丟失的數(shù)據(jù)越少,損失就越小。ROI(Return On Investment )是指用戶的投資回報。業(yè)務連續(xù)性有不同的解決方案,可以滿足不同的RTO和RPO標準,相應的成本也不同。業(yè)務連續(xù)性性能指標圖國標中對于容災的各個等級中RTO/RPO沒有硬性定義,但是依據(jù)業(yè)內(nèi)經(jīng)驗RTO/RPO和等級的對應關(guān)系示例如下:RTO/RPO和等級對應關(guān)系表災備等級RTORPO第1級2天以上1天至7天第2級24小時以上1天至7

12、天第3級12小時以上數(shù)小時至1天第4級數(shù)小時至2天數(shù)小時至1天第5級數(shù)十分鐘至數(shù)小時0至30分鐘第6級數(shù)分鐘至數(shù)小時0中國信息安全測評中心對災難恢復等級做了更細化的解讀,從數(shù)據(jù)備份系統(tǒng)、 備用數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡系統(tǒng)、備用基礎(chǔ)設施、 技術(shù)支持、運行維護支持以及災難恢復預案各個方面做了明確的要求,具體要求見下表災備等級一級要求符合列表災備等級二級要求符合列表災備等級三級要求符合列表災備體系建設災備體系的規(guī)劃建設主要包括兩部分,一部分是業(yè)務連續(xù)性體系的建立,一部分是體系驗證階段。業(yè)務連續(xù)性體系的建立業(yè)務連續(xù)性體系的建立主要分為三個步驟:分析、設計和實施。災難恢復需求分析:主要包括災難分析、業(yè)務影

13、響分析和業(yè)務現(xiàn)狀及災備能力分析。分析IT基礎(chǔ)架構(gòu)和業(yè)務的現(xiàn)狀,包括絡架構(gòu)、數(shù)據(jù)存儲架構(gòu)、數(shù)據(jù)處理系統(tǒng)架構(gòu)、數(shù)據(jù)備份系統(tǒng)架構(gòu)等,了解對信息系統(tǒng)構(gòu)成潛在破壞的可能性因素,對現(xiàn)有的安全措施進行評估,評估現(xiàn)有措施的限制,確認需求與實際的差異分析,識別面臨的潛在風險點。策略和架構(gòu)設計,包括:設計體系化的災備方案。包括災備中心布局和定位,建設的范圍、指標和等級,技術(shù)實現(xiàn)方案的選擇,信息系統(tǒng)災難恢復組織的建設,以及災備中心的運營管理;制定災難恢復的策略和建設規(guī)劃。確定系統(tǒng)恢復的優(yōu)先級和恢復目標,災難恢復系統(tǒng)的建設路線、工作內(nèi)容、負責的部門以及時間計劃。災難技術(shù)方案的實施則包括三部分內(nèi)容:技術(shù)實施工作計劃和方

14、案制定。制定災備技術(shù)架構(gòu)建設的工作計劃,明確實施的要點及里程碑;制定災備技術(shù)實施方案,以指導后續(xù)的設備安裝、調(diào)試、以及綜合測試工作。技術(shù)實施與測試階段。各廠商按照實施計劃和方案要求,進場進行設備安裝、調(diào)試以及綜合測試工作。技術(shù)操作手冊等文檔的制定。在技術(shù)實施過程中,各廠商技術(shù)人員按照要求準備各自專項的技術(shù)操作和維護手冊等文檔。體系驗證階段體系驗證階段主要包括:災難恢復預案咨詢:包括應急及災難恢復組織架構(gòu),災難事件發(fā)生時的應急響應策略和流程設計,以及災難恢復和重續(xù)運行的恢復流程設計。災備中心運維管理體系規(guī)劃:包括災備中心組織架構(gòu)及崗位職責設計,災備中心運維管理流程規(guī)劃及相關(guān)制度模版。災難恢復演練

15、:包括演練方案設計、演練前的技術(shù)測試、演練環(huán)境準備、演練培訓、演練實施的組織、演練應急的組織與協(xié)調(diào),以及演練總結(jié)報告。集團災備規(guī)劃建設分布式多數(shù)據(jù)中心是提高業(yè)務連續(xù)性的重要手段,業(yè)內(nèi)建設多中心的模式一般有如下四種:模式一:建設同城災備中心。這種模式下生產(chǎn)中心和災難備份中心距離比較近,比較容易實現(xiàn)數(shù)據(jù)的同步鏡像,可以保證數(shù)據(jù)完整性和數(shù)據(jù)零丟失。同城災備中心可以防范火災、建筑物破壞等可能遭遇的風險隱患,但對于戰(zhàn)爭、地震、水災等隱患力不從心。模式二:異地備份中心。這種模式下生產(chǎn)中心和備份中心跨城域,距離比較遠。可以通過異步鏡像/復制備份數(shù)據(jù),但是無法保證數(shù)據(jù)零丟失。如果遠距離同步鏡像,則交易效率太低

16、、通信成本太高。模式三:兩地三中心。兩地三中心的建設模式結(jié)合了“同城異地”的優(yōu)點,在異地備份中心具有完整的災難接管能力的情況下,建立同城備份站點,可使同城災備中心具有應用接管能力,也可以讓同城災備中心只是一個同步數(shù)據(jù)鏡像站點。模式四:兩級多中心。總部與區(qū)域兩級架構(gòu),總部級數(shù)據(jù)中心互為主備,同時做為區(qū)域級中心的異地容災中心,區(qū)域級數(shù)據(jù)中心作為生產(chǎn)中心,共享總部級異地災備,保證災難接管的能力,同時降低成本??绯怯蜻h距離容災,異步復制/鏡像數(shù)據(jù)級無法保證數(shù)據(jù)零丟失,同步鏡像成本高。建議應先建立災備中心,再逐步推進到雙活,“兩地三中心”提高了業(yè)務連續(xù)性保障,是當前大部分企業(yè)最主要的建設模式,集團當前已

17、具備建設多中心的物理基礎(chǔ)條件。集團各中心的功能劃分如下:北京昌平做為作為清河的同城災備中心,武漢、南京2個資源池數(shù)據(jù)備份到清河中心;南京作為北京異地災備中心; 昌平災備中心和清河生產(chǎn)中心在資源的投入上基本上是0.X:1,災備中的資源要小于生產(chǎn)中心。只有當生產(chǎn)中心不可用時,災備中心臨時接管生產(chǎn)業(yè)務,當生產(chǎn)中心恢復后,生產(chǎn)業(yè)務從災備中心回切到生產(chǎn)中心;未來發(fā)展至雙活數(shù)據(jù)中心時,部分需要雙活的業(yè)務可以在清河和昌平跨中心雙活部署;南京和武漢需要在本地備份數(shù)據(jù),當本地無法恢復業(yè)務時,才考慮在北京清河接管業(yè)務;隨著業(yè)務規(guī)模的擴大,集團在行業(yè)內(nèi)的影響力會越來越大,業(yè)務宕機所帶來的經(jīng)濟損失和社會輿論壓力將會大大影響企業(yè)在行業(yè)內(nèi)的領(lǐng)導力。當業(yè)務能力達到這樣一個水平時,需要考慮針對重要的業(yè)務建設應用級災備,保障業(yè)務的連續(xù)運行能力。應用級災備主要通過在多個中心同時部署同一業(yè)務,當一個數(shù)據(jù)中心

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論