機房搬遷服務搬遷方案總體設計_第1頁
機房搬遷服務搬遷方案總體設計_第2頁
機房搬遷服務搬遷方案總體設計_第3頁
機房搬遷服務搬遷方案總體設計_第4頁
機房搬遷服務搬遷方案總體設計_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一節(jié)搬遷方案設計的原則 2一、保證業(yè)務連續(xù)性,合理規(guī)劃停機時間 2二、周密部署、科學論證、步驟可行 3三、分步實施、分工明確、協(xié)調運作 3四、確保應用和數(shù)據(jù)的可靠性、安全性和一致性 3第二節(jié)系統(tǒng)搬遷方法論 4一、風險分析 5二、業(yè)務影響分析 10三、制定搬遷整體規(guī)劃 15四、系統(tǒng)梳理與健康檢查 18第三節(jié)制定系統(tǒng)搬遷與應急方案 21一、制定系統(tǒng)搬遷方案 21二、搬遷過程中的工具(表格、文檔等) 25三、分工界面定義 29四、搬遷與應急方案演練 29五、搬遷前準備 30六、拆卸、包裝、運輸與安裝 30七、系統(tǒng)恢復與健康檢查 32八、設備維護與保修服務 33第四節(jié)搬遷的工程設計與實施方法 33一、項目管理 33二、總體方案規(guī)劃 34三、總體方案設計 35四、詳細方案設計 36五、方案實施階段 38六、項目維護階段 39七、項目驗收 39第五節(jié)整體搬遷方案設計 39一、搬遷次序設計 40二、搬遷環(huán)境的準備 41三、備份 42四、網(wǎng)絡出口數(shù)據(jù)割接 63第一節(jié)搬遷方案設計的原則在數(shù)據(jù)中心搬遷項目中,我們將按照以下原則設計搬遷方案并完成搬遷工作。一、保證業(yè)務連續(xù)性,合理規(guī)劃停機時間鑒于搬遷項目的關鍵性,為了在整個項目期間保證各種應用服務的連續(xù)可用性指標,我們在方案設計中最大限度地采用多種高可靠性與可用性保證措施。對于用戶方,保證最少的停機時間從而減少業(yè)務停頓的影響具有深遠的意義。為此,我們在方案設計中,為每項和業(yè)務停頓有關的任務制定時間指標,并采取優(yōu)化措施來盡量縮短每個任務占用的時間。二、周密部署、科學論證、步驟可行在本項目的整個周期內中,我們采用機房搬遷可借鑒的國際最佳實踐,即業(yè)務連續(xù)性計劃(業(yè)務安全),從搬遷的規(guī)劃、設計、實施到維護都在科學的指導下進行,而不是依賴少數(shù)專家的個人經驗。這些業(yè)務安全方法論和具體的搬遷方法都經過了實踐的考驗,經歷了從實踐到理論,再由理論指導實踐的過程,完全能夠稱得上周密部署、科學論證、步驟可行。三、分步實施、分工明確、協(xié)調運作按照業(yè)務安全最佳實踐,我們將機房搬遷項目自上而下地劃分為樹狀結構的任務,并明確定義了每個任務執(zhí)行的優(yōu)先級順序和任務之間串行或并行執(zhí)行的順序,可謂在科學的指導下進行任務細化和分步實施。按照業(yè)務安全最佳實踐,結合甲方在招標書中的分工界面要求,我們開發(fā)了機房搬遷項目的組織架構,并定義了角色職責。我們提供的組織架構定義方法是科學的、經過實踐檢驗了的方法,而不是依賴項目經理的個人經驗。按照業(yè)務安全最佳實踐,對機房搬遷的任務,我們使用面向對象的技術從宏觀到微觀地定義每個任務。從項目各階段的框架性任務,到每個搬遷團隊成員執(zhí)行的每個操作步驟,都是在可控的條件下進行的,能夠做到有條不紊。四、確保應用和數(shù)據(jù)的可靠性、安全性和一致性我們在方案設計中最大限度地采用多種高可靠性與可用性保證措施,保證關鍵應用及其構成組件的可靠性、安全性。我們采用專門的數(shù)據(jù)備份策略保證數(shù)據(jù)的完整性和一致性。第二節(jié)系統(tǒng)搬遷方法論根據(jù)我公司實施多個系統(tǒng)搬遷項目的成功經驗,結合BCM的方法論的指導,我們將系統(tǒng)搬遷工作分為四個階段。如下圖:系統(tǒng)分析階段風險分析業(yè)務影響分析制定搬遷整體規(guī)劃搬遷方案設計階段系統(tǒng)梳理與健康檢查制定系統(tǒng)搬遷與應急方案搬遷與應急方案演練搬遷實施階段搬遷前準備拆卸、包裝、運輸、安裝系統(tǒng)恢復與健康檢查后續(xù)服務系統(tǒng)運行情況跟蹤設備維護與保修服務系統(tǒng)分析階段:系統(tǒng)分析階段主要包括風險分析和業(yè)務影響分析,以及制定搬遷整體規(guī)劃三個步驟,其主要目的是識別系統(tǒng)搬遷過程中的主要風險,提出規(guī)避與轉移風險的方法。找出系統(tǒng)搬遷對主要業(yè)務的影響以及業(yè)務系統(tǒng)間的依賴關系,規(guī)劃系統(tǒng)搬遷的優(yōu)先順序,確定達到系統(tǒng)持續(xù)目標所需要的資源。搬遷方案設計階段:搬遷方案設計階段主要包括系統(tǒng)梳理與健康檢查、制定系統(tǒng)搬遷方案和應急方案,以及搬遷方案和應急方案的演練三的步驟。其主要目的是嚴格確定各系統(tǒng)的范圍,明確系統(tǒng)當前的健康狀態(tài),明確系統(tǒng)搬遷的主要步驟,明確協(xié)作各方的工作與責任,制定各種意外情況下的應急預案,確保搬遷方案的可執(zhí)行。搬遷實施階段:搬遷實施階段的主要目的是完成系統(tǒng)搬遷前的一切準備,完成從關閉應用到應用重新啟動的完整搬遷過程。后續(xù)服務階段:后續(xù)服務階段的主要目的是尚未長時間穩(wěn)定運行的系統(tǒng)提供細致的跟蹤保障工作,確保系統(tǒng)順利過渡到穩(wěn)定運行狀態(tài)。除以上內容外,在系統(tǒng)搬遷過程中還包括系統(tǒng)搬遷項目相關的組織機構的建設(如成立搬遷指導委員會做為最高領導機構)、搬遷過程中的溝通計劃、項目管理與控制等重要內容。一、風險分析風險分析是系統(tǒng)搬遷工作的第一步。它標識存在的風險、標識與IT系統(tǒng)生命周期(SDLC)關聯(lián)的風險,找出系統(tǒng)的薄弱環(huán)節(jié)。風險分析的輸出作為風險轉移階段的輸入。風險分析包括9個步驟,分別描述如下。第一步:獲取系統(tǒng)相關信息1.任務確定評估范圍,明確系統(tǒng)邊界、資源及組成,明確風險的受體。2.方法(1)IT風險分析的信息采集方法(2)IT模型定義的方法第二步:識別威脅1.任務標識可能發(fā)生的威脅。2.方法威脅并不一定代表風險的發(fā)生。決定風險的可能性必須考慮3個因素:威脅源、系統(tǒng)的薄弱環(huán)節(jié)、已經存在的預防措施。第三步:標識系統(tǒng)薄弱環(huán)節(jié)1.任務標識系統(tǒng)薄弱環(huán)節(jié)。2.方法標識薄弱源、執(zhí)行系統(tǒng)安全測試、生成系統(tǒng)安全檢查項列表。第四步:分析預防措施1.任務分析組織已經采用的或者計劃采用的預防措施,這些預防措施將用來減輕、消除威脅源利用系統(tǒng)薄弱環(huán)節(jié)的可能性。2.方法獲得系統(tǒng)薄弱環(huán)節(jié)在威脅環(huán)境中被利用的幾率,必須考慮當前的和計劃的預防措施。第五步:決定風險發(fā)生的幾率1.任務:標識風險發(fā)生的幾率2.方法:獲得在威脅環(huán)境中薄弱環(huán)節(jié)被利用從而發(fā)生風險的幾率,必須考慮以下首要的因素:(1)威脅源的動機和能力;(2)薄弱環(huán)節(jié)的屬性;(3)當前預防措施是否存在、是否有效。第六步:風險影響分析1.任務:標識風險的影響。2.方法:測量風險級別的重要步驟是決定風險發(fā)生后造成的負面影響。開始影響分析之前,獲得以下信息是非常必要的:(1)系統(tǒng)執(zhí)行的業(yè)務;(2)系統(tǒng)和數(shù)據(jù)的重要性(系統(tǒng)的價值和對組織的重要性);(3)系統(tǒng)和數(shù)據(jù)的敏感度。風險對業(yè)務的影響(這些影響的分析就是BIA)重要于風險對IT系統(tǒng)資源的影響。如果還沒有對IT系統(tǒng)資源進行評估,系統(tǒng)和數(shù)據(jù)的敏感度取決于系統(tǒng)和數(shù)據(jù)的可用性、完整性和機密性的保護程度。系統(tǒng)和信息負責人應該決定不同風險對他們負責的系統(tǒng)和數(shù)據(jù)的影響級別。和系統(tǒng)和信息負責人會面是分析系統(tǒng)和數(shù)據(jù)影響的好辦法。因此,一個安全事件的負面影響可以描述為以下三個安全目標的任意組合:完整性、可用性、機密性。完整性丟失,導致數(shù)據(jù)被篡改或破壞,如果不被及時修復,后續(xù)任務會出現(xiàn)不準確、虛假、錯誤的決定。會影響IT系統(tǒng)的可信度。可用性丟失,會導致任務不能執(zhí)行,減少生產時間,阻礙用戶的活動。機密性丟失,會導致國家安全的危險,公眾信心的喪失,觸發(fā)法律問題。有些影響可以根據(jù)損失、恢復代價、修正代價來定量分析;有些影響只能定性分析,分為高、中、低三個級別。通常,我們采用定性分析,一般將風險對業(yè)務的影響定義為高、中、低三個級別,如下表所示:低中高可用性服務受到周期性的損害服務受到嚴重損害服務根本不可用持續(xù)時間服務停頓時間少于半天服務停頓時間長于半天,少于3天服務停頓時間大于3天范圍影響數(shù)個單獨的個體一個業(yè)務功能受到影響多個業(yè)務功能受到影響定性和定量分析各有其優(yōu)缺點。在決定影響幅度的時候,應該不限于考慮以下因素:①評估危險源在某個指定時間段利用薄弱環(huán)節(jié)的頻度;②評估每個危險源利用薄弱環(huán)節(jié)后的大致花費;③每個危險源利用薄弱環(huán)節(jié)的相對權重定義。第七步:決定風險級別1.任務標識風險的級別。2.方法評估風險的級別必須考慮以下因素:(1)危險源利用系統(tǒng)薄弱環(huán)節(jié)的幾率;(2)危險源利用系統(tǒng)薄弱環(huán)節(jié)的影響大?。唬?)防止或減弱危險源利用系統(tǒng)薄弱環(huán)節(jié)的已有的或者計劃的預防措施。風險級別是風險發(fā)生的幾率乘于風險的影響。我們假定風險發(fā)生的幾率從1到0,1是高,0.5是中,0.1是低;我們假定風險的影響從100到0,100是高,50是中,10是低;劃分風險發(fā)生的幾率和風險的影響的粒度可以在風險分析的執(zhí)行過程中進一步調整。第八步:預防措施建議1.任務:提供最適合用戶組織的預防措施,用于轉移或消減風險級別矩陣中已經標識出的風險,從而降低風險級別,降低后的風險級別是系統(tǒng)和數(shù)據(jù)可以接受的風險級別。2.方法:在建議預防措施和可選方案用于轉移或消減已經標識的風險時,考慮以下因素:(1)建議的預防措施的有效性;(2)法律和法規(guī)的要求;(3)用戶組織的政策要求;(4)對操作的影響(系統(tǒng)性能影響、用戶可接受程度);(5)安全性和可靠性要求。預防措施建議是風險分析過程的結果,預防措施建議作為風險轉移過程的輸入,在風險轉移過程中建議的預防措施得到再次評估、優(yōu)化、執(zhí)行。并非全部的建議的預防措施得到執(zhí)行,還需要進行成本效益的分析。二、業(yè)務影響分析業(yè)務影響分析的主要目的是找出系統(tǒng)搬遷對主要業(yè)務的影響以及業(yè)務系統(tǒng)間的依賴關系,確定達到系統(tǒng)持續(xù)目標所需要的資源。業(yè)務影響分析模塊的規(guī)格指標:第一步:數(shù)據(jù)采集辦法:1.通過問卷采集數(shù)據(jù);2.通過訪談進行數(shù)據(jù)收集;3.通過會議進行數(shù)據(jù)收集;4.通過已有文檔進行數(shù)據(jù)收集。第二步:業(yè)務分析1.任務(1)明確關鍵業(yè)務功能及支持關鍵業(yè)務功能的資源、明確業(yè)務流程;(20分析和關鍵業(yè)務功能有關的各業(yè)務流程之間的相互依賴關系;(3)分析與和關鍵業(yè)務功能的業(yè)務流程有密切聯(lián)系的其他業(yè)務子系統(tǒng)及相關部門、機構之間的相互依賴關系;分析在風險發(fā)生時,為保證核心業(yè)務的連續(xù),對于這些子系統(tǒng)及其相關部門資源的依賴和需求;(4)定義恢復時間指標RTO和恢復時間點目標RPO。2.方法業(yè)務系統(tǒng)的各子系統(tǒng)之間一般以功能邊界劃分,業(yè)務核心子系統(tǒng)是業(yè)務系統(tǒng)中的一個或若干子系統(tǒng)。每個業(yè)務子系統(tǒng)通過一個或者若干業(yè)務功能實現(xiàn)。業(yè)務過程是一套能夠給顧客帶來某種價值的連續(xù)的活動(一段信息流或/和一段物流活動),一個業(yè)務過程可能貫穿多個業(yè)務子系統(tǒng),并通常包括多個功能;業(yè)務過程并不總是可見的;直接分析業(yè)務核心功能是非常有效的分析方式;每個子系統(tǒng)可能執(zhí)行一個或者多個核心功能;在分析某個功能中斷后造成的影響時,理解這些核心功能和最終顧客的關系是非常關鍵的;下面的方法用于理解核心功能和業(yè)務流程:(1)檢查、回顧相關文檔,理解用戶組織的結構和意圖;(2)和用戶的業(yè)務部門、技術部門、信息中心等核心人員進行面談,獲取業(yè)務情況的一手信息。詳細進行會談準備,通過一次交流獲得業(yè)務分析、運營影響、財務及非財務影響的所有信息;(3)根據(jù)上面獲得的信息進一步完善業(yè)務流程圖。這些流程圖將描述每一個核心業(yè)務功能,并描述作為過程輸入輸出的信息及服務的流程,顧客也作為流程中的一個環(huán)節(jié)。(4)描述基本支持功能。有些子系統(tǒng)為許多其他子系統(tǒng)提供基本支持功能,例如LDAP功能。當生成和執(zhí)行恢復計劃時,這些信息是非常重要的;(5)生成一個核心功能矩陣,描述業(yè)務子系統(tǒng)核心功能之間的關系;(6)確認理解了各業(yè)務子系統(tǒng)及其核心功能、業(yè)務流程、相關的管理。3.提交物(1)與核心功能有關的文檔;(2)非核心功能的流程描述;(3)業(yè)務功能分類及描述。第三步:運營影響分析1.任務(1)標識和書面化化每個風險對每個業(yè)務功能的關聯(lián)影響;(2)書面化核心功能之間的關系,資源和組織機構之間的依賴關系;(3)書面化每個風險事件造成的公共影響。2.方法運營分析包括以下步驟:(1)采集信息,獲取與所有核心功能相關的每個風險事件對組織機構及公共的關聯(lián)影響;(2)分析和每個核心功能相關的信息。決定每個業(yè)務功能的MAO(可接受的最大損耗)、標識每個業(yè)務功能的組織依賴關系、標識每個業(yè)務功能的資源依賴關系;(3)為所有核心功能相關的信息生成提交件。包括:與所有核心功能相關的每個風險事件對組織機構及公共的關聯(lián)影響,組織依賴關系列表,資源依賴關系列表;(4)可以通過和每個業(yè)務子系統(tǒng)關鍵負責人員訪談來采集信息。三個基本的風險事件是應用失效、存取失效、設施失效。(5)應該為參與訪談者提供測量業(yè)務功能關鍵程度的例子。如果某個業(yè)務功能出現(xiàn)風險將對人員和公共安全造成影響、對法律造成破壞,那么這個業(yè)務功能的關鍵性就特別高了。關鍵性越高的業(yè)務功能,它的MAO就越小。(6)需要將訪談內容整理成文檔。(7)分析每個核心功能相關的運營信息,決定核心功能的MAO的時間基準。這個時間基準是開發(fā)恢復策略時參考的基準。3.提交物核心功能一覽表,包括以下內容:(1)每個風險事件導致的每個核心功能的關聯(lián)影響;(2)每個核心功能的資源依賴關系列表;(3)每個核心功能的組織依賴關系列表;(4)每個業(yè)務功能的風險導致的不同顧客類的影響;(5)按照MAO時間基準大小生成的核心功能列表。第四步:財務影響分析1.任務標識并量化每個風險造成的潛在財務影響,為選擇可選的恢復辦法提供成本判斷依據(jù)。2.方法(1)首先決定是否有必要進行財務影響分析;(2)采集信息;定制訪談時設定的問題、獲取作用于業(yè)務功能的每個風險造成的財務影響、量化財務影響;(3)分析獲取的信息;(4)整理獲取的信息;定義財務影響的類型、圖表化財務影響信息;(5)通過和每個業(yè)務子系統(tǒng)的相關人員訪談獲得每個風險作用在核心功能時造成的財務影響,盡量量化財務影響,不能量化的話給出原因。訪談后整理訪談內容。(6)分析訪談獲取的信息,判斷和一個風險有關的哪個核心進程會造成財務影響。計算在MAO時間基準及超出時間基準時造成的財務影響,盡量量化財務影響,不能量化的話給出原因。(7)財務影響的分析數(shù)據(jù)計算出來后,作為選擇可選恢復方法的依據(jù)。以MAO的時間基準和財務影響生成直觀化的圖表是非常有利于分析的。3.提交物風險造成的量化的財務影響。第五步:非財務影響分析對風險造成的人員健康和生命、名譽、法律條款、競爭力等的影響進行分析。三、制定搬遷整體規(guī)劃制定搬遷整體規(guī)劃的主要目的是規(guī)劃系統(tǒng)搬遷的優(yōu)先順序,找出合理的系統(tǒng)搬遷計劃,合理分配資源,降低系統(tǒng)搬遷對業(yè)務持續(xù)的影響。其主要的工作內容包括:(一)制定搬遷過程中的存儲、服務器整合方案(二)制定使用臨時設備方案(三)制定搬遷整體方案(關注系統(tǒng)搬遷的順序)(四)制定搬遷控制流程(五)尋找系統(tǒng)搬遷承運商搬遷規(guī)劃制定的規(guī)格指標:第一步:標識可選用的規(guī)劃1.任務標識可選用的搬遷規(guī)劃,對規(guī)劃分類。2.方法對于每個可用的搬遷整體規(guī)劃:(1)標識要搬遷的任務、時間需求;(2)按照關鍵度、上下層依賴關系來劃分時間緊迫性的級別;(3)標識每個領域的專家;(4)按照區(qū)域選擇團隊負責人;(5)檢查搬遷中涉及的對象可能發(fā)生的問題。第二步:規(guī)劃整合1.任務縱向使低層次計劃順應高層次計劃,橫向協(xié)調優(yōu)化(在技術、商務方面)。例如:(1)WAN規(guī)劃、服務器規(guī)劃、數(shù)據(jù)異地同步策略等技術恢復規(guī)劃,WAN帶寬和需要同步的數(shù)據(jù)量要協(xié)調。(2)商務方面的整合要考慮供貨的優(yōu)化、支持服務的優(yōu)化等。2.辦法(1)關注關鍵業(yè)務功能;(2)強調協(xié)調性;(3)優(yōu)化與供應商的合同;(4)每個業(yè)務功能需要一個套恢復資源。第三步:規(guī)劃的評估1.任務評估規(guī)劃的目標、是否滿足業(yè)務準則、成本、風險。2.辦法(1)制定用于評估的一致的方法:①評估規(guī)劃的可靠性的方法;②評估規(guī)劃的成本效益的方法;③比對內部和外部的解決方案的方法;④評估每個規(guī)劃的風險的方法。(2)進行成本效益分析①跟蹤已知的風險問題②圍繞業(yè)務單元取得大家一致同意③搬遷指導委員會檢查搬遷規(guī)劃可選項(3)是否滿足業(yè)務需求的準則:①實現(xiàn)關鍵業(yè)務功能的持續(xù)性②實現(xiàn)外部因素驅動的業(yè)務功能持續(xù)性③被確定的其他問題(4)是否滿足搬遷目標:①關鍵業(yè)務功能、優(yōu)先級和內在依賴關系②搬遷關鍵業(yè)務功能需要的時間③恢復信息和通信系統(tǒng)需要的時間④業(yè)務接續(xù)需要的時間第四步:成本效益分析1.任務在花費和中斷時間之間做出平衡。2.辦法四、系統(tǒng)梳理與健康檢查系統(tǒng)梳理與健康檢查的主要目的是嚴格區(qū)分各系統(tǒng)的范圍,明確標記各系統(tǒng)的組成,明確各系統(tǒng)的運行狀態(tài),為搬遷方案的制定提供直接的參考依據(jù)。系統(tǒng)梳理與健康檢查主要通過對系統(tǒng)進行現(xiàn)場調研,并填寫各種表格完成。(一)系統(tǒng)的標記通過對系統(tǒng)的標記,可以明確系統(tǒng)的組成,區(qū)分系統(tǒng)的范圍,確定系統(tǒng)間的連接關系。系統(tǒng)的標記規(guī)則通常采用用戶已有的系統(tǒng)標簽標記規(guī)則,否則可以根據(jù)用戶的實際要求在項目過程中確定。(二)系統(tǒng)健康檢查通過系統(tǒng)的健康檢查可以了解系統(tǒng)的詳細情況和系統(tǒng)的運行狀態(tài),避免意外的發(fā)生。(三)系統(tǒng)備份時間檢查由于在系統(tǒng)搬遷過程中,系統(tǒng)數(shù)據(jù)的備份是必須的步驟,因此,提前確定系統(tǒng)備份所花費的時間對統(tǒng)籌安排系統(tǒng)的搬遷過程具有重要的指導意義。通過檢查系統(tǒng)的備份情況還可以確定在搬遷過程中采用何種合理的系統(tǒng)備份方法和恢復方法,驗證系統(tǒng)數(shù)據(jù)恢復的能力。(四)新機房環(huán)境檢查在系統(tǒng)搬遷之前,新機房的各種物理環(huán)境必須滿足各種設備的運行要求。安裝環(huán)境檢查表,提出有關安裝環(huán)境準備的建議事項。在服務器搬遷開始前新機房達到裝機要求。新機房環(huán)境檢查包括:機房環(huán)境是否符合標準,新機柜是否能夠保證各類服務器的正常上架。工作項目內容是否達到要求備注機房裝修是否符合防靜電、防火、及其他安全要求?機房綜合布線強弱電布線系統(tǒng)是否符合相關設備的要求?地面承重地面承重能力是否符合安裝設備的要求?設備安裝位置設計是否考慮了足夠物理空間用于設備安裝?是否為維護操作留出了必須的空間?搬運路線的設計各通道包括電梯是否能保證設備的進入?機房輔助設施工作臺、電源插座、電話機、遠程維護用的電話線是否齊全?機房環(huán)境的溫度與濕度OperatingNon-Operating溫度:16to32°C10to43°C濕度:8to80%8to80%最佳操作環(huán)境(Operating):空間溫度:24℃,濕度:50%??照{是否具備調節(jié)溫度與濕度到指定要求的能力?電源電壓范圍交流200-240V,50~60Hz,或參閱附錄A,部分設備支持直流-48V接地要求電源保護地線的專用接地線電阻應小于1歐姆。測量零-地電壓值應小于1V。電壓穩(wěn)定如在電壓不穩(wěn)地區(qū),需裝設穩(wěn)壓裝置以確保電壓在規(guī)格內第三節(jié)制定系統(tǒng)搬遷與應急方案一、制定系統(tǒng)搬遷方案在完成系統(tǒng)的設備梳理和健康檢查后,在系統(tǒng)整體搬遷規(guī)劃的指導下,需要對每次搬遷的系統(tǒng)制定特定的系統(tǒng)搬遷方案。以下搬遷方案需要根據(jù)用戶的實際情況和具體要求適當調整。(一)準備工作1.新機房環(huán)境檢測由用戶和XXX公司根據(jù)設備安裝對新環(huán)境的需求,重點對機房空調、粉塵情況、電力(交流電源、直流電源)、電源接地等進行檢測;2.確定配套設施是否就位(1)確定新機房所需要的網(wǎng)絡綜合布線已經完成,并提供相應的竣工文檔;(2)確定新機房機架和電源安裝完畢;(3)將來放置設備的位置的地板承重要達到要求,對超重的設備要為其做底座;(4)確定新機房微機桌、椅子等辦公用品已經就位等。3.由用戶提供相關單位/部門負責人聯(lián)系電話;4.新機房的傳輸資源安裝調試完畢,接口模塊就位;城域網(wǎng)落地;5.為了確保割接前新通信線路的載波暢通,要求用戶做好環(huán)路測試;6.以搬家公司為主、我公司協(xié)助準備泡用于搬遷時的設備包裝體,對設備進行保護,盡可能避免搬遷過程對設備的損壞。對有特殊搬遷要求的設備,提供專用檢測標志;7.檢查搬遷設備及設備連線是否做好相應的標記;8.設備備件及備件庫位置、備件到位時間確認;9.配置好新購的交換機和路由器,并測試可用。(二)搬遷步驟1.系統(tǒng)準備(1)系統(tǒng)檢查、操作系統(tǒng)、應用軟件、數(shù)據(jù)庫檢查。(2)做全部主機的系統(tǒng)全備份,主備機都要做備份,備份是否成功,需要經過兩個工程師進行確認,確保備份數(shù)據(jù)正確無誤。(2)做所有數(shù)據(jù)庫的全備份,備份到第三方存儲設備。重要數(shù)據(jù)(如生產數(shù)據(jù)庫)要做兩套備份。(3)每做一個備份,要記錄備份時間,操作人,備份方式和備份介質等信息。(4)檢查搬遷設備及設備連線是否做好相應的標記。2.設備安裝位置確認(1)設備互連線纜預布置;(2)在新機房安裝搬遷設備的機柜、配線架、傳輸設備等等之間,提前放置好涉及到這些設備之間互連的網(wǎng)線和網(wǎng)絡設備,以及需要的轉換器等;(3)相關設備各技術支持人員現(xiàn)場就位;(4)通知各部門停機時間。3.系統(tǒng)設備搬遷按照業(yè)務需要的順序停機:對于單機系統(tǒng):先停業(yè)務應用程序,再停止中間件和數(shù)據(jù)庫,后停止存儲,最后停主機;對于雙機系統(tǒng):先停止雙機軟件,再停止存儲,最后停止主機。4.設備進行拆卸(1)搬運隊負責將設備運抵新機房;(2)設備搬遷到新機房后,由搬遷工人負責按照事先指定的位置,將設備放置到位;(3)由各廠商按照已經做好的標簽將設備重新組裝并連接線纜;(4)工程師再次對電源進行檢查;(5)在確認電源正常后,工程師為設備上電;(6)啟動數(shù)據(jù)庫和應用程序,并對系統(tǒng)做測試,檢查數(shù)據(jù)是否正常;如有異常,各負責人及時解決。5.系統(tǒng)正常運行,搬遷完畢(三)應急措施在嚴格按照搬遷步驟進行搬遷的同時,必須嚴格控制以上步驟中的關鍵步驟,針對它們我們制訂如下應急措施。在必要時候,都可以啟動故障升級流程,以保障問題的快速和有效解決:1.數(shù)據(jù)庫數(shù)據(jù)備份關鍵過程控制:備份是否成功,需要經過兩個工程師進行確認,確保備份數(shù)據(jù)正確無誤。在備份數(shù)據(jù)前,要確認環(huán)境變量中的字符集正確無誤。應急措施:如果數(shù)據(jù)備份不成功,應馬上檢查原因并排除故障。如果超過1個小時無法排除故障,則取消搬遷工作,尋求數(shù)據(jù)庫廠商技術支持。2.倒入數(shù)據(jù)關鍵過程控制:導入數(shù)據(jù)是否成功,需要經過兩個工程師進行確認,確保數(shù)據(jù)導入正確無誤。在導入數(shù)據(jù)前,要確認環(huán)境變量中的字符集正確無誤。應急措施:如果數(shù)據(jù)導入不成功,應馬上檢查原因并排除故障。如果超過1個小時無法排除故障,則取消工作,并尋求數(shù)據(jù)庫廠商技術支持。3.設備拆卸及運輸關鍵過程控制:在搬遷各設備過程中一定要小心謹慎,謹防碰撞刮傷以免毀壞設備。要搬遷前要進行設備標示,避免搬遷后設備或接口混亂。二、搬遷過程中的工具(表格、文檔等)系統(tǒng)搬遷方案主要通過搬遷流程步驟控制表的方式明確搬遷參與各方的責任與任務,完成對搬遷工作的計劃和準備。主要表格如下。表格的部分內容應根據(jù)用戶的具體情況做適當修改。新機房環(huán)境檢查公共部分序號執(zhí)行任務描述負責方參與方工程師前置任務完成產生文件系統(tǒng)搬遷前的檢查階段用戶方需要確認內部協(xié)調部門的負責人、落實人。在搬遷過程中負責協(xié)調需要用戶方負責的部分。1新機房運行環(huán)境檢查設計院關于新機房的設計文件《機房測試驗收報告》、《機房環(huán)境確認報告》、《電源環(huán)境確認報告》機房電源環(huán)境\接地電源布線檢查溫度\濕度環(huán)境機架位置設計院設計2新機房通訊環(huán)境檢查設計院關于新機房通訊環(huán)境設計文件《通訊環(huán)境確認報告》傳輸環(huán)境網(wǎng)絡傳輸要求《網(wǎng)絡環(huán)境測試要求》傳輸、時鐘、時間服務以《網(wǎng)絡環(huán)境測試要求》為準《網(wǎng)絡環(huán)境測試要求確認》網(wǎng)絡布線檢查設計院設計臨時鏈路檢查對鏈路物理連接可使用情況已經確認;備用鏈路通過可用性測試《臨時鏈路具備可用條件報告》網(wǎng)絡連通性檢查網(wǎng)絡物理連接建設完畢過渡網(wǎng)絡環(huán)境檢查參照過渡網(wǎng)絡環(huán)境要求和新環(huán)境網(wǎng)絡調試完成情況《臨時網(wǎng)絡具備可用條件報告》系統(tǒng)搬遷流程步驟控制序號執(zhí)行任務描述責任方參與方工程師前置任務完成產生文件1新機房的環(huán)境檢查***機房電源環(huán)境\接地參照設計《系統(tǒng)具備搬遷環(huán)境報告》溫度\濕度環(huán)境機架位置系統(tǒng)間聯(lián)線布線系統(tǒng)內線纜標識2設備準備和備份及確認***系統(tǒng)健康檢查負責方操作,配合方監(jiān)督《設備健康檢查報告》業(yè)務功能測試負責方操作,配合方監(jiān)督《業(yè)務功能性測試報告》系統(tǒng)軟件備份由負責方確認備份可用業(yè)務軟件和數(shù)據(jù)備份由負責方確認備份可用3系統(tǒng)搬遷過程***系統(tǒng)搬遷通告主要針對內部相關部門《系統(tǒng)搬遷通知》再次確認各種搬遷資源《系統(tǒng)搬遷流程確認報告》停止業(yè)務系統(tǒng)應用系統(tǒng)備份完成,具備搬遷環(huán)境系統(tǒng)停機系統(tǒng)下架設備包裝機柜拆卸運前包裝檢查運輸公司負責的范圍界定在“運前”到“拆包”之間的過程,其它過程設備問題,由設備供應商按照正常保修提供設備的保修服務。設備物理搬遷**運輸后、拆包前包裝檢查機柜安裝設備上架線纜連接設備加電4設備測試《設備健康檢查報告》啟動應用5功能測試《業(yè)務功能性測試報告》6觀察期搬遷方案中所涉及的,在搬遷過程中使用的其他主要文檔還包括:《機房測試驗收報告》《通訊環(huán)境確認報告》《網(wǎng)絡環(huán)境測試要求》《業(yè)務功能性測試報告》《系統(tǒng)及數(shù)據(jù)備份完成確認報告》《系統(tǒng)具備搬遷環(huán)境報告》《系統(tǒng)搬遷參與方列表》《系統(tǒng)搬遷流程確認報告》《包裝箱運輸單》《設備健康檢查報告》《業(yè)務功能性測試報告》《系統(tǒng)應急設備確認報告》《子系統(tǒng)初驗報告》《平臺終驗報告》三、分工界面定義在設計搬遷方案的過程中還需要進一步明確和確定工程分工界面定義。四、搬遷與應急方案演練在系統(tǒng)搬遷計劃制定完成后,還需要參照改計劃進行演練。演練的目的之一是使參與搬遷的各單位熟悉搬遷過程,了解自己的工作和責任;另一個目的使通過演練發(fā)現(xiàn)系統(tǒng)搬遷計劃的漏洞和不足,在實際搬遷之前,把搬遷的風險降到最低。搬遷過程的演練以桌面演練為主,輔助以不影響系統(tǒng)正常運行的操作。五、搬遷前準備正式搬遷前的主要準備工作包括以下內容:1.遞交搬遷申請;2.發(fā)送搬遷通知;3.原廠商與集成商通知;4.用戶通知;5.數(shù)據(jù)備份;6.系統(tǒng)搬遷通知。六、拆卸、包裝、運輸與安裝設備的拆卸、包裝、運輸與安裝流程主要通過《系統(tǒng)搬遷流程報告進行》控制。一份可用的系統(tǒng)搬遷流程報告如下,其具體內容需要根據(jù)用戶實際情況進行修改。系統(tǒng)搬遷流程報告序號搬遷確認點確認單位確認人確認時間備注前期檢查——再次確認各種搬遷資源1《系統(tǒng)具備搬遷環(huán)境報告》已經簽署2《系統(tǒng)替代或應急設備確認報告》已經簽署3業(yè)務軟件及數(shù)據(jù)備份完成,備份數(shù)據(jù)準確可用4系統(tǒng)軟件備份完成,備份數(shù)據(jù)準確可用過程確認——前期檢查必須完全確認,才能進行下面的搬遷工作1業(yè)務已正常停止,可以關閉系統(tǒng)和進行設備下電2系統(tǒng)已正常停止,設備已正常下電,可以進行設備下架3設備已經按照設備提供商的要求完成包裝,可以進行物理運輸4設備已經運輸?shù)街付ǖ攸c,外觀無破損,可以進行設備拆包和上架5運輸中有問題,詳細信息見《系統(tǒng)運輸中問題報告》,此報告作為本報告的附件,報告內容需包含詳細描述問題發(fā)生原因、現(xiàn)狀和處理過程,并拍照記錄6電源檢測符合設備要求,可以進行設備加電(僅針對使用利舊機柜而需要現(xiàn)場連接電源的設備)加電測試——進入設備加電、測試和業(yè)務啟動、測試階段注設備加電及測試過程和結果見《系統(tǒng)設備健康檢查報告》,作為本報告的附件業(yè)務啟動及測試過程和結果見《系統(tǒng)業(yè)務功能性測試報告》,作為本報告的附件七、系統(tǒng)恢復與健康檢查在系統(tǒng)在新機房重新構建后,在正式開展業(yè)務之前,系統(tǒng)還需要進行一次健康檢查,以確保業(yè)務可以正確的展開。最后一次系統(tǒng)健康檢查通過后,業(yè)務可以上線運行。當業(yè)務在新機房上線運行后,雖然可以支持用戶的業(yè)務正常開展,但由于系統(tǒng)的搬遷,IT系統(tǒng)處于一個不穩(wěn)定的時期,在搬遷后的3個月內,系統(tǒng)發(fā)生故障的概率往往高于原有環(huán)境中的系統(tǒng)。為了使用戶可以快速而順利的度過這一不穩(wěn)定期,用戶還可以選擇我公司提供的搬遷后系統(tǒng)運行情況跟蹤服務。我公司將根據(jù)用戶的實際情況制定完善的系統(tǒng)運行跟蹤計劃,提供現(xiàn)場工程師協(xié)助用戶維護新環(huán)境中的系統(tǒng)。搬遷過后的系統(tǒng)運行情況跟蹤服務一般不超過3個月。八、設備維護與保修服務設備維護與保修服務做為用戶可以選擇的另外一個系統(tǒng)搬遷附加服務,可以為用戶提供系統(tǒng)維護與保障服務。包括系統(tǒng)備件的準備與更換服務,定期的系統(tǒng)詢檢服務,定期的系統(tǒng)評估服務等。尤其是可以考慮針對本次搬遷中的非在保設備。第四節(jié)搬遷的工程設計與實施方法機房搬遷項目的整體需求按照階段劃分為規(guī)劃、設計、實施和維護四個階段,同時,每個階段都貫穿著相應的需求。在項目的實施階段,我們將與用戶進行更細致的溝通,整理和分析XXX的具體要求,并在詳細設計方案中對用戶的需求給予體現(xiàn)。我們將按照系統(tǒng)搬遷的方法論,結合用戶的實際情況,采用以下方法分析用戶具體的需求,并進行工程設計實施。一、項目管理項目管理需求如下:1.創(chuàng)建組織架構及定義角色職責2.定義搬遷工程界面3.制定并審批計劃4.管理進度5.風險管理6.質量管理7.變更管理8.問題管理二、總體方案規(guī)劃在機房搬遷項目的每個階段,都涉及眾多的實體和活動,例如涉及資源、技術、方法、工具、流程等實體和開發(fā)、設計、實施、維護、控制、溝通、會議等活動,這就要求我們采用清晰的思路來組織所有實體和活動,使所有實體和活動和諧一致地實現(xiàn)共同的項目目標。根據(jù)搬遷項目的性質,即搬遷項目屬于IT領域的業(yè)務連續(xù)性管理的范疇,按照國際權威組織DRII、BCI的最佳實踐,在項目規(guī)劃階段,業(yè)務連續(xù)性項目的規(guī)劃需求如下:1.項目規(guī)劃成員需要業(yè)務連續(xù)性管理方法論做指導;2.項目規(guī)劃成員需要執(zhí)行IT領域的業(yè)務連續(xù)性管理的具體任務,包括搬遷風險分析、搬遷影響分析、搬遷策略分析;具體地講,在總體方案規(guī)劃階段,“搬遷規(guī)劃團隊”將完成以下任務:1.確定風險防范措施以減小或規(guī)避搬遷中意外事件造成的影響;2.確定各種資源的依賴關系,從而確定搬遷的內容、批次及需要的資源;3.確定關鍵的資源和流程,以便在搬遷之前采取高可用性措施;4.確定每次搬遷的內容的恢復優(yōu)先級順序;5.確定每次搬遷的內容所需的最小恢復資源;6.確定每批次搬遷對業(yè)務的影響,從而制定最佳搬遷時機;7.確定自上而下分解的恢復時間指標(RTO),量化搬遷指標;8.確定需要優(yōu)化哪些資源,以滿足恢復時間指標;9.確定需要新增哪些新的資源;10.確定采用什么樣的高可用性措施;11.確定應急回退策略;12.確定危機溝通策略;13.確定對集成商或廠商的產品及服務的要求。三、總體方案設計總體方案設計描述各階段的總體性任務,描述這些任務之間的流程,描述完成這些任務需要的資源,描述全局性的任務。具體地講,在總體方案設計階段,“搬遷設計團隊”將完成以下任務:1.搬遷總體性任務框架及流程設計2.搬遷總體資源配置需求(指揮場地、支持與服務、設備、工具、文檔)3.各設備在新機房內的位置分布圖4.新機房系統(tǒng)及網(wǎng)絡架構圖5.設備清單設計6.指揮和命令任務的設計7.新機房環(huán)境評估任務的設計8.系統(tǒng)標簽標識設計9.危機溝通計劃的設計10.系統(tǒng)梳理與健康檢查設計11.搬遷與應急方案的測試和演練的設計12.培訓計劃13.項目實施計劃14.搬遷維護計劃15.搬遷驗收方法和標準的設計四、詳細方案設計詳細方案設計描述各系統(tǒng)和設備在各搬遷階段的具體任務,描述各階段任務之間的流程,描述局部性的任務。具體地講,在詳細方案設計階段,“搬遷設計團隊”將完成以下任務:(一)搬遷外圍任務的設計需求搬遷外圍任務,即在邏輯上和搬遷項目相互獨立的任務,需要在搬遷項目的前期完成。通過把與搬遷項目沒有直接關系的外圍任務標識出來,清晰地界定搬遷項目的工作范圍。外圍任務設計如下:1.新增設備與原有系統(tǒng)整合的任務設計;2.新機房的網(wǎng)絡環(huán)境與原有系統(tǒng)整合的任務設計;3.處理存在故障設備的任務設計。(二)搬遷準備階段的任務設計需求搬遷準備任務,包括在系統(tǒng)和各相關設備下電前需要完成的所有任務。相關設計包括:1.搬遷準備任務之間的流程設計;2.系統(tǒng)梳理與健康檢查任務設計;3.每個遷移步驟的回退應急方案設計;4.搬遷準備情況檢查列表的設計;5.設備清點任務設計。(三)搬遷實施任務的設計需求搬遷實施任務,是指在搬遷命令下達后,系統(tǒng)和各相關設備下電、拆除、包裝、運輸、安裝,上架,上電、連接和調試的任務。相關設計包括:1.搬遷實施任務之間的流程設計;2.下達搬遷命令的任務設計;3.各系統(tǒng)和各相關設備的下電、標簽標識、拆除、包裝、運輸、安裝,上架,上電、連接和調試等的詳細操作步驟設計;4.數(shù)據(jù)備份策略以及備份數(shù)據(jù)檢測任務的設計;5.各搬遷團隊指南的設計。(四)搬遷維護任務的設計需求搬遷維護任務,是指在系統(tǒng)恢復成功后,由我方提供的系統(tǒng)運營監(jiān)護期(48小時)的維護及技術支持服務。相關設計包括:1.系統(tǒng)運行情況跟蹤設計;2.設備保修設計;3.現(xiàn)場技術支持設計。五、方案實施階段方案設計階段之后,進入方案實施階段(搬遷實施階段只是方案實施階段的一部分)。具體地講,在方案實施階段,“搬遷項目團隊”將根據(jù)相關設計方案順序執(zhí)行以下任務:1.培訓,保證執(zhí)行任務的人員熟悉和掌握相應的方案和計劃,并具備相應的能力。2.進行搬遷與應急方案的測試和演練;3.根據(jù)測試演練結果對方案進行優(yōu)化;4.執(zhí)行外圍搬遷任務;5.執(zhí)行全局性任務;6.執(zhí)行各系統(tǒng)搬遷準備任務;7.執(zhí)行危機溝通;8.下達搬遷命令;9.執(zhí)行各系統(tǒng)搬遷實施任務;10.執(zhí)行各系統(tǒng)搬遷維護任務;11.執(zhí)行搬遷驗收任務。六、項目維護階段方案實施階段之后,進入項目維護階段。具體地講,在項目維護階段,“搬遷維護團隊”將根據(jù)相關設計方案執(zhí)行以下任務:1.跟蹤系統(tǒng)運行情況;2.提供設備保修;3.提供現(xiàn)場技術支持。七、項目驗收項目維護階段之后,進入項目驗收階段。第五節(jié)整體搬遷方案設計按照搬遷系統(tǒng)的需求,整體搬遷設計有兩個我們必須要考慮的設計要點,也是我們搬遷過程中的最大風險點所在,即數(shù)據(jù)保護和業(yè)務持續(xù):數(shù)據(jù)保護:包含搬遷過程和集中過程中的數(shù)據(jù)安全、數(shù)據(jù)完整性;業(yè)務持續(xù):包含怎樣在最短的時間內完成業(yè)務系統(tǒng)的搬遷,如果搬遷不成功的業(yè)務回退以及最壞情況下的業(yè)務中斷情況等;在我們下面的具體方案設計和搬遷實施中均會對上面的兩個方面進行細致的考慮,并在風險分析和應急措施方面進行著重考慮和準備。一、搬遷次序設計(一)搬遷次序的設計原則1.循序漸進,根據(jù)業(yè)務系統(tǒng)現(xiàn)狀,由易到難的磨合團隊;2.由簡到繁,及時總結和發(fā)現(xiàn)問題,修訂后繼搬遷方案。(二)搬遷次序的設計方法根據(jù)設計原則,基于XXX搬遷工作的特點,可按照如下類別考慮各子系統(tǒng)的搬遷次序:類別一:僅需物理搬運系統(tǒng)或現(xiàn)網(wǎng)抽離的設備搬運;建議:做為搬遷的第一批次(可多組)業(yè)務系統(tǒng),進行搬遷;目的:鍛煉和磨合團隊,梳理搬遷流程和各方配合,發(fā)現(xiàn)搬運過程問題。類別二:需提供基礎設施的系統(tǒng)或獨立且業(yè)務次要的系統(tǒng);建議:做為搬遷的第二批次業(yè)務系統(tǒng),進行搬遷;目的:為后繼系統(tǒng)提供必備的條件,對比第一批設備搬遷過程,檢查問題糾正情況,增強各方對搬遷工作的信心。類別三:對外接口較多的次要級系統(tǒng);建議:做為搬遷的第三批次業(yè)務系統(tǒng),進行搬遷;目的:驗證多部門合作的工作方式,發(fā)現(xiàn)問題,并體現(xiàn)在后繼搬遷工作中。類別四:重要/復雜的系統(tǒng);建議:作為搬遷的第四批次業(yè)務系統(tǒng),進行搬遷;目的:經過上述三個批次的業(yè)務系統(tǒng)搬遷,使搬遷參與的各方均對整個搬遷過程有了深刻理解和明確分工,整個搬遷團隊配合默契,最為成熟,所以可以保證以最充分的準備,完成最重要的系統(tǒng)搬遷任務。(三)搬遷次序建議根據(jù)以上搬遷設計原則和設計方法,通過對XX項目各業(yè)務系統(tǒng)進行分析,結合機房現(xiàn)有系統(tǒng)多而復雜等因素,建議通過分步驟分階段的進行各業(yè)務系統(tǒng)的搬遷,使整個搬遷工程得到分解,降低搬遷的復雜性,從而降低搬遷總體風險。二、搬遷環(huán)境的準備(一)新機房的環(huán)境建設和檢查搬遷前,新機房必須按照設計文檔,具備相對應的各種搬遷環(huán)境,如:1.設備位置環(huán)境:如設備進出通道、設備機房位置、設備線纜進出位置、地板承重、電梯承重等;2.設備運行環(huán)境:如機房溫度、濕度、供電容量、供電方式、端子數(shù)量等。以上環(huán)境的檢查均應以機房設計文檔為主,結合設備需求,進行多項檢查。(二)系統(tǒng)的各種搬遷文檔準備(三)系統(tǒng)的各種資源準備就位(四)搬遷前,需要準備各種資源就位以上資源的需求和準備情況,均會體現(xiàn)在《搬遷前資源CheckList》中,便于隨時跟蹤和解決相關問題。直接斷電搬遷數(shù)據(jù)備份技術簡介三、備份斷電系統(tǒng)搬遷選擇主要考慮到系統(tǒng)實時性和影響范圍而選擇的斷電搬遷,但是并不說明系統(tǒng)數(shù)據(jù),業(yè)務的次要性。因此,斷電搬遷的壓力要比不斷電搬遷設計的更周密。系統(tǒng)斷電搬遷數(shù)據(jù)備份設計原則:三類數(shù)據(jù)備份:業(yè)務數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)和OS系統(tǒng)的備份數(shù)據(jù)備份的數(shù)據(jù)要滿足數(shù)據(jù)一致性、數(shù)據(jù)完整性、數(shù)據(jù)安全性原則。OS數(shù)據(jù)恢復、數(shù)據(jù)庫數(shù)據(jù)恢復、業(yè)務數(shù)據(jù)恢復組成了系統(tǒng)恢復的RTO/RPO的考核要求,即業(yè)務恢復窗口設計原則。要滿足備份數(shù)據(jù)的可驗證性,業(yè)務冷備環(huán)境的可驗證性要求,這點也是演練中的重要部分,提供冷備系統(tǒng)的可驗證性原則。數(shù)據(jù)允許丟失水平的設計,即在極端情況下哪些數(shù)據(jù)是要丟失的,丟失多少,對業(yè)務影響情況。這部分將體現(xiàn)在子系統(tǒng)搬遷技術設計中進行詳細設計和闡明,數(shù)據(jù)丟失容忍度原則。(一)數(shù)據(jù)備份技術手段根據(jù)一套業(yè)務環(huán)境分割,在一套系統(tǒng)顆粒度允許情況下,當系統(tǒng)構成比較大時,也可將業(yè)務系統(tǒng)分批次搬遷進行。這就需要前面對業(yè)務系統(tǒng)調研分析后制定詳細的搬遷方案。業(yè)務系統(tǒng)構成分成:OS層、業(yè)務軟件層、數(shù)據(jù)層三層OS系統(tǒng)的備份:通過我們實施經驗,對運行環(huán)境系統(tǒng)影響最小的是系統(tǒng)鏡像備份OS,這種備份方式,在不中斷業(yè)務系統(tǒng)的情況就可以進行OS系統(tǒng)備份。業(yè)務軟件層數(shù)據(jù)備份:業(yè)務軟件的數(shù)據(jù)備份通常采用兩種方式,一準備業(yè)務軟件介質,二對相應的配置目錄進行備份。數(shù)據(jù)層:通常數(shù)據(jù)都部署在相應的陣列上的數(shù)據(jù)庫文件、消息隊列文件中。通常在斷電搬遷過程中,我們要忽略消息隊列中的數(shù)據(jù),而關心數(shù)據(jù)庫中的數(shù)據(jù)。在下面技術選擇比較中,我們著重對數(shù)據(jù)庫的備份方案進行比較。而針對業(yè)務系統(tǒng)的特點的技術方案可以參考附件中的LSTP的搬遷等系統(tǒng)的舉例進行詳細說明。(二)數(shù)據(jù)庫備份數(shù)據(jù)庫備份和處理的原則:數(shù)據(jù)庫的完整性:物理結構和邏輯結構數(shù)據(jù)庫一致性:備份數(shù)據(jù)與原數(shù)據(jù)的一致性原則在此次搬遷業(yè)務系統(tǒng)中使用的數(shù)據(jù)庫主要有Oracle數(shù)據(jù)庫、Sybase數(shù)據(jù)庫。1.Oracle數(shù)據(jù)庫備份方案介紹根據(jù)我多年數(shù)據(jù)備份的經驗,在搬遷過程中,為了能夠滿足恢復窗口的要求、數(shù)據(jù)完整性和一致性的要求,我們通常采用OracleDataGuard方案。DataGuard介紹:備用數(shù)據(jù)庫(standbydatabase)是ORACLE推出的一種高可用性(HIGHAVAILABLE)數(shù)據(jù)庫方案,在主節(jié)點與備用節(jié)點間通過日志同步來保證數(shù)據(jù)的同步,備用節(jié)點作為主節(jié)點的備份,可以實現(xiàn)快速切換與災難性恢復。Oracle9i的DataGuard是對Oracle8i中StandbyDatabase功能的加強,而StandbyDatabase技術出現(xiàn)的主要初衷就是為了容災(DisasterRecovery),所以具有更強大功能的DataGuard毫無疑問成了Oracle數(shù)據(jù)庫高可用性解決方案中首選使用的產品。DataGuard類型比較:Oracle9i在DataGuard的配置方面提供了幾種不同的類型,根據(jù)客戶對于高可用性的不同要求,可以選擇不同的DataGuard類型。下面對于DataGuard的幾種類型作一個列舉和比較。DataGuard環(huán)境中包含一個產品數(shù)據(jù)庫,這是正常運行用以支撐日常業(yè)務的主數(shù)據(jù)庫,稱為PrimaryDatabase。另外包含一個或者多個災備數(shù)據(jù)庫,稱為StandbyDatabase。按照備用庫(StandbyDatabase)應用歸檔日志的不同方式,StandbyDatabase可以分為物理備用庫(PhysicalStandby)和邏輯備用庫(LogicalStandby)。按照主數(shù)據(jù)庫(PrimaryDatabase)的保護模式,整個DataGuard環(huán)境分為最大數(shù)據(jù)保護模式(MAXIMIZEPROTECTION),最大可用性模式(MAXIMIZEAVAILABILITY),最大性能模式(MAXIMIZEPERFORMANCE)。按照主庫向備用庫傳遞重作信息的方式,可以分為ARCH方式和LGWR方式。物理備用庫可以運行在數(shù)據(jù)庫三種保護模式中的任何一種模式下,邏輯備用庫只可以運行在最大可用性模式或者最大性能模式下。無論物理備用庫還是邏輯備用庫都可以在傳輸日志上采用ARCH方式或者LGWR方式。物理備用庫(PhysicalStandby):提供了一份跟主數(shù)據(jù)庫在物理級別上完全相同的copy,指在數(shù)據(jù)庫的block級別都是完全相同的,比如數(shù)據(jù)庫表中記錄的rowid。物理備用庫是通過不斷地恢復PrimaryDatabase傳入的重作日志數(shù)據(jù)信息來達到跟主數(shù)據(jù)庫保持同步。物理備用庫在處于自動恢復重作日志信息的狀態(tài)下,無法提供查詢服務。因為此時的備用數(shù)據(jù)庫并不是處于正常打開的狀態(tài),數(shù)據(jù)庫的非sysdba用戶無法登錄備用庫,自然也就無法進行普通的查詢業(yè)務。邏輯備用庫(LogicalStandby):指在邏輯上跟主數(shù)據(jù)庫保持一致,但是在物理層面上跟主數(shù)據(jù)庫并不相同。邏輯備用庫是通過將PrimaryDatabase傳入的重作日志數(shù)據(jù)信息轉化為SQL語句,然后在備用庫上重新執(zhí)行來達到跟主數(shù)據(jù)庫保持同步。邏輯備用庫在應用重作信息的同時也可以提供查詢功能。但是由于邏輯備用庫應用重作日志的方式限制,所以邏輯備用庫在功能和性能上面都有所限制。以下是邏輯備用庫的一些限制條件。以下數(shù)據(jù)類型不被支持:NCLOB,LONG,LONGRAW,BFILE,ROWID,UROWID….以下操作不被支持:ALTERDATABASEALTERSESSIONALTERSNAPSHOTALTERSNAPSHOTLOGALTERSYSTEMSWITCHLOGCREATECONTROLFILECREATEDATABASECREATEDATABASELINKCREATEPFILEFROMSPFILECREATESCHEMAAUTHORIZATIONCREATESNAPSHOTCREATESNAPSHOTLOGCREATESPFILEFROMPFILECREATETABLEASSELECTFROMACLUSTERTABLEDROPDATABASELINKDROPSNAPSHOTDROPSNAPSHOTLOGEXPLAINLOCKTABLERENAMESETCONSTRAINTSSETROLESETTRANSACTION高級隊列的管理和物化視圖的刷新不被支持:要求每張表應該有主鍵或者唯一性索引,如果必須沒有唯一性標識的表,那么可以激活Primary庫的supplementallogging屬性,但是這樣將會在重作日志中記錄該表中每一條記錄的所有字段信息,會大大增加重作日志的記錄量。以下是DataGuard環(huán)境中物理備用庫和邏輯備用庫的配置圖。最大數(shù)據(jù)保護模式(MAXIMIZEPROTECTION)提供最高等級的數(shù)據(jù)保護,重作信息從主庫同步送到備用庫。直到備用庫成功接收重作信息,主庫上的事務才會提交。如果由于網(wǎng)絡等問題,導致備用庫不可用,那么主庫也同時會被關閉。這種模式保證了完全沒有數(shù)據(jù)丟失。最大可用性模式(MAXIMIZEAVAILABILITY)在備用庫正常的情況下,該模式提供了跟“最大數(shù)據(jù)保護模式”一樣的機制,保證沒有任何數(shù)據(jù)丟失。如果備用庫不可用,那么將轉換到“最大性能模式”,操作可以在主庫上繼續(xù)執(zhí)行。當備用庫重新可用之后,將會繼續(xù)同步。但是如果在同步完成之前,主庫由于故障損壞,將會丟失數(shù)據(jù)(當然,可以通過RAID,RMAN等方式盡量保護主庫即使出現(xiàn)故障也不丟失數(shù)據(jù))。最大性能模式(MAXIMIZEPERFORMANCE)這種模式下,主庫上的重作信息是異步傳遞到備用庫上,不論備用庫上是否已經成功接收了重作信息,主庫上的操作都會成功執(zhí)行。所以這種模式提供了最好的性能,但是最低的數(shù)據(jù)保護。這是Oracle9i配置DataGuard的默認模式。ARCH方式當主庫歸檔聯(lián)機重作日志文件時,ARCH歸檔進程在歸檔到本機的同時,將重作數(shù)據(jù)傳遞到備用庫,由備用庫端的RFS進程(RemoteFileServer)接收,生成備用庫端的歸檔日志文件,然后由備用庫端的MRP進程(物理備用庫類型)或者LSP進程(邏輯備用庫類型)將歸檔日志文件恢復到備用庫中。傳遞方式如圖:LGWR方式物理備用庫類型下,主庫的LGWR進程在將重作數(shù)據(jù)寫到本地聯(lián)機重作日志文件中的同時,將重作數(shù)據(jù)傳遞到備用庫,備用庫的RFS進程將收到的數(shù)據(jù)寫入本地的備用重作日志文件(StandbyRedoLog)中。當主庫日志切換時也觸發(fā)備用庫的日志切換,切換發(fā)生時,備用庫的歸檔進程將重作日志文件歸檔,然后由備用庫端的MRP進程將歸檔日志文件恢復到備用庫中。傳遞方式如圖:邏輯備用庫類型下,不可以創(chuàng)建備用重作日志文件(StandbyRedoLog),所以處理流程跟物理備用庫稍有不同。主庫的LGWR進程在將重作數(shù)據(jù)寫到本地聯(lián)機重作日志文件中的同時,將重作數(shù)據(jù)傳遞到備用庫,備用庫的RFS進程將收到的數(shù)據(jù)寫入本地的歸檔日志文件中。當主庫日志切換時也觸發(fā)備用庫的日志切換,切換發(fā)生時,備用庫的歸檔進程完成歸檔日志文件的最后生成,然后由備用庫端的LSP進程提取歸檔日志文件中的SQL語句,重新在備用庫上運行一遍。傳遞方式如圖:最后上述所有類型或者方式互相搭配進行一個比較:MaximumProtectionMaximumAvailabilityMaximumPerformance重作傳遞方式LGWRLGWRLGWR或者ARCH網(wǎng)絡傳遞模式同步同步當使用LGWR傳遞方式時為異步方式,如果使用ARCH傳遞方式,那么不牽涉聯(lián)機重作數(shù)據(jù)的網(wǎng)絡傳輸磁盤寫入選項AFFIRMAFFIRMNOAFFIRM是否需要備用重作日志文件需要只在物理備用庫類型中需要如果物理備用庫使用LGWR傳遞方式,那么需要備份庫類型物理物理或邏輯物理或邏輯2.Sybase數(shù)據(jù)庫備份方案介紹但考慮到Sybase的版本問題,我們在實際工作中通常采用如下方式對Sybase數(shù)據(jù)庫進行備份。使用Sybase的BackupServer(備份服務器),做Dump備份轉儲數(shù)據(jù)庫(Dumpdatabase),就是為整個數(shù)據(jù)庫(包括數(shù)據(jù)、表結構、觸發(fā)器、游標、存儲過程、事務日志等)做一次物理備份。轉儲數(shù)據(jù)庫時,系統(tǒng)自動執(zhí)行一次checkpoint,即將日志和數(shù)據(jù)從緩沖區(qū)拷貝到硬盤(只拷貝臟頁),把已被分配的頁(日志和數(shù)據(jù))轉儲到設備。命令格式為:dumpdatabase數(shù)據(jù)庫名to設備文件名with參數(shù)如果備份到硬盤的文件上,可以不預先估算備份文件的大小,只要硬盤有足夠的存儲空間就可以。如果是備份到dds磁帶上,那么就要估算一下備份后的大小,90米的dds磁帶壓縮存儲空間為4G,120米的磁帶壓縮存儲空間為8G,如果數(shù)據(jù)庫的備份文件超過了這個尺寸,就要考慮多文件轉儲,使用stripe參數(shù)。命令格式為:dumpdatabase數(shù)據(jù)庫名to設備文件名1stripeon設備文件名2……stripeon設備文件名3……with參數(shù)這種數(shù)據(jù)備份方式是將整個數(shù)據(jù)庫的運行環(huán)境完整的復制一份,包括數(shù)據(jù)庫的臟頁和碎片,在使用load命令恢復時,只能恢復到同樣大小的數(shù)據(jù)庫中(數(shù)據(jù)和日志的大小都只能和原來完全一致),適用于在每天的日終營業(yè)網(wǎng)點下班后的日常備份。優(yōu)點是數(shù)據(jù)庫完整無誤,缺點是不能直接查看備份內容。分數(shù)據(jù)結構和數(shù)據(jù)記錄做兩次備份在一般情況下,生產機的數(shù)據(jù)庫都比較龐大,而實驗機則相對較小,難以在實驗環(huán)境中以load命令恢復工作機的內容。所以,在工作實踐中,我們摸索出了第二種全量備份方案。(1)數(shù)據(jù)記錄備份將數(shù)據(jù)庫各表以Sybase自代的bcp(bulkcopy)工具的方式導成一定格式的文本文件,命令格式:bcp表名out路徑名文件名-c-t分隔符-u(用戶名)-p(密碼)-S(服務器名)如果將一個數(shù)據(jù)庫中的所有表都做一個bcp備份,就需要針對每一個表都做一次bcp,在一般情況下,一個數(shù)據(jù)庫有100多個表,工作量比較大??梢岳脭?shù)據(jù)庫中的系統(tǒng)表信息做一個bcp備份腳本。原理是每一個用戶表在系統(tǒng)表中都有信息記載,可以通過isql語句查詢得到?,F(xiàn)舉一例說明:1)先編輯一個名為mkbcpout.sql的文件,內容如下:select"echobcp"+name+"out……"+"bcp"+name+"out./+"name+".table-c-t|-Uuser-Ppassword-SSERVER"fromsysobjectswheretype=Ugo2)執(zhí)行isql命令,以此文件作為輸入,執(zhí)行結果輸出到另外一個文件里:isql-Uuser-Ppassword-Sserver-Imkbcpout.sql-Obcpout3)對bcppout文件稍微修改,增加可執(zhí)行權限chmod+xbcpout4)執(zhí)行bcpout,導出數(shù)據(jù)文本:./bcpout(2)數(shù)據(jù)庫恢復業(yè)務生產機可能為小型機,而實驗開發(fā)環(huán)境的硬件環(huán)境為PCserver,安裝好winnt或Solarisunix下的Sybase服務器后,根據(jù)需要創(chuàng)建空間足夠大的數(shù)據(jù)庫和tempdb(系統(tǒng)臨時數(shù)據(jù)庫),創(chuàng)建數(shù)據(jù)庫用戶,并將其更改為此數(shù)據(jù)庫的所有者,要注意兩點:1)此數(shù)據(jù)庫允許bcp拷貝,2)此數(shù)據(jù)庫自動清除log。命令格式為:sp_dboptiondatabasedbname,"selectinto/bulkcopy",true2>gosp_dboptiondatabasename,"trunclogonchkpt",truego上述兩個配置可能與生產機的配置不同。然后以新創(chuàng)建的數(shù)據(jù)庫用戶登錄,導入數(shù)據(jù)結構,注意要首先導入表結構,然后才是存儲過程、觸發(fā)器等等。命令格式:(1)isql-Uusername-Ppassword-Itable.ddl-oerror.log.table(2)isql-Uusername-Ppassword-Ic為了提高bcp導入數(shù)據(jù)的速度,需要將比較大的表的索引和主鍵刪除,否則的話,每bcp進一條數(shù)據(jù),數(shù)據(jù)庫都自動寫一條log日志,記載此數(shù)據(jù)的上一條和下一條記錄,確定本記錄在此表中的準確位置,一是影響bcp速度,二是數(shù)據(jù)庫的log飛速膨脹。數(shù)據(jù)庫的自動清除log功能只有在一個事務結束后才起作用。準備工作做完后,開始倒入數(shù)據(jù)記錄。使用類似做bcpout的方法做一個bcpin的腳本,然后執(zhí)行:./bcpin|teeerror.bcpin使用tee管道輸出的目的是讓計算機完整記錄下倒入過程,自動存入error.bcpin文件中,待倒入結束后,我們只需要檢查日志文件,不需要一直緊盯著計算機屏幕。所有工作做完之后,不要忘記重新將刪除的主鍵和索引建上。如果有現(xiàn)成的數(shù)據(jù)庫,只需要單純地導入數(shù)據(jù)記錄,則首先將數(shù)據(jù)庫中所有用戶表(也就是所有type="U"的表)清空,命令格式:truncatetabletablename2>go當然最好也是利用做bcpout腳本的做一個truncate腳本,通過執(zhí)行此腳本將所有用戶表清空。然后的數(shù)據(jù)導入、處理索引和主鍵的過程與上面類似。利用做bcp備份腳本的方法做數(shù)據(jù)庫碎片整理Sybase數(shù)據(jù)庫作為聯(lián)機事務處理應用服務器,每天應用程序都對數(shù)據(jù)庫做大量的插入、修改和刪除等操作,不可避免的在數(shù)據(jù)庫的物理存儲介質上留下頁碎片和擴展單元碎片,從而影響數(shù)據(jù)庫的存儲效率和運行速度。具體表現(xiàn)為:業(yè)務繁忙時出現(xiàn)死鎖(deadlock),數(shù)據(jù)庫的輸入/輸出資源被大量占用,業(yè)務處理速度慢。其解決辦法是:(1)清空數(shù)據(jù)庫中的所有表,命令格式:isql-Uusername-Ppassword-Itruncate.sql-oerror.truncate(2)刪除所有表的索引和主鍵:isql-Uusername-Ppassword-Idropindex.sql-oerror.dropindex(3)導入數(shù)據(jù):./bcpin(4)添加索引和主鍵:isql-Uusername-Ppassword-Iaddindex.sql-oerror.addindex更新數(shù)據(jù)庫狀態(tài)updatestatisticstablenamego上述操作都是針對數(shù)據(jù)庫中的所有用戶表進行的,利用做bcp備份腳本的方法做出相應的腳本,使繁瑣的數(shù)據(jù)庫維護變得簡便易行,還克服了直接使用isql語句操作風險大、沒有操作日志的毛病。在實際工作中,使用第一種方法對生產機做日常全量備份,日終通過unix的crontab定時批量作業(yè)bcp出全部數(shù)據(jù)。使用高檔PCserver搭建模擬運行環(huán)境,在需要的情況下導入生產機數(shù)據(jù),處理運行中后臺server的各種問題,待研究出解決辦法后再在生產機上做相應調整,這樣做風險小,效果更好。因此,從現(xiàn)有收集的信息看,我們建議采用第一種方式進行Sybase的數(shù)據(jù)庫備份,這樣在搬遷前還可以評估整個備份效果,同時測試最壞情況下系統(tǒng)恢復的時間。3.OracleDataGuard與第三方備份方案比較OracleDataGuard與卷管理和(或)SRDF的比較由于OracleDataGuard并沒有借助于任何硬件同步技術,而是采用純軟件方式實現(xiàn)的完全同步,事物必須提交到備份點數(shù)據(jù)庫才算提交成功,這樣會極大的影響生產系統(tǒng)的性能,同時當網(wǎng)絡或備點出現(xiàn)問題時,主點業(yè)務系統(tǒng)也會停止。但在系統(tǒng)搬遷環(huán)境中,考慮到直接斷電搬遷,因此,從用戶投資和對數(shù)據(jù)容忍程度角度,DataGuard方式是一個非常實用的工具和方案,特別是現(xiàn)有環(huán)境中的操作系統(tǒng)環(huán)境的復雜(Solaris、Linux、AIX、HP-UX)、存儲環(huán)境的復雜(異構存儲),在斷電搬遷中為建立可靠的數(shù)據(jù)備份,我們推薦使用Oracle數(shù)據(jù)的DataGuard方式。4.SybaseRS模式與第三方備份方案比較SybaseRS是基于事物的準實時備份服務器,其安裝在主點的復制代理可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論