數(shù)據倉庫實施步驟_第1頁
數(shù)據倉庫實施步驟_第2頁
數(shù)據倉庫實施步驟_第3頁
免費預覽已結束,剩余7頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據倉庫構建步驟既述:1. 數(shù)據倉庫是面向主題的、集成的、不可更新的、隨時間的變化而不斷變化的一這些特點決定了數(shù)據倉庫的系統(tǒng)設計不能采用同開發(fā)傳統(tǒng)的OLTP數(shù)據庫一樣的設計方法2. 需求不明確?數(shù)據倉庫系統(tǒng)的原始需求不明確?需求不斷變化與增加?開發(fā)者最初不能確切了解到用戶的明確而詳細的需求,也不能準確的預見未 來的需求?用戶所能提供的無非是需求的大的方向以及部分需求=采用原型法來進行數(shù)據倉庫的開發(fā)是比較合適的3. 需求不明確不等于傳統(tǒng)意義上的原型法,即數(shù)據倉庫的設計是數(shù)據驅動的,即在原有的數(shù)據 庫系統(tǒng)上開發(fā),有效的使用原有系統(tǒng)數(shù)據倉庫系統(tǒng)開發(fā)是一個經過不斷循環(huán)、反饋而使系統(tǒng)不斷增長與完善的過程

2、 這是區(qū)別于系統(tǒng)生命周期法的主要特點4. 設計步驟:既念模型設計;技術準備工作;邏輯模型設計;物理模型設計;數(shù)據倉庫生成;數(shù)據倉庫運行與維護。第一步:概念模型設計進行概念模型設計所要完成的工作是:1界定系統(tǒng)邊界2確定主要的主題域及其內容成果:在原有的數(shù)據庫的基礎上建立了一個較為穩(wěn)固的概念模型。數(shù)據驅動:數(shù)據倉庫中的數(shù)據即是對原有數(shù)據庫系統(tǒng)中的數(shù)據進行集成和重組而形成的數(shù) 據集合,=數(shù)據倉庫的概念模型設計,首先要對原有數(shù)據庫系統(tǒng)加以分析理解,看在原有 的數(shù)據庫系統(tǒng)中 有什么”、怎樣組織的”和如何分布的”等,然后再來考慮應當如 何建立數(shù)據倉庫系統(tǒng)的概念模型。A、一方面,通過原有的數(shù)據庫的設計文檔以

3、及在數(shù)據字典中的數(shù)據庫關系模 式,可以對企業(yè)現(xiàn)有的數(shù)據庫中的內容有一個完整而清晰的認識B、另一方面,數(shù)據倉庫的概念模型是面向企業(yè)全局建立的,它為集成來自各個 面向應用的數(shù)據庫的數(shù)據提供了統(tǒng)一的概念視圖。注:概念模型的設計是在較高的抽象層次上的設計,因此建立概念模型時不用考 慮具體技 術條件的限制1. 界定系統(tǒng)的邊界數(shù)據倉庫是面向決策分析的數(shù)據庫,我們無法在數(shù)據倉庫設計的最初就得到詳 細而明確的需求,但是一些基本的方向性的需求還是擺在了設計人員的面前 :要做的決策類型有哪些?決策者感興趣的是什么冋題?這些問題需要什么樣的信息?要得到這些信息需要包含原有數(shù)據庫系統(tǒng)的哪些部分的數(shù)據?=劃定一個當前的

4、大致的系統(tǒng)邊界,集中精力進行最需要的部分的開發(fā)。2. 確定主要的主題域要確定系統(tǒng)所包含的主題域,然后對每個主題域的內容進行較明確的描述,描述 的內容包括:主題域的公共碼鍵;充分代表主題的屬性組。參見實例:第二步:技術準備工作該步包括:技術評估,技術環(huán)境準備。成果:技術評估報告、軟硬件配置方案、系統(tǒng) (軟、硬件 總體設計方案。1. 技術評估進行技術評估,就是確定數(shù)據倉庫的各項性能指標。一般情況下,需要在這一步 里確定的性能指標包括:管理大數(shù)據量數(shù)據的能力;進行靈活數(shù)據存取的能力;艮據數(shù)據模型重組數(shù)據的能力;透明的數(shù)據發(fā)送和接收能力;周期性成批裝載數(shù)據的能力;可設定完成時間的作業(yè)管理能力。2. 技

5、術環(huán)境準備一旦數(shù)據倉庫的體系化結構的模型大體建好后,下一步的工作就是確定我們應 該怎樣來裝配這個體系化結構模型,主要是確定對軟硬件配置的要求;我們主要考慮 相關的問題:偵期在數(shù)據倉庫上分析處理的數(shù)據量有多大 ?如何減少或減輕競爭性存取程序的沖突 ?數(shù)據倉庫的數(shù)據量有多大?進出數(shù)據倉庫的數(shù)據通信量有多大等等。根據這些考慮,我們就可以確定各項軟硬件的配備要求,并且在這一步工作結束 時各項技術準備工作應已就緒,可以裝載數(shù)據了。這些配備有:直接存取設備(DASD;網絡;進出數(shù)據倉庫的界面(主要是數(shù)據查詢和分析工具;管理數(shù)據倉庫的軟件,目前即選用數(shù)據庫管理系統(tǒng)及有關的選件,購買的DBMS 產品不能滿足管

6、理數(shù)據倉庫需要的,還應考慮自己或軟件集成商開發(fā)有關模塊等 等。第三步:邏輯模型設計在這一步里進行的工作主要有:分析主題域,確定當前要裝載的主題;確定粒度層次劃分;確定數(shù)據分割策略;關系模式定義;記錄系統(tǒng)定義成果:對每個當前要裝載的主題的邏輯實現(xiàn)進行定義,并將相關內容記錄在數(shù)據 倉庫的元數(shù)據中,包括:適當?shù)牧6葎澐?;合理的?shù)據分割策略;適當?shù)谋韯澐?;定義合適的數(shù)據來源等。1.分析主題域逐步求精的過程,一次一個主題或多個主題逐步完成A、對概念模型設計步驟中確定的幾個基本主題域進行分析 ,并選擇首先要實 施的主題域注:選擇第一個主題域所要考慮的是它要足夠大,以便使得該主題域能建設成為一 個可應用的系

7、統(tǒng);它還要足夠小,以便于開發(fā)和較快地實施。如果所選擇的主題域很 大并且很 復雜,我們甚至可以針對它的一個有意義的子集來進行開發(fā)。在每一次的 反饋過程中,都要進行主題域的分析。2.粒度層次劃分數(shù)據倉庫邏輯設計中要解決的一個重要問題是決定數(shù)據倉庫的粒度劃分層次 , 粒度層 次劃分適當與否直接影響到數(shù)據倉庫中的數(shù)據量和所適合的查詢類型。確 定數(shù)據倉庫的粒 度劃分,可以使用在粒度劃分一節(jié)中介紹的方法,通過估算數(shù)據行數(shù) 和所需的DASD數(shù),來確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。3. 確定數(shù)據分割策略在這一步里,要選擇適當?shù)臄?shù)據分割的標準,一般要考慮以下幾方面因素:數(shù)據量 (而非記錄行數(shù)、

8、數(shù)據分析處理的實際情況、簡單易行以及粒度劃分策略等。數(shù)據 量的大小是 決定是否進行數(shù)據分割和如何分割的主要因素;數(shù)據分析處理的要求是 選擇數(shù)據分割標準的一個主要依據,因為數(shù)據分割是跟數(shù)據分析處理的對象緊密聯(lián) 系的;我們還要考慮到所 選擇的數(shù)據分割標準應是自然的、易于實施的:同時也要考 慮數(shù)據分割的標準與粒度劃分 層次是適應的。4. 關系模式定義數(shù)據倉庫的每個主題都是由多個表來實現(xiàn)的,這些表之間依靠主題的公共碼鍵 聯(lián)系在一起,形成一個完整的主題。在概念模型設計時,我們就確定了數(shù)據倉庫的基 本主題,并對每個主題的公共碼鍵、基本內容等做了描述在這一步里,我們將要對選 定的當前實施的主題進行模式劃分,

9、形成多個表,并確定各個表的關系模式。第四步:物理模型設計這一步所做的工作是確定數(shù)據的存儲結構,確定索引策略,確定數(shù)據存放位置,確 定存儲分配。確定數(shù)據倉庫實現(xiàn)的物理模型,要求設計人員必須做到以下幾方面:要全面了解所選用的數(shù)據庫管理系統(tǒng),特別是存儲結構和存取方法。了解數(shù)據環(huán)境、數(shù)據的使用頻度、使用方式、數(shù)據規(guī)模以及響應時間要求等,這些是對時間和空間效率進行平衡和優(yōu)化的重要依據。了解外部存儲設備的特性,如分塊原則,塊大小的規(guī)定,設備的I /O特性等。1. 確定數(shù)據的存儲結構一個數(shù)據庫管理系統(tǒng)往往都提供多種存儲結構供設計人員選用,不同的存儲結 構有不同的實現(xiàn)方式,各有各的適用范圍和優(yōu)缺點,設計人員在

10、選擇合適的存儲結構 時應該權衡 三個方面的主要因素:存取時間、存儲空間利用率和維護代價。2. 確定索引策略數(shù)據倉庫的數(shù)據量很大,因而需要對數(shù)據的存取路徑進行仔細的設計和選擇。 由于數(shù)據倉庫的數(shù)據都是不常更新的,因而可以設計多種多樣的索引結構來提高數(shù) 據存取效率。在數(shù)據倉庫中,設計人員可以考慮對各個數(shù)據存儲建立專用的、復雜 的索引,以獲得最高的存取效率,因為在數(shù)據倉庫中的數(shù)據是不常更新的,也就是說每 個數(shù)據存儲是穩(wěn)定的,因而雖然建立專用的、復雜的索引有一定的代價,但一旦建立 就幾乎不需維護索引的代價。3.確定數(shù)據存放位置我們說過,同一個主題的數(shù)據并不要求存放在相 同的介質上。在物理設計時,我們常

11、 常要按數(shù)據的重要程度、使用頻率以及對響 應時間的要求進行分類,并將不同類的數(shù)據分 別存儲在不同的存儲設備中。重要 程度高、經常存取并對響應時間要求高的數(shù)據就存放在高速存儲設備上,如硬盤;存取頻率低或對存取響應時間要求低的數(shù)據則可以放在低速存儲設備上,如磁盤或磁帶。數(shù)據存放位置的確定還要考慮到其它一些方法,如:決定是否進行合并表;是否對一些經常性的應用建立數(shù)據序列;對常用的、不常修改的表或屬 性是否冗余存儲。如果采用 了這些技術,就要記入元數(shù)據。 4.確定存儲分配 許多 數(shù)據庫管理系統(tǒng)提供了一些存儲分配的參數(shù)供設計者進行物理優(yōu)化處理,如:塊 的尺寸、緩沖區(qū)的大小和個數(shù)等等,它們都要在物理設計時

12、確定。這同創(chuàng)建數(shù)據庫 系統(tǒng)時的考慮是一樣的。 第五步:數(shù)據倉庫的生成 五步:在這一步里所要做的工 作是接口編程,數(shù)據裝入。 這一步工作的成果是,數(shù)據已經裝入到數(shù)據倉庫中, 可以在其上建立數(shù)據倉庫的應用,即DSS應用。1.設計接口將操作型環(huán)境下的數(shù)據裝載進入數(shù)據倉庫環(huán)境,需要在兩個不同環(huán)境的記錄系統(tǒng)之間建立一個接口。乍一看,建立和設計這個接口,似乎只要編制一個抽取程序就可以了,事實上,在這一階段的工作中,的確對數(shù)據進行了抽取,但抽取并不是全部的工作,這 一接口還應具有以下的功能: 從面向應用和操作的環(huán)境生成完整的數(shù)據;數(shù)據的基于時間的轉換;數(shù)據的凝聚;對現(xiàn)有記錄系統(tǒng)的有效掃描,以便以后進行追 加

13、。當然,考慮這些因素的同時,還要考慮到物理設計的一些因素和技術條件限 制,根據 這些內容,嚴格地制定規(guī)格說明,然后根據規(guī)格說明,進行接口編程。 從操作型環(huán)境到數(shù) 據倉庫環(huán)境的數(shù)據接口編程的過程和一般的編程過程并無區(qū) 別,它也包括偽碼開發(fā)、編碼、編譯、檢錯、測試等步驟。 在接口編程中,要注意: 保持咼效性,這也是一一 般的編程所要求的; 要保存完整的文檔記錄; 要靈活,易于改動; 要能完整、準 確地完成從操作型環(huán)境到數(shù)據倉庫環(huán)境的數(shù)據抽取、轉換與集成。2.數(shù)據裝入在這一步里所進行的就是運行接口程序,將數(shù)據裝入到數(shù)據倉庫中。主要的工作是: 確定數(shù)據裝入的次序; 清除無效或錯誤數(shù)據; 數(shù)據老化”;數(shù)

14、據粒度管理;數(shù) 據刷新等。最初只使用一部分數(shù)據來生成第一個主題域,使得設計人員能夠輕易且迅速地對已做工作進行調整,而且能夠盡早地提交到下一步驟,即數(shù)據倉庫的 使用和維護。這樣既可以在 經濟上最快地得到回報,又能夠通過最終用戶的使 用、盡早發(fā)現(xiàn)一些問題并提出新的需求,然后反饋給設計人員,設計人員繼續(xù)對系統(tǒng)改進、擴展。第六步:數(shù)據倉庫的使用和維護 第六步:在這一步中所要做的 工作有建立DSS應用,即使用數(shù)據倉庫理解需求,調整和完善系 統(tǒng),維護數(shù)據倉 庫。建立企業(yè)的體系化環(huán)境,不僅包括建立起操作型和分析型的數(shù)據環(huán)境,還應包括在這一數(shù)據環(huán)境中建立起企業(yè)的各種應用。數(shù)據倉庫裝入數(shù)據之后,下一步 工作是:

15、一方面,使用數(shù)據倉庫中的數(shù)據服務于決策分析的目的,也就是在數(shù)據 倉庫中建立起DSS應用;另一方面,根據用戶使用情況和反饋來的新的需求,開 發(fā)人員進一步完善系統(tǒng),并管理數(shù)據 倉庫的一些日?;顒樱缢⑿聰?shù)據倉庫的當 前詳細數(shù)據、將過時的數(shù)據轉化成歷史數(shù)據、清除不再使用的數(shù)據、調整粒度級別等。我們把這一步驟稱為數(shù)據倉庫的使用與維護。1.建立DSS應用使用數(shù)據倉庫,即開發(fā)DSS應用,與在操作型環(huán)境中的應用開發(fā)有著本質區(qū)別,開發(fā)DSS應用不同于聯(lián)機事務處理應用開發(fā)的顯著特點在于:DSS應用開發(fā)是從數(shù)據出發(fā)的;DSS應用的需求不能在開發(fā)初期明確了解;DSS應用開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)。DS

16、S應用主要可分為兩類:例行分析處理和啟發(fā)式分析 處理。例行分析處理是指那些重復進行的分析處理,它通常是屬于部門級的應用,如部門統(tǒng)計分析,報表分析 等等;而個人級的分析應用經常是隨機性很大的,企業(yè)經營者受到某種信息啟發(fā) 而進行的一些即席的分析處理,所以我們稱之為啟發(fā)式的分析處理。DSS應用開發(fā)的大致步驟如下: 確定所需的數(shù)據 確定所需的數(shù)據。步驟l 確定所需 的數(shù)據為滿足DSS應用的要求,我們必須從數(shù)據倉庫中確定一個 可能用到的數(shù)據 范圍。這是一個試探的過程。步驟2編程抽取數(shù)據根據上面得到的數(shù)據范 圍,編寫一個抽取程序來獲得這些數(shù)一一編程抽取數(shù)據。編程抽取數(shù)據據。為適 應分析需求多變的特點,要求

17、所編寫的抽取程序應該通用,易于修改。步驟3合并數(shù)據。如果有多個數(shù)據抽取源,要將抽取來的數(shù)據進行合并、提煉,使一一合并數(shù)據。合并數(shù)據 數(shù)據符合分析處理的要求。 一一分析數(shù)據 在上步準備好的數(shù) 據基礎上進行分析處理,并看所得的結果是否 分析數(shù)據。步驟4分析數(shù)據。 滿足了原始的要求,如果不能滿足,貝U返回步驟 1,開始新的一次循環(huán),否則就準 備最終分 析結果報告。一一回答問題回答問題。步驟5回答問題。生成最終 分析結果報告。一般情況下,最終的分析結果報告是在 許多次的循環(huán)后得到的, 因為一次分析處理很少是在一次循環(huán)后就完成的。步驟6例行化、一次分析處理的最后、一一例行化、我們要決定是否將在上面已經建立的分析處 例行化 理例行化。如果建立的分析處理是重復進行的部門級的DSS應用,那么最好是將它例行化,這樣在進行下一次同樣的分析處理時,不必再重復上述六步的循環(huán)過程。 而且,不斷地積 累這種例行處理,形成一個集合,我們就可以通過組合這些已有 的處

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論