




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第3章數(shù)據(jù)倉庫開發(fā)應用過程,數(shù)據(jù)倉庫的開發(fā)應用像生物一樣具有其特有的、完整的生命周期,數(shù)據(jù)倉庫的開發(fā)應用周期可以分成:數(shù)據(jù)倉庫規(guī)劃分析階段、數(shù)據(jù)倉庫設計實施階段以及數(shù)據(jù)倉庫的使用維護三個階段。 這三個階段是一個不斷循環(huán)、完善、提高的過程。在一般情況下數(shù)據(jù)倉庫系統(tǒng)不可能在一個循環(huán)過程中完成,而是經(jīng)過多次循環(huán)開發(fā),每次循環(huán)都會為系統(tǒng)增加新的功能,使數(shù)據(jù)倉庫的應用得到新的提高。 本章學習目標: (1) 了解數(shù)據(jù)倉庫開發(fā)應用的特點 。 (2) 掌握數(shù)據(jù)倉庫的規(guī)劃 、數(shù)據(jù)倉庫的概念模型設計 、數(shù)據(jù)倉庫的邏輯模型設計 、數(shù)據(jù)倉庫的物理模型設計 和數(shù)據(jù)倉庫的實施 。 (3) 了解數(shù)據(jù)倉庫的應用、支持和增強。
2、,數(shù)據(jù)倉庫開發(fā)應用過程,3.1數(shù)據(jù)倉庫開發(fā)應用過程 3.2數(shù)據(jù)倉庫的規(guī)劃 3.3數(shù)據(jù)倉庫的概念模型設計 3.4數(shù)據(jù)倉庫的邏輯模型設計 3.5數(shù)據(jù)倉庫的物理模型設計 3.6數(shù)據(jù)倉庫的實施 3.7數(shù)據(jù)倉庫的應用、支持和增強 練 習,3.1數(shù)據(jù)倉庫開發(fā)應用的特點,3.1.1 數(shù)據(jù)倉庫開發(fā)應用的階段性 數(shù)據(jù)倉庫的開發(fā)應用過程劃分為: 創(chuàng)始階段 成長階段 控制階段 成熟階段,3.1.2 數(shù)據(jù)倉庫的螺旋式開發(fā)方法,規(guī)劃 分析階段 數(shù)據(jù)倉庫 開發(fā)過程 設計實施 使用維護階段 階段,3.2 數(shù)據(jù)倉庫的規(guī)劃,3.2.1 選擇數(shù)據(jù)倉庫實現(xiàn)策略,開發(fā)策略主要有: 自頂向下:實際應用比較困難 。 自底向上:用于一個數(shù)
3、據(jù)集市或一個部門的數(shù)據(jù)倉庫開發(fā) ,容易獲得成功 。 兩種策略的聯(lián)合使用 :能夠快速地完成數(shù)據(jù)倉庫的開發(fā)與應用,而且還可以建立具有長遠價值的數(shù)據(jù)倉庫方案。在實際使用中難以操作 。,3.2.2 確定數(shù)據(jù)倉庫的開發(fā)目標和實現(xiàn)范圍,首要目標是確定所需要信息的范圍,確定數(shù)據(jù)倉庫在為用戶提供決策幫助時,在主題和指標領(lǐng)域需要哪些數(shù)據(jù)源。 另一個重要目標是確定利用哪些方法和工具訪問和導航數(shù)據(jù)? 其它目標是確定數(shù)據(jù)倉庫內(nèi)部數(shù)據(jù)的規(guī)模 從用戶的角度分析 從技術(shù)的角度分析,3.2.3 數(shù)據(jù)倉庫的結(jié)構(gòu),1.數(shù)據(jù)倉庫的應用結(jié)構(gòu) 基于業(yè)務處理系統(tǒng)的數(shù)據(jù)倉庫 單純數(shù)據(jù)倉庫 單純數(shù)據(jù)集市 數(shù)據(jù)倉庫和數(shù)據(jù)集市 2.數(shù)據(jù)倉庫的技
4、術(shù)平臺結(jié)構(gòu) 單層結(jié)構(gòu) 客戶/服務器兩層結(jié)構(gòu) 三層客戶/服務器 多層式結(jié)構(gòu),3.2.4 數(shù)據(jù)倉庫使用方案和項目規(guī)劃預算,實際使用方案還可以將最終用戶的決策支持要求與數(shù)據(jù)倉庫的技術(shù)要求聯(lián)系起來 開發(fā)方案的預算進行估計 編制數(shù)據(jù)倉庫開發(fā)說明書 : 說明系統(tǒng)與企業(yè)戰(zhàn)略目標的關(guān)系,系統(tǒng)與企業(yè)急需處理的、范圍相對有限的開發(fā)機會。 業(yè)務機會的說明以及任務概況說明、重點支持的職能部門和今后工作的建議。 計劃中需要闡明期望取得的有形和無形利益 業(yè)務價值計劃最好由目標業(yè)務主管來完成 規(guī)劃書中要確定數(shù)據(jù)倉庫的開發(fā)目標實現(xiàn)范圍、體系結(jié)構(gòu)和使用方案及開發(fā)預算。,3.3 數(shù)
5、據(jù)倉庫的概念模型設計,概念模型的設計可以分為以下幾個階段:用戶需求調(diào)查、模型定義、模型分析和模型設計。 3.3.1 概念模型的需求調(diào)查 數(shù)據(jù)倉庫開發(fā)的任務書 首先要明確用戶的信息需求 了解管理人員在信息需求方面的內(nèi)容 了解關(guān)于信息的來源 組織所使用的系統(tǒng)環(huán)境,3.3.2 概念模型的定義,1.數(shù)據(jù)倉庫用戶的決策分析 2.支持決策的數(shù)據(jù)需求分析 3.數(shù)據(jù)需求分析工具,3.3.2 概念模型的定義,4.CRUD矩陣,C:Create產(chǎn)生、R:Read引用、U:Update更新 D:Delete刪除。,3.3.2 概念模型的定義,5.企業(yè)業(yè)務處理系統(tǒng)數(shù)據(jù)存儲表,3.3.3 概念模型的分析,3.3.4 概
6、念模型的設計,3.3.5 概念模型文檔與評審,1.概念模型設計文檔 數(shù)據(jù)倉庫開發(fā)需求分析報告 概念模型分析報告 概念模型 概念模型的評審報告。 2.概念模型的評審 3.概念模型的評審人員 4.概念模型的評審內(nèi)容 數(shù)據(jù)倉庫開發(fā)任務書;用戶決策分析信息需求調(diào)查表;數(shù)據(jù)倉庫主題;E-R圖、星型模型和雪花模型。,3.4 數(shù)據(jù)倉庫的邏輯模型設計,數(shù)據(jù)倉庫的邏輯模型設計任務: 分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題; 確定粒度層次劃分; 確定數(shù)據(jù)分割策略; 關(guān)系模式的定義和記錄系統(tǒng)定義、確定數(shù)據(jù)抽取模型等。 邏輯模型最終設計成果: 每個主題的邏輯定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中 粒度劃分 數(shù)據(jù)分
7、割策略 表劃分和數(shù)據(jù)來源等。,3.4.1 分析主題域,3.4.2 粒度層次和聚集的確定,3.4.3 確定數(shù)據(jù)分割策略,數(shù)據(jù)分割標準 1.數(shù)據(jù)量 2.數(shù)據(jù)分析處理的對象 3.粒度分割的策略,3.4.4 關(guān)系模型定義,3.4.5 數(shù)據(jù)倉庫的實體定義,實體的邏輯分析 實體所有列的具體特征,3.4.5 數(shù)據(jù)倉庫的實體定義,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,F1 數(shù)據(jù)抽取規(guī)則,P2 清理數(shù)據(jù)記錄,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,2.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、轉(zhuǎn)換與加載計劃 (1)影響數(shù)據(jù)抽取、轉(zhuǎn)換與加載的因素 數(shù)據(jù)格式 壞數(shù)據(jù) 系統(tǒng)的兼容性 數(shù)據(jù)源的變化 數(shù)據(jù)抽取的時間 (2)數(shù)據(jù)抽取、轉(zhuǎn)換與加載對策
8、全庫比較 利用程序日志 利用數(shù)據(jù)庫日志 利用時間戳或利用位圖索引,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,3.數(shù)據(jù)倉庫的數(shù)據(jù)清理轉(zhuǎn)換方法 (1)類型轉(zhuǎn)換 (2)串操作 (3)數(shù)學函數(shù) (4)參照完整性 (5)關(guān)鍵字翻譯 (6)聚集運算 4.數(shù)據(jù)倉庫的數(shù)據(jù)抽取、清理與轉(zhuǎn)換模型,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,數(shù)據(jù)源抽取對象表,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,數(shù)據(jù)源抽取規(guī)則表,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,數(shù)據(jù)抽取的目標列與源列對應關(guān)系表,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,數(shù)據(jù)抽取過程的排序、概括和導出情況表,3.4.6 數(shù)據(jù)倉庫的數(shù)據(jù)抽取模型,數(shù)據(jù)概括表與事實表對應關(guān)系,3.4.7
9、數(shù)據(jù)倉庫的元數(shù)據(jù)模型建立與應用,3.4.8 邏輯模型的評審,邏輯模型的文檔內(nèi)容:主題域分析報告,數(shù)據(jù)粒度劃分模型,數(shù)據(jù)分割策略,指標實體、維實體與詳細類別實體的關(guān)系模式和數(shù)據(jù)抽取模型。 對邏輯模型的評審主要集中在主題域是否可以正確地反映用戶的決策分析需求。 從用戶對概括數(shù)據(jù)使用的要求,評審數(shù)據(jù)粒度的劃分和數(shù)據(jù)分割策略是否可以滿足用戶決策分析的需要。 為提高數(shù)據(jù)倉庫的運行效率是否需要對關(guān)系模式進行反規(guī)范化處理。 數(shù)據(jù)的抽取模型是否正確地建立了數(shù)據(jù)源與數(shù)據(jù)倉庫的對應關(guān)系。 數(shù)據(jù)的約束條件和業(yè)務規(guī)則是否在這些模型中得到了正確的反映。,3.5 數(shù)據(jù)倉庫的物理模型設計,表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、數(shù)據(jù)存
10、放位置以及數(shù)據(jù)存儲分配等等。 物理模型設計因素:I/O存取時間、空間利用率和維護的代價。 工作: 全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法。 了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式、數(shù)據(jù)規(guī)模以及響應時間要求等。 了解外部存儲設備的特征。,3.5.1 數(shù)據(jù)倉庫設計的規(guī)范,保證數(shù)據(jù)倉庫的設計、實施和管理保持穩(wěn)定,不產(chǎn)生混亂,需要對物理數(shù)據(jù)模型中的實體、表、列等進行規(guī)范化處理。使整個數(shù)據(jù)倉庫的物理數(shù)據(jù)模型能夠保持一致。 規(guī)范化內(nèi)容主要有:完整清晰的數(shù)據(jù)定義、合適的數(shù)據(jù)格式等。 數(shù)據(jù)倉庫中的每個組件或部件都確定相應的設計標準。,3.5.2
11、 確定數(shù)據(jù)結(jié)構(gòu)的類型,數(shù)據(jù)非規(guī)范化處理的優(yōu)點有: 能減少對表聯(lián)結(jié)的需求,提高數(shù)據(jù)倉庫運行性能。 能減少編寫專門決策支持應用程序的工作量,因為運用一些專門的查詢工具,可以更容易訪問數(shù)據(jù)。 可以讓用戶以直觀的易于理解的工具來操作數(shù)據(jù),例如,可以利用電子報表來查看數(shù)據(jù)。,3.5.3 數(shù)據(jù)倉庫索引的創(chuàng)建,1.索引創(chuàng)建策略 建立索引時,按照索引使用的頻率,由高到低逐步添加。 按主關(guān)鍵字和大多數(shù)外部關(guān)鍵字建立索引 2.事實表索引的創(chuàng)建 事實表中一定要設置主鍵 3.維表索引的創(chuàng)建 4.數(shù)據(jù)加載索引的創(chuàng)建,3.5.4 確定數(shù)據(jù)存放位置,數(shù)據(jù)的布局原則: 不要把經(jīng)常需要連接的幾張表放在同一存儲設備上。 如果幾臺
12、服務器之間的連接會造成嚴重的網(wǎng)絡業(yè)務量的問題,則要考慮服務器復制表格。 考慮把整個企業(yè)共享的細節(jié)數(shù)據(jù)放在主機或其他集中式服務器上。 別把表格和它們的索引放在同一設備上。一般可以將索引存放在高速存儲設備上,而表格則存放在一般存儲設備上,以加快數(shù)據(jù)的查詢速度。,3.5.5 確定存儲分配,3.5.6 數(shù)據(jù)倉庫物理模型的評審,理設計評審的目標要確定: 物理模型在滿足數(shù)據(jù)倉庫使用的靈活性、性能、數(shù)據(jù)完整性、系統(tǒng)可用性、數(shù)據(jù)的當前性和用戶的滿意度等,具體的評審項目有:表空間、分區(qū)、表格、數(shù)據(jù)壓縮、控制表和引用表、索引、數(shù)據(jù)量、數(shù)據(jù)分布、線路通信量、數(shù)據(jù)倉庫的更新、概況數(shù)據(jù)、預期變動和數(shù)據(jù)的文檔化。,3.6
13、 數(shù)據(jù)倉庫的實施,實施過程中需要完成的工作: 建立數(shù)據(jù)倉庫與業(yè)務處理系統(tǒng)的接口 數(shù)據(jù)倉庫的體系結(jié)構(gòu)建立 實現(xiàn)數(shù)據(jù)倉庫物理倉庫與元數(shù)據(jù)庫 進行數(shù)據(jù)倉庫的數(shù)據(jù)初次加載 完成數(shù)據(jù)倉庫的中間件設計 進行數(shù)據(jù)倉庫的測試。,3.6.1 數(shù)據(jù)倉庫與業(yè)務處理系統(tǒng)接口的設計,接口應該具有這樣一些功能: 從面向應用和操作環(huán)境生成完整的數(shù)據(jù); 數(shù)據(jù)基于時間的轉(zhuǎn)換; 數(shù)據(jù)的聚集; 對現(xiàn)有數(shù)據(jù)系統(tǒng)的有效掃描,以便今后數(shù)據(jù)倉庫的數(shù)據(jù)追加。,3.6.2 數(shù)據(jù)倉庫的創(chuàng)建,關(guān)系型數(shù)據(jù)庫、多維數(shù)據(jù)庫和對象數(shù)據(jù)庫 創(chuàng)建數(shù)據(jù)倉庫的工具: MS SQL Server2000 Oracle9i Sybase Informix Red B
14、rick Decision Server,3.6.3 數(shù)據(jù)倉庫的數(shù)據(jù)加載、復制與發(fā)行,數(shù)據(jù)加載之前,首先需要對準備加載的數(shù)據(jù)進行清理 復制技術(shù) 復制結(jié)構(gòu)應完成以下的復雜任務: 不會受到系統(tǒng)失敗等問題的影響,保證提供可靠的數(shù)據(jù)復制。 只傳送符合數(shù)據(jù)完整性規(guī)則的一致數(shù)據(jù)。 可以優(yōu)化傳送過程,減少在捕獲或修改數(shù)據(jù)和復制品作為結(jié)果傳送之間的等待時間。 技術(shù)和數(shù)據(jù)結(jié)構(gòu)應保證數(shù)據(jù)發(fā)行系統(tǒng)完成以下的功能: 保證數(shù)據(jù)以適時和有效的方式發(fā)行。 保證只發(fā)送被排序的數(shù)據(jù)。 建立正確的和所需要的服務水平標準。,3.6.4 數(shù)據(jù)倉庫的中間件設計,1.代碼發(fā)生器 2.數(shù)據(jù)復
15、制工具 3.數(shù)據(jù)泵 4.廣義數(shù)據(jù)獲取工具和設備 拷貝中間件還應該能夠進行數(shù)據(jù)清潔工作 可對記錄或列重組、去除業(yè)務數(shù)據(jù)、供給已丟失的字段值和檢查數(shù)據(jù)的完整性和一致性 對列值的解碼和轉(zhuǎn)換 增加數(shù)據(jù)的時間戳 數(shù)據(jù)的概括或者衍生值的計算,3.6.5 數(shù)據(jù)倉庫的測試,1.單元測試 單元測試的目的是尋找出存在于單個程序、存儲過程和其它位于一些獨立環(huán)境中模塊的錯誤。 2.系統(tǒng)集成測試 測試目的是驗證每個單元與數(shù)據(jù)倉庫系統(tǒng)和子系統(tǒng)之間的接口是否完好,是否能夠正常傳遞數(shù)據(jù)與執(zhí)行系統(tǒng)的整體功能。,3.7 數(shù)據(jù)倉庫的應用、支持和增強,3.7.1 數(shù)據(jù)倉庫的用戶培訓及支持 1.用戶的培訓 向用戶解釋清楚數(shù)據(jù)倉庫的作用
16、與原理 用各種案例向用戶說明如何使用數(shù)據(jù)倉庫 2.對數(shù)據(jù)倉庫用戶的支持 對數(shù)據(jù)倉庫應用成功案例的推廣 初始階段的支持 技術(shù)人員、商業(yè)分析人員與用戶一起討論,3.7.2 數(shù)據(jù)倉庫的使用方式,1.信息處理 2.分析處理 3.數(shù)據(jù)挖掘,3.7.3 數(shù)據(jù)倉庫使用中的數(shù)據(jù)刷新,1.從已有數(shù)據(jù)資源中獲取更多數(shù)據(jù) 2.從單位內(nèi)部獲取新的數(shù)據(jù)源 3.獲取新的或更多的行業(yè)數(shù)據(jù)源,3.7.4 數(shù)據(jù)倉庫的增強,1.元數(shù)據(jù)庫的局限性 2.缺乏外部數(shù)據(jù)源 3.數(shù)據(jù)倉庫數(shù)據(jù)加載性能不能滿足要求 4.數(shù)據(jù)倉庫應用范圍的擴大 5.數(shù)據(jù)倉庫整體性能的調(diào)整 6.數(shù)據(jù)倉庫重新規(guī)劃,練 習,1.為什么說數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)、逐步提升的開發(fā)過程? 2.數(shù)據(jù)倉庫的生命周期應該包含哪幾個階段?需要完成哪些工作? 3.在數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2.2社會主義制度在中國的確立 課件 統(tǒng)編版高中思想政治必修1中國特色社會主義
- 納稅評估工作總結(jié)十篇
- 老年日??祻妥o理課件
- 老年護理課件題目
- 老年人慢性病課件
- 老年中醫(yī)課件制作
- 通信設備車間使用權(quán)及技術(shù)轉(zhuǎn)讓合同模板
- 保險理賠責任限制條件合同
- 大學國家安全教育考試試題及答案
- 輔警培訓課件
- 《產(chǎn)科危急重癥早期識別中國專家共識(2024年版)》解讀課件
- 中醫(yī)外科一般護理常規(guī)
- 2025至2030中國礦用卡車行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 氟骨癥課件教學課件
- 腳手架知識試題集及答案
- 2025年河南省中考數(shù)學試題卷(含官方答案)
- SL631水利水電工程單元工程施工質(zhì)量驗收標準第1部分:土石方工程
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設計規(guī)范
- 第3課 象外之境-中國傳統(tǒng)山水畫 說課稿- 高中美術(shù)人教版(2019)美術(shù)鑒賞
- 第2課《說和做》課件(共30張ppt) 部編版語文七年級下冊
- 數(shù)獨題目大全及答案
評論
0/150
提交評論