第3章-設計數(shù)據(jù)倉庫-3_第1頁
第3章-設計數(shù)據(jù)倉庫-3_第2頁
第3章-設計數(shù)據(jù)倉庫-3_第3頁
第3章-設計數(shù)據(jù)倉庫-3_第4頁
第3章-設計數(shù)據(jù)倉庫-3_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第第3 3章章 設計數(shù)據(jù)倉庫設計數(shù)據(jù)倉庫(3)(3)物理設計物理設計n物理設計中需要考慮的各種因素的核心是物理I/O效率。n數(shù)據(jù)倉庫設計者的主要工作是組織好物理數(shù)據(jù),以保證執(zhí)行一次物理I/O能返回最大數(shù)量的記錄物理數(shù)據(jù)模型物理數(shù)據(jù)模型n物理數(shù)據(jù)模型由中間層數(shù)據(jù)模型創(chuàng)建而來n物理模型通過擴展中間層數(shù)據(jù)模型,使模型中包含關(guān)鍵字和物理特性n設計出物理數(shù)據(jù)模型的關(guān)系表后,主要的就是要進行性能優(yōu)化n第一步:確定數(shù)據(jù)的粒度和分區(qū)n數(shù)據(jù)分組n合并表n選擇冗余n進一步分離數(shù)據(jù)n導出數(shù)據(jù)n預格式化、預分配n人工關(guān)系n預連接表粒度設計n預測不同體系結(jié)構(gòu)的粒度需求n數(shù)據(jù)倉庫中的數(shù)據(jù)需要處于最低的公共細節(jié)水平n數(shù)據(jù)倉

2、庫中的數(shù)據(jù)粒度必須是任何數(shù)據(jù)集市所需要數(shù)據(jù)中的最小粒度。n粒度設計與數(shù)據(jù)量估計n將來的數(shù)據(jù)行數(shù)n所需的DASD(直接存取存儲設備)數(shù)估計數(shù)據(jù)量估計數(shù)據(jù)量n計算數(shù)據(jù)倉庫占用空間的方法:n第一步:確定數(shù)據(jù)倉庫中將要創(chuàng)建的所有表n第二步:估計一年內(nèi)可能的最少行數(shù)與最多行數(shù)n第三步:估計五年內(nèi)可能的最少行數(shù)與最多行數(shù)n第四步:估計索引數(shù)據(jù)占用的空間n第五步:計算空間n一年總的最大空間=最大行大小*一年內(nèi)最大行數(shù)n一年總的最小空間=最小行大小*一年內(nèi)最小行數(shù)n另外,考慮備份和恢復所需要的空間n估算結(jié)果的準確程度只需要達到數(shù)量級數(shù)據(jù)量與粒度設計數(shù)據(jù)量與粒度設計n應該考慮五年后如下因素:n有更多的技術(shù)管理大

3、量數(shù)據(jù)n硬件費用下降n功能更強大的軟件工具n最終用戶更加專業(yè)化粒度與存儲器粒度與存儲器n歷史數(shù)據(jù)與細節(jié)數(shù)據(jù)造成了數(shù)據(jù)的顯著增長n根據(jù)數(shù)據(jù)使用頻率,可將數(shù)據(jù)分為二類:n經(jīng)常使用的數(shù)據(jù)n不經(jīng)常使用的數(shù)據(jù)(睡眠數(shù)據(jù))n解決方案:n睡眠數(shù)據(jù)轉(zhuǎn)移至海量備用存儲器或近線存儲器n常用的溢出存儲器可分為:n低性能的磁盤存儲器n近線存儲器n串行磁帶n粒度設計反饋技巧粒度設計反饋技巧n提高數(shù)據(jù)粒度的方法:n數(shù)據(jù)進入數(shù)據(jù)倉庫時,進行匯總n數(shù)據(jù)進入數(shù)據(jù)倉庫時,求平均值n數(shù)據(jù)集的最大/最小值放入數(shù)據(jù)倉庫n只放入顯然需要的數(shù)據(jù)n用條件邏輯選擇需要的數(shù)據(jù)n系統(tǒng)需求了解到50%左右時即可以開始建造數(shù)據(jù)倉庫n當正常的業(yè)務事務記

4、錄準備放入數(shù)據(jù)倉庫時,高粒度級別的數(shù)據(jù)可能需要分解到低粒度級別。n而對于一些低粒度級的數(shù)據(jù),如生產(chǎn)過程控制、網(wǎng)絡環(huán)境中產(chǎn)生的點擊流數(shù)據(jù)等,必須對數(shù)據(jù)進行編輯、重新排序和匯總等處理。規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n數(shù)據(jù)模型處理的輸出是一系列表,每個表都包含關(guān)鍵字和屬性n設計生成的許多小表進行連接運算時,會造成I/O性能的急劇下降n方法1:將這些表物理合并,使得I/O代價最小化規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n創(chuàng)建數(shù)據(jù)數(shù)組n要求數(shù)列中值的數(shù)量穩(wěn)定、數(shù)據(jù)是按順序訪問的、數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計上是以非常有規(guī)律的方式進行等n由于數(shù)據(jù)具有基于時間特性,因而可通過時間建立數(shù)組規(guī)范化與反向規(guī)范化規(guī)范

5、化與反向規(guī)范化n2.有意引入冗余數(shù)據(jù)規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n3.數(shù)據(jù)分離n當數(shù)據(jù)訪問頻率相差懸殊時,將數(shù)據(jù)作進一步分離規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n4.通過引入導出數(shù)據(jù)減少I/O代價規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n5.建立創(chuàng)造性索引或創(chuàng)造性概要文件n如果對管理有價值的需求能夠預見,就更有意義規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n6.參照完整性管理n數(shù)據(jù)倉庫環(huán)境中應采用不同方法表示參照完整性分區(qū)設計方法分區(qū)設計方法n數(shù)據(jù)分區(qū)是指把數(shù)據(jù)分散到可獨立處理的分離物理單元中.n數(shù)據(jù)分區(qū)的優(yōu)點:n數(shù)據(jù)裝載n數(shù)據(jù)訪問n數(shù)據(jù)存檔n數(shù)據(jù)刪除n數(shù)據(jù)監(jiān)控n數(shù)據(jù)存儲n分區(qū)的目的把數(shù)據(jù)劃分成

6、小的可管理的物理單元n任何給定的數(shù)據(jù)單元屬于且僅屬于一個分區(qū)分區(qū)設計方法分區(qū)設計方法n數(shù)據(jù)分區(qū)的標準:n時間n業(yè)務范圍n地理位置n組織單位n所有上述標準其中,日期幾乎總是分區(qū)標準中的一個必然組成部分n分區(qū)方式:n系統(tǒng)層上分區(qū)一定程度上指某些DBMS和操作系統(tǒng)的功能n應用層上分區(qū)由設計的應用程序完成,并由開發(fā)者和程序員嚴格控制應用層上分區(qū)相對更有意義,因為每年的數(shù)據(jù)可以有不同的定義, 而且數(shù)據(jù)從一個物理設備轉(zhuǎn)到另一個物理設備不會有問題數(shù)據(jù)倉庫的索引n大多數(shù)索引建立在維度表上n通常,數(shù)據(jù)倉庫索引比業(yè)務系統(tǒng)多n索引越多,需要存儲空間越大n大量的索引會影響裝置過程位圖索引n位圖是一個按序排列的點陣,每

7、個點對應索引列的不同取值n位圖索引支持低可選擇性的查詢。相比B樹,占用存儲空間更少n如果有新值加入,位圖索引必須重新構(gòu)建n在訪問位圖索引之后總是要訪問數(shù)據(jù)表位圖索引的優(yōu)勢n如果將位圖組織為向量組,可以不必加載整個位圖,而只獲取與查詢有關(guān)的向量的磁盤頁n可以非常高效的使用布爾運算符事實表的索引n為全部的主鍵建立一個B樹索引n經(jīng)常用到的鍵作為組合鍵中級別高的鍵n經(jīng)常查詢的字段也可以建立索引n指定范圍的現(xiàn)金銷售額n位圖索引不適應事實表維度表的索引n主鍵上建立B樹索引n為經(jīng)常查詢的列建立位圖索引n常用于連接的列建立單獨的索引元數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)描述數(shù)據(jù)以及管理數(shù)據(jù)的環(huán)境,擔任數(shù)據(jù)倉庫的數(shù)據(jù)組織工作。元數(shù)

8、據(jù)描述數(shù)據(jù)以及管理數(shù)據(jù)的環(huán)境,擔任數(shù)據(jù)倉庫的數(shù)據(jù)組織工作。元數(shù)據(jù)常常被定義為元數(shù)據(jù)常常被定義為“關(guān)于數(shù)據(jù)的數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù)”。文件文件/ /表表 邏輯名邏輯名 顧客顧客 定義定義 購買商品或服務的團體或個人購買商品或服務的團體或個人 物理名物理名 TDW_CSTTDW_CST 記錄編輯過程名記錄編輯過程名 PRC_CSTPRC_CST屬性屬性 邏輯名邏輯名 顧客標識顧客標識 定義定義 賦予每個顧客的唯一標識賦予每個顧客的唯一標識 物理名物理名 CST _IDCST _ID 類型類型 CHARACTERCHARACTER 長度長度 6 6 能否為空能否為空 NOTNOTNULLNULL 域編輯

9、過程名域編輯過程名 PFC_CST_IDPFC_CST_ID元數(shù)據(jù)的一個例子元數(shù)據(jù)的一個例子元數(shù)據(jù)的內(nèi)容n元數(shù)據(jù)在數(shù)據(jù)倉庫環(huán)境主要包括以下方面:n表結(jié)構(gòu)、表屬性、源數(shù)據(jù)、記錄到數(shù)據(jù)倉庫的映射、數(shù)據(jù)模型說明、抽取日志、訪問數(shù)據(jù)的公用例行程序、數(shù)據(jù)的定義/描述、數(shù)據(jù)單元之間的關(guān)系。n可分為業(yè)務元數(shù)據(jù)與技術(shù)元數(shù)據(jù)二類30元數(shù)據(jù)模型元數(shù)據(jù)模型輸入輸入/ /輸出對象輸出對象IOIO對象對象IDID定義定義IOIO類型類型狀態(tài)狀態(tài)向?qū)驅(qū)Т鏅n周期存檔周期關(guān)系成員關(guān)系成員關(guān)系關(guān)系IDID(FKFK)IOIO對象對象IDID(FKFK)關(guān)系角色編碼關(guān)系角色編碼關(guān)系級別關(guān)系級別關(guān)系約束關(guān)系約束關(guān)系關(guān)系IDID關(guān)

10、系類型關(guān)系類型業(yè)務規(guī)則業(yè)務規(guī)則關(guān)系關(guān)系IOIO對象對象IDID數(shù)據(jù)集名數(shù)據(jù)集名文件文件IOIO對象對象IDID主題區(qū)主題區(qū)IDIDDBDB位置位置表表IOIO類型類型關(guān)系鍵關(guān)系鍵關(guān)系關(guān)系IDID(FKFK)IOIO對象對象IDID(FKFK)域域IDID(FKFK)順序號順序號域域IOIO對象對象IDID(FKFK)域域IDID(FKFK)數(shù)據(jù)元素名(數(shù)據(jù)元素名(FKFK)列號列號起始位置起始位置類型類型長度長度域域IDID賦值約束賦值約束缺省值缺省值源系統(tǒng)源系統(tǒng)IDID圖格式圖格式角色編碼角色編碼最后被訪問數(shù)據(jù)最后被訪問數(shù)據(jù)數(shù)據(jù)元素名數(shù)據(jù)元素名定義定義類型類型長度長度向?qū)驅(qū)в蛴騃DID數(shù)據(jù)

11、元素數(shù)據(jù)元素31元數(shù)據(jù)工作的一個例子元數(shù)據(jù)工作的一個例子13社會保險號社會保險號雇員雇員社會保險號(社會保險號(FKFK)技能編碼(技能編碼(FKFK)雇員技能雇員技能技能編碼技能編碼 技能技能12IOIO對象對象IDID雇員雇員雇員技能雇員技能技能技能輸入輸出對象輸入輸出對象關(guān)系關(guān)系ID IOID IO對象對象IDID 12 12 雇員雇員 12 12 雇員技能雇員技能 13 13 雇員技能雇員技能 13 13 技能技能關(guān)系成員關(guān)系成員 關(guān)系關(guān)系IDID 12 12 13 13關(guān)系鍵關(guān)系鍵關(guān)系關(guān)系關(guān)系關(guān)系ID IOID IO對象對象ID ID 域域IDID12 12 雇員雇員 社會保險號社會

12、保險號12 12 雇員技能雇員技能 社會保險號社會保險號13 13 技能技能 技能編碼技能編碼13 13 雇員技能雇員技能 技能編碼技能編碼元數(shù)據(jù)的作用元數(shù)據(jù)的作用n描述什么在數(shù)據(jù)倉庫中。描述什么在數(shù)據(jù)倉庫中。n制作系統(tǒng)設計文檔。制作系統(tǒng)設計文檔。n測量數(shù)據(jù)品質(zhì)。測量數(shù)據(jù)品質(zhì)。n監(jiān)視數(shù)據(jù)同步操作。監(jiān)視數(shù)據(jù)同步操作。n規(guī)定什么樣的數(shù)據(jù)進入和離開數(shù)據(jù)倉庫。規(guī)定什么樣的數(shù)據(jù)進入和離開數(shù)據(jù)倉庫。n根據(jù)事件時間表安排數(shù)據(jù)抽取和監(jiān)視導入根據(jù)事件時間表安排數(shù)據(jù)抽取和監(jiān)視導入(import)工作。)工作。n繪制由源系統(tǒng)數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉庫數(shù)據(jù)的映射繪制由源系統(tǒng)數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉庫數(shù)據(jù)的映射圖。圖。n選擇不同級別的

13、數(shù)據(jù)綜合算法。選擇不同級別的數(shù)據(jù)綜合算法。元數(shù)據(jù)的作用元數(shù)據(jù)的作用n元數(shù)據(jù)在操作型環(huán)境與數(shù)據(jù)倉庫中扮演著不同的角色:n在操作型環(huán)境中,元數(shù)據(jù)幾乎是事后補記,并歸入到與文檔相同的重要性級別。而數(shù)據(jù)倉庫環(huán)境中元數(shù)據(jù)重要性提高。n二種環(huán)境中元數(shù)據(jù)服務于不同的群體。操作型服務于IT人員,數(shù)據(jù)倉庫服務于DSS分析人員n元數(shù)據(jù)涉及到對二種環(huán)境中數(shù)據(jù)的映射管理n數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)需要隨時間變化追蹤數(shù)據(jù)結(jié)構(gòu)的變化元數(shù)據(jù)的收集與維護n1元數(shù)據(jù)的收集n(1)來源于源系統(tǒng)元數(shù)據(jù)操作型系統(tǒng)數(shù)據(jù)模型系統(tǒng)文檔的數(shù)據(jù)元素定義COBOL寫字板及控制塊規(guī)范物理文件布局及字段定義程序規(guī)范外部數(shù)據(jù)來源的文件布局和字段定義其他來

14、源(如:電子表格)源系統(tǒng)中元數(shù)據(jù)收集n(2) 來源于抽取的數(shù)據(jù)元數(shù)據(jù)源 平 臺 的數(shù) 據(jù) 和 連接所選擇的數(shù)據(jù)源的布局和定義每個平臺上初始抽取文件的合并準則用 于 抽 取的 字 段 定義標準化字段類型與長度的規(guī)則數(shù) 據(jù) 抽 取計劃增 量 修 改的 抽 取 方法數(shù) 據(jù) 抽 取任務流從抽取的數(shù)據(jù)種收集元數(shù)據(jù) n(3)來源于轉(zhuǎn)換和清理的數(shù)據(jù)元數(shù)據(jù)抽取文件到數(shù)據(jù)準備文件的映射規(guī)范單獨文件的轉(zhuǎn)換規(guī)則字段默認有效性檢查的商業(yè)規(guī)則分類及重排序安排從數(shù)據(jù)抽取到數(shù)據(jù)準備的審查跟蹤從轉(zhuǎn)換和清洗的數(shù)據(jù)中收集元數(shù)據(jù)n(4)來源于裝載的數(shù)據(jù)元數(shù)據(jù)從數(shù)據(jù)準備文件到裝載映像的映射規(guī)則數(shù)據(jù)準備到裝載映像的審查跟蹤為每個文件分配鍵時的分配規(guī)則完全刷新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論