3章數(shù)據(jù)倉庫設(shè)計_第1頁
3章數(shù)據(jù)倉庫設(shè)計_第2頁
3章數(shù)據(jù)倉庫設(shè)計_第3頁
3章數(shù)據(jù)倉庫設(shè)計_第4頁
3章數(shù)據(jù)倉庫設(shè)計_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第3章數(shù)據(jù)倉庫設(shè)計3.l數(shù)數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)模型概概述3.1..1數(shù)據(jù)據(jù)模型的的概念GraceFemaleStudentsStudents&Courses個體特性整體整體間聯(lián)系概念世界實體屬性同質(zhì)總體異質(zhì)總體計算機世界記錄字段表文件數(shù)據(jù)庫圖3-1現(xiàn)實世界到計算機世界的演化過程現(xiàn)實世界邏輯世界圖3-2數(shù)據(jù)據(jù)模型關(guān)關(guān)系現(xiàn)實世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫粒度模型元數(shù)據(jù)模型3.1..2數(shù)據(jù)據(jù)倉庫模模型構(gòu)建建的原則則1.滿足足不同用用戶的需需求2.兼顧顧效率與與數(shù)據(jù)粒粒度的需需要3.支持持需求的的變化4.避免免對業(yè)務(wù)務(wù)運營系系統(tǒng)造成成影響5.考慮慮未來的的可擴展展性3.1..3企業(yè)業(yè)數(shù)據(jù)模模型圖3-3分層數(shù)數(shù)據(jù)模型型目標(biāo)、結(jié)構(gòu)業(yè)務(wù)數(shù)據(jù)分類概念數(shù)據(jù)模型邏輯應(yīng)用視圖物理數(shù)據(jù)庫設(shè)計抽象具體總體分步3.2概概念模型型設(shè)計3.2..l企業(yè)業(yè)模型的的建立1.E--R模型型的概念念模型設(shè)設(shè)計過程程圖3-4E-R模模型的概概念模型型設(shè)計過過程任務(wù)和環(huán)境評估需求的收集分析主題選取,確定主題間關(guān)系容描述主題內(nèi)E-R圖對主題的的選擇進進行調(diào)整整2.E--R模型型設(shè)計中中的一些些說明(1)模模糊性::無法表表述數(shù)據(jù)據(jù)倉庫中中各數(shù)據(jù)據(jù)間的關(guān)關(guān)系,比比如:分分析數(shù)據(jù)據(jù),描述述數(shù)據(jù)和和細節(jié)數(shù)數(shù)據(jù)間的的關(guān)系;;(2)靜靜態(tài)性::時間參參數(shù)的存存在及作作用無法法體現(xiàn);;(3)局局限性::無法揭揭示數(shù)據(jù)據(jù)倉庫中中數(shù)據(jù)的的導(dǎo)出關(guān)關(guān)系。為了規(guī)避避這些不不足,在在E-R圖法中中,實體體被分為為事實實實體(FactEntity),,維度實實體(DimensionEntity),引引用實體體(QuotationEntity)),用圖圖3-5中的圖圖形分別別表示::事實實體維度實體引用實體圖3-5E-R圖中各實體符號3.2..2數(shù)據(jù)據(jù)模型的的規(guī)范表3-1數(shù)數(shù)據(jù)倉庫庫數(shù)據(jù)與與普通數(shù)數(shù)據(jù)庫系系統(tǒng)數(shù)據(jù)據(jù)的對比比數(shù)據(jù)倉庫的數(shù)據(jù)普通數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)長期框架短期框架靜態(tài)快速變化(動態(tài))數(shù)據(jù)一般是匯總的記錄級的訪問特殊查詢訪問標(biāo)準(zhǔn)查詢訪問定期更新實時更新數(shù)據(jù)驅(qū)動時間驅(qū)動3.2..3常見見的概念念模型1.星形形模型事實表維度表維度表維度表維度表維度表維度表圖3-8星形模型結(jié)構(gòu)示意圖2.雪花花模型詳細類別表事實表維度表維度表維度表維度表維度表維度表詳細類別表圖3-10雪花模型示例3.事事實星座座模型這種模型型用于更更為復(fù)雜雜的情況況。它的的中心不不只一個個中心,,而是由由多個中中心組成成,即存存在多個個事實表表,而每每個事實實表擁有有自己的的一組維維度表,,這些維維度表又又有可能能共享一一個事實實表,形形成一個個交叉,,復(fù)雜的的關(guān)系網(wǎng)網(wǎng)絡(luò)。但但是這種種模型在在實踐中中運用較較少。3.3邏邏輯模型型設(shè)計中間層邏輯模型中間層邏輯模型中間層邏輯模型中間層邏輯模型中間層邏輯模型圖3-11高層概念模型與邏輯模型的關(guān)系超類型子類型初始數(shù)據(jù)組連接數(shù)據(jù)組二次數(shù)據(jù)組類型數(shù)據(jù)組圖3-12邏輯模型中四種基本結(jié)構(gòu)3.3..l概念念模型到到邏輯數(shù)數(shù)據(jù)模型型的轉(zhuǎn)換換下面我們們以這個個例子為為基礎(chǔ)來來介紹一一下概念念模型是是如何向向星形模模型轉(zhuǎn)化化的。首首先,我我們了解解一下星星形模型型的設(shè)計計步驟::1.確定定決策需需求分析析2.從需需求中識識別出事事實3.確定定維4.確定定數(shù)據(jù)匯匯總的水水平5.設(shè)計計事實表表和維度度表6.檢驗驗設(shè)計方方案的有有效性((DBMS和分分析用戶戶工具))7.設(shè)計計方案隨隨需求變變化而改改動3.3..2數(shù)據(jù)據(jù)表的規(guī)規(guī)范化與與分割前面我們們已經(jīng)介介紹過了了什么是是依賴,,下面把把數(shù)據(jù)表表規(guī)范化化過程簡簡單歸納納如下::除去函數(shù)數(shù)依賴的的數(shù)據(jù)表表中的無無關(guān)的列列;移動可以以由某些些函數(shù)依依賴推導(dǎo)導(dǎo)出的函函數(shù)依賴賴;按相同的的決定因因素重排排函數(shù)依依賴;對每個函函數(shù)依賴賴組,用用決定因因素作為為主關(guān)鍵鍵字造表表;合并包含含其他表表的所有有列:選選擇其中中一個獨獨立表的的主關(guān)鍵鍵字作為為合并后后表的主主關(guān)鍵字字;給不不作為新新表的主主關(guān)鍵字字的其他他主關(guān)鍵鍵字定義義唯3.3..3維度度表的設(shè)設(shè)計維度表的的設(shè)計是是對事實實表的進進一步細細化。它它也要根根據(jù)邏輯輯模型來來設(shè)計。。每個事事實表都都需要大大量的數(shù)數(shù)據(jù)來對對其屬性性和細節(jié)節(jié)進行詳詳細說明明,而維維度表就就是將這這些詳細細說明的的數(shù)據(jù)按按其邏輯輯關(guān)系存存放的工工具。一一個維度度表擁有有很多屬屬性,這這些屬性性可以是是文字,,離散值值和有規(guī)規(guī)定的限限制,在在分析過過程中可可以作為為信息的的行標(biāo)題題。需要注意意的是,,在設(shè)計計事實表表和維度度表之間間的關(guān)系系時,盡盡量讓維維度表中中的數(shù)據(jù)據(jù)直接參參考事實實表中的的數(shù)據(jù),,而不是是通過其其他維度度表間接接參考事事實表。。這樣,,可以最最小化表表之間的的連接數(shù)數(shù)量,減減少系統(tǒng)統(tǒng)CPU和I//O通道道及存儲儲設(shè)備的的負(fù)擔(dān)。。3.3..4事實實表的設(shè)設(shè)計事實表是是星形模模型的核核心。它它一般包包含兩部部分:鍵鍵和詳細細指標(biāo)。。其中,,鍵又分分為主鍵鍵和外鍵鍵,它們們將各維維表組織織起來,,共同滿滿足用戶戶的查詢詢需求,,而詳細細指標(biāo)則則是記錄錄在事實實表中的的具體數(shù)數(shù)據(jù),供供查詢使使用。3.3..5數(shù)據(jù)據(jù)集市設(shè)設(shè)計獨立數(shù)據(jù)集市用戶圖3-18獨立型數(shù)據(jù)集市結(jié)構(gòu)從屬型數(shù)數(shù)據(jù)集市市結(jié)構(gòu)如如圖3--19所所示從屬數(shù)據(jù)集市圖3-19從屬型數(shù)據(jù)集市結(jié)構(gòu)3.3物物理模型型設(shè)計定義數(shù)據(jù)存儲結(jié)構(gòu)RAID0數(shù)據(jù)帶狀分布在多個磁盤上,無冗余。高性能,低成本,但磁盤損壞導(dǎo)致整個磁盤整列無法使用。RAID1磁盤鏡像,數(shù)據(jù)寫入成對的冗余驅(qū)動器。可讀性能高,可靠性高,昂貴。RAID2數(shù)據(jù)按位或塊交錯分布,校驗碼由額外驅(qū)動器存儲。高性能,糾錯一位,驗錯兩位,昂貴。RAID3數(shù)據(jù)按位或塊交錯存儲,一個驅(qū)動器存儲校驗數(shù)據(jù)。對大塊數(shù)據(jù)性能較高,不支持運行恢復(fù)。RAID4數(shù)據(jù)按扇區(qū)交錯存儲,校驗數(shù)據(jù)由專門驅(qū)動器存儲。處理多個系統(tǒng)的I/O操作,兩個驅(qū)動器。RAID5數(shù)據(jù)按扇區(qū)交錯存儲于多個驅(qū)動器。不需專門的校驗驅(qū)動器,需要兩個或三個驅(qū)動器,寫入能力弱。圖3-20RAID技術(shù)索引策略略20020701001-2002070105020020701051-2002070110020020701001-2002070102520020701026-2002070105020020701051-2002070107020020701071-200207011002002070100120020701002……2002070102620020701027……2002070105120020701070……2002070107120020701072……圖3-21B-TREE索引示例20020701026——地址20020701027——地址……——地址指向數(shù)據(jù)行的指針數(shù)據(jù)存儲儲策略物理模型型設(shè)計過過程中,,要注意意考慮數(shù)數(shù)據(jù)存儲儲。因為為,數(shù)據(jù)據(jù)倉庫不不要求把把同一主主題的數(shù)數(shù)據(jù)放在在同一介介質(zhì)上,,所以我我們可以以根據(jù)數(shù)數(shù)據(jù)的重重要程度度,使用用頻率和和響應(yīng)時時間來存存放數(shù)據(jù)據(jù),一般般而言,,將那些些重要程程度高,,使用頻頻率高和和響應(yīng)時時間要求求高的數(shù)數(shù)據(jù)存放放在高速速存儲設(shè)設(shè)備上,,比如::硬盤,,而其它它的數(shù)據(jù)據(jù)則可以以放在低低速存儲儲設(shè)備上上,比如如磁盤等等。存儲分配配優(yōu)化1.設(shè)定定正確的的塊大小小2.設(shè)置置適當(dāng)?shù)牡膲K使用用參數(shù)3.?dāng)?shù)據(jù)據(jù)遷移管管理4.塊使使用管理理5.解決決動態(tài)擴擴展6.采用用文件分分帶技術(shù)術(shù)數(shù)據(jù)加載載設(shè)計數(shù)據(jù)倉庫庫要求的的一個重重要技術(shù)術(shù)就是能能高效地地載入數(shù)數(shù)據(jù)。有有兩種方方式:通通過一個個語言接接口一次次載入一一條記錄錄或使用用一種工工具全體體批量地地裝入。。注意,,在裝載載數(shù)據(jù)時時,索引引也必須須隨之裝裝入。若若數(shù)據(jù)裝裝載的容容量負(fù)荷荷太大的的情況下下,可以以采用并并行裝載載。它將將數(shù)據(jù)分分為幾個個工作流流,這樣樣所需時時間就大大大降低低。此外外,還有有一種高高效裝載載方法是是在裝載載前先對對數(shù)據(jù)進進行緩沖沖處理。。這種方方法一般般在數(shù)據(jù)據(jù)量大且且復(fù)雜程程度高的的情況下下使用。。物理模型型的設(shè)計計對數(shù)據(jù)據(jù)倉庫性性能的影影響在物理模模型的設(shè)設(shè)計階段段,同時時也要考考慮數(shù)據(jù)據(jù)倉庫性性能。為為了兼顧顧數(shù)據(jù)倉倉庫性能能,我們們在這個個階段應(yīng)應(yīng)從以下下幾個方方面入手手:合理控制制數(shù)據(jù)規(guī)規(guī)范化程程度,主主要方法法有:表表的歸并并,允許許數(shù)據(jù)冗冗余;存儲策略略,主要要有:服服務(wù)器的的數(shù)據(jù)分分散存儲儲,磁盤盤級的存存儲優(yōu)化化;RAID技術(shù);;科學(xué)的索索引方法法,主要要有B--TREE索引引,位圖圖索引等等;合理控制制數(shù)據(jù)粒粒度;合理的數(shù)數(shù)據(jù)。3.4元元數(shù)據(jù)模模型為了讓讀讀者能更更準(zhǔn)確的的了解什什么是元元數(shù)據(jù),,我們用用下例進進行說明明,它定定義了數(shù)數(shù)據(jù)倉庫庫中的一一個表,,如表3-3所所示。表3-3元數(shù)數(shù)據(jù)舉例例Table邏輯名學(xué)生定義學(xué)校的主要成員,主要進行學(xué)習(xí)任務(wù)物理存儲Student.table(數(shù)據(jù)庫表)建立日期2006年9月13日最后更新日期2007年9月13日更新周期每月表邏輯程序名STUDENT(程序名稱)3.4..l元數(shù)數(shù)據(jù)的類類型按照不同同的依據(jù)據(jù)對元數(shù)數(shù)據(jù)分類類各不相相同,可可有以下下的分類類依據(jù)::元數(shù)據(jù)描描述的內(nèi)內(nèi)容用戶的角角度元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中承承擔(dān)的任任務(wù)數(shù)據(jù)倉庫庫功能區(qū)區(qū)域劃分分3.4..2元數(shù)數(shù)據(jù)的作作用1.元數(shù)數(shù)據(jù)在數(shù)數(shù)據(jù)求精精,開發(fā)發(fā),重構(gòu)構(gòu)中的作作用(1)描描述業(yè)務(wù)務(wù)規(guī)則與與數(shù)據(jù)之之間的映映射。(2)數(shù)數(shù)據(jù)分割割。(3)概概括與聚聚集。(4)提提高系統(tǒng)統(tǒng)靈活性性。(5)定定義標(biāo)準(zhǔn)準(zhǔn)處理的的規(guī)則。。(6)預(yù)預(yù)算與推推倒。(7)轉(zhuǎn)轉(zhuǎn)換與再再映射。。2.元數(shù)數(shù)據(jù)在數(shù)數(shù)據(jù)抽取取,轉(zhuǎn)換換中的作作用(1)確確定數(shù)據(jù)據(jù)來源。。(3)實實現(xiàn)屬性性間的映映射與轉(zhuǎn)轉(zhuǎn)換。(2)保保證數(shù)據(jù)據(jù)倉庫中中內(nèi)容的的質(zhì)量。。3.4..3元數(shù)數(shù)據(jù)的收收集與維維護1.元數(shù)數(shù)據(jù)的收收集(1)來來源于源源系統(tǒng)元數(shù)據(jù)操作型系統(tǒng)數(shù)據(jù)模型系統(tǒng)文檔的數(shù)據(jù)元素定義COBOL寫字板及控制塊規(guī)范物理文件布局及字段定義程序規(guī)范外部數(shù)據(jù)來源的文件布局和字段定義其他來源(如:電子表格)圖3-23源系統(tǒng)中元數(shù)據(jù)收集(2)來來源于于抽取的的數(shù)據(jù)元數(shù)據(jù)源平臺的數(shù)據(jù)和連接所選擇的數(shù)據(jù)源的布局和定義每個平臺上初始抽取文件的合并準(zhǔn)則用于抽取的字段定義標(biāo)準(zhǔn)化字段類型與長度的規(guī)則數(shù)據(jù)抽取計劃增量修改的抽取方法數(shù)據(jù)抽取任務(wù)流圖3-24從抽取的數(shù)據(jù)種收集元數(shù)據(jù)(3)來來源于轉(zhuǎn)轉(zhuǎn)換和清清理的數(shù)數(shù)據(jù)元數(shù)據(jù)抽取文件到數(shù)據(jù)準(zhǔn)備文件的映射規(guī)范單獨文件的轉(zhuǎn)換規(guī)則字段默認(rèn)有效性檢查的商業(yè)規(guī)則分類及重排序安排從數(shù)據(jù)抽取到數(shù)據(jù)準(zhǔn)備的審查跟蹤圖3-25從轉(zhuǎn)換和清洗的數(shù)據(jù)中收集元數(shù)據(jù)(4)來來源于裝裝載的數(shù)數(shù)據(jù)元數(shù)據(jù)從數(shù)據(jù)準(zhǔn)備文件到裝載映像的映射規(guī)則數(shù)據(jù)準(zhǔn)備到裝載映像的審查跟蹤為每個文件分配鍵時的分配規(guī)則完全刷新的計劃增量裝載的計劃數(shù)據(jù)裝載任務(wù)流圖3-26從數(shù)據(jù)裝載中收集元數(shù)據(jù)(5)來來源于存存儲的數(shù)數(shù)據(jù)元數(shù)據(jù)集中式數(shù)據(jù)倉庫和獨立數(shù)據(jù)集市數(shù)據(jù)模型統(tǒng)一化數(shù)據(jù)集市數(shù)據(jù)模型多個表組成的主題區(qū)域物理文件表和列定義有效性檢查的商業(yè)規(guī)則圖3-27從數(shù)據(jù)裝載中收集元數(shù)據(jù)(6)來來源于信信息傳遞遞元數(shù)據(jù)預(yù)定義查詢和報表的列表特殊OLAP數(shù)據(jù)庫德數(shù)據(jù)模型查詢和報表工具列表為OLAP檢索數(shù)據(jù)的計劃圖3-28從數(shù)據(jù)裝載中收集元數(shù)據(jù)2.元數(shù)數(shù)據(jù)的維維護(1)元元數(shù)據(jù)的的存儲(2)元元數(shù)據(jù)的的管理(3)元元數(shù)據(jù)的的維護3.4..4元數(shù)數(shù)據(jù)的使使用數(shù)據(jù)倉庫庫對元數(shù)數(shù)據(jù)的使使用主要要體現(xiàn)在在兩個方方面:第第一,因因為元數(shù)數(shù)據(jù)對數(shù)數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)的內(nèi)容容和出處處進行了了詳細說說明,所所以,用用戶可以以根據(jù)主主題利用用元數(shù)據(jù)據(jù)來查看看數(shù)據(jù)倉倉庫的內(nèi)內(nèi)容;第第二,因因為元數(shù)數(shù)據(jù)提供供了可重重復(fù)利用用的查詢詢語言信信息,所所以,如如果這些些查詢中中的一個個或幾個個能滿足足用戶的的需求,,或與用用戶需求求相近,,用戶就就可以直直接使用用元數(shù)據(jù)據(jù)中的查查詢,而而不用重重新編寫寫程序。。3.5數(shù)數(shù)據(jù)倉庫庫的粒度度模型3.5..l粒度度的劃分分所謂粒度度是指數(shù)數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)單元的的詳細程程度和級級別。在在數(shù)據(jù)倉倉庫環(huán)境境中主要要是分析析型處理理,粒度度的劃分分將直接接影響數(shù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)量以以及所適適合的查查詢類型型。一般般需要將將數(shù)據(jù)劃劃分為::詳細數(shù)數(shù)據(jù)、輕輕度綜合合、高度度綜合三三級或更更多級粒粒度。不不同粒度度級別的的數(shù)據(jù)用用于不同同類型的的分析處處理。粒粒度的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論