




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫的數(shù)據(jù)建模技術(shù)摘要:本文分析了數(shù)據(jù)庫設(shè)計(jì)和數(shù)據(jù)倉庫設(shè)計(jì)區(qū)別,總結(jié)了數(shù)據(jù)倉庫兩類主流的數(shù)據(jù)模型:企業(yè)級數(shù)據(jù)模型和多維數(shù)據(jù)模型,系統(tǒng)分析了兩類數(shù)據(jù)模型的層次,探討了多維數(shù)據(jù)模型的分類以及用多維數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫的方法和步驟。關(guān)鍵字:數(shù)據(jù)倉庫;企業(yè)級數(shù)據(jù)模型;多維數(shù)據(jù)模型;星型模型;多維數(shù)據(jù)庫;OLAP1數(shù)據(jù)庫設(shè)計(jì)和數(shù)據(jù)倉庫設(shè)計(jì)的區(qū)別與數(shù)據(jù)庫系統(tǒng)類似,在數(shù)據(jù)倉庫系統(tǒng)中,構(gòu)建數(shù)據(jù)模型是建立數(shù)據(jù)倉庫的關(guān)鍵步驟。在數(shù)據(jù)庫系統(tǒng)的設(shè)計(jì)過程中,數(shù)據(jù)模型的建立分為概念模型設(shè)計(jì),邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì)。概念模型設(shè)計(jì)或描述可以用E-R圖(或擴(kuò)展Bachman圖)來完成。在邏輯模型設(shè)計(jì)階段,將概念模型轉(zhuǎn)換為關(guān)系數(shù)據(jù)模型,最后得到關(guān)系模式并對其進(jìn)行規(guī)范化處理。物理模型設(shè)計(jì)給出數(shù)據(jù)存儲結(jié)構(gòu)和物理實(shí)現(xiàn)方法。與上述數(shù)據(jù)庫模型的建立過程對應(yīng),數(shù)據(jù)倉庫的設(shè)計(jì)也包括:概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì)。雖然目前數(shù)據(jù)倉庫還沒有一個廣為接受的形式化的設(shè)計(jì)方法,但對于數(shù)據(jù)倉庫設(shè)計(jì),以下兩點(diǎn)還是基本上得到了認(rèn)可,(1)真正實(shí)現(xiàn)數(shù)據(jù)倉庫之前至少要有一些關(guān)于概念或邏輯建模的活動。(2)數(shù)據(jù)倉庫依賴于一個多維模型。因此,一般情況下,數(shù)據(jù)倉庫的建?;顒踊诙嗑S模型來進(jìn)行,而數(shù)據(jù)倉庫的實(shí)現(xiàn)則通過關(guān)系型或多維數(shù)據(jù)庫進(jìn)行。數(shù)據(jù)倉庫中的數(shù)據(jù)具有四個基本特征:面向主題的、集成的、相對穩(wěn)定的、隨時間不斷變化的。這些特征說明了數(shù)據(jù)倉庫從數(shù)據(jù)組織到數(shù)據(jù)建模、數(shù)據(jù)處理都跟數(shù)據(jù)庫的建立有很大區(qū)別,表1給出了數(shù)據(jù)庫設(shè)計(jì)與數(shù)據(jù)倉庫設(shè)計(jì)的區(qū)別。表1數(shù)據(jù)庫設(shè)計(jì)與數(shù)據(jù)倉庫設(shè)計(jì)的區(qū)別數(shù)據(jù)庫 數(shù)據(jù)倉庫 系統(tǒng)設(shè)計(jì)的目標(biāo)不同面向應(yīng)用,事務(wù)處理性能,面向分析,保證數(shù)據(jù)的四個基本特征,主要關(guān)注響應(yīng)時間 支持OLAP。面向的需求不同 需求明確;稱為“需求驅(qū)動需求不明確,需要逐步確定;稱為“數(shù)的設(shè)計(jì)方法” 據(jù)驅(qū)動”設(shè)計(jì)方法。 面向的操作類型不同增、刪、改,動態(tài)變動~從原數(shù)據(jù)庫系統(tǒng)中批量導(dǎo)入,定期更新。 系統(tǒng)的建設(shè)方法和步系統(tǒng)開發(fā)生命周期法 由數(shù)據(jù)開始,“螺旋式開發(fā)”驟不同
SDLC法(瀑布式;需求驅(qū)動)CLDSSDLC法(瀑布式;需求驅(qū)動)CLDS法(螺旋式;數(shù)據(jù)驅(qū)動)圖1SDLC與CLDS方法比較3數(shù)據(jù)倉庫的數(shù)據(jù)模型目前兩類主流的數(shù)據(jù)倉庫模型分別是由Inmon提出的企業(yè)級數(shù)據(jù)倉庫模型和由Kimball提出的多維模型,表2列出了兩者的主要區(qū)別。Inmon提出的企業(yè)級數(shù)據(jù)倉庫模型采用三范式(3NF)。若從企業(yè)級數(shù)據(jù)倉庫模型著手,走的就是一條自頂向下的建設(shè)途徑:先建企業(yè)級數(shù)據(jù)倉庫,再在其上開發(fā)具體的應(yīng)用。企業(yè)級數(shù)據(jù)倉庫固然是我們所追求的目標(biāo),但在缺乏足夠的技術(shù)力量和數(shù)據(jù)倉庫建設(shè)經(jīng)驗(yàn)的情況下,按照這種模型設(shè)計(jì)的系統(tǒng)建設(shè)過程長,周期長,難度大,風(fēng)險大,容易失敗。這種模型的優(yōu)點(diǎn)是信息全面、系統(tǒng)靈活、數(shù)據(jù)冗余少。而Kimball提出的維模型降低了范式化,以分析主題為基本框架來組織數(shù)據(jù)。以維模型開發(fā)分析主題,這樣能夠快速實(shí)施,迅速獲得投資回報,在取得實(shí)際效果的基礎(chǔ)上,再逐漸增加應(yīng)用主題,循序漸進(jìn),積累經(jīng)驗(yàn),逐步建成企業(yè)級數(shù)據(jù)倉庫。這也可以說是采用總線型結(jié)構(gòu)先建立數(shù)據(jù)集市,使所有的數(shù)據(jù)集市具有統(tǒng)一一致的維定義和統(tǒng)一一致的業(yè)務(wù)事實(shí),這種方法融合了自下而上和自上而下兩種設(shè)計(jì)方法的思想。這種模型的優(yōu)點(diǎn)是查詢速度快,做報表也快;缺點(diǎn)是由于存在大量的預(yù)處理,其建模過程相對來說就比較慢。當(dāng)業(yè)務(wù)問題發(fā)生變化,原來的維不能滿足要求時,需要增加新的維。由于事實(shí)表的主鍵由所有維表的主鍵組成,所以這種維的變動將是非常復(fù)雜、非常耗時的。而且信息不夠全面、系統(tǒng)欠靈活、數(shù)據(jù)冗余多。表2兩類主流數(shù)據(jù)倉庫模型比較多維模型企業(yè)級3NF模型
多維模型建模步驟從全局?jǐn)?shù)據(jù)倉庫一>數(shù)據(jù)集市,采用自上而下設(shè)計(jì)方法數(shù)據(jù)集市(統(tǒng)一不獨(dú)立)一>數(shù)據(jù)倉庫,結(jié)合自上而下和自下而上,即總線型方法數(shù)據(jù)模型規(guī)范化(3NF)/關(guān)系模型(通常所說的E-R模型)多維數(shù)據(jù)模型規(guī)范化程度高,數(shù)據(jù)冗余低低,數(shù)據(jù)幾余大優(yōu)點(diǎn)從企業(yè)整體的角度來看待數(shù)據(jù),信息全面,數(shù)據(jù)統(tǒng)一,便于集中管理數(shù)據(jù)綜合了自上而下和自下而上的優(yōu)點(diǎn):數(shù)據(jù)一致,實(shí)施快速方便,風(fēng)險小,良好的投資回報缺點(diǎn)建設(shè)時間長,費(fèi)用高,風(fēng)險高,高水平的綜合技能需要增加新的維時,維的變動會非常復(fù)雜、非常耗時(事實(shí)表的主鍵由所有維表的主鍵組成)4企業(yè)級數(shù)據(jù)倉庫數(shù)據(jù)模型企業(yè)級數(shù)據(jù)模型比較典型有以下兩種:(1)W.H.Inmon提出的三個層次的數(shù)據(jù)模型:高級模型、中級模型、低級模型。高級模型,用E-R圖表示;低級模型,即物理數(shù)據(jù)模型;中級模型,稱為數(shù)據(jù)項(xiàng)(DataItemSet,DIS)。DIS是E-R圖的細(xì)分,高層模型的每個實(shí)體都與一個DIS相對應(yīng)。每個DIS中的數(shù)據(jù)項(xiàng)分四個組別:基本數(shù)據(jù)組、二級數(shù)據(jù)組、聯(lián)接數(shù)據(jù)組及類型數(shù)據(jù)組。其中聯(lián)接數(shù)據(jù)組相當(dāng)于E-R圖的聯(lián)系。其余三種數(shù)據(jù)組按穩(wěn)定性順序是基本數(shù)據(jù)組〉二級數(shù)據(jù)組〉類型數(shù)據(jù)組?;緮?shù)據(jù)組包括主題的主碼,如顧客號,是唯一的;二級數(shù)據(jù)組包括的數(shù)據(jù)項(xiàng)如住址,電話等雖基本穩(wěn)定,但仍存在變動的可能;類型數(shù)據(jù)組包括頻繁變動的數(shù)據(jù)項(xiàng),如顧客的購物記錄。圖2DIS的基本結(jié)構(gòu)(2)文獻(xiàn)中提出的三個層次的數(shù)據(jù)模型,整體上的劃分同傳統(tǒng)的數(shù)據(jù)庫一樣,但每級模型所做的具體工作又不同。概念模型,用E-R圖表示。主要要完成的工作:1)界定系統(tǒng)的邊界;2)確定主要的主題域及其內(nèi)容。邏輯模型,關(guān)系模式。邏輯模型設(shè)計(jì)進(jìn)行的工作主要有:分析主題域,確定當(dāng)前要裝載的主題;2)確定粒度層次劃分;3)確定粒度分割策略;4)關(guān)系模式定義;5)記錄系統(tǒng)定義。物理模型,在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)。物理模型設(shè)計(jì)所做的工作是:1)確定數(shù)據(jù)的存儲結(jié)構(gòu);2)確定索引技術(shù);3)確定數(shù)據(jù)存放位置;4)確定存儲分配。5多維數(shù)據(jù)模型多維數(shù)據(jù)模型常見的有立方體數(shù)據(jù)模型和星型模型兩種(圖3所示)。數(shù)據(jù)立方是多維數(shù)據(jù)庫的邏輯底層構(gòu)件,如同關(guān)系對應(yīng)關(guān)系數(shù)據(jù)庫一樣。立方體數(shù)據(jù)模型(Cube)就是由一個或多個這樣的數(shù)據(jù)立方組成的。星型模型是以一種簡單的結(jié)構(gòu)方式來展示復(fù)雜的多維結(jié)構(gòu),其結(jié)構(gòu)看起來象星星,其他表即維(DIMENSION)度表都圍繞中間表,也就是事實(shí)(FACT)表。所以星形模型是在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上,通過維表和事實(shí)表之間的鏈接模擬多維模型。立方體模型有兩種結(jié)構(gòu):超立方結(jié)構(gòu)(Hypercube)和多立方結(jié)構(gòu)(Multicube)。超立方體結(jié)構(gòu)指用三維或更多的維來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個部分都有相同的維屬性。在多立方體中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)集的子集,面向某一特定應(yīng)用對維進(jìn)行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。星形模型又可以分為5種形式:簡單星形模式(SimpleStarSchema)、星系模式(GalaxySchema)、星座模式(ConstellationSchema)、二級維表和雪花模式(SnowflakeSchema)。星系模式又叫事實(shí)星座(FactConstellation),在其他文獻(xiàn)中,將星形模型簡單劃分為星形模式和雪花模式。多維數(shù)據(jù)庫(Multi-DimensionalDatabase,MDD)可以簡單理解為:將數(shù)據(jù)存放在一個n維數(shù)組中,而不像關(guān)系數(shù)據(jù)庫那樣以記錄形式存放。與關(guān)系數(shù)據(jù)庫相比,它的優(yōu)勢在于可以提高數(shù)據(jù)處理速度,加快反應(yīng)時間,提高查詢效率。多維數(shù)據(jù)庫最大的缺陷就是大小方面的要求。向分析空間增加維數(shù)及向現(xiàn)存的維增加數(shù)據(jù),將會顯著增加多維數(shù)據(jù)庫的大小,這比向關(guān)系表中增加屬性增加的大小要大很多;另外,與關(guān)系數(shù)據(jù)庫記錄不同,無論是否含有數(shù)據(jù),都會形成單元。結(jié)果,多維數(shù)據(jù)庫中很多單元都是空的。而關(guān)系理論和關(guān)系數(shù)據(jù)庫都以發(fā)展的相當(dāng)成熟,所以目前廣泛使用的商業(yè)數(shù)據(jù)庫也都是關(guān)系型數(shù)據(jù)庫。OLAP是基于數(shù)據(jù)倉庫的,為用戶向數(shù)據(jù)倉庫中的數(shù)據(jù)提出復(fù)雜查詢、提供快速和穩(wěn)定的響應(yīng)。其特點(diǎn)在于從多個角度觀察數(shù)據(jù)倉庫中的數(shù)據(jù),再現(xiàn)數(shù)據(jù)的多維本質(zhì),便于進(jìn)行分析和決策。其中多維OLAP(MOLAP,Multi-dimensionOLAP)是基于多維數(shù)據(jù)庫存儲方式建立的OLAP,使用多維數(shù)據(jù)庫管理系統(tǒng)來管理所需的多維數(shù)據(jù);關(guān)系OLAP(ROLAP,RelationOLAP)是基于關(guān)系數(shù)據(jù)庫存儲方式建立的OLAP,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲。
數(shù)據(jù)模型物理存儲OLAP數(shù)據(jù)模型物理存儲OLAP圖3多維數(shù)據(jù)模型6利用多維數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫利用多維數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫主要分為以下幾步(圖4所示):(1)需求收集;(2)概念模型設(shè)計(jì),設(shè)計(jì)結(jié)果可以用信息包圖表示;(3)總體邏輯模型設(shè)計(jì);即設(shè)計(jì)數(shù)據(jù)倉庫的總線結(jié)構(gòu)一一統(tǒng)一的事實(shí)和統(tǒng)一的維,設(shè)計(jì)結(jié)果可以用總線矩陣表示。(4)某個主題的邏輯模型設(shè)計(jì),設(shè)計(jì)結(jié)果可以用星型圖表示;(5)物理模型設(shè)計(jì),設(shè)計(jì)結(jié)果是數(shù)據(jù)倉庫的物理存儲,即關(guān)系數(shù)據(jù)庫中的事實(shí)維度鏈表。圖4多維數(shù)據(jù)模型設(shè)計(jì)數(shù)據(jù)倉庫7結(jié)論本文在比較數(shù)據(jù)庫設(shè)計(jì)和數(shù)據(jù)倉庫設(shè)計(jì)基礎(chǔ)上,討論了目前兩類主流的數(shù)據(jù)模型,企業(yè)級數(shù)據(jù)模型和多維數(shù)據(jù)模型,并對兩種數(shù)據(jù)模型層次和建模方法分別加以介紹,著重介紹了多維數(shù)據(jù)模型和OLAP的分類。通過分析可見,企業(yè)級數(shù)據(jù)模型和多維數(shù)據(jù)模型這兩種模型的優(yōu)缺點(diǎn)正好互補(bǔ)?;谶@種情況,我們在實(shí)際開發(fā)數(shù)據(jù)倉庫時,采用折衷的策略,揚(yáng)長避短,有機(jī)地結(jié)合地使用這兩種模型,即在構(gòu)建數(shù)據(jù)倉庫時,采用企業(yè)級數(shù)據(jù)模型對企業(yè)全局?jǐn)?shù)據(jù)倉庫進(jìn)行總體設(shè)計(jì),然后利用多維數(shù)據(jù)模型針對部門級數(shù)據(jù)集市進(jìn)行詳細(xì)設(shè)計(jì)。另外,值得一提的是目前多維數(shù)據(jù)庫相對不成熟,沒有得到廣泛應(yīng)用,而關(guān)系理論和關(guān)系數(shù)據(jù)庫的成熟,且目前廣泛使用的商業(yè)數(shù)據(jù)庫也都是關(guān)系型數(shù)據(jù)庫,星型模型就是在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上,通過維表和事實(shí)表之間的鏈接模擬多維模型,所以目前所采用的多維數(shù)據(jù)模型大多是星型模型。參考文獻(xiàn)1王珊等.數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理.北京:科學(xué)出版社,1998W.H.Inmon.BuildingtheDataWarehouse2ed.JohnWiley&Sons,Inc.,1996RalphKimball,MargyRoss.TheDataWare
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 優(yōu)化辦公流程管理規(guī)章制度
- 2025年巴彥淖爾貨運(yùn)從業(yè)資格證考試卷
- 2025年江蘇貨運(yùn)從業(yè)資格證模擬考試0題b2
- 人力資源企業(yè)勞動合同
- 2025年烏海貨運(yùn)資格證考試有哪些項(xiàng)目
- 2025年宜昌貨運(yùn)從業(yè)資格證模擬考試系統(tǒng)下載
- 2025年南京貨運(yùn)從業(yè)資格考試技巧
- 動漫游戲創(chuàng)作與制作技術(shù)作業(yè)指導(dǎo)書
- 2025年南昌貨運(yùn)從業(yè)資格證模擬考試題下載
- 2025年部編版語文小學(xué)三年級下冊口語與習(xí)作專項(xiàng)復(fù)習(xí)題
- 諾如病毒的護(hù)理
- 三年級下冊語文核心素養(yǎng)教案電子版
- 財務(wù)管理學(xué)(第10版)課件 第3章 財務(wù)分析
- 急性腦卒中知識考核試題及答案
- GB/T 44026-2024預(yù)制艙式鋰離子電池儲能系統(tǒng)技術(shù)規(guī)范
- 鄧稼先新版課件省公開課一等獎新名師比賽一等獎?wù)n件
- JT-T-883-2014營運(yùn)車輛行駛危險預(yù)警系統(tǒng)技術(shù)要求和試驗(yàn)方法
- 道閘施工方案
- 2024年全國國家版圖知識競賽題庫及答案(中小學(xué)組)
- 湘教版高中地理必修2全冊導(dǎo)學(xué)案
- 2024陜西西安事業(yè)單位歷年公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
評論
0/150
提交評論