




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、用Rational Rose對數(shù)據(jù)倉庫進行數(shù)據(jù)建模作者:Davor Gornik來源:IBM2008年9月18日本文將會闡述如何使用IBM Rational Rose進行星型模式建模和雪花模式的數(shù)據(jù)倉庫應(yīng)用的建模。OLTP 與數(shù)據(jù)倉庫-有何差異?在日常生活中,我們要使用大量的應(yīng)用程序來生成新的數(shù)據(jù)、變更數(shù)據(jù)、刪除數(shù)據(jù),當(dāng)然在大多數(shù)的情況下我們還要查閱和分析數(shù)據(jù)。就來想象一個收發(fā) email 的簡單應(yīng)用程序吧。我們已經(jīng)存儲了地址信息,可能還存儲了一些文檔。我們可以決定是否存儲已經(jīng)發(fā)送過的郵件,但是也可能隔一段時間后將其刪除,或者刪除已經(jīng)發(fā)送過的所有郵件。那么我們該如何處理一段時間以前刪
2、除或者修改過的地址呢?我們再也不會看到它們了。Email 程序大部分都屬于不是很復(fù)雜的數(shù)據(jù)庫,但是完全可以將其看作一個在單用戶環(huán)境下的 OLTP(在線事務(wù)處理系統(tǒng))簡單示例。它使用了所有的所謂訪問數(shù)據(jù)的操作 CRUD(創(chuàng)建、讀取、更新、刪除)。當(dāng)數(shù)據(jù)存儲達到一定量的時候,規(guī)模就會幾乎保持不變,因為可以從存儲中刪除過期數(shù)據(jù)。數(shù)據(jù)倉庫就完全是一種不同種類的應(yīng)用程序。它并不是用來運行當(dāng)前的操作,例如發(fā)送郵件。它是用來分析數(shù)據(jù)并且從現(xiàn)有數(shù)據(jù)中發(fā)現(xiàn)新的價值,主要是用來預(yù)測未來的情況。數(shù)據(jù)倉庫并不是解決所有問題的通用結(jié)構(gòu)。它必須集中于某一問題領(lǐng)域,例如航空服務(wù)、顧客收益等。數(shù)據(jù)倉庫也有有趣的一面,那就是數(shù)
3、據(jù)庫本身是穩(wěn)定增長的。數(shù)據(jù)沒有被刪除,也不發(fā)生變更。我們不需要將冗余數(shù)據(jù)置于數(shù)據(jù)庫之外(因為加入倉庫中的數(shù)據(jù)經(jīng)過了數(shù)據(jù)凈化的過程,該過程檢查了數(shù)據(jù)的正確性)來減少復(fù)雜性同時增強讀取操作的性能。為了能夠?qū)?shù)據(jù)倉庫中的數(shù)據(jù)進行分析,數(shù)據(jù)存儲于一個多維結(jié)構(gòu)中,叫做星型模式。如果將星型模式擴展,就會得到雪花模式。本白皮書將會闡述如何使用IBM Rational Rose進行星型模式建模和雪花模式建模。飛行服務(wù)數(shù)據(jù)集市的例子為了更好地解釋如何對數(shù)據(jù)倉庫建模,本白皮書將使用一個簡單數(shù)據(jù)集市的的例子(即一個數(shù)據(jù)倉庫或者數(shù)據(jù)倉庫的一部分),來分析旅客乘坐航班 Happy Flying and Landing(
4、愉快飛行平安降落)的行為和滿意程度。我們將存儲乘客信息和每個航班的的相關(guān)數(shù)據(jù)、選擇的菜單以及乘客對飛行的滿意程度。數(shù)據(jù)倉庫術(shù)語表數(shù)據(jù)倉庫引入了新的術(shù)語,擴展了數(shù)據(jù)建模的術(shù)語表。為使本文的闡述能夠完備,下面我介紹一下最常用的術(shù)語。數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個支持管理決策的數(shù)據(jù)集合。數(shù)據(jù)是面向主題的、集成的、不易丟失的并且是時間變量。數(shù)據(jù)倉庫是所有操作環(huán)境和外部數(shù)據(jù)源的快照集合。它并不需要非常精確,因為它必須在特定的時間基礎(chǔ)上從操作環(huán)境中提取出來。數(shù)據(jù)集市數(shù)據(jù)倉庫只限于單個主題的區(qū)域,例如顧客、部門、地點等。數(shù)據(jù)集市在從數(shù)據(jù)倉庫獲取數(shù)據(jù)時可以依賴于數(shù)據(jù)倉庫,或者當(dāng)它們從操作系統(tǒng)中獲取數(shù)據(jù)時就不依賴于數(shù)據(jù)
5、倉庫。事實事實是數(shù)據(jù)倉庫中的信息單元,也是多維空間中的一個單元,受分析單元的限制。事實存儲于一張表中(當(dāng)使用關(guān)系數(shù)據(jù)庫時)或者是多維數(shù)據(jù)庫中的一個單元。每個事實包括關(guān)于事實(收入、價值、滿意記錄等)的基本信息,并且與維度相關(guān)。在某些情況下,當(dāng)所有的必要信息都存儲于維度中時,單純的事實出現(xiàn)就是對于數(shù)據(jù)倉庫足夠的信息。我們稍后討論有關(guān)缺無事實的情況。維度維度是綁定由坐標系定義的空間的坐標系的軸線。數(shù)據(jù)倉庫中的坐標系定義了數(shù)據(jù)單元,其中包含事實。坐標系的一個例子就是帶有 x 維度和 y 維度的 Cartesian(笛卡爾)坐標系。在數(shù)據(jù)倉庫中,時間總是維度之一。數(shù)據(jù)挖掘在數(shù)據(jù)倉庫的數(shù)據(jù)中發(fā)現(xiàn)新信息的
6、過程被稱為數(shù)據(jù)挖掘,這些新信息不會從操作系統(tǒng)中獲得。分析空間分析空間是數(shù)據(jù)倉庫中一定量的數(shù)據(jù),用于進行數(shù)據(jù)挖掘以發(fā)現(xiàn)新信息同時支持管理決策。切片一種用來在數(shù)據(jù)倉庫中將一個維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。切塊一種用來在數(shù)據(jù)倉庫中將多個維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。星型模式一種使用關(guān)系數(shù)據(jù)庫實現(xiàn)多維分析空間的模式,稱為星型模式。星型模式將在本白皮書中稍后進行進一步討論。雪花模式不管什么原因,當(dāng)星型模式的維度需要進行規(guī)范化時,星型模式就演進為雪花模式。 使用 IBM Rational Rose 進行星型模式建模星型模式的基本形式必須實現(xiàn)多維空間(常常被稱
7、為方塊),以使用關(guān)系數(shù)據(jù)庫的基本功能。首先,我們需要理解多維空間。多維分析空間幾何學(xué)中的方塊是指一個三維空間,其中每個維度的尺寸都相同。想象一個立方體,每個維度都有三個單元,我們即得到相同結(jié)構(gòu)的3327個單元。分析空間分析空間是數(shù)據(jù)倉庫中一定量的數(shù)據(jù),用于進行數(shù)據(jù)挖掘以發(fā)現(xiàn)新信息同時支持管理決策。切片一種用來在數(shù)據(jù)倉庫中將一個維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。切塊一種用來在數(shù)據(jù)倉庫中將多個維度中的分析空間限制為數(shù)據(jù)子集的技術(shù)。星型模式一種使用關(guān)系數(shù)據(jù)庫實現(xiàn)多維分析空間的模式,稱為星型模式。星型模式將在本白皮書中稍后進行進一步討論。雪花模式不管什么原因,當(dāng)星型模式的維度需要進行規(guī)范化時,星型
8、模式就演進為雪花模式。 使用 IBM Rational Rose 進行星型模式建模星型模式的基本形式必須實現(xiàn)多維空間(常常被稱為方塊),以使用關(guān)系數(shù)據(jù)庫的基本功能。首先,我們需要理解多維空間。多維分析空間幾何學(xué)中的方塊是指一個三維空間,其中每個維度的尺寸都相同。想象一個立方體,每個維度都有三個單元,我們即得到相同結(jié)構(gòu)的3327個單元。圖1 一個具有 x、y、z 維度的方塊 多維分析空間(或者數(shù)據(jù)倉庫方塊)與幾何空間中的方塊僅僅存在細節(jié)上的差異。維度不僅限于 3 維。不過,處理很多維度的立方體也不是件輕松的事情,這會導(dǎo)致大多數(shù)的實現(xiàn)被限制于 6 或者 7
9、 維。不要期盼使用圖形可以很好地表示超過 4 的維度-如果您有幸能發(fā)現(xiàn)一種方法,別忘了告訴我一下。維度并不具有相同的規(guī)模和單元。規(guī)模從幾個單元到幾百萬個單元,差別巨大。單元可以是一天、一位顧客、部門等。 單元,相當(dāng)于子方塊(1×1×1等),包含事實。圖1 一個具有 x、y、z 維度的方塊 多維分析空間(或者數(shù)據(jù)倉庫方塊)與幾何空間中的方塊僅僅存在細節(jié)上的差異。維度不僅限于 3 維。不過,處理很多維度的立方體也不是件輕松的事情,這會導(dǎo)致大多數(shù)的實現(xiàn)被限制于 6 或者 7 維。不要期盼使用圖形可以很好地表示超過 4 的維度-如果您有幸能發(fā)現(xiàn)一種方法,別忘了告
10、訴我一下。維度并不具有相同的規(guī)模和單元。規(guī)模從幾個單元到幾百萬個單元,差別巨大。單元可以是一天、一位顧客、部門等。 單元,相當(dāng)于子方塊(1×1×1等),包含事實。圖2 一個三維數(shù)據(jù)立方體 數(shù)據(jù)立方體需要很大的內(nèi)存以存儲所有事實。無論是否包含事實,都必須要預(yù)留單元。這就是為什么使用關(guān)系數(shù)據(jù)庫和星型模式的原因。使用它們能夠優(yōu)化存儲并且保持數(shù)據(jù)結(jié)構(gòu)的靈活性。星型模式星型模式的基本思想就是保持立方體的多維功能,同時也增加了小規(guī)模數(shù)據(jù)存儲的靈活性。圖3 一個星型模式在圖3中,星型模式使用事實 Flight 表示了一個 4 維方塊(Passenger、Menu、Fl
11、ight Schedulet 和 Time)?;旧?,事實必須指定一個維度,以將其放入立方體的單元中。我們的例子中的維度是:Passenger,描述了飛行航程中的每位乘客,由經(jīng)常飛行號(frequent flyer number)指定。不是經(jīng)常乘坐飛機的乘客不是數(shù)據(jù)倉庫的一部分。 Flight Schedule,是指所有常規(guī)飛行的日程。 Menu,是用于飛行的菜單。只有對菜單進行基本的分類才會對數(shù)據(jù)挖掘有重要意義。 Time,是指飛行的時間。 事實 Flight 描述了乘客在唯一的 Time 的單程飛行上選擇 Menu。分析空間可以是完整的方塊,或者我們
12、可以根據(jù)維度將分析空間分割成小片。每個維度根據(jù)一個對象進行描述,對象可以用類表示,這些類就是有關(guān)業(yè)務(wù)主題的名稱。這一點對于成功建立數(shù)據(jù)倉庫來說是很重要的,因為倉庫的用戶(經(jīng)理、分析員、市場)對于信息技術(shù)的術(shù)語并不是很熟悉。事實本身就是商業(yè)智能的另一個對象,仍然通過類進行表示。事實指每個維度。事實與維度的關(guān)聯(lián)常常是一對任意,這也就意味著每個事實都與單個維度的一個單元準確對應(yīng),而維度的每個單元(每個Passenger、Time等)可以與任意數(shù)量的事實發(fā)生關(guān)聯(lián)(包括0個事實)。使用 Rational Rose 將對象模型轉(zhuǎn)換為數(shù)據(jù)模型即完成了星型模式的實現(xiàn)。這里我們可以看到轉(zhuǎn)換后的結(jié)果。圖4 使用R
13、ational Rose實現(xiàn)星型模式 在圖4中,沒有顯示自動創(chuàng)建的主鍵和外鍵約束。星型模式的維度是獨立的表。當(dāng)對象模型轉(zhuǎn)換為數(shù)據(jù)模型時,Rational Rose 可以生成維度的主鍵。事實表指從維度表中使用鍵遷移的維度,當(dāng)生成數(shù)據(jù)模型時 Rational Rose 可以生成外鍵。在星型模式中切片和切塊是對維度的限制(選擇)。這是一個運行時問題,而不是建模問題,但是模型必須分辨其需要。雪花模式基本的星型模式并不能滿足數(shù)據(jù)挖掘的所有需要。我們需要更復(fù)雜的維度,例如時間。分析員希望根據(jù)周、月、季度等識別模式。維度必須進行規(guī)范化。我們不需要冗余的維度表,這只會使數(shù)據(jù)切片變得更加復(fù)雜。這種過程
14、中我們得到的模式被稱為雪花模式。我們來看一個簡單的雪花模式例子。我們將時間維度規(guī)范化為周、月和季度。圖5 規(guī)范化的 Time 維度 我們希望能夠使用附加的規(guī)范化維度將立方體切片:周、月和季度。在本例中,我們假定季度是月的平行層次,這也就意味著我們不能將季度假定為若干月的聚合。由于這個原因,我們將使用一張范化表(是對 OLAP 查詢的一項簡單附加)預(yù)先選擇時間維度。最終雪花模式添加了規(guī)范化維度。圖6 帶有范化維度的 Time 和事實 Flight 的雪花模式 當(dāng)然,所有的維度都可以像時間例子那樣進行規(guī)范化,這就導(dǎo)致了比較復(fù)雜的數(shù)據(jù)集市模式的出現(xiàn)。由 Rational Rose
15、 從雪花模式中開發(fā)的實現(xiàn)模式(數(shù)據(jù)模型)是完善的。圖7 帶有范化 Time 維度的雪花模式的數(shù)據(jù)模型 創(chuàng)建的約束在圖中也沒有顯示。雪花模式中可以存在切片,不僅僅在基本的 Time 維度上,也可以在規(guī)范化的 Week、Month 和 Quarter 維度上。多對多關(guān)系在一次飛行中,我們不僅僅只吃一頓飯。在長途飛行中可能要多次用餐。在這種情況下,我們認為事實 Flight 和 Menu 維度不是一對多的關(guān)聯(lián)。我們必須使用多對多關(guān)聯(lián)。不過,這種關(guān)聯(lián)不可能在星型模式中實現(xiàn)。雪花模式的一種特殊形式是使用一種必要的數(shù)據(jù)結(jié)構(gòu)以滿足這項要求。首先,我們將模型變更為事實和維度間的多對多關(guān)聯(lián)。使用 Ra
16、tional Rose,這只是關(guān)聯(lián)基數(shù)的變更。圖8 Menu 的多對多維度的星型模式 我們無法在關(guān)系數(shù)據(jù)庫中實現(xiàn)多對多關(guān)聯(lián)。實現(xiàn)多對多關(guān)聯(lián)需要使用另一種雪花模式。在下圖中,我們關(guān)注一下已經(jīng)開發(fā)的雪花模式的一部分,該部分處理多對多維度。圖9 雪花模式解決了 Menu 的多維度Rational Rose 生成了附加的維度表 FlightMenu,它是指 Menu 維度和 Flight 事實。確定關(guān)系用于解決多對多關(guān)聯(lián)。對于雪花模式的架構(gòu)師來說,最重要的一點就是識別多對多關(guān)系。簡單對象視圖可能會使設(shè)計員理解概念,而生成的數(shù)據(jù)視圖有助于進一步深入有關(guān)實現(xiàn)的問題。層次數(shù)據(jù)挖掘可以從隱藏在操作系
17、統(tǒng)表面下的數(shù)據(jù)中發(fā)現(xiàn)信息。我們想了解的一個問題就是選定菜單與乘客統(tǒng)計資料之間的依賴關(guān)系。乘客統(tǒng)計資料數(shù)據(jù)可以在 Passenger 維度的層次上構(gòu)建。乘客可以根據(jù)郵政編碼分組,然后再按國家進行分組。圖10 乘客的層次 層次通過使用聚合來指定。聚合定義了所包括的內(nèi)容。Country 包含了 ZIP 編碼,ZIP 編碼包含了多名 Passenger 信息。最終通過使用外鍵實現(xiàn)了聚合。圖11 雪花模式實現(xiàn)了 Passenger 維度的聚合生成的約束仍然沒有在圖中表示出來。使用聚合,維度可以在任何定義的級別上使用。分析空間可以通過 Passenger、ZIP Code或者 Country 進
18、行切片。一致的維度隨著數(shù)據(jù)倉庫架構(gòu)師不斷地添加細節(jié)內(nèi)容,雪花模式變得越來越復(fù)雜。因此設(shè)計過程必須在到達某種程度后停止以保持數(shù)據(jù)倉庫運行良好。星型或者雪花模式仍然僅僅關(guān)注于一個事實-在本例中就是Flight。那么復(fù)雜關(guān)系又是什么情況呢?對于每個事實我們都必須設(shè)計其各自的模式。如果我們想要進行復(fù)雜查詢的話,它們就必須具有共同的維度-我們稱其為一致的維度。讓我們使用 Pilot 作為一個維度,PilotFlight 作為一個事實來定義第二個星型模式。我們還要使用附加的 Flight Schedule 維度和 Time 維度。圖12 Pilot 星型模式 第二個模式可以單獨使用或者與 Passenger 模式結(jié)合使用,從而根據(jù)使用一致維度的飛行員維度來查詢 Passenger 的滿意程度。圖13 一致維度Time 和 Flight Schedule&
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 全面行政車輛管理制度
- 化纖成品倉庫管理制度
- 計算機三級數(shù)據(jù)庫高效查詢技巧試題及答案
- 工廠宿舍秩序管理制度
- 確保文檔一致性的測試流程實施試題及答案
- 公司員工餐飲管理制度
- 假期學(xué)生安全管理制度
- 公司全電發(fā)票管理制度
- 學(xué)生安全接送管理制度
- 醫(yī)院倉庫發(fā)放管理制度
- 咯血診斷與治療課件
- 醫(yī)學(xué)影像專業(yè)個人簡歷
- 檢驗科 醫(yī)院感染管理質(zhì)量督查評分表
- 獨立性檢驗 公開課比賽一等獎-完整版獲獎?wù)n件
- 網(wǎng)絡(luò)信息系統(tǒng)癱瘓演練PDCA改進
- 量值溯源圖要求
- 高分子材料成型加工基礎(chǔ)添加劑及配方設(shè)計課件
- 水泥水化熱實驗原始記錄
- 劍橋國際少兒英語第一冊文本kb1聽力
- 浙美版四年級美術(shù)下冊《12 亭子》教學(xué)設(shè)計教案
- 外腳手架施工方案及計算書
評論
0/150
提交評論