數(shù)據(jù)倉庫和數(shù)據(jù)集市_第1頁
數(shù)據(jù)倉庫和數(shù)據(jù)集市_第2頁
數(shù)據(jù)倉庫和數(shù)據(jù)集市_第3頁
數(shù)據(jù)倉庫和數(shù)據(jù)集市_第4頁
數(shù)據(jù)倉庫和數(shù)據(jù)集市_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、看了很多數(shù)據(jù)倉庫方面的資料,都涉及到了“數(shù)據(jù)集市”這一說法,剛開始對數(shù)據(jù)倉庫和數(shù)據(jù)集市的區(qū)別也理解得比較膚淺,現(xiàn)在做個深入的歸納和總結,主要從如下幾個方面進行闡述:看了很多數(shù)據(jù)倉庫方面的資料,都涉及到了“數(shù)據(jù)集市”這一說法,剛開始對數(shù)據(jù)倉庫和數(shù)據(jù)集市的區(qū)別也理解得比較膚淺,現(xiàn)在做個深入的歸納和總結,主要從如下幾個方面進行闡述:(1)基本概念(2)為什么提出數(shù)據(jù)集市(3)數(shù)據(jù)倉庫設計方法論(4)數(shù)據(jù)集市和數(shù)據(jù)倉庫的區(qū)別(5)倉庫建模與集市建模(6)案例分析:電信CRM數(shù)據(jù)倉庫BillInmon說過一句話叫“IT經(jīng)理們面對最重要的問題就是到底先建立數(shù)據(jù)倉庫還是先建立數(shù)據(jù)集市”,足以說明搞清楚這兩者

2、之間的關系是十分重要而迫切的!通常在考慮建立數(shù)據(jù)倉庫之前,會涉及到如下一些問題:(1)采取自上而下還是自下而上的設計方法(2)企業(yè)范圍還是部門范圍(3)先建立數(shù)據(jù)倉庫還是數(shù)據(jù)集市(4)建立領航系統(tǒng)還是直接實施(5)數(shù)據(jù)集市是否相互獨立數(shù)據(jù)倉庫一詞尚沒有一個統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家w.H.Inmon在其著作BuildingtheDataWarehouse一書中給予如下描述:數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOri2ented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合用于支持管

3、理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。為最大限度地實現(xiàn)靈活性,集成的數(shù)據(jù)倉庫的數(shù)據(jù)應該存儲在標準RDBMS中,并經(jīng)過規(guī)范的數(shù)據(jù)庫設計,以及為了提高性能而增加一些小結性信息和不規(guī)范設計。這種類型的數(shù)據(jù)倉庫設計被稱為原子數(shù)據(jù)倉庫。原子數(shù)據(jù)倉庫的子集,又莆菁小T硬摯獯嬖詰鬧饕康氖親魑菁械墓,求骰。幣滄魑握招允薟摯狻T硬摯獾拇笮12寫娣藕褪菘饃杓瓶贍芪薹閭厥飫嘈陀沒母髦中棖蟆F渥蛹?即

4、各個數(shù)據(jù)集市被拷貝到其它計算機上,可作為它們自己的數(shù)據(jù)倉庫。數(shù)據(jù)集市可以和產(chǎn)生它們的原子數(shù)據(jù)倉庫一樣大,甚至更大。它們可以位于原子數(shù)據(jù)倉庫的附近,或分布到更靠近用戶的位置,放置在何處取決于使用和通訊成本。數(shù)據(jù)集市是用來滿足特殊用戶的應用需求的數(shù)據(jù)倉庫,它們的規(guī)??赡苓_到數(shù)百GB。使其成為數(shù)據(jù)集市的關鍵是它的使用目標、范圍,而非規(guī)模大小。數(shù)據(jù)集市可以理解為是一個小型的部門或者工作組級別的數(shù)據(jù)倉庫。有兩種類型的數(shù)據(jù)集市(如下圖):鼠皂500)this.resized=true;this.style.width=500;/獨立型(直接從操作型環(huán)境中獲取數(shù)據(jù)):這些數(shù)據(jù)集市是由特定的工作組、部門或業(yè)務

5、線進行控制的,完全是為滿足其需求而構建的。實際上,它們甚至與其他工作組、部門或業(yè)務線中的數(shù)據(jù)集市沒有任何連通性從屬型(從企業(yè)級數(shù)據(jù)倉庫中獲取數(shù)據(jù)):這樣的數(shù)據(jù)集市往往以分布式的方式實現(xiàn)。雖然不同的數(shù)據(jù)集市是在特定的工作組、部門或生產(chǎn)線中實現(xiàn)的,但它們可以是集成、互連的,以提供更加全局的業(yè)務范圍的數(shù)據(jù)視圖。實際上,在最高的集成層次上,它們可以成為業(yè)務范圍的數(shù)據(jù)倉庫。這意味著一個部門中的終端用戶可以訪問和使用另一部門中數(shù)據(jù)集市中的數(shù)據(jù)雖然OLTP和遺留系統(tǒng)擁有寶貴的信息,但是可能難以從這些系統(tǒng)中提取有意義的信息并且速度也較慢。而且這些系統(tǒng)雖然一般可支持預先定義操作的報表,但卻經(jīng)常無法支持一個組織對

6、于歷史的、聯(lián)合的、智能的或易于訪問的信息的需求。因為數(shù)據(jù)分布在許多跨系統(tǒng)和平臺的表中,而且通常是“臟的”,包含了不一致的和無效的值,使得難于分析。數(shù)據(jù)集市將合并不同系統(tǒng)的數(shù)據(jù)源來滿足業(yè)務信息需求。若能有效地得以實現(xiàn),數(shù)據(jù)集市將可以快速且方便地訪問簡單信息以及系統(tǒng)的和歷史的視圖。一個設計良好的數(shù)據(jù)集市有如下特點(有些特點數(shù)據(jù)倉庫也具有,有些特點是相對于數(shù)據(jù)倉庫來講的):(1)特定用戶群體所需的信息,通常是一個部門或者一個特定組織的用戶,且無需受制于源系統(tǒng)的大量需求和操作性危機(想對于數(shù)據(jù)倉庫)。支持訪問非易變(nonvolatile)的業(yè)務信息。(非易變的信息是以預定的時間間隔進行更新的,并且不

7、受OLTP系統(tǒng)進行中的更新的影響。)(3)調(diào)和來自于組織里多個運行系統(tǒng)的信息,比如賬目、銷售、庫存和客戶管理以及組織外部的行業(yè)數(shù)據(jù)。(4)通過默認有效值、使各系統(tǒng)的值保持一致以及添加描述以使隱含代碼有意義,從而提供凈化的(cleansed)數(shù)據(jù)。為即席分析和預定義報表提供合理的查詢響應時間(由于數(shù)據(jù)集市是部門級的,相對于龐大的數(shù)據(jù)倉庫來講,其查詢和分析的響應時間會大大縮短)。在數(shù)據(jù)倉庫建立之前,會考慮其實現(xiàn)方法,通常有自頂向下、自底向上和兩者綜合進行的這樣三種實現(xiàn)方案,下面分別對其做簡要闡述:自頂向下的實現(xiàn)自頂向下的方法就是在單個項目階段中實現(xiàn)數(shù)據(jù)倉庫。自頂向下的實現(xiàn)需要在項目開始時完成更多計

8、劃和設計工作。這就需要涉及參與數(shù)據(jù)倉庫實現(xiàn)的每個工作組、部門或業(yè)務線中的人員。要使用的數(shù)據(jù)源、安全性、數(shù)據(jù)結構、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準和整個數(shù)據(jù)模型的有關決策一般需要在真正的實現(xiàn)開始之前就完成。(2)自底向上的實現(xiàn)自底向上的實現(xiàn)包含數(shù)據(jù)倉庫的計劃和設計,無需等待安置好更大業(yè)務范圍的數(shù)據(jù)倉庫設計。這并不意味著不會開發(fā)更大業(yè)務范圍的數(shù)據(jù)倉庫設計;隨著初始數(shù)據(jù)倉庫實現(xiàn)的擴展,將逐漸增加對它的構建?,F(xiàn)在,該方法得到了比自頂向下方法更廣泛的接受,因為數(shù)據(jù)倉庫的直接結果可以實現(xiàn),并可以用作擴展更大業(yè)務范圍實現(xiàn)的證明。(3)一種折中方案每種實現(xiàn)方法都有利弊。在許多情況下,最好的方法可能是某兩種的組合。該方法的關

9、鍵之一就是確定業(yè)務范圍的架構需要用于支持集成的計劃和設計的程度,因為數(shù)據(jù)倉庫是用自底向上的方法進行構建。在使用自底向上或階段性數(shù)據(jù)倉庫項目模型來構建業(yè)務范圍架構中的一系列數(shù)據(jù)集市時,您可以一個接一個地集成不同業(yè)務主題領域中的數(shù)據(jù)集市,從而形成設計良好的業(yè)務數(shù)據(jù)倉庫。這樣的方法可以極好地適用于業(yè)務。在這種方法中,可以把數(shù)據(jù)集市理解為整個數(shù)據(jù)倉庫系統(tǒng)的邏輯子集,換句話說數(shù)據(jù)倉庫就是一致化了的數(shù)據(jù)集市的集合。這種方案的實施步驟通常分如下幾步:(6)從整個企業(yè)的角度定義計劃和需求(7)構建完整的倉庫體系結構(8)使數(shù)據(jù)內(nèi)容一致而且標準化(9)將數(shù)據(jù)倉庫作為一種超級數(shù)據(jù)集市來實施關于Inmon和Kimb

10、all的大辯論:RalphKimball和BillInmon一直是商業(yè)智能領域中的革新者,開發(fā)并測試了新的技術和體系結構。BillInmon將數(shù)據(jù)倉庫定義為“一個面向主題的、集成的、隨時間變化的、非易變的用于支持管理的決策過程的數(shù)據(jù)集合”;他通過“面向主題”表示應該圍繞主題來組織數(shù)據(jù)倉庫中的數(shù)據(jù),例如客戶、銷售、產(chǎn)品等等。每個主題區(qū)域僅僅包含該主題相關的信息。數(shù)據(jù)倉庫應該一次增加一個主題,并且當需要容易地訪問多個主題時,應該創(chuàng)建以數(shù)據(jù)倉庫為來源的數(shù)據(jù)集市。換言之,某個特定數(shù)據(jù)集市中的所有數(shù)據(jù)都應該來自于面向主題的數(shù)據(jù)存儲。Inmon的方法包含了更多上述工作而減少了對于信息的初始訪問。但他認為這

11、個集中式的體系結構持續(xù)下去將提供更強的一致性和靈活性,并且從長遠來看將真正節(jié)省資源和工作。下圖是他的設計方法圖解:DerfllonflIiTriaknEJLaoacvRyRalphKimball說“數(shù)據(jù)倉庫僅僅是構成它的數(shù)據(jù)集市的聯(lián)合”,他認為“可以通過一系列維數(shù)相同的數(shù)據(jù)集市遞增地構建數(shù)據(jù)倉庫”。每個數(shù)據(jù)集市將聯(lián)合多個數(shù)據(jù)源來滿足特定的業(yè)務需求。通過使用一致的”維,能夠共同看到不同數(shù)據(jù)集市中的信息,這表示它們擁有公共定義的元素。設計方法如下圖:ProlriabilriYPopulate幀3即弧加trEHiri的幣IIWiriagerfteftOlTP號產(chǎn)怕msDataMartsWithCcn

12、ffarniBGlDiTnemsiana500)this.resized=true;this.style.width=500;/DuUiS口山皿dtaWanfihnusftExternBiDflUSourcesKimball的方法將提供集成的數(shù)據(jù)來回答組織迫切的業(yè)務問題并且要快于Inmon的方法。Inmon的方法是只有在構建幾個單主題區(qū)域之后,集中式的數(shù)據(jù)倉庫才創(chuàng)建數(shù)據(jù)集市。而Kimball認為該方法缺乏靈活性并且在現(xiàn)在的商業(yè)環(huán)境中所花時間太長。實際上,方法的選擇取決于項目的主要商業(yè)驅(qū)動。如果該組織正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),或者希望為今后打下良好的基礎,那么Inmon的方法就更好一些

13、。如果該組織迫切需要給用戶提供信息,那么Kimball的方法將滿足該需求。而一旦滿足了迫切的信息需求后,就應該考慮包含獨立數(shù)據(jù)倉庫的數(shù)據(jù)體系結構的轉換計劃。數(shù)據(jù)倉庫將使數(shù)據(jù)集市與遺留系統(tǒng)和OLTP系統(tǒng)隔離,并且支持更快地創(chuàng)建將來的數(shù)據(jù)集市。由于數(shù)據(jù)倉庫在整個發(fā)展中一直承擔了重任,所以它將支持極力關注數(shù)據(jù)集市。實際上基于商業(yè)驅(qū)動的需要,采用上面三種設計方案中的最后一種方法自頂向下和自底向上綜合的方案會很好的適應數(shù)據(jù)倉庫建立過程中的不同需求。數(shù)據(jù)倉庫是企業(yè)級的,能為整個企業(yè)各個部門的運行提供決策支持手段;而數(shù)據(jù)集市則是一種微型的數(shù)據(jù)倉庫,它通常有更少的數(shù)據(jù),更少的主題區(qū)域,以及更少的歷史數(shù)據(jù),因此

14、是部門級的,一般只能為某個局部范圍內(nèi)的管理人員服務,因此也稱之為部門級數(shù)據(jù)倉庫。數(shù)據(jù)倉庫和數(shù)據(jù)集市之間的區(qū)別如下圖:數(shù)據(jù)倉庫和數(shù)據(jù)集市的區(qū)別可從如下三個方面進行理解:(1)數(shù)據(jù)倉庫向各個數(shù)據(jù)集市提供數(shù)據(jù)(2)幾個部門的數(shù)據(jù)集市組成一個數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)來源堪留系統(tǒng)VLTP系銃外部數(shù)幅數(shù)據(jù)&庫范圍企性雄那門嫌武丁昨組程企業(yè)主精部門或耕蟀的好所士虺數(shù)指粒度呆組的枝.度越相的粒度鞅據(jù)站向規(guī)范化母構(第3范內(nèi)儂帙式雪片根式破兩者混合.粒史數(shù)鞘大苗的責史數(shù)據(jù)適度的歷史數(shù)鞘優(yōu)化處理兩至數(shù)據(jù)較樵探索使干訪問加分加快速汽加索引高度索引商董案引500)this.resized=true;this.style.

15、width=500;resized=true/(3)下面從其數(shù)據(jù)內(nèi)容特征進行分析,數(shù)據(jù)倉庫中數(shù)據(jù)結構采用規(guī)范化模式,數(shù)據(jù)集市中的數(shù)據(jù)結構采用星型模式,通常倉庫中數(shù)據(jù)粒度比集市的粒度要細,下圖反映了數(shù)據(jù)結構和數(shù)據(jù)內(nèi)容特征的區(qū)別500)this.resized=true;this.style.width=500;resized=true/數(shù)據(jù)只是所有業(yè)務活動、資源以及企業(yè)結果的記錄。數(shù)據(jù)模型是對那些數(shù)據(jù)的組織良好的抽象,因此數(shù)據(jù)模型成為理解和管理企業(yè)業(yè)務的最佳方法是極其自然的。數(shù)據(jù)模型起到了指導或計劃數(shù)據(jù)倉庫的實現(xiàn)的作用。在真正的實現(xiàn)開始之前,聯(lián)合每個業(yè)務領域的數(shù)據(jù)模型可以幫助確保其結果是有效的數(shù)

16、據(jù)倉庫,并且可以幫助減少實現(xiàn)的成本。數(shù)據(jù)倉庫的建模數(shù)據(jù)倉庫數(shù)據(jù)的建模是將需求轉換成圖畫以及支持表示那些需求的元數(shù)據(jù)的過程。出于易讀性目的,本文將關于需求和建模的討論相分離,但實際上這些步驟通常是重疊的。一旦在文檔中記錄一些初始需求,初始模型就開始成型。隨著需求變得更加完整,模型也會如此。最重要的是向終端用戶提供良好集成并易于解釋的數(shù)據(jù)倉庫的邏輯模型。這些邏輯模型是數(shù)據(jù)倉庫元數(shù)據(jù)的核心之一。為終端用戶提供的簡單性以及歷史數(shù)據(jù)的集成和聯(lián)合是建模方法應該幫助提供的關鍵原則。(2)數(shù)據(jù)集市的數(shù)據(jù)建模因為倉庫終端用戶直接與數(shù)據(jù)集市進行交互,所以數(shù)據(jù)集市的建模是捕獲終端用戶業(yè)務需求的最有效工具之一。數(shù)據(jù)集市的建模過程取決于許多因素。下面描述了三個最重要的:數(shù)據(jù)集市的建模是終端用戶驅(qū)動的。終端用戶必須參與數(shù)據(jù)集市的建模過程,因為他們顯然是要使用該數(shù)據(jù)集市的人。因為您應期望終端用戶完全不熟悉復雜的數(shù)據(jù)模型,所以應該將建模技術和建模過程作為整體進行組織,以便使復雜性對終端用戶透明。數(shù)據(jù)集市的建模是由業(yè)務需求驅(qū)動的。數(shù)據(jù)集市模型對于捕獲業(yè)務需求十分有用,因為它們通常由終端用戶直接使用,且易于理解。數(shù)據(jù)集市的建模極大地受到了數(shù)據(jù)分析技術的影響。數(shù)據(jù)分析技術可以影響所選擇的數(shù)據(jù)模型的類型及其內(nèi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論