版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、引例:沃爾瑪?shù)臄?shù)據(jù)倉(cāng)庫(kù) 沃爾瑪利用NCR的Teradata可對(duì)7.5TB的數(shù)據(jù)進(jìn)行存儲(chǔ),這些數(shù)據(jù)主要包括各個(gè)商店前端設(shè)備(POS、掃描儀)采集來(lái)的原始銷售數(shù)據(jù)和各個(gè)商店的庫(kù)存數(shù)。 Teradata數(shù)據(jù)庫(kù)里存有196億條記錄,每天要處理并更新2億條記錄,要對(duì)來(lái)自6000多個(gè)用戶的4.8萬(wàn)條查詢語(yǔ)句進(jìn)行處理。 銷售數(shù)據(jù)、庫(kù)存數(shù)據(jù)每天夜間從3000多個(gè)商店自動(dòng)采集過(guò)來(lái),并通過(guò)衛(wèi)星線路傳到總部的數(shù)據(jù)倉(cāng)庫(kù)里。 沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里最大的一張表格(Table)容量已超過(guò)300GB、存有50億條記錄,可容納65個(gè)星期3000多個(gè)商店的銷售數(shù)據(jù),而每個(gè)商店有5萬(wàn)到8萬(wàn)個(gè)商品品種。 利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),沃爾瑪對(duì)商品進(jìn)
2、行市場(chǎng)類組分析,即分析哪些商品顧客最有希望一起購(gòu)買。 第1頁(yè)/共54頁(yè)思考: 沃爾瑪?shù)臄?shù)據(jù)倉(cāng)庫(kù)是怎樣建成的?第2頁(yè)/共54頁(yè)教學(xué)目標(biāo) 掌握 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和開發(fā)方法 數(shù)據(jù)模型的設(shè)計(jì) 維度設(shè)計(jì) 粒度設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)步驟第3頁(yè)/共54頁(yè)本章內(nèi)容4.1 數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過(guò)程及特點(diǎn)1. 數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過(guò)程 2. 數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)特點(diǎn) 4.2 數(shù)據(jù)模型設(shè)計(jì) 1. 概念模型2. 邏輯模型3. 物理模型4. 維度的設(shè)計(jì)4.3 數(shù)據(jù)倉(cāng)庫(kù)的粒度設(shè)計(jì) 4.4 創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的基本步驟 第4頁(yè)/共54頁(yè)1.數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過(guò)程 按照生命周期發(fā)法可將數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的全部過(guò)程分成三個(gè)階段。(1) 數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃分析階段。(2)
3、 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)實(shí)施階段。(3) 數(shù)據(jù)倉(cāng)庫(kù)的使用維護(hù)階段。 這三個(gè)階段不是簡(jiǎn)單的循環(huán)往復(fù),而是不斷完善提高的過(guò)程。 一般情況下,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)都不可能在一個(gè)循環(huán)過(guò)程中完成,而是經(jīng)過(guò)多次循環(huán)開發(fā),每次循環(huán)都會(huì)給系統(tǒng)增加新的功能,這種循環(huán)的工作永遠(yuǎn)不會(huì)終結(jié),數(shù)據(jù)倉(cāng)庫(kù)也就一直處于一個(gè)不斷完善、不斷提高的循環(huán)過(guò)程中。第5頁(yè)/共54頁(yè)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的生命周期第6頁(yè)/共54頁(yè)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的生命周期1)DW規(guī)劃分析階段 調(diào)查、分析DW環(huán)境;完成DW的開發(fā)規(guī)劃;確定DW開發(fā)需求。 建立包括實(shí)體圖、星型模型、雪花模型、元數(shù)據(jù)模型及數(shù)據(jù)源分析的主題域數(shù)據(jù)模型,并且根據(jù)主題域數(shù)據(jù)模型開發(fā)DW邏輯模型。第7頁(yè)/共54頁(yè)數(shù)據(jù)
4、倉(cāng)庫(kù)開發(fā)的生命周期2)DW設(shè)計(jì)實(shí)施階段 根據(jù)DW的邏輯模型設(shè)計(jì)DW體系結(jié)構(gòu); 為DW中每個(gè)目標(biāo)字段確定其在業(yè)務(wù)系統(tǒng)或外部數(shù)據(jù)源中的數(shù)據(jù)來(lái)源; 開發(fā)或購(gòu)買用于抽取、清洗、轉(zhuǎn)換和聚合數(shù)據(jù)等中間件程序; 將數(shù)據(jù)從數(shù)據(jù)源加載到DW,并且進(jìn)行測(cè)試。第8頁(yè)/共54頁(yè)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的生命周期3)DW使用維護(hù)階段 投入使用,且在使用中改進(jìn)、維護(hù)DW; 對(duì)DW進(jìn)行評(píng)價(jià),為下一個(gè)循環(huán)開發(fā)提供依據(jù)。第9頁(yè)/共54頁(yè)2.數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的特點(diǎn)1)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)是從數(shù)據(jù)出發(fā)的 創(chuàng)建DW是在原有的數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,我們稱之為“數(shù)據(jù)驅(qū)動(dòng)”。 數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)方法的中心是利用數(shù)據(jù)模型有效的識(shí)別原有的數(shù)據(jù)庫(kù)中的數(shù)據(jù)和DW中
5、主題的數(shù)據(jù)。2)DW使用的需求不能在開發(fā)初期完全明確 在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在固定的且較確切的物流、數(shù)據(jù)流、和信息流, 數(shù)據(jù)分析處理的需求更加靈活,更沒(méi)有固定的模式, 甚至用戶自己也對(duì)所要進(jìn)行的分析處理不能事先全部確定3)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)是一個(gè)不斷循環(huán)的過(guò)程,是啟發(fā)式的開發(fā) 一方面DW的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、力度、分割以及其他物理設(shè)計(jì)應(yīng)該根據(jù)用戶所返回的信息不斷的調(diào)整和完善,以提高系統(tǒng)的效率和性能; 另一方面,通過(guò)不斷理解用戶的分析需求,不斷的調(diào)整和完善,以求向用戶提供更準(zhǔn)確、更有效的決策信息。 第10頁(yè)/共54頁(yè)思考 數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過(guò)程與數(shù)據(jù)庫(kù)的開發(fā)過(guò)程有什么不同?為什么?第11頁(yè)/共54頁(yè)4.2
6、數(shù)據(jù)模型的設(shè)計(jì)第12頁(yè)/共54頁(yè)4.2數(shù)據(jù)模型的設(shè)計(jì)1.概念模型1)設(shè)計(jì)方法2)注意事項(xiàng)3)E-R圖2.邏輯模型1)星形模型2)雪花模型3)星座模型4)維表的設(shè)計(jì)3.物理模型4.維度的設(shè)計(jì)第13頁(yè)/共54頁(yè)第14頁(yè)/共54頁(yè)1.概念模型設(shè)計(jì)1)設(shè)計(jì)方法 在建模之前定義數(shù)據(jù)模型的邊界, 然后建立企業(yè)內(nèi)不同群體的實(shí)體-聯(lián)系模型, 最后進(jìn)行集成企業(yè)的總體概念模型。第15頁(yè)/共54頁(yè)1.概念模型設(shè)計(jì)2)注意事項(xiàng)(1) 在DW的數(shù)據(jù)模型中不包含操作性數(shù)據(jù),只包含用戶感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。 例:在商品銷售分析DW模型中,商品的銷售數(shù)量、金額、企業(yè)利潤(rùn)等是分析數(shù)據(jù);銷售的時(shí)間、地點(diǎn)等使用戶感
7、興趣的描述數(shù)據(jù);銷售產(chǎn)品的詳細(xì)情況、購(gòu)買商品的客戶詳細(xì)情況等是細(xì)節(jié)數(shù)據(jù)。(2) 數(shù)據(jù)的歷史變遷性。DW的數(shù)據(jù)模型增加時(shí)間屬性作為碼的一部分(3) 數(shù)據(jù)的概括性。DW的數(shù)據(jù)模型中增加了一些衍生數(shù)據(jù),專門用于分析的DW系統(tǒng)需要一些概括性的數(shù)據(jù),這些數(shù)據(jù)在業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)模型中是不需要的。例:在銷售管理的業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)模型中,通常只需要記錄當(dāng)前細(xì)數(shù)據(jù),而在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型中,需要保存一些統(tǒng)計(jì)、累加而來(lái)的綜合數(shù)據(jù)。第16頁(yè)/共54頁(yè)1.概念模型設(shè)計(jì)3)E-R圖的描述方法(1) 矩形。矩形表示實(shí)體,在數(shù)據(jù)倉(cāng)庫(kù)中表示主題,在矩形框內(nèi)寫上主題名。(2) 橢圓形。橢圓形表示主題的屬性,并用無(wú)向邊把主題與
8、其屬性連接起來(lái)。(3) 菱形。菱形表示主題之間的聯(lián)系,菱形框內(nèi)寫上聯(lián)系的名字。用無(wú)向邊把菱形分別與有關(guān)的主題連接,在無(wú)向邊旁標(biāo)上聯(lián)系的類型。若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無(wú)向邊連接上。第17頁(yè)/共54頁(yè)概念模型設(shè)計(jì) 某商場(chǎng)的商品、顧客和供應(yīng)商之間的概念模型的E-R圖 第18頁(yè)/共54頁(yè)2.邏輯模型設(shè)計(jì) 關(guān)系數(shù)據(jù)庫(kù)一般采用二維數(shù)據(jù)表的形式來(lái)表示數(shù)據(jù),一個(gè)維是行,另一個(gè)維是列,行和列的交叉處就是數(shù)據(jù)元素。關(guān)系數(shù)據(jù)的基礎(chǔ)是關(guān)系數(shù)據(jù)庫(kù)模型,通過(guò)標(biāo)準(zhǔn)的SQL語(yǔ)言來(lái)加以實(shí)現(xiàn)。 數(shù)據(jù)倉(cāng)庫(kù)是多維數(shù)據(jù)庫(kù),它擴(kuò)展了關(guān)系數(shù)據(jù)庫(kù)模型,以星形架構(gòu)為主要結(jié)構(gòu)方式的,并在它的基礎(chǔ)上,擴(kuò)展出理論雪花形架構(gòu)和數(shù)
9、據(jù)星座等方式,但不管是哪一種架構(gòu),維度表、事實(shí)表和事實(shí)表中的量度都是必不可少的組成要素。第19頁(yè)/共54頁(yè)1)星形模型 星形模型是最常用的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)結(jié)構(gòu)的實(shí)現(xiàn)模式。 星形模式通過(guò)使用一個(gè)包含主題的事實(shí)表和多個(gè)維度表來(lái)支持各種決策查詢。 星形模型可以采用關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu),模型的核心是事實(shí)表,圍繞事實(shí)表的是維度表。通過(guò)事實(shí)表將各種不同的維度表連接起來(lái),各個(gè)維度表都連接到中央事實(shí)表。 每一個(gè)維度表通過(guò)一個(gè)主鍵與事實(shí)表進(jìn)行連接。 第20頁(yè)/共54頁(yè)邏輯模型設(shè)計(jì)星形模型第21頁(yè)/共54頁(yè)邏輯模型設(shè)計(jì)星形模型 事實(shí)表 主要包含了描述特定商業(yè)事件的數(shù)據(jù),即某些特定商業(yè)事件的度量值。 一般情況下,事實(shí)表中的
10、數(shù)據(jù)不允許修改,新的數(shù)據(jù)只是簡(jiǎn)單地添加進(jìn)事實(shí)表中, 維度表主要包含了存儲(chǔ)在事實(shí)表中數(shù)據(jù)的特征數(shù)據(jù)。 每一個(gè)維度表利用維度關(guān)鍵字通過(guò)事實(shí)表中的外鍵約束于事實(shí)表中的某一行 要求事實(shí)表中的外鍵不能為空,這與一般數(shù)據(jù)庫(kù)中外鍵允許為空是不同的。第22頁(yè)/共54頁(yè)邏輯模型設(shè)計(jì)星形模型 邏輯模型與實(shí)體-關(guān)系建模之間的關(guān)系 實(shí)體-聯(lián)系圖是代表企業(yè)中每一個(gè)可能的業(yè)務(wù)過(guò)程,一個(gè)實(shí)體-聯(lián)系圖可以拆分成多個(gè)維表、事實(shí)表構(gòu)成的邏輯模型。 將E-R圖轉(zhuǎn)換成維度建模時(shí)的步驟是:(1) 將E-R圖分成獨(dú)立的業(yè)務(wù)處理,然后對(duì)每個(gè)業(yè)務(wù)處理單獨(dú)建模。(2) 在E-R圖中,對(duì)包含數(shù)字型事實(shí),將他們?cè)O(shè)計(jì)成各個(gè)事實(shí)表。(3) 將剩下的實(shí)
11、體進(jìn)行非規(guī)范化處理,設(shè)計(jì)成維表。第23頁(yè)/共54頁(yè)星形模型基本設(shè)計(jì)技術(shù)(1) 正確區(qū)分事實(shí)、屬性和維度。 維度模型需要對(duì)事實(shí)和屬性進(jìn)行區(qū)分,業(yè)務(wù)層的很多事實(shí)都是數(shù)值型的,特別是該數(shù)值是浮點(diǎn)數(shù)時(shí),他很可能是一個(gè)事實(shí),而不是屬性。 例如“標(biāo)準(zhǔn)價(jià)格”,好像是產(chǎn)品維度的一個(gè)屬性,似乎是事先一致的常量,但每年對(duì)標(biāo)準(zhǔn)價(jià)格進(jìn)行一、兩次調(diào)整,因此應(yīng)該設(shè)計(jì)成事實(shí)。 屬性通常指文本字段,例如產(chǎn)品描述。 維度是類似于文本形式的屬性組合,固定的數(shù)值型屬性應(yīng)放在維表中。 例如,零售數(shù)據(jù)倉(cāng)庫(kù)中,至少應(yīng)有一個(gè)產(chǎn)品維度,一個(gè)商店維度,一個(gè)客戶維,一個(gè)時(shí)間維,一個(gè)促銷維。第24頁(yè)/共54頁(yè)星形模型基本設(shè)計(jì)技術(shù)(2) 事實(shí)表的設(shè)
12、計(jì)方法。 事實(shí)表是數(shù)據(jù)倉(cāng)庫(kù)中最大的表,在設(shè)計(jì)時(shí),一定注意使事實(shí)表盡可能的小,因?yàn)檫^(guò)大的事實(shí)表在表的處理、備份和恢復(fù)、用戶查詢等方面要用較長(zhǎng)的時(shí)間。具體方法主要有: 減少列的數(shù)量; 降低每列的大??; 把歷史數(shù)據(jù)存檔; 例如,零售營(yíng)銷事實(shí)表設(shè)計(jì)如下:第25頁(yè)/共54頁(yè)星形模型基本設(shè)計(jì)技術(shù)(3) 維表的設(shè)計(jì)。 維表的屬性必須具有以下特征: 可用文字描述; 離散值; 有規(guī)定的約束; 在分析時(shí)可提供行標(biāo)題。 時(shí)間維在數(shù)據(jù)倉(cāng)庫(kù)中占有特定位置,建議使用時(shí)間維度。 例:零售業(yè)營(yíng)銷分析的星型模型圖。第26頁(yè)/共54頁(yè)星形模型基本設(shè)計(jì)技術(shù) 零售業(yè)營(yíng)銷分析的星型模型圖第27頁(yè)/共54頁(yè)2)雪花模型 雪花模型是對(duì)星形
13、模型的擴(kuò)展,每一個(gè)維度都可以向外連接多個(gè)詳細(xì)類別表。 在這種模式中,維度表除了具有星形模型中維度表的功能外,還連接對(duì)事實(shí)表進(jìn)行詳細(xì)描述的詳細(xì)類別表,詳細(xì)類別表通過(guò)對(duì)事實(shí)表在有關(guān)維上的詳細(xì)描述達(dá)到了縮小事實(shí)表和提高查詢效率的目的。第28頁(yè)/共54頁(yè)邏輯模型設(shè)計(jì)雪花模型 雪花模型架構(gòu)示意圖 第29頁(yè)/共54頁(yè)邏輯模型設(shè)計(jì)雪花模型 在該模型中,將地理層次國(guó)家、區(qū)域和分區(qū)域嵌入到銷售員維度,這樣,公司的管理者想按照國(guó)家、區(qū)域、分區(qū)域和分區(qū)域內(nèi)的銷售員的層次關(guān)系來(lái)查看公司的銷售情況。第30頁(yè)/共54頁(yè)銷售數(shù)據(jù)倉(cāng)庫(kù)邏輯模型(雪花型)第31頁(yè)/共54頁(yè)3)星座模型 一個(gè)復(fù)雜的商業(yè)智能應(yīng)用往往會(huì)在數(shù)據(jù)倉(cāng)庫(kù)中存
14、放多個(gè)事實(shí)表,這時(shí)就會(huì)出現(xiàn)多個(gè)事實(shí)表共享某一個(gè)或多個(gè)維表的情況,這就是事實(shí)星座,也稱為星系模型(galaxy schema)。 數(shù)據(jù)倉(cāng)庫(kù)由于是企業(yè)范圍的,能對(duì)多個(gè)相關(guān)的主題建模,所以在設(shè)計(jì)其數(shù)據(jù)構(gòu)成時(shí)一般采用星系模式。而數(shù)據(jù)集市是部門級(jí)的,具有選定的主題,可以采用星形或雪花模型。第32頁(yè)/共54頁(yè)4)維度的設(shè)計(jì) 維是人們觀察客觀世界的角度,是一種高層次的類型劃分。如:對(duì)客戶、產(chǎn)品、服務(wù)、提供商、地點(diǎn)、渠道和事件發(fā)生的時(shí)間 維表是由維主鍵和維屬性組成的 一般情況下,在每次抽樣時(shí),如果數(shù)值數(shù)據(jù)字段的度量都改變,那么它就是事實(shí),如果它是某種東西的離散值描述,并幾乎保持為常數(shù),那么它就是維屬性。例如,
15、商品的價(jià)格是維表的屬性,銷售量是事實(shí)。 第33頁(yè)/共54頁(yè)維表舉例 時(shí)間維度及其層次關(guān)系 財(cái)務(wù)時(shí)間維度第34頁(yè)/共54頁(yè)維表舉例 地理維度層次 機(jī)構(gòu)維度層次第35頁(yè)/共54頁(yè)維表舉例客戶維度分類 第36頁(yè)/共54頁(yè)3.物理模型設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的物理數(shù)據(jù)模型就是邏輯數(shù)據(jù)模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn),如: 物理存取方式 數(shù)據(jù)存儲(chǔ)結(jié)構(gòu) 數(shù)據(jù)存放位置以及存儲(chǔ)分配等 物理數(shù)據(jù)模型設(shè)計(jì)實(shí)現(xiàn)時(shí),所考慮的主要因素有: IO存取時(shí)間 空間利用率和維護(hù)代價(jià)第37頁(yè)/共54頁(yè)物理模型設(shè)計(jì)設(shè)計(jì)存儲(chǔ)結(jié)構(gòu) 在物理設(shè)計(jì)時(shí),常常要按數(shù)據(jù)的重要性、使用頻率及對(duì)反應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類型的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。 重要
16、性高、經(jīng)常存取并對(duì)反應(yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲(chǔ)設(shè)備上; 存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以存放在低速存儲(chǔ)設(shè)備上。第38頁(yè)/共54頁(yè)4.3數(shù)據(jù)倉(cāng)庫(kù)的粒度設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)的性能和存儲(chǔ)空間是一對(duì)矛盾。 如果粒度設(shè)計(jì)得很小,則事實(shí)表將不得不記錄所有的細(xì)節(jié),儲(chǔ)存數(shù)據(jù)所需要的空間將會(huì)急劇的膨脹; 若設(shè)計(jì)的粒度很大,決策者不能觀察細(xì)節(jié)數(shù)據(jù)。 第39頁(yè)/共54頁(yè)粒度設(shè)計(jì)的三個(gè)步驟 粗略估計(jì) 確定雙重還是單一粒度 確定粒度的級(jí)別 第40頁(yè)/共54頁(yè)4.4創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的基本步驟(1) 收集運(yùn)營(yíng)環(huán)境文檔。(2) 選擇數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)技術(shù)。(3) 設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)模型。(4) 創(chuàng)建數(shù)據(jù)準(zhǔn)備區(qū)。(5) 創(chuàng)建數(shù)據(jù)
17、倉(cāng)庫(kù)數(shù)據(jù)庫(kù)。(6) 從操作型系統(tǒng)中抽取數(shù)據(jù)。(7) 清理和轉(zhuǎn)換數(shù)據(jù)。(8) 將數(shù)據(jù)載入數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)。(9) 準(zhǔn)備顯示數(shù)據(jù)。(10) 將數(shù)據(jù)分發(fā)到數(shù)據(jù)集市。第41頁(yè)/共54頁(yè)建立運(yùn)營(yíng)環(huán)境文檔 建立運(yùn)營(yíng)環(huán)境的第一步是識(shí)別所有業(yè)務(wù)系統(tǒng) 確定每個(gè)系統(tǒng)中存儲(chǔ)什么樣的數(shù)據(jù) 第42頁(yè)/共54頁(yè)選擇數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)技術(shù)(1) 數(shù)據(jù)倉(cāng)庫(kù)的操作系統(tǒng)。(2) 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)。(3) 數(shù)據(jù)倉(cāng)庫(kù)模型工具。(4) 數(shù)據(jù)倉(cāng)庫(kù)開發(fā)工具。(5) 數(shù)據(jù)倉(cāng)庫(kù)監(jiān)視工具。(6) 提取和清除工具。(7) 報(bào)告工具。(8) OLAP服務(wù)器。(8) 數(shù)據(jù)挖掘工具 第43頁(yè)/共54頁(yè)選擇數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)技術(shù) 下面是選擇供應(yīng)商需要注意的問(wèn)題。(
18、1) 選擇“最好的”產(chǎn)品并不總是正確的解決方案。(2) 選擇與行業(yè)標(biāo)準(zhǔn)相近的產(chǎn)品。 花費(fèi)時(shí)間來(lái)評(píng)估幾個(gè)供應(yīng)商的不同軟件包是一件非常迫切需要的工作。第44頁(yè)/共54頁(yè)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)模型 關(guān)系模型是當(dāng)前最流行數(shù)據(jù)模型 最流行的數(shù)據(jù)倉(cāng)庫(kù)模型是星型模型。第45頁(yè)/共54頁(yè)創(chuàng)建數(shù)據(jù)準(zhǔn)備區(qū) 為支持?jǐn)?shù)據(jù)抽取、清理和轉(zhuǎn)換操作以便準(zhǔn)備數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù),需要?jiǎng)?chuàng)建表和其他數(shù)據(jù)庫(kù)對(duì)象。 可以為數(shù)據(jù)準(zhǔn)備區(qū)創(chuàng)建單獨(dú)的數(shù)據(jù)庫(kù),或者可以在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)中創(chuàng)建這些項(xiàng)目。 數(shù)據(jù)準(zhǔn)備區(qū)應(yīng)包括包含傳入數(shù)據(jù)的表、幫助實(shí)現(xiàn)代理鍵的表以及容納轉(zhuǎn)換數(shù)據(jù)的表。 數(shù)據(jù)準(zhǔn)備區(qū)的特定設(shè)計(jì)取決于數(shù)據(jù)源的多樣性、組織數(shù)據(jù),以使在裝入數(shù)據(jù)倉(cāng)庫(kù)時(shí)所需的轉(zhuǎn)換程度以及傳入數(shù)據(jù)的一致性。第46頁(yè)/共54頁(yè)創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù) 創(chuàng)建事實(shí)數(shù)據(jù)表和維度表,并在所有表中的主要字段上建立索引。 星型架構(gòu)由單個(gè)事實(shí)數(shù)據(jù)表和一些維度表組成。雪花型架構(gòu)增加了次要維度表。第47頁(yè)/共54頁(yè)從操作型系統(tǒng)中抽取數(shù)據(jù) 抽取數(shù)據(jù) 簡(jiǎn)單抽取 復(fù)雜抽取 識(shí)別數(shù)據(jù)中的錯(cuò)誤和不一致問(wèn)題。 第48頁(yè)/共54頁(yè)清理和轉(zhuǎn)換數(shù)據(jù) 從源系統(tǒng)抽取后,數(shù)據(jù)應(yīng)駐留在數(shù)據(jù)準(zhǔn)備區(qū),在這里可以在數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)前完成清理和轉(zhuǎn)換。 可以執(zhí)行一些過(guò)程來(lái)驗(yàn)證數(shù)據(jù)的一致性,將數(shù)據(jù)轉(zhuǎn)換成常用格式以及合并代理鍵。 可能需要執(zhí)行手工操作協(xié)調(diào)數(shù)據(jù)的不一致或解決二義性文本字段輸入項(xiàng) 第49頁(yè)/共54頁(yè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二年級(jí)數(shù)學(xué)(上)計(jì)算題專項(xiàng)練習(xí)匯編
- 年產(chǎn)50臺(tái)大型氣體壓縮機(jī)項(xiàng)目可行性研究報(bào)告模板-立項(xiàng)備案
- 企業(yè)中的項(xiàng)目組織管理第07章
- 2025版空調(diào)設(shè)備銷售與安裝一體化服務(wù)合同范本3篇
- 中小學(xué)生數(shù)學(xué)寒假培訓(xùn)班
- 國(guó)外城市社區(qū)居家養(yǎng)老服務(wù)的特點(diǎn)
- 重慶市南川區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期期末考試生物試題(含答案)
- 四川省瀘州市瀘州高級(jí)中學(xué)校2024-2025學(xué)年九年級(jí)上學(xué)期1月期末考試化學(xué)試卷(含答案)
- 冬季用電防火安全
- 河北省唐山市(2024年-2025年小學(xué)六年級(jí)語(yǔ)文)部編版專題練習(xí)(上學(xué)期)試卷及答案
- 機(jī)動(dòng)車維修竣工出廠合格證
- 陜西延長(zhǎng)石油精原煤化工有限公司 60 萬(wàn)噸 - 年蘭炭綜合利用項(xiàng)目 ( 一期 30 萬(wàn)噸 - 年蘭炭、1 萬(wàn)噸 - 年金屬鎂生產(chǎn)線)竣工環(huán)境保護(hù)驗(yàn)收調(diào)查報(bào)告
- 大病救助申請(qǐng)書
- 法學(xué)概論-課件
- 廈門物業(yè)管理若干規(guī)定
- 外科護(hù)理學(xué)試題+答案
- 齊魯醫(yī)學(xué)屈光和屈光不正匯編
- 貨架的技術(shù)說(shuō)明(一)
- 【高等數(shù)學(xué)練習(xí)題】皖西學(xué)院專升本自考真題匯總(附答案解析)
- 高處作業(yè)安全技術(shù)交底-
- 工抵房協(xié)議模板
評(píng)論
0/150
提交評(píng)論