版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫和決策支持系統(tǒng)主講:魯明羽大連海事大學(xué)計算機科學(xué)與技術(shù)學(xué)院研究方向:智能數(shù)據(jù)分析與數(shù)據(jù)挖掘電話mail:lumingyu@第五章數(shù)數(shù)據(jù)倉倉庫工程程目錄5.1數(shù)據(jù)倉庫庫工程概概述5.2數(shù)據(jù)倉庫庫開發(fā)模模型5.3數(shù)據(jù)倉庫庫的規(guī)劃劃5.4數(shù)據(jù)倉庫庫的概念念模型設(shè)設(shè)計5.5數(shù)據(jù)倉庫庫的邏輯輯模型設(shè)設(shè)計5.6數(shù)據(jù)倉庫庫的物理理模型設(shè)設(shè)計5.7數(shù)據(jù)倉庫庫的實施施5.8數(shù)據(jù)倉庫庫的應(yīng)用用、支持持和增強強練習(xí)習(xí)數(shù)據(jù)倉庫庫的開發(fā)發(fā)應(yīng)用像像其它軟軟件系統(tǒng)統(tǒng)一樣,,具有其其特有的的、完整整的生命命周期。。數(shù)據(jù)倉庫庫的開發(fā)發(fā)應(yīng)用周周期可以以分成三三個階段段:規(guī)劃分析析階段設(shè)計實施施階段使用維護護階段這三個階階段是一一個不斷斷循環(huán)、、完善和和提高的的過程。。一般情情況下,,數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)不可能能在一個個循環(huán)過過程中完完成,而而須經(jīng)過過多次循循環(huán)開發(fā)發(fā)。每次次循環(huán)都都會為系系統(tǒng)增加加新的功功能,使使數(shù)據(jù)倉倉庫的應(yīng)應(yīng)用得到到完善和和提高。。5.1數(shù)據(jù)倉庫庫工程概概述數(shù)據(jù)倉庫庫的螺旋旋式開發(fā)發(fā)方法設(shè)計體系結(jié)構(gòu)開發(fā)概念模型開發(fā)邏輯模型數(shù)據(jù)庫與元數(shù)據(jù)設(shè)計數(shù)據(jù)抽取轉(zhuǎn)換與加載開發(fā)中間件填充與測試數(shù)據(jù)倉庫數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)倉庫維護數(shù)據(jù)倉庫評價規(guī)劃與確定需求規(guī)劃分析析階段數(shù)據(jù)倉庫庫開發(fā)過程程設(shè)計實施施使用維護護階段階階段5.2數(shù)數(shù)據(jù)據(jù)倉庫的的開發(fā)模模型在創(chuàng)建數(shù)數(shù)據(jù)倉庫庫時,需需要使用用各種數(shù)數(shù)據(jù)模型型對數(shù)據(jù)據(jù)倉庫進進行描述述。數(shù)據(jù)據(jù)倉庫的的開發(fā)人人員依據(jù)據(jù)這些數(shù)數(shù)據(jù)模型型,才能能開發(fā)出出一個滿滿足用戶戶需求的的數(shù)據(jù)倉倉庫,使使開發(fā)人人員能夠夠?qū)⒆⒁庖饬兄性跀?shù)據(jù)據(jù)倉庫開開發(fā)的主主要部分分。模型有更更好的適適應(yīng)性,,更易于于修改。。當(dāng)用戶戶的需求求改變時時,僅對對模型做做出相應(yīng)應(yīng)的變化化就能反反映這個個改變。。5.2..1模型與模模型轉(zhuǎn)換換模型是對對現(xiàn)實世世界進行行抽象的的工具。。在信息息管理中中,需要要將現(xiàn)實世界界的事物及及其有關(guān)關(guān)特征轉(zhuǎn)轉(zhuǎn)換為信息世界界的數(shù)據(jù),,才能對對信息進進行處理理與管理理,這就就需要依依靠數(shù)據(jù)據(jù)模型作作為這種種轉(zhuǎn)換的的橋梁。。這種轉(zhuǎn)換換一般需需要經(jīng)歷歷從現(xiàn)實實世界到到概念模模型、從從概念模模型到邏邏輯模型型、從邏邏輯模型型到物理理模型的的轉(zhuǎn)換過過程。數(shù)據(jù)庫客戶與產(chǎn)產(chǎn)品表文件客戶記錄張三列(字段段、數(shù)據(jù)據(jù)項)屬性特性職業(yè)計算機世世界邏輯世界界概念世界界現(xiàn)實世界界同質(zhì)總體體實體個體整體間聯(lián)聯(lián)系異質(zhì)總體體整體數(shù)據(jù)倉庫庫的設(shè)計計就是在在概念模模型、邏邏輯模型型和物理理模型的的依次轉(zhuǎn)轉(zhuǎn)換過程程中實現(xiàn)現(xiàn)的。作為數(shù)據(jù)據(jù)倉庫的的靈魂———元數(shù)據(jù)模型則自自始至終終伴隨著著數(shù)據(jù)倉倉庫的開開發(fā)、實實施與使使用。數(shù)數(shù)據(jù)粒度度和聚集集模型也也在數(shù)據(jù)據(jù)倉庫的的創(chuàng)建中中發(fā)揮著著指導(dǎo)的的作用,,指導(dǎo)著著數(shù)據(jù)倉倉庫的具具體實現(xiàn)現(xiàn)?,F(xiàn)實世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型數(shù)據(jù)粒度和聚集模型5.2..2數(shù)據(jù)倉庫庫的概念念模型概念數(shù)據(jù)據(jù)模型----可采用E-R圖圖財務(wù)部門門銷售收入入賬應(yīng)收賬應(yīng)付賬成本賬銷售部門門銷售計劃劃銷售合同同銷售統(tǒng)計計人事部門門員工業(yè)績績記錄員工技能能情況員工薪酬酬表企業(yè)數(shù)據(jù)據(jù)模型銷售部門門人事部門門財務(wù)部門門……………圖5.3企業(yè)數(shù)據(jù)據(jù)模型數(shù)據(jù)倉庫庫的概念念數(shù)據(jù)模模型的特特點不包含操作型的的數(shù)據(jù),只包含含用戶所所感興趣趣的分析數(shù)據(jù)據(jù)、描述數(shù)據(jù)據(jù)和細(xì)節(jié)數(shù)據(jù)據(jù)。擴充了關(guān)關(guān)鍵字結(jié)結(jié)構(gòu),增增加了時時間屬性性作為關(guān)關(guān)鍵字的的一部分分。還增加了了一些由由基本數(shù)數(shù)據(jù)所導(dǎo)導(dǎo)出的衍衍生數(shù)據(jù)據(jù)。這些些導(dǎo)出的的衍生數(shù)數(shù)據(jù)主要要用于對對企業(yè)的的管理決決策進行行分析。。指標(biāo)實體體(事實實實體)指標(biāo)實體名維度實體名詳細(xì)類別別實體名名維度實體體詳細(xì)類別別實體((引用實實體)E-R圖圖中實體體的細(xì)分分?jǐn)?shù)據(jù)模型型的規(guī)范范與反規(guī)規(guī)范第一范式式、第二二范式、、第三范范式數(shù)據(jù)據(jù)倉庫的的反規(guī)范范化處理理----盡量量減少表表連接操操作數(shù)據(jù)倉庫的數(shù)據(jù)普通數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)長期的框架靜態(tài)數(shù)據(jù)通常是匯總的特殊查詢訪問定期更新數(shù)據(jù)驅(qū)動短期的框架快速變化記錄級的訪問標(biāo)準(zhǔn)查詢訪問實時更新事件驅(qū)動星型模型型星型模型型是最常用用的數(shù)據(jù)據(jù)倉庫設(shè)設(shè)計結(jié)構(gòu)構(gòu)的實現(xiàn)現(xiàn)模式。。它使數(shù)數(shù)據(jù)倉庫庫形成了了一個集集成系統(tǒng)統(tǒng),為用用戶提供供分析服服務(wù)對象象。事實表維表維表維表維表維表核心是事事實表,,圍繞事事實表的的是維((度)表表。通過過事實表表將各種種不同的的維度表表連接起起來,各各個維度度表都連連接到中中央事實實表。利用目前前成熟的的關(guān)系數(shù)數(shù)據(jù)庫系系統(tǒng),同同樣也可可以建立立數(shù)據(jù)倉倉庫。這這樣做成成本低,,實現(xiàn)快快,但數(shù)數(shù)據(jù)倉庫庫的效率率遠不如如多維數(shù)數(shù)據(jù)庫形形式。在在這種情情況下,,主要是是利用星星型模式式(STARSCHEME)來組織數(shù)數(shù)據(jù)。時間維表表事事實表產(chǎn)品維表表地區(qū)維表表數(shù)據(jù)倉庫庫的星型模型型(關(guān)系數(shù)據(jù)據(jù)庫形式)TIME-IDPRODUCT-IDCITY-IDSALES...TIME-IDTIME...PRODUCT-IDPNAMETYPECOLOR...CITY-IDCNAMEPOPULATION...雪花模型型雪花模型型是對星型型模型的的擴展,,每一個個維度都都可以向向外連接接到多個個詳細(xì)類類別表。。雪花模型型對星型型模型的的維度表表進一步步標(biāo)準(zhǔn)化化,對星星型模型型中的維維度表進進行了規(guī)規(guī)范化處處理。事實表維表維表維表維表維表詳細(xì)類別表詳細(xì)類別表經(jīng)濟(年收入入)100萬萬以上10萬以以上1萬以上上地點國家省市銷售銷售ID銷售數(shù)量量銷售價格格銷售金額額時間ID地點ID商品ID年齡60歲以以上40歲以以上30歲以以上20歲以以上20歲以以下日期年月日商品ID種類小類商品信用10萬元元以上1萬元以以上1千元以以上1千元以以下0元商品ID生產(chǎn)廠家家進貨價格格進貨日期期客戶客戶ID姓名地址電話郵政編碼碼雪花模型型根據(jù)需要要設(shè)計模模型5.2..3數(shù)數(shù)據(jù)倉倉庫的邏邏輯模型型數(shù)據(jù)倉庫庫的邏輯輯模型是是對數(shù)據(jù)據(jù)倉庫概概念模型型的細(xì)化化描述。。概念模模型中的的每個實實體對應(yīng)應(yīng)一個邏邏輯模型型。邏輯模型型中有四四種基本本結(jié)構(gòu)::基本數(shù)據(jù)據(jù)組:描描述相對對固定的的信息二級數(shù)據(jù)據(jù)組:描描述可以以變化的的信息連接數(shù)據(jù)據(jù)組:是是一個主主題域的的公共碼碼主鍵,,連接主主題域類型數(shù)據(jù)據(jù)組:描描述數(shù)據(jù)據(jù)的類型型,分為為超類型型和子類類型邏輯模型型設(shè)計的的重點::保證數(shù)數(shù)據(jù)倉庫庫結(jié)構(gòu)的的完整性性,即數(shù)數(shù)據(jù)倉庫庫所有的的數(shù)據(jù)元元素都包包含在模模型中。。5.2..3數(shù)數(shù)據(jù)倉倉庫的邏邏輯模型型貸款擔(dān)保保賬號姓名客戶類型型初次交易易時間賬號省市縣街道郵政編碼碼賬號現(xiàn)金交易易額信用交易易額賬號商品編號號時間交易量賬號最大信用用額最近發(fā)生生時間賬號擔(dān)保人擔(dān)保類型型貸款時間間賬號服務(wù)種類類時間服務(wù)費用用貴賓卡顏顏色信用交易易客戶編號號交易記錄錄信用狀況況商品交易易服務(wù)交易易簽字現(xiàn)金交易易賬號交易額信用額信用時間間信用卡客戶信息息5.2..4數(shù)數(shù)據(jù)倉倉庫的物物理模型型對數(shù)據(jù)倉倉庫的邏邏輯模型型進行擴擴展,生生成一系系列事實實表和維維表確定模型型的碼鍵鍵屬性調(diào)整表結(jié)結(jié)構(gòu)建立各種種索引建立聚集集模型確定數(shù)據(jù)據(jù)倉庫物物理模型型的存儲儲結(jié)構(gòu)事實表模模型設(shè)計計事實表中中的事實實特性::事實表是是星型模模型和雪雪花模型型的核心心。事實表中中一般包包含兩部部分:一一是由主主鍵和外外鍵所組組成的鍵鍵部分;;二是用用戶希望望在數(shù)據(jù)據(jù)倉庫中中所了解解的數(shù)值值指標(biāo),,需具有有數(shù)值性性和可加加性的特特征。派生事實實主要有有兩種::一是可可以用同同一事實實表中其其他事實實計算得得到,還還有一類類派生事事實是非非加法性性事實。。事實表模模型設(shè)計計1.事實表(1)客客戶事實實表
客戶基本本情況表表(賬號號Integer9,,姓名Character12,出出生地Character20,初初次交易易時間Date,…))客戶可變變情況表表(賬號號Integer9,,省Character20,市Character20,街街道Character20,郵郵政編碼碼Character6,,…)事實表模模型設(shè)計計1.事實表(2)客客戶貸款款事實表表
客戶房屋屋貸款表表(賬號號Integer9,,地址Character50,委委托人Character12,評評估Memo,,…)客戶汽車車貸款表表(賬號號Integer9,,時間Date,制造造商Character40,型號號Character10,,顏色Character8,……)事實表模模型設(shè)計計1.事實表(3)客客戶存款款事實表表
客戶存款款表1((賬號Integer9,時時間Date,,最小存存款數(shù)Number7.2,,最小余余額Number7..2,,…)客戶存款款表2((賬號Integer9,時時間Date,,最小存存款數(shù)Number7.2,,最小余余額Number7..2,,…)(4)客客戶擔(dān)保保事實表表
客戶擔(dān)保保表(賬賬號Integer9,時間間Date,擔(dān)擔(dān)保人Character12,種種類Character2,,擔(dān)保金金額Number10.2,,…))維模型設(shè)設(shè)計維是用戶戶觀察、、分析數(shù)數(shù)據(jù)的角角度和窗窗口,因因此維度度表應(yīng)該該包含商商業(yè)項目目的文字字描述,,提供維維度屬性性的定義義。維度度表中的的屬性一一般為該該維中的的不同粒粒度值或或分類值值??蛻糁黝}題的維度度表模型型:時間維度度表(年年Date,月月Date,日日Date)地點維度度表(省省Character20,,市Character20,縣Character20,街街道Character20)貸款維((抵押貸貸款Character20,非抵抵押貸款款Character20))由于有OLAP的要求,,數(shù)據(jù)倉倉庫中數(shù)數(shù)據(jù)的物物理存儲儲形式應(yīng)應(yīng)該是基基于多維數(shù)據(jù)據(jù)模型(所以在邏邏輯上數(shù)數(shù)據(jù)倉庫庫就是一一個多維維數(shù)據(jù)庫庫),在實現(xiàn)現(xiàn)中一般般有兩種種途徑::基于多維維數(shù)據(jù)庫庫的空間間超立方方體,又又稱數(shù)據(jù)立方方體(DATACUBE)基于關(guān)系系數(shù)據(jù)庫庫的星型模式式(由關(guān)系系型事實實表和維維表組成成)三種變型型:多層分維維結(jié)構(gòu),事實表族族,雪花花模式維1維2維3度量(指指標(biāo))1990 TV上海5001990 TV北京6001991 VCD上海6001991 VCD北京700…………………………………………………數(shù)據(jù)倉庫庫的多維結(jié)構(gòu)構(gòu)數(shù)據(jù)倉庫庫的結(jié)構(gòu)構(gòu)90TV上海數(shù)據(jù)倉庫庫物理模模型的索索引構(gòu)建建位圖索引引女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省00上海市索引OR北京市索引=地區(qū)索引AND女性索引=最后索引0110000010011110000001111101000000010111011110000000010查詢索引引3.連接接索引連接索引引Aagelevel_idtime_idyear_idmonth_idgeo__idprov_idcity_idcounty__idprodu_idagelevel_idtime_idgeo__idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo__idprov_idcity_idcounty__idprodu_idamou_moneagelevel_idtime_idgeo__idprodu_id全連接結(jié)結(jié)果time_idgeo__id連接索引引B數(shù)據(jù)倉庫庫物理模模型的存存儲結(jié)構(gòu)構(gòu)確定數(shù)據(jù)據(jù)的存儲儲結(jié)構(gòu)并行存儲儲結(jié)構(gòu)———RAID((RedundantArrayofInexpensiveDisk,,廉價冗冗余磁盤盤陣列))。·RAID·RAID1級·RAID2級·RAID3級·RAID4級·RAID5級數(shù)據(jù)倉庫庫物理模模型的優(yōu)優(yōu)化問題題合并表:幾個表表的記錄錄分散存存放在幾幾個物理理塊中時時,多個個表的存存取和連連接操作作的代價價會很大大,需要要混合存存儲。建立數(shù)據(jù)據(jù)序列:按照某某一固定定的順序序訪問并并處理一一組數(shù)據(jù)據(jù)記錄,,將數(shù)據(jù)據(jù)按照處處理順序序存放到到連續(xù)的的物理塊塊中,形形成數(shù)據(jù)據(jù)序列。。引入冗余余:一些表表的某些些屬性可可能在許許多地方方都要用用到,將將這些屬屬性復(fù)制制到多個個主題中中,可以以減少處處理時存存取、連連接表的的個數(shù)。。數(shù)據(jù)倉庫庫物理模模型的優(yōu)優(yōu)化問題題表的物理理分割:每個主主題中的的各個屬屬性存取取頻率是是不同的的。將一一張表按按各屬性性被存取取的頻率率分成兩兩個或多多個表,,將具有有相似訪訪問頻率率的數(shù)據(jù)據(jù)組織在在一起。。生成派出出數(shù)據(jù):在原始始數(shù)據(jù)的的基礎(chǔ)上上進行總總結(jié)或計計算,生生成派出出數(shù)據(jù),,可以在在應(yīng)用中中直接使使用這些些派出數(shù)數(shù)據(jù),減減少I//O次數(shù)數(shù),免去去計算或或匯總步步驟,在在更高級級別上建建立了公公用數(shù)據(jù)據(jù)源,避避免了不不同用戶戶重復(fù)計計算可能能產(chǎn)生的的偏差。。5.2..5數(shù)數(shù)據(jù)倉倉庫的元元數(shù)據(jù)模模型元數(shù)據(jù)是是關(guān)于數(shù)數(shù)據(jù)的數(shù)數(shù)據(jù)。在在數(shù)據(jù)倉倉庫中,,元數(shù)據(jù)據(jù)定義了了數(shù)據(jù)倉倉庫中的的許多對對象———表、列列、查詢詢、商業(yè)業(yè)規(guī)則或或是數(shù)據(jù)據(jù)倉庫內(nèi)內(nèi)部的數(shù)數(shù)據(jù)轉(zhuǎn)移移,描述述了數(shù)據(jù)據(jù)的結(jié)構(gòu)構(gòu)、內(nèi)容容、鍵、、索引等等項內(nèi)容容,非常常重要。。元數(shù)據(jù)可可分為靜靜態(tài)元數(shù)數(shù)據(jù)和動動態(tài)元數(shù)數(shù)據(jù)。靜態(tài)元數(shù)數(shù)據(jù)主要要描述數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu),動態(tài)態(tài)元數(shù)據(jù)據(jù)主要描描述數(shù)據(jù)據(jù)的狀態(tài)態(tài)和使用用方法。。5.2..5數(shù)數(shù)據(jù)倉倉庫的元元數(shù)據(jù)模模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時間來源索引類別域業(yè)務(wù)規(guī)則元數(shù)據(jù)的的類型與與組成元數(shù)據(jù)動態(tài)元數(shù)據(jù)
入庫時間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計信息狀態(tài)處理存儲位置存儲大小引用處元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中的的作用在數(shù)據(jù)倉倉庫中,,元數(shù)據(jù)據(jù)是重要要構(gòu)件和和指示圖圖(roadmap))。1.數(shù)數(shù)據(jù)倉庫庫元數(shù)據(jù)據(jù)的作用用提供便利利的數(shù)據(jù)據(jù)倉庫服服務(wù)與DSS分分析員及及高層決策人員員服務(wù)解決操作作型環(huán)境境和數(shù)據(jù)據(jù)倉庫的的復(fù)雜關(guān)關(guān)系數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)的管理理元數(shù)據(jù)在在數(shù)據(jù)倉倉庫中的的作用元數(shù)據(jù)在在數(shù)據(jù)倉倉庫開發(fā)發(fā)期間的的使用確認(rèn)數(shù)據(jù)據(jù)質(zhì)量、同步化和和刷新、映射元數(shù)據(jù)在在數(shù)據(jù)源源抽取中中的作用用資源領(lǐng)域域的確定定,跟蹤歷史史數(shù)據(jù)結(jié)結(jié)構(gòu)變化化的過程程,屬性到屬屬性的映映射,屬性轉(zhuǎn)換換元數(shù)據(jù)在在數(shù)據(jù)求求精與重重構(gòu)工程程上的作作用數(shù)據(jù)的分分割,概括與聚聚集,預(yù)算與推推導(dǎo),轉(zhuǎn)換與再再映像元數(shù)據(jù)的的種類與與收集1.數(shù)數(shù)據(jù)源的的元數(shù)據(jù)據(jù)2.數(shù)數(shù)據(jù)模型型的元數(shù)數(shù)據(jù)3.數(shù)數(shù)據(jù)源與與數(shù)據(jù)倉倉庫映射射的元數(shù)數(shù)據(jù)4.數(shù)數(shù)據(jù)倉庫庫應(yīng)用的的元數(shù)據(jù)據(jù)5.2..6數(shù)數(shù)據(jù)倉倉庫的粒粒度和聚聚集模型型粒度是指指數(shù)據(jù)倉倉庫中數(shù)數(shù)據(jù)單元元的詳細(xì)細(xì)程度和和級別。。根據(jù)粒度度的劃分分標(biāo)準(zhǔn)可可以將數(shù)數(shù)據(jù)劃分分為:詳詳細(xì)數(shù)據(jù)據(jù)、輕度度總結(jié)、、高度總總結(jié)三級級或更多多級粒度度。粒度度的具體體劃分將將直接影影響到數(shù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)量以以及查詢詢質(zhì)量。。粒度級別綜合性數(shù)據(jù)細(xì)節(jié)低(如事務(wù))高(如匯總)低高非常高中等到低確定粒度度的級別別粒度的確確定實質(zhì)質(zhì)上是業(yè)業(yè)務(wù)決策策分析、、硬件、、軟件和和數(shù)據(jù)倉倉庫使用用方法的的一個折折衷。數(shù)據(jù)粒度度劃分策策略一定定要保證證數(shù)據(jù)的的粒度確確實能夠夠滿足用用戶的決決策分析析需要,,這是數(shù)數(shù)據(jù)粒度度劃分策策略中最最重要的的一個準(zhǔn)準(zhǔn)則。粒度的層層次定義義越高,,就越不不能在該該倉庫中中進行更更細(xì)致的的分析。??紤]因素素:要接受的的分析類類型、可可接受的的數(shù)據(jù)最最低粒度度和能存存儲的數(shù)數(shù)據(jù)量。。如果存儲儲資源有有一定的的限制,,就只能能采用較較高粒度度的數(shù)據(jù)據(jù)粒度劃劃分策略略??紤]因素素:在同一模模式中使使用多重重粒度。。數(shù)據(jù)粒度度的劃分分需要估算算數(shù)據(jù)倉倉庫中將將來要使使用的數(shù)數(shù)據(jù)行數(shù)數(shù)和所需需的直接接存取存存儲設(shè)備備數(shù),以以此確定定數(shù)據(jù)粒粒度的劃劃分。每一個表表的存儲儲空間,,應(yīng)該是是每一個個表的數(shù)數(shù)據(jù)存儲儲空間和和索引存存儲空間間之和。。一年數(shù)據(jù)五年數(shù)據(jù)數(shù)據(jù)量(行數(shù))粒度劃分策略數(shù)據(jù)量(行數(shù))粒度劃分策略10,000,0001,000,000100,00010,000多重粒度并仔細(xì)設(shè)計三重粒度雙重粒度不考慮20,000,00010,000,0001,000,000100,000多重粒度并仔細(xì)設(shè)計三重粒度仔細(xì)設(shè)計不考慮概念:數(shù)據(jù)聚集集把一個或或幾個具具有公共共列并經(jīng)經(jīng)常一起起使用的的相關(guān)的的數(shù)據(jù)庫庫表物理理地聚集集存儲在在一起的的方法稱稱為聚集,存儲于于聚集中中的那些些相關(guān)的的表稱為為一組聚集表。如果經(jīng)常常根據(jù)索索引從表表中讀取取大量的的數(shù)據(jù),,那么最最好對這這些數(shù)據(jù)據(jù)建立聚聚集,這這樣可以以減少讀讀取頁的的數(shù)量,,縮短檢檢索時間間,并可可充分利利用預(yù)讀讀功能順順序掃描描數(shù)據(jù)。。數(shù)據(jù)的聚聚集通過過創(chuàng)建聚聚集索引引(clusteredindex)完完成。利利用ALTERINDEX....TOCLUSTER語語句,,可以將將原有索索引改為為聚集索索引,原原有索引引中的數(shù)數(shù)據(jù)記錄錄順序?qū)⒆髦嘏排拧H绻苯觿?chuàng)創(chuàng)建聚集集索引,,系統(tǒng)也也會將數(shù)數(shù)據(jù)記錄錄排序。。聚集索引引基于數(shù)數(shù)據(jù)行的的鍵值,,在表內(nèi)內(nèi)排序和和存儲這這些數(shù)據(jù)據(jù)行。每每個表只只能有一一個聚集集索引,,因為數(shù)數(shù)據(jù)行本本身只能能按一個個順序存存儲。數(shù)據(jù)倉庫庫的聚集集模型確確定聚集數(shù)據(jù)據(jù)是將用用戶需要要用到的的某一類類數(shù)據(jù)聚聚集到一一起,主主要是為為了使用用戶獲得得更好的的查詢性性能。因因此,設(shè)設(shè)計聚集集模型時時,首先先需要考考慮用戶戶的使用用要求。。數(shù)據(jù)倉庫庫的聚集集模型的的設(shè)計與與數(shù)據(jù)倉倉庫的粒粒度模型型緊密相相關(guān),因此需需要考慮慮數(shù)據(jù)倉倉庫的粒粒度模型型。建立聚集集模型時時還需要要考慮作作為聚集集屬性的的數(shù)量因因素,因因此需要要考慮數(shù)數(shù)據(jù)倉庫庫中的統(tǒng)統(tǒng)計分布布情況。。應(yīng)注意將將聚集數(shù)數(shù)據(jù)存儲儲在其事事實表中中,并與與其底層層數(shù)據(jù)相相區(qū)別。。聚集模型型的處理理前提:聚聚集事實實表已經(jīng)經(jīng)獨立存存在,并并且可以以與基本本事實表一一同保存存通過將當(dāng)當(dāng)前加載載數(shù)據(jù)添添加到系系統(tǒng)中的的累積““桶”中中,將數(shù)數(shù)據(jù)的聚聚集與數(shù)數(shù)據(jù)倉庫庫的加載載過程組組合為同同一處理理過程。。可以在數(shù)數(shù)據(jù)倉庫庫數(shù)據(jù)加加載以后后,再進進行聚集集處理。。每次在加加載數(shù)據(jù)據(jù)時,都都需要對對各種聚聚集進行行計算和和增加,,及時保保持聚集集與基本本數(shù)據(jù)的的同步性性。聚集模型型的管理理要根據(jù)使使用情況況刪除不不經(jīng)常使使用的聚聚集需要減少少層次過過于接近近的聚集集生成注意將聚聚集獨立立存儲在在自己的的事實表表中5.3數(shù)數(shù)據(jù)據(jù)倉庫的的規(guī)劃5.3..1數(shù)數(shù)據(jù)倉倉庫實現(xiàn)現(xiàn)策略的的選擇開發(fā)策略略主要有有:自頂向下下:實際應(yīng)應(yīng)用比較較困難。自底向上上:用于一一個數(shù)據(jù)據(jù)集市或或一個部部門的數(shù)數(shù)據(jù)倉庫庫開發(fā),容易獲獲得成功功。兩種策略略的聯(lián)合合使用:能夠快快速地完完成數(shù)據(jù)據(jù)倉庫的的開發(fā)與與應(yīng)用,,而且還還可以建建立具有有長遠價價值的數(shù)數(shù)據(jù)倉庫庫方案。。在實際際使用中中難以操操作。。5.3..2確確定開開發(fā)目標(biāo)標(biāo)和實現(xiàn)現(xiàn)范圍確定用戶戶的決策策需求確定所需需要信息息的范圍圍,即決決策過程程在主題題和指標(biāo)標(biāo)領(lǐng)域中中需要哪哪些數(shù)據(jù)據(jù)。確定利用用哪些方方法和工工具,對對數(shù)據(jù)進進行訪問問和導(dǎo)航航。根據(jù)決策策支持的的需要,,確定數(shù)數(shù)據(jù)倉庫庫的功能能確定數(shù)據(jù)據(jù)倉庫內(nèi)內(nèi)部數(shù)據(jù)據(jù)的規(guī)模模、數(shù)據(jù)據(jù)的含義義、元數(shù)數(shù)據(jù)及其其使用,,等等。。從用戶的的角度分分析:哪些部門門、哪些些人員、、出于何何種目的的使用數(shù)數(shù)據(jù)倉庫庫?首先先要滿足足哪些決決策查詢詢?從技術(shù)的的角度分分析:確定元數(shù)數(shù)據(jù)庫的的規(guī)模。。5.2..3確確定數(shù)數(shù)據(jù)倉庫庫的結(jié)構(gòu)構(gòu)1.數(shù)數(shù)據(jù)倉庫庫的應(yīng)用用結(jié)構(gòu)
2.數(shù)數(shù)據(jù)倉庫庫的技術(shù)術(shù)平臺結(jié)結(jié)構(gòu)基于業(yè)務(wù)務(wù)處理系系統(tǒng)的數(shù)數(shù)據(jù)倉庫庫單純數(shù)據(jù)據(jù)倉庫單純數(shù)據(jù)據(jù)集市數(shù)據(jù)倉庫庫和數(shù)據(jù)據(jù)集市單層結(jié)構(gòu)構(gòu)---數(shù)數(shù)據(jù)庫和和數(shù)據(jù)倉倉庫共享享平臺客戶/服服務(wù)器兩兩層結(jié)構(gòu)構(gòu)三層客戶戶/服務(wù)務(wù)器:客戶/服服務(wù)器//主機((宿主))層多層式結(jié)結(jié)構(gòu):存儲層//服務(wù)層層/查詢詢服務(wù)層層/應(yīng)用用服務(wù)層層/應(yīng)用用層5.2..4數(shù)數(shù)據(jù)倉倉庫使用用方案和和項目規(guī)規(guī)劃預(yù)算算說明系統(tǒng)統(tǒng)與企業(yè)業(yè)戰(zhàn)略目目標(biāo)的關(guān)關(guān)系,系系統(tǒng)與企企業(yè)急需需處理的的、范圍圍相對有有限的開開發(fā)機會會。業(yè)務(wù)說明明以及任任務(wù)概況況說明、、重點支支持的職職能部門門和今后后工作的的建議。。計劃中需需要闡明明期望取取得的有有形和無無形利益益業(yè)務(wù)價值值計劃最最好由目目標(biāo)業(yè)務(wù)務(wù)主管來來完成規(guī)劃書中中要確定定數(shù)據(jù)倉倉庫的開開發(fā)目標(biāo)標(biāo)實現(xiàn)范范圍、體體系結(jié)構(gòu)構(gòu)和使用用方案及及開發(fā)預(yù)預(yù)算??梢詫⒆钭罱K用戶戶的決策策支持要要求與數(shù)數(shù)據(jù)倉庫庫的技術(shù)術(shù)要求聯(lián)聯(lián)系起來來,對開開發(fā)方案案的預(yù)算算進行估估計,,并編制數(shù)據(jù)據(jù)倉庫開開發(fā)說明明書:5.4數(shù)數(shù)據(jù)據(jù)倉庫的的概念模模型設(shè)計計概念模型型的設(shè)計計可以分分為以下下幾個階階段:用戶需求求調(diào)查,,模型定定義模型分析析,模型型設(shè)計數(shù)據(jù)倉庫庫開發(fā)任任務(wù)書企業(yè)背景景及行業(yè)業(yè)發(fā)展等等方面的的概述目前的業(yè)業(yè)務(wù)功能能及業(yè)務(wù)務(wù)范圍、、發(fā)展戰(zhàn)戰(zhàn)略目標(biāo)標(biāo)目前系統(tǒng)統(tǒng)的環(huán)境境及功能能,數(shù)據(jù)據(jù)庫設(shè)計計及運行行情況企業(yè)決策策中需要要得到數(shù)數(shù)據(jù)倉庫庫提供哪哪些支持持?哪些些項目的的需求最最迫切、、ROI(投資資收益))最高??5.4數(shù)數(shù)據(jù)據(jù)倉庫的的概念模模型設(shè)計計概念模型型的需求求調(diào)查明確用戶戶的信息需求求相關(guān)的事事物或業(yè)業(yè)務(wù),相相關(guān)的數(shù)數(shù)據(jù)及其其相關(guān)系系統(tǒng),需需要數(shù)據(jù)據(jù)的時限限,數(shù)據(jù)據(jù)是否完完備,數(shù)數(shù)據(jù)倉庫庫用戶的的情況了解信息的來來源情況況信息目前前的存儲儲系統(tǒng)及及位置,,信息的的類型,,信息分析析、處理理的方式式、手段段,組織所使使用的系統(tǒng)環(huán)境境運行環(huán)境境,數(shù)據(jù)據(jù)字典,,主題數(shù)數(shù)據(jù),DSS的的應(yīng)用情情況概念模型型的定義義數(shù)據(jù)倉庫庫是數(shù)據(jù)據(jù)驅(qū)動的的,而不不是功能能驅(qū)動的的,因此,首首先需要要了解用用戶的數(shù)數(shù)據(jù)需求求,例如如,解決決用戶感感興趣的的決策問問題需要要什么信信息?設(shè)計實例例:零售售業(yè)中的的某個超超市企業(yè)目標(biāo)標(biāo):合理制制定商品品的采購購和銷售售策略目前系統(tǒng)統(tǒng):人事,,采購,,庫存,,銷售現(xiàn)有問題題:各自為為政,缺缺乏全局局性解決途徑徑:建立數(shù)數(shù)據(jù)倉庫庫,開展展數(shù)據(jù)分分析與挖挖掘概念模型型的定義義(1)用用戶的決決策分析析決策需求求:準(zhǔn)確確把握超超市商品品的銷售售和庫存存情況分析需求求:客戶戶的購買買趨勢商品供應(yīng)應(yīng)市場的的變化趨趨勢供應(yīng)商和和客戶的的信用等等級……(2)支支持決策策的數(shù)據(jù)據(jù)需求分分析需要的數(shù)數(shù)據(jù):商商品銷售售量,商商品采購購量,商商品庫存存量客戶情況況,供應(yīng)應(yīng)商情況況(3)數(shù)數(shù)據(jù)需求求分析工工具客戶信息息需求表表,CRUD矩矩陣,數(shù)數(shù)據(jù)存儲儲模式表表,………概念模型型的定義義客戶信息息需求表表決策分析問題客戶購買商品趨勢分析需求信息類日期地點商品客戶年齡組客戶經(jīng)濟狀況客戶信用需求信息1層需求信息2層需求信息3層需求信息4層需求信息5層……年(4)季(16)月(48)……國家(15)省(60)市(200)街道(2100)商店(20000)……商品種類(7)商品小類(40)商品(220)……年齡組(8)……經(jīng)濟類(10)……信用(10)……概念模型型的定義義CRUD矩陣((實體與與功能關(guān)關(guān)系矩陣陣)實體功能客戶銷售單商品銷售代表供貨商銷售單輸入CRUDCRUDRRURU銷售單處理CRUDCRUD商品管理RRRUR預(yù)算系統(tǒng)RRRRUR財務(wù)計算RURRURR庫存控制RRUCRUDR后勤RRURRUC:Create產(chǎn)生R:Read引用U:Update更新D:Delete刪除企業(yè)業(yè)務(wù)務(wù)處理系系統(tǒng)的數(shù)數(shù)據(jù)存儲儲模式表表*內(nèi)部數(shù)據(jù)源OracleSysbaseSQLServerVFP其它模式銷售單輸入√√銷售單處理√√商品管理√預(yù)算系統(tǒng)√(Excel)財務(wù)計算√庫存控制√后勤√*外部數(shù)據(jù)源商品供應(yīng)商√市場調(diào)查公司√概念模型型的定義義概念模型型的分析析首先需要要分析數(shù)數(shù)據(jù)倉庫庫范圍內(nèi)內(nèi)的主要要實體對對象,從從中確定定主要的的主題域域及其聯(lián)聯(lián)系數(shù)據(jù)倉庫庫設(shè)計中中也采用用E-R圖作為為分析模模型在E-R圖中,,需要根根據(jù)確定定的主題題來組織織數(shù)據(jù)商品實體客戶實體銷售實體n商品供應(yīng)關(guān)系mml
商品銷售關(guān)系概念模型型的分析析---E-R圖圖客戶變動信息商品變動信息客戶號商品固有信息客戶固有信息客戶號供應(yīng)商號開戶日期日期銷售數(shù)量日期商品號商品客戶銷售根據(jù)主題題組織數(shù)數(shù)據(jù)概念模型型的設(shè)計計---星星型模型型經(jīng)濟(年收入)100萬以上10萬以上1萬以上1萬以下地點國家省市銷售銷售數(shù)量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下0元根據(jù)需要要設(shè)計模模型經(jīng)濟(年收入入)100萬萬以上10萬以以上1萬以上上地點國家省市銷售銷售ID銷售數(shù)量量銷售價格格銷售金額額時間ID地點ID商品ID年齡60歲以以上40歲以以上30歲以以上20歲以以上20歲以以下日期年月日商品ID種類小類商品信用10萬元元以上1萬元以以上1千元以以上1千元以以下0元商品ID生產(chǎn)廠家家進貨價格格進貨日期期客戶客戶ID姓名地址電話郵政編碼碼雪花模型型根據(jù)需要要設(shè)計模模型概念模型型文檔與與評審1.概概念模型型設(shè)計文文檔數(shù)據(jù)倉庫庫開發(fā)需需求分析析報告概念模型型分析報報告概念模型型概念模型型的評審審報告2.概概念模型型的評審審(人員員,內(nèi)容容,規(guī)程程,報告告)數(shù)據(jù)倉庫庫開發(fā)任任務(wù)書用戶決策策分析信信息需求求調(diào)查表表數(shù)據(jù)倉庫庫主題E-R圖圖星型模型型和雪花花模型5.5數(shù)數(shù)據(jù)據(jù)倉庫的的邏輯模模型設(shè)計計數(shù)據(jù)倉庫庫的邏輯輯模型設(shè)設(shè)計任務(wù)務(wù)
邏輯模型型最終設(shè)設(shè)計成果果確定數(shù)據(jù)據(jù)倉庫的的主題域域確定粒度度層次劃劃分確定數(shù)據(jù)據(jù)分割策策略關(guān)系模式式的定義義和記錄錄系統(tǒng)定定義(元元數(shù)據(jù)))確定數(shù)據(jù)據(jù)抽取模模型等主題的邏邏輯定義義,將相相關(guān)內(nèi)容容記錄在在元數(shù)據(jù)據(jù)中粒度劃分分?jǐn)?shù)據(jù)分割割策略表劃分和和數(shù)據(jù)來來源等5.5..1分分析主主題域主題名公共碼鍵屬性組商品商品號商品固有信息:商品號,商品名,類型,顏色等商品采購信息:商品號,供應(yīng)商號,供應(yīng)價,供應(yīng)日期,供應(yīng)量等商品庫存信息:商品號,庫房號,庫存量,日期等銷售銷售單號銷售單固有信息:銷售單號,銷售地址等銷售信息:客戶號,商品號,銷售價,銷售量、銷售時間等客戶客戶號客戶固有信息:客戶號,客戶名,性別,年齡,文化程度,住址,電話等客戶經(jīng)濟信息:客戶號,年收入,家庭總收入等主題的詳詳細(xì)描述述5.5..2粒粒度層層次的劃劃分5.5..3確確定數(shù)數(shù)據(jù)分割割策略數(shù)據(jù)分割割標(biāo)準(zhǔn)數(shù)據(jù)量((大,中中,?。?shù)據(jù)分析析處理的的對象((時間,,類別,,地點))粒度分割割的策略略(每一一層次的的組合標(biāo)標(biāo)準(zhǔn))
5.5..4關(guān)關(guān)系模模型定義義單一粒度度(庫存存)/多多重粒度度(銷售售)粒度劃分分的層次次(周//月/季季/年,,類別))指標(biāo)實體體,維實實體,詳詳細(xì)類別別實體==〉事實實表主題域內(nèi)內(nèi)事實表表聯(lián)系----公公共碼鍵鍵事實表與與維表聯(lián)聯(lián)系----外鍵鍵5.5..5數(shù)數(shù)據(jù)倉倉庫的實實體定義義訂單細(xì)節(jié)節(jié)(Order-Detail)實實體特性性表…………………………Money(float)正的金額數(shù)Product_PriceChar(10)沒有商品鍵列,數(shù)據(jù)就不存在來自商品實體的合法鍵列主鍵列、外部鍵列Product_NumberChar(10)沒有銷售單鍵列,數(shù)據(jù)就不存在來自銷售單實體的合法鍵列主鍵列、外部鍵列Order_NumberChar(10)沒有客戶鍵列,數(shù)據(jù)就不存在來自客戶實體的合法客戶鍵列主鍵列、外部鍵列Customer_Number類型與大小完整性約束值范圍列鍵屬性列名5.5..5數(shù)數(shù)據(jù)倉倉庫的實實體定義義實體容量更新頻率
Customer中等容量,有100個重點客戶,2000個跟蹤客戶每月對客戶情況進行一次分析,更新頻率也為每月一次Product小容量,500種商品大約有500種商品,商品的更新是每月一次,數(shù)據(jù)更新也照此。Order_Detail大容量??紤]到各種客戶類型與各種商品的組合情況,其上限是354,000,000,000,一般很少達到上限。數(shù)據(jù)每月匯總一次,但是業(yè)務(wù)處理系統(tǒng)的數(shù)據(jù)每日需要更新一次,因此更新頻率為每日一次?!瓕嶓w容量量與實體體數(shù)據(jù)的的更新頻頻率表5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型F1數(shù)數(shù)據(jù)抽抽取規(guī)則則P2 清理數(shù)據(jù)據(jù)記錄F8數(shù)數(shù)據(jù)清清理規(guī)則則F2KHCG客戶采購購F5CQLS_KHCG抽取臨時時.客戶戶采購F6CQLS_KHCG抽取臨時時.客戶戶采購F7SJCK_KHCG數(shù)據(jù)倉庫庫.客戶戶采購P4 加載到數(shù)數(shù)據(jù)倉庫庫F3SPQK商品情況況F4ZGYJ職工業(yè)績績P3 數(shù)據(jù)排序序聚集P1 抽取數(shù)據(jù)源記記錄數(shù)據(jù)抽取取流程圖圖5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型2.數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)抽取、、轉(zhuǎn)換與與加載計計劃(1)影影響數(shù)據(jù)據(jù)抽取、、轉(zhuǎn)換與與加載的的因素數(shù)據(jù)格式式壞數(shù)據(jù)系統(tǒng)的兼兼容性數(shù)據(jù)源的的變化數(shù)據(jù)抽取取的時間間(2)數(shù)數(shù)據(jù)抽取取、轉(zhuǎn)換換與加載載對策全庫比較較利用程序序日志利用數(shù)據(jù)據(jù)庫日志志利用時間間戳或利利用位圖圖索引5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型3.數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)清理轉(zhuǎn)轉(zhuǎn)換方法法(1)類類型轉(zhuǎn)轉(zhuǎn)換(2)串串操作作(3)數(shù)數(shù)學(xué)函函數(shù)(4)參參照完完整性(5)關(guān)關(guān)鍵字字翻譯(6)匯匯總、、聚集運運算4.數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)抽取、、清理與與轉(zhuǎn)換模模型5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型數(shù)據(jù)平臺數(shù)據(jù)庫表名備注Windows/SQLServerXSSJ銷售實際KHCG客戶采購客戶采購商品表Windows/SQLServerXSSJ銷售實際SPQK商品情況商品情況表Windows/AccessRSGL人事管理ZGYJ職工業(yè)績職工業(yè)績表……………………數(shù)據(jù)源抽抽取對象象表5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型數(shù)據(jù)源抽抽取規(guī)則則表表.列名過濾與連接條件比較值復(fù)合條件備注KHCG.CGSL客戶采購.采購數(shù)量<50000AND采購商品數(shù)量小于50000KHCG.CGSL客戶采購.采購數(shù)量>500OR采購商品數(shù)量大于500SPQK.SPID商品情況.商品號≠‘AB’OR商品前兩位為非’AB’字符…………………………5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型數(shù)據(jù)抽取取的目標(biāo)標(biāo)列與源源列對應(yīng)應(yīng)關(guān)系表表目標(biāo)表.列源表.列轉(zhuǎn)換公式備注SJCK_KHCG.KHZY數(shù)據(jù)倉庫.客戶采購.客戶職業(yè)KHCG.KHZY客戶采購.客戶職業(yè)直接轉(zhuǎn)換客戶職業(yè)SJCK_KHCG.CGRQ數(shù)據(jù)倉庫.客戶采購.采購日期KHCG.CGRQ客戶采購.客戶職業(yè)將月/年/日的日期格式轉(zhuǎn)換成年/月/日格式客戶采購日期……………………數(shù)據(jù)抽取取過程的的排序、、概括和和導(dǎo)出情情況表表.列名排序概括/導(dǎo)出備注CQLS_KHCG.CGSL采購臨時.客戶采購.采購數(shù)量降序分組按照采購數(shù)量從大到小排序、按照日期進行分組SJCK_KHCG.CGHZ數(shù)據(jù)倉庫.客戶采購.采購匯總概括對每一客戶采購量按照星期分別進行概括處理,匯總客戶的采購總量SJCK_KHCG.PJL數(shù)據(jù)倉庫.客戶采購.平均量導(dǎo)出對每一客戶采購情況按照星期分別進行平均采購量計算……………………5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型數(shù)據(jù)概括括表與事事實表對對應(yīng)關(guān)系系概括表.列名是否導(dǎo)出事實表.列名備注SPGKB.SP_ID商品概括表.商品號否SPGYB.SP_ID商品編號SPGKB.GYS_ID商品概括表.供應(yīng)商號否SPGYB.GYS_ID供應(yīng)商編號SPGKB.SPGYZSL商品概括表.商品供應(yīng)總量是SPGYB.SPGYL商品供應(yīng)總量,按照供應(yīng)商編號對供應(yīng)數(shù)量求和SPGKB.SPGYZJE商品概括表.商品供應(yīng)總額是SPGYB.SPGYJE商品供應(yīng)總金額,按照供應(yīng)商編號對供應(yīng)商品的金額進行匯總……………………5.5..6數(shù)數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)抽取取模型(11))元數(shù)據(jù)目目錄5.5..7數(shù)數(shù)據(jù)倉倉庫的元元數(shù)據(jù)模模型建立立與應(yīng)用用數(shù)據(jù)源⑼⑶邏輯模型型業(yè)業(yè)務(wù)分組組物理模型型查查詢統(tǒng)計計來源定義義加加載統(tǒng)計計來源-目目標(biāo)映射射建模工具具數(shù)據(jù)加載載工具數(shù)據(jù)倉庫庫前端展示示工具⑴⑵⑷⑸a⑹⑻⑽⑿⑸b(7)5.5..8邏邏輯模模型的評評審需要評審審的邏輯輯模型的的文檔內(nèi)內(nèi)容:主題域分分析報告告數(shù)據(jù)粒度度劃分模模型數(shù)據(jù)分割割策略指標(biāo)實體體、維實實體與詳詳細(xì)類別別實體的的關(guān)系模模式數(shù)據(jù)抽取取模型5.5..8邏邏輯模模型的評評審對邏輯模模型的評評審主要要集中在在:主題域是否可以以正確地地反映用用戶的決決策分析析需求從用戶對對概括數(shù)數(shù)據(jù)使用用的要求求角度,,評審數(shù)數(shù)據(jù)粒度度的劃分和數(shù)數(shù)據(jù)分割割策略是否可以以滿足用用戶決策策分析的的需要關(guān)系模式式是否符符合第三三范式要要求;為為提高數(shù)數(shù)據(jù)倉庫庫的運行行效率,,是否需需要對關(guān)關(guān)系模式式進行反規(guī)范化化處理數(shù)據(jù)的抽取模型型是否正確確地建立立了數(shù)據(jù)據(jù)源與數(shù)數(shù)據(jù)倉庫庫的對應(yīng)應(yīng)關(guān)系數(shù)據(jù)的約束條件件和業(yè)務(wù)務(wù)規(guī)則是否在這這些模型型中得到到了正確確的反映映5.6數(shù)數(shù)據(jù)據(jù)倉庫的的物理模模型設(shè)計計物理模型型設(shè)計內(nèi)內(nèi)容:表的數(shù)據(jù)據(jù)結(jié)構(gòu)類類型,索索引策略略,數(shù)據(jù)存放放位置以以及數(shù)據(jù)據(jù)存儲分分配,等等等。物理模型型設(shè)計需需要考慮慮的因素素:I/O存存取時間間,空間間利用率率維護的代代價工作:全面了解解所選用用的數(shù)據(jù)據(jù)庫管理理系統(tǒng),,特別是是存儲結(jié)結(jié)構(gòu)和存存取方法法。了解數(shù)據(jù)據(jù)環(huán)境、、數(shù)據(jù)的的使用頻頻率、使使用方式式、數(shù)據(jù)據(jù)規(guī)模以以及響應(yīng)應(yīng)時間要要求等。。了解外部部存儲設(shè)設(shè)備的特特征。5.6..1數(shù)數(shù)據(jù)倉倉庫設(shè)計計的規(guī)范范為了保證證數(shù)據(jù)倉倉庫的設(shè)設(shè)計、實實施和管管理保持持穩(wěn)定,,不產(chǎn)生生混亂,,需要對對物理數(shù)數(shù)據(jù)模型型中的實實體、表表、列等等進行規(guī)規(guī)范化處處理,使使整個數(shù)數(shù)據(jù)倉庫庫的物理理數(shù)據(jù)模模型能夠夠保持一一致。規(guī)范化內(nèi)內(nèi)容主要要有:完整清晰晰的數(shù)據(jù)據(jù)定義::數(shù)據(jù)項項命名規(guī)規(guī)則合適的數(shù)數(shù)據(jù)格式式:縮寫寫方式,,大小寫寫混合,,下劃線線需要為數(shù)數(shù)據(jù)倉庫庫中的每每個組件件或部件件都確定定相應(yīng)的的設(shè)計標(biāo)標(biāo)準(zhǔn)。5.6..2確確定數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)的類型型外部數(shù)據(jù)多維數(shù)據(jù)概括1層次1概括2層次1概括3層次1概括4層次2概括5層次2概括6層次2細(xì)節(jié)數(shù)據(jù)存檔數(shù)據(jù)數(shù)據(jù)類型型組合:細(xì)節(jié)數(shù)數(shù)據(jù),概概括數(shù)據(jù)據(jù),外部部數(shù)據(jù),,多維數(shù)數(shù)據(jù)數(shù)據(jù)子集集,數(shù)據(jù)據(jù)緩存,,復(fù)制數(shù)數(shù)據(jù),存存檔數(shù)據(jù)據(jù)5.6..2確確定數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)的類型型數(shù)據(jù)反規(guī)規(guī)范化處處理的優(yōu)優(yōu)點:能減少對對表聯(lián)結(jié)結(jié)的需求求,提高高數(shù)據(jù)倉倉庫運行行性能。。能減少編編寫專門門決策支支持應(yīng)用用程序的的工作量量,因為為運用一一些專門門的查詢詢工具,,可以更更容易訪訪問數(shù)據(jù)據(jù)??梢宰層糜脩粢灾敝庇^的易易于理解解的工具具來操作作數(shù)據(jù),,例如,,可以利利用電子子報表來來查看數(shù)數(shù)據(jù)。5.6..3數(shù)數(shù)據(jù)倉倉庫索引引的創(chuàng)建建1.索索引創(chuàng)創(chuàng)建策略略建立索引引時,按按照索引引使用的的頻率,,由高到到低逐步步添加按主關(guān)鍵鍵字和大大多數(shù)外外部關(guān)鍵鍵字建立立索引,,其它索索引按需需添加2.索索引的的創(chuàng)建事實表中中一定要要設(shè)置主主鍵,并并以此建建立索引引維表索引引的創(chuàng)建建數(shù)據(jù)加載載索引的的創(chuàng)建5.6..4確確定數(shù)數(shù)據(jù)存放放位置數(shù)據(jù)的布布局原則則:把經(jīng)常需需要連接接的幾張張表放在在同一存存儲設(shè)備備上如果幾臺臺服務(wù)器器之間的的連接會會造成嚴(yán)嚴(yán)重的網(wǎng)網(wǎng)絡(luò)業(yè)務(wù)務(wù)量的問問題,則則要考慮慮服務(wù)器器復(fù)制表表格??紤]把整整個企業(yè)業(yè)共享的的細(xì)節(jié)數(shù)數(shù)據(jù)放在在主機或或其他集集中式服服務(wù)器上上。表格和它它們的索索引放在在不同設(shè)設(shè)備上。。一般可可以將索索引存放放在高速速存儲設(shè)設(shè)備上,,而表格格則存放放在一般般存儲設(shè)設(shè)備上,,以加快快數(shù)據(jù)的的查詢速速度。5.6..5確確定存存儲分配配5.6..6數(shù)數(shù)據(jù)倉倉庫物理理模型的的評審物理模型型設(shè)計評評審的目目標(biāo)是要要確定物物理模型型滿足數(shù)數(shù)據(jù)倉庫庫使用的的:靈活性性能數(shù)據(jù)完整整性系統(tǒng)可用用性數(shù)據(jù)的當(dāng)當(dāng)前性用戶的滿滿意度,,等等集中存儲儲,分布布式存儲儲(按部部門/主主題區(qū)//地域應(yīng)應(yīng)用)橫向分區(qū)區(qū),縱向向分區(qū)具體的評評審項目目有:表空間::數(shù)據(jù)加加載與重重組,表表連接的的競爭分區(qū):分分區(qū)原因因及數(shù)量量,并行行處理,,分區(qū)一一致數(shù)據(jù)表::規(guī)范程程度,約約束條件件,一致致性數(shù)據(jù)壓縮縮:空間間節(jié)省效效果,CPU代代價控制表和和引用表表:引用用完整性性,恢復(fù)復(fù)的規(guī)劃劃和影響響索引:必必要性,,數(shù)量,,效率,,支持訪訪問的程程度數(shù)據(jù)量::預(yù)期值值,處理理時間,,便于索索引,資資源轉(zhuǎn)移移數(shù)據(jù)分布布:分布布方式,,提取方方式,復(fù)復(fù)制方式式,可連連接性線路通信信量:遠遠程傳輸輸?shù)姆N種種問題數(shù)據(jù)倉庫庫的更新新:更新新方式//周期//機制//實施負(fù)負(fù)責(zé)概況數(shù)據(jù)據(jù):產(chǎn)生生/維護護方式,,增量//時間點點/出錯錯/峰期期問題預(yù)期變動動:靈活活性/伸伸縮性//移植性性,重組組問題數(shù)據(jù)的文文檔化::數(shù)據(jù)定定義,維維護者,,一致性性,紙質(zhì)質(zhì)化5.7數(shù)數(shù)據(jù)據(jù)倉庫的的實施實施過程程中需要要完成的的工作::建立數(shù)據(jù)據(jù)倉庫與與業(yè)務(wù)處處理系統(tǒng)統(tǒng)的接口口實現(xiàn)數(shù)據(jù)據(jù)倉庫物物理倉庫庫與元數(shù)數(shù)據(jù)庫進行數(shù)據(jù)據(jù)倉庫的的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廣東省普通高等學(xué)校招收中等職業(yè)學(xué)校畢業(yè)生統(tǒng)一模擬考試語文題真題(原卷版)
- 卡斯欽-貝克病的健康宣教
- 干嘔的健康宣教
- 足趾痛的健康宣教
- 毛孔堵塞的臨床護理
- 子宮炎的健康宣教
- 孕期積食的健康宣教
- 《第一章》課件-1.1人工智能的誕生
- 皮膚膿腫的臨床護理
- 《Java程序設(shè)計及移動APP開發(fā)》課件-第10章
- 全過程工程造價咨詢投標(biāo)方案(技術(shù)方案)
- 華南理工大學(xué)《自然語言處理》2022-2023學(xué)年期末試卷
- 【初中歷史】夏商周時期:奴隸制王朝的更替和向封建社會的過渡背誦清單-2024-2025學(xué)年七年級歷史上冊
- 市場調(diào)研委托合同三篇
- 第02講 原電池、化學(xué)電源(講義)(教師版) 2025年高考化學(xué)一輪復(fù)習(xí)講練測(新教材新高考)
- 統(tǒng)編版(2024)七年級上冊語文第四單元素養(yǎng)提升測試卷(含答案)
- 護士個人年終總結(jié)
- 2024年廣西安全員C證考試試題題庫
- EHS(環(huán)境健康安全)管理制度
- 江蘇省宿遷市2024年中考地理真題試卷
- 邏輯學(xué)導(dǎo)論學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評論
0/150
提交評論