數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)技巧課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)技巧課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)技巧課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)技巧課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)技巧課件_第5頁(yè)
已閱讀5頁(yè),還剩81頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商業(yè)智能核心技術(shù)與應(yīng)用商業(yè)智能核心技術(shù)與應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)2數(shù)據(jù)倉(cāng)庫(kù)的基本概念數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間不斷變化的數(shù)據(jù)庫(kù)系統(tǒng)。它介于數(shù)據(jù)源與多維數(shù)據(jù)庫(kù)之間,起到承上啟下的作用。數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)對(duì)來(lái)自不同的數(shù)據(jù)源進(jìn)行統(tǒng)一處理及管理,通過(guò)靈活的展現(xiàn)方法來(lái)幫助決策支持。數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)決策數(shù)據(jù)倉(cāng)庫(kù)的基本概念數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)理念在設(shè)計(jì)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)之初把用戶的分析需求納入考慮范圍是十分有必要的。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建必需基于業(yè)務(wù)數(shù)據(jù)庫(kù),業(yè)務(wù)數(shù)據(jù)源的結(jié)構(gòu)也是不得不考慮的問(wèn)題。因此在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候,應(yīng)該堅(jiān)持用戶驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的設(shè)計(jì)理念。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)理念在設(shè)計(jì)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)之初把用戶的分析需求納入考業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的設(shè)計(jì)范式1NF

如果一個(gè)表中沒(méi)有重復(fù)組(即行與列的交叉點(diǎn)上只有一個(gè)值,而不是一組值),且定義了關(guān)鍵字、所有非關(guān)鍵屬性都依賴于關(guān)鍵字,則這個(gè)表屬于第一范式(常記成1NF)

2NF

如果一個(gè)表屬于1NF,且不包含部分依賴性,既沒(méi)有任何屬性只依賴于關(guān)鍵字的一部分,則這個(gè)表屬于第二范式(常記成2NF)。3NF

如果一個(gè)表屬于2NF,且不包含傳遞依賴性(即沒(méi)有一個(gè)非關(guān)鍵屬性依賴于另一個(gè)非關(guān)鍵屬性,或者說(shuō)沒(méi)有一個(gè)非關(guān)鍵屬性決定另一個(gè)非關(guān)鍵屬性),則這個(gè)表是第三范式(常記成3NF)。業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的設(shè)計(jì)范式1NF業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的ER圖表示ER模型(實(shí)體聯(lián)系模型)簡(jiǎn)稱ER圖。它是描述概念世界,建立概念模型的實(shí)用工具。ER圖包括三個(gè)要素:實(shí)體、屬性、實(shí)體之間的聯(lián)系聯(lián)系歸結(jié)為三種類型:

一對(duì)一聯(lián)系(1:1)

設(shè)A、B為兩個(gè)實(shí)體集。若A中的每個(gè)實(shí)體至多和B中的一個(gè)實(shí)體有聯(lián)系,反過(guò)來(lái),B中的每個(gè)實(shí)體至多和A中的一個(gè)實(shí)體有聯(lián)系,稱A對(duì)B或B對(duì)A是1:1聯(lián)系。一對(duì)多聯(lián)系(1:n)

如果A實(shí)體集中的每個(gè)實(shí)體可以和B中的幾個(gè)實(shí)體有聯(lián)系,而B(niǎo)中的每個(gè)實(shí)體至我和A中的一個(gè)實(shí)體有聯(lián)系,那么A對(duì)B屬于1:n聯(lián)系。多對(duì)多聯(lián)系(m:n)

若實(shí)體集A中的每個(gè)實(shí)體可與和B中的多個(gè)實(shí)體有聯(lián)系,反過(guò)來(lái),B中的每個(gè)實(shí)體也可以與A中的多個(gè)實(shí)體有聯(lián)系,稱A對(duì)B或B對(duì)A是m:n聯(lián)系。

業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的ER圖表示ER模型(實(shí)體聯(lián)系模型)簡(jiǎn)稱ER多對(duì)多聯(lián)系舉例統(tǒng)計(jì)特征FatLeanUglyWealthy統(tǒng)計(jì)特征客戶客戶統(tǒng)計(jì)特征銷售Fact客戶統(tǒng)計(jì)特征JohnFatRichardLeanJohnUglyRichardWealthy客戶JohnRichardCristian客戶銷售額John1.0Richard3.0Cristian10.0每個(gè)統(tǒng)計(jì)特征對(duì)銷售人員來(lái)說(shuō)是怎么樣的呢?統(tǒng)計(jì)特征銷售額AllDemographics14.0Fat1.0Lean3.0Ugly1.0Wealthy3.0多對(duì)多聯(lián)系舉例統(tǒng)計(jì)特征FatLeanUglyWealthy統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)最佳實(shí)踐數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)主要分三個(gè)階段:1、概念設(shè)計(jì)2、邏輯設(shè)計(jì)3、詳細(xì)設(shè)計(jì)并分別產(chǎn)生三類設(shè)計(jì)模型1、主題域模型2、業(yè)務(wù)數(shù)據(jù)模型3、物理模型8數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)采用迭代式開(kāi)發(fā),這一點(diǎn)也符合數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)迭代開(kāi)發(fā)的特點(diǎn)。它具有較好的靈活性和易變性,適應(yīng)于主題不明確或不確定的需求。數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)最佳實(shí)踐數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)主要分三個(gè)階段:8數(shù)概念設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)是面向主題來(lái)組織數(shù)據(jù),一個(gè)數(shù)據(jù)倉(cāng)庫(kù)有若干個(gè)主題,而每個(gè)主題又有一個(gè)數(shù)據(jù)集合體做支撐,這個(gè)數(shù)據(jù)集合稱為主題域。概念設(shè)計(jì)的中心工作是在需求分析基礎(chǔ)上設(shè)計(jì)的主題域模型。主體域模型是客觀到主觀之間的橋梁,是與硬件環(huán)境、軟件選擇無(wú)關(guān)的數(shù)據(jù)抽象模型,是為下一步建立業(yè)務(wù)數(shù)據(jù)模型、物理模型服務(wù)的概念性工具。主題域具有兩個(gè)特性1、獨(dú)立性,即主題域具有明確的邊界與獨(dú)立的內(nèi)涵,雖然主題間可以有交叉,但不影響其獨(dú)立性。2、完備性,即每個(gè)主題的分析要求所需的數(shù)據(jù)均應(yīng)能在主題域中得到。采用概念數(shù)據(jù)模型設(shè)計(jì)就是要設(shè)計(jì)主題域的數(shù)據(jù)結(jié)構(gòu)。概念設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)是面向主題來(lái)組織數(shù)據(jù),一個(gè)數(shù)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的主題域模型示例數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的主題域模型示例邏輯設(shè)計(jì)邏輯設(shè)計(jì)設(shè)計(jì)到的知識(shí)點(diǎn)包括:業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的建模對(duì)象應(yīng)包含實(shí)體、屬性、關(guān)鍵字和聯(lián)系。業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)應(yīng)該遵守規(guī)范化準(zhǔn)則:即第三范式設(shè)計(jì)準(zhǔn)則。業(yè)務(wù)數(shù)據(jù)模型的ER圖表示法。邏輯設(shè)計(jì)的中心工作是設(shè)計(jì)業(yè)務(wù)數(shù)據(jù)模型,業(yè)務(wù)數(shù)據(jù)模型是用具體的軟件結(jié)構(gòu)來(lái)實(shí)現(xiàn)概念數(shù)據(jù)模型。目前數(shù)據(jù)倉(cāng)庫(kù)一般是建立在關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上,因此數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)中采用的業(yè)務(wù)數(shù)據(jù)模型就是關(guān)系模型。邏輯設(shè)計(jì)邏輯設(shè)計(jì)設(shè)計(jì)到的知識(shí)點(diǎn)包括:邏輯設(shè)計(jì)業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的建模對(duì)象實(shí)體

我們把客觀存在并且可以相互區(qū)別的事物稱為實(shí)體。實(shí)體可以是實(shí)際事物,也可以是抽象事件。屬性

描述實(shí)體的特性稱為屬性。關(guān)鍵字

如果某個(gè)屬性值能唯一地標(biāo)識(shí)出實(shí)體集中的每一個(gè)實(shí)體,可以選作關(guān)鍵字。聯(lián)系

實(shí)體集之間的對(duì)應(yīng)關(guān)系稱為聯(lián)系,它反映現(xiàn)實(shí)世界事物之間的相互關(guān)聯(lián)。聯(lián)系分為兩種,一種是實(shí)體內(nèi)部各屬性之間的聯(lián)系。另一種是實(shí)體之間的聯(lián)系。業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的建模對(duì)象實(shí)體邏輯設(shè)計(jì)方法—定義實(shí)體主題域主題實(shí)體粒度類型說(shuō)明生皮分選物料物料物料代碼,唯一標(biāo)識(shí)每種物料維度物料分類物料分類代碼,唯一標(biāo)識(shí)每種物料分類維度分選結(jié)果分選結(jié)果物料代碼*倉(cāng)庫(kù)*供應(yīng)商*產(chǎn)地*皮種量度組邏輯設(shè)計(jì)方法—定義實(shí)體主題域主題實(shí)體粒度類型說(shuō)明生皮物料物料邏輯設(shè)計(jì)方法—定義實(shí)體層級(jí)日月季年物料物料分類供應(yīng)商邏輯設(shè)計(jì)方法—定義實(shí)體層級(jí)日月季年物料物料分類供應(yīng)商邏輯設(shè)計(jì)方法—定義量度組主題域量度組量度聚合計(jì)算公式說(shuō)明生皮分選分選結(jié)果分選結(jié)果數(shù)量累加財(cái)務(wù)員工員工工資平均邏輯設(shè)計(jì)方法—定義量度組主題域量度組量度聚合計(jì)算公式說(shuō)明生皮邏輯設(shè)計(jì)方法—定義關(guān)系主題實(shí)體采購(gòu)分選結(jié)果預(yù)算日期日**月*季年物料物料**物料分類邏輯設(shè)計(jì)方法—定義關(guān)系主題實(shí)體采購(gòu)分選結(jié)果預(yù)算日期日**邏輯設(shè)計(jì)的關(guān)鍵因素粒度特例邏輯設(shè)計(jì)的關(guān)鍵因素粒度詳細(xì)設(shè)計(jì)物理模型是從業(yè)務(wù)數(shù)據(jù)模型創(chuàng)建而來(lái)的,建立物理模型通過(guò)擴(kuò)展業(yè)務(wù)數(shù)據(jù)模型,使模型中包含關(guān)鍵字和物理特性。物理模型設(shè)計(jì)包括:設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)——?jiǎng)?chuàng)建實(shí)體設(shè)計(jì)索引策略——?jiǎng)?chuàng)建索引設(shè)計(jì)存儲(chǔ)策略——?jiǎng)?chuàng)建分區(qū)詳細(xì)設(shè)計(jì)物理模型是從業(yè)務(wù)數(shù)據(jù)模型創(chuàng)建而來(lái)的,建立物理模型通過(guò)設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)——?jiǎng)?chuàng)建實(shí)體創(chuàng)建物理實(shí)體表視圖約束設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)——?jiǎng)?chuàng)建實(shí)體創(chuàng)建物理實(shí)體創(chuàng)建事實(shí)表只包括主鍵、外鍵和度量創(chuàng)建事實(shí)表只包括主鍵、外鍵和度量事實(shí)表一個(gè)OLAP模型可以有多個(gè)事實(shí)表事實(shí)表經(jīng)常有millionsofrows事實(shí)往往是數(shù)字‘量度’有些事實(shí)可以被累加,另一些不能最小粒度原則不歡迎描述性屬性(瘦高vs.矮胖)事實(shí)表一個(gè)OLAP模型可以有多個(gè)事實(shí)表創(chuàng)建維度表維度描述事實(shí)邏輯上通過(guò)key關(guān)聯(lián)維度表往往包含相當(dāng)多的屬性典型的屬性是文本的、離散的維度往往含有層次主鍵往往是系統(tǒng)產(chǎn)生的primarykey很可能是共享的創(chuàng)建維度表維度描述事實(shí)維度表設(shè)計(jì)常規(guī)維度主鍵代理鍵(可選)名稱排序鍵(可選)自定義匯總公式(可選)父子維度父鍵一元運(yùn)算符(可選)維度表設(shè)計(jì)常規(guī)維度數(shù)據(jù)倉(cāng)庫(kù)的星型結(jié)構(gòu)Employee_DimEmployeeKeyEmployeeID...EmployeeKeyTime_DimTimeKeyTheDate...TimeKeyProduct_DimProductKeyProductIDProduceNameProductBrandProductCategory...ProductKeyCustomer_DimCustomerKeyCustomerID...CustomerKeyShipper_DimShipperKeyShipperID...ShipperKeySales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice...TimeKeyCustomerKeyShipperKeyProductKeyEmployeeKey多個(gè)外鍵事實(shí)維度鍵數(shù)據(jù)倉(cāng)庫(kù)的星型結(jié)構(gòu)Employee_DimEmployeeK數(shù)據(jù)倉(cāng)庫(kù)的雪花型結(jié)構(gòu)二級(jí)維度表Sales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice...Product_Brand_IdProductBrandProductCategoryIDProduct_Category_IdProduct

CategoryProductCategoryIDProduct_DimProductKeyProductNameProductSizeProductBrandID主維度表數(shù)據(jù)倉(cāng)庫(kù)的雪花型結(jié)構(gòu)二級(jí)維度表Sales_FactTimeK雪花型結(jié)構(gòu)的特點(diǎn)節(jié)省存儲(chǔ)空間一定程度上的范式雪花型結(jié)構(gòu)的特點(diǎn)節(jié)省存儲(chǔ)空間星型vs.雪花型Whichoneisbetter?長(zhǎng)期以來(lái)的爭(zhēng)論兩種觀點(diǎn)各有支持者爭(zhēng)論在繼續(xù)……目前看來(lái),大部分更加傾向于星型星型vs.雪花型Whichoneisbetter?支持星型維度的論點(diǎn)事實(shí)表總會(huì)是很大的,在維度表上節(jié)省的空間相對(duì)來(lái)說(shuō)是很小的增加了數(shù)據(jù)模型的復(fù)雜度查詢操作概念上更復(fù)雜了從數(shù)據(jù)倉(cāng)庫(kù)到多維數(shù)據(jù)庫(kù)的加載時(shí)間會(huì)更長(zhǎng)因此,只有當(dāng)維度表極大,存儲(chǔ)空間是個(gè)問(wèn)題時(shí),才考慮雪花型維度簡(jiǎn)而言之,最好就用星型維度即可支持星型維度的論點(diǎn)事實(shí)表總會(huì)是很大的,在維度表上節(jié)省的空間相支持雪花型維度的論點(diǎn)從數(shù)據(jù)倉(cāng)庫(kù)到多維數(shù)據(jù)庫(kù)的加載過(guò)程中,雪花型維度的效率更高。雪花型維度描述了更清晰的層次概念。只有當(dāng)最終用戶可能直接訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)時(shí)才考慮星型。(而這是不被建議的)。支持雪花型維度的論點(diǎn)從數(shù)據(jù)倉(cāng)庫(kù)到多維數(shù)據(jù)庫(kù)的加載過(guò)程中,雪花思考:PrimaryKey與KeyPrimaryKeykeyNameColorSizeDescription1A001捷達(dá)銀灰…………2B003寶馬火紅…...……3C010切諾基寶石藍(lán)…………………………………………本身已經(jīng)有了Key的標(biāo)識(shí)以后,是否還需要PrimaryKey?思考:PrimaryKey與KeyPrimaryKey技巧:創(chuàng)建數(shù)字主鍵數(shù)字之間的比較永遠(yuǎn)比字符比較快得多。物理存儲(chǔ)時(shí),數(shù)字簡(jiǎn)單得多,因?yàn)樗鼈冮L(zhǎng)度一樣。字符則不同。內(nèi)存中,字符占的空間大得多。(4byte的指針+文本長(zhǎng)度*2(Unicode)+2。數(shù)字則僅有4bytes支持變化維度技巧:創(chuàng)建數(shù)字主鍵數(shù)字之間的比較永遠(yuǎn)比字符比較快得多。注意維度表與事實(shí)表不是絕對(duì)的同一個(gè)表,可以同時(shí)是維度表與事實(shí)表同一個(gè)表,可以有時(shí)是維度表,有時(shí)是事實(shí)表注意維度表與事實(shí)表不是絕對(duì)的創(chuàng)建“父子型”維度EmployeeManagerTheBoard<None>SteveBTheBoardBillGTheBoardJimAllSteveBPaulMaSteveBBobMuSteveBTodNPaulMaDavidVPaulMaPaulFleDavidV創(chuàng)建“父子型”維度EmployeeManagerTheB父子維度父子維度緩慢變化維不變化更新新增舉例:當(dāng)某銷售人員從一個(gè)部門(mén)調(diào)至另一個(gè)部門(mén),他的歷史業(yè)績(jī)?cè)撊绾魏怂??緩慢變化維不變化創(chuàng)建物理模型主鍵:PK_,整型自增外鍵:FK_排序鍵:Sort_字符類型:nvarchar量度類型:float、numeric創(chuàng)建物理模型主鍵:PK_,整型自增創(chuàng)建視圖、約束視圖

盡量少用或不用視圖,以避免意想不到的邏輯陷阱約束

盡量使用約束,以確保數(shù)據(jù)的完整性。正確的數(shù)據(jù)所帶來(lái)的益處會(huì)遠(yuǎn)遠(yuǎn)大于ETL性能的損失。創(chuàng)建視圖、約束視圖設(shè)計(jì)索引策略——?jiǎng)?chuàng)建索引創(chuàng)建索引用以提高查詢速度避免索引對(duì)ETL的不良影響設(shè)計(jì)索引策略——?jiǎng)?chuàng)建索引創(chuàng)建索引用以提高查詢速度設(shè)計(jì)存儲(chǔ)策略——?jiǎng)?chuàng)建分區(qū)分區(qū)存儲(chǔ)后的數(shù)據(jù)單元易于:重構(gòu)索引重組恢復(fù)監(jiān)控設(shè)計(jì)存儲(chǔ)策略——?jiǎng)?chuàng)建分區(qū)分區(qū)存儲(chǔ)后的數(shù)據(jù)單元易于:設(shè)計(jì)數(shù)據(jù)更新數(shù)據(jù)提取是捕獲源數(shù)據(jù)的過(guò)程。有兩種捕獲數(shù)據(jù)的主要方法(1)完全刷新:對(duì)移入中間數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行完全復(fù)制。該復(fù)制可能替換數(shù)據(jù)倉(cāng)庫(kù)中的內(nèi)容,及時(shí)在新的時(shí)間點(diǎn)上添加完整的新副本,或者與目標(biāo)數(shù)據(jù)進(jìn)行比較,以便在目標(biāo)中生成一條修改記錄。(2)增量更新:只捕獲源數(shù)據(jù)中修改的數(shù)據(jù),如何捕獲數(shù)據(jù)修改與數(shù)據(jù)源本身是密切相關(guān)的,實(shí)際上是逐個(gè)實(shí)現(xiàn)的問(wèn)題。設(shè)計(jì)數(shù)據(jù)更新數(shù)據(jù)提取是捕獲源數(shù)據(jù)的過(guò)程。有兩種捕獲數(shù)據(jù)的主要數(shù)據(jù)更新-增量抽取數(shù)據(jù)更新-增量抽取動(dòng)手實(shí)驗(yàn)動(dòng)手實(shí)驗(yàn)42動(dòng)手實(shí)驗(yàn)主題:分選分析分析需求:根據(jù)分選前后數(shù)據(jù),分析各分選點(diǎn)的不同產(chǎn)品產(chǎn)出結(jié)構(gòu)情況。分析角度:日期,分選前物料,分選后物料,物料分類,分選點(diǎn),供應(yīng)商,國(guó)家,產(chǎn)地,皮種,分選前數(shù)量,分選后數(shù)量動(dòng)手實(shí)驗(yàn)主題:分選分析商業(yè)智能核心技術(shù)與應(yīng)用商業(yè)智能核心技術(shù)與應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)45數(shù)據(jù)倉(cāng)庫(kù)的基本概念數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間不斷變化的數(shù)據(jù)庫(kù)系統(tǒng)。它介于數(shù)據(jù)源與多維數(shù)據(jù)庫(kù)之間,起到承上啟下的作用。數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)對(duì)來(lái)自不同的數(shù)據(jù)源進(jìn)行統(tǒng)一處理及管理,通過(guò)靈活的展現(xiàn)方法來(lái)幫助決策支持。數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)決策數(shù)據(jù)倉(cāng)庫(kù)的基本概念數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)理念在設(shè)計(jì)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)之初把用戶的分析需求納入考慮范圍是十分有必要的。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建必需基于業(yè)務(wù)數(shù)據(jù)庫(kù),業(yè)務(wù)數(shù)據(jù)源的結(jié)構(gòu)也是不得不考慮的問(wèn)題。因此在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的時(shí)候,應(yīng)該堅(jiān)持用戶驅(qū)動(dòng)與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的設(shè)計(jì)理念。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)理念在設(shè)計(jì)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)之初把用戶的分析需求納入考業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的設(shè)計(jì)范式1NF

如果一個(gè)表中沒(méi)有重復(fù)組(即行與列的交叉點(diǎn)上只有一個(gè)值,而不是一組值),且定義了關(guān)鍵字、所有非關(guān)鍵屬性都依賴于關(guān)鍵字,則這個(gè)表屬于第一范式(常記成1NF)

2NF

如果一個(gè)表屬于1NF,且不包含部分依賴性,既沒(méi)有任何屬性只依賴于關(guān)鍵字的一部分,則這個(gè)表屬于第二范式(常記成2NF)。3NF

如果一個(gè)表屬于2NF,且不包含傳遞依賴性(即沒(méi)有一個(gè)非關(guān)鍵屬性依賴于另一個(gè)非關(guān)鍵屬性,或者說(shuō)沒(méi)有一個(gè)非關(guān)鍵屬性決定另一個(gè)非關(guān)鍵屬性),則這個(gè)表是第三范式(常記成3NF)。業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的設(shè)計(jì)范式1NF業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的ER圖表示ER模型(實(shí)體聯(lián)系模型)簡(jiǎn)稱ER圖。它是描述概念世界,建立概念模型的實(shí)用工具。ER圖包括三個(gè)要素:實(shí)體、屬性、實(shí)體之間的聯(lián)系聯(lián)系歸結(jié)為三種類型:

一對(duì)一聯(lián)系(1:1)

設(shè)A、B為兩個(gè)實(shí)體集。若A中的每個(gè)實(shí)體至多和B中的一個(gè)實(shí)體有聯(lián)系,反過(guò)來(lái),B中的每個(gè)實(shí)體至多和A中的一個(gè)實(shí)體有聯(lián)系,稱A對(duì)B或B對(duì)A是1:1聯(lián)系。一對(duì)多聯(lián)系(1:n)

如果A實(shí)體集中的每個(gè)實(shí)體可以和B中的幾個(gè)實(shí)體有聯(lián)系,而B(niǎo)中的每個(gè)實(shí)體至我和A中的一個(gè)實(shí)體有聯(lián)系,那么A對(duì)B屬于1:n聯(lián)系。多對(duì)多聯(lián)系(m:n)

若實(shí)體集A中的每個(gè)實(shí)體可與和B中的多個(gè)實(shí)體有聯(lián)系,反過(guò)來(lái),B中的每個(gè)實(shí)體也可以與A中的多個(gè)實(shí)體有聯(lián)系,稱A對(duì)B或B對(duì)A是m:n聯(lián)系。

業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的ER圖表示ER模型(實(shí)體聯(lián)系模型)簡(jiǎn)稱ER多對(duì)多聯(lián)系舉例統(tǒng)計(jì)特征FatLeanUglyWealthy統(tǒng)計(jì)特征客戶客戶統(tǒng)計(jì)特征銷售Fact客戶統(tǒng)計(jì)特征JohnFatRichardLeanJohnUglyRichardWealthy客戶JohnRichardCristian客戶銷售額John1.0Richard3.0Cristian10.0每個(gè)統(tǒng)計(jì)特征對(duì)銷售人員來(lái)說(shuō)是怎么樣的呢?統(tǒng)計(jì)特征銷售額AllDemographics14.0Fat1.0Lean3.0Ugly1.0Wealthy3.0多對(duì)多聯(lián)系舉例統(tǒng)計(jì)特征FatLeanUglyWealthy統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)最佳實(shí)踐數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)主要分三個(gè)階段:1、概念設(shè)計(jì)2、邏輯設(shè)計(jì)3、詳細(xì)設(shè)計(jì)并分別產(chǎn)生三類設(shè)計(jì)模型1、主題域模型2、業(yè)務(wù)數(shù)據(jù)模型3、物理模型51數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)采用迭代式開(kāi)發(fā),這一點(diǎn)也符合數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)迭代開(kāi)發(fā)的特點(diǎn)。它具有較好的靈活性和易變性,適應(yīng)于主題不明確或不確定的需求。數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)最佳實(shí)踐數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)主要分三個(gè)階段:8數(shù)概念設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)是面向主題來(lái)組織數(shù)據(jù),一個(gè)數(shù)據(jù)倉(cāng)庫(kù)有若干個(gè)主題,而每個(gè)主題又有一個(gè)數(shù)據(jù)集合體做支撐,這個(gè)數(shù)據(jù)集合稱為主題域。概念設(shè)計(jì)的中心工作是在需求分析基礎(chǔ)上設(shè)計(jì)的主題域模型。主體域模型是客觀到主觀之間的橋梁,是與硬件環(huán)境、軟件選擇無(wú)關(guān)的數(shù)據(jù)抽象模型,是為下一步建立業(yè)務(wù)數(shù)據(jù)模型、物理模型服務(wù)的概念性工具。主題域具有兩個(gè)特性1、獨(dú)立性,即主題域具有明確的邊界與獨(dú)立的內(nèi)涵,雖然主題間可以有交叉,但不影響其獨(dú)立性。2、完備性,即每個(gè)主題的分析要求所需的數(shù)據(jù)均應(yīng)能在主題域中得到。采用概念數(shù)據(jù)模型設(shè)計(jì)就是要設(shè)計(jì)主題域的數(shù)據(jù)結(jié)構(gòu)。概念設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)是面向主題來(lái)組織數(shù)據(jù),一個(gè)數(shù)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的主題域模型示例數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的主題域模型示例邏輯設(shè)計(jì)邏輯設(shè)計(jì)設(shè)計(jì)到的知識(shí)點(diǎn)包括:業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的建模對(duì)象應(yīng)包含實(shí)體、屬性、關(guān)鍵字和聯(lián)系。業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)應(yīng)該遵守規(guī)范化準(zhǔn)則:即第三范式設(shè)計(jì)準(zhǔn)則。業(yè)務(wù)數(shù)據(jù)模型的ER圖表示法。邏輯設(shè)計(jì)的中心工作是設(shè)計(jì)業(yè)務(wù)數(shù)據(jù)模型,業(yè)務(wù)數(shù)據(jù)模型是用具體的軟件結(jié)構(gòu)來(lái)實(shí)現(xiàn)概念數(shù)據(jù)模型。目前數(shù)據(jù)倉(cāng)庫(kù)一般是建立在關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上,因此數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)中采用的業(yè)務(wù)數(shù)據(jù)模型就是關(guān)系模型。邏輯設(shè)計(jì)邏輯設(shè)計(jì)設(shè)計(jì)到的知識(shí)點(diǎn)包括:邏輯設(shè)計(jì)業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的建模對(duì)象實(shí)體

我們把客觀存在并且可以相互區(qū)別的事物稱為實(shí)體。實(shí)體可以是實(shí)際事物,也可以是抽象事件。屬性

描述實(shí)體的特性稱為屬性。關(guān)鍵字

如果某個(gè)屬性值能唯一地標(biāo)識(shí)出實(shí)體集中的每一個(gè)實(shí)體,可以選作關(guān)鍵字。聯(lián)系

實(shí)體集之間的對(duì)應(yīng)關(guān)系稱為聯(lián)系,它反映現(xiàn)實(shí)世界事物之間的相互關(guān)聯(lián)。聯(lián)系分為兩種,一種是實(shí)體內(nèi)部各屬性之間的聯(lián)系。另一種是實(shí)體之間的聯(lián)系。業(yè)務(wù)數(shù)據(jù)模型設(shè)計(jì)的建模對(duì)象實(shí)體邏輯設(shè)計(jì)方法—定義實(shí)體主題域主題實(shí)體粒度類型說(shuō)明生皮分選物料物料物料代碼,唯一標(biāo)識(shí)每種物料維度物料分類物料分類代碼,唯一標(biāo)識(shí)每種物料分類維度分選結(jié)果分選結(jié)果物料代碼*倉(cāng)庫(kù)*供應(yīng)商*產(chǎn)地*皮種量度組邏輯設(shè)計(jì)方法—定義實(shí)體主題域主題實(shí)體粒度類型說(shuō)明生皮物料物料邏輯設(shè)計(jì)方法—定義實(shí)體層級(jí)日月季年物料物料分類供應(yīng)商邏輯設(shè)計(jì)方法—定義實(shí)體層級(jí)日月季年物料物料分類供應(yīng)商邏輯設(shè)計(jì)方法—定義量度組主題域量度組量度聚合計(jì)算公式說(shuō)明生皮分選分選結(jié)果分選結(jié)果數(shù)量累加財(cái)務(wù)員工員工工資平均邏輯設(shè)計(jì)方法—定義量度組主題域量度組量度聚合計(jì)算公式說(shuō)明生皮邏輯設(shè)計(jì)方法—定義關(guān)系主題實(shí)體采購(gòu)分選結(jié)果預(yù)算日期日**月*季年物料物料**物料分類邏輯設(shè)計(jì)方法—定義關(guān)系主題實(shí)體采購(gòu)分選結(jié)果預(yù)算日期日**邏輯設(shè)計(jì)的關(guān)鍵因素粒度特例邏輯設(shè)計(jì)的關(guān)鍵因素粒度詳細(xì)設(shè)計(jì)物理模型是從業(yè)務(wù)數(shù)據(jù)模型創(chuàng)建而來(lái)的,建立物理模型通過(guò)擴(kuò)展業(yè)務(wù)數(shù)據(jù)模型,使模型中包含關(guān)鍵字和物理特性。物理模型設(shè)計(jì)包括:設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)——?jiǎng)?chuàng)建實(shí)體設(shè)計(jì)索引策略——?jiǎng)?chuàng)建索引設(shè)計(jì)存儲(chǔ)策略——?jiǎng)?chuàng)建分區(qū)詳細(xì)設(shè)計(jì)物理模型是從業(yè)務(wù)數(shù)據(jù)模型創(chuàng)建而來(lái)的,建立物理模型通過(guò)設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)——?jiǎng)?chuàng)建實(shí)體創(chuàng)建物理實(shí)體表視圖約束設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)——?jiǎng)?chuàng)建實(shí)體創(chuàng)建物理實(shí)體創(chuàng)建事實(shí)表只包括主鍵、外鍵和度量創(chuàng)建事實(shí)表只包括主鍵、外鍵和度量事實(shí)表一個(gè)OLAP模型可以有多個(gè)事實(shí)表事實(shí)表經(jīng)常有millionsofrows事實(shí)往往是數(shù)字‘量度’有些事實(shí)可以被累加,另一些不能最小粒度原則不歡迎描述性屬性(瘦高vs.矮胖)事實(shí)表一個(gè)OLAP模型可以有多個(gè)事實(shí)表創(chuàng)建維度表維度描述事實(shí)邏輯上通過(guò)key關(guān)聯(lián)維度表往往包含相當(dāng)多的屬性典型的屬性是文本的、離散的維度往往含有層次主鍵往往是系統(tǒng)產(chǎn)生的primarykey很可能是共享的創(chuàng)建維度表維度描述事實(shí)維度表設(shè)計(jì)常規(guī)維度主鍵代理鍵(可選)名稱排序鍵(可選)自定義匯總公式(可選)父子維度父鍵一元運(yùn)算符(可選)維度表設(shè)計(jì)常規(guī)維度數(shù)據(jù)倉(cāng)庫(kù)的星型結(jié)構(gòu)Employee_DimEmployeeKeyEmployeeID...EmployeeKeyTime_DimTimeKeyTheDate...TimeKeyProduct_DimProductKeyProductIDProduceNameProductBrandProductCategory...ProductKeyCustomer_DimCustomerKeyCustomerID...CustomerKeyShipper_DimShipperKeyShipperID...ShipperKeySales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice...TimeKeyCustomerKeyShipperKeyProductKeyEmployeeKey多個(gè)外鍵事實(shí)維度鍵數(shù)據(jù)倉(cāng)庫(kù)的星型結(jié)構(gòu)Employee_DimEmployeeK數(shù)據(jù)倉(cāng)庫(kù)的雪花型結(jié)構(gòu)二級(jí)維度表Sales_FactTimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice...Product_Brand_IdProductBrandProductCategoryIDProduct_Category_IdProduct

CategoryProductCategoryIDProduct_DimProductKeyProductNameProductSizeProductBrandID主維度表數(shù)據(jù)倉(cāng)庫(kù)的雪花型結(jié)構(gòu)二級(jí)維度表Sales_FactTimeK雪花型結(jié)構(gòu)的特點(diǎn)節(jié)省存儲(chǔ)空間一定程度上的范式雪花型結(jié)構(gòu)的特點(diǎn)節(jié)省存儲(chǔ)空間星型vs.雪花型Whichoneisbetter?長(zhǎng)期以來(lái)的爭(zhēng)論兩種觀點(diǎn)各有支持者爭(zhēng)論在繼續(xù)……目前看來(lái),大部分更加傾向于星型星型vs.雪花型Whichoneisbetter?支持星型維度的論點(diǎn)事實(shí)表總會(huì)是很大的,在維度表上節(jié)省的空間相對(duì)來(lái)說(shuō)是很小的增加了數(shù)據(jù)模型的復(fù)雜度查詢操作概念上更復(fù)雜了從數(shù)據(jù)倉(cāng)庫(kù)到多維數(shù)據(jù)庫(kù)的加載時(shí)間會(huì)更長(zhǎng)因此,只有當(dāng)維度表極大,存儲(chǔ)空間是個(gè)問(wèn)題時(shí),才考慮雪花型維度簡(jiǎn)而言之,最好就用星型維度即可支持星型維度的論點(diǎn)事實(shí)表總會(huì)是很大的,在維度表上節(jié)省的空間相支持雪花型維度的論點(diǎn)從數(shù)據(jù)倉(cāng)庫(kù)到多維數(shù)據(jù)庫(kù)的加載過(guò)程中,雪花型維度的效率更高。雪花型維度描述了更清晰的層次概念。只有當(dāng)最終用戶可能直接訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)時(shí)才考慮星型。(而這是不被建議的)。支持雪花型維度的論點(diǎn)從數(shù)據(jù)倉(cāng)庫(kù)到多維數(shù)據(jù)庫(kù)的加載過(guò)程中,雪花思考:PrimaryKey與KeyPrimaryKeykeyNameColorSizeDescription1A001捷達(dá)銀灰…………2B003寶馬火紅…...……3C010切諾基寶石藍(lán)…………………………………………本身已經(jīng)有了Key的標(biāo)識(shí)以后,是否還需要PrimaryKey?思考:PrimaryKey與KeyPrimaryKey技巧:創(chuàng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論