第4章數(shù)據(jù)倉庫中的維度與粒度課件_第1頁
第4章數(shù)據(jù)倉庫中的維度與粒度課件_第2頁
第4章數(shù)據(jù)倉庫中的維度與粒度課件_第3頁
第4章數(shù)據(jù)倉庫中的維度與粒度課件_第4頁
第4章數(shù)據(jù)倉庫中的維度與粒度課件_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

4.3溢出存儲器應(yīng)該考慮五年后如下因素:有更多的技術(shù)管理大量數(shù)據(jù)硬件費用下降功能更強大的軟件工具最終用戶更加專業(yè)化4.3溢出存儲器歷史數(shù)據(jù)與細(xì)節(jié)數(shù)據(jù)造成了數(shù)據(jù)的顯著增長根據(jù)數(shù)據(jù)使用頻率,可將數(shù)據(jù)分為二類:經(jīng)常使用的數(shù)據(jù)不經(jīng)常使用的數(shù)據(jù)(睡眠數(shù)據(jù))解決方案:睡眠數(shù)據(jù)轉(zhuǎn)移至海量備用存儲器或近線存儲器常用的溢出存儲器可分為:低性能的磁盤存儲器近線存儲器串行磁帶……4.4確定粒度級別一方面,合理推測粒度級別確定粒度還需要通過一定量的反復(fù)分析,根據(jù)用戶反饋不斷改進另一方面,預(yù)測不同體系結(jié)構(gòu)的需求數(shù)據(jù)倉庫中的數(shù)據(jù)需要處于最低的公共細(xì)節(jié)水平4.5反饋技巧提高數(shù)據(jù)粒度的方法:數(shù)據(jù)進入數(shù)據(jù)倉庫時,進行匯總數(shù)據(jù)進入數(shù)據(jù)倉庫時,求平均值數(shù)據(jù)集的最大/最小值放入數(shù)據(jù)倉庫只放入顯然需要的數(shù)據(jù)用條件邏輯選擇需要的數(shù)據(jù)系統(tǒng)需求了解到50%左右時即可以開始建造數(shù)據(jù)倉庫當(dāng)正常的業(yè)務(wù)事務(wù)記錄準(zhǔn)備放入數(shù)據(jù)倉庫時,高粒度級別的數(shù)據(jù)可能需要分解到低粒度級別。而對于一些低粒度級的數(shù)據(jù),如生產(chǎn)過程控制、網(wǎng)絡(luò)環(huán)境中產(chǎn)生的點擊流數(shù)據(jù)等,必須對數(shù)據(jù)進行編輯、重新排序和匯總等處理。4.6填充數(shù)據(jù)集市數(shù)據(jù)粒度需要考慮的另一重要因素:用于填充數(shù)據(jù)集市數(shù)據(jù)倉庫中的數(shù)據(jù)粒度必須是任何數(shù)據(jù)集市所需要數(shù)據(jù)中的最小粒度。維度設(shè)計維度表維度表是事實表不可分割的伴侶維度表傾向于將行數(shù)做得相當(dāng)少(通常<100萬行),而將列數(shù)做得特別大數(shù)據(jù)倉庫的能力與維度的質(zhì)量和深度成正比一個用戶要按星期與商標(biāo)來查看銷售額,星期與商標(biāo)就必須是可的維度屬性維度內(nèi)容維度屬性是查詢的約束條件、分組與報表標(biāo)簽生成的基本來源每個維度用單一的主關(guān)鍵字進行定義,主關(guān)鍵字是確保與之相連的事實表存在完整性的基礎(chǔ)。非直接相關(guān)屬性產(chǎn)品:包裹大小與品牌非規(guī)范化很多維度變化很緩慢多級層次結(jié)構(gòu)維度表通常有多種多級層次結(jié)構(gòu)維度中的文本與數(shù)字維度應(yīng)當(dāng)是文本和離散的盡量使用詳細(xì)的文本信息取代編碼數(shù)字屬性放入維度表還是事實表應(yīng)當(dāng)看它是一個含有許多取值并參與運算的度量(應(yīng)放入事實表),還是變化不多并參與約束條件的離散取值(應(yīng)放入維度表)產(chǎn)品尺寸------維度表產(chǎn)品生產(chǎn)成本------事實表事實表的內(nèi)容事實表的主鍵是所有維度表主鍵的組合鍵主要是數(shù)字屬性表很長,但不寬稀疏的數(shù)據(jù)假期記錄可能為空退化的維度既不是事實也不是維屬性的數(shù)據(jù)元素如發(fā)票號、訂單號等粒度設(shè)計原子數(shù)據(jù)應(yīng)成為每個事實表設(shè)計的基礎(chǔ)好處:可以只通過添加維度,滿足新的查詢要求商場的最佳維度應(yīng)是POS事務(wù)的單列項促銷效果、限時打折都需要低粒度數(shù)據(jù)事實表設(shè)計毛利潤=銷售-成本;在已有銷售和成本字段的情況下,是否應(yīng)物理存儲毛利潤字段?應(yīng)存儲減少用戶出錯便于生成報表例:業(yè)務(wù)數(shù)據(jù)的E-R圖銷售銷售日期商店號商品號銷售數(shù)量銷售單位商品商品號商品名商品類號存貨星期商店號商品號數(shù)量1m1m商店商店號商店名地址城市省郵編地區(qū)號1mm11商品類商品類號商品類名部門號m1m地區(qū)地區(qū)號地區(qū)名E-R圖向多維表的轉(zhuǎn)換該問題的多維表模型中,商品維包括部門、商品和商品大類,地點維包括地區(qū)和商店,忽略存貨,而只注意銷售事實。在E-R圖中不出現(xiàn)的時間,在多維模型中增加時間維。在多維模型中,實體與維之間建立映射關(guān)系,聯(lián)系多個實體的實體就成為事實,此處銷售實體作為事實,其他實體作為維。然后用維關(guān)鍵字將它轉(zhuǎn)換為星型模型,如圖所示。商品維地區(qū)維時間維部門地區(qū)年商品大類商店月商品周日銷售事實E-R圖向多維模型的轉(zhuǎn)換利用維關(guān)鍵字制定的星型模型在各維中,只有部門,商品類,地區(qū),商店的編號沒有具體的說明。為了打印報表將增加這些編號的名稱說明,即部門名、商店名等,在維表中增加這些說明,即修改該星型模型

修改后的星型模型產(chǎn)品維度表產(chǎn)品關(guān)鍵字(PK)、產(chǎn)品描述、商標(biāo)描述、分類描述、部門描述、包裝類型、包裝尺寸、重量、儲藏類型、貨架類型、貨架高度、貨架深度。。。。。。產(chǎn)品維度表每行都有與產(chǎn)品相關(guān)的商標(biāo)與分類,有冗余但易于使用精品課件!精品課件!日期維度:日期關(guān)鍵字、日期描述、星期、年歷月、年歷周、年歷日、月編號、周編號、日編號、財政日、財政月、周末指示符、節(jié)假日指示符、銷售

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論