版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
維度建模概述度量和粒度度量:是用于評(píng)價(jià)業(yè)務(wù)狀況的數(shù)值型數(shù)據(jù)或關(guān)鍵的性能指標(biāo)例如:銷售額成本利潤庫存量交易數(shù)不同的度量反映出不同的業(yè)務(wù)性質(zhì)。度量之間相互獨(dú)立。粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越??;相反,細(xì)化程度越低,粒度級(jí)就越大。設(shè)計(jì)粒度是設(shè)計(jì)數(shù)據(jù)倉庫中的一個(gè)重要的前提事實(shí)表(FactTable)事實(shí)表:通常包含了一系列的度量值。事實(shí)表所有度量值必須具有相同粒度。每個(gè)數(shù)據(jù)倉庫都包含一個(gè)或者多個(gè)事實(shí)數(shù)據(jù)表。事實(shí)數(shù)據(jù)表可能包含業(yè)務(wù)銷售數(shù)據(jù),如現(xiàn)金登記事務(wù)所產(chǎn)生的數(shù)據(jù),事實(shí)數(shù)據(jù)表通常包含大量的行特征:數(shù)據(jù)量大、列數(shù)少,經(jīng)常變化銷售事實(shí)收益數(shù)量支出毛利…維度表(DimensionTable)維度:可以看作是用戶來分析數(shù)據(jù)的窗口,維度表中包含事實(shí)記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實(shí)數(shù)據(jù)表數(shù)據(jù)。每一張維表對(duì)應(yīng)現(xiàn)實(shí)世界中的一個(gè)對(duì)象或者概念。例如:客戶、產(chǎn)品、日期、地區(qū)、商場維表的特征:屬性列很多,行數(shù)較少,內(nèi)容較固定客戶維時(shí)間維商場維產(chǎn)品維銷售事實(shí)時(shí)間ID客戶ID產(chǎn)品ID商場ID收益數(shù)量支出毛利…
維層次:明細(xì)數(shù)據(jù)的層次維成員(類別):是各維度每層中數(shù)據(jù)的具體取值,每一個(gè)維成員屬于某一個(gè)特定的維層次。例如:時(shí)間維:三個(gè)層次,日、月、年,
維成員:
1999年5月20日、1999年5月;1999年維層次屬性(ATTRIBUTES):維層次上的描述屬性,例如產(chǎn)品的“規(guī)格”、“顏色”、“銷地”、“產(chǎn)地”…粒度、層次(Hierarchy)和類別(Categories)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越??;相反,細(xì)化程度越低,粒度級(jí)就越大。設(shè)計(jì)粒度是設(shè)計(jì)數(shù)據(jù)倉庫中的一個(gè)重要的前提維粒度:數(shù)據(jù)的細(xì)化程度多維分析:對(duì)多維數(shù)據(jù)組織和分析的過程。既在線分析處理(OLAP)過程。多維數(shù)據(jù)能按照貼近業(yè)務(wù)規(guī)則的方式組織數(shù)據(jù),多個(gè)多角度探查和回答業(yè)務(wù)問題,發(fā)現(xiàn)某種信息或者知識(shí)。多維分析
、切片(Slice)從多維數(shù)組選定一個(gè)二維子集,切出一個(gè)“平面”切塊(Dice)從多維數(shù)組選定一個(gè)三維子集,切出一個(gè)“立方體”旋轉(zhuǎn)改變一個(gè)報(bào)告(或頁面)顯示的維方向鉆取根據(jù)維層次,改變數(shù)據(jù)的粒度多維分析的基本分析動(dòng)作
1997年1月產(chǎn)品銷售情況產(chǎn)品維產(chǎn)品維
產(chǎn)品
銷售情況時(shí)間維選定時(shí)間維的維成員"1997年1月"選定兩個(gè)維:產(chǎn)品維和地區(qū)維
數(shù)據(jù)切片定位地區(qū)維地區(qū)維
注:多維數(shù)組(地區(qū)、時(shí)間、產(chǎn)品、銷售額)
若在時(shí)間維上選定維成員“1997年11月”
切片舉例旋轉(zhuǎn):改變一個(gè)報(bào)告或頁面顯示的內(nèi)容產(chǎn)品維時(shí)間維產(chǎn)品維
行列交換時(shí)間維
把一個(gè)橫向?yàn)闀r(shí)間,縱向?yàn)楫a(chǎn)品的報(bào)表旋轉(zhuǎn)成為橫向?yàn)楫a(chǎn)品和縱向?yàn)闀r(shí)間的報(bào)表
旋轉(zhuǎn)的含義
年份月份銷售量20132013011002013201302200......2013201313100年份銷售量201320000鉆?。恒@取是改變維的層次,變換分析的粒度。鉆透:直接下鉆到最明細(xì)的數(shù)據(jù)。鉆取、鉆透鉆取鉆透年份月份日期銷售量201320130120130101100201320130120130102200......201320131220131231100維度建模是什么
建模是建立一個(gè)可回答用戶業(yè)務(wù)問題的過程,通過維度事實(shí)對(duì)數(shù)據(jù)進(jìn)行重新組織的過程。
建模方法:建模時(shí)由事實(shí)驅(qū)動(dòng)維度。先建立要分析事實(shí),以此為中心找出(擴(kuò)展)處相應(yīng)維度,維度是從事實(shí)上剝離出去的。通過模型建立起數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。注意:數(shù)據(jù)進(jìn)行維度和事實(shí)的劃分并非是固定的。有時(shí)同一數(shù)據(jù)在不同的分析場景既是事實(shí)也是維度。例如:統(tǒng)計(jì)客戶數(shù)量時(shí),客戶是事實(shí)。
統(tǒng)計(jì)客戶的銷量時(shí),客戶是維度。模型設(shè)計(jì)的好壞主要取決于業(yè)務(wù)數(shù)據(jù)的規(guī)范和對(duì)業(yè)務(wù)數(shù)據(jù)及其關(guān)系的理解。維度的三種模型星形模型(StarSchema)雪花模型(SnowflakeSchema)多維模型(Multi-dimensionSchema)一些影響維度建模的因素?cái)?shù)據(jù)或展現(xiàn)的安全性復(fù)雜的查詢和分析星形模型(StarSchema)事實(shí)被維度所包圍,且維度沒有被新的表連接優(yōu)點(diǎn):數(shù)據(jù)結(jié)構(gòu)關(guān)系清晰。查詢效率較高。最終用戶更加容易理解(表數(shù)量最少)可編輯和擴(kuò)展,可以輕松添加一個(gè)新的事實(shí)并重復(fù)使用現(xiàn)有維度
客戶維時(shí)間維商場維產(chǎn)品維銷售事實(shí)時(shí)間ID客戶ID產(chǎn)品ID商場ID收益數(shù)量支出毛利…星形模型是一個(gè)比較折中的的建模方式(BIAPPS中都是用的是星形的建模方式)雪花模型(SnowflakeSchema)事實(shí)表被多個(gè)維表或一個(gè)或多個(gè)層次所包圍。特點(diǎn):可實(shí)現(xiàn)復(fù)雜的業(yè)務(wù)情景。通過多個(gè)維表代表一個(gè)維表的客戶維時(shí)間維商場維產(chǎn)品維銷售事實(shí)時(shí)間ID客戶ID產(chǎn)品ID商場ID收益數(shù)量支出毛利…聯(lián)系人維聯(lián)系人維雪花模型一般在處理大的且相對(duì)靜態(tài)的層次的時(shí)候使用多維模型(Multi-DimensionSchema)層次數(shù)據(jù)庫,只有一個(gè)結(jié)構(gòu)(立方體Cube)相當(dāng)于一個(gè)多維數(shù)組。它包含了所有數(shù)據(jù)在各種級(jí)別的匯總需要特定的多維數(shù)據(jù)庫或者多維數(shù)據(jù)庫引擎(Essbase)的支持?jǐn)?shù)據(jù)存儲(chǔ)空間的問題:當(dāng)新添加一個(gè)維度的時(shí)候,數(shù)據(jù)的量便會(huì)成指數(shù)增長維度的類型
緩慢變化維(SlowlyChangingDimension)快速變化維(RapidlyChangingDimension)大維(HugeDimension)和迷你維(Mini-Dimension)退化維(DegenerateDimension)緩慢變化維(SCD)大多數(shù)的維度的內(nèi)容都會(huì)有不同程度的改變。比如:
雇員的升職
客戶更改了他的名稱或地址我們?nèi)绾稳ヌ幚磉@些維度中的變化呢?下面提供了三個(gè)處理緩慢變化維的方式
直接更新到原先記錄中
標(biāo)記記錄有效時(shí)間的開始日期和結(jié)束日期,加入版本控制
在記錄中添加一個(gè)字段來記錄歷史快速變化維(FCD)當(dāng)某個(gè)維度的變化是非??斓臅r(shí)候,我們認(rèn)定他為快速變化維(具體要看實(shí)際的變化頻率),比如:
產(chǎn)品的價(jià)格,地產(chǎn)的價(jià)格等對(duì)于這種快速變化維的變化捕獲應(yīng)該在實(shí)施中進(jìn)行捕獲而不是維度中大維度(HugeDimension)數(shù)據(jù)倉庫中最有意思的維度是一些非常大的維度,比如客戶,產(chǎn)品等等。一個(gè)大的企業(yè)客戶維度往往有上百萬記錄,每條記錄又有上百個(gè)字段。而大的個(gè)人客戶維度則會(huì)超過千萬條記錄,這些個(gè)人客戶維度有時(shí)也會(huì)有十多個(gè)字段,但大多數(shù)時(shí)候比較少見的維度也只有不多的幾個(gè)屬性。大維度需要特殊的處理。由于數(shù)據(jù)量大,很多涉及大維度數(shù)據(jù)倉庫功能可能會(huì)很慢,效率很低。你需要采用高效率的設(shè)計(jì)方法、選擇正確的索引、或者采用其它優(yōu)化技術(shù)來處理以下問題,包括:
向大維度表填充數(shù)據(jù)
非限制維度的瀏覽性能,尤其是那些屬性較少的維度
多限制的維度屬性值的瀏覽時(shí)間
涉及大維度表的對(duì)事實(shí)表查詢的低效率問題
為處理第二類修改所需要增加的額外的記錄迷你維(MiniDimension)將常用的大維度中的少數(shù)字段提取出來,形成一個(gè)字段少的維度,在查詢的時(shí)候便可以使用迷你維中的字段這樣的設(shè)計(jì)明顯提高查詢效率事實(shí)的類型粒度事實(shí)表(AdditiveFact)周期快照事實(shí)表(Semi-AdditiveFact)聚合快照事實(shí)表(Non-AdditiveFact)非事實(shí)事實(shí)表(FactlessFactTable)粒度事實(shí)表(AdditiveFact)客戶維時(shí)間維商場維產(chǎn)品維銷售事實(shí)時(shí)間ID客戶ID產(chǎn)品ID商場ID價(jià)格…表示的是在特定時(shí)間、空間點(diǎn)上的一次瞬間的測量。與粒度同層次的事實(shí)表,可以直接將事實(shí)字段進(jìn)行Sum,Count等聚合操作周期快照事實(shí)表(Semi-AdditiveFact)周期快照事實(shí)表表現(xiàn)的是一個(gè)時(shí)間段,或者規(guī)律性的重復(fù)。這類表非常適合跟蹤長期的過程,例如銀行賬戶和其他形式的財(cái)務(wù)報(bào)表。最常用的財(cái)務(wù)上的周期快照事實(shí)表通常有一個(gè)月粒度。在周期快照事實(shí)表中的數(shù)據(jù)必須符合該粒度(就是說,他們必須量測的是同一個(gè)時(shí)間段中的活動(dòng))。對(duì)于一個(gè)好的周期快照事實(shí)表來說就是在粒度上有更多的事實(shí)。代理鍵(WID)月(FK)賬戶(FK)機(jī)構(gòu)(FK)家庭成員(FK)期末余額(Fact)變更余額(Fact)日平均額(Fact)保證金數(shù)(Fact)保證金總計(jì)(Fact)回收款數(shù)(Fact)……(Fact)聚合快照事實(shí)表(Non-AdditiveFact)聚合快照事實(shí)表用于描述那些有明確開始和結(jié)束的過程,例如合同履行,保單受理以及常見的工作流。聚合快照不適合長期連續(xù)的處理,如跟蹤銀行賬戶或者描述連續(xù)的生產(chǎn)制造過程,如造紙。聚合快照事實(shí)表的粒度是一個(gè)實(shí)體從其創(chuàng)建到當(dāng)前狀態(tài)的完整的歷史。代理鍵(WID)請(qǐng)求發(fā)貨日期(FK)實(shí)際發(fā)貨日期(FK)交付日期(FK)退貨日期(FK)結(jié)算日期(FK)倉庫(FK)客戶(FK)產(chǎn)品(FK)固定價(jià)格清單(Fact)額外補(bǔ)助(Fact)支付數(shù)量(Fact)退還數(shù)量(Fact)貨物凈利數(shù)(Fact)標(biāo)準(zhǔn)假設(shè)非事實(shí)事實(shí)表(FactlessFactTable)每個(gè)事實(shí)表的粒度是一個(gè)事件量測。用來描述數(shù)據(jù)或事件。事件可以發(fā)生,但是沒有具體的測量值。事故事件(FK)位置(FK)事故類型(FK)事故當(dāng)事人組(FK)原告組(FK)證人組(FK)事故當(dāng)事人組(FK)事故當(dāng)事人(FK)事故角色原告組(FK)原告(FK)原告角色證人組(FK)證人(FK)證人角色事故當(dāng)事人PK)屬性..原告PK)屬性..證人(PK)屬性..維度建模四個(gè)步驟分析內(nèi)容是什么A選取要建模的業(yè)務(wù)處理過程如何描述事實(shí)表單個(gè)行B定義業(yè)務(wù)處理的粒度(事實(shí)表)1.對(duì)分析內(nèi)容(事實(shí))給出明確說明,維度分析的達(dá)到層級(jí)。2確定每個(gè)事實(shí)表的粒度從那些方面描述事實(shí)C選取用于每個(gè)事實(shí)表的維度1確定維度的屬性2確定維度的層次3確定每個(gè)事實(shí)所需要關(guān)聯(lián)的維度用那些內(nèi)容(指標(biāo))進(jìn)行評(píng)測D確定用于分析形成每
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年電商物流運(yùn)營協(xié)議
- 2024年跨境電商航空物流合同
- 2024有關(guān)合伙購置房產(chǎn)售后服務(wù)合同樣本3篇
- 2024年擔(dān)保函與擔(dān)保合同在個(gè)人經(jīng)營性貸款擔(dān)保中的風(fēng)險(xiǎn)識(shí)別與防范3篇
- 2024年縫紉機(jī)批發(fā)交易合同
- 2024年生態(tài)魚塘承包經(jīng)營權(quán)轉(zhuǎn)讓及綜合服務(wù)合同3篇
- 2024年網(wǎng)絡(luò)平臺(tái)廣告合作協(xié)議一
- 教育美工工作總結(jié)
- 《電視原理》課件第9章
- 信息安全銷售總結(jié)
- 王二小的故事【拼音版】
- 生產(chǎn)工藝過程說明書
- 遼寧省營口市鲅魚圈區(qū)2023-2024學(xué)年數(shù)學(xué)四年級(jí)第一學(xué)期期末復(fù)習(xí)檢測試題含答案
- 中小學(xué)鐵路安全知識(shí)主題教育課件
- 工程施工安全交底
- 院內(nèi)按病種分值付費(fèi)(DIP)專題培訓(xùn)
- 2023-2024學(xué)年遼寧省調(diào)兵山市小學(xué)數(shù)學(xué)五年級(jí)上冊(cè)期末高分通關(guān)試題
- 地方公務(wù)員考試:2022西藏真題及答案
- 電化學(xué)培優(yōu)專題
- GB/T 631-2007化學(xué)試劑氨水
- GB/T 325.5-2015包裝容器鋼桶第5部分:200 L及以下閉口鋼桶
評(píng)論
0/150
提交評(píng)論