




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
----宋停云與您分享--------宋停云與您分享----維度建模的基本概念及過(guò)程個(gè)基本構(gòu)成要素的基礎(chǔ)知識(shí);其次,介紹個(gè)基本步驟;再次,圍繞某銀行為實(shí)現(xiàn)業(yè)務(wù)價(jià)值鏈數(shù)據(jù)集成的需要,介紹多維3個(gè)關(guān)鍵性概念:數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)、一致性維度、一致性事實(shí)。維度表;事實(shí)表;維度模型設(shè)計(jì)過(guò)程;數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu);一致性維度;一致性事實(shí)。引言:Kimball本人并沒(méi)有定義“維度”和“事實(shí)”這樣的術(shù)語(yǔ)。術(shù)2060General與Dartmouth大學(xué)主持的70和都一致地使用這些術(shù)語(yǔ)描述他們的數(shù)據(jù)發(fā)布應(yīng)用,用現(xiàn)在更為準(zhǔn)確的話來(lái)說(shuō),就是關(guān)于零售數(shù)據(jù)的維度數(shù)據(jù)集市。在簡(jiǎn)明性成為生活方式的潮流之前的長(zhǎng)時(shí)期內(nèi),早期的數(shù)據(jù)庫(kù)壟斷組織們致力于將這些概念用來(lái)簡(jiǎn)化用做分析的信息。他們意識(shí)到,除非數(shù)據(jù)庫(kù)做得簡(jiǎn)單易用,否則沒(méi)有人會(huì)用它。因此,在將可理解性和性能作為最高目標(biāo)的驅(qū)動(dòng)下,產(chǎn)生了維度模型的構(gòu)造思想。維度表和事實(shí)表事實(shí)表事實(shí)表是維度模型的基本表,其中如圖所示存放有大量的業(yè)務(wù)性能度量值。力圖將從一個(gè)業(yè)務(wù)處理過(guò)程得到的度量值數(shù)據(jù)存放在單個(gè)數(shù)據(jù)集市。由于度量值數(shù)據(jù)壓倒性地成為任何數(shù)據(jù)集市的最大部分,因此應(yīng)該避免在企業(yè)范圍內(nèi)的不同地方存儲(chǔ)其拷貝。用術(shù)語(yǔ)“事實(shí)”代表一個(gè)業(yè)務(wù)度量值。可以設(shè)想一個(gè)作為例子的情形:查詢某個(gè)客戶在某個(gè)機(jī)構(gòu)下某個(gè)產(chǎn)品合約賬戶----宋停云與您分享--------宋停云與您分享----是什么。事實(shí)表的一行對(duì)應(yīng)一個(gè)度量值,一個(gè)度量值就是事實(shí)表的一行;事實(shí)表的所有度量值必須具有相同的粒度。最有用的事實(shí)是諸如賬戶余額這樣的數(shù)字類型為可做加法的事實(shí)??杉有允钱?dāng)然,有些事實(shí)是半加性質(zhì)的,而另外一些是非加性質(zhì)的。半加性事實(shí)僅僅沿某些維度相加,例如銷售占比,周期余額;而非加性事實(shí)根本就不能相加,例如狀態(tài)。對(duì)于非加性事實(shí),如果希望對(duì)行進(jìn)行總結(jié)就不得不使用計(jì)數(shù)或平均數(shù),或者降為一次一行地打印出全部事實(shí)行。度量事實(shí)在理論上講可以是文本形式的,不過(guò)這種情況很少出現(xiàn)。在大多數(shù)情況下,文本度量值可以是某種事物的描述并取自某個(gè)離散列表的值。設(shè)計(jì)者應(yīng)該盡各種努力將文本度量值轉(zhuǎn)換成維度,原因在于維度能夠與其他文本維度屬性更有效地關(guān)聯(lián)起來(lái),并且消耗少得多的空間。不能將冗余的文本信息存放在事實(shí)表內(nèi)。除非文本對(duì)于事實(shí)表的每行來(lái)說(shuō)都是唯一的,否則它應(yīng)該歸屬到維度表中。真正的文本事實(shí)在數(shù)據(jù)倉(cāng)庫(kù)中是很少出現(xiàn)的,文本事實(shí)具有像自由文本內(nèi)容那樣的不可預(yù)見(jiàn)性內(nèi)容,這幾乎是不可能進(jìn)行分析的。K確匹配,就可以說(shuō)這些表滿足引用完整性的要求。事實(shí)表要通過(guò)與之相連的維度表進(jìn)行存取。----宋停云與您分享--------宋停云與您分享----交易事務(wù)事實(shí);周期快照事實(shí)表用來(lái)記錄有規(guī)律的、固定時(shí)間間隔的業(yè)務(wù)累計(jì)數(shù)據(jù),通常粒度比較高,例如賬戶月平均余額事實(shí)表;累積快照事實(shí)表用來(lái)記錄具有時(shí)間跨度的業(yè)務(wù)處理過(guò)程的整個(gè)過(guò)程的信息,通常這類事實(shí)表比較少見(jiàn)。這里需要值得注意的是,在事實(shí)表的設(shè)計(jì)時(shí),一定要注意一個(gè)事實(shí)表只能有一個(gè)粒度,不能將不同粒度的事實(shí)建立在同一張事實(shí)表中。維度表維度表是事實(shí)表不可分割的部分。如圖所示,維度表包含有業(yè)務(wù)的文字描述。在一個(gè)設(shè)計(jì)合理的維度模型中,維度表有許多列或者屬性,這些屬性給出對(duì)維度表的行所進(jìn)行的描述。應(yīng)50100個(gè)屬性的情形100PK維度屬性是查詢約束條件、成組與報(bào)表標(biāo)簽生成的基本來(lái)源。在查詢與報(bào)表請(qǐng)求中,屬性----宋停云與您分享--------宋停云與您分享----用by這個(gè)單詞進(jìn)行標(biāo)識(shí)。例如,一個(gè)用戶表示要按“產(chǎn)品合約編號(hào)”與“機(jī)構(gòu)編號(hào)”來(lái)查看賬戶余額,那么“產(chǎn)品合約編號(hào)”與“機(jī)構(gòu)編號(hào)”就必須是可用的維度屬性。維度表屬性在數(shù)據(jù)倉(cāng)庫(kù)中承擔(dān)著一個(gè)重大的角色。由于它們實(shí)際上是所有令人感興趣的約束條件與報(bào)表標(biāo)簽的來(lái)源,因此成為使數(shù)據(jù)倉(cāng)庫(kù)變得易學(xué)易用的關(guān)鍵。在許多方面,數(shù)據(jù)倉(cāng)庫(kù)不過(guò)是維度屬性的體現(xiàn)而已。數(shù)據(jù)倉(cāng)庫(kù)的能力直接與維度屬性的質(zhì)量和深度成正比。在提供詳細(xì)的業(yè)務(wù)用語(yǔ)屬性方面所花的時(shí)間越多,數(shù)據(jù)倉(cāng)庫(kù)就越好。在屬性列值的給定方面所花的時(shí)間越多,數(shù)據(jù)倉(cāng)庫(kù)就越好。在保證屬性列值的質(zhì)量方面所花的時(shí)間越多,數(shù)據(jù)倉(cāng)庫(kù)就越好。維度表是進(jìn)入事實(shí)表的入口。豐富的維度屬性給出了豐富的分析切割能力。維度給用戶提供了使用數(shù)據(jù)倉(cāng)庫(kù)的接口。最好的屬性是文本的和離散的。屬性應(yīng)該是真正的文字而不應(yīng)是一些編碼簡(jiǎn)寫(xiě)符號(hào)。應(yīng)該通過(guò)用更為詳細(xì)的文本屬性取代編碼,力求最大限度地減少編碼在維度表中的使用。有時(shí)候在設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)并不能很確定,從數(shù)據(jù)源析取出的一個(gè)數(shù)字型數(shù)據(jù)字段到看字段是一個(gè)含有許多的取(Degenerate維度表和事實(shí)表的融合在理解了事實(shí)和維度表之后,現(xiàn)在就考慮將兩個(gè)組塊一起融合到維度模型中去的問(wèn)題。如圖所示,由數(shù)字型度量值組成的事實(shí)表連接到一組填滿描述屬性的維度表——這個(gè)星型特征結(jié)構(gòu)通常被叫做星型連接方案。該術(shù)語(yǔ)可以追溯到最早的關(guān)系數(shù)據(jù)庫(kù)時(shí)期。----宋停云與您分享--------宋停云與您分享----維度模型的簡(jiǎn)明性也帶來(lái)了性能上的好處。數(shù)據(jù)庫(kù)優(yōu)化器可以更高效率地處理這些連接關(guān)關(guān)于其中用到的維度方案,應(yīng)該注意的第一件事就是其簡(jiǎn)明性與對(duì)稱性。很顯然,業(yè)務(wù)用戶會(huì)因?yàn)閿?shù)據(jù)容易理解和瀏覽而從簡(jiǎn)明性方面受益。維度模型的簡(jiǎn)明性也帶來(lái)了性能上的好處。數(shù)據(jù)庫(kù)優(yōu)化器可以更高效率地處理這些連接關(guān)系較少的簡(jiǎn)單方案。數(shù)據(jù)庫(kù)引擎可以采取的非常強(qiáng)勁的做法是,首先集中對(duì)建立了充足的索引的維度表進(jìn)行約束(過(guò)濾)處理,然后用滿足用戶約束條件的維度表關(guān)鍵字的笛卡爾乘積一次性處理全部的事實(shí)表。令人驚奇的是,利用這種方法只需使用一次事實(shí)表的索引,就可以算出與事實(shí)表之間的任意n種連接結(jié)果。最后,維度模型能夠很自然地進(jìn)行擴(kuò)展以適應(yīng)變化的需要。維度模型的可預(yù)定框架能夠經(jīng)受住無(wú)法預(yù)見(jiàn)的用戶行為變化所帶來(lái)的考驗(yàn)。每個(gè)維度都是平等的,所有維度都是進(jìn)入事實(shí)表的對(duì)等入口。這個(gè)邏輯模型不存在內(nèi)置的關(guān)于某種期望的查詢形式方面的偏向,不存在這個(gè)月要問(wèn)的業(yè)務(wù)問(wèn)題相對(duì)于下個(gè)月來(lái)說(shuō)具有優(yōu)先方面的考慮。沒(méi)有誰(shuí)會(huì)希望,如果業(yè)務(wù)用戶采用新的方式進(jìn)行業(yè)務(wù)分析,就要調(diào)整設(shè)計(jì)方案這樣的事情發(fā)生。系較少的簡(jiǎn)單方案。數(shù)據(jù)庫(kù)引擎可以采取的非常強(qiáng)勁的做法是,首先集中對(duì)建立了充足的索引的維度表進(jìn)行約束(過(guò)濾)處理,然后用滿足用戶約束條件的維度表關(guān)鍵字的笛卡爾乘積一次性處理全部的事實(shí)表。令人驚奇的是,利用這種方法只需使用一次事實(shí)表的索引,就可以算出與事實(shí)表之間的任意n種連接結(jié)果。最后,維度模型能夠很自然地進(jìn)行擴(kuò)展以適應(yīng)變化的需要。維度模型的可預(yù)定框架能夠經(jīng)受住無(wú)法預(yù)見(jiàn)的用戶行為變化所帶來(lái)的考驗(yàn)。每個(gè)維度都是平等的,所有維度都是進(jìn)入事實(shí)表的對(duì)等入口。這個(gè)邏輯模型不存在內(nèi)置的關(guān)于某種期望的查詢形式方面的偏向,不存在這個(gè)月要問(wèn)的業(yè)務(wù)問(wèn)題相對(duì)于下個(gè)月來(lái)說(shuō)具有優(yōu)先方面的考慮。沒(méi)有誰(shuí)會(huì)希望,如果業(yè)務(wù)用戶采用新的方式進(jìn)行業(yè)務(wù)分析,就要調(diào)整設(shè)計(jì)方案這樣的事情發(fā)生。最佳粒度或者原子數(shù)據(jù)具有最佳的維度。被聚合起來(lái)的原子數(shù)據(jù)是最有表現(xiàn)力的數(shù)據(jù)。原----宋停云與您分享--------宋停云與您分享----子數(shù)據(jù)應(yīng)該成為每個(gè)事實(shí)表設(shè)計(jì)的基礎(chǔ),從而經(jīng)受住業(yè)務(wù)用戶無(wú)法預(yù)見(jiàn)的查詢所引起的特別攻擊。對(duì)于維度模型來(lái)說(shuō),完全可以向方案中加入新的維度,只要其值對(duì)于每個(gè)現(xiàn)有的事實(shí)行存在唯一性定義就行。同樣,可以向事實(shí)表加入新的不曾預(yù)料到的事實(shí),只要其詳細(xì)程度與現(xiàn)有事實(shí)表處在一致的水平面上就可以了??梢杂眯碌牟辉A(yù)料到的屬性補(bǔ)充先前存在的維度表,也可以從某個(gè)前向時(shí)間點(diǎn)的角度在一個(gè)更低的粒度層面上對(duì)現(xiàn)存維度行進(jìn)行分解。在每種情況SQLALTER命令來(lái)對(duì)現(xiàn)存表格進(jìn)行適當(dāng)?shù)男薷摹?shù)據(jù)用不著重新加載,所有現(xiàn)存的數(shù)據(jù)存取應(yīng)用可以繼續(xù)運(yùn)行而不會(huì)產(chǎn)生不同的結(jié)果。維度建模設(shè)計(jì)過(guò)程本文按照?qǐng)D具有一定順序的四個(gè)步驟的方式進(jìn)行維度數(shù)據(jù)庫(kù)的設(shè)計(jì)。第一步選取業(yè)務(wù)處理業(yè)務(wù)處理過(guò)程是機(jī)構(gòu)中進(jìn)行的一般都由源系統(tǒng)提供支持的自然業(yè)務(wù)活動(dòng)。聽(tīng)取用戶的意見(jiàn)是選取業(yè)務(wù)處理過(guò)程的效率最高的方式。在選取業(yè)務(wù)階段,數(shù)據(jù)模型設(shè)計(jì)者需要具有全局和發(fā)展的視角,應(yīng)該理解整體業(yè)務(wù)流程的基礎(chǔ)上,從全局角度選取業(yè)務(wù)處理。要記住的重要一點(diǎn)是,這里談到的業(yè)務(wù)處理過(guò)程并不是指業(yè)務(wù)部門或者職能。通過(guò)將注意----宋停云與您分享--------宋停云與您分享----力集中放在業(yè)務(wù)處理過(guò)程方面,而不是業(yè)務(wù)部門方面,就能在機(jī)構(gòu)范圍內(nèi)更加經(jīng)濟(jì)地提交一致的數(shù)據(jù)。如果建立的維度模型是同部門捆綁在一起的,就無(wú)法避免出現(xiàn)具有不同標(biāo)記與術(shù)語(yǔ)的數(shù)據(jù)拷貝的可能性。多重?cái)?shù)據(jù)流向單獨(dú)的維度模型,會(huì)使用戶在應(yīng)付不一致性的問(wèn)題方面顯得的開(kāi)發(fā)量,以及后續(xù)數(shù)據(jù)管理與磁盤存儲(chǔ)方面的負(fù)擔(dān)。第二步定義粒度粒度定義意味著對(duì)各事實(shí)表行實(shí)際代表的內(nèi)容給出明確的說(shuō)明。粒度傳遞了同事實(shí)表度量粒度定義是不容輕視的至關(guān)重要的步驟。在定義粒度時(shí)應(yīng)優(yōu)先考慮為業(yè)務(wù)處理獲取最有原子性的信息而開(kāi)發(fā)維度模型。原子型數(shù)據(jù)是所收集的最詳細(xì)的信息,這樣的數(shù)據(jù)不能再做更進(jìn)一步的細(xì)分。通過(guò)在最低層面上裝配數(shù)據(jù),大多原子粒度在具有多個(gè)前端的應(yīng)用場(chǎng)合顯示出其價(jià)值所在。原子型數(shù)據(jù)是高度維結(jié)構(gòu)化的。事實(shí)度量值越細(xì)微并具有原子性,就越能夠確切地知道更多的事情,所有那些確切知道的事情都轉(zhuǎn)換為維度。在這點(diǎn)上,原子型數(shù)據(jù)可以說(shuō)是維度方法的一個(gè)極佳匹配。原子型數(shù)據(jù)可為分析方面提供最大限度的靈活性,因?yàn)樗梢越邮苋魏慰赡苄问降募s束,并可以以任何可能的形式出現(xiàn)。維度模型的細(xì)節(jié)性數(shù)據(jù)是穩(wěn)如泰山的,并隨時(shí)準(zhǔn)備接受業(yè)務(wù)用戶的特殊攻擊。當(dāng)然,可以總是給業(yè)務(wù)處理定義較高層面的粒度,這種粒度表示最具有原子性的數(shù)據(jù)的聚集。不過(guò),只要選取較高層面的粒度,就意味著將自己限制到更少或者細(xì)節(jié)性可能更小的維度上了。具有較少粒度性的模型容易直接遭到深入到細(xì)節(jié)內(nèi)容的不可預(yù)見(jiàn)的用戶請(qǐng)求的攻擊。聚集概要性數(shù)據(jù)作為調(diào)整性能的一種手段起著非常重要的作用,但它絕對(duì)不能作為用戶存取最低----宋停云與您分享--------宋停云與您分享----層面的細(xì)節(jié)內(nèi)容的替代品。遺憾的是,有些權(quán)威人士在這方面一直顯得含糊不清。他們宣稱維度模型只適合于總結(jié)性數(shù)據(jù),并批評(píng)那些認(rèn)為維度建模方法可以滿足預(yù)測(cè)業(yè)務(wù)需求的看法。這樣的誤解會(huì)隨著細(xì)節(jié)性的原子型數(shù)據(jù)在維度模型中的出現(xiàn)而慢慢地消逝。第三步選定維度第四步確定事實(shí)設(shè)計(jì)過(guò)程的第四步同時(shí)也是最后一步,在于仔細(xì)確定哪些事實(shí)要在事實(shí)表中出現(xiàn)。事實(shí)的確定可以通過(guò)回答“要對(duì)什么內(nèi)容進(jìn)行評(píng)測(cè)”這個(gè)問(wèn)題來(lái)進(jìn)行。業(yè)務(wù)用戶在這些業(yè)務(wù)處理性能步中定義的粒度要求。明顯屬于不同粒度的事實(shí)必須放在單獨(dú)的事實(shí)表中。通??梢詮囊韵氯齻€(gè)角度來(lái)建立事實(shí)表:針對(duì)某個(gè)特定的行為動(dòng)作,建立一個(gè)以行為活動(dòng)最小單元為粒度的事實(shí)表。最小活動(dòng)單元的定義,依賴于分析業(yè)務(wù)需求。比如用戶的一次網(wǎng)頁(yè)點(diǎn)擊行為、一次網(wǎng)站登錄行為,一次電話通話記錄。這種事實(shí)表,主要用于從多個(gè)維度統(tǒng)計(jì),行為的發(fā)生情況,主要用于業(yè)務(wù)分布情況,績(jī)效考核比較等方面的數(shù)據(jù)分析。針對(duì)某個(gè)實(shí)體對(duì)象在當(dāng)前時(shí)間上的狀況。我們通過(guò)對(duì)這個(gè)實(shí)體對(duì)象在不同階段存儲(chǔ)它的快照,比如賬戶的余額、用戶擁有的產(chǎn)品數(shù)等,通過(guò)這種可以統(tǒng)計(jì)實(shí)體對(duì)象在不同的生命周期中的關(guān)鍵數(shù)量指標(biāo)。----宋停云與您分享--------宋停云與您分享----針對(duì)業(yè)務(wù)活動(dòng)中的重要分析和跟蹤對(duì)象,統(tǒng)計(jì)在整個(gè)企業(yè)不同業(yè)務(wù)活動(dòng)中的發(fā)生情況。比如會(huì)員,可以執(zhí)行或參與多個(gè)特定的行為活動(dòng)。這種事實(shí)表是以上兩種事實(shí)表的一個(gè)總結(jié)和歸納。它主要用于針對(duì)我們業(yè)務(wù)中的活動(dòng)對(duì)象進(jìn)行跟蹤和考察。數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)IT機(jī)構(gòu)一般都對(duì)不同業(yè)務(wù)處理過(guò)程的集成很感興趣如果針對(duì)這些業(yè)務(wù)處理分別進(jìn)行維度建模、建立數(shù)據(jù)集市,數(shù)據(jù)集市之間沒(méi)有共享公共的維度,那么就會(huì)出現(xiàn)問(wèn)題,數(shù)據(jù)集市就會(huì)變成孤立的集市,不能組合成數(shù)據(jù)倉(cāng)庫(kù),而一致----宋停云與您分享--------宋停云與您分享----性維度的提出正式為了解決這個(gè)問(wèn)題。圖給出了這種維度共享情形的邏輯表示形式.共享公共的維度對(duì)于設(shè)計(jì)可以進(jìn)行集成的數(shù)據(jù)集市來(lái)說(shuō),具有絕對(duì)的決定性作用。這樣做使得來(lái)自不同處理的性能度量值可以被組合到單個(gè)報(bào)表中去。具體的實(shí)現(xiàn)過(guò)程是,使用多通路的SQL單獨(dú)查詢各個(gè)集市,然后基于共同的維度屬性對(duì)查詢結(jié)果施加外連接。這個(gè)通常稱作交叉探查(Drill將一組分布在各處的相關(guān)業(yè)務(wù)處理成一個(gè)綜合的數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),總線結(jié)構(gòu)是最基本的要素。數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)很顯然,想一個(gè)步驟就建成企業(yè)數(shù)據(jù)倉(cāng)庫(kù)太令人望而生畏了,然而,將它分成孤立的片段進(jìn)行建造又會(huì)挫敗一致性這個(gè)壓倒一切的目標(biāo)。要使數(shù)據(jù)倉(cāng)庫(kù)能夠長(zhǎng)期地成功運(yùn)轉(zhuǎn),很需要有一種在體系結(jié)構(gòu)上可以按增量方式建造企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的方法。這里提倡使用的一種方法就是數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)。通過(guò)為數(shù)據(jù)倉(cāng)庫(kù)環(huán)境定義標(biāo)準(zhǔn)的總線接口,的數(shù)據(jù)集市就可以由不同的小組在不同的時(shí)間進(jìn)行實(shí)現(xiàn)。只要遵循這個(gè)標(biāo)準(zhǔn),的數(shù)據(jù)集市就可以插入到一起并有效地共存。所有業(yè)務(wù)處理將創(chuàng)建一個(gè)維度模型系列,這些模型共享一組綜合的具有一致性的共用維度。----宋停云與您分享--------宋停云與您分享----數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)提供了一種可用于分解企業(yè)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃任務(wù)的合理方法。在體系結(jié)構(gòu)確立階段的較短時(shí)間內(nèi),開(kāi)發(fā)團(tuán)隊(duì)設(shè)計(jì)出一整套在企業(yè)范圍內(nèi)具有統(tǒng)一解釋的標(biāo)準(zhǔn)化維度與事實(shí)。這樣,數(shù)據(jù)體系結(jié)構(gòu)的框架就建立起來(lái)了。然后,開(kāi)發(fā)團(tuán)隊(duì)可以全力以赴去實(shí)現(xiàn)嚴(yán)格依照體系結(jié)構(gòu)進(jìn)行迭代開(kāi)發(fā)的數(shù)據(jù)集市。隨著數(shù)據(jù)集市的投入使用,它們像積木塊一樣搭在了一起。在某種意義上講,需要存在足夠的數(shù)據(jù)集市才可能為集成的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)帶來(lái)美好的前景??偩€結(jié)構(gòu)使數(shù)據(jù)倉(cāng)庫(kù)管理人員獲取兩個(gè)方面的優(yōu)勢(shì)。一方面,他們有了指導(dǎo)總體設(shè)計(jì)的體一致性維度在理解了總線結(jié)構(gòu)的重要性以后,現(xiàn)在可以進(jìn)一步開(kāi)發(fā)發(fā)揮數(shù)據(jù)倉(cāng)庫(kù)總線奠基石作用的一致性標(biāo)準(zhǔn)維度了。一致性維度要么是同一的,要么是具有最佳粒度性與細(xì)節(jié)性的維度在嚴(yán)格數(shù)一致的維度具有一致的維度關(guān)鍵字、一致的屬性列名字、一致的屬性定義以及一致的屬性----宋停云與您分享--------宋停云與您分享----一致的維度以幾種不同的樣式出現(xiàn)。在最基本的層次上,一致的維度意味著與同它們相連接的每種可能的事實(shí)表具有完全相同的內(nèi)容。連接到產(chǎn)品服務(wù)簽約事實(shí)上的日期維度表與連接到產(chǎn)品服務(wù)賬戶余額事實(shí)上的日期維度表是同一的。實(shí)際上,一致的維度在數(shù)據(jù)庫(kù)范圍內(nèi)可能就是相同的物理表。不過(guò),基于對(duì)配有多種數(shù)據(jù)庫(kù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)環(huán)境的典型復(fù)雜性的考慮,維度更有可能同時(shí)在每個(gè)數(shù)據(jù)集市都存在拷貝。在其中任何一種情況下,兩個(gè)數(shù)據(jù)集市的日期維度都將具有相同數(shù)目的行、相同的關(guān)鍵字值、相同的屬性標(biāo)簽、相同的屬性定義與相同的屬性值等。同樣,也存在一致的數(shù)據(jù)內(nèi)容、數(shù)據(jù)解釋與用戶展示。一致性事實(shí)到現(xiàn)在為止,我們已經(jīng)討論了建立一致性維度以將數(shù)據(jù)集市維系在一起的中心任務(wù)。這涵蓋了數(shù)據(jù)倉(cāng)庫(kù)遷移開(kāi)發(fā)所要付出的大量工作努力,余下的努力要投入到建立一致性事實(shí)定義上。通常,像利潤(rùn)、經(jīng)濟(jì)資本、產(chǎn)品覆蓋度、客戶滿意度以及其他關(guān)鍵性指標(biāo)需要在企業(yè)級(jí)共享的度量指標(biāo),都是必須保持一致性的事實(shí)。一般地說(shuō),事實(shí)表數(shù)據(jù)并不在各個(gè)數(shù)據(jù)集市之----宋停云與您分享--------宋停云與您分享----總結(jié)本文作為維度建模綜述性文章,基于維度建模理論知識(shí)并結(jié)合某企業(yè)的維度建模實(shí)踐介紹了事實(shí)表、維度表、數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)、一致性維度、一致性事實(shí)等維度模型中的基本概念以及維度建模的設(shè)計(jì)過(guò)程。參考資料RalphKimball著,譚明金譯.《數(shù)據(jù)倉(cāng)庫(kù)工具箱:維度建模的完全指南(第二版)》,電子工業(yè)出版社,2003.星型模式之所以廣泛被使用,在于針對(duì)各個(gè)維作了大量的預(yù)處理,如按照維進(jìn)行預(yù)先的統(tǒng)計(jì)、分類、排序等。通過(guò)這些預(yù)處理,能夠極大的提升數(shù)據(jù)倉(cāng)庫(kù)的處理能力。特別是針對(duì)3NF的建模方法,星型模式在性能上占據(jù)明顯的優(yōu)勢(shì)。同時(shí),維度建模法的另外一個(gè)優(yōu)點(diǎn)是,維度建模非常直觀,緊緊圍繞著業(yè)務(wù)模型,可以直觀的反映出業(yè)務(wù)模型中的業(yè)務(wù)問(wèn)題。不需要經(jīng)過(guò)特別的抽象處理,即可以完成維度建模。這一點(diǎn)也是維度建模的優(yōu)勢(shì)。維度建模的優(yōu)點(diǎn)可以總結(jié)如下:維度建模是可預(yù)測(cè)的標(biāo)準(zhǔn)框架。允許數(shù)據(jù)庫(kù)系統(tǒng)和最終用戶查詢工具在數(shù)據(jù)方面生成強(qiáng)大的假設(shè)條件,這些數(shù)據(jù)主要在表現(xiàn)和性能方面起作用。星型連接模式的可預(yù)測(cè)框架能夠忍受不可預(yù)知的用戶行為變化。具有非常好的可擴(kuò)展性,以便容納不可預(yù)知的新數(shù)據(jù)源和新的設(shè)計(jì)決策??梢院芊奖阍诓桓淖兡P土6惹闆r下,增加新的分析維度和事實(shí),不需要重載數(shù)據(jù),也不需要為了適應(yīng)新的改變----宋停云與您分享--------宋停云與您分享----而重新編碼。較好的擴(kuò)展性意味著以前的所有應(yīng)用都可以繼續(xù)運(yùn)行,并不會(huì)產(chǎn)生不同的結(jié)果。但是,維度建模法的缺點(diǎn)也是非常明顯的,由于在構(gòu)建星型模式之前需要進(jìn)行大量的數(shù)據(jù)預(yù)處理,因此會(huì)導(dǎo)致大量的數(shù)據(jù)處理工作。而且,當(dāng)業(yè)務(wù)發(fā)生變化,需要重新進(jìn)行維度的定義時(shí),往往需要重新進(jìn)行維度數(shù)據(jù)的預(yù)處理。而在這些與處理過(guò)程中,往往會(huì)導(dǎo)致大量的數(shù)據(jù)冗余。另外一個(gè)維度建模法的缺點(diǎn)就是,如果只是依靠單純的維度建模,不能保證數(shù)據(jù)來(lái)源的一致性和準(zhǔn)確性,而且在數(shù)據(jù)倉(cāng)庫(kù)的底層,不是特別適用于維度建模的方法。事實(shí)表一般都很大,如果以普通方式查詢的話,得到結(jié)果一般發(fā)的時(shí)間都不是我們可以接受SQLServer就會(huì)對(duì)事實(shí)表進(jìn)行如預(yù)生成處理等。維度表的主鍵一般都取整型值的標(biāo)志列類型,這樣也是為了節(jié)省事實(shí)表的存儲(chǔ)空間----宋停云與您分享--------宋停云與您分享----國(guó)內(nèi)生產(chǎn)總值預(yù)測(cè)與評(píng)價(jià)(方紅供題)1992-2009年各季度國(guó)內(nèi)生產(chǎn)總值以及各年總額、20082009年三次產(chǎn)業(yè)的產(chǎn)值。根據(jù)這些統(tǒng)計(jì)數(shù)據(jù),請(qǐng)你解決下列問(wèn)題。120102011年我國(guó)各季度國(guó)內(nèi)生產(chǎn)總值以及年度生產(chǎn)總值。2201020111問(wèn)預(yù)測(cè)的數(shù)值進(jìn)行對(duì)比分析。第3問(wèn)從2008年到2009年各省三次產(chǎn)業(yè)結(jié)構(gòu)類型是否發(fā)生了改變,發(fā)生了怎樣的改變。注:解答過(guò)程要求思路清晰,步驟完整。地區(qū) 地區(qū)生產(chǎn)總地區(qū) 地區(qū)生產(chǎn)總第一產(chǎn)第二產(chǎn)第三產(chǎn) 地區(qū) 地區(qū)生值業(yè)業(yè)業(yè)值北京12153.03118.292855.559179.19北京10488天津7521.85128.853987.843405.16天津6354.河北17235.482207.348959.836068.31河北16188ft西7358.31477.593993.82886.92ft西6938.內(nèi)蒙古9740.25929.651143696.65內(nèi)蒙古7761遼寧15212.491414.97906.345891.25遼寧13461吉林7278.75980.573541.922756.26吉林6424.黑龍江85871154.334060.723371.95黑龍江831上海15046.45113.826001.788930.85上海13698江蘇34457.3226108618566.3713629.07江蘇30312浙江22990.351163.0811908.499918.78浙江21486安徽10062.821495.454905.223662.15安徽8874.福建12236.531182.746005.35048.49福建10823江西7655.181098.663919.452637.07江西6480.ft東33896.653226.6418901.8311768.18ft東31072----宋停云與您分享--------宋停云與您分享--------宋停云與您分享--------宋停云與您分享----河南19480.46河南19480.462769.0511010.55700.91河南18407湖北12961.11795.96038.085127.12湖北11330湖南13059.691969.695687.195402.81湖南11156廣東39482.562010.2719419.718052.59廣東35696廣西7759.161458.493381.542919.13廣西7171.海南1654.21462.19443.43748.59海南1459.重慶6530.01606.83448.772474.44重慶5096.四川14151.282240.616711.875198.8四川12506貴州3912.68550.271476.621885.79貴州3333陜西8169.8789.64陜西8169.8789.644236.423143.74陜西6851.甘肅3387.56497.051527.241363.27甘肅3176.青海1081.27107.4575.33398.54青海961.寧夏1353.31127.25662.32563.74寧夏1098.新疆4277.05759.741929.591587.72新疆4203.
1067.663.88
2582.53 2519.62136.63 240.85
云南 5700西藏 395.----宋停云與您分享--------宋停云與您分享----總額
就業(yè)人員單位:萬(wàn)人
能源消耗單位:萬(wàn)噸標(biāo)準(zhǔn)煤----宋停云與您分享--------宋停云與您分享----1992785559432109170199312457.860220115993199417042.961470122737199520019.362338131176199622913.668850135192199724941.169600135909199828406.269957136184199929854.770586140569200032917.771150145531200137213.573025150406200243499.973740159431200355566.674432183792200470477.475200213456200588773.6758252359972006109998.276400258676----宋停云與您分享--------宋停云與您分享----2007137323.9769902805082008172828.4774802914482009224598.877995306647按屬性分國(guó)內(nèi)生產(chǎn)總值季度統(tǒng)計(jì)地區(qū):全 國(guó)單位:億元累計(jì)值單季值1992年1季度 4974.3284974.3281992年2季度 11332.1186357.7901992年3季度 18451.4687119.3501992年4季度 26923.4778472.0091993年1季度 6500.4976500.4971993年2季度 14543.5418043.0441993年3季度 23591.5149047.9731993年4季度 35333.92511742.4101994年1季度 9064.7329064.7321994年2季度 20149.72711084.9951994年3季度 32596.64912446.9221994年4季度 48197.85615601.2071995年1季度 11858.46711858.4671995年2季度 25967.56514109.0981995年3季度 41502.55715534.9921995年4季度 60793.72919291.1721996年1季度 14261.22014261.2201996年2季度 30861.77716600.5581996年3季度 48533.06017671.2831996年4季度 71176.59222643.5321997年1季度 16256.68416256.6841997年2季度 34954.30818697.6241997年3季度 54102.36019148.0521997年4季度 78973.03524870.6751998年1季度 17501.31217501.3121998年2季度 37222.71619721.4031998年3季度 57595.24420372.5281998年4季度 84402.28026807.036----宋停云與您分享--------宋停云與您分享----1999年1季度18789.68318789.6831999年2季度39554.88120765.1971999年3季度61414.22321859.3421999年4季度89677.05528262.8322000年1季度20646.96020646.9602000年2季度43748.22023101.2602000年3季度68087.50124
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 移動(dòng)設(shè)備租賃市場(chǎng)用戶行為研究考核試卷
- 煙草生產(chǎn)線自動(dòng)化控制技術(shù)考核試卷
- 管道工程行業(yè)政策導(dǎo)向與發(fā)展趨勢(shì)考核試卷
- 船舶貨運(yùn)與物流供應(yīng)鏈整合考核試卷
- 球類產(chǎn)品智能制造與工業(yè)考核試卷
- 航空公司航班運(yùn)行數(shù)據(jù)分析考核試卷
- 清掃工具銷售與渠道拓展策略考核試卷
- 腈綸纖維制造考核試卷
- 機(jī)器人服務(wù)行業(yè)智能語(yǔ)音交互技術(shù)考核試卷
- 版權(quán)評(píng)估運(yùn)營(yíng)補(bǔ)充協(xié)議
- 華大新高考聯(lián)盟2025屆高三4月教學(xué)質(zhì)量測(cè)評(píng)化學(xué)+答案
- 2025年中國(guó)防曬護(hù)理洗發(fā)露市場(chǎng)調(diào)查研究報(bào)告
- (部編版)語(yǔ)文四年級(jí)上冊(cè)課外閱讀“天天練”100篇,附參考答案
- 靜療護(hù)理典型案例
- 中級(jí)技工防水工考核試題及答案
- 高水平環(huán)境藝術(shù)設(shè)計(jì)專業(yè)群自評(píng)報(bào)告
- 山東省鉛酸蓄電池收集和轉(zhuǎn)移管理制度試點(diǎn)工作方案
- 2022年12月大學(xué)英語(yǔ)四級(jí)考試真題及答案(第2套)
- GB/T 19203-2003復(fù)混肥料中鈣、鎂、硫含量的測(cè)定
- 中醫(yī)醫(yī)師指導(dǎo)醫(yī)術(shù)實(shí)踐活動(dòng)情況表
- (2015年第105號(hào))已使用化妝品原料名稱目錄調(diào)整內(nèi)容
評(píng)論
0/150
提交評(píng)論