![賈志遠(yuǎn)-21551063-第一次讀書(shū)報(bào)告_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/4984dc3d-4642-466d-bed5-ff89b636748d/4984dc3d-4642-466d-bed5-ff89b636748d1.gif)
![賈志遠(yuǎn)-21551063-第一次讀書(shū)報(bào)告_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/4984dc3d-4642-466d-bed5-ff89b636748d/4984dc3d-4642-466d-bed5-ff89b636748d2.gif)
![賈志遠(yuǎn)-21551063-第一次讀書(shū)報(bào)告_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/4984dc3d-4642-466d-bed5-ff89b636748d/4984dc3d-4642-466d-bed5-ff89b636748d3.gif)
![賈志遠(yuǎn)-21551063-第一次讀書(shū)報(bào)告_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/4984dc3d-4642-466d-bed5-ff89b636748d/4984dc3d-4642-466d-bed5-ff89b636748d4.gif)
![賈志遠(yuǎn)-21551063-第一次讀書(shū)報(bào)告_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/9/4984dc3d-4642-466d-bed5-ff89b636748d/4984dc3d-4642-466d-bed5-ff89b636748d5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 碩 士 研 究 生 讀 書(shū) 報(bào) 告題目 數(shù)據(jù)倉(cāng)庫(kù)研究 作者姓名 賈志遠(yuǎn) 作者學(xué)號(hào) 21551063 指導(dǎo)教師 貝毅君 學(xué)科專業(yè) 大數(shù)據(jù)1502 所在學(xué)院 軟件學(xué)院 提交日期 二一五年十月 The Research On Data Warehouse A Dissertation Submitted to Zhejiang University in partial fulfillment of the requirements for the degree of Master of Engineering Major Subject: Software Engineering Advisor
2、: Bei YijunByJia ZhiyuanZhejiang University, P.R. China2015摘要本文主要是探討數(shù)據(jù)倉(cāng)庫(kù)的概念、數(shù)據(jù)倉(cāng)庫(kù)的兩種模式、星型模式設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí)的步驟、星型模式對(duì)緩慢變化維的解決方式以及數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別。本文的重點(diǎn)是討論數(shù)據(jù)倉(cāng)庫(kù)解決緩慢變化維問(wèn)題,詳細(xì)分析這六種變化類型的好壞以及適用范圍,同時(shí)通過(guò)表格的形式來(lái)讓讀者清楚的了解這六種變化類型。本文還對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行對(duì)比,分析了數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì)。同時(shí)也用大量的篇幅描寫(xiě)數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),意在讓讀者能夠深入了解數(shù)據(jù)倉(cāng)庫(kù)。文中還討論了設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)步驟,為讀者自己設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)提供了方法
3、。關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù), 星型模式,緩慢變化維AbstractThe paper discusses the concept of the data warehouse, two modes of data warehouse, steps that star schema takes to design data warehouse, solutions to slowly changing dimensions and differences between data warehouse and traditional database. The article focuses on the
4、discussion about the solutions to slowly changing dimension in data warehouse, analyses the advantages and disadvantages of six types and the scope of application. At the same time, it lets the readers understand the six types by forms. The paper also compares data warehouse with traditional databas
5、e, the advantages of data warehouse are analyzed. With a lot of space to describe the characteristics of a data warehouse is intended to allow readers to understand the data warehouse. The paper also discusses the four steps of designing the data warehouse, it provides a solution to design a data wa
6、rehouse for readers.Keywords:data warehouse, star schema, slowly changing dimensions1引言隨著信息化時(shí)代的來(lái)臨,社會(huì)已處于數(shù)據(jù)爆炸的狀態(tài),普通的數(shù)據(jù)庫(kù)設(shè)計(jì)思想在海量的數(shù)據(jù)面前已經(jīng)不能快速的尋找到人們迫切需要的信息,人們希望能找到一種方式使得有用的信息能夠快速有效地顯現(xiàn)在面前,幫助人們快速?zèng)Q策,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)思想應(yīng)運(yùn)而生。數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的目的是為了讓信息更容易獲取,提高信息獲取效率,同時(shí)在推薦有效決策方面承擔(dān)最基本的角色。它是一種用以支持決策的,面向分析型數(shù)據(jù)處理的,將多個(gè)不同數(shù)據(jù)源按照主題進(jìn)行重組的,包含歷史數(shù)據(jù)
7、的數(shù)據(jù)集合。根據(jù)事實(shí)表和維度表的關(guān)系進(jìn)行分類,數(shù)據(jù)倉(cāng)庫(kù)可將常見(jiàn)模型分成兩種,一種是星型模型,它由一個(gè)事實(shí)表和一組維表組成;另一種是雪花模型,它是對(duì)星型模型的擴(kuò)展,至少有一個(gè)維表沒(méi)有直接連接到事實(shí)表上,而是通過(guò)別的維表連接到事實(shí)表上的。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)在當(dāng)今大數(shù)據(jù)時(shí)代占用重要的地位。2 數(shù)據(jù)倉(cāng)庫(kù)的介紹目前,“數(shù)據(jù)倉(cāng)庫(kù)”一詞尚沒(méi)有一個(gè)統(tǒng)一的定義。著名的數(shù)據(jù)倉(cāng)庫(kù)專家W.H.Inmon在其著作Building the Data Warehouse一書(shū)中給出了如下描述:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策1。數(shù)據(jù)倉(cāng)庫(kù)概念的可以從兩個(gè)方面來(lái)理解:一、數(shù)據(jù)倉(cāng)庫(kù)
8、用于支持決策,面向分析型數(shù)據(jù)處理,它與企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù)是不一樣的;二、數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉(cāng)庫(kù)具有以下幾個(gè)特點(diǎn):一、面向主題:操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。二、集成的:面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的2。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)
9、數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息3。三、相對(duì)穩(wěn)定的:操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但是修改和刪除操作很少,通常只需要定期的加載和刷新4。四、反映歷史變化:操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息。系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階
10、段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)5。五、數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間而變化:傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求,穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。而在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地增加新的數(shù)據(jù)內(nèi)容,同時(shí)也會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新組合。六、大容量:傳統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)會(huì)對(duì)容量有著嚴(yán)格的規(guī)定,因?yàn)閭鹘y(tǒng)數(shù)據(jù)庫(kù)的查詢需要進(jìn)行很多邏輯上的運(yùn)算與關(guān)系數(shù)據(jù)庫(kù)之間的關(guān)聯(lián),如果數(shù)據(jù)量過(guò)大就會(huì)損耗很多時(shí)間來(lái)進(jìn)行邏輯運(yùn)算和關(guān)聯(lián)各個(gè)不同的表,這樣會(huì)大大降低查詢速率。而數(shù)據(jù)倉(cāng)庫(kù)則沒(méi)有這么多的“煩惱”,它將所有需要查找的屬性組合到事實(shí)
11、表中,所有的維度表都是通過(guò)事實(shí)表進(jìn)行關(guān)聯(lián)的,這樣關(guān)聯(lián)關(guān)系變得少了,邏輯運(yùn)算的東西都算完儲(chǔ)存在事實(shí)表中,只需要通過(guò)查找就可以實(shí)時(shí)調(diào)用了,大大減少了查詢過(guò)程中的邏輯運(yùn)算和關(guān)聯(lián)表的時(shí)間,提高了查詢效率,這樣就可以存儲(chǔ)海量的歷史數(shù)據(jù)而不影響查詢效率了,而且由于數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地增加新的數(shù)據(jù)內(nèi)容,事實(shí)表中的數(shù)據(jù)會(huì)越來(lái)越多,不斷更新,而歷史數(shù)據(jù)是不會(huì)被刪除的,所以數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)容量只會(huì)越來(lái)越大。七、非規(guī)范化:在傳統(tǒng)的數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)的創(chuàng)建是不允許有冗余的,而在數(shù)據(jù)倉(cāng)庫(kù)中,幾乎必定存在冗余數(shù)據(jù),因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)將原本需要計(jì)算的數(shù)據(jù)提前計(jì)算好后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)的事實(shí)表中,減少計(jì)算所需要的時(shí)間,以空間換取時(shí)
12、間,這樣查詢數(shù)據(jù)的時(shí)候只需要遍歷就可以了,不再需要做邏輯運(yùn)算等,提高了查詢速率,同時(shí)冗余也可以保證數(shù)據(jù)的一致性。3 數(shù)據(jù)倉(cāng)庫(kù)模式數(shù)據(jù)倉(cāng)庫(kù)總共有兩種模式,它們分別是:一、星型模式;二、雪花模式。星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表和一組維表組成6。每個(gè)維表都有一個(gè)維作為主鍵,所有這些維的主鍵組合成事實(shí)表的主鍵。事實(shí)表的非主鍵屬性稱為事實(shí),它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù);而維大都是文字、時(shí)間等類型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)就可以按照不同的維(事實(shí)表主鍵的部分或全部)來(lái)對(duì)這些事實(shí)數(shù)據(jù)進(jìn)行求和、求平均、計(jì)數(shù)、百分比等的聚集計(jì)算,這樣就可以從不同的角度來(lái)分析業(yè)務(wù)主題的情況7。雪花模式
13、是類似于星型模式,只不過(guò)雪花模式的維表并不全都與事實(shí)表直接相連,而是有一部分通過(guò)別的維表與事實(shí)表關(guān)聯(lián)。雪花模式的產(chǎn)生主要是為了避免將事實(shí)表連接至大型維表,極大地增加數(shù)據(jù)存儲(chǔ)的容量,將具有層次結(jié)構(gòu)的維分解成雪花結(jié)構(gòu)可以大大減少數(shù)據(jù)存儲(chǔ)的空間。4 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)上面說(shuō)了兩種數(shù)據(jù)倉(cāng)庫(kù)的模式,下面著重討論用星型模式來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。使用星型模式來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)需要設(shè)計(jì)維度表和事實(shí)表,這兩個(gè)表各有各的特點(diǎn)。維度表的特點(diǎn)是:一、每一個(gè)維度表都分配一個(gè)代理鍵。代理鍵沒(méi)有什么特殊的意義,僅僅是為數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市創(chuàng)建的,通常表現(xiàn)為整數(shù),它是維度表的唯一標(biāo)示符。二、豐富的維度集合。維度表可以提供豐富和全面的維度屬性集
14、合,每個(gè)新增的屬性都會(huì)顯著地提高分析的可能性。三、冗余。維度表與傳統(tǒng)數(shù)據(jù)庫(kù)中的表最大的不同之處就是維度表有很多的冗余屬性,這些冗余屬性可以減少數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢時(shí)間,使數(shù)據(jù)庫(kù)管理員能夠采用索引等技術(shù)優(yōu)化系統(tǒng)性能,為高效的執(zhí)行查詢奠定基礎(chǔ),它還方便了使用者與分析型數(shù)據(jù)庫(kù)的交互,便于使用者理解,同時(shí)無(wú)論將這些維度表中的數(shù)據(jù)應(yīng)用于何處,都可以保證這些數(shù)據(jù)的一致性。事實(shí)表的特點(diǎn)是:一、事實(shí)表存儲(chǔ)描述過(guò)程的詳細(xì)度量,采用外鍵為每個(gè)度量提供維度環(huán)境,事實(shí)表中的事實(shí)通常是整型或浮點(diǎn)型十進(jìn)制數(shù)。二、獲取所有的度量。開(kāi)展維度設(shè)計(jì)時(shí),每一個(gè)事實(shí)表都描述了一個(gè)業(yè)務(wù)過(guò)程,它提供了相關(guān)度量的完整集合,即使會(huì)存在冗余,
15、這樣可以保證度量的一致性,同時(shí)也可以提高查找的效率。三、事實(shí)表?yè)碛忻鞔_的粒度,這樣可以確保對(duì)事實(shí)表中行的理解不會(huì)產(chǎn)生混肴,保證所有事實(shí)按照同樣的細(xì)節(jié)層次記錄,這需要將事實(shí)表的粒度盡可能地設(shè)置為最詳細(xì)的數(shù)據(jù)粒度級(jí)別,這樣有助于確保分析型應(yīng)用具有最大的靈活性。四、稀疏性,出現(xiàn)在事實(shí)表中的組合數(shù)量遠(yuǎn)遠(yuǎn)小于可能存在的組合數(shù)量。五、事實(shí)表可能會(huì)擁有退化維。有的時(shí)候不能將所有與業(yè)務(wù)相關(guān)的維度分類到一個(gè)緊湊的表集合中,這樣就會(huì)把一個(gè)或者多個(gè)維度存儲(chǔ)到事實(shí)表中,事實(shí)表就會(huì)擁有退化維了。維度建模也即是星型模式建模,其總共有四步:一、選取業(yè)務(wù)過(guò)程。設(shè)計(jì)星型模式的第一步是通過(guò)將對(duì)業(yè)務(wù)需求的理解與對(duì)可用數(shù)據(jù)的理解組合
16、起來(lái)而確定建模的業(yè)務(wù)處理內(nèi)容,建立的第一個(gè)維度模型應(yīng)該是一個(gè)最具有影響力的模型它應(yīng)該對(duì)最緊迫的業(yè)務(wù)問(wèn)題作出回答,并且對(duì)數(shù)據(jù)的抽取來(lái)說(shuō)是最容易訪問(wèn)的。二、定義粒度。由于原子型數(shù)據(jù)可為分析方面提供最大限度的靈活性,所以應(yīng)優(yōu)先考慮為業(yè)務(wù)處理獲取最有原子性的信息而開(kāi)發(fā)維度模型。原子型數(shù)據(jù)是所收集的最詳細(xì)信息,這樣的數(shù)據(jù)不能再做更進(jìn)一步的細(xì)分。舉個(gè)例子來(lái)說(shuō)明下,比如工廠需要統(tǒng)計(jì)年收入,這時(shí)可以設(shè)計(jì)成按年來(lái)進(jìn)行統(tǒng)計(jì),也可以按月來(lái)進(jìn)行統(tǒng)計(jì),或者按日來(lái)進(jìn)行統(tǒng)計(jì),然而一旦需求改變,變?yōu)榻y(tǒng)計(jì)日收入,那么按年和按月統(tǒng)計(jì)的方式就不可行了,而按日來(lái)統(tǒng)計(jì)的方式卻依然可行,所以設(shè)計(jì)事實(shí)表時(shí)要將粒度設(shè)計(jì)成最細(xì)的,不能更進(jìn)一步
17、細(xì)分的,這樣分析數(shù)據(jù)的時(shí)候就可以從更多的角度分析,也不會(huì)因?yàn)樾枨蟾淖兌匦略O(shè)計(jì)星型模式了。三、選定維度。一個(gè)經(jīng)過(guò)仔細(xì)考慮的粒度定義確定了事實(shí)表的基本維度特性。要是在事實(shí)表的基本粒度的基礎(chǔ)上加入其他維度,那么這些附加的維度應(yīng)該在基本維度的每個(gè)組合值方面自然地取得唯一的值。如果附加的維度因?yàn)閷?dǎo)致生成另外的事實(shí)行而違背了這個(gè)基本的粒度定義,那么必須對(duì)粒度定義進(jìn)行修改以適應(yīng)維度的情形。四、確定事實(shí)。將可能需要分析的以及題目中明確提出的問(wèn)題組合起來(lái),這些就是事實(shí),一般來(lái)說(shuō)事實(shí)都是可加的,也即是說(shuō)同一個(gè)事實(shí)中的數(shù)據(jù)相加是有意義的,當(dāng)然不排除有些百分比或者比率作為事實(shí),這些就不可加了。由于維度的屬性并不是靜
18、態(tài)不變的,而是隨著時(shí)間的流逝而緩慢變化的,這樣就需要處理緩慢變化維的問(wèn)題。緩慢變化維的解決方案有以下幾種方式8:變化類型1:當(dāng)一個(gè)維度值的源發(fā)生變化,并且不需要在星型模式中保留變化歷史時(shí),通常采用新數(shù)據(jù)來(lái)覆蓋舊數(shù)據(jù),這個(gè)方法有個(gè)前提,那就是用戶不關(guān)心這個(gè)數(shù)據(jù)的變化或者這個(gè)數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)。舉個(gè)例子來(lái)說(shuō):下表中的用戶出生日期本來(lái)應(yīng)該是1992年3月8日,但是輸入時(shí)出現(xiàn)錯(cuò)誤,這就要對(duì)數(shù)據(jù)進(jìn)行修改,需要使用變化類型1直接修改數(shù)據(jù),用新數(shù)據(jù)覆蓋舊數(shù)據(jù),而不是使用別的變化類型來(lái)解決下表發(fā)生的錯(cuò)誤。該類型變化有很多缺陷,比如:該方法產(chǎn)生的信息與先前存在的信息不一樣,在開(kāi)發(fā)報(bào)表的時(shí)候如果沒(méi)有注明執(zhí)行日期可能會(huì)
19、出現(xiàn)混亂;該方法存在不能跟蹤維度歷史的問(wèn)題。用戶ID用戶名字出生日期住址修改前114李克西8/9/1998浙大軟院用戶ID用戶名字出生日期住址修改后114李克西8/3/1992浙大軟院變化類型2:絕大多數(shù)的操作系統(tǒng)的變化采用的是保留事實(shí)的歷史環(huán)境,并插入新的維度行。 這樣用戶就能查詢到歷史情況,便于用戶對(duì)比數(shù)據(jù),從而發(fā)現(xiàn)問(wèn)題。舉個(gè)例子來(lái)說(shuō):下表中用戶搬了家,從浙大軟院搬去了上海靜安區(qū),那么就不能向上面那樣在原來(lái)的數(shù)據(jù)上進(jìn)行修改了,而是要再增加一行記錄來(lái)存儲(chǔ)信息變化。雖然多數(shù)操作系統(tǒng)都采用這種變化類型,但是它可能會(huì)給用戶帶來(lái)一些困惑,比如說(shuō):維度表中包含重復(fù)的信息怎么解決,可以通過(guò)在select
20、語(yǔ)句中包含distinct來(lái)處理;給定的某一自然鍵在維度表中有多條記錄,但不知道何時(shí)采用哪一種表示是正確的,這時(shí)候就可以引入時(shí)間戳來(lái)解決問(wèn)題。編號(hào)用戶ID用戶名字出生日期住址修改前115849114李克西8/3/1992浙大軟院編號(hào)用戶ID用戶名字出生日期住址修改后115849114李克西8/3/1992浙大軟院116748114李克西8/3/1992上海靜安區(qū)變化類型3:用不同的字段來(lái)保存不同的值,實(shí)際上就是在后面添加一個(gè)字段,這個(gè)字段用來(lái)保存變化后的當(dāng)前值,而原來(lái)的值則被稱為變化前的值,總的來(lái)說(shuō)這種方法通過(guò)添加字段來(lái)保存變化后的痕跡,但是這種方法不能像第二種方式一樣保存所有的變化記錄,它只
21、能保存不超過(guò)兩次的維度。在我看來(lái),這個(gè)變化類型就是變化類型2的衍生產(chǎn)物,實(shí)用性比變化類型2差多了,除了節(jié)約存儲(chǔ)空間外,并沒(méi)有什么用,而且對(duì)歷史的保存還有條件限制,雖然不推薦這個(gè)變化類型,但是還是舉個(gè)通俗易懂的例子來(lái)解釋下:就拿上面的例子來(lái)說(shuō),用戶的住址變成上海靜安區(qū)后,就在原來(lái)的記錄末尾添加一個(gè)字段說(shuō)明更新后的地址已經(jīng)變成上海靜安區(qū)就行了。編號(hào)用戶ID用戶名字出生日期住址修改前115849114李克西8/3/1992浙大軟院編號(hào)用戶ID用戶名字出生日期原住址現(xiàn)住址修改后115849114李克西8/3/1992浙大軟院上海靜安區(qū)變化類型4:另外建一個(gè)表來(lái)保存歷史記錄,這種方式就是將歷史數(shù)據(jù)與當(dāng)前
22、數(shù)據(jù)完全分開(kāi)來(lái),在維度中只保存當(dāng)前的數(shù)據(jù)。從實(shí)用性角度以及數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)初衷來(lái)看,這一變化類型有點(diǎn)偏離了設(shè)計(jì)初衷,也沒(méi)有什么實(shí)用性。由于它還是屬于緩慢變化維的解決方案的,所以也舉個(gè)例子來(lái)說(shuō)明一下:用戶搬家去上海靜安區(qū)了,那么他之前的那個(gè)數(shù)據(jù)記錄放到另外一個(gè)歷史數(shù)據(jù)庫(kù)中,而將現(xiàn)今的這條記錄放在維度表中。這種方法只記錄了歷史的變化痕跡,對(duì)于統(tǒng)計(jì)運(yùn)算一點(diǎn)幫助也沒(méi)有。編號(hào)用戶ID用戶名字出生日期住址維度表115849114李克西8/3/1992浙大軟院編號(hào)用戶ID用戶名字出生日期住址歷史表115849114李克西8/3/1992上海靜安區(qū)變化類型5:混合模式,也就是上述幾種類型的混合體,與上面幾種相比較
23、,這種混合模式更加全面,更能應(yīng)對(duì)錯(cuò)綜復(fù)雜而且容易變化的用戶需求,它也是較為常用的一種變化類型。舉個(gè)例子來(lái)說(shuō):將現(xiàn)今搬家的那條記錄用時(shí)間戳和標(biāo)記來(lái)做記號(hào),并且對(duì)是否是最新的信息也進(jìn)行判斷,這樣就從多個(gè)角度對(duì)信息進(jìn)行說(shuō)明了。這種方法的優(yōu)點(diǎn)是:一、能用簡(jiǎn)單的過(guò)濾條件選出維度當(dāng)前的值;二、能較容易的關(guān)聯(lián)出歷史任意一時(shí)刻事實(shí)數(shù)據(jù)的值;三、如果事實(shí)表中有時(shí)間字段,那么就能容易的選擇哪一條維度數(shù)據(jù)來(lái)進(jìn)行關(guān)聯(lián)分析了。但是這種方式也有其弊端存在,那就是事實(shí)表與維表之間不是多對(duì)一關(guān)系,而是多對(duì)多關(guān)系,這種關(guān)系不能在建模的時(shí)候解決,只能在報(bào)表層面進(jìn)行解決,需要在報(bào)表運(yùn)行時(shí)解決,并且在BI語(yǔ)意層建模時(shí)添加時(shí)間過(guò)濾條件
24、,這樣操作比較繁瑣。標(biāo)識(shí)編號(hào)用戶ID用戶名住址開(kāi)始時(shí)間結(jié)束時(shí)間是否最新1115849114李克西浙大軟院1/9/201523/4/2016否2116748114李克西上海靜安區(qū)26/4/20169/9/9999是變化類型6:非常規(guī)混合模型。就是給出一個(gè)版本號(hào)來(lái)標(biāo)識(shí)數(shù)據(jù)是否為當(dāng)前存儲(chǔ)值,如果是,那么版本號(hào)為0;如果不是,那么版本號(hào)為非0。當(dāng)插入數(shù)據(jù)的時(shí)候就會(huì)對(duì)之前的數(shù)據(jù)版本號(hào)進(jìn)行修改,沒(méi)插入一次,對(duì)應(yīng)的歷史記錄的版本號(hào)就會(huì)增加一,這樣用戶就可以通過(guò)版本號(hào)來(lái)查詢指定歷史數(shù)據(jù)。舉個(gè)例子來(lái)說(shuō):用戶之前是住在浙大軟院的,現(xiàn)在他去了上海靜安區(qū),這時(shí)候,浙大軟院的記錄就是歷史數(shù)據(jù)了,它的版本號(hào)會(huì)被改寫(xiě)成1,
25、改寫(xiě)后插入新的記錄上海靜安區(qū),這樣就保證了每次插入新的記錄的版本號(hào)都是0,歷史數(shù)據(jù)的版本號(hào)會(huì)跟著插入記錄的對(duì)應(yīng)條數(shù)而增加,方便了對(duì)歷史數(shù)據(jù)的管理。要注意的是,在事實(shí)表中插入的數(shù)據(jù)的版本號(hào)全都是0,因?yàn)樗际钱?dāng)前進(jìn)行的統(tǒng)計(jì),用戶版本會(huì)隨著用戶信息維度表中的版本號(hào)進(jìn)行改變。這樣就實(shí)現(xiàn)了事實(shí)表與維度表之間多對(duì)多關(guān)系了,同時(shí)它還有一個(gè)優(yōu)點(diǎn)就是能保證事實(shí)表與維表之間的參照完整性,只需要將版本號(hào)和用戶編號(hào)作為復(fù)合主鍵在兩實(shí)體之間建立連接就可以了。用戶信息維度表版本編號(hào)用戶ID用戶名住址開(kāi)始時(shí)間結(jié)束時(shí)間1115849114李克西浙大軟院1/9/201523/4/20160116748114李克西上海靜安區(qū)2
26、6/4/20169/9/9999購(gòu)物事實(shí)表標(biāo)識(shí)用戶外鍵用戶版本物品名個(gè)數(shù)購(gòu)買時(shí)間11167480書(shū)包1個(gè)26/4/201621167480旺仔牛奶1箱26/4/2016以上就是緩慢變化維的6種解決方法,其中推薦使用的是變化類型1、變化類型2以及變化類型6,其中變化類型1用在輸入錯(cuò)誤或者不關(guān)心的數(shù)據(jù)變化中,類型變化2和類型變化6是經(jīng)常用的兩種變化類型。5 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)比較數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)存在很多不同的地方:一、開(kāi)發(fā)方法不同9。傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域依賴一種規(guī)范的瀑布方式來(lái)進(jìn)行系統(tǒng)開(kāi)發(fā),而數(shù)據(jù)倉(cāng)庫(kù)要求以一種迂回式的、螺旋式的方法來(lái)進(jìn)行系統(tǒng)開(kāi)發(fā)。數(shù)據(jù)倉(cāng)庫(kù)最吸引人的一個(gè)方面就是最終用戶不需要長(zhǎng)時(shí)間
27、等待就能看到答案;二、事務(wù)處理完全不同。傳統(tǒng)數(shù)據(jù)庫(kù)的事務(wù)處理運(yùn)行在一個(gè)固定的基礎(chǔ)上,通常只需要2-3秒時(shí)間即可展示一個(gè)可預(yù)測(cè)的訪問(wèn)模式。與此相反,數(shù)據(jù)倉(cāng)庫(kù)的事務(wù)處理既可在短時(shí)間內(nèi)也可在長(zhǎng)時(shí)間內(nèi)運(yùn)行,并且它展示的是一個(gè)不可預(yù)測(cè)的訪問(wèn)模式;三、數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是高層的決策支持。數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是面向高層的決策支持,服務(wù)于企業(yè)內(nèi)高層的決策者、部門經(jīng)理和商務(wù)規(guī)劃人員,用戶較少,主要功能是為OLAP提供支持;而傳統(tǒng)數(shù)據(jù)庫(kù)是面向OLTP的,服務(wù)于辦事員和業(yè)務(wù)執(zhí)行人員。從傳統(tǒng)數(shù)據(jù)庫(kù)中獲得的決策是短時(shí)性的,從數(shù)據(jù)倉(cāng)庫(kù)中獲得的決策則是長(zhǎng)期性的、戰(zhàn)略性的;四、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)面向主題。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題進(jìn)行組織的
28、。主題是一個(gè)抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯意義上,它對(duì)應(yīng)于企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。面向主題的數(shù)據(jù)組織方式就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)進(jìn)行完整、一致的描述,完整統(tǒng)一地刻畫(huà)各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。傳統(tǒng)數(shù)據(jù)庫(kù)是面向應(yīng)用的,它只能按應(yīng)用的觀點(diǎn)來(lái)組織數(shù)據(jù),目的是要反映一個(gè)企業(yè)內(nèi)數(shù)據(jù)的動(dòng)態(tài)特征,便于表達(dá)每個(gè)部門的實(shí)際業(yè)務(wù)處理的數(shù)據(jù)流程。在對(duì)各部門的數(shù)據(jù)進(jìn)行詳細(xì)調(diào)查、收集時(shí),調(diào)查的重點(diǎn)是數(shù)據(jù)和處理。這樣做的主要目的是提高日常業(yè)務(wù)處理的速度和準(zhǔn)確性,提高服務(wù)質(zhì)量;五、數(shù)據(jù)倉(cāng)庫(kù)包含了歷史數(shù)據(jù)和各級(jí)匯總數(shù)據(jù)。
29、傳統(tǒng)數(shù)據(jù)庫(kù)的事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般只存儲(chǔ)短期數(shù)據(jù),且不同數(shù)據(jù)的保存期也不一樣。即使有一些歷史數(shù)據(jù)保存下來(lái)了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的。數(shù)據(jù)倉(cāng)庫(kù)的根本特征之一就是進(jìn)行長(zhǎng)時(shí)間的歷史數(shù)據(jù)存儲(chǔ),一般5-10年。這使得我們可以進(jìn)行數(shù)據(jù)的長(zhǎng)期趨勢(shì)分析,為決策者的長(zhǎng)期決策行為提供重要的支持。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)還包含了細(xì)節(jié)數(shù)據(jù)和匯總數(shù)據(jù)。一般而言,分析工具并不直接對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行分析,主要原因有二個(gè):1、細(xì)節(jié)數(shù)據(jù)量太大,會(huì)嚴(yán)重影響分析效率;2、太多的細(xì)節(jié)數(shù)據(jù)不利于分析人員把精力集中到有用的信息上。因此,在分析前,需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的匯總。匯總可以是對(duì)相同時(shí)間和類型數(shù)據(jù)的匯總,也可以是一段時(shí)間內(nèi)數(shù)據(jù)的匯總。對(duì)匯總后的數(shù)據(jù)還可以再次匯總,一直循環(huán)下去,構(gòu)成一個(gè)數(shù)據(jù)概括層次,即可以包含輕度匯總、中度匯總、高度匯總等多種層次的數(shù)據(jù)。這些匯總后的數(shù)據(jù)都以實(shí)視圖的形式存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。傳統(tǒng)數(shù)據(jù)庫(kù)不具備這種綜合能力。根據(jù)規(guī)范化理論,這種綜合還往往是因?yàn)橐环N數(shù)據(jù)冗余而被加以限制。六、查詢特點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)的操作主要是查詢。由于數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)希望分析工具能挖掘出數(shù)據(jù)的變化趨勢(shì)、關(guān)聯(lián)規(guī)則等信息,所訪問(wèn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院禮儀培訓(xùn)合同范本
- cctv檢測(cè)合同范本
- 2025年度城市公園設(shè)施日常維護(hù)合同
- 2025年度水資源監(jiān)測(cè)系統(tǒng)施工合同
- 修理學(xué)徒合同范例
- 3D打印產(chǎn)業(yè)股權(quán)居間合同
- 鎂粉系列項(xiàng)目投資環(huán)境及風(fēng)險(xiǎn)評(píng)估報(bào)告
- 塑鋼帶捆扎機(jī)行業(yè)深度研究報(bào)告
- 2025年中國(guó)溢油應(yīng)急處置船行業(yè)發(fā)展運(yùn)行現(xiàn)狀及投資潛力預(yù)測(cè)報(bào)告
- 女式羽絨運(yùn)動(dòng)服行業(yè)深度研究報(bào)告
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 毫針刺法(全)教學(xué)課件
- 金風(fēng)科技-風(fēng)電產(chǎn)業(yè)集團(tuán)-供應(yīng)商現(xiàn)場(chǎng)作業(yè)基礎(chǔ)安全考試附答案
- 公共關(guān)系學(xué)完整教學(xué)課件
- 人工智能機(jī)器人科學(xué)小報(bào)手抄報(bào)簡(jiǎn)報(bào)
- 三年級(jí)下冊(cè)美術(shù)課件-第1課 燈彩輝映|浙美版 (共19張PPT)
- 硫酸銨廢水MVR蒸發(fā)結(jié)晶
- 原子物理學(xué)第五章-多電子原子:泡利原理
- 35kV輸電線路工程旋挖鉆孔專項(xiàng)施工方案
- 固定資產(chǎn)借用登記表
- 行業(yè)會(huì)計(jì)比較ppt課件(完整版)
評(píng)論
0/150
提交評(píng)論