




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與OLAP實踐清華大學出版社1第3章 多維數(shù)據(jù)分析基礎(chǔ)與方法 3.1 多維數(shù)據(jù)分析基礎(chǔ) 3.2 多維數(shù)據(jù)分析方法 3.3 維度表與事實表的連接 3.4 多維數(shù)據(jù)的存儲方式 3.5 小結(jié) 23.1 多維數(shù)據(jù)分析基礎(chǔ)多維數(shù)據(jù)分析是以數(shù)據(jù)庫或數(shù)據(jù)倉庫為基礎(chǔ)的,其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),但兩者面對的用戶不同,數(shù)據(jù)的特點與處理也不同。多維數(shù)據(jù)分析與OLTP是兩類不同的應用,OLTP面對的是操作人員和低層管理人員,多維數(shù)據(jù)分析面對的是決策人員和高層管理人員。OLTP是對基本數(shù)據(jù)的查詢和增刪改操作,它以數(shù)據(jù)庫為基礎(chǔ),而多維數(shù)據(jù)分析更適合以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。31.
2、 多維數(shù)據(jù)集(Cube)多維數(shù)據(jù)集由于其多維的特性通常被形象地稱作立方體(Cube),多維數(shù)據(jù)集是一個數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個由一組維度和度量值定義的多維結(jié)構(gòu)。SQL Server 2000中一個多維數(shù)據(jù)集最多可包含128個維度和1024個度量值。42. 度量值(Measure)度量值是決策者所關(guān)心的具有實際意義的數(shù)值。例如,銷售量、庫存量、銀行貸款金額等。度量值所在的表稱為事實數(shù)據(jù)表,事實數(shù)據(jù)表中存放的事實數(shù)據(jù)通常包含大量的數(shù)據(jù)行。事實數(shù)據(jù)表的主要特點是包含數(shù)值數(shù)據(jù)(事實),而這些數(shù)值數(shù)據(jù)可以統(tǒng)計匯總以提供有關(guān)單位運作歷史的信息。度量值是所分析的多維數(shù)據(jù)集的核心
3、,它是最終用戶瀏覽多維數(shù)據(jù)集時重點查看的數(shù)值數(shù)據(jù)。 53. 維度(Dimension)維度(也簡稱為維)是人們觀察數(shù)據(jù)的角度。例如,企業(yè)常常關(guān)心產(chǎn)品銷售數(shù)據(jù)隨時間的變化情況,這是從時間的角度來觀察產(chǎn)品的銷售,因此時間就是一個維(時間維)。例如,銀行會給不同經(jīng)濟性質(zhì)的企業(yè)貸款,比如國有、集體等,若通過企業(yè)性質(zhì)的角度來分析貸款數(shù)據(jù),那么經(jīng)濟性質(zhì)也就成為了一個維度。 包含維度信息的表是維度表,維度表包含描述事實數(shù)據(jù)表中的事實記錄的特性。 64. 維的級別(Dimension Level)人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在不同的細節(jié)程度,我們稱這些維度的不同的細節(jié)程度為維的級別。一個維往
4、往具有多個級別.例如描述時間維時,可以從月、季度、年等不同級別來描述,那么月、季度、年等就是時間維的級別。 75. 維度成員(Dimension Member)維的一個取值稱為該維的一個維度成員(簡稱維成員)。如果一個維是多級別的,那么該維的維度成員是在不同維級別的取值的組合。例如,考慮時間維具有日、月、年這3個級別,分別在日、月、年上各取一個值組合起來,就得到了時間維的一個維成員,即“某年某月某日”。 8多維數(shù)據(jù)集示例93.2 多維數(shù)據(jù)分析方法 多維分析可以對以多維形式組織起來的數(shù)據(jù)進行上卷、下鉆、切片、切塊、旋轉(zhuǎn)等各種分析操作,以便剖析數(shù)據(jù),使分析者、決策者能從多個角度、多個側(cè)面觀察數(shù)據(jù)庫
5、中的數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。 101. 上卷(Roll-Up)上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數(shù)據(jù)。 沿著時間維上卷,由“季度”上升到半年 11上卷(續(xù))上卷的另外一種情況是通過消除一個或多個維來觀察更加概況的數(shù)據(jù)。 消除“經(jīng)濟性質(zhì)”維度 122. 下鉆(drill-down)下鉆是通過在維級別中下降或通過引入某個或某些維來更細致的觀察數(shù)據(jù)。 沿時間維下鉆 133. 切片(slice)在給定的數(shù)據(jù)立方體的一個維上進行的選擇操作。切片的結(jié)果是得到了一個二維的平面數(shù)據(jù)。 “時間1季度” 143. 切塊(dice)在給定的數(shù)
6、據(jù)立方體的兩個或多個維上進行的選擇操作。切塊的結(jié)果是得到了一個子立方體。 (度量值“正?!?or “次級”)And (時間“1季度” or “2季度”) 155轉(zhuǎn)軸(pivot or rotate)轉(zhuǎn)軸就是改變維的方向。 交換“時間”和“經(jīng)濟性質(zhì)”軸163.3 維度表與事實表的連接 維度表和事實表相互獨立,又互相關(guān)聯(lián)并構(gòu)成一個統(tǒng)一的架構(gòu)。構(gòu)建多維數(shù)據(jù)集時常用的架構(gòu):星型架構(gòu)雪花型架構(gòu)星型雪花架構(gòu)在SQL Server 2000中,這些架構(gòu)的中心都是一個事實數(shù)據(jù)表。 171. 星型架構(gòu)維度表只與事實表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)系,每個維度表中的主碼都只能是單列的,同時該主碼被放置在事實數(shù)據(jù)表
7、中,作為事實數(shù)據(jù)表與維表連接的外碼。星型架構(gòu)是以事實表為核心,其他的維度表圍繞這個核心表呈星型狀分布。 18星型架構(gòu)示意圖192雪花型架構(gòu) (Snow Schema)某個維度表不與事實表直接關(guān)聯(lián),而是與另一個維表關(guān)聯(lián)??梢赃M一步細化查看數(shù)據(jù)的粒度。維度表和與其相關(guān)聯(lián)的其他維度表也是靠外碼關(guān)聯(lián)的。也以事實數(shù)據(jù)表為核心。 20雪花型架構(gòu)示意圖213星型雪花架構(gòu)(Star-Snow Schema)將星型架構(gòu)和雪花式架構(gòu)合并在一起使用,而成為星型雪花架構(gòu)。 223.4 多維數(shù)據(jù)的存儲方式 SQL Server 2000的Analysis 三種多維數(shù)據(jù)存儲方式:MOLAP(多維OLAP)ROLAP(關(guān)系
8、OLAP)HOLAP(混合OLAP) 231ROLAPROLAP的數(shù)據(jù)與計算結(jié)果直接由原來的關(guān)系數(shù)據(jù)庫取得,存儲維度的數(shù)據(jù)以數(shù)據(jù)表形式存儲在OLAP服務器上。ROLAP將支撐多維數(shù)據(jù)的原始數(shù)據(jù)、多維數(shù)據(jù)集數(shù)據(jù)、匯總數(shù)據(jù)和維度數(shù)據(jù)都存儲在現(xiàn)有的關(guān)系數(shù)據(jù)庫中,并用獨立的關(guān)系表來存放聚集數(shù)據(jù)。不存儲源數(shù)據(jù)副本,占用的磁盤空間最少,但存取速度也比較低。 242MOLAPMOLAP使用多維數(shù)組存儲數(shù)據(jù),它是一種高性能的多維數(shù)據(jù)存儲格式。多維數(shù)據(jù)在存儲中將形成“立方體”的結(jié)構(gòu)。MOLAP存儲模式將數(shù)據(jù)與計算結(jié)果都存儲在立方體結(jié)構(gòu)中,并存儲在分析服務器上。該結(jié)構(gòu)在處理維度時創(chuàng)建。存取速度最快,查詢性能最好,
9、但占用磁盤空間較多。 253HOLAPROLAP與MOLAP存儲方式的結(jié)合。原始數(shù)據(jù)和ROLAP一樣存儲在原來的關(guān)系數(shù)據(jù)庫中,而聚合數(shù)據(jù)則以多維的形式存儲。這樣它既能與關(guān)系數(shù)據(jù)庫建立連接,同時又利用了多維數(shù)據(jù)庫的性能優(yōu)勢。缺點是在ROLAP和MOLAP系統(tǒng)之間的切換會影響它的效率。 26三種存儲方式的比較 內(nèi)容MOLAPROLAPHOLAP源數(shù)據(jù)的副本有無無占用分析服務器存儲空間大小小使用多維數(shù)據(jù)集小較大大數(shù)據(jù)查詢快慢慢聚合數(shù)據(jù)的查詢快慢快使用查詢頻度經(jīng)常不經(jīng)常經(jīng)常273.5 小結(jié)多維數(shù)據(jù)集是一個數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個由一組維度和度量值定義的多維結(jié)構(gòu)。度量值是決策者所關(guān)心
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年軟考網(wǎng)絡管理員研究試題及答案
- 山東省濟南市萊蕪區(qū)2025屆數(shù)學七下期末達標檢測試題含解析
- 會計個人工作計劃成功案例分享
- 秋季學期學生社交能力培養(yǎng)計劃
- 開展班級閱讀活動的方案計劃
- 網(wǎng)絡架構(gòu)審計的必要性及試題及答案
- 供應鏈管理優(yōu)化計劃
- 前臺文員專業(yè)知識更新計劃
- 理解網(wǎng)絡協(xié)議與試題及答案指導
- 2024年上海建橋?qū)W院輔導員考試真題
- 2023年山東省濟寧市中考歷史真題(原卷版)
- 電機控制與調(diào)速技術(shù)課件 項目四 步進電動機控制與調(diào)速技術(shù)
- 2024版保險合同法律適用與條款解釋3篇
- 【MOOC】人格與精神障礙-學做自己的心理醫(yī)生-暨南大學 中國大學慕課MOOC答案
- 外科經(jīng)典換藥術(shù)
- 2024年支氣管哮喘臨床診療指南:課件精講
- 《滑翔傘模擬器控制系統(tǒng)的設計與研究》
- 公務員考試題庫及答案4000題
- 專題04 物質(zhì)結(jié)構(gòu)與性質(zhì)-2024年高考真題和模擬題化學分類匯編(解析版)
- 林權(quán)投資合作協(xié)議范本
- 中醫(yī)康復治療技術(shù)習題+參考答案
評論
0/150
提交評論