![第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術_第1頁](http://file4.renrendoc.com/view/0ba9df6e872dcb7698ff6f038b1d2ff6/0ba9df6e872dcb7698ff6f038b1d2ff61.gif)
![第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術_第2頁](http://file4.renrendoc.com/view/0ba9df6e872dcb7698ff6f038b1d2ff6/0ba9df6e872dcb7698ff6f038b1d2ff62.gif)
![第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術_第3頁](http://file4.renrendoc.com/view/0ba9df6e872dcb7698ff6f038b1d2ff6/0ba9df6e872dcb7698ff6f038b1d2ff63.gif)
![第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術_第4頁](http://file4.renrendoc.com/view/0ba9df6e872dcb7698ff6f038b1d2ff6/0ba9df6e872dcb7698ff6f038b1d2ff64.gif)
![第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術_第5頁](http://file4.renrendoc.com/view/0ba9df6e872dcb7698ff6f038b1d2ff6/0ba9df6e872dcb7698ff6f038b1d2ff65.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術2023/6/5第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是數(shù)據(jù)倉庫1、需求產(chǎn)生DW使顧客滿意,不斷增加利潤,提高市場份額,這些是目前商業(yè)競爭的基本目標。利用IT可以使我們獲得成功。答案之一就是DW:公司的目標如何與信息系統(tǒng)結合;如何建立具有交叉功能的信息系統(tǒng);數(shù)據(jù)的合理組織和利用。
2第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術2、數(shù)據(jù)處理分為兩大類事務處理:DB聯(lián)機的日常操作,對一個或一組記錄的查詢和修改,為企業(yè)服務。分析型處理:用于管理人員的決策分析。例如DSS、EIS和多維分析,經(jīng)常要訪問大量的歷史數(shù)據(jù)。3第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術3、事務處理環(huán)境不適宜DSS應
用的原因事務處理和分析處理的性能特性不同數(shù)據(jù)集成問題(DSS需要集成的數(shù)據(jù))a.事務處理應用的分散;b.蜘蛛網(wǎng)問題;
c.數(shù)據(jù)不一致問題;d.外部數(shù)據(jù)和非結構化數(shù)據(jù)。
數(shù)據(jù)動態(tài)集成問題:數(shù)據(jù)必須以一定的周期進行刷新。歷史數(shù)據(jù)問題。在DB中存在大量的歷史數(shù)據(jù),沒有充分利用。
4第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術DW的主要驅動力是市場競爭要求捕獲和分析事務的業(yè)務數(shù)據(jù),必須把分析型數(shù)據(jù)從事務處理環(huán)境中提取出來;DW是為了建立這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術。4、數(shù)據(jù)綜合5第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程”—W.H.Inmon什么是建立數(shù)據(jù)倉庫 我們把建立數(shù)據(jù)倉庫看作是構造和使用數(shù)據(jù)倉庫的過程6第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的面向主題性數(shù)據(jù)倉庫是面向在數(shù)據(jù)模型中已定義好的公司的主要主題領域的,典型的例子有顧客、產(chǎn)品、銷售等數(shù)據(jù)倉庫主要關注DSS分析員的數(shù)據(jù)建模與分析,而不是集中于組織機構的日常操作和事務處理數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明的視圖7第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的集成性數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源的數(shù)據(jù)集成在一起a.異種數(shù)據(jù)源包括有關系數(shù)據(jù)庫、一般文件和聯(lián)機事務處理記錄等數(shù)據(jù)倉庫使用數(shù)據(jù)清理和數(shù)據(jù)集成技術a.數(shù)據(jù)清理和數(shù)據(jù)集成技術確保多個異種數(shù)據(jù)源中命名約定、編碼結構、屬性度量等的一致性b.當數(shù)據(jù)從操作型環(huán)境進入到數(shù)據(jù)倉庫,已經(jīng)被進行過清理和轉換8第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的時變性數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠遠長于操作型系統(tǒng)中的數(shù)據(jù)時間期限a.操作型系統(tǒng)含有“當前值”數(shù)據(jù),時間期限一般是60-90天b.數(shù)據(jù)倉庫從歷史的角度提供信息,其中的數(shù)據(jù)僅僅是一系列某一時刻生成的復雜的快照,時間期限通常是5-10年數(shù)據(jù)倉庫中的鍵碼結構a.數(shù)據(jù)倉庫中的關鍵結構,隱式或顯式地包含時間元素b.操作型系統(tǒng)的鍵碼結構可能不包括時間元素9第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫是非易失的數(shù)據(jù)倉庫總是物理地、分離存放數(shù)據(jù)數(shù)據(jù)倉庫中不進行操作型環(huán)境中的數(shù)據(jù)更新a.數(shù)據(jù)倉庫不需要事務處理、恢復和并發(fā)控制機制b.數(shù)據(jù)倉庫通常只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問10第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術怎樣建立數(shù)據(jù)倉庫
把建立數(shù)據(jù)倉庫看作是構造和使用數(shù)據(jù)倉庫的過程主題是對應某一分析領域的分析對象DW是一個用以更好地支持企業(yè)或組織的決策分析處理的、面向主題的、集成的、不可更新的、非易失的數(shù)據(jù)集合11第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術實現(xiàn)DW要做:
從不同數(shù)據(jù)來源中如何集成數(shù)據(jù)數(shù)據(jù)質量:精確和簡煉數(shù)據(jù)的概括和聚集每當數(shù)據(jù)源中創(chuàng)建了新數(shù)據(jù)時,如何保證DW和數(shù)據(jù)源的同步更新在同一臺計算機和RDB的平臺上,當DW的DB和工具共享時如何保證性能
12第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術DW中的數(shù)據(jù)組織在DW中的數(shù)據(jù)分為四個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級、高度綜合級源數(shù)據(jù)經(jīng)過綜合后,首先進入當前細節(jié)級,并根據(jù)具體需要進行進一步的綜合從而進入輕度綜合級及至高度綜合級(以DW中數(shù)據(jù)的四個基本特征為基礎)13第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術14第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術15第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫主要用于集中存放用戶需要分析的歷史數(shù)據(jù)數(shù)據(jù)倉庫的邏輯結構:
a.近期基本數(shù)據(jù)層b.歷史數(shù)據(jù)層c.綜合數(shù)據(jù)層(為決策服務)數(shù)據(jù)倉庫的物理結構:a.星型結構(一般使用)b.雪花結構16第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的特征面向主題集成性時變的非易失的17第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫中的數(shù)據(jù)分類詳細型數(shù)據(jù)過去詳細數(shù)據(jù)當前詳細數(shù)據(jù)匯總型數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)元數(shù)據(jù)18第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的主要組成部分數(shù)據(jù)源數(shù)據(jù)抽取(Extraction)、轉換(Transformation)和裝載(Load)工具。數(shù)據(jù)建模工具核心倉儲(CentralRepository)數(shù)據(jù)倉庫的目標數(shù)據(jù)庫前端數(shù)據(jù)訪問和分析工具數(shù)據(jù)倉庫管理工具19第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的主要特點數(shù)據(jù)倉庫容量可存放TB級別的數(shù)據(jù);獲得快速抽樣算法生成功能強大、容易使用的、高質量的報表;實現(xiàn)海量數(shù)據(jù)的快速查詢功能;可視化分析良好的、模塊劃的多維分析模型多維模型升級快20第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是OLAP基本概念a.變量b.維c.維的層次:d.維成員e.多維數(shù)組f.數(shù)據(jù)單元(單元格)多維分析的基本分析動作①切片(slice)②切塊(Dice)③旋轉:改變一個報告或頁面顯示的維方向通過OLAP服務器,將DB中的數(shù)據(jù)抽取和轉換為多維數(shù)據(jù)結構,以反映用戶所能理解的企業(yè)的真實的維。21第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術OLTP與OLAP的關系級比較OLTP面對操作人員和低層管理人員,OLAP面對的決策人員和高層管理人員。數(shù)據(jù)的特點:22第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術OLAP產(chǎn)品的十二條評價準則準則1OLAP模型必須提供多維概念視圖準則2透明性準則準則3存取能力準則準則4穩(wěn)定的報表性能準則5客戶/服務器體系結構準則6維的等同性準則準則7動態(tài)的稀疏矩陣處理準則準則8多用戶支持能力準則準則9非管理的跨維操作準則10直觀的數(shù)據(jù)操縱準則11靈活的報表生成準則12不受限維與聚集層次23第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術OLAP的三層客戶/服務器24第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術基于多維數(shù)據(jù)庫的OLAP實現(xiàn)
多維數(shù)據(jù)
維的層次關系和類維類維的層次和類的區(qū)別:時間序列數(shù)據(jù)類型多維DB存儲MDDB存取25第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術基于RDB的OLAP實現(xiàn)OLAP數(shù)據(jù)處理的一般過程:即數(shù)據(jù)裝入、匯總、建索引和提供使用。OLAP的特點OLAP最重要的特點是具有多維概念視圖,這也常常被稱作多維數(shù)據(jù)模型MDM,把業(yè)務過程轉為一個多維模型的過程稱為多維建模。OLAP技術主要使用的是事實表、分維表、層次、稀疏性等概念和方法。26第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫和異種DBMS數(shù)據(jù)集成的區(qū)別傳統(tǒng)的異種數(shù)據(jù)庫的數(shù)據(jù)集成:在多個異種數(shù)據(jù)庫上建立一個包裝程序和一個集成程序(或中介程序)查詢驅動的方法數(shù)據(jù)倉庫使用高效的更新驅動方法將來自多個異種數(shù)據(jù)源的信息預先集成,并儲存在數(shù)據(jù)倉庫中,供直接查詢和分析27第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術OLTP系統(tǒng)和OLAP系統(tǒng)的比較28第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術為什么需要一個分離的數(shù)據(jù)倉庫?分離的主要原因是提高兩個系統(tǒng)的性能DBMS—適用于OLTP處理:數(shù)據(jù)倉庫—適用于OLAP處理:兩種系統(tǒng)中數(shù)據(jù)的結構、內容和用法都不相同數(shù)據(jù)內容:決策支持系統(tǒng)需要歷史數(shù)據(jù),而操作數(shù)據(jù)庫一般不維護歷史數(shù)據(jù)數(shù)據(jù)的統(tǒng)一性:決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一(如聚集和匯總),產(chǎn)生高質量的集成數(shù)據(jù)數(shù)據(jù)質量:異種數(shù)據(jù)源中的數(shù)據(jù)通常具有不同的數(shù)據(jù)表示法,不同的編碼機制和格式,數(shù)據(jù)倉庫將其統(tǒng)一,能產(chǎn)生高質量的、純凈的集成數(shù)據(jù)29第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術第2章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結構數(shù)據(jù)倉庫的實現(xiàn)數(shù)據(jù)立方體技術的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘30第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,該模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式一個數(shù)據(jù)立方體,比如商店的銷售,允許以多維對數(shù)據(jù)建模和觀察例如item(item_name,brand,type),time(day,week,month,quarter,year)稱為維表,關聯(lián)維item和time事實表包括事實的名稱或度量(比如dollars_sold),以及每個相關維表的關鍵字在數(shù)據(jù)倉庫研究文獻中,存放最低層匯總數(shù)據(jù)的方體稱為基本方體。0-維方體存放最高層的匯總數(shù)據(jù),稱作頂點方體。方體的格稱為數(shù)據(jù)立方體31第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體:方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點)方體1-D方體2-D方體3-D方體4-D(基本)方體32第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫的建模:按維和度量星型模式:模式圖很像星星爆發(fā),維表圍繞事實表顯示在射線上雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,把數(shù)據(jù)進一步分解到附加的表中,形成類似于雪花的形狀事實星座:多個事實表共享維表,這種模式可以看作星型模式集,因此也可以稱為星系模式,或者事實星座33第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術星型模式的例子
time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcityprovince_or_streetcountrylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales各種度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表34第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcity_keylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales各種度量item_keyitem_namebrandtypesupplier_keyitem維表branch_keybranch_namebranch_typebranch維表supplier_keysupplier_typesupplier維表city_keycityprovince_or_streetcountrycity維表35第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術事實星座的度量time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcityprovince_or_streetcountrylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales各種度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表Shipping事實表time_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper維表36第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)挖掘查詢語言DMQL立方體定義(對應事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(對應維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊情況(共享的維表)先定義數(shù)據(jù)立方體definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>37第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術用DMQL定義星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)38第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))39第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術用DMQL定義事實星座definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales40第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術度量的分類和計算分布的:設數(shù)據(jù)被劃分為n個集合,函數(shù)在每一部分上的計算得到一個聚集值,如果將函數(shù)用于n個聚集值得到的結果,與將函數(shù)用于所有數(shù)據(jù)得到的結果一樣,則該函數(shù)可以用分布方式計算,該聚集函數(shù)是分布的E.g.,count(),sum(),min(),max().41第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術代數(shù)的:
一個聚集函數(shù)是代數(shù)的,如果它能夠由一個具有M個參數(shù)的代數(shù)函數(shù)計算(其中M是一個有界整數(shù)),而每個參數(shù)都可以用一個分布聚集函數(shù)得到E.g.,
avg(),min_N(),standard_deviation().42第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術整體的:一個聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲沒有一個常數(shù)界E.g.,median(),mode(),rank().43第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity44第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫概念分層視圖45第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術概念分層分類模式分層day<{month<quarter;week}<year集合分組分層{1..10}<inexpensive46第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術多維數(shù)據(jù)模型數(shù)據(jù)立方體sales中每格的度量可以看作是關聯(lián)Product、Region和Month的函數(shù)ProductRegionMonth涉及的維:Product,Location,Time屬性的層次結構和格結構IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay47第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體樣本全年度美國電視機的銷售量DateProductCountryAll,All,Allsumsum
TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum48第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術立方體中不同匯總級相應的方體allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(頂點)方體1-D方體2-D方體3-D(基本)方體49第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體覽圖可視化適合OLAP操作交互式操作50第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術典型的OLAP操作上卷(上鉆):數(shù)據(jù)的匯總通過一個維的概念分層向上攀升或者通過維歸約來實現(xiàn)下鉆(下卷):上卷的逆操作通過沿維的概念分層由高粒度向下下鉆到低粒度的層次或者通過引入新的維來實現(xiàn)切片和切塊:
映射和選擇
51第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術轉軸(旋轉):
轉動數(shù)據(jù)的視角,是一種目視操作,如將3-D立方轉換成2-D平面序列其他OLAP操作鉆過:涉及多個事實表的查詢鉆透:鉆到數(shù)據(jù)立方體底層,到達后端關系表(使用SQL機制)52第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術星型網(wǎng)查詢模型
ShippingMethodAIR-EXPRESSTRUCKORDERCustomerOrdersCONTRACTSCustomerProductPRODUCTGROUPPRODUCTLINEPRODUCTITEMSALESPERSONDISTRICTDIVISIONOrganizationPromotionCITYCOUNTRYREGIONLocationDAILYQTRLYANNUALYTime每個圈稱為一個腳印53第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術第2章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結構數(shù)據(jù)倉庫的實現(xiàn)數(shù)據(jù)立方體技術的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘54第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫設計:一個商務分析框架數(shù)據(jù)倉庫的設計必須考慮四種不同的視圖自頂向下視圖可以選擇數(shù)據(jù)倉庫所需的相關信息,這些信息能夠滿足當前和未來商務的需求數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲和管理的信息數(shù)據(jù)倉庫視圖包括事實表和維表,提供存放在數(shù)據(jù)倉庫內部的信息商務查詢視圖
從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)55第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫設計過程采用自頂向下方法,或者自底向上方法,或者混合方法自頂向下:由總體規(guī)劃和設計開始(成熟)自底向上:由實驗和原型開始(快速)從軟件工程的觀點看瀑布式方法:在進行下一步之前,每一步都進行結構化和系統(tǒng)的分析,像瀑布一樣從一級落到下一級螺旋式方法:涉及功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間的間隔很短,對數(shù)據(jù)集市是一個好的選擇典型的數(shù)據(jù)倉庫設計過程選取待建模的商務處理,如訂單、發(fā)票、出貨、庫存、記帳等選取商務處理的粒度(數(shù)據(jù)的原子級),如一天的快照等選取用于每個事實表的維選取將安放在事實表中的度量56第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術多層數(shù)據(jù)倉庫體系結構數(shù)據(jù)倉庫提取轉換裝入刷新OLAP服務器分析查詢報告數(shù)據(jù)挖掘監(jiān)控&匯總元數(shù)據(jù)前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫外部信息源數(shù)據(jù)源數(shù)據(jù)存儲器OLAP服務器57第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術三類數(shù)據(jù)倉庫模型企業(yè)倉庫搜集關于主題的所有信息,跨越整個組織,通常包括詳細數(shù)據(jù)和匯總數(shù)據(jù)數(shù)據(jù)集市包含對于特定用戶有用的企業(yè)范圍內數(shù)據(jù)的一個子集,通常包括的數(shù)據(jù)是匯總的。其范圍限于選定的主題,例如商場的顧客、商品和銷售獨立數(shù)據(jù)集市和依賴數(shù)據(jù)集市(數(shù)據(jù)直接來自企業(yè)倉庫)的區(qū)別虛擬倉庫操作數(shù)據(jù)庫上視圖的集合只有一些可能的匯總視圖被物化58第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫開發(fā)的推薦方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉模型提煉59第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術OLAP服務器類型關系OLAP(ROLAP)服務器使用關系或擴充關系DBMS存放和管理數(shù)據(jù)倉庫,而OLAP中間件支持其余部分多維OLAP(MOLAP)
服務器通過基于數(shù)組的多維存儲引擎,支持數(shù)據(jù)的多維視圖(采用稀疏矩陣技術)混合OLAP(HOLAP)服務器ROLAP和MOLAP技術的結合,有較大的靈活性。特殊的SQL服務器在星型和雪花模式上支持的特殊SQL查詢60第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術第2章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結構數(shù)據(jù)倉庫的實現(xiàn)數(shù)據(jù)立方體技術的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘61第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體的有效計算數(shù)據(jù)立方體可以看作是方體的格最底層的方體稱為基本方體最高層(頂點)方體只包含一個單元一個具有L層的n維數(shù)據(jù)立方體一共有多少個方體?數(shù)據(jù)立方體的物化預先計算所有方體(全物化),不預先計算(不物化),或者有選擇的物化(部分物化)物化方體的選擇考慮存儲需求量、訪問頻率和開銷、工作負荷的特點等62第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體的計算用DMQL定義和計算數(shù)據(jù)立方體definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales轉換為類似SQL的語句(使用一種新的操作符cubeby(Grayetal.’96))SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year需要計算下面的聚集子集
(date,product,customer),(date,product),(date,customer),(product,customer),(date),(product),(customer)()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)63第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術基于ROLAP的數(shù)據(jù)立方體
計算方法(1)有效率的數(shù)據(jù)立方體計算方法基于ROLAP的立方體算法(Agarwaletal’96)基于數(shù)組的立方體算法(Zhaoetal’97)自下向上的計算方法(Bayer&Ramarkrishnan’99)基于ROLAP的立方體算法排序、散列和分組操作用于維屬性,以便對相關元組重新排序和聚類在某些子聚集上分組,作為“部分分組步驟”可以由以前計算的聚集計算新的聚集,而不必由基本事實表計算64第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術基于ROLAP的數(shù)據(jù)立方體計算方法(2)基于散列、排序的方法(Agarwalet.al.
VLDB’96)挑選最小的“父方體”:從以前計算的方體中挑選最小的方體計算新的方體存儲計算結果:將方體計算結果存儲起來,用于其他方體的計算,有利于減少系統(tǒng)I/O減少掃描:同時計算盡可能多的方體,減少讀磁盤次數(shù)共享排序成本:當使用基于排序的計算方法時,合理分配多維立方體上的排序成本共享分割成本:當使用基于散列的計算方法時,合理分配多維立方體上的分割成本65第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體計算中的
多路數(shù)組聚集(1)將數(shù)組分割成塊(可以放入內存的子方)壓縮稀疏數(shù)組結構(使用chunk_id+offset尋址)通過訪問立方體單元計算聚集??梢詢?yōu)化訪問單元的次序,使得每個單元必須重復訪問的次數(shù)最小化,從而減少存儲訪問開銷和存儲開銷在多路數(shù)組聚集中,怎樣確定立方體的最佳訪問途徑?AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3CB44285640245236206066第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體計算中的
多路數(shù)組聚集(2)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B67第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體計算中的
多路數(shù)組聚集(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B68第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體計算中的
多路數(shù)組聚集(4)計算方法:數(shù)據(jù)立方體中各塊平面必須按它們的大小遞增排序和計算具體請參考P50-51例2.12主要思想:在內存中存儲具有最小面積的塊平面,而對于具有最大面積的塊平面,每次只取其中的一塊進行計算算法的局限性:只適合于具有少數(shù)維的數(shù)據(jù)立方體這種算法要計算的方體個數(shù)隨維數(shù)指數(shù)增長,為了避免維增長災難,可以嘗試使用“自底向上”計算方法和冰山方計算方法69第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術索引OLAP數(shù)據(jù):位圖索引在給定的屬性上進行索引屬性上的每個值都有一個對應的位向量:位操作比較快速位向量的長度由基本表的記錄數(shù)量決定如果基本表中給定記錄的屬性值為v,則在位圖索引的對應行,表示v的位為1,該行的其他位均為0不適合基數(shù)較大的域70第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術基本表Region位圖索引表Type位圖索引表71第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術索引OLAP數(shù)據(jù):連接索引連接索引:JI(R-id,S-id)whereR(R-id,…)S(S-id,…)傳統(tǒng)的索引將給定列上的值映射到具有該值的行表上必須物化JI中的關系連接,執(zhí)行有很大開銷的連接操作在數(shù)據(jù)倉庫的星型模式中,連接索引維護維的屬性值和事實表的對應行之間的關系E.g.具有維city和product的事實表salescity維的連接索引維護了city維表上的值與sales事實表中的相應元組的連接關系連接索引可以跨越多維72第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術OLAP查詢的有效處理確定哪些操作應當在可利用的方體上執(zhí)行這涉及將查詢中的選擇、投影、上卷(分組)和下鉆操作轉換為對應的SQL和/或OLAP操作。例如,在數(shù)據(jù)立方體上,切片(切塊)=選擇+投影確定相關操作應當使用哪些物化的方體MOLAP查詢處理最好采用二級方法:對于稠密數(shù)組使用數(shù)組結構,對于稀疏數(shù)組使用稀疏矩陣結構和數(shù)據(jù)壓縮技術。二維稠密數(shù)組可以用B樹索引73第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術元數(shù)據(jù)存儲元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù)。它包括以下類型:數(shù)據(jù)倉庫結構的描述操作元數(shù)據(jù)匯總用的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射關于系統(tǒng)性能的數(shù)據(jù)數(shù)據(jù)倉庫模式、視圖和源數(shù)據(jù)定義商務元數(shù)據(jù)包括商務術語和定義、數(shù)據(jù)擁有者信息和收費策略74第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫后端工具和實用程序數(shù)據(jù)提?。和ǔ亩鄠€異種的外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯誤,可能是訂正它們數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉換成數(shù)據(jù)倉庫格式裝入:排序、綜合、合并、計算視圖、檢查整體性,并建立索引和劃分刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新75第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術第2章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結構數(shù)據(jù)倉庫的實現(xiàn)數(shù)據(jù)立方體技術的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘76第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)立方體發(fā)現(xiàn)驅動的探查假定驅動:由用戶根據(jù)自己直覺去探查,搜索空間非常大發(fā)現(xiàn)驅動(Sarawagietal.’98)預計算的度量指出數(shù)據(jù)異常,在所有的聚集級知道用戶的數(shù)據(jù)分析過程異常:數(shù)據(jù)立方體的單元值,基于某種統(tǒng)計模型,顯著的不同于預期值可視提示(如背景色),異常指示符的計算(模型符合和計算SelfExp、InExp、PathExp度量)77第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術發(fā)現(xiàn)驅動數(shù)據(jù)立方體的例子78第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術多粒度上的復雜聚集:多特征方多特征方(Ross,etal.1998):計算復雜查詢,這些查詢涉及多粒度上多個依賴的聚集Ex.按{item,region,month}的所有子集分組,對每組找出2001年最高價格,以及所有具有最高價格的元組的總銷售額selectitem,region,month,max(price),sum(R.sales)frompurchaseswhereyear=2001cubebyitem,region,month:RsuchthatR.price=max(price)在上面的例子中,在最高價格的元組中,找出最小和最大的商品貨架壽命,并在所有最高價格的元組中,找出具有最小貨架壽命的元組的總銷售額部分79第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術第2章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術什么是數(shù)據(jù)倉庫?
多維數(shù)據(jù)模型數(shù)據(jù)倉庫的系統(tǒng)結構數(shù)據(jù)倉庫的實現(xiàn)數(shù)據(jù)立方體技術的進一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘80第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫的使用三種數(shù)據(jù)倉庫應用信息處理:支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖表或圖進行報告分析處理:支持數(shù)據(jù)倉庫的多維數(shù)據(jù)分析;支持基本的OLAP操作,包括切片和切塊、下鉆、上卷和轉軸數(shù)據(jù)挖掘從隱藏的模式中發(fā)現(xiàn)知識;支持關聯(lián),構造分析模型,進行分類和預測,并用可視化工具提供挖掘結果81第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術從聯(lián)機分析處理到聯(lián)機分析挖掘(OLAM)為什么要進行聯(lián)機分析挖掘?數(shù)據(jù)倉庫中數(shù)據(jù)的高質量數(shù)據(jù)倉庫提供集成的、一致的和清理過的數(shù)據(jù)環(huán)繞數(shù)據(jù)倉庫的有價值的信息處理基礎設施ODBC/OLEDB連接、Web訪問和服務工具以及報表和OLAP分析工具等基于OLAP的探測式數(shù)據(jù)分析采用上卷、切片、旋轉等進行挖掘數(shù)據(jù)挖掘功能的聯(lián)機選擇將多種數(shù)據(jù)挖掘功能集成在一起,并可靈活動態(tài)的變換挖掘的功能、方式、任務等OLAM的體系結構82第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術一個集成的OLAM和OLAP結構數(shù)據(jù)倉庫元數(shù)據(jù)MDDBOLAM引擎OLAP引擎用戶圖形界面API數(shù)據(jù)方API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第三層OLAP/OLAM第二層多維數(shù)據(jù)庫第一層數(shù)據(jù)存儲第四層用戶界面數(shù)據(jù)過濾和集成過濾數(shù)據(jù)庫挖掘查詢挖掘結果83第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術廣東移動計費數(shù)據(jù)倉庫及在線分析服務對歷史信息數(shù)據(jù)進行分析,得出各種信息之間的相互關系,分析不同用戶的行為特征,為移動決策提供數(shù)據(jù)依據(jù)。分析手段有:l
通過多維圖形和報表,了解業(yè)務發(fā)展情況。l
對歷史數(shù)據(jù)進行挖掘分析,發(fā)現(xiàn)用戶的行為特征。l
根據(jù)用戶的行為特征,對用戶進行分類。l
根據(jù)用戶對價格政策和優(yōu)惠政策的行為反映,優(yōu)化價格和優(yōu)惠政策。84第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術廣東移動計費數(shù)據(jù)倉庫用于集中存放用戶需要分析的歷史數(shù)據(jù)。放在數(shù)據(jù)倉庫中的數(shù)據(jù)分成兩種類型:詳細歷史信息和統(tǒng)計中間結果。其中,統(tǒng)計中間結果是業(yè)務系統(tǒng)平時在運行時生成的,中間表應能盡量齊全,具有業(yè)務運行時所關心的全部信息。85第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術深圳移動2000年7月到2001年3月的移動通話記錄以及
費用,總共有約1600,000,000條記錄,生成表如下:
86第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫建立過程數(shù)據(jù)倉庫結構分析原始數(shù)據(jù)分析數(shù)據(jù)倉庫主題確立數(shù)據(jù)倉據(jù)數(shù)據(jù)結構設計數(shù)據(jù)的抽取,轉換和導入創(chuàng)建OLAP維,級別,成員和層次87第二章數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術原始
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 腳手架租賃合同
- 四方合作合同范本
- 2025年度砍伐樹木項目環(huán)保驗收與合同執(zhí)行協(xié)議
- 鋼結構清包工合同范本
- 2025年度版學校合作協(xié)議模板:高校與地方政府合作開發(fā)協(xié)議
- 養(yǎng)殖場地租賃合同范本
- 2025年度礦山合作開采協(xié)議書:綠色礦山合作共享
- 2025年度企業(yè)財務風險防控與處置合作協(xié)議
- 2025年度旅游觀光資產(chǎn)轉讓與旅游產(chǎn)品開發(fā)合同
- 二零二五年度美容美發(fā)連鎖店加盟合作協(xié)議
- 《走進神奇》說課稿
- 江蘇省無錫市2024年中考數(shù)學試卷(含答案)
- 2024年內蒙古中考語文試卷五套合卷附答案
- 2024年保密知識測試試題及答案(奪冠)
- 湖南2024年湖南省衛(wèi)生健康委直屬事業(yè)單位招聘276人筆試歷年典型考題及考點附答案解析
- SF-36生活質量調查表(SF-36-含評分細則)
- 五年級下冊語文教案 學習雙重否定句 部編版
- 不需公證的遺囑范文
- 實驗動物與動物福利
- 南京地區(qū)幼兒園室內空氣污染物與兒童健康的相關性研究
- 2024年湖南鐵路科技職業(yè)技術學院單招職業(yè)技能測試題庫及答案解析
評論
0/150
提交評論