數據倉庫和數據挖掘的OLA技術_第1頁
數據倉庫和數據挖掘的OLA技術_第2頁
數據倉庫和數據挖掘的OLA技術_第3頁
數據倉庫和數據挖掘的OLA技術_第4頁
數據倉庫和數據挖掘的OLA技術_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫和數據挖掘的OLAP技術數據倉庫-數據挖掘的有效平臺數據倉庫中的數據清理和數據集成,是數據挖掘的重要數據預處理步驟數據倉庫提供OLAP工具,可用于不同粒度的數據分析很多數據挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識發(fā)現分類預測關聯(lián)聚集什么是數據倉庫?數據倉庫的定義很多,但卻很難有一種嚴格的定義它是一個提供決策支持功能的數據庫,它與公司的操作數據庫分開維護。為統(tǒng)一的歷史數據分析提供堅實的平臺,對信息處理提供支持數據倉庫區(qū)別于其他數據存儲系統(tǒng)“數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.”—W.H.Inmon數據倉庫關鍵特征一——面向主題面向主題,是數據倉庫顯著區(qū)別于關系數據庫系統(tǒng)的一個特征圍繞一些主題,如顧客、供應商、產品等關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理。排除對于決策無用的數據,提供特定主題的簡明視圖。數據倉庫關鍵特征二——數據集成一個數據倉庫是通過集成多個異種數據源來構造的。關系數據庫,一般文件,聯(lián)機事務處理記錄使用數據清理和數據集成技術。確保命名約定、編碼結構、屬性度量等的一致性。當數據被移到數據倉庫時,它們要經過轉化。數據倉庫關鍵特征三——隨時間而變化數據倉庫是從歷史的角度提供信息數據倉庫的時間范圍比操作數據庫系統(tǒng)要長的多。操作數據庫系統(tǒng):主要保存當前數據。數據倉庫:從歷史的角度提供信息(比如過去5-10年)數據倉庫中的每一個關鍵結構都隱式或顯式地包含時間元素,而操作數據庫中的關鍵結構可能就不包括時間元素。數據倉庫關鍵特征四——數據不易丟失盡管數據倉庫中的數據來自于操作數據庫,但他們卻是在物理上分離保存的。操作數據庫的更新操作不會出現在數據倉庫環(huán)境下。不需要事務處理,恢復,和并發(fā)控制等機制只需要兩種數據訪問:數據的初始轉載和數據訪問(讀操作)數據倉庫的構建與使用數據倉庫的構建包括一系列的數據預處理過程數據清理數據集成數據變換數據倉庫的使用熱點是商業(yè)決策行為,例如:增加客戶聚焦產品重定位尋找獲利點客戶關系管理數據倉庫與異種數據庫集成異種數據庫的集成方法傳統(tǒng)的異種數據庫集成:(查詢驅動)在多個異種數據庫上建立包裝程序(wrappers)和中介程序(mediators)查詢驅動方法——當從客戶端傳過來一個查詢時,首先使用元數據字典將查詢轉換成相應異種數據庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數據倉庫:(更新驅動)將來自多個異種源的信息預先集成,并存儲在數據倉庫中,供直接查詢和分析查詢驅動方法和更新驅動方法的比較查詢驅動的方法需要負責的信息過濾和集成處理與局部數據源上的處理競爭資源對于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅動的方法(帶來高性能)數據經預處理后單獨存儲,對聚集操作提供良好支持不影響局部數據源上的處理集成歷史信息,支持負責的多維查詢數據倉庫與與操作數據據庫系統(tǒng)操作數據庫庫系統(tǒng)的主主要任務是是聯(lián)機事務務處理OLTP日常操作:購買,,庫存,銀銀行,制造造,工資,,注冊,記記帳等數據倉庫的的主要任務務是聯(lián)機分分析處理OLAP數據分析和和決策支持持,支持以以不同的形形式顯示數數據以滿足足不同的用用戶需要OLAPVS.OLTP(1)用戶戶和和系系統(tǒng)統(tǒng)的的面面向向性性面向顧顧客((事務務)VS.面面向向市場場(分分析))數據內內容當前的的、詳詳細的的數據據VS.歷歷史的的、匯匯總的的數據據數據庫庫設計計實體--聯(lián)系系模型型(ER)和面面向應應用的的數據據庫設設計VS.星星型型/雪雪花模模型和和面向向主題題的數數據庫庫設計計OLAPVS.OLTP(2)數據視圖當前的、企企業(yè)內部的的數據VS.經經過演化的的、集成的的數據訪問模式事務操作VS.只只讀查詢詢(但很多多是復雜的的查詢)任務單位簡短的事務務VS.復雜的的查詢訪問數據量量數十個VS.數數百萬個OLAPVS.OLTP(3)用戶數數千個VS.數數百個數據庫規(guī)模模100M-數GBVS.100GB-數TB設計優(yōu)先性性高性能、高高可用性VS.高高靈活性性、端點用用戶自治度量事務吞吐量量VS.查詢吞吞吐量、響響應時間更多的區(qū)別別見教科書書P28,,表2-1為什么需要要一個分離離的數據倉倉庫?提高兩個系系統(tǒng)的性能能DBMS是是為OLTP而設計計的:存儲儲方式,索索引,并并發(fā)控制,恢復數據倉庫是是為OLAP而設計計:復雜的的OLAP查詢,多維視視圖,匯總總不同的功能能和不同的的數據:歷史數據:決策支支持需要歷歷史數據,,而這些數數據在操作作數據庫中中一般不會會去維護數據匯總::決策支持持需要將來來自異種源源的數據統(tǒng)統(tǒng)一(如聚聚集和匯總總)數據質量:不同的的源使用不不一致的數數據表示、、編碼和格格式,對這這些數據進進行有效的的分析需要要將他們轉轉化后進行行集成多維數據模模型(1)數據倉庫和和OLAP工具基于于多維數據據模型在多維數據據模型中,,數據以數數據立方體體(datacube)的的形式存在在數據立方體體允許以多維維數據建模模和觀察。。它由維和事實定義維是關于一個個組織想要要記錄的視視角或觀點點。每個維維都有一個個表與之相相關聯(lián),稱稱為維表。多維數據模模型圍繞中中心主題組組織,該主主題用事實表表示事實表包括事實的的名稱或度度量以及每每個相關維維表的關鍵鍵字事實指的是一些些數字度量量多維數據模模型(2)———示例time_keydayday_of_the_weekmonthquarteryeartime維維表location_keystreetcitystate_or_provincecountrylocation事事實表Sales事實表表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維維表branch_keybranch_namebranch_typebranch維表表多維數據模模型(3)在數據倉庫庫中,數據據立方體是是n-D的的(n維))(關系表和和電子表格格是幾維的的?)示例AllElectronics的銷售售數據按維維time,item的2-D視圖圖(P30,表表2-2)AllElectronics的銷售售數據按維維time,item和location的的3-D視視圖(P30,表表2-3)AllElectronics的銷售售數據按維維time,item和location的的3-D視視圖的3-D數據立立方體表示示(P31,圖圖2-1)銷售數據的的4-D立立方體表示示(P31,圖圖2-2)多維數據模模型為不同同角度上的的數據建模模和觀察提提供了一個個良好的基基礎多維數據模模型(4)在數據倉庫的的研究文獻中中,一個n維維的數據的立立方體叫做基本方體。給定一個維維的集合,我我們可以構造造一個方體的格,每個都在不不同的匯總級級或不同的數數據子集顯示示數據,方體體的格稱為數據立方體。0維方體存存放最高層的的匯總,稱作作頂點方體;而存放最底底層匯總的方方體則稱為基本方體。數據立方體———一個方體體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點點)方體1-D方體2-D方體體3-D方體體4-D(基本本)方體數據倉庫的概概念模型最流行的數據據倉庫概念模模型是多維數數據模型。這這種模型可以以以星型模式式、雪花模式式、或事實星星座模式的形形式存在。星型模式(Starschema):事實實表在中心,,周圍圍繞地地連接著維表表(每維一個個),事實表表含有大量數數據,沒有冗冗余。雪花模式(Snowflakeschema):是是星型模式的的變種,其中中某些維表是是規(guī)范化的,,因而把數據據進一步分解解到附加表中中。結果,模模式圖形成類類似于雪花的的形狀。事實星座(Factconstellations):多個事實實表共享維表表,這種模模式可以看作作星型模式集集,因此稱為為星系模式((galaxyschema),,或者事實星星座(factconstellation)星型模式實例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式實例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事實星座模式式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一種數據挖掘掘查詢語言:DMQLDMQL首先先包括定義數數據倉庫和數數據集市的語語言原語,這這包括兩種原原語定義:一一種是立方體體定義,一種種是維定義立方體定義(事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的的定義)第一次作為維維表定義““cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>實例例::使使用用DMQL定定義義星星型型模模式式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)實例::使用用DMQL定義義雪花花模式式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))實例:使用用DMQL定義事實實星座模式式definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales度量的分分類一個數據立方方體的度量是是一個數值函數,該函數數可以對數據據立方體的每每一個點求值值。(剛才的示例中中用的是什么么函數?)度量可以根據據其所用的聚聚集函數分為為三類:分布的(distributive):將函數數用于n個聚聚集值得到的的結果和將函函數用于所有有數據得到的的結果一樣。。比如:count(),,sum(),min(),max()等代數的(algebraic):函函數可以由一一個帶M個參參數的代數函函數計算(M為有界整數數),而每個個參數值都可可以有一個分分布的聚集函函數求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述述函數的子聚聚集所需的存存儲沒有一個個常數界。比如:median(),mode(),rank()5-6王燦數據挖掘0703004概念分層(1)一個概念分層層(concepthierarchy)定定義一個映射射序列,將低低層概念映射射到更一般的的高層概念E.g.表表示location的的概念:杭州州浙江中國國亞洲概念分層允許許我們在各種種抽象級審查查和處理數據據概念分層可以以由系統(tǒng)用戶戶、領域專家家、知識工程程師人工的提提供,也可以以根據數據分分布的統(tǒng)計分分析自動的產產生概念分層(2):location維的一一個概念分層層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層層的定義隱含含在數據庫的的模式中。比比如:location維的定義,,office<city<country<region;這些屬屬性按一個個全序相關,,形成一個層層次結構:yeardayquartermonthweek維的屬性也可可以組成一個個偏序,形成成一個格:概念分層(3)———使用概念分層為不不同級別上的的數據匯總提提供了一個良良好的基礎綜合概念分層層和多維數據據模型的潛力力,可以對數數據獲得更深深入的洞察力力通過在多維數數據模型中,,在不同的維維上定義概念念分層,使得得用戶在不同同的維上從不不同的層次對對數據進行觀觀察成為可能能。多維數據模型型(數據立方方體)使得從從不同的角度度對數據進行行觀察成為可可能,而概念念分層則提供供了從不同層層次對數據進進行觀察的能能力;結合這這兩者的特征征,我們可以以在多維數據據模型上定義義各種OLAP操作,為為用戶從不同同角度不同層層次觀察數據據提供了靈活活性:多維數據模型型上的OLAP操作(1)上卷(roll-up):匯總數據據通過一個維的的概念分層向向上攀升或者者通過維規(guī)約約當用維歸約進進行上卷時,,一個或多個個維由給定的的數據立方體體刪除下鉆(drill-down):上上卷的逆操作作由不太詳細的的數據到更詳詳細的數據,,可以通過沿沿維的概念分分層向下或引引入新的維來來實現(為為給定數據添添加更多細節(jié)節(jié))切片和切塊(sliceanddice)切片操作在給給定的數據立立方體的一個個維上進行選選擇,導致一一個子方切塊操作通過過對兩個或多多個維進行選選擇,定義子子方P40圖2-10多維數數據模模型上上的OLAP操操作(2)轉軸(pivot)立方體體的重重定位位,可可視化化,或或將一一個3維立立方體體轉化化為一一個2維平平面序序列轉軸是是一種種可視化化操作,,通過過轉動動當前前數據據的視視圖來來提供供一個個數據據的替替代表表示其他OLAP操操作鉆過(drill_across)::執(zhí)行行涉及及多個個事實實表的的查詢詢鉆透(drill_through):使使用關關系SQL機制制,鉆鉆到數數據立立方體體的底底層,,到后后端關關系表表其他OLAP操操作可可能包包括列列出表表中最最高或或最低低的N項,,以及及計算算移動動平均均值、、增長長率、、利潤潤、統(tǒng)統(tǒng)計函函數等等等P40圖圖2-10數據倉庫庫設計::一個商商務分析析框架(1)數據倉庫庫給商業(yè)業(yè)分析專專家提供供了什么么?通過提供供相關數數據與信信息,獲獲得競爭爭優(yōu)勢通過有效效的收集集精確的的描述組組織的數數據,獲獲得生產產力的提提高通過提供供不同級級別(部部門、市市場、商商業(yè))的的客戶視視圖,協(xié)協(xié)助客戶戶關系管管理通過追蹤蹤長期趨趨勢、異異常等,,降低成成本有效構建建數據倉倉庫的關關鍵:理理解和分分析商業(yè)業(yè)需求通過提供供一個商商業(yè)分析析框架,,綜合各各種不同同的數據據使用者者的視圖圖數據倉庫庫設計::一個商商務分析析框架(2)數據倉庫庫設計的的四種視視圖自頂向下下視圖允許我們們選擇數數據倉庫庫所需的的相關信信息數據源視視圖揭示被操操作數據據庫系統(tǒng)統(tǒng)所捕獲獲、存儲儲和管理理的信息息數據倉庫庫視圖由事實表表和維表表所組成成商務查詢詢視圖從最終用用戶的角角度透視視數據倉倉庫中的的數據數據倉庫庫設計::一個商商務分析析框架(3)數據倉庫庫的構建建與使用用涉及多多種技能能商業(yè)技能能理解系統(tǒng)統(tǒng)如何存存儲和管管理數據據數據如何何提取數據如何何刷新技術方面面的技能能如何通過過使用各各種數據據或量化化的信息息,到處處可以提提供決策策支持的的模式、、趨勢、、判斷等等如何通過審審查歷史數數據,分析析發(fā)展趨勢勢等計劃管理技技能如何通過與與不同的技技術、廠商商、用戶交交互,來及及時、有效效、經濟的的提交結果果數據倉庫的的設計過程程(1)自頂向下法法、自底向向上法或者者兩者的混混合方法自頂向下法法:由總體體設計和規(guī)規(guī)劃開始在技術成熟熟、商業(yè)理理解透徹的的情況下使使用自底向上法法:以實驗驗和原型開開始常用在模型型和技術開開發(fā)的初期期,可以有有效的對使使用的技術術和模型進進行評估,,降低風險險混合方法::上述兩者者的結合從軟件過程程的觀點瀑布式方法法:在進行行下一步前前,每一步步都進行結結構化和系系統(tǒng)的分析析螺旋式方法法:功能漸漸增的系統(tǒng)統(tǒng)的快速產產生,相繼繼版本之間間間隔很短短數據倉庫的的設計過程程(2)典型的數據據倉庫設計計過程選取待建模模的商務過程找到所構建建的數據倉倉庫的主題題,比如::銷售、貨貨運、訂單單等等選取商務過過程的顆粒度數據起始于于多細的顆顆粒度,比比如:記錄錄每條詳細細訂單,或或是開始于于每日的匯匯總數據選取用于每每個事實表表記錄的維常用的維有有:時間、、貨物、客客戶、供應應商等選取將安放放在事實表表中的度量常用的數字字度量包括括:售價、、貨物數量量等三層數據倉倉庫架構(1)數據倉庫提取清理轉換裝入刷新OLAP服服務器查詢報告分析數據挖掘監(jiān)控、整合元數據存儲數據源前端工具輸出數據集市操作數據庫其他外部信息源數據倉庫服服務器OLAP服服務器三層數據倉倉庫架構(2)底層:數據據倉庫的數數據庫服務務器關注的問題題:如何從從這一層提提取數據來來構建數據據倉庫(通通過Gateway(ODBC,JDBC,OLE/DB等)來來提?。┲虚g層:OLAP服服務器關注的問題題:OLAP服務器器如何實施施(關系型型OLAP,多維OLAP等等)前端客戶工工具層關注的問題題:查詢工工具、報表表工具、分分析工具、、挖掘工具具等三種數據倉倉庫模型從體系結構構的角度去去看,數據據倉庫模型型可以有以以下三種::企業(yè)倉庫搜集關于跨跨越整個組組織的主題題的所有信信息數據集市企業(yè)范圍圍數據的的一個子子集,對對于特定定的客戶戶是有用用的。其其范圍限限于選定定的主題題,比如如一個商商場的數數據集市市獨立的數數據集市市VS.非非獨立的的數據集集市(數數據來自自于企業(yè)業(yè)數據倉倉庫)虛擬倉庫庫操作數據據庫上的的一系列列視圖只有一些些可能的的匯總視視圖被物物化數據倉庫庫開發(fā)::困難與與方法數據倉庫庫開發(fā)上上的困難難自頂向下下的開發(fā)發(fā)方法從從全系統(tǒng)統(tǒng)的角度度提供解解決方案案,使得得(模塊塊)集成成的問題題最?。唬坏窃撛摲椒ㄊ职嘿F貴,需要要對組織織進行長長期研究究和建模模分析。。自底向上上方法提提供了更更多的開開發(fā)靈活活性,價價格便宜宜;但往往往會遇遇到集成成問題((每個模模塊單獨獨運行都都沒有問問題,但但是一集集成就出出異常))解決方法法:使用遞增增性、演演化性的的開發(fā)方方法高層數據據模型企業(yè)倉庫庫和數據據集市并并行開發(fā)發(fā)通過分布布式模型型集成各各數據集集市多層數據據倉庫數據倉庫庫開發(fā)———一個個推薦的的方法定義高層層數據模模型數據集市市數據集市市分布式數數據集市市多層數據據倉庫企業(yè)數據據倉庫模型提煉煉模型提煉煉OLAP服務器器類型(1)邏輯上,,OLAP服務務器從數數據倉庫庫或數據據集市中中給商業(yè)業(yè)用戶提提供多維維數據物理上,,OLAP的底底層數據據存儲實實現可以以有多種種不同的的方式關系OLAP服服務器(ROLAP)使用關系系數據庫庫或擴展展的關系系數據庫庫存放并并管理數數據倉庫庫的數據據,而用用OLAP中間間件支持持其余部部分包括每個個DBMS后端端優(yōu)化,,聚集導導航邏輯輯的實現現,附加加的工具具和服務務較大的可可擴展性性OLAP服務器器類型(2)多維OLAP服服務器(MOLAP)基于數組組的多維維存儲引引擎(稀稀疏矩陣陣技術))能對預計計算的匯匯總數據據快速索索引混合OLAP服服務器(HOLAP)結合上述述兩種技技術,更更大的使使用靈活活性特殊的SQL服服務器在星型和和雪花模模型上支支持SQL查詢詢數據倉庫庫的實現現———數據據立方體體的有效效計算數據倉庫庫中的OLAP查詢是是一種海海量數據據計算((想象象一下對對過去10年各各地區(qū)的的軟件產產品銷售售的匯總總查詢))用戶卻希希望這個個計算能能在數秒秒鐘內完完成解決方法法在于給給出一種種有效的的計算數數據立方方體的方方法數據立方方體可以以被看成成是一個個方體的格格最底層的的方體是是基本方方體最頂端的的方體((頂點))只包含含一個單單元的值值一個n維維的數據據立方體體,每維維L層,,可能產產生的方方體總數數是多少少?(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方體的操操作DMQL中的方方體定義義和計算算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子子句可以以轉化為為一個類類似于SQL的的語句SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year這個相當當于SQL中以以下的groupby子句句(item,city,year)–3D(item,city),(itemyear),(city,year)—2D(item),(city),(year)—1D()--0D(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)數據立方方體的物物化數據立方方體的物化可以有以以下三種種選擇::全物化預先計算算所有方方體不物化不預先計計算任何何“非基基本”方方體部分物化化有選擇的的計算一一個所有有方體的的適當子子集考慮因素素:(1)確定要物物化的方方體;(2)在在查詢時時利用物物化的方方體;(3)在在裝載和和刷新時時,有效效的更新新物化的的方體確定定物物化化哪哪些些方方體體考慮慮工工作作負負荷荷下下的的查查詢詢、、它它們們的的頻頻率率和和它它們們的的開開銷銷等等等等方體體計計算算::ROLAPvs.MOLAP方體體計計算算的的挑挑戰(zhàn)戰(zhàn)::海量量數數據據,,有有限限的的內內存存和和時時間間基于于ROLAP的的方方法法((底底層層使使用用關關系系模模型型存存儲儲數數據據))將排排序序、、散散列列(hashing)和和分分組組操操作作應應用用于于維維的的屬屬性性,,以以便便對對相相關關元元組組重重新新排排序序和和聚聚類類在某某些些子子聚聚集集上上分分組組,,作作為為““部部分分分分組組步步驟驟””。??梢砸杂捎梢砸郧扒坝嬘嬎闼愕牡木劬奂嬘嬎闼阈滦碌牡木劬奂?,,而而不不必必有有基基本本事事實實表表計計算算基于于MOLAP方方法法((底底層層使使用用多多維維數數組組存存儲儲數數據據))多路路數數組組聚聚集集的的計計算算方方法法將數數組組切切成成塊塊((每每個個塊塊都都可可以以整整個個裝裝入入內內存存))通過過訪訪問問各各個個塊塊來來計計算算匯匯總總值值方體體計計算算的的多多路路數數組組聚聚集集方方法法(1)將數數組組分分成成塊塊((chunk,一一個個可可以以裝裝入入內內存存的的小小子子方方))通過過訪訪問問立立方方體體單單元元,,計計算算聚聚集集。??煽梢砸詢?yōu)優(yōu)化化訪訪問問單單元元組組的的次次序序,,使使得得每每個個單單元元被被訪訪問問的的次次數數最最小小化化,,從從而而減減少少內內存存訪訪問問和和磁磁盤盤I/O的的開開銷銷。。A(month)40個個值值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個個值值B(city)400個個值值442856402452362060哪個是是多路路數組組聚集集的最最佳遍遍歷次次序??方體計計算的的多路路數組組聚集集方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400方體計計算的的多路路數組組聚集集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計算算的多路路數組聚聚集方法法(4)方法:各各平面要要按他們們大小的的升序排排列進行行排序和和計算詳見書P50例例2.12(P52圖圖2-16有有誤)思想:將將最小的的平面放放在內存存中,對對最大的的平面每每次只是是取并計計算一塊塊方體計算算的多路路數組聚聚集方法法(5)根據1到到64的的掃描次次序,在在塊內存存中保存存所有相相關的2-D平平面所需需的最小小存儲為為:40×400((用于整整個AB平面))+40×1000((用于AC平面面一行))+100×1000(用于于BC平平面一塊塊)=156,,000這種方法法的限制制:只有有在維數數比較小小的情況況下,效效果才比比較理想想(要計計算的立立方體隨隨維數指指數增長長)如果維的的數目比比較多,,可以考考慮使用用“自底底向上的的計算””或者時時“冰山山方體””計算算OLAP查詢的的有效處處理確定哪些些操作應應當在可可利用的的方體上上執(zhí)行::將查詢中中的選擇擇、投影影、上卷卷和下鉆鉆等操作作轉化為為對應的的SQL或/和和OLAP操作作,如::dice=selection+projection確定相關關操作應應當使用用哪些物物化的方方體找尋MOLAP中可以以利用的的索引結結構以及及壓縮的的或是稠稠密的數數組結構構有效處理理OLAP查詢詢(示例例)立方體的的定義為為:sales[time,item,location]:sum(sales_in_dollar)time的維層層次day<week<month<quater<yearlocation的維維層次street<city<province_or_state<countryitem的維層層次item_name<brand<type現在要處處理一個個year=2000,定位位在brand和province_or_state級別的的查詢,,現有四四個可用用的已經經物化的的方體::{item_name,city,year}{brand,country,year}{brand,province_or_state,year}{

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論