版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第3章 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)2022/7/271數(shù)據(jù)挖掘:概念與技術(shù)第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)現(xiàn)數(shù)據(jù)立方體的進(jìn)一步發(fā)展從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘2什么是數(shù)據(jù)倉庫?有不同的方法定義, 但不是嚴(yán)格的.是一個(gè)決策支持?jǐn)?shù)據(jù)庫, 它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)數(shù)據(jù)倉庫系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起, 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái), 支持信息處理.W. H. Inmon的定義: 數(shù)據(jù)倉庫是 面向主題的(subject-oriented), 集成的(integrated), 時(shí)變的(time-variant), 和非易失的(
2、 nonvolatile) 數(shù)據(jù)集合, 支持管理決策過程建立數(shù)據(jù)倉庫(Data warehousing):構(gòu)造和使用數(shù)據(jù)倉庫的過程3數(shù)據(jù)倉庫面向主題的圍繞重要的主題( 如顧客、產(chǎn)品、銷售等) 組織.關(guān)注決策制定者的數(shù)據(jù)建模與分析, 而不是日常的操作和事務(wù)處理.數(shù)據(jù)倉庫排除對(duì)于決策過程無用的數(shù)據(jù), 提供特定主題的簡(jiǎn)明視圖.4數(shù)據(jù)倉庫 集成的通過將多個(gè)異種的數(shù)據(jù)源集成在一起, 而構(gòu)造比如,關(guān)系數(shù)據(jù)庫, 一般文件, 聯(lián)機(jī)事務(wù)記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù).確保命名約定, 編碼結(jié)構(gòu), 屬性度量等的一致性例如, 飯店價(jià)格: 貨幣種類, 稅, 是否含早餐, 等.當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉庫時(shí), 數(shù)據(jù)將被轉(zhuǎn)換. 5數(shù)
3、據(jù)倉庫 時(shí)變的數(shù)據(jù)倉庫的時(shí)間跨度顯著地比操作數(shù)據(jù)庫長(zhǎng).操作數(shù)據(jù)庫數(shù)據(jù): 當(dāng)前值數(shù)據(jù).數(shù)據(jù)倉庫數(shù)據(jù): 從歷史的角度提供數(shù)據(jù) (例如, 過去 5-10 年)數(shù)據(jù)倉庫中的每個(gè)鍵結(jié)構(gòu)顯式或隱式地包含時(shí)間元素,但是, 操作數(shù)據(jù)的鍵可能包含, 也可能不包含“時(shí)間元素”.6數(shù)據(jù)倉庫 非易失的從操作環(huán)境轉(zhuǎn)換過來的數(shù)據(jù)物理地分離存放.數(shù)據(jù)的更新不在數(shù)據(jù)倉庫環(huán)境中出現(xiàn).不需要事務(wù)處理, 恢復(fù), 和并發(fā)控制機(jī)制只需要兩種數(shù)據(jù)存取操作: 數(shù)據(jù)的初始化裝入 和 數(shù)據(jù)訪問.7數(shù)據(jù)倉庫和異種DBMS傳統(tǒng)的異種數(shù)據(jù)庫集成: 在異種數(shù)據(jù)庫上建立一個(gè)包裝程序(wrappers)或中介程序(/mediators)查詢驅(qū)動(dòng)的方法當(dāng)查
4、詢提交給一個(gè)站點(diǎn)時(shí), 使用元數(shù)據(jù)詞典將查詢轉(zhuǎn)換成所涉及的異構(gòu)站點(diǎn)上的相應(yīng)查詢, 查詢的結(jié)果被集成為一個(gè)全局回答的集合 需要:復(fù)雜的信息過濾, 對(duì)資源的競(jìng)爭(zhēng)數(shù)據(jù)倉庫: 更新驅(qū)動(dòng)的, 高性能來自異種信息源的數(shù)據(jù)被預(yù)先集成并存儲(chǔ)在數(shù)據(jù)倉庫中, 直接用于查詢和分析8數(shù)據(jù)倉庫VS.操作數(shù)據(jù)庫OLTP (on-line transaction processing, 聯(lián)機(jī)事務(wù)處理)傳統(tǒng)關(guān)系 DBMS的主要任務(wù)涵蓋日常操作: 購(gòu)買, 庫存, 銀行, 制造, 工資單, 注冊(cè), 記帳, 等.OLAP (on-line analytical processing, 聯(lián)機(jī)分析處理)數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決
5、策制定上提供服務(wù)不同的特點(diǎn) (OLTP vs. OLAP):用戶和系統(tǒng)的面向性: 顧客 vs. 市場(chǎng)數(shù)據(jù)內(nèi)容: 當(dāng)前的, 細(xì)節(jié)的 vs. 歷史的, 合并的數(shù)據(jù)庫設(shè)計(jì): ER + 應(yīng)用 vs. 星型 + 主題視圖: 當(dāng)前的, 局部的 vs. 進(jìn)化的, 集成的訪問模式: 更新 vs. 只讀的, 但是復(fù)雜的查詢9OLTP vs. OLAP10為什么建立分離的數(shù)據(jù)倉庫?為了兩個(gè)系統(tǒng)的高性能DBMS 目的是 OLTP: 存取方法, 索引, 并發(fā)控制, 恢復(fù)數(shù)據(jù)倉庫目的是 OLAP: 復(fù)雜的 OLAP 查詢, 多維視圖, 統(tǒng)一.不同的功能和不同的數(shù)據(jù):缺少數(shù)據(jù): 決策支持需要?dú)v史數(shù)據(jù), 通常操作數(shù)據(jù)庫并不
6、維護(hù)這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一: 決策支持需要將來自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一 (聚集, 匯總)數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示, 編碼, 和應(yīng)當(dāng)遵循的格式11第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展12由表和電子數(shù)據(jù)表到數(shù)據(jù)方數(shù)據(jù)倉庫基于 多維數(shù)據(jù)模型 , 多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(data cube)形式數(shù)據(jù)方( 如sales) 可以將數(shù)據(jù)建模, 并允許由多個(gè)維進(jìn)行觀察維表, 如 item (item_name, brand, type), 或 time(day, week, month,
7、quarter, year) 事實(shí)表包含度量 (如 dollars_sold) 和每個(gè)相關(guān)維表的鍵在數(shù)據(jù)倉庫的文獻(xiàn)中, 一個(gè) n-D 基本立方體 稱作基本方體(base cuboid). 最頂部的 0-D方體存放最高層的匯總, 稱作頂點(diǎn)方體( apex cuboid). 方體的格形成數(shù)據(jù)方.13立方體: 方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,supplierti
8、me,location,supplieritem,location,suppliertime, item, location, supplier0-D(頂點(diǎn)) 方體1-D 方體2-D方體3-D方體4-D(基本)方體14數(shù)據(jù)倉庫的概念建模數(shù)據(jù)倉庫建模: 多維模型,涉及維和度量星型模式: 事實(shí)表在中央, 連接一組維表雪花模式 : 星型模式的精煉, 其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表, 形成類似于雪花的形狀,減少冗余事實(shí)星座: 多個(gè)事實(shí)表共享維表, 可以看作星星的集合, 因此稱作星系模式, 或事實(shí)星座15星型模式的例子 time_keydayday_of_the_weekmonthquart
9、eryeartimelocation_keystreetcityprovince_or_statecountrylocation事實(shí)表 time_key item_keybranch_key location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch16雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keyst
10、reetcity_keylocationSales Fact Table time_key item_keybranch_key location_key units_solddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycityprovince_or_statecountrycity17事實(shí)星座的例子time_keydayday_of_th
11、e_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_keyitem_keybranch_keylocation_keyunits_solddollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_keyitem_keyshipper_ke
12、yfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper18數(shù)據(jù)挖掘查詢語言 DMQL: 語言原語立方體定義 (事實(shí)表)define cube : 維定義 ( 維表)define dimension as ()特殊情況 (共享維表)第一次, 如 “cube definition”define dimension as in cube 19用DMQL定義星型模式define cube sales_star time, item, branch,
13、location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_n
14、ame, branch_type)define dimension location as (location_key, street, city, province_or_state, country)20用DMQL定義雪花模式define cube sales_snowflake time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key
15、, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country)21用
16、DMQL定義事實(shí)星座define cube sales time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)
17、define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube shipping time, item, shipper, from_location, to_location:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time
18、as time in cube salesdefine dimension item as item in cube salesdefine dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales22三類度量(數(shù)值函數(shù))分布的(distr
19、ibutive): 將數(shù)據(jù)劃分為n個(gè)集合, 函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值. 如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果, 與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣, 則該函數(shù)可以用分布方式計(jì)算.例, count(), sum(), min(), max().代數(shù)的(algebraic):如果它能夠由一個(gè)具有M(其中, M是一個(gè)整數(shù)界)個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算, 而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得 .例, avg(), min_N(), standard_deviation().整體的(holistic):如果描述它的子聚集所需的存儲(chǔ)沒有一個(gè)常數(shù)界 . 例, median(), mode(), ran
20、k().23一個(gè)概念分層: 維LocationallEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.allregionofficecountryTorontoFrankfurtcity24數(shù)據(jù)倉庫和分層結(jié)構(gòu)視圖25多維數(shù)據(jù)多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個(gè)抽象層銷售量作為 product, month, 和 region的函數(shù)ProductRegionMonth維: Product, Location, Time的分層結(jié)構(gòu)Industry Region YearCategory Coun
21、try QuarterProduct City Month Week Office Day26一個(gè)數(shù)據(jù)方的樣本TV 在 U.S.A.的總銷售DateProductCountryAll, All, Allsumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum27對(duì)應(yīng)于數(shù)據(jù)方的方體allproductdatecountryproduct,dateproduct,countrydate, countryproduct, date, country0-D(頂點(diǎn)) 方體1-D方體2-D方體3-D(基本)方體28瀏覽數(shù)據(jù)方可視化OLAP 的能力交互式操作29典
22、型的OLAP操作上卷(Roll up)/上鉆 (drill-up): 匯總數(shù)據(jù)下鉆(Drill down)/下卷 (roll down): 上卷的逆操作切片(Slice)和切塊 : 投影和選擇 轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn) (rotate): 調(diào)整數(shù)據(jù)方, 目視操作, 3D 到 2D 平面.其它操作鉆過(drill across): 涉及多個(gè)事實(shí)表鉆透(drill through): 通過數(shù)據(jù)方的最底層, 到它背后的關(guān)系表 (使用 SQL)30OLAP 操作: 上卷上卷(Roll up)/上鉆 (drill-up): 匯總數(shù)據(jù)通過沿概念分層攀升或通過維歸約在 location上卷(由 cities
23、 到 countries)31OLAP 操作: 下鉆下鉆(Drill down)/下卷 (roll down): 上卷的逆操作由較高層的匯總到較低層的匯總或詳細(xì)數(shù)據(jù), 或者引進(jìn)新的維在 time下鉆 (由 quarters 到 months)32OLAP 操作:切片切片(Slice) : 投影和選擇,對(duì)一個(gè)維進(jìn)行選擇,導(dǎo)致子方體切片條件: time=“Q2”33OLAP 操作: 切塊切塊 : 對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,導(dǎo)致子方體切塊條件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home en
24、tertainment” or “computer”)34OLAP 操作: 轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn) (rotate): 調(diào)整數(shù)據(jù)方, 可視化操作,提供數(shù)據(jù)的替代表示.35其他操作其它操作鉆過(drill across): 涉及多個(gè)事實(shí)表鉆透(drill through): 通過數(shù)據(jù)方的最底層, 到它背后的關(guān)系表 (使用 SQL)統(tǒng)計(jì)計(jì)算比率、方差;增長(zhǎng)率分析建模,等36第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展37數(shù)據(jù)倉庫設(shè)計(jì)數(shù)據(jù)倉庫設(shè)計(jì)中,必須考慮四種視圖 自頂向下視圖選擇數(shù)據(jù)倉庫所需的有關(guān)
25、信息數(shù)據(jù)源視圖揭示(操作)數(shù)據(jù)庫系統(tǒng)捕獲、存儲(chǔ)、和管理的信息 數(shù)據(jù)倉庫視圖由事實(shí)表和維表組成商務(wù)查詢視圖 從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù) 38數(shù)據(jù)倉庫設(shè)計(jì)過程 自頂向下, 自底向上方法或二者的結(jié)合自頂向下: 由總體設(shè)計(jì)和規(guī)劃開始 (成熟)自底向上: 由實(shí)驗(yàn)和原型開始 (快速)軟件工程的觀點(diǎn)瀑布式: 在進(jìn)行下一步之前, 每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析 螺旋式 :功能漸增的系統(tǒng)的快速產(chǎn)生, 相繼版本之間的間隔很短 , 快速轉(zhuǎn)向典型的數(shù)據(jù)倉庫設(shè)計(jì)過程選取待建模的商務(wù)處理, 例如, 訂單, 發(fā)票, 庫存等.選取商務(wù)處理的粒度 (原子層數(shù)據(jù)), 例如,單個(gè)事務(wù)、一天的快照等 選取用于每個(gè)事實(shí)表記錄
26、的維, 如,時(shí)間、商品、顧客、供應(yīng)商、倉庫、事務(wù)類型和狀態(tài) 等選取將安放在事實(shí)表中的度量. 典型的度量是可加的數(shù)值量, 如dollars_sold和units_sold 39多層結(jié)構(gòu)數(shù)據(jù)倉庫提取變換裝入刷新OLAP引擎分析查詢報(bào)告數(shù)據(jù)挖掘Monitor&Integrator元數(shù)據(jù)數(shù)據(jù)源終端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其它數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)OLAP 服務(wù)器40三層數(shù)據(jù)倉庫模型企業(yè)倉庫搜集了關(guān)于主題的所有信息, 跨越整個(gè)組織 數(shù)據(jù)集市數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集, 對(duì)于特定的用戶是有用的. 其范圍限于選定的主題, 如銷售數(shù)據(jù)獨(dú)立的 vs. 依賴的 (直接來自數(shù)據(jù)倉庫) 數(shù)據(jù)集市虛擬倉庫操作數(shù)據(jù)庫上
27、視圖的集合 只有部分可能的匯總視圖被物化 41數(shù)據(jù)倉庫開發(fā): 一種推薦的方法定義一個(gè)高層企業(yè)數(shù)據(jù)模型數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型 提煉數(shù)據(jù)集市模 型 提 煉42OLAP 服務(wù)器結(jié)構(gòu)關(guān)系OLAP (ROLAP) 使用關(guān)系或擴(kuò)充關(guān)系的 DBMS 存放和管理倉庫數(shù)據(jù), 使用OLAP中間件支持其它部分包含一個(gè)優(yōu)化的 DBMS 后端, 聚集導(dǎo)航邏輯的實(shí)現(xiàn), 以及附加的工具和服務(wù) 較大的可伸縮性多維 OLAP (MOLAP) 基于數(shù)組的多維存儲(chǔ)引擎 (稀疏矩陣技術(shù))對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引混合 OLAP (HOLAP)彈性, 底層: 關(guān)系的, 高層: 數(shù)組. 專門的 SQL 服務(wù)器
28、對(duì)星型/雪花型模式上的SQL查詢提供特殊的支持43元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)是定義數(shù)據(jù)倉庫的數(shù)據(jù). 有如下類型 描述數(shù)據(jù)倉庫的結(jié)構(gòu)模式, 視圖, 維, 分層結(jié)構(gòu), 數(shù)據(jù)源定義, 數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng) (數(shù)據(jù)變遷歷史和轉(zhuǎn)換路徑), 數(shù)據(jù)流通 (主動(dòng), 存檔, 或凈化), 管理信息 (數(shù)據(jù)倉庫使用統(tǒng)計(jì), 錯(cuò)誤報(bào)告, 審計(jì)跟蹤)用于匯總的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射涉及系統(tǒng)性能的數(shù)據(jù)倉庫模式, 視圖和導(dǎo)出數(shù)據(jù)的定義商務(wù)數(shù)據(jù)商務(wù)術(shù)語和定義, 數(shù)據(jù)的所有者, 收費(fèi)政策44數(shù)據(jù)倉庫的后端工具和實(shí)用程序數(shù)據(jù)提取:由多個(gè)異種, 外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)中的錯(cuò)誤, 可能時(shí)訂正它們 數(shù)據(jù)變換
29、:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式 裝載:排序, 綜合, 加固, 計(jì)算視圖, 檢查整體性, 并建立索引和劃分 刷新傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新 45第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉庫與OLAP技術(shù)什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)模型數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展46數(shù)據(jù)方的有效計(jì)算數(shù)據(jù)方可以視為方體的格 最下面的方體是基本方體最上面的 (頂點(diǎn)) 方體只包含一個(gè)單元具有L層的n-D數(shù)據(jù)方包含多少個(gè)方體?其中Li是與維i相關(guān)聯(lián)的層數(shù)數(shù)據(jù)方的物化(Materialization)物化每一個(gè)方體 (全物化), 不物化任何方體(不物化), 或物化某些方體(部分物化)物化方
30、體的選擇基于大小, 共享, 訪問頻率, 等.47數(shù)據(jù)方計(jì)算用DMQL定義和計(jì)算數(shù)據(jù)方define cube salesitem, city, year: sum(sales_in_dollars)compute cube sales將它變換成類SQL語句 (用新的操作 cube by擴(kuò)充, 由Gray 等96引進(jìn))SELECT item, city, year, SUM (amount)FROM SALESCUBE BY item, city, year需要計(jì)算的分組 (city, item, year),(city,item),(city, year), (item, city),(city
31、), (item), (year)() (item)(city)()(year)(city, item)(city, year)(item, year)(city, item, year)48數(shù)據(jù)方計(jì)算: 基于ROLAP的方法(1)有效的方計(jì)算方法基于ROLAP的方計(jì)算算法 (Agarwal et al96)基于數(shù)組的方計(jì)算算法 (Zhao et al97)自底向上的方法 (Beyer & Ramarkrishnan99)混合的方法 (Han, Pei, Dong & Wang:SIGMOD01)基于ROLAP的方計(jì)算算法排序, 散列,和分組操作用于維屬性, 以便對(duì)相關(guān)元組重新排序和分簇在某些
32、子聚集上分組,作為“部分分組” 由以前計(jì)算的聚集計(jì)算新的聚集,而不必由基本事實(shí)表計(jì)算 49數(shù)據(jù)方計(jì)算: 基于ROLAP的方法(2)取自研究論文基于Hash/排序 的方法 (Agarwal 等. VLDB96)最小雙親(Smallest-parent): 由最小的, 先前計(jì)算的方體計(jì)算方體存儲(chǔ)結(jié)果(Cache-results): 存儲(chǔ)先前計(jì)算的方體, 由它可以計(jì)算其它方體, 以減少磁盤I/O分?jǐn)倰呙?Amortize-scans): 同時(shí)計(jì)算盡可能多的方體, 以分?jǐn)偞疟P的讀操作開銷共享排序(Share-sorts): 使用基于排序的方法時(shí), 在多個(gè)方體之間共享排序開銷共享劃分(Share-partitions): 使用基于hash的方法時(shí), 在多個(gè)方體之間共享劃分開銷50索引OLAP 數(shù)據(jù)為了有效的訪問,大部分?jǐn)?shù)據(jù)倉庫系統(tǒng)支持索引結(jié)構(gòu)兩種常用的方法對(duì)OLAP數(shù)據(jù)進(jìn)行索引位圖索引 bitmap indexing連接索引 join indexing51索引OLAP 數(shù)據(jù): 位圖索引在一個(gè)特定列上索引列上的每個(gè)值是一個(gè)位向量 : 位操作很快位向量的長(zhǎng)度: 基本表的記錄數(shù)如果數(shù)據(jù)表中給定行的屬性值為v, 則在位圖索引的對(duì)應(yīng)行, 表示該值的位為1, 該行的其它位均為0 不適合勢(shì)(不同值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)參考:金銀繡藝術(shù)特征及其傳承創(chuàng)新研究
- 二零二五版能源設(shè)施安全防護(hù)勞務(wù)分包協(xié)議3篇
- 二零二五版房地產(chǎn)開發(fā)經(jīng)營(yíng)項(xiàng)目環(huán)境保護(hù)合同范本3篇
- 2025年常州貨運(yùn)資格證在哪里練題
- 二零二五版毛竹砍伐與林業(yè)碳交易市場(chǎng)接入合同4篇
- 2025年光伏發(fā)電項(xiàng)目投資合作合同模板4篇
- 二零二五年度出租車公司車輛融資租賃合同5篇
- 二零二五年度農(nóng)產(chǎn)品電商平臺(tái)合作協(xié)議6篇
- 2025年度智能倉儲(chǔ)物流系統(tǒng)承包經(jīng)營(yíng)協(xié)議書4篇
- 二零二五年度企業(yè)信用擔(dān)保合同模板:降低融資風(fēng)險(xiǎn)2篇
- 課題申報(bào)書:GenAI賦能新質(zhì)人才培養(yǎng)的生成式學(xué)習(xí)設(shè)計(jì)研究
- 駱駝祥子-(一)-劇本
- 全國(guó)醫(yī)院數(shù)量統(tǒng)計(jì)
- 《中國(guó)香文化》課件
- 2024年醫(yī)美行業(yè)社媒平臺(tái)人群趨勢(shì)洞察報(bào)告-醫(yī)美行業(yè)觀察星秀傳媒
- 第六次全國(guó)幽門螺桿菌感染處理共識(shí)報(bào)告-
- 天津市2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 經(jīng)濟(jì)學(xué)的思維方式(第13版)
- 盤錦市重點(diǎn)中學(xué)2024年中考英語全真模擬試卷含答案
- 手衛(wèi)生依從性調(diào)查表
- 湖北教育出版社四年級(jí)下冊(cè)信息技術(shù)教案
評(píng)論
0/150
提交評(píng)論