數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件_第5頁(yè)
已閱讀5頁(yè),還剩101頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)W.HInmon的定義:

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)W.HInmon的定義:數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征面向主題subject-oriented排除對(duì)決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。集成的integrated構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性時(shí)變的time-variant數(shù)據(jù)倉(cāng)庫(kù)是不斷更新。非易失的nonvolatile數(shù)據(jù)倉(cāng)庫(kù)總是物理的分離存放的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征面向主題subject-oriented數(shù)據(jù)倉(cāng)庫(kù)時(shí)一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)。它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)屢決策所需要的信息。數(shù)據(jù)倉(cāng)庫(kù)也常常被看作是一種體系結(jié)構(gòu),通過(guò)將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化和專門的查詢,分析報(bào)告和決策制定。數(shù)據(jù)倉(cāng)庫(kù)時(shí)一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)。它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的AdatawarehouseisacopyoftransactiondataspecificallystructuredforqueryingandreportingAdatawarehouseisacopyof建立數(shù)據(jù)倉(cāng)庫(kù)Datawarehousing數(shù)據(jù)集成

1。查詢驅(qū)動(dòng)query-driven

使用包裝程序和集成程序代理

2。更新驅(qū)動(dòng) 預(yù)先集成數(shù)據(jù)清理數(shù)據(jù)統(tǒng)一決策支持技術(shù)建立數(shù)據(jù)倉(cāng)庫(kù)Datawarehousing數(shù)據(jù)集成OLTP和OLAP操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAPOLTP和OLAP操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP和OLAP的區(qū)別特性O(shè)LTPOLAP特性操作處理信息處理面向事務(wù)分析用戶辦事員DBA知識(shí)工人功能日常操作決策支持,DB設(shè)計(jì)E-R面向應(yīng)用星型/雪花面向主題數(shù)據(jù)當(dāng)前的,最新的歷史的,跨時(shí)間維護(hù)匯總原始的,高度詳細(xì)匯總的,統(tǒng)一的視圖詳細(xì),一般關(guān)系匯總的,多維的OLTP和OLAP的區(qū)別特性O(shè)LTPOLAP特性操作處理特性O(shè)LTPOLAP工作單位短的,簡(jiǎn)單事務(wù)復(fù)雜查詢存取讀/寫多數(shù)為讀關(guān)注數(shù)據(jù)進(jìn)入信息輸出操作索引/散列大量掃描訪問(wèn)記錄數(shù)量數(shù)十個(gè)數(shù)百萬(wàn)用戶數(shù)數(shù)千數(shù)百DB規(guī)模100MB到GB100GB到TB優(yōu)先高性能,高可靠高靈活,端點(diǎn)用戶自治度量事務(wù)吞吐量查詢吞吐量,響應(yīng)時(shí)間特性O(shè)LTPOLAP工作單位短的,簡(jiǎn)單事務(wù)復(fù)雜查詢存取讀/寫為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)分離操作數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的主要原因是提高兩個(gè)系統(tǒng)的性能.操作數(shù)據(jù)庫(kù)系統(tǒng)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,而數(shù)據(jù)倉(cāng)庫(kù)的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,在操作數(shù)據(jù)庫(kù)系統(tǒng)上處理OLAP查詢,可能會(huì)大大降低操作任務(wù)的性能.為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)分離操作數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的主要多維數(shù)據(jù)模型多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型,該模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式數(shù)據(jù)立方體允許以多維對(duì)數(shù)據(jù)建模和觀察.數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型,該模型將數(shù)據(jù)看作數(shù)據(jù)數(shù)據(jù)立方體維——維是人們觀察問(wèn)題的特定角度,例如:時(shí)間維、地理維、產(chǎn)品維。維是一個(gè)組織要記錄的透視或?qū)嶓w。事實(shí):一個(gè)數(shù)值的度量數(shù)據(jù)立方體:允許以多維對(duì)數(shù)據(jù)建模和觀察,它由維和事實(shí)定義。數(shù)據(jù)立方體維——維是人們觀察問(wèn)題的特定角度,例如:時(shí)間維、地例子Sales記錄商店銷售,可能的維:Time,item,branch,location. Sales銷售數(shù)據(jù)倉(cāng)庫(kù)的事實(shí):Dollars_sold,units_sold例子Sales記錄商店銷售,可能的維:維表和事實(shí)表維表: 存放維詳細(xì)信息的表格。人們?cè)谟^察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的多個(gè)描述方面。事實(shí)表 存放了事實(shí)的名稱和度量,以及相關(guān)的維表的關(guān)鍵字。維表和事實(shí)表維表:數(shù)據(jù)立方體數(shù)據(jù)立方體可以看作(維1,維2,…維n,事實(shí)1,..事實(shí)m)N-D立方體。數(shù)據(jù)立方體數(shù)據(jù)立方體可以看作數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件方體格給定一個(gè)維的集合,我們可以構(gòu)造方體的格,每個(gè)在不同的匯總或groupby顯示數(shù)據(jù)。方體的格稱作數(shù)據(jù)立方體?;痉襟w存放最低層匯總的方體頂點(diǎn)方體最高層次的匯總方體格給定一個(gè)維的集合,我們可以構(gòu)造方體的格,每個(gè)在不同的匯多維數(shù)據(jù)庫(kù)模式星型,雪花和事實(shí)星座模式是主要的存在形式星型模式包含一個(gè)大的包含大批數(shù)據(jù)的事實(shí)表和一系列維表.雪花模式是星型模式的變種,不同的是將某些維表規(guī)范化.事實(shí)星座模式對(duì)應(yīng)多個(gè)事實(shí)表共享維表.多維數(shù)據(jù)庫(kù)模式星型,雪花和事實(shí)星座模式是主要的存在形式定義模式的例子定義圖2-4的星型模式:Definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),units_old=count(*)定義維

Definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)定義模式的例子定義圖2-4的星型模式:度量的分類和計(jì)算分布的:

設(shè)數(shù)據(jù)被劃分為n個(gè)集合,函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值.如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣則該度量是分布的,如count(),sum()等度量的分類和計(jì)算分布的:代數(shù)的:

如果一個(gè)聚集函數(shù)能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算,且每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得.如avg()可以由sum()/count()計(jì)算,其中sum()和count()是分布聚集函數(shù).代數(shù)的:整體的:

如果一個(gè)聚集函數(shù)無(wú)法用具有M個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算,則這個(gè)函數(shù)稱是整體的,如rank()等許多度量可以用關(guān)系的聚集操作計(jì)算對(duì)應(yīng)圖2-4,我們也可寫出SQL語(yǔ)句.整體的:計(jì)算dollars_sold和units_soldSelectsum(s.number_of_units_sold*s.price),Sum(s.number_of_units_sold)Fromtimet,itemi,branchb,locationl,saless,Wheres.time_key=t.time_keyands.item_key=i.item_keyands.branch_key=b.branch_keyands.loation_key=l.location_keyGroupbys.time_key,s.item_key,s.branch_key,s.location_key計(jì)算dollars_sold和units_soldSelec概念分層概念分層隱含在數(shù)據(jù)庫(kù)模式中全序偏序集合分組分層概念分層由系統(tǒng)用戶專家等人工引入或者自動(dòng)產(chǎn)生概念分層概念分層隱含在數(shù)據(jù)庫(kù)模式中多維數(shù)據(jù)模型的OLAP操作上卷操作,通過(guò)維規(guī)約,在數(shù)據(jù)立方體上進(jìn)行聚集.下鉆操作,是上卷操作的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).切片和切塊,切片在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,切塊則是在兩個(gè)或兩個(gè)以上的維進(jìn)行選擇.轉(zhuǎn)軸操作,轉(zhuǎn)動(dòng)數(shù)據(jù)的視覺(jué),是目視操作.多維數(shù)據(jù)模型的OLAP操作上卷操作,通過(guò)維規(guī)約,在數(shù)據(jù)立方體查詢多維數(shù)據(jù)庫(kù)的星型網(wǎng)查詢模型查詢多維數(shù)據(jù)庫(kù)的星型網(wǎng)查詢模型數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)自頂向下視圖,使我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息.數(shù)據(jù)源視圖,揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲存儲(chǔ)和管理的信息.數(shù)據(jù)倉(cāng)庫(kù)視圖,包括事實(shí)表和維表.商務(wù)查詢視圖,從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)自頂向下視圖,使我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理選取商務(wù)處理的粒度,例如單個(gè)事務(wù),一天的快照等選取用于每個(gè)事實(shí)表記錄的維.選取將安放在事實(shí)表中的度量如圖2-4中的dollars_sold和units_sold數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,使用稱作網(wǎng)間連接程序的應(yīng)用程序,由操作數(shù)據(jù)庫(kù)和外部數(shù)據(jù)源提取數(shù)據(jù).中間層是OLAP服務(wù)器,實(shí)現(xiàn)方法有關(guān)系OLAP模型ROLAP, 在多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系作多維OLAP模型MOLAP 直接實(shí)現(xiàn)多維數(shù)據(jù)的操作頂層是客戶,它包括查詢和報(bào)告工具,分析工具和數(shù)據(jù)挖掘工具(例如趨勢(shì)分析,預(yù)測(cè)等)三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,使用稱作網(wǎng)間連接程序的應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的類型企業(yè)倉(cāng)庫(kù):企業(yè)倉(cāng)庫(kù)收集了關(guān)于主題的所有信息,跨越整個(gè)組織,它提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成.數(shù)據(jù)集市:包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶是有用的,其范圍限于選定的主題.虛擬倉(cāng)庫(kù):是操作數(shù)據(jù)庫(kù)上的視圖集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化,虛擬倉(cāng)庫(kù)易于建立,但需要操作數(shù)據(jù)庫(kù)服務(wù)器具有剩余能力.數(shù)據(jù)倉(cāng)庫(kù)的類型企業(yè)倉(cāng)庫(kù):企業(yè)倉(cāng)庫(kù)收集了關(guān)于主題的所有信息,跨OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型,使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù)多維OLAP(MOLAP)服務(wù)器,這些服務(wù)器通過(guò)基于數(shù)組的多維存儲(chǔ),支持?jǐn)?shù)組的多維視圖混合OLAP(HOLAP)服務(wù)器,結(jié)合ROLAP和MOLAP技術(shù),得宜于ROLAP的可伸縮性,和MOLAP的快速計(jì)算.OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型,使用關(guān)系或數(shù)據(jù)如何實(shí)際的存放ROLAP使用關(guān)系表存放。與基本方體相關(guān)的事實(shí)表叫基本事實(shí)表存放的數(shù)據(jù)所處的抽象級(jí)別由給定的數(shù)據(jù)立方體的模式的連接鍵指出。聚集數(shù)據(jù)也可能存放在事實(shí)表中,稱為匯總事實(shí)表MOLAP采用數(shù)組結(jié)構(gòu)存放數(shù)據(jù)數(shù)據(jù)如何實(shí)際的存放ROLAP使用關(guān)系表存放。數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)N維數(shù)據(jù)立方體的有效計(jì)算N維數(shù)據(jù)立方體的有效計(jì)算數(shù)據(jù)立方體的有效計(jì)算計(jì)算量:對(duì)一個(gè)n維數(shù)據(jù)立方體,第i維的層次是Li,則可能產(chǎn)生的立方體總數(shù)是T=(L1+1)*…*(Ln+1)如果10維每維4個(gè)層次產(chǎn)生的方體數(shù)是5的10次方=9800000.預(yù)先計(jì)算并物化所有可能產(chǎn)生的方體是不現(xiàn)實(shí)的,較合理的是部分物化數(shù)據(jù)立方體的有效計(jì)算計(jì)算量:對(duì)一個(gè)n維數(shù)據(jù)立方體,第i維的層方體的選擇計(jì)算不物化:導(dǎo)致運(yùn)行時(shí)計(jì)算昂貴的多維聚集,速度極慢.全物化:需要海量存儲(chǔ)空間,存放所有預(yù)先計(jì)算的方體.部分物化:在存儲(chǔ)空間和響應(yīng)時(shí)間二者之間提供了很好的折衷.方體的選擇計(jì)算不物化:導(dǎo)致運(yùn)行時(shí)計(jì)算昂貴的多維聚集,速度極慢多路數(shù)組聚集將數(shù)組分成塊,塊的大小能夠放入立方體計(jì)算時(shí)可用的內(nèi)存.通過(guò)訪問(wèn)立方體單元進(jìn)行聚集,使得每個(gè)單元必須重新訪問(wèn)的次數(shù)最小化.多路數(shù)組聚集將數(shù)組分成塊,塊的大小能夠放入立方體計(jì)算時(shí)可用的如圖40*400*4000立方體,分成64塊策略是多利用小的立方塊.最佳的是AB平面40*400+AC平面的一行40*1000+BC平面的一塊100*1000總計(jì)是156000.如果次序是BC,AC,AB則所需內(nèi)存是400*4000+40*1000+10*100=1641000,是最佳策略的10倍以上.如圖40*400*4000立方體,分成64塊策略索引OLAP數(shù)據(jù)位圖索引:與散列和樹索引相比,位圖索引將比較,連接和聚集都變成了位算術(shù)運(yùn)算,大大減少了運(yùn)行時(shí)間.連接索引:源于關(guān)系數(shù)據(jù)庫(kù)的查詢處理.位圖連接索引:將連接索引和位圖索引集成.索引OLAP數(shù)據(jù)位圖索引:與散列和樹索引相比,位圖索引將比較數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件OLAP查詢的有效處理確定那些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行,這涉及將查詢中的選擇投影上卷下鉆操作轉(zhuǎn)換成對(duì)應(yīng)的SQL或OLAP操作.確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體,這涉及到找出可能用于查詢的所有物化方體.OLAP查詢的有效處理確定那些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行,具體步驟考察的方體必須與查詢具有相同的維集合,或是它的超集.選擇代價(jià)最小的方體.具體步驟考察的方體必須與查詢具有相同的維集合,或是它的超集.元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù).元數(shù)據(jù)的存儲(chǔ)包括數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述對(duì)元數(shù)據(jù)的操作匯總用的算法由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射關(guān)于系統(tǒng)性能的數(shù)據(jù)商務(wù)元數(shù)據(jù)元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù).元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)后端工具數(shù)據(jù)提取:從多個(gè)異種的外部數(shù)據(jù)源收集數(shù)據(jù).數(shù)據(jù)清理:檢測(cè)錯(cuò)誤,可能時(shí)修改錯(cuò)誤.數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式.裝入:排序,綜合,合并,計(jì)算視圖,檢查整體性,并建立索引和劃分.刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的更新.數(shù)據(jù)倉(cāng)庫(kù)后端工具數(shù)據(jù)提取:從多個(gè)異種的外部數(shù)據(jù)源收集數(shù)據(jù).進(jìn)一步發(fā)展和探討發(fā)現(xiàn)驅(qū)動(dòng)的探查:預(yù)計(jì)算的度量指出數(shù)據(jù)異常,避免人工檢查數(shù)據(jù).擴(kuò)充SQL語(yǔ)句的實(shí)現(xiàn)(多粒度上的復(fù)雜聚集).聯(lián)機(jī)聚集,可以顯示迄今為止所知道的,而不是等待查詢完全處理完.最高N查詢,只查詢最高的N項(xiàng),而不是整個(gè)排序的表,這導(dǎo)致較快的響應(yīng)時(shí)間并減少資源浪費(fèi).進(jìn)一步發(fā)展和探討發(fā)現(xiàn)驅(qū)動(dòng)的探查:預(yù)計(jì)算的度量指出數(shù)據(jù)異常,避多特征方計(jì)算復(fù)雜查詢,這些查詢涉及多粒度上多個(gè)依賴的聚集。簡(jiǎn)單數(shù)據(jù)立方體查詢。構(gòu)造數(shù)據(jù)立方體復(fù)雜查詢:按{Item,region,month}的所有子集分組,對(duì)某組找出2000年最高價(jià)格,并在具有最高價(jià)格的元組中找出銷售總額。多特征方計(jì)算復(fù)雜查詢,這些查詢涉及多粒度上多個(gè)依賴的聚集。Selectitem,region,month,Max(price),Sum(R.sales)FrompurchasesWhereyear=2000Cubebyitem,region,month:RSuchthatR.price=Max(Price)Selectitem,region,month,Max(數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用信息處理:支持查詢和基本的統(tǒng)計(jì)分析,并使用表或圖進(jìn)行報(bào)告.分析處理:支持基本的OLAP操作,在匯總的和細(xì)節(jié)的歷史數(shù)據(jù)上操作.數(shù)據(jù)挖掘:支持知識(shí)發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測(cè),并用可視化工具提供挖掘結(jié)果.數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用信息處理:支持查詢和基本的統(tǒng)計(jì)分析,并使用表或聯(lián)機(jī)分析挖掘(OLAM)將聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘集成,有以下幾個(gè)原因:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的高質(zhì)量:大部分?jǐn)?shù)據(jù)挖掘工具需要在集成的一致的和清理過(guò)的數(shù)據(jù)上進(jìn)行,經(jīng)由這些預(yù)處理而構(gòu)造的數(shù)據(jù)倉(cāng)庫(kù)不僅用作OLAP而且也用作數(shù)據(jù)挖掘的數(shù)據(jù)源.聯(lián)機(jī)分析挖掘(OLAM)將聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘集成,有以下環(huán)繞數(shù)據(jù)倉(cāng)庫(kù)的有價(jià)值的信息處理基礎(chǔ)設(shè)施:謹(jǐn)慎的做法是盡量利用可用的基礎(chǔ)設(shè)施,而不是一切從頭做起.基于OLAP的探測(cè)式數(shù)據(jù)分析:有效的數(shù)據(jù)挖掘需要探測(cè)式數(shù)據(jù)分析.用戶常常想在不同粒度上分析它們.聯(lián)機(jī)分析挖掘提供在不同的數(shù)據(jù)子集和不同的抽象層上進(jìn)行數(shù)據(jù)挖掘的工具.數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇:用戶常常不知道想挖掘些什么.通過(guò)將OLAP與多種數(shù)據(jù)挖掘功能集成在一起,聯(lián)機(jī)分析挖掘?yàn)橛脩暨x擇所期望的數(shù)據(jù)挖掘功能動(dòng)態(tài)修改挖掘任務(wù)提供了靈活性環(huán)繞數(shù)據(jù)倉(cāng)庫(kù)的有價(jià)值的信息處理基礎(chǔ)設(shè)施:謹(jǐn)慎的做法是盡量利用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)什么是數(shù)據(jù)倉(cāng)庫(kù)什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)W.HInmon的定義:

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)W.HInmon的定義:數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征面向主題subject-oriented排除對(duì)決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。集成的integrated構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性時(shí)變的time-variant數(shù)據(jù)倉(cāng)庫(kù)是不斷更新。非易失的nonvolatile數(shù)據(jù)倉(cāng)庫(kù)總是物理的分離存放的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征面向主題subject-oriented數(shù)據(jù)倉(cāng)庫(kù)時(shí)一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)。它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)屢決策所需要的信息。數(shù)據(jù)倉(cāng)庫(kù)也常常被看作是一種體系結(jié)構(gòu),通過(guò)將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化和專門的查詢,分析報(bào)告和決策制定。數(shù)據(jù)倉(cāng)庫(kù)時(shí)一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ)。它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的AdatawarehouseisacopyoftransactiondataspecificallystructuredforqueryingandreportingAdatawarehouseisacopyof建立數(shù)據(jù)倉(cāng)庫(kù)Datawarehousing數(shù)據(jù)集成

1。查詢驅(qū)動(dòng)query-driven

使用包裝程序和集成程序代理

2。更新驅(qū)動(dòng) 預(yù)先集成數(shù)據(jù)清理數(shù)據(jù)統(tǒng)一決策支持技術(shù)建立數(shù)據(jù)倉(cāng)庫(kù)Datawarehousing數(shù)據(jù)集成OLTP和OLAP操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAPOLTP和OLAP操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP和OLAP的區(qū)別特性O(shè)LTPOLAP特性操作處理信息處理面向事務(wù)分析用戶辦事員DBA知識(shí)工人功能日常操作決策支持,DB設(shè)計(jì)E-R面向應(yīng)用星型/雪花面向主題數(shù)據(jù)當(dāng)前的,最新的歷史的,跨時(shí)間維護(hù)匯總原始的,高度詳細(xì)匯總的,統(tǒng)一的視圖詳細(xì),一般關(guān)系匯總的,多維的OLTP和OLAP的區(qū)別特性O(shè)LTPOLAP特性操作處理特性O(shè)LTPOLAP工作單位短的,簡(jiǎn)單事務(wù)復(fù)雜查詢存取讀/寫多數(shù)為讀關(guān)注數(shù)據(jù)進(jìn)入信息輸出操作索引/散列大量掃描訪問(wèn)記錄數(shù)量數(shù)十個(gè)數(shù)百萬(wàn)用戶數(shù)數(shù)千數(shù)百DB規(guī)模100MB到GB100GB到TB優(yōu)先高性能,高可靠高靈活,端點(diǎn)用戶自治度量事務(wù)吞吐量查詢吞吐量,響應(yīng)時(shí)間特性O(shè)LTPOLAP工作單位短的,簡(jiǎn)單事務(wù)復(fù)雜查詢存取讀/寫為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)分離操作數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的主要原因是提高兩個(gè)系統(tǒng)的性能.操作數(shù)據(jù)庫(kù)系統(tǒng)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,而數(shù)據(jù)倉(cāng)庫(kù)的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,在操作數(shù)據(jù)庫(kù)系統(tǒng)上處理OLAP查詢,可能會(huì)大大降低操作任務(wù)的性能.為什么需要分離的數(shù)據(jù)倉(cāng)庫(kù)分離操作數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的主要多維數(shù)據(jù)模型多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型,該模型將數(shù)據(jù)看作數(shù)據(jù)立方體形式數(shù)據(jù)立方體允許以多維對(duì)數(shù)據(jù)建模和觀察.數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型,該模型將數(shù)據(jù)看作數(shù)據(jù)數(shù)據(jù)立方體維——維是人們觀察問(wèn)題的特定角度,例如:時(shí)間維、地理維、產(chǎn)品維。維是一個(gè)組織要記錄的透視或?qū)嶓w。事實(shí):一個(gè)數(shù)值的度量數(shù)據(jù)立方體:允許以多維對(duì)數(shù)據(jù)建模和觀察,它由維和事實(shí)定義。數(shù)據(jù)立方體維——維是人們觀察問(wèn)題的特定角度,例如:時(shí)間維、地例子Sales記錄商店銷售,可能的維:Time,item,branch,location. Sales銷售數(shù)據(jù)倉(cāng)庫(kù)的事實(shí):Dollars_sold,units_sold例子Sales記錄商店銷售,可能的維:維表和事實(shí)表維表: 存放維詳細(xì)信息的表格。人們?cè)谟^察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的多個(gè)描述方面。事實(shí)表 存放了事實(shí)的名稱和度量,以及相關(guān)的維表的關(guān)鍵字。維表和事實(shí)表維表:數(shù)據(jù)立方體數(shù)據(jù)立方體可以看作(維1,維2,…維n,事實(shí)1,..事實(shí)m)N-D立方體。數(shù)據(jù)立方體數(shù)據(jù)立方體可以看作數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件方體格給定一個(gè)維的集合,我們可以構(gòu)造方體的格,每個(gè)在不同的匯總或groupby顯示數(shù)據(jù)。方體的格稱作數(shù)據(jù)立方體?;痉襟w存放最低層匯總的方體頂點(diǎn)方體最高層次的匯總方體格給定一個(gè)維的集合,我們可以構(gòu)造方體的格,每個(gè)在不同的匯多維數(shù)據(jù)庫(kù)模式星型,雪花和事實(shí)星座模式是主要的存在形式星型模式包含一個(gè)大的包含大批數(shù)據(jù)的事實(shí)表和一系列維表.雪花模式是星型模式的變種,不同的是將某些維表規(guī)范化.事實(shí)星座模式對(duì)應(yīng)多個(gè)事實(shí)表共享維表.多維數(shù)據(jù)庫(kù)模式星型,雪花和事實(shí)星座模式是主要的存在形式定義模式的例子定義圖2-4的星型模式:Definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),units_old=count(*)定義維

Definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)定義模式的例子定義圖2-4的星型模式:度量的分類和計(jì)算分布的:

設(shè)數(shù)據(jù)被劃分為n個(gè)集合,函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值.如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣則該度量是分布的,如count(),sum()等度量的分類和計(jì)算分布的:代數(shù)的:

如果一個(gè)聚集函數(shù)能夠由一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算,且每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得.如avg()可以由sum()/count()計(jì)算,其中sum()和count()是分布聚集函數(shù).代數(shù)的:整體的:

如果一個(gè)聚集函數(shù)無(wú)法用具有M個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算,則這個(gè)函數(shù)稱是整體的,如rank()等許多度量可以用關(guān)系的聚集操作計(jì)算對(duì)應(yīng)圖2-4,我們也可寫出SQL語(yǔ)句.整體的:計(jì)算dollars_sold和units_soldSelectsum(s.number_of_units_sold*s.price),Sum(s.number_of_units_sold)Fromtimet,itemi,branchb,locationl,saless,Wheres.time_key=t.time_keyands.item_key=i.item_keyands.branch_key=b.branch_keyands.loation_key=l.location_keyGroupbys.time_key,s.item_key,s.branch_key,s.location_key計(jì)算dollars_sold和units_soldSelec概念分層概念分層隱含在數(shù)據(jù)庫(kù)模式中全序偏序集合分組分層概念分層由系統(tǒng)用戶專家等人工引入或者自動(dòng)產(chǎn)生概念分層概念分層隱含在數(shù)據(jù)庫(kù)模式中多維數(shù)據(jù)模型的OLAP操作上卷操作,通過(guò)維規(guī)約,在數(shù)據(jù)立方體上進(jìn)行聚集.下鉆操作,是上卷操作的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù).切片和切塊,切片在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,切塊則是在兩個(gè)或兩個(gè)以上的維進(jìn)行選擇.轉(zhuǎn)軸操作,轉(zhuǎn)動(dòng)數(shù)據(jù)的視覺(jué),是目視操作.多維數(shù)據(jù)模型的OLAP操作上卷操作,通過(guò)維規(guī)約,在數(shù)據(jù)立方體查詢多維數(shù)據(jù)庫(kù)的星型網(wǎng)查詢模型查詢多維數(shù)據(jù)庫(kù)的星型網(wǎng)查詢模型數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)自頂向下視圖,使我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息.數(shù)據(jù)源視圖,揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)捕獲存儲(chǔ)和管理的信息.數(shù)據(jù)倉(cāng)庫(kù)視圖,包括事實(shí)表和維表.商務(wù)查詢視圖,從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)自頂向下視圖,使我們可以選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理選取商務(wù)處理的粒度,例如單個(gè)事務(wù),一天的快照等選取用于每個(gè)事實(shí)表記錄的維.選取將安放在事實(shí)表中的度量如圖2-4中的dollars_sold和units_sold數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,使用稱作網(wǎng)間連接程序的應(yīng)用程序,由操作數(shù)據(jù)庫(kù)和外部數(shù)據(jù)源提取數(shù)據(jù).中間層是OLAP服務(wù)器,實(shí)現(xiàn)方法有關(guān)系OLAP模型ROLAP, 在多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系作多維OLAP模型MOLAP 直接實(shí)現(xiàn)多維數(shù)據(jù)的操作頂層是客戶,它包括查詢和報(bào)告工具,分析工具和數(shù)據(jù)挖掘工具(例如趨勢(shì)分析,預(yù)測(cè)等)三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,使用稱作網(wǎng)間連接程序的應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的類型企業(yè)倉(cāng)庫(kù):企業(yè)倉(cāng)庫(kù)收集了關(guān)于主題的所有信息,跨越整個(gè)組織,它提供企業(yè)范圍內(nèi)的數(shù)據(jù)集成.數(shù)據(jù)集市:包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶是有用的,其范圍限于選定的主題.虛擬倉(cāng)庫(kù):是操作數(shù)據(jù)庫(kù)上的視圖集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化,虛擬倉(cāng)庫(kù)易于建立,但需要操作數(shù)據(jù)庫(kù)服務(wù)器具有剩余能力.數(shù)據(jù)倉(cāng)庫(kù)的類型企業(yè)倉(cāng)庫(kù):企業(yè)倉(cāng)庫(kù)收集了關(guān)于主題的所有信息,跨OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型,使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù)多維OLAP(MOLAP)服務(wù)器,這些服務(wù)器通過(guò)基于數(shù)組的多維存儲(chǔ),支持?jǐn)?shù)組的多維視圖混合OLAP(HOLAP)服務(wù)器,結(jié)合ROLAP和MOLAP技術(shù),得宜于ROLAP的可伸縮性,和MOLAP的快速計(jì)算.OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型,使用關(guān)系或數(shù)據(jù)如何實(shí)際的存放ROLAP使用關(guān)系表存放。與基本方體相關(guān)的事實(shí)表叫基本事實(shí)表存放的數(shù)據(jù)所處的抽象級(jí)別由給定的數(shù)據(jù)立方體的模式的連接鍵指出。聚集數(shù)據(jù)也可能存放在事實(shí)表中,稱為匯總事實(shí)表MOLAP采用數(shù)組結(jié)構(gòu)存放數(shù)據(jù)數(shù)據(jù)如何實(shí)際的存放ROLAP使用關(guān)系表存放。數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)N維數(shù)據(jù)立方體的有效計(jì)算N維數(shù)據(jù)立方體的有效計(jì)算數(shù)據(jù)立方體的有效計(jì)算計(jì)算量:對(duì)一個(gè)n維數(shù)據(jù)立方體,第i維的層次是Li,則可能產(chǎn)生的立方體總數(shù)是T=(L1+1)*…*(Ln+1)如果10維每維4個(gè)層次產(chǎn)生的方體數(shù)是5的10次方=9800000.預(yù)先計(jì)算并物化所有可能產(chǎn)生的方體是不現(xiàn)實(shí)的,較合理的是部分物化數(shù)據(jù)立方體的有效計(jì)算計(jì)算量:對(duì)一個(gè)n維數(shù)據(jù)立方體,第i維的層方體的選擇計(jì)算不物化:導(dǎo)致運(yùn)行時(shí)計(jì)算昂貴的多維聚集,速度極慢.全物化:需要海量存儲(chǔ)空間,存放所有預(yù)先計(jì)算的方體.部分物化:在存儲(chǔ)空間和響應(yīng)時(shí)間二者之間提供了很好的折衷.方體的選擇計(jì)算不物化:導(dǎo)致運(yùn)行時(shí)計(jì)算昂貴的多維聚集,速度極慢多路數(shù)組聚集將數(shù)組分成塊,塊的大小能夠放入立方體計(jì)算時(shí)可用的內(nèi)存.通過(guò)訪問(wèn)立方體單元進(jìn)行聚集,使得每個(gè)單元必須重新訪問(wèn)的次數(shù)最小化.多路數(shù)組聚集將數(shù)組分成塊,塊的大小能夠放入立方體計(jì)算時(shí)可用的如圖40*400*4000立方體,分成64塊策略是多利用小的立方塊.最佳的是AB平面40*400+AC平面的一行40*1000+BC平面的一塊100*1000總計(jì)是156000.如果次序是BC,AC,AB則所需內(nèi)存是400*4000+40*1000+10*100=1641000,是最佳策略的10倍以上.如圖40*400*4000立方體,分成64塊策略索引OLAP數(shù)據(jù)位圖索引:與散列和樹索引相比,位圖索引將比較,連接和聚集都變成了位算術(shù)運(yùn)算,大大減少了運(yùn)行時(shí)間.連接索引:源于關(guān)系數(shù)據(jù)庫(kù)的查詢處理.位圖連接索引:將連接索引和位圖索引集成.索引OLAP數(shù)據(jù)位圖索引:與散列和樹索引相比,位圖索引將比較數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的OLAP技術(shù)課件OLAP查詢的有效處理確定那些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行,這涉及將查詢中的選擇投影上卷下鉆操作轉(zhuǎn)換成對(duì)應(yīng)的SQL或OLAP操作.確定相關(guān)操作應(yīng)當(dāng)使用哪些物化的方體,這涉及到找出可能用于查詢的所有物化方體.OLAP查詢的有效處理確定那些操作應(yīng)當(dāng)在可利用的方體上執(zhí)行,具體步驟考察的方體必須與查詢具有相同的維集合,或是它的超集.選擇代價(jià)最小的方體.具體步驟考察的方體必須與查詢具有相同的維集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論