版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第25章數(shù)據(jù)倉庫與決策支持?jǐn)?shù)據(jù)倉庫的產(chǎn)生操作型處理(OLTP)
(也叫事務(wù)處理):對數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常是對一個(gè)或一組記錄的查詢和修改特點(diǎn):快速響應(yīng)用戶請求,對數(shù)據(jù)的安全性、完整性以及事務(wù)吞吐量要求很高。分析型處理(OLAP):對數(shù)據(jù)的查詢和分析操作,通常是對海量的歷史數(shù)據(jù)查詢和分析特點(diǎn):要訪問的數(shù)據(jù)量非常大,查詢和分析的操作十分復(fù)雜。數(shù)據(jù)倉庫技術(shù)為了構(gòu)建新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)表17.1操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個(gè)時(shí)刻操作一元組一個(gè)時(shí)刻操作一集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理決策需求數(shù)據(jù)倉庫技術(shù)(續(xù))數(shù)據(jù)倉庫定義:數(shù)據(jù)倉庫是一個(gè)面向主題的,集成的,時(shí)變的,非易失的數(shù)據(jù)集合,支持管理部門的決策過程。本質(zhì)上和數(shù)據(jù)庫一樣,是長期儲(chǔ)存在計(jì)算機(jī)內(nèi)的、有組織、可共享的數(shù)據(jù)集合。數(shù)據(jù)倉庫技術(shù)(續(xù))一、數(shù)據(jù)倉庫的基本特征數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的;數(shù)據(jù)倉庫圍繞一些主題如顧客,供應(yīng)商,產(chǎn)品和銷售來組織。排除對于決策支持過程無用的數(shù)據(jù),提供特定主題的簡明視圖。數(shù)據(jù)倉庫的數(shù)據(jù)是集成的;構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)的數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫,一般文件和聯(lián)機(jī)事務(wù)記錄集成在一起。數(shù)據(jù)倉庫的數(shù)據(jù)是非易失的的;數(shù)據(jù)倉庫總是物理地分別存放數(shù)據(jù),分離的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)是時(shí)變的數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)倉庫的最根本的區(qū)別在于側(cè)重點(diǎn)不同數(shù)據(jù)倉庫是在傳統(tǒng)數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的,提供良好的大規(guī)模數(shù)據(jù)分析能力,力圖為決策提供有效的技術(shù)支持。比較項(xiàng)目傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫(1)總體特征圍繞高效率的數(shù)據(jù)處理層開以提供決策支持為目標(biāo)(2)存儲(chǔ)內(nèi)容以當(dāng)前數(shù)據(jù)為主主要是歷史的、存檔的、歸納的數(shù)據(jù)(3)面向用戶普通的業(yè)務(wù)處理人員高級的決策管理人員(4)功能目標(biāo)面向業(yè)務(wù)操作,注重實(shí)時(shí)性面向主題注重分析功能(5)使用頻率很高較低(6)訪問特征讀/寫并重以讀為主、較少寫入(7)數(shù)據(jù)規(guī)模較?。?00MB--1GB)較大(10GB以上)(8)數(shù)據(jù)訪問量每次事務(wù)處理訪問數(shù)據(jù)較少每次分析處理訪問大量數(shù)據(jù)數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫體系結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫的后臺(tái)工具包括數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、裝載和維護(hù)(Maintain)工具。數(shù)據(jù)倉庫服務(wù)器相當(dāng)于數(shù)據(jù)庫系統(tǒng)中的DBMS,負(fù)責(zé)管理數(shù)據(jù)倉庫中數(shù)據(jù)的存儲(chǔ)管理和數(shù)據(jù)存取,并給OLAP服務(wù)器和前臺(tái)工具提供存取接口(如SQL查詢接口)OLAP服務(wù)器透明地為前臺(tái)工具和用戶提供多維數(shù)據(jù)視圖
OLAP服務(wù)器則必須考慮物理上這些分析數(shù)據(jù)的存儲(chǔ)問題前臺(tái)工具包括查詢報(bào)表工具、多維分析工具、數(shù)據(jù)挖掘工具和分析結(jié)果可視化工具等25.1決策支持簡介用戶決策制定時(shí)首先根據(jù)各業(yè)務(wù)部門數(shù)據(jù)庫中的數(shù)據(jù)創(chuàng)建數(shù)據(jù)倉庫,存儲(chǔ)各種歷史信息和匯總信息對數(shù)據(jù)倉庫的進(jìn)一步應(yīng)用由功能強(qiáng)大的分析工具來實(shí)現(xiàn)決策支持查詢新特點(diǎn):where子句包含大量的ANDOR統(tǒng)計(jì)函數(shù)如標(biāo)準(zhǔn)方差對一定時(shí)間范圍內(nèi)進(jìn)行聚集用戶經(jīng)常提交一系列的相關(guān)查詢25.1決策支持簡介三類用于決策支持的分析工具第一類:OLAP----支持分組和聚集查詢,并能對各種復(fù)雜的布爾條件、統(tǒng)計(jì)函數(shù)和時(shí)間序列分析提供支持的系統(tǒng)。由上述查詢組成的應(yīng)用成為聯(lián)機(jī)分析處理OLAP第二類:優(yōu)化的關(guān)系數(shù)據(jù)庫系統(tǒng)——傳統(tǒng)的DBMS為有效執(zhí)行OLAP查詢而進(jìn)行了特殊設(shè)計(jì)。第三類:數(shù)據(jù)挖掘,在大量的數(shù)據(jù)集合中,找到有意義的數(shù)據(jù)趨勢或模式。25.2OLAP:多維數(shù)據(jù)模型OLAP(On-LineAnalyticalProcessing)即聯(lián)機(jī)分析處理,是以海量數(shù)據(jù)為基礎(chǔ)的復(fù)雜分析技術(shù)一、多維數(shù)據(jù)模型數(shù)據(jù)分析時(shí)用戶的數(shù)據(jù)視圖,是面向分析的數(shù)據(jù)模型,用于給分析人員提供多種觀察的視角和面向分析的操作可用這樣來一個(gè)多維數(shù)組來表示:
(維1,維2,…,維n,度量值)
25.2OLAP:多維數(shù)據(jù)模型
例如:(地區(qū),時(shí)間,電器商品種類,銷售額)
三維數(shù)組可以用一個(gè)立方體來直觀地表示一般地多維數(shù)組用多維立方體CUBE(超立方體)來表示25.2OLAP:多維數(shù)據(jù)模型一系列數(shù)字型度量屬性measure每個(gè)度量屬性由一組維來確定dimensions多維數(shù)據(jù)模型例:度量屬性sales維product(key:pid)Location(locid)Time(timeid)25.2OLAP:多維數(shù)據(jù)模型例:度量屬性sales維product(key:pid)Location(locid)Time(timeid)將sales信息看成一個(gè)三維數(shù)組salesLocid=1切片圖Sales:三維數(shù)組集
8101030205082515123timeidpid11121325.2OLAP:多維數(shù)據(jù)模型按照多維數(shù)據(jù)模型的不同實(shí)現(xiàn)方式:1.MOLAP(多維OLAP系統(tǒng))——用多維數(shù)組來存儲(chǔ)多維數(shù)據(jù)集的OLAP系統(tǒng)2.ROLAP(關(guān)系OLAP系統(tǒng))——將所有信息都轉(zhuǎn)成關(guān)系的OLAP系統(tǒng)。25.2OLAP:多維數(shù)據(jù)模型對于每個(gè)維,相關(guān)的一組屬性之間可能具有層次關(guān)系countystatecityyearguarterweekmonthdate25.2OLAP:多維數(shù)據(jù)模型有關(guān)維的信息也可以表示成一組關(guān)系:locations(locid:integer,city:string,state:string,county:string)Products(pid:integer,pname:string,category:string,price:real)Times(timeid:integer,date:string,week:integer,month:integer,quarter:integer,year:integer,holiday-flag:boolean)事實(shí)表:將維和度量屬性聯(lián)系起來的關(guān)系稱為事實(shí)表,比維表大的多Sales(pid:imteger,timeid:integer,locid:integer,sales:integer)ROLAP(關(guān)系OLAP系統(tǒng))——將所有信息都轉(zhuǎn)成關(guān)系的OLAP系統(tǒng)。25.2OLAP:多維數(shù)據(jù)模型ROLAP結(jié)構(gòu)用RDBMS或擴(kuò)展的RDBMS來管理多維數(shù)據(jù),用關(guān)系的表來組織和存儲(chǔ)多維數(shù)據(jù)兩類表:一類是事實(shí)(fact)表,另一類是維表事實(shí)表用來描述和存儲(chǔ)多維立方體的度量值及各個(gè)維的碼值;維表用來描述維信息。ROLAP用“星形模式”和“雪片模式”來表示多維數(shù)據(jù)模型25.2OLAP:多維數(shù)據(jù)模型星形模式(StarSchema)通常由一個(gè)中心表(事實(shí)表)和一組維表組成如下圖所示的星形模式
星形模式的中心是銷售事實(shí)表維表有時(shí)間維表、顧客維表、銷售員維表、制造商維表和產(chǎn)品維表
圖星形模式25.2OLAP:多維數(shù)據(jù)模型雪片模式就是對維表按層次進(jìn)一步細(xì)化后形成的圖雪片模式25.2.1OLAP查詢(1)在一個(gè)或者多個(gè)維上對某個(gè)度量屬性進(jìn)行聚集操作得到總的銷售總額每個(gè)州的總銷售額(2)向上綜合對某個(gè)維的不同層次匯總例子:如果已知某個(gè)城市的總銷售額,可以向上綜合得到每個(gè)州的總銷售額。(3)向下細(xì)化:向上綜合的逆例子:給定每個(gè)州的總銷售額,可以在location維內(nèi)向下細(xì)化,得到每個(gè)城市的銷售額。(4)旋轉(zhuǎn)操作:在選擇的維上聚集例子:在location和time旋轉(zhuǎn)得到交叉表(5)切片:在一個(gè)或多個(gè)維上進(jìn)行等值選擇切塊:在一個(gè)或多個(gè)維上進(jìn)行區(qū)域選擇25.2.1OLAP查詢6381144381071457535110176223399WICATOTAL199519961997TOTAL
每年每個(gè)州總銷售額底部匯總行——每個(gè)州總sales
右部匯總行——每年總sales
右下角----總部銷售額(4)旋轉(zhuǎn)操作:在選擇的維上聚集例:①在location和time維旋轉(zhuǎn)得到交叉表,每個(gè)地址每個(gè)時(shí)間段的銷售額的表格②旋轉(zhuǎn)時(shí)可以結(jié)合聚集操作,下圖是每個(gè)州每年的銷售數(shù)據(jù)25.2.2和SQL查詢的比較SQL:1999支持多維模型的查詢例:通過旋轉(zhuǎn)得到的交叉表,也可以通過SQL查詢集合得到相同結(jié)果①SELECTSUM(S.sales)FROMSalesS,TimeT,LocationLWHERES.timeid=T.timeidANDS.locid=L.locidGROUPBYT.year,L.state//產(chǎn)生表格主體部分的條目②SELECTSUM(S.sales)FROMSalesS,TimeTWHERES.timeid=T.timeidGROUPBYT.year//表格右部匯總行③SELECTSUM(S.sales)FROMSalesS,LocationLWHERES.locid=L.locidGROUPBYL.state//表格底部匯總列數(shù)據(jù)④SELECTSUM(S.sales)FROMSalesS,LocationLWHERES.locid=L.locid//右下角累計(jì)*如果在K個(gè)維上旋轉(zhuǎn),則產(chǎn)生2K個(gè)SQL查詢CUBE操作SQL:1999擴(kuò)展了GROUPBY操作,帶關(guān)鍵字CUBE的GROUPBY從句相當(dāng)于一組GROUPBY語句,其中每一個(gè)GROUPBY對應(yīng)K維的一子集例:SELECTT.year,L.state,SUM(S.sales)FROMSalesS,TimeT,LocationLWHERES.timeid=T.timeidANDS.locid=L.locidGROUPBYCUBE(T.year,L.state)結(jié)果是前面交叉表格CUBE操作CUBEpid,locid,timeidBYSUMsales在集合{pid,locid,timeid}的八個(gè)不同于集合(包括空集合)上對Sales表進(jìn)行向上綜合操作。等價(jià)于下面8個(gè)SQL語句:
SELECTSUM(S.sales)FROMSalesSGROUPBYgroup-list{pid,locid,timeid}{pidlocid}{pidtimeid}{locidtimeid}{pid}{locid}{timeid}{}CUBE查詢中各分組查詢的網(wǎng)格表示25.3OLAP實(shí)現(xiàn)技術(shù)新的索引技術(shù)位圖索引連接索引25.3.1位圖索引Customers(custid,name,sex,rating)Sexcustidnamesexratingrating10100110112JoeM3115RamM5119SueF5112WooM40010000001000010001025.3.1位圖索引稀疏屬性-含少量取值的屬性例:sex,2個(gè)值;rating,1-5的整數(shù)位圖索引-思想:用位序列表示稀疏屬性的值,每個(gè)可能的取值需要用一個(gè)位來表示。屬性的這組位向量稱屬性的位圖索引。優(yōu)點(diǎn):使用位操作高效地完成查詢。例:找出有多少男性客戶的rating值為5
將屬性sex的第1個(gè)位向量和屬性rating第5個(gè)位向量相與將結(jié)果向量中的1進(jìn)行計(jì)數(shù)得到結(jié)果25.3.2連接索引例1:Customer(custid)和Purchases(rid)通過屬性custid進(jìn)行聯(lián)接創(chuàng)建集合<C,P>C—表示Customers中custid為C的記錄
P—表示Purchases中rid為P的記錄兩個(gè)記錄滿足連接條件可以進(jìn)行連接例2:星型模式:事實(shí)表總是要和若干個(gè)維表進(jìn)行連接
Sales,Products,Times,Locations連接連接索引<S,P,t,l>S,P,t,l是滿足連接條件的元組
問題:連接索引的數(shù)目會(huì)增長很快25.4SQL:1999中的查詢*下面的查詢使用傳統(tǒng)的SQL-92很難表達(dá):①查詢每種產(chǎn)品的月銷售額的變化的百分比;(√)②查詢總銷售額最高的5種產(chǎn)品;(√)③跟蹤n天的平均銷售額變化;(對于每一天算出前后n天的平均日銷售額)(×)SQL:1999的窗口子句,可以表達(dá)上面查詢TheWINDOWClauseTheWINDOWClauseSELECTL.state,T.month,AVG(S.sales)OVERWASmovavgFROMSalesS,TimesT,LocationLWHERES.timeid=T.timeidANDS.locid=L.locidWINDOWWAS(PARTITIONBYL.stateORDERBYT.monthRANGEBETWEENINTERUAL‘1’MONTHPRECEDINGANDINTERUAL‘1’MONTHFOLLOWING)處理FROM和WHERE子句生成臨時(shí)表TempTemp按照PARTITIONBY子句被分區(qū)(和GROUPBY相似,但是分區(qū)中每一行都產(chǎn)生一個(gè)結(jié)果行,不是每個(gè)分區(qū)產(chǎn)生一個(gè)結(jié)果行)分個(gè)分區(qū)中的行是根據(jù)T.month排序的為分區(qū)中的每一行建立窗口邊界。(上例:每一行的窗口包含該行本身和所有的month值加1和減1之間的行。即month值為6月的行的窗口包含所有month值為5,6,7的行)計(jì)算分區(qū)中每行的聚集函數(shù),首先要確定它的窗口,然后計(jì)算窗口中行的指定的聚集函數(shù)??紤]某個(gè)州的某一行數(shù)據(jù),給出在特定時(shí)間某種特定商品的銷售額;該行的窗口包括所有描述某個(gè)州中本月、前一個(gè)月和下一個(gè)月的銷售額的行,movage是這段時(shí)間的銷售額的平均值25.5快速得到查詢結(jié)果應(yīng)用趨勢:①查詢處理的重點(diǎn)-盡快給用戶提供最初的部分查詢結(jié)果,或者是最好的部分查詢結(jié)果②對用戶提交的復(fù)雜查詢,希望能盡快得到近似的查詢結(jié)果,然后再進(jìn)一步精練處理直到最后得到精確查詢結(jié)果。25.5.1得到前N個(gè)結(jié)果的查詢得到銷售額排在前面的少量商品傳統(tǒng)方法-先對所有商品按銷售額排序,按這個(gè)順序返回結(jié)果;如果商品種類很多,代價(jià)太高DBMS允許用戶指定需要多少條結(jié)果記錄,據(jù)此優(yōu)化執(zhí)行
SELECTP.pid,P.name,S.salesFROMSalesS,ProductsPWHERES.pid=P.pidANDS.locid=1ANDS.timeid=3ORDERBYS.salesDESCOPTIMIZEFOR10ROWS25.5.1得到前N個(gè)結(jié)果的查詢假設(shè)能根據(jù)Sales上的直方圖得到銷售額的分布情況,然后選定只有排在前十位的商品的銷售額才能達(dá)到的值C。增加選擇條件sales>CSELECTP.pid,P.name,S.salesFROMSalesS,ProductsPWHERES.pid=P.pidANDS.locid=1ANDS.timeid=3ANDS.sales>CORDERBYS.salesDESC效果取決于是否能精確估計(jì)出域值C25.5.2聯(lián)機(jī)聚集(onlineaggregation)按州得到平均銷售額的查詢SELECTL.state,AVG(S.sales)FROMSalesS,LocationLWHERES.locid=L.locidGROUPBYL.state當(dāng)關(guān)系Sales和Locations規(guī)模較大時(shí),查詢執(zhí)行代價(jià)很高傳統(tǒng)查詢總是需要返回完整的查詢結(jié)果,因此響應(yīng)速度慢25.5.2聯(lián)機(jī)聚集(onlineaggregation)聯(lián)機(jī)聚集-收到用戶提交查詢后,盡可能快的返回一個(gè)近似的查詢結(jié)果,隨著計(jì)算的繼續(xù),不斷對查詢結(jié)果進(jìn)行更新,這種方法叫聯(lián)機(jī)聚集。用統(tǒng)計(jì)技術(shù)和樣品元組聚集代替簡單掃描聚集表,我們能給出一個(gè)范圍。例如:“Alabama州的平均銷售額是
5232.5±103.4可信度97%”。阻塞算法-必須在處理完全部的輸入記錄后,才能產(chǎn)生輸出結(jié)果的算法為實(shí)現(xiàn)聯(lián)機(jī)聚集,DBMS需要把統(tǒng)計(jì)技術(shù)與非阻塞算法結(jié)合起來。聯(lián)機(jī)聚集方法:狀態(tài)優(yōu)先級州平均銷售額可信度(%)區(qū)間⊙Alabama5232.597103.4○Alaska2832.593132.2⊙Arizona6432.59852.3……○Wyoming4243.592152.3進(jìn)度條-當(dāng)前計(jì)算出的銷售額和準(zhǔn)確值還有多遠(yuǎn)優(yōu)先權(quán)-是否優(yōu)先計(jì)算相應(yīng)州的平均銷售額,可改變優(yōu)先權(quán),優(yōu)先級高,計(jì)算快,可信度大。有97%的可能性位于區(qū)間〔5232.5-103.4,5232.5+103.4〕為實(shí)現(xiàn)聯(lián)機(jī)聚集,DBMS需要把為近似查詢提供可信區(qū)間的統(tǒng)計(jì)技術(shù)與關(guān)系操作的非阻塞算法、流水線并行技術(shù)結(jié)合起來。小結(jié):①?zèng)Q策支持正在快速發(fā)展決策支持-包括對當(dāng)前和歷史數(shù)據(jù)進(jìn)行分析以得到發(fā)展趨勢,產(chǎn)生匯總數(shù)據(jù)等等。數(shù)據(jù)倉庫技術(shù)是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫技術(shù)基礎(chǔ)之上發(fā)展而來,主要目的是為決策提供支持。②數(shù)據(jù)倉庫提供來自種類不同的信息系統(tǒng)的集成化和歷史化的信息,為有關(guān)部門或企業(yè)進(jìn)行全局范圍的戰(zhàn)略決策和長期趨勢分析提供了有效支持。數(shù)據(jù)倉庫使用尖端分析技術(shù):復(fù)雜SQL查詢和OLAP多維查詢數(shù)據(jù)庫設(shè)計(jì)新技術(shù):支持索引、視圖維護(hù)、交互查詢
數(shù)據(jù)挖掘技術(shù)一、數(shù)據(jù)挖掘的概念概念:數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)并提取隱藏在內(nèi)的、人們事先不知道的但又可能有用的信息和知識的一種新技術(shù)目的:幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)經(jīng)營者被忽略的要素?cái)?shù)據(jù)挖掘技術(shù)涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等多種技術(shù)決策支持系統(tǒng)(DSS)跨入了一個(gè)新階段數(shù)據(jù)挖掘技術(shù)(續(xù))二、數(shù)據(jù)挖掘和傳統(tǒng)分析方法的區(qū)別本質(zhì)區(qū)別:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息,發(fā)現(xiàn)知識數(shù)據(jù)挖掘所得到的信息應(yīng)具有事先未知、有效和可實(shí)用3個(gè)特征數(shù)據(jù)挖掘技術(shù)(續(xù))三、數(shù)據(jù)挖掘的數(shù)據(jù)源從數(shù)據(jù)倉庫中來優(yōu)點(diǎn):許多數(shù)據(jù)不一致的問題都較好地解決了,在數(shù)據(jù)挖掘時(shí)大大減少了清理數(shù)據(jù)的工作量缺點(diǎn):建立數(shù)據(jù)倉庫是一項(xiàng)巨大的工程,耗時(shí)耗力從數(shù)據(jù)庫中來如果只是為了數(shù)據(jù)挖掘,可以把一個(gè)或幾個(gè)OLTP數(shù)據(jù)庫導(dǎo)入一個(gè)只讀的數(shù)據(jù)庫中,然后在上面進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)(續(xù))四、數(shù)據(jù)挖掘的功能概念描述關(guān)聯(lián)分析分類和預(yù)測聚類孤立點(diǎn)檢測趨勢和演變分析數(shù)據(jù)挖掘技術(shù)(續(xù))數(shù)據(jù)挖掘步驟明確挖掘任務(wù)對所選擇數(shù)據(jù)進(jìn)行預(yù)處理選擇具體的算法進(jìn)行挖掘?qū)ν诰虺龅哪J竭M(jìn)行評價(jià)消減重復(fù)部分展現(xiàn)最終的結(jié)果典型的數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)小結(jié)數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲(chǔ)和組織OLAP集中于數(shù)據(jù)的分析數(shù)據(jù)挖掘則致力于知識的自動(dòng)發(fā)現(xiàn)將它們結(jié)合起來就成為一種新的DSS(DecisionSupportSystem)構(gòu)架,成為商務(wù)智能(BusinessIntelligence,BI)的3個(gè)支柱即:DW+OLAP+DM→支持BI的可行方案25.6視圖和決策支持視圖:1>簡化應(yīng)用程序視圖,實(shí)際上存在的只是它的腳本,內(nèi)容并不真正存在。對復(fù)雜的應(yīng)用程序從功能角度進(jìn)行分析,將可以與其它的應(yīng)用程序共用的那一部分分離出來。對這部分功能,視具體情況可作成不同的數(shù)據(jù)庫實(shí)體(如過程),有些可以作成視圖。上層應(yīng)用程序可以從視圖中取數(shù)據(jù)。2>實(shí)現(xiàn)一定的權(quán)限控制可根據(jù)需要對表中的一部分記錄作成一個(gè)視圖可對表中的一部分字段做一個(gè)視圖,
二者兼而有之,以供一定的角色使用25.6.1視圖OLAP和數(shù)據(jù)倉庫視圖技術(shù)和OLAP應(yīng)用以及數(shù)據(jù)倉庫的關(guān)系非常密切。
OLAP查詢一般都是聚集查詢視圖實(shí)體化方法:將事先定義好的視圖計(jì)算出來并進(jìn)行存儲(chǔ),當(dāng)用戶提交的查詢和視圖相關(guān)時(shí),直接使用前面計(jì)算出的結(jié)果。
CUBE操作是聚集查詢的集合。優(yōu)化方法思想:首先選擇將聚集查詢的某個(gè)子集實(shí)體化,在進(jìn)行CUBE操作時(shí),利用前面形成的實(shí)體化視圖,并進(jìn)行一些額外的計(jì)算來完成操作。數(shù)據(jù)倉庫可以簡單地看成一系列異步復(fù)制的關(guān)系表和需要周期性進(jìn)行維護(hù)的視圖。25.6.2視圖上的查詢①視圖:計(jì)算得到每個(gè)category和state的產(chǎn)品的銷售額
CREATVIEWRegionalSales(category,sales,state)
ASSELECTP.category,S.sales,L.stateFROMProductsP,SalesS,LocationsLWHEREP.pid=S.pidANDS.locid=L.locid②查詢:每個(gè)category和state的總銷售額
SELECTR.category,R.state,SUM(R.sales)FROMRegionalSalesRGROUPBYR.category,R.state③修改查詢:用視圖定義替換RegionalSalesSELECTRcategory,R.state,SUM(R.sales)FROM(SELECTP.category,S.sales,L.stateFROMProductsP,SalesS,LoctionsLWHEREP.pid=S.pidANDS.Locid=L.locid)ASRGROUPBYR.category,R.state*用戶提交的基于視圖的查詢可用查詢修改技術(shù)來實(shí)現(xiàn)。如果基表在遠(yuǎn)程數(shù)據(jù)庫,查詢修改方法將變的不可行。25.7視圖實(shí)體化視圖實(shí)體化方法—將定義好的視圖計(jì)算出來并進(jìn)行存儲(chǔ)。當(dāng)用戶提交的查詢和視圖相關(guān)時(shí),直接使用前面計(jì)算出的結(jié)果。
①實(shí)體化的視圖可以與基表一樣使用。②可以在上面創(chuàng)建索引以加快查詢速度。缺點(diǎn)③當(dāng)關(guān)系表數(shù)據(jù)更新時(shí),需要對相關(guān)的實(shí)體化視圖進(jìn)行維護(hù)。25.7.1視圖實(shí)體化假如視圖RegionalSales已經(jīng)實(shí)體化,并且以<category,state,sales>作為B+樹索引碼進(jìn)行存儲(chǔ)。則只對索引進(jìn)行掃描就可回答查詢
SELECTR.state,SUM(R.sales)FROMRegionalSalesRWHERER.category=‘Laptop’GROUPBYR.state處理上面查詢,首先使用實(shí)體化視圖上的索引得到category=‘Laptop’的第一個(gè)索引葉子結(jié)點(diǎn),然后在葉子層次進(jìn)行順序掃描,直到category的值不等于‘Laptop’為止。25.7.1視圖實(shí)體化25.8實(shí)體化視圖的維護(hù)實(shí)體化視圖一個(gè)視圖的元組存儲(chǔ)在數(shù)據(jù)庫中叫實(shí)體化提供快速存取當(dāng)基表發(fā)生變化時(shí)需要維護(hù)視圖理想的,需要一個(gè)增加的視圖維護(hù)算法刷新—當(dāng)視圖依賴的表發(fā)生變化時(shí),使實(shí)體化視圖與之一致稱為對實(shí)體化視圖的刷新維護(hù)—刷新的過程稱為維護(hù)25.8實(shí)體化視圖的維護(hù)考慮:(1)當(dāng)基本表改變時(shí)如何刷新視圖?如何進(jìn)行視圖的增量維護(hù),即當(dāng)基本表改變時(shí)不需要從頭計(jì)算視圖。如何在分布環(huán)境下,如數(shù)據(jù)倉庫中維護(hù)視圖(2)什么時(shí)候進(jìn)行視圖的刷新?
視圖維護(hù)的二個(gè)步驟:傳播:當(dāng)數(shù)據(jù)庫發(fā)生變化時(shí)改變視圖刷新:根據(jù)數(shù)據(jù)的變化實(shí)體化視圖表25.8實(shí)體化視圖的維護(hù)視圖的維護(hù)策略⑴立即的方法:
▲當(dāng)基本表改變時(shí)簡單地重新計(jì)算視圖;把刷新作為修改數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二手屋交易協(xié)議書格式
- 產(chǎn)業(yè)園區(qū)國有土地使用權(quán)出讓合同(整體出讓)
- 樂隊(duì)錄音及后期制作合同
- 2025年標(biāo)準(zhǔn)房產(chǎn)證抵押借款協(xié)議
- 交通意外賠償合同模板
- 個(gè)人代理人壽險(xiǎn)代理合同書正式版
- 產(chǎn)品加工合同范本
- 個(gè)人項(xiàng)目合作合同:目標(biāo)協(xié)議
- 產(chǎn)品安全責(zé)任保險(xiǎn)合同
- 產(chǎn)品制造合作合同
- 個(gè)人安全與社會(huì)責(zé)任的基本知識概述
- 建筑裝飾工程計(jì)量與計(jì)價(jià)試題一及答案
- 簡易勞務(wù)合同電子版
- 明代文學(xué)緒論
- 通用稅務(wù)自查情況說明報(bào)告(7篇)
- 體育賽事的策劃、組織與實(shí)施 體育賽事利益相關(guān)者
- 分析化學(xué)(高職)PPT完整版全套教學(xué)課件
- 晚熟的人(莫言諾獎(jiǎng)后首部作品)
- m拱頂儲(chǔ)罐設(shè)計(jì)計(jì)算書
- 2023外貿(mào)業(yè)務(wù)協(xié)調(diào)期中試卷
- 新人教鄂教版(2017)五年級下冊科學(xué)全冊教學(xué)課件
評論
0/150
提交評論