數(shù)據(jù)挖掘數(shù)據(jù)立方體課件_第1頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)立方體課件_第2頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)立方體課件_第3頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)立方體課件_第4頁(yè)
數(shù)據(jù)挖掘數(shù)據(jù)立方體課件_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)泛化數(shù)據(jù)泛化數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象通常包含原始概念層的細(xì)節(jié)信息,數(shù)據(jù)泛化就是將數(shù)據(jù)庫(kù)中的跟任務(wù)相關(guān)的大型數(shù)據(jù)集從相對(duì)較低的概念層抽象到較高的概念層的過(guò)程。主要方法:數(shù)據(jù)立方體(OLAP使用的方法)面向?qū)傩缘臍w納方法12345概念層(Month,city,customer_group)(Month,*,*)第1頁(yè)/共47頁(yè)數(shù)據(jù)泛化數(shù)據(jù)泛化12345概念層(Month,city,1兩種不同類別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描述性挖掘和預(yù)測(cè)性挖掘描述性挖掘:以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。E.g.數(shù)據(jù)泛化就是一種描述性數(shù)據(jù)挖掘預(yù)測(cè)性數(shù)據(jù)挖掘:通過(guò)分析數(shù)據(jù)建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。E.g分類、回歸分析等第2頁(yè)/共47頁(yè)兩種不同類別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描2數(shù)據(jù)立方體的物化數(shù)據(jù)立方體有利于多維數(shù)據(jù)的聯(lián)機(jī)分析處理數(shù)據(jù)立方體使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能方體計(jì)算(物化)的挑戰(zhàn):海量數(shù)據(jù),有限的內(nèi)存和時(shí)間海量數(shù)據(jù)運(yùn)算對(duì)大量計(jì)算時(shí)間和存儲(chǔ)空間的要求第3頁(yè)/共47頁(yè)數(shù)據(jù)立方體的物化數(shù)據(jù)立方體有利于多維數(shù)據(jù)的聯(lián)機(jī)分析處理第3頁(yè)3數(shù)據(jù)立方體---基本概念(1)數(shù)據(jù)立方體可以被看成是一個(gè)方體的格,每個(gè)方體用一個(gè)group-by表示最底層的方體ABC是基本方體,包含所有3個(gè)維最頂端的方體(頂點(diǎn))只包含一個(gè)單元的值,泛化程度最高上卷和下鉆操作與數(shù)據(jù)立方體的對(duì)應(yīng)BA()CABACBCABCP102圖4-1第4頁(yè)/共47頁(yè)數(shù)據(jù)立方體---基本概念(1)數(shù)據(jù)立方體可以被看成是一個(gè)方體4數(shù)據(jù)立方體---基本概念(2)基本方體的單元是基本單元,非基本方體的單元是聚集單元聚集單元在一個(gè)或多個(gè)維聚集,每個(gè)聚集維用"*"表示E.g.(city,*,year,measure)m維方體:(a1,a2,...,an)中有m個(gè)不是"*"祖先和子孫單元i-D單元a=(a1,a2,...,an,measuresa)是j-D單元b=(b1,b2,...,bn,

measureb)的祖先,當(dāng)且僅當(dāng)(1)i<j,并且(2)對(duì)于1≤m≤n,只要am≠"*"就有am=bm第5頁(yè)/共47頁(yè)數(shù)據(jù)立方體---基本概念(2)基本方體的單元是基本單元,非基5冰山立方體(1)為了確保快速的聯(lián)機(jī)分析,有時(shí)希望預(yù)計(jì)算整個(gè)立方體(所有方體的所有單元)n維數(shù)據(jù)立方體包含2n個(gè)方體如果考慮概念分層部分物化是存儲(chǔ)空間和響應(yīng)時(shí)間的折中方案事實(shí)上,很多高維方體都是稀疏的(包含很多度量值為0的單元)第6頁(yè)/共47頁(yè)冰山立方體(1)為了確??焖俚穆?lián)機(jī)分析,有時(shí)希望預(yù)計(jì)算整個(gè)6冰山立方體(2)對(duì)于稀疏的數(shù)據(jù)立方體,我們往往通過(guò)指定一個(gè)最小支持度閾值(也稱冰山條件),來(lái)進(jìn)行部分物化,這種部分物化的方體稱之為冰山方體。比如:COMPUTECUBESales_IcebergASSELECTmonth,city,cust_grp,COUNT(*)FROMSales_InfoCUBEBYmonth,city,cust_grpHAVINGCOUNT(*)>=min_sup第7頁(yè)/共47頁(yè)冰山立方體(2)對(duì)于稀疏的數(shù)據(jù)立方體,我們往往通過(guò)指定一個(gè)7閉立方體(1)冰山方體的計(jì)算通過(guò)冰山條件(例:HAVINGCOUNT(*)>=min_sup)來(lái)減輕計(jì)算數(shù)據(jù)立方體中不重要的聚集單元的負(fù)擔(dān),然而仍有大量不感興趣的單元需要計(jì)算比如:最小支持度為10,假定100維的數(shù)據(jù)立方體有兩個(gè)基本方體:{(a1,a2,a3,…,a100):10,(a1,a2,b3,…,b100):10},假設(shè)冰山條件為最小支持度10則需計(jì)算和存儲(chǔ)的單元仍是海量:2101-6個(gè)如:(a1,a2,a3,…,a99,*):10,(a1,*,a3,…,a100):10第8頁(yè)/共47頁(yè)閉立方體(1)冰山方體的計(jì)算通過(guò)冰山條件(例:HAVING8閉立方體(2)閉單元一個(gè)單元c是閉單元,如果單元c不存在一個(gè)跟c有著相同度量值的后代d例如:上述例子中,任何一個(gè)(a1,a2,a3,*,*,…,*):10,都和他的后代有相同度量值閉立方體:一個(gè)僅有閉單元組成的數(shù)據(jù)立方體例如:(a1,a2,*,*,…,*):20(a1,a2,a3,…,a100):10(a1,a2,b3,…,b100):10第9頁(yè)/共47頁(yè)閉立方體(2)閉單元(a1,a2,*,*,…,*):20(9立方體外殼部分物化的另外一種策略:僅預(yù)計(jì)算涉及少數(shù)維的方體(比如3到5維),這些立方體形成對(duì)應(yīng)數(shù)據(jù)立方體的外殼利用外殼對(duì)其他的維組合查詢進(jìn)行快速計(jì)算仍將導(dǎo)致大量方體(n很大時(shí)),類似的我們可以利用方體的興趣度,選擇只預(yù)計(jì)算立方體外殼的部分第10頁(yè)/共47頁(yè)立方體外殼部分物化的另外一種策略:僅預(yù)計(jì)算涉及少數(shù)維的方體(10立方體計(jì)算的一般策略(1)一般,有兩種基本結(jié)構(gòu)用于存儲(chǔ)方體關(guān)系OLAP(ROLAP)底層使用關(guān)系模型存儲(chǔ)數(shù)據(jù)多維OLAP(MOLAP)底層使用多維數(shù)組存儲(chǔ)數(shù)據(jù)無(wú)論使用哪種存儲(chǔ)方法,都可以使用以下立方體計(jì)算的一般優(yōu)化技術(shù)優(yōu)化技術(shù)1:排序、散列和分組將排序、散列(hashing)和分組操作應(yīng)用于維的屬性,以便對(duì)相關(guān)元組重新排序和聚類第11頁(yè)/共47頁(yè)立方體計(jì)算的一般策略(1)一般,有兩種基本結(jié)構(gòu)用于存儲(chǔ)方體11立方體計(jì)算的一般策略(2)優(yōu)化技術(shù)2:同時(shí)聚集和緩存中間結(jié)果由先前計(jì)算的較低層聚集來(lái)計(jì)算較高層聚集,而非從基本方體開(kāi)始計(jì)算,減少I(mǎi)/O優(yōu)化方法3:當(dāng)存在多個(gè)子女時(shí),由最小的子女聚集例如,計(jì)算Cbranch,可以利用C(branch,year)或者C(branch,item),顯然利用前者更有效優(yōu)化技術(shù)4:可以使用Apriori剪枝方法有效的計(jì)算冰山方體如果給定的單元不能滿足最小支持度,則該單元的后代也都不滿足最小支持度第12頁(yè)/共47頁(yè)立方體計(jì)算的一般策略(2)優(yōu)化技術(shù)2:同時(shí)聚集和緩存中間結(jié)12完全立方體計(jì)算的多路數(shù)組聚集方法(1)使用多維數(shù)組作為基本數(shù)據(jù)結(jié)構(gòu),計(jì)算完全數(shù)據(jù)立方體一種使用數(shù)組直接尋址的典型MOLAP方法計(jì)算步驟(1)將數(shù)組分成塊(chunk,一個(gè)可以裝入內(nèi)存的小子方)塊還可以進(jìn)一步被壓縮,以避免空數(shù)組單元導(dǎo)致的空間浪費(fèi)(處理稀疏立方體)(2)通過(guò)訪問(wèn)立方體單元,計(jì)算聚集??梢詢?yōu)化訪問(wèn)單元組的次序,使得每個(gè)單元被訪問(wèn)的次數(shù)最小化,從而減少內(nèi)存訪問(wèn)和磁盤(pán)I/O的開(kāi)銷。第13頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(1)使用多維數(shù)組作為基本數(shù)13完全立方體計(jì)算的多路數(shù)組聚集方法(2)一個(gè)包含A,B,C的3-D數(shù)組,假定維A,B,C的基數(shù)分別是40、400和4000A(month)40個(gè)值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個(gè)值B(city)400個(gè)值442856402452362060哪個(gè)是多路數(shù)組聚集的最佳遍歷次序?將要物化的立方體:基本方體ABC,已計(jì)算,對(duì)應(yīng)于給定的3-D數(shù)組2D方體AB,AC和BC1D方體A,B,C0D頂點(diǎn)方體,記作all第14頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(2)一個(gè)包含A,B,C的314完全立方體計(jì)算的多路數(shù)組聚集方法(3)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400通過(guò)掃描ABC的1~4塊,計(jì)算出塊b0c0,然后塊內(nèi)存可以分配給下一刻b1c0,如此繼續(xù),可計(jì)算整個(gè)BC方體(一次只需一個(gè)BC塊在內(nèi)存)第15頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(3)A(month)B2915完全立方體計(jì)算的多路數(shù)組聚集方法(4)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060BBC方體的計(jì)算,必須掃描64塊中的每一塊;計(jì)算其他塊亦然多路數(shù)組聚集方法避免重復(fù)掃描:當(dāng)一個(gè)3D塊在內(nèi)存時(shí),向每一個(gè)平面同時(shí)聚集思考:計(jì)算時(shí)需要多少內(nèi)存?第16頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(4)AB29303132116完全立方體計(jì)算的多路數(shù)組聚集方法(5)方法:各平面要按他們大小的升序排列進(jìn)行排序和計(jì)算詳見(jiàn)書(shū)P108例4-4思想:將最小的平面放在內(nèi)存中,對(duì)最大的平面每次只是取并計(jì)算一塊第17頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(5)方法:各平面要按他們大17完全立方體計(jì)算的多路數(shù)組聚集方法(6)根據(jù)1到64的掃描次序,在塊內(nèi)存中保存所有相關(guān)的2-D平面所需的最小存儲(chǔ)為:40×400(用于整個(gè)AB平面)+40×1000(用于AC平面一行)+100×1000(用于BC平面一塊)=156,000這種方法的限制:只有在維數(shù)比較小的情況下,效果才比較理想(要計(jì)算的立方體隨維數(shù)指數(shù)增長(zhǎng))如果維的數(shù)目比較多,可以考慮使用“自底向上的計(jì)算”或者時(shí)“冰山方體”計(jì)算第18頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(6)根據(jù)1到64的掃描次序18數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化(2)第19頁(yè)/共47頁(yè)數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化(2)第19頁(yè)/共47頁(yè)19數(shù)據(jù)泛化數(shù)據(jù)泛化通過(guò)將相對(duì)層次較低的值(如屬性age的數(shù)值)用較高層次的概念(如青年、中年、老年)置換來(lái)匯總數(shù)據(jù)主要方法:數(shù)據(jù)立方體(OLAP使用的方法)面向?qū)傩缘臍w納方法12345概念層(17,18,19,…,34,35,36,…,56,57,…)(青年,中年,老年)第20頁(yè)/共47頁(yè)數(shù)據(jù)泛化數(shù)據(jù)泛化12345概念層(17,18,19,…,3420什么是概念描述?概念描述是一種數(shù)據(jù)泛化的形式。概念通常指數(shù)據(jù)的匯集如frequentbuyers,graduatestudents概念描述產(chǎn)生數(shù)據(jù)的特征化和比較描述,當(dāng)所描述的概念所指的是對(duì)象類時(shí),也稱為類描述特征化:提供給定數(shù)據(jù)匯集的簡(jiǎn)潔匯總比較:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述第21頁(yè)/共47頁(yè)什么是概念描述?概念描述是一種數(shù)據(jù)泛化的形式。第21頁(yè)/共421概念描述VS.OLAP相似處:數(shù)據(jù)泛化對(duì)數(shù)據(jù)的匯總在不同的抽象級(jí)別上進(jìn)行呈現(xiàn)區(qū)別:復(fù)雜的數(shù)據(jù)類型和聚集OLAP中維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡(jiǎn)單的數(shù)據(jù)分析模型概念描述可以處理復(fù)雜數(shù)據(jù)類型的屬性及其聚集用戶控制與自動(dòng)處理OLAP是一個(gè)由用戶控制的過(guò)程概念描述則表現(xiàn)為一個(gè)更加自動(dòng)化的過(guò)程第22頁(yè)/共47頁(yè)概念描述VS.OLAP相似處:第22頁(yè)/共47頁(yè)22數(shù)據(jù)特征化的面向?qū)傩缘臍w納一種面向關(guān)系數(shù)據(jù)查詢的、基于匯總的在線數(shù)據(jù)分析技術(shù)。受數(shù)據(jù)類型和度量類型的約束比較少面向?qū)傩詺w納的基本思想:使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù)通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化,方法是屬性刪除或者是屬性泛化通過(guò)合并相等的,泛化的廣義元組,并累計(jì)他們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作通過(guò)與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶第23頁(yè)/共47頁(yè)數(shù)據(jù)特征化的面向?qū)傩缘臍w納一種面向關(guān)系數(shù)據(jù)查詢的、基于匯總的23數(shù)據(jù)聚焦(1)目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,在DMQL中他們由inrelevanceto子句表示。示例:DMQL:描述Big-University數(shù)據(jù)庫(kù)中研究生的一般特征 useBig_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”第24頁(yè)/共47頁(yè)數(shù)據(jù)聚焦(1)目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,24數(shù)據(jù)聚焦(2)上述DMQL查詢轉(zhuǎn)換為如下SQL查詢,收集任務(wù)相關(guān)數(shù)據(jù)集Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin{"Msc","M.A.","MBA","PhD"}初始工作關(guān)系第25頁(yè)/共47頁(yè)數(shù)據(jù)聚焦(2)上述DMQL查詢轉(zhuǎn)換為如下SQL查詢,收集任25數(shù)據(jù)泛化數(shù)據(jù)泛化的兩種常用方法:屬性刪除和屬性泛化屬性刪除的適用規(guī)則:對(duì)初始工作關(guān)系中具有大量不同值的屬性,符合以下情況,應(yīng)使用屬性刪除:在此屬性上沒(méi)有泛化操作符(比如該屬性沒(méi)有定義相關(guān)的概念分層)該屬性的較高層概念用其他屬性表示屬性泛化的使用規(guī)則:如果初始工作關(guān)系中的某個(gè)屬性具有大量不同值,且該屬性上存在泛化操作符,則使用該泛化操作符對(duì)該屬性進(jìn)行數(shù)據(jù)泛化操作第26頁(yè)/共47頁(yè)數(shù)據(jù)泛化數(shù)據(jù)泛化的兩種常用方法:屬性刪除和屬性泛化第26頁(yè)/26屬性泛化控制確定什么是“具有大量的不同值”,控制將屬性泛化到多高的抽象層。屬性泛化控制的兩種常用方法:屬性泛化閾值控制對(duì)所有屬性設(shè)置一個(gè)泛化閾值或者是對(duì)每個(gè)屬性都設(shè)置一個(gè)閾值(一般為2到8)泛化關(guān)系閾值控制為泛化關(guān)系設(shè)置一個(gè)閾值,確定泛化關(guān)系中,不同元組的個(gè)數(shù)的最大值。(通常為10到30,允許在實(shí)際應(yīng)用中進(jìn)行調(diào)整)兩種技術(shù)的順序使用:使用屬性泛化閾值控制來(lái)泛化每個(gè)屬性,然后使用關(guān)系閾值控制進(jìn)一步壓縮泛化的關(guān)系第27頁(yè)/共47頁(yè)屬性泛化控制確定什么是“具有大量的不同值”,控制將屬性泛化到27歸納過(guò)程中的聚集值計(jì)算在歸納過(guò)程中,需要在不同的抽象層得到數(shù)據(jù)的量化信息或統(tǒng)計(jì)信息聚集值計(jì)算過(guò)程聚集函數(shù)count與每個(gè)數(shù)據(jù)庫(kù)元組相關(guān)聯(lián),初始工作關(guān)系的每個(gè)元組的值初始化為1通過(guò)屬性刪除和屬性泛化,初始工作關(guān)系中的元組可能被泛化,導(dǎo)致相等的元組分組新的"相等的元組分組"的計(jì)數(shù)值設(shè)為初始工作關(guān)系中相應(yīng)元組的計(jì)數(shù)和e.g.52個(gè)初始工作關(guān)系中的元組泛化為一個(gè)新的元組T,則T的計(jì)數(shù)設(shè)置為52還可以應(yīng)用其他聚集函數(shù),包括sum,avg等第28頁(yè)/共47頁(yè)歸納過(guò)程中的聚集值計(jì)算在歸納過(guò)程中,需要在不同的抽象層得到數(shù)28面向?qū)傩缘臍w納——示例挖掘BigUniversity數(shù)據(jù)庫(kù)中研究生的一般特征name:刪除屬性(大量不同值,無(wú)泛化操作符)gender:保留該屬性,不泛化major:根據(jù)概念分層向上攀升{文,理,工…}birth_place:根據(jù)概念分層location向上攀升birth_date:泛化為age,再泛化為age_rangeresidence:根據(jù)概念分層location向上攀升phone#:刪除屬性gpa:根據(jù)GPA的分級(jí)作為概念分層第29頁(yè)/共47頁(yè)面向?qū)傩缘臍w納——示例挖掘BigUniversity數(shù)據(jù)庫(kù)中29面向?qū)傩缘臍w納——示例主泛化關(guān)系初始工作關(guān)系第30頁(yè)/共47頁(yè)面向?qū)傩缘臍w納——示例主泛化關(guān)系初始工作關(guān)系第30頁(yè)/共4730面向?qū)傩缘臍w納算法輸入1.DB;2.數(shù)據(jù)挖掘查詢DMQuery;3.屬性列表;4.屬性的概念分層;5.屬性的泛化閾值;輸出主泛化關(guān)系P算法描述:Wget_task_relevant_data(DMQuery,DB)prepare_for_generalization(W)掃描W,收集每個(gè)屬性a的不同值對(duì)每個(gè)屬性a,根據(jù)閾值確定是否刪除,如果不刪除,則計(jì)算其最小期望層次L,并確定映射對(duì)(v,v`)Pgeneralization(W)通過(guò)使用v`代替W中每個(gè)v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出P每個(gè)泛化元組的插入或累積計(jì)數(shù)用數(shù)組表示P第31頁(yè)/共47頁(yè)面向?qū)傩缘臍w納算法輸入第31頁(yè)/共47頁(yè)31導(dǎo)出泛化的表示(1)泛化關(guān)系一部分或者所有屬性得到泛化的關(guān)系,包含計(jì)數(shù)或其他度量值的聚集交叉表二維交叉表使用每行顯示一個(gè)屬性,使用每列顯示另外一個(gè)屬性將結(jié)果集映射到表中可視化工具:條形圖、餅圖、曲線和數(shù)據(jù)立方體瀏覽工具(用單元的大小代表計(jì)數(shù),用單元亮度代表另外的度量)P133-134第32頁(yè)/共47頁(yè)導(dǎo)出泛化的表示(1)泛化關(guān)系P133-134第32頁(yè)/共432導(dǎo)出泛化的表示(2)量化規(guī)則使用t_weight表示主泛化關(guān)系中每個(gè)元組的典型性量化特征規(guī)則將泛化的結(jié)果映射到相應(yīng)的量化特征規(guī)則中,比如:量化特征規(guī)則中每個(gè)析取代表一個(gè)條件,一般,這些條件的析取形成目標(biāo)類的必要條件,因?yàn)樵摋l件是根據(jù)目標(biāo)類的所有情況導(dǎo)出的。也就是說(shuō),目標(biāo)類的所有元組必須滿足該條件。然而,該規(guī)則可能不是目標(biāo)類的充分條件,因?yàn)闈M足同一條件的元組可能屬于其他類。E.g.第33頁(yè)/共47頁(yè)導(dǎo)出泛化的表示(2)量化規(guī)則量化特征規(guī)則中每個(gè)析取代表一個(gè)33挖掘類比較:區(qū)分不同的類類比較挖掘的目標(biāo)是得到將目標(biāo)類與對(duì)比類相區(qū)分的描述。目標(biāo)類和對(duì)比類間必須具有可比性,即兩者間要有相似的屬性或維。本科生VS.研究生;studentVS.address很多應(yīng)用于類特征化的技巧(處理單個(gè)類的多層數(shù)據(jù)的匯總和特征化)可以應(yīng)用于類比較,比如屬性泛化屬性泛化必須在所有比較類上同步進(jìn)行,將屬性泛化到同一抽象層后進(jìn)行比較。E.g.CityVScountry第34頁(yè)/共47頁(yè)挖掘類比較:區(qū)分不同的類類比較挖掘的目標(biāo)是得到將目標(biāo)類與對(duì)比34類比較的過(guò)程數(shù)據(jù)收集通過(guò)查詢處理收集數(shù)據(jù)庫(kù)中相關(guān)的數(shù)據(jù),并將其劃分為一個(gè)目標(biāo)類和一個(gè)或多個(gè)對(duì)比類維相關(guān)分析如果存在較多的維,則應(yīng)當(dāng)對(duì)這些類進(jìn)行維相關(guān)分析,僅選擇高度相關(guān)的維進(jìn)行進(jìn)一步分析。(可以使用基于熵的度量)同步泛化同步的在目標(biāo)類和對(duì)比類上進(jìn)行泛化,泛化到維閾值控制的層,得到主目標(biāo)類關(guān)系/方體和主對(duì)比類關(guān)系/方體導(dǎo)出比較的表示用可視化技術(shù)表達(dá)類比較描述,通常會(huì)包含“對(duì)比”度量,反映目標(biāo)類與對(duì)比類間的比較(e.gcount%)第35頁(yè)/共47頁(yè)類比較的過(guò)程數(shù)據(jù)收集第35頁(yè)/共47頁(yè)35類比較挖掘——示例(1)任務(wù)挖掘描述BigUniversity本科生和研究生的類比較任務(wù)的DMQL描述useBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevanceto

name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“graduate”versus“undergraduate_students”wherestatusin“undergraduate”analyzecount%fromstudent第36頁(yè)/共47頁(yè)類比較挖掘——示例(1)任務(wù)useBig_Universi36類比較挖掘——示例(2)進(jìn)行類比較挖掘的輸入:給定的屬性:name,gender,major,birth_place,birth_date,residence,phone#andgpa在屬性ai上定義的概念分層Gen(ai)在屬性ai上定義的屬性分析閾值Ui在屬性ai上定義的屬性泛化閾值Ti屬性相關(guān)性閾值R第37頁(yè)/共47頁(yè)類比較挖掘——示例(2)進(jìn)行類比較挖掘的輸入:第37頁(yè)/共437類比較挖掘——示例(3)任務(wù)的處理過(guò)程數(shù)據(jù)收集DMQL查詢轉(zhuǎn)化為關(guān)系查詢,得到初始目標(biāo)類工作關(guān)系和初始對(duì)比類工作關(guān)系

可以看成使構(gòu)造數(shù)據(jù)立方體的過(guò)程引入一個(gè)新維status來(lái)標(biāo)志目標(biāo)類和對(duì)比類(graduate,undergraduate)其他屬性形成剩余的維在兩個(gè)數(shù)據(jù)類上進(jìn)行維相關(guān)分析刪除不相關(guān)或者使弱相關(guān)的維:name,gender,major,phone#P137第38頁(yè)/共47頁(yè)類比較挖掘——示例(3)任務(wù)的處理過(guò)程P137第38頁(yè)/共438類比較挖掘——示例(4)同步泛化在目標(biāo)類和對(duì)比類上同步的進(jìn)行泛化,將相關(guān)的維泛化到由維閾值控制的層,形成主目標(biāo)類關(guān)系/方體和主對(duì)比類關(guān)系/方體導(dǎo)出比較的表示用表、圖或規(guī)則等形式表達(dá)類比較描述的挖掘結(jié)果用戶應(yīng)該能夠在主目標(biāo)類關(guān)系/方體和主對(duì)比類關(guān)系/方體進(jìn)行進(jìn)一步的OLAP操作第39頁(yè)/共47頁(yè)類比較挖掘——示例(4)同步泛化第39頁(yè)/共47頁(yè)39類比較挖掘——示例(5)目標(biāo)類的主泛化關(guān)系:研究生對(duì)比類的主泛化關(guān)系:本科生第40頁(yè)/共47頁(yè)類比較挖掘——示例(5)目標(biāo)類的主泛化關(guān)系:研究生對(duì)比類的40類比較描述的量化判別規(guī)則表示(1)類比較描述中的目標(biāo)類和對(duì)比類的區(qū)分特性也可以用量化規(guī)則來(lái)表示,即量化判別規(guī)則量化判別規(guī)則使用d-weight作為興趣度度量(qa-概化元組Cj-目標(biāo)類qa的d-weight是初始目標(biāo)類工作關(guān)系中被qa覆蓋的元組數(shù)與初始目標(biāo)類和對(duì)比類工作關(guān)系中被qa覆蓋的總元組數(shù)的比第41頁(yè)/共47頁(yè)類比較描述的量化判別規(guī)則表示(1)類比較描述中的目標(biāo)類和對(duì)比41類比較描述的量化判別規(guī)則表示(2)目標(biāo)類中較高的d-weight表明概化元組所代表的概念主要來(lái)自于目標(biāo)類較低的d-weight值則表明該概念主要來(lái)自于對(duì)比類對(duì)給定的status=“Graduate”,Birth_coutry=“Canada”,Age_range=“25-30”,Gpa=“Good”

概化元組,其d-weight=90/(90+210)=30%(什么意思?)第42頁(yè)/共47頁(yè)類比較描述的量化判別規(guī)則表示(2)目標(biāo)類中較高的d-weig42類比較描述的量化判別規(guī)則表示(3)使用類比較描述的量化判別規(guī)則表示可以更好的描述上述的情況,其形式為:比如,剛才的挖掘結(jié)果可以使用量化判別規(guī)則表達(dá)如下:請(qǐng)注意該區(qū)分規(guī)則表達(dá)的是充分條件,即X滿足條件,則X為研究生的概率為30%(特征化量化規(guī)則表達(dá)的是什么條件?)第43頁(yè)/共47頁(yè)類比較描述的量化判別規(guī)則表示(3)使用類比較描述的量化判別規(guī)43類描述:特征化和比較的表示類特征化和類比較是形成類描述的兩個(gè)方面,我們可以通過(guò)綜合類特征化規(guī)則和類區(qū)分規(guī)則來(lái)形成類描述規(guī)則。量化特征化規(guī)則必要條件量化判別規(guī)則充分條件量化描述規(guī)則充要條件第44頁(yè)/共47頁(yè)類描述:特征化和比較的表示類特征化和類比較是形成類描述的兩個(gè)44量化描述規(guī)則——示例(1)一個(gè)給定類的概化元組的t-weight表明給定類中該元組的典型性(e.g.歐洲的銷售(類)中,電視機(jī)(元組)占多少百分比?)一個(gè)元組的d-weight表明,給定類的元組和對(duì)比類的元組相比,有多大區(qū)別(e.g.歐洲(類)的電視機(jī)(元組)銷售和北美的電視機(jī)銷售比如何?)第45頁(yè)/共47頁(yè)量化描述規(guī)則——示例(1)一個(gè)給定類的概化元組的t-wei45量化描述規(guī)則——示例(2)對(duì)于上述交叉表,可以直接用量化描述規(guī)則來(lái)表示表明對(duì)99年AllElectronics公司的TV和計(jì)算機(jī)銷售,如果一商品在歐洲售出,則其為T(mén)V的概率為25%…該公司40%的TV在歐洲售出…第46頁(yè)/共47頁(yè)量化描述規(guī)則——示例(2)對(duì)于上述交叉表,可以直接用量化描46感謝觀看!第47頁(yè)/共47頁(yè)感謝觀看!第47頁(yè)/共47頁(yè)47數(shù)據(jù)泛化數(shù)據(jù)泛化數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象通常包含原始概念層的細(xì)節(jié)信息,數(shù)據(jù)泛化就是將數(shù)據(jù)庫(kù)中的跟任務(wù)相關(guān)的大型數(shù)據(jù)集從相對(duì)較低的概念層抽象到較高的概念層的過(guò)程。主要方法:數(shù)據(jù)立方體(OLAP使用的方法)面向?qū)傩缘臍w納方法12345概念層(Month,city,customer_group)(Month,*,*)第1頁(yè)/共47頁(yè)數(shù)據(jù)泛化數(shù)據(jù)泛化12345概念層(Month,city,48兩種不同類別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描述性挖掘和預(yù)測(cè)性挖掘描述性挖掘:以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。E.g.數(shù)據(jù)泛化就是一種描述性數(shù)據(jù)挖掘預(yù)測(cè)性數(shù)據(jù)挖掘:通過(guò)分析數(shù)據(jù)建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。E.g分類、回歸分析等第2頁(yè)/共47頁(yè)兩種不同類別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描49數(shù)據(jù)立方體的物化數(shù)據(jù)立方體有利于多維數(shù)據(jù)的聯(lián)機(jī)分析處理數(shù)據(jù)立方體使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能方體計(jì)算(物化)的挑戰(zhàn):海量數(shù)據(jù),有限的內(nèi)存和時(shí)間海量數(shù)據(jù)運(yùn)算對(duì)大量計(jì)算時(shí)間和存儲(chǔ)空間的要求第3頁(yè)/共47頁(yè)數(shù)據(jù)立方體的物化數(shù)據(jù)立方體有利于多維數(shù)據(jù)的聯(lián)機(jī)分析處理第3頁(yè)50數(shù)據(jù)立方體---基本概念(1)數(shù)據(jù)立方體可以被看成是一個(gè)方體的格,每個(gè)方體用一個(gè)group-by表示最底層的方體ABC是基本方體,包含所有3個(gè)維最頂端的方體(頂點(diǎn))只包含一個(gè)單元的值,泛化程度最高上卷和下鉆操作與數(shù)據(jù)立方體的對(duì)應(yīng)BA()CABACBCABCP102圖4-1第4頁(yè)/共47頁(yè)數(shù)據(jù)立方體---基本概念(1)數(shù)據(jù)立方體可以被看成是一個(gè)方體51數(shù)據(jù)立方體---基本概念(2)基本方體的單元是基本單元,非基本方體的單元是聚集單元聚集單元在一個(gè)或多個(gè)維聚集,每個(gè)聚集維用"*"表示E.g.(city,*,year,measure)m維方體:(a1,a2,...,an)中有m個(gè)不是"*"祖先和子孫單元i-D單元a=(a1,a2,...,an,measuresa)是j-D單元b=(b1,b2,...,bn,

measureb)的祖先,當(dāng)且僅當(dāng)(1)i<j,并且(2)對(duì)于1≤m≤n,只要am≠"*"就有am=bm第5頁(yè)/共47頁(yè)數(shù)據(jù)立方體---基本概念(2)基本方體的單元是基本單元,非基52冰山立方體(1)為了確??焖俚穆?lián)機(jī)分析,有時(shí)希望預(yù)計(jì)算整個(gè)立方體(所有方體的所有單元)n維數(shù)據(jù)立方體包含2n個(gè)方體如果考慮概念分層部分物化是存儲(chǔ)空間和響應(yīng)時(shí)間的折中方案事實(shí)上,很多高維方體都是稀疏的(包含很多度量值為0的單元)第6頁(yè)/共47頁(yè)冰山立方體(1)為了確??焖俚穆?lián)機(jī)分析,有時(shí)希望預(yù)計(jì)算整個(gè)53冰山立方體(2)對(duì)于稀疏的數(shù)據(jù)立方體,我們往往通過(guò)指定一個(gè)最小支持度閾值(也稱冰山條件),來(lái)進(jìn)行部分物化,這種部分物化的方體稱之為冰山方體。比如:COMPUTECUBESales_IcebergASSELECTmonth,city,cust_grp,COUNT(*)FROMSales_InfoCUBEBYmonth,city,cust_grpHAVINGCOUNT(*)>=min_sup第7頁(yè)/共47頁(yè)冰山立方體(2)對(duì)于稀疏的數(shù)據(jù)立方體,我們往往通過(guò)指定一個(gè)54閉立方體(1)冰山方體的計(jì)算通過(guò)冰山條件(例:HAVINGCOUNT(*)>=min_sup)來(lái)減輕計(jì)算數(shù)據(jù)立方體中不重要的聚集單元的負(fù)擔(dān),然而仍有大量不感興趣的單元需要計(jì)算比如:最小支持度為10,假定100維的數(shù)據(jù)立方體有兩個(gè)基本方體:{(a1,a2,a3,…,a100):10,(a1,a2,b3,…,b100):10},假設(shè)冰山條件為最小支持度10則需計(jì)算和存儲(chǔ)的單元仍是海量:2101-6個(gè)如:(a1,a2,a3,…,a99,*):10,(a1,*,a3,…,a100):10第8頁(yè)/共47頁(yè)閉立方體(1)冰山方體的計(jì)算通過(guò)冰山條件(例:HAVING55閉立方體(2)閉單元一個(gè)單元c是閉單元,如果單元c不存在一個(gè)跟c有著相同度量值的后代d例如:上述例子中,任何一個(gè)(a1,a2,a3,*,*,…,*):10,都和他的后代有相同度量值閉立方體:一個(gè)僅有閉單元組成的數(shù)據(jù)立方體例如:(a1,a2,*,*,…,*):20(a1,a2,a3,…,a100):10(a1,a2,b3,…,b100):10第9頁(yè)/共47頁(yè)閉立方體(2)閉單元(a1,a2,*,*,…,*):20(56立方體外殼部分物化的另外一種策略:僅預(yù)計(jì)算涉及少數(shù)維的方體(比如3到5維),這些立方體形成對(duì)應(yīng)數(shù)據(jù)立方體的外殼利用外殼對(duì)其他的維組合查詢進(jìn)行快速計(jì)算仍將導(dǎo)致大量方體(n很大時(shí)),類似的我們可以利用方體的興趣度,選擇只預(yù)計(jì)算立方體外殼的部分第10頁(yè)/共47頁(yè)立方體外殼部分物化的另外一種策略:僅預(yù)計(jì)算涉及少數(shù)維的方體(57立方體計(jì)算的一般策略(1)一般,有兩種基本結(jié)構(gòu)用于存儲(chǔ)方體關(guān)系OLAP(ROLAP)底層使用關(guān)系模型存儲(chǔ)數(shù)據(jù)多維OLAP(MOLAP)底層使用多維數(shù)組存儲(chǔ)數(shù)據(jù)無(wú)論使用哪種存儲(chǔ)方法,都可以使用以下立方體計(jì)算的一般優(yōu)化技術(shù)優(yōu)化技術(shù)1:排序、散列和分組將排序、散列(hashing)和分組操作應(yīng)用于維的屬性,以便對(duì)相關(guān)元組重新排序和聚類第11頁(yè)/共47頁(yè)立方體計(jì)算的一般策略(1)一般,有兩種基本結(jié)構(gòu)用于存儲(chǔ)方體58立方體計(jì)算的一般策略(2)優(yōu)化技術(shù)2:同時(shí)聚集和緩存中間結(jié)果由先前計(jì)算的較低層聚集來(lái)計(jì)算較高層聚集,而非從基本方體開(kāi)始計(jì)算,減少I(mǎi)/O優(yōu)化方法3:當(dāng)存在多個(gè)子女時(shí),由最小的子女聚集例如,計(jì)算Cbranch,可以利用C(branch,year)或者C(branch,item),顯然利用前者更有效優(yōu)化技術(shù)4:可以使用Apriori剪枝方法有效的計(jì)算冰山方體如果給定的單元不能滿足最小支持度,則該單元的后代也都不滿足最小支持度第12頁(yè)/共47頁(yè)立方體計(jì)算的一般策略(2)優(yōu)化技術(shù)2:同時(shí)聚集和緩存中間結(jié)59完全立方體計(jì)算的多路數(shù)組聚集方法(1)使用多維數(shù)組作為基本數(shù)據(jù)結(jié)構(gòu),計(jì)算完全數(shù)據(jù)立方體一種使用數(shù)組直接尋址的典型MOLAP方法計(jì)算步驟(1)將數(shù)組分成塊(chunk,一個(gè)可以裝入內(nèi)存的小子方)塊還可以進(jìn)一步被壓縮,以避免空數(shù)組單元導(dǎo)致的空間浪費(fèi)(處理稀疏立方體)(2)通過(guò)訪問(wèn)立方體單元,計(jì)算聚集??梢詢?yōu)化訪問(wèn)單元組的次序,使得每個(gè)單元被訪問(wèn)的次數(shù)最小化,從而減少內(nèi)存訪問(wèn)和磁盤(pán)I/O的開(kāi)銷。第13頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(1)使用多維數(shù)組作為基本數(shù)60完全立方體計(jì)算的多路數(shù)組聚集方法(2)一個(gè)包含A,B,C的3-D數(shù)組,假定維A,B,C的基數(shù)分別是40、400和4000A(month)40個(gè)值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個(gè)值B(city)400個(gè)值442856402452362060哪個(gè)是多路數(shù)組聚集的最佳遍歷次序?將要物化的立方體:基本方體ABC,已計(jì)算,對(duì)應(yīng)于給定的3-D數(shù)組2D方體AB,AC和BC1D方體A,B,C0D頂點(diǎn)方體,記作all第14頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(2)一個(gè)包含A,B,C的361完全立方體計(jì)算的多路數(shù)組聚集方法(3)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400通過(guò)掃描ABC的1~4塊,計(jì)算出塊b0c0,然后塊內(nèi)存可以分配給下一刻b1c0,如此繼續(xù),可計(jì)算整個(gè)BC方體(一次只需一個(gè)BC塊在內(nèi)存)第15頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(3)A(month)B2962完全立方體計(jì)算的多路數(shù)組聚集方法(4)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060BBC方體的計(jì)算,必須掃描64塊中的每一塊;計(jì)算其他塊亦然多路數(shù)組聚集方法避免重復(fù)掃描:當(dāng)一個(gè)3D塊在內(nèi)存時(shí),向每一個(gè)平面同時(shí)聚集思考:計(jì)算時(shí)需要多少內(nèi)存?第16頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(4)AB29303132163完全立方體計(jì)算的多路數(shù)組聚集方法(5)方法:各平面要按他們大小的升序排列進(jìn)行排序和計(jì)算詳見(jiàn)書(shū)P108例4-4思想:將最小的平面放在內(nèi)存中,對(duì)最大的平面每次只是取并計(jì)算一塊第17頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(5)方法:各平面要按他們大64完全立方體計(jì)算的多路數(shù)組聚集方法(6)根據(jù)1到64的掃描次序,在塊內(nèi)存中保存所有相關(guān)的2-D平面所需的最小存儲(chǔ)為:40×400(用于整個(gè)AB平面)+40×1000(用于AC平面一行)+100×1000(用于BC平面一塊)=156,000這種方法的限制:只有在維數(shù)比較小的情況下,效果才比較理想(要計(jì)算的立方體隨維數(shù)指數(shù)增長(zhǎng))如果維的數(shù)目比較多,可以考慮使用“自底向上的計(jì)算”或者時(shí)“冰山方體”計(jì)算第18頁(yè)/共47頁(yè)完全立方體計(jì)算的多路數(shù)組聚集方法(6)根據(jù)1到64的掃描次序65數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化(2)第19頁(yè)/共47頁(yè)數(shù)據(jù)立方體計(jì)算與數(shù)據(jù)泛化(2)第19頁(yè)/共47頁(yè)66數(shù)據(jù)泛化數(shù)據(jù)泛化通過(guò)將相對(duì)層次較低的值(如屬性age的數(shù)值)用較高層次的概念(如青年、中年、老年)置換來(lái)匯總數(shù)據(jù)主要方法:數(shù)據(jù)立方體(OLAP使用的方法)面向?qū)傩缘臍w納方法12345概念層(17,18,19,…,34,35,36,…,56,57,…)(青年,中年,老年)第20頁(yè)/共47頁(yè)數(shù)據(jù)泛化數(shù)據(jù)泛化12345概念層(17,18,19,…,3467什么是概念描述?概念描述是一種數(shù)據(jù)泛化的形式。概念通常指數(shù)據(jù)的匯集如frequentbuyers,graduatestudents概念描述產(chǎn)生數(shù)據(jù)的特征化和比較描述,當(dāng)所描述的概念所指的是對(duì)象類時(shí),也稱為類描述特征化:提供給定數(shù)據(jù)匯集的簡(jiǎn)潔匯總比較:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述第21頁(yè)/共47頁(yè)什么是概念描述?概念描述是一種數(shù)據(jù)泛化的形式。第21頁(yè)/共468概念描述VS.OLAP相似處:數(shù)據(jù)泛化對(duì)數(shù)據(jù)的匯總在不同的抽象級(jí)別上進(jìn)行呈現(xiàn)區(qū)別:復(fù)雜的數(shù)據(jù)類型和聚集OLAP中維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡(jiǎn)單的數(shù)據(jù)分析模型概念描述可以處理復(fù)雜數(shù)據(jù)類型的屬性及其聚集用戶控制與自動(dòng)處理OLAP是一個(gè)由用戶控制的過(guò)程概念描述則表現(xiàn)為一個(gè)更加自動(dòng)化的過(guò)程第22頁(yè)/共47頁(yè)概念描述VS.OLAP相似處:第22頁(yè)/共47頁(yè)69數(shù)據(jù)特征化的面向?qū)傩缘臍w納一種面向關(guān)系數(shù)據(jù)查詢的、基于匯總的在線數(shù)據(jù)分析技術(shù)。受數(shù)據(jù)類型和度量類型的約束比較少面向?qū)傩詺w納的基本思想:使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù)通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行泛化,方法是屬性刪除或者是屬性泛化通過(guò)合并相等的,泛化的廣義元組,并累計(jì)他們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作通過(guò)與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶第23頁(yè)/共47頁(yè)數(shù)據(jù)特征化的面向?qū)傩缘臍w納一種面向關(guān)系數(shù)據(jù)查詢的、基于匯總的70數(shù)據(jù)聚焦(1)目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,在DMQL中他們由inrelevanceto子句表示。示例:DMQL:描述Big-University數(shù)據(jù)庫(kù)中研究生的一般特征 useBig_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”第24頁(yè)/共47頁(yè)數(shù)據(jù)聚焦(1)目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,71數(shù)據(jù)聚焦(2)上述DMQL查詢轉(zhuǎn)換為如下SQL查詢,收集任務(wù)相關(guān)數(shù)據(jù)集Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin{"Msc","M.A.","MBA","PhD"}初始工作關(guān)系第25頁(yè)/共47頁(yè)數(shù)據(jù)聚焦(2)上述DMQL查詢轉(zhuǎn)換為如下SQL查詢,收集任72數(shù)據(jù)泛化數(shù)據(jù)泛化的兩種常用方法:屬性刪除和屬性泛化屬性刪除的適用規(guī)則:對(duì)初始工作關(guān)系中具有大量不同值的屬性,符合以下情況,應(yīng)使用屬性刪除:在此屬性上沒(méi)有泛化操作符(比如該屬性沒(méi)有定義相關(guān)的概念分層)該屬性的較高層概念用其他屬性表示屬性泛化的使用規(guī)則:如果初始工作關(guān)系中的某個(gè)屬性具有大量不同值,且該屬性上存在泛化操作符,則使用該泛化操作符對(duì)該屬性進(jìn)行數(shù)據(jù)泛化操作第26頁(yè)/共47頁(yè)數(shù)據(jù)泛化數(shù)據(jù)泛化的兩種常用方法:屬性刪除和屬性泛化第26頁(yè)/73屬性泛化控制確定什么是“具有大量的不同值”,控制將屬性泛化到多高的抽象層。屬性泛化控制的兩種常用方法:屬性泛化閾值控制對(duì)所有屬性設(shè)置一個(gè)泛化閾值或者是對(duì)每個(gè)屬性都設(shè)置一個(gè)閾值(一般為2到8)泛化關(guān)系閾值控制為泛化關(guān)系設(shè)置一個(gè)閾值,確定泛化關(guān)系中,不同元組的個(gè)數(shù)的最大值。(通常為10到30,允許在實(shí)際應(yīng)用中進(jìn)行調(diào)整)兩種技術(shù)的順序使用:使用屬性泛化閾值控制來(lái)泛化每個(gè)屬性,然后使用關(guān)系閾值控制進(jìn)一步壓縮泛化的關(guān)系第27頁(yè)/共47頁(yè)屬性泛化控制確定什么是“具有大量的不同值”,控制將屬性泛化到74歸納過(guò)程中的聚集值計(jì)算在歸納過(guò)程中,需要在不同的抽象層得到數(shù)據(jù)的量化信息或統(tǒng)計(jì)信息聚集值計(jì)算過(guò)程聚集函數(shù)count與每個(gè)數(shù)據(jù)庫(kù)元組相關(guān)聯(lián),初始工作關(guān)系的每個(gè)元組的值初始化為1通過(guò)屬性刪除和屬性泛化,初始工作關(guān)系中的元組可能被泛化,導(dǎo)致相等的元組分組新的"相等的元組分組"的計(jì)數(shù)值設(shè)為初始工作關(guān)系中相應(yīng)元組的計(jì)數(shù)和e.g.52個(gè)初始工作關(guān)系中的元組泛化為一個(gè)新的元組T,則T的計(jì)數(shù)設(shè)置為52還可以應(yīng)用其他聚集函數(shù),包括sum,avg等第28頁(yè)/共47頁(yè)歸納過(guò)程中的聚集值計(jì)算在歸納過(guò)程中,需要在不同的抽象層得到數(shù)75面向?qū)傩缘臍w納——示例挖掘BigUniversity數(shù)據(jù)庫(kù)中研究生的一般特征name:刪除屬性(大量不同值,無(wú)泛化操作符)gender:保留該屬性,不泛化major:根據(jù)概念分層向上攀升{文,理,工…}birth_place:根據(jù)概念分層location向上攀升birth_date:泛化為age,再泛化為age_rangeresidence:根據(jù)概念分層location向上攀升phone#:刪除屬性gpa:根據(jù)GPA的分級(jí)作為概念分層第29頁(yè)/共47頁(yè)面向?qū)傩缘臍w納——示例挖掘BigUniversity數(shù)據(jù)庫(kù)中76面向?qū)傩缘臍w納——示例主泛化關(guān)系初始工作關(guān)系第30頁(yè)/共47頁(yè)面向?qū)傩缘臍w納——示例主泛化關(guān)系初始工作關(guān)系第30頁(yè)/共4777面向?qū)傩缘臍w納算法輸入1.DB;2.數(shù)據(jù)挖掘查詢DMQuery;3.屬性列表;4.屬性的概念分層;5.屬性的泛化閾值;輸出主泛化關(guān)系P算法描述:Wget_task_relevant_data(DMQuery,DB)prepare_for_generalization(W)掃描W,收集每個(gè)屬性a的不同值對(duì)每個(gè)屬性a,根據(jù)閾值確定是否刪除,如果不刪除,則計(jì)算其最小期望層次L,并確定映射對(duì)(v,v`)Pgeneralization(W)通過(guò)使用v`代替W中每個(gè)v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出P每個(gè)泛化元組的插入或累積計(jì)數(shù)用數(shù)組表示P第31頁(yè)/共47頁(yè)面向?qū)傩缘臍w納算法輸入第31頁(yè)/共47頁(yè)78導(dǎo)出泛化的表示(1)泛化關(guān)系一部分或者所有屬性得到泛化的關(guān)系,包含計(jì)數(shù)或其他度量值的聚集交叉表二維交叉表使用每行顯示一個(gè)屬性,使用每列顯示另外一個(gè)屬性將結(jié)果集映射到表中可視化工具:條形圖、餅圖、曲線和數(shù)據(jù)立方體瀏覽工具(用單元的大小代表計(jì)數(shù),用單元亮度代表另外的度量)P133-134第32頁(yè)/共47頁(yè)導(dǎo)出泛化的表示(1)泛化關(guān)系P133-134第32頁(yè)/共479導(dǎo)出泛化的表示(2)量化規(guī)則使用t_weight表示主泛化關(guān)系中每個(gè)元組的典型性量化特征規(guī)則將泛化的結(jié)果映射到相應(yīng)的量化特征規(guī)則中,比如:量化特征規(guī)則中每個(gè)析取代表一個(gè)條件,一般,這些條件的析取形成目標(biāo)類的必要條件,因?yàn)樵摋l件是根據(jù)目標(biāo)類的所有情況導(dǎo)出的。也就是說(shuō),目標(biāo)類的所有元組必須滿足該條件。然而,該規(guī)則可能不是目標(biāo)類的充分條件,因?yàn)闈M足同一條件的元組可能屬于其他類。E.g.第33頁(yè)/共47頁(yè)導(dǎo)出泛化的表示(2)量化規(guī)則量化特征規(guī)則中每個(gè)析取代表一個(gè)80挖掘類比較:區(qū)分不同的類類比較挖掘的目標(biāo)是得到將目標(biāo)類與對(duì)比類相區(qū)分的描述。目標(biāo)類和對(duì)比類間必須具有可比性,即兩者間要有相似的屬性或維。本科生VS.研究生;studentVS.address很多應(yīng)用于類特征化的技巧(處理單個(gè)類的多層數(shù)據(jù)的匯總和特征化)可以應(yīng)用于類比較,比如屬性泛化屬性泛化必須在所有比較類上同步進(jìn)行,將屬性泛化到同一抽象層后進(jìn)行比較。E.g.CityVScountry第34頁(yè)/共47頁(yè)挖掘類比較:區(qū)分不同的類類比較挖掘的目標(biāo)是得到將目標(biāo)類與對(duì)比81類比較的過(guò)程數(shù)據(jù)收集通過(guò)查詢處理收集數(shù)據(jù)庫(kù)中相關(guān)的數(shù)據(jù),并將其劃分為一個(gè)目標(biāo)類和一個(gè)或多個(gè)對(duì)比類維相關(guān)分析如果存在較多的維,則應(yīng)當(dāng)對(duì)這些類進(jìn)行維相關(guān)分析,僅選擇高度相關(guān)的維進(jìn)行進(jìn)一步分析。(可以使用基于熵的度量)同步泛化同步的在目標(biāo)類和對(duì)比類上進(jìn)行泛化,泛化到維閾值控制的層,得到主目標(biāo)類關(guān)系/方體和主對(duì)比類關(guān)系/方體導(dǎo)出比較的表示用可視化技術(shù)表達(dá)類比較描述,通常會(huì)包含“對(duì)比”度量,反映目標(biāo)類與對(duì)比類間的比較(e.gcount%)第35頁(yè)/共47頁(yè)類比較的過(guò)程數(shù)據(jù)收集第35頁(yè)/共47頁(yè)82類比較挖掘——示例(1)任務(wù)挖掘描述BigUniversity本科生和研究生的類比較任務(wù)的DMQL描述useBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevanceto

name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“gra

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論