挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則_第1頁(yè)
挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則_第2頁(yè)
挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則_第3頁(yè)
挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則_第4頁(yè)
挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則第一頁(yè),共六十四頁(yè),2022年,8月28日引言—要挖掘知識(shí)的類型概念描述:特征化和比較;關(guān)聯(lián)規(guī)則;分類/預(yù)測(cè);聚類分析;其他的數(shù)據(jù)挖掘任務(wù)。2第二頁(yè),共六十四頁(yè),2022年,8月28日

第6章挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則第三頁(yè),共六十四頁(yè),2022年,8月28日引言關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。從大量商業(yè)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定,如分類設(shè)計(jì)、交叉購(gòu)物和促銷分析等。2第四頁(yè),共六十四頁(yè),2022年,8月28日引言如何從事務(wù)DB或關(guān)系DB的大量數(shù)據(jù)中挖掘出關(guān)聯(lián)規(guī)則知識(shí)?什么樣的關(guān)聯(lián)規(guī)則才是最有意義的?如何才能使挖掘過(guò)程盡快發(fā)現(xiàn)有價(jià)值的關(guān)聯(lián)規(guī)則知識(shí)?這是本章要討論的內(nèi)容。2第五頁(yè),共六十四頁(yè),2022年,8月28日

第6章6.1關(guān)聯(lián)規(guī)則挖掘6.2由事務(wù)數(shù)據(jù)庫(kù)挖掘單維布爾關(guān)聯(lián)規(guī)則6.3由事務(wù)數(shù)據(jù)庫(kù)挖掘多層關(guān)聯(lián)規(guī)則6.4由事務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)挖掘多維關(guān)聯(lián)規(guī)則第六頁(yè),共六十四頁(yè),2022年,8月28日學(xué)習(xí)目的掌握關(guān)聯(lián)規(guī)則挖掘算法--Apriori算法。

理解多層關(guān)聯(lián)規(guī)則挖掘及其方法;

理解多維關(guān)聯(lián)規(guī)則挖掘及其方法。7第七頁(yè),共六十四頁(yè),2022年,8月28日6.1關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘(Associationrulemining):關(guān)聯(lián)規(guī)則挖掘的主要對(duì)象是交易型數(shù)據(jù)庫(kù),一個(gè)交易一般由交易處理時(shí)間,一組顧客購(gòu)買的物品,有時(shí)也有顧客標(biāo)識(shí)號(hào)組成。關(guān)聯(lián)規(guī)則挖掘用以挖掘一次交易中,物品之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式,以反映顧客的購(gòu)買行為。更確切的說(shuō),關(guān)聯(lián)規(guī)則是通過(guò)量化的數(shù)字來(lái)描述物品X的出現(xiàn)對(duì)物品Y的出現(xiàn)有多大的影響。第八頁(yè),共六十四頁(yè),2022年,8月28日以零售業(yè)為例,通過(guò)對(duì)銷售數(shù)據(jù)的關(guān)聯(lián)分析,體育用品商店可以發(fā)現(xiàn)隱含在數(shù)據(jù)中的規(guī)律:

“購(gòu)買籃球的顧客中有70%的人同時(shí)購(gòu)買籃球運(yùn)動(dòng)服,所有交易中有40%的人同時(shí)購(gòu)買籃球和籃球運(yùn)動(dòng)服”

等等。

關(guān)聯(lián)規(guī)則挖掘第九頁(yè),共六十四頁(yè),2022年,8月28日

購(gòu)物籃分析購(gòu)物籃分析是關(guān)聯(lián)規(guī)則挖掘的最初形式。如,某商店經(jīng)理可能更想了解如下的購(gòu)物習(xí)慣:

“顧客多半會(huì)在購(gòu)物時(shí)同時(shí)購(gòu)買什么商品組或集合?”

為解答這個(gè)問(wèn)題,可以在商店顧客事務(wù)零售數(shù)據(jù)庫(kù)上進(jìn)行購(gòu)物籃分析。分析的結(jié)果可用于市場(chǎng)規(guī)劃、廣告策劃和分類設(shè)計(jì)。4第十頁(yè),共六十四頁(yè),2022年,8月28日5

設(shè)商店中所有銷售商品為一個(gè)集合,每個(gè)商品均為一個(gè)布爾變量,布爾變量用來(lái)表示該商品是否被(一個(gè))顧客購(gòu)買。則,每個(gè)購(gòu)物籃(事務(wù)數(shù)據(jù)庫(kù))可以用一個(gè)布爾向量表示。分析該布爾向量,得到反映商品頻繁關(guān)聯(lián)或同時(shí)購(gòu)買的購(gòu)買模式。

購(gòu)物籃分析第十一頁(yè),共六十四頁(yè),2022年,8月28日computer=>financial_management_software[support=2%,confidence=60%]關(guān)聯(lián)規(guī)則的支持度(support)2%表示:全部事務(wù)中,有2%的交易同時(shí)購(gòu)買計(jì)算機(jī)和財(cái)務(wù)管理軟件。關(guān)聯(lián)規(guī)則的置信度(confidence)60%表示:購(gòu)買計(jì)算機(jī)的顧客中,有60%也同時(shí)購(gòu)買了財(cái)務(wù)管理軟件。6

購(gòu)物籃分析例如,在購(gòu)買計(jì)算機(jī)的同時(shí)購(gòu)買財(cái)務(wù)管理軟件,可用如下關(guān)聯(lián)規(guī)則表示:第十二頁(yè),共六十四頁(yè),2022年,8月28日1.關(guān)聯(lián)規(guī)則的基本概念?第十三頁(yè),共六十四頁(yè),2022年,8月28日關(guān)聯(lián)規(guī)則挖掘的基本概念1)事務(wù)數(shù)據(jù)庫(kù):設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合,事務(wù)數(shù)據(jù)庫(kù)D={t1,t2,…,tn}是由一系列具有唯一標(biāo)識(shí)TID的事務(wù)組成,每個(gè)事務(wù)ti(i=1,2,…,n)都對(duì)應(yīng)I上的一個(gè)子集。示例:購(gòu)物記錄I是全部物品集合,如商場(chǎng)現(xiàn)有的所有商品;

D是購(gòu)物清單,如顧客的購(gòu)物清單;

D中的每個(gè)元組ti代表一次事務(wù)(商業(yè)行為),是一次購(gòu)買物品的集合(I的一個(gè)子集)。第十四頁(yè),共六十四頁(yè),2022年,8月28日基本概念2)支持度(support):支持度是模式為真的任務(wù)相關(guān)的元組(或事務(wù))所占的百分比。對(duì)于形如“”的關(guān)聯(lián)規(guī)則,支持度定義為:其中,A、B是項(xiàng)目的集合。示例:假定任務(wù)相關(guān)數(shù)據(jù)由AllElectronics的計(jì)算機(jī)部的事務(wù)數(shù)組成,一個(gè)支持度為30%的關(guān)聯(lián)規(guī)則:意味著在計(jì)算機(jī)部的所有顧客中,有30%同時(shí)購(gòu)買了計(jì)算機(jī)(A)和軟件(B)。第十五頁(yè),共六十四頁(yè),2022年,8月28日基本概念3)置信度(certainty):每個(gè)發(fā)現(xiàn)的模式都有一個(gè)表示其有效性或值得信賴性的度量。對(duì)于形如“”的關(guān)聯(lián)規(guī)則,其有效性度量為置信度,定義為:其中,A、B是項(xiàng)目的集合。示例:假定任務(wù)相關(guān)數(shù)據(jù)由AllElectronics的計(jì)算機(jī)部購(gòu)買物品的事務(wù)數(shù)組成,一個(gè)置信度為85%的關(guān)聯(lián)規(guī)則:意味著買計(jì)算機(jī)(A)的顧客中,有85%也同時(shí)購(gòu)買了軟件(B)。第十六頁(yè),共六十四頁(yè),2022年,8月28日

第十七頁(yè),共六十四頁(yè),2022年,8月28日基本概念4)強(qiáng)關(guān)聯(lián)規(guī)則:

置信度表示規(guī)則的可信度;置信度?。阂?guī)則無(wú)意義支持度表示模式在事務(wù)數(shù)據(jù)庫(kù)中的出現(xiàn)頻率;支持度小:規(guī)則使用面窄同時(shí)滿足用戶定義的最小置信度和最小支持度閾值的關(guān)聯(lián)規(guī)則,稱為強(qiáng)關(guān)聯(lián)規(guī)則(strongassociationrule),并被認(rèn)為是有趣的。第十八頁(yè),共六十四頁(yè),2022年,8月28日2.關(guān)聯(lián)規(guī)則的分類?第十九頁(yè),共六十四頁(yè),2022年,8月28日(1)基于規(guī)則中處理的變量類別布爾型:離散的、可枚舉的、種類化的如:性別=“男”=>職業(yè)=“網(wǎng)絡(luò)工程師”數(shù)值型:含有定量的數(shù)據(jù)項(xiàng)如,性別=“男”=>收入=“3500”關(guān)聯(lián)規(guī)則的分類:第二十頁(yè),共六十四頁(yè),2022年,8月28日(2)基于規(guī)則中數(shù)據(jù)的抽象層次單層關(guān)聯(lián)規(guī)則:所有的變量都不考慮層次如:性別=“男”=>職業(yè)=“網(wǎng)絡(luò)工程師”多層關(guān)聯(lián)規(guī)則:考慮變量的不同層次性如,數(shù)碼相機(jī)=>三星手機(jī),(數(shù)碼相機(jī)是三星數(shù)碼相機(jī)的較高層抽象)再如,數(shù)碼相機(jī)=>手機(jī)(數(shù)碼相機(jī)、手機(jī)是三星數(shù)碼相機(jī)和三星手機(jī)的較高層抽象)。關(guān)聯(lián)規(guī)則的分類:第二十一頁(yè),共六十四頁(yè),2022年,8月28日多層關(guān)聯(lián)規(guī)則又可以分為:同層關(guān)聯(lián)規(guī)則:如果一個(gè)關(guān)聯(lián)規(guī)則對(duì)應(yīng)的項(xiàng)目是同一個(gè)粒度層次,那么它是同層關(guān)聯(lián)規(guī)則

如,數(shù)碼相機(jī)=>手機(jī)。層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問(wèn)題,那么得到的是層間關(guān)聯(lián)規(guī)則。如,數(shù)碼相機(jī)=>三星手機(jī)關(guān)聯(lián)規(guī)則的分類:第二十二頁(yè),共六十四頁(yè),2022年,8月28日(3)基于規(guī)則中涉及的數(shù)據(jù)維數(shù)單維關(guān)聯(lián)規(guī)則:只涉及一個(gè)屬性(維),處理單個(gè)屬性(維)中的一些關(guān)系如:啤酒=>尿布,只涉及到用戶購(gòu)買的物品一個(gè)維;多維關(guān)聯(lián)規(guī)則:處理多個(gè)屬性(維)上的關(guān)系如,性別“女”=>職業(yè)“秘書(shū)”,此規(guī)則涉及到兩個(gè)屬性(維)的關(guān)系。關(guān)聯(lián)規(guī)則的分類:第二十三頁(yè),共六十四頁(yè),2022年,8月28日6.2由事務(wù)數(shù)據(jù)庫(kù)挖掘單維布爾關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘的兩步過(guò)程:

1)找出所有的頻繁項(xiàng)集:這些項(xiàng)集出現(xiàn)的頻繁性要滿足最小支持度原則。2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持度和最小置信度。常用方法:

Apriori算法第二十四頁(yè),共六十四頁(yè),2022年,8月28日頻繁項(xiàng)集

項(xiàng)的集合稱為項(xiàng)集(itemset),項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,如集合{computer,software}是一個(gè)2-項(xiàng)集。

項(xiàng)集的頻率:即包含項(xiàng)集的事務(wù)數(shù),也稱為項(xiàng)集的支持計(jì)數(shù)(support_count)。Min_sup:設(shè)定的支持率閾值如果項(xiàng)集的出現(xiàn)頻率大于或等于min_sup與D中事務(wù)總數(shù)的乘積,就稱該項(xiàng)集滿足最小支持度min_sup。頻繁項(xiàng)集:滿足最小支持度的項(xiàng)集,頻繁k-項(xiàng)集通常記做:Lk。第二十五頁(yè),共六十四頁(yè),2022年,8月28日基本概念頻繁項(xiàng)集:頻繁項(xiàng)集是頻繁出現(xiàn)在數(shù)據(jù)集中的項(xiàng)集;有助于發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的內(nèi)在規(guī)律哪些產(chǎn)品經(jīng)常被一起購(gòu)買?---啤酒和尿布?買了PC之后接著都會(huì)買些什么?哪種DNA對(duì)這種新藥敏感?能揭示數(shù)據(jù)集內(nèi)在的、重要的特性。第二十六頁(yè),共六十四頁(yè),2022年,8月28日Apriori算法Apriori算法原理:任何一個(gè)頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集;如,如果{A,B}是頻繁項(xiàng)集,則{A}、{B}都是頻繁項(xiàng)集。任何非頻繁項(xiàng)集的超集都為非頻繁項(xiàng)集如,如果{A}、{B}是非頻繁項(xiàng)集,則{A,B}是非頻繁項(xiàng)集第二十七頁(yè),共六十四頁(yè),2022年,8月28日Apriori算法

算法的關(guān)鍵步驟:找出頻繁項(xiàng)集:滿足最小支持度的項(xiàng)目集;方法:使用從1到k的候選集逐層遞歸的產(chǎn)生頻繁項(xiàng)集。由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。第二十八頁(yè),共六十四頁(yè),2022年,8月28日APRIORI算法過(guò)程Apriori算法利用逐層迭代來(lái)計(jì)算數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集。第i次迭代計(jì)算出所有頻繁i項(xiàng)集(包含i個(gè)元素的項(xiàng)集)。每一次迭代有兩個(gè)步驟:產(chǎn)生候選集;計(jì)算和選擇候選集。原理是:如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的。在第一次迭代中,產(chǎn)生的候選集包含所有1-項(xiàng)集,并計(jì)算其支持度s,s大于閾值的1-項(xiàng)集被選為頻繁1-項(xiàng)集。第二次迭代時(shí),Apriori算法首先去除非頻繁1-項(xiàng)集,在頻繁1-項(xiàng)集的基礎(chǔ)上產(chǎn)生候選二項(xiàng)集,繼而結(jié)合設(shè)定的最小支持度閾值,產(chǎn)生頻繁2-項(xiàng)集。第二十九頁(yè),共六十四頁(yè),2022年,8月28日如,以表6-1中的數(shù)據(jù)為例。假設(shè)smin=50%。APRIORI算法過(guò)程第三十頁(yè),共六十四頁(yè),2022年,8月28日在第一次迭代中,所有單項(xiàng)集都作為候選集,產(chǎn)生一個(gè)候選集列表;圖5-1給出第一次迭代的結(jié)果在下一步中,計(jì)算每一項(xiàng)的支持度,然后在smin的基礎(chǔ)上選擇頻繁項(xiàng)集。APRIORI算法過(guò)程圖5-1Apriori算法第一次迭代的結(jié)果第三十一頁(yè),共六十四頁(yè),2022年,8月28日在挖掘2-項(xiàng)集時(shí),因?yàn)?-項(xiàng)集的任何子集都是頻繁項(xiàng)集,所以Apriori算法使用L1*L1來(lái)產(chǎn)生候選集。{*}運(yùn)算通常定義為:

Lk*Lk={X∪Y其中X,Y∈Lk,|X∪Y|=k+1}

注:|X∪Y|=k+1,即X和Y合取容量為k+1因此,第二次迭代中的候選集C2由運(yùn)算|L1|·|L1-1|/2所產(chǎn)生,其個(gè)數(shù)為:4·3/2=6。用該列表來(lái)掃描DB,計(jì)算每一個(gè)候選集的支持度,并與smin進(jìn)行比較,產(chǎn)生2-項(xiàng)頻繁集L2。圖5-2給出了所有這些步驟和第二次迭代的結(jié)果。APRIORI算法過(guò)程第三十二頁(yè),共六十四頁(yè),2022年,8月28日APRIORI算法過(guò)程第三十三頁(yè),共六十四頁(yè),2022年,8月28日候選集C3

運(yùn)用L2*L2來(lái)產(chǎn)生,運(yùn)算結(jié)果得到{A,B,C},{A,C,E},{B,C,E},但只有{B,C,E}的所有子集是頻繁項(xiàng)集,成為候選的3-項(xiàng)集。然后掃描DB,根據(jù)最小支持計(jì)數(shù),挖掘出頻繁3-項(xiàng)集,見(jiàn)圖5-3所示:因?yàn)楸纠腖3無(wú)法產(chǎn)生候選的4-項(xiàng)集,所以算法停止迭代過(guò)程。圖5-3Apriori算法第三次迭代的結(jié)果APRIORI算法過(guò)程第三十四頁(yè),共六十四頁(yè),2022年,8月28日該算法不僅計(jì)算所有頻繁集的支持度,也計(jì)算那些沒(méi)有被刪除的非頻繁候選集的支持度。所有非頻繁但被算法計(jì)算支持度的候選項(xiàng)集的集合被稱為負(fù)邊界。因此,如果項(xiàng)集是非頻繁的,但它的子集都是頻繁的,那么它就在負(fù)邊界之中。APRIORI算法過(guò)程第三十五頁(yè),共六十四頁(yè),2022年,8月28日36Apriori算法源代碼算法:Apriori使用根據(jù)候選生成的逐層迭代找出頻繁項(xiàng)集輸入:事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值min_sup輸出:D中的頻繁項(xiàng)集L(1)L1={large1-itemsets};//所有1-項(xiàng)目頻集(2)FOR(k=2;Lk-1;k++)DOBEGIN(3)Ck=apriori-gen(Lk-1);//Ck是k-候選集(4)FORalltransactionstDDOBEGIN(5)Ct=subset(Ck,t);//Ct是所有t包含的候選集元素(6)FORallcandidatescCtDO(7)c.count++;(8)END(9)Lk={cCk|c.countminsup_count}(10)END(11)L=Lk;

第三十六頁(yè),共六十四頁(yè),2022年,8月28日第三十七頁(yè),共六十四頁(yè),2022年,8月28日38第三十八頁(yè),共六十四頁(yè),2022年,8月28日第三十九頁(yè),共六十四頁(yè),2022年,8月28日示例:對(duì)于前面的例子,基于事務(wù)數(shù)據(jù)庫(kù)D,在假定最小支持度閾值為50%的前提下,我們得到了頻繁項(xiàng)集{2,3,5}。問(wèn),由該頻繁項(xiàng)集可以產(chǎn)生哪些關(guān)聯(lián)規(guī)則?分析:頻繁項(xiàng)集L={2,3,5}的非空子集有{2,3},{2,5},{3,5},{2},{3},{5}。則由這些子集可以產(chǎn)生如下關(guān)聯(lián)規(guī)則:由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則如果限定最小置信度閾值為80%,則只有規(guī)則(1),(3)為強(qiáng)關(guān)聯(lián)規(guī)則。第四十頁(yè),共六十四頁(yè),2022年,8月28日Apriori作為經(jīng)典的頻繁項(xiàng)目集生成算法,在數(shù)據(jù)挖掘中具有里程碑的作用。Apriori算法有兩個(gè)致命的性能瓶頸:1.多次掃描事務(wù)數(shù)據(jù)庫(kù),需要很大的I/O負(fù)載對(duì)每次k循環(huán),侯選集Ck中的每個(gè)元素都必須通過(guò)掃描數(shù)據(jù)庫(kù)來(lái)驗(yàn)證其是否加入Lk。假如有一個(gè)頻繁大項(xiàng)目集包含10個(gè)項(xiàng)的話,那么就至少需要掃描事務(wù)數(shù)據(jù)庫(kù)10遍。2.可能產(chǎn)生龐大的侯選集由Lk-1產(chǎn)生k-侯選集Ck是指數(shù)增長(zhǎng)的。Apriori算法的性能瓶頸第四十一頁(yè),共六十四頁(yè),2022年,8月28日如何提高Apriori算法的效率一些算法雖然仍然遵循Apriori屬性,但是由于引入了相關(guān)技術(shù),在一定程度上改善了Apriori算法適應(yīng)性和效率。主要的改進(jìn)方法有:基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;谏⒘校℉ash)的方法:基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;诓蓸拥姆椒ǎ夯驹硎恰巴ㄟ^(guò)采樣技術(shù),評(píng)估被采樣的子集,并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。其他:如,動(dòng)態(tài)刪除沒(méi)有用的事務(wù):“不包含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。第四十二頁(yè),共六十四頁(yè),2022年,8月28日6.3由事務(wù)數(shù)據(jù)庫(kù)挖掘多層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則:對(duì)許多應(yīng)用,由于多維數(shù)據(jù)空間數(shù)據(jù)的稀疏性,在低層或原始層的數(shù)據(jù)項(xiàng)之間很難找到強(qiáng)關(guān)聯(lián)規(guī)則。如,IBM臺(tái)式機(jī)=>Sony打印機(jī),在兩個(gè)數(shù)據(jù)項(xiàng)間可能很難找到強(qiáng)關(guān)聯(lián)規(guī)則在較高的概念層,則較容易得到強(qiáng)關(guān)聯(lián)規(guī)則。這種強(qiáng)關(guān)聯(lián)規(guī)則對(duì)某些用戶可能是普遍意義的,對(duì)其他用戶則可能是新穎的。

如,臺(tái)式機(jī)=>打印機(jī),找到強(qiáng)關(guān)聯(lián)規(guī)則的可能性就大多了因此,數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)能提供一種能力,在多個(gè)抽象層挖掘關(guān)聯(lián)規(guī)則,并容易在不同的抽象空間轉(zhuǎn)換。第四十三頁(yè),共六十四頁(yè),2022年,8月28日示例示例:給定AllElectronics公司分店的計(jì)算機(jī)部的銷售數(shù)據(jù),如表6-2所示,對(duì)每個(gè)事務(wù)TID給出了購(gòu)買的商品。第四十四頁(yè),共六十四頁(yè),2022年,8月28日示例圖5-4商品的概念分層第四十五頁(yè),共六十四頁(yè),2022年,8月28日示例概念分層:定義了低層概念到更一般的高層概念的映射序列??赏ㄟ^(guò)對(duì)數(shù)據(jù)內(nèi)的低層概念用概念分層中其高層概念進(jìn)行替換,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的概化。圖5-4中的概念分層有4層,記做0,1,2,3:0層:根節(jié)點(diǎn)all(最一般的抽象概念);1層:computer,software,printer,computeraccessory2層:desktopcomputer,laptopcomputer,educationalsoftware,financialmanagementsoftware…3層:IBMdesktopcomputer,Microsofteducationalsoftware,…第四十六頁(yè),共六十四頁(yè),2022年,8月28日示例表5-2中的項(xiàng)對(duì)應(yīng)圖5-4中概念分層的最低層,即第3層,在這種原始層很難找出有趣的購(gòu)買模式。如,很難找到“IBMdesktopcomputer”和“Sonyb/wprinter”的強(qiáng)關(guān)聯(lián)規(guī)則,因?yàn)楹苌儆腥送瑫r(shí)購(gòu)買它們,是的{IBMdesktopcomputer,Sonyb/wprinter}不太可能滿足最小支持度。然而,考慮將“Sonyb/wprinter”概化到“b/wprinter”,在“IBMdesktopcomputer”和“b/wprinter”之間比在“IBMdesktopcomputer”和“Sonyb/wprinter”間,更可望發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則。類似的,在“computer”和“printer”間,則更容易發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則。第四十七頁(yè),共六十四頁(yè),2022年,8月28日多層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則挖掘的度量方法仍可以沿用“支持度-置信度框架”;但是,有兩種設(shè)置支持度的策略:對(duì)于所有層使用一致的最小支持度(一致支持度):在每一層挖掘時(shí),使用相同的最小支持度閾值。在較低層使用遞減的最小支持度(遞減支持度):每個(gè)抽象層有它自己的最小支持度閾值,抽象層越低,對(duì)應(yīng)的閾值越小。第四十八頁(yè),共六十四頁(yè),2022年,8月28日一致支持度如下圖,在挖掘過(guò)程中,設(shè)置一致的最小支持度閾值5%。發(fā)現(xiàn),層1滿足此閾值,在層2中,“2%milk”滿足,而“skimmilk”則不滿足。說(shuō)明,較低層次抽象的項(xiàng)不大可能像較高層次抽象的項(xiàng)出現(xiàn)得那么頻繁。第四十九頁(yè),共六十四頁(yè),2022年,8月28日一致支持度優(yōu)勢(shì):使用一致的最小支持度閾值,搜索過(guò)程是簡(jiǎn)單的,且用戶只需用指定一個(gè)最小支持度閾值。缺陷:如果最小支持度閾值設(shè)置太高,可能丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則;反之,設(shè)置太低,則可能會(huì)在較高抽象層產(chǎn)生無(wú)興趣的關(guān)聯(lián)規(guī)則解決方法:“遞減支持度”第五十頁(yè),共六十四頁(yè),2022年,8月28日遞減支持度如下圖,在挖掘過(guò)程中,使用遞減支持度。層1和層2的閾值分別設(shè)定為5%和3%,用這種方法,“Milk”,“2%Milik”和“SkimMilk”都是頻繁的。第五十一頁(yè),共六十四頁(yè),2022年,8月28日遞減支持度對(duì)于具有遞減支持度的多層關(guān)聯(lián)規(guī)則挖掘,有許多可用的搜索策略:“逐層獨(dú)立”“層交叉單項(xiàng)過(guò)濾”“層交叉k-項(xiàng)集過(guò)濾”第五十二頁(yè),共六十四頁(yè),2022年,8月28日1)逐層獨(dú)立逐層獨(dú)立:這是完全的寬度搜索,沒(méi)有頻繁項(xiàng)集的背景知識(shí)用于剪枝;頻繁項(xiàng)集:如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的;考慮每一個(gè)節(jié)點(diǎn),不管它的父節(jié)點(diǎn)是否是頻繁的。第五十三頁(yè),共六十四頁(yè),2022年,8月28日2)層交叉單項(xiàng)過(guò)濾層交叉單項(xiàng)過(guò)濾:一個(gè)第i層的項(xiàng)被考察,當(dāng)且僅當(dāng)它在第(i-1)層的父節(jié)點(diǎn)是頻繁的。即,由較一般的關(guān)聯(lián)考察更特定的關(guān)聯(lián)。如果一個(gè)節(jié)點(diǎn)是頻繁的,它的子女將被考察;否則,它的子孫將被剪枝。如下圖所示。第五十四頁(yè),共六十四頁(yè),2022年,8月28日3)層交叉k-項(xiàng)集過(guò)濾層交叉k-項(xiàng)集過(guò)濾:一個(gè)第i層的k-項(xiàng)集被考察,當(dāng)且僅當(dāng)它在第(i-1)層的k-項(xiàng)集父節(jié)點(diǎn)是頻繁的。如,下圖中,2-項(xiàng)集{computer,printer}是頻繁的,因而節(jié)點(diǎn){laptopcomputer,b/wprinter},{laptopcomputer,colorprinter},{desktopcomputer,b/wprinter},{desktopcomputer,colorprinter}被考察。第五十五頁(yè),共六十四頁(yè),2022年,8月28日6.4由關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)挖掘多維關(guān)聯(lián)規(guī)則單維關(guān)聯(lián)規(guī)則:前面所介紹的關(guān)聯(lián)規(guī)則都只涉及一個(gè)謂詞,如buys謂詞。如在一個(gè)商場(chǎng)的數(shù)據(jù)庫(kù)挖掘中,可挖掘出如下關(guān)聯(lián)規(guī)則:其中X為代表顧客的一個(gè)變量。同樣,一個(gè)多層次關(guān)聯(lián)規(guī)則可為:在上述兩個(gè)關(guān)聯(lián)規(guī)則中僅包含一個(gè)特定的謂詞:buys,因此被稱為單維關(guān)聯(lián)規(guī)則,或維內(nèi)關(guān)聯(lián)規(guī)則。第五十六頁(yè),共六十四頁(yè),2022年,8月28日6.4由關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)挖掘多維關(guān)聯(lián)規(guī)則假定不是對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行分析,而是對(duì)關(guān)系數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的銷售和相關(guān)信息進(jìn)行分析,此時(shí)的數(shù)據(jù)是以多維形式定義存儲(chǔ)的。如,除記錄在銷售事務(wù)中購(gòu)買的商品外,關(guān)系數(shù)據(jù)庫(kù)可能還記錄著與商品有關(guān)的其他屬性,如購(gòu)買數(shù)量、價(jià)格、銷售地址等;還可能有購(gòu)物顧客的基本信息,如年齡、職業(yè)、信譽(yù)度、收入、地址等。若將數(shù)據(jù)庫(kù)的每個(gè)屬性或數(shù)據(jù)倉(cāng)庫(kù)的每個(gè)維看作一個(gè)謂詞,可挖掘得到多維關(guān)聯(lián)規(guī)則。第五十七頁(yè),共六十四頁(yè),2022年,8月28日6.4由關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)挖掘多維關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則:包含兩個(gè)或多個(gè)維或謂詞的關(guān)聯(lián)規(guī)則稱為多維關(guān)聯(lián)規(guī)則。如上述規(guī)則中,包含三個(gè)不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論