關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘參考模板_第1頁(yè)
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘參考模板_第2頁(yè)
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘參考模板_第3頁(yè)
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘參考模板_第4頁(yè)
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘參考模板_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘?qū)W習(xí)報(bào)告1 / 31 目錄引言 2案例 2關(guān)聯(lián)規(guī)則 3(一)關(guān)聯(lián)規(guī)則定義 (二)相關(guān)概念(三)關(guān)聯(lián)規(guī)則分類數(shù)據(jù) 6(一)小型數(shù)據(jù)(二)大型數(shù)據(jù)應(yīng)用軟件 7(一)WEKA(二)IBM SPSS Modeler數(shù)據(jù)挖掘 12總結(jié) 271、 引言 數(shù)據(jù)庫(kù)與互聯(lián)網(wǎng)技術(shù)在日益發(fā)展壯大,人們每天可以獲得的信息量呈指數(shù)級(jí)增長(zhǎng)。如何從這浩如瀚海的數(shù)據(jù)中找出我們需要的數(shù)據(jù)顯得尤為重要。數(shù)據(jù)挖掘又為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(

2、依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘大致分為以下幾類:分類 (Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)。2、 案例 "尿布與啤酒"的故事。在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市

3、的真實(shí)案例,并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購(gòu)買最多的商品竟是啤酒!經(jīng)過(guò)大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原

4、因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。 在這個(gè)案例中使用了數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則分析。關(guān)聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同項(xiàng)之間的聯(lián)系。毫無(wú)疑問(wèn),關(guān)聯(lián)分析中發(fā)現(xiàn)的規(guī)則為超市帶來(lái)了更多的收益。如果我們能在生活中對(duì)關(guān)聯(lián)分析進(jìn)行應(yīng)用,一定可以解決更多的問(wèn)題。 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是

5、找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問(wèn)題進(jìn)行了大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究。 3、 關(guān)聯(lián)規(guī)則(一)關(guān)聯(lián)規(guī)則定義 關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)

6、聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個(gè)典型例子是購(gòu)物籃分析。該過(guò)程通過(guò)發(fā)現(xiàn)顧客放人其購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)買習(xí)慣。通過(guò)了解哪些商品頻繁地被顧客同時(shí)購(gòu)買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購(gòu)買模式的顧客劃分。(二)相關(guān)概念1.關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是指數(shù)據(jù)之間的簡(jiǎn)單的使用規(guī)則,是指數(shù)據(jù)之間的相互依賴關(guān)系。關(guān)聯(lián)規(guī)則形如:XY;其中XI,YI,并且XY=。X為先決條件,Y為結(jié)果;關(guān)聯(lián)規(guī)則反映了項(xiàng)目集X出現(xiàn)的同時(shí)項(xiàng)目集Y

7、也會(huì)跟著出現(xiàn)。2.支持度(Support) 設(shè)X屬于數(shù)據(jù)項(xiàng)目集,為事務(wù)數(shù)據(jù)庫(kù)中包含X的記錄條數(shù),為事務(wù)數(shù)據(jù)庫(kù)中記錄的總個(gè)數(shù),那么項(xiàng)目集X的支持度=/支持度表示項(xiàng)目集在事物集中出現(xiàn)的頻率的是多少。3.置信度(Confidence)  有關(guān)聯(lián)規(guī)則XY,其中XI,YI,并且XY=,那么XY的置信度為: Conf(XY)=*100%=P(Y|X) 。置信度是反映在事物X中出現(xiàn)事物Y的條件概率。4.強(qiáng)關(guān)聯(lián)規(guī)則 如果某條規(guī)則同時(shí)滿足最小支持度和最小置信度則稱為強(qiáng)關(guān)聯(lián)規(guī)則。5.最小支持度、大項(xiàng)集和最小置信度 從關(guān)聯(lián)規(guī)則的定義可以看出任意兩個(gè)數(shù)據(jù)項(xiàng)集都存在關(guān)聯(lián)規(guī)則只是其

8、支持度和置信度不同而已。為了找出有意義的規(guī)則就需要規(guī)定最小支持度和最小置信度前者描述了關(guān)聯(lián)規(guī)則中數(shù)據(jù)項(xiàng)集的最低重要程度,記為minsup后者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性記為,minconf。支持度大于最小支持度的數(shù)據(jù)項(xiàng)集稱作大項(xiàng)集(Large Itemset)反之則稱為弱項(xiàng)集(Small Iterns)。同時(shí)滿足最小支持度、最小置信度的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。 (三)關(guān)聯(lián)規(guī)則分類1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,

9、將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。 單維關(guān)聯(lián)規(guī)則是處理單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個(gè)屬性之間的某些關(guān)系。(4) 算法1.Apriori算法 1)Apriori算法是一種使用頻繁項(xiàng)集的先驗(yàn)知識(shí)從而生成關(guān)聯(lián)規(guī)則的一種算法也是最有影響的關(guān)聯(lián)規(guī)則挖掘算法。 2)定義:設(shè)C

10、(k)表示候選k-項(xiàng)集L(k)表示C(k)中出現(xiàn)頻率大于或等于最小支持度閾值與事務(wù)總數(shù)的乘積的k-項(xiàng)集,即k-頻繁項(xiàng)集或者是k-大項(xiàng)集。 3)Apriori算法具有以下性質(zhì):任何非頻繁的(k-1)-項(xiàng)集都不可能是頻繁k-項(xiàng)集的子集。這是因?yàn)槿绻?k-1)-項(xiàng)集的事務(wù)占事務(wù)總數(shù)的百分比不大于最小支持度閾值。那么含有該(k-1)-項(xiàng)集與另外一項(xiàng)構(gòu)成的k項(xiàng)集的事務(wù)占事務(wù)總數(shù)的百分比就更不可能大于或等于最小支持度閾值了。如果用概念來(lái)解釋的話,含有k-項(xiàng)集的事務(wù)構(gòu)成的概念的內(nèi)涵比含有(k-1)-項(xiàng)集事務(wù)所構(gòu)成的概念的內(nèi)涵增加了那么它的外延必然會(huì)減小所包含的事務(wù)數(shù)也必然減小。因此,根據(jù)這個(gè)性質(zhì)可以在生

11、成k-項(xiàng)集之前先將(k-1)-項(xiàng)集中的非頻繁項(xiàng)集刪除通過(guò)刪除候(k-1)-項(xiàng)集中的非頻繁項(xiàng)集得到(k-1)-頻繁項(xiàng)集。4)Apriori算法的步驟步驟如下1 設(shè)定最小支持度s和最小置信度c。2 Apriori算法使用候選項(xiàng)集。首先產(chǎn)生出候選的項(xiàng)的集合,即候選項(xiàng)集若候選項(xiàng)集的支持度大于或等于最小支持度則該候選項(xiàng)集為頻繁項(xiàng)集。3 在Apriori算法的過(guò)程中,首先從數(shù)據(jù)庫(kù)讀入所有的事務(wù),每個(gè)項(xiàng)都被看作候選1-項(xiàng)集得出各項(xiàng)的支持度再使用頻繁1-項(xiàng)集集合來(lái)產(chǎn)生候選2-項(xiàng)集集合。因?yàn)橄闰?yàn)原理保證所有非頻繁的1-項(xiàng)集的超集都是非頻繁的。4 再掃描數(shù)據(jù)庫(kù)。得出候選2-項(xiàng)集集合。再找出頻繁2-項(xiàng)集。并利用這些

12、頻繁2-項(xiàng)集集合來(lái)產(chǎn)生候選3-項(xiàng)集。5 重復(fù)掃描數(shù)據(jù)庫(kù),與最小支持度比較;產(chǎn)生更高層次的頻繁項(xiàng)集再?gòu)脑摷侠锂a(chǎn)生下一級(jí)候選項(xiàng)集直到不再產(chǎn)生新的候選項(xiàng)集為止。2.FP-樹(shù)頻集算法1)定義:針對(duì)Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹(shù)頻集算法。采用分而治之的策略,在經(jīng)過(guò)第一遍掃描之后,把數(shù)據(jù)庫(kù)中的頻集壓縮進(jìn)一棵頻繁模式樹(shù)(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫(kù),每個(gè)庫(kù)和一個(gè)長(zhǎng)度為1的頻集相關(guān),然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中

13、。實(shí)驗(yàn)表明,F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。2)FP-樹(shù)頻集算法的步驟步驟如下1 遍歷一次數(shù)據(jù)庫(kù),到處頻繁項(xiàng)集(1項(xiàng)集)的集合和支持度計(jì)數(shù)(頻率),并且以降序排序,結(jié)果集或表記為L(zhǎng)。2 構(gòu)造FP-tree。3 根據(jù)第二步得到的FP-tree,為1項(xiàng)頻繁項(xiàng)集中的每一項(xiàng)構(gòu)造條件FP-tree。4 得到頻繁模式(頻繁項(xiàng)集)。4、 數(shù)據(jù)(1) 小型數(shù)據(jù) 這是我們得到的最原始的數(shù)據(jù),是國(guó)外某超市的購(gòu)物籃數(shù)據(jù),共有約一千條。文件格式為txt格式,每一行代表一個(gè)顧客購(gòu)物籃中的商品。(2) 大型數(shù)據(jù) 第二個(gè)大型數(shù)據(jù)也是國(guó)外某公司的超市購(gòu)物籃數(shù)

14、據(jù),共有88162條數(shù)據(jù)。數(shù)據(jù)為txt格式。第一行是對(duì)每列數(shù)據(jù)的一個(gè)編號(hào),從第二列開(kāi)始是每個(gè)顧客超市購(gòu)物籃中的東西。每個(gè)數(shù)字代表一個(gè)商品。因?yàn)閿?shù)據(jù)過(guò)大,所以整個(gè)數(shù)據(jù)是數(shù)據(jù)集的形式。5 應(yīng)用軟件(1) WEKA 1. WEKA簡(jiǎn)介 WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費(fèi)的,非商業(yè)化的,基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。它和它的源代碼可在其官方網(wǎng)站下載。WEKA作為一個(gè)公開(kāi)的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及

15、在新的交互式界面上的可視化。 2.WEKA存儲(chǔ)數(shù)據(jù)的格式是ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件。二維表格存儲(chǔ)在如下的ARFF文件中。識(shí)別ARFF文件的重要依據(jù)是分行,因此不能在這種文件里隨意的斷行??招校ɑ蛉强崭竦男校⒈缓雎?。 WEKA的關(guān)聯(lián)規(guī)則分析功能僅能用來(lái)作示范,不適合用來(lái)挖掘大型數(shù)據(jù)集。 3.數(shù)據(jù)處理 由于我們的源數(shù)據(jù)為TXT格式,無(wú)法應(yīng)用于WEKA軟件,所以我們需要將它轉(zhuǎn)換為ARFF格式。我們查閱有關(guān)資料以及有關(guān)網(wǎng)站,找到了一個(gè)用Python轉(zhuǎn)換格式的方法。 TXT轉(zhuǎn)為ARFF格式def txt2arff(fil

16、ename, value): with open('./generatedarff.arff', 'w') as fp: fp.write('''relation ExceptionRelationattribute ID stringattribute Thrown numericattribute SetLogicFlag numericattribute Return numericattribute LOC numericattribute NumMethod numericattribute EmptyBlock numeric

17、attribute RecoverFlag numericattribute OtherOperation numericattribute class-att True,Falsedata''') with open(filename) as f: contents = f.readlines() for content in contents: lines = content.split('t') lines = line.strip() for line in lines if lines9 = '1': lines9 = &quo

18、t;True" lines.append('' + str(value) + '') else: lines9 = "False" lines.append('1') array = ','.join(lines) fp.write("%sn" % array)處理結(jié)果:小型數(shù)據(jù)大型數(shù)據(jù)(二)IBM SPSS Modeler1.Clementine 為了解決各種商務(wù)問(wèn)題,企業(yè)需要以不同的方式來(lái)處理各種類型迥異的數(shù)據(jù), 相異的任務(wù)類型和數(shù)據(jù)類型就要求有不同的分析技術(shù)。 Clement

19、ine為您提供最出色、最廣泛的數(shù)據(jù)挖掘技術(shù),確保您可用最恰當(dāng)?shù)姆治黾夹g(shù)來(lái)處理相應(yīng)的問(wèn)題,從而得到最優(yōu)的結(jié)果以應(yīng)對(duì)隨時(shí)出現(xiàn)的商業(yè)問(wèn)題。即便改進(jìn)業(yè)務(wù)的機(jī)會(huì)被龐雜的數(shù)據(jù)表格所掩蓋, Clementine也能最大限度地執(zhí)行標(biāo)準(zhǔn)的數(shù)據(jù)挖掘流程,為您找到解決商業(yè)問(wèn)題的最佳答案。2.Modeler其中看到其實(shí)Modeler也是SPSS公司收購(gòu)回的,前身即是Clementine,09年整個(gè)SPSS被IBM收購(gòu)后,就改名為IBM SPSS Modeler了,今年Modeler已經(jīng)發(fā)布18版本,更新要比以前多了不少,多了非常多的擴(kuò)展功能(例如天氣數(shù)據(jù)獲取等等)Modeler是一款數(shù)據(jù)挖掘軟件,建模的原理主要偏向于

20、數(shù)學(xué)算法,比如各種聚類算法,各種決策樹(shù)算法,神經(jīng)網(wǎng)絡(luò)算法,貝葉斯算法等等。目的是通過(guò)對(duì)數(shù)據(jù)的整理,建模,挖掘出相關(guān)的結(jié)果,知道管理實(shí)際。主要應(yīng)用于數(shù)據(jù)量大的分析,或者連接至數(shù)據(jù)庫(kù)分析。Modeler界面除了任何軟件都有的菜單欄、工具欄、狀態(tài)欄之外,主要由數(shù)據(jù)流構(gòu)建區(qū)數(shù)據(jù)流、結(jié)果和模型管理區(qū)數(shù)據(jù)挖掘項(xiàng)目管理區(qū)節(jié)點(diǎn)區(qū)四個(gè)部分構(gòu)成。IBM SPSS Modeler是客戶端/服務(wù)器端架構(gòu)的產(chǎn)品??蛻艏瓤梢栽趩螜C(jī)版上運(yùn)行IBM SPSS Modeler,也可以連接到IBM SPSS Modeler Server運(yùn)行數(shù)據(jù)流,從而充分利用服務(wù)器的高性能。IBM SPSS Modeler是一個(gè)數(shù)據(jù)挖掘軟件,其

21、功能涵蓋了整個(gè)數(shù)據(jù)挖掘流程,它主要提供三類重要功能來(lái)支持整個(gè)數(shù)據(jù)挖掘過(guò)程:數(shù)據(jù)整理、探索性數(shù)據(jù)分析、建立模型模型檢驗(yàn)?zāi)P蛻?yīng)用。3.數(shù)據(jù)處理SPSS Modeler需要數(shù)據(jù)格式為csv。在剛剛介紹的WEKA軟件中可以將txt格式的數(shù)據(jù)另存為csv格式的數(shù)據(jù)。6 數(shù)據(jù)挖掘(1) WEKA1.Apriori算法小數(shù)據(jù)1)默認(rèn)數(shù)值car 如果設(shè)為真,則會(huì)挖掘類關(guān)聯(lián)規(guī)則而不是全局關(guān)聯(lián)規(guī)則。 classindex 類屬性索引。如果設(shè)置為-1,最后的屬性被當(dāng)做類屬性。 delta 以0.05為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求

22、的規(guī)則。 lowerBoundMinSupport 最小支持度下界為0.5。metricType 度量類型。設(shè)置對(duì)規(guī)則進(jìn)行排序的度量依據(jù)。可以是:置信度(類關(guān)聯(lián)規(guī)則只能用置信度挖掘),提升度(lift),杠桿率(leverage),確信度(conviction)。在 Weka中設(shè)置了幾個(gè)類似置信度(confidence)的度量來(lái)衡量規(guī)則的關(guān)聯(lián)程度,它們分別是:a)        Lift : P(A,B)/(P(A)P(B) Lift=1時(shí)表示A和B獨(dú)立。

23、這個(gè)數(shù)越大(>1),越表明A和B存在于一個(gè)購(gòu)物籃中不是偶然現(xiàn)象,有較強(qiáng)的關(guān)聯(lián)度.b)        Leverage :P(A,B)-P(A)P(B)Leverage=0時(shí)A和B獨(dú)立,Leverage越大A和B的關(guān)系越密切c)        Conviction:P(A)P(!B)/P(A,!B) (!B表示B沒(méi)有發(fā)生) Conviction也是用來(lái)衡量A和B的獨(dú)立性。從它和lift的關(guān)系(對(duì)B取反,代入Lif

24、t公式后求倒數(shù))可以看出,這個(gè)值越大, A、B越關(guān)聯(lián)。minMtric 度量的最小值0.9。numRules 要發(fā)現(xiàn)的規(guī)則數(shù)為10。outputItemSets 如果設(shè)置為真,會(huì)在結(jié)果中輸出項(xiàng)集。removeAllMissingCols 移除全部為缺省值的列。significanceLevel 重要程度-0.1。重要性測(cè)試(僅用于置信度)。upperBoundMinSupport 最小支持度上界。 從1.0開(kāi)始迭代減小最小支持度。verbose 如果設(shè)置為真,則算法會(huì)以冗余模式運(yùn)行。2)結(jié)果解釋scheme -所選

25、的關(guān)聯(lián)規(guī)則挖掘方案: Apriori算法算法的參數(shù)設(shè)置:-I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 ; 各參數(shù)依次表示:I - 輸出項(xiàng)集,若設(shè)為false則該值缺省;N 10 - 規(guī)則數(shù)為10;T 0  度量單位選為置信度,(T1-提升度,T2杠桿率,T3確信度);C 0.9  度量的最小值為0.9;D 0.05 - 遞減迭代值為0.05;U 1.0 - 最小支持度上界為1.0;M 0.5 - 最小支持度下屆設(shè)為0.5;S -1.0 -

26、 重要程度為-1.0;c -1 - 類索引為-1輸出項(xiàng)集設(shè)為真(由于car, removeAllMissingCols, verbose都保持為默認(rèn)值False,因此在結(jié)果的參數(shù)設(shè)置為缺省,若設(shè)為True,則會(huì)在結(jié)果的參數(shù)設(shè)置信息中分別表示為A, R,V)Minimum support: 0.5 (470 instances)  /最小支持度0.5,即最少需要470個(gè)實(shí)例Minimum metric <confidence>: 0.9   /最小度量<置信度>: 0.9Number of cycles

27、 performed: 10    /進(jìn)行了10輪搜索Generated sets of large itemsets:     /生成的頻繁項(xiàng)集Size of set of large itemsets L(1): 11     /頻繁1項(xiàng)集:11個(gè)剩余結(jié)果3)修改數(shù)值delta 以0.1為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)則。結(jié)果如下:4)結(jié)果解釋scheme -所選的關(guān)聯(lián)規(guī)則挖掘方案: Apri

28、ori算法算法的參數(shù)設(shè)置:-I -N 10 -T 0 -C 0.9 -D 0.1 -U 1.0 -M 0.5 -S -1.0 -c -1 ; 各參數(shù)依次表示:I - 輸出項(xiàng)集,若設(shè)為false則該值缺省;N 10 - 規(guī)則數(shù)為10;T 0  度量單位選為置信度,(T1-提升度,T2杠桿率,T3確信度);C 0.9  度量的最小值為0.9;D 0.1 - 遞減迭代值為0.1;U 1.0 - 最小支持度上界為1.0;M 0.5 - 最小支持度下屆設(shè)為0.5;S -1.0 - 重要程度為-1.0;c -1 -&

29、#160;類索引為-1輸出項(xiàng)集設(shè)為真(由于car, removeAllMissingCols, verbose都保持為默認(rèn)值False,因此在結(jié)果的參數(shù)設(shè)置為缺省,若設(shè)為True,則會(huì)在結(jié)果的參數(shù)設(shè)置信息中分別表示為A, R,V)Minimum support: 0.5 (470 instances)  /最小支持度0.5,即最少需要470個(gè)實(shí)例Minimum metric <confidence>: 1.1   /最小度量<置信度>: 1.1Number of cycles performed: 3 

30、0; /進(jìn)行了3輪搜索Generated sets of large itemsets:     /生成的頻繁項(xiàng)集Size of set of large itemsets L(1): 11     /頻繁1項(xiàng)集:11個(gè)Size of set of large itemsets L(2): 39     /頻繁1項(xiàng)集:39個(gè)Size of set of large itemsets L(3):4   /頻繁

31、1項(xiàng)集:4個(gè)2.FP-Growth算法大數(shù)據(jù)1)默認(rèn)數(shù)值 delta 以0.05為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)則。 lowerBoundMinSupport 最小支持度下界為0.5。metricType 度量類型。設(shè)置對(duì)規(guī)則進(jìn)行排序的度量依據(jù)??梢允牵褐眯哦龋愱P(guān)聯(lián)規(guī)則只能用置信度挖掘),提升度(lift),杠桿率(leverage),確信度(conviction)。在 Weka中設(shè)置了幾個(gè)類似置信度(confidence)的度量來(lái)衡量規(guī)則的關(guān)聯(lián)程度,它們分別是:a)  &

32、#160;     Lift : P(A,B)/(P(A)P(B) Lift=1時(shí)表示A和B獨(dú)立。這個(gè)數(shù)越大(>1),越表明A和B存在于一個(gè)購(gòu)物籃中不是偶然現(xiàn)象,有較強(qiáng)的關(guān)聯(lián)度.b)        Leverage :P(A,B)-P(A)P(B)Leverage=0時(shí)A和B獨(dú)立,Leverage越大A和B的關(guān)系越密切c)        Conviction:P(A)P(!B)/P(A,!B) (!B表示B沒(méi)有發(fā)生) Conviction也是用來(lái)衡量A和B的獨(dú)立性。從它和lift的關(guān)系(對(duì)B取反,代入Lift公式后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論