數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析_第1頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析_第2頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析_第3頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析_第4頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章:關(guān)聯(lián)分析—基本概念和算法數(shù)據(jù)挖掘?qū)д? 主講:杜劍峰 4/18/20101關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集產(chǎn)生規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估目的:介紹關(guān)聯(lián)分析的基本概念、關(guān)聯(lián)規(guī)則挖掘的基本方法,以及關(guān)聯(lián)模式評(píng)估的度量要求:掌握關(guān)聯(lián)規(guī)則挖掘的Apriori算法,了解關(guān)聯(lián)規(guī)則挖掘的其他方法,熟悉關(guān)聯(lián)模式評(píng)估的典型度量重點(diǎn):用于頻繁項(xiàng)集產(chǎn)生和規(guī)則產(chǎn)生的Apriori算法難點(diǎn):使用散列樹(shù)(HashTree)的支持度計(jì)算方法第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估關(guān)聯(lián)分析給定一組事務(wù),尋找預(yù)測(cè)“某些項(xiàng)將會(huì)隨其他項(xiàng)的出現(xiàn)而出現(xiàn)”的規(guī)則挖掘關(guān)聯(lián)規(guī)則購(gòu)物籃事務(wù)數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則的例子{Diaper}{Beer},

{Milk,Bread}{Eggs,Coke},

{Beer,Bread}{Milk},蘊(yùn)含符號(hào)“”表示共現(xiàn)關(guān)系,而不是因果關(guān)系定義:頻繁項(xiàng)集項(xiàng)集一個(gè)或多個(gè)項(xiàng)的集合例子:{Milk,Bread,Diaper}k-項(xiàng)集包含k個(gè)項(xiàng)的項(xiàng)集支持度計(jì)數(shù)(supportcount)給定項(xiàng)集的出現(xiàn)次數(shù)比如({Milk,Bread,Diaper})=2支持度(support)覆蓋給定項(xiàng)集的事務(wù)數(shù)占所有事務(wù)數(shù)的比例比如s({Milk,Bread,Diaper})=2/5=40%頻繁項(xiàng)集支持度大于等于給定閾值

minsup

的項(xiàng)集定義:關(guān)聯(lián)規(guī)則例子:關(guān)聯(lián)規(guī)則形式為XY的蘊(yùn)含表達(dá)式,其中X和Y是項(xiàng)集例子:

{Milk,Diaper}{Beer}

規(guī)則評(píng)估度量支持度(s)s(XY)=(X∪Y)/|T|包含X和Y的事務(wù)個(gè)數(shù)占所有事務(wù)個(gè)數(shù)的比例置信度(c)c(XY)=(X∪Y)/(X)在包含X的事務(wù)集合中,包含Y的事務(wù)個(gè)數(shù)占事務(wù)總數(shù)的比例關(guān)聯(lián)規(guī)則挖掘任務(wù)給定一個(gè)事務(wù)集合T,關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是尋找所有滿足下面條件的規(guī)則支持度≥minsup置信度≥minconfBrute-force(蠻力)方法:列出所有可能的關(guān)聯(lián)規(guī)則計(jì)算每條規(guī)則的支持度和置信度刪除支持度不足minsup或置信度不足minconf的規(guī)則 代價(jià)極高!

因?yàn)閺陌琩個(gè)項(xiàng)的數(shù)據(jù)集提取的可能規(guī)則的總數(shù)是R=3d-2d+1+1,比如d=6則R=602挖掘關(guān)聯(lián)規(guī)則規(guī)則的例子:

{Milk,Diaper}{Beer}(s=0.4,c=0.67)

{Milk,Beer}{Diaper}(s=0.4,c=1.0){Diaper,Beer}{Milk}(s=0.4,c=0.67){Beer}{Milk,Diaper}(s=0.4,c=0.67)

{Diaper}{Milk,Beer}(s=0.4,c=0.5){Milk}{Diaper,Beer}(s=0.4,c=0.5)觀察結(jié)果:

上面所有的規(guī)則都是同一個(gè)項(xiàng)集的二分:{Milk,Diaper,Beer}

由同一個(gè)項(xiàng)集得到的規(guī)則具有相同的支持度和不同的置信度

因此,我們可以將支持度和置信度分開(kāi)處理挖掘關(guān)聯(lián)規(guī)則兩步方法:頻繁項(xiàng)集的產(chǎn)生產(chǎn)生支持度

minsup

的所有項(xiàng)集規(guī)則的產(chǎn)生由每個(gè)頻繁項(xiàng)集產(chǎn)生置信度

minconf

的規(guī)則,其中每個(gè)規(guī)則都是該頻繁項(xiàng)集的二分第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估頻繁項(xiàng)集的產(chǎn)生給定d個(gè)項(xiàng),一共有2d

個(gè)項(xiàng)集頻繁項(xiàng)集的產(chǎn)生Brute-force(蠻力)方法:在項(xiàng)集格中的每個(gè)項(xiàng)集都是一個(gè)候選頻繁項(xiàng)集掃描事務(wù)數(shù)據(jù)庫(kù)計(jì)算每個(gè)候選頻繁項(xiàng)集的支持度將每個(gè)事務(wù)與每個(gè)候選頻繁項(xiàng)集匹配比較次數(shù)~O(NMw)=>代價(jià)極高,因?yàn)镸=2d

!!!第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略減少候選頻繁項(xiàng)集的個(gè)數(shù)(M)完全搜索:M=2d使用剪枝計(jì)數(shù)減少M(fèi)減少事務(wù)的個(gè)數(shù)

(N)當(dāng)項(xiàng)集的大小增加時(shí),減少N在基于垂直數(shù)據(jù)分布的挖掘算法中使用減少比較的次數(shù)(NM)使用高效的數(shù)據(jù)結(jié)構(gòu)保存候選頻繁項(xiàng)集或事務(wù)不需要匹配每個(gè)候選和每個(gè)事務(wù)垂直數(shù)據(jù)分布優(yōu)化策略1:減少候選頻繁項(xiàng)集的個(gè)數(shù)先驗(yàn)原理(Aprioriprinciple):如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集都是頻繁的先驗(yàn)原理成立的原因:一個(gè)項(xiàng)集的支持度不會(huì)超過(guò)其任何子集的支持度該性質(zhì)稱作支持度的反單調(diào)性質(zhì)發(fā)現(xiàn)是非頻繁的先驗(yàn)原理的圖示被剪枝的超集先驗(yàn)原理的圖示1-項(xiàng)集2-項(xiàng)集(不需要生成涉及Coke或Eggs的候選頻繁項(xiàng)集)3-項(xiàng)集最小支持度計(jì)數(shù)=3如果考慮所有項(xiàng)集,6C1+6C2+6C3=41使用基于支持度的剪枝,6+6+1=13Apriori算法算法流程:設(shè)定k=1掃描事務(wù)數(shù)據(jù)庫(kù)一次,生成頻繁的1-項(xiàng)集如果存在兩個(gè)或以上頻繁k-項(xiàng)集,重復(fù)下面過(guò)程:[候選產(chǎn)生]

由長(zhǎng)度為k的頻繁項(xiàng)集生成長(zhǎng)度為k+1的候選項(xiàng)集[候選前剪枝]

對(duì)每個(gè)候選項(xiàng)集,若其具有非頻繁的長(zhǎng)度為k的子集,則刪除該候選項(xiàng)集[支持度計(jì)算]

掃描事務(wù)數(shù)據(jù)庫(kù)一次,統(tǒng)計(jì)每個(gè)余下的候選項(xiàng)集的支持度[候選后剪枝]

刪除非頻繁的候選項(xiàng)集,僅保留頻繁的(k+1)-項(xiàng)集設(shè)定k=k+1Apriori算法的核心步驟候選產(chǎn)生 設(shè)A={a1,a2,…,ak}和B={b1,b2,…,bk}是一對(duì)頻繁k-項(xiàng)集,當(dāng)且僅當(dāng)ai=bi(i=1,2,k-1)并且ak≠bk時(shí),合并A和B,得到{a1,a2,…,ak,bk}比如合并{Bread,Milk}和{Bread,Diaper}得到{Bread,Milk,Diaper},但{Milk,Bread}和{Bread,Diaper}不能合并候選前剪枝 設(shè)A={a1,a2,…,ak,ak+1}是一個(gè)候選(k+1)-項(xiàng)集,檢查每個(gè)A’是否在第k層頻繁項(xiàng)集中出現(xiàn),其中A’由A去掉ai(i=1,…,k-1)得到

若某個(gè)A’沒(méi)有出現(xiàn),則A是非頻繁的Apriori算法的例子考慮下面的事務(wù)數(shù)據(jù)庫(kù)最小支持度計(jì)數(shù)閾值=2Apriori算法的例子…(生成頻繁1-項(xiàng)集)(候選產(chǎn)生)(候選后剪枝)(支持度計(jì)算)(候選產(chǎn)生和候選前剪枝)(支持度計(jì)算)(候選后剪枝)優(yōu)化策略2:減少比較次數(shù)候選項(xiàng)集的支持度計(jì)算:掃描事務(wù)數(shù)據(jù)庫(kù),決定每個(gè)候選項(xiàng)集的支持度為了減少比較次數(shù),將候選項(xiàng)集保存在散列(hash)結(jié)構(gòu)中

將每個(gè)事務(wù)與保存在散列結(jié)構(gòu)的候選項(xiàng)集作匹配生成候選的散列樹(shù)2345671451361244571254581593453563576893673681,4,72,5,83,6,9散列函數(shù)假設(shè)有15個(gè)長(zhǎng)度為3的候選項(xiàng)集:{145},{124},{457},{125},{458},{159},{136},{234},{567},{345},{356},{357},{689},{367},{368}散列樹(shù)(hashtree)參數(shù):

散列函數(shù)(hashfunction)

葉子大小限制:保存在一個(gè)葉子結(jié)點(diǎn)的項(xiàng)集個(gè)數(shù)的上限(如果候選項(xiàng)集的個(gè)數(shù)超過(guò)該限制,則分裂葉子結(jié)點(diǎn))葉子大小限制:3生成候選的散列樹(shù)1591451363453673683563576892345671244571254581,4,72,5,83,6,9散列函數(shù)散列樹(shù)生成候選的散列樹(shù)1591451363453673683563576892345671244571254581,4,72,5,83,6,9散列函數(shù)散列樹(shù)生成候選的散列樹(shù)1591451363453673683563576892345671244571254581,4,72,5,83,6,9散列函數(shù)散列樹(shù)子集操作給定一個(gè)事務(wù)t,t包含哪些長(zhǎng)度為3的可能子集?使用散列樹(shù)的子集操作159145136345367368356357689234567124457125458123561+23563562+563+1,4,72,5,83,6,9散列函數(shù)事務(wù)給定一個(gè)事務(wù)t,t包含散列樹(shù)中哪些子集?使用散列樹(shù)的子集操作1591451363453673683563576892345671244571254581,4,72,5,83,6,9散列函數(shù)1235635612+5613+615+3562+563+1+2356事務(wù)給定一個(gè)事務(wù)t,t包含散列樹(shù)中哪些子集?635+使用散列樹(shù)的子集操作1591451363453673683563576892345671244571254581,4,72,5,83,6,9散列函數(shù)1235635612+5613+615+3562+563+1+2356事務(wù)給定一個(gè)事務(wù)t,t包含散列樹(shù)中哪些子集?9個(gè)候選3-項(xiàng)集與事務(wù)的當(dāng)前子集比較635+123125126156第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估計(jì)算復(fù)雜度的影響因素最小支持度閾值的選擇低支持度閾值導(dǎo)致更多頻繁項(xiàng)集將會(huì)增加候選項(xiàng)集的個(gè)數(shù)和頻繁項(xiàng)集的最大長(zhǎng)度數(shù)據(jù)庫(kù)的維度,即項(xiàng)的個(gè)數(shù)需要更多空間保存每個(gè)項(xiàng)的支持度計(jì)數(shù)如果頻繁項(xiàng)集的個(gè)數(shù)增加,則計(jì)算量和I/O開(kāi)銷也增加數(shù)據(jù)庫(kù)的大小由于Apriori多次訪問(wèn)數(shù)據(jù)庫(kù),算法的運(yùn)行時(shí)間將隨事務(wù)個(gè)數(shù)的增加而增加平均事務(wù)長(zhǎng)度事務(wù)長(zhǎng)度隨數(shù)據(jù)庫(kù)密度的增加而增加可能會(huì)增加頻繁項(xiàng)集的最大長(zhǎng)度和散列樹(shù)的遍歷時(shí)間(因?yàn)槭聞?wù)的子集個(gè)數(shù)隨著其長(zhǎng)度的增加而增加)作業(yè)將Apriori算法應(yīng)用于下面的事務(wù)數(shù)據(jù)庫(kù),最小支持度為30%,畫出Apriori算法的運(yùn)行過(guò)程。P253:10第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估頻繁項(xiàng)集的緊湊表示某些項(xiàng)集是冗余的,因?yàn)樗鼈兙哂信c它們超集相同的支持度頻繁項(xiàng)集的個(gè)數(shù)需要緊湊的表示最大頻繁項(xiàng)集邊界非頻繁項(xiàng)集最大頻繁項(xiàng)集如果一個(gè)頻繁項(xiàng)集沒(méi)有任何頻繁的直接超集,則該項(xiàng)集稱作最大頻繁項(xiàng)集頻繁閉項(xiàng)集如果一個(gè)項(xiàng)集的任何直接超集都不具有和它相同的支持度計(jì)數(shù),則該項(xiàng)集稱為閉項(xiàng)集如果一個(gè)閉項(xiàng)集是頻繁的,則它稱為頻繁閉項(xiàng)集最大頻繁項(xiàng)集vs

頻繁閉項(xiàng)集事務(wù)ID不被任何事務(wù)支持最大頻繁項(xiàng)集vs

頻繁閉項(xiàng)集最小支持度計(jì)數(shù)=2#頻繁閉項(xiàng)集=9#最大頻繁項(xiàng)集=4頻繁閉項(xiàng)集,而且是最大的頻繁閉項(xiàng)集,但不是最大的最大頻繁項(xiàng)集、頻繁閉項(xiàng)集和頻繁項(xiàng)集第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估產(chǎn)生頻繁項(xiàng)集的其他方法項(xiàng)集格的遍歷一般到特殊vs

特殊到一般產(chǎn)生頻繁項(xiàng)集的其他方法項(xiàng)集格的遍歷等價(jià)類產(chǎn)生頻繁項(xiàng)集的其他方法項(xiàng)集格的遍歷寬度優(yōu)先vs

深度優(yōu)先產(chǎn)生頻繁項(xiàng)集的其他方法事務(wù)數(shù)據(jù)庫(kù)的表示水平數(shù)據(jù)布局vs

垂直數(shù)據(jù)布局FP增長(zhǎng)算法使用事務(wù)數(shù)據(jù)庫(kù)的緊湊數(shù)據(jù)結(jié)構(gòu)-FP樹(shù)一旦FP樹(shù)構(gòu)建完成,該算法使用一個(gè)遞歸的分而治之的方法挖掘頻繁項(xiàng)集FP樹(shù)的構(gòu)建nullA:1B:1nullA:1B:1B:1C:1D:1讀入TID=1后:讀入TID=2后:事務(wù)數(shù)據(jù)庫(kù)中已經(jīng)去掉非頻繁的項(xiàng),并且事務(wù)中余下的項(xiàng)已按照支持度遞減排序FP樹(shù)的構(gòu)建nullA:7B:5B:3C:3D:1C:1D:1C:3D:1D:1E:1E:1指針用于輔助頻繁項(xiàng)集生成D:1E:1事務(wù)數(shù)據(jù)庫(kù)頭指針表FP增長(zhǎng)過(guò)程nullA:7B:5B:1C:1D:1C:1D:1C:3D:1D:1從D開(kāi)始開(kāi)始直到A逐個(gè)處理?xiàng)l件模式庫(kù)關(guān)于D的條件模式庫(kù)是D的所有前綴路徑的集合:P={(A:1,B:1,C:1),

(A:1,B:1),

(A:1,C:1),

(A:1),

(B:1,C:1)}對(duì)P遞歸應(yīng)用FP增長(zhǎng)過(guò)程發(fā)現(xiàn)頻繁項(xiàng)集(sup>1):

AD,BD,CD,ACD,BCDD:1ECLAT算法使用垂直數(shù)據(jù)布局:對(duì)于每個(gè)項(xiàng),保存事務(wù)ID列表(TID列表)TID列表ECLAT算法通過(guò)計(jì)算兩個(gè)k-1子集的TID列表的交集,決定k-項(xiàng)集的TID列表三種遍歷方法:自頂向下、自底向上和混合方法優(yōu)點(diǎn):計(jì)算支持度很快缺點(diǎn):計(jì)算過(guò)程產(chǎn)生的TID列表可能占用很大內(nèi)存

第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估規(guī)則產(chǎn)生給定一個(gè)頻繁項(xiàng)集L,尋找L的所有非空真子集f使fL-f的置信度大于等于給定的置信度閾值如果{A,B,C,D}是頻繁項(xiàng)集,則候選的規(guī)則包括:ABCD, ABDC, ACDB, BCDA,

ABCD, BACD, CABD, DABC

ABCD, ACBD, ADBC, BCAD,

BDAC, CDAB,

如果|L|=k,則有2k–2個(gè)候選的關(guān)聯(lián)規(guī)則(忽略L

和L)規(guī)則產(chǎn)生如何從頻繁項(xiàng)集高效生成規(guī)則?一般地說(shuō),置信度沒(méi)有反單調(diào)性質(zhì)比如,c(ABCD)可以大于或小于c(ABD)但從同一個(gè)項(xiàng)集生成的規(guī)則的置信度具有反單調(diào)性質(zhì)比如,L={A,B,C,D}:

c(ABCD)c(ABCD)c(ABCD)針對(duì)規(guī)則后件的項(xiàng)集,置信度是反單調(diào)的:如果規(guī)則XY-X不滿足置信度閾值,則形如X’Y-X’的規(guī)則也不滿足置信度閾值,其中X’是X的子集規(guī)則產(chǎn)生的Apriori算法規(guī)則格剪掉的規(guī)則低置信度規(guī)則規(guī)則產(chǎn)生的Apriori算法[候選產(chǎn)生]

候選規(guī)則通過(guò)合并兩個(gè)具有相同規(guī)則后件前綴的規(guī)則產(chǎn)生, 比如合并(CD=>AB,BD=>AC)

得到候選規(guī)則D=>ABC[候選前剪枝]

如果規(guī)則 D=>ABC的子集AD=>BC 不滿足置信度閾值,則 刪除該規(guī)則[置信度計(jì)算][候選后剪枝]第6章:關(guān)聯(lián)分析—基本概念和算法關(guān)聯(lián)分析的預(yù)備知識(shí)頻繁項(xiàng)集的產(chǎn)生頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略計(jì)算復(fù)雜度的影響因素頻繁項(xiàng)集的緊湊表示產(chǎn)生頻繁項(xiàng)集的其他方法規(guī)則產(chǎn)生關(guān)聯(lián)模式的評(píng)估關(guān)聯(lián)模式評(píng)估關(guān)聯(lián)規(guī)則算法傾向于產(chǎn)生大量的規(guī)則很多產(chǎn)生的規(guī)則是不感興趣的或冗余的如果{A,B,C}{D}和{A,B}{D}具有相同的支持度和置信度,則{A,B,C}{D}是冗余的興趣度可以用于對(duì)產(chǎn)生的規(guī)則進(jìn)行過(guò)濾或排序在原來(lái)的關(guān)聯(lián)規(guī)則定義中,支持度和置信度是唯一使用的度量興趣度度量客觀度量:基于從數(shù)據(jù)推導(dǎo)出的統(tǒng)計(jì)量來(lái)確定模式是否有趣比如21個(gè)關(guān)聯(lián)度量(支持度、置信度、拉普拉斯、Gini指標(biāo)、互信息、Jaccard,等等)主觀度量:根據(jù)用戶的解釋來(lái)確定模式是否有趣

如果一個(gè)模式揭示料想不到的信息,那么它是主觀有趣的(Silberschatz&Tuzhilin)

如果一個(gè)模式是可操作的(actionable),即提供導(dǎo)致有益行動(dòng)的有用信息,那么它是主觀有趣的(Silberschatz&Tuzhilin)興趣度的應(yīng)用興趣度度量計(jì)算客觀興趣度給定規(guī)則XY,計(jì)算規(guī)則興趣度的信息可以從以下相依表(contingencetable)中獲取YYXf11f10f1+Xf01f00fo+f+1f+0|T|規(guī)則XY的相依表用于定義不同的度量

支持度、置信度、提升度、Gini、J度量,等等f(wàn)11:X和Y共現(xiàn)的支持度計(jì)數(shù)

f10:X和Y共現(xiàn)的支持度計(jì)數(shù)

f01:X和Y共現(xiàn)的支持度計(jì)數(shù)

f00:X和Y共現(xiàn)的支持度計(jì)數(shù)支持度-置信度的局限性CoffeeCoffeeTea15520Tea755809010100支持度的缺點(diǎn)若支持度閾值過(guò)高,則許多潛在的有意義的模式被刪調(diào)若支持度閾值過(guò)低,則計(jì)算代價(jià)很高而且產(chǎn)生大量的關(guān)聯(lián)模式置信度的缺點(diǎn)關(guān)聯(lián)規(guī)則:TeaCoffee 置信度 =P(Coffee|Tea) =0.75 但P(Coffee)=0.9 雖然置信度很高,但規(guī)則是誤導(dǎo)的

置信度忽略了規(guī)則前件和后件的統(tǒng)計(jì)獨(dú)立性統(tǒng)計(jì)獨(dú)立性1000個(gè)學(xué)生的群體600個(gè)學(xué)生知道如何去游泳(S)700個(gè)學(xué)生知道如何去騎單車(B)420個(gè)學(xué)生知道如何去游泳和騎單車(S,B)P(SB)=420/1000=0.42P(S)P(B)=0.60.7=0.42P(SB)=P(S)P(B)=>統(tǒng)計(jì)獨(dú)立P(SB)>P(S)P(B)=>正相關(guān)P(SB)<P(S)P(B)=>負(fù)相關(guān)基于統(tǒng)計(jì)的度量部分考慮統(tǒng)計(jì)獨(dú)立性的度量提升度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論