數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言- 課件 第十章 關(guān)聯(lián)規(guī)則分析_第1頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言- 課件 第十章 關(guān)聯(lián)規(guī)則分析_第2頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言- 課件 第十章 關(guān)聯(lián)規(guī)則分析_第3頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言- 課件 第十章 關(guān)聯(lián)規(guī)則分析_第4頁(yè)
數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言- 課件 第十章 關(guān)聯(lián)規(guī)則分析_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言合作QQ:243001978第十章關(guān)聯(lián)規(guī)則分析合作QQ:243001978關(guān)聯(lián)分析與概率統(tǒng)計(jì)01關(guān)聯(lián)規(guī)則的挖掘02Apriori算法原理03R編程04章節(jié)內(nèi)容引導(dǎo)案例:“啤酒與尿布”關(guān)聯(lián)規(guī)則分析又被稱作購(gòu)物籃分析,最早是用于挖掘超市銷售數(shù)據(jù)庫(kù)中不同商品間的某種關(guān)聯(lián),比如兩個(gè)商品是否會(huì)被同時(shí)購(gòu)買(mǎi)或者購(gòu)買(mǎi)一種商品是否會(huì)提升購(gòu)買(mǎi)另一種商品的可能性等等?!捌【婆c尿布”是關(guān)聯(lián)規(guī)則中最經(jīng)典的一個(gè)案例,零售商通過(guò)分析發(fā)現(xiàn),把啤酒放在尿布旁,有助于提升啤酒的銷售量。TID項(xiàng)集1{面包、牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂(lè)}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂(lè)}表10-1購(gòu)物籃數(shù)據(jù)10.1關(guān)聯(lián)分析與概率統(tǒng)計(jì)初等概率演算令

P(A)

表示事件

A(買(mǎi)薯片)發(fā)生的概率。事件

A

發(fā)生的次數(shù)比例也稱為

A

的支持度,它是關(guān)聯(lián)矩陣

A

列中

1

的相對(duì)頻率。事件

B(買(mǎi)啤酒)發(fā)生的概率

P(B),事件

A

B

同時(shí)發(fā)生的概率

P(AandB)

同理。P(B|A)

是給定

A

時(shí)

B

的條件概率。它表示在已知事件A(購(gòu)買(mǎi)薯片)發(fā)生的情況下事件B(購(gòu)買(mǎi)啤酒)發(fā)生的概率,其中

P(B|A)=P(AandB)/P(A)。A=LHS(買(mǎi)薯片)→B=RHS(買(mǎi)啤酒)是一條簡(jiǎn)單的關(guān)聯(lián)規(guī)則,其中規(guī)則左側(cè)稱為“前件”,規(guī)則右側(cè)稱為“后件”,而箭頭表示“相關(guān)”。在給定事件

A(LHS)

的情況下,事件

B(RHS)

的條件概率稱為事件

B

的置信度。它表示如果

A

已經(jīng)購(gòu)買(mǎi),我們對(duì)產(chǎn)品B

會(huì)被購(gòu)買(mǎi)的相信程度。B

的置信度通常由二者的支持度(supp)計(jì)算得到,supp(A=LHSandB=RHS)/supp(A=LHS)。10.1關(guān)聯(lián)分析與概率統(tǒng)計(jì)

10.2關(guān)聯(lián)規(guī)則的挖掘

關(guān)聯(lián)規(guī)則的基本概念

關(guān)聯(lián)規(guī)則的挖掘

關(guān)聯(lián)規(guī)則的挖掘

關(guān)聯(lián)規(guī)則的挖掘圖10-1含有5項(xiàng)的交易數(shù)據(jù)存在的項(xiàng)集情況關(guān)聯(lián)規(guī)則的挖掘

關(guān)聯(lián)規(guī)則的挖掘圖10-2先驗(yàn)原理示例10.3Apriori算法原理令

Fk

代表頻繁

k

項(xiàng)集,Lk

代表候選

k

項(xiàng)集。Apriori算法的基本框架:步驟1:令

k=1步驟2:生成F1={頻繁

1

項(xiàng)集}步驟3:重復(fù)以下操作直至

Fk

為空集①候選集的生成:從

Fk

中生成

Lk+1②候選集的剪枝:剪去候選集

Lk+1中包含長(zhǎng)度為

k

的非頻繁子集的項(xiàng)集③支持度計(jì)算:通過(guò)掃描數(shù)據(jù)庫(kù)計(jì)算

Lk+1中每個(gè)候選集的支持度④候選集消除:舍棄

Lk+1中非頻繁的候選集,留下的候選集即成為

Fk+1注意事項(xiàng):生成候選集時(shí)避免不必要的候選,比如候選集的子集是非頻繁的,則該候選集一定為非頻繁項(xiàng)集。生成候選集的過(guò)程中即不重復(fù),也不遺漏。Apriori算法的基本框架

Apriori算法的基本框架

F3={ABC,ABD,ABE,ACD,BCD,BDE,CDE}

為頻繁

3

項(xiàng)集,并以此生成頻繁

4

項(xiàng)集。合并(ABC,ABD)=ABCD,合并(ABC,ABE)=ABCE,合并(ABD,ABE)=

ABDE,得到候選4項(xiàng)集L4={ABCD,ABCE,ABDE}。剪枝。由于ACE,BCE并非頻繁3項(xiàng)集,而其為候選4項(xiàng)集ABCE的子集,根據(jù)先驗(yàn)原理,ABCE一定為非頻繁項(xiàng)集,故剪去。同理,ABDE被減去。剪枝后,L4={ABCD}。

F3={ABC,ABD,ABE,ACD,BCD,BDE,CDE}

為頻繁

3

項(xiàng)集,并以此生成頻繁

4

項(xiàng)集。合并(ABC,BCD)=ABCD,合并(ABD,BDE)=ABDE,合并(ACD,CDE)=

ACDE,合并(BCD,CDE)=BCDE,得到候選

4

項(xiàng)集

L4={ABCD,ABDE,ACDE,

BCDE}。剪枝。由于ADE并非頻繁3項(xiàng)集,而其為候選4項(xiàng)集ABDE的子集,根據(jù)先驗(yàn)原理,ABDE一定為非頻繁項(xiàng)集,故剪去。同理,ACDE、BCDE被減去。剪枝后,L4={ABCD}。規(guī)則生成

規(guī)則生成假定

{A,B,C,D}

是一組頻繁

4

項(xiàng)集,則有

c(ABC→D)=σ(ABCD)/σ(ABC),c(AB→CD)=σ(ABCD)/σ(AB),c(A→BCD)=σ(ABCD)/σ(A),由于

σ(A)>σ(AB)>σ(ABC),因此

c(ABC→D)≥c(AB→CD)≥c(A→BCD)圖10-5規(guī)則的剪枝10.4R編程#安裝相關(guān)包install.packages("arules")#相關(guān)庫(kù)導(dǎo)入library(arules)read.transactions(file,format=c("basket","single"),header=FALSE,sep="",cols=NULL,rm.duplicates=false,quote="\",skip=0,encoding="unknown")#讀取數(shù)據(jù)集simpleData<-read.transactions("E:/model_data/Data_AssociationRule/instance1.txt",format="basket",sep=",")關(guān)聯(lián)規(guī)則分析的相關(guān)算法在

“arules”

包中,該包提供了一個(gè)表達(dá)、處理、分析事務(wù)數(shù)據(jù)和模式的基本框架?!癮rules”

包加載后,調(diào)用其中的

read.transactions()

函數(shù)讀取事務(wù)數(shù)據(jù)集并創(chuàng)建稀疏矩陣。其中

file

表示要讀取的文件名及其路徑,format

表示數(shù)據(jù)格式,分為

“basket”

“single”

兩種。如果事務(wù)數(shù)據(jù)集的每行內(nèi)容只包含商品項(xiàng),則選用

“basket”。如果每行內(nèi)容包含交易單號(hào)

+

商品項(xiàng),則選用

“single”。數(shù)據(jù)預(yù)處理#查看事務(wù)數(shù)據(jù)集simpleData輸出:#查看稀疏矩陣的內(nèi)容inspect(simpleData)輸出:由結(jié)果可知,數(shù)據(jù)集共有十行交易數(shù)據(jù),每行交易數(shù)據(jù)最多只有

5

項(xiàng),即

a,b,c,d,e。其中

b

出現(xiàn)了

8

次,為最頻繁

1

項(xiàng)集。數(shù)據(jù)導(dǎo)入后,執(zhí)行

simpleData

查看事務(wù)數(shù)據(jù)集,后調(diào)用

summary()

函數(shù)獲取統(tǒng)計(jì)匯總信息,并通過(guò)

inspect()

函數(shù)查看稀疏矩陣的內(nèi)容。#查看數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)匯總信息summary(simpleData)輸出:Apriori算法建模apriori(data,parameter=NULL,appearance=NULL,control=NULL)rule1=apriori(simpleData,parameter=list(support=0.3,confidence=0.6))輸出:調(diào)用

apriori()

函數(shù)建模。data

為事務(wù)類的對(duì)象或能夠強(qiáng)制轉(zhuǎn)換成事務(wù)類的任何數(shù)據(jù)結(jié)構(gòu)。parameter

中包含一系列參數(shù),用戶可以根據(jù)需求自由設(shè)置。如:support

表示規(guī)則的最小支持度,其默認(rèn)值為

0.1;confidence

表示關(guān)聯(lián)規(guī)則的最小置信度,其默認(rèn)值為

0.8。例:設(shè)定關(guān)聯(lián)規(guī)則的支持度為

0.3,置信度為

0.6,并以此挖掘關(guān)聯(lián)規(guī)則。結(jié)果分析#輸出模型結(jié)果inspect(rule1)輸出:關(guān)聯(lián)規(guī)則挖掘完成后,調(diào)用

inspect()

函數(shù)輸出模型結(jié)果。結(jié)果表明,通過(guò)

Apriori

算法總共可以挖掘得到17

條符合條件的關(guān)聯(lián)規(guī)則。以第

15

條規(guī)則為例,其支持度為

0.3,置信度為

0.6,說(shuō)明

a,c,b

同時(shí)發(fā)生的概率為

0.3,a,c

發(fā)生則

b

發(fā)生的概率為

0.6。此外,該規(guī)則的提升度(lift)為

0.75,支持度計(jì)數(shù)為

3。例:疾病數(shù)據(jù)分析#讀取疾病數(shù)據(jù)集illnessData<-read.csv("./illnessData.csv",encoding="UTF-8")#查看前10行數(shù)據(jù)illnessData[1:10,1:5]illnessData[1:10,6:10]#獲取數(shù)據(jù)集長(zhǎng)度length(illnessData$病程階段)輸出:首先調(diào)用

read.csv()

函數(shù)導(dǎo)入疾病數(shù)據(jù)集,查看其前

10

行數(shù)據(jù),并通過(guò)

length()

函數(shù)獲取該數(shù)據(jù)集的數(shù)據(jù)長(zhǎng)度。數(shù)據(jù)集的每個(gè)事務(wù)都包含

10

個(gè)項(xiàng),其中第1

至第

6

列為連續(xù)型數(shù)據(jù),第

7

至第

10

列為離散型數(shù)據(jù)。例:疾病數(shù)據(jù)分析合作QQ:243001978#只保留第7-10列用于分析illnessPartData<-illnessData[,7:10]illnessPartData[1:20,]輸出:由于應(yīng)用

Apriori

算法進(jìn)行數(shù)據(jù)挖掘,因此只保留數(shù)據(jù)集中第

7

至第

10

列的數(shù)據(jù),并對(duì)保留下的離散型數(shù)據(jù)集進(jìn)行關(guān)聯(lián)規(guī)則挖掘。例:疾病數(shù)據(jù)分析#將數(shù)據(jù)轉(zhuǎn)換成transactions屬性processIllData=as(illnessPartData,"transactions")#觀察前20行的數(shù)據(jù)inspect(processIllData[1:20])輸出:通過(guò)

inspect()

函數(shù)觀察轉(zhuǎn)換后的疾病數(shù)據(jù)集,可以發(fā)現(xiàn)該數(shù)據(jù)集的呈現(xiàn)方式明顯不同于轉(zhuǎn)換前。調(diào)用as()函數(shù)將疾病數(shù)據(jù)集轉(zhuǎn)換為transactions屬性,便于后續(xù)進(jìn)行關(guān)聯(lián)規(guī)則分析。例:疾病數(shù)據(jù)分析#設(shè)定關(guān)聯(lián)規(guī)則的支持度為0.08,置信度為0.85rule2=apriori(processIllData,parameter=list(support=0.08,confidence=0.85))輸出:調(diào)用apriori()函數(shù)建模,設(shè)定關(guān)聯(lián)規(guī)則的支持度為0.08,置信度為0.85,并以此挖掘關(guān)聯(lián)規(guī)則。例:疾病數(shù)據(jù)分析#輸出模型結(jié)果inspect(rule2)輸出:以第

20

條規(guī)則為例,其支持度為0.215,置信度為1。這說(shuō)明項(xiàng)

“TNM分期=H2”、“確診后幾年發(fā)現(xiàn)轉(zhuǎn)移=J0”、“轉(zhuǎn)移部位=R0”

三者同時(shí)發(fā)生的概率為

0.215,“TNM分期=H2”、“確診后幾年發(fā)現(xiàn)轉(zhuǎn)移=J0”

發(fā)生,則“轉(zhuǎn)移部位=R0”

發(fā)生的概率為

1。此外,該規(guī)則的提升度(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論