




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言合作QQ:243001978第十章關(guān)聯(lián)規(guī)則分析合作QQ:243001978關(guān)聯(lián)分析與概率統(tǒng)計(jì)01關(guān)聯(lián)規(guī)則的挖掘02Apriori算法原理03R編程04章節(jié)內(nèi)容引導(dǎo)案例:“啤酒與尿布”關(guān)聯(lián)規(guī)則分析又被稱作購(gòu)物籃分析,最早是用于挖掘超市銷售數(shù)據(jù)庫(kù)中不同商品間的某種關(guān)聯(lián),比如兩個(gè)商品是否會(huì)被同時(shí)購(gòu)買(mǎi)或者購(gòu)買(mǎi)一種商品是否會(huì)提升購(gòu)買(mǎi)另一種商品的可能性等等?!捌【婆c尿布”是關(guān)聯(lián)規(guī)則中最經(jīng)典的一個(gè)案例,零售商通過(guò)分析發(fā)現(xiàn),把啤酒放在尿布旁,有助于提升啤酒的銷售量。TID項(xiàng)集1{面包、牛奶}2{面包,尿布,啤酒,雞蛋}3{牛奶,尿布,啤酒,可樂(lè)}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可樂(lè)}表10-1購(gòu)物籃數(shù)據(jù)10.1關(guān)聯(lián)分析與概率統(tǒng)計(jì)初等概率演算令
P(A)
表示事件
A(買(mǎi)薯片)發(fā)生的概率。事件
A
發(fā)生的次數(shù)比例也稱為
A
的支持度,它是關(guān)聯(lián)矩陣
A
列中
1
的相對(duì)頻率。事件
B(買(mǎi)啤酒)發(fā)生的概率
P(B),事件
A
和
B
同時(shí)發(fā)生的概率
P(AandB)
同理。P(B|A)
是給定
A
時(shí)
B
的條件概率。它表示在已知事件A(購(gòu)買(mǎi)薯片)發(fā)生的情況下事件B(購(gòu)買(mǎi)啤酒)發(fā)生的概率,其中
P(B|A)=P(AandB)/P(A)。A=LHS(買(mǎi)薯片)→B=RHS(買(mǎi)啤酒)是一條簡(jiǎn)單的關(guān)聯(lián)規(guī)則,其中規(guī)則左側(cè)稱為“前件”,規(guī)則右側(cè)稱為“后件”,而箭頭表示“相關(guān)”。在給定事件
A(LHS)
的情況下,事件
B(RHS)
的條件概率稱為事件
B
的置信度。它表示如果
A
已經(jīng)購(gòu)買(mǎi),我們對(duì)產(chǎn)品B
會(huì)被購(gòu)買(mǎi)的相信程度。B
的置信度通常由二者的支持度(supp)計(jì)算得到,supp(A=LHSandB=RHS)/supp(A=LHS)。10.1關(guān)聯(lián)分析與概率統(tǒng)計(jì)
10.2關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則的基本概念
關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則的挖掘圖10-1含有5項(xiàng)的交易數(shù)據(jù)存在的項(xiàng)集情況關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則的挖掘圖10-2先驗(yàn)原理示例10.3Apriori算法原理令
Fk
代表頻繁
k
項(xiàng)集,Lk
代表候選
k
項(xiàng)集。Apriori算法的基本框架:步驟1:令
k=1步驟2:生成F1={頻繁
1
項(xiàng)集}步驟3:重復(fù)以下操作直至
Fk
為空集①候選集的生成:從
Fk
中生成
Lk+1②候選集的剪枝:剪去候選集
Lk+1中包含長(zhǎng)度為
k
的非頻繁子集的項(xiàng)集③支持度計(jì)算:通過(guò)掃描數(shù)據(jù)庫(kù)計(jì)算
Lk+1中每個(gè)候選集的支持度④候選集消除:舍棄
Lk+1中非頻繁的候選集,留下的候選集即成為
Fk+1注意事項(xiàng):生成候選集時(shí)避免不必要的候選,比如候選集的子集是非頻繁的,則該候選集一定為非頻繁項(xiàng)集。生成候選集的過(guò)程中即不重復(fù),也不遺漏。Apriori算法的基本框架
Apriori算法的基本框架
令
F3={ABC,ABD,ABE,ACD,BCD,BDE,CDE}
為頻繁
3
項(xiàng)集,并以此生成頻繁
4
項(xiàng)集。合并(ABC,ABD)=ABCD,合并(ABC,ABE)=ABCE,合并(ABD,ABE)=
ABDE,得到候選4項(xiàng)集L4={ABCD,ABCE,ABDE}。剪枝。由于ACE,BCE并非頻繁3項(xiàng)集,而其為候選4項(xiàng)集ABCE的子集,根據(jù)先驗(yàn)原理,ABCE一定為非頻繁項(xiàng)集,故剪去。同理,ABDE被減去。剪枝后,L4={ABCD}。
令
F3={ABC,ABD,ABE,ACD,BCD,BDE,CDE}
為頻繁
3
項(xiàng)集,并以此生成頻繁
4
項(xiàng)集。合并(ABC,BCD)=ABCD,合并(ABD,BDE)=ABDE,合并(ACD,CDE)=
ACDE,合并(BCD,CDE)=BCDE,得到候選
4
項(xiàng)集
L4={ABCD,ABDE,ACDE,
BCDE}。剪枝。由于ADE并非頻繁3項(xiàng)集,而其為候選4項(xiàng)集ABDE的子集,根據(jù)先驗(yàn)原理,ABDE一定為非頻繁項(xiàng)集,故剪去。同理,ACDE、BCDE被減去。剪枝后,L4={ABCD}。規(guī)則生成
規(guī)則生成假定
{A,B,C,D}
是一組頻繁
4
項(xiàng)集,則有
c(ABC→D)=σ(ABCD)/σ(ABC),c(AB→CD)=σ(ABCD)/σ(AB),c(A→BCD)=σ(ABCD)/σ(A),由于
σ(A)>σ(AB)>σ(ABC),因此
c(ABC→D)≥c(AB→CD)≥c(A→BCD)圖10-5規(guī)則的剪枝10.4R編程#安裝相關(guān)包install.packages("arules")#相關(guān)庫(kù)導(dǎo)入library(arules)read.transactions(file,format=c("basket","single"),header=FALSE,sep="",cols=NULL,rm.duplicates=false,quote="\",skip=0,encoding="unknown")#讀取數(shù)據(jù)集simpleData<-read.transactions("E:/model_data/Data_AssociationRule/instance1.txt",format="basket",sep=",")關(guān)聯(lián)規(guī)則分析的相關(guān)算法在
“arules”
包中,該包提供了一個(gè)表達(dá)、處理、分析事務(wù)數(shù)據(jù)和模式的基本框架?!癮rules”
包加載后,調(diào)用其中的
read.transactions()
函數(shù)讀取事務(wù)數(shù)據(jù)集并創(chuàng)建稀疏矩陣。其中
file
表示要讀取的文件名及其路徑,format
表示數(shù)據(jù)格式,分為
“basket”
和
“single”
兩種。如果事務(wù)數(shù)據(jù)集的每行內(nèi)容只包含商品項(xiàng),則選用
“basket”。如果每行內(nèi)容包含交易單號(hào)
+
商品項(xiàng),則選用
“single”。數(shù)據(jù)預(yù)處理#查看事務(wù)數(shù)據(jù)集simpleData輸出:#查看稀疏矩陣的內(nèi)容inspect(simpleData)輸出:由結(jié)果可知,數(shù)據(jù)集共有十行交易數(shù)據(jù),每行交易數(shù)據(jù)最多只有
5
項(xiàng),即
a,b,c,d,e。其中
b
出現(xiàn)了
8
次,為最頻繁
1
項(xiàng)集。數(shù)據(jù)導(dǎo)入后,執(zhí)行
simpleData
查看事務(wù)數(shù)據(jù)集,后調(diào)用
summary()
函數(shù)獲取統(tǒng)計(jì)匯總信息,并通過(guò)
inspect()
函數(shù)查看稀疏矩陣的內(nèi)容。#查看數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)匯總信息summary(simpleData)輸出:Apriori算法建模apriori(data,parameter=NULL,appearance=NULL,control=NULL)rule1=apriori(simpleData,parameter=list(support=0.3,confidence=0.6))輸出:調(diào)用
apriori()
函數(shù)建模。data
為事務(wù)類的對(duì)象或能夠強(qiáng)制轉(zhuǎn)換成事務(wù)類的任何數(shù)據(jù)結(jié)構(gòu)。parameter
中包含一系列參數(shù),用戶可以根據(jù)需求自由設(shè)置。如:support
表示規(guī)則的最小支持度,其默認(rèn)值為
0.1;confidence
表示關(guān)聯(lián)規(guī)則的最小置信度,其默認(rèn)值為
0.8。例:設(shè)定關(guān)聯(lián)規(guī)則的支持度為
0.3,置信度為
0.6,并以此挖掘關(guān)聯(lián)規(guī)則。結(jié)果分析#輸出模型結(jié)果inspect(rule1)輸出:關(guān)聯(lián)規(guī)則挖掘完成后,調(diào)用
inspect()
函數(shù)輸出模型結(jié)果。結(jié)果表明,通過(guò)
Apriori
算法總共可以挖掘得到17
條符合條件的關(guān)聯(lián)規(guī)則。以第
15
條規(guī)則為例,其支持度為
0.3,置信度為
0.6,說(shuō)明
a,c,b
同時(shí)發(fā)生的概率為
0.3,a,c
發(fā)生則
b
發(fā)生的概率為
0.6。此外,該規(guī)則的提升度(lift)為
0.75,支持度計(jì)數(shù)為
3。例:疾病數(shù)據(jù)分析#讀取疾病數(shù)據(jù)集illnessData<-read.csv("./illnessData.csv",encoding="UTF-8")#查看前10行數(shù)據(jù)illnessData[1:10,1:5]illnessData[1:10,6:10]#獲取數(shù)據(jù)集長(zhǎng)度length(illnessData$病程階段)輸出:首先調(diào)用
read.csv()
函數(shù)導(dǎo)入疾病數(shù)據(jù)集,查看其前
10
行數(shù)據(jù),并通過(guò)
length()
函數(shù)獲取該數(shù)據(jù)集的數(shù)據(jù)長(zhǎng)度。數(shù)據(jù)集的每個(gè)事務(wù)都包含
10
個(gè)項(xiàng),其中第1
至第
6
列為連續(xù)型數(shù)據(jù),第
7
至第
10
列為離散型數(shù)據(jù)。例:疾病數(shù)據(jù)分析合作QQ:243001978#只保留第7-10列用于分析illnessPartData<-illnessData[,7:10]illnessPartData[1:20,]輸出:由于應(yīng)用
Apriori
算法進(jìn)行數(shù)據(jù)挖掘,因此只保留數(shù)據(jù)集中第
7
至第
10
列的數(shù)據(jù),并對(duì)保留下的離散型數(shù)據(jù)集進(jìn)行關(guān)聯(lián)規(guī)則挖掘。例:疾病數(shù)據(jù)分析#將數(shù)據(jù)轉(zhuǎn)換成transactions屬性processIllData=as(illnessPartData,"transactions")#觀察前20行的數(shù)據(jù)inspect(processIllData[1:20])輸出:通過(guò)
inspect()
函數(shù)觀察轉(zhuǎn)換后的疾病數(shù)據(jù)集,可以發(fā)現(xiàn)該數(shù)據(jù)集的呈現(xiàn)方式明顯不同于轉(zhuǎn)換前。調(diào)用as()函數(shù)將疾病數(shù)據(jù)集轉(zhuǎn)換為transactions屬性,便于后續(xù)進(jìn)行關(guān)聯(lián)規(guī)則分析。例:疾病數(shù)據(jù)分析#設(shè)定關(guān)聯(lián)規(guī)則的支持度為0.08,置信度為0.85rule2=apriori(processIllData,parameter=list(support=0.08,confidence=0.85))輸出:調(diào)用apriori()函數(shù)建模,設(shè)定關(guān)聯(lián)規(guī)則的支持度為0.08,置信度為0.85,并以此挖掘關(guān)聯(lián)規(guī)則。例:疾病數(shù)據(jù)分析#輸出模型結(jié)果inspect(rule2)輸出:以第
20
條規(guī)則為例,其支持度為0.215,置信度為1。這說(shuō)明項(xiàng)
“TNM分期=H2”、“確診后幾年發(fā)現(xiàn)轉(zhuǎn)移=J0”、“轉(zhuǎn)移部位=R0”
三者同時(shí)發(fā)生的概率為
0.215,“TNM分期=H2”、“確診后幾年發(fā)現(xiàn)轉(zhuǎn)移=J0”
發(fā)生,則“轉(zhuǎn)移部位=R0”
發(fā)生的概率為
1。此外,該規(guī)則的提升度(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商鋪土方回填施工方案
- 商品房現(xiàn)房買(mǎi)賣(mài)合同
- 貸款申請(qǐng)資料清單表
- 土地股權(quán)轉(zhuǎn)讓合同
- 合同協(xié)議書(shū)意向書(shū)
- 湖州路基換填施工方案
- 鋁格柵幕墻施工方案
- 隨州金屬氟碳漆施工方案
- 外墻干掛鋁塑板施工方案
- 黑龍江省黑河市龍西北高中名校聯(lián)盟2024-2025學(xué)年高一下學(xué)期開(kāi)學(xué)英語(yǔ)試題(原卷版+解析版)
- GB/T 42599-2023風(fēng)能發(fā)電系統(tǒng)電氣仿真模型驗(yàn)證
- 術(shù)前肺功能評(píng)估的意義
- 項(xiàng)目精細(xì)化管理檢查整改報(bào)告范文
- 分布式文件系統(tǒng)
- 手槍的基礎(chǔ)射擊演示文稿
- 浮針療法的學(xué)習(xí)課件
- 12K101-1 軸流通風(fēng)機(jī)安裝
- 上海市中小學(xué)生語(yǔ)文學(xué)業(yè)質(zhì)量綠色指標(biāo)測(cè)試
- 消防預(yù)留預(yù)埋施工【優(yōu)質(zhì)方案】
- 兩篇古典英文版成語(yǔ)故事畫(huà)蛇添足
- GB/T 21739-2008家用電梯制造與安裝規(guī)范
評(píng)論
0/150
提交評(píng)論