




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)與應(yīng)用項(xiàng)目——
R語言關(guān)聯(lián)分析原理
項(xiàng)目來自北京諾程佳華教育科技有限公司教學(xué)目標(biāo)
?熟悉關(guān)聯(lián)分析的方法;?熟悉在R語言中做關(guān)聯(lián)分析。
R語言關(guān)聯(lián)分析原理1.關(guān)聯(lián)規(guī)則基本概念關(guān)聯(lián)規(guī)則用于表達(dá)項(xiàng)集之間的聯(lián)系,形式如同A?B,其中A和B是兩個(gè)不相交的項(xiàng)集,分別稱為規(guī)則的左側(cè)項(xiàng)集(left-handside)和右側(cè)項(xiàng)集(right-handside)。
R語言關(guān)聯(lián)分析原理關(guān)聯(lián)規(guī)則有3個(gè)最重要的衡量指標(biāo),分別為?支持度(support):樣本中同時(shí)包含A和B的樣本比例,定義為support(A?B)=P(A∪B)?置信度(confidence):包含A的樣本中同時(shí)包含B的樣本比例,定義為confidence(A?B)=P(B|A)=P(A∪B)P(A)?提升度(lift):置信度與包含B的樣本比例之比,定義為lift(A?B)=confidence(A?B)P(B)=P(A∪B)P(A)P(B)
R語言關(guān)聯(lián)分析原理2.挖掘關(guān)聯(lián)規(guī)則的方法挖掘關(guān)聯(lián)規(guī)則的經(jīng)典算法是APRIORI,是一種按層次遞進(jìn)的廣度優(yōu)先算法,首先遍歷每個(gè)樣本找出并統(tǒng)計(jì)頻繁項(xiàng)集,再從中挖掘出關(guān)聯(lián)規(guī)則。主要涉及R語言中的程序包arules和arulesViz。
R語言關(guān)聯(lián)分析原理程序包arules中主要包括:?函數(shù)rules<-apriori(data,parameter=list(support,confidence,maxlen),):挖掘關(guān)聯(lián)規(guī)則,返回一個(gè)類型為apriori的對象,參數(shù)parameter指定挖掘時(shí)的參數(shù),參數(shù)support指定最小支持度閾值,參數(shù)confidence指定最小置信度閾值,參數(shù)maxlen指定規(guī)則包含的最大項(xiàng)數(shù);?函數(shù)inspect():查看關(guān)聯(lián)規(guī)則或數(shù)據(jù)集中的交易;?函數(shù)sort(x,decreasing=TRUE,by="support"):將關(guān)聯(lián)排序,參數(shù)decreasing指定是否降序排列,參數(shù)by指定排序的指標(biāo);?函數(shù)image():畫出交易中各頻繁項(xiàng)的分布情況;?函數(shù)itemFrequencyPlot(x,topN):畫出交易中各頻繁項(xiàng)的出現(xiàn)頻率或支持度,參數(shù)topN畫出的頻繁項(xiàng)數(shù)量。
R語言關(guān)聯(lián)分析原理程序包arulesViz中主要包括:?函數(shù)plot(rules,method)畫出關(guān)聯(lián)規(guī)則的圖,參數(shù)method=NULL表示畫出關(guān)聯(lián)規(guī)則的支持度、置信度和提升度散點(diǎn)圖,參數(shù)method="graph"表示畫出關(guān)聯(lián)規(guī)則的形成路徑圖,參數(shù)method="paracoord"表示畫出關(guān)聯(lián)規(guī)則的平行坐標(biāo)圖。
R語言關(guān)聯(lián)分析原理3.實(shí)驗(yàn)數(shù)據(jù)本實(shí)驗(yàn)所用數(shù)據(jù)為某雜貨店一個(gè)月的銷售數(shù)據(jù),包含了9,835條交易記錄,涵蓋了169個(gè)商品類別,位于程序包arules中名稱為Groceries,每一行代表一筆交易,包含了這筆交易所涉及的商品類別,用逗號分隔。
小結(jié)關(guān)聯(lián)規(guī)則有3個(gè)最重要的衡量指標(biāo)支持度(suppor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 彩鋼板開洞施工方案
- 露營基地設(shè)備租賃方案
- 巖板上墻鋪貼施工方案
- 海南瓊口口腔醫(yī)院項(xiàng)目環(huán)境影響報(bào)告表環(huán)評報(bào)告表
- 銅陵安全人臉識別施工方案
- 濟(jì)南玻璃鋼纖維布施工方案
- 滁州家用車庫地坪施工方案
- 氣象站防電涌入侵施工方案
- 臨沂古建施工方案公司
- 壓花地坪施工方案
- 2009-2022歷年上海市公安機(jī)關(guān)勤務(wù)輔警招聘考試《職業(yè)能力傾向測驗(yàn)》真題含答案2022-2023上岸必備匯編3
- 小學(xué)人教版四年級下冊數(shù)學(xué)租船問題25題
- 大連市小升初手冊
- 醫(yī)療垃圾管理及手衛(wèi)生培訓(xùn)PPT課件
- 放射物理與防護(hù)全套ppt課件
- 嚇數(shù)基礎(chǔ)知識共20
- 鋰電池安全知識培訓(xùn)-課件
- 電子產(chǎn)品高可靠性裝聯(lián)工藝下
- 越南北部工業(yè)區(qū)資料(1060707)
- 東亞文明的歷史進(jìn)程課件
- 三洋波輪洗衣機(jī)說明書
評論
0/150
提交評論