版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1關(guān)聯(lián)規(guī)則2023/2/2一、關(guān)聯(lián)規(guī)則的定義2關(guān)聯(lián)規(guī)則一般用以發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系,用這些規(guī)則找出顧客的購(gòu)買(mǎi)行為模式。這種規(guī)則可以應(yīng)用于超市商品貨架設(shè)計(jì)、貨物擺放以及根據(jù)購(gòu)買(mǎi)模式對(duì)用戶(hù)進(jìn)行分類(lèi)。2023/2/23二、關(guān)聯(lián)規(guī)則:基本概念(一)支持度與置信度AA∩BB買(mǎi)尿布的客戶(hù)二者都買(mǎi)的客戶(hù)買(mǎi)啤酒的客戶(hù)2023/2/2置信度confidence(.):是指購(gòu)物籃分析中有了左邊商品,同時(shí)又有右邊商品的交易次數(shù)百分比,也就是說(shuō)在所有的購(gòu)買(mǎi)了左邊商品的交易中,同時(shí)又購(gòu)買(mǎi)了右邊商品的交易概率。
41、置信度2023/2/22、支持度支持度sup(.):表示在購(gòu)物籃分析中同時(shí)包含關(guān)聯(lián)規(guī)則左右兩邊物品的交易次數(shù)百分比,即支持這個(gè)規(guī)則的交易的次數(shù)百分比。52023/2/2例:6對(duì)于規(guī)則ACsupport=support({A,
C})=50%confidence=support({A,
C})/support({A})=66.6%2023/2/2交易項(xiàng)目成交次數(shù)夾克,球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計(jì)10007表1運(yùn)動(dòng)鞋Y1單獨(dú)購(gòu)買(mǎi)合計(jì)球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X2220020060460單獨(dú)購(gòu)買(mǎi)5040合計(jì)65034010008表2規(guī)則“夾克→球鞋”的計(jì)算92023/2/2運(yùn)動(dòng)鞋Y1單獨(dú)購(gòu)買(mǎi)合計(jì)球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X211001滑雪衫X2218980899單獨(dú)購(gòu)買(mǎi)090090合計(jì)298810100010表3存在的問(wèn)題:111.高置信度,低支持度:夾克球鞋”的置信度高達(dá)100%,但因?yàn)橹挥幸蝗速I(mǎi)了球鞋,這條關(guān)聯(lián)規(guī)則支持度只有千分之一。2.支持度、置信度都比較高,但幾乎是沒(méi)有作用的規(guī)則?!百I(mǎi)方便面則買(mǎi)牛奶”,“買(mǎi)牙刷則買(mǎi)牛奶”,“喜歡野外休閑則會(huì)買(mǎi)牛奶”。2023/2/2121、關(guān)聯(lián)規(guī)則的分類(lèi)二、關(guān)聯(lián)規(guī)則的分類(lèi)與作用2023/2/2布爾型關(guān)聯(lián)規(guī)則與數(shù)值型關(guān)聯(lián)規(guī)則布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類(lèi)化的,它顯示了這些變量之間的關(guān)系;數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類(lèi)變量。2023/2/213如果關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩悦總€(gè)只涉及一個(gè)維,則它是單維關(guān)聯(lián)規(guī)則;反之,為多維關(guān)聯(lián)規(guī)則。如,計(jì)算機(jī)→財(cái)務(wù)軟件;年齡30~39歲、月收入4000元以上→高清電視如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項(xiàng)或?qū)傩?,就稱(chēng)單層關(guān)聯(lián)規(guī)則;反之,稱(chēng)多層。142023/2/22、關(guān)聯(lián)規(guī)則的作用15購(gòu)物籃分析:關(guān)聯(lián)規(guī)則就是要找出哪些產(chǎn)品總是會(huì)同時(shí)出現(xiàn)在客戶(hù)的購(gòu)物籃中。商品擺放,基于商店不同的經(jīng)營(yíng)理念,如果將會(huì)經(jīng)常一起購(gòu)買(mǎi)的東西較近擺放,客戶(hù)會(huì)比較方便購(gòu)買(mǎi),如果有意放在購(gòu)物通道的兩端,顧客尋找的過(guò)程中可以增加其他物品銷(xiāo)售的可能性。關(guān)聯(lián)規(guī)則可以處理所謂的匿名消費(fèi)。(一張發(fā)票就是一個(gè)購(gòu)物籃——與決策樹(shù)和類(lèi)神經(jīng)網(wǎng)絡(luò)不同。)關(guān)聯(lián)規(guī)則與時(shí)序規(guī)則相結(jié)合(不能匿名,適合會(huì)員制)。先找出來(lái)哪些事務(wù)總是同時(shí)發(fā)生的關(guān)聯(lián)規(guī)則,再加入時(shí)間的因素,找出哪些事務(wù)總是會(huì)先后發(fā)生的潛在規(guī)律。2023/2/2另外,只有同一個(gè)購(gòu)物籃的商品信息能夠分析的項(xiàng)目也很有限,因此,可以將氣象資訊(溫度、濕度、降雨)等轉(zhuǎn)換為虛擬的商品項(xiàng)目,并入到購(gòu)物籃中進(jìn)行關(guān)聯(lián)規(guī)則的分析。如,日本7-11相當(dāng)著名的“七五三”規(guī)則。即是說(shuō)如果一天當(dāng)中溫度相差7度、今天和昨天的溫度差到5度、濕度差大于30%的話(huà),代表感冒的人會(huì)增加,藥店就要考慮把感冒藥、溫度計(jì)和口罩之類(lèi)的用品上架。162023/2/2三、
關(guān)聯(lián)規(guī)則的挖掘172023/2/2(一)關(guān)聯(lián)規(guī)則挖掘的步驟第一步:找出所有頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集出現(xiàn)的頻繁性(支持度)至少和預(yù)定義的最小支持度一樣。第二步:由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿(mǎn)足最小支持度和最小置信度。182023/2/219對(duì)于一個(gè)給定的候選數(shù)據(jù)集,項(xiàng)集的數(shù)目呈指數(shù)增長(zhǎng)。2023/2/2(二)Apriori演算法關(guān)聯(lián)規(guī)則計(jì)算雖然容易但由于規(guī)則太多容易形成“組合爆炸”,因此,需要對(duì)這些規(guī)則進(jìn)行篩選,篩選需要的統(tǒng)計(jì)量如下:最小支持度:規(guī)則必須符合的最小支持度閥值。最小置信度:計(jì)算規(guī)則所必須符合的最低置信度閥值。如果關(guān)聯(lián)規(guī)則滿(mǎn)足最小支持度和最小置信度,可以說(shuō)該規(guī)則是有趣的。202023/2/21、算法所需要的前置統(tǒng)計(jì)量:2、頻繁項(xiàng)集項(xiàng)的集合稱(chēng)為項(xiàng)集(itemset)包含k個(gè)項(xiàng)的項(xiàng)集稱(chēng)為k-項(xiàng)集。集合{計(jì)算機(jī),金融管理軟件}就是一個(gè)2-項(xiàng)集。項(xiàng)集出現(xiàn)頻數(shù)是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱(chēng)為項(xiàng)集的頻數(shù)、支持計(jì)數(shù)或計(jì)數(shù)。212023/2/2如果項(xiàng)集滿(mǎn)足最小支持度或滿(mǎn)足min_sup與數(shù)據(jù)庫(kù)中事務(wù)總數(shù)的乘積(即最小支持計(jì)數(shù)),則稱(chēng)它為頻繁項(xiàng)集(frequentitemset)。頻繁k-項(xiàng)集的集合通常記作Lk。2023/2/22223對(duì)于A
C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2023/2/24、Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法的名字基于這樣的事實(shí):算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)。它使用一種稱(chēng)作逐層搜索的迭代方法,k-項(xiàng)集用于探索(k+1)-項(xiàng)集。首先,找出頻繁1-項(xiàng)集的集合。該集合記作L1。L1用于找頻繁2-項(xiàng)集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項(xiàng)集。找每個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描。242023/2/2例125數(shù)據(jù)庫(kù)D掃描DC1L1L2C2C2掃描DC3L3掃描D2023/2/2為什么只有一項(xiàng)?26例:L3={abc,abd,acd,ace,bcd}連接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2023/2/2Apriori——剪枝頻繁項(xiàng)集的任何子集也一定是頻繁的。例3:273、Apriori算法的實(shí)現(xiàn)過(guò)程282023/2/24、由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則一旦找出頻繁項(xiàng)集,再通過(guò)最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的產(chǎn)生步驟如下:對(duì)于每個(gè)頻繁項(xiàng)集l,產(chǎn)生l的所有非空子集。對(duì)于l的每個(gè)非空子集s,如果則輸出規(guī)則“s→(l-s)”。292023/2/2以例3為例,看其中一個(gè)頻繁項(xiàng)集l={I1,I2,I5},可以由l產(chǎn)生哪些關(guān)聯(lián)規(guī)則?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。結(jié)果關(guān)聯(lián)規(guī)則如下,每個(gè)都列出了置信度。如果最小置信度閥值為70%,則只有第2、3和最后一個(gè)規(guī)則可以輸出。302023/2/2真正可取的規(guī)則具備的條件31并非所有的規(guī)則在符合閥值限制后都是有意義的,這樣的規(guī)則還分為:有用的規(guī)則:包含高品質(zhì)的有效情報(bào)常識(shí)無(wú)法解釋的結(jié)果關(guān)聯(lián)規(guī)則真正可取的是具備以下兩個(gè)條件的規(guī)則:人們常識(shí)之外、意料之外的關(guān)聯(lián)該規(guī)則必須具有潛在的作用2023/2/25、案例2023/2/2322023/2/23334Apriori算法的核心:用頻繁的(k–1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集用數(shù)據(jù)庫(kù)掃描和模式匹配計(jì)算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個(gè)頻繁1-項(xiàng)集要生成107個(gè)候選2-
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《阿爾茨海默病湯穎》課件
- 養(yǎng)老院老人生活照料規(guī)范制度
- 養(yǎng)老院老人健康飲食營(yíng)養(yǎng)師培訓(xùn)制度
- 政府委托課題項(xiàng)目合同(2篇)
- 斷絕關(guān)系協(xié)議書(shū)
- 2024年度衛(wèi)生紙品牌授權(quán)與區(qū)域代理銷(xiāo)售合同3篇
- 2025年陜西貨運(yùn)從業(yè)資格證實(shí)操考試題
- 2025年浙江貨運(yùn)從業(yè)資格證500道題目和答案大全
- 2025年臨汾貨運(yùn)員初級(jí)考試題庫(kù)
- 《腸桿菌科細(xì)菌鑒定》課件
- 結(jié)核病的診斷流程圖解
- 餐飲公司股權(quán)合同模板
- 工程力學(xué)知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋湖南工學(xué)院
- 廣東省廣州市越秀區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末道德與法治試題(含答案)
- 第七屆重慶市青少年科學(xué)素養(yǎng)大賽考試題庫(kù)(含答案)
- 地理2024-2025學(xué)年人教版七年級(jí)上冊(cè)地理知識(shí)點(diǎn)
- 2024年人教部編版語(yǔ)文小學(xué)四年級(jí)上冊(cè)復(fù)習(xí)計(jì)劃及全冊(cè)單元復(fù)習(xí)課教案
- 四大名著之西游記經(jīng)典解讀28
- 2024年城市園林苗木移植合同范例
- 醫(yī)院培訓(xùn)課件:《新進(jìn)護(hù)士職業(yè)規(guī)劃》
- 園林綠化安全生產(chǎn)培訓(xùn)
評(píng)論
0/150
提交評(píng)論