大數(shù)據(jù)營(yíng)銷(xiāo)-第9章-商品關(guān)聯(lián)營(yíng)銷(xiāo)課件_第1頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo)-第9章-商品關(guān)聯(lián)營(yíng)銷(xiāo)課件_第2頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo)-第9章-商品關(guān)聯(lián)營(yíng)銷(xiāo)課件_第3頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo)-第9章-商品關(guān)聯(lián)營(yíng)銷(xiāo)課件_第4頁(yè)
大數(shù)據(jù)營(yíng)銷(xiāo)-第9章-商品關(guān)聯(lián)營(yíng)銷(xiāo)課件_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第9章 商品關(guān)聯(lián)營(yíng)銷(xiāo)商品關(guān)聯(lián)營(yíng)銷(xiāo)學(xué)習(xí)目標(biāo)1. 了解商品關(guān)聯(lián)營(yíng)銷(xiāo)(購(gòu)物籃關(guān)聯(lián)分析)的概念2. 了解簡(jiǎn)單關(guān)聯(lián)規(guī)則的概念3. 了解購(gòu)物籃分析模型的基本原理和方法4. 了解簡(jiǎn)單關(guān)聯(lián)規(guī)則的應(yīng)用場(chǎng)景及其有效性和實(shí)用性思維導(dǎo)圖【開(kāi)篇思考】擁有海量用戶(hù)、車(chē)輛、司機(jī)以及交通軌跡的大數(shù)據(jù)對(duì)于滴滴而言,已經(jīng)遠(yuǎn)離了紙上談兵,在司機(jī)接入、智慧交通等多個(gè)維度產(chǎn)生了實(shí)際效用。滴滴出行近日披露,在其嚴(yán)格的注冊(cè)審核機(jī)制下,共有超2500萬(wàn)名“問(wèn)題司機(jī)”被拒之平臺(tái)外。而通過(guò)大數(shù)據(jù)實(shí)時(shí)分析、智能上車(chē)點(diǎn)推薦等領(lǐng)先技術(shù),全國(guó)20個(gè)機(jī)場(chǎng)上線(xiàn)“智能引導(dǎo)”功能,幫助乘客快速出港。請(qǐng)?jiān)囅胍幌? 滴滴出行有哪些大數(shù)據(jù)營(yíng)銷(xiāo)的場(chǎng)景?目錄5購(gòu)物籃商品

2、關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)商品關(guān)聯(lián)營(yíng)銷(xiāo)的概念簡(jiǎn)單關(guān)聯(lián)規(guī)則購(gòu)物籃分析模型簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論9.1 商品關(guān)聯(lián)營(yíng)銷(xiāo)的概念關(guān)聯(lián)營(yíng)銷(xiāo):關(guān)聯(lián)營(yíng)銷(xiāo)是一種建立在雙方互利互益的基礎(chǔ)上的營(yíng)銷(xiāo),在交叉營(yíng)銷(xiāo)的基礎(chǔ)上,將事物、產(chǎn)品、品牌等所要營(yíng)銷(xiāo)的東西上尋找關(guān)聯(lián)性,來(lái)實(shí)現(xiàn)深層次的多面引導(dǎo)。關(guān)聯(lián)營(yíng)銷(xiāo)也是一種新的、低成本的、企業(yè)在網(wǎng)站上用來(lái)提高收入的營(yíng)銷(xiāo)方法。目錄7購(gòu)物籃商品關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)商品關(guān)聯(lián)營(yíng)銷(xiāo)的概念簡(jiǎn)單關(guān)聯(lián)規(guī)則購(gòu)物籃分析模型簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論9.2 購(gòu)物籃商品關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)關(guān)聯(lián)營(yíng)銷(xiāo):關(guān)聯(lián)分析是挖掘數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征或變量之間的關(guān)聯(lián)性。在日常生活中事物之間的關(guān)聯(lián)性隨處可見(jiàn),在電子

3、商務(wù)平臺(tái)的購(gòu)物籃中的商品,其關(guān)聯(lián)性也是顯而易見(jiàn)的。啤酒與尿布購(gòu)物籃商品的關(guān)聯(lián)關(guān)系通常有兩種情況:一種是顧客在一次購(gòu)買(mǎi)行為中放入購(gòu)物籃中不同商品之間的關(guān)聯(lián)關(guān)系,我們稱(chēng)之為簡(jiǎn)單關(guān)聯(lián)關(guān)系。另一種是顧客在購(gòu)買(mǎi)某種商品之后,在下一次光顧時(shí)會(huì)購(gòu)買(mǎi)另一些其他商品,這些前后不同時(shí)間購(gòu)買(mǎi)的商品之間同樣存在關(guān)聯(lián)關(guān)系,我們把這種關(guān)聯(lián)關(guān)系稱(chēng)為序列關(guān)聯(lián)關(guān)系。最早的關(guān)聯(lián)分析概念:是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顧客購(gòu)買(mǎi)行為的規(guī)律,發(fā)現(xiàn)連帶購(gòu)買(mǎi)商品,為制定合理的方便顧客選取的貨架擺放方案提供依據(jù)。該分析稱(chēng)為購(gòu)物籃分析。電子商務(wù)領(lǐng)域:關(guān)聯(lián)分析可幫助經(jīng)營(yíng)者發(fā)現(xiàn)顧客的

4、消費(fèi)偏好,定位顧客消費(fèi)需求,制定合理的交叉銷(xiāo)售方案,實(shí)現(xiàn)商品的精準(zhǔn)推薦;保險(xiǎn)公司業(yè)務(wù):關(guān)聯(lián)分析可幫助企業(yè)分析保險(xiǎn)索賠的原因,及時(shí)甄別欺詐行為;電信行業(yè):關(guān)聯(lián)分析可幫助企業(yè)發(fā)現(xiàn)不同增值業(yè)務(wù)間的關(guān)聯(lián)性及對(duì)客戶(hù)流失的影響等。9.2 購(gòu)物籃商品關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)目錄10購(gòu)物籃商品關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)商品關(guān)聯(lián)營(yíng)銷(xiāo)的概念簡(jiǎn)單關(guān)聯(lián)規(guī)則購(gòu)物籃分析模型簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論9.3 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.3.1 事務(wù)和項(xiàng)集事務(wù)就是簡(jiǎn)單關(guān)聯(lián)分析的分析對(duì)象。事務(wù)可理解為一種行為,例如,百貨商店顧客的購(gòu)物行為是一種事務(wù);網(wǎng)頁(yè)用戶(hù)的頁(yè)面瀏覽關(guān)注行為是一種事務(wù);一份財(cái)產(chǎn)保險(xiǎn)公司的汽車(chē)保單也是一種事務(wù)。項(xiàng)目是在事務(wù)

5、中涉及的對(duì)象。一個(gè)事務(wù)通常包含若干個(gè)項(xiàng)目。一個(gè)項(xiàng)目可以是一種商品、一個(gè)網(wǎng)頁(yè)鏈接、一個(gè)險(xiǎn)種等。若干個(gè)項(xiàng)目的集合叫作項(xiàng)目集,簡(jiǎn)稱(chēng)項(xiàng)集。我們把屬于同一個(gè)事務(wù)的所有項(xiàng)目組成的集合,稱(chēng)為事務(wù)的項(xiàng)集。9.3 簡(jiǎn)單關(guān)聯(lián)規(guī)則小明喜歡在淘寶上購(gòu)物,當(dāng)他想購(gòu)買(mǎi)某商品時(shí),會(huì)在淘寶上瀏覽,一遍又一遍地研究該商品,也會(huì)關(guān)注它,甚至把它加入購(gòu)物車(chē)。經(jīng)過(guò)一段時(shí)間的研究,小明才會(huì)放入購(gòu)物籃里準(zhǔn)備購(gòu)買(mǎi),同時(shí),小明也準(zhǔn)備購(gòu)買(mǎi)其他商品。最終他購(gòu)買(mǎi)了A、B、C、D、E共5件商品。在這里,小明的購(gòu)物行為就是一個(gè)事務(wù)。他購(gòu)買(mǎi)的5件商品A、B、C、D、E的集合就是項(xiàng)集。為了研究方便,我們會(huì)給每一個(gè)事務(wù)一個(gè)ID(標(biāo)識(shí)),對(duì)應(yīng)于ID就有一個(gè)項(xiàng)

6、集。其他客戶(hù)也會(huì)在淘寶上購(gòu)物,也會(huì)像小明一樣有自己的購(gòu)物籃,購(gòu)物籃里有自己喜歡的商品,見(jiàn)表9.1。事務(wù)ID項(xiàng) 集備 注1ABCDE表中不同的字母代表不同的商品2BEF3CDG4ABDF表9.1 顧客購(gòu)買(mǎi)行為數(shù)據(jù)示例9.3 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.3.2關(guān)聯(lián)規(guī)則的表達(dá)形式簡(jiǎn)單關(guān)聯(lián)規(guī)則的一般表示形式是:前項(xiàng)后項(xiàng)支持度(Support)= s%,置信度(Confidence)=c%, 或表達(dá)為:XY(S = s%,C = c%), 其中:X稱(chēng)為規(guī)則的前項(xiàng),可以是一個(gè)項(xiàng)目或項(xiàng)集,也可以是一個(gè)包含項(xiàng)目以及邏輯操作(與、或、非|)的邏輯表達(dá)式;Y稱(chēng)為規(guī)則的后項(xiàng),一般為一個(gè)項(xiàng)目,表示某種結(jié)論或事實(shí);括號(hào)中,S =

7、s%表示規(guī)則支持度為s%,C = c%表示規(guī)則置信度為c%。例如,面包牛奶(S=85%,C=90%),就是一條簡(jiǎn)單關(guān)聯(lián)規(guī)則。前項(xiàng)和后項(xiàng)均為一個(gè)項(xiàng)目。該關(guān)聯(lián)規(guī)則的含義是:有90%的把握程度相信購(gòu)買(mǎi)面包則購(gòu)買(mǎi)牛奶,該規(guī)則適用性為85%。9.3 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.3.2 置信度和支持度關(guān)聯(lián)規(guī)則是形如XY的表達(dá)式,其中X和Y不相交。置信度和支持度這兩個(gè)指標(biāo)用于量度關(guān)聯(lián)規(guī)則的強(qiáng)度。支持度也稱(chēng)為相對(duì)支持度,表示X與Y同時(shí)發(fā)生的概率。置信度是指X發(fā)生的條件下Y發(fā)生的概率。因此,支持度和置信度可以分別用下列公式表示: Support(XY)= C(XY) Confidence(XY)= S(Y|X) 牛奶與雞蛋

8、挖掘數(shù)據(jù)集:購(gòu)物籃數(shù)據(jù) 挖掘目標(biāo):關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則:牛奶=雞蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事務(wù)的2%同時(shí)購(gòu)買(mǎi)了牛奶和雞蛋 置信度:購(gòu)買(mǎi)了牛奶的客戶(hù)有60%也購(gòu)買(mǎi)了雞蛋 最小支持度閾值和最小置信度閾值:由挖掘者或領(lǐng)域?qū)<以O(shè)定 9.3 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.3.2頻繁項(xiàng)集項(xiàng)集是項(xiàng)的集合,包含k項(xiàng)的項(xiàng)集稱(chēng)為k項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是所有包含項(xiàng)集事務(wù)的級(jí)數(shù),又稱(chēng)絕對(duì)支持度或支持度計(jì)數(shù)。若存在項(xiàng)集的支持度滿(mǎn)足預(yù)定義的最小置信度或最小支持度的閾值,則稱(chēng)此項(xiàng)集為頻繁項(xiàng)集,頻繁k項(xiàng)集通常記作Lk。而同時(shí)滿(mǎn)足最小置信度和最小支持度的規(guī)則稱(chēng)為強(qiáng)規(guī)則。包含1個(gè)項(xiàng)目的頻繁項(xiàng)集稱(chēng)為頻繁1項(xiàng)集;包含k

9、個(gè)項(xiàng)目的項(xiàng)集稱(chēng)為頻繁k項(xiàng)集。最大頻繁項(xiàng)集是k最大時(shí)的最大頻繁k-項(xiàng)集。根據(jù)頻繁項(xiàng)集的定義很容易得到以下結(jié)論,即頻繁項(xiàng)集的子集一定是頻繁項(xiàng)集。例如, A,B,C是一個(gè)3項(xiàng)的頻繁項(xiàng)集,則其子集A,B、B,C、A,C也一定是2項(xiàng)的頻繁項(xiàng)集。反之,如果在不是頻繁項(xiàng)集的項(xiàng)集I中添加事務(wù)A,那么新的項(xiàng)集IA一定也不是頻繁項(xiàng)集。目錄17購(gòu)物籃商品關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)商品關(guān)聯(lián)營(yíng)銷(xiāo)的概念簡(jiǎn)單關(guān)聯(lián)規(guī)則購(gòu)物籃分析模型簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論9.4 購(gòu)物籃分析模型關(guān)聯(lián)規(guī)則算法有Apriori算法、FP-Tree 算法、Eclat算法和灰色關(guān)聯(lián)算法等。關(guān)聯(lián)規(guī)則算法主要用于尋找數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)關(guān)系,基于樣本

10、的統(tǒng)計(jì)規(guī)律,進(jìn)行關(guān)聯(lián)規(guī)則分析。根據(jù)所分析的關(guān)聯(lián)關(guān)系,可從一個(gè)特征的信息來(lái)推斷另一個(gè)特征的信息。當(dāng)信息置信度達(dá)到某一閾值時(shí),就可以認(rèn)為規(guī)則成立。Apriori算法是應(yīng)用最廣泛的關(guān)聯(lián)規(guī)則算法之一,也是最為經(jīng)典的在大數(shù)據(jù)集上可行的關(guān)聯(lián)規(guī)則提取的算法。購(gòu)物籃分析哪些商品平凡的同時(shí)被客戶(hù)購(gòu)買(mǎi)?圖9.1 購(gòu)物籃商品關(guān)聯(lián)規(guī)則模型的流程圖9.4 購(gòu)物籃分析模型9.4 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.4.1 原始數(shù)據(jù)的預(yù)處理ID商品A商品B商品C商品D商品E商品F商品G11111100201001103001100141101010ID項(xiàng)集X1A1B1C1D1E2B2E2F3C3D3G4A4B4D4F購(gòu)物籃商品關(guān)聯(lián)規(guī)則分析中的

11、數(shù)據(jù)預(yù)處理的主要任務(wù)是通過(guò)整理原始數(shù)據(jù),建立事務(wù)數(shù)據(jù)集對(duì)象。事務(wù)數(shù)據(jù)集的組織方式有事實(shí)表和事務(wù)表兩種格式。表9.2 事實(shí)表示例表9.3 事務(wù)表示例9.4 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.4.2 搜索頻繁項(xiàng)集尋找頻繁項(xiàng)集是Apriori算法提高尋找關(guān)聯(lián)規(guī)則效率的關(guān)鍵。以圖9.2為例,在Apriori算法中尋找頻繁項(xiàng)集的基本原則是:如果最底層中只包含D項(xiàng)的1-項(xiàng)集不是頻繁項(xiàng)集,則包含D項(xiàng)的其他所有項(xiàng)集,即D的超集(圖中灰色圓圈)都不可能是頻繁項(xiàng)集,后續(xù)無(wú)須再對(duì)這些項(xiàng)集進(jìn)行判斷,因?yàn)榛谶@些項(xiàng)集的關(guān)聯(lián)規(guī)則不可能有較高的支持度。圖9.2 尋找頻繁項(xiàng)集Apriori算法從圖9.2所示的底層(1-項(xiàng)集)開(kāi)始向上,采用迭代

12、方式逐層找到下層的超集,并在超集中發(fā)現(xiàn)頻繁項(xiàng)集。如此反復(fù),直到最頂層得到最大頻繁項(xiàng)集為止。每次迭代均包含兩個(gè)步驟。第一步,產(chǎn)生候選集Ck。所謂候選集就是有可能成為頻繁項(xiàng)集的項(xiàng)目集合。當(dāng)k =1時(shí),候選集Ck是所有1_項(xiàng)集。第二步,修剪候選集Ck?;诤蜻x集Ck計(jì)算支持度,且依據(jù)最小支持度對(duì)候選集Ck進(jìn)行刪減,最終確定最大頻繁項(xiàng)集Lk。9.4 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.4.2 搜索頻繁項(xiàng)集9.4 簡(jiǎn)單關(guān)聯(lián)規(guī)則9.4.2 搜索頻繁項(xiàng)集圖9.3就是用表9.1的數(shù)據(jù)舉例說(shuō)明以迭代的方式找出最大頻繁項(xiàng)集的過(guò)程。由圖9.3可以看出,最大頻繁項(xiàng)集是ABD,支持度達(dá)50%。圖9.3 用Apriori算法產(chǎn)生頻繁項(xiàng)集的迭

13、代過(guò)程舉例9.4.3 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則9.4 簡(jiǎn)單關(guān)聯(lián)規(guī)則上述步驟已經(jīng)剔除了不滿(mǎn)足最小支持度閾值的項(xiàng),如果剩下的項(xiàng)能滿(mǎn)足預(yù)定的最小置信度閾值,那么就可以找到強(qiáng)關(guān)聯(lián)規(guī)則。例如,對(duì)于上述例子,頻繁項(xiàng)集L包含項(xiàng)目A、B、D。如果設(shè)L的子集L包含項(xiàng)目A和B,則L-L包含項(xiàng)目E。計(jì)算置信度:C(|A,B|D) = S(A,B,D)/S(A,B) = 0.5/0.5 = 100%置信度最大,大于用戶(hù)指定的任何閾值。因此,簡(jiǎn)單關(guān)聯(lián)規(guī)則A,BD(S=50%, C=100%)為有效規(guī)則。同樣我們也可以得到其他的關(guān)聯(lián)規(guī)則:A,DB(S=50%, C=100%)B,DA(S=50% ,C=100%)從以上結(jié)果

14、可以看出,顧客同時(shí)購(gòu)買(mǎi)商品A、B和D的概率為50%,而置信度則達(dá)到100%,說(shuō)明該規(guī)則有效。了解到上述信息即可對(duì)商品擺放位置進(jìn)行更改,可以考慮把商品A、B和D的位置擺放得靠近一些,在增加銷(xiāo)量的同時(shí)給客戶(hù)更好的購(gòu)物體驗(yàn)。目錄26購(gòu)物籃商品關(guān)聯(lián)問(wèn)題背景與挖掘目標(biāo)商品關(guān)聯(lián)營(yíng)銷(xiāo)的概念簡(jiǎn)單關(guān)聯(lián)規(guī)則購(gòu)物籃分析模型簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論9.5.1 Apriori算法的優(yōu)缺點(diǎn)與適用場(chǎng)景9.5 簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論Apriori算法是關(guān)聯(lián)規(guī)則最常用的也是最經(jīng)典的分析頻繁項(xiàng)集的算法,它的優(yōu)點(diǎn)是大大壓縮了頻繁項(xiàng)集的大小,并取得良好性能。Apriori算法的缺點(diǎn)是每次計(jì)算支持度與置信度都需要重新

15、掃描所有數(shù)據(jù),而且該算法有多次掃描事務(wù)數(shù)據(jù)的缺陷,在每一步產(chǎn)生候選集時(shí)循環(huán)產(chǎn)生的項(xiàng)集過(guò)多,沒(méi)有排除不應(yīng)該參與組合的元素。針對(duì)這些問(wèn)題,Zaki等人于1997年提出了一種快速搜索頻繁項(xiàng)集的算法 Equivalence CLAss clustering and bottom-up Traversal,簡(jiǎn)稱(chēng)Eclat算法。該算法與Apriori算法的思路類(lèi)似,但它的特色在于:基于對(duì)等類(lèi),采用自底向上的搜索策略,只需訪問(wèn)很少次的數(shù)據(jù)集,便可確定最大頻繁項(xiàng)集,從而提高了搜索效率。Apriori算法除了適用于商品零售購(gòu)物籃分析外,近年來(lái)也廣泛應(yīng)用于金融行業(yè)中,可以成功預(yù)測(cè)銀行客戶(hù)的需求,還可應(yīng)用于網(wǎng)絡(luò)安全

16、領(lǐng)域,檢測(cè)出用戶(hù)行為的安全模式,進(jìn)而鎖定攻擊者。此外,Apriori 算法還可應(yīng)用于高校管理、移動(dòng)通信、中醫(yī)證型等領(lǐng)域。9.5.2 如何評(píng)價(jià)簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性9.5 簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論從數(shù)據(jù)中可以找到很多關(guān)聯(lián)規(guī)則,但并非所有的關(guān)聯(lián)規(guī)則都有效。可能有的規(guī)則令人信服的水平不高,有的規(guī)則適用的范圍很有限,也就是說(shuō),這些規(guī)則都不具有有效性。判斷一條關(guān)聯(lián)規(guī)則是否有效,應(yīng)依據(jù)各種測(cè)度指標(biāo),其中最常用的測(cè)度是關(guān)聯(lián)規(guī)則的置信度和支持度。一個(gè)有效的簡(jiǎn)單關(guān)聯(lián)規(guī)則應(yīng)具有較高的置信度和較高的支持度。如果規(guī)則支持度較高,但置信度較低,則說(shuō)明規(guī)則的可信程度差;如果規(guī)則置信度較高但支持度較低,則說(shuō)明規(guī)則的應(yīng)

17、用機(jī)會(huì)很少。一個(gè)置信度較高但普遍性較低的規(guī)則并沒(méi)有太多的實(shí)際應(yīng)用價(jià)值。例如,如果在1000個(gè)關(guān)于顧客購(gòu)買(mǎi)行為的事務(wù)中,只有1個(gè)顧客購(gòu)買(mǎi)了野炊用的燒烤爐,同時(shí)也只有他購(gòu)買(mǎi)了碳。雖然規(guī)則“燒烤爐碳”的置信度很高,為100%,但其支持度只有0.1%,很低,說(shuō)明該規(guī)則缺乏普遍性,應(yīng)用價(jià)值不高。9.5.2 如何評(píng)價(jià)簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性9.5 簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論閾值的設(shè)置要盡量合理。如果支持度閾值太小,得到的簡(jiǎn)單關(guān)聯(lián)規(guī)則會(huì)失去一般性;如果支持度閾值太大,可能無(wú)法找到“如此高代表性”的規(guī)則;同樣,如果置信度閾值太小,得到的簡(jiǎn)單關(guān)聯(lián)規(guī)則的可信度不高,閾值太大,也同樣可能無(wú)法找到“如此高可信度”的

18、規(guī)則。Y合計(jì)10X1ABR10CDR2合計(jì)C1C2T表9.4 一個(gè)典型的列聯(lián)表表9.4是統(tǒng)計(jì)學(xué)中的一個(gè)典型的列聯(lián)表。這里,可令行表示前項(xiàng),列表示后項(xiàng),1和0分別表示出現(xiàn)和未出現(xiàn);A、B、C、D為交叉分組下的頻數(shù),R1、R2、C1、C2分別為各行合計(jì)以及各列合計(jì),T為總計(jì)。對(duì)于簡(jiǎn)單關(guān)聯(lián)規(guī)則XY,規(guī)則置信度為A/R1,規(guī)則支持度為A/T,前項(xiàng)支持度為R1/T,后項(xiàng)支持度為C1/T。9.5.3 如何評(píng)價(jià)簡(jiǎn)單關(guān)聯(lián)規(guī)則的實(shí)用性9.5 簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論簡(jiǎn)單關(guān)聯(lián)規(guī)則的實(shí)用性體現(xiàn)在:一方面,簡(jiǎn)單關(guān)聯(lián)規(guī)則應(yīng)具有實(shí)際意義,例如,懷孕女性,這條簡(jiǎn)單關(guān)聯(lián)規(guī)則就沒(méi)有多少實(shí)用價(jià)值;另一方面,簡(jiǎn)單關(guān)聯(lián)規(guī)則應(yīng)

19、具有指導(dǎo)意義,如果一條簡(jiǎn)單關(guān)聯(lián)規(guī)則的規(guī)則置信度和支持度大于用戶(hù)指定的最小置信度和支持度閾值,盡管該規(guī)則具有有效性,但仍可能沒(méi)有指導(dǎo)意義,具體表現(xiàn)為以下幾種情況。(1)簡(jiǎn)單關(guān)聯(lián)規(guī)則揭示的簡(jiǎn)單關(guān)聯(lián)關(guān)系可能僅僅是一種隨機(jī)關(guān)聯(lián)關(guān)系。例如,超市依據(jù)表9.5(a)所示的調(diào)查結(jié)果,得到反映購(gòu)買(mǎi)牛奶與否和性別關(guān)系的簡(jiǎn)單關(guān)聯(lián)規(guī)則:牛奶性別(男)(S = 40%,C = 40%)。在最小置信度和支持度為30%時(shí)該規(guī)則是一條有效規(guī)則。男女合計(jì)買(mǎi)4006001000不買(mǎi)000合計(jì)4006001000表9.5(a) 示意列聯(lián)表(一)但:進(jìn)一步發(fā)現(xiàn),顧客中男性的(后項(xiàng)支持度)比例也為40%,即購(gòu)買(mǎi)牛奶顧客的男性比例等于所

20、有顧客的男性比例。此時(shí)認(rèn)為,上述規(guī)則反映的是一種前后項(xiàng)無(wú)關(guān)聯(lián)下的隨機(jī)性關(guān)聯(lián),該規(guī)則不具有實(shí)用性。9.5.3 如何評(píng)價(jià)簡(jiǎn)單關(guān)聯(lián)規(guī)則的實(shí)用性9.5 簡(jiǎn)單關(guān)聯(lián)規(guī)則的有效性和實(shí)用性討論(1)簡(jiǎn)單關(guān)聯(lián)規(guī)則揭示的簡(jiǎn)單關(guān)聯(lián)關(guān)系可能是反向關(guān)聯(lián)關(guān)系。例如,某教育研究機(jī)構(gòu)依據(jù)表9.5(b)所示的調(diào)査結(jié)果,得到反映中學(xué)生的成績(jī)優(yōu)異與否與吃早餐關(guān)系的簡(jiǎn)單關(guān)聯(lián)規(guī)則:成績(jī)(優(yōu)異)早餐(吃)(S = 33.33%,C = 60%),在最小置信度和支持度為30%時(shí)該規(guī)則是一條有效規(guī)則。吃不吃合計(jì)優(yōu)異6040100不優(yōu)異661480合計(jì)12654180但進(jìn)一步計(jì)算發(fā)現(xiàn),70%(后項(xiàng)支持度)的被調(diào)查者是吃早餐的,即成績(jī)優(yōu)異的學(xué)生中吃早餐的比例低于總體比例。此時(shí)認(rèn)為,成績(jī)優(yōu)異與吃早餐的關(guān)聯(lián)是反向的,該規(guī)則有誤導(dǎo)性。事實(shí)上,只有成績(jī)優(yōu)異的學(xué)生中吃早

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論