版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
CRM中的數(shù)據(jù)管理2CRM的客戶數(shù)據(jù)數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用 聽說,下雪天,啤酒和尿布更配哦4案例:尿布+啤酒=更大的利益
先請(qǐng)大家做個(gè)腦力游戲——說出任何尿布和啤酒的聯(lián)系,即在什么情況下它們可以相提并論。
請(qǐng)想象這樣的一副情景:在一個(gè)大的超級(jí)市場里面,人來人往。一角的貨架上,尿布和啤酒赫然地?cái)[放在一起出售。而且,尿布和啤酒的銷售量雙雙增加。
這是上個(gè)世紀(jì)發(fā)生在美國沃爾瑪連鎖超市的真實(shí)事件,而且也許是將尿布和啤酒最好地聯(lián)系起來的方法,因?yàn)樗踔练狭私裉煺诹餍械摹半p贏”原理。5
原來,美國的太太經(jīng)常囑咐他們的丈夫下班以后為小孩購買尿布,而丈夫們?cè)谫I尿布以后又順手帶回了啤酒。啤酒和尿布在一起購買的機(jī)會(huì)是最多的。
誰在當(dāng)時(shí)就能看出這種帶來“利益”的聯(lián)系?其實(shí)想到答案的不是人,是信息技術(shù)。具體地說,就是美國沃爾瑪超市的數(shù)據(jù)倉庫。是它,通過集中商店一年多的詳細(xì)原始交易數(shù)據(jù),利用自動(dòng)數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析,得到了這個(gè)意外的發(fā)現(xiàn)。6點(diǎn)評(píng):從本例可以看出,CRM運(yùn)用的成功必須依靠客戶數(shù)據(jù),對(duì)客戶數(shù)據(jù)進(jìn)行科學(xué)地分析,往往會(huì)帶來意想不到的商機(jī):對(duì)客戶數(shù)據(jù)進(jìn)行初級(jí)處理,可以完成基本業(yè)務(wù)過程;對(duì)數(shù)據(jù)進(jìn)行高級(jí)處理(如數(shù)據(jù)挖掘),可以提供企業(yè)決策支持,促進(jìn)銷售,保持消費(fèi)群體的穩(wěn)定。所以說,客戶數(shù)據(jù)是整個(gè)CRM運(yùn)用的靈魂,本章內(nèi)容就是以客戶數(shù)據(jù)管理與分析為主。
2023/2/667第一節(jié)CRM的客戶數(shù)據(jù)一、客戶數(shù)據(jù)的類型81.直接渠道(1)在市場調(diào)查中獲取客戶數(shù)據(jù)(2)在營銷活動(dòng)中獲取客戶數(shù)據(jù)(3)在服務(wù)過程中獲取客戶數(shù)據(jù)(4)通過博覽會(huì)、展銷會(huì)、洽談會(huì)等獲取客戶數(shù)據(jù)(5)網(wǎng)站和呼叫中心是收集客戶數(shù)據(jù)的新渠道(6)從客戶投訴中收集92.間接渠道(1)各種媒介(2)工商行政管理部門及駐外機(jī)構(gòu)(3)國內(nèi)外金融機(jī)構(gòu)及其分支機(jī)構(gòu)(4)國內(nèi)外咨詢公司及市場研究公司(5)從已建立客戶數(shù)據(jù)庫的公司租用或購買(6)其他渠道10二、客戶的隱私及保護(hù)在企業(yè)層面保證客戶信息安全性2012年3月15日,據(jù)央視3.15晚會(huì)報(bào)道,招商銀行信用卡中心風(fēng)險(xiǎn)管理部貸款審核員胡XX就曾向作案人出售個(gè)人信息300多份;中國工商銀行客戶經(jīng)理曹XX,通過中介向作案人提供了多達(dá)2318份個(gè)人信息。向朱凱華出售個(gè)人征信報(bào)告、銀行卡信息的,還有中國農(nóng)業(yè)銀行無錫榮龍支行員工董某、中國工商銀行福州鼓樓支行員工陳某。112.使用匿名身份信息3.盡量使用匯總數(shù)據(jù)12三、構(gòu)建客戶數(shù)據(jù)庫(1)適當(dāng)超前。按照可預(yù)見未來所需的信息量,盡可能多地考慮預(yù)期客戶購買產(chǎn)品的情況和購買后的反應(yīng)。(2)設(shè)計(jì)彈性。深入策劃客戶數(shù)據(jù)庫的組成部分,應(yīng)保留一定的彈性,以滿足未來變化的需要。(3)靈活應(yīng)用。建立數(shù)據(jù)庫,可先建成一個(gè)小而實(shí)用的數(shù)據(jù)庫,在管理客戶數(shù)據(jù)庫中獲得經(jīng)驗(yàn),并對(duì)其評(píng)價(jià),不斷改進(jìn)。(4)必要參與。構(gòu)建客戶數(shù)據(jù)庫時(shí),讓盡可能多的部門和人員參與。一方面使信息采集科學(xué)完備;另一方面讓數(shù)據(jù)庫的使用者充分了解設(shè)計(jì)者的思想。13第二節(jié)數(shù)據(jù)倉庫技術(shù)一、數(shù)據(jù)倉庫概述從數(shù)據(jù)庫到數(shù)據(jù)倉庫傳統(tǒng)的數(shù)據(jù)庫技術(shù)由于其高效的數(shù)據(jù)存儲(chǔ)與查詢技術(shù),支持了綜合型管理信息系統(tǒng)的廣泛應(yīng)用。然而這些數(shù)據(jù)庫主要適應(yīng)于業(yè)務(wù)處理的需要,不能提供從全局視圖對(duì)企業(yè)數(shù)據(jù)進(jìn)行深入分析和挖掘。響應(yīng)時(shí)間要求短某些業(yè)務(wù)功能數(shù)據(jù)對(duì)決策分析無關(guān)緊要客戶信息被割裂在各個(gè)不同系統(tǒng)中以二維表格存儲(chǔ),無法進(jìn)行多視角分析1415營銷子系統(tǒng):
客戶特征(類別號(hào),收入水平,交易期限,客戶價(jià)值,…)客戶行為(客戶號(hào),購買頻次,最近購買時(shí)間,。。。)營業(yè)推廣(編號(hào),推廣方式,成本,日期,客戶。。。。)銷售子系統(tǒng):客戶(客戶號(hào),姓名,地址,電話,…
)銷售(客戶號(hào),商品號(hào),數(shù)量,單價(jià),日期,…)售后服務(wù)子系統(tǒng):咨詢單(編號(hào),客戶號(hào),日期,相關(guān)產(chǎn)品…)維修單(編號(hào),客戶號(hào),商品號(hào),日期,負(fù)責(zé)人…)
維修次數(shù)、客戶特征與客戶忠誠度之間具有什么樣的關(guān)系?162.?dāng)?shù)據(jù)倉庫的含義
目前,對(duì)于數(shù)據(jù)倉庫的概念,權(quán)威的定義是“數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、時(shí)變的、不可修改的數(shù)據(jù)集合”。3.建立數(shù)據(jù)倉庫的目的
建立數(shù)據(jù)倉庫并不是要取代原有的運(yùn)作數(shù)據(jù)庫系統(tǒng),而是為了將企業(yè)多年來已經(jīng)收集到的數(shù)據(jù)按統(tǒng)一、一致的企業(yè)級(jí)視圖組織、存儲(chǔ),對(duì)這些數(shù)據(jù)進(jìn)行分析,從中得出有關(guān)企業(yè)經(jīng)營狀況、客戶需求、對(duì)手情況、發(fā)展趨勢(shì)等有用信息,幫助企業(yè)及時(shí)、準(zhǔn)確地做出相應(yīng)決策。16174.數(shù)據(jù)倉庫特征(1)面向主題(subject-oriented)。數(shù)據(jù)倉庫的數(shù)據(jù)組織是圍繞主題的。(2)集成(integrated)。數(shù)據(jù)倉庫通常是結(jié)合多個(gè)異種數(shù)據(jù)源構(gòu)成的。(3)時(shí)變(time-variant)。數(shù)據(jù)倉庫中包含時(shí)間元素,它所提供的信息總是與時(shí)間相關(guān)聯(lián)的。(4)不可修改(nonvolatile)。其數(shù)據(jù)相對(duì)穩(wěn)定,極少或根本不更新。18
客戶基本信息:客戶號(hào),姓名,地址,電話。。。。客戶行為信息:客戶號(hào),購買頻次,最近購買時(shí)間,。。??蛻艟S修信息:客戶號(hào),商品號(hào),日期,負(fù)責(zé)人…
客戶咨詢信息:編號(hào),客戶號(hào),日期,相關(guān)產(chǎn)品,
…
客戶主題域:營銷子系統(tǒng)銷售子系統(tǒng)售后子系統(tǒng)19整個(gè)數(shù)據(jù)倉庫系統(tǒng)是一個(gè)包含四個(gè)層次的體系結(jié)構(gòu),具體由下圖表示。20三、基于數(shù)據(jù)倉庫的OLAP
1.OLAP基本概念
1)維
維是人們觀察數(shù)據(jù)的特定角度。
2)維的層次
一個(gè)維往往具有多個(gè)層次,如描述時(shí)間維,可以從日期、月份、季度、年等不同層次來捕述,那么日期、月份、季度、年等就是時(shí)間維的層次;同樣,城市、地區(qū)、國家等構(gòu)成了一個(gè)地理維的多個(gè)層次。
21
(1)維成員。維的一個(gè)取值稱為該維的一個(gè)維成員。如果一個(gè)維是多層次的,那么,該維的維成員是在不同維層次的取值的組合。
(2)多維數(shù)組。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。例如,日用品銷售數(shù)據(jù)是按時(shí)間、地區(qū)和銷售渠道組織起來的三維立方體,加上變量"銷售額”,就組成了一個(gè)多維數(shù)組(地區(qū),時(shí)間,銷售渠道,銷售額)。
(3)數(shù)據(jù)單元。多維數(shù)組的取值稱為數(shù)據(jù)單元。
22切片
選定多維數(shù)組的一個(gè)二維子集的方法叫做切片,即選定多維數(shù)組(維1,維2,……,維n,變量)中的兩個(gè)維:維I和維J,在這兩個(gè)維上取某一區(qū)間或任意維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維I和j上一個(gè)二維子集,稱這個(gè)二維子集為多維數(shù)在維I和維J上的一個(gè)切片,表示為;(維I,維j,變量)。OLAP的分析方法23
例如,選定多維數(shù)組(地區(qū),時(shí)間,產(chǎn)品,銷售額)中的地區(qū)維與產(chǎn)品維,在另外一維:時(shí)間維,選取一個(gè)維成員(如“2006年1月”),就得到了多維數(shù)組(地區(qū),時(shí)間,產(chǎn)品,銷售額)在產(chǎn)品和地區(qū)兩維上的一個(gè)切片(客戶,地區(qū),銷售額)。這個(gè)切片表示2006年1月各地區(qū)、各產(chǎn)品的銷售情況。24
產(chǎn)品銷售情況2006.1產(chǎn)品銷售情況選定兩個(gè)維:產(chǎn)品維和地區(qū)維時(shí)間維數(shù)據(jù)切片產(chǎn)品維地區(qū)維產(chǎn)品維地區(qū)維25切塊
選定多維數(shù)的一個(gè)三維子集的方法稱切塊。即選定多維數(shù)組(維1,維2,……,維n,變量)中的三個(gè)維:維I、維j和維r,在這三個(gè)維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個(gè)維成員,則得到的就是多維數(shù)組在維I、維j和維r上一個(gè)三維子集,我們稱這個(gè)三維子集為多維數(shù)組在維I、維j和r上的一個(gè)切塊,表示為:(維I,維j,維r,變量)。切塊與切片的作用與目的是相似的。美國中國手機(jī)電腦圖8-3
三維立方體切塊(Slice)26旋轉(zhuǎn)
旋轉(zhuǎn)即是改變一個(gè)報(bào)告或面顯示的維方向。例如,旋轉(zhuǎn)可能包含了交換行和列;或是把某一個(gè)行維移到列維中去,或是把一個(gè)橫向?yàn)闀r(shí)間、縱向?yàn)楫a(chǎn)品的報(bào)表旋轉(zhuǎn)成為橫向?yàn)楫a(chǎn)品、縱向?yàn)闀r(shí)間的報(bào)表。272005年2006年部門1季度2季度3季度4季度1季度2季度3季度4季度部門一2012182722161929部門二2311241722311234部門三26213433212326321季度2季度3季度4季度部門2005年2006年2005年2006年2005年2006年2005年2006年部門一2022121618192729部門二2322113124121734部門三2621212334263332旋轉(zhuǎn)前的有關(guān)數(shù)據(jù)描述旋轉(zhuǎn)后的有關(guān)數(shù)據(jù)描述28鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取6029第三節(jié)數(shù)據(jù)挖掘技術(shù)30什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識(shí)挖掘(KDD)知識(shí)提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。31數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫知識(shí)任務(wù)相關(guān)的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估32數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大有價(jià)值的知識(shí)可怕的數(shù)據(jù)數(shù)據(jù)挖掘背景33數(shù)據(jù)爆炸,知識(shí)貧乏苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)知識(shí)決策模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS人口統(tǒng)計(jì)生命周期34客戶接觸
客戶信息客戶數(shù)據(jù)庫統(tǒng)計(jì)分析與數(shù)據(jù)挖掘客戶知識(shí)發(fā)現(xiàn)客戶管理知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能35各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦。。。基因挖掘基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。。。銀行電信零售保險(xiǎn)制藥生物信息科學(xué)研究。。。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用36零售業(yè)用于識(shí)別顧客的購買模式,在顧客的統(tǒng)計(jì)特征中發(fā)現(xiàn)關(guān)聯(lián),預(yù)測促銷活動(dòng)的反應(yīng),進(jìn)行市場分析。啤酒和尿布的的關(guān)系,我們非常熟悉!如在購買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶”:(面包+黃油)→(牛奶)。數(shù)據(jù)挖掘其他應(yīng)用37銀行洗錢:發(fā)現(xiàn)可疑的貨幣交易行為保險(xiǎn)如;保險(xiǎn)客戶流失性判斷數(shù)據(jù)挖掘其他應(yīng)用收入>5萬元年齡>35歲不易流失易流失是否事業(yè)單位不易流失易流失YNYYNN38股票預(yù)設(shè)
預(yù)測一支股票的走勢(shì)幾乎是不可能,但是通過相關(guān)分析,可以找出一支股票的走勢(shì)與另一只股票走勢(shì)的潛在規(guī)律,比如數(shù)據(jù)挖掘曾經(jīng)得到過這個(gè)結(jié)論:“如果微軟的股票下跌4%,那么IBM的股票將在兩周內(nèi)下跌5%”。醫(yī)療探求各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對(duì)疾病的診斷、治療和醫(yī)學(xué)研究是非常有價(jià)值和發(fā)展前景的。同時(shí),醫(yī)療數(shù)據(jù)是既有文本、數(shù)據(jù)挖掘其他應(yīng)用39在今天,NBA的教練有了他們的新式武器:決策支持下的數(shù)據(jù)分析。大約20個(gè)NBA球隊(duì)使用了IBM公司開發(fā)的數(shù)據(jù)挖掘軟件來優(yōu)化他們的戰(zhàn)術(shù)組合?;鸺目偨?jīng)理莫雷該軟件就因?yàn)檠芯苛四g(shù)隊(duì)隊(duì)員不同的布陣,在魔術(shù)隊(duì)與邁阿密熱隊(duì)的比賽中找到了獲勝的機(jī)會(huì)。(1)系統(tǒng)分析顯示魔術(shù)隊(duì)先發(fā)陣容中的兩個(gè)后衛(wèi)哈德衛(wèi)和伯蘭在前兩場中被評(píng)為-17分,這意味著他倆在場上,本隊(duì)輸?shù)舻姆謹(jǐn)?shù)比得到的分?jǐn)?shù)多17分。然而,當(dāng)哈德衛(wèi)與替補(bǔ)后衛(wèi)阿姆斯創(chuàng)組合時(shí),魔術(shù)隊(duì)得分為正14分。(2)在下一場中,魔術(shù)隊(duì)增加了阿姆斯創(chuàng)的上場時(shí)間。此招果然見效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術(shù)隊(duì)以88比79獲勝。有趣的數(shù)據(jù)挖掘----美國NBA40數(shù)據(jù)挖掘的方法
根據(jù)數(shù)據(jù)挖掘的方法分,可粗分為:統(tǒng)計(jì)方法機(jī)器學(xué)習(xí)方法神經(jīng)網(wǎng)絡(luò)方法數(shù)據(jù)庫方法41(1)統(tǒng)計(jì)方法回歸分析(多元回歸、自回歸、羅吉斯回歸等)判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)探索性分析(主元分析法、相關(guān)分析法等)以及模糊集、粗糙集、支持向量機(jī)等。(2)機(jī)器學(xué)習(xí)歸納學(xué)習(xí)方法(決策樹(ID3算法)、規(guī)則歸納等)、基于范例的推理CBR遺傳算法貝葉斯信念網(wǎng)絡(luò)等。(3)神經(jīng)網(wǎng)絡(luò)方法前向神經(jīng)網(wǎng)絡(luò)(BP算法等)自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。(4)數(shù)據(jù)庫方法基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。數(shù)據(jù)挖掘是CRM成功的保障CRM中數(shù)據(jù)挖掘的應(yīng)用:1.客戶的獲取。把客戶根據(jù)其性別、收入、交易行為特征等屬性細(xì)分為具有不同需求和交易習(xí)慣的群體,同一群體中的客戶對(duì)產(chǎn)品的需求以及交易心理等方面具有相似性,而不同群體間差異較大。這樣就有助于企業(yè)在營銷中更加貼近顧客需求。分類和聚類等挖掘方法可以把大量的客戶分成不同的類,適合于進(jìn)行客戶細(xì)分。通過群體細(xì)分,CRM用戶可以更好地理解客戶,發(fā)現(xiàn)群體客戶的行為規(guī)律。在行為分組完成后,還要進(jìn)行客戶理解、客戶行為規(guī)律發(fā)現(xiàn)和客戶組之間的交叉分析。數(shù)據(jù)挖掘是CRM成功的保障2.重點(diǎn)客戶發(fā)現(xiàn)。就是找出對(duì)企業(yè)具有重要意義的客戶,重點(diǎn)客戶發(fā)現(xiàn)主要包括:發(fā)現(xiàn)有價(jià)值的潛在客戶;發(fā)現(xiàn)有更多的消費(fèi)需求的同一客戶;發(fā)現(xiàn)更多使用的同一種產(chǎn)品或服務(wù);保持客戶的忠誠度。根據(jù)80/20以及開發(fā)新客戶的費(fèi)用是保留老客戶費(fèi)用的5倍等營銷原則,重點(diǎn)客戶發(fā)現(xiàn)在CRM中具有舉足輕重的作用。數(shù)據(jù)挖掘是CRM成功的保障3.交叉營銷。商家與其客戶之間的商業(yè)關(guān)系是一種持續(xù)的不斷發(fā)展的關(guān)系,通過不斷地相互接觸和交流,客戶得到了更好更貼切的服務(wù)質(zhì)量,商家則因?yàn)樵黾恿虽N售量而獲利。交叉營銷指向已購買商品的客戶推薦其他產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的產(chǎn)品是用戶所感愛好的,有幾種挖掘方法都可以應(yīng)用于此問題,關(guān)聯(lián)規(guī)則分析能夠發(fā)現(xiàn)顧客傾向于關(guān)聯(lián)購買哪些商品;聚類分析能夠發(fā)現(xiàn)對(duì)特定產(chǎn)品感愛好的用戶群;神經(jīng)網(wǎng)絡(luò)、回歸等方法能夠猜測顧客購買該新產(chǎn)品的可能性。數(shù)據(jù)挖掘是CRM成功的保障4.客戶分析。主要包括:客戶價(jià)值金字塔分析、客戶分布分析、新增客戶分析、流失客戶分析和購買行為分析。其中分類等技術(shù)能夠判定具備哪些特性的客戶群體最輕易流失,建立客戶流失猜測模型,從而幫助企業(yè)對(duì)有流失風(fēng)險(xiǎn)的顧客提前采取相應(yīng)營銷措施。利用數(shù)據(jù)挖掘技術(shù),可以通過挖掘大量的客戶信息來構(gòu)建猜測模型,較準(zhǔn)確地找出易流失客戶群,并制訂相應(yīng)的方案,最大程度地保持住老客戶。數(shù)據(jù)挖掘是CRM成功的保障5.性能評(píng)估。以客戶所提供的市場反饋為基礎(chǔ),通過數(shù)據(jù)倉庫的數(shù)據(jù)清潔與集中過程,將客戶對(duì)市場的反饋?zhàn)詣?dòng)地輸入到數(shù)據(jù)倉庫中,從而進(jìn)行客戶行為跟蹤。性能分析與客戶行為分析和重點(diǎn)客戶發(fā)現(xiàn)是相互交疊的過程,這樣才能保證企業(yè)的客戶關(guān)系治理能夠達(dá)到既定的目標(biāo),建立良好的客戶關(guān)系。47關(guān)聯(lián)分析
關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。三、數(shù)據(jù)挖掘方法的應(yīng)用舉例48關(guān)聯(lián)規(guī)則挖掘記錄號(hào)購物清單12345啤酒、尿布、嬰兒爽身粉、面包、雨傘尿布、嬰兒爽身粉啤酒、尿布、牛奶尿布、啤酒、洗衣粉啤酒、牛奶、可樂客戶購物清單單項(xiàng)統(tǒng)計(jì)支持度{啤酒}{尿布}{嬰兒爽身粉}{牛奶}0.80.80.40.4單項(xiàng)統(tǒng)計(jì)結(jié)果49雙項(xiàng)統(tǒng)計(jì)支持度{啤酒,尿布}{啤酒,牛奶}{尿布,嬰兒爽身粉}0.60.40.4R1:啤酒~尿布,S=0.6,C=0.6/0.8==0.75R2:尿布~啤酒,S=0.6,C=0.6/0.8==0.75R3:牛奶~啤酒,S=0.4,C=0.4/0.4==1R4:啤酒~牛奶,S=0.4,C=0.4/0.8==0.5R5:尿布~爽身粉,S=0.4,C=0.4/0.8==0.5R6:嬰兒爽身粉~尿布,S=0.4,C=0.4/0.4==l50●現(xiàn)代方法——決策樹(DecisionTree)決策樹的組成決策節(jié)點(diǎn)、分支、葉子———根節(jié)點(diǎn)分支———葉子Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40K節(jié)點(diǎn)
決策樹的分支過程就是對(duì)數(shù)據(jù)進(jìn)行分類的過程,利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問題)來判斷數(shù)據(jù)所屬的類別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過程也就是數(shù)據(jù)的“純化”過程。2.決策樹方法決策樹算法決策樹的構(gòu)造采用自上而下的遞歸構(gòu)造。以多叉樹為例,其構(gòu)造思路是:如果訓(xùn)練樣本集中所有樣本是同類的,則將它作為葉子節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容即是該類別標(biāo)記;否則,根據(jù)某種策略選擇一個(gè)屬性,按照屬性的不同取值,將樣本集劃分為若干子集,使得每個(gè)子集上的所有樣本在該屬性上具有同樣的屬性值。然后再依次處理各個(gè)子集。實(shí)際上就是“分而治之”(divide-and-conquer)的策略。二叉樹同理,差別僅在于要選擇一個(gè)好的邏輯判斷。
決策樹算法決策樹構(gòu)造的條件構(gòu)造好的決策樹的關(guān)鍵是:如何選擇好的邏輯判斷或?qū)傩?。?duì)于同樣一組樣本,可以有很多決策樹能符合這組樣本。原則:選擇一個(gè)最能區(qū)別T中實(shí)例的屬性研究表明,一般情況下,樹越小則樹的預(yù)測能力越強(qiáng)。要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當(dāng)?shù)倪壿嬇袛嗷驅(qū)傩浴R话悴捎脝l(fā)式策略選擇好的邏輯判斷或?qū)傩浴?3患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫數(shù)據(jù)挖掘?qū)嵗颊叽a嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?54患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數(shù)據(jù)挖掘?qū)嵗?5淋巴腫發(fā)燒NoNoYesYes咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數(shù)據(jù)實(shí)例(檢驗(yàn)集)未知分類的數(shù)據(jù)檢驗(yàn)56患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā)燒NoNoYesYes敏感癥敏感癥咽炎NoYes頭痛淋巴腫感冒發(fā)燒淋巴腫NoYes咽炎NoYes選取頭痛作為決策屬性決策樹的屬性選取屬性選取標(biāo)準(zhǔn):最大化反映數(shù)據(jù)差異,使樹的層次和節(jié)點(diǎn)數(shù)最小信用卡促銷數(shù)據(jù)庫收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19數(shù)據(jù)挖掘?qū)嵗獕垭U(xiǎn)促銷我們將試圖發(fā)現(xiàn)年齡、收入、性別、是否有信用卡保險(xiǎn)等因素與是否購買壽險(xiǎn)的關(guān)聯(lián),從而證實(shí)已購買壽險(xiǎn)與某些相關(guān)因素間的規(guī)則。58收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF19○選取收入段為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類收入段2Yes2No4Yes1No3No1Yes2Yes2—3萬3—4萬4—5萬5—6萬○訓(xùn)練集分類的正確性為11/15=73%數(shù)據(jù)挖掘?qū)嵗獕垭U(xiǎn)促銷59——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取信用卡保險(xiǎn)為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○沿著每個(gè)分支有兩個(gè)類,選取最頻繁出現(xiàn)的類信用卡保險(xiǎn)6Yes6No3Yes0NoNoYes○訓(xùn)練集分類的正確性為9/15=60%收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF1960——決策樹(DecisionTree):例信用卡促銷數(shù)據(jù)庫○選取數(shù)值型屬性年齡為根節(jié)點(diǎn)○選取壽險(xiǎn)促銷為輸出屬性○依照年齡排序,對(duì)照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn)年齡9Yes3No0Yes3No≤43>43○以年齡≤43結(jié)合壽險(xiǎn)促銷=Y(jié)es,訓(xùn)練集分類的正確性為12/15=80%172729353839404142434343455555YNYYYYYYNYYNNNN收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6萬YesNoF382-3萬NoNoF553-4萬YesYesM352-3萬NoNoM273-4萬NoNoF433-4萬YesNoF414-5萬YesNoM432-3萬YesNoF295-6萬YesNoF394-5萬NoNoM552-3萬YesYesF1961信用卡促銷數(shù)據(jù)庫年齡Yes(6/1)No(2/1)≤43>43性別FM信用卡保險(xiǎn)Yes(2/0)No(3/0)NoYes信用卡數(shù)據(jù)庫的三節(jié)點(diǎn)決策樹○訓(xùn)練集分類的正確性為13/15=87%收入段壽險(xiǎn)促銷信用卡保險(xiǎn)性別年齡4-5萬NoNoM453-4萬YesNoF404-5萬NoNoM423-4萬YesYesM435-6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025交通賠償協(xié)議書模板
- 臨時(shí)工勞動(dòng)簽訂協(xié)議書七篇
- 債務(wù)協(xié)議范本
- 全國賽課一等獎(jiǎng)初中統(tǒng)編版七年級(jí)道德與法治上冊(cè)《增強(qiáng)安全意識(shí)》獲獎(jiǎng)?wù)n件
- 重慶2020-2024年中考英語5年真題回-教師版-專題07 閱讀理解之說明文
- 《商務(wù)數(shù)據(jù)分析》課件-市場定位分析
- 企業(yè)安全管理人員盡職免責(zé)培訓(xùn)課件
- 《卓越的銷售技巧》課件
- 養(yǎng)老院老人康復(fù)設(shè)施維修人員福利待遇制度
- 新冠救治和轉(zhuǎn)運(yùn)人員的閉環(huán)管理要點(diǎn)(醫(yī)院新冠肺炎疫情防控感染防控專家課堂培訓(xùn)課件)
- 醫(yī)院消防安全培訓(xùn)課件-課件
- 碎石物資運(yùn)輸及組織供貨方案
- 供應(yīng)鏈管理:高成本、高庫存、重資產(chǎn)的解決方案 第2版
- 多維多參量綜合雷電預(yù)警系統(tǒng)培訓(xùn)PPT
- 微生物學(xué)(云南農(nóng)業(yè)大學(xué))知到章節(jié)答案智慧樹2023年
- 兒女輪流照顧母親協(xié)議書
- 2023屆上海市嘉定區(qū)初三中考物理一模試卷+答案
- 業(yè)委會(huì)關(guān)于小區(qū)物業(yè)公司解除物業(yè)服務(wù)合同的函
- 安規(guī)考試題庫500題(含標(biāo)準(zhǔn)答案)
- 2022年度個(gè)人政治素質(zhì)考察自評(píng)報(bào)告三篇
- GB/T 3452.2-2007液壓氣動(dòng)用O形橡膠密封圈第2部分:外觀質(zhì)量檢驗(yàn)規(guī)范
評(píng)論
0/150
提交評(píng)論