




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1會(huì)計(jì)學(xué)CH數(shù)據(jù)挖掘與客戶關(guān)系管理數(shù)據(jù)挖掘與客戶關(guān)系管理數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值的知識(shí)有價(jià)值的知識(shí)可怕的數(shù)據(jù)可怕的數(shù)據(jù)數(shù)據(jù)爆炸,知識(shí)貧乏數(shù)據(jù)爆炸,知識(shí)貧乏 苦惱: 淹沒(méi)在數(shù)據(jù)中 ; 不能制定合適的決策! 數(shù)據(jù)數(shù)據(jù)n模式模式n趨勢(shì)趨勢(shì)n事實(shí)事實(shí)n關(guān)系關(guān)系n模型模型n關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則n序列序列n目標(biāo)市場(chǎng)目標(biāo)市場(chǎng)n資金分配資金分配n貿(mào)易選擇貿(mào)易選擇n在哪兒做廣告在哪兒做廣告n銷(xiāo)售的地理位置銷(xiāo)售的地理位置n金融金融n經(jīng)濟(jì)經(jīng)濟(jì)n政府政府nPOS.n人口統(tǒng)計(jì)人口統(tǒng)計(jì)n生命周期生命周期 更大,更便宜的存儲(chǔ)器 - 磁盤(pán)密度以Moores law增長(zhǎng) - 存儲(chǔ)器價(jià)格飛快下降更快,更便宜
2、的信息處理器 - 分析更多的數(shù)據(jù) - 適應(yīng)更多復(fù)雜的模型 - 引起更多查詢(xún)技術(shù) - 激起更強(qiáng)的可視化技術(shù) 數(shù)據(jù)挖掘處理技術(shù) - 數(shù)理統(tǒng)計(jì) - 人工智能 - 機(jī)器學(xué)習(xí)客戶接觸客戶接觸 客戶信息客戶信息客戶數(shù)據(jù)庫(kù)客戶數(shù)據(jù)庫(kù)統(tǒng)計(jì)分析與數(shù)據(jù)挖掘統(tǒng)計(jì)分析與數(shù)據(jù)挖掘客戶知識(shí)發(fā)現(xiàn)客戶知識(shí)發(fā)現(xiàn)客戶管理客戶管理知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息知識(shí)發(fā)現(xiàn):從數(shù)據(jù)中深入抽取隱含的、未知的和有潛在用途的信息從商業(yè)數(shù)據(jù)到商業(yè)智能各行業(yè)電子商務(wù)網(wǎng)站各行業(yè)電子商務(wù)網(wǎng)站算算法法層層商商業(yè)業(yè)邏邏輯輯層層行行業(yè)業(yè)應(yīng)應(yīng)用用層層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦產(chǎn)品推薦客戶細(xì)分客戶細(xì)分客戶流失客戶流失客戶
3、利潤(rùn)客戶利潤(rùn)客戶響應(yīng)客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類(lèi)、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析關(guān)聯(lián)規(guī)則、序列模式、分類(lèi)、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析WEB挖掘挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁(yè)推薦網(wǎng)頁(yè)推薦商品推薦商品推薦?;蛲诰蚧蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析基因表達(dá)共發(fā)生分析。銀行銀行電信電信零售零售保險(xiǎn)保險(xiǎn)制藥制藥生物信息生物信息科學(xué)研究科學(xué)研究。相關(guān)行業(yè)數(shù)據(jù)挖掘的應(yīng)用Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) Neural Netwo
4、rksNeural Networks聚類(lèi)分析聚類(lèi)分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis決策樹(shù)決策樹(shù) Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標(biāo)市場(chǎng) 價(jià)格彈性分析 客戶細(xì)分 市場(chǎng)細(xì)分 傾向性分析 客戶保留 目標(biāo)市場(chǎng) 欺詐檢測(cè)關(guān)聯(lián)分析關(guān)聯(lián)分析 AssociationAssociation 市場(chǎng)組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷(xiāo)售數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)的分類(lèi)
5、數(shù)據(jù)挖掘技術(shù)的分類(lèi)回顧分析:注重解決過(guò)去和現(xiàn)在的問(wèn)題 如:兩年來(lái)不同地區(qū)、人口和產(chǎn)品情況下的各銷(xiāo)售部門(mén)銷(xiāo)售業(yè)績(jī)分析預(yù)測(cè)分析:在歷史信息的基礎(chǔ)上預(yù)測(cè)某些事件和行為 如:建立預(yù)測(cè)模型來(lái)描述客戶的流失率分類(lèi):根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫(kù)記錄分類(lèi)到許多預(yù)先定義好的類(lèi)別 如:信用卡公司將客戶記錄分為好、中、差三類(lèi) 分類(lèi)可以產(chǎn)生規(guī)則:如果一個(gè)客戶收入超過(guò)5000萬(wàn)元,年齡在4555歲之間,居住在某地區(qū),那么他的信用等級(jí)為好。數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)的分類(lèi)數(shù)據(jù)挖掘技術(shù)的分類(lèi)聚類(lèi):根據(jù)某些屬性將數(shù)據(jù)庫(kù)分割為一些子集和簇 如:在了解客戶的過(guò)程中,嘗試使用從未使用過(guò)的屬性分割人群以發(fā)現(xiàn)潛在客戶的簇關(guān)聯(lián):通過(guò)考察記錄來(lái)識(shí)別
6、數(shù)據(jù)間的密切關(guān)系 關(guān)聯(lián)關(guān)系常常表現(xiàn)為規(guī)則,常用于超市購(gòu)物籃分析如:所有包含A和B的記錄中有60同時(shí)包含C。時(shí)間序列:用于幫助識(shí)別與時(shí)間有關(guān)的模式 如:通過(guò)對(duì)客戶多次購(gòu)物行為的分析可以發(fā)現(xiàn)購(gòu)物行為在時(shí)間上的關(guān)系 常用于產(chǎn)品目錄營(yíng)銷(xiāo)的分析數(shù)據(jù)挖掘的一般目的就是數(shù)據(jù)挖掘的一般目的就是檢測(cè)、解釋和預(yù)測(cè)檢測(cè)、解釋和預(yù)測(cè)數(shù)據(jù)中定性的和或定量的模式數(shù)據(jù)中定性的和或定量的模式數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘方法學(xué)數(shù)據(jù)挖掘方法學(xué)模式模式 數(shù)據(jù)庫(kù)中一個(gè)事件或事件的結(jié)合,這些事件比預(yù)期的要經(jīng)常發(fā)生,其實(shí)際發(fā)生率明顯不同于隨機(jī)情況下的可期望發(fā)生率。 模式是數(shù)據(jù)驅(qū)動(dòng)的,一般只反映數(shù)據(jù)本身模型模型 對(duì)構(gòu)建事件的源時(shí)的歷史數(shù)據(jù)庫(kù)的描述
7、,并且能夠成功地應(yīng)用于新的數(shù)據(jù),以便對(duì)缺少的數(shù)據(jù)作出預(yù)測(cè)或?qū)ζ谕臄?shù)據(jù)作出說(shuō)明。模型的一般表現(xiàn)形式數(shù)學(xué)方程式描述各客戶段的規(guī)則集計(jì)算機(jī)表示方式 模式可視化數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘方法學(xué)數(shù)據(jù)挖掘方法學(xué)取樣取樣 根據(jù)問(wèn)題的需要采用隨機(jī)取樣的方法從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)進(jìn)行挖掘,有助于迅速發(fā)現(xiàn)模式、創(chuàng)建模型 數(shù)據(jù)本身的處理過(guò)程需要驗(yàn)證驗(yàn)證模型 模型創(chuàng)建過(guò)程需要保證正確 模型應(yīng)用的驗(yàn)證 在依據(jù)一些歷史數(shù)據(jù)建造模型后,將模型應(yīng)用于未參與建造模型的其他類(lèi)似的歷史數(shù)據(jù),比較其模型輸出結(jié)果與實(shí)際結(jié)果。數(shù)據(jù)挖掘技術(shù)經(jīng)典方法經(jīng)典方法統(tǒng)計(jì)統(tǒng)計(jì) 統(tǒng)計(jì)可以通過(guò)對(duì)類(lèi)似下列問(wèn)題的回答獲得模式在我的數(shù)據(jù)庫(kù)中存在什么模式某個(gè)事件發(fā)生的可
8、能性是什么那些模式是重要的模式 統(tǒng)計(jì)的一個(gè)重要價(jià)值就是它提供了對(duì)數(shù)據(jù)庫(kù)的高層視圖,這種視圖提供了有用的信息,但不要求在細(xì)節(jié)上理解數(shù)據(jù)庫(kù)的每一條記錄。經(jīng)典方法經(jīng)典方法最近鄰最近鄰 通過(guò)檢測(cè)與預(yù)測(cè)對(duì)象最接近的對(duì)象的狀況對(duì)預(yù)測(cè)對(duì)象進(jìn)行預(yù)測(cè) 原理: 某一特定對(duì)象可能與其他某一或某些對(duì)象比其 它一些第三對(duì)象更接近; 相互之間“接近”的對(duì)象會(huì)有相似的取值 根據(jù)其中一個(gè)對(duì)象的取值,預(yù)測(cè)其最近鄰對(duì)象的預(yù)測(cè)值 商業(yè) 應(yīng)用:文獻(xiàn)檢索市場(chǎng)籃子分析 應(yīng)用 評(píng)價(jià): 最近鄰的數(shù)量最近鄰的距離決定最近鄰預(yù)測(cè)的可信度數(shù)據(jù)挖掘方法現(xiàn)代方法現(xiàn)代方法基礎(chǔ)理論有指導(dǎo)的學(xué)習(xí)(Supervised Learning)歸納 概念 分類(lèi)標(biāo)準(zhǔn)
9、與模型 分類(lèi)有指導(dǎo)的學(xué)習(xí)的目的:建立分類(lèi)模型用模型確定新數(shù)據(jù)實(shí)例的類(lèi)別訓(xùn)練數(shù)據(jù)(Training Data)與檢驗(yàn)集(Test Set)用于創(chuàng)建模型的數(shù)據(jù)實(shí)例稱(chēng)為訓(xùn)練數(shù)據(jù)用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度的數(shù)據(jù)實(shí)例稱(chēng)為檢驗(yàn)集數(shù)據(jù)挖掘方法 有指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNo
10、YesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指導(dǎo)的學(xué)習(xí)(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesY
11、esNoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無(wú)意義的屬性數(shù)據(jù)挖掘方法 有指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(Supervised Learning)淋巴腫發(fā) 燒No No Yes Yes 咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類(lèi)的數(shù)據(jù)實(shí)例(檢驗(yàn)集)數(shù)據(jù)挖掘方法無(wú)指導(dǎo)的學(xué)習(xí)無(wú)指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)為沒(méi)有預(yù)先定義分類(lèi)標(biāo)準(zhǔn)的數(shù)據(jù)建立模型客戶ID客戶類(lèi)型交易保證金帳戶交易方法交易
12、數(shù)月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網(wǎng)球45.9萬(wàn)1013委托保管NoBroke0.5F50-59滑雪89.9萬(wàn)1245聯(lián)合NoOnline3.6M20-29高爾夫23.9萬(wàn)2110個(gè)人YesBroke22.3M30-39釣魚(yú)45.9萬(wàn)1001個(gè)人YesOnline5.0M40-49高爾夫610.9萬(wàn)ABC投資公司客戶表數(shù)據(jù)挖掘方法無(wú)指導(dǎo)的學(xué)習(xí)無(wú)指導(dǎo)的學(xué)習(xí)(Unsupervised Learning)區(qū)分在線投資者和經(jīng)紀(jì)人投資者的特征是什么一個(gè)新客戶未開(kāi)設(shè)交易保證金帳戶,如何確定其將來(lái)是否會(huì)開(kāi)設(shè)這種帳戶能建立一個(gè)預(yù)測(cè)新投資者月均交易數(shù)的模型嗎女性和男性投資者有
13、什么不同的特征交易方式交易保證金帳戶月均交易數(shù)性別數(shù)數(shù) 據(jù)據(jù) 挖挖 掘掘 問(wèn)問(wèn) 題題屬屬 性性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數(shù)據(jù)庫(kù)有指導(dǎo)有指導(dǎo)的學(xué)習(xí)的學(xué)習(xí)無(wú)指導(dǎo)無(wú)指導(dǎo)的學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù)挖掘方法現(xiàn)代方法決策樹(shù)(Decision Tree)決策樹(shù)是一種有指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘方法決策樹(shù)的組成決策節(jié)點(diǎn)、分支、葉子根節(jié)點(diǎn)分支葉子Debt$40K節(jié)點(diǎn) 決策樹(shù)的分支過(guò)程就是對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程,利用幾個(gè)變量(每個(gè)變量對(duì)應(yīng)一個(gè)問(wèn)題)來(lái)判斷數(shù)據(jù)所屬的類(lèi)別。在分支后,要使不同分支之間數(shù)據(jù)的差異盡可能大、同一分支內(nèi)的數(shù)據(jù)盡量相同。這一分割過(guò)程也就是數(shù)據(jù)的“純化”過(guò)程。數(shù)據(jù)挖掘方法決
14、決策策樹(shù)樹(shù)的的算算法法步步驟驟假設(shè)T為訓(xùn)練實(shí)例集選擇一個(gè)最能區(qū)別T中實(shí)例的屬性創(chuàng)建一個(gè)決策節(jié)點(diǎn),它的值為所選擇的屬性創(chuàng)建該節(jié)點(diǎn)的分支,每個(gè)分支代表所選屬性的一個(gè)唯一值使用分支的值,將數(shù)據(jù)實(shí)例分割為子類(lèi)對(duì)于步驟5所創(chuàng)建的各個(gè)子類(lèi): 如果子類(lèi)中的數(shù)據(jù)實(shí)例滿足以下條件,可按此決策樹(shù)對(duì)新數(shù)據(jù)實(shí)例指定類(lèi)別 分割中只包含一條數(shù)據(jù)實(shí)例 分割中所有數(shù)據(jù)實(shí)例的屬性都相同 繼續(xù)分割得到的改進(jìn)不明顯 如果子類(lèi)不滿足上述條件,則設(shè)T為當(dāng)前子類(lèi)數(shù)據(jù)實(shí)例集合,返回步驟 2數(shù)據(jù)挖掘方法決策樹(shù)的屬性選取決策樹(shù)的屬性選取屬性選取標(biāo)準(zhǔn): 最大化反映數(shù)據(jù)差異,使樹(shù)的層次和節(jié)點(diǎn)數(shù)最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1Yesy
15、esYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒數(shù)據(jù)挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結(jié)果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoN
16、oYesNo敏感癥10NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā) 燒No No Yes Yes 敏感癥敏感癥咽炎No Yes 頭 痛淋巴腫感冒發(fā) 燒淋巴腫No Yes 咽炎No Yes 數(shù)據(jù)挖掘方法決策樹(shù)的屬性選取決策樹(shù)的屬性選取屬性選取標(biāo)準(zhǔn): 最大化反映數(shù)據(jù)差異,使樹(shù)的層次和節(jié)點(diǎn)數(shù)最小信用卡促銷(xiāo)數(shù)據(jù)庫(kù)信用卡促銷(xiāo)數(shù)據(jù)庫(kù)收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷(xiāo)銷(xiāo)信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNo
17、F382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M2103-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19選取收入段為根節(jié)點(diǎn)選取壽險(xiǎn)促銷(xiāo)為輸出屬性沿著每個(gè)分支有兩個(gè)類(lèi),選取最頻繁出現(xiàn)的類(lèi)收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23萬(wàn)萬(wàn) 34萬(wàn)萬(wàn) 45萬(wàn)萬(wàn) 56萬(wàn)萬(wàn)訓(xùn)練集分類(lèi)的正確性為1115103數(shù)據(jù)挖掘方法決策樹(shù)(Decision Tree):例信用卡促銷(xiāo)數(shù)據(jù)庫(kù)選取信用卡保險(xiǎn)為根節(jié)點(diǎn)選取壽險(xiǎn)促銷(xiāo)為輸出屬性沿
18、著每個(gè)分支有兩個(gè)類(lèi),選取最頻繁出現(xiàn)的類(lèi)信用卡保險(xiǎn)信用卡保險(xiǎn)6Yes6No3Yes 0NoNoYes訓(xùn)練集分類(lèi)的正確性為91560數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷(xiāo)銷(xiāo)信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M2103-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19決策
19、樹(shù)(Decision Tree):例信用卡促銷(xiāo)數(shù)據(jù)庫(kù)選取數(shù)值型屬性年齡為根節(jié)點(diǎn)選取壽險(xiǎn)促銷(xiāo)為輸出屬性依照年齡排序,對(duì)照輸出屬性進(jìn)行數(shù)據(jù)分割,選擇數(shù)據(jù)分割點(diǎn)年年 齡齡9Yes3No0Yes 3No4343以年齡43結(jié)合壽險(xiǎn)促銷(xiāo)Yes,訓(xùn)練集分類(lèi)的正確性為12158011021029353839404142434343455555YNYYYYYYNYYNNNN數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷(xiāo)銷(xiāo)信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)Y
20、esYesM352-3萬(wàn)萬(wàn)NoNo M2103-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19決策樹(shù)(Decision Tree):例信用卡促銷(xiāo)數(shù)據(jù)庫(kù)年 齡Yes(61)No(21)4343性 別F M信用卡保險(xiǎn)Yes(20)No(30)No Yes信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹(shù)信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹(shù)訓(xùn)練集分類(lèi)的正確性為1315810數(shù)據(jù)挖掘方法收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷(xiāo)銷(xiāo)信用卡保信用卡保險(xiǎn)險(xiǎn)性性別別年年齡齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5
21、萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoNoF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M2103-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19決策樹(shù)(DecisionTree):例信用卡促銷(xiāo)數(shù)據(jù)庫(kù)收入收入段段壽險(xiǎn)促壽險(xiǎn)促銷(xiāo)銷(xiāo)信用卡保信用卡保險(xiǎn)險(xiǎn)性別性別年齡年齡4-5萬(wàn)萬(wàn)NoNoM453-4萬(wàn)萬(wàn)YesNoF404-5萬(wàn)萬(wàn)NoNoM423-4萬(wàn)萬(wàn)YesYesM435-6萬(wàn)萬(wàn)YesNoF382-3萬(wàn)萬(wàn) NoN
22、oF553-4萬(wàn)萬(wàn)YesYesM352-3萬(wàn)萬(wàn)NoNo M2103-4萬(wàn)萬(wàn)NoNo F433-4萬(wàn)萬(wàn)YesNoF414-5萬(wàn)萬(wàn)YesNoM432-3萬(wàn)萬(wàn)YesNoF295-6萬(wàn)萬(wàn)YesNoF394-5萬(wàn)萬(wàn)NoNoM552-3萬(wàn)萬(wàn)YesYesF19信用卡保險(xiǎn)Yes(52)No(41)NoYes性 別F MYes(30)信用卡數(shù)據(jù)庫(kù)的兩節(jié)點(diǎn)決策樹(shù)信用卡數(shù)據(jù)庫(kù)的兩節(jié)點(diǎn)決策樹(shù)訓(xùn)練集分類(lèi)的正確性為121580數(shù)據(jù)挖掘方法決策樹(shù)(Decision Tree):例信用卡促銷(xiāo)數(shù)據(jù)庫(kù)檢驗(yàn)集收入段壽險(xiǎn)促銷(xiāo)信用卡保險(xiǎn)性別年齡檢驗(yàn)結(jié)果4-5萬(wàn)NoNoM42正確2-3萬(wàn)NoNoM210正確3-4萬(wàn)NoNoM43正確2-
23、3萬(wàn)YesNoM29錯(cuò)誤年 齡Yes(61)No(21)4343性 別F M信用卡保險(xiǎn)Yes(20)No(30)No Yes信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹(shù)信用卡數(shù)據(jù)庫(kù)的三節(jié)點(diǎn)決策樹(shù)數(shù)據(jù)挖掘方法現(xiàn)代方法現(xiàn)代方法K平均值算法 K-平均值算法是一種簡(jiǎn)單而有效的無(wú)指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)聚類(lèi)方法,將一組數(shù)據(jù)劃分為不相關(guān)的簇算算 法法 步步 驟驟選擇一個(gè)K值,用以確定簇的總數(shù)在數(shù)據(jù)集中任意選擇K個(gè)數(shù)據(jù)實(shí)例,作為初始的簇中心試用簡(jiǎn)單的歐氏距離將其它數(shù)據(jù)實(shí)例賦予距離它們最近的簇中心試用每個(gè)簇中的數(shù)據(jù)實(shí)例,計(jì)算每個(gè)簇的新的平均值如果新的平均值等于次迭代的平均值,終止該過(guò)程。否則,用新平均值作為簇中心并重復(fù)步驟35。點(diǎn)A(x
24、1,y1)與點(diǎn)B(x2,y2)之間的歐氏距離計(jì)算式為Disce ABxxyytan()()()121222數(shù)據(jù)挖掘方法K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數(shù)據(jù)實(shí)例分為兩個(gè)簇2.選擇實(shí)例1作為第1個(gè)簇的中心,實(shí)例3作為第2個(gè)簇的中心3.計(jì)算各數(shù)據(jù)實(shí)例與C1、C2之間的歐氏距離Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Di
25、st(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代結(jié)果得到以下兩個(gè)簇簇C1包含實(shí)例1、2,簇C2包含實(shí)例3、4、5、6YX 數(shù)據(jù)挖掘方法K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新計(jì)算每個(gè)簇的中心 對(duì)于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 對(duì)于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(
26、1.5+3.5+2.5+6.0)/4=3.3105 因此,新的簇中心為C1=(1.0,3.0) C2=(3.0,3.3105)YX 6.由于簇中心改變,進(jìn)行第2次迭代K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.104 C1Dist(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 D
27、ist(C25)=0.8105 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的結(jié)果導(dǎo)致了簇的變化:C1包含實(shí)例1、2和3,C2包含4、5和6YX K平均值算法:例K-平均值輸入屬性實(shí)例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.010.重新計(jì)算每個(gè)簇的中心 對(duì)于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 對(duì)于C2:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心為C1=(1.33,2.50) C
28、2=(3.33,4.00)8.由于簇中心改變,繼續(xù)進(jìn)行第3次迭代YX K平均值算法:例 數(shù)據(jù)實(shí)例與它們所對(duì)應(yīng)的簇中心之間的誤差平方和最小K平均值算法的幾個(gè)應(yīng)用K平均值算法的最優(yōu)聚類(lèi)標(biāo)準(zhǔn)輸出結(jié)果簇中心簇點(diǎn)均方誤差1(2.610, 4.610)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.105, 4.125)1, 32, 4, 5, 615.943(1.8, 2.10) (5, 6)1, 2, 3, 4, 569.60YX YX YX 現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) 關(guān)聯(lián)規(guī)則的表現(xiàn)形式 關(guān)聯(lián)規(guī)則是一種無(wú)指導(dǎo)學(xué)習(xí)的數(shù)據(jù)挖掘中最普遍
29、的知識(shí)發(fā)現(xiàn),是指在行為上具有某種關(guān)聯(lián)的多個(gè)事物在一次事件中可能同時(shí)出現(xiàn),從而在多個(gè)事物中建立聯(lián)系規(guī)則的方法。 “如果怎么樣、怎么樣、怎么樣,那么就會(huì)怎么樣” 關(guān)聯(lián)規(guī)則的構(gòu)成 前件“如果怎么樣、怎么樣、怎么樣” 后件“那么就怎么樣” 如果買(mǎi)了西裝,就會(huì)買(mǎi)領(lǐng)帶 如果買(mǎi)精顯彩電,就會(huì)買(mǎi)家庭影院系統(tǒng)規(guī)則的構(gòu)成如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣如果怎么樣、怎么樣、怎么樣,就會(huì)怎么樣前件,激發(fā)條件前件,激發(fā)條件后件,結(jié)果后件,結(jié)果規(guī)則表現(xiàn)為在前件所有條件成立的前提下,規(guī)則表現(xiàn)為在前件所有條件成立的前提下,后件結(jié)果會(huì)以某一正確概率出現(xiàn)后件結(jié)果會(huì)以某一正確概率出現(xiàn)關(guān)聯(lián)規(guī)則(Association Rule
30、s)規(guī)則的置信度和支持度關(guān)聯(lián)規(guī)則(Association Rules) 規(guī)則的置信度又稱(chēng)為規(guī)則的正確率,是指在前提出現(xiàn)的情況下,后件出現(xiàn)的概率 規(guī)則的支持度又稱(chēng)為規(guī)則的覆蓋率,是指包含規(guī)則出現(xiàn)的屬性值的交易占所有交易的百分比 例:如果客戶買(mǎi)牛奶,那么他們也會(huì)買(mǎi)面包 置信度:在10000次交易中客戶購(gòu)買(mǎi)了牛奶,而且其中的5000個(gè)交易也同時(shí)購(gòu)買(mǎi)了面包,則上述規(guī)則的置信度為50001000050 支持度:在超市一個(gè)月的客戶交易中,共有600000次交易,其中購(gòu)買(mǎi)牛奶的交易為60000次,支持度為6000060000010 規(guī)則的生成關(guān)聯(lián)規(guī)則(Association Rules) 決策樹(shù)方法 規(guī)則1
31、:如果客戶參加了信用卡保險(xiǎn),那么他就會(huì)參加壽險(xiǎn)促銷(xiāo)(置信度33100,支持度31520) 規(guī)則2:如果一個(gè)男性客戶沒(méi)有參加信用卡保險(xiǎn),那么他也不會(huì)參加壽險(xiǎn) 促銷(xiāo)(置信度4580,支持度51533) 規(guī)則3:如果一個(gè)女性客戶沒(méi)有參加信用卡保險(xiǎn),那么她可能會(huì)參加壽險(xiǎn)促銷(xiāo)(置信度510101,支持度1015410) 規(guī)則4:如果是一個(gè)女性客戶,那么她可能會(huì)參加壽險(xiǎn)促銷(xiāo)(置信度68105,支持度81553)信用卡保險(xiǎn)Yes(52)No(41)NoYes性 別F MYes(30)規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) 最近鄰方法 規(guī)則:如果一個(gè)客戶處于的狀況,那么他可能是一個(gè)逃
32、款者 關(guān)聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當(dāng)提供的屬性很多時(shí),因?yàn)槊織l規(guī)則的結(jié)果可能包含大量的前提條件,使用傳統(tǒng)方法會(huì)變得不切實(shí)際。規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules) apriori方法 apriori方法步驟: 1.設(shè)置最小的屬性值支持度要求 apriori方法是通過(guò)生成條目集,按照一定的準(zhǔn)則要求從中選擇規(guī)則的方法。 條目集是指符合一定支持度要求的“屬性值”的組合 2.生成條目集 3.使用生成的條目集來(lái)創(chuàng)建規(guī)則規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷(xiāo)手表促銷(xiāo)壽險(xiǎn)促銷(xiāo)信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFN
33、NNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例1.設(shè)置最小的屬性值支持度要求(30) 2.生成條目集單項(xiàng)集合條目數(shù)雜志促銷(xiāo)Y10手表促銷(xiāo)Y4手表促銷(xiāo)N6壽險(xiǎn)促銷(xiāo)Y5壽險(xiǎn)促銷(xiāo)N5信用卡保險(xiǎn)N8性別M6性別F4單項(xiàng)條目集合規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷(xiāo)手表促銷(xiāo)壽險(xiǎn)促銷(xiāo)信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例雙項(xiàng)條目集合雙項(xiàng)集合條目數(shù)雜志促銷(xiāo)Y手表促銷(xiāo)N4雜志促銷(xiāo)Y壽險(xiǎn)促銷(xiāo)Y5雜志促銷(xiāo)Y信用卡保險(xiǎn)N5雜志促銷(xiāo)Y性別M4手表促銷(xiāo)N壽險(xiǎn)促銷(xiāo)
34、N4手表促銷(xiāo)N信用卡保險(xiǎn)N5手表促銷(xiāo)N性別M4壽險(xiǎn)促銷(xiāo)N信用卡保險(xiǎn)N5壽險(xiǎn)促銷(xiāo)N性別M4新英卡保險(xiǎn)N 性別M4信用卡保險(xiǎn)N性別F4規(guī)則的生成現(xiàn)代方法關(guān)聯(lián)規(guī)則(Association Rules)雜志促銷(xiāo)手表促銷(xiāo)壽險(xiǎn)促銷(xiāo)信用卡保險(xiǎn)性別YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例 確定最小置信度(如50),利用雙項(xiàng)條目集合生成規(guī)則3.使用生成的條目集來(lái)創(chuàng)建規(guī)則規(guī)則1:如果雜志促銷(xiāo)Y,那么壽險(xiǎn)促銷(xiāo)Y(510) 置信度510101,支持度1010100規(guī)則2:如果壽險(xiǎn)促銷(xiāo)Y,那么雜志促銷(xiāo)Y(55) 置信度55100,支持度51050規(guī)則的生成關(guān)聯(lián)規(guī)則(Association Rules) 市場(chǎng)籃子分析就是一種關(guān)聯(lián)規(guī)則的表現(xiàn) 時(shí)間序列分析是一種反映客戶行為在時(shí)間上的關(guān)聯(lián)性的關(guān)聯(lián)規(guī)則規(guī)則的應(yīng)用關(guān)聯(lián)規(guī)則(Association Rules)以前件為目標(biāo)歸納所有前件一樣的規(guī)則分析后件的營(yíng)銷(xiāo)效果設(shè)計(jì)促銷(xiāo)方案(完善前件)例收集所有前件為文具、復(fù)讀機(jī)的規(guī)則,分析這些商品打折是否促
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度教育培訓(xùn)檔口租賃合同
- T-ZJCX 0046-2024 簾子線直捻機(jī)
- 二零二五年度公車(chē)私用行為規(guī)范與責(zé)任追究協(xié)議
- 二零二五年度全新碼頭租賃協(xié)議及倉(cāng)儲(chǔ)服務(wù)合作協(xié)議
- 2025年度果園租賃與農(nóng)業(yè)科技研發(fā)合同
- 二零二五年度廣告代理合同解除與權(quán)益調(diào)整協(xié)議
- 2025年度高科技企業(yè)計(jì)件工資勞動(dòng)合同
- 2025年度智能合同履約跟蹤與風(fēng)險(xiǎn)控制管理辦法
- 2025年度消防設(shè)施定期維護(hù)與消防通道清理合同
- 二零二五年度美發(fā)店員工勞動(dòng)健康保險(xiǎn)與意外傷害合同
- 2024年全國(guó)職業(yè)院校技能大賽中職(大數(shù)據(jù)應(yīng)用與服務(wù)賽項(xiàng))考試題庫(kù)(含答案)
- 2024湖南省水利廳直屬事業(yè)單位招聘擬聘用人員歷年高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 《計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)》課程教案(完整版)
- 追覓在線測(cè)評(píng)題
- 調(diào)崗未到崗解除勞動(dòng)合同通知書(shū)
- 產(chǎn)品標(biāo)準(zhǔn)化大綱
- 西師版小學(xué)數(shù)學(xué)四年級(jí)下冊(cè)教案
- 國(guó)有企業(yè)“三定”工作方案-國(guó)有企業(yè)三定方案
- 清華大學(xué)2024年強(qiáng)基計(jì)劃數(shù)學(xué)試題(解析)
- 大學(xué)生新時(shí)代勞動(dòng)教育教程全套教學(xué)課件
- 高一英語(yǔ)必修一試卷(含答案)(適合測(cè)試)
評(píng)論
0/150
提交評(píng)論