![數(shù)據(jù)挖掘基本概念與算法介紹_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/23/5ef1924d-95a4-4026-8d85-1ecc968fcb2b/5ef1924d-95a4-4026-8d85-1ecc968fcb2b1.gif)
![數(shù)據(jù)挖掘基本概念與算法介紹_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/23/5ef1924d-95a4-4026-8d85-1ecc968fcb2b/5ef1924d-95a4-4026-8d85-1ecc968fcb2b2.gif)
![數(shù)據(jù)挖掘基本概念與算法介紹_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/23/5ef1924d-95a4-4026-8d85-1ecc968fcb2b/5ef1924d-95a4-4026-8d85-1ecc968fcb2b3.gif)
![數(shù)據(jù)挖掘基本概念與算法介紹_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/23/5ef1924d-95a4-4026-8d85-1ecc968fcb2b/5ef1924d-95a4-4026-8d85-1ecc968fcb2b4.gif)
![數(shù)據(jù)挖掘基本概念與算法介紹_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/23/5ef1924d-95a4-4026-8d85-1ecc968fcb2b/5ef1924d-95a4-4026-8d85-1ecc968fcb2b5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘基本概念與算法介紹數(shù)據(jù)挖掘基本概念與算法介紹TERADATA2007年5月2 報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘的基本概念3 改變未來(lái)世界的十大新興技術(shù)nTechnology Review(麻省理工學(xué)院2002年1月出刊) 機(jī)器與人腦的接口 塑膠晶體管 數(shù)據(jù)挖掘(Data Mining) 數(shù)字權(quán)利管理 生物測(cè)定學(xué)(Biometrics) 語(yǔ)言識(shí)別處理 微光學(xué)技術(shù)(Microphotonics) 解開(kāi)程序代碼(Untangling Code) 機(jī)器人設(shè)計(jì) 微應(yīng)用流體學(xué)(Microfluidics)4
2、什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdomn存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu) To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / da
3、ta warehouse 、Data + contextInformation + rulesKnowledge + experience5 為什么會(huì)出現(xiàn)數(shù)據(jù)挖掘?n數(shù)據(jù)爆炸性增長(zhǎng)是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生的根本原因。 只見(jiàn)樹(shù)木,不見(jiàn)森林(Drowning in data but starving for information) 計(jì)算復(fù)雜度 數(shù)據(jù)管理問(wèn)題 數(shù)據(jù)類(lèi)型的多樣性處理大容量數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)區(qū)別于其他數(shù)據(jù)分析方法的唯一標(biāo)志嗎?6 其他數(shù)據(jù)分析方法:統(tǒng)計(jì)學(xué)n從處理數(shù)據(jù)的角度看、 數(shù)據(jù)規(guī)模不同 數(shù)據(jù)來(lái)源不同:觀測(cè)數(shù)據(jù)(Secondary Analysis) VS 試驗(yàn)數(shù)據(jù)(Primary A
4、nalysis) 數(shù)據(jù)類(lèi)型不同(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))n從分析思想的角度看 更關(guān)注實(shí)證性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis) 更關(guān)注模型(Model)而非算法(Algorithm)n但二者具有相當(dāng)密切的聯(lián)系 從數(shù)據(jù)分析的角度,統(tǒng)計(jì)學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源泉 更加深入的滲透和交叉(如探索性數(shù)據(jù)分析,EDA)數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動(dòng)的探索性分析 !7 其他數(shù)據(jù)分析方法:商業(yè)智能nE.F.Codd的數(shù)據(jù)分析模型 絕對(duì)模型(Categorical Model):依據(jù)預(yù)定義路徑尋找原因,如查詢(xún) 解釋模型
5、(Exegetical Model):依據(jù)多層次路徑尋找原因,如多維分析 思考模型(Contemplative Model):參數(shù)化路徑,如場(chǎng)景分析 公式模型(Formulaic Model):模型化路徑,如數(shù)據(jù)挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI應(yīng)用復(fù)雜性應(yīng)用復(fù)雜性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery現(xiàn)象 模型 誤差數(shù)據(jù)挖掘?qū)ふ业氖悄P?!8 數(shù)
6、據(jù)挖掘是一個(gè)過(guò)程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)9 數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)預(yù)處理n數(shù)據(jù)清洗 填充缺失值, 修均噪聲數(shù)據(jù), 識(shí)別或刪除孤立點(diǎn), 并解決數(shù)據(jù)不一致問(wèn)題 主要分析方法:分箱(Binning)、聚類(lèi)、回歸n數(shù)據(jù)集成 多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件的集成n數(shù)據(jù)變換 規(guī)范化與匯總n數(shù)據(jù)簡(jiǎn)化 減少數(shù)據(jù)量的同時(shí), 還可以得到相同或相近的分析結(jié)果 主要分析方法:抽樣、主成分分析n數(shù)據(jù)離散化 數(shù)據(jù)簡(jiǎn)化的一部分, 但非常重要 (尤其對(duì)于數(shù)值型數(shù)據(jù)
7、來(lái)說(shuō))10 數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)探索n探索性數(shù)據(jù)分析(Exploratory Data Analysis, EDA) 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系 對(duì)數(shù)據(jù)集沒(méi)有各種嚴(yán)格假定 “玩”數(shù)據(jù)n主要任務(wù) 數(shù)據(jù)可視化(a picture is worth a thousand words) 殘差分析(數(shù)據(jù)擬合 + 殘差) 數(shù)據(jù)的重新表達(dá)(什么樣的尺度對(duì)數(shù)抑或平方跟會(huì)簡(jiǎn)化分析?) 方法的耐抗性(對(duì)數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)n常見(jiàn)方法 統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等 統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等 模型,如聚類(lèi)11 什么不是數(shù)據(jù)挖掘?n
8、定量分析(Quantitative Analysis)的需要存在企業(yè)管理運(yùn)行的各個(gè)側(cè)面或環(huán)節(jié),但并非所有的定量分析問(wèn)題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問(wèn)題。 簡(jiǎn)單的報(bào)表、圖表及多維分析仍是日常分析工作的主要內(nèi)容 小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計(jì)分析方法更成熟有效,如趨勢(shì)預(yù)測(cè) 某些特定業(yè)務(wù)問(wèn)題無(wú)法用數(shù)據(jù)挖掘算法加以解決,例如 資源最優(yōu)配置問(wèn)題是個(gè)運(yùn)籌學(xué)問(wèn)題 某些物流管理問(wèn)題或者供應(yīng)鏈管理問(wèn)題是個(gè)隨機(jī)規(guī)劃問(wèn)題 營(yíng)銷(xiāo)預(yù)演本質(zhì)是個(gè)系統(tǒng)仿真問(wèn)題12 報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析13 統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的聯(lián)系n從處理數(shù)
9、據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計(jì)學(xué)的思想、方法和工具 聚類(lèi)分析(無(wú)監(jiān)督學(xué)習(xí)過(guò)程,統(tǒng)計(jì)分析中的主要技術(shù)) K-Means Self Organizing Map (SOM) 數(shù)據(jù)分類(lèi)(有監(jiān)督學(xué)習(xí)過(guò)程) 統(tǒng)計(jì)分類(lèi)技術(shù):距離判別,費(fèi)雪判別,貝葉斯判別 數(shù)據(jù)挖掘中的分類(lèi)技術(shù) :決策樹(shù),神經(jīng)網(wǎng)絡(luò) 其他方法 相關(guān)分析 主成分分析 回歸分析 序列分析14 統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的區(qū)別n 數(shù)據(jù) 樣本數(shù)量不同(在統(tǒng)計(jì)學(xué)中樣本數(shù)量大于30,則成為大樣本) 數(shù)據(jù)來(lái)源和質(zhì)量不同 數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù)n 方法 數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計(jì)中的實(shí)驗(yàn)設(shè)計(jì)、抽樣設(shè)計(jì)并不適用 有些數(shù)據(jù)挖掘的分析
10、方法是統(tǒng)計(jì)學(xué)中沒(méi)有的,如強(qiáng)調(diào)實(shí)時(shí)分析 統(tǒng)計(jì)分析方法在對(duì)大規(guī)模數(shù)據(jù)處理時(shí)占用系統(tǒng)的資源和時(shí)間太多,不適宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法n 模型(模式) 模型(統(tǒng)計(jì)學(xué)) VS 模式(數(shù)據(jù)挖掘) 統(tǒng)計(jì)建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式n 算法 統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位 數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探索性分析,與之對(duì)應(yīng)的是算法而不是模型n 方法論 統(tǒng)計(jì)學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系 數(shù)據(jù)挖掘:采用實(shí)驗(yàn)方法,不具有很強(qiáng)的嚴(yán)謹(jǐn)性15 數(shù)據(jù)挖掘相對(duì)于統(tǒng)計(jì)學(xué)的特點(diǎn)n使用數(shù)據(jù)挖掘工具無(wú)須具備太專(zhuān)業(yè)的統(tǒng)計(jì)知識(shí),處理大量的實(shí)際數(shù)據(jù)更有優(yōu)勢(shì),使
11、得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面n數(shù)據(jù)挖掘從大型數(shù)據(jù)庫(kù)提取所需數(shù)據(jù),利用專(zhuān)屬計(jì)算機(jī)軟件進(jìn)行分析,更能滿(mǎn)足企業(yè)的需求 n從理論的角度來(lái)看,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計(jì)學(xué)家提供檢驗(yàn)工具 16 報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘的基本算法17 幾個(gè)基本概念n模型(Model) vs 模式(Pattern) 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去 模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用
12、于數(shù)據(jù)空間中的所有點(diǎn),例如聚類(lèi)分析 模式:對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析n算法(Algorithm):一個(gè)定義完備(well-defined)的過(guò)程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出n描述型挖掘(Descriptive) vs 預(yù)測(cè)型挖掘(Predictive) 描述型挖掘:對(duì)數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征 預(yù)測(cè)型挖掘:根據(jù)觀察到的對(duì)象特征值來(lái)預(yù)測(cè)它的其他特征值 描述型挖掘可以是目的,也可以是手段18 幾類(lèi)基本的挖掘算法n關(guān)聯(lián)規(guī)則(模式、描述型) 發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式 例如:buy(x,”diapers”) buy(
13、x,”beers”) 0.5%, 60%n分類(lèi)與預(yù)測(cè)(模型、預(yù)測(cè)型) 發(fā)現(xiàn)能夠區(qū)分或預(yù)測(cè)目標(biāo)變量(唯一的)的規(guī)則或者函數(shù) 分類(lèi)的目標(biāo)變量一般是范疇型的,而預(yù)測(cè)則是數(shù)量型的,并不必然帶有任何時(shí)間延續(xù)型的暗示 例如:股票市值的預(yù)測(cè),病人病情的判斷n聚類(lèi)(模型、描述型) 對(duì)數(shù)據(jù)分組以形成新類(lèi),類(lèi)標(biāo)記是未知的 例如:市場(chǎng)細(xì)分n孤立點(diǎn)探測(cè)(Outlier Detection)(模式、預(yù)測(cè)型) 分析異常或噪聲數(shù)據(jù)的行為模式 例如:欺詐檢測(cè)19 廣東移動(dòng)數(shù)據(jù)挖掘項(xiàng)目中的數(shù)據(jù)挖掘算法 客戶(hù)流失 (分類(lèi)模型、Logistic回歸算法) 彩鈴WAP購(gòu)買(mǎi)傾向預(yù)測(cè) (分類(lèi)模型、Logistic回歸算法) 彩信增量銷(xiāo)售
14、預(yù)測(cè) (分類(lèi)模型、Logistic回歸算法) 彩鈴用戶(hù)流失預(yù)測(cè) (分類(lèi)模型、Logistic回歸算法) 客戶(hù)價(jià)值增長(zhǎng)預(yù)測(cè) (分類(lèi)模型、Logistic回歸算法) 競(jìng)爭(zhēng)對(duì)手流失預(yù)測(cè) (分類(lèi)模型、Logistic回歸算法) 集團(tuán)客戶(hù)分群 (聚類(lèi)模型、K-Means算法) 集團(tuán)客戶(hù)級(jí)別打分 (分類(lèi)模型、Logistic回歸算法) 產(chǎn)品關(guān)聯(lián)分析 (關(guān)聯(lián)規(guī)則) 個(gè)人客戶(hù)分群分析 (聚類(lèi)模型、K-Means算法) 集團(tuán)客戶(hù)流失預(yù)警模型 (AHP方法 + Logistic回歸算法)20 分類(lèi)問(wèn)題的基本定義n給定一數(shù)據(jù)集合(訓(xùn)練集) 數(shù)據(jù)記錄由一系列變量組成 其中有一個(gè)變量是目標(biāo)分類(lèi)標(biāo)簽n尋找一模型,使目標(biāo)分
15、類(lèi)變量值是其他變量值的一個(gè)函數(shù)n利用上述函數(shù),一未知分類(lèi)變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類(lèi)別中去 一般會(huì)有另一獨(dú)立地?cái)?shù)據(jù)集(測(cè)試集)用以驗(yàn)證所構(gòu)建分類(lèi)函數(shù)的準(zhǔn)確性,避免過(guò)度擬合21 分類(lèi)過(guò)程示意訓(xùn)練集訓(xùn)練集分類(lèi)學(xué)習(xí)分類(lèi)學(xué)習(xí)訓(xùn)練集訓(xùn)練集分類(lèi)器分類(lèi)器IF rank = professorOR years 6THEN tenured = yesJef is YES!22 先回顧簡(jiǎn)單的二元線(xiàn)性回歸問(wèn)題n y = b0 + b1x + u y稱(chēng)為被解釋變量或者因變量,是一個(gè)連續(xù)變量 X稱(chēng)為解釋變量或者自變量,是一個(gè)連續(xù)變量 b0 、b1稱(chēng)為回歸系數(shù) u是隨機(jī)誤差,一般假設(shè)服從標(biāo)準(zhǔn)正態(tài)分布yx
16、y = b0 + b1x + u.23 Logistic回歸進(jìn)行分類(lèi)和預(yù)測(cè)n LOGISTIC回歸是一種特殊的回歸模型,與古典的線(xiàn)性回歸模型不同,其響應(yīng)變量(Response Variable)是一分類(lèi)變量(Categorical Variable)而非連續(xù)變量(Continuous Variable)。響應(yīng)變量是一個(gè)二值化的變量,通常以10表示某一事件發(fā)生或者不發(fā)生。n 應(yīng)用Logistic回歸得到的概率p通常表示在將來(lái)某段時(shí)間后某一事件發(fā)生的概率。 Odds: 目標(biāo)事件發(fā)生的數(shù)量 / 非目標(biāo)事件發(fā)生的數(shù)量. Odds ratio= prob(目標(biāo)事件)/prob(非目標(biāo)事件)=p/(1-p
17、) p = prob(目標(biāo)事件) prob表示事件發(fā)生的概率 Logit: log of odds ratio = log(p/(1-p) Logistic回歸: 擬合下面的模型 logit=a0+a1*X1+ak*Xk p=prob(目標(biāo)事件)=exp(logit)/(1+exp(logit) p的取值范圍: 0,1nnnnxbxbbxbxbbeep.1101101p24 流失類(lèi)模型案例n 建模目的:預(yù)測(cè)某一段時(shí)間之后客戶(hù)流失的概率。n 確定時(shí)間窗口:n 確定目標(biāo)變量:定義在Data Window中正常而在Forecast Window中流失的客戶(hù)為0,而沒(méi)有流失的客戶(hù)為1。n 選擇自變量:
18、在電信的客戶(hù)流失模型中,我們一般使用下面幾種類(lèi)型的變量。 客戶(hù)流失指標(biāo) 客戶(hù)信息數(shù)據(jù)(人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、合同數(shù)據(jù)) 呼叫數(shù)據(jù) 計(jì)費(fèi)和支持?jǐn)?shù)據(jù) 一些轉(zhuǎn)換之后得到的變量 其它數(shù)據(jù)Data WindowForecast WindowTime LagMM-1M-2M-3MM-5M+1M+225 流失類(lèi)模型案例n 模型的評(píng)價(jià) Lift值 R方 ROC曲線(xiàn) K-S值n 模型的應(yīng)用 P值大的客戶(hù)具有更高的流失傾向 模型的評(píng)分分布 劃定Cut Off Line。對(duì)Cut Off Line的劃定可以采用更多的市場(chǎng)數(shù)據(jù)進(jìn)行參考,如正確挽留一個(gè)客戶(hù)準(zhǔn)備的平均收益和成本,錯(cuò)誤挽留一個(gè)客戶(hù)的平均成本,客戶(hù)流失的平均損失等
19、。有了這些數(shù)據(jù)可以進(jìn)一步使用貝葉斯方法建立數(shù)量化的分類(lèi)模型,以確定對(duì)Cut Off Line的劃定。頻數(shù)評(píng)分0 10000Cut Off Line非流失流失26 分類(lèi)中的決策樹(shù)(Decision Tree)歸納n決策樹(shù) 類(lèi)似于流程圖的樹(shù)型結(jié)構(gòu) 內(nèi)部節(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試 分支代表測(cè)試的輸出結(jié)果 葉節(jié)點(diǎn)代表分類(lèi)標(biāo)簽或分布n決策樹(shù)的生成包括兩個(gè)階段 樹(shù)的創(chuàng)建首先, 所有訓(xùn)練樣本都位于根節(jié)點(diǎn)遞歸地基于選擇屬性來(lái)劃分樣本集 樹(shù)的修剪識(shí)別并刪除那些反映噪聲或孤立點(diǎn)的分支n應(yīng)用決策樹(shù): 對(duì)未知樣本進(jìn)行分類(lèi) 在決策樹(shù)上測(cè)試樣本的各個(gè)屬性值27 決策樹(shù)示意age?overcaststudent?cred
20、it rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否購(gòu)買(mǎi)計(jì)算機(jī)? 28 決策樹(shù)在電信客戶(hù)流失問(wèn)題中的應(yīng)用實(shí)例 結(jié)論:結(jié)論:ARPU 聚類(lèi)的基本概念n基本定義 將數(shù)據(jù)對(duì)象集劃分成事先未知的分組或類(lèi)別 聚類(lèi)的原則:類(lèi)內(nèi)相似度高,類(lèi)間相似度低 相似度一般為某種距離函數(shù)D(i,j) 聚類(lèi)既可以作為獨(dú)立分析工具考察數(shù)據(jù)分布結(jié)構(gòu),也可以作為其他分析方法的預(yù)處理步驟 很不幸,對(duì)聚類(lèi)結(jié)果的評(píng)價(jià)一般都是主觀的n基本分類(lèi) 將數(shù)據(jù)對(duì)象集劃分成事先未知的分組或類(lèi)別30 聚類(lèi)示意n 基于歐氏距離的三維空間中的聚類(lèi)n 基于質(zhì)心的聚類(lèi)算法(K-Means)|(|),(
21、222jzizjyiyjxixjidA1A2B1xyz31 個(gè)人客戶(hù)分群示例n 個(gè)人客戶(hù)分群 更好地了解客戶(hù)的手段 提高客戶(hù)的管理和溝通能力 提升客戶(hù)價(jià)值Customer ExpenditureCustomer TenureHighLowShortLongn 分群是根據(jù)客戶(hù)的關(guān)鍵屬性將客戶(hù)分成不同的組別,要求做到 組間差異化最大 組內(nèi)相似性最大32 關(guān)聯(lián)規(guī)則的基本概念n基本定義 給定(1)事務(wù)數(shù)據(jù)集(2)每個(gè)事務(wù)是數(shù)據(jù)項(xiàng)的集合,試圖發(fā)現(xiàn)項(xiàng)集中的頻繁模式或關(guān)聯(lián)關(guān)系 所謂頻繁模式或者關(guān)聯(lián)規(guī)則就是一個(gè)具有“A B”形式的邏輯蘊(yùn)涵式 頻繁模式并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系! 算法實(shí)現(xiàn)基本上基于APR
22、IORI法則:頻繁項(xiàng)集的所有非空子集一定也是頻繁(Frequent)的n基本分類(lèi) 布爾關(guān)聯(lián)規(guī)則 vs 定量關(guān)聯(lián)規(guī)則 buy(x,”diapers”) buy(x,”beers”) Age(x,”30.39”) income(x,”42k.48k”) buy(x,”P(pán)C”) 單維關(guān)聯(lián)規(guī)則 vs 多維關(guān)聯(lián)規(guī)則 單層關(guān)聯(lián)規(guī)則 vs 多層關(guān)聯(lián)規(guī)則 Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”) 序列模式(Sequence Pattern) 數(shù)據(jù)項(xiàng)是一個(gè)包含時(shí)間標(biāo)簽的序偶item(i),t33 關(guān)聯(lián)規(guī)則的量度n支持度:Support(A=B)=#AB
23、/#N,表示A和B同時(shí)出現(xiàn)的概率。n期望可信度:Support(A)=#A/#N,表示A出現(xiàn)的概率。n置信度:Confidence(A=B)=Support(A=B)/Support(B)n改善度:Lift(A=B)=Confidence(A=B)/Support(B)名稱(chēng)描述公式支持度X、Y同時(shí)出現(xiàn)的頻率 P(XY) 期望可信度 Y出現(xiàn)的頻率 P(Y) 置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X) 改善度 置信度對(duì)期望可信度的比值 P(Y|X)/P(Y) 34 關(guān)聯(lián)規(guī)則的度量n發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則 X Y Z 支持度(support), s, 事務(wù)中包含X & Y & Z的
24、概率 置信度(confidence), c, 事務(wù)中包含X & Y的條件下, 包含Z的條件概率n令最小支持度為50%, 最小置信度為50%, 則有A C (50%, 66.6%)C A (50%, 100%)顧客購(gòu)買(mǎi)尿布顧客購(gòu)買(mǎi)尿布顧客購(gòu)買(mǎi)兩者顧客購(gòu)買(mǎi)兩者顧客購(gòu)買(mǎi)啤酒顧客購(gòu)買(mǎi)啤酒35 對(duì)支持度與置信度的批判n示例 總共5000名學(xué)生, 其中 3000人玩籃球 3750人吃谷類(lèi)食品 2000人既玩籃球又吃谷類(lèi)食品play basketball eat cereal 40%, 66.7% 是一個(gè)誤導(dǎo)規(guī)則, 因?yàn)槌怨阮?lèi)食品的學(xué)生占學(xué)生總數(shù)的75%, 比66.7%更高play basketball n
25、ot eat cereal 20%, 33.3% 其實(shí)是一個(gè)更精確的規(guī)則, 盡管它的支持度和置信度都比較低36 關(guān)聯(lián)規(guī)則的應(yīng)用n市場(chǎng)購(gòu)物籃分析(Market Basket Analysis) 例如一個(gè)事務(wù)是客戶(hù)的一個(gè)購(gòu)物清單,同一客戶(hù)的兩份清單被認(rèn)為是兩個(gè)不同的事務(wù) 數(shù)據(jù)項(xiàng)是所有可能陳列貨物的全集 目標(biāo)是發(fā)現(xiàn)同時(shí)出現(xiàn)的貨品組合間的關(guān)聯(lián)模式 應(yīng)用:商品貨價(jià)設(shè)計(jì)、倉(cāng)儲(chǔ)規(guī)劃、網(wǎng)頁(yè)布局、產(chǎn)品目錄設(shè)計(jì)等等n交叉銷(xiāo)售(Cross Selling) 客戶(hù)依次購(gòu)買(mǎi)不同產(chǎn)品的序列 目標(biāo)是發(fā)現(xiàn)在購(gòu)買(mǎi)某一產(chǎn)品組合之后客戶(hù)可能購(gòu)買(mǎi)的另一產(chǎn)品或服務(wù) 應(yīng)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門(mén)戶(hù)設(shè)計(jì)等37 關(guān)聯(lián)規(guī)則的應(yīng)用實(shí)例 我們定義L
26、IFT值大于1的規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。 發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則是有價(jià)值,有意義的。 關(guān)聯(lián)規(guī)則是基于統(tǒng)計(jì)方法發(fā)現(xiàn)的數(shù)據(jù)當(dāng)中的內(nèi)在規(guī)律,而這種規(guī)律在現(xiàn)實(shí)中是否有意義還需要市場(chǎng)業(yè)務(wù)人員作進(jìn)一步的驗(yàn)證。業(yè)務(wù)一業(yè)務(wù)一業(yè)務(wù)二業(yè)務(wù)二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩鈴業(yè)務(wù)手機(jī)郵箱0.07340.040320.03220.4386910.88021266.19541夢(mèng)網(wǎng)短信手機(jī)郵箱0.670380.040320.040320.060141.4915740.52694國(guó)內(nèi)自動(dòng)漫游手機(jī)郵箱0.382530.040320.020370.053251.3206819.84
27、956本地普通通話(huà)(比例)手機(jī)郵箱0.690050.040320.030590.044331.099458.3204238 從算法到應(yīng)用39 廣東移動(dòng)數(shù)據(jù)挖掘項(xiàng)目的技術(shù)特點(diǎn)n幾種主要的數(shù)據(jù)挖掘技術(shù)都已經(jīng)得到廣泛的應(yīng)用 聚類(lèi)分析 關(guān)鍵規(guī)則 分類(lèi)預(yù)測(cè)模型(決策樹(shù),Logistic回歸)n應(yīng)用了數(shù)據(jù)挖掘技術(shù)之外的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模技術(shù) KPI預(yù)測(cè)(混沌時(shí)間序列分解預(yù)測(cè)方法,BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法) 集團(tuán)客戶(hù)流失預(yù)警(層次分析法) 更多的數(shù)據(jù)分析方法n新的挖掘課題更側(cè)重于高級(jí)數(shù)量分析 客戶(hù)生命周期(管理營(yíng)銷(xiāo)學(xué)的實(shí)踐,多模型支撐的分析過(guò)程) 響應(yīng)模型(市場(chǎng)分析模型與數(shù)據(jù)挖掘模型的應(yīng)用結(jié)合) 運(yùn)籌學(xué)模型(應(yīng)用于經(jīng)營(yíng)規(guī)劃的優(yōu)化)40 報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?1 數(shù)據(jù)挖掘過(guò)程模型(DM Process Model)n用以管理并指導(dǎo)Data Miner有效、準(zhǔn)確開(kāi)展數(shù)據(jù)挖掘工作以期獲得最佳挖掘成果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。 由廠商提出的 SPSS的5A(Assess, Access, Analysis, Act, Automat) SAS的SEMMA(Sample, Explore, Modify, Model,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑行業(yè)農(nóng)民工勞動(dòng)合同規(guī)范范本
- 2025年婚慶婚禮現(xiàn)場(chǎng)婚禮用品租賃與配送合同模板
- 遼寧2025年遼寧科技學(xué)院招聘高層次和急需緊缺人才83人筆試歷年參考題庫(kù)附帶答案詳解
- 貴州2025年中共貴州省委政策研究室(省委改革辦)所屬事業(yè)單位招聘2人筆試歷年參考題庫(kù)附帶答案詳解
- 湖北2025年湖北省水利水電科學(xué)研究院院屬企業(yè)招聘11人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年中國(guó)墻體錨固釘市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)光彈應(yīng)力凍結(jié)箱市場(chǎng)調(diào)查研究報(bào)告
- 2025至2031年中國(guó)非標(biāo)自動(dòng)化機(jī)械行業(yè)投資前景及策略咨詢(xún)研究報(bào)告
- 2025至2031年中國(guó)遠(yuǎn)距離求生電珠行業(yè)投資前景及策略咨詢(xún)研究報(bào)告
- 2025年等離子電視機(jī)項(xiàng)目可行性研究報(bào)告
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 單縣煙草專(zhuān)賣(mài)局QC課題多維度降低行政處罰文書(shū)出錯(cuò)率
- 毫針刺法(全)教學(xué)課件
- 金風(fēng)科技-風(fēng)電產(chǎn)業(yè)集團(tuán)-供應(yīng)商現(xiàn)場(chǎng)作業(yè)基礎(chǔ)安全考試附答案
- 公共關(guān)系學(xué)完整教學(xué)課件
- 人工智能機(jī)器人科學(xué)小報(bào)手抄報(bào)簡(jiǎn)報(bào)
- 三年級(jí)下冊(cè)美術(shù)課件-第1課 燈彩輝映|浙美版 (共19張PPT)
- 硫酸銨廢水MVR蒸發(fā)結(jié)晶
- 原子物理學(xué)第五章-多電子原子:泡利原理
- 35kV輸電線(xiàn)路工程旋挖鉆孔專(zhuān)項(xiàng)施工方案
- 固定資產(chǎn)借用登記表
評(píng)論
0/150
提交評(píng)論