版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘基本概念與應(yīng)用騰訊研究院騰訊研究院 數(shù)據(jù)分析研究室數(shù)據(jù)分析研究室報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的基本概念改變未來世界的十大新興技術(shù)n Technology Review(麻省理工學(xué)院(麻省理工學(xué)院2019年年1月出刊)月出刊)n 機(jī)器與人腦的接口機(jī)器與人腦的接口n 塑膠晶體管塑膠晶體管n 數(shù)據(jù)挖掘數(shù)據(jù)挖掘Data Mining)n 數(shù)字權(quán)利管理數(shù)字權(quán)利管理n 生物測(cè)定學(xué)生物測(cè)定學(xué)Biometrics)n 語言識(shí)別處理語言識(shí)別處理n 微光學(xué)技術(shù)微光學(xué)技術(shù)Microphotonic
2、s)n 解開程序代碼解開程序代碼Untangling Code)n 機(jī)器人設(shè)計(jì)機(jī)器人設(shè)計(jì)n 微應(yīng)用流體學(xué)微應(yīng)用流體學(xué)Microfluidics)什么是數(shù)據(jù)挖掘?DataInformationKnowledgeWisdomn 存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu)存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu)n To find / discover / extract / dredge / harvest 、n Interesting / novel / useful / implicit / actable / meaningful 、n Information / knowl
3、edge / patterns / trends / rules / anomalies 、n In massive data / large data set / large database / data warehouse 、Data + contextInformation + rulesKnowledge + experience為什么會(huì)出現(xiàn)數(shù)據(jù)挖掘?n 數(shù)據(jù)爆炸性增長(zhǎng)是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生的根本原因。數(shù)據(jù)爆炸性增長(zhǎng)是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生的根本原因。n 只見樹木,不見森林只見樹木,不見森林Drowning in data but starving for information)n
4、計(jì)算復(fù)雜度計(jì)算復(fù)雜度n 數(shù)據(jù)管理問題數(shù)據(jù)管理問題n 數(shù)據(jù)類型的多樣性數(shù)據(jù)類型的多樣性處理大容量數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)區(qū)別于其他數(shù)據(jù)分析方法的唯一標(biāo)志嗎?其他數(shù)據(jù)分析方法:統(tǒng)計(jì)學(xué)n 從處理數(shù)據(jù)的角度看、從處理數(shù)據(jù)的角度看、n 數(shù)據(jù)規(guī)模不同數(shù)據(jù)規(guī)模不同n 數(shù)據(jù)來源不同:觀測(cè)數(shù)據(jù)數(shù)據(jù)來源不同:觀測(cè)數(shù)據(jù)Secondary Analysis) VS 試驗(yàn)數(shù)據(jù)試驗(yàn)數(shù)據(jù)Primary Analysis)n 數(shù)據(jù)類型不同結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))數(shù)據(jù)類型不同結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù))n 從分析思想的角度看從分析思想的角度看n 更關(guān)注實(shí)證性分析更關(guān)注實(shí)證性分析Empirical Anal
5、ysis而非探索性分析而非探索性分析Exploratory Analysis)n 更關(guān)注模型更關(guān)注模型Model而非算法而非算法Algorithm)n 但二者具有相當(dāng)密切的聯(lián)系但二者具有相當(dāng)密切的聯(lián)系n 從數(shù)據(jù)分析的角度,統(tǒng)計(jì)學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源從數(shù)據(jù)分析的角度,統(tǒng)計(jì)學(xué)現(xiàn)在是且仍將是數(shù)據(jù)挖掘最重要的技術(shù)支撐和思想源泉泉n 更加深入的滲透和交叉如探索性數(shù)據(jù)分析,更加深入的滲透和交叉如探索性數(shù)據(jù)分析,EDA)數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動(dòng)的探索性分析 !數(shù)據(jù)挖掘:多學(xué)科的匯合數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)技術(shù)統(tǒng)計(jì)學(xué)其它學(xué)科信息科學(xué)機(jī)器學(xué)習(xí)可視化人工智能科學(xué)計(jì)算數(shù)據(jù)挖掘是一個(gè)過程- “from da
6、ta mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (2019)數(shù)據(jù)挖掘過程中的數(shù)據(jù)預(yù)處理n 數(shù)據(jù)清洗數(shù)據(jù)清洗n 填充缺失值填充缺失值, , 修均噪聲數(shù)據(jù)修均噪聲數(shù)據(jù), , 識(shí)別或刪除孤立點(diǎn)識(shí)別或刪除孤立點(diǎn), , 并解決數(shù)據(jù)不一致問題并解決數(shù)據(jù)不一致問題n 主要分析方法:分箱主要分析方法:分箱BinningBinning)、聚類、回歸)、聚類、回歸n 數(shù)據(jù)集成數(shù)據(jù)集成n 多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件的集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件的集成n 數(shù)據(jù)變換數(shù)據(jù)變換n 規(guī)范化與匯總規(guī)范化與匯總n 數(shù)
7、據(jù)簡(jiǎn)化數(shù)據(jù)簡(jiǎn)化n 減少數(shù)據(jù)量的同時(shí)減少數(shù)據(jù)量的同時(shí), , 還可以得到相同或相近的分析結(jié)果還可以得到相同或相近的分析結(jié)果n 主要分析方法:抽樣、主成分分析主要分析方法:抽樣、主成分分析n 數(shù)據(jù)離散化數(shù)據(jù)離散化n 數(shù)據(jù)簡(jiǎn)化的一部分?jǐn)?shù)據(jù)簡(jiǎn)化的一部分, , 但非常重要但非常重要 ( (尤其對(duì)于數(shù)值型數(shù)據(jù)來說尤其對(duì)于數(shù)值型數(shù)據(jù)來說) )數(shù)據(jù)挖掘過程中的數(shù)據(jù)探索n 探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析Exploratory Data Analysis, EDAExploratory Data Analysis, EDA)n 探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系探索性地查看數(shù)據(jù),概括數(shù)據(jù)集的結(jié)構(gòu)和關(guān)系n 對(duì)數(shù)據(jù)
8、集沒有各種嚴(yán)格假定對(duì)數(shù)據(jù)集沒有各種嚴(yán)格假定n “玩數(shù)據(jù)玩數(shù)據(jù)n 主要任務(wù)主要任務(wù)n 數(shù)據(jù)可視化數(shù)據(jù)可視化a picture is worth a thousand wordsa picture is worth a thousand words)n 殘差分析數(shù)據(jù)擬合殘差分析數(shù)據(jù)擬合 + + 殘差)殘差)n 數(shù)據(jù)的重新表達(dá)什么樣的尺度對(duì)數(shù)抑或平方根會(huì)簡(jiǎn)化分析?)數(shù)據(jù)的重新表達(dá)什么樣的尺度對(duì)數(shù)抑或平方根會(huì)簡(jiǎn)化分析?)n 方法的耐抗性對(duì)數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)方法的耐抗性對(duì)數(shù)據(jù)局部不良的不敏感性,如中位數(shù)耐抗甚于均值)n 常見方法常見方法n 統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差
9、、峰度、偏度、相關(guān)系數(shù)等統(tǒng)計(jì)量,如均值、方差、根方差、協(xié)方差、峰度、偏度、相關(guān)系數(shù)等n 統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等統(tǒng)計(jì)圖,如餅圖、直方圖、散點(diǎn)圖、箱尾圖等n 模型,如聚類模型,如聚類什么不是數(shù)據(jù)挖掘?n 定量分析定量分析Quantitative Analysis的需要存在企業(yè)管理運(yùn)行的各個(gè)側(cè)的需要存在企業(yè)管理運(yùn)行的各個(gè)側(cè)面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的面或環(huán)節(jié),但并非所有的定量分析問題都可以歸結(jié)到數(shù)據(jù)挖掘范疇的問題。問題。n 簡(jiǎn)單的報(bào)表、圖表及多維分析仍是日常分析工作的主要內(nèi)容簡(jiǎn)單的報(bào)表、圖表及多維分析仍是日常分析工作的主要內(nèi)容n 小樣本數(shù)據(jù)的分析傳統(tǒng)
10、統(tǒng)計(jì)分析方法更成熟有效,如趨勢(shì)預(yù)測(cè)小樣本數(shù)據(jù)的分析傳統(tǒng)統(tǒng)計(jì)分析方法更成熟有效,如趨勢(shì)預(yù)測(cè)n 某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如某些特定業(yè)務(wù)問題無法用數(shù)據(jù)挖掘算法加以解決,例如n 資源最優(yōu)配置問題是個(gè)運(yùn)籌學(xué)問題資源最優(yōu)配置問題是個(gè)運(yùn)籌學(xué)問題n 某些物流管理問題或者供應(yīng)鏈管理問題是個(gè)隨機(jī)規(guī)劃問題某些物流管理問題或者供應(yīng)鏈管理問題是個(gè)隨機(jī)規(guī)劃問題n 營(yíng)銷預(yù)演本質(zhì)是個(gè)系統(tǒng)仿真問題營(yíng)銷預(yù)演本質(zhì)是個(gè)系統(tǒng)仿真問題報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析數(shù)據(jù)挖掘與統(tǒng)計(jì)分析統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的聯(lián)系n 從處理數(shù)
11、據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計(jì)學(xué)的思想、方法和工具從處理數(shù)據(jù)數(shù)據(jù)挖掘中采用了大量統(tǒng)計(jì)學(xué)的思想、方法和工具n 聚類分析無監(jiān)督學(xué)習(xí)過程,統(tǒng)計(jì)分析中的主要技術(shù))聚類分析無監(jiān)督學(xué)習(xí)過程,統(tǒng)計(jì)分析中的主要技術(shù))n K-Meansn Self Organizing Map (SOM)n 數(shù)據(jù)分類有監(jiān)督學(xué)習(xí)過程)數(shù)據(jù)分類有監(jiān)督學(xué)習(xí)過程)n 統(tǒng)計(jì)分類技術(shù):距離判別,費(fèi)雪判別,貝葉斯判別統(tǒng)計(jì)分類技術(shù):距離判別,費(fèi)雪判別,貝葉斯判別n 數(shù)據(jù)挖掘中的分類技術(shù)數(shù)據(jù)挖掘中的分類技術(shù) :決策樹,神經(jīng)網(wǎng)絡(luò):決策樹,神經(jīng)網(wǎng)絡(luò) n 其他方法其他方法n 相關(guān)分析相關(guān)分析n 主成分分析主成分分析n 回歸分析回歸分析n 序列分析序列分析
12、統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的區(qū)別n 數(shù)據(jù)數(shù)據(jù)n 樣本數(shù)量不同在統(tǒng)計(jì)學(xué)中樣本數(shù)量大于樣本數(shù)量不同在統(tǒng)計(jì)學(xué)中樣本數(shù)量大于30,則成為大樣本),則成為大樣本)n 數(shù)據(jù)來源和質(zhì)量不同數(shù)據(jù)來源和質(zhì)量不同n 數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù)數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù)n 方法方法n 數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計(jì)中的實(shí)驗(yàn)設(shè)計(jì)、抽樣設(shè)計(jì)并不適用數(shù)據(jù)挖掘的前提是占有大量數(shù)據(jù),統(tǒng)計(jì)中的實(shí)驗(yàn)設(shè)計(jì)、抽樣設(shè)計(jì)并不適用n 有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計(jì)學(xué)中沒有的,如強(qiáng)調(diào)實(shí)時(shí)分析有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計(jì)學(xué)中沒有的,如強(qiáng)調(diào)實(shí)時(shí)分析n 統(tǒng)計(jì)分析方法在對(duì)大規(guī)模數(shù)據(jù)處理時(shí)占用系
13、統(tǒng)的資源和時(shí)間太多,不適宜采用,統(tǒng)計(jì)分析方法在對(duì)大規(guī)模數(shù)據(jù)處理時(shí)占用系統(tǒng)的資源和時(shí)間太多,不適宜采用,因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法因此數(shù)據(jù)挖掘大量采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等人工智能方法n 模型方式)模型方式)n 模型統(tǒng)計(jì)學(xué))模型統(tǒng)計(jì)學(xué)) VS 方式數(shù)據(jù)挖掘)方式數(shù)據(jù)挖掘)n 統(tǒng)計(jì)建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式統(tǒng)計(jì)建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式n 算法算法n 統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位n 數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探索性分析,與之對(duì)應(yīng)的是算法而不數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探
14、索性分析,與之對(duì)應(yīng)的是算法而不是模型是模型n 方法論方法論n 統(tǒng)計(jì)學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系統(tǒng)計(jì)學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系n 數(shù)據(jù)挖掘:采用實(shí)驗(yàn)方法,不具有很強(qiáng)的嚴(yán)謹(jǐn)性數(shù)據(jù)挖掘:采用實(shí)驗(yàn)方法,不具有很強(qiáng)的嚴(yán)謹(jǐn)性數(shù)據(jù)挖掘相對(duì)于統(tǒng)計(jì)學(xué)的特點(diǎn)n 使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計(jì)知識(shí),處理大量的實(shí)際數(shù)據(jù)使用數(shù)據(jù)挖掘工具無須具備太專業(yè)的統(tǒng)計(jì)知識(shí),處理大量的實(shí)際數(shù)據(jù)更有優(yōu)勢(shì),使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面更有優(yōu)勢(shì),使得數(shù)據(jù)挖掘人員可以集中精力在業(yè)務(wù)建模方面n 數(shù)據(jù)挖掘從大型數(shù)據(jù)庫(kù)提取所需數(shù)據(jù),利用專屬計(jì)算機(jī)軟件進(jìn)行分析,數(shù)據(jù)挖掘從大型數(shù)據(jù)庫(kù)提取所需數(shù)據(jù),利用
15、專屬計(jì)算機(jī)軟件進(jìn)行分析,更能滿足企業(yè)的需求更能滿足企業(yè)的需求 n 從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)不同,其目的在于方便企業(yè)的從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計(jì)學(xué)家提供檢驗(yàn)工具末端使用者應(yīng)用,而非為統(tǒng)計(jì)學(xué)家提供檢驗(yàn)工具 報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘的基本算法幾個(gè)基本概念n 模型模型Model) vs 方式方式Pattern)n 數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化Gener
16、alize到總到總體體Population上去上去n 模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類分析的所有點(diǎn),例如聚類分析n 方式:對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的方式:對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析一個(gè)子集,例如關(guān)聯(lián)分析n 算法算法Algorithm):一個(gè)定義完備):一個(gè)定義完備well-defined的過程,它以數(shù)據(jù)作為的過程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出輸入并產(chǎn)生模型或模式形式的輸出n
17、描述型挖掘描述型挖掘Descriptive) vs 預(yù)測(cè)型挖掘預(yù)測(cè)型挖掘Predictive)n 描述型挖掘:對(duì)數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征描述型挖掘:對(duì)數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征n 預(yù)測(cè)型挖掘:根據(jù)觀察到的對(duì)象特征值來預(yù)測(cè)它的其他特征值預(yù)測(cè)型挖掘:根據(jù)觀察到的對(duì)象特征值來預(yù)測(cè)它的其他特征值n 描述型挖掘可以是目的,也可以是手段描述型挖掘可以是目的,也可以是手段幾類基本的挖掘算法n 關(guān)聯(lián)規(guī)則方式、描述型)關(guān)聯(lián)規(guī)則方式、描述型)n 發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式n 例如:例如:buy(x,”diapers”) buy(x,”beers”) 0.5%
18、, 60%n 分類與預(yù)測(cè)模型、預(yù)測(cè)型)分類與預(yù)測(cè)模型、預(yù)測(cè)型)n 發(fā)現(xiàn)能夠區(qū)分或預(yù)測(cè)目標(biāo)變量唯一的的規(guī)則或者函數(shù)發(fā)現(xiàn)能夠區(qū)分或預(yù)測(cè)目標(biāo)變量唯一的的規(guī)則或者函數(shù)n 分類的目標(biāo)變量一般是類別型的,而預(yù)測(cè)則是數(shù)量型的,并不必然帶有任何分類的目標(biāo)變量一般是類別型的,而預(yù)測(cè)則是數(shù)量型的,并不必然帶有任何時(shí)間延續(xù)型的暗示時(shí)間延續(xù)型的暗示n 例如:股票市值的預(yù)測(cè),病人病情的判斷例如:股票市值的預(yù)測(cè),病人病情的判斷n 聚類模型、描述型)聚類模型、描述型)n 對(duì)數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的對(duì)數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的n 例如:市場(chǎng)細(xì)分例如:市場(chǎng)細(xì)分n 孤立點(diǎn)探測(cè)孤立點(diǎn)探測(cè)Outlier Detec
19、tion)(方式、預(yù)測(cè)型)(方式、預(yù)測(cè)型)n 分析異?;蛟肼晹?shù)據(jù)的行為模式分析異?;蛟肼晹?shù)據(jù)的行為模式n 例如:欺詐檢測(cè)例如:欺詐檢測(cè)廣東發(fā)展銀行信用卡中心的數(shù)據(jù)挖掘模型 申請(qǐng)?jiān)u分卡申請(qǐng)?jiān)u分卡 (分類模型、分類模型、Logistic回歸算法回歸算法) 計(jì)算申請(qǐng)信用卡的人在將來產(chǎn)生壞賬的概率計(jì)算申請(qǐng)信用卡的人在將來產(chǎn)生壞賬的概率 自變量是離散型變量自變量是離散型變量 評(píng)分需要進(jìn)行標(biāo)準(zhǔn)化處理評(píng)分需要進(jìn)行標(biāo)準(zhǔn)化處理 行為評(píng)分卡行為評(píng)分卡 (分類模型、分類模型、Logistic回歸算法回歸算法) 包括:拖欠、催收、銷售等包括:拖欠、催收、銷售等 自變量是連續(xù)型變量自變量是連續(xù)型變量廣東移動(dòng)數(shù)據(jù)挖掘項(xiàng)目
20、中的數(shù)據(jù)挖掘算法 客戶流失客戶流失 (分類模型、分類模型、Logistic回歸算法回歸算法) 彩鈴彩鈴WAP購(gòu)買傾向預(yù)測(cè)購(gòu)買傾向預(yù)測(cè) (分類模型、分類模型、Logistic回歸算法回歸算法) 彩信增量銷售預(yù)測(cè)彩信增量銷售預(yù)測(cè) (分類模型、分類模型、Logistic回歸算法回歸算法) 彩鈴用戶流失預(yù)測(cè)彩鈴用戶流失預(yù)測(cè) (分類模型、分類模型、Logistic回歸算法回歸算法) 客戶價(jià)值增長(zhǎng)預(yù)測(cè)客戶價(jià)值增長(zhǎng)預(yù)測(cè) (分類模型、分類模型、Logistic回歸算法回歸算法) 競(jìng)爭(zhēng)對(duì)手流失預(yù)測(cè)競(jìng)爭(zhēng)對(duì)手流失預(yù)測(cè) (分類模型、分類模型、Logistic回歸算法回歸算法) 集團(tuán)客戶分群集團(tuán)客戶分群 (聚類模型、聚
21、類模型、K-Means算法算法) 集團(tuán)客戶級(jí)別打分集團(tuán)客戶級(jí)別打分 (分類模型、分類模型、Logistic回歸算法回歸算法) 產(chǎn)品關(guān)聯(lián)分析產(chǎn)品關(guān)聯(lián)分析 (關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則) 個(gè)人客戶分群分析個(gè)人客戶分群分析 (聚類模型、聚類模型、K-Means算法算法) 集團(tuán)客戶流失預(yù)警模型集團(tuán)客戶流失預(yù)警模型 (AHP方法方法 + Logistic回歸算法回歸算法) 客戶分群客戶分群 (聚類模型、聚類模型、K-Means算法算法) 客戶流失客戶流失 (分類模型、分類模型、Logistic回歸算法回歸算法) 潛在用戶定位潛在用戶定位 (分類模型、分類模型、Logistic回歸算法回歸算法) 商城的交叉銷售商城
22、的交叉銷售 (關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則) 產(chǎn)品收入預(yù)測(cè)產(chǎn)品收入預(yù)測(cè) (時(shí)間序列的預(yù)測(cè)方法)(時(shí)間序列的預(yù)測(cè)方法) 騰訊公司中的數(shù)據(jù)挖掘算法分類問題的基本定義n 給定一數(shù)據(jù)集合訓(xùn)練集)給定一數(shù)據(jù)集合訓(xùn)練集)n 數(shù)據(jù)記錄由一系列變量組成數(shù)據(jù)記錄由一系列變量組成n 其中有一個(gè)變量是目標(biāo)分類標(biāo)簽其中有一個(gè)變量是目標(biāo)分類標(biāo)簽n 尋找一模型,使目標(biāo)分類變量值是其他變量值的一個(gè)函數(shù)尋找一模型,使目標(biāo)分類變量值是其他變量值的一個(gè)函數(shù)n 利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某利用上述函數(shù),一未知分類變量值的數(shù)據(jù)記錄能夠盡可能準(zhǔn)確地被判定到某一類別中去一類別中去n 一般會(huì)有另一獨(dú)立地?cái)?shù)據(jù)集測(cè)試
23、集用以驗(yàn)證所構(gòu)建分類函數(shù)的準(zhǔn)確性,一般會(huì)有另一獨(dú)立地?cái)?shù)據(jù)集測(cè)試集用以驗(yàn)證所構(gòu)建分類函數(shù)的準(zhǔn)確性,避免過度擬合避免過度擬合分類過程示意訓(xùn)練集訓(xùn)練集分類學(xué)習(xí)分類學(xué)習(xí)訓(xùn)練集訓(xùn)練集分類器分類器IF rank = professorOR years 6THEN tenured = yesJef is YES!回顧簡(jiǎn)單的一元線性回歸問題n y = b0 + b1x + un y稱為被解釋變量或者因變量,是一個(gè)連續(xù)變量稱為被解釋變量或者因變量,是一個(gè)連續(xù)變量n x稱為解釋變量或者自變量,是一個(gè)連續(xù)變量稱為解釋變量或者自變量,是一個(gè)連續(xù)變量n b0 、b1稱為回歸系數(shù)稱為回歸系數(shù)n u是隨機(jī)誤差,一般假設(shè)服從
24、標(biāo)準(zhǔn)正態(tài)分布是隨機(jī)誤差,一般假設(shè)服從標(biāo)準(zhǔn)正態(tài)分布yxy = b0 + b1x + u.Logistic回歸進(jìn)行分類和預(yù)測(cè)n LOGISTIC回歸是一種特殊的回歸模型,與古典的線性回歸模型不同,其響應(yīng)變量Response Variable是一分類變量Categorical Variable而非連續(xù)變量Continuous Variable)。響應(yīng)變量是一個(gè)二值化的變量,通常以10表示某一事件發(fā)生或者不發(fā)生。n 應(yīng)用Logistic回歸得到的概率p通常表示在將來某段時(shí)間后某一事件發(fā)生的概率。Odds: 目標(biāo)事件發(fā)生的數(shù)量 / 非目標(biāo)事件發(fā)生的數(shù)量.Odds ratio= prob(目標(biāo)事件)/pr
25、ob(非目標(biāo)事件)=p/(1-p)p = prob(目標(biāo)事件)prob表示事件發(fā)生的概率Logit: log of odds ratio = log(p/(1-p)Logistic回歸: 擬合下面的模型logit=a0+a1*X1+ak*Xkp=prob(目標(biāo)事件)=exp(logit)/(1+exp(logit) p的取值范圍: 0,1nnnnxbxbbxbxbbeep.1101101p流失類模型案例n 建模目的:預(yù)測(cè)某一段時(shí)間之后客戶流失的概率。建模目的:預(yù)測(cè)某一段時(shí)間之后客戶流失的概率。n 確定時(shí)間窗口:確定時(shí)間窗口:n 確定目標(biāo)變量:定義在確定目標(biāo)變量:定義在Data Window中正
26、常而在中正常而在Forecast Window中流中流失的客戶為失的客戶為0,而沒有流失的客戶為,而沒有流失的客戶為1。n 選擇自變量:在電信的客戶流失模型中,我們一般使用下面幾種類型選擇自變量:在電信的客戶流失模型中,我們一般使用下面幾種類型的變量。的變量。n 客戶流失指標(biāo)客戶流失指標(biāo)n 客戶信息數(shù)據(jù)人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、合同數(shù)據(jù))客戶信息數(shù)據(jù)人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、合同數(shù)據(jù))n 呼叫數(shù)據(jù)呼叫數(shù)據(jù)n 計(jì)費(fèi)和支持?jǐn)?shù)據(jù)計(jì)費(fèi)和支持?jǐn)?shù)據(jù)n 一些轉(zhuǎn)換之后得到的變量一些轉(zhuǎn)換之后得到的變量n 其它數(shù)據(jù)其它數(shù)據(jù)Data WindowForecast WindowTime LagMM-1M-2M-3MM-5M+1M+2流失
27、類模型案例n 模型的評(píng)價(jià)模型的評(píng)價(jià)n Lift值值n R方方n ROC曲線曲線n K-S值值n 模型的應(yīng)用模型的應(yīng)用n P值大的客戶具有更高的流失傾向值大的客戶具有更高的流失傾向n 模型的評(píng)分分布模型的評(píng)分分布n 劃定劃定Cut Off Line。對(duì)。對(duì)Cut Off Line的劃定可以采用更多的市場(chǎng)的劃定可以采用更多的市場(chǎng)數(shù)據(jù)進(jìn)行參考,如正確挽留一個(gè)客戶準(zhǔn)備的平均收益和成本,數(shù)據(jù)進(jìn)行參考,如正確挽留一個(gè)客戶準(zhǔn)備的平均收益和成本,錯(cuò)誤挽留一個(gè)客戶的平均成本,客戶流失的平均損失等。有了錯(cuò)誤挽留一個(gè)客戶的平均成本,客戶流失的平均損失等。有了這些數(shù)據(jù)可以進(jìn)一步使用貝葉斯方法建立數(shù)量化的分類模型,這些
28、數(shù)據(jù)可以進(jìn)一步使用貝葉斯方法建立數(shù)量化的分類模型,以確定對(duì)以確定對(duì)Cut Off Line的劃定。的劃定。頻數(shù)評(píng)分0 10000Cut Off Line非流失流失分類中的決策樹Decision Tree歸納n 決策樹決策樹 n 類似于流程圖的樹型結(jié)構(gòu)類似于流程圖的樹型結(jié)構(gòu)n 內(nèi)部節(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試內(nèi)部節(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試n 分支代表測(cè)試的輸出結(jié)果分支代表測(cè)試的輸出結(jié)果n 葉節(jié)點(diǎn)代表分類標(biāo)簽或分布葉節(jié)點(diǎn)代表分類標(biāo)簽或分布n 決策樹的生成包括兩個(gè)階段決策樹的生成包括兩個(gè)階段n 樹的創(chuàng)建樹的創(chuàng)建n 首先首先, 所有訓(xùn)練樣本都位于根節(jié)點(diǎn)所有訓(xùn)練樣本都位于根節(jié)點(diǎn)n 遞歸地基于選擇屬性來
29、劃分樣本集遞歸地基于選擇屬性來劃分樣本集n 樹的修剪樹的修剪n 識(shí)別并刪除那些反映噪聲或孤立點(diǎn)的分支識(shí)別并刪除那些反映噪聲或孤立點(diǎn)的分支n 應(yīng)用決策樹應(yīng)用決策樹: 對(duì)未知樣本進(jìn)行分類對(duì)未知樣本進(jìn)行分類n 在決策樹上測(cè)試樣本的各個(gè)屬性值在決策樹上測(cè)試樣本的各個(gè)屬性值決策樹示意age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40n 例如:是否購(gòu)買計(jì)算機(jī)?例如:是否購(gòu)買計(jì)算機(jī)? 決策樹在電信客戶流失問題中的應(yīng)用實(shí)例 結(jié)論:ARPUB)=#AB/#N,表示A和B同時(shí)出現(xiàn)的概率。n 期望可信度:Support(A
30、)=#A/#N,表示A出現(xiàn)的概率。n 置信度:Confidence(A=B)=Support(A=B)/Support(B)n 改善度:Lift(A=B)=Confidence(A=B)/Support(B)名稱名稱描述描述公式公式支持度支持度X、Y同時(shí)出現(xiàn)的頻率同時(shí)出現(xiàn)的頻率 P(XY) 期望可信度期望可信度 Y出現(xiàn)的頻率出現(xiàn)的頻率 P(Y) 置信度置信度X出現(xiàn)的前提下,出現(xiàn)的前提下,Y出現(xiàn)的頻率出現(xiàn)的頻率P(Y|X) 改善度改善度 置信度對(duì)期望可信度的比值置信度對(duì)期望可信度的比值 P(Y|X)/P(Y) 關(guān)聯(lián)規(guī)則的度量n 發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)
31、則則 X Y Z n 支持度支持度(support), s, 事務(wù)中包含事務(wù)中包含X & Y & Z的概率的概率n 置信度置信度(confidence), c, 事務(wù)中包含事務(wù)中包含X & Y的條件下的條件下, 包含包含Z的條件概率的條件概率n令最小支持度為令最小支持度為50%, 50%, 最小置信度為最小置信度為50%, 50%, 則有則有nA A C (50%, 66.6%) C (50%, 66.6%)nC C A (50%, 100%) A (50%, 100%)顧客購(gòu)買尿布顧客購(gòu)買尿布顧客購(gòu)買兩者顧客購(gòu)買兩者顧客購(gòu)買啤酒顧客購(gòu)買啤酒對(duì)支持度與置信度的批判n 例如例如n 總共總共500
32、05000名學(xué)生名學(xué)生, , 其中其中n 30003000人玩籃球人玩籃球n 37503750人吃谷類食品人吃谷類食品n 20002000人既玩籃球又吃谷類食品人既玩籃球又吃谷類食品n play basketball play basketball eat cereal 40%, 66.7% eat cereal 40%, 66.7% 是一個(gè)誤導(dǎo)規(guī)則是一個(gè)誤導(dǎo)規(guī)則, , 因?yàn)槌怨纫驗(yàn)槌怨阮愂称返膶W(xué)生占學(xué)生總數(shù)的類食品的學(xué)生占學(xué)生總數(shù)的75%, 75%, 比比66.7%66.7%更高更高n play basketball play basketball not eat cereal 20%, 3
33、3.3% not eat cereal 20%, 33.3% 其實(shí)是一個(gè)更精確的規(guī)其實(shí)是一個(gè)更精確的規(guī)則則, , 盡管它的支持度和置信度都比較低盡管它的支持度和置信度都比較低關(guān)聯(lián)規(guī)則的應(yīng)用n 市場(chǎng)購(gòu)物籃分析市場(chǎng)購(gòu)物籃分析Market Basket Analysis)n 例如一個(gè)事務(wù)是客戶的一個(gè)購(gòu)物清單,同一客戶的兩份清單被認(rèn)為是兩個(gè)不例如一個(gè)事務(wù)是客戶的一個(gè)購(gòu)物清單,同一客戶的兩份清單被認(rèn)為是兩個(gè)不同的事務(wù)同的事務(wù)n 數(shù)據(jù)項(xiàng)是所有可能陳列貨物的全集數(shù)據(jù)項(xiàng)是所有可能陳列貨物的全集n 目標(biāo)是發(fā)現(xiàn)同時(shí)出現(xiàn)的貨品組合間的關(guān)聯(lián)模式目標(biāo)是發(fā)現(xiàn)同時(shí)出現(xiàn)的貨品組合間的關(guān)聯(lián)模式n 運(yùn)用:商品貨價(jià)設(shè)計(jì)、倉(cāng)儲(chǔ)規(guī)劃、
34、網(wǎng)頁(yè)布局、產(chǎn)品目錄設(shè)計(jì)等等運(yùn)用:商品貨價(jià)設(shè)計(jì)、倉(cāng)儲(chǔ)規(guī)劃、網(wǎng)頁(yè)布局、產(chǎn)品目錄設(shè)計(jì)等等n 交叉銷售交叉銷售Cross Selling)n 客戶依次購(gòu)買不同產(chǎn)品的序列客戶依次購(gòu)買不同產(chǎn)品的序列n 目標(biāo)是發(fā)現(xiàn)在購(gòu)買某一產(chǎn)品組合之后客戶可能購(gòu)買的另一產(chǎn)品或服務(wù)目標(biāo)是發(fā)現(xiàn)在購(gòu)買某一產(chǎn)品組合之后客戶可能購(gòu)買的另一產(chǎn)品或服務(wù)n 運(yùn)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門戶設(shè)計(jì)等運(yùn)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門戶設(shè)計(jì)等關(guān)聯(lián)規(guī)則的應(yīng)用實(shí)例手機(jī)郵箱精確營(yíng)銷)我們定義LIFT值大于1的規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則是有價(jià)值,有意義的。關(guān)聯(lián)規(guī)則是基于統(tǒng)計(jì)方法發(fā)現(xiàn)的數(shù)據(jù)當(dāng)中的內(nèi)在規(guī)律,而這種規(guī)律在現(xiàn)實(shí)中是否有意義還需要市場(chǎng)業(yè)務(wù)人員作進(jìn)一
35、步的驗(yàn)證。業(yè)務(wù)一業(yè)務(wù)二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩鈴業(yè)務(wù)手機(jī)郵箱0.07340.040320.03220.4386910.88021266.19541夢(mèng)網(wǎng)短信手機(jī)郵箱0.670380.040320.040320.060141.4915740.52694國(guó)內(nèi)自動(dòng)漫游手機(jī)郵箱0.382530.040320.020370.053251.3206819.84956本地普通通話(比例)手機(jī)郵箱0.690050.040320.030590.044331.099458.32042從算法到應(yīng)用廣東移動(dòng)數(shù)據(jù)挖掘項(xiàng)目的技術(shù)特點(diǎn)n 幾種主要的數(shù)據(jù)挖掘技術(shù)都
36、已經(jīng)得到廣泛的應(yīng)用幾種主要的數(shù)據(jù)挖掘技術(shù)都已經(jīng)得到廣泛的應(yīng)用n 聚類分析聚類分析n 關(guān)鍵規(guī)則關(guān)鍵規(guī)則n 分類預(yù)測(cè)模型決策樹,分類預(yù)測(cè)模型決策樹,Logistic回歸)回歸)n 應(yīng)用了數(shù)據(jù)挖掘技術(shù)之外的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模技術(shù)應(yīng)用了數(shù)據(jù)挖掘技術(shù)之外的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模技術(shù)n KPI預(yù)測(cè)混沌時(shí)間序列分解預(yù)測(cè)方法,預(yù)測(cè)混沌時(shí)間序列分解預(yù)測(cè)方法,BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法)n 集團(tuán)客戶流失預(yù)警層次分析法)集團(tuán)客戶流失預(yù)警層次分析法)n 更多的數(shù)據(jù)分析方法更多的數(shù)據(jù)分析方法n 新的挖掘課題更側(cè)重于高級(jí)數(shù)量分析新的挖掘課題更側(cè)重于高級(jí)數(shù)量分析n 客戶生命周期管理營(yíng)銷學(xué)的實(shí)踐,多模型支撐的分析過程
37、)客戶生命周期管理營(yíng)銷學(xué)的實(shí)踐,多模型支撐的分析過程)n 響應(yīng)模型市場(chǎng)分析模型與數(shù)據(jù)挖掘模型的應(yīng)用結(jié)合)響應(yīng)模型市場(chǎng)分析模型與數(shù)據(jù)挖掘模型的應(yīng)用結(jié)合)n 運(yùn)籌學(xué)模型應(yīng)用于經(jīng)營(yíng)規(guī)劃的優(yōu)化)運(yùn)籌學(xué)模型應(yīng)用于經(jīng)營(yíng)規(guī)劃的優(yōu)化)報(bào)告內(nèi)容n 數(shù)據(jù)挖掘的基本概念n 數(shù)據(jù)挖掘與統(tǒng)計(jì)分析n 數(shù)據(jù)挖掘的基本算法n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ搉 總結(jié)與討論n 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘過程模型DM Process Model)n 用以管理并指導(dǎo)用以管理并指導(dǎo)Data Miner有效、準(zhǔn)確開展數(shù)據(jù)挖掘工作以期獲得最佳挖掘有效、準(zhǔn)確開展數(shù)據(jù)挖掘工作以期獲得最佳挖掘成果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。成果的一系列工
38、作步驟的規(guī)范標(biāo)準(zhǔn)。n 由廠商提出的由廠商提出的n SPSS的的5AAssess, Access, Analysis, Act, Automat)n SAS的的SEMMASample, Explore, Modify, Model, Assess)n MICROSOFE的的OLEDB for DMn 由行業(yè)組織提出的由行業(yè)組織提出的n CRISP-DMCross Industry Standard Process for DM)n CRISP-DM起源于起源于2019年,當(dāng)時(shí)年,當(dāng)時(shí)NCR、Clementine2019年為年為SPSS收購(gòu))、收購(gòu))、OHRA和和Daimler-Benz現(xiàn)為現(xiàn)為Daimler-Chrysler的聯(lián)合項(xiàng)目組提出的聯(lián)合項(xiàng)目組提出n CRISP-DM的六個(gè)階段的六個(gè)階段TERADATA的挖掘方法論Scope Business Problem 度量數(shù)稱勝度量數(shù)稱勝Teradata Data Wareho
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球離網(wǎng)房車行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球高脈沖能量皮秒激光器行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 月齡嬰兒情緒情感與社會(huì)性親子活動(dòng)設(shè)計(jì)創(chuàng)造性撫觸游戲講解
- 2025【合同范本】建筑工程設(shè)計(jì)協(xié)議書
- 蔬菜配送合作合同范本
- 分期付款合同模板集錦
- 會(huì)簽單合同模板
- 全新對(duì)講機(jī)服務(wù)合同下載
- 勞務(wù)出資合伙協(xié)議合同
- 個(gè)人租車租賃合同范本
- 區(qū)域經(jīng)理年終工作總結(jié)匯報(bào)
- 2019版新人教版高中英語必修+選擇性必修共7冊(cè)詞匯表匯總(帶音標(biāo))
- 初中八年級(jí)音樂-勞動(dòng)號(hào)子《軍民大生產(chǎn)》
- 中層領(lǐng)導(dǎo)的高績(jī)效管理
- 小小銀行家-兒童銀行知識(shí)、理財(cái)知識(shí)培訓(xùn)
- 機(jī)械基礎(chǔ)知識(shí)競(jìng)賽題庫(kù)附答案(100題)
- 閱讀理解特訓(xùn)卷-英語四年級(jí)上冊(cè)譯林版三起含答案
- 國(guó)庫(kù)集中支付培訓(xùn)班資料-國(guó)庫(kù)集中支付制度及業(yè)務(wù)操作教學(xué)課件
- 屋面及防水工程施工(第二版)PPT完整全套教學(xué)課件
- 2023年上海青浦區(qū)區(qū)管企業(yè)統(tǒng)一招考聘用筆試題庫(kù)含答案解析
- 2023年高一物理期末考試卷(人教版)
評(píng)論
0/150
提交評(píng)論