《商業(yè)分析概論》常用數(shù)據(jù)挖掘方法_第1頁(yè)
《商業(yè)分析概論》常用數(shù)據(jù)挖掘方法_第2頁(yè)
《商業(yè)分析概論》常用數(shù)據(jù)挖掘方法_第3頁(yè)
《商業(yè)分析概論》常用數(shù)據(jù)挖掘方法_第4頁(yè)
《商業(yè)分析概論》常用數(shù)據(jù)挖掘方法_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

商業(yè)分析概論常用數(shù)據(jù)挖掘方法目錄數(shù)據(jù)挖掘概述分類(lèi)聚類(lèi)分析關(guān)聯(lián)規(guī)則8.1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代的利器數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代的利器

數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。這個(gè)定義包括好幾層含義(1)數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;(2)發(fā)現(xiàn)的是用戶(hù)感興趣的知識(shí);(3)發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;(4)并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。數(shù)據(jù)挖掘是一個(gè)過(guò)程,數(shù)據(jù)挖掘是各種分析方法的結(jié)合。CRISP-DM(cross-industrystandardprocessfordatamining),即為"跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)".數(shù)據(jù)挖掘的方法論CRISP-DM的一般任務(wù)分類(lèi)是數(shù)據(jù)挖掘的基本功能之一,它的目標(biāo)是從數(shù)據(jù)集中提取出能夠描述數(shù)據(jù)類(lèi)基本特征的模型,并利用這些模型把數(shù)據(jù)集中的每個(gè)對(duì)象都?xì)w入到其中某個(gè)已知的數(shù)據(jù)類(lèi)中。分類(lèi)模型的形式可以是顯性的,如決策樹(shù)或一組分類(lèi)規(guī)則,也可以是隱性的,如數(shù)學(xué)公式。8.2分類(lèi)常用來(lái)解決這樣的問(wèn)題:⑴如何將信用卡申請(qǐng)人分為低、中、高風(fēng)險(xiǎn)?⑵哪些客戶(hù)在未來(lái)半年內(nèi)會(huì)取消該公司服務(wù)?⑶哪些2G用戶(hù)會(huì)轉(zhuǎn)為3G用戶(hù)?⑷如何有效預(yù)測(cè)房地產(chǎn)開(kāi)發(fā)中的風(fēng)險(xiǎn)?…8.2分類(lèi)分類(lèi)(Classification)-指將數(shù)據(jù)映射到預(yù)先的群組或類(lèi)。訓(xùn)練集測(cè)試集歸納LearnModelApplyModel推理預(yù)測(cè)建模108.2分類(lèi)分類(lèi)的意義分類(lèi)是一種重要的數(shù)據(jù)挖掘技術(shù)。分類(lèi)的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(也常常稱(chēng)作分類(lèi)器),該模型能把未知類(lèi)別的樣本映射到給定類(lèi)別中的某一個(gè)。資料庫(kù)分類(lèi)模型了解類(lèi)別與性別等屬性的關(guān)系預(yù)測(cè)11分類(lèi)的技術(shù)1.監(jiān)督式(supervisedlearning)的機(jī)器學(xué)習(xí)法------決策樹(shù)(DecisionTree)數(shù)據(jù)庫(kù)分類(lèi)標(biāo)記性別年齡婚姻否是否是FemaleMale<35≧35未婚已婚8.2分類(lèi)瀘州老窖52度金瀘州

瀘州老窖52度金瀘州

122.非監(jiān)督式(unsupervisedlearning)的機(jī)器學(xué)習(xí)法-----聚類(lèi)分析法(ClusterAnalysis)8.2分類(lèi)8.2分類(lèi)常用分類(lèi)算法神經(jīng)網(wǎng)絡(luò)算法遺傳算法決策樹(shù)貝葉斯網(wǎng)絡(luò)基于關(guān)聯(lián)規(guī)則的分類(lèi)算法粗糙集方法8.2分類(lèi)分類(lèi)目的1.尋找影響某一重要變量的因素2.了解某一族群的特征3.建立分類(lèi)規(guī)則例如:營(yíng)銷(xiāo)策略(市場(chǎng)細(xì)分)

銀行(核卡額度)

醫(yī)療診斷(糖尿病,SARS)148.2分類(lèi)分類(lèi)流程1.模型建立(ModelBuilding)2.模型評(píng)估(ModelEvaluation)3.使用模型(UseModel)15性別年齡婚姻否是否是FemaleMale<35≧35未婚已婚分類(lèi)規(guī)則IF性別=FemaleAND年齡<35THEN購(gòu)買(mǎi)RV房車(chē)=否IF性別=FemaleAND年齡≧35THEN購(gòu)買(mǎi)RV房車(chē)=是IF性別=MaleAND婚姻=未婚T(mén)HEN購(gòu)買(mǎi)RV房車(chē)=否IF性別=MaleAND婚姻=已婚T(mén)HEN購(gòu)買(mǎi)RV房車(chē)=是資料庫(kù)訓(xùn)練樣本(trainingsamples)建立模型測(cè)試樣本(testingsamples)評(píng)估模型16資料案例訓(xùn)練樣本婚姻年齡

家庭

所得否是否是未婚已婚<35≧35低高否小康1.建立模型測(cè)試樣本2.模型評(píng)估X錯(cuò)誤率為66.67%修改模型3.使用模型17準(zhǔn)確度訓(xùn)練測(cè)試法(training-and-testing)交互驗(yàn)證法(cross-validation)速度建模的速度、預(yù)測(cè)的速度品質(zhì)可詮釋性分類(lèi)算法的評(píng)估8.2分類(lèi)聚類(lèi)(Cluster)-是在預(yù)先不知道欲劃分類(lèi)的情況下,根據(jù)信息相似度原則進(jìn)行信息集聚的一種方法。常用來(lái)解決這樣的問(wèn)題:⑴如何通過(guò)一些特定的癥狀歸納某類(lèi)特定的疾?。竣普l(shuí)是銀行信用卡的黃金客戶(hù)?⑶對(duì)住宅區(qū)進(jìn)行聚類(lèi),確定ATM的安裝位置;⑷如何對(duì)用戶(hù)上網(wǎng)行為進(jìn)行分析,通過(guò)客戶(hù)分群進(jìn)行能夠精準(zhǔn)營(yíng)銷(xiāo)?…RawDataClusteringAlgorithmClustersofData8.3聚類(lèi)19聚類(lèi)(clustering)是將物理或抽象對(duì)象的集合分組成為多個(gè)類(lèi)或簇(cluster)的過(guò)程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大。聚類(lèi)與分類(lèi)不同的是,它要?jiǎng)澐值念?lèi)是未知的。即聚類(lèi)是一種無(wú)指導(dǎo)學(xué)習(xí),它不依賴(lài)預(yù)先定義的類(lèi)和帶類(lèi)標(biāo)號(hào)的訓(xùn)練實(shí)例。由于這個(gè)原因,聚類(lèi)是觀察式學(xué)習(xí),而不是示例式學(xué)習(xí)。“物以類(lèi)聚,人以群分”8.3聚類(lèi)聚類(lèi)方法介紹算法的選擇取決于數(shù)據(jù)的類(lèi)型、聚類(lèi)的目的和應(yīng)用:(1)基于劃分的方法

劃分方法(partitioningmethod)的基本思想是:給定一個(gè)n個(gè)對(duì)象或元組的數(shù)據(jù)庫(kù),一個(gè)劃分方法構(gòu)建數(shù)據(jù)的k個(gè)劃分,每個(gè)劃分表示一個(gè)聚簇,并且k<n。也就是說(shuō),它將數(shù)據(jù)劃分成為k個(gè)組,同時(shí)滿(mǎn)足如下要求:每個(gè)組至少包括一個(gè)對(duì)象每個(gè)對(duì)象必須屬于且只屬于一個(gè)組注意:在某些模糊劃分技術(shù)中第二個(gè)要求可以放寬。

8.3聚類(lèi)218.3聚類(lèi)(2)基于層次的方法

層次方法(hierarchicalmethod)的基本思想是:對(duì)給定數(shù)據(jù)對(duì)象集合進(jìn)行層次的分解。根據(jù)層次的分解如何形成,層次的方法可以分為凝聚的和分裂的。凝聚的方法:又稱(chēng)為自底向上的方法,一開(kāi)始將每個(gè)對(duì)象作為單獨(dú)的一個(gè)組,然后根據(jù)一些規(guī)則相繼地合并相近的對(duì)象或者組,將它們聚合成越來(lái)越大的類(lèi),直到所有的組合并為一個(gè),或者達(dá)到一個(gè)預(yù)先設(shè)定的終止條件分裂的方法:又稱(chēng)為自頂向下的方法,是一個(gè)與凝聚的方式相反的過(guò)程。即開(kāi)始時(shí)將所有的對(duì)象置于一個(gè)簇中。在迭代的每一步中,一個(gè)簇被分裂為更小的簇。228.3聚類(lèi)(3)基于密度的方法

絕大多數(shù)劃分方法基于對(duì)象之間的距離進(jìn)行聚類(lèi)。這樣的方法只能發(fā)現(xiàn)球狀的簇,而在發(fā)現(xiàn)任意形狀的簇上遇到了困難。隨之提出了基于密度的聚類(lèi)方法(density-basedmethod)。

基于密度的聚類(lèi)方法基本思想是:只要臨近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過(guò)某個(gè)值,就繼續(xù)聚類(lèi)。也就是說(shuō),對(duì)給定類(lèi)中的每個(gè)數(shù)據(jù)點(diǎn),在一個(gè)給定范圍的區(qū)域中必須至少包含某個(gè)數(shù)目點(diǎn)。這樣的方法可以用來(lái)過(guò)濾“噪聲”孤立點(diǎn)數(shù)據(jù),發(fā)現(xiàn)任意形狀的簇。8.3聚類(lèi)(4)基于網(wǎng)格的方法

基于網(wǎng)格的方法(grid-basedmethod)的基本思想是:對(duì)象空間量化為有限數(shù)目的單元,形成了一個(gè)網(wǎng)格結(jié)構(gòu)。所有的聚類(lèi)操作都在這個(gè)網(wǎng)格結(jié)構(gòu)上進(jìn)行。這種方法的主要優(yōu)點(diǎn)是它的處理速度較快,其處理時(shí)間獨(dú)立于數(shù)據(jù)對(duì)象的數(shù)目,只與量化空間中每一維單元數(shù)目有關(guān)。 STING是基于網(wǎng)格方法的一個(gè)典型例子。CLIQUE和WaveCluster這兩種算法既是基于網(wǎng)格的,又是基于密度的。8.3聚類(lèi)(5)基于模型的方法

基于模型方法(model-basedmethod)的基本思想是:為每個(gè)簇假定了一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。一個(gè)基于模型的算法可能通過(guò)構(gòu)建反映數(shù)據(jù)點(diǎn)空間分布的密度函數(shù)來(lái)定位聚類(lèi)。它也是基于標(biāo)準(zhǔn)的統(tǒng)計(jì)數(shù)字自動(dòng)決定聚類(lèi)的數(shù)目,考慮“噪聲”數(shù)據(jù)或孤立點(diǎn),從而產(chǎn)生健壯的聚類(lèi)方法。聚類(lèi)中孤立點(diǎn)分析孤立點(diǎn)探索的兩個(gè)意義提升數(shù)據(jù)質(zhì)量,反映事物本來(lái)面貌與真實(shí)規(guī)律發(fā)現(xiàn)欺詐行為,即異常診斷采用多維空間基于聚類(lèi)的診斷方法第一步,聚類(lèi)第二步,計(jì)算異常性測(cè)度指標(biāo)(GDI、VDI、AI、VCM)第三步,診斷,確定離群點(diǎn)并分析原因

25

8.3聚類(lèi)關(guān)聯(lián)規(guī)則(Association)-揭示數(shù)據(jù)之間的相互關(guān)系,而這種關(guān)系沒(méi)有在數(shù)據(jù)中直接表示出來(lái)。常用來(lái)解決這樣的問(wèn)題:⑴商業(yè)銷(xiāo)售上,如何通過(guò)交叉銷(xiāo)售得到更大的收入?⑵保險(xiǎn)方面,如何分析要求發(fā)現(xiàn)潛在的欺詐行為?⑶銀行方面,如何根據(jù)用戶(hù)消費(fèi)向其推薦感興趣的服務(wù)?⑷醫(yī)療上,哪些病人和藥物屬性與結(jié)果有關(guān)?…

8.4關(guān)聯(lián)規(guī)則27事務(wù)與項(xiàng)集設(shè)I={i1,i2,…,im,}為所有項(xiàng)目的集合,D

為事務(wù)數(shù)據(jù)庫(kù)事務(wù),T

是一個(gè)項(xiàng)目子集(T

I)。每一個(gè)事務(wù)具有唯一的事務(wù)標(biāo)識(shí)Tid

。設(shè)A

是一個(gè)由項(xiàng)目構(gòu)成的集合,稱(chēng)為項(xiàng)集。事務(wù)T

包含項(xiàng)集A,當(dāng)且僅當(dāng)A

T

。8.4關(guān)聯(lián)規(guī)則28關(guān)聯(lián)規(guī)則基本概念關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖據(jù)的一個(gè)重要分支,發(fā)現(xiàn)形如“如果〈條件〉,那么〈結(jié)論〉”的規(guī)則的方法。關(guān)聯(lián)的意義在于一次交易中(數(shù)據(jù)庫(kù)中的一條記錄)存在X項(xiàng)目,則該交易中也存在Y項(xiàng)目。通常簡(jiǎn)寫(xiě)為X=〉Y,X稱(chēng)為關(guān)聯(lián)規(guī)則的前件,Y稱(chēng)為關(guān)聯(lián)規(guī)則的后件,=〉稱(chēng)為關(guān)聯(lián)操作。buys(x,“computer”)=>buys(x,“finacial_management_software”)age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolution_TV”)age(“30..40”)=>buys(x,“IBMcomputer”)age(“30..40”)=>buys(x,“computer”)

關(guān)聯(lián)規(guī)則一般用以發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系,用這些規(guī)則找出顧客的購(gòu)買(mǎi)行為模式,這種規(guī)則可以應(yīng)用于超市商品貨架設(shè)計(jì)、貨物擺放以及根據(jù)購(gòu)買(mǎi)模式對(duì)用戶(hù)進(jìn)行分類(lèi)8.4關(guān)聯(lián)規(guī)則29關(guān)聯(lián)規(guī)則的分類(lèi):1.按處理變量

布爾型:買(mǎi)啤酒買(mǎi)嬰兒尿布數(shù)值型:月收入5000元

每月交通費(fèi)約800元2.按數(shù)據(jù)的抽象層次單層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則3.按涉及到的資料維數(shù)

單維關(guān)聯(lián)規(guī)則:買(mǎi)啤酒買(mǎi)嬰兒尿布多維關(guān)聯(lián)規(guī)則:喜歡野外活動(dòng)購(gòu)買(mǎi)慢跑鞋8.4關(guān)聯(lián)規(guī)則30關(guān)聯(lián)規(guī)則的作用1、交叉銷(xiāo)售,基于消費(fèi)者購(gòu)買(mǎi)模式,主動(dòng)進(jìn)行交叉銷(xiāo)售。2、郵購(gòu)目錄的設(shè)計(jì),將經(jīng)常會(huì)一起購(gòu)買(mǎi)的東西置于郵購(gòu)目

錄較近的位置,促進(jìn)銷(xiāo)售。3、商品擺放,基于商店不同的經(jīng)營(yíng)理念,如果將會(huì)經(jīng)常一起購(gòu)買(mǎi)的東西較近擺放,客戶(hù)會(huì)比較方便購(gòu)買(mǎi),如果有意放在購(gòu)物通道的兩端,顧客尋找的過(guò)程中可以增加其他物品銷(xiāo)售的可能性。4、流失客戶(hù)分析,可以分析是否是某些關(guān)鍵商品的缺失等。5、基于購(gòu)買(mǎi)模式進(jìn)行客戶(hù)區(qū)分。8.4關(guān)聯(lián)規(guī)則31關(guān)聯(lián)規(guī)則挖掘的基本模型與判斷標(biāo)準(zhǔn)算法1算法2數(shù)據(jù)集規(guī)則用戶(hù)最小支持度最小置信度圖1關(guān)聯(lián)規(guī)則挖掘的基本模型8.4關(guān)聯(lián)規(guī)則32關(guān)聯(lián)規(guī)則判斷標(biāo)準(zhǔn)支持度(support,也稱(chēng)廣泛度,普遍度)置信度(confidence,也稱(chēng)預(yù)測(cè)度)sup(AB)=P(AnB)=confidence(AB)=

P(A|B)=8.4關(guān)聯(lián)規(guī)則33關(guān)聯(lián)規(guī)則判斷標(biāo)準(zhǔn)支持度(support,也稱(chēng)廣泛度,普遍度)置信度(confidence,也稱(chēng)預(yù)測(cè)度)sup(AB)=P(AnB)=confidence(AB)=

P(A|B)=8.4關(guān)聯(lián)規(guī)則348.4關(guān)聯(lián)規(guī)則1、支持度sup(.):表示在購(gòu)物籃分析中同時(shí)包含關(guān)聯(lián)規(guī)則左右兩邊物品的交易次數(shù)百分比,即支持這個(gè)規(guī)則的交易的次數(shù)百分比sup(X21

Y11)=P(X21nY11)==40%sup(X2

Y11)

sup(X21

Y11)+sup(x22

Y11)2、置信度confidence(.):是指購(gòu)物籃分析中有了左邊商品,同時(shí)又有右邊商品的交易次數(shù)百分比,也就是說(shuō)在所有的購(gòu)買(mǎi)了左邊商品的交易中,同時(shí)又購(gòu)買(mǎi)了右邊商品的交易概率。confidence(X21

Y11)=P(Y11|X21)==74.1%數(shù)據(jù)挖掘軟件中用到的統(tǒng)計(jì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論