




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
引言業(yè)務(wù)管理子系統(tǒng)分析管理子系統(tǒng)協(xié)作管理子系統(tǒng)應(yīng)用集成子系統(tǒng)部門級(jí)協(xié)同級(jí)企業(yè)級(jí)CRM業(yè)務(wù)管理系統(tǒng)客戶數(shù)據(jù)庫(kù)的設(shè)計(jì)和利用客戶互動(dòng)中心EAI,成功實(shí)施CRM數(shù)據(jù)挖掘流程優(yōu)化與工作流管理CRM四大技術(shù)三個(gè)層級(jí)后續(xù)各章12/13/20221第八章商業(yè)智能與數(shù)據(jù)挖掘技術(shù)
第一節(jié)概述第二節(jié)關(guān)聯(lián)規(guī)則挖掘第三節(jié)決策樹挖掘技術(shù)第四節(jié)市場(chǎng)細(xì)分與聚類分析
12/13/20222第一節(jié)概述
一、商業(yè)智能
1、概念:是對(duì)商業(yè)信息進(jìn)行加工處理、幫助企業(yè)提高決策能力和運(yùn)營(yíng)能力的概念、方法、過(guò)程以及軟件的集合。2、目標(biāo):決策能力、運(yùn)營(yíng)能力的提高。對(duì)各種業(yè)務(wù)系統(tǒng)的多數(shù)據(jù)源數(shù)據(jù)進(jìn)行整合面向主題的多維度分析面向高層決策者的快速、及時(shí)、正確的決策分析為各層決策者服務(wù)的即時(shí)查詢對(duì)業(yè)務(wù)模型的深層次分析與預(yù)測(cè)12/13/202233、商業(yè)智能與數(shù)據(jù)挖掘12/13/20224惠普公司2007/11表示:正在尋找數(shù)據(jù)管理軟件和商業(yè)智能軟件公司,交易額可能達(dá)3-5億美元,也可能為50億-100億美元。賽門鐵克是全球最大的數(shù)據(jù)管理軟件公司之一。2005年,賽門鐵克通過(guò)并購(gòu)Veritas進(jìn)入該市場(chǎng)。在商業(yè)智能軟件市場(chǎng),2007年已有過(guò)多起并購(gòu)交易:如IBM并購(gòu)Cognos,SAP并購(gòu)BusinessObjects,Oracle并購(gòu)Hyperion。消息:Oracle2007/4/18以29億美元收購(gòu)商業(yè)智能軟件商HyperionSolutions。它將該公司軟件與自己的商業(yè)智能和分析工具軟件整合起來(lái),以提高客戶的規(guī)劃、預(yù)算、運(yùn)營(yíng)分析等管理能力。
12/13/20225
二、商業(yè)智能體系的構(gòu)成理論基礎(chǔ),如CRM中的八大理論三項(xiàng)技術(shù):數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市產(chǎn)品,OLAP工具,數(shù)據(jù)挖掘軟件應(yīng)用界面:終端用戶查詢和報(bào)告工具
12/13/20226
三、商業(yè)智能與企業(yè)應(yīng)用系統(tǒng)之間的關(guān)系12/13/20227
三、數(shù)據(jù)挖掘概念定義:DM就是應(yīng)用一系列技術(shù)從數(shù)據(jù)倉(cāng)庫(kù)中提取人們感興趣的信息——概念、規(guī)則、規(guī)律、模式。它是深層次的數(shù)據(jù)分析,是分析型CRM的核心。DataMiningistheapplicationofartificialintelligence(AI)techniques(Neuralnetwork,fuzzyLogic,geneticarithmetic,etc)tolargequantitiesofdata,todiscoveryhiddentrends,patterns,andrelationships---MetaGroup12/13/20228DM與KDD(知識(shí)發(fā)現(xiàn))的關(guān)系。KDD:Knowledgediscoveryindatabaseisthenon-trivialprocessofidentifyingvalid,novel,potential,useful,andultimatelyunderstandablepatternindata.等價(jià):人工智能領(lǐng)域習(xí)慣稱知識(shí)發(fā)現(xiàn),數(shù)據(jù)庫(kù)領(lǐng)域稱DM。核心:把DM當(dāng)作KDD的最核心部分。
12/13/20229首次KDD和DM研討會(huì)1989年在底特律召開。1995年國(guó)際第一屆KDD和DM學(xué)術(shù)會(huì)議在加拿大召開,定義了DM。1998年第四屆KDD和DM學(xué)術(shù)會(huì)議,30多家公司展示DM軟件產(chǎn)品。KDD和DM現(xiàn)在已成為數(shù)據(jù)庫(kù)領(lǐng)域最重要的課題之一,DM軟件廣泛應(yīng)用于商業(yè).經(jīng)濟(jì).金融.管理。3、DM的研究現(xiàn)狀
12/13/202210有影響的數(shù)據(jù)挖掘軟件SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。.提供數(shù)據(jù)挖掘系統(tǒng)和工具的性能測(cè)試報(bào)告。12/13/202211市場(chǎng)營(yíng)銷:預(yù)測(cè)顧客購(gòu)買行為,劃分顧客群體。銀行業(yè):偵測(cè)欺詐行為;客戶信譽(yù)度分析。零售業(yè):預(yù)測(cè)銷售額;決定庫(kù)存量,批發(fā)點(diǎn)分布。制造業(yè):預(yù)測(cè)機(jī)器故障;發(fā)現(xiàn)生產(chǎn)力的關(guān)鍵因素。經(jīng)紀(jì)業(yè)和安全交易:預(yù)測(cè)債券價(jià)格、確定交易時(shí)間。電信:評(píng)估客戶群;綜合效益分析;網(wǎng)絡(luò)性能評(píng)估。經(jīng)營(yíng)管理:評(píng)估客戶信譽(yù)、部門業(yè)績(jī)、員工業(yè)績(jī)等。四、DM的應(yīng)用12/13/2022121.
技術(shù)部要求:就某鋼種找到一組生產(chǎn)條件,通過(guò)調(diào)整化學(xué)成分或軋制參數(shù),提高斷裂延伸率,降低抗拉強(qiáng)度。2.
數(shù)據(jù)預(yù)處理:從數(shù)據(jù)集市中,找出15000條質(zhì)量記錄。3.
DM方法:聚類分析。4.
結(jié)論:(1)鋼材兩項(xiàng)性能指標(biāo)與溫度和兩種元素含量有關(guān)。(2)增加該兩項(xiàng)元素含量可實(shí)現(xiàn)兩項(xiàng)目標(biāo)。5.效益:技術(shù)部工程師建議:(1)結(jié)合工程現(xiàn)狀,保持溫度不變。(2)
將某一元素(成本高)減少50%以降低成本。(3)另元素含量客戶需求加調(diào)整。例:寶鋼的DM12/13/202213五、DM技術(shù)的分類根據(jù)發(fā)現(xiàn)的知識(shí)種類分類(1)總結(jié)(summarizing):概括數(shù)據(jù),做一般性結(jié)論(2)特征(characteristics):描述數(shù)據(jù)的分布特征。(3)分類(Classification):生成一分類函數(shù)或分類樹。(4)聚集(Clustering):聚集和分類的區(qū)別。(5)數(shù)據(jù)可視化(DescriptionandVisualization)(6)關(guān)聯(lián)規(guī)則(associationrules)(7)序列分析(SequenceAnalysis)(8)偏差分析(DeviationAnalysis
)12/13/202214預(yù)測(cè)技術(shù):回歸分析關(guān)聯(lián)規(guī)則:Apriori算法分類技術(shù):Bayes分類、決策樹、神經(jīng)網(wǎng)絡(luò)聚類技術(shù):快速聚類概念描述:分組匯總、決策樹、遺傳算法數(shù)據(jù)可視化:把多維數(shù)據(jù)變成多種圖形2、按挖掘技術(shù)分
12/13/202215信息論方法:ID3方法、IBLE方法集合論方法:粗糙集方法、概念樹方法、模糊集方法、AQ系列方法神經(jīng)網(wǎng)絡(luò)NeuralNetworks
:前饋網(wǎng)絡(luò)、反饋網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)遺傳算法GeneticAnalysis
:模擬生物進(jìn)化過(guò)程的方法。統(tǒng)計(jì)分析方法:相關(guān)分析、時(shí)間序列分析、回歸分析、分組分析、因子分析、聚類分析、判別分析。3、按挖掘所用算法分12/13/202216六、DM在CRM中的作用1、發(fā)現(xiàn)最有價(jià)值客戶和新客戶12/13/2022172、使交叉銷售更有效率12/13/2022183、客戶保持:客戶流失預(yù)警模型個(gè)性化營(yíng)銷和服務(wù)12/13/2022194、欺詐發(fā)現(xiàn)返回12/13/2022205、評(píng)估營(yíng)銷工具性能英國(guó)電信采用DM,建模確定潛在客戶的購(gòu)買傾向及價(jià)值。法國(guó)電信利用DM在預(yù)防欺詐、客戶流失分析和預(yù)測(cè)、交叉銷售方面取得成果。韓國(guó)SKTelecom公司用DM分析客戶通話行為,預(yù)測(cè)通話中的掉線情況。12/13/202221五、DM的流程(一)一般流程數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)挖掘結(jié)果表達(dá)和解釋12/13/202222轉(zhuǎn)換數(shù)據(jù)預(yù)處理后的數(shù)據(jù)數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)挖掘結(jié)果表達(dá)和解釋
數(shù)據(jù)預(yù)處理
數(shù)據(jù)選擇目標(biāo)數(shù)據(jù)數(shù)據(jù)集成數(shù)據(jù)源數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)挖掘
模式結(jié)果表達(dá)和轉(zhuǎn)換知識(shí)
數(shù)據(jù)
12/13/202223(一)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)集成:合并多文件或數(shù)據(jù),解決模糊語(yǔ)義,彌補(bǔ)數(shù)據(jù)遺漏、清除臟數(shù)據(jù)。數(shù)據(jù)選擇:目的是縮小處理范圍,提高挖掘質(zhì)量。數(shù)據(jù)預(yù)處理:清理和充實(shí)數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換:對(duì)數(shù)據(jù)編碼,數(shù)據(jù)庫(kù)中字段的不同取值轉(zhuǎn)換成數(shù)碼形式,利于搜索。(二)數(shù)據(jù)挖掘利用挖掘技術(shù),從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的模式或知識(shí)。(三)結(jié)果表達(dá)與解釋分析提取的信息,找出最有價(jià)值的信息。對(duì)信息進(jìn)行過(guò)濾處理。12/13/202224(二)CRISP-DM流程簡(jiǎn)介1、CRISP-DM是CRoss-IndustryStandardProcess-DataMining的縮寫,由SPSS、NCR、Daimler-Benz在1996年制定,是數(shù)據(jù)挖掘的標(biāo)準(zhǔn)之一。2、CRISP-DM過(guò)程:12/13/202225
商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評(píng)估模型發(fā)布返回12/13/202226六、OLAP與DM的區(qū)別
OLAP是數(shù)據(jù)匯總/聚集工具,獲得信息;數(shù)據(jù)挖掘進(jìn)行更復(fù)雜的分析,發(fā)現(xiàn)知識(shí)。OLAP限于數(shù)值型數(shù)據(jù);數(shù)據(jù)挖掘可以是多媒體數(shù)據(jù)。OLAP側(cè)重于快速響應(yīng)和提供多維視圖;數(shù)據(jù)挖掘則注重發(fā)現(xiàn)隱藏的模式和信息。OLAP分析結(jié)果為數(shù)據(jù)挖掘提供依據(jù);數(shù)據(jù)挖掘拓展OLAP分析的深度,發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。
12/13/202227第二節(jié)關(guān)聯(lián)規(guī)則(associationrules)
Old=>MotoV730Female&Young=>SiemensMinnie8008一、實(shí)例與問(wèn)題實(shí)例1:關(guān)聯(lián)規(guī)則讓繁雜的數(shù)據(jù)指示重要信息.12/13/202228實(shí)例2:某商店出售數(shù)碼商品:DellD820,SonyBX145,SonyFJ68C,HP1010,HP4300,CanonLBP5200,CanonEOS-20D,CanonIXUS700,SonyDSC-V3。記錄如下:購(gòu)買規(guī)律?12/13/202229商品間不存在關(guān)聯(lián)規(guī)則
品牌間存在著關(guān)聯(lián)規(guī)則12/13/202230實(shí)例3:購(gòu)物籃里有什么?事務(wù)項(xiàng)T100I1,I2,I5,I3T200I2,I4,I1T300I2,I3,I5T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3顧客購(gòu)物籃中各種商品之間的關(guān)系:如買牛奶,也購(gòu)買面包的可能性有多大?買鐵錘的顧客中有多少人同時(shí)也買鐵釘?數(shù)學(xué)表達(dá):設(shè)事務(wù)數(shù)據(jù)庫(kù)中有9個(gè)事務(wù),如右圖。試按最小支持度2次、最小可信度70%的標(biāo)準(zhǔn)尋找關(guān)聯(lián)規(guī)則。12/13/2022311.項(xiàng)集:項(xiàng)的集合稱為項(xiàng)集。設(shè)I={I?,I2,..,In}是一個(gè)項(xiàng)集,其中Ii(i=1,2,3,…,n)可以是購(gòu)物籃中的一物品,或保險(xiǎn)公司的顧客。K項(xiàng)集---包含K個(gè)項(xiàng)的項(xiàng)集被成為K項(xiàng)集。2.事務(wù):事務(wù)是項(xiàng)的集合,設(shè)有事務(wù)T,則TI.對(duì)應(yīng)每個(gè)事務(wù)有唯一的標(biāo)識(shí),如TID。又設(shè)A是I中項(xiàng)的集合,如果AT,則稱A為事務(wù)T的子集。3.事務(wù)集:事務(wù)的集合稱為事務(wù)集。設(shè)某事務(wù)集為D,則D={T1,T2,…,Tp},4.邏輯蘊(yùn)涵:A
B,其中A,B是項(xiàng)集,AI,BI,A∩B=Ф。二、基本概念
12/13/202232設(shè)A,B是項(xiàng)集,對(duì)于事務(wù)集D,A∈D,B∈D,A∩B=Ф,則5.置信度(Confidence):
反映在出現(xiàn)項(xiàng)集A的事務(wù)集D中,項(xiàng)集B也同時(shí)出現(xiàn)的概率。例如買牛奶顧客中有80%也購(gòu)買面包,則(牛奶面包)的置信度為80%。6.支持度(Support):
描述了A和B這兩個(gè)項(xiàng)集在所有事務(wù)中同時(shí)出現(xiàn)的概率。例如某商場(chǎng)某天共有1000筆業(yè)務(wù),其中有100筆業(yè)務(wù)同時(shí)買了牛奶和面包,則(牛奶面包)的支持度為10%。兩種形式:相對(duì)數(shù)、絕對(duì)數(shù)。12/13/2022337.關(guān)聯(lián)規(guī)則:同時(shí)滿足最小支持度閾值和最小可信度閾值的邏輯蘊(yùn)涵式:A
B8.尋找強(qiáng)關(guān)聯(lián)規(guī)則的步驟(Apriori算法):(1)尋找事務(wù)數(shù)據(jù)庫(kù)中所有的頻繁項(xiàng)集支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集。(2)在所有頻繁集中尋找強(qiáng)關(guān)聯(lián)規(guī)則a.用每一頻繁集生成所有邏輯蘊(yùn)涵式;b.計(jì)算每一邏輯蘊(yùn)涵式的置信度,并判斷是否超過(guò)閾值。12/13/20223410.關(guān)聯(lián)規(guī)則的種類:(1)根據(jù)變量類型分為布爾型和數(shù)值型。布爾型考慮的是項(xiàng)集是否存在;而數(shù)值型則是量化的關(guān)系。例如:性別=“女”職業(yè)=“秘書”布爾型性別=“女”avg(收入)=2300數(shù)值型(2)根據(jù)數(shù)據(jù)的維數(shù)分為單維和多維。單維關(guān)聯(lián)規(guī)則,只涉及到數(shù)據(jù)的一個(gè)維度,如用戶購(gòu)買的物品。多維關(guān)聯(lián)規(guī)則涉及到多個(gè)維度。例如:啤酒尿布單維↘↙
(物品)性別=“女”職業(yè)=“秘書”多維
↘↙ (性別和職業(yè))12/13/202235(3)根據(jù)是否允許同一維在規(guī)則的左右方同時(shí)出現(xiàn),多維關(guān)聯(lián)規(guī)則:維間關(guān)聯(lián)規(guī)則(不允許)
混合維關(guān)聯(lián)規(guī)則(允許)年齡(X,“20...30”)∧職業(yè)(X,“學(xué)生”)==>購(gòu)買(X,“筆記本電腦”)。年齡、職業(yè)、購(gòu)買,沒(méi)有一個(gè)維是重復(fù)出現(xiàn)的,故是維間關(guān)聯(lián)規(guī)則。年齡(X,“20...30”)∧購(gòu)買(X,“筆記本電腦”)==>購(gòu)買(X,“打印機(jī)”)。年齡、購(gòu)買,且購(gòu)買出現(xiàn)過(guò)兩次,故是混合維關(guān)聯(lián)規(guī)則。12/13/202236三、計(jì)算實(shí)例
P215四、軟件實(shí)現(xiàn)
返回12/13/202237一、實(shí)例第三節(jié)決策樹12/13/202238
購(gòu)電腦貸款決策樹age?30--40creditrating?noyesfairexcellent<=30>40nonoyesyesyes根:X根節(jié)點(diǎn)、屬性枝屬性值第二層節(jié)點(diǎn)枝屬性值葉節(jié)點(diǎn)(目標(biāo)變量)student?12/13/202239問(wèn)題:某公司根據(jù)以往的銷售經(jīng)驗(yàn),整理出了關(guān)于是否給予客戶銷售折扣的記錄,如表所示。試根據(jù)這些記錄,運(yùn)用ID3算法:計(jì)算目標(biāo)變量“是否給予折扣”的信息熵;通過(guò)計(jì)算確定在根節(jié)點(diǎn)上的分割變量;12/13/202240二、基本概念
決策樹:通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的工具。特點(diǎn):將數(shù)據(jù)的分類規(guī)則可視化。用途:提取分類規(guī)則,進(jìn)行分類預(yù)測(cè)。例如,金融領(lǐng)域?qū)①J款對(duì)象分為低貸款風(fēng)險(xiǎn)與高貸款風(fēng)險(xiǎn)。用決策樹可判定申請(qǐng)者是屬于哪一類。比如,某人月收入4000元,盡管申請(qǐng)“高貸款”,卻被認(rèn)為屬于“低風(fēng)險(xiǎn)”人群。某人月收入<1000元,工作年限>5年,卻屬于"高風(fēng)險(xiǎn)"人群。12/13/202241基本思路:決策樹構(gòu)建算法output訓(xùn)練樣本集決策樹input12/13/202242決策樹的六要素一個(gè)根結(jié)點(diǎn),上有屬性(分割變量)若干個(gè)枝節(jié)點(diǎn),每一節(jié)點(diǎn)代表一個(gè)數(shù)據(jù)集。每節(jié)點(diǎn)下有若干條分枝。每個(gè)分枝代表分割變量的一個(gè)取值(屬性值)。最終的節(jié)點(diǎn)叫葉節(jié)點(diǎn),表示一個(gè)分類(目標(biāo)變量的一個(gè)取值)。12/13/202243三、實(shí)施決策樹的過(guò)程構(gòu)造數(shù)據(jù)集市
數(shù)據(jù)預(yù)處理:離散化、概化建立相關(guān)屬性集建立模型實(shí)施分類(ID3)提取分類規(guī)則評(píng)估
與修剪:去掉一些可能是噪音或者異常的數(shù)據(jù)使用模型進(jìn)行分類12/13/202244四、ID3算法步驟構(gòu)造數(shù)據(jù)集:根節(jié)點(diǎn)(X,Q)將所有記錄X用所選變量進(jìn)行劃分。其中,變量都是離散型的(如是連續(xù)的,則離散化)根據(jù)啟發(fā)式規(guī)則或某統(tǒng)計(jì)度量(如,informationgain)確定分割變量停止分割。有下列之一者:節(jié)點(diǎn)上所有記錄同屬一個(gè)類別(目標(biāo)變量屬性值相同)測(cè)試變量集Q為空12/13/202245五、統(tǒng)計(jì)度量:信息增益(ID3/C4.5)未分割時(shí)目標(biāo)變量的信息熵設(shè)總體有單位數(shù)n個(gè),某目標(biāo)變量g的取值為(x1,x2…xm),對(duì)應(yīng)的總體單位數(shù)為(n1,n2,……,nm),則g的信息熵:經(jīng)變量A分割后的期望熵:A的信息增益:Gain(A)=I(g)-E(g/A)12/13/202246例:學(xué)生購(gòu)買電腦決策樹---第一層分割屬性選擇ClassP:buys_computer=“yes”。P=9ClassN:buys_computer=“no”。N=5I(p,n)=I(9,5)=0.940Computetheentropyforage:Similarly返回12/13/202247把最近的兩點(diǎn)并成一小類,再把最近的點(diǎn)并入小類,http://www.理論基礎(chǔ),如CRM中的八大理論Dpq:類Gp與類Gq之間的距離
d(xi,xj):點(diǎn)xi∈Gp和xj∈Gq距離六、DM在CRM中的作用例如:啤酒尿布單維數(shù)據(jù)轉(zhuǎn)換:對(duì)數(shù)據(jù)編碼,數(shù)據(jù)庫(kù)中字段的不同取值轉(zhuǎn)換成數(shù)碼形式,利于搜索。又設(shè)A是I中項(xiàng)的集合,如果AT,則稱A為事務(wù)T的子集。SGI公司的SetMiner數(shù)據(jù)預(yù)處理:從數(shù)據(jù)集市中,找出15000條質(zhì)量記錄。例:學(xué)生購(gòu)買電腦決策樹---第一層分割屬性選擇等價(jià):人工智能領(lǐng)域習(xí)慣稱知識(shí)發(fā)現(xiàn),數(shù)據(jù)庫(kù)領(lǐng)域稱DM。2、使交叉銷售更有效率12/13/20224812/13/202249實(shí)例二12/13/202250第四節(jié)市場(chǎng)細(xì)分與聚類分析市場(chǎng)細(xì)分(MarketSegmentation),即根據(jù)消費(fèi)者某些特征(變量),把整體市場(chǎng)細(xì)分為若干個(gè)子市場(chǎng),使這些特征的取值在組內(nèi)具有相似性,而在組間卻有明顯差異性。分組變量:依研究目的而異。如地理、人口統(tǒng)計(jì)學(xué)特征、行為特征、心理特征等。細(xì)分技術(shù):統(tǒng)計(jì)分組(組數(shù)及組特征已知)
聚類分析(組數(shù)及組特征未知)一、市場(chǎng)細(xì)分的概念12/13/202251例子:已知客戶的人口統(tǒng)計(jì)學(xué)特征、心理特征、行為特征。問(wèn)題:為反映終身價(jià)值的大小,分成幾類?各客戶歸于哪一個(gè)類?客戶編號(hào)性別職業(yè)年齡購(gòu)買次數(shù)業(yè)務(wù)延續(xù)月份數(shù)流失概率上期交易額101男經(jīng)理287230.301000102男教師354250.45200103女白領(lǐng)327380.401020104女經(jīng)理344300.35410二、什么是聚類分析12/13/202252每節(jié)點(diǎn)下有若干條分枝。聚類結(jié)果受所選變量影響。對(duì)應(yīng)每個(gè)事務(wù)有唯一的標(biāo)識(shí),如TID。IBM公司的IntelligentMiner,In}是一個(gè)項(xiàng)集,其中Ii(i=1,2,3,…,n)可以是購(gòu)物籃中的一物品,或保險(xiǎn)公司的顧客。關(guān)聯(lián)規(guī)則:同時(shí)滿足最小支持度閾值和最小可信度閾值的邏輯蘊(yùn)涵式:AB每個(gè)分枝代表分割變量的一個(gè)取值(屬性值)。要‘讀活書、活讀書、讀書活’,即不僅要學(xué)會(huì)動(dòng)腦,而且要學(xué)會(huì)動(dòng)手;每個(gè)分枝代表分割變量的一個(gè)取值(屬性值)。經(jīng)紀(jì)業(yè)和安全交易:預(yù)測(cè)債券價(jià)格、確定交易時(shí)間。在商業(yè)智能軟件市場(chǎng),2007年已有過(guò)多起并購(gòu)交易:如IBM并購(gòu)Cognos,SAP并購(gòu)BusinessObjects,Oracle并購(gòu)Hyperion。聚類,就是根據(jù)距離將各樣品或變量歸入不同的組,使組內(nèi)的差距盡量小而組間的差距盡量大的統(tǒng)計(jì)學(xué)方法。聚類方法:系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法。12/13/202253三、系統(tǒng)聚類的種類層次聚類Q型聚類:對(duì)樣本分類,使具有共同特點(diǎn)的樣本聚在一起,以便對(duì)不同類的樣本進(jìn)行分析。(測(cè)定距離:樣本-樣本,樣本-小類,小類-小類)R型聚類:對(duì)變量分類,使具共同特征的變量聚在一起,以便從不同類中分別選出具代表性的變量進(jìn)行分析。(測(cè)定距離:變量-變量)快速聚類特點(diǎn):樣本大;事先指定類別數(shù);可以指定初始類的中心點(diǎn);用“歐氏距離”。12/13/202254歐氏距離Euclidean:SquaredEuclideanDistance:四、點(diǎn)-點(diǎn)距離的定義距離。將一個(gè)樣品看作P維空間的一個(gè)點(diǎn),并在空間定義距離,距離小的兩點(diǎn)歸為一類,大的則歸為兩類。例如:行向量xi=(xi1,…,xip)與xj=(xj1,…,xjp)的兩種距離12/13/202255五、類-類距離的定義類間平均鏈鎖法between-groupslinkage
Dpq:類Gp與類Gq之間的距離
d(xi,xj):點(diǎn)xi∈Gp和xj∈Gq距離12/13/202256六、層次聚類的基本過(guò)程—Q型、R型
HierarchicalClustering不用確定類的數(shù)目開始時(shí),有多少個(gè)樣本就是多少個(gè)類。把最近的兩點(diǎn)并成一小類,再把最近的點(diǎn)并入小類,小類與小類合并成一中類中類與中類合并成一大類
12/13/202257七、快速聚類K-MeansClusterAnalysis事先要確定分多少類(例如:3類)確定初始點(diǎn),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 樓房裝修承攬合同范本
- l建設(shè)工程合同范本
- 合作加工木材合同范本
- 北京租房合同范本封面
- 廠區(qū)快遞轉(zhuǎn)讓合同范本
- 倉(cāng)庫(kù)雜物搬運(yùn)勞務(wù)合同范本
- 合伙臨時(shí)合同范本
- 合同里寫定價(jià)合同范本
- 信息技術(shù)合同范本
- 廠家網(wǎng)店授權(quán)合同范例
- 可下載打印的公司章程
- 《英語(yǔ)教師職業(yè)技能訓(xùn)練簡(jiǎn)明教程》全冊(cè)配套優(yōu)質(zhì)教學(xué)課件
- 中藥熏洗法課件
- 本特利探頭應(yīng)用
- 城市雕塑藝術(shù)工程工程量計(jì)價(jià)清單定額2022年版
- QMR-110-00員工手部、接觸面等微生物檢驗(yàn)記錄記錄
- 2022年河北醫(yī)科大學(xué)第一醫(yī)院醫(yī)護(hù)人員招聘考試筆試題庫(kù)及答案解析
- 思想道德與法治教案第四章:明確價(jià)值要求踐行價(jià)值準(zhǔn)則
- 外陰及陰道炎癥
- 公安筆錄模板之詢問(wèn)嫌疑人(書面?zhèn)鲉局伟舶讣?
- A-level項(xiàng)目介紹(課堂PPT)
評(píng)論
0/150
提交評(píng)論