第7章數(shù)據(jù)挖掘_第1頁
第7章數(shù)據(jù)挖掘_第2頁
第7章數(shù)據(jù)挖掘_第3頁
第7章數(shù)據(jù)挖掘_第4頁
第7章數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2023/1/31數(shù)據(jù)挖掘1第六章聚類分析什么是聚類分析?主要聚類方法的分類劃分方法層次方法基于密度的方法基于網(wǎng)格的方法聚類的評估基于模型的聚類方法小結(jié)2023/1/31數(shù)據(jù)挖掘2聚類的普遍應(yīng)用2023/1/31數(shù)據(jù)挖掘3聚類的應(yīng)用舉例2023/1/31數(shù)據(jù)挖掘4什么是好的聚類?2023/1/31數(shù)據(jù)挖掘5數(shù)據(jù)挖掘?qū)垲惖囊罂缮炜s性處理不同類型屬性的能力發(fā)現(xiàn)任意形狀的聚類對于決定輸入?yún)?shù)的領(lǐng)域知識需求最小處理帶噪聲數(shù)據(jù)的能力增量聚類和對輸入記錄的次序不敏感高維性基于約束的聚類可解釋性和可用性聚類方法的比較準(zhǔn)則劃分準(zhǔn)則簇的分離性相似性度量聚類空間2023/1/31數(shù)據(jù)挖掘62023/1/31數(shù)據(jù)挖掘7主要聚類方法的分類2023/1/31數(shù)據(jù)挖掘8劃分算法:基本概念2023/1/31數(shù)據(jù)挖掘9K-平均聚類算法平方誤差準(zhǔn)則函數(shù)2023/1/31數(shù)據(jù)挖掘102023/1/31數(shù)據(jù)挖掘11K-平均方法的特點(diǎn)局2023/1/31數(shù)據(jù)挖掘12K-平均方法的變種K-平均法在以下策略上的不同,有一些變種K個平均值的選擇相異度的計(jì)算計(jì)算聚類平均值的策略處理分類數(shù)據(jù):K-模方法用模來代替聚類的平均值使用新的相異性度量來處理分類對象采用相關(guān)的定理來修改聚類的模分類數(shù)據(jù)和數(shù)值數(shù)據(jù)的混合:K-原型方法2023/1/31數(shù)據(jù)挖掘13K-中心點(diǎn)聚類方法絕對誤差標(biāo)準(zhǔn)2023/1/31數(shù)據(jù)挖掘14K-中心點(diǎn)聚類方法2023/1/31數(shù)據(jù)挖掘15PAM(圍繞中心點(diǎn)的劃分)2023/1/31數(shù)據(jù)挖掘16CLARA(Clusteringlargeapplication)2023/1/31數(shù)據(jù)挖掘17層次方法2023/1/31數(shù)據(jù)挖掘18AGNES(AgglomerativeNesting)2023/1/31數(shù)據(jù)挖掘19DIANA(DivisiveAnalysis)與AGNES算法相反最終每一個結(jié)點(diǎn)形成只包含它本身的簇2023/1/31數(shù)據(jù)挖掘20更多關(guān)于層次聚類方法2023/1/31數(shù)據(jù)挖掘21BIRCH2023/1/31數(shù)據(jù)挖掘22聚類特征向量2023/1/31數(shù)據(jù)挖掘232023/1/31數(shù)據(jù)挖掘24CHAMELEON2023/1/31數(shù)據(jù)挖掘25CHAMELEON的總體框架2023/1/31數(shù)據(jù)挖掘26基于密度的聚類方法2023/1/31數(shù)據(jù)挖掘27基于密度的聚類:背景2023/1/31數(shù)據(jù)挖掘282023/1/31數(shù)據(jù)挖掘29DBSCAN:一個基于高度連接區(qū)域的密度聚類算法2023/1/31數(shù)據(jù)挖掘30DBSCAN:算法任意選擇一個點(diǎn)P找出從對象P關(guān)于Eps和MinPts密度可達(dá)的所有點(diǎn)如果是一個中心點(diǎn),則一個聚類就形成了如果P是一個邊界點(diǎn),沒有從P密度可達(dá)的對象,則訪問數(shù)據(jù)庫中其他的點(diǎn)繼續(xù)該過程,直到所有的點(diǎn)被處理2023/1/31數(shù)據(jù)挖掘31基于網(wǎng)格的聚類方法2023/1/31數(shù)據(jù)挖掘32STING:統(tǒng)計(jì)信息網(wǎng)格方法2023/1/31數(shù)據(jù)挖掘332023/1/31數(shù)據(jù)挖掘34聚類的評估估計(jì)聚類趨勢:僅當(dāng)數(shù)據(jù)中存在非隨機(jī)結(jié)構(gòu),聚類分析是有意義確定數(shù)據(jù)集中的簇數(shù):測定聚類的質(zhì)量2023/1/31數(shù)據(jù)挖掘35估計(jì)聚類趨勢霍普金斯統(tǒng)計(jì)量:均勻地從D的空間中抽取n個點(diǎn)p1,p2,…pn。對于每個點(diǎn)找出在D中的最近鄰集合xi均勻地從D的空間中抽取n個點(diǎn)q1,q2,…qn。對于每個點(diǎn)找出在D中的最近鄰集合yi計(jì)算霍普金斯統(tǒng)計(jì)量H如果D為均勻分布,則H大約為0.52023/1/31數(shù)據(jù)挖掘36確定簇數(shù)經(jīng)驗(yàn)方法:對于n個數(shù)據(jù)點(diǎn)集合,設(shè)置簇數(shù)大約為肘方法:給定k>0,使用一種類似k-均值的算法對數(shù)據(jù)集聚類,并計(jì)算簇內(nèi)方差和var(k),繪制var關(guān)于k的曲線,曲線的第一個拐點(diǎn)為正確的簇數(shù)交叉驗(yàn)證:2023/1/31數(shù)據(jù)挖掘37測定聚類質(zhì)量外在方法:有監(jiān)督的方法:簇的同質(zhì)性:聚類中的簇越純,聚類越好簇的完全性:屬于相同類別的對象分配到相同的簇碎布袋:把一個異種對象放入一個純的簇中應(yīng)該比放入碎布袋中受更大的懲罰小簇保持性:把小類別劃分成小片比將大類別劃分成小片更有害2023/1/31數(shù)據(jù)挖掘38精度:同一簇中的有多少個其他對象與該對象同屬一個類別召回率:反映有多少同一類別的對象被分配在相同的簇中2023/1/31數(shù)據(jù)挖掘39內(nèi)在方法輪廓系數(shù):2023/1/31數(shù)據(jù)挖掘40O與O所屬簇的其他對象之間的平均距離O到不屬于O的所有簇的最小平均距離基于概率模型的聚類算法期望最大化方法(EM)2023/1/31數(shù)據(jù)挖掘41期望最大化方法期望步:根據(jù)當(dāng)前的模糊聚類或概率簇的參數(shù),把對象指派到簇中最大化步:發(fā)現(xiàn)新的聚類或參數(shù),最小化模糊聚類的SSE或基于概率模型的聚類的期望似然2023/1/31數(shù)據(jù)挖掘422023/1/31數(shù)據(jù)挖掘43其他基于模型的方法神經(jīng)網(wǎng)絡(luò)方法:將每個簇描述為一個標(biāo)本,標(biāo)本作為聚類的原型根據(jù)某些距離度量,新的對象可以被分配到標(biāo)本于其最相似的簇競爭學(xué)習(xí)采用若干單元的層次結(jié)構(gòu)(神經(jīng)元)以一種“勝者全取”的方式對系統(tǒng)當(dāng)前處理的對象進(jìn)行競爭2023/1/31數(shù)據(jù)挖掘44什么是離群點(diǎn)發(fā)現(xiàn)什么是離群點(diǎn)?和其他數(shù)據(jù)相當(dāng)不同的對象集問題找出n個離群點(diǎn)應(yīng)用信用卡的欺詐檢測電信的欺詐檢測顧客分類醫(yī)療分析全局離群點(diǎn):顯著偏離數(shù)據(jù)集中的其余對象,又稱點(diǎn)異常情境離群點(diǎn):關(guān)于對象的特定情境,它顯著地偏離其他對象,又稱條件離群點(diǎn)集體離群點(diǎn):多個對象作為一個整體顯著地偏離整個數(shù)據(jù)集2023/1/31數(shù)據(jù)挖掘45離群點(diǎn)檢測的方法統(tǒng)計(jì)學(xué)方法:假定正常的數(shù)據(jù)對象由一個統(tǒng)計(jì)模型產(chǎn)生,不遵守該模型的數(shù)據(jù)是離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論