互聯(lián)網(wǎng)大數(shù)據(jù)ppt第7章 大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法_第1頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第7章 大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法_第2頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第7章 大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法_第3頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第7章 大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法_第4頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)ppt第7章 大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.1大數(shù)據(jù)分析聚類(lèi)算法概述7.2K均值聚類(lèi)算法7.3基于密度的DBSCAN聚類(lèi)方法7.4高斯混合模型聚類(lèi)算法7.5層次聚類(lèi)算法7.1大數(shù)據(jù)分析聚類(lèi)算法概述7.1.1聚類(lèi)分析的相關(guān)概念及應(yīng)用場(chǎng)景1.聚類(lèi)分析的概念聚類(lèi)分析(ClusterAnalysis)又稱(chēng)群分析,它是研究(樣品或指標(biāo))分類(lèi)問(wèn)題的一種統(tǒng)計(jì)分析方法,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要算法。聚類(lèi)分析也就是將一些具有相似性質(zhì)的數(shù)據(jù)劃分到一起,得到多個(gè)具有不同性質(zhì)的數(shù)據(jù)類(lèi)集合。從數(shù)據(jù)挖掘的角度看,聚類(lèi)分析可以大致分為以下四種。1)劃分聚類(lèi)2)層次聚類(lèi)3)基于密度的聚類(lèi)4)基于網(wǎng)格的聚類(lèi)第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.1大數(shù)據(jù)分析聚類(lèi)算法概述7.1.1聚類(lèi)分析的相關(guān)概念及應(yīng)用場(chǎng)景2.聚類(lèi)算法應(yīng)用場(chǎng)景1)基于用戶(hù)位置信息的商業(yè)選址 2)中文地址標(biāo)準(zhǔn)化處理3)非人惡意流量識(shí)別 4)國(guó)家電網(wǎng)用戶(hù)畫(huà)像5)求職信息完善 6)搜索引擎查詢(xún)聚類(lèi)以進(jìn)行流量推薦7)保險(xiǎn)投保者分組 8)生物種群固有結(jié)構(gòu)認(rèn)知9)圖像分割 10)網(wǎng)站關(guān)鍵詞整合第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.1大數(shù)據(jù)分析聚類(lèi)算法概述7.1.2聚類(lèi)算法運(yùn)行基礎(chǔ):簇與距離度量聚類(lèi)算法中,將數(shù)據(jù)集中的樣本劃分為若干個(gè)不相交的子集,每個(gè)子集即為一個(gè)簇(樣本簇或類(lèi)別)。距離度量的方法主要包括以下一些。1.閔可夫斯基距離 2.曼哈頓距離3.歐式距離 4.切比雪夫距離5.馬氏距離 6.余弦相似度7.皮爾遜相關(guān)系數(shù) 8.漢明距離9.杰卡德相似系數(shù) 10.編輯距離11.動(dòng)態(tài)時(shí)間歸整距離第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.2K均值聚類(lèi)算法7.2.1基于劃分的K均值聚類(lèi)算法K均值聚類(lèi)算法(K-MeansClusteringAlgorithm),也叫K-means聚類(lèi)算法,它屬于無(wú)監(jiān)督學(xué)習(xí),其樣本所屬的類(lèi)別是未知的,只是根據(jù)特征將樣本分類(lèi),且類(lèi)別空間也由人為需要而選定。K-means聚類(lèi)算法的思想是最小化所有樣本到所屬類(lèi)別中心的歐式距離和,采用迭代的方式實(shí)現(xiàn)收斂。K-means聚類(lèi)算法是最著名的劃分聚類(lèi)算法,它的特點(diǎn)是簡(jiǎn)潔和效率高,因此它作為聚類(lèi)算法中主要采用的方法而被廣泛使用。第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.2K均值聚類(lèi)算法7.2.2二分K均值聚類(lèi)算法運(yùn)行原理二分K均值(Bisecting?K-means)聚類(lèi)算法是基于經(jīng)典K-均值算法實(shí)現(xiàn)的,作為K-means聚類(lèi)算法的改進(jìn)算法,其調(diào)用經(jīng)典K-均值(k=2),把一個(gè)聚簇分成兩個(gè),迭代到分成k個(gè)停止。第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.3基于密度的DBSCAN聚類(lèi)方法7.3.1DBSCAN算法原理解析1.DBSCAN算法的相關(guān)定義DBSCAN(密度聚類(lèi))算法可以解決不規(guī)則形狀聚類(lèi),它是一種具有代表性的基于密度的聚類(lèi)算法。DBSCAN算法不同于劃分和層次聚類(lèi)方法,它將簇定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類(lèi)。2.DBSCAN算法的思想DBSCAN使用的方法很簡(jiǎn)單,它任意選擇一個(gè)沒(méi)有類(lèi)別的核心對(duì)象,然后找到由這個(gè)對(duì)象密度可達(dá)的所有樣本組成的集合,這個(gè)集合即為一個(gè)滿(mǎn)足連接性與最大性的聚類(lèi)簇。接著選擇另一個(gè)沒(méi)有類(lèi)別的核心對(duì)象,以同樣的方法得到另一個(gè)聚類(lèi)簇,這樣一直執(zhí)行到所有核心對(duì)象都有類(lèi)別為止。第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.3基于密度的DBSCAN聚類(lèi)方法7.3.2DBSCAN算法的基本運(yùn)行流程第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.4高斯混合模型聚類(lèi)算法7.4.1GMM算法原理分析第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法二維高斯數(shù)據(jù)分布圖混合高斯分布產(chǎn)生的數(shù)據(jù)用單高斯模型對(duì)樣本進(jìn)行分析的結(jié)果用混合高斯模型對(duì)數(shù)據(jù)樣本進(jìn)行分析的結(jié)果7.4高斯混合模型聚類(lèi)算法7.4.2GMM的最大期望算法GMM的最大期望算法即EM算法(ExpectationMaximizationAlgorithm,又叫期望最大化算法),是一種迭代算法,用于含有隱變量(LatentVariable)的概率參數(shù)模型的最大似然估計(jì)或極大后驗(yàn)概率估計(jì)。由于迭代規(guī)則容易實(shí)現(xiàn)并可以靈活考慮隱變量,EM算法被廣泛應(yīng)用于處理數(shù)據(jù)的缺測(cè)值,以及很多機(jī)器學(xué)習(xí)算法,包括GMM和隱馬爾可夫模型(HiddenMarkovModel,HMM)的參數(shù)估計(jì)。第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.5層次聚類(lèi)算法7.5.1層次聚類(lèi)算法的算法思想層次聚類(lèi)算法是對(duì)給定的數(shù)據(jù)集進(jìn)行層次的分解,直到某種條件滿(mǎn)足為止。層次聚類(lèi)算法的基本思想是:通過(guò)某種相似性測(cè)度計(jì)算節(jié)點(diǎn)之間的相似性,并按相似度由高到低排序,逐步重新連接每個(gè)節(jié)點(diǎn)。該方法的優(yōu)點(diǎn)是可隨時(shí)停止劃分。主要步驟如下:(1)移除網(wǎng)絡(luò)中的所有邊,得到有n個(gè)孤立節(jié)點(diǎn)的初始狀態(tài);(2)計(jì)算網(wǎng)絡(luò)中每對(duì)節(jié)點(diǎn)的相似度;(3)根據(jù)相似度從強(qiáng)到弱連接相應(yīng)節(jié)點(diǎn)對(duì),形成樹(shù)狀圖;(4)根據(jù)實(shí)際需求橫切樹(shù)狀圖,獲得社區(qū)結(jié)構(gòu)。第7章大數(shù)據(jù)分析中的四種常見(jiàn)聚類(lèi)算法7.5層次聚類(lèi)算法7.5.2層次聚類(lèi)算法的運(yùn)行原理層次聚類(lèi)算法可分為凝聚和分裂兩種方法。1.凝聚的層次聚類(lèi)算法凝聚的層次聚類(lèi)算法是一種自底向上的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有的對(duì)象都在一個(gè)簇中,或者某個(gè)終結(jié)條件被滿(mǎn)足。2.分裂的層次聚類(lèi)算法分裂的層

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論