Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第9章 聚類_第1頁(yè)
Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第9章 聚類_第2頁(yè)
Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第9章 聚類_第3頁(yè)
Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第9章 聚類_第4頁(yè)
Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第9章 聚類_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章聚類13-10月-23主講人:***Python數(shù)據(jù)分析與數(shù)據(jù)挖掘目錄contents聚類概述0102基于劃分的K-means聚類算法03基于層次的聚類04基于密度的聚類聚類概述01

將一群物理的或抽象的對(duì)象,根據(jù)它們之間的相似程度分成不同的類(簇),使得各簇之間的相似度盡可能小,而簇內(nèi)數(shù)據(jù)之間則具有較高的相似度,這一過(guò)程就稱為聚類。

一個(gè)類(簇)就是由彼此相似的一組對(duì)象所構(gòu)成的集合,每個(gè)簇可能對(duì)應(yīng)于一些潛在的我們已知的概念(類別),但這類概念對(duì)于聚類算法而言事先是未知的,聚類過(guò)程僅能自動(dòng)形成簇結(jié)構(gòu),簇所對(duì)應(yīng)的概念語(yǔ)義需由使用者來(lái)把握和命名。

采用聚類分析技術(shù),可以把無(wú)標(biāo)識(shí)數(shù)據(jù)對(duì)象自動(dòng)劃分為不同的類,并且可以不受先驗(yàn)知識(shí)的約束和干擾,獲取屬于數(shù)據(jù)集合中原本存在的信息。

聚類分析的數(shù)據(jù)沒(méi)有分類標(biāo)記,由聚類算法自動(dòng)確定,屬無(wú)監(jiān)督學(xué)習(xí)。9.1.1聚類的基本概念9.1.1聚類的基本概念數(shù)據(jù)矩陣(datamatrix):又稱為對(duì)象屬性結(jié)構(gòu),它用p個(gè)變量(也稱為屬性)來(lái)表現(xiàn)對(duì)象,例如用年齡、身高、性別等屬性來(lái)表現(xiàn)對(duì)象“人”。這種數(shù)據(jù)結(jié)構(gòu)是二維關(guān)系表(對(duì)象和屬性)的形式,或者看為p維(n個(gè)對(duì)象對(duì)應(yīng)的p個(gè)屬性)的矩陣。

相異度矩陣(dissimilaritymatrix):又稱為對(duì)象-對(duì)象結(jié)構(gòu),是存儲(chǔ)對(duì)象間的近似性的矩陣,表現(xiàn)形式是一個(gè)n維的矩陣。聚類代表性的數(shù)據(jù)結(jié)構(gòu)

性能度量,亦可稱聚類有效性指標(biāo)(validityindex)。與有監(jiān)督學(xué)習(xí)中的性能度量相似,對(duì)聚類結(jié)果,需要通過(guò)某種性能度量來(lái)評(píng)估其好壞;另一方面,若明確了最終將要使用的性能度量,則可直接將其作為聚類過(guò)程的優(yōu)化目標(biāo),從而更好地得到符合要求的聚類結(jié)果。性能度量9.1.2聚類的距離度量

一般而言,會(huì)定義一個(gè)距離函數(shù)d(x,y)來(lái)確定對(duì)象之間的距離,而這個(gè)距離函數(shù)需要滿足以下幾個(gè)準(zhǔn)則。

(1)d(x,x)=0,即一個(gè)對(duì)象與自身的距離為0。 (2)d(x,y)≥0,即距離是一個(gè)非負(fù)的數(shù)值。(3)d(x,y)=d(y,x),即距離函數(shù)具有對(duì)稱性。 (4)d(x,y)≤d(x,k)+d(k,y),即距離函數(shù)需要滿足三角不等式。

這些準(zhǔn)則的作用是,即使在同一空間中定義了多個(gè)滿足這些準(zhǔn)則的距離函數(shù)時(shí),這些不同的距離函數(shù)能夠保持同樣的變化趨勢(shì),也就是說(shuō)不同的距離函數(shù)反映出的變化趨勢(shì)是相同的。

歐氏距離是最易于理解的一種距離計(jì)算方法,源自歐氏空間中兩點(diǎn)間的距離公式。它定義了多維空間中點(diǎn)與點(diǎn)之間的“直線距離”,其注重各個(gè)對(duì)象的特征在數(shù)值上的差異,適合用于從維度的數(shù)值中分析個(gè)體差異。歐氏距離加權(quán)歐式距離標(biāo)準(zhǔn)化歐氏距離歐氏距離(Sk是該維度的樣本標(biāo)準(zhǔn)差)9.1.2聚類的距離度量[例9-1]計(jì)算歐氏距離9.1.2聚類的距離度量9.1.3聚類的常用算法基于劃分的聚類算法,如:K-means、K-medoids等。基于層次的聚類算法,如:BIRCH、CURE等?;诿芏鹊木垲愃惴ǎ纾篋BSCAN、OPTICS、DENCLUE等。基于網(wǎng)格的聚類算法,如:STING、CLIQUE等。9.1.4聚類的評(píng)估

聚類評(píng)估用于評(píng)估在數(shù)據(jù)集上進(jìn)行聚類的可行性,以及聚類算法產(chǎn)生結(jié)果的質(zhì)量。聚類評(píng)估主要包括:估計(jì)聚類趨勢(shì)、確定聚類簇?cái)?shù)以及度量聚類質(zhì)量。9.1.4聚類的評(píng)估

聚類趨勢(shì)的估計(jì),用于確定給定的數(shù)據(jù)集是否具有可以導(dǎo)致有意義聚類的非隨機(jī)結(jié)構(gòu)。聚類要求數(shù)據(jù)具有非均勻分布,一個(gè)沒(méi)有任何非隨機(jī)結(jié)構(gòu)的數(shù)據(jù)集(如數(shù)據(jù)空間中均勻分布的點(diǎn)),盡管聚類算法可以為這樣的數(shù)據(jù)集返回簇,但這些簇是隨機(jī)的,沒(méi)有任何意義。霍普金斯統(tǒng)計(jì)量(HopkinsStatistic)是一種空間統(tǒng)計(jì)量,可以用來(lái)檢驗(yàn)空間分布的變量的空間隨機(jī)性。1、估計(jì)聚類趨勢(shì)9.1.4聚類的評(píng)估

2、確定聚類簇?cái)?shù)9.1.4聚類的評(píng)估

聚類質(zhì)量的度量指標(biāo)通常有兩種。一種是外部指標(biāo),通常是有監(jiān)督的情況下,有參考標(biāo)準(zhǔn)的指標(biāo)。外部指標(biāo)將聚類算法的聚類結(jié)果和已知標(biāo)準(zhǔn)(有標(biāo)簽的、人工標(biāo)準(zhǔn)或?qū)<覙?gòu)建的理想聚類結(jié)果)相比較,來(lái)度量聚類算法和各參數(shù)的指標(biāo)。另一類是內(nèi)部指標(biāo),通常是無(wú)監(jiān)督的方法,無(wú)需基準(zhǔn)數(shù)據(jù)集,通過(guò)聚類之后,簇內(nèi)聚集程度和簇間離散程度來(lái)評(píng)估聚類的質(zhì)量。3、度量聚類質(zhì)量9.1.4聚類的評(píng)估

外部指標(biāo)是基于已知分類標(biāo)簽數(shù)據(jù)集(基準(zhǔn))進(jìn)行評(píng)價(jià)的,這樣可以將原有標(biāo)簽數(shù)據(jù)與聚類輸出結(jié)果進(jìn)行對(duì)比。基于外部指標(biāo)的理想聚類結(jié)果是:具有不同類標(biāo)簽的數(shù)據(jù)聚合到不同的簇中,具有相同類標(biāo)簽的數(shù)據(jù)聚合相同的簇中。

主要的外部指標(biāo)有:Jaccard系數(shù)(JaccardCoefficient,JC)、FM指數(shù)(FowlkesandMallowsIndex,FMI)、F值(F-measure)、Rand指數(shù)(RandIndex,RI)及調(diào)整蘭德系數(shù)(AdjustedRandIndex,ARI)等。上述指標(biāo)的結(jié)果值均在[0,1]區(qū)間內(nèi),值越大表明聚類算法和參考模型的聚類結(jié)果越接近,聚類質(zhì)量相對(duì)越好。3、度量聚類質(zhì)量——外部指標(biāo)9.1.4聚類的評(píng)估

內(nèi)部指標(biāo)主要基于無(wú)監(jiān)督的方法,無(wú)需基準(zhǔn)數(shù)據(jù),主要根據(jù)數(shù)據(jù)集的集合結(jié)構(gòu)信息,從緊密度、分離度、連通性和重疊度等方面對(duì)聚類劃分進(jìn)行評(píng)價(jià)。內(nèi)部指標(biāo)通過(guò)計(jì)算總體的相似度、簇間平均相似度或簇內(nèi)平均相似度等方面來(lái)評(píng)價(jià)聚類質(zhì)量。這類指標(biāo)常用的有誤差平方和SSE、CH(Calinski-Harabasz)指標(biāo)、輪廓系數(shù)等。誤差平方和SSE,又稱為inertia,計(jì)算簇中所有樣本點(diǎn)到質(zhì)心(centroids)距離的平方和。CH(Calinski-Harabasz)指標(biāo),通過(guò)計(jì)算類中各點(diǎn)與類中心距離的平方和來(lái)度量類內(nèi)的緊密度,通過(guò)計(jì)算各類中心點(diǎn)與數(shù)據(jù)集中心點(diǎn)距離的平方和來(lái)度量數(shù)據(jù)集的分離度。輪廓系數(shù)(SilhouetteCoefficient)指標(biāo):計(jì)算簇內(nèi)不相似度a,簇間不相似度b,單個(gè)樣本的輪廓系數(shù)s定義為:3. 度量聚類質(zhì)量——內(nèi)部指標(biāo)基于劃分的K-means算法029.2.1k-means的基本概念

K-means聚類算法是一種無(wú)監(jiān)督分類算法,通過(guò)分離k個(gè)相等方差組的樣本來(lái)聚集數(shù)據(jù),最小化簇內(nèi)誤差平方和SSE(SumoftheSquaredError,SSE)。

簡(jiǎn)單來(lái)說(shuō),就是根據(jù)指定的簇的數(shù)量,分離出n組數(shù)據(jù),并令它們每組的標(biāo)準(zhǔn)(簇內(nèi)誤差平方和)最小化。

對(duì)于給定一個(gè)包含n個(gè)對(duì)象的數(shù)據(jù): K-means聚類算法會(huì)構(gòu)建初始的k個(gè)劃分,每個(gè)劃分表示一個(gè)簇,k≤n,并且每個(gè)簇滿足:①至少包含一個(gè)對(duì)象;②每個(gè)對(duì)象必須屬于且只屬于一個(gè)簇。然后采用迭代的重定位方法,通過(guò)在劃分間移動(dòng)對(duì)象來(lái)改進(jìn)劃分的質(zhì)量。

一個(gè)好的劃分的一般準(zhǔn)則:在同一聚類中的對(duì)象之間盡可能“接近”,而不同聚類的對(duì)象之間盡可能“遠(yuǎn)離”。9.2.1k-means的基本概念具體過(guò)程如下:mi是Ci的質(zhì)心,。Je是所有樣本的誤差平方和。9.2.1k-means的基本概念簇:表示數(shù)據(jù)的類。質(zhì)心:簇的中心,即中心點(diǎn),通常使用簇內(nèi)各個(gè)對(duì)象的均值表示。聚類結(jié)果評(píng)價(jià):簇內(nèi)誤差平方和(SSE),公式如下所示:9.2.2k-means算法過(guò)程1、選擇隨機(jī)的k個(gè)簇的初始劃分,計(jì)算這些簇的質(zhì)心。2、根據(jù)歐氏距離把剩余的每個(gè)樣本分配到離它最近的簇質(zhì)心的一個(gè)劃分。3、計(jì)算被分配到每個(gè)簇的樣本的均值向量,做為新的簇的質(zhì)心。4、重復(fù)2,3步,直到k個(gè)簇的質(zhì)心點(diǎn)不再發(fā)生變化或誤差平方和最小。

時(shí)間復(fù)雜度:每一次迭代會(huì)把每一個(gè)對(duì)象劃分到離它最近的聚類中心所在的簇,這個(gè)過(guò)程的時(shí)間復(fù)雜度為O(nkd),n是指總的數(shù)據(jù)對(duì)象個(gè)數(shù),k是指定的聚類數(shù),d是指數(shù)據(jù)對(duì)象的維數(shù)。1、質(zhì)心數(shù)量k是事先確定的,這個(gè)k值很難估計(jì)。很難知道給定的數(shù)據(jù)集應(yīng)該分成多少類才最合適。2、常采用誤差平方和函數(shù)作為聚類準(zhǔn)則函數(shù),常適用于各類之間區(qū)別明顯且數(shù)據(jù)分布稠密的樣本。但如果各類的形狀和大小差別很大,有可能出現(xiàn)將大的聚類分割的現(xiàn)象。3、在運(yùn)用誤差平方和準(zhǔn)則函數(shù)測(cè)度聚類效果時(shí),最佳聚類結(jié)果對(duì)應(yīng)于目標(biāo)函數(shù)的極值點(diǎn),由于目標(biāo)函數(shù)存在著許多局部極小點(diǎn),而算法的每一步都沿著目標(biāo)函數(shù)減小的方向進(jìn)行,若初始化落在一個(gè)局部極小點(diǎn)附近,就會(huì)造成算法在局部極小點(diǎn)處收斂。因此初始聚類中心的隨機(jī)選取可能會(huì)陷入局部最優(yōu)解,而難以獲得全局最優(yōu)解。4、該算法需要不斷地對(duì)樣本聚類進(jìn)行調(diào)整,不斷地計(jì)算新的聚類中心。因此,當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開(kāi)銷將是非常大的。9.2.2k-means算法過(guò)程k-means算法的不足之處:9.2.3 scikit-learn中的K-means應(yīng)用sklearn.cluster模塊中KMeans函數(shù)用于K-means聚類。該函數(shù)主要參數(shù)如表9-1所示。表9-1KMeans函數(shù)的主要參數(shù)9.2.3 scikit-learn中的K-means應(yīng)用[例9-2]使用K-means對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。

從結(jié)果圖可知,聚類分析產(chǎn)生的結(jié)果還是非??煽康?,雖然有一部分聚類的結(jié)果與實(shí)際情況不符,但是總體上非常接近。

第一類的聚類結(jié)果與實(shí)際情況完全相同,對(duì)第二類的聚類結(jié)果與第三類有些混淆,但僅僅是少數(shù),多數(shù)的聚類結(jié)果還是正確的,存在的誤差可以接受。[例9-2]使用K-means對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。圖9-1鳶尾花數(shù)據(jù)集K-Means聚類結(jié)果9.2.3 scikit-learn中的K-means應(yīng)用[例9-3]使用scikit中的make_blobs方法,生成聚類的樣本數(shù)據(jù)并用K-means進(jìn)行聚類。9.2.3 scikit-learn中的K-means應(yīng)用[例9-3]使用scikit中的make_blobs方法,生成聚類的樣本數(shù)據(jù)并用K-means進(jìn)行聚類。圖9-2make_blobs生成數(shù)據(jù)集的K-Means聚類結(jié)果9.2.3 scikit-learn中的K-means應(yīng)用基于層次的聚類039.3.1基于層次的聚類的基本原理1、核心思想

對(duì)數(shù)據(jù)集按照層次,把數(shù)據(jù)劃分到不同層的簇,從而形成一個(gè)樹(shù)形的聚類結(jié)構(gòu),可以使用畫(huà)圖函數(shù)將樹(shù)形的聚類結(jié)構(gòu)輸出。2、基本原理

一開(kāi)始將每個(gè)點(diǎn)都看成一個(gè)簇,然后計(jì)算各個(gè)數(shù)據(jù)點(diǎn)間的相似性,將所有數(shù)據(jù)點(diǎn)中最相似的兩個(gè)數(shù)據(jù)點(diǎn)進(jìn)行組合,并反復(fù)迭代這一過(guò)程。

簡(jiǎn)單的說(shuō),基于層次的聚類是通過(guò)計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)與所有數(shù)據(jù)點(diǎn)之間的距離來(lái)確定它們之間的相似性,距離越小,相似度越高,并將距離最近的兩個(gè)數(shù)據(jù)點(diǎn)或類別進(jìn)行組合,生成聚類樹(shù)。3、分類聚合聚類:特點(diǎn):自底向上代表:BIRCH、ROCK算法聚類過(guò)程:將每個(gè)樣本看作一個(gè)簇,初始狀態(tài)下簇的數(shù)目等于樣本的數(shù)目,然后根據(jù)算法的規(guī)則對(duì)樣本進(jìn)行合并,直到滿足算法的終止條件。分裂聚類:特點(diǎn):自頂向下代表:DIANA算法聚類過(guò)程:先將所有樣本看作屬于同一個(gè)簇,然后逐漸分裂成更小的簇,直到滿足算法終止條件為止。9.3.1基于層次的聚類的基本原理9.3.2基于層次的聚類過(guò)程

CURE算法的具體過(guò)程為:(1)從總數(shù)據(jù)中隨機(jī)選取一個(gè)樣本;(2)利用層次聚類算法把這個(gè)樣本聚類,形成最初的簇;(3)生成“代表點(diǎn)”:對(duì)于每個(gè)簇,選取代表點(diǎn)(例如4個(gè)),這些點(diǎn)盡量分散,按照固定的比例α(收縮因子),把每個(gè)樣本點(diǎn)向簇的“質(zhì)心”收縮,生成代表點(diǎn);(4)合并距離最近的簇直至簇個(gè)數(shù)為所要求的個(gè)數(shù)為止。1、CURE算法

CURE算法(ClusteringUsingRepresentative)是一種針對(duì)大型數(shù)據(jù)庫(kù)的高效聚類算法,它屬于凝聚層次聚類方法,可適應(yīng)非球形的幾何形狀數(shù)據(jù)的聚類,且對(duì)孤立點(diǎn)的處理更加健壯。(1)初始化,將每個(gè)樣本歸為一簇,計(jì)算每?jī)蓚€(gè)簇之間的距離,也就是樣本與樣本之間的相似度。(2)尋找各個(gè)類之間最近的兩個(gè)簇,把他們歸為一簇。(3)重新計(jì)算新生成的這個(gè)簇與各個(gè)舊的簇之間的相似度。(4)重復(fù)(2)(3)直到所有樣本點(diǎn)都?xì)w為一簇,結(jié)束。2、BIRCH算法

BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies)全稱是:利用層次方法的平衡迭代規(guī)約和聚類,適合于數(shù)據(jù)量大、類別數(shù)較多的聚類任務(wù)。BIRCH采用了一種多階段聚類技術(shù),是層次聚類和其他聚類算法的集成。BIRCH是一種基于距離的層次聚類算法,它最大的特點(diǎn)是能利用有限的內(nèi)存資源完成對(duì)大數(shù)據(jù)集的高質(zhì)量的聚類,同時(shí)通過(guò)單遍掃描數(shù)據(jù)集能最小化I/O代價(jià)。

BIRCH算法的具體過(guò)程為:9.3.2基于層次的聚類過(guò)程9.3.3 scikit-learn中的BIRCH應(yīng)用

sklearn.cluster模塊中Birch函數(shù)用于Birch聚類。該函數(shù)主要參數(shù)如表9-2所示:表9-2Birch函數(shù)的主要參數(shù)9.3.3 scikit-learn中的BIRCH應(yīng)用[例9-4]使用BIRCH對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。

從結(jié)果上看,與K-means算法的結(jié)果基本相同,可以看出BIRCH算法在鳶尾花數(shù)據(jù)上的聚類效果也相對(duì)滿意。[例9-4]使用BIRCH對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。圖9-3鳶尾花數(shù)據(jù)集BIRCH聚類結(jié)果9.3.3 scikit-learn中的BIRCH應(yīng)用[例9-5]使用make_blobs方法生成聚類的樣本數(shù)據(jù),并用BIRCH進(jìn)行聚類。9.3.3 scikit-learn中的BIRCH應(yīng)用9.3.3 scikit-learn中的BIRCH應(yīng)用圖9-4make_blobs生成數(shù)據(jù)集的BIRCH聚類結(jié)果[例9-5]使用make_blobs方法生成聚類的樣本數(shù)據(jù),并用BIRCH進(jìn)行聚類?;诿芏鹊木垲?41、定義

將樣本中的高密度區(qū)域(即樣本點(diǎn)分布稠密的區(qū)域)劃分為簇,將簇看作是樣本空間中被稀疏區(qū)域(噪聲)分隔開(kāi)的稠密區(qū)域,是一種基于高密度連接區(qū)域的密度聚類算法。2、代表算法DBSCAN、OPTICS3、適用范圍

挖掘任意形狀的簇,并且能夠有效過(guò)濾掉噪聲樣本對(duì)于聚類結(jié)果的影響。9.4.1 基于密度的聚類的基本原理聚類過(guò)程—DBSCAN算法(1)以每一個(gè)樣本點(diǎn)xi為圓心,以eps為半徑畫(huà)一個(gè)圓。這個(gè)圓被稱為樣本點(diǎn)xi的eps鄰域。(2)對(duì)這個(gè)圓內(nèi)包含的點(diǎn)進(jìn)行計(jì)數(shù)。如果一個(gè)圓中的樣本點(diǎn)的數(shù)目超過(guò)了我們?cè)O(shè)定的密度閾值MinPts,那么將該圓的樣本點(diǎn)圓心記為核心點(diǎn),又稱核心對(duì)象。如果某個(gè)樣本點(diǎn)的eps鄰域內(nèi)樣本點(diǎn)的個(gè)數(shù)小于密度閾值但是其本身落在了核心點(diǎn)的鄰域內(nèi),則稱該點(diǎn)為邊界點(diǎn)。除此之外,既不是核心點(diǎn)也不是邊界點(diǎn)的點(diǎn),就是噪聲點(diǎn)。(3)核心點(diǎn)xi的eps鄰域內(nèi)的所有的點(diǎn),都由xi密度直達(dá)(如果xi位于xj的eps鄰域中,且xj是核心對(duì)象,則稱xi由xj密度直達(dá))。如果xj由xi密度直達(dá),xk由xj密度直達(dá)。xn由xk密度直達(dá),那么xn由xi密度可達(dá)。這個(gè)性質(zhì)說(shuō)明了由密度直達(dá)的傳遞性,可以推導(dǎo)出密度可達(dá)。(4)如果對(duì)于xk,使xi和xj都可以由xk密度可達(dá),那么就稱xi和xj密度相連。將密度相連的點(diǎn)連接在一起,就形成了我們的聚類簇。9.4.2 基于密度的聚類過(guò)程DBSCAN算法涉及兩個(gè)參數(shù):半徑eps和密度閾值MinPts,算法的具體過(guò)程為:9.4.3 scikit-learn中的DBSCAN應(yīng)用

sklearn.cluster模塊中DBSCAN函數(shù)用于DBSCAN聚類。Sklearn中的DBSCAN模型主要參數(shù)有兩個(gè):eps和min_samples,這兩個(gè)參數(shù)的組合對(duì)最終聚類效果有重要的影響,這兩個(gè)參數(shù)的含義如下:1. eps:float型,默認(rèn)值為0.5。DBSCAN模型中最重要的參數(shù),表示鄰域的距離閾值,即當(dāng)將一個(gè)樣本視為在另一個(gè)樣本的鄰域中時(shí),兩個(gè)樣本之間的最大距離。一般需要在多組值中選擇一個(gè)合適的閾值。若eps過(guò)大,則更多的點(diǎn)會(huì)落在核心對(duì)象的鄰域,此時(shí)簇?cái)?shù)可能會(huì)減少,將不應(yīng)該聚為一類的樣本劃為一類。若eps過(guò)小,則類別數(shù)可能會(huì)增大,本應(yīng)是一類的樣本卻被劃分開(kāi)。2. min_samples:int型,默認(rèn)值為5。表示樣本點(diǎn)要成為核心對(duì)象所需要的鄰域樣本數(shù)閾值。通常和eps一起調(diào)參。在eps一定的情況下,min_samples過(guò)大,則核心對(duì)象會(huì)過(guò)少,此時(shí)簇內(nèi)部分本來(lái)是一類的樣本可能會(huì)被標(biāo)為噪音點(diǎn),類別數(shù)也會(huì)變多。反之min_samples過(guò)小的話,則會(huì)產(chǎn)生大量的核心對(duì)象,可能會(huì)導(dǎo)致類別數(shù)過(guò)少。9.4.3 scikit-learn中的DBSCAN應(yīng)用[例9-6]使用DBSCAN對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。圖9-5鳶尾花數(shù)據(jù)集DBSCAN聚類結(jié)果[例9-6]使用DBSCAN對(duì)鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。9.4.3 scikit-learn中的DBSCAN應(yīng)用9.4.3 scikit-learn中的DBSCAN應(yīng)用[例9-7]使用make_blobs方法生成聚類的測(cè)試數(shù)據(jù),并用DBSCAN進(jìn)行聚類。9.4.3 scikit-learn中的DBSCAN應(yīng)用[例9-7]使用make_blobs方法生成聚類的測(cè)試數(shù)據(jù),并用DBSCAN進(jìn)行聚類。[例9-7]使用make_blobs方法生成聚類的測(cè)試數(shù)據(jù),并用DBSCAN進(jìn)行聚類。9.4.3 scikit-learn中的DBSCAN應(yīng)用圖9-6make_blobs生成數(shù)據(jù)集的DBSCAN聚類結(jié)果本章實(shí)踐例題本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k,并使用CH指標(biāo)評(píng)價(jià)不同k時(shí)的聚類質(zhì)量。本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k,并使用CH指標(biāo)評(píng)價(jià)不同k時(shí)的聚類質(zhì)量。本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k,并分別使用ARI和CH指標(biāo)評(píng)價(jià)不同k時(shí)的聚類質(zhì)量。圖9-7用肘方法為iris的K-means聚類選擇最優(yōu)簇?cái)?shù)k圖9-8簇?cái)?shù)為3時(shí)K-means對(duì)iris數(shù)據(jù)的聚類結(jié)果本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k,并使用CH指標(biāo)評(píng)價(jià)不同k時(shí)的聚類質(zhì)量。例9-9用PCA對(duì)iris數(shù)據(jù)進(jìn)行降維,并用KMeans對(duì)降維后的數(shù)據(jù)進(jìn)行聚類。本章實(shí)踐例題例9-9用PCA對(duì)iris數(shù)據(jù)進(jìn)行降維,并用KMeans對(duì)降維后的數(shù)據(jù)進(jìn)行聚類。本章實(shí)踐例題

圖9-9直接用KMeans對(duì)iris聚類的結(jié)果圖9-10對(duì)iri進(jìn)行PCA降維后的聚類結(jié)果本章實(shí)踐例題[例9-10]非“球形簇”數(shù)據(jù)的不同聚類算法對(duì)比。本章實(shí)踐例題[

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論