Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類

上傳人：y*** IP屬地：山東上傳時(shí)間：2023-10-14 格式：PPTX 頁數(shù)：63 大?。?.49MB 積分：15 舉報(bào) 版權(quán)申訴

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類_第2頁

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類_第3頁

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類_第4頁

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類_第5頁

已閱讀5頁，還剩58頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第9章聚類13-10月-23主講人：***Python數(shù)據(jù)分析與數(shù)據(jù)挖掘目錄contents聚類概述0102基于劃分的K-means聚類算法03基于層次的聚類04基于密度的聚類聚類概述01

將一群物理的或抽象的對象，根據(jù)它們之間的相似程度分成不同的類(簇)，使得各簇之間的相似度盡可能小，而簇內(nèi)數(shù)據(jù)之間則具有較高的相似度，這一過程就稱為聚類。

一個(gè)類(簇)就是由彼此相似的一組對象所構(gòu)成的集合，每個(gè)簇可能對應(yīng)于一些潛在的我們已知的概念(類別)，但這類概念對于聚類算法而言事先是未知的，聚類過程僅能自動(dòng)形成簇結(jié)構(gòu)，簇所對應(yīng)的概念語義需由使用者來把握和命名。

采用聚類分析技術(shù)，可以把無標(biāo)識數(shù)據(jù)對象自動(dòng)劃分為不同的類，并且可以不受先驗(yàn)知識的約束和干擾，獲取屬于數(shù)據(jù)集合中原本存在的信息。

聚類分析的數(shù)據(jù)沒有分類標(biāo)記，由聚類算法自動(dòng)確定，屬無監(jiān)督學(xué)習(xí)。9.1.1聚類的基本概念9.1.1聚類的基本概念數(shù)據(jù)矩陣(datamatrix)：又稱為對象屬性結(jié)構(gòu)，它用p個(gè)變量(也稱為屬性)來表現(xiàn)對象，例如用年齡、身高、性別等屬性來表現(xiàn)對象“人”。這種數(shù)據(jù)結(jié)構(gòu)是二維關(guān)系表(對象和屬性)的形式，或者看為p維(n個(gè)對象對應(yīng)的p個(gè)屬性)的矩陣。

相異度矩陣(dissimilaritymatrix)：又稱為對象-對象結(jié)構(gòu)，是存儲對象間的近似性的矩陣，表現(xiàn)形式是一個(gè)n維的矩陣。聚類代表性的數(shù)據(jù)結(jié)構(gòu)

性能度量，亦可稱聚類有效性指標(biāo)(validityindex)。與有監(jiān)督學(xué)習(xí)中的性能度量相似，對聚類結(jié)果，需要通過某種性能度量來評估其好壞；另一方面，若明確了最終將要使用的性能度量，則可直接將其作為聚類過程的優(yōu)化目標(biāo)，從而更好地得到符合要求的聚類結(jié)果。性能度量9.1.2聚類的距離度量

一般而言，會(huì)定義一個(gè)距離函數(shù)d(x，y)來確定對象之間的距離，而這個(gè)距離函數(shù)需要滿足以下幾個(gè)準(zhǔn)則。

(1)d(x，x)=0，即一個(gè)對象與自身的距離為0。 (2)d(x，y)≥0，即距離是一個(gè)非負(fù)的數(shù)值。(3)d(x，y)=d(y，x)，即距離函數(shù)具有對稱性。 (4)d(x，y)≤d(x，k)+d(k，y)，即距離函數(shù)需要滿足三角不等式。

這些準(zhǔn)則的作用是，即使在同一空間中定義了多個(gè)滿足這些準(zhǔn)則的距離函數(shù)時(shí)，這些不同的距離函數(shù)能夠保持同樣的變化趨勢，也就是說不同的距離函數(shù)反映出的變化趨勢是相同的。

歐氏距離是最易于理解的一種距離計(jì)算方法，源自歐氏空間中兩點(diǎn)間的距離公式。它定義了多維空間中點(diǎn)與點(diǎn)之間的“直線距離”，其注重各個(gè)對象的特征在數(shù)值上的差異，適合用于從維度的數(shù)值中分析個(gè)體差異。歐氏距離加權(quán)歐式距離標(biāo)準(zhǔn)化歐氏距離歐氏距離（Sk是該維度的樣本標(biāo)準(zhǔn)差）9.1.2聚類的距離度量[例9-1]計(jì)算歐氏距離9.1.2聚類的距離度量9.1.3聚類的常用算法基于劃分的聚類算法，如：K-means、K-medoids等。基于層次的聚類算法，如：BIRCH、CURE等?；诿芏鹊木垲愃惴?，如：DBSCAN、OPTICS、DENCLUE等?；诰W(wǎng)格的聚類算法，如：STING、CLIQUE等。9.1.4聚類的評估

聚類評估用于評估在數(shù)據(jù)集上進(jìn)行聚類的可行性，以及聚類算法產(chǎn)生結(jié)果的質(zhì)量。聚類評估主要包括：估計(jì)聚類趨勢、確定聚類簇?cái)?shù)以及度量聚類質(zhì)量。9.1.4聚類的評估

聚類趨勢的估計(jì)，用于確定給定的數(shù)據(jù)集是否具有可以導(dǎo)致有意義聚類的非隨機(jī)結(jié)構(gòu)。聚類要求數(shù)據(jù)具有非均勻分布，一個(gè)沒有任何非隨機(jī)結(jié)構(gòu)的數(shù)據(jù)集（如數(shù)據(jù)空間中均勻分布的點(diǎn)），盡管聚類算法可以為這樣的數(shù)據(jù)集返回簇，但這些簇是隨機(jī)的，沒有任何意義?；羝战鹚菇y(tǒng)計(jì)量(HopkinsStatistic)是一種空間統(tǒng)計(jì)量，可以用來檢驗(yàn)空間分布的變量的空間隨機(jī)性。1、估計(jì)聚類趨勢9.1.4聚類的評估

2、確定聚類簇?cái)?shù)9.1.4聚類的評估

聚類質(zhì)量的度量指標(biāo)通常有兩種。一種是外部指標(biāo)，通常是有監(jiān)督的情況下，有參考標(biāo)準(zhǔn)的指標(biāo)。外部指標(biāo)將聚類算法的聚類結(jié)果和已知標(biāo)準(zhǔn)（有標(biāo)簽的、人工標(biāo)準(zhǔn)或?qū)＜覙?gòu)建的理想聚類結(jié)果）相比較，來度量聚類算法和各參數(shù)的指標(biāo)。另一類是內(nèi)部指標(biāo)，通常是無監(jiān)督的方法，無需基準(zhǔn)數(shù)據(jù)集，通過聚類之后，簇內(nèi)聚集程度和簇間離散程度來評估聚類的質(zhì)量。3、度量聚類質(zhì)量9.1.4聚類的評估

外部指標(biāo)是基于已知分類標(biāo)簽數(shù)據(jù)集（基準(zhǔn)）進(jìn)行評價(jià)的，這樣可以將原有標(biāo)簽數(shù)據(jù)與聚類輸出結(jié)果進(jìn)行對比。基于外部指標(biāo)的理想聚類結(jié)果是：具有不同類標(biāo)簽的數(shù)據(jù)聚合到不同的簇中，具有相同類標(biāo)簽的數(shù)據(jù)聚合相同的簇中。

主要的外部指標(biāo)有：Jaccard系數(shù)（JaccardCoefficient,JC）、FM指數(shù)（FowlkesandMallowsIndex,FMI）、F值（F-measure）、Rand指數(shù)（RandIndex,RI）及調(diào)整蘭德系數(shù)（AdjustedRandIndex，ARI）等。上述指標(biāo)的結(jié)果值均在[0,1]區(qū)間內(nèi)，值越大表明聚類算法和參考模型的聚類結(jié)果越接近，聚類質(zhì)量相對越好。3、度量聚類質(zhì)量——外部指標(biāo)9.1.4聚類的評估

內(nèi)部指標(biāo)主要基于無監(jiān)督的方法，無需基準(zhǔn)數(shù)據(jù)，主要根據(jù)數(shù)據(jù)集的集合結(jié)構(gòu)信息，從緊密度、分離度、連通性和重疊度等方面對聚類劃分進(jìn)行評價(jià)。內(nèi)部指標(biāo)通過計(jì)算總體的相似度、簇間平均相似度或簇內(nèi)平均相似度等方面來評價(jià)聚類質(zhì)量。這類指標(biāo)常用的有誤差平方和SSE、CH（Calinski-Harabasz）指標(biāo)、輪廓系數(shù)等。誤差平方和SSE，又稱為inertia，計(jì)算簇中所有樣本點(diǎn)到質(zhì)心（centroids）距離的平方和。CH（Calinski-Harabasz）指標(biāo)，通過計(jì)算類中各點(diǎn)與類中心距離的平方和來度量類內(nèi)的緊密度，通過計(jì)算各類中心點(diǎn)與數(shù)據(jù)集中心點(diǎn)距離的平方和來度量數(shù)據(jù)集的分離度。輪廓系數(shù)（SilhouetteCoefficient）指標(biāo)：計(jì)算簇內(nèi)不相似度a，簇間不相似度b，單個(gè)樣本的輪廓系數(shù)s定義為：3. 度量聚類質(zhì)量——內(nèi)部指標(biāo)基于劃分的K-means算法029.2.1k-means的基本概念

K-means聚類算法是一種無監(jiān)督分類算法，通過分離k個(gè)相等方差組的樣本來聚集數(shù)據(jù)，最小化簇內(nèi)誤差平方和SSE(SumoftheSquaredError,SSE)。

簡單來說，就是根據(jù)指定的簇的數(shù)量，分離出n組數(shù)據(jù)，并令它們每組的標(biāo)準(zhǔn)(簇內(nèi)誤差平方和)最小化。

對于給定一個(gè)包含n個(gè)對象的數(shù)據(jù)： K-means聚類算法會(huì)構(gòu)建初始的k個(gè)劃分，每個(gè)劃分表示一個(gè)簇，k≤n，并且每個(gè)簇滿足:①至少包含一個(gè)對象;②每個(gè)對象必須屬于且只屬于一個(gè)簇。然后采用迭代的重定位方法，通過在劃分間移動(dòng)對象來改進(jìn)劃分的質(zhì)量。

一個(gè)好的劃分的一般準(zhǔn)則：在同一聚類中的對象之間盡可能“接近”，而不同聚類的對象之間盡可能“遠(yuǎn)離”。9.2.1k-means的基本概念具體過程如下：mi是Ci的質(zhì)心，。Je是所有樣本的誤差平方和。9.2.1k-means的基本概念簇：表示數(shù)據(jù)的類。質(zhì)心：簇的中心，即中心點(diǎn)，通常使用簇內(nèi)各個(gè)對象的均值表示。聚類結(jié)果評價(jià)：簇內(nèi)誤差平方和(SSE)，公式如下所示：9.2.2k-means算法過程1、選擇隨機(jī)的k個(gè)簇的初始劃分，計(jì)算這些簇的質(zhì)心。2、根據(jù)歐氏距離把剩余的每個(gè)樣本分配到離它最近的簇質(zhì)心的一個(gè)劃分。3、計(jì)算被分配到每個(gè)簇的樣本的均值向量，做為新的簇的質(zhì)心。4、重復(fù)2,3步，直到k個(gè)簇的質(zhì)心點(diǎn)不再發(fā)生變化或誤差平方和最小。

時(shí)間復(fù)雜度：每一次迭代會(huì)把每一個(gè)對象劃分到離它最近的聚類中心所在的簇，這個(gè)過程的時(shí)間復(fù)雜度為O(nkd)，n是指總的數(shù)據(jù)對象個(gè)數(shù)，k是指定的聚類數(shù)，d是指數(shù)據(jù)對象的維數(shù)。1、質(zhì)心數(shù)量k是事先確定的，這個(gè)k值很難估計(jì)。很難知道給定的數(shù)據(jù)集應(yīng)該分成多少類才最合適。2、常采用誤差平方和函數(shù)作為聚類準(zhǔn)則函數(shù)，常適用于各類之間區(qū)別明顯且數(shù)據(jù)分布稠密的樣本。但如果各類的形狀和大小差別很大，有可能出現(xiàn)將大的聚類分割的現(xiàn)象。3、在運(yùn)用誤差平方和準(zhǔn)則函數(shù)測度聚類效果時(shí)，最佳聚類結(jié)果對應(yīng)于目標(biāo)函數(shù)的極值點(diǎn)，由于目標(biāo)函數(shù)存在著許多局部極小點(diǎn)，而算法的每一步都沿著目標(biāo)函數(shù)減小的方向進(jìn)行，若初始化落在一個(gè)局部極小點(diǎn)附近，就會(huì)造成算法在局部極小點(diǎn)處收斂。因此初始聚類中心的隨機(jī)選取可能會(huì)陷入局部最優(yōu)解，而難以獲得全局最優(yōu)解。4、該算法需要不斷地對樣本聚類進(jìn)行調(diào)整，不斷地計(jì)算新的聚類中心。因此，當(dāng)數(shù)據(jù)量非常大時(shí)，算法的時(shí)間開銷將是非常大的。9.2.2k-means算法過程k-means算法的不足之處：9.2.3 scikit-learn中的K-means應(yīng)用sklearn.cluster模塊中KMeans函數(shù)用于K-means聚類。該函數(shù)主要參數(shù)如表9-1所示。表9-1KMeans函數(shù)的主要參數(shù)9.2.3 scikit-learn中的K-means應(yīng)用[例9-2]使用K-means對鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。

從結(jié)果圖可知，聚類分析產(chǎn)生的結(jié)果還是非常可靠的，雖然有一部分聚類的結(jié)果與實(shí)際情況不符，但是總體上非常接近。

第一類的聚類結(jié)果與實(shí)際情況完全相同，對第二類的聚類結(jié)果與第三類有些混淆，但僅僅是少數(shù)，多數(shù)的聚類結(jié)果還是正確的，存在的誤差可以接受。[例9-2]使用K-means對鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。圖9-1鳶尾花數(shù)據(jù)集K-Means聚類結(jié)果9.2.3 scikit-learn中的K-means應(yīng)用[例9-3]使用scikit中的make_blobs方法，生成聚類的樣本數(shù)據(jù)并用K-means進(jìn)行聚類。9.2.3 scikit-learn中的K-means應(yīng)用[例9-3]使用scikit中的make_blobs方法，生成聚類的樣本數(shù)據(jù)并用K-means進(jìn)行聚類。圖9-2make_blobs生成數(shù)據(jù)集的K-Means聚類結(jié)果9.2.3 scikit-learn中的K-means應(yīng)用基于層次的聚類039.3.1基于層次的聚類的基本原理1、核心思想

對數(shù)據(jù)集按照層次，把數(shù)據(jù)劃分到不同層的簇，從而形成一個(gè)樹形的聚類結(jié)構(gòu)，可以使用畫圖函數(shù)將樹形的聚類結(jié)構(gòu)輸出。2、基本原理

一開始將每個(gè)點(diǎn)都看成一個(gè)簇，然后計(jì)算各個(gè)數(shù)據(jù)點(diǎn)間的相似性，將所有數(shù)據(jù)點(diǎn)中最相似的兩個(gè)數(shù)據(jù)點(diǎn)進(jìn)行組合，并反復(fù)迭代這一過程。

簡單的說，基于層次的聚類是通過計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)與所有數(shù)據(jù)點(diǎn)之間的距離來確定它們之間的相似性，距離越小，相似度越高，并將距離最近的兩個(gè)數(shù)據(jù)點(diǎn)或類別進(jìn)行組合，生成聚類樹。3、分類聚合聚類：特點(diǎn)：自底向上代表：BIRCH、ROCK算法聚類過程：將每個(gè)樣本看作一個(gè)簇，初始狀態(tài)下簇的數(shù)目等于樣本的數(shù)目，然后根據(jù)算法的規(guī)則對樣本進(jìn)行合并，直到滿足算法的終止條件。分裂聚類：特點(diǎn)：自頂向下代表：DIANA算法聚類過程：先將所有樣本看作屬于同一個(gè)簇，然后逐漸分裂成更小的簇，直到滿足算法終止條件為止。9.3.1基于層次的聚類的基本原理9.3.2基于層次的聚類過程

CURE算法的具體過程為：（1）從總數(shù)據(jù)中隨機(jī)選取一個(gè)樣本；（2）利用層次聚類算法把這個(gè)樣本聚類，形成最初的簇；（3）生成“代表點(diǎn)”：對于每個(gè)簇，選取代表點(diǎn)（例如4個(gè)），這些點(diǎn)盡量分散，按照固定的比例α（收縮因子），把每個(gè)樣本點(diǎn)向簇的“質(zhì)心”收縮，生成代表點(diǎn)；（4）合并距離最近的簇直至簇個(gè)數(shù)為所要求的個(gè)數(shù)為止。1、CURE算法

CURE算法(ClusteringUsingRepresentative)是一種針對大型數(shù)據(jù)庫的高效聚類算法，它屬于凝聚層次聚類方法，可適應(yīng)非球形的幾何形狀數(shù)據(jù)的聚類，且對孤立點(diǎn)的處理更加健壯。（1）初始化，將每個(gè)樣本歸為一簇，計(jì)算每兩個(gè)簇之間的距離，也就是樣本與樣本之間的相似度。（2）尋找各個(gè)類之間最近的兩個(gè)簇，把他們歸為一簇。（3）重新計(jì)算新生成的這個(gè)簇與各個(gè)舊的簇之間的相似度。（4）重復(fù)(2)(3)直到所有樣本點(diǎn)都?xì)w為一簇，結(jié)束。2、BIRCH算法

BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies)全稱是：利用層次方法的平衡迭代規(guī)約和聚類，適合于數(shù)據(jù)量大、類別數(shù)較多的聚類任務(wù)。BIRCH采用了一種多階段聚類技術(shù)，是層次聚類和其他聚類算法的集成。BIRCH是一種基于距離的層次聚類算法，它最大的特點(diǎn)是能利用有限的內(nèi)存資源完成對大數(shù)據(jù)集的高質(zhì)量的聚類，同時(shí)通過單遍掃描數(shù)據(jù)集能最小化I/O代價(jià)。

BIRCH算法的具體過程為：9.3.2基于層次的聚類過程9.3.3 scikit-learn中的BIRCH應(yīng)用

sklearn.cluster模塊中Birch函數(shù)用于Birch聚類。該函數(shù)主要參數(shù)如表9-2所示：表9-2Birch函數(shù)的主要參數(shù)9.3.3 scikit-learn中的BIRCH應(yīng)用[例9-4]使用BIRCH對鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。

從結(jié)果上看，與K-means算法的結(jié)果基本相同，可以看出BIRCH算法在鳶尾花數(shù)據(jù)上的聚類效果也相對滿意。[例9-4]使用BIRCH對鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。圖9-3鳶尾花數(shù)據(jù)集BIRCH聚類結(jié)果9.3.3 scikit-learn中的BIRCH應(yīng)用[例9-5]使用make_blobs方法生成聚類的樣本數(shù)據(jù)，并用BIRCH進(jìn)行聚類。9.3.3 scikit-learn中的BIRCH應(yīng)用9.3.3 scikit-learn中的BIRCH應(yīng)用圖9-4make_blobs生成數(shù)據(jù)集的BIRCH聚類結(jié)果[例9-5]使用make_blobs方法生成聚類的樣本數(shù)據(jù)，并用BIRCH進(jìn)行聚類。基于密度的聚類041、定義

將樣本中的高密度區(qū)域(即樣本點(diǎn)分布稠密的區(qū)域)劃分為簇，將簇看作是樣本空間中被稀疏區(qū)域(噪聲)分隔開的稠密區(qū)域，是一種基于高密度連接區(qū)域的密度聚類算法。2、代表算法DBSCAN、OPTICS3、適用范圍

挖掘任意形狀的簇，并且能夠有效過濾掉噪聲樣本對于聚類結(jié)果的影響。9.4.1 基于密度的聚類的基本原理聚類過程—DBSCAN算法（1）以每一個(gè)樣本點(diǎn)xi為圓心，以eps為半徑畫一個(gè)圓。這個(gè)圓被稱為樣本點(diǎn)xi的eps鄰域。（2）對這個(gè)圓內(nèi)包含的點(diǎn)進(jìn)行計(jì)數(shù)。如果一個(gè)圓中的樣本點(diǎn)的數(shù)目超過了我們設(shè)定的密度閾值MinPts，那么將該圓的樣本點(diǎn)圓心記為核心點(diǎn)，又稱核心對象。如果某個(gè)樣本點(diǎn)的eps鄰域內(nèi)樣本點(diǎn)的個(gè)數(shù)小于密度閾值但是其本身落在了核心點(diǎn)的鄰域內(nèi)，則稱該點(diǎn)為邊界點(diǎn)。除此之外，既不是核心點(diǎn)也不是邊界點(diǎn)的點(diǎn)，就是噪聲點(diǎn)。（3）核心點(diǎn)xi的eps鄰域內(nèi)的所有的點(diǎn)，都由xi密度直達(dá)(如果xi位于xj的eps鄰域中，且xj是核心對象，則稱xi由xj密度直達(dá))。如果xj由xi密度直達(dá)，xk由xj密度直達(dá)。xn由xk密度直達(dá)，那么xn由xi密度可達(dá)。這個(gè)性質(zhì)說明了由密度直達(dá)的傳遞性，可以推導(dǎo)出密度可達(dá)。（4）如果對于xk，使xi和xj都可以由xk密度可達(dá)，那么就稱xi和xj密度相連。將密度相連的點(diǎn)連接在一起，就形成了我們的聚類簇。9.4.2 基于密度的聚類過程DBSCAN算法涉及兩個(gè)參數(shù)：半徑eps和密度閾值MinPts，算法的具體過程為：9.4.3 scikit-learn中的DBSCAN應(yīng)用

sklearn.cluster模塊中DBSCAN函數(shù)用于DBSCAN聚類。Sklearn中的DBSCAN模型主要參數(shù)有兩個(gè)：eps和min_samples，這兩個(gè)參數(shù)的組合對最終聚類效果有重要的影響，這兩個(gè)參數(shù)的含義如下：1. eps：float型，默認(rèn)值為0.5。DBSCAN模型中最重要的參數(shù)，表示鄰域的距離閾值，即當(dāng)將一個(gè)樣本視為在另一個(gè)樣本的鄰域中時(shí)，兩個(gè)樣本之間的最大距離。一般需要在多組值中選擇一個(gè)合適的閾值。若eps過大，則更多的點(diǎn)會(huì)落在核心對象的鄰域，此時(shí)簇?cái)?shù)可能會(huì)減少，將不應(yīng)該聚為一類的樣本劃為一類。若eps過小，則類別數(shù)可能會(huì)增大，本應(yīng)是一類的樣本卻被劃分開。2. min_samples：int型，默認(rèn)值為5。表示樣本點(diǎn)要成為核心對象所需要的鄰域樣本數(shù)閾值。通常和eps一起調(diào)參。在eps一定的情況下，min_samples過大，則核心對象會(huì)過少，此時(shí)簇內(nèi)部分本來是一類的樣本可能會(huì)被標(biāo)為噪音點(diǎn)，類別數(shù)也會(huì)變多。反之min_samples過小的話，則會(huì)產(chǎn)生大量的核心對象，可能會(huì)導(dǎo)致類別數(shù)過少。9.4.3 scikit-learn中的DBSCAN應(yīng)用[例9-6]使用DBSCAN對鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。圖9-5鳶尾花數(shù)據(jù)集DBSCAN聚類結(jié)果[例9-6]使用DBSCAN對鳶尾花(iris)數(shù)據(jù)集進(jìn)行聚類。9.4.3 scikit-learn中的DBSCAN應(yīng)用9.4.3 scikit-learn中的DBSCAN應(yīng)用[例9-7]使用make_blobs方法生成聚類的測試數(shù)據(jù)，并用DBSCAN進(jìn)行聚類。9.4.3 scikit-learn中的DBSCAN應(yīng)用[例9-7]使用make_blobs方法生成聚類的測試數(shù)據(jù)，并用DBSCAN進(jìn)行聚類。[例9-7]使用make_blobs方法生成聚類的測試數(shù)據(jù)，并用DBSCAN進(jìn)行聚類。9.4.3 scikit-learn中的DBSCAN應(yīng)用圖9-6make_blobs生成數(shù)據(jù)集的DBSCAN聚類結(jié)果本章實(shí)踐例題本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k，并使用CH指標(biāo)評價(jià)不同k時(shí)的聚類質(zhì)量。本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k，并使用CH指標(biāo)評價(jià)不同k時(shí)的聚類質(zhì)量。本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k，并分別使用ARI和CH指標(biāo)評價(jià)不同k時(shí)的聚類質(zhì)量。圖9-7用肘方法為iris的K-means聚類選擇最優(yōu)簇?cái)?shù)k圖9-8簇?cái)?shù)為3時(shí)K-means對iris數(shù)據(jù)的聚類結(jié)果本章實(shí)踐例題[例9-8]用肘方法為鳶尾花iris數(shù)據(jù)的K-means聚類選擇最優(yōu)的簇?cái)?shù)k，并使用CH指標(biāo)評價(jià)不同k時(shí)的聚類質(zhì)量。例9-9用PCA對iris數(shù)據(jù)進(jìn)行降維，并用KMeans對降維后的數(shù)據(jù)進(jìn)行聚類。本章實(shí)踐例題例9-9用PCA對iris數(shù)據(jù)進(jìn)行降維，并用KMeans對降維后的數(shù)據(jù)進(jìn)行聚類。本章實(shí)踐例題

圖9-9直接用KMeans對iris聚類的結(jié)果圖9-10對iri進(jìn)行PCA降維后的聚類結(jié)果本章實(shí)踐例題[例9-10]非“球形簇”數(shù)據(jù)的不同聚類算法對比。本章實(shí)踐例題[

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類

文檔簡介

溫馨提示

最新文檔

評論

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘 課件 第9章 聚類

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python數(shù)據(jù)分析與數(shù)據(jù)挖掘課件第9章聚類