聚類(lèi)分析與MATLAB實(shí)現(xiàn)_第1頁(yè)
聚類(lèi)分析與MATLAB實(shí)現(xiàn)_第2頁(yè)
聚類(lèi)分析與MATLAB實(shí)現(xiàn)_第3頁(yè)
聚類(lèi)分析與MATLAB實(shí)現(xiàn)_第4頁(yè)
聚類(lèi)分析與MATLAB實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)方法(聚類(lèi)分析):聚類(lèi)分析—所研究的樣本或者變量之間存在程度不同的相似性,要求設(shè)法找出一些能夠度量它們之間相似程度的統(tǒng)計(jì)量作為分類(lèi)的依據(jù),再利用這些量將樣本或者變量進(jìn)行分類(lèi)系統(tǒng)聚類(lèi)分析—將n個(gè)樣本或者n個(gè)指標(biāo)看成n類(lèi),一類(lèi)包括一個(gè)樣本或者指標(biāo),然后將性質(zhì)最接近的兩類(lèi)合并成為一個(gè)新類(lèi),依此類(lèi)推。最終可以按照需要來(lái)決定分多少類(lèi),每類(lèi)有多少樣本(指標(biāo))第一頁(yè),共65頁(yè)。統(tǒng)計(jì)方法(系統(tǒng)聚類(lèi)分析步驟):系統(tǒng)聚類(lèi)方法步驟:計(jì)算n個(gè)樣本兩兩之間的距離構(gòu)成n個(gè)類(lèi),每類(lèi)只包含一個(gè)樣品合并距離最近的兩類(lèi)為一個(gè)新類(lèi)計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離(新類(lèi)與當(dāng)前類(lèi)的距離等于當(dāng)前類(lèi)與組合類(lèi)中包含的類(lèi)的距離最小值),若類(lèi)的個(gè)數(shù)等于1,轉(zhuǎn)5,否則轉(zhuǎn)3畫(huà)聚類(lèi)圖決定類(lèi)的個(gè)數(shù)和類(lèi)。第二頁(yè),共65頁(yè)。系統(tǒng)聚類(lèi)分析:主要介紹系統(tǒng)聚類(lèi)分析方法。系統(tǒng)聚類(lèi)法是聚類(lèi)分析中應(yīng)用最為廣泛的一種方法,它的基本原理是:首先將一定數(shù)量的樣品或指標(biāo)各自看成一類(lèi),然后根據(jù)樣品(或指標(biāo))的親疏程度,將親疏程度最高的兩類(lèi)進(jìn)行合并。然后考慮合并后的類(lèi)與其他類(lèi)之間的親疏程度,再進(jìn)行合并。重復(fù)這一過(guò)程,直至將所有的樣品(或指標(biāo))合并為一類(lèi)。

第三頁(yè),共65頁(yè)。系統(tǒng)聚類(lèi)分析用到的函數(shù):函數(shù)功能pdist計(jì)算觀測(cè)量?jī)蓛芍g的距離

squareform將距離矩陣從上三角形式轉(zhuǎn)換為方形形式,或從方形形式轉(zhuǎn)換為上三角形式

linkage創(chuàng)建系統(tǒng)聚類(lèi)樹(shù)

dendrogram輸出冰柱圖

cophenet計(jì)算Cophenetic相關(guān)系數(shù)

cluster根據(jù)linkage函數(shù)的輸出創(chuàng)建分類(lèi)

clusterdata根據(jù)數(shù)據(jù)創(chuàng)建分類(lèi)

inconsistent計(jì)算聚類(lèi)樹(shù)的不連續(xù)系數(shù)

第四頁(yè),共65頁(yè)。聚類(lèi)分析研究對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對(duì)象的個(gè)體的特征進(jìn)行分類(lèi)的方法。聚類(lèi)分析把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi),這些類(lèi)非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類(lèi)中這些對(duì)象在某種意義上趨向于彼此相似,而在不同類(lèi)中趨向于不相似。職能是建立一種能按照樣品或變量的相似程度進(jìn)行分類(lèi)的方法。第五頁(yè),共65頁(yè)。第六頁(yè),共65頁(yè)。聚類(lèi)分析有兩種:一種是對(duì)樣品的分類(lèi),稱(chēng)為Q型,另一種是對(duì)變量(指標(biāo))的分類(lèi),稱(chēng)為R型。R型聚類(lèi)分析的主要作用:⒈不但可以了解個(gè)別變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。⒉根據(jù)變量的分類(lèi)結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類(lèi)分析或回歸分析。(R2為選擇標(biāo)準(zhǔn))Q型聚類(lèi)分析的主要作用:⒈可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分析。⒉分類(lèi)結(jié)果直觀,聚類(lèi)譜系圖清楚地表現(xiàn)數(shù)值分類(lèi)結(jié)果。⒊聚類(lèi)分析所得到的結(jié)果比傳統(tǒng)分類(lèi)方法更細(xì)致、全面、合理。在課堂上主要討論Q型聚類(lèi)分析,Q型聚類(lèi)常用的統(tǒng)計(jì)量是距離.第七頁(yè),共65頁(yè)。4.1樣品(變量)間相近性度量4.1.1聚類(lèi)分析的基本思想在生產(chǎn)實(shí)際中經(jīng)常遇到給產(chǎn)品等級(jí)進(jìn)行分類(lèi)的問(wèn)題,如一等品、二等品等,在生物學(xué)中,要根據(jù)生物的特征進(jìn)行分類(lèi);在考古時(shí)要對(duì)古生物化石進(jìn)行科學(xué)分類(lèi);在球類(lèi)比賽中經(jīng)常要對(duì)各球隊(duì)進(jìn)行分組如何確定種子隊(duì),這些問(wèn)題就是聚類(lèi)分析問(wèn)題。隨著科學(xué)技術(shù)的發(fā)展,我們利用已知數(shù)據(jù)首先提取數(shù)據(jù)特征,然后借助計(jì)算機(jī)依據(jù)這些特征進(jìn)行分類(lèi),聚類(lèi)的依據(jù)在于各類(lèi)別之間的接近程度如何計(jì)量,通常采取距離與相似系數(shù)進(jìn)行衡量。第八頁(yè),共65頁(yè)。設(shè)有n個(gè)樣品的p元觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣其中每一行表示一個(gè)樣品,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣品關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值,聚類(lèi)分析的基本思想就是在樣品之間定義距離,在指標(biāo)之間定義相似系數(shù),樣品之間距離表明樣品之間的相似度,指標(biāo)之間的相似系數(shù)刻畫(huà)指標(biāo)之間的相似度。將樣品(或變量)按相似度的大小逐一歸類(lèi),關(guān)系密切的聚集到較小的一類(lèi),關(guān)系疏遠(yuǎn)的聚集到較大的一類(lèi),聚類(lèi)分析通常有:譜系聚類(lèi)、快速聚類(lèi),我們主要介紹譜系聚類(lèi)的方法與MATLAB實(shí)現(xiàn)第九頁(yè),共65頁(yè)。4.1.2樣品間的相似度量—距離一.常用距離的定義設(shè)有n個(gè)樣品的p元觀測(cè)數(shù)據(jù):這時(shí),每個(gè)樣品可看成p元空間的一個(gè)點(diǎn),每?jī)蓚€(gè)點(diǎn)之間的距離記為滿足條件:第十頁(yè),共65頁(yè)。1.歐氏距離pdist(x)2.絕對(duì)距離pdist(x,’cityblock’)3.明氏距離pdist(x,’minkowski’,r)4.切氏距離max(abs(xi-xj))5.方差加權(quán)距離將原數(shù)據(jù)標(biāo)準(zhǔn)化以后的歐氏距離6.馬氏距離pdist(x,’mahal’)第十一頁(yè),共65頁(yè)。7.蘭氏距離8.杰氏距離(Jffreys&Matusita)第十二頁(yè),共65頁(yè)。例1.為了研究遼寧、浙江、河南、甘肅、青海5省1991年城鎮(zhèn)居民生活消費(fèi)規(guī)律,需要利用調(diào)查資料對(duì)五個(gè)省進(jìn)行分類(lèi),指標(biāo)變量共8個(gè),意義如下:x1:人均糧食支出,x2:人均副食支出;x3:人均煙酒茶支出,x4:人均其他副食支出,x5:人均衣著商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出X1X2X3X4X5X6X7X8遼寧7.939.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.319.2514.592.7514.87河南9.4227.938.28.1416.179.421.559.76甘肅9.1627.989.019.3215.999.11.8211.35青海10.0628.6410.5210.0516.188.391.9610.81表11991年五省城鎮(zhèn)居民生活月均消費(fèi)(元/人)第十三頁(yè),共65頁(yè)。計(jì)算各省之間的歐氏、絕對(duì)、明氏距離解:a=[7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];d1=pdist(a);%此時(shí)計(jì)算出各行之間的歐氏距離,為了得到書(shū)中的距離矩陣,我們鍵入命令:D=squareform(d1),%注意此時(shí)d1必須是一個(gè)行向量,結(jié)果是實(shí)對(duì)稱(chēng)矩陣若想得到書(shū)中的三角陣,則有命令:S=tril(squareform(d1))第十四頁(yè),共65頁(yè)。S=0000011.6726000013.805424.635300013.127824.05912.20330012.798323.53893.50372.21590d2=pdist(a,'cityblock');S2=tril(squareform(d2))S2=0000019.89000027.247.0500024.5843.394.660026.5242.318.085.380d3=pdist(a,'minkowski',3);S3=tril(squareform(d3))第十五頁(yè),共65頁(yè)。序號(hào)國(guó)家1990199520001澳大利亞1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中國(guó)1330.451382.681462.085法國(guó)1546.551501.771525.956德國(guó)1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄羅斯1475.161315.87129711南非794.25787.48782.3812英國(guó)1486.751441.711465.1213美國(guó)2824.292659.642740.12例2.13個(gè)國(guó)家1990,1995,2000可持續(xù)發(fā)展能力如下:分成4類(lèi)采用不同的距離,得到結(jié)果如下第十六頁(yè),共65頁(yè)。類(lèi)別歐氏距離(最短距離)1日本2澳大利亞、加拿大、英、德、意、中、俄、法3巴西、印度、南非4美國(guó)類(lèi)別歐氏距離(ward距離)1澳大利亞、中、意、俄2加拿大、英、德、法、日本3巴西、印度、南非4美國(guó)第十七頁(yè),共65頁(yè)。類(lèi)別馬氏距離(ward距離)1日本2澳大利亞、加拿大、英、德、意、南非、俄、法3巴西、印度、中4美國(guó)第十八頁(yè),共65頁(yè)。4.1.3變量間的相似度量——相似系數(shù)當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類(lèi)時(shí),用相似系數(shù)來(lái)衡量變量之間的相似程度(關(guān)聯(lián)度),若用表示變量之間的相似系數(shù),則應(yīng)滿足:相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦。第十九頁(yè),共65頁(yè)。①夾角余弦兩變量的夾角余弦定義為:

第二十頁(yè),共65頁(yè)。②相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為:

第二十一頁(yè),共65頁(yè)。例3.計(jì)算例1中各指標(biāo)之間的相關(guān)系數(shù)與夾角余弦解:a=[7.9 39.77 8.49 12.94 19.27 11.05 2.0413.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.559.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];R=corrcoef(a);%指標(biāo)之間的相關(guān)系數(shù)a1=normc(a);%將a的各列化為單位向量J=a1’*a1%計(jì)算a中各列之間的夾角余弦J=1.00000.94100.98470.96130.98240.95460.96200.96950.94101.00000.97820.99390.98530.99770.99470.99350.98470.97821.00000.98590.99110.98400.99310.99090.96130.99390.98591.00000.99440.99190.99470.99810.98240.98530.99110.99441.00000.99010.99010.99680.95460.99770.98400.99190.99011.00000.99520.99530.96200.99470.99310.99470.99010.99521.00000.99680.96950.99350.99090.99810.99680.99530.99681.0000第二十二頁(yè),共65頁(yè)。4.2譜系聚類(lèi)法譜系聚類(lèi)法是目前應(yīng)用較為廣泛的一種聚類(lèi)法。譜系聚類(lèi)是根據(jù)生物分類(lèi)學(xué)的思想對(duì)研究對(duì)象進(jìn)行分類(lèi)的方法。在生物分類(lèi)學(xué)中,分類(lèi)的單位是:門(mén)、綱、目、科、屬、種。其中種是分類(lèi)的基本單位,分類(lèi)單位越小,它所包含的生物就越少,生物之間的共同特征就越多。利用這種思想,譜系聚類(lèi)首先將各樣品自成一類(lèi),然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類(lèi),再將已聚合的小類(lèi)按各類(lèi)之間的相似性(用類(lèi)間距離度量)進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類(lèi)都聚為一大類(lèi),從而得到一個(gè)按相似性大小聚結(jié)起來(lái)的一個(gè)譜系圖。第二十三頁(yè),共65頁(yè)。聚類(lèi)分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng)。最后把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來(lái)。這種方法是最常用的、最基本的一種,稱(chēng)為系統(tǒng)聚類(lèi)分析。第二十四頁(yè),共65頁(yè)。4.2.1類(lèi)間距離前面,我們介紹了兩個(gè)向量之間的距離,下面我們介紹兩個(gè)類(lèi)別之間的距離:設(shè)dij表示兩個(gè)樣品xi,xj之間的距離,Gp,Gq分別表示兩個(gè)類(lèi)別,各自含有np,nq個(gè)樣品.(1)最短距離即用兩類(lèi)中樣品之間的距離最短者作為兩類(lèi)間距離(2)最長(zhǎng)距離即用兩類(lèi)中樣品之間的距離最長(zhǎng)者作為兩類(lèi)間距離第二十五頁(yè),共65頁(yè)。最短距離(NearestNeighbor)x21?x12?x22?x11?最長(zhǎng)距離(FurthestNeighbor

)???x11?x21????第二十六頁(yè),共65頁(yè)。重心距離????????第二十七頁(yè),共65頁(yè)。最長(zhǎng)距離最短距離ABCDEF第二十八頁(yè),共65頁(yè)。中間距離第二十九頁(yè),共65頁(yè)。(3)類(lèi)平均距離即用兩類(lèi)中所有兩兩樣品之間距離的平均作為兩類(lèi)間距離(4)重心距離其中分別是Gp,Gq的重心,這是用兩類(lèi)的重心之間的歐氏距離作為兩類(lèi)間的距離。(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比。第三十頁(yè),共65頁(yè)。4.2.2類(lèi)間距離的遞推公式設(shè)有兩類(lèi)Gp,Gq合并成新的一類(lèi)Gr,包含了nr=np+nq個(gè)樣品,如何計(jì)算Gr與其他類(lèi)別Gk之間的距離,這就需要建立類(lèi)間距離的遞推公式。(1)最短距離(2)最長(zhǎng)距離(3)類(lèi)平均距離(4)重心距離第三十一頁(yè),共65頁(yè)。證明:將代入(1)(1)

將上式中加上再減去與,合并同類(lèi)項(xiàng)得第三十二頁(yè),共65頁(yè)。上式第二行合并同類(lèi)項(xiàng),得(5)離差平方和距離第三十三頁(yè),共65頁(yè)。1.選擇樣本間距離的定義及類(lèi)間距離的定義;2.計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣

3.構(gòu)造個(gè)類(lèi),每類(lèi)只含有一個(gè)樣本;4.合并符合類(lèi)間距離定義要求的兩類(lèi)為一個(gè)新類(lèi);5.計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫(huà)出聚類(lèi)圖;

7.決定類(lèi)的個(gè)數(shù)和類(lèi)。4.2.3譜系聚類(lèi)法的步驟

譜系聚類(lèi)的步驟如下:第三十四頁(yè),共65頁(yè)。系統(tǒng)聚類(lèi)分析的方法系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離以及類(lèi)間距離的定義,類(lèi)間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),令;以下用D(p,q)表示類(lèi)Gp和Gq之間的距離。第三十五頁(yè),共65頁(yè)。(1)n個(gè)樣品開(kāi)始作為n個(gè)類(lèi),計(jì)算兩兩之間的距離或相似系數(shù),得到實(shí)對(duì)稱(chēng)矩陣(2)從D0的非主對(duì)角線上找最?。ň嚯x)或最大元素(相似系數(shù)),設(shè)該元素是Dpq,則將Gp,Gq合并成一個(gè)新類(lèi)Gr=(Gp,Gq),在D0中去掉Gp,Gq所在的兩行、兩列,并加上新類(lèi)與其余各類(lèi)之間的距離(或相似系數(shù)),得到n-1階矩陣D1。第三十六頁(yè),共65頁(yè)。(3)從D1出發(fā)重復(fù)步驟(2)的做法得到D2,再由D2出發(fā)重復(fù)上述步驟,直到所有樣品聚為一個(gè)大類(lèi)為止。(4)在合并過(guò)程中要記下合并樣品的編號(hào)及兩類(lèi)合并時(shí)的水平,并繪制聚類(lèi)譜系圖。例4.

從例1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進(jìn)行譜系聚類(lèi)。(1)最短距離,(2)最長(zhǎng)距離解:我們用1,2,3,4,5分別表示遼寧、浙江、河南、甘肅和青海,將距離矩陣記為D0第三十七頁(yè),共65頁(yè)。(1)最短距離法:將各省看成一類(lèi),即Gi={i}i=1,…,5,從D0可以看出各類(lèi)中距離最短的是d43=2.20,因此將G3,G4在2.20水平上合成一個(gè)新類(lèi)G6={3,4},計(jì)算G6和G1,G2,G5之間的最短距離

,得第三十八頁(yè),共65頁(yè)。將計(jì)算結(jié)果作為第一列,從D0中去掉第3、4行與3、4列,剩余元素作為其余各列得到D1從D1可以看出G6與G5的距離最小,因此在2.21的水平上將G6與G5合成一類(lèi)G7,即G7={3,4,5}計(jì)算G7與G1,G2之間的最短距離,得第三十九頁(yè),共65頁(yè)。將計(jì)算結(jié)果作為第一列,從D1中劃掉{3,4}與{5}所在的行與列,剩余元素作為其他列得從D2可以看出G1,G2最接近,在11.67的水平上合并成一類(lèi)G8,至此只剩下G7,G8兩類(lèi),他們之間的距離為:12.8,故在此水平上將合成一類(lèi),包含了全部的五個(gè)省份。最后,我們作出譜系聚類(lèi)圖:

第四十頁(yè),共65頁(yè)。圖1最短距離聚類(lèi)圖最長(zhǎng)距離聚類(lèi)方法,同學(xué)練習(xí)第四十一頁(yè),共65頁(yè)。例為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律,根據(jù)調(diào)查資料做類(lèi)型分類(lèi),用最短距離做類(lèi)間分類(lèi)。數(shù)據(jù)如下:x1x2x3x4x5x6x7x8遼寧17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肅49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81第四十二頁(yè),共65頁(yè)。將每一個(gè)省區(qū)視為一個(gè)樣品,先計(jì)算5個(gè)省區(qū)之間的歐式距離,用D0表示距離矩陣(對(duì)稱(chēng)陣,故給出下三角陣)因此將3.4合并為一類(lèi),為類(lèi)6,替代了3、4兩類(lèi)類(lèi)6與剩余的1、2、5之間的距離分別為:

d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21第四十三頁(yè),共65頁(yè)。得到新矩陣合并類(lèi)6和類(lèi)5,得到新類(lèi)7類(lèi)7與剩余的1、2之間的距離分別為:

d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54第四十四頁(yè),共65頁(yè)。得到新矩陣合并類(lèi)1和類(lèi)2,得到新類(lèi)8此時(shí),我們有兩個(gè)不同的類(lèi):類(lèi)7和類(lèi)8。它們的最近距離d(7,8)

=min(d71,d72)=min(12.80,23.54)=12.80第四十五頁(yè),共65頁(yè)。得到矩陣最后合并為一個(gè)大類(lèi)。這就是按最短距離定義類(lèi)間距離的系統(tǒng)聚類(lèi)方法。最長(zhǎng)距離法類(lèi)似!第四十六頁(yè),共65頁(yè)。4.2.4譜系聚類(lèi)的MATLAB實(shí)現(xiàn):(1)輸入數(shù)據(jù)矩陣,注意行與列的實(shí)際意義;(2)計(jì)算各樣品之間的距離(行?列?)歐氏距離:d=pdist(A)%注意計(jì)算A中各行之間的距離;絕對(duì)距離:d=pdist(A,'cityblock');明氏距離:d=pdist(A,'minkowski',r);%r要填上具體的實(shí)數(shù);方差加權(quán)距離:d=pdist(A,'seuclid');馬氏距離:d=pdist(A,'mahal');第四十七頁(yè),共65頁(yè)。注意:以上命令輸出的結(jié)果是一個(gè)行向量,如果要得到距離矩陣,可以用命令:

D=squareform(d),若得到三角陣,可以用命令:D=tril(squareform(d1))(3)

選擇不同的類(lèi)間距離進(jìn)行聚類(lèi)最短距離:z1=linkage(d)%此處及以下的d都是(2)中算出的距離行向量最長(zhǎng)距離:z2=linkage(d,'complete')中間距離:z3=linkage(d,'centroid')重心距離:z4=linkage(d,'average')離差平方和:z5=linkage(d,'ward')第四十八頁(yè),共65頁(yè)。注意:此時(shí)輸出的結(jié)果是一個(gè)n-1行3列的矩陣,每一行表示在某水平上合并為一類(lèi)的序號(hào);(4)作出譜系聚類(lèi)圖H=dendrogram(z,d)%注意若樣本少于30,可以省去d,否則必須填寫(xiě).(5)根據(jù)分類(lèi)數(shù)目,輸出聚類(lèi)結(jié)果T=cluster(z,k)%注意k是分類(lèi)數(shù)目,z是(3)中的結(jié)果Find(T==k0)%找出屬于第k0類(lèi)的樣品編號(hào)第四十九頁(yè),共65頁(yè)。例5.將例1利用MATLAB軟件進(jìn)行聚類(lèi)解:b=[7.9 39.77 8.49 12.94 19.27 11.05 2.04 13.297.68 50.37 11.35 13.3 19.25 14.59 2.75 14.879.42 27.93 8.2 8.14 16.17 9.42 1.55 9.769.16 27.98 9.01 9.32 15.99 9.1 1.82 11.3510.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81];歐氏距離:d1=pdist(b);%b中每行之間距離%五種類(lèi)間距離聚類(lèi)z1=linkage(d1);z2=linkage(d1,'complete');z3=linkage(d1,'average');z4=linkage(d1,'centroid');z5=linkage(d1,'ward');第五十頁(yè),共65頁(yè)。其中z1輸出結(jié)果為:z1=3.00004.00002.20336.00005.00002.21591.00002.000011.67268.00007.000012.7983

%在2.2033的水平,G3,G4合成一類(lèi)為G6%在2.2159的水平,G6,G5合成一類(lèi)為G7%在11.6726的水平,G1,G2合成一類(lèi)為G8%在12.7983的水平,G7,G8合成一類(lèi)第五十一頁(yè),共65頁(yè)。作譜系聚類(lèi)圖:H=dendrogram(z1)%輸出分類(lèi)結(jié)果T=cluster(z1,3)T12333

圖2.最短距離聚類(lèi)圖結(jié)果表明:若分為三類(lèi),則遼寧是一類(lèi),浙江是一類(lèi),河南、青海和甘肅是另一類(lèi)。第五十二頁(yè),共65頁(yè)。以上是樣品之間是歐氏距離,類(lèi)間距離是最短距離聚類(lèi)的結(jié)果,實(shí)際上,對(duì)樣品之間的每一種距離,可以由五種不同的類(lèi)間距離進(jìn)行聚類(lèi)。那么哪一種最好呢?為此我們可以計(jì)算復(fù)合相關(guān)系數(shù),若該系數(shù)越接近于1則該聚類(lèi)越理想。在MATLAB中計(jì)算復(fù)合相關(guān)系數(shù)的命令如下:R=cophenet(z,d)其中,z是用某種類(lèi)間距離linkage后的結(jié)果,d是樣品之間的某種距離,

想了解利用歐氏距離聚類(lèi),那種類(lèi)間距離最好,可以計(jì)算五個(gè)復(fù)合相關(guān)系數(shù):

第五十三頁(yè),共65頁(yè)。R=[cophenet(z1,d1),cophenet(z2,d1),cophenet(z3,d1),cophenet(z4,d1),cophenet(z5,d1)]結(jié)果為:0.84130.85710.86230.86220.8532

由于0.8623最大,故認(rèn)為若樣品之間采用歐氏距離,則類(lèi)間距離以中間距離最好,如果我們要找到最理想的分類(lèi)方法,可以對(duì)每一種樣品之間的距離,都計(jì)算上述的復(fù)合相關(guān)系數(shù),這樣就可以找到最理想的樣品距離與對(duì)應(yīng)的類(lèi)間距離。第五十四頁(yè),共65頁(yè)。a=[28,18,11,21,26,20,16,14,24,2229,23,22,23,29,23,22,23, 29,2728,18,16,22,26 ,22,22,24, 24,24];對(duì)a的各列進(jìn)行聚類(lèi),如何計(jì)算復(fù)合相關(guān)系數(shù)d=[pdist(a');pdist(a','mahal');pdist(a','cityblock');pdist(a','seuclid');pdist(a','minkowski',0.4)];fori=1:5d1=linkage(d(i,:));r1(i)=cophenet(d1,d(i,:));endfori=1:5d2=linkage(d(i,:),'complete');r2(i)=cophenet(d2,d(i,:));end第五十五頁(yè),共65頁(yè)。fori=1:5d3=linkage(d(i,:),'average');r3(i)=cophenet(d3,d(i,:));endfori=1:5d4=linkage(d(i,:),'centroid');r4(i)=cophenet(d4,d(i,:));endfori=1:5d5=linkage(d(i,:),'ward');r5(i)=cophenet(d5,d(i,:));endr=[r1;r2;r3;r4;r5];第五十六頁(yè),共65頁(yè)。4.3快速聚類(lèi)法快速聚類(lèi)法又稱(chēng)為動(dòng)態(tài)聚類(lèi)法,該方法首先將樣品進(jìn)行粗糙分類(lèi),然后依據(jù)樣品間的距離按一定規(guī)則進(jìn)行調(diào)整,直至不能調(diào)整為止.該方法適用于樣品數(shù)量較大的數(shù)據(jù)集的聚類(lèi)分析,但是需要事先給定聚類(lèi)數(shù)目,此數(shù)目對(duì)最終聚類(lèi)結(jié)果有很大影響,實(shí)際應(yīng)用時(shí)要選擇多個(gè)數(shù)目進(jìn)行分類(lèi),然后找出合理的分類(lèi)結(jié)果.4.3.1快速聚類(lèi)的步驟1.選擇聚點(diǎn)聚點(diǎn)是一批有代表性的樣品,他的選擇決定了初始分類(lèi),并對(duì)最終分類(lèi)有很大影響,選擇聚點(diǎn)之前要先確定聚類(lèi)數(shù)k.第五十七頁(yè),共65頁(yè)。通常,有以下確定聚點(diǎn)的方法:①經(jīng)驗(yàn)確定:對(duì)樣品非常熟悉,根據(jù)經(jīng)驗(yàn)確定k個(gè)樣品作為聚點(diǎn).(比如確定種子隊(duì))②將n個(gè)樣品隨機(jī)地分為k類(lèi),然后以每一類(lèi)的均值向量作為聚點(diǎn).③最小最大原則:若n個(gè)樣品分為k類(lèi),先選擇所有樣品中距離最大的兩個(gè)樣品xi1,xi2為兩個(gè)初始聚點(diǎn),即d(xi1,xi2)=max(dij),然后選擇第3個(gè)聚點(diǎn)xi3,使得該點(diǎn)到上述兩點(diǎn)距離最小是所有其它點(diǎn)到上述兩點(diǎn)距離最小中最大者,即min{d(xi3,xir),r=1,2}=max{min[d(xj,xr),r=1,2]}④按照同樣的原則選取xi4,依次下去,直至選出k個(gè)聚點(diǎn)xi1,xi2,…,xik第五十八頁(yè),共65頁(yè)。序號(hào)國(guó)家1990199520001澳大利亞1249.391273.611282.682巴西821.6859.85919.733加拿大1641.011591.541608.324中國(guó)1330.451382.681462.085法國(guó)1546.551501.771525.956德國(guó)1656.521630.521570.697印度861.30862.51945.118意大利1321.771232.31243.519日本1873.681949.891851.2010俄羅斯1475.161315.87129711南非794.25787.48782.3812英國(guó)1486.751441.711465.1213美國(guó)2824.292659.642740.12前例2中,分成4類(lèi)用不同方法確定聚點(diǎn)①人為確定:澳大利亞、中國(guó)、英國(guó)、美國(guó)第五十九頁(yè),共65頁(yè)。②首先按照亞非洲、美洲、歐洲、大洋洲分為四類(lèi),以每一類(lèi)的均值向量作為聚點(diǎn).③最小最大準(zhǔn)則(a為原始數(shù)據(jù)矩陣)[m,n]=size(a);fori=1:mforj=1:md(i,j)=[a(i,:)-a(j,:)]*[a(i,:)-a(j,:)]‘;%歐氏距離平方endendd1=max(d);d2=sort(d1,'descend');[d2,i1]=sor

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論