Cluster Analysis(聚類分析).PPT_第1頁(yè)
Cluster Analysis(聚類分析).PPT_第2頁(yè)
Cluster Analysis(聚類分析).PPT_第3頁(yè)
Cluster Analysis(聚類分析).PPT_第4頁(yè)
Cluster Analysis(聚類分析).PPT_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1經(jīng)濟(jì)管理類研究生專業(yè)學(xué)位課經(jīng)濟(jì)管理類研究生專業(yè)學(xué)位課Multivariate Statistics Analysis 多元統(tǒng)計(jì)分析多元統(tǒng)計(jì)分析2第2講 聚類分析2.1 2.1 聚類分析的基本思想聚類分析的基本思想2.2 2.2 相似性的度量相似性的度量2.3 2.3 類和類的特征類和類的特征2.4 2.4 系統(tǒng)聚類法系統(tǒng)聚類法2.5 2.5 非系統(tǒng)聚類法簡(jiǎn)介非系統(tǒng)聚類法簡(jiǎn)介3 2.1 聚類分析的基本思想聚類分析的基本思想 1.什么是聚類分析?什么是聚類分析?n所謂所謂“類類”就是就是相似元素的集合。相似元素的集合。聚類就是根據(jù)研究對(duì)象某一方面的相似性將其歸聚類就是根據(jù)研究對(duì)象某一方面的相似性

2、將其歸類,使得同一類中的對(duì)象之間的相似性比與其他類,使得同一類中的對(duì)象之間的相似性比與其他類的對(duì)象的相似性更強(qiáng)?;蛘呤诡惖膶?duì)象的相似性更強(qiáng)。或者使類內(nèi)類內(nèi)對(duì)象的同質(zhì)對(duì)象的同質(zhì)性最大化和性最大化和類間類間對(duì)象的異質(zhì)性最大化。對(duì)象的異質(zhì)性最大化。2.基本思想基本思想根據(jù)研究對(duì)象的多個(gè)觀測(cè)指標(biāo),具體地找出一些根據(jù)研究對(duì)象的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量各對(duì)象之間相似程度的統(tǒng)計(jì)量,然后利能夠度量各對(duì)象之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的

3、樣品(或指標(biāo))聚合完畢。直到把所有的樣品(或指標(biāo))聚合完畢. . 42.1 聚類分析的基本思想聚類分析的基本思想3、聚類分析的類型:聚類分析的類型: 對(duì)樣品分類,稱為對(duì)樣品分類,稱為Q Q型聚類分析型聚類分析 對(duì)變量分類,稱為對(duì)變量分類,稱為R R型聚類分析型聚類分析 Q Q型聚類是使具有相似性特征的樣品聚集在一型聚類是使具有相似性特征的樣品聚集在一起,使差異性大的樣品分離開來(lái)。起,使差異性大的樣品分離開來(lái)。 R R型聚類是使具有相似性的變量聚集在一起,型聚類是使具有相似性的變量聚集在一起,差異性大的變量分離開來(lái)。差異性大的變量分離開來(lái)。 R R型聚類可在相似變量中選擇少數(shù)具有代表性型聚類可在

4、相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。到變量降維的目的。 52.2 2.2 相似性的度量相似性的度量一、樣本或變量的一、樣本或變量的相似性相似性程度的數(shù)量指標(biāo):程度的數(shù)量指標(biāo): 1、相似系數(shù)相似系數(shù) 性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣品,它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類; 2、距離距離 它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量方法測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。v樣品分類(Q型聚類)常以距離距

5、離刻畫相似性v變量分類(R型聚類)常以相似系數(shù)相似系數(shù)刻畫相似性6v距離和相似系數(shù)有著各種不同的定義,而這些定義距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非常密切的關(guān)系。與變量類型有著非常密切的關(guān)系。v變量可分為變量可分為定性變量和定量變量。定性變量和定量變量。若按測(cè)量尺度的若按測(cè)量尺度的不同可以分為不同可以分為: (1 1)間隔尺度變量:變量用連續(xù)的量來(lái)表示,包)間隔尺度變量:變量用連續(xù)的量來(lái)表示,包括定距和定比尺度,如長(zhǎng)度、重量、速度、溫度等括定距和定比尺度,如長(zhǎng)度、重量、速度、溫度等。 (2 2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量)有序尺度變量:變量度量時(shí)不用明確的數(shù)

6、量表示,而是用等級(jí)來(lái)表示,如產(chǎn)品分為一等品、二表示,而是用等級(jí)來(lái)表示,如產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。等品、三等品等有次序關(guān)系。 (3 3)名義尺度變量:變量用既沒(méi)有數(shù)量關(guān)系也沒(méi))名義尺度變量:變量用既沒(méi)有數(shù)量關(guān)系也沒(méi)有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號(hào)等。產(chǎn)品的型號(hào)等。n對(duì)于間隔尺度變量,聚類時(shí)數(shù)據(jù)單位往往不同,為為使不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)能在一起比較,通常需要先進(jìn)數(shù)據(jù)變換處理數(shù)據(jù)變換處理 73.常用的數(shù)據(jù)變換方法常用的數(shù)據(jù)變換方法), 1;, 2 , 1(*mjnixxxjijij (1) 中心化變換中心化變換

7、 變換后數(shù)據(jù)的均值為變換后數(shù)據(jù)的均值為0,而協(xié)差陣不變,而協(xié)差陣不變. (2) 標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換 變換后的數(shù)據(jù)變換后的數(shù)據(jù),每個(gè)變量的樣本均值為每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為標(biāo)準(zhǔn)差為1, 且標(biāo)準(zhǔn)化變換后的數(shù)據(jù)且標(biāo)準(zhǔn)化變換后的數(shù)據(jù)x*ij與變量的量綱無(wú)關(guān)與變量的量綱無(wú)關(guān). (3) 極差標(biāo)準(zhǔn)化變換極差標(biāo)準(zhǔn)化變換 變換后的數(shù)據(jù)變換后的數(shù)據(jù),每個(gè)變量的樣本均值為每個(gè)變量的樣本均值為0,極差為極差為1,變變換后的數(shù)據(jù)也是無(wú)量綱的量換后的數(shù)據(jù)也是無(wú)量綱的量.*(1,2, ;1, )ijjijjxxxin jpR*(1,2, ;1, )ijjijjxxxin jps8 (4) 極差正規(guī)化變換極差正規(guī)化

8、變換(規(guī)格化變換規(guī)格化變換)變換后的數(shù)據(jù)變換后的數(shù)據(jù)0 x*ij 1;極差為極差為1,也是無(wú)量綱的量也是無(wú)量綱的量. (5) 對(duì)數(shù)變換對(duì)數(shù)變換 可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu)可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu).*1(1,2, ;1, )miniji nijjxijxin jpRx *log()(0)(1,2, ;1, )ijijijxxxin jp9二、樣品間相似性的度量:距離 設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:n每個(gè)樣品都可以看成p維空間中的一點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn)n第i個(gè)樣品與第j個(gè)樣品之間的距離記為npnnppxxxxxxxxxX2

9、12222111211ijd101 1、距離公理:、距離公理:v第i個(gè)和第j個(gè)樣品之間的距離 滿足如下四個(gè)性四個(gè)性質(zhì)質(zhì):0;ijdij 對(duì)一切的和成立0;ijdij當(dāng)且僅當(dāng)成立;ijjiddij對(duì)一切的 和 成立.ijikkjdddij對(duì)于一切的和 成立ijd112 2、常用距離、常用距離:(1 1)明考夫斯基距離)明考夫斯基距離( (Minkowski distance)Minkowski distance) 明氏距離有三種特殊形式:明氏距離有三種特殊形式: (1 1a a)絕對(duì)距離(絕對(duì)距離(BlockBlock距離)距離): :當(dāng)當(dāng)q=1q=1時(shí)時(shí) pkjkikijxxd1111( )(

10、| )pqqijikjkkd qxx (1 1b)b)歐氏距離歐氏距離( (Euclidean distance):Euclidean distance):當(dāng)當(dāng)q=2q=2時(shí)時(shí)(1 1c)c)切比雪夫距離切比雪夫距離: :當(dāng)當(dāng) 時(shí)時(shí) 2112)(2pkjkikijxxdjkikpkijxxd1max)(q12 缺點(diǎn)缺點(diǎn):(1) 與各變量的量綱有關(guān)與各變量的量綱有關(guān); (2) 沒(méi)有考慮指標(biāo)間的相關(guān)性沒(méi)有考慮指標(biāo)間的相關(guān)性; (3) 沒(méi)有考慮各變量方差的不同沒(méi)有考慮各變量方差的不同.如歐氏距如歐氏距離離,變差大的變量在距離中的作用變差大的變量在距離中的作用(貢獻(xiàn)貢獻(xiàn))就會(huì)大就會(huì)大,這是不合適的這是

11、不合適的. 合理的方法就是對(duì)各變量加權(quán)合理的方法就是對(duì)各變量加權(quán),如用如用1/s2 作為作為權(quán)數(shù)可得出權(quán)數(shù)可得出“統(tǒng)計(jì)距離統(tǒng)計(jì)距離”:*21() ( ,1,2., )pitjtijttxxdi jns13v當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不應(yīng)直接采用明氏距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)應(yīng)直接采用明氏距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。常用準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。常用的標(biāo)準(zhǔn)化處理:的標(biāo)準(zhǔn)化處理: 其中 為第j個(gè)變量的樣本均值; 為第j個(gè)變量的樣本方差。*1,2, ,1,2, ,ijjijjjxx

12、xinjps11njijixxn211()1njjijjisxxn14(2 2)蘭氏距離蘭氏距離 當(dāng)當(dāng) 時(shí):時(shí): 11pikjkijkikjkxxdLpxx克服量綱的影響克服量綱的影響 未考慮指標(biāo)間未考慮指標(biāo)間相關(guān)性的影響相關(guān)性的影響0;1,2, , ;1,2, ,ijxin jp適用于變量之間互不相關(guān)的情形適用于變量之間互不相關(guān)的情形15(3) 斜交空間距離斜交空間距離 在在m維空間中維空間中,為使具有相關(guān)性變量的譜系結(jié)為使具有相關(guān)性變量的譜系結(jié)構(gòu)不發(fā)生變形構(gòu)不發(fā)生變形,采用斜交空間距離采用斜交空間距離,即即在數(shù)據(jù)標(biāo)準(zhǔn)化處理下在數(shù)據(jù)標(biāo)準(zhǔn)化處理下, ,rkl為變量為變量Xk和和Xl之間的相關(guān)系

13、數(shù)之間的相關(guān)系數(shù) 16v(4 4)馬氏距離)馬氏距離克服量綱的影響克服量綱的影響 克服指標(biāo)間相克服指標(biāo)間相關(guān)性的影響關(guān)性的影響)()(2ji1jixxxxijd1/2()()ijd1ijijxxxx缺點(diǎn):缺點(diǎn):協(xié)方差矩協(xié)方差矩陣難以確定陣難以確定17三、變量間相似性的度量:相似系數(shù)v 相似系數(shù)(或其絕對(duì)值)越大,變量之間的相似性程度越高;反之,越低。聚類時(shí),相似的變量歸為一類,不太相似的變量歸為不同的類。 變量 與 的相似系數(shù)用 表示,滿足以下三個(gè)條件: ixjxijc1, (0)ijijcxaxb ab 當(dāng)且僅當(dāng)和 是常數(shù);1,ijc對(duì)一切i,j;,ijjicc對(duì)一切i,j。181 1、夾角

14、余弦、夾角余弦 從向量集合的角度所定義的一種測(cè)度變量從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在之間親疏程度的相似系數(shù)。設(shè)在n n維空間的維空間的向量向量niiiixxx,21xnjjjjxxx,21xnknkkjkinkkjkiijijxxxxc11221cos221ijijCd192、相關(guān)系數(shù)設(shè)設(shè) 和和是第是第 和和 個(gè)變量的觀測(cè)值,則二者之間的相似個(gè)變量的觀測(cè)值,則二者之間的相似測(cè)度為測(cè)度為: :12,iinixxxix12(,)jjnjxxx jxij12211()()() () nkiikjjkijnnkiikjjkkxxxxxxxx相關(guān)系數(shù)就是對(duì)數(shù)據(jù)作相關(guān)系數(shù)就

15、是對(duì)數(shù)據(jù)作中心化或標(biāo)準(zhǔn)化處理中心化或標(biāo)準(zhǔn)化處理后的夾角余弦后的夾角余弦.20 至此,我們可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)至此,我們可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表:間的距離表:00 0pGqG1G2GnG1G2GnG12dnd121d1nd2ndnd2212.3 2.3 類和類的特征類和類的特征一、類的定義:一、類的定義:n 用G表示類,設(shè)G中有n個(gè)元素,dij表示元素i與j之間的距離類的定義:n T為一個(gè)給定的閾值,若對(duì)于任意的i,jG,有dij T,則稱G為一個(gè)類。22二、類的特征:二、類的特征: 設(shè)類G中有樣品 。n為G內(nèi)的樣品數(shù)。 (1)類均值(或稱為重心) (2)離差、協(xié)方差矩

16、陣1,nXX11nGiiXXn1()()nGiGiGisXXXX11GGsn (3)(3)類類G G的的直徑直徑 ,m axGijijGDd23 (4)類的離差平方和類的離差平方和 對(duì)于聚類前的對(duì)于聚類前的n個(gè)樣品,可以證明:個(gè)樣品,可以證明:n個(gè)樣品總離差平方和聚成個(gè)樣品總離差平方和聚成k類后各類內(nèi)離差平方類后各類內(nèi)離差平方 之和類間離差平方和之和類間離差平方和 令令T為總離差平方和,為總離差平方和,Pk為分為為分為K類的類內(nèi)離差平類的類內(nèi)離差平方之和。方之和。kktiktnitiBPXXXXTt )()()()(11)()(其中其中 kttkSP1)()(XXXXSinii242.4 2.

17、4 系統(tǒng)聚類法系統(tǒng)聚類法一、系統(tǒng)聚類法的基本思想和步驟 1.是一種其聚類過(guò)程可以用所謂的譜系結(jié)構(gòu)或樹形結(jié)構(gòu)來(lái)描繪的方法。事先不用確定分多少類事先不用確定分多少類 2.基本思想: 先所有的研究對(duì)象各自算作一類,將最先所有的研究對(duì)象各自算作一類,將最“靠近靠近” 的兩個(gè)類首先聚類,再將這個(gè)新類和其余類中最的兩個(gè)類首先聚類,再將這個(gè)新類和其余類中最“靠近靠近”的類合并,每次縮小一類,直至所有的對(duì)象的類合并,每次縮小一類,直至所有的對(duì)象都合并為一類為止。都合并為一類為止。 25 系統(tǒng)聚類法的聚類原則決定于樣品間的距離系統(tǒng)聚類法的聚類原則決定于樣品間的距離( (或相似系數(shù)或相似系數(shù)) )及類間距離的定義

18、及類間距離的定義, ,類間距離的類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法. .幾個(gè)記號(hào)幾個(gè)記號(hào): : 用用dij表示樣品表示樣品X(i)和和X(j)之間的距離之間的距離, 當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)C Cij ij 時(shí)時(shí), , 令令 dij=1-|Cij| (或或 d2ij=1-C2ij);); 用用Dij表示類表示類Gi和和Gj間的距離間的距離. .263.3.系統(tǒng)聚類法的基本步驟(以系統(tǒng)聚類法的基本步驟(以Q Q型聚類為例)型聚類為例)27二、最短距離(Nearest Neighbor) 1.含義: 類間距離定

19、義為兩類中距離最近樣品之間的距離。x21x12x22x1113d類類G Gp p與類與類G Gq q之間的距離之間的距離D Dpqpq ( (d(xd(xi i,x,xj j) )表示點(diǎn)表示點(diǎn)x xi i G Gp p和和x xj j G Gq q之間的距離之間的距離) )min ( ,)pqijDd x x282.應(yīng)用n對(duì)對(duì)5個(gè)樣品測(cè)量了兩個(gè)指標(biāo),數(shù)據(jù)如下表:個(gè)樣品測(cè)量了兩個(gè)指標(biāo),數(shù)據(jù)如下表:n定義樣品間距離為絕對(duì)距離,用最短距離法聚類定義樣品間距離為絕對(duì)距離,用最短距離法聚類1X2X樣品1148樣品2159樣品3104樣品481樣品56229根據(jù)并類過(guò)程繪制的譜系聚類圖根據(jù)并類過(guò)程繪制的譜

20、系聚類圖 30三、最長(zhǎng)距離(Furthest Neighbor)1.含義: 定義類間距離為兩類中距離最遠(yuǎn)的樣品的距離x11x2112dmax ( ,)pqijDd x x例題:數(shù)據(jù)如前例題:數(shù)據(jù)如前31四、中間距離法四、中間距離法PGqGLGrG最長(zhǎng)距離最長(zhǎng)距離最短距離最短距離中間距離中間距離322222111224lrlplqpqDDDD遞推公式:04121212222,遞推公式:pqkqkpkrDDDD中間距離法的遞推公式中間距離法的遞推公式n若在某步聚類中將類p與q合并為類r,則任一類k與新類r的距離:n當(dāng)=-0.25時(shí),為三角形中線:33五、重心法(Centroid clusterin

21、g):含義: 兩類間的距離定義為兩類重心(均值點(diǎn))之間的的距離11,x y22,xy例題:數(shù)據(jù)如前例題:數(shù)據(jù)如前34v樣品間距離為樣品間距離為歐氏距離歐氏距離時(shí)的遞推公式時(shí)的遞推公式2222pqrqrpkqrqkprpkrDnnnnDnnDnnDrqpnnnGrGt35重心法雖有較好的代表性重心法雖有較好的代表性, ,但并未充分利用各但并未充分利用各個(gè)樣品的信息個(gè)樣品的信息. .比如下面兩組類按重心法類間比如下面兩組類按重心法類間距離相等距離相等, ,這是不合理的這是不合理的. .36六、六、類平均法類平均法(Between-group Linkage)含義:類間距離為所有含義:類間距離為所有

22、樣品對(duì)樣品對(duì)間的平均距離間的平均距離。991dd v利用了所有樣品對(duì)距離的信息利用了所有樣品對(duì)距離的信息37 類與類之間的距離平方為兩類樣品兩兩之間類與類之間的距離平方為兩類樣品兩兩之間的距離平方的平均的距離平方的平均, ,即即2,21ijGjGiqppqdnnDqp類平均法的類間距離:合并新類的距離遞推公式:合并新類的距離遞推公式: 設(shè)某一步將設(shè)某一步將Gp和和Gq合并成合并成Gr, ,它們所包含的樣它們所包含的樣品個(gè)數(shù)分別為品個(gè)數(shù)分別為np , ,nq和和nr( (nr= =np+ +nq).).Gr與其他類與其他類Gk的類間距離的遞推公式為的類間距離的遞推公式為),(222qpkDnnD

23、nnDqkrqpkrprk38七.離差平方和法 (Wards method )v類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。 2222pqkrkkqkrqkkpkrpkkrDnnnDnnnnDnnnnD2222qprpqSSSD的增量:定義距離為離差平方和其中其中 是由是由G Gp p和和G Gq q合并成的合并成的G Gr r類的類內(nèi)離差平方和。類的類內(nèi)離差平方和??梢宰C明離差平方和法的類間遞推公式為可以證明離差平方和法的類間遞推公式為2rS)()(2qPqPqpqppqXXXXnnnnD例題:數(shù)據(jù)如前例題:數(shù)據(jù)如前39八、系統(tǒng)聚類法

24、的軟件實(shí)現(xiàn)SPSSSPSS以教材以教材8888頁(yè)例題頁(yè)例題1 1為例,為例,SPSSSPSS處理:處理: 1 1、AnalyzeAnalyzeClassifyClassifyHierarchical ClusterHierarchical Cluster 2 2、把、把dxbzdxbz、czbzczbz、wmbzwmbz選入選入VariablesVariables 3 3、若對(duì)樣品聚類(、若對(duì)樣品聚類(Q Q型聚類):在型聚類):在ClusterCluster選選CasesCases; 若對(duì)變量聚類(若對(duì)變量聚類(R R型聚類)則在型聚類)則在ClusterCluster選選Variables

25、Variables 4 4、選、選PlotsPlots,再點(diǎn),再點(diǎn)DendrogramDendrogram,則則畫出樹狀圖;畫出樹狀圖; 若點(diǎn)若點(diǎn)Icicle,則則畫出冰掛圖畫出冰掛圖,其中,其中Orientation中中(Vertical為縱向冰掛圖為縱向冰掛圖;Horizontal為橫向冰掛圖)。為橫向冰掛圖)。 .40九、九、 系統(tǒng)聚類法的基本性質(zhì)系統(tǒng)聚類法的基本性質(zhì) (一)(一) 單調(diào)性單調(diào)性 在聚類分析過(guò)程中,并類距離分別為在聚類分析過(guò)程中,并類距離分別為l k(k=1,2,3,)若滿足)若滿足 ,則稱該聚類,則稱該聚類方法具有單調(diào)性。可以證明除了重心法和中間距離法之外,方法具有單調(diào)

26、性??梢宰C明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。121kkllll(二)空間的濃縮和擴(kuò)張(二)空間的濃縮和擴(kuò)張 1、定義矩陣的大小、定義矩陣的大小 設(shè)同階矩陣設(shè)同階矩陣D(A)和)和D(B),如果),如果D(A)的每一個(gè))的每一個(gè)元素元素 小于小于D(B)的每一個(gè)元素,則記為)的每一個(gè)元素,則記為 。)()(BDAD41 2、空間的濃縮和擴(kuò)張 設(shè)有兩種系統(tǒng)聚類法A和B,他們?cè)诘趇步的距離矩陣分別為Ai和Bi(I=1,2,3),若AiBi ,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。 3、方法的比較、方

27、法的比較 D(短)(短) D(平),(平),D(重)(重) D(平);(平); D(長(zhǎng))(長(zhǎng)) D(平);(平); 當(dāng)當(dāng) ,D(變平)(變平) D(平);(平); 當(dāng)當(dāng) ,D(變平)(變平) D(平)。(平)。10 0 42 1.1.由適當(dāng)?shù)拈撝荡_定由適當(dāng)?shù)拈撝荡_定 介紹系統(tǒng)聚類法的基本步驟時(shí)介紹系統(tǒng)聚類法的基本步驟時(shí),由由譜系聚類圖譜系聚類圖及臨界值及臨界值,即可給出分類結(jié)果即可給出分類結(jié)果. 2.2.根據(jù)數(shù)據(jù)點(diǎn)的散布圖直觀地確定類的個(gè)數(shù)根據(jù)數(shù)據(jù)點(diǎn)的散布圖直觀地確定類的個(gè)數(shù) 3.3.根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則 4.4.根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)

28、十、確定類個(gè)數(shù)的幾種常見方法:十、確定類個(gè)數(shù)的幾種常見方法:43黛米爾曼(黛米爾曼(Demirmen,1972)Demirmen,1972)提出依據(jù)樹狀結(jié)構(gòu)圖分類提出依據(jù)樹狀結(jié)構(gòu)圖分類的準(zhǔn)則:的準(zhǔn)則:44 由由 Rk2的定義的定義 可知可知 , Rk2值越大值越大,也就是,也就是Pk/ /T越小,越小,表示表示k個(gè)類內(nèi)離差平方和之和個(gè)類內(nèi)離差平方和之和Pk在總離差平方和在總離差平方和T中占中占的比例越小的比例越小, ,這這說(shuō)明說(shuō)明k個(gè)類區(qū)分得越開個(gè)類區(qū)分得越開. . Rk2的值總是的值總是在在0 0和和1 1之間,而且之間,而且Rk2的值總是隨著分類個(gè)數(shù)的值總是隨著分類個(gè)數(shù)k的減少的減少而變小

29、而變小,12TBTPRkkk十一、聚類效果評(píng)價(jià)統(tǒng)計(jì)量十一、聚類效果評(píng)價(jià)統(tǒng)計(jì)量所以我們只能所以我們只能取合適的取合適的K,使得,使得R2足夠大,而足夠大,而K本身本身較小,且隨著較小,且隨著K的增加,的增加, R2的增幅不大的增幅不大。1、Rk2統(tǒng)計(jì)量統(tǒng)計(jì)量45 用于評(píng)價(jià)聚為K個(gè)類的效果。如果聚類的效果好,類間的離差平方和相對(duì)于類內(nèi)的離差平方和應(yīng)比較大,所以應(yīng)該取偽偽F F統(tǒng)統(tǒng)計(jì)量較大而類數(shù)較小計(jì)量較大而類數(shù)較小的聚類水平。 () (1)()kkTPkFPn k2.偽偽F統(tǒng)計(jì)量統(tǒng)計(jì)量46 其中WK和WL分別是類K、L的類內(nèi)離差平方和,BKL是將K和L合并為第M類所增加離差平方和 BKL = WM

30、 - WK - WL 為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評(píng)價(jià)評(píng)價(jià)合并第合并第K K和和L L類的效果類的效果,偽 統(tǒng)計(jì)量大說(shuō)明不應(yīng)該統(tǒng)計(jì)量大說(shuō)明不應(yīng)該合并這兩類合并這兩類,應(yīng)該取合并前的水平。2t)2()(2LKLKKLNNWWBt2t3.偽偽 統(tǒng)計(jì)量統(tǒng)計(jì)量472.5 2.5 非系統(tǒng)聚類法簡(jiǎn)介非系統(tǒng)聚類法簡(jiǎn)介v動(dòng)態(tài)聚類法動(dòng)態(tài)聚類法: :也叫做逐步聚類法、也叫做逐步聚類法、k-k-均值聚類均值聚類法、或快速聚類法。法、或快速聚類法。事先要確定分多少類事先要確定分多少類48選擇凝聚點(diǎn)選擇凝聚點(diǎn)分分 類類修改分類修改分類分類是否合理分類是否合理分類結(jié)束分類結(jié)束YesYesNoNo49 用一個(gè)簡(jiǎn)單

31、的例子來(lái)說(shuō)明動(dòng)態(tài)聚類法的工作過(guò)程。例如我們要把圖中的點(diǎn)分成兩類??焖倬垲惖牟襟E: 1、隨機(jī)選取兩個(gè)點(diǎn) 和 作為聚核。 2、對(duì)于任何點(diǎn) ,分別計(jì)算 3、若 ,則將 劃為第一類,否則劃給第二類。于是得圖(c)的兩個(gè)類。 )1 (1x)1 (2xkx),(),()1(2)1(1xxdxxdkk和),(),()1(2)1(1xxdxxdkkkx 4、分別計(jì)算兩個(gè)類的重心,則得、分別計(jì)算兩個(gè)類的重心,則得 和和 ,以其為,以其為新的聚核,對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。新的聚核,對(duì)空間中的點(diǎn)進(jìn)行重新分類,得到新分類。)2(1x)2(2x50 (a)空間的群點(diǎn))空間的群點(diǎn) (b) 任取兩個(gè)聚核任取兩

32、個(gè)聚核 (c) 第一次分類第一次分類 (d) 求各類中心求各類中心51 (e) 第二次分類第二次分類52n如此疊代下去,直到達(dá)到停止疊代的要如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。疊代次數(shù)太多了)。n下面用一個(gè)例子來(lái)做下面用一個(gè)例子來(lái)做k-k-均值聚類。均值聚類。53n【例】假定我們對(duì)A、B、C、D四個(gè)樣品分別測(cè)量?jī)蓚€(gè)變量和得到結(jié)果見下表n試將以上的樣品聚成兩類。 54第一步:第一步:按要求取K=2,為了實(shí)施K均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計(jì)算這兩個(gè)聚類的中心坐標(biāo),見下表所示。n表中的中心坐標(biāo)是通過(guò)原始數(shù)據(jù)計(jì)算得來(lái)的,比如(A、 B)類的, 等等。15( 1)22X 55第二步:計(jì)算某個(gè)樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對(duì)于樣品有變動(dòng)的類,重新計(jì)算它們的中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論