第十一章聚類分析(共10頁(yè))_第1頁(yè)
第十一章聚類分析(共10頁(yè))_第2頁(yè)
第十一章聚類分析(共10頁(yè))_第3頁(yè)
第十一章聚類分析(共10頁(yè))_第4頁(yè)
第十一章聚類分析(共10頁(yè))_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第11章 聚類分析聚類分析(CLUSTER)是將樣本或變量(binling)進(jìn)行分類的一種方法。通常(tngchng)用相似性指標(biāo)“距離(jl)”和“相似系數(shù)”來(lái)衡量研究對(duì)象的聯(lián)系緊密程度,從而進(jìn)行合理分類?!熬嚯x”常用來(lái)對(duì)樣本分類,即把每一個(gè)樣本看作是m維空間(若樣本被m個(gè)變量所描述)的一個(gè)點(diǎn),把距離較近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同的類。“相似系數(shù)”用來(lái)對(duì)變量分類,將變量間相似系數(shù)較大的歸為一類,較小的歸為不同類。第一節(jié) 距離和相似系數(shù)一、距離1、“歐幾里得”距離A和B兩點(diǎn)由m個(gè)變量所描述,其坐標(biāo)分別是(x1,x2,xm)和(y1,y2,ym),那么d(A,B)= 。例如:某次收視率調(diào)

2、查中的部分?jǐn)?shù)據(jù)如表1,則1號(hào)被訪者和2號(hào)被訪者的“距離”為:d(A,B)= 表1:原始數(shù)據(jù)被訪者年齡(歲)文化程度(年)日收看電視時(shí)間(分)X1X2X31251640260612034212906003414150=41,S1=20=12,S2=5=90,S3=40上述測(cè)量的距離存在問(wèn)題:(1)同一個(gè)變量單位不同會(huì)導(dǎo)致不同的距離;(2)不同變量的度量不一致,無(wú)法判斷變量值大小和變量的重要程度,從而無(wú)法判斷距離的意義。因而需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。 表2:標(biāo)準(zhǔn)化數(shù)據(jù)被訪者年齡(歲)文化程度(年)日收看電視時(shí)間(分)X1X2X31-0.80.81.2520.95-1.20.7530.050.00.

3、00600-0.350.41.50=0,S1=1=0,S2=1=0,S3=12、SPSS聚類分析中提供(tgng)的距離(1)歐式距離(jl)(EUCLID),等于(2)歐式距離的平方(SEUCLID),等于(dngy)變量差2+變量差2+(3)曼哈頓距離(BLOCK),等于變量差的絕對(duì)值之和(4)切比雪夫距離(CHEBYCHEV),等于變量差中絕對(duì)值最大者(5)冪距離POWER(p,r),等于變量差的絕對(duì)值的p次方之和,再求r方根。2、相似系數(shù)(1)變量間的相關(guān)系數(shù)即皮爾遜相關(guān)系數(shù);(2)變量間的夾角余弦,即將兩變量分別看成n維空間的向量時(shí)的夾角余弦值。相關(guān)系數(shù)一般針對(duì)定距變量,對(duì)于定類變量

4、特別是二項(xiàng)變量也可引入虛擬變量后計(jì)算相關(guān)系數(shù)。例1:假定5個(gè)樣本(人)具有如下指標(biāo):(1)請(qǐng)對(duì)個(gè)體進(jìn)行分類;(2)對(duì)變量進(jìn)行分類。 表3:五個(gè)人的六種身體特征指標(biāo)身高(cm)體重(公斤) 眼睛形狀鼻子形狀習(xí)慣用手性別個(gè)體1166120單高右女個(gè)體2175145雙低右男個(gè)體3168135單高右男個(gè)體4167100雙低右女個(gè)體5174150雙低左男1,雙眼皮0,單眼皮1,體重1300,體重1301,身高1700,身高170解:變量中包含定距和定類變量,可以全部變成虛擬變量(也可將后四個(gè)虛擬),令X1= ;X2= ;X3= ;1,高鼻梁0,低鼻梁1,女0,男1,用左手0,用右手X4= ;X5= ;X

5、6= ,表3可轉(zhuǎn)化為表4:X1X2 X3X4X5X6個(gè)體1000101個(gè)體2111000個(gè)體3010100個(gè)體4001001個(gè)體5111010(1)根據(jù)兩個(gè)個(gè)體共同特征的多少來(lái)對(duì)個(gè)體分類(fn li),以歐式距離的平方來(lái)進(jìn)行聚類,個(gè)體之間的距離越小越相似,可求得:d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5; d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2;d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2;d2(1,5)=(0-

6、1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;同理計(jì)算其他(qt)距離,得到下表:表5:5個(gè)體(gt)間距離1234510250323042340561440根據(jù)距離大小,判斷相似程度。個(gè)體2和5距離最小,最相似。1和3,1和4距離較小,較相似。如果分兩類,則可分為1,5和 1,3,4。(2)對(duì)特征變量進(jìn)行分類,先計(jì)算兩個(gè)變量間的相似系數(shù): r12= = =0.6667同理計(jì)算其它相關(guān)系數(shù):表6:六個(gè)變量間的相關(guān)系數(shù)12345611.000020.66671.000030.66670.16671.00004-0.6667-0.1667-1.00001.000

7、050.61240.40820.4082-0.40821.00006-0.6667-1.0000-0.16670.1667-0.40821.0000表6中出現(xiàn)(chxin)負(fù)相關(guān)系數(shù),不予考慮符號(hào)(fho),僅以絕對(duì)值來(lái)表示相關(guān)(xinggun)程度。X2與X6,X3與X4兩對(duì)變量最相似,同時(shí)X2和X3、X4,X6和X3、X4之間相關(guān)系數(shù)很小,所以 X2,X6和 X3,X4是幾乎不相交的兩類。X1、X5和其它5個(gè)變量的相關(guān)關(guān)系都適中,所以二者都不宜于其它變量合并,將X1和X5單獨(dú)歸為一類。幾個(gè)注意問(wèn)題:(1)對(duì)個(gè)體進(jìn)行聚類時(shí),1-1匹配和0-0匹配是完全同等看待,實(shí)際上不太合理。如兩個(gè)左撇子比

8、兩個(gè)同用右手的人更相似一些。因此有時(shí)對(duì)1-1匹配和0-0匹配區(qū)別處理,或給予不同權(quán)數(shù)。(2)此法聚類較為主觀,對(duì)X1和X2處理較粗糙。第二節(jié) 譜系聚類法譜系聚類法中常用的聚集法是先將所有研究對(duì)象都各自視為一類,將最靠近的首先聚類,再將這個(gè)類和其它類中最靠近的對(duì)象結(jié)合,一直合并到所有對(duì)象都綜合成一類。譜系聚類法的聚集或分割過(guò)程可以用“譜系圖”直觀表示出來(lái)。一、最短距離法 5 67 1 24 3兩個(gè)類之間的距離定義為:兩類中兩兩元素之間距離最小者,并依此逐次選擇最靠近的類聚集的方法。例如 d1,2,3,45,6,7= mind15, d16, d17, d25, d26, d27, d35, d3

9、6, d37, d45, d46, d47 = d37例2:假定5個(gè)對(duì)象間的距離如表9所示,用最短距離法聚類,并畫出譜系圖。表7:5個(gè)對(duì)象間距離1234510260324043450571550解:將5個(gè)對(duì)象分別視為1類,最靠近的兩類是2和5,因?yàn)樗鼈冮g具有最小類間距離d25=min 6,2,3,7,4,1,5=1,將2和5合并為一個(gè)新類2,5。其次再求出2,5和1,3,4的距離: d2,51=min d21, d51 = min 6, 7=6d2,53=min d23, d53 = min 4,5=4d2,54=min d24, d54 = min 4,5=4于是(ysh)可以將2,5,1,

10、3,4這四類的距離(jl)重新做出表10(1):表8(1):4個(gè)類間的距離(jl)2,51342,50160342044350在這4類中,1和3最靠近,它們具有最小類間距離d13=min 6, 4,2,3,5=2。將1和3合并成新類 1,3,再求出 1,3和 2,5,4的距離:d 1,32,5=min d12,5, d32,5 = min 6, 4=4d 1,34=min d14, d34 = min 3,5=3將 1,3, 2,5,4這三類的距離作出表10(2):表8(2):3個(gè)類間的距離2,5 1,342,50 1,3404430在這三類中,最靠近的類是 1,3和4,d 1,34=min

11、4, 3 =3。因此可將 1,3和4合并成為一個(gè)新類 1,3,4,這時(shí)只有兩個(gè)不同的類 2,5和 1,3,4,它們的距離為d2,5 1,3,4= min d2,5 1,3, d2,54 = min 4, 4=4。最后再將 2,5和 1,3,4合并為一類,由此完成整個(gè)聚類過(guò)程。相應(yīng)譜系圖如圖1:圖1:最短距離法譜系圖 1 2 3 4 距離 2 5 1 3 4 對(duì)象(duxing)2、最長(zhǎng)距離法與最短距離法聚類方式(fngsh)相同,不同的是類與類之間的距離定義為兩類中元素之間距離最大者。例如: 1 24 3 5 67 d1,2,3,45,6,7= maxd15, d16, d17, d25, d

12、26, d27, d35, d36, d37, d45, d46, d47 = d16例3:對(duì)例3中的相同數(shù)據(jù)(shj)用最長(zhǎng)距離法聚類并畫處譜系圖:解:首先將最靠近的2和5合并為一類,并計(jì)算2,5和1,3,4的距離:d2,51= max d21, d51 = max 6, 7=7d2,53= max d23, d53 = max 4,5=5d2,54= max d24, d54 = max 4,5=5 由此可以寫出新的四個(gè)類間的距離如表9(1)所示。其中最靠近的是1和3,將其合并為新類 1,3,并計(jì)算 1,3和 2,5,4的距離:d 1,32,5= max d12,5, d32,5 = ma

13、x 7,5=7d 1,34= max d14, d34 = max 3,5=5新的三類間的距離如表9(2)所示,由于兩個(gè)距離都是5,因此可以合并 1,3和4為一個(gè)新類,也可以合并2,5和4為一個(gè)新類。不管何種合并,最后新的兩類間的距離都是7,如表9(3)和表9(4)。表9(1):4個(gè)類間的距離2,51342,50170352045350表9(2):3個(gè)類間的距離2,5 1,342,50 1,3704550表9(3):兩個(gè)類間的距離2,5 1,3,42,50 1,3,470 表9(4):兩個(gè)(lin )類間的距離2,5,4 1,32,5,40 1,370兩種聚類過(guò)程的譜系圖如圖3,第一種聚類結(jié)果

14、(ji gu)和圖1的結(jié)果一致。圖3:最長(zhǎng)距離法譜系(px)圖(兩種可能聚類結(jié)果) 1 2 3 4 5 6 7 距離 1 2 3 4 5 6 7 距離2 25 51 43 14 33、中間距離法 類與類之間的距離即不取最短距離也不取最長(zhǎng)距離,而是取某個(gè)中間的距離,即中間距離法。 G1G2 G3 d GN例如由G1和G2組成的新類GN,其與G3的距離為三角形的中線d的平方:。采用中間距離法進(jìn)行聚類時(shí)一般使用歐式距離的平方。最短距離法和最長(zhǎng)距離法的優(yōu)點(diǎn):聚類過(guò)程是單調(diào)的,即每一步聚類時(shí)的距離都大于前一步,所以譜系圖一目了然。中間距離法的優(yōu)點(diǎn):空間守恒,即兩個(gè)類之間的距離基本上都取中間的,即不取最短

15、(空間收縮),也不取最長(zhǎng)(空間擴(kuò)張)。最短距離法和最長(zhǎng)距離法的缺點(diǎn):空間不守恒。中間距離法的缺點(diǎn):非單調(diào),有時(shí)聚類的距離小于前一步聚類時(shí)的距離,所以譜系圖有時(shí)不易理解。共同的缺點(diǎn):沒(méi)有考慮各類中研究對(duì)象(duxing)的數(shù)量以及各樣本的信息。4、重心(zhngxn)法兩個(gè)類之間的距離定義(dngy)為兩類的重心間的距離,聚類過(guò)程同前。5、類平均法兩個(gè)類之間的距離(平方)定義為兩類中的元素兩兩之間的平均(平方)距離。6、變差平方和法分類思想類似方差分析,使類內(nèi)元素間的變差平方和盡可能小,類與類之間的變差平方和盡可能大。表10:六種譜系聚類法的比較方法SPSS命令空間性質(zhì)單調(diào)性對(duì)距離的要求適用形結(jié)

16、果的唯一性備注最短距離法SINGLE壓縮單調(diào)條形,S形唯一太壓縮,不夠靈敏最長(zhǎng)距離法COMPLETE擴(kuò)張單調(diào)適用于橢球形距離表中有相同元素時(shí),可能不唯一結(jié)果太擴(kuò)張,樣本大時(shí)失真中間距離法MEDIAN守恒非單調(diào)歐式距離平方重心法CENTROID守恒非單調(diào)同上類平均法WAVERAGE守恒單調(diào)不太壓縮也不太擴(kuò)張,效果較好,較常用變差平方和法WARD擴(kuò)張單調(diào)歐式距離平方效果較好,較常用譜系聚類法在距離的選擇以及各種聚類法的選擇仍帶有一定主觀性,因而在聚類時(shí),可多用幾種距離和方法,最后根據(jù)實(shí)際問(wèn)題性質(zhì)確定合適的聚類結(jié)果。除譜系聚類法外,還有非譜系聚類法和模糊聚類法等。如果對(duì)變量進(jìn)行聚類,一般先求出變量間

17、的相似系數(shù),按照相似系數(shù)越大變量越相似的原則,聚類過(guò)程類似樣本聚類。也可將相似系數(shù)轉(zhuǎn)化為距離,然后再聚類,d=2,c表示兩個(gè)變量間的某種相似系數(shù),d為某種距離。例5:24名優(yōu)秀運(yùn)動(dòng)員的七項(xiàng)全能項(xiàng)目得分間的相關(guān)系數(shù)如表14,對(duì)這七項(xiàng)指標(biāo)進(jìn)行聚類分析。 表11:七個(gè)體育項(xiàng)目的相關(guān)系數(shù)變量100米欄X1跳高X2鉛球X3200米X4跳遠(yuǎn)X5標(biāo)槍X6800米X7100米欄X11.000跳高X20.44981.000鉛球X30.68380.46661.000200米X40.84660.32980.56751.000跳遠(yuǎn)X50.81130.54200.59430.81121.000標(biāo)槍X60.32140.2

18、1540.68960.31430.32761.000800米X70.57060.14980.37620.67900.49570.05561.000解:變量(binling)X1和X4(簡(jiǎn)稱(jinchng)1和4)的相關(guān)系數(shù)最大,先將1和4聚成一個(gè)新類 1,4,然后(rnhu)計(jì)算 1,4和變量2、3、5、6、7的相關(guān)系數(shù):r21,4= max r21, r24 = max 0.4498,0.3298=0.4498r31,4= max r31, r34 = max 0.6838,0.5675=0.6838這些相關(guān)系數(shù)繪成新表12(1),其中最大的相關(guān)系數(shù)是0.8113,所以將變量5歸入 1,4

19、中形成 1,4,5,然后求出 1,4,5與變量2、3、6、7的相關(guān)系數(shù)。繼續(xù)下去直到全部變量都并為一類為止(見表14(1)至14(5))。最后的譜系圖(圖5)說(shuō)明,7個(gè)變量可分為四類: 1,4,5, 3,6, 7和 2,即速度型項(xiàng)目 100米欄,200米,跳遠(yuǎn),投擲型項(xiàng)目鉛球,標(biāo)槍,耐力型項(xiàng)目 800米和彈跳型項(xiàng)目 跳高。 表12(1)變量 1,423567 1,41.00020.44981.00030.68380.46661.00050.81130.54200.59431.00060.32140.21540.68960.32761.00070.67900.14980.37620.49570.05561.000表12

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論