統(tǒng)計學(xué):6聚類分析_第1頁
統(tǒng)計學(xué):6聚類分析_第2頁
統(tǒng)計學(xué):6聚類分析_第3頁
統(tǒng)計學(xué):6聚類分析_第4頁
統(tǒng)計學(xué):6聚類分析_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、2021/1/25,1,第6章 聚類分析,6.1 聚類分析的基本思想和原理,6.2 相似性的量度,6.3 系統(tǒng)聚類,6.4 K均值聚類分析,6.4 K均值聚類分析,6.5 聚類分析中注意的事項(xiàng),2021/1/25,2,例 對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X、Y和Z分別表示數(shù)學(xué)推理能力、空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進(jìn)行分類,問題是如何來選擇樣品間相似性指標(biāo)? 如何將相似的類連接起來,2021/1/25,3,2021/1/25,4,2021/1/25,5,聚類分析的研究目的 把相似的東西歸成類,根據(jù)相似的程度將研究目標(biāo)進(jìn)行分類 聚類分析的研究對象 Q型聚類-

2、對樣本進(jìn)行分類 R型聚類-對變量進(jìn)行分類 聚類分析研究的主要內(nèi)容 如何度量事物之間的相似性?(距離和相關(guān)系數(shù)) 怎樣構(gòu)造聚類方法以達(dá)到分類的目的,聚類分析,6.1聚類分析的基本思想和原理,聚類分析,6.1聚類分析的基本思想和原理,聚類分析,6.1聚類分析的基本思想和原理,2021/1/25,6,6.2相似性的度量,距離、相似系數(shù)、夾角余旋都可用于相似性的度量 距離:將每一個樣品看作p 維空間的一個點(diǎn),并用某種度量 測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的 點(diǎn)應(yīng)屬于不同的類。 相似系數(shù)、夾角余旋:測度變量之間的親疏程度,2021/1/25,7,n個樣本看成p維空間中的n個點(diǎn),則兩個樣

3、本間相似程度就可用p維空間中的兩點(diǎn)距離公式來度量,一 樣本相似性的度量距離,6.2相似性的度量,一 樣本相似性的度量距離,6.2相似性的度量,2021/1/25,8,1明考夫斯基Minkowski距離(明氏距離,一 樣本相似性的度量距離,6.2相似性的度量,一 樣本相似性的度量距離,6.2相似性的度量,q=1時 絕對距離,q=2時 歐氏Euclidean距離,q=時 切比雪夫距離,2021/1/25,9,歐氏距離,切比雪夫距離,2021/1/25,10,明考夫斯基距離有以下兩個缺點(diǎn),明氏距離的數(shù)值與指標(biāo)的量綱有關(guān)。當(dāng)各變量的測量值相差懸殊時,常發(fā)生“大數(shù)吃小數(shù)”的現(xiàn)象,為消除量綱的影響,通常先

4、將每個變量進(jìn)行標(biāo)準(zhǔn)化。 明氏距離的定義沒有考慮各個變量之間相關(guān)性的影響,2021/1/25,11,標(biāo)準(zhǔn)化的歐氏距離,設(shè)原始數(shù)據(jù)為,2021/1/25,12,2馬氏距離(廣義歐氏距離)印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(Mahalanobis)所定義的一種距離 設(shè)Xi與Xj是來自均值向量為 ,協(xié)方差為 (0)的總體G中的p維樣品,則兩個樣品間的馬氏距離為,馬氏距離適用于衡量來自正態(tài)總體的樣本點(diǎn)之間接近程度的距離; 優(yōu)點(diǎn):既排除了各指標(biāo)間的相關(guān)性,又消除了各指標(biāo)的量綱,一 樣本相似性的度量距離,6.2相似性的度量,分別為第i個變量和第j個變量的均值(列均值,2021/1/25,13,3蘭氏距離 適用于一

5、切Xij0的情況,克服各個指標(biāo)之間量綱的影響。但它也沒有考慮指標(biāo)之間的相關(guān)性,一 樣本相似性的度量距離,6.2相似性的度量,2021/1/25,14,1、夾角余弦 顯然,cos ij 1,若夾角余弦越大,則夾角越小,則兩個變量越相似,若將第i個變量的n個觀測值(x1i,x2i,xni)T和第j個變量的n個觀測值(x1j,x2j,xnj)T看成n維空間中的兩個向量,則正好是這兩個向量的夾角余弦,一 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,二 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,2021/1/25,15,2相關(guān)系數(shù)(pearson correlation皮爾

6、遜相關(guān)系數(shù)) 相關(guān)系數(shù)經(jīng)常用來度量變量間的相似性。變量Xi與Xj的相關(guān)系數(shù)定義為 rij 1,兩個變量相似系數(shù)的絕對值越接近于1,說明這兩個變量的關(guān)系越密切,性質(zhì)越接近。 相似系數(shù)絕對值大的變量歸為一類,相似系數(shù)絕對值小的變量歸屬于不同的類。 相關(guān)系數(shù)實(shí)際上是對數(shù)據(jù)做中心化處理后的夾角余弦,一 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,二 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,二 變量間的相似性度量夾角余弦和相關(guān)系數(shù),6.2相似性的度量,2021/1/25,16,無論是夾角余弦還是相關(guān)系數(shù),它們的絕對值都小于1,統(tǒng)記為cij。 當(dāng)cij = 1時,變量Xi與

7、Xj完全相似; 當(dāng)cij近似于1時,變量Xi與Xj非常密切; 當(dāng)cij = 0時,變量Xi與Xj完全不一樣; 當(dāng)cij近似于0時,變量Xi與Xj差別很大。 為計算方便,記dij = 1 cij 或記 dij2 = 1 cij2 用表示變量間的距離遠(yuǎn)近,小則與先聚成一類,這比較符合人們的一般思維習(xí)慣,2021/1/25,17,描述對象的指標(biāo)往往具有不同的單位(量綱),其數(shù)值的變異范圍可能差別很大,這就會對分類結(jié)果產(chǎn)生影響。在進(jìn)行聚類分析之前,先要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,數(shù)據(jù)預(yù)處理,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,18,總和標(biāo)準(zhǔn)化,這種標(biāo)準(zhǔn)

8、化方法所得到的新數(shù)據(jù)滿足,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,19,標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,其中,這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,20,極大值標(biāo)準(zhǔn)化,經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各屬性的極大值為1,其余各數(shù)值小于1,極差的標(biāo)準(zhǔn)化,經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各屬性的極大值為1,極小值為0,其余的數(shù)值均在0與1之間,三 數(shù)據(jù)預(yù)處理,6.2相似性的度量,2021/1/25,21,一般說來,同一批數(shù)據(jù)采用不同的相似指標(biāo),會得到不同的分類結(jié)果。因?yàn)椴煌南嗨浦笜?biāo)凝聚了不同意義上的相似程度。 選擇相似測度指標(biāo)時,應(yīng)注意遵循的基本原則主要

9、有: (1)所選擇的相似指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的相似程度,四 距離和相似系數(shù)選擇的原則,6.2相似性的度量,2021/1/25,22,2)相似指標(biāo)的選擇要綜合考慮已對樣本觀測數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。 在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù); 若在進(jìn)行聚類分析之前已經(jīng)對變量的相關(guān)性作了處理,則通常就可采用歐氏距離 所選擇的相似指標(biāo),須和選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。 (3)適當(dāng)?shù)乜紤]計算工作量的大小。 如對大樣本的聚類問題,應(yīng)選擇k均值聚類。 聚類分析時到底選擇哪

10、一種分類統(tǒng)計量,有時并無最優(yōu)或唯一選擇,通常也可嘗試性地多選擇幾個不同的度量值進(jìn)行聚類,通過比較分析確定,2021/1/25,23,一 系統(tǒng)聚類的基本思想,二 系統(tǒng)聚類的基本步驟,三 類間距離距離與系統(tǒng)聚類法,6.3 系統(tǒng)聚類,四 在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析,2021/1/25,24,1.計算n個樣本兩兩間的距離 ,記作D= 。 2.構(gòu)造n個類,每個類只包含一個樣品。 3.合并距離最近的兩類為一新類。 4.計算新類與各當(dāng)前類的距離。 5.重復(fù)步驟3、4,合并距離最近的兩類為新類,直到所有的類并為一類為止。 6.畫聚類譜系圖。 7.決定類的個數(shù)和類,二系統(tǒng)聚類法的基本步驟,6.3系統(tǒng)

11、聚類法,2021/1/25,25,先將n個樣本各自看成一類,然后規(guī)定樣本之間的“距離”和類與類之間的距離。選擇距離最近的兩類合并成一個新類,計算新類和其它類(各當(dāng)前類)的距離,再將距離最近的兩類合并。這樣,每次合并減少類數(shù),直至所有的樣品都?xì)w成一類為止。 總是先把離得最近的兩個類進(jìn)行合并 合并越晚的類,距離越遠(yuǎn) 事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個合適的分類結(jié)果,一系統(tǒng)聚類法的基本思想,6.3系統(tǒng)聚類法,一系統(tǒng)聚類法的基本思想,6.3系統(tǒng)聚類法,2021/1/25,26,初始分類,若 與 距離最小,合并為一類,no,輸出分類結(jié)果,類與類之間距離定義的

12、不同導(dǎo)致不同的系統(tǒng)聚類方法,系統(tǒng)聚類法的聚類步驟流程圖,6.3系統(tǒng)聚類法,2021/1/25,27,類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。 常用的類間距離定義有8種之多,與之相應(yīng)的系統(tǒng)聚類法也有8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。 以下用dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj之間的距離,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,28,1最短距離法 (1)計算樣本的兩兩距離,得一距離陣記為D(0) (2)找出距離最小元素,設(shè)為Dpq,則將Gp

13、和Gq合并成一個新類,記為Gr,即Gr = Gp,Gq。 (3)計算新類與其它類的距離。 (4)重復(fù)(2)、(3)兩步,直到所有元素歸為一類,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,29,1、最短距離法,設(shè)類p與 q合并成一個新類,記為r,則r與任一類k的距離是,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,30,例:設(shè)有六個樣本,每個只測量一個指標(biāo),分別是1,2,5、7,9,10,樣本采用絕對值距離,計算樣本間的距離陣D(0) ,試用最短距離法將它們分類,2021/1/25,31,2)于是將G1和G2合并成G7,G5和G6合并成G8,形成新的距離矩陣

14、,2021/1/25,32,3)D34D482,G3、G4、G8合并成一個新類G9,2021/1/25,33,4)最后將G7和G9合并成G10,這時所有的六個樣品聚為一類,其過程終止,最短距離聚類法的過程,2021/1/25,34,例:設(shè)抽取5個樣本,每個樣本觀察2個指標(biāo) , x1:您每月大約喝多少瓶啤酒, x2:您對“飲酒是人生的快樂”這句話的看法如何?觀察數(shù)據(jù)如下,對這5個樣本分類,2021/1/25,35,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,36,3、計算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,37,為最小,,4、重復(fù)步驟2、3,合并距離

15、最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,38,6、按聚類的過程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個數(shù)與類,觀察此圖,我們可以把5個樣本分為3類,2021/1/25,39,2021/1/25,40,2 最長距離法,設(shè)類p與 q合并成一個新類,記為r,則r與任一類k 的距離是,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,41,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,42,3、計算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,43,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有

16、的類并為一類為止,2021/1/25,44,3. 中間距離法 類Gp與Gq類合并為類Gr,則任意的類Gk和Gr的距離公式為,特別當(dāng) = 14,它表示取中間點(diǎn)算距離,公式為,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,45,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,46,3、計算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,47,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,48,6、按聚類的過程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個數(shù)與類,觀察此圖,我們可以把5

17、個樣品分為3類,2021/1/25,49,4. 重心法 類間距離為兩類重心(各類樣品的均值)的距離,它與新類k的距離是,經(jīng)推導(dǎo)可以得到如下遞推公式,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,50,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,51,3、計算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,52,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,53,6、按聚類的過程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個數(shù)與類,觀察此圖,我們可以把5個樣本分為3類,2021

18、/1/25,54,5、類平均法(Average,類間距離平方:兩類元素兩兩之間距離平方的平均數(shù),三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,55,r類的樣品個數(shù)為,2021/1/25,56,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,57,3、計算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,58,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,59,6、按聚類的過程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個數(shù)與類,觀察此圖,我們可以把5個樣品分為3類,2021/1/2

19、5,60,6、可變類平均法,類平均法中沒有反映出Gp和Gq之間的距離Dpq的影響, 因此將類平均法進(jìn)一步推廣,如果將Gp和Gq合并為新類Gr, 類Gk與新并類Gr的距離公式為: 其中是可變的且 1,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,61,7、可變法,如果將中間法的前兩項(xiàng)的系數(shù)也依賴于 ,那么, 如果將和合并為新類 ,類 與新并類 的距離公式: 其中 是可變的,且 。顯然在可變類平均法中取 ,即為可變法。可變類平均法與可變法的分 類效果與的選擇關(guān)系很大,在實(shí)際應(yīng)用中 常取負(fù)值,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,62,8、離差平方和法(W

20、ard法,反映樣本之間的差異程度,設(shè)變量X的n個樣品觀察值為,n個樣本的離差平方和為,三、類間距離與系統(tǒng)聚類法,6.3系統(tǒng)聚類法,2021/1/25,63,設(shè)類p和q分別含有np、nq個樣品,合成類r,新類 k與任一類 r 的距離,2021/1/25,64,2. 合并距離最小的兩類為新類,按順序定為第類,2021/1/25,65,3、計算新類與各當(dāng)前類的距離,得距離矩陣如下,2021/1/25,66,為最小,,4、重復(fù)步驟2、3,合并距離最近的兩類為新類,直到所有的類并為一類為止,2021/1/25,67,6、按聚類的過程畫聚類譜系圖,4,5,并類距離,3,1,2,7、決定類的個數(shù)與類,觀察此

21、圖,我們可以把5個樣品分為3類,2021/1/25,68,最短距離法,最長距離法,中間距離法,重心法,類平均法,離差平方和法,2021/1/25,69,我國各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對我國31個省、自治區(qū)和直轄市進(jìn)行聚類分析,三 在SPSS中利用K均值法進(jìn)行聚類分析,三 在SPSS中利用K均值法進(jìn)行聚類分析,6.3 系統(tǒng)聚類,四 在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析,2021/1/25,70,一)操作步驟 1. 分析分類系統(tǒng)聚類,將變量移入變量框中。在分群欄中選擇個案單選按鈕,即對樣品進(jìn)行聚類(若選擇變量,則對變量進(jìn)行聚類)。在輸出欄中選擇統(tǒng)

22、計和圖復(fù)選框,這樣在結(jié)果輸出窗口中可以同時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖,四系統(tǒng)聚類法SPSS操作步驟,6.3系統(tǒng)聚類法,2021/1/25,71,2. 點(diǎn)擊統(tǒng)計按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計量。這里我們選擇系統(tǒng)默認(rèn)值,點(diǎn)擊繼續(xù)按鈕,返回主界面。 3. 點(diǎn)擊繪制按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計圖。選中樹狀圖復(fù)選框和冰柱欄中的無單選按鈕,即只給出聚類樹形圖,而不給出冰柱圖。單擊繼續(xù)按鈕,返回主界面,2021/1/25,72,4. 點(diǎn)擊方法按鈕,設(shè)置系統(tǒng)聚類的方法選項(xiàng)。聚類方法下拉列表用于指定聚類的方法,包括組間連接法、組內(nèi)連接法、最近距離法、最遠(yuǎn)距離法等;度量標(biāo)準(zhǔn)欄用于選擇對

23、距離和相似性的測度方法;剩下的轉(zhuǎn)換值和轉(zhuǎn)換度量用于選擇對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的方法。這里我們?nèi)匀痪赜孟到y(tǒng)默認(rèn)選項(xiàng)。單擊繼續(xù)按鈕,返回主界面,2021/1/25,73,5. 點(diǎn)擊保存按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。無表示不保存任何新變量;單一方案表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);方案范圍表示生成多個分類變量。這里我們選擇方案范圍,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的分類變量,分別表明將樣品分為2類、3類和4類時的聚類結(jié)果。點(diǎn)擊繼續(xù),返回主界面,6. 點(diǎn)擊確定按鈕,運(yùn)行系統(tǒng)聚類過程,2021/1/25,74,二)結(jié)果解釋 1 系統(tǒng)聚類法樹

24、形圖,2021/1/25,75,2. 由于我們已經(jīng)在保存子對話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個表示分類結(jié)果的新變量。變量名為clu4_1、clu3_1和clu2-1的三個分類變量分別表明了把樣品分成4類、3類和2類的分類情況,生成三個新的分類變量,2021/1/25,76,第1步:確定要分的類別數(shù)目K 需要研究者自己確定 在實(shí)際應(yīng)用中,往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試,得到不同的分類并進(jìn)行比較,得出最后要分的類別數(shù)量 第2步:確定K個類別的初始聚類中心(凝聚點(diǎn)) 要求在用于聚類的全部樣本中,選擇K個樣本作為K個類別的初始聚類中心 與確定類

25、別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實(shí)際問題和經(jīng)驗(yàn)來綜合考慮 使用SPSS進(jìn)行聚類時,也可以由系統(tǒng)自動指定初始聚類中心,一 k均值聚類步驟,6.4 k均值聚類分析(快速聚類,動態(tài)聚類,2021/1/25,77,第3步:根據(jù)確定的K個初始聚類中心,依次計算每個樣本到K個聚類中心的歐氏距離,根據(jù)距離最近的原則將所有的樣本分到事先確定的K個類別中 第4步:根據(jù)所分成的K個類別,計算出各類別中每個變量的均值,并以均值點(diǎn)作為新的K個類別中心。根據(jù)新的中心位置,重新計算每個樣本到新中心的距離,并重新進(jìn)行分類 第5步:重復(fù)第4步,直到滿足終止聚類條件為止 迭代次數(shù)達(dá)到研究者事先指定的最大迭代次數(shù)或

26、者新確 定的聚類中心點(diǎn)與上一次迭代形成的中心點(diǎn)的最大偏移量小于指定的量(SPSS隱含的是0.02,一 k均值聚類步驟,6.4 k均值聚類分析(快速聚類,動態(tài)聚類,2021/1/25,78,b) 任取兩個凝聚點(diǎn),a)空間的群點(diǎn),二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,2021/1/25,79,e) 第二次分類,優(yōu)點(diǎn):計算量小,方法簡便,可以根據(jù)經(jīng)驗(yàn),先作主觀分類。 缺點(diǎn):結(jié)果受選擇凝聚點(diǎn)好壞的影響,分類結(jié)果不穩(wěn)定,2021/1/25,80,凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對分類結(jié)果也有很大的影響,由于凝聚點(diǎn)

27、的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。故選擇時要慎重通 常選擇凝聚點(diǎn)的方法有: (1) 人為選擇,當(dāng)人們對所欲分類的問題有一定了解時,根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個數(shù)和初始分類,并從每一類中選擇一個有代表性的樣品作為凝聚點(diǎn)。 (2) 重心法將數(shù)據(jù)人為地分為幾類,計算每一類的重心,將重心作為凝聚點(diǎn),二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,2021/1/25,81,3) 密度法 以某個正數(shù)d為半徑,以每個樣品為球心,落在這個球內(nèi)的樣品數(shù)(不包括作為球心的樣品)稱為這個樣品的密度。計算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品為第一凝聚點(diǎn)。然后選出密度次大的樣品點(diǎn),若它與第一個凝 聚點(diǎn)的距離大于2d

28、,則將其作為第二個凝聚點(diǎn);否則舍去這點(diǎn)。這樣,按密度由大到小依次考查,直至全部樣品考查完畢為止此方法中,d要給得合適,太大了使凝聚點(diǎn)個數(shù)太 少,太小了使凝聚點(diǎn)個數(shù)太多,二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,4)人為地選擇一正數(shù)d,首先以所有樣品的均值作為第一凝聚點(diǎn)。然后依次考察每個樣品,若某樣品與已選定的凝聚點(diǎn)的距 離均大于d,該樣品作為新的凝聚點(diǎn),否則考察下一個樣品,二 凝聚點(diǎn)的選擇,6.4 k均值聚類分析,2021/1/25,82,例1:某商店5位售貨員的銷售量和教育程度如下表,對這5位售貨員分類,2021/1/25,83,選擇凝聚點(diǎn),1,為最大??蛇x擇2和5作為凝聚點(diǎn),計算各樣品之間

29、歐式距離,得到如下的距離矩陣,初始 分類 為,2021/1/25,84,計算G1和G2的重心:G1的重心(1,1.5), G2的重心(7.33,1.67,3.修改分類,分別計算5個點(diǎn)到兩個組重心的歐式距離, 再按最小距離原則重新聚類,修改前后所分的類相同, 故可停止修改,2021/1/25,85,例2:A、B、C、D四個樣品,兩個變量,將四個樣品聚成兩類 第一步:按要求取K=2,隨意分成兩類,比如(A、B)和(C、D),計算這兩個聚類的中心坐標(biāo),2021/1/25,86,第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。 由于A到(A、B)的距離小于到(C、D)的距離

30、,因此A不用重新分配。計算B到兩類的平方距離: B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)。更新中心坐標(biāo),2021/1/25,87,第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方,得結(jié)果見表。 到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨(dú)自成一類,B、C、D聚成一類,2021/1/25,88,我國各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對我國31個省、自治區(qū)和直轄市進(jìn)行聚類分析,三 在SPSS中利用K均值

31、法進(jìn)行聚類分析,6.4 k均值聚類分析,三 在SPSS中利用K均值法進(jìn)行聚類分析,6.4 k均值聚類分析,2021/1/25,89,數(shù)據(jù)檢查 若原始變量取值差異較大,應(yīng)先將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,避免變量值差異過大對分類結(jié)果的影響 可以先觀察3項(xiàng)指標(biāo)的有關(guān)描述統(tǒng)計量,分析】【描述統(tǒng)計】 【描述】 將需要標(biāo)準(zhǔn)化的變量選入【變量】 【選項(xiàng)】 【均值等】 【繼續(xù)】 【確定,2021/1/25,90,數(shù)據(jù)標(biāo)準(zhǔn)化,分析】【描述統(tǒng)計】 【描述】 將需要標(biāo)準(zhǔn)化的變量選入【變量】 勾選復(fù)選框【標(biāo)準(zhǔn)化得分另存為變量】 【確定,2021/1/25,91,一)操作步驟 1. 分析分類k均值聚類,并將標(biāo)準(zhǔn)化后的變量移入變

32、量框中,將標(biāo)志變量地區(qū)移入個案標(biāo)記依據(jù)框中。 在方法框中選擇迭代與分類,即使用K-均值算法不斷計算新的類中心,并替換舊的類中心(若選擇僅分類,則根據(jù)初始類中心進(jìn)行聚類,在聚類過程中不改變類中心)。 在聚類數(shù)后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將31個地區(qū)分為3類。至于聚類中心按鈕,則用于設(shè)置迭代的初始類中心。如果不手工設(shè)置,則系統(tǒng)會自動設(shè)置初始類中心,這里我們不作設(shè)置,三 在SPSS中利用K均值法進(jìn)行聚類分析,6.4 k均值聚類分析,2021/1/25,92,2. 點(diǎn)擊迭代按鈕,對迭代參數(shù)進(jìn)行設(shè)置。最大迭代次數(shù)用于設(shè)定K-均值算法迭代的最大次數(shù),收斂性標(biāo)準(zhǔn)用于設(shè)定算法的收

33、斂判據(jù),其值應(yīng)該介于0和1之間。例如判據(jù)設(shè)置為0.02,則當(dāng)一次完整的迭代不能使任何一個類中心距離的變動與原始類中心距離的比小于2%時,迭代停止。設(shè)置完這兩個參數(shù)之后,只要在迭代的過程中滿足了其中一個的參數(shù),則迭代過程就停止。這里我們選擇系統(tǒng)默認(rèn)的標(biāo)準(zhǔn)。單擊Continue,返回主界面。使用運(yùn)行均值當(dāng)每一個樣品被分配到一類時立即重新計算新的類中心,否則所有樣品重新分配后才重新計算新的類中心,2021/1/25,93,3. 點(diǎn)擊保存按鈕,設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。聚類成員用于建立一個代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;與聚類中心的距離建立一個新變量,代表各觀測量與其所屬

34、類中心的歐氏距離。我們將兩個復(fù)選框都選中,單擊繼續(xù)按鈕返回,2021/1/25,94,4. 點(diǎn)擊選項(xiàng)按鈕,指定要計算的統(tǒng)計量。選中初始聚類中心和每個個案的聚類信息復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個觀測量的分類信息,包括分配到哪一類和該觀測量距所屬類中心的距離。單擊繼續(xù)返回。 5. 點(diǎn)擊OK按鈕,運(yùn)行K均值聚類分析程序,2021/1/25,95,二)主要運(yùn)行結(jié)果解釋 1. 初始聚類中心 2. 迭代歷史記錄:本次聚類過程共經(jīng)歷了三次迭代。由于我們在迭代子對話框中使用系統(tǒng)默認(rèn)的選項(xiàng)(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變化為0,從而迭代停止,該表列出每一類別的初始聚類中心,本例的這些中心是由SPSS自動生成的,它實(shí)際上就是數(shù)據(jù)集中的某一條記錄。聚類中心的選擇原則是中心點(diǎn)距離其他點(diǎn)盡可能遠(yuǎn),2021/1/25,96,二)主要運(yùn)行結(jié)果解釋 1. 初始聚類中心 2. 迭代歷史記錄:本次聚類過程共經(jīng)歷了三次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論