北大應用多元統(tǒng)計分析課件第六章_第1頁
北大應用多元統(tǒng)計分析課件第六章_第2頁
北大應用多元統(tǒng)計分析課件第六章_第3頁
北大應用多元統(tǒng)計分析課件第六章_第4頁
北大應用多元統(tǒng)計分析課件第六章_第5頁
已閱讀5頁,還剩115頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

北大應用多元統(tǒng)計分析課件第六章第一頁,編輯于星期六:十三點四十八分。第六章聚類分析目錄§6.1聚類分析的方法§6.2距離與相似系數§6.3系統(tǒng)聚類法§6.4系統(tǒng)聚類法的性質及類的確定2第二頁,編輯于星期六:十三點四十八分。第六章§6.1聚類分析的方法

什么是聚類分析

聚類分析又稱群分析,它是研究對樣品或指標進行分類的一種多元統(tǒng)計方法.所謂的“類”,通俗地說就是相似元素的集合.聚類分析是按照觀測樣品(或變量)取值的相似程度,對觀測樣品(或變量)進行分類,使在同一類內的觀測樣品(或變量)是相似的,不同類間的觀測(或變量)是不相似的.什么是分類?它只不過是將一個觀測對象指定到某一類(組).3第三頁,編輯于星期六:十三點四十八分。第六章§6.1聚類分析的方法

什么是聚類分析

分類的問題可以分成兩種:

一種是對當前所研究的問題已知它的類別數目,且知道各類的特征(如分布規(guī)律,或知道來自各類的訓練樣本),我們的目的是要將另一些未知類別的個體正確歸屬于其中某一類,這是第五章判別分析所要解決的問題.另一種是事先不知道研究的問題應分為幾類,更不知道觀測到的個體的具體分類情況,我們的目的正是需要通過對觀測數據所進行的分析處理,選定一種度量個體接近程度的量,確定分類數目,建立一種分類方法,并按親近程度對觀測對象給出合理的分類.這種問題在實際中大量存在,它正是聚類分析所要解決的問題.4第四頁,編輯于星期六:十三點四十八分。

第六章§6.1聚類分析的方法

什么是聚類分析

聚類分析是實用多元統(tǒng)計分析的一個新的分支,正處于發(fā)展階段,理論上雖不很完善,但由于它能夠解決許多實際問題,因此這個方法很受人們的重視,特別是和其他方法聯(lián)合起來使用往往效果更好.例如對一批觀測對象先用聚類分析進行分類,然后用判別分析的方法建立判別準則,用以對新的觀測對象判別歸類.5第五頁,編輯于星期六:十三點四十八分。第六章§6.1聚類分析的方法聚類分析的方法可分為以下幾種:(1)系統(tǒng)聚類法:開始每個對象自成一類,然后每次將最相似的兩類合并,合并后重新計算新類與其他類的距離或相近性測度.這一過程一直繼續(xù)直到所有對象歸為一類為止.并類的過程可用一張譜系聚類圖描述.

(2)調優(yōu)法(動態(tài)聚類法);(3)最優(yōu)分割法(有序樣品聚類法);(4)模糊聚類法;(5)圖論聚類法;(6)聚類預報法.6第六頁,編輯于星期六:十三點四十八分。第六章§6.1聚類分析的方法

聚類分析的類型及目的

聚類分析根據分類對象的不同分為R型和Q型兩大類,R型是對變量(指標)進行分類處理,Q型是對樣品進行分類處理.

R型聚類分析的目的有以下方面:①了解變量間及變量組合間的親疏關系;②對變量進行分類;③根據分類結果及它們之間的關系,在每一類中選擇有代表性的變量作為典型變量,利用少數幾個典型變量進一步作分析計算,如進行回歸分析或Q型聚類分析等.7第七頁,編輯于星期六:十三點四十八分。第六章§6.1聚類分析的方法Q型聚類分析的目的

Q型聚類分析的目的主要是對樣品進行分類.分類的結果是直觀的,且比傳統(tǒng)分類方法更細致、全面、合理.當然使用不同的分類方法通常會得到不同的分類結果.對任何觀測數據都沒有唯一“正確的”的分類方法.

實際應用中,常采用不同的分類方法,對數據進行分析計算,以便對分類提供意見,并由實際工作者決定所需要的分類數及分類情況.

本章重點介紹應用最廣泛的系統(tǒng)聚類法;且主要討論Q型聚類分析問題.8第八頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

為了對觀測樣品(或變量)進行分類,就必須研究它們之間的關系.描述樣品之間親疏相似程度的統(tǒng)計量很多,目前用得最多的是距離和相似系數,這兩個統(tǒng)計量的定義與變量的類型密切相關,我們首先介紹變量的類型.9第九頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

定量變量和定性(屬性)變量

定量變量就是我們通常所說的連續(xù)變量,例如長度、重量、產量、人口、溫度等,它們是由測量或計數、統(tǒng)計所得到的量,這類變量具有數值特征,稱為定量變量.

根據變量取值的不同,變量可分為兩大類:定量變量和定性(屬性)變量.10第十頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

定量變量和定性(屬性)變量定性(屬性)變量只有性質上的差異,例如天氣(陰、晴),性別(男、女),產品質量分為上中下三個等級.這些變量都是屬性(定性)變量.屬性變量又分為名義變量和有序變量二種:(1)有序變量:其值有明確的邏輯次序,但各個值之間的距離并不清楚.(2)名義變量:其值之間無邏輯次序,可按任何次序排序編碼.例如性別,職業(yè),地區(qū),…都是名義變量.不同類型的變量在定義距離或相似性測度時有很大差異.11第十一頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

數據的變換方法設有n個樣品,每個樣品測得m項指標(變量),得觀測數據xij(i=1,…,n,j=1,…,m).通常將數據列成以下表格的形式.12第十二頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

數據的變換方法1.中心化變換變換后數據的均值為0,而協(xié)差陣不變.2.標準化變換變換后的數據,每個變量的樣本均值為0,標準差為1,而且標準化變換后的數據{x*ij}與變量的量綱無關.3.極差標準化變換變換后的數據,每個變量的樣本均值為0,極差為1,變換后的數據也是無量綱的量.13第十三頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

數據的變換方法4.極差正規(guī)化變換(規(guī)格化變換)變換后的數據0≤x*ij≤1;極差為1,也是無量綱的量.5.對數變換它可將具有指數特征的數據結構化為線性數據結構.14第十四頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離描述樣品間的親疏程度最常用的是距離.

n個樣品看成m維空間中的n個點,用dij表示樣品X(i)和X(j)之間的距離,一般要求:①dij≥0,對一切i,j;當dij=0<==>X(i)

=X(j)

;②dij=dji

,對一切i,j;③dij≤dik+dkj,對一切i,j,k(三角不等式).X(k)X(i)X(j)15第十五頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離1.閔科夫斯基(Minkowski)距離當q=1時的一階Minkowski度量就稱為絕對值距離.16第十六頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離當q=∞時的Minkowski度量稱為切比雪夫距離.當q=2時的二階Minkowski度量稱為歐氏距離.歐氏距離是聚類分析中用得最廣泛的距離.17第十七頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離缺點:(1)與各變量的量綱有關;(2)沒有考慮指標間的相關性;(3)沒有考慮各變量方差的不同.如歐氏距離,變差大的變量在距離中的作用(貢獻)就會大,這是不合適的.合理的方法就是對各變量加權,如用1/s2作為權數可得出“統(tǒng)計距離”:18第十八頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離

對n個樣品計算兩兩間的距離dij后,可排成矩陣D

d11

d12

….d1n

d21

d22….d2n

D=……………….dn1

dn2….dnnn×ndij

值越小,表示兩個樣品越接近,dij值越大,表示兩個樣品越不相近.19第十九頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離2.蘭氏距離(要求xij>0)這是由Lance和Williams最早提出的,故稱為蘭氏距離.這是一個無量綱的量.克服了閔氏距離與各指標的量綱有關的缺點.且蘭氏距離對大的奇異值不敏感,這樣使得它特別適合高度偏倚的數據.但蘭氏距離也沒有考慮變量間的相關性.20第二十頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離

3.馬氏距離(Mahalanobis)

馬氏距離既排除了變量間相關性的干擾,而且還不受各項指標量綱的影響.另馬氏對線性變換具有不變性.21第二十一頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離馬氏距離雖然可以排除變量之間相關性的干擾,并且不受量綱的影響,但是在聚類分析處理之前,如果用全部數據計算均值和協(xié)差陣來求馬氏距離,效果不是很好.比較合理的辦法是用各個類的樣本來計算各自的協(xié)差陣,同一類樣品間的馬氏距離應當用這一類的協(xié)差陣來計算,但類的形成都要依賴于樣品間的距離,而樣品間合理的馬氏距離又依賴于類,這就形成了一個惡性循環(huán),因此在實際聚類分析中,馬氏距離也不是理想的距離.22第二十二頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

樣品間的距離和相似系數4.斜交空間距離

在m維空間中,為使具有相關性變量的譜系結構不發(fā)生變形,采用斜交空間距離,即在數據標準化處理下,rkl為變量Xk和Xl之間的相關系數

5.相似系數樣品間的親疏程度除了用距離描述外,也可用相似系數來表示.參見以下“變量間的相似系數”的定義.23第二十三頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數

6.定性變量樣品間的距離或相似系數下面來介紹定性變量(名義變量或有序變量)的距離或相似系數的定義方法.在數量化理論中,常把定性變量叫做項目,而把定性變量的各種不同取"值"叫做類目.例如性別是項目,而男或女是這個項目的類目;體形也是一個項目,而適中、胖、瘦、壯等是這個項目的類目.性別只能取男或女中一類,不能兼??;而體形可以是適中且壯,即兼取兩類.24第二十四頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數設樣品X(i)的第k個項目(k=1,2,…,m)的取值為(δi(k,1),δi(k,2),…,δi(k,rk))(i=1,2,…,n),其中n為樣品的個數,m為項目的個數,rk是第k個項目的類目數.并稱δi(k,l)為第k項目之l類目在第i個樣品中的反應.25第二十五頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數設兩個樣品為X(i)和X(j),若δi(k,l)=δj(k,l)

=1,則稱這兩個樣品在第k個項目的第l類目上1-1配對;若δi(k,l)=δj(k,l)

=0,則稱這兩個樣品在第k個項目之l類目上0-0配對;若δi(k,l)≠δj(k,l),則稱為不配對.26第二十六頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數記m1為X(i)和X(j)在m個項目的所有類目中1-1配對的總數;m0為0-0配對的總數;m2為不配對總數.顯然m0+m1+m2=總類目數p(p=r1+r2+…+rm).表6.2給出兩個樣品的取“值”情況.顯然m1=3,m0=7,m2=4.項目數m=4,總類目數p=14.27第二十七頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數定性變量樣品間的距離或相似系數

(1)兩個樣品為X(i)和X(j)間的距離定義為

即不配對的類目數在有反應的類目(包括1-1配對和不配對)數中的比例.比如表6.2,dij=4/7.28第二十八頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數當項目只能取可能類目中的一類,不能兼取的情況下,兩樣品的距離定義為:其中m*2是不配對的項目(變量)個數;m表示項目總個數.類似于歐氏距離,還可以定義不配對的總數:29第二十九頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數

(2)樣品X(i)和X(j)間的相似性度量由表6.3給出幾種定義方法.這種相似性度量也稱為匹配系數30第三十頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量樣品間的距離或相似系數

(p+m2=2m2+m1+m0)31第三十一頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

變量間的相似系數和距離在對變量進行分類時,通常采用相似系數來表示變量之間的親疏程度.設Cij表示變量Xi和Xj間的相似系數,一般要求①Cij=±1<==>Xi=a

Xj

(a≠0,常數);②|Cij|≤1,對一切i,j成立;③Cij=Cji

,對一切i,j成立.|Cij|越接近1,則表示Xi和Xj的關系越密切,|Cij|越接近0,兩者關系越疏遠.32第三十二頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

變量間的相似系數和距離1.夾角余弦變量Xi的n次觀測值(x1i,x2i,…,xni)看成n維空間的向量.Xi

和Xj夾角αij的余弦稱為兩向量的相似系數,記為Cij(1),即當i=j時,夾角αij=0,Cij(1)=1,說明兩向量完全相似;當Xi

和Xj正交時,αij=90,Cij(1)=0,說明兩變量不相關.33第三十三頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

變量間的相似系數和距離

2.相關系數相關系數就是對數據作中心化或標準化處理后的夾角余弦.變量Xi

和Xj的相關系數常用rij表示,在這里我們記為Cij(2),即當i=j時,Cij(2)=1表示兩變量線性相關.一般情況,|Cij(2)|≤1.34第三十四頁,編輯于星期六:十三點四十八分。第六章§6.2距離與相似系數

變量間的相似系數和距離3.變量間的距離(1)利用相似系數來定義變量間的距離令dij=1-|Cij|或d2ij=1-C2ij(i,j=1,2,…,m).(2)利用樣本協(xié)差陣來定義距離設樣本協(xié)差陣S=(sij)>0,變量Xi和Xj間的距離可定義為

dij=

sii+sjj-2

sij(3)把變量Xi的n次觀測值看成n維空間的點.在n維空間中按“樣品間的距離和相似系數”中介紹的方法類似可定義m個變量間的種種距離.35第三十五頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

4.定性變量間的相似系數當變量Xi是定性變量時,也可以定義多種相似系數.設變量Xi的p種取值記為r1,r2,…,rp(或稱項目Xi有p個類目);Xj的q種取值記為t1,t2,…,tq.n個樣品中兩個定性變量的實際觀察數列成表6.4,其中nkl表示在n個樣品中Xi取rk且Xj取tl的頻數.通常稱表6.4為列聯(lián)表.36第三十六頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

37第三十七頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

利用列聯(lián)表對兩定性變量獨立性的檢驗中常用到的統(tǒng)計量建立在卡方統(tǒng)計量基礎上的相似系數有

(1)聯(lián)列系數38第三十八頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

(2)連關系數(有三種)39第三十九頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

如果Xi和Xj只取二個值(不妨記為0或1),則列聯(lián)表化為:這時常用的相似系數有

(3)點相關系數(習題6-2)(6.2.2)40第四十頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

點相關系數是與定量變量的相關系數相對應的統(tǒng)計量。

(4)四分相關系數(5)

夾角余弦(習題6-2)(6.2.3)41第四十一頁,編輯于星期六:十三點四十八分。第六章

§6.2距離與相似系數

定性變量間的相似系數

考慮到Cij=Cji,改進的統(tǒng)計量為42第四十二頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

HierachicalClusteringMethod

聚類所需的數據可以是通常的多變量的觀測記錄,也可以是描述樣品間或變量間親近(proximity)程度的一個矩陣.如用相關系數描述相似程度或用距離描述不相關程度。根據親近程度進行聚類有多種方法,常用的方法是系統(tǒng)聚類方法(HierachicalClusteringMethod).他將n個樣品各自看成一類,然后選擇距離最近(或最相似)的一對合并成一個新類.再將距離最近的兩類合并成一個新的類.每一步減少一個類,直至所有樣品都成為一個類為止.43第四十三頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

系統(tǒng)聚類法的基本思想和基本步驟設有n個樣品,每個樣品測得m項指標.首先定義樣品間的距離(或相似系數)和類與類之間的距離.系統(tǒng)聚類方法的基本思想是:一開始將n個樣品各自自成一類,這時類間的距離與樣品間的距離是等價的;然后將距離最近的兩類合并,并計算新類與其他類的類間距離,再按最小距離并類.這樣每次縮小一類,直到所有的樣品都成一類為止.這個并類過程可以用譜系聚類圖形象地表達出來.44第四十四頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

系統(tǒng)聚類法的基本思想和基本步驟系統(tǒng)聚類法的基本步驟如下:

數據變換:可以使用上節(jié)介紹的方法對數據進行變換.數據變換目的是為了便于比較、計算上的方便或改變數據的結構.選擇度量樣品間距離的定義(如歐氏距離)及度量類間距離的定義(如最短距離法,見下面“系統(tǒng)聚類分析的方法”中的介紹).①計算n個樣品(個體)兩兩間的距離,得初始的距離矩陣D(1).045第四十五頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

系統(tǒng)聚類法的基本思想和基本步驟②一開始(第一步:i=1)n個樣品各自構成一類,得類的個數k=n個類:Gt={X(t)}(t=1,…,n).此時類間的距離就是樣品間的距離.對步驟i=2,…,n執(zhí)行并類過程的步驟③和④.③步驟i得到的D(i-1),每次合并類間距離最小的兩類為一新類.此時類的總個數k減少1類,即k=n-i+1.④計算新類與其他類的距離,得新的距離矩陣D(i).若此時類的總個數k大于1類,重復③和④步;直到類的總個數為1時止.46第四十六頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

系統(tǒng)聚類法的基本思想和基本步驟⑤畫譜系聚類圖;

⑥決定分類的個數及各類的成員.當臨界值d=2.01應分為兩類當臨界值d=1.51應分為三類當臨界值d=1.01應分為四類47第四十七頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

應用簡例

例6.3.1設有5個產品,每個產品測得一項質量指標X,其值如下:1,2,4.5,6,8.試對5個產品按質量指標進行分類.

解設樣品間的距離取為歐氏距離,類間的距離取為類間的最短距離.根據上面介紹的步驟,計算如下:①計算5個樣品{X(1),

X(2),

X(3),

X(4),

X(5)}兩兩間的距離,得初始的類間距離矩陣D(1):48第四十八頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

應用簡例

②一開始n個樣品各自構成一類,得5個類:Gi={X(i)}(i=1,…,5),類的個數k=5.=D(1)

124.56849第四十九頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

應用簡例

③由D(1)可知距離為1時最小,首先合并X(1)和X(2)為一新類,記為CL4={X(1),X(2)};此時類的總個數k減少1類,變?yōu)閗=4,故把此步得到的新類記為CL4.④按最短距離法計算新類CL4與其他類的距離,得新的距離矩陣D(2).50第五十頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

應用簡例

因此時類的總個數k=4大于1類,重復并類過程.=D(2)124.568CL451第五十一頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

應用簡例

⑤由D(2)可知距離為1.5時最小,故合并X(3)和X(4)為一新類,記為CL3={X(3),X(4)};此時類的總個數k減少1類,變?yōu)閗=3,故把此步得到的新類記為CL3.⑥按最短距離法計算新類CL3與其他類的距離,得新的距離矩陣D(3).=D(3)52第五十二頁,編輯于星期六:十三點四十八分。第六章

§6.3系統(tǒng)聚類方法

應用簡例

因此時類的總個數k=3大于1類,重復并類過程.⑦由D(3)可知,應合并X(5)和CL3為一新類,記為CL2={X(5),X(3),X(4)};此時類的總個數k減少1類,變?yōu)閗=2,故把此步得到的新類為CL2.⑧按最短距離法計算新類CL2與其他類的距離,得新的距離矩陣D(4).=D(4)53第五十三頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

應用簡例因此時類的總個數k=2大于1類,重復并類過程.⑨由D(4)可知,最后應合并CL4和CL2為一新類,記為CL1={X(1),

X(2),

X(3),

X(4),

X(5)};此時類的總個數k=1,故把此步得到的新類為CL1.⑩此時所有樣品全并成一類,得新的距離矩陣D(5).=D(5)54第五十四頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

應用簡例

根據并類過程繪制的譜系聚類圖55第五十五頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

應用簡例

1824.56并類的直觀過程①②③④X(1)X(2)X(3)X(4)X(5)56第五十六頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

應用簡例

根據譜系聚類圖可得到分類的結果:

若分為兩類,則分為:{X(1),X(2)}和{X(5),X(3),X(4)

}

若分為三類,則分為:{X(1),X(2)}

,{X(5)}和{X(3),X(4)};若分為四類,則分為:{X(1)

,X(2)

},{X(5)

}和{X(3)}和{X(4)};若分為五類,則分為:{X(1)

},{X(2)

},{X(3)

},{X(4)}和{X(5)}.57第五十七頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法

系統(tǒng)聚類法的聚類原則決定于樣品間的距離(或相似系數)及類間距離的定義,類間距離的不同定義就產生了不同的系統(tǒng)聚類分析方法.幾個記號:

用dij表示樣品X(i)和X(j)之間的距離,當樣品間的親疏關系采用相似系數Cij時,令dij=1-|Cij|(或d2ij=1-C2ij);用Dij表示類Gi和Gj間的距離.58第五十八頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--最短距離法1.最短距離法(SINglelinkage)

類與類之間的距離定義為兩類中最近樣品之間的距離,即類Gp和Gq之間的距離Dpq定義為比如:當G1={1,2},G2={4.5,6}時,

D12=4.5-2=2.5(即最近兩樣品x(2)=2和x(3)=4.5之間的距離)59第五十九頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法----最短距離法

例6.3.1中類間距離就是使用最短距離法定義的.當某步類Gp和Gq合并為Gr后,按最短距離法計算新類Gr與其他類Gk的類間距離,遞推公式為60第六十頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法----最短距離法如第一步類G1和G2合并為Gr(記為CL4)后,按最短距離法計算新類Gr與其他類Gk(k=3,4,5)的類間距離,按遞推公式計算:由可得61第六十一頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--最長距離法2.最長距離法(COMpletemethod)類與類之間的距離定義為兩類中最遠樣品之間的距離,即類Gp和Gq之間的距離Dpq定義為類Gp和Gq合并為Gr后,按最長距離法計算新類Gr與其他類Gk的類間距離也有類似的遞推公式:比如:當G1={1,2},G2={4.5,6}時,D12=6-1=5.62第六十二頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--中間距離法3.中間距離法(MEDianmethod)

如果類與類之間的距離既不采用兩類間的最近距離,也不采用最遠的距離,而是采用介于兩者間的距離,這種方法稱為中間距離法.

GqGrGkDrk(短)=DpkDrk(長)=DqkDrk(中)GpDpq63第六十三頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--中間距離法當某步類Gp和Gq合并為Gr后,按中間距離法計算新類Gr與其他類Gk的類間距離,遞推公式為(-1/4≤β≤0)當β=-1/4時,由初等幾何知Drk就是上面三角形的中線.如果用最長距離法,則Drk=Dqk;用最短距離法,則Drk=

Dpk.64第六十四頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--重心法

設某一步將Gp和Gq合并成Gr,它們所包含的樣品個數分別為np、nq和nr(nr=np+nq).重心分別4.重心法(CENtroidmethod)在定義類與類之間距離時,考慮每一類中所包含的樣品個數.將兩類間的距離定義為兩類重心間的距離,這種聚類方法稱為重心法.對樣品分類而言,每一類的重心就是屬于該類樣品的均值.比如:當G1={1,2},G2={4.5,6}時,

D212=(5.25-1.5)2=(3.75)2.65第六十五頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--重心法顯然有設某一類Gk(k≠p,q)的重心為,它與新類Gr的距離是如果樣品間的距離定義為歐氏距離,則有66第六十六頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--重心法67第六十七頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--重心法(習題6-7)68第六十八頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--類平均法5.類平均法(AVEragelinkage)

重心法雖有較好的代表性,但并未充分利用各個樣品的信息.比如下面兩組類按重心法類間距離相等,這是不合理的.69第六十九頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--類平均法類平均法把類與類之間的距離定義為兩類樣品兩兩之間的平均平方距離,即比如:當G1={1,2},G2={4.5,6}時,

D212=[(4.5-1)2+(4.5-2)2+(6-1)2+(6-2)2]/4=[12.25+6.25+25+16]/4=59.5/4=14.875或D12=3.8568170第七十頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--類平均法

設某一步將Gp和Gq合并成Gr,它們所包含的樣品個數分別為np,nq和nr(nr=np+nq).Gr與其他類Gk的類間距離的遞推公式為71第七十一頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--類平均法由類平均法類間距離的定義可得:(k≠p,q)72第七十二頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法--可變類平均法6.可變類平均法(FLExiblebetamethod)

類平均法的類間距離遞推公式中,類Gp和Gq間的距離沒有反映進去,有人建議將合并后新類Gr與其他類Gk的距離公式改為:

其中β是可變參數,一般取β<1.可變類平均法是由類平均法和中間距離法適當推廣得到的.73第七十三頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---可變法及MCQ法7.可變法及McQuitty相似分析法(MCQ)當Gp和Gq合并為Gr后,可變法把Gr與其他類Gk的類間距離的遞推公式定義為(β<1)在cluster過程中使用β=

0時的遞推公式:并把此方法稱為McQuitty相似分析法.74第七十四頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法8.離差平方和法(WARD)

離差平方和法是Ward(1936)提出的,也稱為Ward法.它基于方差分析思想,如果類分得正確,則同類樣品之間的離差平方和應當較小,不同類樣品之間的離差平方和應當較大.75第七十五頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法k個類的總離差平方和為當k固定時,要選擇使W達到極小的分類.Wt,Wt76第七十六頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法Ward法的基本思想是,先將n個樣品各自成一類,此時W=0,然后每次將其中某兩類合并為一類,因每縮小一類離差平方和就要增加,每次選擇使W增加最小的兩類進行合并,直至所有樣品為一類為止.Ward法把兩類合并后增加的離差平方和看成類間的平方距離,即把類Gp和Gq的平方距離定義為77第七十七頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法

比如:當G1={1,2},G2={4.5,6}時,

W1

=(1-1.5)2+(2-1.5)2=0.25+0.25=0.5

W2=(4.5-5.25)2+(6-5.25)2=0.5625+0.5625=1.125記G3={G1,G2}={1,2,4.5,6}(均值=3.375)

W3=(1-3.375)2+(2-3.375)2+(4.5-3.375)2+(6-3.375)2

=15.5865則D212=W3-(W1+W2)=15.5865-(0.5+1.125)=13.9615或D12=3.736578第七十八頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法下面來推導D2pq的公式.利用Wr的定義:79第七十九頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法經整理可得當樣品間距離采用歐氏距離時,上式可表為這表明Ward法定義的類間距離與重心法只相差一個常數倍.80第八十頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類分析的方法---離差平方和法當Gp和Gq合并為Gr后,Gr與其他類Gk的距離有如下遞推公式:

在實際應用中,離差平方和法應用比較廣泛,分類效果較好.但它要求樣品間距離必須采用歐氏距離.(習題6-8)81第八十一頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類方法的統(tǒng)一以上介紹的八種方法聚類的步驟完全一樣,所不同的是類與類之間的距離有不同的定義方法,因而得到不同的遞推公式,Lance和Williams于1967年首先給出了統(tǒng)一公式.當Gp和Gq合并為Gr后,新類Gr與其他類Gk的平方距離為:其中αp、αq、β和γ是參數,不同的系統(tǒng)聚類方法有不同的取值.82第八十二頁,編輯于星期六:十三點四十八分。第六章§6.3系統(tǒng)聚類方法

系統(tǒng)聚類方法的統(tǒng)一83第八十三頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

系統(tǒng)聚類方法的簡單性質(1)單調性設Dk表示系統(tǒng)聚類法中第k次并類時的距離.一個系統(tǒng)聚類法若能保證{Dk,k=1,2,…,n-1}是單調的,則稱它具有單調性.如例6.3.1,用最短距離時有:D1=1,D2=1.5,

D3=2,D4=2.5.滿足D1≤D2≤

D3≤

D4

.并類距離有單調性符合系統(tǒng)聚類法的基本思想.

可以證明,最短距離法,最長距離法,類平均法,可變類平均法,離差平方和法都具有單調性,只有重心法和中間距離法不具有單調性(習題6-4,6-5和6-6).84第八十四頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性

系統(tǒng)聚類方法的簡單性質(2)空間的濃縮與擴張

以例6.3.1來說明該性質.比較最短距離法和最長距離法的并類過程及相應的距離陣可以看出.每一步都有:

Dij(短)≤Dij(長)(對一切i,j).這種性質稱為最長距離法比最短距離法擴張;或稱最短距離法比最長距離法濃縮.85第八十五頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

系統(tǒng)聚類方法的比較對前面介紹的系統(tǒng)聚類方法,有如下結論:類平均法(或中間距離法)比最短距離法擴張,而且比最長距離法濃縮;類平均法比重心法擴張,而且比離差平方和法濃縮.太濃縮的方法不夠靈敏,太擴張的方法當樣品容量大時容易失真.

類平均法比較適中,相對于其他方法不太濃縮也不太擴張,而且具有單調性.因而是一種應用廣泛、聚類效果較好的方法.86第八十六頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義聚類分析的目的是對樣品或變量進行分類,但至今對什么是類還沒有給出定義.在實際應用中,不同領域里類的含義是不盡相同的,要給出一個嚴格的統(tǒng)一定義是不容易的。Rao在1977年曾給三種定義.

定義6.4.1設閾值T是給定的正數,若集合G中任二個元素的距離dij都滿足:dij≤T(i,j∈G),則稱G對于閾值T組成一個類.87第八十七頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義T=3.51如最長距離法:給定T=3.51時,5個樣品分為兩類,這時兩個類中,每一類里任二個樣品的距離dij≤T.故最長距離法符合定義6.4.1.若用最短距離法(例6.3.1):給定T=2.01時,5個樣品分為兩類,這時兩個類中,每一類里任二個樣品的距離不滿足dij≤T.124.568最長距離法的譜系圖88第八十八頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義定義6.4.2設閾值T是給定的正數,如果集合G中每個i∈G,都滿足:其中n是集合G中元素的個數,則稱G對于閾值T組成一個類.89第八十九頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義如類平均法:給定T=2.86時,5個樣品分為兩類,這時每一類里任一個樣品與其它樣品的平均距離≤T.故類平均法符合定義6.4.2.若用最短距離法(例6.3.1):給定T=2.01時,5個樣品分為兩類,這時每一類里任一個樣品與其它樣品的平均距離不滿足≤T.124.568T=2.86類平均法的譜系圖90第九十頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義

定義6.4.3設T和H(H>T)是兩個給定的正數,如果集合G中兩兩元素距離的平均滿足:其中n是集合G中元素的個數,則稱G對于閾值T,H組成一個類.91第九十一頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義

定義6.4.4設T是給定的正數,若對集合G中任一個i∈G,一定存在j∈G,使得這二個元素的距離dij滿足:dij≤T(i,j∈G),則稱G對于閾值T組成一個類.類似地還可以給出以下二個定義.如最短距離法(例6.3.1):給定T=2.01時,5個樣品分為兩類,這時每一類里的任一個樣品,都存在另一樣品使其距離不滿足≤T.故最短距離法符合定義6.4.4.92第九十二頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義

定義6.4.5設閾值T是給定的正數,將集合G任意分為二類:G1和G2,這兩類之間的距離D(G1,G2)滿足:D(G1,G2)≤T,則稱G對于閾值T組成一個類.93第九十三頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義如最短距離法:給定T=2.01時,5個樣品分為兩類.顯然把每一類再任分為兩類,則兩類間的距離Dij≤T.故最短距離法符合定義6.4.5.其實,以上定義的8種類間距離都符合定義6.4.5.124.568T=2.01最短距離法的譜系圖94第九十四頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的定義

在系統(tǒng)聚類的方法中,我們重點介紹了類與類之間的8種距離及統(tǒng)一的遞推公式.類的定義6.4.5可用于8種類間距離的任一種.定義6.4.1可用于最長距離法;定義6.4.4可用于最短距離法;定義6.4.2可用于類平均法.

容易看出,以上前4種定義中,定義6.4.1要求是最高的,凡是符合它的類,一定也是符合后三種定義的類.此外,凡是符合定義6.4.2的類,也一定是符合后二種定義的類.95第九十五頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的特征設類G包含的樣品記為X(1),X(1),…,X(n),其中X(t)(t=1,2,…,n)為m維總體的樣本.可以從不同角度來刻畫G的特征,常用的特征有以下三種:

1.均值(重心)96第九十六頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的特征

2.樣本離差陣及樣本協(xié)差陣97第九十七頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類的特征

3.類的直徑

用DG表示類G的直徑,常用的直徑有:98第九十八頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定

聚類分析中,類的個數如何確定的問題是一個十分困難的問題,人們至今仍未找到令人滿意的方法;但這又是一個不可回避的問題.迄今為止,雖給出了類的定義,只是從不同的角度直觀地敘述了“類”的概念,并未給出嚴格的統(tǒng)一定義,但要對各種不同形式的類給予統(tǒng)一的定義是比較困難的,“類”的概念是一個模糊的概念.因此在實際應用中,人們并不完全從類的定義來確定類.99第九十九頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定確定類個數的幾種常見方法:

1.由適當的閾值確定介紹系統(tǒng)聚類法的基本步驟時,由譜系聚類圖及臨界值,即可給出分類結果.

2.根據數據點的散布圖直觀地確定類的個數

3.根據統(tǒng)計量確定分類個數

4.根據譜系圖確定分類個數的準則100第一百頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定用于確定分類個數的統(tǒng)計量:

假定已將n個樣品分為k類,為G1,G2,…,Gk,nt表示Gt類的樣品個數(n1+…+nk=n),X(t)表示Gt的重心.表示Gt中第i個樣品(i=1,…,nt),

表示所有樣品的重心,Wt表示Gt中樣品的離差平方和.

所有樣品的總離差平方和T可以分解為:

其中101第一百零一頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定由Rk2的定義可知,Rk2值越大,也就是Pk/T越小,表示k個類內離差平方和之和Pk在總離差平方和T中占的比例越小,這說明k個類區(qū)分得越開.(1)Rk2統(tǒng)計量102第一百零二頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定

Rk2統(tǒng)計量可用于評價合并為k個類時的聚類效果.Rk2越大,聚類效果越好.

Rk2的值總是在0和1之間,而且Rk2的值總是隨著分類個數k的減少而變小.如果用戶希望通過分析Rk2值來確定n個樣品應分為幾類最合適,應該看Rk2值的變化.假定分為4類時的R42=0.797,而下一次合并后分為3類時R2下降較多,比如R32=0.402,下降了0.395(=0.797-0.402).這時通過分析Rk2統(tǒng)計量可得出,分為4個類是較合適的.103第一百零三頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定

(2)半偏Rk2統(tǒng)計量其中表示合并類GK和GL為新類GM后類內離差平方和的增值.該統(tǒng)計量用于評價合并GK和GL的效果.根據以上定義,半偏Rk2的值是上一步R2k+1與該步Rk2的差值,故查看Rk2變化的大小可以得到半偏Rk2.某步半偏Rk2的值越大,說明上一次合并為k+1類后的效果好.該統(tǒng)計量用于評價一次合并的效果.104第一百零四頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定

(3)偽F統(tǒng)計量該統(tǒng)計量用于評價分為k個類聚類效果.偽Fk值越大表示這n個樣品可顯著地分為k個類.偽Fk統(tǒng)計量可以作為確定類個數的有用指標,但并不具有像F統(tǒng)計量的分布.105第一百零五頁,編輯于星期六:十三點四十八分。第六章§6.4系統(tǒng)聚類法的性質

類個數的確定

(4)偽t2統(tǒng)計量該統(tǒng)計量用以評價此步合并類GK和GL的效果.由偽t2統(tǒng)計量的定義知該值大表示GK和GL合并為GM后類內離差平方和的增量B2KL相對于GK和GL兩類的類內離差平方和大.這表明上一次被合并的兩個類是很分開的,也就是上一次聚類的效果是好的.偽t2統(tǒng)計量可以作為確定類個數的有用指標,但并不具有像隨機變量t2那樣的分布.106第一百零六頁,編輯于星期六:十三點四十八分。第六章§6.4應用例子

例6.4.1

下表是我國16個地區(qū)農民1982年支出情況的抽樣調查資料,每個地區(qū)都調查了反映每人平均生活消費支出情況的六個指標.試利用調查資料對16個地區(qū)進行分類.107第一百零七頁,編輯于星期六:十三點四十八分。第六章§6.4--應用例子

對數據作標準化變換,樣品間距離定義為歐氏距離,系統(tǒng)聚類的方法分別使用類平均法、中間距離法、可變類平均法和離差平方和法.這幾種方法得到的并類過程及譜系聚類圖是相似的.下面只列出使用WARD法的SAS程序和輸出結果.

(1)生成sas數據集d641.Datad641;inputgroup$x1-x6;cards;北京190.3343.779.7360.5449.019.04…….…………….河南101.1823.268.4620.2020.504.30;108第一百零八頁,編輯于星期六:十三點四十八分。第六章§6.4--應用例子

(2)調用cluster過程進行系統(tǒng)聚類分析

procclusterdata=d641method=wardstdpseudocccouttree=b641;varx1-x6;idgroup;run;規(guī)定聚類方法的選項METHOD=是不能省略的.選

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論