第4講 聚類分析_第1頁
第4講 聚類分析_第2頁
第4講 聚類分析_第3頁
第4講 聚類分析_第4頁
第4講 聚類分析_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

聚類分析分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。聚類分析對于一個數(shù)據(jù),人們既可以對變量(指標(biāo))進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。比如學(xué)生成績數(shù)據(jù)就可以對學(xué)生按照理科或文科成績(或者綜合考慮各科成績)分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量如何度量遠(yuǎn)近?如果想要對100個學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績,則只好按照數(shù)學(xué)成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點,也可以按照距離遠(yuǎn)近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。兩個距離概念按照遠(yuǎn)近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。二、樣本距離用表示第i個樣本與第j個樣本之間的距離。一切距離應(yīng)滿足以下條件:每個樣本有p個指標(biāo),因此每個樣本可以看成p維空間中的一個點,n個樣本就組成p維空間中的n個點,這時很自然想到用距離來度量n個樣本間的接近程度。常見的距離有:minkowskidistance(明氏距離):當(dāng)q=1blockdistance絕對值距離:當(dāng)q=2squaredeuclideandistance平方歐式距離ú?ùê?é-?==ptqjtitxxdq11當(dāng)q=chebychevdistance切比雪夫距離明氏距離在實際中應(yīng)用的很多,

但也存在一些缺點:處理辦法:標(biāo)準(zhǔn)化2、指標(biāo)間的相關(guān)問題;1、量綱的問題;Mahalanobis馬氏距離改進(jìn)的辦法,采用馬氏距離⒉相似系數(shù)夾角余弦相關(guān)系數(shù)①夾角余弦兩變量的夾角余弦定義為:

②相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為:

14

三、類間距離1、最短距離(NearestNeighbor)x21?x12?x22?x11?15最長距離(FurthestNeighbor)???x11?x21????16??????組間平均連接(Between-groupLinkage)171、組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?18重心法(Centroidclustering):均值點的距離??19離差平方和法連接2,41,56,520紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接和黃紅首先連接。類的個數(shù)的確定由適當(dāng)?shù)拈撝荡_定;根據(jù)數(shù)據(jù)點的散布直觀地確定類的個數(shù);根據(jù)統(tǒng)計量確定分類個數(shù);類的個數(shù)的確定根據(jù)譜系圖確定分類個數(shù)的準(zhǔn)則:各類重心間的距離必須很大;類中保包含的元素不要太多;類的個數(shù)必須符合實際應(yīng)用;如果采用幾種不同的聚類方法處理,則在各種聚類圖中應(yīng)該發(fā)現(xiàn)相同的類。聚類分析1、系統(tǒng)聚類法------(分層聚類)系統(tǒng)聚類法是應(yīng)用最廣泛的一種(HierarchicalCluster過程)1)、聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為一類。2)、分層聚類的方法可以用于樣本聚類(Q)型,也可以用于變量聚類(R型)。2、非系統(tǒng)聚類法-----(快速聚類法----K-均值聚類法)(K-meansCluster)3、兩步聚類法-----一種探索性的聚類方法(TwoStepCluster)K-均值聚類分析K-meansCluster

又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點:是占內(nèi)存少、計算量小、處理速度快,特別適合大樣本的聚類分析。缺點:應(yīng)用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對觀測量(樣本)聚類,而不能對變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。數(shù)據(jù)標(biāo)準(zhǔn)化處理:存儲中間過程數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化處理,并存儲。指定5類收斂標(biāo)準(zhǔn)值存儲最終結(jié)果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2)初始聚心選項,輸出方差分析表初始聚類中心表具體城市看后表最終聚類中心表聚類結(jié)果:QCL-1說明聚類結(jié)果,QCL-2說明聚類的長度情況系統(tǒng)聚類法HierarchicalCluster系統(tǒng)聚類法優(yōu)點:既可以對觀測量(樣品)也可對變量進(jìn)行聚類,既可以連續(xù)變量也可以是分類變量,提供的距離計算方法和結(jié)果顯示方法也很豐富。系統(tǒng)聚類法基本步驟7.決定類的個數(shù)和類。1.選擇樣本間距離的定義及類間距離的定義;2.計算n個樣本兩兩之間的距離,得到距離矩陣;3.構(gòu)造個類,每類只含有一個樣本4.合并符合類間距離定義要求的兩類為一個新類;5.計算新類與當(dāng)前各類的距離。若類的個數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫出聚類圖;系統(tǒng)聚類分析的方法以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時,令系統(tǒng)聚類法的聚類原則決定于樣品間的距離以及類間距離的定義,類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法。以下用D(p,q)表示類Gp和Gq之間的距離例為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費情況的分布規(guī)律,根據(jù)調(diào)查資料做類型分類,用最短距離做類間分類。數(shù)據(jù)如下:x1x2x3x4x5x6x7x8遼寧17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肅49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81將每一個省區(qū)視為一個樣本,先計算5個省區(qū)之間的歐式距離,用D0表示距離矩陣(對稱陣,故給出下三角陣)因此將3.4合并為一類,為類6,替代了3、4兩類類6與剩余的1、2、5之間的距離分別為:

d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21得到新矩陣合并類6和類5,得到新類7類7與剩余的1、2之間的距離分別為:

d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54得到新矩陣合并類1和類2,得到新類8此時,我們有兩個不同的類:類7和類8。它們的最近距離d(7,8)

=min(d71,d72)=min(12.80,23.54)=12.80得到矩陣最后合并為一個大類。這就是按最短距離定義類間距離的系統(tǒng)聚類方法。最長距離法類似!主要城市日照時數(shù)注:連續(xù)變量SPSS提供不同類間距離的測量方法1、組間連接法2、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論