系統(tǒng)聚類分析_第1頁
系統(tǒng)聚類分析_第2頁
系統(tǒng)聚類分析_第3頁
系統(tǒng)聚類分析_第4頁
系統(tǒng)聚類分析_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第4章系統(tǒng)聚類分析(共兩次課)(HierarchicalClusterAnalysis)主要內(nèi)容(參見書87面-)聚類分析概述聚類要素的數(shù)據(jù)處理距離和相似系數(shù)的計算常用系統(tǒng)聚類法環(huán)境應(yīng)用一、聚類分析概述引例1:書89面例4.1.-問題:6個站點可否按其指標(biāo)的相似性進行分類?如何綜合考慮5個指標(biāo)?表1某地區(qū)9個農(nóng)業(yè)區(qū)的7項經(jīng)濟指標(biāo)數(shù)據(jù)

區(qū)代號人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個-1

)水田比重X3/%復(fù)種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1

)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17

引例2:可否對9個農(nóng)業(yè)區(qū)進行分類?聚類分析的概念:聚類分析就是按照事物間的相似性進行科學(xué)的區(qū)分或分類的過程。聚類對象:聚類所針對的對象聚類要素:聚類所考慮的因素

二、聚類要素的數(shù)據(jù)處理

在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性。在分類和分區(qū)研究中,被聚類的對象常常是多個要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結(jié)果產(chǎn)生影響。因此當(dāng)分類要素的對象確定之后,在進行聚類分析之前,首先要對聚類要素進行數(shù)據(jù)處理。

假設(shè)有m個聚類的對象,每一個聚類對象都有n個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用表3.4.1給出。

(主要省略號的記號)表3.4.1聚類對象與要素數(shù)據(jù)

在聚類分析中,常用的聚類要素(變量)的數(shù)據(jù)處理方法有如下幾種:

總和標(biāo)準(zhǔn)化。分別求出各聚類要素所對應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足(3.4.1)②

標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即由這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù),各要素的平均值為0,標(biāo)準(zhǔn)差為1,即有(3.4.2)

極大值標(biāo)準(zhǔn)化,即經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。

④極差的標(biāo)準(zhǔn)化,即

經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。

(3.4.3)(3.4.4)例題:通過Excel對某地區(qū)9個農(nóng)業(yè)區(qū)的7項指標(biāo)進行標(biāo)準(zhǔn)化處理(見Excel文件“聚類分析例子.xls)極差標(biāo)準(zhǔn)化

區(qū)代號X1X2X3X4X5X6X7G10.91310.0730.1530.18310.143G210.86600.00200.2360G30.20.1480.0680.4370.4390.0790.071G40.4330.37900.1320.1780.1269E-04G50.0250.0341110.4691G60.0290.0330.6060.6890.6540.1340.595G7000.9040.8120.8350.1290.997G80.9080.5320.0698E-040.0960.4270.087G90.3830.2550.03500.15400.004三(1)“聚類對象”之間的距離及其計算

常見的“距離”有

①絕對值距離(下面公式中的i=1應(yīng)為k=1)

②歐氏距離

③明科夫斯基距離(1)

(2)

(3)

切比雪夫距離。當(dāng)明科夫斯基距時,有實例中9個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣如下(4)

(5)

聚類分析不僅可以對“樣本”分類,也可以對“變量分類”(例如書113面的第3題)。在此情況下分類的依據(jù)是“相似性系數(shù)”而不是“距離”。兩種常用的相似系數(shù)(書97面):

(1)夾角余弦

(2)相關(guān)系數(shù)三(2)變量之間相似系數(shù)的計算

四(1)、直接聚類法

原理及步驟(書100面)(1)將每個對象或樣本看做1類,共m類,記為G1,G2,…,Gm(2)定義并計算樣本之間的兩兩“距離”,得到第1個距離矩陣D0(3)合并距離最近的兩類為一新類,其它的樣本暫不合并這樣可得到共m-1類。(4)對新得到的分類重復(fù)步驟(2)&(3),直至將全部樣本分為1類為止。第二次課四(1)、直接聚類法

原理及步驟(書100面)(5)繪系統(tǒng)聚類樹形圖。(6)選取距離臨界值,根據(jù)樹形圖確定分類個數(shù)和分類結(jié)構(gòu)

例題:某地區(qū)的9個農(nóng)業(yè)區(qū)的聚類分析。極差標(biāo)準(zhǔn)化矩陣如下(書101面,程序HCA_Example3.m)

例題:某地區(qū)的9個農(nóng)業(yè)區(qū)的聚類分析。

絕對值距離矩陣如下(書102面,程序HCA_Example3.m)

聚類分析步驟如下(書102-104面):(1)在距離矩陣D中,除去對角線元素以外,d49=d94=0.49為最小者,故將第4區(qū)與第9區(qū)并為一類,得到一個新的共8類的暫時分類結(jié)果;

(2)按新的分類結(jié)果重新計算距離矩陣(見103面),發(fā)現(xiàn)d57=0.85最小,故將第5區(qū)與第7區(qū)并為一類,得到一個新的共7類的暫時分類結(jié)果;(3)按上面的方法依此類推。圖3.4.1直接聚類譜系圖

聚類譜系圖(樹形圖)說明(1)聚類譜系圖顯示的是一個一般的分類結(jié)構(gòu),不是一個特定的分類結(jié)果。(2)用戶可設(shè)定“距離臨界值”并根據(jù)設(shè)定的臨界值進行分類。例如,如設(shè)定距離臨界值”在1.78-3.10之間,則9個農(nóng)業(yè)區(qū)可分為3大類,即{G1,G2,G8},{G3,G4,G9},{G5,G6,G7}(3)“距離臨界值”的選取沒有一個嚴(yán)格的標(biāo)準(zhǔn),一般取距離跨度較大的兩個值中間的值。四(2)、最短距離聚類法

最短距離聚類法,是在原來的m×m距離矩陣找出“距離最小”的兩個分類對象Gp和Gq,并將其歸并為一新類Gr,然后按“距離最短”計算公式

計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出距離最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。

例題:用最短距離聚類法對某地區(qū)的9個農(nóng)業(yè)區(qū)進行聚類分析(注意此距離矩陣跟我們書上計算的略有出入,估計是數(shù)據(jù)標(biāo)準(zhǔn)化后進行四舍五入后造成的)。

回憶前面的直接聚類法(1)在9×9階距離矩陣D中,非對角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。按照最短距離公式分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離得d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29這樣就得到G1,G2,G3,G5,G6,G7,G8,G10上的一個新的8×8階距離矩陣如下:

在上一步驟中所得到的8×8階距離矩陣中,非對角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。

按照最短距離公式分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的7×7階距離矩陣圖3.4.2最短距離聚類譜系圖依此類推,經(jīng)過9個步驟后可以得到最短距離聚類譜系圖。結(jié)果與前面的直接聚類法一致

四(3)、最遠(yuǎn)距離聚類法

“最遠(yuǎn)距離聚類法”與“最短距離聚類法”的區(qū)別在于計算原來的類與新類之間的距離時采用的公式不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論