版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第4章系統(tǒng)聚類分析(共兩次課)(HierarchicalClusterAnalysis)主要內(nèi)容(參見書87面-)聚類分析概述聚類要素的數(shù)據(jù)處理距離和相似系數(shù)的計算常用系統(tǒng)聚類法環(huán)境應(yīng)用一、聚類分析概述引例1:書89面例4.1.-問題:6個站點可否按其指標(biāo)的相似性進行分類?如何綜合考慮5個指標(biāo)?表1某地區(qū)9個農(nóng)業(yè)區(qū)的7項經(jīng)濟指標(biāo)數(shù)據(jù)
區(qū)代號人均耕地X1/(hm2·人-1)勞均耕地X2/(hm2·個-1
)水田比重X3/%復(fù)種指數(shù)x4/%糧食單產(chǎn)x5/(kg·hm-2)人均糧食x6/(kg·人-1
)稻谷占糧食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17
引例2:可否對9個農(nóng)業(yè)區(qū)進行分類?聚類分析的概念:聚類分析就是按照事物間的相似性進行科學(xué)的區(qū)分或分類的過程。聚類對象:聚類所針對的對象聚類要素:聚類所考慮的因素
二、聚類要素的數(shù)據(jù)處理
在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性。在分類和分區(qū)研究中,被聚類的對象常常是多個要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結(jié)果產(chǎn)生影響。因此當(dāng)分類要素的對象確定之后,在進行聚類分析之前,首先要對聚類要素進行數(shù)據(jù)處理。
假設(shè)有m個聚類的對象,每一個聚類對象都有n個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用表3.4.1給出。
(主要省略號的記號)表3.4.1聚類對象與要素數(shù)據(jù)
在聚類分析中,常用的聚類要素(變量)的數(shù)據(jù)處理方法有如下幾種:
①
總和標(biāo)準(zhǔn)化。分別求出各聚類要素所對應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的總和,即這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù)滿足(3.4.1)②
標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,即由這種標(biāo)準(zhǔn)化方法所得到的新數(shù)據(jù),各要素的平均值為0,標(biāo)準(zhǔn)差為1,即有(3.4.2)
③
極大值標(biāo)準(zhǔn)化,即經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。
④極差的標(biāo)準(zhǔn)化,即
經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。
(3.4.3)(3.4.4)例題:通過Excel對某地區(qū)9個農(nóng)業(yè)區(qū)的7項指標(biāo)進行標(biāo)準(zhǔn)化處理(見Excel文件“聚類分析例子.xls)極差標(biāo)準(zhǔn)化
區(qū)代號X1X2X3X4X5X6X7G10.91310.0730.1530.18310.143G210.86600.00200.2360G30.20.1480.0680.4370.4390.0790.071G40.4330.37900.1320.1780.1269E-04G50.0250.0341110.4691G60.0290.0330.6060.6890.6540.1340.595G7000.9040.8120.8350.1290.997G80.9080.5320.0698E-040.0960.4270.087G90.3830.2550.03500.15400.004三(1)“聚類對象”之間的距離及其計算
常見的“距離”有
①絕對值距離(下面公式中的i=1應(yīng)為k=1)
②歐氏距離
③明科夫斯基距離(1)
(2)
(3)
④
切比雪夫距離。當(dāng)明科夫斯基距時,有實例中9個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣如下(4)
(5)
聚類分析不僅可以對“樣本”分類,也可以對“變量分類”(例如書113面的第3題)。在此情況下分類的依據(jù)是“相似性系數(shù)”而不是“距離”。兩種常用的相似系數(shù)(書97面):
(1)夾角余弦
(2)相關(guān)系數(shù)三(2)變量之間相似系數(shù)的計算
四(1)、直接聚類法
原理及步驟(書100面)(1)將每個對象或樣本看做1類,共m類,記為G1,G2,…,Gm(2)定義并計算樣本之間的兩兩“距離”,得到第1個距離矩陣D0(3)合并距離最近的兩類為一新類,其它的樣本暫不合并這樣可得到共m-1類。(4)對新得到的分類重復(fù)步驟(2)&(3),直至將全部樣本分為1類為止。第二次課四(1)、直接聚類法
原理及步驟(書100面)(5)繪系統(tǒng)聚類樹形圖。(6)選取距離臨界值,根據(jù)樹形圖確定分類個數(shù)和分類結(jié)構(gòu)
例題:某地區(qū)的9個農(nóng)業(yè)區(qū)的聚類分析。極差標(biāo)準(zhǔn)化矩陣如下(書101面,程序HCA_Example3.m)
例題:某地區(qū)的9個農(nóng)業(yè)區(qū)的聚類分析。
絕對值距離矩陣如下(書102面,程序HCA_Example3.m)
聚類分析步驟如下(書102-104面):(1)在距離矩陣D中,除去對角線元素以外,d49=d94=0.49為最小者,故將第4區(qū)與第9區(qū)并為一類,得到一個新的共8類的暫時分類結(jié)果;
(2)按新的分類結(jié)果重新計算距離矩陣(見103面),發(fā)現(xiàn)d57=0.85最小,故將第5區(qū)與第7區(qū)并為一類,得到一個新的共7類的暫時分類結(jié)果;(3)按上面的方法依此類推。圖3.4.1直接聚類譜系圖
聚類譜系圖(樹形圖)說明(1)聚類譜系圖顯示的是一個一般的分類結(jié)構(gòu),不是一個特定的分類結(jié)果。(2)用戶可設(shè)定“距離臨界值”并根據(jù)設(shè)定的臨界值進行分類。例如,如設(shè)定距離臨界值”在1.78-3.10之間,則9個農(nóng)業(yè)區(qū)可分為3大類,即{G1,G2,G8},{G3,G4,G9},{G5,G6,G7}(3)“距離臨界值”的選取沒有一個嚴(yán)格的標(biāo)準(zhǔn),一般取距離跨度較大的兩個值中間的值。四(2)、最短距離聚類法
最短距離聚類法,是在原來的m×m距離矩陣找出“距離最小”的兩個分類對象Gp和Gq,并將其歸并為一新類Gr,然后按“距離最短”計算公式
計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出距離最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。
例題:用最短距離聚類法對某地區(qū)的9個農(nóng)業(yè)區(qū)進行聚類分析(注意此距離矩陣跟我們書上計算的略有出入,估計是數(shù)據(jù)標(biāo)準(zhǔn)化后進行四舍五入后造成的)。
回憶前面的直接聚類法(1)在9×9階距離矩陣D中,非對角元素中最小者是d94=0.51,首先將第4區(qū)與第9區(qū)并為一類,記為G10={G4,G9}。按照最短距離公式分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離得d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29這樣就得到G1,G2,G3,G5,G6,G7,G8,G10上的一個新的8×8階距離矩陣如下:
在上一步驟中所得到的8×8階距離矩陣中,非對角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。
按照最短距離公式分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的7×7階距離矩陣圖3.4.2最短距離聚類譜系圖依此類推,經(jīng)過9個步驟后可以得到最短距離聚類譜系圖。結(jié)果與前面的直接聚類法一致
四(3)、最遠(yuǎn)距離聚類法
“最遠(yuǎn)距離聚類法”與“最短距離聚類法”的區(qū)別在于計算原來的類與新類之間的距離時采用的公式不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年酸性廢水處理裝置公司技術(shù)改造及擴產(chǎn)項目可行性研究報告
- 2024-2030年裸眼3D公司技術(shù)改造及擴產(chǎn)項目可行性研究報告
- 2024-2030年男性無紡布面膜行業(yè)市場現(xiàn)狀供需分析及重點企業(yè)投資評估規(guī)劃分析研究報告
- 2024南寧市區(qū)商業(yè)地產(chǎn)租賃合同及市場推廣服務(wù)3篇
- 2024年度企業(yè)培訓(xùn)課程范文編寫協(xié)議保險3篇
- 2024外架承包合同范本:專業(yè)建筑外架工程3篇
- 供應(yīng)鏈優(yōu)化保密協(xié)議管理辦法
- 日語翻譯崗位心得體會
- 土地復(fù)墾合作協(xié)議書
- 商業(yè)綜合體樁基項目協(xié)議
- 文旅深度融合長期發(fā)展規(guī)劃
- ASTM-D3359-(附著力測試標(biāo)準(zhǔn))-中文版
- 5 協(xié)商決定班級事務(wù) (教學(xué)設(shè)計)-2024-2025學(xué)年道德與法治五年級上冊統(tǒng)編版
- 2024年清潔機器人項目合作計劃書
- 高校實驗室安全通識課學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 銀行客戶經(jīng)理招聘面試題與參考回答(某大型集團公司)
- 殘疾人體育活動推廣與普及考核試卷
- 《安全系統(tǒng)工程》期末考試卷及答案
- 空氣動力學(xué)仿真技術(shù):計算流體力學(xué)(CFD):CFD在飛機設(shè)計中的應(yīng)用
- 2024新教材高中政治 第一單元 生產(chǎn)資料所有制與經(jīng)濟體制 第一課 我國的生產(chǎn)資料所有制 1.1《公有制為主體 多種所有制經(jīng)濟共同發(fā)展》教案 部編版必修2
- 職業(yè)學(xué)院食品藥品監(jiān)督管理專業(yè)核心課《企業(yè)管理》課程標(biāo)準(zhǔn)
評論
0/150
提交評論