管理決策模型與方法——聚類分析_第1頁
管理決策模型與方法——聚類分析_第2頁
管理決策模型與方法——聚類分析_第3頁
管理決策模型與方法——聚類分析_第4頁
管理決策模型與方法——聚類分析_第5頁
已閱讀5頁,還剩142頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、管理決策模型與方法(聚類分析部分)(適用于信息管理與信息系統(tǒng)、工商管理專業(yè) 30H)主講教師:屈春艷工商管理學(xué)院信息管理教研室精選ppt第三章 聚類分析 聚類分析,亦稱群分析或點(diǎn)群分析,它是研究對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法(它是研究多要素事物分類問題的數(shù)量方法)。所謂的類通俗地說就是相似元素的集合。 什么是分類? 分類是將一個(gè)觀測對(duì)象指定到某一類(組)。工商管理學(xué)院信息管理教研室精選ppt 分類的問題可以分成兩種: 一種是對(duì)當(dāng)前所研究的問題已知它的類別數(shù)目,且知道各類的特征(如分布規(guī)律、或知道來自各類的訓(xùn)練樣本),我們的目的是要將另一些未知類別的個(gè)體正確歸屬于其中某一類,這是判別

2、分析所要解決的問題。 另一種是事先不知道研究問題應(yīng)分成幾類,更不知道觀測的個(gè)體的具體分類情況,我們的目的正是需要通過對(duì)觀測數(shù)據(jù)所進(jìn)行的分析處理,選定一種度量個(gè)體接近程度的統(tǒng)計(jì)量、確定分類數(shù)目、建立一種分類方法,工商管理學(xué)院信息管理教研室精選ppt 并按親近程度對(duì)觀測對(duì)象給出合理的分類。這種問題在實(shí)際中大量存在,它正是聚類分析所要解決的問題。工商管理學(xué)院信息管理教研室精選ppt第一節(jié) 聚類分析的方法 聚類分析的職能是建立一種分類方法,其基本原理是,根據(jù)樣品(本)自身的屬性,用數(shù)學(xué)方法按照某些相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對(duì)樣本進(jìn)行聚類。工商管理學(xué)院信息管理

3、教研室精選ppt聚類分析的方法 聚類分析的內(nèi)容十分豐富,按其聚類的方法可分為以下幾種: 1、系統(tǒng)聚類法:開始每個(gè)對(duì)象自成一類,然后每次將最相似的兩類合并,合并后重新計(jì)算新類與其它類的距離或相近性測度。這一過程一直繼續(xù)直到所有對(duì)象歸為一類為止。 2、調(diào)優(yōu)法(動(dòng)態(tài)聚類法):首選對(duì)n個(gè)對(duì)象初步分類,然后根據(jù)分類的損失函數(shù)盡可能小的原則對(duì)分類進(jìn)行調(diào)整,直到分類合理為止。 工商管理學(xué)院信息管理教研室精選ppt聚類分析的方法 3、最優(yōu)分割法(有序樣品聚類法):開始將所有樣品看成一類,然后根據(jù)某種最優(yōu)準(zhǔn)則將它們分割為二類、三類,一直分割到所需的k類為止。這種方法適用于有序樣品的分類問題,也稱為有序樣品的聚類

4、法。 4、模糊聚類法:利用模糊集理論來處理分類問題,它對(duì)經(jīng)濟(jì)領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。工商管理學(xué)院信息管理教研室精選ppt聚類分析的方法 5、圖論聚類法:利用圖論中最小支撐樹的概念來處理分類問題,創(chuàng)造了獨(dú)具風(fēng)格的方法。 6、聚類預(yù)報(bào)法:利用聚類方法處理預(yù)報(bào)問題,在多元統(tǒng)計(jì)分析中,可用來做預(yù)報(bào)的方法很多,如回歸分析和判斷分析。但對(duì)一些異常數(shù)據(jù),如氣象中的災(zāi)害性天氣的預(yù)報(bào),回歸或判斷分析處理的效果都不好,而聚類預(yù)報(bào)彌補(bǔ)了這一不足,這是一個(gè)值得重視的方法。工商管理學(xué)院信息管理教研室精選pptR型聚類分析 聚類分析根據(jù)分類對(duì)象的不同分為R型和Q型在大類。 R型是對(duì)變量(

5、指標(biāo))進(jìn)行分類處理,R型聚類分析的目的有以下方面: (1)可以了解變量間及變量組合間的親疏關(guān)系; (2)對(duì)變量進(jìn)行分類; (3)根據(jù)分類結(jié)果及它們之間的關(guān)系,在每一類中選擇有代表性的變量作為重要變量,利用少數(shù)幾個(gè)重要變量進(jìn)一步作分析計(jì)算,如進(jìn)行回歸分析或Q型聚類分析等。工商管理學(xué)院信息管理教研室精選pptQ型聚類分析 Q型是對(duì)樣品進(jìn)行分類處理。Q型聚類分析的目的主要是對(duì)樣品進(jìn)行分類。分類的結(jié)果是直觀的,且比傳統(tǒng)分類方法更細(xì)致、全面、合理。 當(dāng)然使用不同的分類方法通常會(huì)得到不同的分類結(jié)果。對(duì)任何觀測數(shù)據(jù)都沒有惟一“正確的”的分類方法。實(shí)際應(yīng)用中,常采用不同的分類方法,對(duì)數(shù)據(jù)進(jìn)行分析計(jì)算,以便對(duì)分

6、類提供意見,并由實(shí)際工作者決定所需要的分類數(shù)及分類情況。工商管理學(xué)院信息管理教研室精選ppt第二節(jié) 聚類要素的數(shù)據(jù)處理 為了對(duì)樣品(或變量)進(jìn)行分類,就必須研究它們之間的關(guān)系。描述樣品間親疏相似程度的統(tǒng)計(jì)量很多,目前用得最多的是距離和相似系數(shù),這兩個(gè)統(tǒng)計(jì)量與變量的類型密切相關(guān),為此我們首選分析一下變量的類型。工商管理學(xué)院信息管理教研室精選ppt一、變量的類型 根據(jù)變量取值的不同可將變量分為以下幾種: 1、名義變量:變量值是幾個(gè)沒有次序之分的不同狀態(tài),它給變量值賦予名稱。例如,性別、汽車品牌 、職業(yè)、血型、是否患病、喜愛的顏色等等都是名義變量。 2、有序變量:變量值是嚴(yán)格有次序的不同狀態(tài)。例如產(chǎn)

7、品按質(zhì)量分為:不好、一般、好、很好。文化程度分為高、中、低等。 工商管理學(xué)院信息管理教研室精選ppt一、變量的類型 3、區(qū)間變量(或間隔變量):區(qū)間變量是有順序大小的數(shù)值變量,且數(shù)值間的差值是有意義的。例如考慮溫度,40度比10度熱30度,而40度和10度是相對(duì)于人們?nèi)《ǖ?度而言的。這類變量對(duì)減法:兩值之差是意義的;但對(duì)兩值的比率是沒有意義的。 4、比率變量(比例變量):比率變量也是數(shù)值變量,不僅數(shù)值之差有意義,而且要求有絕對(duì)的零點(diǎn),兩數(shù)值的比率也是很重要。工商管理學(xué)院信息管理教研室精選ppt 上述四類變量中,名義變量和有序變量也稱為屬性變量(或定性變量),有時(shí)也稱為離散變量;而區(qū)間變量和比

8、率變量稱為定量變量,有時(shí)也稱為連續(xù)變量。 不同類型的變量在定義距離或相似性質(zhì)測度時(shí)有很大差異。本章主要討論定量數(shù)據(jù)的聚類分析問題。工商管理學(xué)院信息管理教研室精選ppt二、聚類要素的數(shù)據(jù)處理 在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性。在分類研究中,被聚類的對(duì)象常常是多個(gè)要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,因而其數(shù)值的差異可能是很大的,這就會(huì)對(duì)分類結(jié)果產(chǎn)生影響。因此當(dāng)分類要素的對(duì)象確定之后,在進(jìn)行聚類分析之前,還要對(duì)聚類要素進(jìn)行數(shù)據(jù)處理。 假設(shè)有m個(gè)被聚類的對(duì)象(樣品),每一個(gè)被聚類對(duì)象(樣品)都有X1,X2 ,Xn個(gè)要素(指標(biāo)或變量)構(gòu)成。它們

9、所對(duì)應(yīng)的要素?cái)?shù)據(jù)可用表31給出。工商管理學(xué)院信息管理教研室精選ppt表31 觀測數(shù)據(jù)及特征值 變量樣品X1Xj XnX(1)x11 x1j x1nX(i)xi1 xij xinX(m)xm1 xmj xmn均 值標(biāo)準(zhǔn)差s1 sj sn工商管理學(xué)院信息管理教研室精選ppt表3-1中 均值工商管理學(xué)院信息管理教研室標(biāo)準(zhǔn)差精選ppt1、中心化變換(標(biāo)準(zhǔn)化) 分別求出各聚類要素所對(duì)應(yīng)的均值,以各要素的數(shù)據(jù)減去相應(yīng)要素的均值,即工商管理學(xué)院信息管理教研室 中心化變換是一種標(biāo)準(zhǔn)化處理方法,變換后數(shù)據(jù)的均值為0,而協(xié)差不變,即協(xié)差陣為精選ppt 其中 工商管理學(xué)院信息管理教研室 中心化變換是一種方便地計(jì)算樣

10、本協(xié)差陣的變換。精選ppt2、總和標(biāo)準(zhǔn)化變換 分別求出各聚類要素所對(duì)應(yīng)的數(shù)據(jù)的總和,以各要素的數(shù)據(jù)除以該要素?cái)?shù)據(jù)的總和,即工商管理學(xué)院信息管理教研室精選ppt 這種標(biāo)準(zhǔn)化方法所得的新數(shù)據(jù) 工商管理學(xué)院信息管理教研室滿足精選ppt3、標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)化(標(biāo)準(zhǔn)化變換)即 工商管理學(xué)院信息管理教研室 這種標(biāo)準(zhǔn)化方法所得的新數(shù)據(jù) 各要素的平均值為0,標(biāo)準(zhǔn)差為1,即有 而且標(biāo)準(zhǔn)化后的數(shù)據(jù) 與變量的量綱無關(guān)。 精選ppt4、極大值標(biāo)準(zhǔn)化(變換) 即工商管理學(xué)院信息管理教研室 經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。精選ppt5、極差正規(guī)化變換(規(guī)格化變換) 即工商管理學(xué)院信息管理教研

11、室 經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0;極差為1,其余的數(shù)值均在0與1之間。數(shù)據(jù)是無量綱的量。精選ppt舉例 表3-2給出了某地區(qū)九個(gè)農(nóng)業(yè)區(qū)的七項(xiàng)經(jīng)濟(jì)指標(biāo),其極差正規(guī)化變換處理后的數(shù)據(jù)如表3-3所示。工商管理學(xué)院信息管理教研室精選ppt表32 某地區(qū)九個(gè)農(nóng)業(yè)區(qū)的七項(xiàng)經(jīng)濟(jì)指標(biāo)數(shù)據(jù) 工商管理學(xué)院信息管理教研室區(qū)代號(hào) 指 標(biāo) 人均耕地x1(畝/人)勞均耕地x2(畝/個(gè))水田比重x3(%)復(fù)種指數(shù)x4(%) 糧食畝產(chǎn)x5(kg/畝)人均糧食x6(kg/人) 稻谷占糧食比重x7(%) G14.4116.405.63113.60300.701036.4012.20G24.7214.

12、570.3995.10184.90683.700.85G31.844.475.28148.50462.30611.106.49G42.697.910.39111.00297.20632.600.92G51.223.1872.04217.80816.60791.1080.38G61.233.1643.78179.60598.20636.5048.17G71.122.7265.15194.70712.60634.3080.17G84.409.995.3594.90245.30771.707.80G92.506.212.9094.80282.10574.601.17精選ppt表33 極差正規(guī)化變換處

13、理后的數(shù)據(jù) 工商管理學(xué)院信息管理教研室區(qū)代號(hào) 指 標(biāo) x1x2x3x4x5x6x7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000

14、.150.000.00精選ppt6、極差標(biāo)準(zhǔn)化變換 即工商管理學(xué)院信息管理教研室 極差標(biāo)準(zhǔn)化變換變換后的數(shù)據(jù),每個(gè)變量的樣本均值為0,極差為1,且,在 以后的分析計(jì)算中可以減少誤差的產(chǎn)生;同時(shí)變化后的數(shù)據(jù)也是無量綱的量。 精選ppt7、對(duì)數(shù)變換 即工商管理學(xué)院信息管理教研室 對(duì)數(shù)變換可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu)。 此外,還有平方根變換,立方根變換等。它們的主要作用是把非線性數(shù)據(jù)結(jié)構(gòu)變?yōu)榫€性數(shù)據(jù)結(jié)構(gòu),以適應(yīng)某些統(tǒng)計(jì)方法的需要。精選ppt第三節(jié) (樣品間的)距離和相似系數(shù)的計(jì)算 距離是事物(樣品)之間差異性的測度,而相似系數(shù)則是其相似性的測度,所以距離和相似系數(shù)是聚類分析的依據(jù)和基礎(chǔ)

15、。 當(dāng)聚類要素的數(shù)據(jù)處理工作完成以后,就要計(jì)算分類對(duì)象(樣品)之間的距離或相似系數(shù),并依據(jù)距離或相似系數(shù)的矩陣結(jié)構(gòu)進(jìn)行聚類。 工商管理學(xué)院信息管理教研室精選ppt一、距離的計(jì)算設(shè)觀測數(shù)據(jù) 工商管理學(xué)院信息管理教研室 列成表31的形式。如果我們把每一個(gè)分類對(duì)象(樣品,共m個(gè))的n個(gè)聚類要素看成n維空間的n個(gè)坐標(biāo)軸,則每一個(gè)分類對(duì)象的n個(gè)要素所構(gòu)成的n維數(shù)據(jù)向量就是n維空間中的一個(gè)點(diǎn)(即m個(gè)樣品看成n維空間中的m個(gè)點(diǎn))。這樣,各分類對(duì)象之間的差異性就可以由它們所對(duì)應(yīng)的n維空間中點(diǎn)之間的距離度量。精選ppt關(guān)于距離的說明:用 工商管理學(xué)院信息管理教研室表示樣品 和 之間的距離,一般要求:(1) 0,

16、對(duì)于一切i,j;當(dāng)=0時(shí)=; (2) ,對(duì)于一切i,j;(3) ,對(duì)于一切i,j,k(三角不等式). 對(duì)于定量變量,常用的距離有: 精選ppt1、絕對(duì)值距離 工商管理學(xué)院信息管理教研室精選ppt2、歐氏距離 工商管理學(xué)院信息管理教研室精選ppt3、明科夫斯基(Minkowski)距離 工商管理學(xué)院信息管理教研室精選ppt4、切比雪夫距離 工商管理學(xué)院信息管理教研室 當(dāng)明科夫斯基距離p時(shí),有 精選ppt 5、蘭氏距離 工商管理學(xué)院信息管理教研室 這是由Lance和Williams最早提出的,故稱為蘭氏距離,定義為 這是一個(gè)無量綱的量,克服了明氏距離與各指標(biāo)的量綱有關(guān)的缺點(diǎn),且蘭氏距離對(duì)在的奇異值

17、不敏感,這樣使得它特別適合高度偏倚的數(shù)據(jù)。但蘭氏距離也沒有考慮變量間的相關(guān)性。精選ppt 明氏距離和蘭氏距離都是假定變量之間相互獨(dú)立,即在正交空間中討論距離,但在實(shí)際問題中,變量之間往往存在著一定的相關(guān)性,為克服變量之間相關(guān)性的影響,可以采用馬氏距離。 工商管理學(xué)院信息管理教研室精選ppt6、馬氏距離 工商管理學(xué)院信息管理教研室樣品 和 的馬氏距離為其中S-1為樣本協(xié)差陣的逆矩陣。精選ppt 馬氏距離雖然可以排除變量之間相關(guān)性的干擾,并且不受量綱的影響,但是在聚類分析處理之前,如果用全部數(shù)據(jù)計(jì)算均值和協(xié)差陣來求馬氏距離,效果不是很好。比較合理的辦法是用各個(gè)類的樣本來計(jì)算各自的協(xié)差陣,同一類樣品

18、間的馬氏距離應(yīng)當(dāng)用這一類的協(xié)差陣來計(jì)算,但類的形成需要依賴于樣品間的距離,而樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán),因此在實(shí)際聚類分析中,馬氏距離也不是理想的距離。 為了克服變量之間相關(guān)性的影響,可采用斜交空間距離。工商管理學(xué)院信息管理教研室精選ppt7、斜交空間距離 工商管理學(xué)院信息管理教研室 由于變量之間存在著不同程度的相關(guān)關(guān)系,在這種情況下,用正交空間距離來計(jì)算樣品間的距離,易產(chǎn)生形變,從而使得用聚類分析進(jìn)行分類時(shí)的譜系結(jié)構(gòu)發(fā)生變形。 在n維空間中,為使具有相關(guān)性變量的譜系結(jié)構(gòu)不發(fā)生變形,采用斜交空間距離,即令精選ppt在數(shù)據(jù)標(biāo)準(zhǔn)化處理下,工商管理學(xué)院信息管理教研室為變量

19、和 之間的相關(guān)系數(shù)。 精選ppt舉例 據(jù)表33中的數(shù)據(jù),計(jì)算九個(gè)農(nóng)業(yè)區(qū)之間的絕對(duì)值距離矩陣如下:工商管理學(xué)院信息管理教研室精選ppt二、相似系數(shù)的計(jì)算 樣品間的親疏程度除了用距離描述外,也可用相似系數(shù)來表示。常用的相似系數(shù)是夾角余弦和相關(guān)系數(shù)。 工商管理學(xué)院信息管理教研室精選ppt1、夾角余弦 工商管理學(xué)院信息管理教研室樣品 的n個(gè)觀測值 看成n維空間的向量,則和 的夾角 的余弦稱為兩向量的相似系數(shù),即 精選ppt工商管理學(xué)院信息管理教研室時(shí),夾角在上式中,顯然有:-1 =1,說明兩個(gè)樣和 正交時(shí),1。當(dāng)=0,品完全相似;當(dāng)=0,說明兩個(gè)樣品不相似。=90,精選ppt2、相關(guān)系數(shù) 工商管理學(xué)院

20、信息管理教研室和表示,相關(guān)系數(shù)就是對(duì)數(shù)據(jù)作標(biāo)準(zhǔn)化處理后的夾角余弦。樣品的相關(guān)系數(shù)亦用即精選ppt工商管理學(xué)院信息管理教研室和。在上式中,和分別為聚類對(duì)象(樣品)各要素標(biāo)準(zhǔn)化數(shù)據(jù)的平均值。當(dāng) 時(shí),=1,表示兩個(gè)樣品線性相關(guān),一般情況下精選ppt舉例 據(jù)表33中的數(shù)據(jù),用夾角余弦公式計(jì)算,可得如下的相似系數(shù)矩陣:工商管理學(xué)院信息管理教研室精選ppt三、變量間相似系數(shù)和距離的計(jì)算(略) 聚類分析方法不僅用來對(duì)樣品進(jìn)行分類,有時(shí)需要對(duì)變量進(jìn)行分類。在對(duì)變量進(jìn)行分類時(shí),通常采用相似系數(shù)來表示變量之間的親疏程度。 這部分內(nèi)容感興趣的同學(xué)可參見指定的參考書或其它相關(guān)書籍。工商管理學(xué)院信息管理教研室精選ppt

21、第四節(jié) 系統(tǒng)聚類法 系統(tǒng)聚類法是目前在實(shí)際應(yīng)用中使用最多的一類方法。它是將類由多變到少的一種方法。 本節(jié)m個(gè)樣品的聚類問題。觀測數(shù)據(jù)記為表31的形式,m個(gè)n 維的樣品記為:工商管理學(xué)院信息管理教研室精選ppt一、系統(tǒng)聚類法的基本思想和基本步驟 設(shè)有m個(gè)樣品,每個(gè)樣品測得n項(xiàng)指標(biāo)。系統(tǒng)聚類方法的基本思想是:首先定義樣品間的距離(或相似系數(shù))和類與類之間的距離,一開始將m個(gè)樣品各自自成一類,這里類間的距離與樣品間的距離是等價(jià)的;然后將距離最近的兩類合并,并計(jì)算新類與其它類的類間距離,再按最小距離準(zhǔn)則并類。這樣每次縮小一類,直到所有的樣品都并成一類為止。這個(gè)并類過程可以用譜系聚類圖形象地表達(dá)出來。工

22、商管理學(xué)院信息管理教研室精選ppt系統(tǒng)聚類法它的基本步驟 數(shù)據(jù)變換:可以使用上節(jié)介紹的方法對(duì)數(shù)據(jù)進(jìn)行變換。數(shù)據(jù)變換的目的是為了便于比較、計(jì)算上的方便或改變數(shù)據(jù)的結(jié)構(gòu)。 選擇度量樣品間距離的定義(如歐氏距離)及度量類間距離的定義(如最短距離法,參見下面“系統(tǒng)聚類分析的方法”)。 計(jì)算m個(gè)樣品兩兩間的距離,得樣品間工商管理學(xué)院信息管理教研室的距離矩陣;精選ppt系統(tǒng)聚類法它的基本步驟(續(xù)) 一開始(第一步:)m個(gè)樣品各自構(gòu)成一類,類的個(gè)數(shù)k=m個(gè)類:工商管理學(xué)院信息管理教研室 此時(shí)類間的距離就是樣品間的距離,即然后對(duì)步驟 執(zhí)行并類過程的步驟和;精選ppt系統(tǒng)聚類法它的基本步驟(續(xù)) 每次合并類間距

23、離最小的兩類為一新類。此時(shí)類的總個(gè)數(shù)k減少1類,即工商管理學(xué)院信息管理教研室 計(jì)算新類與其它類的距離,得新的距離矩陣。若合并后類的總個(gè)數(shù)k仍大于1,重復(fù)和步;直到類的總個(gè)數(shù)為1時(shí)止。 畫譜系聚類圖; 決定分類個(gè)數(shù)及類的成員。精選ppt例 設(shè)有5個(gè)產(chǎn)品,每個(gè)產(chǎn)品測得一項(xiàng)指標(biāo)X,其值如下:1,2,4.5,6,8。試對(duì)5個(gè)產(chǎn)品按此指標(biāo)進(jìn)行分類。 解:設(shè)樣品間的距離取為歐氏距離,類間的距離取為類間的最短距離,根據(jù)上面介紹的步驟,計(jì)算如下:工商管理學(xué)院信息管理教研室計(jì)算5個(gè)樣品:兩兩間的距離,得初始的類間距離矩陣為:精選ppt 一開始m個(gè)樣品各自構(gòu)成一類,得5個(gè)類: 工商管理學(xué)院信息管理教研室即類的個(gè)數(shù)

24、k=5。 精選ppt工商管理學(xué)院信息管理教研室可知,首先合并類的總個(gè)數(shù)k減少1類,變?yōu)閗=4,故把此步得到和為一新類,記為;此時(shí)的新類記為CL4。 由 按最短距離法計(jì)算新類CL4與其他類的距離,得新的距離矩陣:精選ppt工商管理學(xué)院信息管理教研室01.5 3.5 2.5 0 2 4 0 6 0: 因此時(shí)類的總個(gè)數(shù)k=4大于1類,重復(fù)并類過程。 精選ppt工商管理學(xué)院信息管理教研室此時(shí)類的總個(gè)數(shù)k減少1類,變?yōu)閗3,故把此步得到的新類記為CL3。 由可知類間距離為1.5時(shí)最小,故合并和為一新類,記為: 按最短距離法計(jì)算新類CL3與其他類的距離,得新的距離矩陣:精選ppt工商管理學(xué)院信息管理教研室

25、因此時(shí)類的總個(gè)數(shù)k=3大于1,重復(fù)并類過程。 :06202.50精選ppt工商管理學(xué)院信息管理教研室此時(shí)類的總個(gè)數(shù)k減少1類,變?yōu)閗=2,故把此步得到的新類記為CL2。 由可知,應(yīng)合并和為一新類,記為; 按最短距離法計(jì)算新類CL2與其他類的距離,得到的新的距離矩陣:02.5 0精選ppt因此時(shí)類的總個(gè)數(shù)k=2大于1類,重復(fù)并類過程。 工商管理學(xué)院信息管理教研室由可知,最后應(yīng)合并和為一新類,記為;此時(shí)類的總個(gè)數(shù)k=1,故把此步得到的新類記為CL1。0此時(shí)所有樣品全并成一類,得新的距離矩陣:并類過程至此結(jié)束。 精選ppt畫譜系聚類圖 工商管理學(xué)院信息管理教研室11譜系聚類圖0 1 1.5 2 2.

26、5 3CL4CL3CL2CL1精選ppt確定類的個(gè)數(shù)及各類的成員工商管理學(xué)院信息管理教研室12若分為兩類,則;,若分為三類,則;,精選ppt確定類的個(gè)數(shù)及各類的成員工商管理學(xué)院信息管理教研室12若分為四類,則若分為五類,則,;,精選ppt譜系聚類圖的使用目的 有了譜系聚類圖,用戶希望分為幾類,都可以從譜系聚類圖中得到分類結(jié)果。 到底分為幾類最合適?這里并沒有絕對(duì)正確的原則,一般可根據(jù)實(shí)際問題的不同,從譜系聚類圖直觀看出,通過分界值(閾值)給出分類,也可以用近似的統(tǒng)計(jì)檢驗(yàn)來驗(yàn)證分類個(gè)數(shù)如何選取更合適(后面將有較詳細(xì)敘述)。工商管理學(xué)院信息管理教研室精選ppt二、系統(tǒng)聚類分析的方法 系統(tǒng)聚類法的聚

27、類原則決定于樣品間的距離(或相似系數(shù))及類間距離的定義,類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法。下面介紹常用的幾種系統(tǒng)聚類分析方法。工商管理學(xué)院信息管理教研室間的距離。 以下用表示樣品和之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)時(shí),令;用表示類和精選ppt1、最短距離法(SINgle linkage) 最短距離法是將類與類之間的距離定義為工商管理學(xué)院信息管理教研室兩類中最近樣品之間的距離,即類之間的距離定義為和精選ppt工商管理學(xué)院信息管理教研室當(dāng)某步類和合并為后,按最短距離法計(jì)算新類與其它類的類間距離,遞推公式為精選ppt工商管理學(xué)院信息管理教研室 以下,我們以某地區(qū)九個(gè)農(nóng)業(yè)區(qū)的七

28、項(xiàng)經(jīng)濟(jì)指標(biāo)所形成的距離矩陣,用最短距離聚類法對(duì)某地區(qū)的九個(gè)農(nóng)業(yè)區(qū)進(jìn)行聚類分析。 從原來的mm距離矩陣,得到一新類后,計(jì)算原來各類與新類之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣;再從新的距離矩陣中選出最小的,把和歸并成新類;再計(jì)算各類與新類的距離,這樣一直下去,直至各分類對(duì)象被歸為一類為止。精選ppt前例 九個(gè)農(nóng)業(yè)區(qū)之間的絕對(duì)值距離矩陣如下:工商管理學(xué)院信息管理教研室精選ppt 第一步,在99階距離矩陣D中,非對(duì)角工商管理學(xué)院信息管理教研室元素中最小者是,故首先將第4區(qū)與第9區(qū)并為一類,記為,即分別按照最短距離法遞推公式計(jì)算,與之間的距離得:精選pptD1,10=mind14,d19

29、=min2.19,2.62=2.19D2,10=mind24,d29=min1.47,1.66=1.47D3,10=mind34,d39=min1.23,1.20=1.20D5,10=mind54,d59=min4.77,4.84=4.77D6,10=mind64,d69=min2.99,3.06=2.99D7,10=mind74,d79=min4.06,3.32=3.32D8,10=mind84,d89=min1.29,1.40=1.29工商管理學(xué)院信息管理教研室精選ppt工商管理學(xué)院信息管理教研室這樣就得到,上的一個(gè)新的88階距離矩陣D(2) : , G1 G2 G3 G5 G6 G7 G

30、8 G10G1 0G2 1.52 0G3 3.10 2.70 0G5 5.86 6.02 3.64 0G6 4.72 4.46 1.86 1.78 0G7 5.79 5.53 2.93 0.83 1.07 0G8 1.32 0.88 2.24 5.14 3.96 5.03 0G10 2.19 1.47 1.20 4.77 2.99 3.32 1.29 0精選ppt 第二步,在上一步驟中所得到的新的88階距離矩陣中,非對(duì)角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11=G5,G7。再分別按照最短距離法遞工商管理學(xué)院信息管理教研室推公式計(jì)算,與之間的距離,可得到一個(gè)

31、新的77階距離矩陣D(3) :精選ppt工商管理學(xué)院信息管理教研室 G1 G2 G3 G6 G8 G10 G11G1 0 G2 1.52 0G3 3.10 2.70 0G6 4.72 4.46 1.86 0G8 1.32 0.88 2.24 3.96 0G10 2.19 1.47 1.20 2.99 1.29 0G11 5.79 5.53 2.93 1.07 5.03 3.32 0精選ppt 第三步,在第二步所得到的新的77階距離矩陣中,非對(duì)角線元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12=G2,G8。再分別按最短距離法遞推公式工商管理學(xué)院信息管理教研室計(jì)算,

32、與離,可得到一個(gè)新的66階距離矩陣D(4) :之間的距精選ppt工商管理學(xué)院信息管理教研室 G1 G3 G6 G10 G11 G12G1 0G3 3.10 0G6 4.72 1.86 0G10 2.19 1.20 2.99 0G11 5.79 2.93 1.07 3.32 0G12 1.32 2.24 3.96 1.29 5.03 0 精選ppt 第四步,在第三步中所得到的新的66階距離矩陣中,非對(duì)角線元素中最小者為為d6,11=1.07,故將G6和G11歸并為一類,記為G13,即G13=G6,G11=G6,(G5,G7)。工商管理學(xué)院信息管理教研室再按照最短距離法遞推公式計(jì)算,與的55階距離

33、矩陣D(5) :之間的距離,可得到一個(gè)新精選ppt工商管理學(xué)院信息管理教研室 G1 G3 G10 G12 G13G1 0G3 3.10 0G10 2.19 1.20 0G12 1.32 2.24 1.29 0 G13 4.72 1.86 2.99 3.96 0精選ppt 第五步,在第四步中所得到的新的55階距離矩陣中,非對(duì)角線元素中最小者為 d3,10=1.20,故將G3和G10歸并為一類,記為G14,即G14=G3,G10=G3,(G4,G9)。工商管理學(xué)院信息管理教研室再按照最短距離法遞推公式計(jì)算,與階距離矩陣D(6) :之間的距離,可得到一個(gè)新的44精選ppt工商管理學(xué)院信息管理教研室

34、G1 G12 G13 G14 G1 0G12 1.32 0 G13 4.72 3.96 0G14 2.19 1.29 1.86 0精選ppt 第六步,在第五步中所得到的新的44階距離矩陣中,非對(duì)角線元素中最小者為 d12,14=1.29,故將G12和G14歸并為一類,記為G15,即G15=G12,G14=(G2,G8),(G3,(G4,G9)。工商管理學(xué)院信息管理教研室再按照最短距離法遞推公式計(jì)算,與離矩陣D(7) :之間的距離,可得到一個(gè)新的33階距精選ppt工商管理學(xué)院信息管理教研室 G1 G13 G15 G1 0G13 4.72 0G15 1.32 1.86 0精選ppt 第七步,在第六

35、步中所得到的新的33階距離矩陣中,非對(duì)角線元素中最小者為 d1,15=1.32,故將G1和G15歸并為一類,記為G16,即G16=G1,G15=G1,(G2,G8),(G3,(G4,G9)。工商管理學(xué)院信息管理教研室再按照最短距離法遞推公式計(jì)算與陣D(8) :之間的距離,可得到一個(gè)新的22階距離矩精選ppt工商管理學(xué)院信息管理教研室 G13 G16 G13 0G16 1.86 0 第八步,將G13和G16歸并為一類。此時(shí),所有分類對(duì)象均被歸并為一類。 綜合上述聚類過程,可以做出最短距離聚類譜系圖(如下圖所示)。 精選ppt工商管理學(xué)院信息管理教研室G10譜系聚類圖0 0.5 1 1.5 2G6

36、G5G7G2G8G3G4G9G1G11G12G13G14G15G16G17精選ppt2、最長(遠(yuǎn))距離法(COMplete method) 最長距離法是將類與類之間的距離定義工商管理學(xué)院信息管理教研室為兩類中最遠(yuǎn)樣品間的距離,即類之間的距離和定義為:精選ppt工商管理學(xué)院信息管理教研室當(dāng)某步類和合并為后,按最長距離法計(jì)算新類與其它類的類間距離,遞推公式為精選ppt 最長(遠(yuǎn))距離聚類法使兩類合并后與其他類的距離是原來兩類的類間距離的最大者,它加大了合并后的類與其它類的距離,具有空間距離擴(kuò)張性質(zhì)。 對(duì)于前述之例,最長(遠(yuǎn))距離聚類法的聚類過程如下: 精選ppt 第一步,在99階距離矩陣D中,非對(duì)

37、角工商管理學(xué)院信息管理教研室元素中最小者是,故首先將第4區(qū)與第9區(qū)并為一類,記為,即分別按照最長距離法遞推公式計(jì)算,與之間的距離得:精選pptD1,10=maxd14,d19=max2.19,2.62=2.62D2,10=maxd24,d29=max1.47,1.66=1.66D3,10=maxd34,d39=max1.23,1.20=1.23D5,10=maxd54,d59=max4.77,4.84=4.84D6,10=maxd64,d69=max2.99,3.06=3.06D7,10=maxd74,d79=max4.06,3.32=4.06D8,10=maxd84,d89=max1.29,

38、1.40=1.40工商管理學(xué)院信息管理教研室精選ppt工商管理學(xué)院信息管理教研室這樣就得到,上的一個(gè)新的88階距離矩陣D(2) : , G1 G2 G3 G5 G6 G7 G8 G10G1 0G2 1.52 0G3 3.10 2.70 0G5 5.86 6.02 3.64 0G6 4.72 4.46 1.86 1.78 0G7 5.79 5.53 2.93 0.83 1.07 0G8 1.32 0.88 2.24 5.14 3.96 5.03 0G10 2.62 1.66 1.23 4.84 3.06 4.06 1.40 0精選ppt 第二步,在上一步驟中所得到的新的88階距離矩陣中,非對(duì)角元

39、素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11=G5,G7。再分別按照最長距離法遞工商管理學(xué)院信息管理教研室推公式計(jì)算,與之間的距離,可得到一個(gè)新的77階距離矩陣D(3) :精選ppt工商管理學(xué)院信息管理教研室 G1 G2 G3 G6 G8 G10 G11G1 0 G2 1.52 0G3 3.10 2.70 0G6 4.72 4.46 1.86 0G8 1.32 0.88 2.24 3.96 0G10 2.62 1.66 1.23 3.06 1.40 0G11 5.86 6.02 3.64 1.78 5.14 4.48 0精選ppt 第三步,在第二步所得到的新的7

40、7階距離矩陣中,非對(duì)角線元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12=G2,G8。再分別按最長距離法遞推公式工商管理學(xué)院信息管理教研室計(jì)算,與離,可得到一個(gè)新的66階距離矩陣D(4) :之間的距精選ppt工商管理學(xué)院信息管理教研室 G1 G3 G6 G10 G11 G12G1 0G3 3.10 0G6 4.72 1.86 0G10 2.62 1.23 3.06 0G11 5.86 3.64 1.78 4.48 0G12 1.52 2.70 4.46 1.66 6.02 0 精選ppt 第四步,在第三步中所得到的新的66階距離矩陣中,非對(duì)角線元素中最小者為為d3

41、,10=1.23,故將G3和G10歸并為一類,記為G13,即G13=G3,G10=G3,(G4,G9)。工商管理學(xué)院信息管理教研室再按照最長距離法遞推公式計(jì)算,與的55階距離矩陣D(5) :之間的距離,可得到一個(gè)新精選ppt工商管理學(xué)院信息管理教研室 G1 G6 G11 G12 G13G1 0G6 4.72 0G11 5.86 1.78 0G12 1.52 4.46 6.02 0 G13 3.10 3.06 4.84 2.70 0精選ppt 第五步,在第四步中所得到的新的55階距離矩陣中,非對(duì)角線元素中最小者為 d1,12=1.52,故將G1和G12歸并為一類,記為G14,即G14=G1,G1

42、2=G1,(G2,G8)。工商管理學(xué)院信息管理教研室再按照最長距離法遞推公式計(jì)算,與階距離矩陣D(6) :之間的距離,可得到一個(gè)新的44精選ppt工商管理學(xué)院信息管理教研室 G6 G11 G13 G14 G6 0G11 1.78 0 G13 3.06 4.84 0G14 4.72 6.02 3.10 0精選ppt 第六步,在第五步中所得到的新的44階距離矩陣中,非對(duì)角線元素中最小者為 d6,11=1.78,故將G6和G11歸并為一類,記為G15,即G15=G6,G11=(G6,(G5,G7))。工商管理學(xué)院信息管理教研室再按照最長距離法遞推公式計(jì)算,與離矩陣D(7) :之間的距離,可得到一個(gè)新

43、的33階距精選ppt工商管理學(xué)院信息管理教研室 G13 G14 G15 G13 0G14 3.10 0G15 4.84 6.02 0精選ppt 第七步,在第六步中所得到的新的33階距離矩陣中,非對(duì)角線元素中最小者為 d13,14=3.10,故將G13和G14歸并為一類,記為G16,即G16=G13,G14=(G3, (G4,G9),(G1,(G2,G8)。工商管理學(xué)院信息管理教研室再按照最長距離法遞推公式計(jì)算與陣D(8) :之間的距離,可得到一個(gè)新的22階距離矩精選ppt工商管理學(xué)院信息管理教研室 G15 G16 G15 0G16 6.02 0 第八步,將G15和G16歸并為一類。此時(shí),各個(gè)分

44、類對(duì)象均被歸并為一類。 綜合上述各聚類步驟,可做出最長距離聚類的譜系圖(如下圖所示)。 精選ppt工商管理學(xué)院信息管理教研室G10G11G12G13G14G15G16G17G1G2G8G3G4G9G5G7G6譜系聚類圖0 1 2 3 4 5 6 7 精選ppt3、直接聚類法 直接聚類法,是根據(jù)距離或相似系數(shù)矩陣的結(jié)構(gòu)一次并類得到結(jié)果,是一種簡便的聚類方法。它先把各個(gè)分類對(duì)象單獨(dú)視為一類,然后根據(jù)距離最小或相似系數(shù)最大的原則,依次選出一對(duì)分類對(duì)象,并成新類。如果其中一個(gè)分類對(duì)象已歸于一類,則把另一個(gè)也歸入該類;如果一對(duì)分類對(duì)象正好屬于已歸的兩類,則把這兩類并為一類。每一次歸并,都劃去該對(duì)象所在的

45、行與行序相同的列。那么,經(jīng)過m-1次就可以把全部分類對(duì)象歸為一類,這樣就可以根據(jù)歸并的先后順序做出聚類分析的譜系圖。工商管理學(xué)院信息管理教研室精選ppt例 用直接聚類法對(duì)某地區(qū)的九個(gè)農(nóng)業(yè)區(qū)進(jìn)行聚類分析,距離矩陣如下:工商管理學(xué)院信息管理教研室精選ppt 第一步,在距離矩陣D中,除對(duì)角線元素以外,d49=d94=0.51為最小者,故將第4區(qū)與第9區(qū)并為一類,劃去第9行和第9列;工商管理學(xué)院信息管理教研室精選ppt 第二步,在余下的元素中,除對(duì)角線元素以外,d75=d57=0.83為最小者,故第5區(qū)與第7區(qū)并為一類,劃掉第7行和第7列;工商管理學(xué)院信息管理教研室精選ppt 第三步,在第二步之后余下

46、的元素之中,除對(duì)角線元素以外,d82=d28=0.88為最小者,故將第2區(qū)與第8區(qū)并為一類,劃去第8行和第8列; 工商管理學(xué)院信息管理教研室精選ppt 第四步,在第三步之后余下的元素中,除對(duì)角線元素以外,d43=d34=1.23為最小者,故將第3區(qū)與第4區(qū)并為一類,劃去第4行和第4列,此時(shí),第3、4、9區(qū)已歸并為一類。工商管理學(xué)院信息管理教研室精選ppt 第五步,在第四步之后余下的元素中,除對(duì)角線元素以外,d21=d12=1.52為最小者,故將第1區(qū)與第2區(qū)并為一類,劃去第2行與第2列,此時(shí),第1、2、8區(qū)已歸并為一類;工商管理學(xué)院信息管理教研室精選ppt 第六步,在第五步之后余下的元素中,除

47、對(duì)角線元素以外,d65=d56=1.78為最小者,故將第5區(qū)與第6區(qū)并為一類,劃去第6行和第6列,此時(shí),第5、6、7區(qū)已歸并為一類;工商管理學(xué)院信息管理教研室精選ppt 第七步,在第六步之后余下的元素中,除對(duì)角線元素以外,d31=d13=3.10為最小者,故將第1區(qū)與第3區(qū)并為一類,劃去第3行和第3列,此時(shí),第1,2,3,4,8,9區(qū)已歸并為一類。工商管理學(xué)院信息管理教研室精選ppt 第八步,在第七步之后余下的元素中,除去對(duì)角線元素以外,只有d51=d15=5.86,故將第1區(qū)與第5區(qū)并為一類,劃去第5行和第5列,此時(shí),第1,2,3,4,5,6,7,8,9區(qū)均歸并為一類。工商管理學(xué)院信息管理教

48、研室精選ppt工商管理學(xué)院信息管理教研室G10G11G12G13G14G15G16G17G1G2G8G3G4G9G6G5G7直接聚類法譜系聚類圖0 1 2 3 4 5 6 7 根據(jù)上述步驟,我們可以做出聚類過程的譜系圖:精選ppt 直接聚類法雖然簡便,但在歸類過程中是劃去行和列的,因而難免有信息損失。因此直接聚類法并不是最好的系統(tǒng)聚類法。 以下給出的聚類方法,僅作為了解。工商管理學(xué)院信息管理教研室精選ppt4、中間距離法或中線法(MEDian method) 如果類與類之間的距離既不采用兩類間的最近距離,也不采用最遠(yuǎn)的距離,而是采用介于兩者間的距離,這種方法稱為中間距離法。工商管理學(xué)院信息管理

49、教研室當(dāng)某步類和合并為后,按中間距離法計(jì)算新類與其它類的類間距離,遞推公式為精選ppt上式中:工商管理學(xué)院信息管理教研室邊上的中線。常取,此時(shí)由初等幾何知就是以,為邊的三角形中精選ppt5、重心法(CENtroid method) 上述的最短距離法、最長距離法、中間距離法在定義類與類之間的距離時(shí),沒有考慮每一類中所包含的樣品個(gè)數(shù)。如果將兩類間的距離定義為兩類重心間的距離,這種聚類方法稱為重心法。對(duì)樣品分類而言,每一類的重心就是屬于該類樣品的均值。 工商管理學(xué)院信息管理教研室設(shè)某步將類和合并為它們所包含的樣品個(gè)數(shù)分別為 ,和。重心分別為,和。顯然有精選ppt設(shè)某一類 工商管理學(xué)院信息管理教研室的

50、距離是的重心為,它與新類如果樣品間的距離定義為歐氏距離,則有 精選ppt6、類(組)平均法(AVErage linkage) 重心法雖然有較好的代表性,但并未充分利用各個(gè)樣品的信息,有人提出用兩類樣品兩兩之間平方距離的平均作為類之間的距離,即工商管理學(xué)院信息管理教研室采用這種類間距離的聚類方法,稱為類平均法。 當(dāng)某步類和合并為:,且精選ppt則 工商管理學(xué)院信息管理教研室距離的遞推公式為與其它類 類平均法是一種使用比較廣泛、聚類效果較好的方法。精選ppt7、可變類平均法(FLExible-beta method) 類平均法的類間距離遞推公式中,沒有反映工商管理學(xué)院信息管理教研室和之間距離的影響

51、,可變類平均法將合并后新類距離公式進(jìn)一與其它類步推廣為其中是可變參數(shù),一般取。顯然,可變類平均法是由類平均法和中間距離法適當(dāng)推精選ppt工商管理學(xué)院信息管理教研室時(shí)就是下面介紹的可變法)。廣得到的(當(dāng)時(shí)就是類平均法;當(dāng)且時(shí)就是中間距離法;當(dāng)常取負(fù)值,如可變類平均法的分類效果與的選擇關(guān)系極大,當(dāng)接近1時(shí)一般分類效果不好,在實(shí)用中。精選ppt8、可變法及McQuitty相似分析法(MCQ) 工商管理學(xué)院信息管理教研室當(dāng)某步類和合并為后,可變法把 距離的遞推公式定義為與其它類在SAS/STAT軟件的CLUSTER過程中使用的遞推公式并把此方法稱為McQuitty相似分析法。 精選ppt9、離差(距離

52、)平方和法(WARD) 工商管理學(xué)院信息管理教研室 離差平方和法是Ward(1936)提出的,也稱為Ward法。它基于方差分析思想,如果類分得正確,則同類樣品之間的離差平方和應(yīng)當(dāng)較小,不同樣品之間的離差平方和應(yīng)當(dāng)較大。 離差平方和為假定已將個(gè)樣品分為類,記為,表示類的樣品個(gè)數(shù),表示的重心,表示中第個(gè)樣品,則中樣品的精選ppt工商管理學(xué)院信息管理教研室為一數(shù)值。其中,為維向量,個(gè)類的總離差平方和為達(dá)到極小的分類。 當(dāng)固定時(shí),要選擇使精選ppt工商管理學(xué)院信息管理教研室Ward法的基本思想是,先將,成一類,此時(shí)個(gè)樣品各自然后每次將其中某兩類合并為一類,因每縮小一類離差平方和就要增加,每次選擇使增加

53、最小的兩類進(jìn)行合并,直至所有樣品合并為一類為止。 Ward法把兩類合并后增加的離差平方和看成類間的平方距離,即令和的平方距離,其中表示,精選ppt工商管理學(xué)院信息管理教研室的定義,可得 分別為類中樣品的離差平方和。利用。經(jīng)整理可得其中精選ppt工商管理學(xué)院信息管理教研室當(dāng)樣品間距采用歐氏距離時(shí),上式可表示為的類間距離與重心法只差一個(gè)常數(shù)倍。其中表示,的重心與的平方:。這表明Ward法定義精選ppt工商管理學(xué)院信息管理教研室和的距離定義為如下遞推公式:與其它類當(dāng)合并為后,可變法把 在實(shí)際應(yīng)用中,離差平方和法應(yīng)用比較廣泛,分類效果較好。但它要求樣品間距離必須采用歐氏距離。 精選ppt 除上述這些系

54、統(tǒng)聚類方法外,還有幾種系統(tǒng)聚類分析方法在SAS/STAT軟件的CLUSTER過程中給出。如最大似然譜系聚類(EML)、密度估計(jì)法(DEN)、兩階段密度估計(jì)法(TWO)等。 工商管理學(xué)院信息管理教研室精選ppt三、系統(tǒng)聚類方法的統(tǒng)一和比較 1、系統(tǒng)聚類方法的統(tǒng)一 上述介紹的各種系統(tǒng)聚類分析方法中,除直接聚類法外,其余八種方法的聚類的步驟完全一樣,所不同的是類與類之間的距離用不同的定義方法,因而得到不同的遞推公式,Lance和Williams于1967年首先給出了統(tǒng)一公式,這樣為編制統(tǒng)一的計(jì)算程序提供了很大的方便。工商管理學(xué)院信息管理教研室精選ppt工商管理學(xué)院信息管理教研室設(shè)和合并為:,的平方距離為:與其它類則類方法有不同的取值(如下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論