




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
地質(zhì)與環(huán)境學(xué)院CollegeofGeology&Environment
俗話說:“物以類聚,人以群分”,
在社會(huì)、經(jīng)濟(jì)、管理、氣象、地質(zhì)、人口、考古等眾多領(lǐng)域,都存在著大量的分類研究問題。分類是自然科學(xué)重要研究內(nèi)容之一地質(zhì)與環(huán)境學(xué)院CollegeofGeology&En第五章聚類分析第一節(jié)概述第二節(jié)數(shù)據(jù)的規(guī)格化處理第三節(jié)相似性度量第四節(jié)系統(tǒng)聚類法第五節(jié)應(yīng)用實(shí)例地質(zhì)與環(huán)境學(xué)院CollegeofGeology&Environment第五章聚類分析第一節(jié)概述地
合理的科學(xué)的分類,能夠反映某類事物的最基本的特征以及同別類事物的區(qū)別,推動(dòng)學(xué)科的發(fā)展和科學(xué)研究。第一節(jié)概述在地學(xué)領(lǐng)域:巖石、礦物、構(gòu)造、地層、古生物等在環(huán)境領(lǐng)域:環(huán)境質(zhì)量在經(jīng)濟(jì)領(lǐng)域:股市合理的科學(xué)的分類,能夠反映某類事物的最基本的特征以及
聚類分析:是一種分類技術(shù),它是根據(jù)“物以類聚”的道理,對(duì)事物(樣品或指標(biāo))進(jìn)行分類的一種多元統(tǒng)計(jì)方法,
又稱“群分析、點(diǎn)群分析、簇群分析”。一、聚類分析的含義聚類分析:是一種分類技術(shù),一、聚類分析的含義根據(jù)事物本身的特征分類,即,將事物性質(zhì)相近的歸為一類,將事物性質(zhì)的差異較大的歸在不同的類。所謂“類”,通俗地說就是相似元素的集合。分類,是將一個(gè)觀測對(duì)象指定到某一類(組)。聚類分析特點(diǎn):將事物性質(zhì)相近的歸為一類,將事物性質(zhì)的差異較大的歸在不同的類。根據(jù)事物本身的特征分類,聚類分析特點(diǎn):將事物性質(zhì)相近的歸為一
當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。當(dāng)有多個(gè)分類指標(biāo)時(shí),要進(jìn)行分類就不是很容易了。由于不同的指標(biāo)項(xiàng)對(duì)重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,這樣會(huì)忽視相對(duì)重要程度的問題。聚類分析的含義當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。聚類分析的含義聚類分析方法的產(chǎn)生
傳統(tǒng)的分類方法起源很早,在古老的分類學(xué)中,人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí)進(jìn)行定性的分析,許多分類往往帶有主觀性和任意性,不能揭示客觀事物的內(nèi)在本質(zhì)差別和聯(lián)系。聚類分析方法的產(chǎn)生傳統(tǒng)的分類方法起源很早,在古老的分聚類分析方法的產(chǎn)生隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來越高,僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切的進(jìn)行分類,特別是對(duì)于多因素、多指標(biāo)的分類問題。數(shù)學(xué)工具引用到分類學(xué)中,形成數(shù)值分類學(xué),后來又將多元分析的技術(shù)引入到數(shù)值分類學(xué),逐步形成聚類分析這一數(shù)值分類方法。聚類分析方法的產(chǎn)生隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來越聚類分析方法的分類根據(jù)分類對(duì)象Q型:研究樣品之間的關(guān)系,把不同的物體歸類分群R型:研究同一物種不同變量之間的關(guān)系根據(jù)維數(shù):1、2、多根據(jù)聚類的方法:系統(tǒng)聚類、分解法系統(tǒng)聚類法:
最短距離法(近鄰連接法)、最長距離法(遠(yuǎn)鄰連接法)
類平均法、重心法、離差平方和增量法聚類分析方法的分類根據(jù)分類對(duì)象根據(jù)維數(shù):1、2、多根據(jù)聚類的二、聚類分析的對(duì)象類型R型聚類
以分類對(duì)象為標(biāo)準(zhǔn),可以將變量(指標(biāo))分類——R型聚類分析。
如城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來描述,八項(xiàng)指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,這實(shí)際上就是對(duì)指標(biāo)聚類等。
在生產(chǎn)活動(dòng)中不乏有變量聚類的實(shí)例,如:衣服型號(hào)就是根據(jù)人體各部分尺寸數(shù)據(jù)找出最有代表性的指標(biāo)如身長、胸圍和褲長、腰圍作為上衣和褲子的代表性指標(biāo)。變量聚類使批量生產(chǎn)成為可能。R型聚類是對(duì)變量進(jìn)行分類處理。一般來說,可以反映研究對(duì)象特點(diǎn)的變量有許多,由于對(duì)客觀事物的認(rèn)識(shí)有限,往往難以找出彼此獨(dú)立且有代表性的變量,影響對(duì)問題進(jìn)一步的認(rèn)識(shí)和研究。
因此需要先進(jìn)行變量聚類,找出相互獨(dú)立又有代表性的變量,而又不丟失大部分信息。二、聚類分析的對(duì)象類型R型聚類以分類對(duì)象為標(biāo)準(zhǔn)Q型聚類
Q型聚類是對(duì)樣品進(jìn)行分類,即對(duì)觀測進(jìn)行分類。
根據(jù)觀測有關(guān)變量的特征,將特征相似的樣品歸為一類。它是聚類分析中用的最多的一種。Q型、R型這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒有什么不同。主要討論Q型聚類分析問題。Q型聚類Q型聚類是對(duì)樣品進(jìn)行分類,即對(duì)觀測進(jìn)行分類。Q三、聚類分析的基本思想我們所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系),于是:(1)根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體找出一些能夠度量樣品或變量(指標(biāo))之間相似程度的統(tǒng)計(jì)量;三、聚類分析的基本思想我們所研究的樣品或指標(biāo)(變量)
與多元分析的其它方法比,聚類分析方法較為粗糙,理論上還不夠完善,但應(yīng)用方便、廣泛,與回歸分析、判別分析一起被稱為多元分析的三大方法。(2)以這些統(tǒng)計(jì)量為分類的依據(jù),建立一種分類方法,將一批樣品或變量(指標(biāo)),按照它們?cè)谛再|(zhì)上的親疏、相似程度進(jìn)行分類。與多元分析的其它方法比,聚類分析方法較為粗糙,理論上第二節(jié)數(shù)據(jù)的規(guī)格化處理一、聚類分析的數(shù)據(jù)格式
設(shè)有n個(gè)樣品單位,每個(gè)樣品測得m項(xiàng)變量(指標(biāo)),原始資料陣為:第二節(jié)數(shù)據(jù)的規(guī)格化處理一、聚類分析的數(shù)據(jù)格式設(shè)第i個(gè)樣品Xi為矩陣X的第i行所描述,
任何兩個(gè)樣品Xk與XL之間的相似性,可以通過矩陣X中的第K行與第L行的相似程度來刻劃;xij(i=1,…n;j=1,…m)為第i個(gè)樣品的第j個(gè)指標(biāo)的觀測數(shù)據(jù)。第i個(gè)樣品Xi為矩陣X的第i行所描述,xij(i=1,…n;任何兩個(gè)變量xk與xL之間的相似性,可以通過第K列與第L列的相似程度來刻劃。xij(i=1,…n;j=1,…m)為第i個(gè)樣品的第j個(gè)指標(biāo)的觀測數(shù)據(jù)。任何兩個(gè)變量xk與xL之間的相似性,可以通過第K列與第L列的為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。二、變量測量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;二、變量測量尺通常,變量按照測量的尺度不同,可以分為三類:二、變量測量尺度的類型
間隔尺度(定距尺度、定量變量):變量用連續(xù)的量表示,由測量、計(jì)數(shù)或統(tǒng)計(jì)所得到的量。
如,長度、重量、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、抽樣調(diào)查數(shù)據(jù)等;間隔尺度、有序尺度、
名義尺度通常,變量按照測量的尺度不同,可以分為三類:二、變量測量尺度有序尺度(定序變量、定性變量):
用該變量度量時(shí)沒有明確的數(shù)量表示,只有次序(等級(jí))關(guān)系。如,產(chǎn)品質(zhì)量,分為一等品、二等品等。名義尺度(定類變量、定性變量):
具有該種特性的變量在度量時(shí)既沒有數(shù)量表示,也沒有次序關(guān)系,而只有性質(zhì)上的差異(用一些類表示)。
如,性別、職業(yè)等。有序尺度(定序變量、定性變量):名義尺度(定類變量、定性變不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法有很大差異。
在實(shí)際應(yīng)用中,研究比較多的是間隔尺度,本章主要討論具有間隔尺度變量的樣品聚類分析方法。不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法有很大差數(shù)據(jù)的規(guī)格化處理
為了使不同量綱、不同取值范圍的數(shù)據(jù)能放在一起進(jìn)行比較,通常需要對(duì)數(shù)據(jù)進(jìn)行規(guī)格化處理,
即將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算,把它變?yōu)橐粋€(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。第二節(jié)數(shù)據(jù)的規(guī)格化處理數(shù)據(jù)的規(guī)格化處理為了使不同量綱、不同取值范圍的數(shù)1、數(shù)據(jù)標(biāo)準(zhǔn)化第二節(jié)數(shù)據(jù)的規(guī)格化處理常用的變換方法1、數(shù)據(jù)標(biāo)準(zhǔn)化第二節(jié)數(shù)據(jù)的規(guī)格化處理常用的變換方法2、數(shù)據(jù)正規(guī)化2、數(shù)據(jù)正規(guī)化3、中心化3、中心化4、對(duì)數(shù)化4、對(duì)數(shù)化5、極大值規(guī)格化5、極大值規(guī)格化6、均值規(guī)格化6、均值規(guī)格化7、標(biāo)準(zhǔn)差規(guī)格化7、標(biāo)準(zhǔn)差規(guī)格化第三節(jié)相似性度量聚類分析用于系統(tǒng)類群相似性的研究的實(shí)質(zhì),尋找一種能客觀反映事物(樣品或變量)之間親疏(相近或相似)關(guān)系的統(tǒng)計(jì)量,根據(jù)這種統(tǒng)計(jì)量把事物(樣品或變量)分成若干類。第三節(jié)相似性度量聚類分析用于系統(tǒng)類群相似性的研究的實(shí)質(zhì),相似性度量:能夠度量變量(或樣品)之間相似性程度的數(shù)量指標(biāo)。常用的有相似系數(shù)、相關(guān)系數(shù)、歐氏距離、斜交距離、
離差(誤差)平方和增量等。相似性度量:能夠度量變量(或樣品)之間相似性程度的數(shù)量指標(biāo)。
描述樣品(或變量)間相近(親疏)、相似程度的統(tǒng)計(jì)量很多,目前用得最多的聚類統(tǒng)計(jì)量是距離和相似系數(shù),距離系數(shù)一般用于對(duì)樣品分類,相似系數(shù)一般用于對(duì)變量聚類。描述樣品(或變量)間相近(親疏)、相似程度的統(tǒng)計(jì)量很距離
假使每個(gè)樣品有p個(gè)變量,則每個(gè)樣品都可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn),用距離來度量樣品之間接近的程度,
即兩個(gè)樣品間接近程度用p維空間中兩點(diǎn)的距離來度量。距離假使每個(gè)樣品有p個(gè)變量,則每個(gè)樣品都可以看成p維距離在聚類過程中,距離較近的點(diǎn)傾向于歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。樣品間相近性(親疏程度)的測度距離在聚類過程中,距離較近的點(diǎn)傾向于歸為一類,距離較首先我們看樣本數(shù)據(jù):距離首先我們看樣本數(shù)據(jù):距離距離1、定義距離的準(zhǔn)則
定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)(樣品i和樣品j的各指標(biāo)相同)(對(duì)稱性)(三角不等式)距離1、定義距離的準(zhǔn)則定義距離要求滿足第i個(gè)和第2、常用距離的算法
通常我們定義的距離一般是指歐氏距離(直線距離),幾何平面上的點(diǎn)P(x1,x2)到原點(diǎn)o(0,0)的歐氏距離,依勾股定理距離2、常用距離的算法通常我們定義的距離一般是指歐氏距離
Rp中兩點(diǎn)X(x1,x2,…,xp)和Y(y1,y2,…,yp)之間的歐氏距離為:2、常用距離的算法距離Rp中兩點(diǎn)X(x1,x2,…,xp)和Y
常用距離——明氏距離(Minkowski距離):(通用的距離測度公式)2、常用距離的算法距離常用距離——明氏距離(Minkowski距離):(通用的距2、常用距離的算法距離(最直觀的距離)當(dāng)q=2時(shí):歐氏距離(Euclidean)當(dāng)q=1時(shí):絕對(duì)值距離當(dāng)q=∞時(shí):切比雪夫距離(Chebychev)2、常用距離的算法距離(最直觀的距離)當(dāng)q=2時(shí):歐氏距離(①當(dāng)量綱不一致時(shí),往往突出數(shù)量級(jí)高的變量的作用,壓低數(shù)量級(jí)低的變量作用→結(jié)果與實(shí)際有較大偏差②維數(shù)m增加使Dik變大,其變化無規(guī)律可循解決:①原始數(shù)據(jù)預(yù)處理②修正公式歐氏距離系數(shù)Dik大小受變量觀測值量綱影響和變量個(gè)數(shù)(維數(shù))的影響。①當(dāng)量綱不一致時(shí),往往突出數(shù)量級(jí)高的變量的作用,壓低數(shù)量級(jí)低量綱→原始數(shù)據(jù)預(yù)處理統(tǒng)一量綱變換:
成為無量綱的、具有統(tǒng)一尺度的數(shù)據(jù),
使每個(gè)變量在同一水平上顯示各自的作用。量綱→原始數(shù)據(jù)預(yù)處理維數(shù)→修正公式
消除維數(shù)影響,并將歐氏距離系數(shù)的變化范圍限制在(0,1)之間。當(dāng)兩點(diǎn)距離越小↓,dik越大↑,兩樣品相似性愈大↑;反之,距離↑,dik↓,相似性↓維數(shù)→修正公式例如:對(duì)體重和身高進(jìn)行測量,采用不同單位,其距離測量的結(jié)果不同。例如:對(duì)體重和身高進(jìn)行測量,采用不同單位,其距離測量當(dāng)長度為cm時(shí):當(dāng)長度為mm時(shí):當(dāng)長度為cm時(shí):當(dāng)長度為mm時(shí):通常改進(jìn)辦法有兩個(gè):(1)當(dāng)各指標(biāo)的測量值相差懸殊時(shí),先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。
標(biāo)準(zhǔn)化后的數(shù)據(jù),每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為1,與變量的量綱無關(guān);常用的聚類分析軟件中都有這項(xiàng)功能,可以自動(dòng)完成。(2)為克服變量之間的相關(guān)性影響,可以采用馬氏距離。通常改進(jìn)辦法有兩個(gè):(1)當(dāng)各指標(biāo)的測量值相差懸殊時(shí),先對(duì)數(shù)
下面用一個(gè)一維的例子說明歐氏距離與馬氏距離在概率上的差異。
設(shè)有兩個(gè)正態(tài)總體,
給定一個(gè)樣品位于A處,試問A處的樣品離哪一個(gè)總體較近。下面用一個(gè)一維的例子說明歐氏距離與馬氏距離在概率上的差按歐氏距離來度量,A點(diǎn)離的中心,
要比離的中心“近一些”,從概率論的角度來看,A點(diǎn)位于右側(cè)約處,
而位于左側(cè)約處,用標(biāo)準(zhǔn)差來度量,那么A點(diǎn)離要比離“近一些”。
從圖上看,按歐氏距離來度量,A點(diǎn)離的中心,從圖上看,顯然,概率論的角度的度量更為合理。它是用坐標(biāo)差平方除以方差(或乘以方差的倒數(shù)),從而化為無量綱數(shù),推廣到多維就要乘以協(xié)方差陣的逆矩陣,
這就是是馬氏距離的概念。顯然,概率論的角度的度量更為合理。馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯于1936年引入的,故稱為馬氏距離。這一距離在多元統(tǒng)計(jì)分析中起著十分重要的作用。2、常用距離的算法,考慮點(diǎn)X到G1、G2的相對(duì)距離:設(shè)馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯于1936年引入的數(shù)學(xué)地質(zhì)系列______4聚類分析課件其中如果存在,則兩個(gè)樣品之間的馬氏距離為:其中如果存在,則兩個(gè)樣品之間的馬氏距離為:馬氏距離雖然考慮了觀測變量之間的相關(guān)性,并且也不受觀測變量量綱不同的影響,在聚類分析之前,如果用全部數(shù)據(jù)計(jì)算的均值向量和協(xié)方差矩陣來計(jì)算馬氏距離,效果并不是很好。馬氏距離2、常用距離的算法馬氏距離雖然考慮了觀測變量之間的相關(guān)性,并且也不受觀測變量量比較合理的辦法是用各個(gè)類的樣本來計(jì)算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來計(jì)算。然而,類的形成要依賴于樣品之間的距離,反過來樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。馬氏距離2、常用距離的算法因此,在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。比較合理的辦法是用各個(gè)類的樣本來計(jì)算各自的協(xié)方差矩陣,馬氏距蘭氏距離(Canberra)僅適用于一切的情況,這個(gè)距離有助于克服各指標(biāo)之間量綱的影響,沒有考慮指標(biāo)之間的相關(guān)性。2、常用距離的算法距離蘭氏距離(Canberra)僅適用于一切的情況,這個(gè)距離有3、歐氏距離系數(shù)一維:DAB=|xA-xB|二維:勾股定理M維(歐氏距離系數(shù)):3、歐氏距離系數(shù)4、斜交距離4、斜交距離離差平方和增量組內(nèi)離差平方和:先計(jì)算組內(nèi)每個(gè)變量的平均值,再用每個(gè)變量與該平均值相減后的平方和相加得此值?!鞍戳杏?jì)算”組內(nèi)平均值計(jì)算:組內(nèi)每個(gè)樣品的某個(gè)變量(列)求和再除以樣品數(shù)2、常用距離的算法距離離差平方和增量組內(nèi)離差平方和:組內(nèi)平均值計(jì)算:組內(nèi)每個(gè)樣品的以上幾種距離的定義均要求變量是間隔尺度的,
如果使用的變量是有序尺度或名義尺度的,則有相應(yīng)的一些定義距離的方法。歐氏距離是聚類分析中用得最廣泛的距離。2、常用距離的算法距離以上幾種距離的定義均要求變量是間隔尺度的,歐氏距離是兩兩樣品的距離都算出來后,形成距離陣D,其中:,D是一個(gè)實(shí)對(duì)稱陣,
只須計(jì)算上(或下)三角形部分,根據(jù)D可對(duì)n個(gè)點(diǎn)進(jìn)行分類,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類。距離矩陣:兩兩樣品的距離都算出來后,形成距離陣D,其中:距離矩相似系數(shù)
有些事物的相似,并非要求數(shù)值上的一致或相近,例如:
三角形的相似、盡管尺寸、大小相差懸殊,卻非常相似,又如:兩形象平行,也可為非常相似,為此,必須引入另外一個(gè)聚類分析的統(tǒng)計(jì)量——相似系數(shù)。相似系數(shù)有些事物的相似,并非要求數(shù)值上的一致或相近,
在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的相似性,變量之間的關(guān)系越是密切,其相似系數(shù)越接近于1(或-1);變量之間的關(guān)系越是疏遠(yuǎn),其相似系數(shù)越接近于0。相似系數(shù)在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的在聚類過程中,———變量間相似性的測度相似系數(shù)比較相似的變量傾向于歸為一類,不怎么相似的變量歸屬不同的類。在聚類過程中,———變量間相似性的測度相似系數(shù)比較相似系數(shù)變量Xi
與
Xj的相似系數(shù)用Cij來表示。對(duì)于間隔尺度,最常用的相似系數(shù)有兩種:
夾角余弦和相關(guān)系數(shù)。相似系數(shù)變量Xi與Xj的相似系數(shù)用Cij來表示。相似系數(shù)1.夾角余弦—cosine
盡管圖中AB和CD長度不一樣,但形狀相似。
當(dāng)長度不是主要矛盾時(shí),就可利用夾角余弦這樣的相似系數(shù)。相似系數(shù)1.夾角余弦—cosine相似系數(shù)變量Xi的n次觀測值(X1i,X2i……,Xni)看成n維空間的向量,則Xi和Xj夾角aij的余弦稱為兩向量的相似系數(shù)。(它是P維空間中變量Xi的觀測向量與變量Xj的觀測向量之間夾角的余弦函數(shù))。1.夾角余弦:相似系數(shù)變量Xi的n次觀測值(X1i,X2i……,Xn相似系數(shù)將任何兩個(gè)樣品與看成p維空間的兩個(gè)向量,這兩個(gè)向量的夾角余弦用表示。則:1.夾角余弦:相似系數(shù)將任何兩個(gè)樣品與看成p維由于-1≤cosθij
≤1,其值越接近于1,說明二樣品的相似程度越高。求出兩兩樣品的相似系數(shù),得到相似系數(shù)矩陣:它是一個(gè)n階實(shí)對(duì)稱矩陣,其主對(duì)角元素為1。1.夾角余弦:由于-1≤cosθij≤1,其值越接近于相似系數(shù)2.相關(guān)系數(shù):相關(guān)系數(shù)常用rij表示,相似系數(shù)2.相關(guān)系數(shù):相關(guān)系數(shù)常用rij表示,把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣。其中,可根據(jù)R可對(duì)n個(gè)樣品進(jìn)行分類。2.相關(guān)系數(shù):把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣。其第四節(jié)系統(tǒng)聚類法系統(tǒng)聚類分析的基本思想
系統(tǒng)聚類法(分層聚類):
是諸聚類分析方法中使用最多的一種,
它是將類由多變到少的一種方法。第四節(jié)系統(tǒng)聚類法系統(tǒng)聚類分析的基本思想系統(tǒng)聚類法(分層系統(tǒng)聚類分析的基本思想:首先將所研究的每個(gè)樣品各自看成一類,然后根據(jù)樣品間的相似程度,每次將最相似的兩類合并。計(jì)算新類與其他類之間的相似程度,再選擇最相似者加以合并,這樣每合并一次,就減少一類,繼續(xù)這一過程,直到將所有樣品合并成一類為止。計(jì)算新類與其他類之間的相似程度,再選擇最相似類合并,這樣每合并一次,就減少一類,系統(tǒng)聚類分析的基本思想:計(jì)算新類與其他類之間的相似程度,系統(tǒng)聚類分析的方法(一)類間距離
根據(jù)問題和數(shù)據(jù)的實(shí)際情況,
樣品之間的距離:可從介紹過的幾種聚類統(tǒng)計(jì)量中選取最合適的一種。
類與類之間的距離:主要解決以誰來代表全類,
由此產(chǎn)生不同的類間距離和不同的系統(tǒng)聚類過程。系統(tǒng)聚類分析的方法(一)類間距離根據(jù)問題和數(shù)據(jù)的實(shí)
以下用表示樣品與之間距離,用表示類與之間的距離。系統(tǒng)聚類分析的方法(一)類間距離以下用表示樣品與常用系統(tǒng)聚類方法1.最短距離法(singlelinkage,nearestneighbor)樣品間:歐氏距離類類間:兩類間兩兩樣品距離最短。
即,下圖中樣品A1和B2之間的距離.常用系統(tǒng)聚類方法1.最短距離法(singlelinkage類間距離B1B3B2A1A2最短距離(singlelinkage)聚類算法:把兩個(gè)類之間的距離定義為一個(gè)類的所有樣品與另一個(gè)類的所有樣品之間距離的最小者。
類間距離B1B3B2A1A2最短距離(singlelink
定義類Gi與Gj之間的距離為兩類最近樣品的距離,即
將GK和GL合并成一個(gè)新類,記為GM,則任一類GJ
與GM的距離:定義類Gi與Gj之間的距離為兩類最近樣品的距離,
(1)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的距離矩陣D(0),它是一個(gè)對(duì)稱矩陣,開始每個(gè)樣品自成一類,。(2)選擇D(0)中非對(duì)角線的最小元素,設(shè)為DKL,將GK和GL合并成一個(gè)新類,記為GM,即GM={GK,GL}。1.最短距離法聚類步驟:(1)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的距離矩陣D(
(3)計(jì)算新類與任一類之間的距離為DJM=min{DJK,DJL}
將D(0)中K、L行,K、L列用上式并成一個(gè)新行新列,新行新列對(duì)應(yīng)GM,所得矩陣記作D(1)。(3)計(jì)算新類與任一類之間的距離為新行新列對(duì)應(yīng)GM,所(4)對(duì)D(1)重復(fù)上述對(duì)D(0)的兩步得D(2),直至如果某一步D(m)中最小的元素不止一個(gè),
則對(duì)應(yīng)這些最小元素的類可以同時(shí)合并。所有元素合并成一類為止。(4)對(duì)D(1)重復(fù)上述對(duì)D(0)的兩步得D(2),直至如
例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:1.0,2.0,3.5,7.0,9.0,試用最短距離進(jìn)行聚類分析。G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520解:(1)樣品間的距離采用絕對(duì)距離,計(jì)算樣品兩兩距離,得距離矩陣D(0):例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:G1G6G3G4G5G6G3G4G50
1.5053.5075.52.00G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=min(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G6G3G4G5G60G6G3G4G5G6G3G4G50
1.5053.5075.52.00G1G2G3G4G5G1G2G3G4G50102.5
1.5
06
5
3.50
8
7
5.520(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=min(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G6G3G4G5G60G6G3G4G5G6G3G4G50
1.5053.5075.52.00(4)D(1)樣中非對(duì)角線最小元素為1.5,即D36=1.5,根據(jù)最短距離準(zhǔn)則將G3、G6合并為一新類,記為G7={G1,G2,G3};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G3G4G5G3G4G503.505.52.00G6G3G4G5G60G6G3G4G5G6G3G4G50
1.5053.5075.52.00(4)D(1)樣中非對(duì)角線最小元素為1.5,即D36=1.5,根據(jù)最短距離準(zhǔn)則將G3、G6合并為一新類,記為G7={G1,G2,G3};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G3G4G5G3G4G503.505.52.00G6G3G4G5G60(5)D(2)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G8={G4,G5};即,D(2)的前兩列中取較小者,得距離矩陣D(3)
:G7G4G5G7G4G503.505.52.00G7G8G7G803.50(5)D(2)樣中非對(duì)角線最小元素為2.0,即D45=2.0(5)D(2)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G8={G4,G5};即,D(2)的前兩列中取較小者,得距離矩陣D(3)
:G7G4G5G7G4G503.505.52.00G7G8G7G803.50(5)D(2)樣中非對(duì)角線最小元素為2.0,即D45=2.0X1X5X4X3X2G6G7G8G9系統(tǒng)聚類譜系圖X1X5X4X3X2G6G7G8G9系統(tǒng)聚類譜系圖常用系統(tǒng)聚類方法2.最長距離法(completelinkage,furthestneighbor)樣品間:歐氏距離類類間:兩類間樣品兩兩距離最長。
即下圖中樣品A2和B3之間的距離常用系統(tǒng)聚類方法2.最長距離法(completelinka最長距離(completelinkage)類間距離B1B3A1A2B2聚類算法:(1)把兩個(gè)類之間的距離定義為一個(gè)類的所有樣品與另一個(gè)類
的所有樣品之間的距離最大者,(2)并類的標(biāo)準(zhǔn)仍采用它與其它類的最小距離。
最長距離(completelinkage)類間距離B1B3
例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:1.0,2.0,3.5,7.0,9.0,試用最長距離進(jìn)行聚類分析。解:(1)樣品間的距離采用絕對(duì)距離,計(jì)算樣品兩兩距離,得距離矩陣D(0):G1G2G3G4G5G1G2G3G4G501
02.5
1.506
53.50
8
75.52.00例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:解:(1)G1G2G3G4G5G1G2G3G4G50102.5
1.50653.50875.52.00(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=max(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G1G2G3G4G5(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最短距離準(zhǔn)則將G1、G2合并為一新類,記為G6={G1,G2};(3)計(jì)算G6與剩余其他類的距離,按照公式:D=max(Di1,Di2),即D(0)的前兩列中取較小者,得距離矩陣D(1)
:G6G3G4G5G6G3G4G50
2.5
06
3.508
5.52.00
G1G2G3G4G5G1G2G3G4G50102.5
1.50653.50875.520(2)D(0)樣中非對(duì)角線最小元素為1,即D12=1,根據(jù)最(4)D(1)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G7={G4,G5};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G6G3G4G5G6G3G4G50
2.5
06
3.508
5.52.00
(4)D(1)樣中非對(duì)角線最小元素為2.0,即D45=2.0G6G3G4G5G6G3G4G50
2.506
3.508
5.52.00
G6G3G7G6G3G70
2.5
08
5.50
(4)D(1)樣中非對(duì)角線最小元素為2.0,即D45=2.0,根據(jù)最短距離準(zhǔn)則將G4、G5合并為一新類,記為G7={G4,G5};即,D(1)的前兩列中取較小者,得距離矩陣D(2)
:G6G3G4G5G60G6(5)D(2)樣中非對(duì)角線最小元素為2.5,即D36=2.5,根據(jù)最短距離準(zhǔn)則將G3、G6合并為一新類,記為G8={G3,G6};即,D(2)的前兩列中取較小者,得距離矩陣D(3)
:G8G7G8G7080G6G3G7G6G3G70
2.5
08
5.50
(5)D(2)樣中非對(duì)角線最小元素為2.5,即D36=2.5X1X5X4X3X2G6G8G7G9系統(tǒng)聚類譜系圖X1X5X4X3X2G6G8G7G9系統(tǒng)聚類譜系圖有兩種形式:一種是組間聯(lián)結(jié)法,組間聯(lián)結(jié)法在計(jì)算距離時(shí),只考慮兩類之間樣品之間的距離的平均,另一種是組內(nèi)聯(lián)結(jié)法,組內(nèi)聯(lián)結(jié)法在計(jì)算距離時(shí)把兩組所有樣品之間的距離都考慮在內(nèi)。3.類平均法(averagelinkagebetweengroup)常用系統(tǒng)聚類方法有兩種形式:3.類平均法(averagelinkageb類間距離B1B3B2A1A2平均距離(average)類間距離B1B3B2A1A2平均距離(average)4.
重心法常用系統(tǒng)聚類方法(centroidmethod)樣品間:歐氏距離類類間:兩類重心(即該類樣品的均值)之間的距離4.重心法常用系統(tǒng)聚類方法(centroidmethod重心法類的重心之間的距離從物理觀點(diǎn)來看,一類即一組質(zhì)點(diǎn),用它的重心(質(zhì)量的中心)做為代表比較合理,由此產(chǎn)生重心法。重心法類的重心之間的距離從物理觀點(diǎn)來看,類與類之間的距離:定義為它們的重心(均值)之間的(平方)歐氏距離。
設(shè)GK和GL的重心分別為xk和xL,
則GK與GL之間的平方距離為:(centroidmethod)4.
重心法類與類之間的距離:定義為它們的重心(均值)之間的設(shè)某一步將GK和GL合并的新類為GM,它們的重心分別是Xk、XL、Xm,它們各有nk、nL、nm(nm=nk+nL)個(gè)樣品,顯然,新類GM與任一類GJ(重心為xJ)的平方距離是這就是重心法的距離遞推公式。4.
重心法設(shè)某一步將GK和GL合并的新類為GM,這就是重心法的距離遞推
重心法的歸類步驟與以上三種方法基本上一樣,所不同的是每合并一次類,就要重新計(jì)算新類的重心及各類與新類的距離。
重心法在處理異常值方面比其它系統(tǒng)聚類法更穩(wěn)健,有很好的代表性。4.
重心法常用系統(tǒng)聚類方法(centroidmethod)重心法的歸類步驟與以上三種方法基本上一樣,所不同的是5.
Ward最小方差法常用系統(tǒng)聚類方法(Ward’minimumvariancemethod
)樣品間:歐氏距離類類間:離差平方和增量法5.Ward最小方差法常用系統(tǒng)聚類方法(Ward’minWard最小方差法
由沃德提出,其思想來源于方差分析。
如果分類正確,
ClusterKClusterLClusterM同類樣品的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。Ward最小方差法由沃德提出,其思想來源于方差分析。設(shè)將n個(gè)樣品分成k類:G1,G2,…,Gk,用表示中的第i個(gè)樣品(注意是p維向量),nt表示Gt中的樣品個(gè)數(shù),是Gt的重心,則Gt中樣品的離差平方和為:Ward最小方差法k個(gè)類的類內(nèi)離差平方和:設(shè)將n個(gè)樣品分成k類:G1,G2,…,Gk,Ward先將n個(gè)樣品各自成一類,此時(shí)總離差平方和W=0,然后每次將其中某兩類合并為一類
(因每縮小一類離差平方和就要增大),每次選擇使總離差平方和w增加最小的兩類進(jìn)行合并直到所有的樣品歸為一類為止。5.Ward最小方差法基本思想:先將n個(gè)樣品各自成一類,此時(shí)總離差平方和W=0,5.Ward系統(tǒng)聚類小結(jié)幾種系統(tǒng)聚類法,并類的原則和步驟基本一致,所不同的是類與類之間的距離有不同的定義,依此所給出的新類與任一類的距離公式不同。可以把這幾種方法統(tǒng)一起來,有利于在計(jì)算機(jī)上靈活地選擇更有意義的譜系圖(有利于計(jì)算機(jī)程序的編制)。Lance和Williams于1967年將其統(tǒng)一為:系統(tǒng)聚類小結(jié)幾種系統(tǒng)聚類法,并類的原則和步驟基本一致,各種系統(tǒng)聚類法公式的參數(shù)
各種系統(tǒng)聚類法公式的參數(shù)在實(shí)際應(yīng)用中,一般采用以下兩種處理方法:根據(jù)分類問題本身的專業(yè)知識(shí),結(jié)合實(shí)際需要,選擇分類方法,并確定分類個(gè)數(shù)。用多種分類方法去作,取出結(jié)果中的共性來,如果用幾種方法的某些結(jié)果都一樣,則說明這樣的聚類確實(shí)反映了事物的本質(zhì),而將有爭議的樣品暫放一邊或用其它辦法(如判別分析)去歸類。在實(shí)際應(yīng)用中,一般采用以下兩種處理方法:系統(tǒng)聚類法的步驟1.數(shù)據(jù)變換為了便于比較、計(jì)算上的方便或改變數(shù)據(jù)的結(jié)構(gòu);選擇度量樣品間距離的定義(如歐氏距離)及
度量類間距離的定義(如最短距離法)。系統(tǒng)聚類法的步驟1.數(shù)據(jù)變換計(jì)算n個(gè)樣品兩兩間的距離dij,
得樣品間的距離矩陣D(0);3.一開始(第一步:i=1)n個(gè)樣品各自構(gòu)成一類,
類的個(gè)數(shù)k=n個(gè)類,Gi={X(i)}}(i=1,….n),
此時(shí)類間的距離就是樣品間的距離(即D(1)=
D(0));系統(tǒng)聚類法的步驟計(jì)算n個(gè)樣品兩兩間的距離dij,系統(tǒng)聚類法的步驟4.合并距離最近的兩類為一新類;
5.計(jì)算新類與當(dāng)前其它各類的距離,得新的距離矩陣D(i),
若合并后類的總個(gè)數(shù)k大于1,重復(fù)(3)和(4)步,
直到類的個(gè)數(shù)為1時(shí)止;
系統(tǒng)聚類法的步驟6.畫譜系聚類圖;7.決定類的個(gè)數(shù)及各類的成員。4.合并距離最近的兩類為一新類;
5.計(jì)算新類與當(dāng)前其它各類系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x,計(jì)算距離把每個(gè)樣品看成一類,構(gòu)造n個(gè)類合并最近的兩類為一新類計(jì)算新類與當(dāng)前各類的距離判斷畫聚類圖根據(jù)實(shí)際情況,確定類和類的個(gè)數(shù)僅有一個(gè)類不是僅有一個(gè)類采用系統(tǒng)聚類法系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x,計(jì)算距離把每個(gè)樣品看成一類第五節(jié)應(yīng)用實(shí)例例1:從某地超基性巖石的某些樣品中,得到與礦化度有關(guān)的一些元素的光譜分析數(shù)據(jù)。依次為:Ni,Co,Cu,Cr,S,As的原始數(shù)據(jù)第五節(jié)應(yīng)用實(shí)例例1:從某地超基性巖石的某些樣品中,得到數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件例2:某地煤層采樣10塊,做了顯微組分含量分析,6個(gè)變量分別為鏡質(zhì)體、殼質(zhì)體、半絲質(zhì)體、其他惰性體、黃鐵礦、其他礦物。教材5.1例2:某地煤層采樣10塊,做了顯微組分含量分析,6個(gè)變量分別數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件數(shù)學(xué)地質(zhì)系列______4聚類分析課件作業(yè)1.什么是聚類分析,簡述其基本思想2.試驗(yàn)五第一、二題,要求用手算和程序計(jì)算兩種方法作業(yè)1.什么是聚類分析,簡述其基本思想2.試驗(yàn)五第一地質(zhì)與環(huán)境學(xué)院CollegeofGeology&Environment
俗話說:“物以類聚,人以群分”,
在社會(huì)、經(jīng)濟(jì)、管理、氣象、地質(zhì)、人口、考古等眾多領(lǐng)域,都存在著大量的分類研究問題。分類是自然科學(xué)重要研究內(nèi)容之一地質(zhì)與環(huán)境學(xué)院CollegeofGeology&En第五章聚類分析第一節(jié)概述第二節(jié)數(shù)據(jù)的規(guī)格化處理第三節(jié)相似性度量第四節(jié)系統(tǒng)聚類法第五節(jié)應(yīng)用實(shí)例地質(zhì)與環(huán)境學(xué)院CollegeofGeology&Environment第五章聚類分析第一節(jié)概述地
合理的科學(xué)的分類,能夠反映某類事物的最基本的特征以及同別類事物的區(qū)別,推動(dòng)學(xué)科的發(fā)展和科學(xué)研究。第一節(jié)概述在地學(xué)領(lǐng)域:巖石、礦物、構(gòu)造、地層、古生物等在環(huán)境領(lǐng)域:環(huán)境質(zhì)量在經(jīng)濟(jì)領(lǐng)域:股市合理的科學(xué)的分類,能夠反映某類事物的最基本的特征以及
聚類分析:是一種分類技術(shù),它是根據(jù)“物以類聚”的道理,對(duì)事物(樣品或指標(biāo))進(jìn)行分類的一種多元統(tǒng)計(jì)方法,
又稱“群分析、點(diǎn)群分析、簇群分析”。一、聚類分析的含義聚類分析:是一種分類技術(shù),一、聚類分析的含義根據(jù)事物本身的特征分類,即,將事物性質(zhì)相近的歸為一類,將事物性質(zhì)的差異較大的歸在不同的類。所謂“類”,通俗地說就是相似元素的集合。分類,是將一個(gè)觀測對(duì)象指定到某一類(組)。聚類分析特點(diǎn):將事物性質(zhì)相近的歸為一類,將事物性質(zhì)的差異較大的歸在不同的類。根據(jù)事物本身的特征分類,聚類分析特點(diǎn):將事物性質(zhì)相近的歸為一
當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。當(dāng)有多個(gè)分類指標(biāo)時(shí),要進(jìn)行分類就不是很容易了。由于不同的指標(biāo)項(xiàng)對(duì)重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,這樣會(huì)忽視相對(duì)重要程度的問題。聚類分析的含義當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。聚類分析的含義聚類分析方法的產(chǎn)生
傳統(tǒng)的分類方法起源很早,在古老的分類學(xué)中,人們主要靠經(jīng)驗(yàn)和專業(yè)知識(shí)進(jìn)行定性的分析,許多分類往往帶有主觀性和任意性,不能揭示客觀事物的內(nèi)在本質(zhì)差別和聯(lián)系。聚類分析方法的產(chǎn)生傳統(tǒng)的分類方法起源很早,在古老的分聚類分析方法的產(chǎn)生隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來越高,僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切的進(jìn)行分類,特別是對(duì)于多因素、多指標(biāo)的分類問題。數(shù)學(xué)工具引用到分類學(xué)中,形成數(shù)值分類學(xué),后來又將多元分析的技術(shù)引入到數(shù)值分類學(xué),逐步形成聚類分析這一數(shù)值分類方法。聚類分析方法的產(chǎn)生隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來越聚類分析方法的分類根據(jù)分類對(duì)象Q型:研究樣品之間的關(guān)系,把不同的物體歸類分群R型:研究同一物種不同變量之間的關(guān)系根據(jù)維數(shù):1、2、多根據(jù)聚類的方法:系統(tǒng)聚類、分解法系統(tǒng)聚類法:
最短距離法(近鄰連接法)、最長距離法(遠(yuǎn)鄰連接法)
類平均法、重心法、離差平方和增量法聚類分析方法的分類根據(jù)分類對(duì)象根據(jù)維數(shù):1、2、多根據(jù)聚類的二、聚類分析的對(duì)象類型R型聚類
以分類對(duì)象為標(biāo)準(zhǔn),可以將變量(指標(biāo))分類——R型聚類分析。
如城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來描述,八項(xiàng)指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,這實(shí)際上就是對(duì)指標(biāo)聚類等。
在生產(chǎn)活動(dòng)中不乏有變量聚類的實(shí)例,如:衣服型號(hào)就是根據(jù)人體各部分尺寸數(shù)據(jù)找出最有代表性的指標(biāo)如身長、胸圍和褲長、腰圍作為上衣和褲子的代表性指標(biāo)。變量聚類使批量生產(chǎn)成為可能。R型聚類是對(duì)變量進(jìn)行分類處理。一般來說,可以反映研究對(duì)象特點(diǎn)的變量有許多,由于對(duì)客觀事物的認(rèn)識(shí)有限,往往難以找出彼此獨(dú)立且有代表性的變量,影響對(duì)問題進(jìn)一步的認(rèn)識(shí)和研究。
因此需要先進(jìn)行變量聚類,找出相互獨(dú)立又有代表性的變量,而又不丟失大部分信息。二、聚類分析的對(duì)象類型R型聚類以分類對(duì)象為標(biāo)準(zhǔn)Q型聚類
Q型聚類是對(duì)樣品進(jìn)行分類,即對(duì)觀測進(jìn)行分類。
根據(jù)觀測有關(guān)變量的特征,將特征相似的樣品歸為一類。它是聚類分析中用的最多的一種。Q型、R型這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒有什么不同。主要討論Q型聚類分析問題。Q型聚類Q型聚類是對(duì)樣品進(jìn)行分類,即對(duì)觀測進(jìn)行分類。Q三、聚類分析的基本思想我們所研究的樣品或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系),于是:(1)根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體找出一些能夠度量樣品或變量(指標(biāo))之間相似程度的統(tǒng)計(jì)量;三、聚類分析的基本思想我們所研究的樣品或指標(biāo)(變量)
與多元分析的其它方法比,聚類分析方法較為粗糙,理論上還不夠完善,但應(yīng)用方便、廣泛,與回歸分析、判別分析一起被稱為多元分析的三大方法。(2)以這些統(tǒng)計(jì)量為分類的依據(jù),建立一種分類方法,將一批樣品或變量(指標(biāo)),按照它們?cè)谛再|(zhì)上的親疏、相似程度進(jìn)行分類。與多元分析的其它方法比,聚類分析方法較為粗糙,理論上第二節(jié)數(shù)據(jù)的規(guī)格化處理一、聚類分析的數(shù)據(jù)格式
設(shè)有n個(gè)樣品單位,每個(gè)樣品測得m項(xiàng)變量(指標(biāo)),原始資料陣為:第二節(jié)數(shù)據(jù)的規(guī)格化處理一、聚類分析的數(shù)據(jù)格式設(shè)第i個(gè)樣品Xi為矩陣X的第i行所描述,
任何兩個(gè)樣品Xk與XL之間的相似性,可以通過矩陣X中的第K行與第L行的相似程度來刻劃;xij(i=1,…n;j=1,…m)為第i個(gè)樣品的第j個(gè)指標(biāo)的觀測數(shù)據(jù)。第i個(gè)樣品Xi為矩陣X的第i行所描述,xij(i=1,…n;任何兩個(gè)變量xk與xL之間的相似性,可以通過第K列與第L列的相似程度來刻劃。xij(i=1,…n;j=1,…m)為第i個(gè)樣品的第j個(gè)指標(biāo)的觀測數(shù)據(jù)。任何兩個(gè)變量xk與xL之間的相似性,可以通過第K列與第L列的為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。二、變量測量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;二、變量測量尺通常,變量按照測量的尺度不同,可以分為三類:二、變量測量尺度的類型
間隔尺度(定距尺度、定量變量):變量用連續(xù)的量表示,由測量、計(jì)數(shù)或統(tǒng)計(jì)所得到的量。
如,長度、重量、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、抽樣調(diào)查數(shù)據(jù)等;間隔尺度、有序尺度、
名義尺度通常,變量按照測量的尺度不同,可以分為三類:二、變量測量尺度有序尺度(定序變量、定性變量):
用該變量度量時(shí)沒有明確的數(shù)量表示,只有次序(等級(jí))關(guān)系。如,產(chǎn)品質(zhì)量,分為一等品、二等品等。名義尺度(定類變量、定性變量):
具有該種特性的變量在度量時(shí)既沒有數(shù)量表示,也沒有次序關(guān)系,而只有性質(zhì)上的差異(用一些類表示)。
如,性別、職業(yè)等。有序尺度(定序變量、定性變量):名義尺度(定類變量、定性變不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法有很大差異。
在實(shí)際應(yīng)用中,研究比較多的是間隔尺度,本章主要討論具有間隔尺度變量的樣品聚類分析方法。不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法有很大差數(shù)據(jù)的規(guī)格化處理
為了使不同量綱、不同取值范圍的數(shù)據(jù)能放在一起進(jìn)行比較,通常需要對(duì)數(shù)據(jù)進(jìn)行規(guī)格化處理,
即將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算,把它變?yōu)橐粋€(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。第二節(jié)數(shù)據(jù)的規(guī)格化處理數(shù)據(jù)的規(guī)格化處理為了使不同量綱、不同取值范圍的數(shù)1、數(shù)據(jù)標(biāo)準(zhǔn)化第二節(jié)數(shù)據(jù)的規(guī)格化處理常用的變換方法1、數(shù)據(jù)標(biāo)準(zhǔn)化第二節(jié)數(shù)據(jù)的規(guī)格化處理常用的變換方法2、數(shù)據(jù)正規(guī)化2、數(shù)據(jù)正規(guī)化3、中心化3、中心化4、對(duì)數(shù)化4、對(duì)數(shù)化5、極大值規(guī)格化5、極大值規(guī)格化6、均值規(guī)格化6、均值規(guī)格化7、標(biāo)準(zhǔn)差規(guī)格化7、標(biāo)準(zhǔn)差規(guī)格化第三節(jié)相似性度量聚類分析用于系統(tǒng)類群相似性的研究的實(shí)質(zhì),尋找一種能客觀反映事物(樣品或變量)之間親疏(相近或相似)關(guān)系的統(tǒng)計(jì)量,根據(jù)這種統(tǒng)計(jì)量把事物(樣品或變量)分成若干類。第三節(jié)相似性度量聚類分析用于系統(tǒng)類群相似性的研究的實(shí)質(zhì),相似性度量:能夠度量變量(或樣品)之間相似性程度的數(shù)量指標(biāo)。常用的有相似系數(shù)、相關(guān)系數(shù)、歐氏距離、斜交距離、
離差(誤差)平方和增量等。相似性度量:能夠度量變量(或樣品)之間相似性程度的數(shù)量指標(biāo)。
描述樣品(或變量)間相近(親疏)、相似程度的統(tǒng)計(jì)量很多,目前用得最多的聚類統(tǒng)計(jì)量是距離和相似系數(shù),距離系數(shù)一般用于對(duì)樣品分類,相似系數(shù)一般用于對(duì)變量聚類。描述樣品(或變量)間相近(親疏)、相似程度的統(tǒng)計(jì)量很距離
假使每個(gè)樣品有p個(gè)變量,則每個(gè)樣品都可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn),用距離來度量樣品之間接近的程度,
即兩個(gè)樣品間接近程度用p維空間中兩點(diǎn)的距離來度量。距離假使每個(gè)樣品有p個(gè)變量,則每個(gè)樣品都可以看成p維距離在聚類過程中,距離較近的點(diǎn)傾向于歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。樣品間相近性(親疏程度)的測度距離在聚類過程中,距離較近的點(diǎn)傾向于歸為一類,距離較首先我們看樣本數(shù)據(jù):距離首先我們看樣本數(shù)據(jù):距離距離1、定義距離的準(zhǔn)則
定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)(樣品i和樣品j的各指標(biāo)相同)(對(duì)稱性)(三角不等式)距離1、定義距離的準(zhǔn)則定義距離要求滿足第i個(gè)和第2、常用距離的算法
通常我們定義的距離一般是指歐氏距離(直線距離),幾何平面上的點(diǎn)P(x1,x2)到原點(diǎn)o(0,0)的歐氏距離,依勾股定理距離2、常用距離的算法通常我們定義的距離一般是指歐氏距離
Rp中兩點(diǎn)X(x1,x2,…,xp)和Y(y1,y2,…,yp)之間的歐氏距離為:2、常用距離的算法距離Rp中兩點(diǎn)X(x1,x2,…,xp)和Y
常用距離——明氏距離(Minkowski距離):(通用的距離測度公式)2、常用距離的算法距離常用距離——明氏距離(Minkowski距離):(通用的距2、常用距離的算法距離(最直觀的距離)當(dāng)q=2時(shí):歐氏距離(Euclidean)當(dāng)q=1時(shí):絕對(duì)值距離當(dāng)q=∞時(shí):切比雪夫距離(Chebychev)2、常用距離的算法距離(最直觀的距離)當(dāng)q=2時(shí):歐氏距離(①當(dāng)量綱不一致時(shí),往往突出數(shù)量級(jí)高的變量的作用,壓低數(shù)量級(jí)低的變量作用→結(jié)果與實(shí)際有較大偏差②維數(shù)m增加使Dik變大,其變化無規(guī)律可循解決:①原始數(shù)據(jù)預(yù)處理②修正公式歐氏距離系數(shù)Dik大小受變量觀測值量綱影響和變量個(gè)數(shù)(維數(shù))的影響。①當(dāng)量綱不一致時(shí),往往突出數(shù)量級(jí)高的變量的作用,壓低數(shù)量級(jí)低量綱→原始數(shù)據(jù)預(yù)處理統(tǒng)一量綱變換:
成為無量綱的、具有統(tǒng)一尺度的數(shù)據(jù),
使每個(gè)變量在同一水平上顯示各自的作用。量綱→原始數(shù)據(jù)預(yù)處理維數(shù)→修正公式
消除維數(shù)影響,并將歐氏距離系數(shù)的變化范圍限制在(0,1)之間。當(dāng)兩點(diǎn)距離越小↓,dik越大↑,兩樣品相似性愈大↑;反之,距離↑,dik↓,相似性↓維數(shù)→修正公式例如:對(duì)體重和身高進(jìn)行測量,采用不同單位,其距離測量的結(jié)果不同。例如:對(duì)體重和身高進(jìn)行測量,采用不同單位,其距離測量當(dāng)長度為cm時(shí):當(dāng)長度為mm時(shí):當(dāng)長度為cm時(shí):當(dāng)長度為mm時(shí):通常改進(jìn)辦法有兩個(gè):(1)當(dāng)各指標(biāo)的測量值相差懸殊時(shí),先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。
標(biāo)準(zhǔn)化后的數(shù)據(jù),每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為1,與變量的量綱無關(guān);常用的聚類分析軟件中都有這項(xiàng)功能,可以自動(dòng)完成。(2)為克服變量之間的相關(guān)性影響,可以采用馬氏距離。通常改進(jìn)辦法有兩個(gè):(1)當(dāng)各指標(biāo)的測量值相差懸殊時(shí),先對(duì)數(shù)
下面用一個(gè)一維的例子說明歐氏距離與馬氏距離在概率上的差異。
設(shè)有兩個(gè)正態(tài)總體,
給定一個(gè)樣品位于A處,試問A處的樣品離哪一個(gè)總體較近。下面用一個(gè)一維的例子說明歐氏距離與馬氏距離在概率上的差按歐氏距離來度量,A點(diǎn)離的中心,
要比離的中心“近一些”,從概率論的角度來看,A點(diǎn)位于右側(cè)約處,
而位于左側(cè)約處,用標(biāo)準(zhǔn)差來度量,那么A點(diǎn)離要比離“近一些”。
從圖上看,按歐氏距離來度量,A點(diǎn)離的中心,從圖上看,顯然,概率論的角度的度量更為合理。它是用坐標(biāo)差平方除以方差(或乘以方差的倒數(shù)),從而化為無量綱數(shù),推廣到多維就要乘以協(xié)方差陣的逆矩陣,
這就是是馬氏距離的概念。顯然,概率論的角度的度量更為合理。馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯于1936年引入的,故稱為馬氏距離。這一距離在多元統(tǒng)計(jì)分析中起著十分重要的作用。2、常用距離的算法,考慮點(diǎn)X到G1、G2的相對(duì)距離:設(shè)馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯于1936年引入的數(shù)學(xué)地質(zhì)系列______4聚類分析課件其中如果存在,則兩個(gè)樣品之間的馬氏距離為:其中如果存在,則兩個(gè)樣品之間的馬氏距離為:馬氏距離雖然考慮了觀測變量之間的相關(guān)性,并且也不受觀測變量量綱不同的影響,在聚類分析之前,如果用全部數(shù)據(jù)計(jì)算的均值向量和協(xié)方差矩陣來計(jì)算馬氏距離,效果并不是很好。馬氏距離2、常用距離的算法馬氏距離雖然考慮了觀測變量之間的相關(guān)性,并且也不受觀測變量量比較合理的辦法是用各個(gè)類的樣本來計(jì)算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來計(jì)算。然而,類的形成要依賴于樣品之間的距離,反過來樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。馬氏距離2、常用距離的算法因此,在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。比較合理的辦法是用各個(gè)類的樣本來計(jì)算各自的協(xié)方差矩陣,馬氏距蘭氏距離(Canberra)僅適用于一切的情況,這個(gè)距離有助于克服各指標(biāo)之間量綱的影響,沒有考慮指標(biāo)之間的相關(guān)性。2、常用距離的算法距離蘭氏距離(Canberra)僅適用于一切的情況,這個(gè)距離有3、歐氏距離系數(shù)一維:DAB=|xA-xB|二維:勾股定理M維(歐氏距離系數(shù)):3、歐氏距離系數(shù)4、斜交距離4、斜交距離離差平方和增量組內(nèi)離差平方和:先計(jì)算組內(nèi)每個(gè)變量的平均值,再用每個(gè)變量與該平均值相減后的平方和相加得此值。“按列計(jì)算”組內(nèi)平均值計(jì)算:組內(nèi)每個(gè)樣品的某個(gè)變量(列)求和再除以樣品數(shù)2、常用距離的算法距離離差平方和增量組內(nèi)離差平方和:組內(nèi)平均值計(jì)算:組內(nèi)每個(gè)樣品的以上幾種距離的定義均要求變量是間隔尺度的,
如果使用的變量是有序尺度或名義尺度的,則有相應(yīng)的一些定義距離的方法。歐氏距離是聚類分析中用得最廣泛的距離。2、常用距離的算法距離以上幾種距離的定義均要求變量是間隔尺度的,歐氏距離是兩兩樣品的距離都算出來后,形成距離陣D,其中:,D是一個(gè)實(shí)對(duì)稱陣,
只須計(jì)算上(或下)三角形部分,根據(jù)D可對(duì)n個(gè)點(diǎn)進(jìn)行分類,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類。距離矩陣:兩兩樣品的距離都算出來后,形成距離陣D,其中:距離矩相似系數(shù)
有些事物的相似,并非要求數(shù)值上的一致或相近,例如:
三角形的相似、盡管尺寸、大小相差懸殊,卻非常相似,又如:兩形象平行,也可為非常相似,為此,必須引入另外一個(gè)聚類分析的統(tǒng)計(jì)量——相似系數(shù)。相似系數(shù)有些事物的相似,并非要求數(shù)值上的一致或相近,
在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的相似性,變量之間的關(guān)系越是密切,其相似系數(shù)越接近于1(或-1);變量之間的關(guān)系越是疏遠(yuǎn),其相似系數(shù)越接近于0。相似系數(shù)在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的在聚類過程中,———變量間相似性的測度相似系數(shù)比較相似的變量傾向于歸為一類,不怎么相似的變量歸屬不同的類。在聚類過程中,———變量間相似性的測度相似系數(shù)比較相似系數(shù)變量Xi
與
Xj的相似系數(shù)用Cij來表示。對(duì)于間隔尺度,最常用的相似系數(shù)有兩種:
夾角余弦和相關(guān)系數(shù)。相似系數(shù)變量Xi與Xj的相似系數(shù)用Cij來表示。相似系數(shù)1.夾角余弦—cosine
盡管圖中AB和CD長度不一樣,但形狀相似。
當(dāng)長度不是主要矛盾時(shí),就可利用夾角余弦這樣的相似系數(shù)。相似系數(shù)1.夾角余弦—cosine相似系數(shù)變量Xi的n次觀測值(X1i,X2i……,Xni)看成n維空間的向量,則Xi和Xj夾角aij的余弦稱為兩向量的相似系數(shù)。(它是P維空間中變量Xi的觀測向量與變量Xj的觀測向量之間夾角的余弦函數(shù))。1.夾角余弦:相似系數(shù)變量Xi的n次觀測值(X1i,X2i……,Xn相似系數(shù)將任何兩個(gè)樣品與看成p維空間的兩個(gè)向量,這兩個(gè)向量的夾角余弦用表示。則:1.夾角余弦:相似系數(shù)將任何兩個(gè)樣品與看成p維由于-1≤cosθij
≤1,其值越接近于1,說明二樣品的相似程度越高。求出兩兩樣品的相似系數(shù),得到相似系數(shù)矩陣:它是一個(gè)n階實(shí)對(duì)稱矩陣,其主對(duì)角元素為1。1.夾角余弦:由于-1≤cosθij≤1,其值越接近于相似系數(shù)2.相關(guān)系數(shù):相關(guān)系數(shù)常用rij表示,相似系數(shù)2.相關(guān)系數(shù):相關(guān)系數(shù)常用rij表示,把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣。其中,可根據(jù)R可對(duì)n個(gè)樣品進(jìn)行分類。2.相關(guān)系數(shù):把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣。其第四節(jié)系統(tǒng)聚類法系統(tǒng)聚類分析的基本思想
系統(tǒng)聚類法(分層聚類):
是諸聚類分析方法中使用最多的一種,
它是將類由多變到少的一種方法。第四節(jié)系統(tǒng)聚類法系統(tǒng)聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆高考政治二輪復(fù)習(xí)時(shí)事熱點(diǎn)專題20香港回歸22周年系列慶?;顒?dòng)啟動(dòng)練習(xí)含解析
- 劇團(tuán)勞務(wù)合同范本
- coco奶茶加盟合同范本
- 13規(guī)范合同范本
- 二年級(jí)口算題目庫100道
- 代為付款三方協(xié)議合同范本
- 醫(yī)院后勤勞務(wù)合同范本
- 出租荒山合同范本
- 化工工廠租賃合同范例
- 廠家對(duì)接合同范本
- 第一課走進(jìn)人工智能 說課稿 2023-2024學(xué)年浙教版(2023)初中信息技術(shù)八年級(jí)下冊(cè)
- 健身行業(yè)會(huì)員權(quán)益保障及免責(zé)條款協(xié)議
- 體檢中心前臺(tái)接待流程
- 2024年大唐集團(tuán)招聘筆試試題及答案-
- 徐州生物工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試參考試題及答案
- 小兒急性胃腸炎課件
- 脾破裂保守治療的護(hù)理
- 翁愷C語言課件下載
- 【MOOC】電工電子學(xué)-浙江大學(xué) 中國大學(xué)慕課MOOC答案
- 新教材 人教版高中化學(xué)選擇性必修2全冊(cè)各章節(jié)學(xué)案(知識(shí)點(diǎn)考點(diǎn)精講及配套習(xí)題)
- 維生素D缺乏性手足搐搦癥課件
評(píng)論
0/150
提交評(píng)論