信息分析與預(yù)測:聚類分析_第1頁
信息分析與預(yù)測:聚類分析_第2頁
信息分析與預(yù)測:聚類分析_第3頁
信息分析與預(yù)測:聚類分析_第4頁
信息分析與預(yù)測:聚類分析_第5頁
已閱讀5頁,還剩110頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

定量分析(四)聚類分析聚類分析clusteranalysis聚類分析概述距離與相似系數(shù)系統(tǒng)聚類法(hierarchicalclustering

)快速聚類法(k-meansclustering)聚類分析是多元分析的主要方法之一,主要用來對大量的樣品或變量進(jìn)行分類,是初步數(shù)據(jù)分析的重要工具之一。

古語:“物以類聚,人以群分”,找出特征相似的類別,研究其規(guī)律性。一、聚類分析概述聚類分析(ClausterAnalysis)數(shù)值分類法的一種,在社會(huì)應(yīng)用中稱類型學(xué)。RobertTryon于1939年提出的一種心理學(xué)研究方法。目的:用數(shù)量關(guān)系對事物進(jìn)行分類。對于可以用某些數(shù)量描述的事物,采用樣本間的距離來將性質(zhì)接近的事物歸為一類,從而達(dá)到對事物的分析和評價(jià)。聚類分析作分類時(shí)各類群乃至類群數(shù)事先未知,而是根據(jù)數(shù)據(jù)的特征確定的,又稱為無師可循的分類。一般分為逐步聚類、系統(tǒng)聚類和其它方法。一、聚類分析概述聚類的實(shí)質(zhì)根據(jù)樣本(變量)間的親疏關(guān)系將樣本(變量)分為類,相近的歸為一類,差別較大的歸為另一類。所獲得的分類應(yīng)有一定的意義。聚類分析的關(guān)鍵親疏關(guān)系的判別:相似性與距離(不相似性)分類數(shù)的確定:分多少類合適聚類分析的應(yīng)用不同地區(qū)城鎮(zhèn)居民收入和消費(fèi)狀況的分類研究。

區(qū)域經(jīng)濟(jì)及社會(huì)發(fā)展水平的分析及全國區(qū)域經(jīng)濟(jì)綜合評價(jià)產(chǎn)品市場細(xì)分:按照消費(fèi)者的需求特征分成不同的細(xì)分市場在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機(jī)能為主的指標(biāo)歸于另一類聚類分析的類型根據(jù)分類的對象Q型聚類(即樣品聚類clusteringforindividuals)R型聚類(指標(biāo)聚類clusteringforvariables)根據(jù)分類的方法:系統(tǒng)聚類(hierarchicalclustering

)快速聚類(k-meansclustering)聚類結(jié)果的輸出樹狀圖還表征出類與類之間的相對接近或距離程度。

162758103494321刷狀圖從上而下或從左而右,可分別反映出不同類的情況。二、距離與相似系數(shù)樣本間的親疏關(guān)系通常用距離描述,變量間的親疏關(guān)系通常用相似系數(shù)或相關(guān)系數(shù)描述不同測量尺度的數(shù)據(jù),其距離的計(jì)算方法不同為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。

(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來表示,其數(shù)值由測量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長度、重量、收入、支出等。一般來說,計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對零點(diǎn),又稱比例尺度。

(一)變量測量尺度的類型

(2)順序尺度。指標(biāo)度量時(shí)沒有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒有數(shù)量表示。

(一)變量測量尺度的類型

(3)名義尺度。指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。

(一)變量測量尺度的類型由于樣本數(shù)據(jù)受量綱和數(shù)量級影響,在聚類分析處理過程中,首先應(yīng)對原始數(shù)據(jù)矩陣進(jìn)行變換處理,以便使不同量綱、不同數(shù)量級的數(shù)據(jù)能放在一起比較。數(shù)據(jù)變換就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。(二)數(shù)據(jù)的變換處理(二)數(shù)據(jù)的變換處理中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測數(shù)據(jù)矩陣為:中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。中心化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:

極差規(guī)格化變換經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。

極差規(guī)格化變換標(biāo)準(zhǔn)化變換也是對變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:

標(biāo)準(zhǔn)化變換經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。

標(biāo)準(zhǔn)化變換對數(shù)變換是將各個(gè)原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。即:

對數(shù)變換(三)距離:樣本間的親疏關(guān)系距離的定義:假使每個(gè)樣品由p個(gè)變量描述,則每個(gè)樣品都可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn),則第i樣品與第j樣品之間的距離記為dijdij滿足下列條件

dij≥0

dii=0

dij=dji

dij≤dik+dkj1.歐式(Euclidian

)距離x1x2①②x12x22x11x21x21-x11x22-x122.明氏(Minkowski

)距離q=1q=2q=∞當(dāng)q=1,為絕對值距離,SPSS稱為block當(dāng)q=2,即為歐式距離當(dāng)q=∞,有,稱為切比雪夫(Chebychev)距離實(shí)例計(jì)算品距離矩陣絕對值距離品Euclidian距離的平方2Euclidian距離明氏距離的缺點(diǎn)各指標(biāo)同等對待(權(quán)數(shù)相同),不能反映各指標(biāo)變異程度上的差異距離的大小與各指標(biāo)的觀測單位有關(guān),有時(shí)會(huì)出現(xiàn)不合理結(jié)果(p7,圖1-1例)沒有考慮指標(biāo)之間的相關(guān)性當(dāng)各指標(biāo)的測量值相差懸殊時(shí),可以先對數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離3.馬氏(Mahalanobis)

距離明氏距離沒有考慮數(shù)據(jù)中的協(xié)方差模式,馬氏距離則考慮了協(xié)方差,且不受指標(biāo)測量單位的影響:樣本之間的距離-馬氏距離馬氏距離考慮了各變量之間的相關(guān)性,且與各變量的單位無關(guān)。S難以確定,S不應(yīng)隨聚類過程而變化。實(shí)際聚類分析中,馬氏距離不理想。已知一二維正態(tài)總體G的分布為:G~N(,),其中分別求點(diǎn)A=(1,1)’,和點(diǎn)B=(1,-1)到均值的歐式距離和馬氏距離

歐式等距離線馬氏等距離線Mahalanobis

距離例AB4.Lance和Williams

距離對標(biāo)準(zhǔn)化變量:樣本之間的距離-蘭氏距離

蘭氏距離與各變量的單位無關(guān)。對大的異常值不敏感,故適用于高度偏斜的數(shù)據(jù)。明氏距離和蘭氏距離都沒有考慮變量之間的相關(guān)性,因此,這兩種距離更適合于變量之間互不相關(guān)的情形。1.夾角余弦(Cosine)(二)相似系數(shù):變量間的親疏關(guān)系受相似形的啟發(fā)而來,AB和CD盡管長度不一,但形狀相似ABDC2.Pearson相關(guān)系數(shù)(二)相似系數(shù)相似系數(shù):表示樣本之間的相似度

相關(guān)系數(shù):夾角余弦三、系統(tǒng)聚類法聚合法分解法通常分為兩步:先做出類別距離譜系圖,再根據(jù)譜系圖的特點(diǎn)確定分類數(shù)并分類系統(tǒng)聚類法

在開始時(shí)不選重心,而是令各樣本自成一類;

計(jì)算各樣本間的距離或相似度,使距離最近的,或相似度最大的兩個(gè)樣本并成一類;

計(jì)算合并后的各類間的距離或相似度,使距離最小的或相似度最大的兩類并成一類。

重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣本合并為一類,或直到滿意的分類為止。判據(jù):距離最小或相似度最大。Agglomerative系統(tǒng)聚類法基本步驟步驟1:將n個(gè)樣品各作為一類,共n類:C1、C2、…、Cn。計(jì)算各類之間的距離,構(gòu)成距離矩陣:dcicj=dij步驟2:找到距離最近的兩類合并為一新類步驟3:計(jì)算新類與當(dāng)前各類的距離。重復(fù)步驟2、3,直至合并成一類為止,形成譜系圖根據(jù)譜系圖確定如何分類單樣本類,類與類之間的距離為樣品距離類間距離類與類間距離

類與類之間的距離1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.類平均法(averagelinkage)5.可變類平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward離差平方和法(Ward'sminimum-variancemethod)AgglomerativeMethods:各種不同方法的基本步驟相同,只是類與類之間距離的計(jì)算方法不同。類間距離的計(jì)算

最大距離法:又稱完全連接法,是以兩類間最遠(yuǎn)的樣本間的距離為類間距離;最小距離法:又稱單連接法,是以兩類間最近的樣本間距離為類間距離;中間距離法:以兩類間最大和最小距離之中值為類間距離;重心法:類與類之間的距離定義為它們的重心(均值)之間的歐氏距離。類平均法:以兩類樣本間距離的平均值為類間距離;離差平方和法:類中各樣本到類重心的歐氏距離平方之和稱為離差平方和。反映了各類內(nèi)樣本的分散程度。兩個(gè)較近的類合并后所增加的離差平方和最小。(與樣本數(shù)有較大的關(guān)系)系統(tǒng)聚類參數(shù)表(一)最短距離法類與類之間的距離是兩類間兩兩樣品間的最短距離最短距離(NearestNeighbor)x21?x12?x22?x11?6個(gè)民族的粗死亡率與期望壽命哈薩克與藏族的距離最短,最先合并形成新類CL7新類CL7和其余四類的距離第二次合并新類和各類的距離第三次合并第四次合并最后合并成一類譜系圖不顯示實(shí)際距離,顯示0-25的比例距離樹狀圖冰柱圖12345融合在一起的為一類(二)最長距離法類與類之間的距離是兩類間兩兩樣品間的最長距離最長距離(FurthestNeighbor

)???x11?x21????最長距離法第1次合并仍取最短歐式距離新類和各類的距離:取最大值第2次合并新類和各類的距離:取最大值第3次合并第4次合并最后合并(三)中間距離法

(medianmethod)

最長距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離KLJM中間距離法最長距離最短距離中間距離(四)類平均法

(averagelinkagebetweengroup)SPSS作為默認(rèn)方法,稱為between-groupslinkageKLJM

組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11???????組間平均連接(Between-group

Linkage)(五)重心法(centroidmethod)

類與類間的距離用各自重心間的歐式距離表示

KLJM重心法(Centroidclustering):均值點(diǎn)的距離??(六)Ward最小方差法

(Ward’minimumvariancemethod)

源于方差分析。類內(nèi)離差平方和:類中各樣品到類重心(均值)的平方歐式距離之和?;舅悸罚簝深惡喜⒑螅x差平方和就會(huì)增加。每次選擇使離差平方和增加(SSM-SSK-SSL)最小的兩類進(jìn)行合并,直至所有的樣品歸為一類。離差平方和法連接2,41,56,5(七)各種系統(tǒng)聚類方法的統(tǒng)一

以上聚類方法的計(jì)算步驟完全相同,僅類與類之間的定義不同。Lance和Williams于1967年將其統(tǒng)一為:八種系統(tǒng)聚類法公式的參數(shù)

注意:幾種聚類方法獲得的結(jié)果不一定相同最長距離法最短距離法分類數(shù)的確定及類別的解釋系統(tǒng)聚類法給我們提供了一個(gè)類別距離譜系,最終樣本如何分類、分成幾類需要我們自己根據(jù)研究的目的確定。3類2類2類系統(tǒng)聚類的SPSS實(shí)現(xiàn)

指定參與聚類的變量名和樣品號

存放標(biāo)識變量選擇聚類類型Statistics

聚類狀態(tài)表相似矩陣類成員:不顯示類成員表顯示指定范圍中每一步類成員列出指定類數(shù)的類成員Plot對話框

樹狀結(jié)構(gòu)圖冰柱圖冰柱的方向顯示聚類的每一步指定顯示的聚類范圍不生成冰柱圖Method對話框

距離測度方法:不同尺度變量選擇不同方法定距尺度變量定序尺度變量01變量確定標(biāo)準(zhǔn)化的方法:只有前兩種尺度的數(shù)據(jù)才能標(biāo)準(zhǔn)化測度轉(zhuǎn)換方法距離值取絕對值相似度變?yōu)椴幌嗨贫染嚯x標(biāo)準(zhǔn)化聚類方法選項(xiàng)聚類方法選項(xiàng)Between-grouplinkage:類平均法,使兩兩項(xiàng)對之間的平均距離最小Within-grouplinkage:類內(nèi)平均連鎖,合并后的類中所有項(xiàng)之間的平均距離最小。兩類間的距離即是合并后的類中所有可能的觀測量對之間的距離平方。NearestneighborFartherstneighborCentroidclusteringMedianclusteringWard’smethod距離測度方法選項(xiàng)Interval:EuclideandistanceSquaredeuclideandistanceCosine:變量矢量的余弦ChebychevBlock:Manhattan距離,兩觀測單位間距離為其值差的絕對值和,用于Q型聚類MinkowskiCustomized:距離是一個(gè)絕對冪的度量,即變量絕對值的第p次冪值和的第r次根數(shù)值標(biāo)準(zhǔn)化的方法選項(xiàng)None:不標(biāo)準(zhǔn)化Zscores:標(biāo)準(zhǔn)化Range-1to1:標(biāo)準(zhǔn)化到-1到+1范圍Maximummagnitude:標(biāo)準(zhǔn)化到最大值1Range0to1:標(biāo)準(zhǔn)化到0-1范圍Meanof1:標(biāo)準(zhǔn)化到一個(gè)均值范圍Standarddeviationof1:標(biāo)準(zhǔn)化到一個(gè)標(biāo)準(zhǔn)差Save對話框?qū)⒎诸惤Y(jié)果存入數(shù)據(jù)文件中生成一個(gè)新變量,表明每個(gè)個(gè)體所屬類指定范圍內(nèi)的結(jié)果,生成若干個(gè)新變量四、快速聚類法(k-means)

也叫動(dòng)態(tài)聚類、逐步聚類、迭代聚類與系統(tǒng)聚類的主要區(qū)別非層次性遞推過程從初始分類開始不斷優(yōu)化的過程當(dāng)樣本量很大時(shí),用系統(tǒng)聚類法的計(jì)算工作量極大,作出的樹狀圖也十分復(fù)雜,不便于分析,用快速聚類較好。系統(tǒng)聚類分析實(shí)例1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對稱表。所有的樣本點(diǎn)各自為一類。2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。(一)方法開始各樣本自成一類?!?…0┇┇┇0┇…0可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來。3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。4、在D(1)表再選擇最小的非零數(shù),其對應(yīng)的兩類又構(gòu)成新類,再利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。(二)常用的種類1、最短距離法設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)變量,它們是1,2,3.5,7,9。用最短距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離矩陣:

0

10

2.51.50

653.50

875.520

然后和被聚為新類,得:

0

1.50

53.50

75.520

最短距離法的遞推公式

假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最短距離法為:03.505.52003.50各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)2、最長距離法

0

10

2.51.50

653.50

875.520用最長距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離矩陣:

然后和被聚為新類,得:

0

2.50

63.50

85.520

最長距離法的遞推公式假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最長距離法為:3、重心法用重心法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離平方矩陣:

0

10

6.252.250

362512.250

644930.2540分別為Gp和Gq的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。重心法,也稱為樣品的均值法。設(shè)Gp和Gq為兩個(gè)類設(shè)某一步Gp和Gq的重心分別為和,類內(nèi)的樣品數(shù)分別為和,如果要把Gp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論