ch08-聚類分析與判別分析_第1頁(yè)
ch08-聚類分析與判別分析_第2頁(yè)
ch08-聚類分析與判別分析_第3頁(yè)
ch08-聚類分析與判別分析_第4頁(yè)
ch08-聚類分析與判別分析_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第8章聚類分析與判別分析武漢大學(xué)計(jì)算機(jī)學(xué)院第8章聚類分析與判別分析8.1聚類分析8.2判別分析8.1聚類分析8.1.1聚類分析的一般概念8.1.2系統(tǒng)聚類法的基本思想和步驟8.1.3用CLUSTER過程和TREE過程進(jìn)行系統(tǒng)聚類8.1.4用VARCLUS過程進(jìn)行變量聚類8.1.1聚類分析的一般概念設(shè)有n個(gè)樣品(多元觀測(cè)值),每個(gè)樣品測(cè)得m項(xiàng)指標(biāo)(變量),得到觀測(cè)數(shù)據(jù)xij(i=1,…,n;j=1,…,m),如表所示。X1X2…XmX(1)x11x12…x1mX(2)x21x22…x2m……………X(n)xn1xn2…xnm表中數(shù)據(jù)又稱為觀測(cè)數(shù)據(jù)陣或簡(jiǎn)稱為數(shù)據(jù)陣,其數(shù)學(xué)表示為:其中列向量Xj=(x1j,x2j,…,xnj)',表示第j項(xiàng)指標(biāo)(j=1,2,…,m),行向量X(i)=(xi1,xi2,…,xin)表示第i個(gè)樣品。1.兩種聚類分析根據(jù)分類對(duì)象的不同,聚類分析分為兩種:

(1)樣品聚類:樣品聚類是對(duì)樣品(觀測(cè))進(jìn)行的分類處理,又稱為Q型分類,相當(dāng)于對(duì)觀測(cè)數(shù)據(jù)陣按行分類。

(2)變量聚類:變量聚類是對(duì)變量(指標(biāo))進(jìn)行的分類處理,又稱為R型分類,相當(dāng)于對(duì)觀測(cè)數(shù)據(jù)陣按列分類。兩種聚類在形式上是對(duì)稱的,處理方法也是相似的。2.聚類分析的方法聚類方法大致可歸納如下:(1)系統(tǒng)聚類法(譜系聚類)

先將l個(gè)元素(樣品或變量)看成l類,然后將性質(zhì)最接近(或相似程度最大)的2類合并為一個(gè)新類,得到l–1類,再?gòu)闹姓页鲎罱咏?類加以合并變成了l–2類,如此下去,最后所有的元素全聚在一類之中。(2)分解法(最優(yōu)分割法)

其程序與系統(tǒng)聚類相反。首先所有的元素均在一類,然后按照某種最優(yōu)準(zhǔn)則將它分成2類、3類,如此下去,一直分裂到所需的k類為止。(3)動(dòng)態(tài)聚類法(逐步聚類法)開始將l個(gè)元素粗糙地分成若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整為止。(4)有序樣品的聚類

n個(gè)樣品按某種因素(時(shí)間或年齡或地層深度等)排成次序,要求必須是次序相鄰的樣品才能聚在一類。

其他還有:有重疊聚類、模糊聚類、圖論聚類等方法。3.聚類統(tǒng)計(jì)量

聚類分析實(shí)質(zhì)上是尋找一種能客觀反映元素之間親疏關(guān)系的統(tǒng)計(jì)量,然后根據(jù)這種統(tǒng)計(jì)量把元素分成若干類。常用的聚類統(tǒng)計(jì)量有距離系數(shù)和相似系數(shù)兩類。距離系數(shù)一般用于對(duì)樣品分類,而相似系數(shù)一般用于對(duì)變量聚類。距離的定義很多,如馬氏距離、明考斯基距離、蘭氏距離、切比雪夫距離以及常見的歐氏距離:相似系數(shù)有相關(guān)系數(shù)、夾角余弦、列聯(lián)系數(shù)等。如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類;這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類?!敖煺叱啵吆凇?,人們往往根據(jù)事物間的遠(yuǎn)近距離來(lái)判定類別。兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有絕對(duì)距離等。類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來(lái)作為類間距離。定義不同的距離結(jié)果會(huì)不同,但一般不會(huì)差太多。8.1.2系統(tǒng)聚類法的基本思想和步驟下面以樣品聚類為例介紹系統(tǒng)聚類法。

系統(tǒng)聚類法的基本思想

設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)得m項(xiàng)指標(biāo)(見表8-1)。系統(tǒng)聚類方法的基本思想是:首先定義樣品間的距離(或相似系數(shù))和類與類之間的距離。一開始將n個(gè)樣品各自自成一類,這時(shí)類間的距離與樣品間的距離是等價(jià)的;然后將距離最近的兩類合并,并計(jì)算新類與其他類的類間距離,再按最小距離準(zhǔn)則并類。這樣每次減少一類,直到所有的樣品都并成一類為止。這個(gè)并類過程可以用譜系聚類圖形象地表達(dá)出來(lái)。根據(jù)類間距離計(jì)算方法的不同,有11種不同的聚類方法:(1)類平均法類平均法(AverageLinkage)用兩類樣品兩兩觀測(cè)間距離的平均作為類間距離。類平均法是一種應(yīng)用較廣泛,聚類效果較好的方法(2)重心法重心法(CentroidMethod)用兩個(gè)類重心(均值)之間的(平方)歐氏距離定義類間距離(3)最長(zhǎng)距離法最長(zhǎng)距離法(CompleteMethod)用兩類觀測(cè)間最遠(yuǎn)一對(duì)觀測(cè)的距離定義類間距離(4)最短距離法最短距離法(SingleLinkage)用兩類觀測(cè)間最近一對(duì)觀測(cè)的距離定義類間距離(5)Ward最小方差法(離差平方和法)

Ward最小方差法(Ward'sMininum-VarianceMethod)也稱Ward離差平方和法。Ward方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。還有最大似然法(EML)法可變類平均法(Flexible-BetaMethod)McQuitty相似分析法(McQuitty‘sSimilarityAnalysis)中間距離法(MedianMethod)兩階段密度估計(jì)法(Two–StageDensityLinkage)等。類平均法和Ward最小方差法使用最廣泛。最短距離分類的基本原理例:為考察公司的經(jīng)營(yíng)業(yè)績(jī)并對(duì)其分類,可依據(jù)它們的年盈利額進(jìn)行歸類.公司年盈利(十萬(wàn)元)甲1乙3丙9丁14單一指標(biāo)的系統(tǒng)聚類過程譜系聚類圖,簡(jiǎn)稱譜系圖系統(tǒng)聚類,也稱譜系聚類或?qū)哟尉垲愖疃叹嚯x分類的基本原理例:為考察投資者的盈利能力,從資金的投入和回報(bào)兩方面進(jìn)行考察投資者資金投入(萬(wàn)元)回報(bào)(萬(wàn)元)A3560B1540C305D808E9035多指標(biāo)的系統(tǒng)聚類過程采用歐式距離計(jì)算距離按聚類過程依次畫出譜系聚類圖表格表示初始狀態(tài)系統(tǒng)聚類流程圖4.系統(tǒng)聚類類數(shù)的確定

(1)由適當(dāng)?shù)拈y值確定選定某種聚類方法,按系統(tǒng)聚類的方法并類后,得到一張譜系聚類圖,聚類圖(又稱譜系圖)只反映樣品間(或變量間)的親疏關(guān)系,它本身并沒有給出分類,需要給定一個(gè)臨界相似尺度,用以分割譜系圖而得到樣品(或變量)的分類,如給定臨界值(閥值)為d,那么,當(dāng)樣品間或已并類間距離小于d時(shí),認(rèn)為這些樣品和類的關(guān)系密切,應(yīng)該歸屬一類。(2)根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)在SAS的CLUSTER過程中,提供一些統(tǒng)計(jì)量可以近似檢驗(yàn)類個(gè)數(shù)如何選擇更合適,用統(tǒng)計(jì)量決定類數(shù)的方法來(lái)自統(tǒng)計(jì)的方差分析思想,下面作一些介紹。

1)R2統(tǒng)計(jì)量其中PG為分類數(shù)為G個(gè)類時(shí)的總類內(nèi)離差平方和,T為所有樣品或變量的總離差平方和。R2越大,說(shuō)明分為G個(gè)類時(shí)每個(gè)類內(nèi)的離差平方和都比較小,也就是分為G個(gè)類是合適的。但是,顯然分類越多,每個(gè)類越小,R2越大,所以我們只能取G使得R2足夠大,但G本身比較小,而且R2不再大幅度增加。

2)半偏R2統(tǒng)計(jì)量在把類CK和類CL合并為下一水平的類CM時(shí),定義半偏相關(guān)其中BKL=WM–(WK+WL)為合并類引起的類內(nèi)離差平方和的增量,Wt為類Ct的類內(nèi)離差平方和。半偏R2用于評(píng)價(jià)一次合并的效果,其值是上一步R2與該步R2的差值。其值越大,說(shuō)明上一次合并的效果越好。

3)偽F統(tǒng)計(jì)量偽偽F統(tǒng)計(jì)量評(píng)價(jià)分為G個(gè)類的效果。偽F統(tǒng)計(jì)量越大,表示分為G個(gè)類越合理。通常取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。

4)偽t2統(tǒng)計(jì)量偽用此統(tǒng)計(jì)量評(píng)價(jià)合并類CK和類CL的效果,該值大說(shuō)明合并的兩個(gè)類CK和CL是很分開的,不應(yīng)合并這兩個(gè)類,而應(yīng)該取合并前的水平。當(dāng)然,采用不同的分類方法會(huì)得到不同的分類結(jié)果,有時(shí)即使是同一種聚類方法,因距離的定義方法不同也會(huì)得到不同的分類結(jié)果。對(duì)任何觀測(cè)數(shù)據(jù)都沒有唯一“正確的”分類方法。實(shí)際應(yīng)用中,常采用不同的分類方法對(duì)數(shù)據(jù)進(jìn)行分類,可以提出多種分類意見,由實(shí)際工作者決定所需要的分類數(shù)和分類情況。SAS的聚類分析過程CLUSTER

譜系聚類(Q型聚類分析)VARCLUS

變量聚類(R型聚類分析)FASTCLUSK均值快速聚類,適用于大樣本(Q型聚類分析)MODECLUS

非參數(shù)聚類(Q型聚類分析)TREE

繪制樹結(jié)構(gòu)圖,通過CLUSTER和VARCLUS過程計(jì)算得到的聚類結(jié)果,繪制出系統(tǒng)聚類的譜系圖。8.1.3用CLUSTER過程和TREE過程進(jìn)行系統(tǒng)聚類1.CLUSTER過程系統(tǒng)聚類CLUSTER過程的一般格式為:PROCCLUSTERmethod=…<選項(xiàng)列表>;

VAR<聚類用變量>;ID<變量名>;/*標(biāo)記樣本RUN;其中:

1)PROCCLUSTER語(yǔ)句為調(diào)用CLUSTERS過程的開始,其常用選項(xiàng)及功能見表8-2。其中method=..是必選項(xiàng)!

2)VAR語(yǔ)句指定用來(lái)聚類的數(shù)值型變量。如果缺省,則使用沒有列在其他語(yǔ)句中的所有數(shù)值型變量。

3)COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE=的數(shù)據(jù)集中,以備后用。

4)ID語(yǔ)句中指定的變量用于區(qū)分聚類過程中的輸出及OUTTREE數(shù)據(jù)集中的觀測(cè)。2.TREE過程

TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE=數(shù)據(jù)集作為輸入,畫出聚類譜系圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。一般格式如下:PROCTREE<選項(xiàng)列表>;ID<變量>;RUN;其中:

1)PROCTREE語(yǔ)句為調(diào)用TREE過程的開始,其常用選項(xiàng)及功能見表8-3。表8-3PROCTREE語(yǔ)句的常用選項(xiàng)

2)COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集。

3)ID語(yǔ)句用于指定在輸出樹狀圖中的識(shí)別對(duì)象,ID變量可以是字符或數(shù)值變量。如果省略,TREE過程將使用變量_NAME_。選項(xiàng)名稱功能說(shuō)明DATA=數(shù)據(jù)集指定從CLUSTER過程生成的OUTTREE數(shù)據(jù)集作為輸入。OUT=數(shù)據(jù)集指定包含最后分類結(jié)果(每一個(gè)觀測(cè)屬于哪一類,用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。NCLUSTERS指定最后把樣本觀測(cè)分為多少個(gè)類。HORIZONTAL橫向畫聚類譜系圖。3.應(yīng)用實(shí)例【例8-1】表8-4是全國(guó)沿海10省市農(nóng)民2004年支出情況的匯總資料,表中涉及生活消費(fèi)支出情況的八個(gè)指標(biāo)。假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.nm10。地區(qū)食品衣著居住家庭設(shè)備及服務(wù)醫(yī)療保健交通和通訊文教、娛樂及服務(wù)其他商品及服務(wù)天津1017.72181.21508.06108.51177.10230.41376.8742.23河北780.09127.06340.8880.42115.97176.60182.5631.33遼寧962.00154.97290.0872.58145.19186.77217.9543.42上海2191.15279.731446.15344.41424.55720.37805.55116.94江蘇1317.88163.53467.62141.43163.16293.07373.3972.47浙江1838.57258.58798.88242.09326.12496.86597.96100.05福建1408.54159.60430.14154.43136.40306.06313.09107.32山東1000.13139.18365.97110.12155.85221.93298.2397.85廣東1581.68116.83494.89131.17153.17350.27314.3498.44廣西1047.5864.42311.4864.8783.64140.13178.8337.65試?yán)脜R總資料對(duì)10個(gè)地區(qū)進(jìn)行分類(1)使用CLUSTER過程為了進(jìn)行系統(tǒng)聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計(jì)量,使用如下代碼:procclusterdata=mylib.nm10standardmethod=ward

outtree=otreepseudo;copygroup;/*group是城市名的變量名稱*/run;把此變量復(fù)制到數(shù)據(jù)集otree中,以備制作譜系聚類圖結(jié)果的最后部分為聚類分析的完整過程(ClusterHistory),如圖,內(nèi)容按列劃分從左到右依次為:“NCL”為類別數(shù)量,表示新類別形成后類別的總數(shù);“--ClustersJoined---”為合并的類別,指明這一步合并了哪兩個(gè)類,有兩列。其中OBxxx表示某一個(gè)原始樣品,而CLxxx表示在某一個(gè)聚類水平上產(chǎn)生的類。“FREQ”表示這次合并得到的類有多少個(gè)樣品。“SPRSQ”是半偏R2,“RSQ”是R2,“PSF”為偽F統(tǒng)計(jì)量,“PST2”為偽t2統(tǒng)計(jì)量,“Tie”指示距離最小的候選類對(duì)是否有多對(duì),本例全無(wú)。(2)確定分類個(gè)數(shù)

1)R2統(tǒng)計(jì)量(列標(biāo)題為RSQ)用于評(píng)價(jià)每次合并成NCL個(gè)類時(shí)的聚類效果。R2越大說(shuō)明NCL個(gè)類越分開,故聚類的效果好。R2的值總是在0和1之間,而且R2的值總是隨著分類個(gè)數(shù)NCL的減少而變小。通過查看R2值的變化,可以確定n個(gè)樣品分為幾類最為合適。本例中,分為3個(gè)類之前(NCL>3)的并類過程中R2的減少是逐漸的,改變不大;當(dāng)分為3類時(shí)的R2=0.838,而下一次合并后分為2類時(shí)R2下降較多(R2=0.721)。這時(shí)通過分析R2統(tǒng)計(jì)量可得出分為3個(gè)類是較合適的。查看R2變化的大小也可以由合并類時(shí)的半偏R2(列標(biāo)題為SPRSQ)得到。半偏R2的值是上一步R2與該步R2的差值,故某步的半偏R2值越大,說(shuō)明上一步合并的效果好。本例中半偏R2最大和次大分別為NCL=1和2,說(shuō)明根據(jù)半偏R2準(zhǔn)則分為兩個(gè)類或三個(gè)類是較合適的。

2)偽F統(tǒng)計(jì)量(列標(biāo)題為PSF)用于評(píng)價(jià)分為NCL個(gè)類的聚類效果。偽F值越大表示這些觀測(cè)樣品可顯著地分為NCL個(gè)類。本例中偽F最大和次大依次為NCL=2和5(局部),說(shuō)明根據(jù)偽F準(zhǔn)則分為兩個(gè)類、五個(gè)類是較合適的。

3)偽t2統(tǒng)計(jì)量用以評(píng)價(jià)此步合并類的效果。由該統(tǒng)計(jì)量的定義知偽t2值大表明上一次合并的兩個(gè)類是很分開的,也就是上一次聚類的效果是好的。本例中偽t2最大和次大分別為NCL=1和2,說(shuō)明根據(jù)偽t2準(zhǔn)則分為兩個(gè)類或三個(gè)類是較合適的。由此看出:R2準(zhǔn)則支持分為兩類和三類;偽F統(tǒng)計(jì)量支持分為兩類和五類;偽t2統(tǒng)計(jì)量支持分為兩類和三類。綜合分析認(rèn)為,用Ward法10個(gè)地區(qū)分為兩類或三類較合適。

使用如下代碼畫出譜系圖proctreedata=otreehorizontal;IDGroup;run;

兩類的結(jié)果為:G1={上海,浙江},G2={天津,江蘇,福建,廣東,山東,河北,遼寧,廣西}。三類的結(jié)果為:G1={上海,浙江},G2={天津,江蘇,福建,廣東,山東},G3={河北,遼寧,廣西}。半偏R的平方相仿地,可以使用類平均法、中間距離法、可變類平均法等方法。不同的聚類方法得到的聚類結(jié)果或多或少會(huì)有些差別,在實(shí)際應(yīng)用中,應(yīng)綜合各種計(jì)算結(jié)果,提出合適的分類個(gè)數(shù)。Try:作聚類分析投資者comp資金投入(萬(wàn)元)pay回報(bào)(萬(wàn)元)incomeA3560B1540C305D808E90358.1.4VARCLUS變量聚類VARCLUS聚類對(duì)數(shù)值型變量進(jìn)行分離或分層聚類PROCVARCLUSDATA=數(shù)據(jù)集聚類方法MAXC=n;VAR變量;RUN;繪制樹狀圖PROCTREEDATA=..ID_NAME_;RUN;例城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)描述:X1:人均糧食支出X2:人均副食支出X3:煙酒茶支出X4:人均其他副食支出X5:人均衣著商品支出X6:人均日用品支出X7:人均燃料支出X8:人均非商品支出為研究城鎮(zhèn)居民消費(fèi)結(jié)構(gòu),需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,即指標(biāo)聚類.dataex18_1;inputx1-x8;cards;7.7848.44820.5122.1215.731.1516.6110.8544.687.3214.5117.1312.081.2611.579.0928.127.49.6217.2611.122.4912.658.3523.537.518.6217.42101.0411.219.2523.756.619.1917.7710.481.7210.517.939.778.4912.9419.2711.052.0413.298.1930.54.729.7816.287.62.5210.327.7329.25.429.4319.298.492.52108.2864.34822.2220.0615.520.7222.897.2145.797.6610.3616.5612.862.2511.697.6850.3711.3513.319.2514.592.7514.878.1437.759.618.4913.159.761.2811.2810.652.417.79.9812.5311.72.3114.696.2535.024.726.2810.037.151.9310.398.8233.77.5910.9818.8214.731.7810.19.4227.938.28.1416.179.421.559.768.6736.057.317.7516.6711.682.3812.886.7738.696.018.8214.7911.441.7413.2912.4776.395.5211.2414.52225.4625.57.2752.653.849.1613.0315.261.9814.5713.4555.855.57.459.559.522.2116.37.1840.917.328.9417.612.751.141

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論