多元統(tǒng)計分析講義(第二章)_第1頁
多元統(tǒng)計分析講義(第二章)_第2頁
多元統(tǒng)計分析講義(第二章)_第3頁
多元統(tǒng)計分析講義(第二章)_第4頁
多元統(tǒng)計分析講義(第二章)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上精選優(yōu)質文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質文檔-傾情為你奉上專心-專注-專業(yè)注意電子文檔使用范圍 MACROBUTTON MTEditEquationSection2 Equation Chapter 1 Section 1 SEQ MTEqn r h * MERGEFORMAT SEQ MTSec r 1 h * MERGEFORMAT SEQ MTChap r 1 h * MERGEFORMAT 注意電子文檔使用范圍多 元 統(tǒng) 計 分 析Multivariate Statistical Analysis主講:統(tǒng)計學院 許啟發(fā)()統(tǒng)計學院應用

2、統(tǒng)計學教研室School2004年9月第二章 聚類分析【教學目的】讓學生了解聚類分析的背景、基本思想;掌握聚類分析的基本原理與方法;掌握聚類分析的操作步驟和基本過程;學會應用聚類分析解決實際問題?!窘虒W重點】分類的統(tǒng)計量;各種聚類分析方法的闡述。1 概述什么是聚類分析1研究背景在實際問題中,經常要遇到分類的問題。例如,在考古學中,要將某些古生物化石進行科學的分類;在生物學中,要根據各生物體的綜合特征進行分類;在經濟學中,為了研究不同地區(qū)城鎮(zhèn)居民的收入及消費情況,往往需要劃分為不同的類型去研究;在產品質量管理中,也要根據各產品的某些重要指標而將其分為一等品,二等品等等??傊?,科學的分類方法無論在

3、自然科學,還是在社會科學中,都有著極其廣泛的應用。俗語說,物以類聚、人以群分。但什么是分類的根據呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。隨著人類社會的發(fā)展與科學技術的進步,對分類學的要求也越來越高。有時,只憑經驗和專業(yè)知識還不能進行科學有效的分類,于是數學這一有力的工具被逐漸引入到分類學中,形成了一門新興的學科數值分類學。后來,隨著多元分析方法的引進,從數值分析學中逐漸分離出了聚類分析這個分支。對于一個數據,人們既可

4、以按照觀測值對變量(或指標)進行分類(相當于對數據中的列分類),也可以按照變量對觀測值(事件,樣品)來分類(相當于對數據中的行分類)。比如利用學生成績數據就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類。當然,并不一定事先假定有多少類,完全可以按照數據本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(cluster analysis)。有人稱按照觀測值對變量的分類為R型聚類,而稱按照變量對觀測值的分類稱為Q型聚類。這兩種聚類在數學上是對稱的,沒有什么不同。聚類分析就是一種分類方法,它將一批樣品、變量(或指標),按照它們在性質上相似、疏遠程度進行科學的分類。而度量相似或疏遠程度常有

5、兩種指標:距離和相似系數。2基本思想哲學理念:物以類聚、人以群分聚類分析的基本思想是,從一批樣品的多個指標變量中,定義能度量樣品間或變量間相似程度(或親疏關系)的統(tǒng)計量,在此基礎上求出各樣品(或變量)之間的相似程度度量值,按相似程度的大小,把樣品(或變量)逐一分類,關系密切的類聚集到一個小的分類單位,關系疏遠的類聚集到一個大的分類單位,直到所有的樣品或變量都聚集完畢,把不同的類型一一劃分出來,形成一個親疏關系譜系圖,用以更直觀地顯示分類對象(樣品或變量)的差異和聯系。一開始將要歸類的個變量(或個體)各自看成一類,然后按事先規(guī)定好的方法計算各類之間的歸類指標(如某種距離或相似系數),根據指標值大

6、小衡量兩兩之間關系的密切程度,將關系最密切的兩類并成一類,其余不變,即得類;又按事先規(guī)定的方法重新計算各類之間的歸類指標(仍為某種距離或相似系數),又將關系密切的兩類并成一類,其余不變,即得類;如此進行下去,每次歸類都減少一類,直到最后,個變量(或個體)都歸成一類為止。這一歸類過程可以用一張聚類圖(或稱譜系圖)形象地表示出來,由譜系圖來進行分類。可以看到,這種系統(tǒng)歸類過程,顯然與計算類與類之間的歸類指標是什么有關系,同時也與歸類的方法有關系。聚類分析方法值得一提的是聚類分析和第三章的判別分析都是研究分類問題,但二者有本質的區(qū)別。聚類分析一般上尋求客觀分類的方法,事先對總體到底有幾種類型無所知曉

7、,而判別分析則是在總體類型劃分已知,在各總體分布或來自各總體訓練樣本的基礎上,對當前的新樣品用統(tǒng)計的方法判定它們屬于哪個總體。聚類分析的歷史還很短,由于在其發(fā)展過程中首先是著重于實用,因此相對而言理論上還不夠完善。無論聚類統(tǒng)計量還是聚類的方法,都還未最終定型。目前,聚類統(tǒng)計量種類繁多,聚類方法也五花八門,但由于聚類分析方法能廣泛地應用于解決實際問題,它和回歸分析,判別分析一起被稱為多元分析的三大實用方法。本章將重點介紹一些常見的分類統(tǒng)計量和目前使用較為廣泛的譜系聚類方法。關于其它聚類方法,如模糊聚類法,動態(tài)聚類法,有序樣品聚類法,分解法,加入法等等,可以參看其它的文獻。2 聚類統(tǒng)計量聚類分析所

8、研究的內容包括兩個方面,一是對樣品進行分類,設n個樣品,每個樣品均用p個指標的觀測向量來表征,要根據間某種相似性度量,將這n個樣品進行分類。如某班有n個學生,根據每個學生的期末各科考試成績將該班學生分類(如分為優(yōu),良,中,差四類等)。另一方面是對變量進行分類,即對所考察的p個指標,根據n個觀測值及某些相似性原則將這p個變量進行分類。如在服裝設計中,往往要測量很多的指標(變量),如身高,上體長,臂長,肩寬,胸圍,腰圍等,有時需要對這些指標分類,以顯示人體各部分的不同特點,以便于服裝設計。對樣品進行分類的方法稱為Q型聚類法,所用的統(tǒng)計量用“距離”這一術語描述;對變量進行分類的方法,稱為R型聚類法,

9、所用的統(tǒng)計量用“相似系數”描述。下面分別介紹幾種常用的距離和相似系數 當變量為定性變量(如性別,職業(yè),等級)時,也可定義樣品間的 當變量為定性變量(如性別,職業(yè),等級)時,也可定義樣品間的“距離”和變量間的“相似系數”,在此不作深入討論。樣品間的相似性度量距離我們將不區(qū)分樣品與它的指標觀測值。設每個樣品有p個指標,它們的觀測值可表示為這時,每個樣品可看成p維空間中的一個點,n個樣品就組成p組空間中的n個點,我們很自然地用各點之間的距離來衡量各樣品之間的靠近程度。設為樣品與之間的距離,則一般要求它滿足下列三個條件 在聚類分析中,有時所用的距離并不滿足第三條,我們在廣義的角度上仍稱它為距離。: 在

10、聚類分析中,有時所用的距離并不滿足第三條,我們在廣義的角度上仍稱它為距離。下面介紹幾種聚類分析中的常用距離。Minkowski距離(1)當時,為絕對距離;(2)當時,為歐氏距離;(3)當時,為Chebishov距離 可以利用不等式的縮放技術進行證明。 可以利用不等式的縮放技術進行證明。NOTE:明氏距離存在不足它與各指標的量綱有關;它沒有考慮指標之間的相關性;要求一個向量的個分量是不相關的且具有相同的方差若考慮個指標的相關性和異方差等問題,我們可以采用方差加權距離或Mahalanobis距離。方差加權距離其中,為第個指標的方差。Mahalanobis距離 由印度統(tǒng)計學家馬哈拉諾比斯于1936年

11、引入。 由印度統(tǒng)計學家馬哈拉諾比斯于1936年引入。其中,為個指標的協(xié)方差矩陣。實際應用中,若與未知,可用觀測數據對其估計,一般用和樣本協(xié)方差陣作為其估計。蘭氏(Lance-Williams)距離NOTE:此距離僅適用于一切的情況,該距離有助于克服各指標之間量綱的影響,但沒有考慮指標之間的相關性。用聚類分析解決實際問題時,選用何種距離是十分重要的,這通常要結合有關專業(yè)的實際背景而定。距離的定義有很大的靈活性,有時可根據實際問題定義新的距離。變量間的“關聯性”度量相似系數當對個指標(或變量)進行聚類時,用相似系數衡量變量間的關聯程度。定義:一般地,稱為變量和之間的相關系數,如果對一切的滿足:;。

12、越接近于1,說明變量和之間的關系越密切。設表示對變量的個觀測值,常用的相似系數有:1夾角余弦(向量內積)ABABCDNOTE:若將變量的個觀測值和變量的個觀測值看成維空間中的兩個向量,正好是這兩個向量夾角的余弦,這個統(tǒng)計量在圖像識別中非常有用;當時,說明完全相似;當時,說明完全不一樣。2相關系數(相似系數)從統(tǒng)計角度看,兩個隨機變量的相關系數是描述這兩個變量關聯性(線性關系)強弱的一個很有用的特征數字。因此,用任意兩個變量的n個觀測值對其相關系數的估計可作為兩個變量關聯性的一種度量。其定義為其中,。NOTE:其實就是的樣本相關矩陣中的各元素;就是零均值化后向量的夾角余弦;如果將原始數據標準化,

13、則且,這時有。3同號率其中,為指標和之間相應各分量取同號的個數;為指標和之間相應各分量取異號的個數。3 譜系聚類法(系統(tǒng)聚類)譜系聚類法是目前應用較為廣泛的一種聚類方法。有關該方法的研究內容相當豐富,而且許多統(tǒng)計軟件(如SPSS、STATISTICA、SAS)中都有專門的程序。譜系聚類法是根據古老的植物分類學的思想對研究對象進行分類的一種方法。我們知道,在植物分類學中,分類的單位:門、綱、目、科、屬、種,其中種是分類的基本單位。分類單位越小它所包含的植物種類就越少,植物間的共同特征就越多。利用這種分類思想,譜系聚類法首先視各樣品(或變量)自成一類,然后把最相似的樣品(或變量)聚為小類,再將已聚

14、合的小類按其相似性再聚合,隨著相似性的減弱,最后將一切子類都聚合到一個大類,從而得到一個按相似性大小聚結起來的一個譜系關系。在譜系聚類法的合并過程中要涉及到兩個類之間的距離(或相似系數)問題。類與類之間的距離有許多定義方式,不同的定義方式就產生了不同的譜系聚類法。本節(jié)中,我們首先引進八種類與類之間的距離,然后再詳細介紹譜系聚類法。類與類之間的距離我們先就樣品聚類的情形予以討論,并為簡單起見,以i,j等分別表示樣品,以簡記樣品i與j之間的距離,用和表示兩個類,它們所包含的樣品個數分別記為和,類與之間的距離用表示。下面給出八種最常用的類與類之間距離的定義。1最短距離法(1)定義類與之間的距離為兩類

15、中所有樣品之間距離最小者最短距離法就是以為準則進行聚類的方法。NOTE:類與類之間的最短距離有如下的遞推公式,設為由與合并所得,則與其它類的最短距離為(2)基本步驟STEP01:定義樣品之間的距離,計算樣品兩兩之間的距離,得到樣本距離矩陣。初始時,每個樣本點自成一類,易見。STEP02:選擇中非對角線最小元素 如果最小的非零元素不止一個時,對應這些最小元素的類可以同時合并。,不防設為,于是將與類合并,記為 如果最小的非零元素不止一個時,對應這些最小元素的類可以同時合并。STEP03:計算新類與其它類的距離將中的第行及列用上面公式并成一個新行新列,得到的矩陣記為。STEP04:對,重復上述對的S

16、TEP02和STEP03兩步得。如此下去,直到所有的元素并成一類為止 在實際問題中,一般事先給定分類的數目,或給定閾值T,要求類與類之間的距離小于T。 在實際問題中,一般事先給定分類的數目,或給定閾值T,要求類與類之間的距離小于T。(3)例子:P71例1。2最長距離法(1)定義類與之間的距離為兩類最遠樣本點之間的距離NOTE:類與類之間的最長距離有如下的遞推公式,設為由與合并所得,則與其它類的最長距離可由下式遞推得到有兩點不同:其一,類與類之間距離的定義方法不同;其二,計算新類與其它類距離所用的遞推公式不同。(2)基本步驟基本步驟完全等同于最短距離法。只是距離是按照最遠樣本點計算,但聚類仍然按

17、照距離最小的并為一類。GpGqGpGqGkGrDkqDkpDkr3中間距離法(1)定義類與類之間的距離既不采用兩類之間最近的距離,也不采用兩類之間最遠的距離,而是采用介于兩者之間的距離,故稱中間距離法。如果,則任一類與新類的距離公式為: 式中采用平方距離是為了上機的方便,也可以完全不采用平方距離。 式中采用平方距離是為了上機的方便,也可以完全不采用平方距離。NOTE:當時,為三角形的中線;如果用最短距離法,則;如果用最長距離法,則。(2)基本步驟基本步驟完全等同于最短距離法。(3)例子:P76續(xù)例1。4重心距離法(1)定義類與類之間的距離時,為了體現每類所包含的樣品個數,給出重心法。它將兩類之

18、間的距離定義兩類重心 每類的重心就是該類(組)樣本點的均值。易見,單個樣本點的重心是自身,兩個樣本點的重心就是兩點邊線中點。之間的距 每類的重心就是該類(組)樣本點的均值。易見,單個樣本點的重心是自身,兩個樣本點的重心就是兩點邊線中點。設與合并成新類,它們分別含有、和個樣本點,它們的重心分別為:、和。則。設某一類的重心為,則它與新類的距離公式為:NOTE:當時,該方法即為中間距離法;遞推公式的由來詳見P78。(2)基本步驟基本步驟完全等同于最短距離法。(3)例子:P79續(xù)例1。5類平均距離法(1)重心距離法雖然具有一定的代表性,但并未充分利用各樣品點所包括的距離信息,為此給出類平均距離法。類平

19、均法定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即設與合并成新類,則任一類與之間的距離為(2)基本步驟基本步驟完全等同于最短距離法。(3)例子:P80續(xù)例1。6可變類平均距離法由于類平均法公式中沒有反映與之間距離的影響,所以給出可變類平均法。(1)定義距離:其距離的定義仍為。只是遞推公式有所改變。設與合并成新類,則任一類與之間的距離為其中是可變的,且(2)基本步驟基本步驟完全等同于最短距離法。(3)例子:P81續(xù)例1。7可變距離法(1)由可變類平均距離法可以得到一個特例,即令,得到:其中是可變的,且。NOTE:可變類平均法與可變法的分類效果與的選擇關系極大,如果接近1,一般分類效

20、果不好,在實際應用中常取負值。(2)基本步驟基本步驟完全等同于最短距離法。(3)例子:P83續(xù)例1。8離差平方和法該方法是Ward提出,所以又稱Ward方法。(1)基本思想:來源于方差分析如果分類合理,同類樣本點的離差平方和應當較小,而類與類之間的離差平方和應該較大。(2)基本做法不妨設將個樣品分成了類:,用表示中的第個樣品(這里是維向量),表示中的樣品個數,是的重心,則中樣品的離差平方和為個類的類內離差平方和為首先將個樣品看成各自一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使得離差平方和增加最小的二類進行合并,直到所有的樣品歸為一類 這時所得到的結果可能只是一個局部極小值。

21、這時所得到的結果可能只是一個局部極小值。NOTE:粗看起來,Ward法與前七種方法有較大的差異,但如果將與的距離定義為其中,為的離差平方和。其含義為:把兩類合并增加的離差平方和,當成是兩類之間距離的平方。可以證明,其計算距離的遞推公式為(3)例子:P85續(xù)例1。結論:(1)各種聚類方法具有共同步驟首先定義類與類之間的距離;其次找到類與新類之間距離的遞推公式;(2)以上類與類之間的距離,不但適用于對樣品的聚類問題,而且也適合于對變量的聚類問題,這只要將用變量間的相似系數代替,相應的距離可稱之為類與類之間的相似系數。R型系統(tǒng)聚類與Q型系統(tǒng)聚類的原理和步驟相同,但有兩點區(qū)別:統(tǒng)計量的選取、各類中的元

22、素構成不同。它定義類與類之間的相似系數(最小、最大、平均),并且按照最大的相似系數進行并類 也可將相似系數轉化為距離,以維持距離越小,關系越密切的含義。如可取或來進行。 也可將相似系數轉化為距離,以維持距離越小,關系越密切的含義。如可取或來進行。系統(tǒng)聚類方法的統(tǒng)一上述八種系統(tǒng)聚類方法的步驟是完全一樣的,所不同的是類與類之間的距離有不同的定義方法,依此所給出的新類與任一類的距離公式不同。但這些公式在1967年由蘭斯(Lance)和威廉姆斯(Williams)統(tǒng)一起來。當采用歐氏距離時,八種方法有統(tǒng)一形式的遞推公式:NOTE:如果不采用歐氏距離時,除重心法、中間距離法、離差平方和法之外,統(tǒng)一形式的

23、遞推公式仍成立;不同的聚類方法,參數有不同的取值,詳見教材P88的表;聚類方法的選擇問題,至今沒有統(tǒng)一的標準。有了樣品之間的距離(或變量之間的相似系數)以及類與類之間的距離定義后,便可以進行譜系聚類,其基本步驟歸納如下:STEP01:個樣品(變量)一開始就作為個類,計算兩兩之間的距離(或相似系數)構成一個對稱矩陣,其對角線上的元素全為零(對相似系數矩陣,其對角線上元素全為1)。顯然,此時有。記。STEP02:選擇中對角線元素以外的下三角部分(或上三角部分)中的最小元素(相似系數矩陣則選擇對角線元素之外的最大者),設其為,則將與合并成一個新類。在中劃去與所對應的兩行和兩列,并加入由新類與剩下的未

24、聚合的各類之間的距離所組成的一行和一列,得到一個新的距離矩陣,是一個階對稱陣(若在中最小元素不唯一,對其它最小元素也作如上相同處理,每合并兩類,矩陣則降低一階)。STEP03:由出發(fā),重復步驟2得到對稱矩陣,從出發(fā)得到,依此類推,直到個樣品(變量)聚為一個大類為止。STEP04:在合并過程中記下兩類合并時樣品(或變量)的編號以及合并兩類時的距離或相似系數的大?。ㄎ覀兎Q之為水平),并繪成聚類的譜系圖,然后可根據實際問題的背景和要求選定相應的臨界水平以確定類的個數。4 聚類分析的案例本節(jié)以教材的例子和課題研究中的內容作為研究案例,配合軟件操作介紹聚類分析過程,闡述聚類分析過程中應該注意的問題以及對

25、聚類分析結果的應用。教材中的案例案例1:為了更深入地了解我國人口的文化程度狀況,現利用1990年全國人口普查數據對全國30個省、直轄市、自治區(qū)進行聚類分析。分析選用了三個指標:(1)大學以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分別用來反映較高、中等、較低文化程度人口的狀況,對30個省、市、自治區(qū)進行分類。案例2:根據信息基礎設施的發(fā)展狀況,對世界20個國家和地區(qū)進行分類課題研究中的案例案例3:區(qū)域產業(yè)結構與區(qū)域消費結構關聯問題研究在實際應用中,離差平方和法應用比較廣泛,分類效果較好,但要求樣本之間的距離必須為歐氏距離。表2-1 變量的解釋符 號指標名稱符 號指標名稱符 號指標名稱v2第一產業(yè)產值v13城鎮(zhèn)居民食品支出v21農村居民食品支出v3第二產業(yè)產值v14城鎮(zhèn)居民衣著支出v22農村居民衣著支出v4第三產業(yè)產值v

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論