MBA統(tǒng)計(jì)學(xué)聚類課件_第1頁(yè)
MBA統(tǒng)計(jì)學(xué)聚類課件_第2頁(yè)
MBA統(tǒng)計(jì)學(xué)聚類課件_第3頁(yè)
MBA統(tǒng)計(jì)學(xué)聚類課件_第4頁(yè)
MBA統(tǒng)計(jì)學(xué)聚類課件_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論第十一章聚類分析

分類物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國(guó)的縣分類,就有多種方法可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類,也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類。聚類分析對(duì)一個(gè)數(shù)據(jù),既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。當(dāng)然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類。本章要介紹的分類的方法稱為聚類分析(clusteranalysis)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。它們?cè)跀?shù)學(xué)上是無(wú)區(qū)別的。飲料數(shù)據(jù)(drink.txt)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量11.1如何度量距離遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類,而僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)分類;這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類。11.1如何度量距離遠(yuǎn)近?三維或者更高維的情況也是類似;只不過(guò)三維以上的圖形無(wú)法直觀地畫出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類和類之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。兩個(gè)距離概念由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類間距離。但是如果某一類包含不止一個(gè)點(diǎn),那么就要確定類間距離,類間距離是基于點(diǎn)間距離定義的:比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離或各類的中心之間的距離來(lái)作為類間距離。兩個(gè)距離概念在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。向量x=(x1,…,xp)與y=(y1,…,yp)之間的距距離或相相似系數(shù)數(shù):歐氏距離離:Euclidean平方歐氏氏距離:SquaredEuclidean夾角余弦弦(相似系系數(shù)1):cosinePearsoncorrelation(相似系系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕絕對(duì)距離離):Si|xi-yi|Minkowski:當(dāng)變量的的測(cè)量值值相差懸懸殊時(shí),要先進(jìn)進(jìn)行標(biāo)準(zhǔn)準(zhǔn)化.如如R為為極差,s為為標(biāo)準(zhǔn)準(zhǔn)差,則則標(biāo)準(zhǔn)準(zhǔn)化的數(shù)數(shù)據(jù)為每每個(gè)觀測(cè)測(cè)值減類Gp與類Gq之間的距離Dpq(d(xi,xj)表示點(diǎn)xi∈Gp和xj∈Gq之間的距離)最短距離法:最長(zhǎng)距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均均法,可變法法等可參考各各書(shū)).在用歐氏氏距離時(shí)時(shí),有統(tǒng)一的的遞推公公式有了上面面的點(diǎn)間間距離和和類間距距離的概概念,就就可以介介紹聚類類的方法法了。這這里介紹紹兩個(gè)簡(jiǎn)簡(jiǎn)單的方方法。11.2事先先要確定定分多少少類:k-均值值聚類前面說(shuō)過(guò)過(guò),聚類類可以走走著瞧,,不一定定事先確確定有多多少類;;但是這這里的k-均值值聚類((k-meanscluster,也叫叫快速聚聚類,quickcluster)卻要要求你先先說(shuō)好要要分多少少類??纯雌饋?lái)有有些主觀觀,是吧吧!假定你說(shuō)說(shuō)分3類類,這個(gè)個(gè)方法還還進(jìn)一步步要求你你事先確確定3個(gè)個(gè)點(diǎn)為““聚類種種子”(SPSS軟件件自動(dòng)為你選種種子);;也就是是說(shuō),把把這3個(gè)個(gè)點(diǎn)作為為三類中中每一類類的基石石。11.2事先先要確定定分多少少類:k-均值值聚類然后,根根據(jù)和這這三個(gè)點(diǎn)點(diǎn)的距離離遠(yuǎn)近,,把所有有點(diǎn)分成成三類。。再把這這三類的的中心(均值)作為新新的基石石或種子子(原來(lái)來(lái)“種種子”就就沒(méi)用了了),再再重新按按照距離離分類。。如此疊代代下去,,直到達(dá)達(dá)到停止止疊代的的要求((比如,,各類最最后變化化不大了了,或者者疊代次次數(shù)太多多了)。。顯然,,前面的的聚類種種子的選選擇并不不必太認(rèn)認(rèn)真,它它們很可可能最后后還會(huì)分分到同一一類中呢呢。下面面用飲料料例的數(shù)數(shù)據(jù)來(lái)做做k-均均值聚類類。假定要把把這16種飲料分分成3類。利用用SPSS,只疊代代了三次次就達(dá)到到目標(biāo)了了(計(jì)算算機(jī)選的的種子還還可以))。這樣樣就可以以得到最最后的三三類的中中心以及及每類有有多少點(diǎn)點(diǎn)根據(jù)需要,,可以輸出出哪些點(diǎn)分分在一起。。結(jié)果是::第一類為為飲料1、、10;第第二類為飲飲料2、4、8、11、12、13、、14;第第三類為剩剩下的飲料料3、5、、6、7、、9、15、16。。SPSS實(shí)實(shí)現(xiàn)(聚類分析)K-均值聚聚類以數(shù)據(jù)drink.sav為為例,在SPSS中中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量量)、caffeine(咖咖啡因)、、sodium(鈉鈉)、price((價(jià)格)選選入Variables,在NumberofClusters處選選擇3(想想要分的類類數(shù)),如果想要知知道哪種飲飲料分到哪哪類,則選選Save,再選ClusterMembership等。注意k-均均值聚類只只能做Q型型聚類,如如要做R型型聚類,需需要把數(shù)據(jù)據(jù)陣進(jìn)行轉(zhuǎn)轉(zhuǎn)置。11.2事事先不用用確定分多多少類:分分層聚類另一種聚類類稱為分層層聚類或系系統(tǒng)聚類((hierarchicalcluster)。開(kāi)始始時(shí),有多多少點(diǎn)就是是多少類。。它第一步先把把最近的兩類類(點(diǎn))合并并成一類,然然后再把剩下下的最近的兩兩類合并成一一類;這樣下去,每每次都少一類類,直到最后后只有一大類類為止。越是是后來(lái)合并的的類,距離就就越遠(yuǎn)。對(duì)于飲料聚類。SPSS輸出出為“冰柱圖”(icicle)例:5個(gè)樣品品距離陣令Dk為系統(tǒng)聚類法法種第k次合合并時(shí)的距離離,如{Dk}為單調(diào)的,則稱具有單單調(diào)性.前面面只有重心和和中間距離法法不具有單調(diào)調(diào)性.步驟:最短距離法最長(zhǎng)距離法階段 bk(第k階段類類的集合)DkDkD(0)(1)(2)(3)(4)(5)00D(1)(1,3)(2)(4)(5)11D(2)(1,3)(2,4)(5)33D(3)(1,3)(2,4,5)45D(4)(1,3,2,4,5)69注:最最短短和和最最長(zhǎng)長(zhǎng)距距離離法法結(jié)結(jié)果果一一樣樣(一一般般不不一一定定一一樣樣)聚類類要要注注意意的的問(wèn)問(wèn)題題聚類類結(jié)結(jié)果果主主要要受受所所選選擇擇的的變變量量影影響響。。如如果果去去掉掉一一些些變變量量,,或或者者增增加加一一些些變變量量,,結(jié)結(jié)果果會(huì)會(huì)很很不不同同。。相比比之之下下,,聚聚類類方方法法的的選選擇擇則則不不那那么么重重要要了了。。因因此此,,聚聚類類之之前前一一定定要要目目標(biāo)標(biāo)明明確確。。聚類類要要注注意意的的問(wèn)問(wèn)題題另外外就就分分成成多多少少類類來(lái)來(lái)說(shuō)說(shuō),,也也要要有有道道理理。。只只要要你你高高興興,,從從分分層層聚聚類類的的計(jì)計(jì)算算機(jī)機(jī)結(jié)結(jié)果果可可以以得得到到任任何何可可能能數(shù)數(shù)量量的的類類。。但是,,聚類類的目目的是是要使使各類類之間間的距距離盡盡可能能地遠(yuǎn)遠(yuǎn),而而類中中點(diǎn)的的距離離盡可可能的的近,,并且且分類類結(jié)果果還要要有令令人信信服的的解釋釋。這這一點(diǎn)點(diǎn)就不不是數(shù)數(shù)學(xué)可可以解解決的的了。。SPSS實(shí)實(shí)現(xiàn)(聚類分分析)分層聚聚類對(duì)drink.sav數(shù)數(shù)據(jù)在在SPSS中選選擇Analyze-Classify--HierarchicalCluster,然后把把calorie((熱量量)、、caffeine(咖咖啡因因)、、sodium(鈉鈉)、、price((價(jià)格格)選選入Variables,在Cluster選選Cases((這是是Q型型聚類類:對(duì)對(duì)觀測(cè)測(cè)值聚聚類)),如如果要要對(duì)變變量聚聚類((R型型聚類類)則則選Variables,為了畫畫出樹(shù)樹(shù)狀圖圖,選選Plots,,再點(diǎn)點(diǎn)Dendrogram等。。附錄Lance和Williams給出(對(duì)歐歐氏距離)統(tǒng)一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q)+g|D2(k,p)-D2(k,q)|前面方法的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論