![第10講_聚類分析_第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/19/f37a5829-2be4-495a-b014-3cad1b1e9213/f37a5829-2be4-495a-b014-3cad1b1e92131.gif)
![第10講_聚類分析_第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/19/f37a5829-2be4-495a-b014-3cad1b1e9213/f37a5829-2be4-495a-b014-3cad1b1e92132.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第10講_聚類分析 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 10.1 聚類分析簡(jiǎn)介 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 引例:爭(zhēng)論如何將一副一般紙牌中四種花色的a ,k,q,j共16張牌進(jìn)行分類。 (1)給出一些分組狀況。 如:?jiǎn)螐執(zhí)?;同花套;黑紅套;同字套等。(2)有意義的分組依靠于“相像”的定義。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 (3)在聚類分析的大多數(shù)實(shí)際應(yīng)用中,討論者 清晰了解如何區(qū)分“好”的分組與“壞”的 分組??煞窳谐鋈靠赡艿姆纸M,然后從中 選擇“最優(yōu)”分組,以供將來討論? 分組狀況: 16張牌分為一組有一種方法; 16張牌分為兩組有32767種方法; 16張牌分為三組有7141686種方法 由于
2、時(shí)間的限制,要從全部可能的分組中 找出最優(yōu)分組是不行能的。 可行的方案:建立算法,利用它們找到好的 ,但未必是最好的分組。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 聚類分析是對(duì)紀(jì)錄(或變量)進(jìn)行分類的方法 實(shí)質(zhì): 根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)分成若干個(gè)類別,以 使得類別內(nèi)數(shù)據(jù)的差異盡可能的小,類別間 差異盡可能的大。 兩個(gè)要點(diǎn): (1)建立定量指標(biāo),描述對(duì)象之間的差異。 通過距離或相像性的方式來描述。 (2)建立將對(duì)象分類的算法。 一、相像性量度 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 1、依據(jù)聚類的對(duì)象選擇相像性量度 對(duì)記錄(cases)聚類時(shí),記錄之間的接近 程度常用某種距離表示; 對(duì)變量(variables)聚類時(shí)
3、,依據(jù)變量間 的相關(guān)系數(shù)或類似的聯(lián)系量度來分組。2、依據(jù)變量的特點(diǎn)選擇相像性量度 依據(jù)變量的性質(zhì)(離散型、連續(xù)型、二值 型),測(cè)量值的尺度(名義尺度、挨次尺度、 標(biāo)度尺度),以及討論課題的學(xué)問來選擇相 似性量度。 3、常用的距離量度 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 i、連續(xù)變量的距離量度 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 ii、頻數(shù)表資料的距離量度 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 iii、二值型變量的距離量度 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 其中a,b,c,d的含義如下 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 例1:假定五個(gè)人具有以下特征:個(gè)人 身高(英寸) 體重(磅) 眼球顏色 頭發(fā)顏色 優(yōu)勢(shì)手 性別 1 2
4、3 4 5 68 73 67 64 76 140 185 165 120 210 綠 棕 藍(lán) 棕 棕 金 黑 金 黑 黑 右 右 右 右 左 女 男 男 女 男 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 定義6個(gè)二值變量來表示6 個(gè)特征:xheight 1 0 1 0 1 0 身高 72 英寸 身高 72 英寸 棕色眼睛 其他 右手優(yōu)勢(shì) 左手優(yōu)勢(shì) xhaircol 1 xsex 0 xweight 1 0 1 0 女性 男性 體重 150 磅 身高 150 磅 金色頭發(fā) 其他 xeyecol xhand 數(shù)據(jù)錄入見文件:p527li1.sav。 試求出5個(gè)人之間的相像系數(shù)和距離。 spss 統(tǒng)計(jì)分析從基礎(chǔ)
5、到實(shí)踐 spss操作命令:執(zhí)行【analyze】/【correlate】/【distances】命令 compute distances: between cases 計(jì)算記錄間的距離或相像系數(shù) (1)measure: similarities 計(jì)算相像系數(shù)矩陣 measures 復(fù)選框:binary 二值變量 選 simple matching 相像系數(shù)的計(jì)算方法 simple matching法計(jì)算公式為: 某兩人之間的相像系數(shù)=(a+d)/(a+b+c+d) 其中a,b,c,d含義如下: spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 (2)measure: dissimilarities計(jì)算距離矩陣 m
6、easures 復(fù)選框:binary 二值變量 選 euclidean distance 距離的計(jì)算方法 euclidean distance法計(jì)算公式為: 某兩人之間的距離= b c (b,c含義見上表) spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 spss輸出結(jié)果為: (1)相像系數(shù)矩陣proximity matrix simple matching measure 1 1 2 3 4 5 1.000 .167 .667 .667 .000 2 .167 1.000 .500 .500 .833 3 .667 .500 1.000 .333 .333 4 .667 .500 .333 1.000 .33
7、3 5 .000 .833 .333 .333 1.000 this is a sim ilarity matrix 依據(jù)相像系數(shù)的大小,可以斷言其次人與第 五人最相像,而第一人與第五人最不相像。 依據(jù)相像性數(shù)字將這五人分成相對(duì)接近的兩 組,則可得出(1,3,4)和(2,5)。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 (2)距離矩陣:proximity matrix euclidean d istance 1 1 2 3 4 5 .000 2.236 1.414 1.414 2.449 2 2.236 .000 1.732 1.732 1.000 3 1.414 1.732 .000 2.000 2.0
8、00 4 1.414 1.732 2.000 .000 2.000 5 2.449 1.000 2.000 2.000 .000 this is a dissim ilarity matrix spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 二、聚類算法 i、分層聚類法 spss: hierarchical cluster analysisii、重新定位聚類法(非分層聚類法) 流行的非分層聚類法k均值法 spss: k-means cluster analysis iii、智能聚類法 spss: twostep cluster analysis 10.2 分層(系統(tǒng))聚類法 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 一、分
9、層聚類法的類別及其原理 1、聚集分層法: 從單個(gè)元素開頭,即在開頭時(shí)有多少個(gè)元 素就有多少個(gè)類別;將那些最相像的元素首先 分類,然后將類與類依據(jù)它們之間的相像性進(jìn) 行合并;最終隨著相像性不斷下降,全部的類 融合為一個(gè)大類。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 2、分割分層法: 由全部元素組成的一個(gè)類開頭,將它分割 成兩個(gè)子類,使一個(gè)子類的元素“遠(yuǎn)離”另 一個(gè)子類的元素;然后將這兩個(gè)類進(jìn)一步分 割成不相像的類;這一過程始終進(jìn)行到每個(gè) 元素單獨(dú)成為一類時(shí)為止。 這兩類方法的運(yùn)算原理實(shí)際上是相同的,僅 僅是方向相反而已。spss中供應(yīng)的是聚集分 層法。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 二、聚集分層算法的步驟
10、 1、從n個(gè)類(每類只含一個(gè)元素)和n*n對(duì)稱 距離(或相像性)矩陣d開頭;2、將距離最近的兩類合并為一個(gè)類別,從而n 類成為n-1個(gè)類別,計(jì)算新 產(chǎn)生的類別與其他 各個(gè)類別之間的距離或相像度,形成新的距 離(或相像性)矩陣; 3、重復(fù)步驟2,直到全部的元素在一個(gè)類別時(shí) 為止。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 三、兩個(gè)類別間距離的定義方法 1、最短距離法(nearest neighbor): 用兩個(gè)類別中各個(gè)元素間最短的距離來表示 兩個(gè)類別間的距離。 2、最長(zhǎng)距離法(furthest neighbor): 用兩個(gè)類別中各個(gè)元素間最長(zhǎng)的那個(gè)距離來 表示兩個(gè)類別間的距離。3、重心法(centroid clustering): 用兩個(gè)類別的重心間的距離來表示兩個(gè)類別 間的距離。 spss統(tǒng)計(jì)分析從基礎(chǔ)到實(shí)踐 4、組間平均距離法(between-groups linkage): 用兩個(gè)類別間各個(gè)元素兩兩間的距離的平均 來表示兩個(gè)類別
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)短期工安全管理協(xié)議指南
- 2025年直流風(fēng)扇項(xiàng)目規(guī)劃申請(qǐng)報(bào)告
- 2025年度電力供需雙方策劃協(xié)議書
- 2025年公司辦公地點(diǎn)租賃協(xié)議范本
- 2025年度個(gè)人借款與擔(dān)保協(xié)議
- 2025年建筑行業(yè)工人雇傭策劃合同樣本
- 2025年耗盡關(guān)機(jī)傳感器項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模范
- 2025年城市交通安全策劃與事故應(yīng)急處理協(xié)議
- 2025年直流斬波調(diào)壓牽引裝置項(xiàng)目規(guī)劃申請(qǐng)報(bào)告
- 2025年郵政專用機(jī)械及器材項(xiàng)目申請(qǐng)報(bào)告模范
- 2025年中考數(shù)學(xué)一輪教材復(fù)習(xí)-第六章 圓 與圓有關(guān)的概念及性質(zhì)
- 2025年村兩委工作計(jì)劃
- 《VAVE價(jià)值工程》課件
- 四川政采評(píng)審專家入庫(kù)考試基礎(chǔ)題復(fù)習(xí)試題及答案(一)
- 分享二手房中介公司的薪酬獎(jiǎng)勵(lì)制度
- 安徽省2022年中考道德與法治真題試卷(含答案)
- GB 4793-2024測(cè)量、控制和實(shí)驗(yàn)室用電氣設(shè)備安全技術(shù)規(guī)范
- 廣電雙向網(wǎng)改造技術(shù)建議書
- 項(xiàng)目人員管理方案
- 重大火災(zāi)隱患判定方法
- 2024年電工(高級(jí)技師)考前必刷必練題庫(kù)500題(含真題、必會(huì)題)
評(píng)論
0/150
提交評(píng)論