![Chap14_SPSS_聚類分析_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/6560f206-5327-4c6b-ba9f-26f85ced37a4/6560f206-5327-4c6b-ba9f-26f85ced37a41.gif)
![Chap14_SPSS_聚類分析_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/6560f206-5327-4c6b-ba9f-26f85ced37a4/6560f206-5327-4c6b-ba9f-26f85ced37a42.gif)
![Chap14_SPSS_聚類分析_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/6560f206-5327-4c6b-ba9f-26f85ced37a4/6560f206-5327-4c6b-ba9f-26f85ced37a43.gif)
![Chap14_SPSS_聚類分析_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/6560f206-5327-4c6b-ba9f-26f85ced37a4/6560f206-5327-4c6b-ba9f-26f85ced37a44.gif)
![Chap14_SPSS_聚類分析_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/6560f206-5327-4c6b-ba9f-26f85ced37a4/6560f206-5327-4c6b-ba9f-26f85ced37a45.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第第14章章 聚類分析聚類分析 第第14章章 聚類分析聚類分析14.1 方法原理14.2 聚類分析的算法14.3 聚類分析的基本步驟14.4 K-means Cluster過程14.5 Hierarchical Cluster過程14.6 TwoStep Cluster過程2方法原理方法原理按照個體(記錄)的特征將它們分類,使同一類別內(nèi)的個體具有盡可能高的同質(zhì)性,而類別之間則具有盡可能高的異質(zhì)性。為了得到比較合理的分類,首先要采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對象之間的聯(lián)系的緊密程度。直觀的理解為按空間距離的遠(yuǎn)近來劃分類別 假定研究對象均用所謂的“點”來表示。在聚類分析中,一般的規(guī)則是將“距離”較
2、小的點歸為同一類,將“距離”較大的點歸為不同的類。3方法原理方法原理常見的是對個體分類,也可以對變量分類,此時一般使用相似系數(shù)作為“距離”測量指標(biāo)對樣品進(jìn)行的分類稱為Q型聚類,分類的結(jié)果是根據(jù)樣品之間的“相似”程度把樣品分成不同的類別。對指標(biāo)或變量進(jìn)行的聚類稱為R型聚類,分類結(jié)果是把“相似”指標(biāo)歸為一類,不相似“指標(biāo)”歸為不同的類,其目的是通過了解指標(biāo)之間的親疏關(guān)系,從每一類中選擇有代表性的指標(biāo)進(jìn)行進(jìn)一步分析。4方法原理方法原理在右圖中可以看到五個樣品應(yīng)當(dāng)可能被分為兩組或者三組,C/D組x和y的取值均偏低,而另三個所在組x和y的取值均偏高分為兩類或三類都是可接受的從圖中可以直觀的理解“距離”的
3、含義5方法原理方法原理當(dāng)用于聚類的變量逐漸增多時,分析思路完全相同,只是這樣簡單、清晰的圖示展現(xiàn)類別情況變得逐漸不大可能多維空間中的觀察可能的解決方法放棄圖示化觀察,改用復(fù)雜的統(tǒng)計指標(biāo)縮減維度,使得可以在低維度空間進(jìn)行呈現(xiàn)6用用 途途設(shè)計抽樣方案分層抽樣預(yù)分析過程先通過聚類分析達(dá)到簡化數(shù)據(jù)的目的,將眾多的個體先聚集成比較好處理的幾個類別或子集,然后再進(jìn)行后續(xù)的多元分析。細(xì)分市場、個體消費行為劃分先聚類,然后再利用判別分析進(jìn)一步研究各個群體之間的差異。7第第14章章 聚類分析聚類分析14.1 方法原理14.2 聚類分析的算法14.3 聚類分析的基本步驟14.4 K-means Cluster過程
4、14.5 Hierarchical Cluster過程14.6 TwoStep Cluster過程8聚類分析的算法聚類分析的算法從聚類結(jié)果角度分類覆蓋聚類算法和非覆蓋聚類算法,如果每個數(shù)據(jù)點都至少屬于一個類,則為覆蓋聚類,否則為非覆蓋聚類。層次聚類和非層次聚類,如果存在兩個類,一個類是另一個類的子集,則稱為層次聚類,否則稱為非層次聚類。確定聚類和模糊聚類,如果任意兩個類的交集為空,一個數(shù)據(jù)點最多只屬于一個類,則稱為確定聚類(或硬聚類)。如果至少一個數(shù)據(jù)點屬于一個以上的類,則稱為模糊聚類。從聚類變量角度分類數(shù)值型聚類算法分類型聚類算法混合型聚類算法從聚類的原理角度劃分劃分聚類層次聚類基于密度的聚
5、類網(wǎng)格聚類第第14章章 聚類分析聚類分析14.1 方法原理14.2 聚類分析的算法14.3 聚類分析的基本步驟14.4 K-means Cluster過程14.5 Hierarchical Cluster過程14.6 TwoStep Cluster過程10聚類分析的基本步驟聚類分析的基本步驟步驟步驟1 1:確定研究問題:確定研究問題 選擇研究目的: 分類描述;數(shù)據(jù)簡化;揭示相互聯(lián)系選擇分類變量 對個體聚類還是對變量聚類? 分類變量是什么類型? 選擇用“距離”還是“相似系數(shù)”?是哪一種? 數(shù)據(jù)是否需要標(biāo)準(zhǔn)化? 是否需要刪除奇異點? 樣本對總體是否有代表性? 聚類變量是否存在共線性? 共線性是否足
6、以影響結(jié)果?11聚類分析的基本步驟聚類分析的基本步驟步驟步驟4 4:選擇聚類方法:選擇聚類方法 采用譜系聚類法、非譜系聚類法、還是兩者的結(jié)合? 采用哪種具體的聚類方法? 應(yīng)該聚成幾個類別?步驟步驟5 5:解釋聚類分析的結(jié)果:解釋聚類分析的結(jié)果 考察類別的中心是否存在顯著的差異? 觀察樹形圖和冰柱圖 是否可以根據(jù)分類變量給各個類別命名?步驟步驟6 6:評價聚類分析結(jié)果的有效性:評價聚類分析結(jié)果的有效性 利用適當(dāng)?shù)慕Y(jié)果變量進(jìn)行評價; 利用其它描述性的變量描述各個類別的輪廓。12第第14章章 聚類分析聚類分析14.1 方法原理14.2 聚類分析的算法14.3 聚類分析的基本步驟14.4 K-mean
7、s Cluster過程14.5 Hierarchical Cluster過程14.6 TwoStep Cluster過程13K-means Cluster過程過程屬于非系統(tǒng)聚類法的一種 方法原理選擇(或人為指定)某些記錄作為凝聚點按就近原則將其余記錄向凝聚點凝集計算出各個初始分類的中心位置(均值)用計算出的中心位置重新進(jìn)行聚類如此反復(fù)循環(huán),直到凝聚點位置收斂為止方法特點要求已知類別數(shù)可人為指定初始位置節(jié)省運算時間樣本量過大時有必要考慮只能使用連續(xù)性變量14案例:移動通訊客戶細(xì)分案例:移動通訊客戶細(xì)分mobile.sav數(shù)據(jù)包含6個變量是客戶編號(Customer_ID)工作日上班時期電話時長(
8、Peak_mins)工作日下班時期電話時長(OffPeak_mins)周末電話時長(Weekend_mins)國際電話時長(International_mins)總通話時長(Total_mins)平均每次通話時長(average_mins)根據(jù)前期的調(diào)研,研究者認(rèn)為移動用戶應(yīng)當(dāng)被分為5個主要群體,現(xiàn)希望得到相應(yīng)的定量聚類結(jié)果。15操作過程操作過程預(yù)分析,數(shù)據(jù)標(biāo)準(zhǔn)化聚類分析操作選擇“分析”-“分類”-“K-均值聚類”“變量”列表框:6個標(biāo)準(zhǔn)化后變量“個案標(biāo)記依據(jù)”列表框:Customer_ID“迭代”框:100“保存”對話框:選中“聚類成員”“選項”對話框:選中“ANOVA表”16聚類結(jié)果聚類結(jié)
9、果第一類:高端商用客戶,總通話時間長,工作日上班時間通話比例高第二類:少使用低端客戶,總通話時間短,各時段通話時間都短第三類:中端商用客戶,總通話時間居中,工作日上班時間通話比例高第四類:中端日常用客戶,總通話時間居中,工作日下班時間通話比例高第五類:長聊客戶,每次通話時間長17第第14章章 聚類分析聚類分析14.1 方法原理14.2 聚類分析的算法14.3 聚類分析的基本步驟14.4 K-means Cluster過程14.5 Hierarchical Cluster過程14.6 TwoStep Cluster過程18Hierarchical Cluster過程過程屬于系統(tǒng)聚類法的一種其聚類
10、過程可以用樹形結(jié)構(gòu)(treelike structure)來描繪的方法方法原理先將所有n個變量觀測看成不同的n類然后將性質(zhì)最接近(距離最近)的兩類合并為一類再從這n-1類中找到最接近的兩類加以合并依此類推,直到所有的變量觀測被合為一類使用者再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類特點一旦記錄/變量被劃定類別,其分類結(jié)果就不會再進(jìn)行更改可以對變量或記錄進(jìn)行聚類變量可以為連續(xù)或分類變量提供的距離測量方法非常豐富運算速度較慢19案例:體操裁判打分傾向聚類案例:體操裁判打分傾向聚類SPSS自帶數(shù)據(jù)集judges.sav是中、美、法等七個國家的裁判和未經(jīng)嚴(yán)格訓(xùn)練體育愛好者在評判體育比賽中對選手的評分
11、情況。請根據(jù)在評分上的差異將它們分為適當(dāng)?shù)念悺2僮鬟^程各指標(biāo)的描述統(tǒng)計分析選擇“分析”-“分類”-“系統(tǒng)聚類”將8個變量都選入“變量”列表框在“繪制”對話框中,選中“樹狀圖”,將“冰柱”選項組設(shè)定為“無”改進(jìn)聚類效果在“方法”對話款中,將“度量標(biāo)準(zhǔn)”選項組中的“區(qū)間”下拉列表框由默認(rèn)的“平方根”距離,更改為“Pearson相關(guān)性”20第第14章章 聚類分析聚類分析14.1 方法原理14.2 聚類分析的算法14.3 聚類分析的基本步驟14.4 K-means Cluster過程14.5 Hierarchical Cluster過程14.6 TwoStep Cluster過程21TwoStep C
12、luster過程過程特點:處理對象:分類變量和連續(xù)變量自動決定最佳分類數(shù)快速處理大數(shù)據(jù)集前提假設(shè):變量間彼此獨立分類變量服從多項分布,連續(xù)變量服從正態(tài)分布模型穩(wěn)健距離測量方法使用默認(rèn)值即可22案例:病理數(shù)據(jù)的聚類分析案例:病理數(shù)據(jù)的聚類分析數(shù)據(jù)drug.sav記錄了患有某種疾病的500個病人的資料,現(xiàn)希望通過聚類的方法對病人的情況進(jìn)行歸類,以更清晰的了解這類病人的特征。涉及的變量包括年齡、性別、血壓、膽固醇濃度、血液中的鈉含量、血液中的鉀含量。操作過程選擇“分析”-“分類”-“兩部聚類”將性別、血壓、膽固醇選入“分類變量”列表框?qū)⒛挲g、鈉含量、鉀含量選入“連續(xù)變量”列表框聚類結(jié)果:第一類:高血
13、壓、膽固醇濃度正常第二類:男性、膽固醇濃度高第三類:女性、膽固醇濃度高第四類:非高血壓、膽固醇濃度正常23需要注意的問題需要注意的問題變量選擇無關(guān)變量有時會引起嚴(yán)重的錯分應(yīng)當(dāng)只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進(jìn)行分析使用連續(xù)變量,將分類變量用于結(jié)果解釋新的聚類方法可以同時使用這些變量共線性問題對記錄聚類結(jié)果有較大的影響相當(dāng)于某個變量在聚類中的權(quán)重大于其它變量最好先進(jìn)行預(yù)處理24需要注意的問題需要注意的問題變量的標(biāo)準(zhǔn)化變量量綱變異程度相差非常大時需要進(jìn)行數(shù)理統(tǒng)計算法上要求一律標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化后會削弱有用變量的作用異常值影響較大還沒有比較好的解決辦法盡力避免分類數(shù)從實用角度講,28類比較合適專業(yè)意義一定要結(jié)合專業(yè)知識進(jìn)行分析25需要注意的問題需要注意的問題其他方面聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析聚類分析的解完全依賴于研究者所選擇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子競技產(chǎn)業(yè)的創(chuàng)新驅(qū)動與持續(xù)發(fā)展
- 2025年度智能安防系統(tǒng)研發(fā)與安裝合同模板
- 商鋪減租申請書
- 現(xiàn)代醫(yī)療背景下社區(qū)急救體系的優(yōu)化策略
- 二零二五年度水塔供水工程保險合同范本
- 證人出庭申請書模板
- 2025年度洗浴中心環(huán)保節(jié)能設(shè)備改造合同
- 公司刻章申請書
- 核醫(yī)學(xué)知到智慧樹章節(jié)測試課后答案2024年秋溫州醫(yī)科大學(xué)
- 痛風(fēng)患者飲食與運動結(jié)合的養(yǎng)生之道
- 軟件系統(tǒng)項目實施方案(共3篇)
- 2024年全國現(xiàn)場流行病學(xué)調(diào)查職業(yè)技能競賽考試題庫-上部分(600題)
- 2025年中國鐵路設(shè)計集團(tuán)有限公司招聘筆試參考題庫含答案解析
- (一模)晉城市2025年高三年第一次模擬考試 物理試卷(含AB卷答案解析)
- 實驗室5S管理培訓(xùn)
- 醫(yī)院工程施工重難點分析及針對性措施
- 2025年春節(jié)安全專題培訓(xùn)(附2024年10起重特大事故案例)
- GB/T 44958-2024化工設(shè)備安全管理規(guī)范
- 《化妝品包裝材料相容性試驗評估指南》
- 6張精美甘特圖圖表可編輯課件模板
- 2025年軋鋼原料工技能考試題庫
評論
0/150
提交評論