




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第十三章聚類分析一、概述分類學(xué)是人類認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類分析和判別分析是研究事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。
聚類分析是一種重要的分類技術(shù)。與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應(yīng)用方面取得了很大成功。與回歸分析、判別分析一起被稱為多元分析的三大方法。1.聚類的目的
根據(jù)已知數(shù)據(jù),計(jì)算各觀察個(gè)體或變量之間親疏關(guān)系的統(tǒng)計(jì)量(距離或相關(guān)系數(shù))。根據(jù)某種準(zhǔn)則(最短距離法、最長距離法、中間距離法、重心法等),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個(gè)體或變量分為若干類。2.聚類分析的應(yīng)用例子同一種疾病(如肝炎),根據(jù)臨床表現(xiàn)等將病人分成若干類(甲、乙、丙、丁、戊型肝炎)根據(jù)疾病的若干臨床表現(xiàn),將病人分成輕、中、重三型在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機(jī)能為主的指標(biāo)歸于另一類3.聚類的種類根據(jù)分類的原理可將聚類分析分為:
K-meansCluster過程(快速聚類法)
HierarchicalCluster過程(系統(tǒng)聚類法)根據(jù)分類的對(duì)象可將聚類分析分為:系統(tǒng)Q型(即樣品聚類clusteringforindividuals)系統(tǒng)R型(即指標(biāo)聚類clusteringforvariables)4.
聚類分析與判別分析間的聯(lián)系
先采用聚類分析獲得各個(gè)個(gè)體的類別(classification);然后采用判別分析建立判別函數(shù),對(duì)新個(gè)體進(jìn)行類型識(shí)別(identification)5、距離與相似系數(shù)(P418)(1)距離
假使每個(gè)樣品有p個(gè)變量,則每個(gè)樣品都可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣品就是p維空間中的n個(gè)點(diǎn),則第i樣品與第j樣品之間的距離記為dij。(2)相似系數(shù)
研究樣品間的關(guān)系常用距離,研究指標(biāo)間的關(guān)系常用相似系數(shù)。相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)5、方法原理按距離的遠(yuǎn)近劃分類別6、用途細(xì)分市場消費(fèi)行為劃分設(shè)計(jì)抽樣方案等7、操作時(shí)距離測量方法建議使用默認(rèn)值即可(Q型分類)8、變量選擇無關(guān)變量有時(shí)會(huì)引起嚴(yán)重的錯(cuò)分應(yīng)當(dāng)只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進(jìn)行分析9、共線性問題對(duì)紀(jì)錄聚類結(jié)果有較大的影響最好先進(jìn)行預(yù)處理10、變量的標(biāo)準(zhǔn)化變量變異程度相差非常大時(shí)需要進(jìn)行標(biāo)準(zhǔn)化后會(huì)削弱有用變量的作用11、異常值影響較大還沒有比較好的解決辦法應(yīng)盡力避免12、分類數(shù)從實(shí)用角度講,2~8類比較合適13、專業(yè)意義一定要結(jié)合專業(yè)知識(shí)進(jìn)行分析二、K-meansCluster過程屬于非系統(tǒng)聚類法的一種也叫快速聚類\動(dòng)態(tài)聚類、逐步聚類、迭代聚類)(quickclustermethod、k-meansmodel)適用于樣本量很大的情形,用系統(tǒng)聚類法計(jì)算的工作量極大,作出的樹狀圖也十分復(fù)雜,不便于分析
1、原理選擇初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類各類的重心代替初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類,……直至達(dá)到指定的迭代次數(shù)或達(dá)到終止迭代的判據(jù)要求2、初始凝聚點(diǎn)
initialclusterseeds;clustercenters自動(dòng)選擇必須給出允許分類的最大個(gè)數(shù)k憑經(jīng)驗(yàn)選擇以初始凝聚點(diǎn)建立一個(gè)數(shù)據(jù)文件,在SPSS的CETERS過程的READINITIALFROM選擇項(xiàng)中輸入該數(shù)據(jù)文件3、方法特點(diǎn)要求已知類別數(shù)可人為指定初始位置節(jié)省運(yùn)算時(shí)間樣本量大于100時(shí)有必要考慮只能使用連續(xù)性變量4、菜單:Analyze-classify-KmeansCluster5、分析實(shí)例(P416
data13-02)
三、HierarchicalCluster過程
1、系統(tǒng)聚類的基本思想相近的聚為一類(以距離表示,樣品聚類)相似的聚為一類(以相似系數(shù)表示,變量聚類)2、方法原理先將所有n個(gè)變量/觀測量看成不同的n類;然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再從這n-1類中找到最接近的兩類加以合并;依此類推,直到所有的變量/觀測量被合為一類;使用者最后再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類。3、類與類之間的距離1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.類平均法(averagelinkage)5.可變類平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward離差平方和法(Ward'sminimum-variancemethod)8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估計(jì)法(EML)10.密度估計(jì)(densitylinkage)11.兩階段密度估計(jì)法(two-stagedensitylinkage)等。4、系統(tǒng)聚類法的性質(zhì)
單調(diào)性
中間距離法、重心法不具有單調(diào)性空間的濃縮與擴(kuò)張
不同聚類法作圖,橫坐標(biāo)的范圍可相差很大。最短距離法與重心法比較濃縮;可變類平均比較擴(kuò)張;類平均法比較適中。5、有關(guān)問題
幾種聚類方法獲得的結(jié)果不一定相同指標(biāo)聚類采用相似系數(shù),相似系數(shù)大或距離小則表示類間關(guān)系密切,為了統(tǒng)一,可采用以下公式變換。
6、特點(diǎn)一旦觀測/變量被劃定類別,其分類結(jié)果就不會(huì)再進(jìn)行更改;可以對(duì)變量或記錄進(jìn)行聚類;變量可以為連續(xù)或分類變量;提供的距離測量方法非常豐富;運(yùn)算速度較慢。
7、變量聚類法
原理與觀測量聚類法類似,只是將標(biāo)準(zhǔn)化后的變量視為“個(gè)體”,變量間的相關(guān)系數(shù)描述“個(gè)體”間的相似程度。
8、路徑:Analyze-Classify-HierarchicalCluster9、分析實(shí)例(P428/P437
data13-03/
data11-03)
SPSS自帶數(shù)據(jù)集judges.sav是中、美、法等七個(gè)國家的裁判和未經(jīng)嚴(yán)格訓(xùn)練體育愛好者在評(píng)判體育比賽中對(duì)選手的評(píng)分情況。請(qǐng)根據(jù)在評(píng)分上的差異將它們分為適當(dāng)?shù)念?。解題思路?應(yīng)當(dāng)選用變量聚類?具體的分類數(shù)不明,需要輸出全部結(jié)果?方差和均數(shù)相差不大,無需進(jìn)行標(biāo)準(zhǔn)化?測量距
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度廠房裝修工程合同管理及咨詢服務(wù)
- 2025年系列自動(dòng)遙測氣象站項(xiàng)目建議書
- 秋季重點(diǎn)學(xué)科教學(xué)方案計(jì)劃
- 秘書職業(yè)女性的挑戰(zhàn)與機(jī)遇計(jì)劃
- 幼兒表達(dá)能力提升計(jì)劃
- 社區(qū)親和力提升的途徑計(jì)劃
- 資金流動(dòng)性管理策略計(jì)劃
- 急診科應(yīng)急響應(yīng)機(jī)制強(qiáng)化計(jì)劃
- 藝術(shù)設(shè)計(jì)行業(yè)新年工作策略計(jì)劃
- 營造積極班級(jí)氣氛的實(shí)踐計(jì)劃
- 蘇州地圖高清矢量可填充編輯PPT模板(精美)
- 田字格(綠色標(biāo)準(zhǔn))
- 氧化鋁生產(chǎn)工藝教學(xué)(拜耳法)PPT課件
- 校本課程——生活中的化學(xué)
- 八字調(diào)候用神表
- 停車場巡視記錄表
- 河道景觀設(shè)計(jì)說明
- 《汽車性能評(píng)價(jià)與選購》課程設(shè)計(jì)
- 35kV絕緣導(dǎo)線門型直線桿
- 工程成本分析報(bào)告(新)
- 國際學(xué)術(shù)會(huì)議海報(bào)模板16-academic conference poster model
評(píng)論
0/150
提交評(píng)論