聚類分析clusteranalysisppt課件_第1頁(yè)
聚類分析clusteranalysisppt課件_第2頁(yè)
聚類分析clusteranalysisppt課件_第3頁(yè)
聚類分析clusteranalysisppt課件_第4頁(yè)
聚類分析clusteranalysisppt課件_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Cluster Analysis B2A2 * B1 A1 * * B3 *樣品間:歐氏距離樣品間:歐氏距離類類間:兩類間樣類類間:兩類間樣品兩兩距離最長(zhǎng)。品兩兩距離最長(zhǎng)。即圖中樣品即圖中樣品A2A2和和B3B3之間的距離之間的距離 ),max(LJKJMJDDD最長(zhǎng)距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離KLJM2222412121KLLJKJMJDDDD222221KLLJKJMJDDDD之間的數(shù)通常情況下取01, 1SPSS作為默認(rèn)方法,稱為 between-groups linkage KLJM為各類中所含樣品數(shù)為歐氏距離的平方其中.2.222nDDnn

2、DnnDLJMLKJMKMJ類平均法的變型 KLJM25. 0; 1)1 (2222軟件預(yù)置為SASDDnnDnnDKLLJMLKJMKMJ B2A2 * B1 A1 * * B3 *類類間的距離用各自類類間的距離用各自重心間的距離表示重心間的距離表示 )(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中間距離多 先將n個(gè)樣品各自成一類,然后每次每縮小一類,每縮小一類離差平方和就要增加,選擇使離差平方和增加SSMSSKSSL最小的兩類合并,直至所有的樣品歸為一類為止。2222KLMJJLJMJLJKJMJKJMJDnnnDnnnnDnnnnD 以上聚類方法

3、的計(jì)算步驟完全相同,僅類與類之間的定義不同。Lance和Williams于1967年將其統(tǒng)一為:222222LJKJKLLJLKJKMJDDDDDD 單調(diào)性 中間距離法、重心法不具有單調(diào)性 空間的濃縮與擴(kuò)張 不同聚類法作圖,橫坐標(biāo)的范圍可相差很大。最短距離法與重心法比較濃縮;可變類平均比較擴(kuò)張;類平均法比較適中。 幾種聚類方法獲得的結(jié)果不一定相同 指標(biāo)聚類采用相似系數(shù),相似系數(shù)大或距離小則表示類間關(guān)系密切,為了統(tǒng)一,可采用以下公式變換。 221ijijrd 樣本量很大,用系統(tǒng)聚類法計(jì)算的工樣本量很大,用系統(tǒng)聚類法計(jì)算的工作量極大,作出的樹(shù)狀圖也十分復(fù)雜作量極大,作出的樹(shù)狀圖也十分復(fù)雜, , 不

4、不便于分析便于分析 原理原理選擇初始凝聚點(diǎn)選擇初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類根據(jù)歐氏距離將每個(gè)樣品歸類各類的重心代替初始凝聚點(diǎn)各類的重心代替初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類,根據(jù)歐氏距離將每個(gè)樣品歸類, 直至分類達(dá)到穩(wěn)定直至分類達(dá)到穩(wěn)定初始凝聚點(diǎn)初始凝聚點(diǎn)initial cluster seeds ;cluster centers自動(dòng)選擇自動(dòng)選擇 必須給出允許分類的最大個(gè)數(shù)必須給出允許分類的最大個(gè)數(shù)k( SAS中用中用MAXCLUSTERS=k(或或MAXC=k) )憑經(jīng)驗(yàn)選擇憑經(jīng)驗(yàn)選擇 以初始凝聚點(diǎn)建立一個(gè)數(shù)據(jù)文件以初始凝聚點(diǎn)建立一個(gè)數(shù)據(jù)文件,在在SAS的的FASTCLUS過(guò)程的過(guò)

5、程的SEED=選擇項(xiàng)中選擇項(xiàng)中輸入該數(shù)據(jù)文件輸入該數(shù)據(jù)文件 原理與以上聚類法類似原理與以上聚類法類似, , 只是將只是將標(biāo)準(zhǔn)化后的變量視為標(biāo)準(zhǔn)化后的變量視為“個(gè)體個(gè)體”,變,變量間的相關(guān)系數(shù)描述量間的相關(guān)系數(shù)描述“個(gè)體間的個(gè)體間的相似程度。相似程度。 SASSAS中采用中采用VARCLUSVARCLUS過(guò)程過(guò)程。與判別分析的區(qū)別作用,數(shù)據(jù)要求?)與判別分析的區(qū)別作用,數(shù)據(jù)要求?)聚類分析是一種探索性技術(shù),對(duì)于同一問(wèn)聚類分析是一種探索性技術(shù),對(duì)于同一問(wèn)題,可獲得多種結(jié)果,解釋需要結(jié)合專業(yè)知題,可獲得多種結(jié)果,解釋需要結(jié)合專業(yè)知識(shí)識(shí)樣品量大可采用快速聚類方法樣品量大可采用快速聚類方法變量的形式?距

6、離與相似系數(shù)?變量的形式?距離與相似系數(shù)?系統(tǒng)聚類常用方法?系統(tǒng)聚類常用方法?分類數(shù)的確定分類數(shù)的確定 專業(yè)知識(shí)專業(yè)知識(shí)聚類方法的選擇聚類方法的選擇試用多種方法,系統(tǒng)聚類與快速聚類相結(jié)試用多種方法,系統(tǒng)聚類與快速聚類相結(jié)合合聚類進(jìn)度表相似矩陣樣品或變量的分類情況樹(shù)狀結(jié)構(gòu)圖冰柱圖冰柱的方向聚類方法標(biāo)準(zhǔn)化變換親疏關(guān)系指標(biāo)將分類結(jié)果存入數(shù)據(jù)文件中讀寫(xiě)凝聚點(diǎn)人為固定分類數(shù)ANOVA表,初始凝聚點(diǎn)等樣品聚類:樣品聚類:PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE, AVERAGE, CEN, CENTROID, COM, COMPLETE, DEN, DENSI

7、TY, EML, FLE, FLEXIBLE, MCQ, MCQUITTY, MED, MEDIAN, SIN, SINGLE, TWO, TWOSTAGE, WAR, WARD);ID national;PROC TREE HORIZONTAL; ID national;變量聚類:變量聚類:PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4;快速聚類:快速聚類:PROC FASTCLUS MAXC=4 MAXITER=100 ; ID national;資料預(yù)處理:資料預(yù)處理:PROC ACECLUS ;(ACECLUS (Approximate Covariance Estimation for CLUStering) )如果要采用非歐式距離,如果要采用非歐式距離,SAS中中可用宏程序(可用宏

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論