聚類分析SPSS實(shí)現(xiàn) (2)_第1頁
聚類分析SPSS實(shí)現(xiàn) (2)_第2頁
聚類分析SPSS實(shí)現(xiàn) (2)_第3頁
聚類分析SPSS實(shí)現(xiàn) (2)_第4頁
聚類分析SPSS實(shí)現(xiàn) (2)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、用SPSS作聚類分析以經(jīng)濟(jì)效益數(shù)據(jù)為例,用聚類分析法對各省市作分類 (見spssex-4/全國各省市經(jīng)濟(jì)效益數(shù)據(jù))以城鎮(zhèn)居民消費(fèi)資料為例,用聚類分析法對各省市作分類 (見spssex-4/城鎮(zhèn)居民消費(fèi)支出資料) 1SPSS中的聚類分析Spss中的聚類功能常用的有兩種:快速聚類(迭代過程): K-Means Cluster系統(tǒng)聚類:Hierarchical Cluster2一、Hierarchical Cluster聚類系統(tǒng)聚類由兩種方法:分解法和凝聚法。系統(tǒng)聚類的功能:即可進(jìn)行樣品的聚類,也可進(jìn)行變量的聚類。系統(tǒng)聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。3系統(tǒng)聚類的中要進(jìn)行以下的

2、選擇:數(shù)據(jù)的標(biāo)準(zhǔn)化測度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進(jìn)行選擇。輸出圖形的選擇:樹形圖或冰柱圖。4系統(tǒng)聚類5見(一)聚類方法見( 二)各種距離和相似系數(shù)6Method聚類方法標(biāo)準(zhǔn)化變換親疏關(guān)系指標(biāo)7(一)聚類方法1.Between-groups linkage 類間平均法 兩類距離為兩類元素兩兩之間平均平方距離2.Within-groups linkage 類內(nèi)平均法兩類距離為合并后類中可能元素兩兩之間平均平方距離3.Nearest neighbor 最短距離法 4. Furthest neighbor 最長距離法

3、5.Centroid clustering 重心法 (歐式距離)6.Median clustering 中間距離法 (歐式距離)7.Ward Method 離差平方法 (歐式距離)8 1.squared euclidean distance 平方歐式距離2. euclidean distance 歐式距離3.cosine 夾角余弦(R型)4.pearson correlation 皮爾遜相關(guān)系數(shù)(R)5.chebychev 切比雪夫距離(二)各種距離和相似系數(shù)(親疏關(guān)系指標(biāo))96.block 絕對值距離7.minkowski 明考斯基8.customized 1011Statistics聚類進(jìn)

4、度表相似矩陣樣品或變量的分類情況1213 凝聚狀態(tài)表的第一列表示聚類分析的第幾步;第二列、第三列表示本步聚類中哪兩個(gè)樣本或小類聚成一類;第四列是相應(yīng)的樣本距離或小類距離;第五列、第六列表明本步聚類中,參與聚類的是樣本還是小類。0表示樣本,數(shù)字n(非0)表示由第n步聚類產(chǎn)生的小類參與本步聚類;第七列表示本步聚類的結(jié)果將在下面聚類的第幾步中用到。1415Plot樹狀結(jié)構(gòu)圖冰柱圖冰柱的方向16Vertical Icicle6717 冰柱圖因其樣子非常象冬天房頂垂下的冰柱得名,它以圖形的方式顯示層次聚類分析結(jié)果,一般從冰柱圖的最后一行開始觀察,第一列表示類數(shù)。兩樣品之間的“”表示將其兩邊的樣品(類)聯(lián)

5、結(jié)起來聚成新類。1819應(yīng)用舉例:4-120 首先對表4-1中的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換處理,經(jīng)過運(yùn)算使數(shù)據(jù)標(biāo)準(zhǔn)化得到表4-2,使它的每列數(shù)據(jù)的平均值為0,方差為1,這樣表4-1中5列具有不同量綱、不同數(shù)量級的數(shù)據(jù)不同地區(qū)數(shù)據(jù)求出歐氏距離。就能放在一起比較;其次用表4-2中經(jīng)過標(biāo)準(zhǔn)化處理后的30個(gè)212223表4-12425表 4-2262728K-Means Cluster聚類29K-Means Cluster原理首先,選擇n個(gè)數(shù)值型變量參與聚類分析,最后要求的聚類數(shù)為k個(gè);其次,由系統(tǒng)選擇k個(gè)(聚類的類數(shù))觀測量(也可由用戶指定)作為聚類的種子。第三,按照距離這些類中心的距離最小的原則把所有

6、觀測量(樣品)分派到各類重心所在的類中去。第四,這樣每類中可能由若干個(gè)樣品,計(jì)算每個(gè)類中各個(gè)變量的均值,以此作為第二次迭代的中心;第五,然后根據(jù)這個(gè)中心重復(fù)第三、第四步,直到中心的迭代標(biāo)準(zhǔn)達(dá)到要求時(shí),聚類過程結(jié)束。30K-Means Cluster聚類過程由AnalyzeClassify K-Means Cluster將個(gè)變量放入Variable ;輸入最后聚類的個(gè)數(shù);31例 飲料數(shù)據(jù)(spssex/drink.sav )16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量 32 快速聚類33選項(xiàng)讀寫凝聚點(diǎn)人為固定分類數(shù)ANOVA表,初始凝聚點(diǎn)等34快速聚類法的聚類數(shù)由用戶指定,分類是唯一的。1.分類數(shù)

7、:如希望聚成K類2.聚類方法:method: iterate and clussify(聚類分析的 clussify only(聚類分析過程類中心3.聚類中心:centers4.迭代次數(shù):iterate5.保存分類結(jié)果:save每一步都重新計(jì)算新的類中心點(diǎn))點(diǎn)始終為初始類中心點(diǎn),僅作一次迭代)35Initial Cluster Center:快速聚類的初始類中心點(diǎn)(本例由系統(tǒng)自行指定四個(gè)類的初始類中心點(diǎn))指定聚成四類36Iteration History:快速聚類的迭代步驟 在迭代過程中,完成第一次迭代后形成的四個(gè)新類中心點(diǎn)距初始類中心點(diǎn)的歐氏距離分別為5.065、12.532、12.275、25.901。第四次迭代后形成的四個(gè)新類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論