20用SPSS作聚類(lèi)分析_第1頁(yè)
20用SPSS作聚類(lèi)分析_第2頁(yè)
20用SPSS作聚類(lèi)分析_第3頁(yè)
20用SPSS作聚類(lèi)分析_第4頁(yè)
20用SPSS作聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、3.3 用SPSS作聚類(lèi)分析,常言道:“物以類(lèi)聚”,對(duì)事物分門(mén)別類(lèi)進(jìn)行研究,有利于我們做出正確的判斷。日常生活中,我們不自覺(jué)地用定性方法將人分為“好人”、“壞人”;按熟悉程度分為“朋友”、“熟人”、“陌生人” 等等。 數(shù)理統(tǒng)計(jì)中的數(shù)值分類(lèi)有兩種問(wèn)題: 判別分析:已知分類(lèi)情況,將未知個(gè)體歸入正確類(lèi)別 聚類(lèi)分析:分類(lèi)情況未知,對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類(lèi),通過(guò)分類(lèi),有利于我們抓住重點(diǎn),從總體上去把握事物,找出解決問(wèn)題的方法。例如將股票進(jìn)行分類(lèi),可以為我們投資提供參考。,一、聚類(lèi)分析(Cluster Analysis)簡(jiǎn)介 聚類(lèi)分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類(lèi),將性質(zhì)差別較大的歸入不同的類(lèi)

2、的分析技術(shù)。,要做聚類(lèi)分析,首先得按照我們聚類(lèi)的目的,從對(duì)象中提取出能表現(xiàn)這個(gè)目的的特征指標(biāo);然后根據(jù)親疏程度進(jìn)行分類(lèi)。,聚類(lèi)分析根據(jù)分類(lèi)對(duì)象的不同可分為Q型和R型兩大類(lèi),Q型是對(duì)樣本進(jìn)行分類(lèi)處理,其作用在于: 能利用多個(gè)變量對(duì)樣本進(jìn)行分類(lèi) 分類(lèi)結(jié)果直觀,聚類(lèi)譜系圖能明確、清楚地表達(dá)其數(shù)值分類(lèi)結(jié)果 所得結(jié)果比傳統(tǒng)的定性分類(lèi)方法更細(xì)致、全面、合理,二、聚類(lèi)對(duì)象,R型是對(duì)變量進(jìn)行分類(lèi)處理,其作用在于: 可以了解變量間及變量組合間的親疏關(guān)系 可以根據(jù)變量的聚類(lèi)結(jié)果及它們之間的關(guān)系,選擇主要變量進(jìn)行回歸分析或Q型聚類(lèi)分析,聚類(lèi)的主要過(guò)程一般可分為如下四個(gè)步驟: 數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化) 構(gòu)造關(guān)系矩陣(親疏

3、關(guān)系的描述) 聚類(lèi)(根據(jù)不同方法進(jìn)行分類(lèi)) 確定最佳分類(lèi)(類(lèi)別數(shù)),以下我們結(jié)合實(shí)際例子分步進(jìn)行討論。,三、聚類(lèi)過(guò)程與方法,為什么要做數(shù)據(jù)變換 指標(biāo)變量的量綱不同或數(shù)量級(jí)相差很大,為了使這些數(shù)據(jù)能放到一起加以比較,常需做變換。,在SPSS中如何選擇標(biāo)準(zhǔn)化方法: Analyze Classify Hierachical Cluster Analysis Method 然后從對(duì)話(huà)框中進(jìn)行如下選擇,1. 數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化),例、下表給出了1982年全國(guó)28個(gè)省、市、自治區(qū)農(nóng)民家庭收支情況,有六個(gè)指標(biāo),是利用調(diào)查資料進(jìn)行聚類(lèi)分析,為經(jīng)濟(jì)發(fā)展決策提供依據(jù)。 (詳見(jiàn)文件1982“農(nóng)民生活消費(fèi)聚類(lèi).sav

4、”),從Transform Values框中點(diǎn)擊向下箭頭,將出現(xiàn)如下可選項(xiàng),從中選一即可:,常用標(biāo)準(zhǔn)化方法(選項(xiàng)說(shuō)明):,None:不進(jìn)行標(biāo)準(zhǔn)化,這是系統(tǒng)默認(rèn)值,Z Scores:標(biāo)準(zhǔn)化變換,為了便于后面的說(shuō)明,作如下假設(shè):,均值表示為,標(biāo)準(zhǔn)差表示為,所有樣本表示為,極差表示為,作用:變換后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1,消去了量綱的影響;當(dāng)抽樣樣本改變時(shí),它仍能保持相對(duì)穩(wěn)定性。,Range 1 to 1:極差標(biāo)準(zhǔn)化變換,作用:變換后的數(shù)據(jù)均值為0,極差為1,且|xij*|1,消去了量綱的影響;在以后的分析計(jì)算中可以減少誤差的產(chǎn)生。,Maximum magnitude of 1,作用:變換后的數(shù)據(jù)

5、最大值為1。,Range 0 to 1(極差正規(guī)化變換 / 規(guī)格化變換),作用:變換后的數(shù)據(jù)最小為0,最大為1,其余在區(qū)間0,1內(nèi),極差為1,無(wú)量綱。,Mean of 1,作用:變換后的數(shù)據(jù)均值為1。,Standard deviation of 1,作用:變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1。,在SPSS中如何選擇測(cè)度: Analyze Classify Hierachical Cluster Analysis Method 然后從對(duì)話(huà)框中進(jìn)行如下選擇,2. 構(gòu)造關(guān)系矩陣,描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種: 相似系數(shù)性質(zhì)越接近的樣品,相似系數(shù)越接近于1或-1;彼此無(wú)關(guān)的樣品相似系數(shù)則接近于0,聚類(lèi)時(shí)

6、相似的樣品聚為一類(lèi) 距離將每一個(gè)樣品看作m維空間的一個(gè)點(diǎn),在這m維空間中定義距離,距離較近的點(diǎn)歸為一類(lèi)。 相似系數(shù)與距離有40多種,但常用的只是少數(shù),從Measure框中點(diǎn)擊Interval項(xiàng)的向下箭頭,將出現(xiàn)如左可選項(xiàng),從中選一即可。,常用測(cè)度(選項(xiàng)說(shuō)明):,Euclidean distance:歐氏距離 (二階Minkowski距離),Squared Eucidean distance:平方歐氏距離,用途:聚類(lèi)分析中用得最廣泛的距離 但與各變量的量綱有關(guān),未考慮指標(biāo)間的相關(guān)性,也未考慮各變量方差的不同,用途:聚類(lèi)分析中用得最廣泛的距離,Cosine:夾角余弦(相似性測(cè)度),用途:計(jì)算兩個(gè)向

7、量在原點(diǎn)處的夾角余弦。當(dāng)兩夾角為0o時(shí),取值為1,說(shuō)明極相似;當(dāng)夾角為90o時(shí),取值為0,說(shuō)明兩者不相關(guān)。 取值范圍:01,Pearson correlation:皮爾遜相關(guān)系數(shù),Chebychev:切比雪夫距離,用途:計(jì)算兩個(gè)向量的皮爾遜相關(guān)系數(shù),用途:計(jì)算兩個(gè)向量的切比雪夫距離,Block:絕對(duì)值距離(一階Minkowski度量) (又稱(chēng)Manhattan度量或網(wǎng)格度量),用途:計(jì)算兩個(gè)向量的絕對(duì)值距離,Minkowski:明科夫斯基距離,用途:計(jì)算兩個(gè)向量的明科夫斯基距離,Customized:自定義距離,用途:計(jì)算兩個(gè)向量的自定義距離,確定了樣品或變量間的距離或相似系數(shù)后,就要對(duì)樣品或

8、變量進(jìn)行分類(lèi)。分類(lèi)的一種方法是系統(tǒng)聚類(lèi)法(又稱(chēng)譜系聚類(lèi));另一種方法是調(diào)優(yōu)法(如動(dòng)態(tài)聚類(lèi)法就屬于這種類(lèi)型)。此外還有模糊聚類(lèi)、圖論聚類(lèi)、聚類(lèi)預(yù)報(bào)等多種方法。 我們主要介紹系統(tǒng)聚類(lèi)法(實(shí)際應(yīng)用中使用最多)。,系統(tǒng)聚類(lèi)法的基本思想:令n個(gè)樣品自成一類(lèi),計(jì)算出相似性測(cè)度,此時(shí)類(lèi)間距離與樣品間距離是等價(jià)的,把測(cè)度最小的兩個(gè)類(lèi)合并;然后按照某種聚類(lèi)方法計(jì)算類(lèi)間的距離,再按最小距離準(zhǔn)則并類(lèi);這樣每次減少一類(lèi),持續(xù)下去直到所有樣品都?xì)w為一類(lèi)為止。聚類(lèi)過(guò)程可做成聚類(lèi)譜系圖(Hierarchical diagram)。,3. 選擇聚類(lèi)方法,系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離(或相似系數(shù))及類(lèi)間距離的定義,類(lèi)

9、間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。,SPSS中如何選擇系統(tǒng)聚類(lèi)法,從Cluster Method框中點(diǎn)擊向下箭頭,將出現(xiàn)如左可選項(xiàng),從中選一即可。,1) 系統(tǒng)聚類(lèi)法的產(chǎn)生,Between-groups linkage 組間平均距離連接法,特點(diǎn):非最大距離,也非最小距離,方法簡(jiǎn)述:合并兩類(lèi)的結(jié)果使所有的兩兩項(xiàng)對(duì)之間的平均距離最小。(項(xiàng)對(duì)的兩成員分屬不同類(lèi)),Within-groups linkage 組內(nèi)平均連接法,方法簡(jiǎn)述:兩類(lèi)合并為一類(lèi)后,合并后的類(lèi)中所有項(xiàng)之間的平均距離最小,3) 常用系統(tǒng)聚類(lèi)方法,Nearest neighbor 最近鄰法(最短距離法),特點(diǎn):樣品有鏈接聚合

10、的趨勢(shì),這是其缺點(diǎn),不適合一般數(shù)據(jù)的分類(lèi)處理,除去特殊數(shù)據(jù)外,不提倡用這種方法。,方法簡(jiǎn)述:首先合并最近或最相似的兩項(xiàng),Furthest neighbor 最遠(yuǎn)鄰法(最長(zhǎng)距離法),方法簡(jiǎn)述:用兩類(lèi)之間最遠(yuǎn)點(diǎn)的距離代表兩類(lèi)之間的距離,也稱(chēng)之為完全連接法,Centroid clustering 重心聚類(lèi)法,特點(diǎn):該距離隨聚類(lèi)地進(jìn)行不斷縮小。該法的譜系樹(shù)狀圖很難跟蹤,且符號(hào)改變頻繁,計(jì)算較煩。,方法簡(jiǎn)述:兩類(lèi)間的距離定義為兩類(lèi)重心之間的距離,對(duì)樣品分類(lèi)而言,每一類(lèi)中心就是屬于該類(lèi)樣品的均值,Median clustering 中位數(shù)法,特點(diǎn):圖形將出現(xiàn)遞轉(zhuǎn),譜系樹(shù)狀圖很難跟蹤,因而這個(gè)方法幾乎不被人

11、們采用。,方法簡(jiǎn)述:兩類(lèi)間的距離既不采用兩類(lèi)間的最近距離,也不采用最遠(yuǎn)距離,而采用介于兩者間的距離,Wards method 離差平方和法,特點(diǎn):實(shí)際應(yīng)用中分類(lèi)效果較好,應(yīng)用較廣;要求樣品間的距離必須是歐氏距離。,方法簡(jiǎn)述:基于方差分析思想,如果分類(lèi)合理,則同類(lèi)樣品間離差平方和應(yīng)當(dāng)較小,類(lèi)與類(lèi)間離差平方和應(yīng)當(dāng)較大,經(jīng)過(guò)系統(tǒng)聚類(lèi)法處理后,得到聚類(lèi)樹(shù)狀譜系圖,Demirmen(1972)提出了應(yīng)根據(jù)研究的目的來(lái)確定適當(dāng)?shù)姆诸?lèi)方法,并提出了一些根據(jù)譜系圖來(lái)分類(lèi)的準(zhǔn)則:,任何類(lèi)都必須在臨近各類(lèi)中是突出的,即各類(lèi)重心間距離必須極大 確定的類(lèi)中,各類(lèi)所包含的元素都不要過(guò)分地多 分類(lèi)的數(shù)目必須符合實(shí)用目的 若采用幾種不同的聚類(lèi)方法處理,則在各自的聚類(lèi)圖中應(yīng)發(fā)現(xiàn)相同的類(lèi),四、譜系分類(lèi)的確定,SPSS中其他選項(xiàng)(通過(guò)實(shí)例演示),例、下表給出了1982年全國(guó)28個(gè)省、市、自治區(qū)農(nóng)民家庭收支情況,有六個(gè)指標(biāo),是利用調(diào)查資料進(jìn)行聚類(lèi)分析,為經(jīng)濟(jì)發(fā)展決策提供依據(jù)。 (詳見(jiàn)文件1982“農(nóng)民生活消費(fèi)聚類(lèi).sav”),生成樹(shù)形圖,生成冰柱圖,凝聚狀態(tài)表,顯示聚類(lèi)過(guò)程,各項(xiàng)間的距離矩陣,類(lèi)成員欄,結(jié)果分析: (方法選擇如下),通過(guò)比較,可知離差平方和法(Wards method)分類(lèi)結(jié)果較好,將28各樣本分為三類(lèi): 第一類(lèi)包含6個(gè)元素:2、15、10、11、6、7 第二類(lèi)包含10個(gè)元素:8、1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論