聚類分析實驗教學(xué)_第1頁
聚類分析實驗教學(xué)_第2頁
聚類分析實驗教學(xué)_第3頁
聚類分析實驗教學(xué)_第4頁
聚類分析實驗教學(xué)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

聚類分析實驗教學(xué)第一頁,共十八頁,編輯于2023年,星期一一、聚類分析的基本原理聚類分析是一種數(shù)值分類方法(即完全是根據(jù)數(shù)據(jù)關(guān)系)。要進(jìn)行聚類分析就要首先建立一個由某些事物屬性構(gòu)成的指標(biāo)體系,或者說是一個變量組合。入選的每個指標(biāo)必須能刻畫事物屬性的某個側(cè)面,所有指標(biāo)組合起來形成一個完備的指標(biāo)體系,它們互相配合可以共同刻畫事物的特征。所謂完備的指標(biāo)體系,是說入選的指標(biāo)是充分的,其它任何新增變量對辨別事物差異無顯著性貢獻(xiàn)。如果所選指標(biāo)不完備,則導(dǎo)致分類偏差。比如要對家庭教養(yǎng)方式進(jìn)行分類,就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對子女的教養(yǎng)方式。簡單地說,聚類分析的結(jié)果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準(zhǔn)確、測量越可靠,得到的分類結(jié)果越是能描述事物各類間的本質(zhì)區(qū)別。第二頁,共十八頁,編輯于2023年,星期一聚類分析完全是根據(jù)數(shù)據(jù)情況來進(jìn)行的。就一個由n個個案、k個變量組成的數(shù)據(jù)文件來說,當(dāng)對個案進(jìn)行聚類分析時,相當(dāng)于對k維坐標(biāo)系中的n個點進(jìn)行分組,所依據(jù)的是它們的距離;當(dāng)對變量進(jìn)行聚類分析時,相當(dāng)于對n維坐標(biāo)系中的k個點進(jìn)行分組,所依據(jù)的也是點距。所以距離或相似性程度是聚類分析的基礎(chǔ)。點距如何計算呢?拿連續(xù)測量的變量來說,可以用歐氏距離平方計算:即各變量差值的平方和。第三頁,共十八頁,編輯于2023年,星期一1.聚類分析的前期準(zhǔn)備工作聚類分析是以完備的數(shù)據(jù)文件為基礎(chǔ)的,這一數(shù)據(jù)文件除觀測變量比較完備之外,一般還要求各個觀測變量的量綱一致,即各變量取值的數(shù)量級一致,否則各變量在描述客觀事物某方面特征差異性的作用有被夸大或縮小的可能。所以,聚類分析前要檢查各變量的量綱是否一致,不一致則需進(jìn)行轉(zhuǎn)換,如將各變量均作標(biāo)準(zhǔn)化轉(zhuǎn)換就可保證量綱一致。2.聚類分析的主要方法第四頁,共十八頁,編輯于2023年,星期一二、Q聚類分析的SPSS過程第一步:數(shù)據(jù)文件的準(zhǔn)備。Q聚類分析是根據(jù)一系列觀測變量的測量值對個案進(jìn)行分類,分類的依據(jù)是個案之間的“距離”。聚類之前的數(shù)據(jù)文件包括:n個個案的k個觀測值。此外還需要一個個案的標(biāo)識變量。第二步:點擊“Analyze”菜單選中“Classify”的“HierarchicalClusterAnalysis”,打開對話框。將參與聚類分析的觀測變量置入“Variable(s)”下的方框中,將個案標(biāo)識變量的變量名置入“LabelCasesBy”下的方框中,同時在Cluster之下選擇Cases。然后選中“Statistics”和“Plots”。第五頁,共十八頁,編輯于2023年,星期一第三步:點擊“Method”打開聚類分析的距離計算方法設(shè)置對話框,以實現(xiàn)對小類間距離、樣本間距離計算方法的設(shè)置,同時對量綱不一致情況下的變量觀測值進(jìn)行轉(zhuǎn)換:(1)小類間距離計算:默認(rèn)方式是類間平均鏈鎖法(Between-Groupslinkage),這種方法最充分地使用了數(shù)據(jù)資料;(2)樣本間距離計算:

觀測變量為連續(xù)變量,默認(rèn)方法:歐氏距離平方;觀測變量為順序或名義變量,默認(rèn)方法:卡方測量方法;觀測變量為二項選擇變量,默認(rèn)方法:二元歐氏距離平方。(3)如果觀測變量的量綱不一致,還需設(shè)置對不同量綱變量進(jìn)標(biāo)準(zhǔn)化處理。默認(rèn)狀態(tài)是“none”,需要時可以選擇“Z-scores”,這是使用最廣泛、最直觀的轉(zhuǎn)換方法。在進(jìn)行量綱轉(zhuǎn)換時,要選擇“Bycases”表明是屬于Q聚類分析中的量綱轉(zhuǎn)換。第六頁,共十八頁,編輯于2023年,星期一第四步:指定圖形輸出。層次聚類分析的圖形結(jié)果有兩種形式(1)樹形圖(Dendrogram),它可以展現(xiàn)聚類分析的每一次合并過程,SPSS首先將各類之間的距離重新轉(zhuǎn)換到0~25之間,然后表現(xiàn)在圖上。此圖可以粗略地表現(xiàn)聚類的過程;(2)冰柱圖(Icicle),包括縱向冰柱圖(Vertical)和橫向冰柱圖(Horizontal)。冰柱圖用X符號來表示聚類過程,其選擇包括:全部、部分、無。第七頁,共十八頁,編輯于2023年,星期一第五步:顯示凝聚狀態(tài)表。點擊層次聚類分析對話框中的“statistics”可以打開設(shè)置凝聚狀態(tài)對話框。(1)選中“Agglomerationschedule”,可以輸出聚類分析詳細(xì)過程,即每一階段完成的是哪些個案或小類間的聚集;(2)選中“Proximitymatrix”,可以輸出各個案的距離矩陣;(3)設(shè)置個案歸屬結(jié)果顯示狀態(tài):

選中none,不顯示個案歸屬情況;選中Singlesolution,則顯示聚集成指定的n類時個案歸屬情況;選中Rangeofsolutions,則顯示聚集成n1到n2范圍內(nèi)的各種情況下的個案歸屬情況。第八頁,共十八頁,編輯于2023年,星期一第六步:設(shè)定保存層次聚類分析的結(jié)果。點擊層次聚類分析對話框中的“save”可以打開設(shè)置保存分類結(jié)果的對話框。在“Clustermembership”下邊:

選中None,不保存聚類結(jié)果到數(shù)據(jù)編輯窗口;選中Singlesolution,則保存聚集成指定的n類時個案歸屬結(jié)果;選中Rangeofsolutions,則顯示聚集成n1到n2范圍內(nèi)的各種情況下的個案歸屬結(jié)果。

OK!第九頁,共十八頁,編輯于2023年,星期一實例分析:根據(jù)20名被試在不同色光刺激下選擇反應(yīng)時間的反應(yīng)模式,對其進(jìn)行類型劃分。實驗數(shù)據(jù)如下表所示:IDREDGREENBLUEYELLOW1410389450490235636039140634124224804654320350400420538039042546063904564554337412450440455835638340041094053904904501038841042641011378410426409123003504004201341242049052314420430451480153683903894031639040042050917405380510489183903904284761940038050045520420400486505SPSS過程演示第十頁,共十八頁,編輯于2023年,星期一三、R聚類分析的SPSS過程

R層次聚類分析對研究對象的觀察變量進(jìn)行分類,它使得具有共同特征的變量聚集在一起,以便選擇其中具有代表性的變量,實現(xiàn)用較少變量刻畫研究對象的目的。

R聚類分析的過程與Q聚類分析的過程是一致的,只是在打開“HierarchicalClusterAnalysis”的對話框中選“Variables”的聚類。在變量間距離的計算方法上選“PearsonCorrelation”,其它操作與Q聚類相同。實例分析:根據(jù)學(xué)生考試分?jǐn)?shù)對課程進(jìn)行分類第十一頁,共十八頁,編輯于2023年,星期一四、快速聚類分析快速聚類分析是由研究者指定類別數(shù)的大樣本資料逐步聚類分析。它先對數(shù)據(jù)進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類??焖倬垲惙治鲆话闶菍€案來進(jìn)行的。對于變量分類來說,當(dāng)變量較少時可以使用層次聚類分析中的R聚類分析;當(dāng)變量數(shù)比較多時則可以使用因素分析??焖倬垲惙治鲆彩且詡€案的距離為基礎(chǔ)的,與層次聚類分析不同的是:快速聚類分析要指定分類的類別數(shù)??焖倬垲惙治龅倪壿嫵绦蚴牵?.用戶指定分類類別數(shù)k(無經(jīng)驗時可以進(jìn)行多次探索性分析)2.SPSS程序自動確定各類中心點(有經(jīng)驗用戶也可以自己定義)3.計算所有個案數(shù)據(jù)點到k個類中心點的歐氏距離4.根據(jù)距離最近原則將個案歸類,即距離哪個類中心點最近歸為哪個類第十二頁,共十八頁,編輯于2023年,星期一第一步:數(shù)據(jù)文件的準(zhǔn)備。快速聚類分析的數(shù)據(jù)文件往往比較大,主要是包括的個案數(shù)較多,而且可以包括一個個案的標(biāo)識變量。當(dāng)數(shù)據(jù)文件中數(shù)據(jù)量綱不一致時,則需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換或其它轉(zhuǎn)換。第二步:點擊“Analyze”菜單選中“Classify”的“K-MeansCluster”打開快速聚類分析對話框,將參與聚類分析的觀測變量置入“Variable(s)”下的方框中,將個案標(biāo)識變量的變量名置入“LabelCasesBy”下的方框中,指定聚類的類別數(shù),同時在“Method”之下選擇默認(rèn)的“IterateandClassify”,這樣,程序可以自動確定類中心點??焖倬垲惙治龅闹饕襟E是:第十三頁,共十八頁,編輯于2023年,星期一第三步:點擊“Options”打開統(tǒng)計參數(shù)顯示對話框和缺省值處理方式對話框。在“Statistics”之下有三方面的顯示要求:

Initialclustercenters:顯示有關(guān)初始類中心點的數(shù)據(jù);

Anovatable:對快速聚類分析產(chǎn)生的類作單因素方差分析,并輸出各個變量的方差分析表;

Clusterinformationforeachcase:輸出個案的分類信息及距所屬類中心點的距離。其它操作以默認(rèn)方式進(jìn)行第十四頁,共十八頁,編輯于2023年,星期一實例分析:為反映員工心理因素方面的差異性,某研究者調(diào)研了一工廠36名員工的6項心理因素,如下表所示。請根據(jù)這一分?jǐn)?shù)對員工進(jìn)行分類,并回答:員工分成幾類比較理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246SPSS過程演示第十五頁,共十八頁,編輯于2023年,星期一練習(xí)題1.為研究不同公司的運營特點,調(diào)查了15個公司的組織文化、組織氛圍、領(lǐng)導(dǎo)角色和員工發(fā)展4個方面的內(nèi)容。請將這15個公司按照其各自的特點劃分成4種類型。數(shù)據(jù)如下表所示。不同公司的特點公司組織文化組織氛圍領(lǐng)導(dǎo)角色員工發(fā)展MICROSOF80857590IBM85859090DELL85858560APPLE90907590聯(lián)想99987880NPP88898990北京電子79809597清華紫光89

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論