版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
聚類分析實驗教學第1頁,共18頁,2023年,2月20日,星期二一、聚類分析的基本原理聚類分析是一種數值分類方法(即完全是根據數據關系)。要進行聚類分析就要首先建立一個由某些事物屬性構成的指標體系,或者說是一個變量組合。入選的每個指標必須能刻畫事物屬性的某個側面,所有指標組合起來形成一個完備的指標體系,它們互相配合可以共同刻畫事物的特征。所謂完備的指標體系,是說入選的指標是充分的,其它任何新增變量對辨別事物差異無顯著性貢獻。如果所選指標不完備,則導致分類偏差。比如要對家庭教養(yǎng)方式進行分類,就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對子女的教養(yǎng)方式。簡單地說,聚類分析的結果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準確、測量越可靠,得到的分類結果越是能描述事物各類間的本質區(qū)別。第2頁,共18頁,2023年,2月20日,星期二聚類分析完全是根據數據情況來進行的。就一個由n個個案、k個變量組成的數據文件來說,當對個案進行聚類分析時,相當于對k維坐標系中的n個點進行分組,所依據的是它們的距離;當對變量進行聚類分析時,相當于對n維坐標系中的k個點進行分組,所依據的也是點距。所以距離或相似性程度是聚類分析的基礎。點距如何計算呢?拿連續(xù)測量的變量來說,可以用歐氏距離平方計算:即各變量差值的平方和。第3頁,共18頁,2023年,2月20日,星期二1.聚類分析的前期準備工作聚類分析是以完備的數據文件為基礎的,這一數據文件除觀測變量比較完備之外,一般還要求各個觀測變量的量綱一致,即各變量取值的數量級一致,否則各變量在描述客觀事物某方面特征差異性的作用有被夸大或縮小的可能。所以,聚類分析前要檢查各變量的量綱是否一致,不一致則需進行轉換,如將各變量均作標準化轉換就可保證量綱一致。2.聚類分析的主要方法第4頁,共18頁,2023年,2月20日,星期二二、Q聚類分析的SPSS過程第一步:數據文件的準備。Q聚類分析是根據一系列觀測變量的測量值對個案進行分類,分類的依據是個案之間的“距離”。聚類之前的數據文件包括:n個個案的k個觀測值。此外還需要一個個案的標識變量。第二步:點擊“Analyze”菜單選中“Classify”的“HierarchicalClusterAnalysis”,打開對話框。將參與聚類分析的觀測變量置入“Variable(s)”下的方框中,將個案標識變量的變量名置入“LabelCasesBy”下的方框中,同時在Cluster之下選擇Cases。然后選中“Statistics”和“Plots”。第5頁,共18頁,2023年,2月20日,星期二第三步:點擊“Method”打開聚類分析的距離計算方法設置對話框,以實現對小類間距離、樣本間距離計算方法的設置,同時對量綱不一致情況下的變量觀測值進行轉換:(1)小類間距離計算:默認方式是類間平均鏈鎖法(Between-Groupslinkage),這種方法最充分地使用了數據資料;(2)樣本間距離計算:
觀測變量為連續(xù)變量,默認方法:歐氏距離平方;觀測變量為順序或名義變量,默認方法:卡方測量方法;觀測變量為二項選擇變量,默認方法:二元歐氏距離平方。(3)如果觀測變量的量綱不一致,還需設置對不同量綱變量進標準化處理。默認狀態(tài)是“none”,需要時可以選擇“Z-scores”,這是使用最廣泛、最直觀的轉換方法。在進行量綱轉換時,要選擇“Bycases”表明是屬于Q聚類分析中的量綱轉換。第6頁,共18頁,2023年,2月20日,星期二第四步:指定圖形輸出。層次聚類分析的圖形結果有兩種形式(1)樹形圖(Dendrogram),它可以展現聚類分析的每一次合并過程,SPSS首先將各類之間的距離重新轉換到0~25之間,然后表現在圖上。此圖可以粗略地表現聚類的過程;(2)冰柱圖(Icicle),包括縱向冰柱圖(Vertical)和橫向冰柱圖(Horizontal)。冰柱圖用X符號來表示聚類過程,其選擇包括:全部、部分、無。第7頁,共18頁,2023年,2月20日,星期二第五步:顯示凝聚狀態(tài)表。點擊層次聚類分析對話框中的“statistics”可以打開設置凝聚狀態(tài)對話框。(1)選中“Agglomerationschedule”,可以輸出聚類分析詳細過程,即每一階段完成的是哪些個案或小類間的聚集;(2)選中“Proximitymatrix”,可以輸出各個案的距離矩陣;(3)設置個案歸屬結果顯示狀態(tài):
選中none,不顯示個案歸屬情況;選中Singlesolution,則顯示聚集成指定的n類時個案歸屬情況;選中Rangeofsolutions,則顯示聚集成n1到n2范圍內的各種情況下的個案歸屬情況。第8頁,共18頁,2023年,2月20日,星期二第六步:設定保存層次聚類分析的結果。點擊層次聚類分析對話框中的“save”可以打開設置保存分類結果的對話框。在“Clustermembership”下邊:
選中None,不保存聚類結果到數據編輯窗口;選中Singlesolution,則保存聚集成指定的n類時個案歸屬結果;選中Rangeofsolutions,則顯示聚集成n1到n2范圍內的各種情況下的個案歸屬結果。
OK!第9頁,共18頁,2023年,2月20日,星期二實例分析:根據20名被試在不同色光刺激下選擇反應時間的反應模式,對其進行類型劃分。實驗數據如下表所示:IDREDGREENBLUEYELLOW1410389450490235636039140634124224804654320350400420538039042546063904564554337412450440455835638340041094053904904501038841042641011378410426409123003504004201341242049052314420430451480153683903894031639040042050917405380510489183903904284761940038050045520420400486505SPSS過程演示第10頁,共18頁,2023年,2月20日,星期二三、R聚類分析的SPSS過程
R層次聚類分析對研究對象的觀察變量進行分類,它使得具有共同特征的變量聚集在一起,以便選擇其中具有代表性的變量,實現用較少變量刻畫研究對象的目的。
R聚類分析的過程與Q聚類分析的過程是一致的,只是在打開“HierarchicalClusterAnalysis”的對話框中選“Variables”的聚類。在變量間距離的計算方法上選“PearsonCorrelation”,其它操作與Q聚類相同。實例分析:根據學生考試分數對課程進行分類第11頁,共18頁,2023年,2月20日,星期二四、快速聚類分析快速聚類分析是由研究者指定類別數的大樣本資料逐步聚類分析。它先對數據進行初始分類,然后逐步調整,得到最終分類??焖倬垲惙治鲆话闶菍€案來進行的。對于變量分類來說,當變量較少時可以使用層次聚類分析中的R聚類分析;當變量數比較多時則可以使用因素分析??焖倬垲惙治鲆彩且詡€案的距離為基礎的,與層次聚類分析不同的是:快速聚類分析要指定分類的類別數??焖倬垲惙治龅倪壿嫵绦蚴牵?.用戶指定分類類別數k(無經驗時可以進行多次探索性分析)2.SPSS程序自動確定各類中心點(有經驗用戶也可以自己定義)3.計算所有個案數據點到k個類中心點的歐氏距離4.根據距離最近原則將個案歸類,即距離哪個類中心點最近歸為哪個類第12頁,共18頁,2023年,2月20日,星期二第一步:數據文件的準備。快速聚類分析的數據文件往往比較大,主要是包括的個案數較多,而且可以包括一個個案的標識變量。當數據文件中數據量綱不一致時,則需要對數據進行標準化轉換或其它轉換。第二步:點擊“Analyze”菜單選中“Classify”的“K-MeansCluster”打開快速聚類分析對話框,將參與聚類分析的觀測變量置入“Variable(s)”下的方框中,將個案標識變量的變量名置入“LabelCasesBy”下的方框中,指定聚類的類別數,同時在“Method”之下選擇默認的“IterateandClassify”,這樣,程序可以自動確定類中心點。快速聚類分析的主要步驟是:第13頁,共18頁,2023年,2月20日,星期二第三步:點擊“Options”打開統計參數顯示對話框和缺省值處理方式對話框。在“Statistics”之下有三方面的顯示要求:
Initialclustercenters:顯示有關初始類中心點的數據;
Anovatable:對快速聚類分析產生的類作單因素方差分析,并輸出各個變量的方差分析表;
Clusterinformationforeachcase:輸出個案的分類信息及距所屬類中心點的距離。其它操作以默認方式進行第14頁,共18頁,2023年,2月20日,星期二實例分析:為反映員工心理因素方面的差異性,某研究者調研了一工廠36名員工的6項心理因素,如下表所示。請根據這一分數對員工進行分類,并回答:員工分成幾類比較理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246SPSS過程演示第15頁,共18頁,2023年,2月20日,星期二練習題1.為研究不同公司的運營特點,調查了15個公司的組織文化、組織氛圍、領導角色和員工發(fā)展4個方面的內容。請將這15個公司按照其各自的特點劃分成4種類型。數據如下表所示。不同公司的特點公司組織文化組織氛圍領導角色員工發(fā)展MICROSOF80857590IBM85859090DELL85858560APPLE90907590聯想99987880NPP88898990北京電子79809597清華紫光89788
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版電廠煤炭采購合同與環(huán)保型付款策略3篇
- 2025年碳晶片技術培訓及咨詢合同3篇
- 開發(fā)商繼續(xù)履行合同范本(2篇)
- 工廠員工勞動合同(2篇)
- 二零二五版貨物代理合同范本3篇
- 二零二五年度棉花價格指數編制與應用合同4篇
- 2025年度個人購房借款合同物業(yè)管理服務協議3篇
- 二零二五年度中小企業(yè)應收賬款質押貸款合同范本4篇
- 2025年航空航天產業(yè)投資入股分紅合同3篇
- 2025年度租賃車輛智能監(jiān)控服務合同遠程管理4篇
- 加強教師隊伍建設教師領域學習二十屆三中全會精神專題課
- 2024-2025學年人教版數學七年級上冊期末復習卷(含答案)
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- 2024年上海市中考數學真題試卷及答案解析
- 2024年全國卷1高考理綜試題及答案
- (完整版)金融市場基礎知識知識點歸納-圖文
- 五年級數學(小數乘除法)計算題專項練習及答案
- 小學數學知識結構化教學
- 2022年睪丸腫瘤診斷治療指南
- 被執(zhí)行人給法院執(zhí)行局寫申請范本
- 飯店管理基礎知識(第三版)中職PPT完整全套教學課件
評論
0/150
提交評論