第7講 聚類分析與判別分析_第1頁
第7講 聚類分析與判別分析_第2頁
第7講 聚類分析與判別分析_第3頁
第7講 聚類分析與判別分析_第4頁
第7講 聚類分析與判別分析_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第第11章章 聚類分析與判別分聚類分析與判別分析析第一節(jié)第一節(jié) 聚類分析與判別分析原理簡介聚類分析與判別分析原理簡介 處理分類問題 一、一、 聚類分析聚類分析 又稱,群分析。做什么? 把沒有分類信息的資料按照相似程度歸類。怎么做? 系統(tǒng)聚類法(應(yīng)用較廣)和非系統(tǒng)聚類法 二、二、 判別分析判別分析做什么? 在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測量數(shù)據(jù)的基礎(chǔ)上,根據(jù)某些準(zhǔn)則建立判別式,然后對未知類型的樣品進(jìn)行判別分析。怎么做? 距離判別、貝葉斯(Bayes)判別、費(fèi)歇(Fisher)判別等第二節(jié)第二節(jié) K-均值聚類法分析均值聚類法分析【K-Mean Cluster

2、】過程過程 又稱快速聚類法,屬于非系統(tǒng)聚類。一、一、K-均值聚類法基本原理均值聚類法基本原理 K均值聚類法迭代終止條件:兩次迭代計(jì)算的聚心之間距離的最大改變量小于初始聚心間最小距離的 倍到達(dá)迭代次數(shù)的上限 K均值聚類的優(yōu)缺點(diǎn):優(yōu)點(diǎn):優(yōu)點(diǎn):占有內(nèi)存少、計(jì)算量小、處理速度快,特別適合大樣 本的聚類分析 缺點(diǎn):缺點(diǎn):1、應(yīng)用范圍有限,要求用戶指定分類數(shù)目; 2、只能對觀測量聚類,而不能對變量聚類; 3、所使用的聚類變量必須都是連續(xù)性變量。 二、引例二、引例(練習(xí)一)(練習(xí)一)例1 利用如下數(shù)據(jù)將以下城市按照空氣指標(biāo)分類。下表中,表示城市空氣質(zhì)量指標(biāo)為“顆粒物”、“二氧化硫”、“二氧化碳”和“天數(shù)”,

3、其中“天數(shù)”指空氣質(zhì)量達(dá)到或好于二級的天數(shù)。(數(shù)據(jù)文件:主要城市空氣質(zhì)量指標(biāo).sav)1、對聚類變量標(biāo)準(zhǔn)化、對聚類變量標(biāo)準(zhǔn)化【Analyze】 / 【Descriptives Statistics】/【 Descriptives 】思考:為什么要標(biāo)準(zhǔn)化?2、執(zhí)行【Analyze】 / 【Classify】/【K-means Cluster】標(biāo)記觀測量框,相當(dāng)于觀測量記錄號類數(shù)目欄,設(shè)置聚類數(shù)選擇聚類方法(迭代過程不斷更新聚類中心)(迭代過程聚類中心一直不變)聚心框,用于設(shè)置最終聚心和初始聚心存?。▽⒆罱K聚心保存到指定的文件或數(shù)據(jù)集中)(若不選,則自動生成初始聚心)Iterate:設(shè)置迭代參數(shù)最

4、大迭代次數(shù)欄收斂標(biāo)準(zhǔn)值欄(不超過1)使用移動平均:選擇,則表示在迭代過程中每分配一個觀測量到某類后立刻計(jì)算新的聚心;不選,則表示當(dāng)所有的觀測量分配完再計(jì)算各類聚心Save New Variables:選擇保存新變量的方式聚類成員選項(xiàng)。選擇,則工作文件中將建立一個名為”QCL_1”變量,其值為各觀測量的聚類后最終所屬的類別。聚類中心距離選項(xiàng)。選擇,則工作文件中將建立一個名為”QCL_2”變量,其值為各觀測量與所屬類的聚心間的歐氏距離。Options對話框用于指定輸出統(tǒng)計(jì)量值(輸出初始聚心)(輸出方差分析表)(每個觀測量的聚類信息選項(xiàng),顯示每個觀測量最終被聚入的類別、各觀測量與最終聚心的歐氏距離,

5、以及最終各類聚心間的歐氏距離)缺失值框,指定缺失值處理方式結(jié)果解讀:結(jié)果解讀:1、初始聚類中心表、初始聚類中心表列出由系統(tǒng)給出的各類的初始聚類中心。2、迭代史表、迭代史表列出迭代過程中各類聚類心的改變值。說明:聚類過程經(jīng)過6次迭代才終止,初始聚類中心之間的最小距離為2.976.3、最終聚類中心表、最終聚類中心表列出各類的最終聚類心。4、每類中的樣品數(shù)目表、每類中的樣品數(shù)目表列出每個類鐘的觀測量數(shù)目、有效觀測量數(shù)目以及缺失觀測量數(shù)目。第三節(jié) 系統(tǒng)聚類法【HIERARCHICAL】過程 一、系統(tǒng)聚類法的基本思想是:視觀測量(或者變量)各自成為一類;找性質(zhì)最接近的兩個類合并成一個新類,計(jì)算在新的類別

6、分劃下各類之間的距離;再將性質(zhì)最接近的兩類合并,直到所有模式聚成一類為止。 系統(tǒng)聚類法優(yōu)點(diǎn):既可以對觀測量也可以對變量進(jìn)行聚類;所使用的變量既可以是連續(xù)變量也可以是分類變量;提供的距離計(jì)算方法和結(jié)果顯示方法也很豐富。 二、引例二、引例(練習(xí)二)(練習(xí)二)例2 觀測量聚類:觀測量聚類:按照交通情況對各地進(jìn)行聚類。數(shù)據(jù)文件:各地區(qū)交通事故情況(2004).sav,其中變量:city(城市名稱)、happen(事故發(fā)生次數(shù))、death(死亡人數(shù))、injuried(受傷人數(shù))、loss(損失折款)。1、對聚類變量標(biāo)準(zhǔn)化、對聚類變量標(biāo)準(zhǔn)化【Analyze】 / 【Descriptives Stati

7、stics】/【 Descriptives 】2、執(zhí)行、執(zhí)行【Analyze】/【Classify】/【Hierarchical Cluster】用于放置進(jìn)行分層聚類的變量標(biāo)記觀測量,對觀測量聚類時才被激活(對觀測量聚類)(對變量聚類)選擇顯示內(nèi)容(顯示統(tǒng)計(jì)量值)(顯示圖形)Statistics:選擇要輸出的統(tǒng)計(jì)量只有在主對話框選擇Statistics時才被激活(輸出一張概述聚類進(jìn)度的表格)(輸出一個相似性矩陣來顯示各項(xiàng)間的距離)樣品隸屬類單選框(表示不輸出樣本隸屬類表)(指定一個分類數(shù)目,然后輸出樣品隸屬表)(指定兩個分類數(shù),然后輸出其間各種分類的樣品隸屬表)Plots:選擇要輸出的圖形(龍

8、骨圖)(冰柱圖)(顯示全部聚類結(jié)果的冰柱圖)(限制聚類解范圍)(最小聚類解)(最大聚類解)(步長)(不輸出冰柱圖)(輸出垂直冰柱圖)(輸出水平冰柱圖)Method:選擇具體的聚類方法(選擇不同的類間距離的測量方法)(選擇距離測度方法)(為間隔測度的連續(xù)型變量提供距離算法)(默認(rèn)歐氏距離的平方)(為頻數(shù)計(jì)數(shù)變量提供測度計(jì)數(shù)數(shù)據(jù)的不相似方法)(默認(rèn)卡方測度)(為二元變量提供二值數(shù)據(jù)的不相似性測度)(默認(rèn)二元變量歐氏距離的平方)(轉(zhuǎn)換值框,用于選擇數(shù)據(jù)標(biāo)準(zhǔn)化方法)(對變量)(對數(shù)據(jù))(轉(zhuǎn)換測度框,用于選擇測度轉(zhuǎn)換方法)(絕對值轉(zhuǎn)換法)(變號轉(zhuǎn)換法)(重新調(diào)節(jié)測度值到范圍0-1轉(zhuǎn)換法)Save New

9、 Variables:選擇保存新變量的方式只有對觀測量聚類才能被激活樣品隸屬類單選框(表示不輸出樣本隸屬類結(jié)果)(指定一個分類數(shù)目,然后建立新變量輸出樣品隸屬結(jié)果)(指定兩個分類數(shù),然后建立新變量輸出其間各種分類的樣品隸屬結(jié)果)結(jié)果解讀:結(jié)果解讀:1、觀測量概述表、觀測量概述表2、聚類進(jìn)度表、聚類進(jìn)度表描述系統(tǒng)聚類法的具體實(shí)現(xiàn)步驟。(聚類步數(shù))(具體合并哪兩類)類間距離測度系數(shù)該步聚類合并的兩類上一次出現(xiàn)的步驟數(shù)該步生成的新類下一次合并將出現(xiàn)的在第幾步3、龍骨圖、龍骨圖橫向距離表示差異的大小例3 變量聚類:按照日照數(shù)對月份進(jìn)行聚類。數(shù)據(jù)文件:主要城市日照對數(shù).sav,其中,“city”表示“城

10、市名稱”,各月份的日照數(shù)為“Jan”、“Feb”、“Dec”。執(zhí)行執(zhí)行【Analyze】/【Classify】/【Hierarchical Cluster】為什么不標(biāo)準(zhǔn)化?要求輸出龍骨圖和垂直冰柱圖 結(jié)果解讀:結(jié)果解讀:1、觀測量概述表、觀測量概述表2、聚類進(jìn)度表、聚類進(jìn)度表3、垂直冰柱圖、垂直冰柱圖(16.0以上版本)以上版本)從下往上看,顯示了各變量依次在不同聚類時的分類歸屬情況。聚類個數(shù) 說明:若兩根冰柱圖中間有空隙,則代表對應(yīng)聚類個數(shù)下,這兩個變量(或觀測量)是屬于不同類的。相反,若兩根冰柱相連,則代表這兩個變量(或觀測量)在該聚類個數(shù)下是屬于一類的4、龍骨圖、龍骨圖第四節(jié)第四節(jié) 兩步

11、聚類法兩步聚類法【TWOSTEPTWOSTEP CLUSTER CLUSTER】過程過程探索性聚類方法,解決海量數(shù)據(jù)或者具有復(fù)雜類別結(jié)構(gòu)的聚類分析問題。 一、兩步聚類法基本原理一、兩步聚類法基本原理兩步聚類方法具有以下特點(diǎn):具備同時處理分類變量與連續(xù)變量的能力;自動選擇聚類數(shù);通過預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類模型,兩步聚類可以處理大樣本量的數(shù)據(jù)。兩步聚類法的一般步驟:第一步:第一步:預(yù)聚類。對記錄進(jìn)行初始的歸類,且自定義最大類別數(shù)。主要通過構(gòu)建和修改聚類特征樹(CF Tree)來完成。第二步:第二步:正式聚類。對第一步完成的初步聚類進(jìn)行再聚類并確定最終的聚類方案,系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定

12、聚類的類別數(shù)目??筛鶕?jù)傳統(tǒng)的聚類方法進(jìn)行聚類,常用合并型分層聚類法。注:注:兩步聚類在預(yù)先構(gòu)建聚類模型時依據(jù)進(jìn)入的樣本隨機(jī)考慮聚類數(shù),導(dǎo)致對數(shù)據(jù)進(jìn)入的次序敏感,不同的進(jìn)入次序會得到不同的聚類結(jié)果。解決辦法:解決辦法:(1)使用一指定隨機(jī)變量并以此排序,控制樣本進(jìn)入的順序,再進(jìn)行兩步聚類,并重復(fù)幾次此過程以檢驗(yàn)聚類結(jié)果的穩(wěn)定性;(2)如果樣本量不是很大,又不用同時處理多類數(shù)據(jù),可以使用其他的經(jīng)典聚類方法。二、引例二、引例(練習(xí)三)(練習(xí)三)例4 對數(shù)據(jù)文件“University of Florida graduate salaries.sav”中的數(shù)據(jù)用兩步聚類法進(jìn)行聚類?!続nalyze】/【

13、Classify】/【Twostep Cluster】分類變量或連續(xù)變量(當(dāng)作分類變量)連續(xù)變量選擇距離的測量方法對數(shù)似然值歐氏距離連續(xù)變量計(jì)數(shù)框聚類數(shù)目單選框系統(tǒng)自動決定分類數(shù)目自定義分類數(shù)目聚類準(zhǔn)則單選框指標(biāo)越小,聚類效果越好Options對話框用于建立CF樹過程的這個算法工具內(nèi)存分配框,選擇算法最大的內(nèi)存分配量(連續(xù)變量標(biāo)準(zhǔn)化框)(對前面提到的聚類特征樹的選項(xiàng)設(shè)置)Plots:圖形子對話框輸出各變量在聚類中比重圖輸出各變量在聚類餅分圖(變量重要性圖形框:輸出一類獨(dú)特的圖形,用來比較各個變量對聚類結(jié)果的重要性)每個變量一張圖,用直條長度確定該變量對于各個類別的重要性每個類別兩張圖,一張比較

14、連續(xù)變量對于聚類結(jié)果的重要性,一張比較分類變量對于聚類結(jié)果的重要性(直條長度)(重要性測度單選框,用于選擇變量重要性的測度方法)設(shè)置置信度勾選則系統(tǒng)自動刪除不重要的分析變量Output:輸出子對話框選擇要輸出的統(tǒng)計(jì)量輸出反映各類的輪廓特征的質(zhì)心表和頻數(shù)表輸出聚類中心表自動聚類結(jié)果列表在文件中創(chuàng)建一個新的變量,保存各個觀測量的所屬類別選擇輸出聚類的最終模型或聚類特征樹到指定位置 結(jié)果解讀:八個部分結(jié)果解讀:八個部分1、TwoStep Cluster部分部分(1)自動聚類結(jié)果列表)自動聚類結(jié)果列表列出了不同類別數(shù)的不同指標(biāo),這些指標(biāo)用于確認(rèn)最佳類別數(shù)。越小越好,確認(rèn)最佳類別數(shù)進(jìn)一步確認(rèn)最佳類別數(shù)(

15、峰值)(峰值)(峰值)(峰值)(2)類別分布表)類別分布表表中列出了每個類別所包含的觀測量數(shù)目。說明:系統(tǒng)認(rèn)定類別數(shù)為4類,每類中包含的觀測量數(shù)目都相差不大。2、Cluster Profiles部分部分輸出各類的輪廓特征。質(zhì)心表:質(zhì)心表:用于輸出連續(xù)變量在每個類別中的均值和標(biāo)準(zhǔn)差。3、Frequencies部分部分分類變量頻數(shù)表。(1)變量)變量“Gender”頻數(shù)表頻數(shù)表(2)變量)變量“Graddate”頻數(shù)表頻數(shù)表(3)變量)變量“College”頻數(shù)表(略)頻數(shù)表(略)說明:女性主要被分配到第一類和第三類中,其中,第一類多達(dá)71.6%。4、Attribute Importance部分部

16、分聚類餅圖,聚類分布表的圖形表示(將每一類別用餅圖形式表示)。5、Within Cluster Percentage部分部分分類變量在各個類別中的占比圖。(1)變量)變量“Gender”在聚類中的比重圖在聚類中的比重圖說明:第一類中全為女性,占比100%,第二、四類全為男性,第三類男女比例基本相當(dāng),女性略多。(2)變量)變量“College”在聚類中的比重圖在聚類中的比重圖(2)變量)變量“Graddate”在聚類中的比重圖在聚類中的比重圖6、Within Cluster Variation部分部分連續(xù)變量在各個類別中的誤差圖,質(zhì)心表的圖形表示。注:用圖形表示均值與95%置信區(qū)間的范圍。7、C

17、ategorical Variablewise Importance部分部分4個類別中分類變量重要性圖,用長條的長度和方向來表示各個變量在每一類中的重要性。(1)類別)類別1中分類變量的重要性圖中分類變量的重要性圖(2)類別)類別2中分類變量的重要性圖中分類變量的重要性圖(3)類別)類別3中分類變量的重要性圖中分類變量的重要性圖(4)類別)類別4中分類變量的重要性圖中分類變量的重要性圖8、Continuous Variablewise Importance部分部分4個類別中連續(xù)變量重要性圖,用長條的長度和方向來表示各個變量在每一類中的重要性。(1)類別)類別1中連續(xù)變量的重要性圖中連續(xù)變量的重

18、要性圖(2)類別)類別2中連續(xù)變量的重要性圖中連續(xù)變量的重要性圖(3)類別)類別3中連續(xù)變量的重要性圖中連續(xù)變量的重要性圖(4)類別)類別4中連續(xù)變量的重要性圖中連續(xù)變量的重要性圖注:本例只有一個連續(xù)變量,輸出無意義。第五節(jié) 判別分析【DiscriminantDiscriminant】過程 一、判別分析簡介一、判別分析簡介干什么? 判別樣品所屬類型的一種統(tǒng)計(jì)方法與聚類分析的關(guān)系 相同點(diǎn):解決分類問題 不同點(diǎn):判別分析是在已知研究對象分成若干類型,對未 知類型的樣品進(jìn)行判別分類 判別分析的一般步驟 常用判別法距離判別法距離判別法:根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的均值(重心),判別準(zhǔn)則是任給一次

19、觀測,若它與第i類的重心距離最近,就認(rèn)為它來自第i類。 注意: 距離一般采用馬氏距離; 距離判別適合對自變量均為連續(xù)變量的情況進(jìn)行分類; 距離判別對各類的分布無特定的要求。FisherFisher判別法判別法:借助方差分析的思想構(gòu)造一個判別函數(shù),其中判別系數(shù)的確定原則是使得類間的區(qū)別最大,而且類使得類間的區(qū)別最大,而且類內(nèi)的離差最小內(nèi)的離差最小,利用判別函數(shù)計(jì)算出待判樣品的判別指標(biāo),然后與判別臨界值進(jìn)行比較,判別它的類屬。Fisher判別對各類分布、方差都沒有限制。但當(dāng)總體個數(shù)較多時,計(jì)算比較麻煩。BayesBayes判別法:判別法:在考慮先驗(yàn)概率的前提下,利用Bayes公式計(jì)算樣品來自第i類

20、的后驗(yàn)概率,使用錯判損失最小的概念使用錯判損失最小的概念作判別準(zhǔn)則作判別準(zhǔn)則,建立判別函數(shù),將待判樣品歸入來自概率最大類。Bayes判別主要用于多類判別,它要求總體呈多元正態(tài)分布.逐步判別法:逐步判別法:逐步判別法與逐步回歸法的基本思想類似,都是逐步引入變量,每引入一個“最重要”的變量進(jìn)入判別式,同時也考慮較早引入判別式的某些變量,若其判別能力不顯著了,應(yīng)及時從判別式中剔除去,直到判別式中沒有不重要的變量需要剔除,且也沒有重要的變量要引入為止。二、引例二、引例(練習(xí)四)(練習(xí)四)例5 利用表格中的數(shù)據(jù)判斷待判國家的人口發(fā)展水平。數(shù)據(jù)文件:“1995年人類發(fā)展報(bào)告部分?jǐn)?shù)據(jù).sav”,其中,選取了

21、高發(fā)展國家和中等發(fā)展國家各5個作為兩組樣品,另外選了4個國家作為待判別樣品。注:利用逐步判別法判別待判樣品的類別。其中待判樣品的“region”變量值為缺失值【Analyze】/【Classify】/【Discriminant】分組變量設(shè)置變量的取值范圍自變量,選入建立判別函數(shù)所需變量逐步判別法所有自變量同時進(jìn)入判別函數(shù)定義記錄選擇條件Statistics:統(tǒng)計(jì)量子對話框(描述統(tǒng)計(jì)量)均值、標(biāo)準(zhǔn)差單因素方差分析假設(shè)各類協(xié)方差矩陣相等,Boxs M檢驗(yàn)(判別函數(shù)系數(shù))(矩陣)類內(nèi)相關(guān)矩陣類內(nèi)協(xié)方差矩陣對每一類分別顯示協(xié)方差矩陣總樣本的協(xié)方差矩陣Stepwise:逐步判別法對話框(判逐判別分析時用

22、的擬合方法)(終止逐步判別臨界值)引入變量臨界值剔除變量臨界值引入變量臨界值剔除變量臨界值(選擇每一步需要輸出的統(tǒng)計(jì)量)匯總表每一對類間的F比值矩陣Classification:分類對話框(先驗(yàn)概率)各類先驗(yàn)概率均相等基于各類樣本量占總樣本量的比例計(jì)算先驗(yàn)概率(使用協(xié)方差矩陣)使用合并類內(nèi)協(xié)方差矩陣進(jìn)行分類使用各類協(xié)方差矩陣進(jìn)行分類(圖形)生成全部類的散點(diǎn)圖,若只有一個判別函數(shù),則生成直方圖對每一類分別生成散點(diǎn)圖,若只有一個判別函數(shù),則生成直方圖生成根據(jù)判別函數(shù)值將觀測量分到各類去的邊界,若只有一個判別函數(shù),則不顯示(顯示)輸出每個觀測量判別后的所屬類別限制輸出分類結(jié)果的觀測量數(shù)目(輸出分類小結(jié)表,對每一類輸出判定正確和錯判的觀測數(shù))對每一觀測量輸出除它之外的其他觀測量導(dǎo)出的判別函數(shù)的分類結(jié)果Save:保存對話框選擇建立新變量將判別分析結(jié)果保存到當(dāng)前工作文件中。建立新變量將判別分析結(jié)果保存預(yù)測觀測量所屬類的值保存判別指數(shù)保存各觀測量屬于各類的概率值 結(jié)果解讀:五個部分結(jié)果解讀:五個部分1、Discriminant部分部分(1)記錄納入情況簡報(bào)表)記錄納

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論