版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第12章聚類分析第12章聚類分析
聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起,從而使得類別內(nèi)部的“差異”盡可能小,而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進(jìn)行分類什么是聚類分析?
(clusteranalysis)把“對象”分成不同的類別什么是聚類分析?
(cluster聚類分析的“對象”可以是所觀察的多個(gè)樣本,也可以是針對每個(gè)樣本測得的多個(gè)變量按照變量對所觀察的樣本進(jìn)行分類稱為Q型聚類按照多項(xiàng)經(jīng)濟(jì)指標(biāo)(變量)對不同的地區(qū)(樣本)進(jìn)行分類按照樣本對多個(gè)變量進(jìn)行分類,則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個(gè)經(jīng)濟(jì)變量進(jìn)行分類兩種聚類沒有什么本質(zhì)區(qū)別,實(shí)際中人們更感興趣的通常是根據(jù)變量對樣本進(jìn)行分類(Q型聚類)什么是聚類分析?
(兩種分類方式)聚類分析的“對象”可以是所觀察的多個(gè)樣本,也可以是針對每個(gè)樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關(guān)系數(shù)等工具,也稱為相似系數(shù)變量間的相似系數(shù)越大,說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類,而離得比較遠(yuǎn)的放在不同的類什么是聚類分析?
(按什么分類)按對象的“相似”程度分類什么是聚類分析?
(按什么分類)相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)
Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)Euclidean在對變量進(jìn)行分類時(shí),度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量
(變量相似系數(shù)的計(jì)算方法)
夾角余弦
Pearson相關(guān)系數(shù)
在對變量進(jìn)行分類時(shí),度量變量之間的相似性常用相似系數(shù),測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類,而是先把每一個(gè)對象作為一類,然后一層一層進(jìn)行分類根據(jù)運(yùn)算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運(yùn)算原理一樣,只是方向相反層次聚類
(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類
(hierarchicalc將每一個(gè)樣本作為一類,如果是k個(gè)樣本就分k成類按照某種方法度量樣本之間的距離,并將距離最近的兩個(gè)樣本合并為一個(gè)類別,從而形成了k-1個(gè)類別再計(jì)算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個(gè)類別合并為一類。這時(shí),如果類別的個(gè)數(shù)仍然大于1,則繼續(xù)重復(fù)這一步,直到所有的類別都合并成一類為止總是先把離得最近的兩個(gè)類進(jìn)行合并合并越晚的類,距離越遠(yuǎn)事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個(gè)合適的分類結(jié)果層次聚類
(合并法)將每一個(gè)樣本作為一類,如果是k個(gè)樣本就分k成類層次聚類
(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠(yuǎn)的對象分離出去,形成兩大類(其中的一類只有一個(gè)對象)再度量類別中剩余對象之間的距離或相似程度,并將最遠(yuǎn)的分離出去,不斷重復(fù)這一過程,直到所有的對象都自成一類為止層次聚類
(分解法)分解方法原理與合并法相反層次聚類
(分解法)Nearestneighbor(最短距離法)—用兩個(gè)類別中各個(gè)數(shù)據(jù)點(diǎn)之間最短的那個(gè)距離來表示兩個(gè)類別之間的距離Furthestneighbor(最長距離法)—用兩個(gè)類別中各個(gè)數(shù)據(jù)點(diǎn)之間最長的那個(gè)距離來表示兩個(gè)類別之間的距離Centroidclustering(重心法)—用兩個(gè)類別的重心之間的距離來表示兩個(gè)類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認(rèn)方法。是用兩個(gè)類別中間各個(gè)數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩個(gè)類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大類間距離的計(jì)算方法Nearestneighbor(最短距離法)—用兩個(gè)類別中層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得出所有可能的類別結(jié)果,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點(diǎn)是計(jì)算量較大,對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù),計(jì)算量要小得多,效率比層次聚類要高,也被稱為快速聚類(quickcluster)K-均值聚類
(K-meanscluster)層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得第1步:確定要分的類別數(shù)目K需要研究者自己確定在實(shí)際應(yīng)用中,往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試,得到不同的分類并進(jìn)行比較,得出最后要分的類別數(shù)量第2步:確定K個(gè)類別的初始聚類中心要求在用于聚類的全部樣本中,選擇K個(gè)樣本作為K個(gè)類別的初始聚類中心與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實(shí)際問題和經(jīng)驗(yàn)來綜合考慮K-均值聚類
(步驟)第1步:確定要分的類別數(shù)目KK-均值聚類
(步驟)第3步:根據(jù)確定的K個(gè)初始聚類中心,依次計(jì)算每個(gè)樣本到K個(gè)聚類中心的距離歐氏距離,并根據(jù)距離最近的原則將所有的樣本分到事先確定的K個(gè)類別中第4步:根據(jù)所分成的K個(gè)類別,計(jì)算出各類別中每個(gè)變量的均值,并以均值點(diǎn)作為新的K個(gè)類別中心。根據(jù)新的中心位置,重新計(jì)算每個(gè)樣本到新中心的距離,并重新進(jìn)行分類K-均值聚類
(步驟)第3步:根據(jù)確定的K個(gè)初始聚類中心,依次計(jì)算每個(gè)樣本到K個(gè)聚第5步:重復(fù)第4步,直到滿足終止聚類條件為止迭代次數(shù)達(dá)到研究者事先指定的最大迭代次數(shù)新確定的聚類中心點(diǎn)與上一次迭代形成的中心點(diǎn)的最大偏移量小于指定的量K-均值聚類法是根據(jù)事先確定的K個(gè)類別反復(fù)迭代直到把每個(gè)樣本分到指定的里類別中。類別數(shù)目的確定具有一定的主主觀性,究竟分多少類合適,需要研究者對研究問題的了解程度、相關(guān)知識和經(jīng)驗(yàn)K-均值聚類
(步驟)第5步:重復(fù)第4步,直到滿足終止聚類條件為止K-均值聚類
(Stata命令matrixdissimilaritycluster、clustermatclusterkmeans、clusterkmediansclusterdendrogramStata命令matrixdissimilarity17本章結(jié)束,謝謝觀看!17本章結(jié)束,謝謝觀看!第12章聚類分析第12章聚類分析
聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起,從而使得類別內(nèi)部的“差異”盡可能小,而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進(jìn)行分類什么是聚類分析?
(clusteranalysis)把“對象”分成不同的類別什么是聚類分析?
(cluster聚類分析的“對象”可以是所觀察的多個(gè)樣本,也可以是針對每個(gè)樣本測得的多個(gè)變量按照變量對所觀察的樣本進(jìn)行分類稱為Q型聚類按照多項(xiàng)經(jīng)濟(jì)指標(biāo)(變量)對不同的地區(qū)(樣本)進(jìn)行分類按照樣本對多個(gè)變量進(jìn)行分類,則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個(gè)經(jīng)濟(jì)變量進(jìn)行分類兩種聚類沒有什么本質(zhì)區(qū)別,實(shí)際中人們更感興趣的通常是根據(jù)變量對樣本進(jìn)行分類(Q型聚類)什么是聚類分析?
(兩種分類方式)聚類分析的“對象”可以是所觀察的多個(gè)樣本,也可以是針對每個(gè)樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關(guān)系數(shù)等工具,也稱為相似系數(shù)變量間的相似系數(shù)越大,說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類,而離得比較遠(yuǎn)的放在不同的類什么是聚類分析?
(按什么分類)按對象的“相似”程度分類什么是聚類分析?
(按什么分類)相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)
Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)Euclidean在對變量進(jìn)行分類時(shí),度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量
(變量相似系數(shù)的計(jì)算方法)
夾角余弦
Pearson相關(guān)系數(shù)
在對變量進(jìn)行分類時(shí),度量變量之間的相似性常用相似系數(shù),測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類,而是先把每一個(gè)對象作為一類,然后一層一層進(jìn)行分類根據(jù)運(yùn)算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運(yùn)算原理一樣,只是方向相反層次聚類
(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類
(hierarchicalc將每一個(gè)樣本作為一類,如果是k個(gè)樣本就分k成類按照某種方法度量樣本之間的距離,并將距離最近的兩個(gè)樣本合并為一個(gè)類別,從而形成了k-1個(gè)類別再計(jì)算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個(gè)類別合并為一類。這時(shí),如果類別的個(gè)數(shù)仍然大于1,則繼續(xù)重復(fù)這一步,直到所有的類別都合并成一類為止總是先把離得最近的兩個(gè)類進(jìn)行合并合并越晚的類,距離越遠(yuǎn)事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個(gè)合適的分類結(jié)果層次聚類
(合并法)將每一個(gè)樣本作為一類,如果是k個(gè)樣本就分k成類層次聚類
(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠(yuǎn)的對象分離出去,形成兩大類(其中的一類只有一個(gè)對象)再度量類別中剩余對象之間的距離或相似程度,并將最遠(yuǎn)的分離出去,不斷重復(fù)這一過程,直到所有的對象都自成一類為止層次聚類
(分解法)分解方法原理與合并法相反層次聚類
(分解法)Nearestneighbor(最短距離法)—用兩個(gè)類別中各個(gè)數(shù)據(jù)點(diǎn)之間最短的那個(gè)距離來表示兩個(gè)類別之間的距離Furthestneighbor(最長距離法)—用兩個(gè)類別中各個(gè)數(shù)據(jù)點(diǎn)之間最長的那個(gè)距離來表示兩個(gè)類別之間的距離Centroidclustering(重心法)—用兩個(gè)類別的重心之間的距離來表示兩個(gè)類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認(rèn)方法。是用兩個(gè)類別中間各個(gè)數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩個(gè)類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大類間距離的計(jì)算方法Nearestneighbor(最短距離法)—用兩個(gè)類別中層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得出所有可能的類別結(jié)果,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點(diǎn)是計(jì)算量較大,對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù),計(jì)算量要小得多,效率比層次聚類要高,也被稱為快速聚類(quickcluster)K-均值聚類
(K-meanscluster)層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得第1步:確定要分的類別數(shù)目K需要研究者自己確定在實(shí)際應(yīng)用中,往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試,得到不同的分類并進(jìn)行比較,得出最后要分的類別數(shù)量第2步:確定K個(gè)類別的初始聚類中心要求在用于聚類的全部樣本中,選擇K個(gè)樣本作為K個(gè)類別的初始聚類中心與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實(shí)際問題和經(jīng)驗(yàn)來綜合考慮K-均值聚類
(步驟)第1步:確定要分的類別數(shù)目KK-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版?zhèn)€人對個(gè)人民宿短租服務(wù)合同3篇
- 二零二五年度版權(quán)監(jiān)控合同2篇
- 二零二五版物流配送合同管理員安全生產(chǎn)保障協(xié)議3篇
- 二零二五年度餐飲業(yè)食品安全培訓(xùn)及咨詢服務(wù)合同范本3篇
- 二零二五年電梯安全知識競賽獎(jiǎng)品贊助與提供合同3篇
- 二零二五年海參養(yǎng)殖基地與農(nóng)產(chǎn)品營銷策劃公司合作合同文本3篇
- 二零二五年度鋼結(jié)構(gòu)景觀亭臺制作安裝合同3篇
- 二零二五年度CFG樁基施工與監(jiān)理一體化承包合同2篇
- 二零二五年度高鐵站車庫租賃與行李寄存服務(wù)合同3篇
- 二零二五年教育培訓(xùn)機(jī)構(gòu)實(shí)習(xí)學(xué)生勞動(dòng)合同規(guī)范文本3篇
- 2025年湖北武漢工程大學(xué)招聘6人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 【數(shù) 學(xué)】2024-2025學(xué)年北師大版數(shù)學(xué)七年級上冊期末能力提升卷
- GB/T 26846-2024電動(dòng)自行車用電動(dòng)機(jī)和控制器的引出線及接插件
- 遼寧省沈陽市皇姑區(qū)2024-2025學(xué)年九年級上學(xué)期期末考試語文試題(含答案)
- 妊娠咳嗽的臨床特征
- 國家公務(wù)員考試(面試)試題及解答參考(2024年)
- 《阻燃材料與技術(shù)》課件 第6講 阻燃纖維及織物
- 2024年金融理財(cái)-擔(dān)保公司考試近5年真題附答案
- 泰山產(chǎn)業(yè)領(lǐng)軍人才申報(bào)書
- 高中語文古代文學(xué)課件:先秦文學(xué)
- 人教版五年級上冊遞等式計(jì)算100道及答案
評論
0/150
提交評論