版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
應(yīng)用多元統(tǒng)計(jì)分析第五章聚類分析1第1頁,課件共66頁,創(chuàng)作于2023年2月2第五章把對(duì)象分類
——聚類分析第2頁,課件共66頁,創(chuàng)作于2023年2月3分類俗語說,物以類聚、人以群分。當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。但是當(dāng)有多個(gè)指標(biāo),要進(jìn)行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);第3頁,課件共66頁,創(chuàng)作于2023年2月4聚類分析由于不同的指標(biāo)項(xiàng)對(duì)重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,因?yàn)檫@樣會(huì)忽視相對(duì)重要程度的問題。所以需要進(jìn)行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對(duì)考古分類中研究中發(fā)展起來的,同時(shí)又應(yīng)用于昆蟲的分類中,此后又廣泛地應(yīng)用在天氣、生物等方面。第4頁,課件共66頁,創(chuàng)作于2023年2月5聚類分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(相當(dāng)于對(duì)數(shù)據(jù)中的列分類),也可以對(duì)觀測(cè)值(事件,樣品)來分類(相當(dāng)于對(duì)數(shù)據(jù)中的行分類)。對(duì)變量的聚類稱為R型聚類,而對(duì)觀測(cè)值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對(duì)稱的,沒有什么不同。第5頁,課件共66頁,創(chuàng)作于2023年2月6聚類中選擇變量的要求和聚類分析的目標(biāo)密切相關(guān)反映了要分類對(duì)象的特征變量之間不應(yīng)該高度相關(guān)。第6頁,課件共66頁,創(chuàng)作于2023年2月7如何聚類?聚類分析就是要找出具有相近程度的點(diǎn)或類聚為一類;如何衡量這個(gè)“相近程度”?一種方法是用相似系數(shù),性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對(duì)值越接近1,而彼此無關(guān)的樣品,它們的相似系數(shù)的絕對(duì)值越接近于零。比較相似的樣品歸為一類,不怎么相似的樣品歸為不同的類。另一種方法是將一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并在空間定義距離,距離越近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同的類。第7頁,課件共66頁,創(chuàng)作于2023年2月8距離和相似系數(shù)第8頁,課件共66頁,創(chuàng)作于2023年2月9距離什么是距離?首先我們看樣本數(shù)據(jù):一般滿足以下四個(gè)條件時(shí),就稱為聚例:第9頁,課件共66頁,創(chuàng)作于2023年2月10常用距離——明氏距離Minkowski距離:當(dāng)q=1時(shí):當(dāng)q=2時(shí):當(dāng)q=∞時(shí):第10頁,課件共66頁,創(chuàng)作于2023年2月11明氏距離的缺點(diǎn)距離的大小與個(gè)指標(biāo)的觀測(cè)單位有關(guān),具有一定的人為性。例如:對(duì)體重和身高進(jìn)行測(cè)量,采用不同單位,其距離測(cè)量的結(jié)果不同。以歐氏距離為例。第11頁,課件共66頁,創(chuàng)作于2023年2月12當(dāng)長度=cm時(shí):第12頁,課件共66頁,創(chuàng)作于2023年2月13當(dāng)長度=mm時(shí):改進(jìn)的方法:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后再計(jì)算距離。第13頁,課件共66頁,創(chuàng)作于2023年2月14采用明氏距離需要注意的是:一定要采用相同量綱的變量。如果各變量的量綱不同,或當(dāng)各變量的量綱相同但各變量的測(cè)量值相差懸殊時(shí),不能直接采用明氏距離。需要先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后再用標(biāo)準(zhǔn)化處理后的數(shù)據(jù)計(jì)算距離。最常用的標(biāo)準(zhǔn)化處理方法是:第14頁,課件共66頁,創(chuàng)作于2023年2月15對(duì)指標(biāo)標(biāo)準(zhǔn)化的方法第15頁,課件共66頁,創(chuàng)作于2023年2月16明氏距離的缺點(diǎn)另一個(gè)缺點(diǎn):它沒有考慮到指標(biāo)之間的相關(guān)性。改進(jìn)的方法是:采用馬氏距離馬氏距離是1936年由印度數(shù)學(xué)家:馬哈拉比斯由協(xié)方差矩陣計(jì)算構(gòu)造的距離。第16頁,課件共66頁,創(chuàng)作于2023年2月17距離矩陣第17頁,課件共66頁,創(chuàng)作于2023年2月18相似系數(shù)研究樣品之間的關(guān)系,除了用距離表示外,還有相似系數(shù),顧名思義,相似系數(shù)是描寫樣品之間相似程度的一個(gè)量,常用的相似系數(shù)有:夾角余弦相關(guān)系數(shù)第18頁,課件共66頁,創(chuàng)作于2023年2月19相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長度不一樣,但形狀相似。當(dāng)長度不是主要矛盾時(shí),就可利用夾角余弦這樣的相似系數(shù)。第19頁,課件共66頁,創(chuàng)作于2023年2月20夾角余弦—cosine第20頁,課件共66頁,創(chuàng)作于2023年2月21相似矩陣第21頁,課件共66頁,創(chuàng)作于2023年2月22相關(guān)系數(shù)第22頁,課件共66頁,創(chuàng)作于2023年2月23相關(guān)系數(shù)矩陣把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣。第23頁,課件共66頁,創(chuàng)作于2023年2月24第24頁,課件共66頁,創(chuàng)作于2023年2月25聚類分析內(nèi)容系統(tǒng)聚類法有序樣品聚類法動(dòng)態(tài)聚類法模糊聚類法圖論聚類法聚類預(yù)報(bào)法等。本章主要介紹常用的系統(tǒng)聚類法。第25頁,課件共66頁,創(chuàng)作于2023年2月26系統(tǒng)聚類法第26頁,課件共66頁,創(chuàng)作于2023年2月27系統(tǒng)聚類法的基本思想先將每個(gè)研究對(duì)象(樣品或指標(biāo))各自看成一類。然后根據(jù)對(duì)象間的相似度量,將h類中最相似的兩類合并,組成一個(gè)新類,這樣得到h-1類,再在這h-1類中找出最相似的兩類合并,得到h-2類,如此下去,直至將所有的對(duì)象并成一個(gè)大類為止。當(dāng)然,真的合并成一個(gè)類就失去了聚類的意義,所以上面的聚類過程應(yīng)該在某個(gè)類水平數(shù)(即未合并的類數(shù))停下來,最終的類就取這些未合并的類。決定聚類個(gè)數(shù)是一個(gè)很復(fù)雜的問題。第27頁,課件共66頁,創(chuàng)作于2023年2月28系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x,計(jì)算距離把每個(gè)樣品看成一類,構(gòu)造n個(gè)類合并最近的兩類為一新類計(jì)算新類與當(dāng)前各類的距離判斷畫聚類圖根據(jù)實(shí)際情況,確定類和類的個(gè)數(shù)僅有一個(gè)類不是僅有一個(gè)類采用系統(tǒng)聚類法第28頁,課件共66頁,創(chuàng)作于2023年2月29系統(tǒng)聚類法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠(yuǎn)樣品的距離,也可以定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。第29頁,課件共66頁,創(chuàng)作于2023年2月30八種系統(tǒng)聚類方法最短距離法最長距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法系統(tǒng)聚類分析盡管方法很多,但歸類的步驟基本上是一樣的,所不同的僅是類與類之間的距離有不同的定義方法,從而得到不同的計(jì)算距離的公式。這些公式在形式上不大一樣,但最后可將它們統(tǒng)一為一個(gè)公式,對(duì)上機(jī)計(jì)算帶來很大的方便。第30頁,課件共66頁,創(chuàng)作于2023年2月31系統(tǒng)聚類法最短距離法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5075.520第31頁,課件共66頁,創(chuàng)作于2023年2月32系統(tǒng)聚類法最長距離法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5085.520第32頁,課件共66頁,創(chuàng)作于2023年2月系統(tǒng)聚類法-中間法33第33頁,課件共66頁,創(chuàng)作于2023年2月系統(tǒng)聚類法-中間法34G1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6
G3G4G5G6G3G4G501.7505.50
3.507.25
5.52第34頁,課件共66頁,創(chuàng)作于2023年2月35系統(tǒng)聚類法重心法——CentroidClustering重心法定義兩類之間的距離就是兩類重心的距離。設(shè)的重心(即該類樣品的均值)分別是(注意一般他們是p維向量),則
之間的距離是計(jì)算公式為:
具體計(jì)算過程見參考書2p78-79。第35頁,課件共66頁,創(chuàng)作于2023年2月36系統(tǒng)聚類法類平均法——Between-groupsLinkage重心法雖有很好的代表性,但并未充分利用個(gè)樣品的信息,因此給出類平均法,它定義兩類之間的距離平方為這兩類元素兩兩之間距離平方的平均,即:設(shè)聚類到某一步將第36頁,課件共66頁,創(chuàng)作于2023年2月37系統(tǒng)聚類法離差平方和法——Word’sMethodWord’s法的基本思想是來自于方差分析,如果分類正確,同類樣品的離差平方和應(yīng)當(dāng)較小,類與類的離差平方和應(yīng)當(dāng)較大。具體方法:先將n個(gè)樣品各自成一類,然后每次縮小一類;每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直到所有的樣品歸為一類為止。第37頁,課件共66頁,創(chuàng)作于2023年2月38系統(tǒng)聚類法
中樣品的離差平方和為:第38頁,課件共66頁,創(chuàng)作于2023年2月39系統(tǒng)聚類法如有五個(gè)樣品:1,2,3.5,7,9第一步:將五個(gè)樣品各自分成一類,顯然這時(shí)的類內(nèi)離差平方和S=0;第二步:將一切可能的任意兩樣品合并,計(jì)算所增加的離差平方和:如第39頁,課件共66頁,創(chuàng)作于2023年2月40G1G2G3G4G5G1G2G3G4G500.503.1251.12301812.56.12503224.512.12520此外,還有類內(nèi)平均法等。第40頁,課件共66頁,創(chuàng)作于2023年2月41SPSS中的聚類分析與過程第41頁,課件共66頁,創(chuàng)作于2023年2月42例9.1飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量
第42頁,課件共66頁,創(chuàng)作于2023年2月43SPSS中的聚類分析Spss中的聚類功能常用的有兩種:快速聚類(迭代過程):
K-MeansCluster分層聚類:Hierarchical第43頁,課件共66頁,創(chuàng)作于2023年2月44HierarchicalCluster聚類分層聚類由兩種方法:分解法和凝聚法。分層聚類的功能:即可進(jìn)行樣品的聚類,也可進(jìn)行變量的聚類。分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。第44頁,課件共66頁,創(chuàng)作于2023年2月45HierarchicalCluster聚類分層聚類的中要進(jìn)行以下的選擇:數(shù)據(jù)的標(biāo)準(zhǔn)化測(cè)度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進(jìn)行選擇。輸出圖形的選擇:樹形圖或冰柱圖。第45頁,課件共66頁,創(chuàng)作于2023年2月46第46頁,課件共66頁,創(chuàng)作于2023年2月47歐氏平方距離、類平均法聚類快速聚類法聚類第47頁,課件共66頁,創(chuàng)作于2023年2月48歐氏平方距離、最短距離法聚類歐氏平方距離、最長距離法聚類第48頁,課件共66頁,創(chuàng)作于2023年2月49歐氏平方距離、重心法聚類歐氏平方距離、Word’s法聚類第49頁,課件共66頁,創(chuàng)作于2023年2月50聚類分析在市場(chǎng)細(xì)分中的應(yīng)用
要對(duì)消費(fèi)者購物的態(tài)度進(jìn)行分類,在前期研究的基礎(chǔ)上,確定6個(gè)態(tài)度變量。每個(gè)消費(fèi)者要對(duì)有關(guān)購物態(tài)度的6個(gè)觀點(diǎn)進(jìn)行評(píng)價(jià):1表示非常不同意,7表示非常同意。V1——購物很有趣V2——購物不利于我的預(yù)算V3——購物總是與上飯店吃飯聯(lián)系在一起V4——購物時(shí)我盡量買的最好V5——我對(duì)購物不感興趣V6——購物時(shí)多比較價(jià)格可以節(jié)省很多錢(SPSS文件:購物態(tài)度聚類分析)第50頁,課件共66頁,創(chuàng)作于2023年2月511類:1、3、6、7、8、12、15、172類:2、5、9、11、13、203類:4、10、14、16、18、19第51頁,課件共66頁,創(chuàng)作于2023年2月52
第1類消費(fèi)者對(duì)于V1和V3的評(píng)價(jià)相對(duì)較高,而對(duì)V5評(píng)價(jià)較低,因此可以稱其為“熱情的消費(fèi)者”。
V1——購物很有趣V3——購物總是與上飯店吃飯聯(lián)系在一起V5——我對(duì)購物不感興趣第52頁,課件共66頁,創(chuàng)作于2023年2月53
第2類消費(fèi)者正好與第1類相反,對(duì)于V1和V3的評(píng)價(jià)相對(duì)較低,而對(duì)V5評(píng)價(jià)較高,因此可以稱其為“冷淡的消費(fèi)者”。V1——購物很有趣V3——購物總是與上飯店吃飯聯(lián)系在一起V5——我對(duì)購物不感興趣第53頁,課件共66頁,創(chuàng)作于2023年2月54
第3類消費(fèi)者對(duì)于V2、V4和V6的評(píng)價(jià)相對(duì)較高,因此可以稱其為“經(jīng)濟(jì)型消費(fèi)者”。V2——購物不利于我的預(yù)算V4——購物時(shí)我盡量買的最好V6——購物時(shí)多比較價(jià)格可以節(jié)省很多錢第54頁,課件共66頁,創(chuàng)作于2023年2月55K-MeansMethods-快速聚類第55頁,課件共66頁,創(chuàng)作于2023年2月56K-MeansMethods第56頁,課件共66頁,創(chuàng)作于2023年2月57K-MeansMethods第57頁,課件共66頁,創(chuàng)作于2023年2月58K-MeansCluster原理首先,選擇n個(gè)數(shù)值型變量參與聚類分析,最后要求的聚類數(shù)為k個(gè);其次,由系統(tǒng)選擇k個(gè)(聚類的類數(shù))觀測(cè)量(也可由用戶指定)作為聚類的種子。第三,按照距離這些類中心的距離最小的原則把所有觀測(cè)量(樣品)分派到各類重心所在的類中去。第四,這樣每類中可能由若干個(gè)樣品,計(jì)算每個(gè)類中各個(gè)變量的均值,以此作為第二次迭代的中心;第五,然后根據(jù)這個(gè)中心重復(fù)第三、第四步,直到中心的迭代標(biāo)準(zhǔn)達(dá)到要求時(shí),聚類過程結(jié)束。第58頁,課件共66頁,創(chuàng)作于2023年2月59K-MeansCluster聚類過程由Analyze——Classify
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合伙協(xié)議書和合伙合同
- 2025年粵人版九年級(jí)歷史上冊(cè)月考試卷
- 2025年外研銜接版七年級(jí)物理下冊(cè)月考試卷含答案
- 2025年粵教滬科版九年級(jí)歷史下冊(cè)階段測(cè)試試卷含答案
- 2025年牛津上海版選擇性必修3生物上冊(cè)階段測(cè)試試卷含答案
- 2025年滬科版七年級(jí)生物上冊(cè)階段測(cè)試試卷
- 2025年粵教新版選修四地理下冊(cè)月考試卷
- 2025年滬教版選修歷史下冊(cè)月考試卷
- 2025年滬教新版八年級(jí)歷史下冊(cè)月考試卷含答案
- 二零二五版苗圃場(chǎng)技術(shù)員園藝研發(fā)聘用合同書4篇
- SYT 6968-2021 油氣輸送管道工程水平定向鉆穿越設(shè)計(jì)規(guī)范-PDF解密
- 冷庫制冷負(fù)荷計(jì)算表
- 肩袖損傷護(hù)理查房
- 設(shè)備運(yùn)維管理安全規(guī)范標(biāo)準(zhǔn)
- 辦文辦會(huì)辦事實(shí)務(wù)課件
- 大學(xué)宿舍人際關(guān)系
- 2023光明小升初(語文)試卷
- GB/T 14600-2009電子工業(yè)用氣體氧化亞氮
- 申請(qǐng)使用物業(yè)專項(xiàng)維修資金征求業(yè)主意見表
- 房屋買賣合同簡單范本 房屋買賣合同簡易范本
- 無抽搐電休克治療規(guī)范
評(píng)論
0/150
提交評(píng)論