



版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第三章 聚類分析第一節(jié)3.1 聚類分析的基本思想 3.2 相似性度量 3.2 類和類的特征zf3.1 聚類分析的基本思想一、什么是聚類分析?聚類分析 是根據(jù)“物以類聚”的道理,對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。 將個(gè)體或?qū)ο蠓诸悾沟猛活愔械膶ο笾g的相似性比與其他類的對象的相似性更強(qiáng)。 聚類分析的目的 使類內(nèi)對象的同質(zhì)性最大化和類間對象的異質(zhì)性最大化。zf2聚類分析的應(yīng)用:無處不在早在孩提時(shí)代,人就通過不斷改進(jìn)下意識中的聚類模式來學(xué)會如何區(qū)分貓和狗,動物和植物誰經(jīng)常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店
2、可以.識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購)刻畫不同的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣)zf3為什么這樣分類?(分類的好處)因?yàn)槊恳粋€(gè)類別里面的人消費(fèi)方式都不一樣,需要針對不同的人群,制定不同的關(guān)系管理方式,以提高客戶對公司商業(yè)活動的參與率。挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略: 如,對經(jīng)常購買酸奶的客戶 對累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!zf4例1 對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對應(yīng)聘者進(jìn)
3、行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424zf5zf6zf7例如當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。zf8二、聚類分析的基本思想: 是根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標(biāo))聚合完畢. 相
4、似樣本或指標(biāo)的集合稱為類。問題:如何來選擇樣品(或指標(biāo))間相似的測度指標(biāo),如何將有相似性的類連接起來?zf9三、聚類分析類型及方法1、聚類分析的類型有: 對樣本分類,稱為Q型聚類分析 對變量分類,稱為R型聚類分析 Q型聚類是對樣本進(jìn)行聚類,它使具有相似性特征的樣本聚集在一起,使差異性大的樣本分離開來。 R型聚類是對變量進(jìn)行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。 zf102、聚類分析的方法: 系統(tǒng)聚類(層次聚類) 非系統(tǒng)聚類(非層次聚類)系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類非系
5、統(tǒng)聚類法包括:模糊聚類法、K均值法(快速聚類法)等等 zf11凝聚式分解式以系統(tǒng)聚類法為例zf123.2 相似性度量1、樣本或變量的相似性程度的數(shù)量指標(biāo): (1)相似系數(shù) 性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類; (2)距離 它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量方法測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。樣本分類(Q型聚類)常以距離刻畫相似性指標(biāo)分類(R型聚類)常以相似系數(shù)刻畫相似性zf13距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非常密
6、切的關(guān)系。變量可分為定性變量和定量變量。若按測量尺度的不同可以分為: (1)間隔尺度變量:變量用連續(xù)的量來表示,如長度、重量、速度、溫度等。 (2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級來表示,如產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。 (3)名義尺度變量:變量用既沒有數(shù)量關(guān)系也沒有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號等。zf14一、間隔尺度變量的相似性度量1、距離 設(shè)有n個(gè)樣本單位,每個(gè)樣本測有p個(gè)指標(biāo)(變量),原始資料陣為:zf15每個(gè)樣本都可以看成p維空間中的一點(diǎn),n個(gè)樣本就是p維空間中的n個(gè)點(diǎn)。第i個(gè)樣本與第j個(gè)樣本之間的距離記為 聚類過程中,相距較
7、近的點(diǎn)歸為一類,相距較遠(yuǎn)的點(diǎn)歸為不同的類。 zf16常用距離: (1)、明考夫斯基距離(Minkowski distance) 明氏距離有三種特殊形式: (1a)、絕對距離(Block距離):當(dāng)q=1時(shí)zf17 (1b)歐氏距離(Euclidean distance):當(dāng)q=2時(shí) (1c)切比雪夫距離:當(dāng) 時(shí)zf18明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個(gè)變量計(jì)量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。明氏距離的定義沒有
8、考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡單地進(jìn)行了綜合。zf19當(dāng)各變量的單位不同或測量值范圍相差很大時(shí),不應(yīng)直接采用明氏距離,而應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。常用的標(biāo)準(zhǔn)化處理: 其中 為第j個(gè)變量的樣本均值; 為第j個(gè)變量的樣本方差。zf20如何避免明氏距離的缺點(diǎn):(3)蘭氏距離當(dāng) 時(shí):克服量綱的影響 未考慮指標(biāo)間相關(guān)性的影響適用于變量之間互不相關(guān)的情形這是一個(gè)自身標(biāo)準(zhǔn)化的量zf21(4)馬氏距離克服量綱的影響 克服指標(biāo)間相關(guān)性的影響缺點(diǎn):協(xié)方差矩陣難以確定zf22馬氏距離與上述各種距離的主
9、要不同就是馬氏距離考慮了觀測變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個(gè)觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測指標(biāo)取值的差異程度,為了對馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個(gè)例子。zf232、相似系數(shù) 相似系數(shù)(或其絕對值)越大,變量之間的相似性程度越高;反之,越低。聚類時(shí),比較相似的變量歸為一類,不太相似的變量歸為不同的類。 變量 與 的相似系數(shù)用 表示,滿足以下三個(gè)條件: zf24(1)、相關(guān)系數(shù)設(shè) 和是第 和 個(gè)
10、樣品的觀測值,則二者之間的相似測度為:zf25(2)、夾角余弦 從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量zf263、類與類之間的相似相似性度量(1)、最短距離(Nearest Neighbor)x21x12x22x11類Gp與類Gq之間的距離Dpq (d(xi,xj)表示點(diǎn)xi Gp和xj Gq之間的距離)zf27以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當(dāng)前樣本與該小類之間的距離。 例1:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分省份x1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.90 7.68 9
11、.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81zf28G1=遼寧,G2=浙江,G3=河南,G4=甘肅,G5=青海采用歐氏距離: d12 =(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05
12、-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南與甘肅的距離最近,先將二者(3和4)合為一類G6=G2,G4zf29d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mi
13、nd23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7 0 1 12.80 0 2 23.54 11.67 0河南、甘肅與青海并為一新類G7=G6,G5=G3,G4,G6G8=G1,G2zf30d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肅4青海
14、5遼寧1浙江2zf31(2)最長距離(Furthest Neighbor )x11x21zf32以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當(dāng)前樣本與該小類之間的距離。例2:對例1的數(shù)據(jù)以最長距離法聚類。zf33 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1
15、=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南與甘肅的距離最近,先將二者(3和4)合為一類G6=G2,G4河南、甘肅與青海并為一新類G7=G6,G5=G3,G4,G6zf34d71=d(3,4,5)1=maxd13,d14,d15=13.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 屋面光伏支架預(yù)埋施工方案
- 河南大型水景施工方案
- 邯鄲水泥板圍墻施工方案
- 安徽省天一大聯(lián)考2025屆高三3月調(diào)研考試歷史
- 山東一體化游泳池施工方案
- 塑膠樓地面施工方案
- 橋頭修復(fù)施工方案范本
- 道路鋼筋施工方案
- 森林培育技術(shù)發(fā)展應(yīng)用趨勢及管理措施的實(shí)踐分析
- 江蘇省泰州市興化市2024-2025學(xué)年九年級上學(xué)期期末化學(xué)試題(原卷版+解析版)
- 2025年北京社會管理職業(yè)學(xué)院單招職業(yè)技能考試題庫及參考答案一套
- 2025年南京信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫匯編
- 2025春教科版(2024)小學(xué)一年級下冊科學(xué)全冊教案
- 2025年哈爾濱幼兒師范高等??茖W(xué)校單招職業(yè)技能測試題庫學(xué)生專用
- 計(jì)算機(jī)一級測試題(附參考答案)
- 企業(yè)內(nèi)部系統(tǒng)使用權(quán)限規(guī)范
- 教學(xué)課件-液壓與氣壓傳動項(xiàng)目教程(侯守軍)
- 2024年亳州職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫
- 2025年旅行與旅游的未來:擁抱可持續(xù)與包容性增長報(bào)告(英文版)-世界經(jīng)濟(jì)論壇
- DB65T 8022-2024 嚴(yán)寒和寒冷地區(qū)居住建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)
- 醫(yī)院影像科服務(wù)質(zhì)量提升措施
評論
0/150
提交評論