專題3聚類分析_第1頁
專題3聚類分析_第2頁
專題3聚類分析_第3頁
專題3聚類分析_第4頁
專題3聚類分析_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、聚類分析一、什么是聚類分析聚類分析的概念:聚類分析是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法。 將個體或?qū)ο蠓诸?,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強。 聚類分析的目的 使類內(nèi)對象的同質(zhì)性最大化和類間對象的異質(zhì)性最大化。一、什么是聚類分析聚類分析的應(yīng)用:早在孩提時代,人就通過不斷改進下意識中的聚類模式來學(xué)會如何區(qū)分貓和狗,動物和植物誰經(jīng)常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以.識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時一次性大采購)刻畫不同的客戶群的特

2、征(用變量來刻畫,就象刻畫貓和狗的特征一樣)一、什么是聚類分析聚類分析的應(yīng)用:誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時候送上一個小蛋糕! 例1:對10位應(yīng)聘者做智能檢驗。3項指標X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進行聚類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424

3、24一、什么是聚類分析設(shè)有n個樣本單位,每個樣本測有p個指標(變量),原始資料陣為:二、聚類分析的基本思想二、聚類分析的基本思想是根據(jù)一批樣品的多個觀測指標,具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。把相似的樣品或指標歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標)聚合完畢. 相似樣本或指標的集合稱為類。問題:如何來選擇樣品(或指標)間相似的測度指標,如何將有相似性的類連接起來?三、聚類分析類型及方法1、聚類分析的類型有: 對樣本分類,稱為Q型聚類分析 對變量分類,稱為R型聚類分析 Q型聚類是對樣本進行聚類,它使具有相似性特征的樣本聚集

4、在一起,使差異性大的樣本分離開來。 R型聚類是對變量進行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。 三、聚類分析類型及方法2、聚類分析的方法: 系統(tǒng)聚類(層次聚類) 非系統(tǒng)聚類(非層次聚類)系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類非系統(tǒng)聚類法包括:模糊聚類法、K均值法(快速聚類法)等等 凝聚式分解式以系統(tǒng)聚類法為例:三、聚類分析類型及方法四、對象之間相似性度量1、樣本或變量的相似性程度的數(shù)量指標: (1)相似系數(shù) 性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變

5、量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類; (2)距離 它是將每一個樣品看作p維空間的一個點,并用某種度量方法測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應(yīng)屬于不同的類。樣本分類(Q型聚類)常以距離刻畫相似性指標分類(R型聚類)常以相似系數(shù)刻畫相似性四、對象之間相似性度量距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非常密切的關(guān)系。變量可分為定性變量和定量變量。若按測量尺度的不同可以分為: (1)間隔尺度變量:變量用連續(xù)的量來表示,如長度、重量、速度、溫度等。 (2)有序尺度變量:變量度量時不用明確的數(shù)量表示,而是用等級來表示,如產(chǎn)品分為一等品、

6、二等品、三等品等有次序關(guān)系。 (3)名義尺度變量:變量用既沒有數(shù)量關(guān)系也沒有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號等。四、對象之間相似性度量(一)間隔尺度變量的相似性度量1、距離 設(shè)有n個樣本單位,每個樣本測有p個指標(變量),原始資料陣為:四、對象之間相似性度量每個樣本都可以看成p維空間中的一點,n個樣本就是p維空間中的n個點。第i個樣本與第j個樣本之間的距離記為 聚類過程中,相距較近的點歸為一類,相距較遠的點歸為不同的類。 四、對象之間相似性度量第i個和第j個樣品之間的距離 如下四個條件:四、對象之間相似性度量常用距離 (1)明考夫斯基距離(Minkowski distanc

7、e) 明氏距離有三種特殊形式: (1a)絕對距離(Block距離):當q=1時四、對象之間相似性度量(1b)歐氏距離(Euclidean distance):當q=2時(1c)切比雪夫距離:當 時四、對象之間相似性度量(一)間隔尺度變量的相似性度量2、相似系數(shù) 相似系數(shù)(或其絕對值)越大,變量之間的相似性程度越高;反之,越低。聚類時,比較相似的變量歸為一類,不太相似的變量歸為不同的類。 變量 與 的相似系數(shù)用 表示,滿足以下三個條件: 四、對象之間相似性度量(1)相關(guān)系數(shù)設(shè) 和是第 和 個樣品的觀測值,則二者之間的相似測度為:四、對象之間相似性度量(2)夾角余弦 從向量集合的角度所定義的一種測

8、度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量(二)名義變量的相似性度量簡單匹配系數(shù):簡單匹配系數(shù)不配合的變量個數(shù)/(配合與不配合變量個數(shù)和)例:某高校舉辦一個培訓(xùn)班,從學(xué)員的資料中得到6個變量:性別x1,取值男和女;外語語種x2,取值為英、日、俄;專業(yè)x3,取值為統(tǒng)計、會計、金融;職業(yè)x4,取值為教師和非教師;居住處x5,取值為校內(nèi)和校外;學(xué)歷x6,取值本科和本科以下。四、對象之間相似性度量四、對象之間相似性度量現(xiàn)有學(xué)員i和學(xué)員j: i=(男,英,統(tǒng)計,非教師,校外,本科) j=(女,英,金融,教師,校外,本科以下)二者的距離: 四、對象之間相似性度量(三)定序變量的距離計算(Fisher

9、算法)(略)四、對象之間相似性度量 可以根據(jù)所選擇的距離構(gòu)成樣本點間的距離表,樣本點之間被連接起來。問題:如何度量 樣本、類之間的相似性 類與類之間相似性五、類和類的特征1、類的定義 相似樣本或指標的集合稱為類。2、類的特征描述 設(shè)類G這一集合有 。m為G內(nèi)的樣本數(shù)。其特征: (1)均值(重心)五、類和類的特征 (2)G的直徑 六、類與類之間的相似性度量(1)最短距離(Nearest Neighbor)x21x12x22x11類Gp與類Gq之間的距離Dpq(d(xi,xj)表示點xiGp和xjGq之間的距離) 例:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分省份x

10、1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81 G1=遼寧,G2=浙江,G3=河南, G4=甘肅,G5=青海采用歐氏距離有: 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13

11、.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南與甘肅的距離最近,先將二者(3和4)合為一類G6=G3,G4d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7

12、0 1 12.80 0 2 23.54 11.67 0河南、甘肅與青海并為一新類G7=G6,G5=G3,G4,G6G8=G1,G2d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肅4青海5遼寧1浙江2六、類與類之間的相似性度量(2)最長距離(Furthest Neighbor )x11x21例2:對例1的數(shù)據(jù)以最長距離法聚類。 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3

13、13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南與甘肅的距離最近,先將二者(3和4)合為一類G6=G2,G4河南、甘肅與青海并為一新類G7=G6,G5=G3,G4,G6d71=d(3,4,5)1=maxd13,d14,d15=13

14、.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2六、類與類之間的相似性度量(3)組間平均連接(Between-group Linkage)六、類與類之間的相似性度量(4)組內(nèi)平均連接( Within-group Linkage) 六、類與類之間的相似性度量(5)重心法(Centroid clustering):均值點的距離七、系統(tǒng)聚類法系統(tǒng)聚類法是一種其聚類過程可以用所謂的譜系結(jié)構(gòu)或樹形結(jié)構(gòu)來描繪的方法。事先不用確定分多少類(一)凝聚式系統(tǒng)聚類法 1、所有的研究對象各自算作一類,將最“靠近” 的首先聚類 2、再將這個類和其它類中最“靠近”的結(jié)合,直至所有的對象都合并為一類為止 例:16種飲料的熱量、咖啡因、鈉及價格四種變量SPSS處理: 1、AnalyzeClassifyHierarchical Cluster 2、把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入V

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論