




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
系統(tǒng)工程聚類分析第1頁,課件共29頁,創(chuàng)作于2023年2月什么是聚類分析聚類分析是根據(jù)“物以類聚”的道理,對樣品(觀測量)或指標(變量)進行分類的一種多元統(tǒng)計分析方法。將個體或對象分類,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強。聚類分析的目的:使類內對象的同質性最大化和類間對象的異質性最大化。原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。第2頁,課件共29頁,創(chuàng)作于2023年2月聚類分析的應用:無處不在早在孩提時代,人就通過不斷改進下意識中的聚類模式來學會如何區(qū)分貓和狗,動物和植物誰經常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以….識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習慣周末時一次性大采購)刻畫不同的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣)第3頁,課件共29頁,創(chuàng)作于2023年2月為什么這樣分類?(分類的好處)因為每一個類別里面的人消費方式都不一樣,需要針對不同的人群,制定不同的關系管理方式,以提高客戶對公司商業(yè)活動的參與率。挖掘有價值的客戶,并制定相應的促銷策略:如,對經常購買酸奶的客戶對累計消費達到12個月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!第4頁,課件共29頁,創(chuàng)作于2023年2月如:對企業(yè)的經濟效益進行評價時,建立了一個由多個指標組成的指標體系,由于信息的重疊,一些指標之間存在很強的相關性,所以需要將相似的指標聚為一類,從而達到簡化指標體系的目的。第5頁,課件共29頁,創(chuàng)作于2023年2月基本思想:是根據(jù)一批樣品的多個觀測指標,具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。把相似的樣品或指標歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標)聚合完畢.相似樣本或指標的集合稱為類。問題:如何來選擇樣品(或指標)間相似的測度指標,如何將有相似性的類連接起來?第6頁,課件共29頁,創(chuàng)作于2023年2月聚類分析的類型有:對樣本分類,稱為Q型聚類分析對變量分類,稱為R型聚類分析Q型聚類是對樣本進行聚類,它使具有相似性特征的樣本聚集在一起,使差異性大的樣本分離開來。R型聚類是對變量進行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。第7頁,課件共29頁,創(chuàng)作于2023年2月樣品聚類:對觀測量(Case)進行聚類(不同的目的選用不同的指標作為分類的依據(jù),如選拔運動員與分課外活動小組)。變量聚類:找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。在生產活動中不乏有變量聚類的實例,如:衣服號碼(身長、胸圍、褲長、腰圍)、鞋的號碼。變量聚類使批量生產成為可能。第8頁,課件共29頁,創(chuàng)作于2023年2月聚類分析的方法:系統(tǒng)聚類(層次聚類)非系統(tǒng)聚類(非層次聚類)系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類非系統(tǒng)聚類法包括:模糊聚類法、K-均值法(快速聚類法)等等第9頁,課件共29頁,創(chuàng)作于2023年2月以系統(tǒng)聚類法為例第10頁,課件共29頁,創(chuàng)作于2023年2月樣本或變量的相似性程度的數(shù)量指標:距離它是將每一個樣品看作p維空間的一個點,并用某種度量方法測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類。相似系數(shù)性質越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;樣本分類(Q型聚類)常以距離刻畫相似性指標分類(R型聚類)常以相似系數(shù)刻畫相似性第11頁,課件共29頁,創(chuàng)作于2023年2月第12頁,課件共29頁,創(chuàng)作于2023年2月常用距離明考夫斯基距離(Minkowskidistance)明氏距離有三種特殊形式:絕對距離(Block距離):當q=1時第13頁,課件共29頁,創(chuàng)作于2023年2月常用距離明氏距離有三種特殊形式:歐氏距離(Euclideandistance):當q=2時切比雪夫距離:當q=∞時第14頁,課件共29頁,創(chuàng)作于2023年2月明考夫斯基距離主要有以下兩個缺點:明氏距離的值與各指標的量綱有關,而各指標計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計量單位的選擇。明氏距離的定義沒有考慮各個變量之間的相關性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進行了綜合。第15頁,課件共29頁,創(chuàng)作于2023年2月當各變量的單位不同或測量值范圍相差很大時,不應直接采用明氏距離,而應先對各變量的數(shù)據(jù)作標準化處理,然后用標準化后的數(shù)據(jù)計算距離。常用的標準化處理:其中為第j個變量的樣本均值;為第j個變量的樣本方差。第16頁,課件共29頁,創(chuàng)作于2023年2月二、相似系數(shù)相似系數(shù)(或其絕對值)越大,變量之間的相似性程度越高;反之,越低。聚類時,比較相似的變量歸為一類,不太相似的變量歸為不同的類。變量xi與xj的相似系數(shù)用cij表示,滿足以下三個條件第17頁,課件共29頁,創(chuàng)作于2023年2月相似系數(shù)的表示方法夾角余弦:-1≤cosɑ≤1相關系數(shù):-1≤rij≤1變量間的距離:利用相似系數(shù)來定義距離利用樣本協(xié)差陣來定義距離把變量Xi的n次觀測值看成n維空間的點,在n維空間中定義m個變量間的距離。第18頁,課件共29頁,創(chuàng)作于2023年2月相關系數(shù)設和是第i和j個樣品的觀測值,則二者之間的相似測度為:第19頁,課件共29頁,創(chuàng)作于2023年2月相似系數(shù)除常用來度量變量之間的相似性外有時也用來度量樣品之間的相似性,同樣,距離有時也用來度量變量之間的相似性。由距離來構造相似系數(shù)總是可能的,如令這里dij為第i個樣品與第j個樣品的距離,顯然cij滿足定義相似系數(shù)的三個條件,故可作為相似系數(shù).第20頁,課件共29頁,創(chuàng)作于2023年2月系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的一種?;舅枷耄洪_始將個樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離;重復進行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類。
常用的系統(tǒng)聚類方法:最短距離法最長舉例法中間舉例法重心法第21頁,課件共29頁,創(chuàng)作于2023年2月系統(tǒng)聚類法基本步驟1.選擇樣本間距離的定義及類間距離的定義;2.計算n個樣本兩兩之間的距離,得到距離矩陣3.構造個類,每類只含有一個樣本;4.合并符合類間距離定義要求的兩類為一個新類;5.計算新類與當前各類的距離。若類的個數(shù)為1,則轉到步驟6,否則回到步驟4;6.畫出聚類圖;7.決定類的個數(shù)和類。第22頁,課件共29頁,創(chuàng)作于2023年2月例:為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調查資料做類型分類,用最短距離做類間分類。資料如下:省份x1x2x3x4x5x6x7x8遼寧7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肅9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81第23頁,課件共29頁,創(chuàng)作于2023年2月將每一個省區(qū)視為一個樣本:G1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}采用歐氏距離:d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21第24頁,課件共29頁,創(chuàng)作于2023年2月根據(jù)5個省區(qū)之間的歐式距離,用D0表示距離矩陣(對稱陣,故給出下三角陣)因此將3.4合并為一類,為類6,替代了3、4兩類類6與剩余的1、2、5之間的距離分別為:
d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21第25頁,課件共29頁,創(chuàng)作于2023年2月得到新矩陣合并類6和類5,得到新類7類7與剩余的1、2之間的距離分別為:
d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54第26頁,課件共29頁,創(chuàng)作于2023年2月
得到新矩陣合并類1和類2,得到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年麥芽糖漿項目可行性研究報告
- 投資建設鋁合金型材、配件項目可行性研究報告模板
- 2025年中國井式氣體滲透碳爐行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 河道整治土方開挖運輸協(xié)議
- 2025年度汽車借用免責及車輛使用安全協(xié)議書
- 旅游景點特色裝修合同模板
- 2025年度充電樁充電設施投資合作協(xié)議
- 2025年度快遞倉庫租賃合同(含快遞安全監(jiān)控服務)
- 2025年度項目組臨時食宿補貼保障協(xié)議
- 2025年度房屋房貸貸款合同法律風險防范指南
- 人工智能(人工智能大數(shù)據(jù)技術相關專業(yè))全套教學課件
- 小學數(shù)學主題活動設計一年級《歡樂購物街》
- 一年級口算天天練1(打印版)
- 高考作文標準方格紙-A4-可直接打印
- 護理分級標準
- 水池維修改造方案
- 國網(wǎng)陜西省電力有限公司高校畢業(yè)生招聘考試試題及答案
- 非公司企業(yè)法人章程范本樣本
- 《高溫熔融金屬吊運安全規(guī)程》(AQ7011-2018)
- 電機與拖動(高職)全套教學課件
- 散裝液體危險貨物申報員培訓講義
評論
0/150
提交評論