![聚類分析講義課件_第1頁](http://file4.renrendoc.com/view/e80d9d8c75a2c94034fac7d68d0d1dfc/e80d9d8c75a2c94034fac7d68d0d1dfc1.gif)
![聚類分析講義課件_第2頁](http://file4.renrendoc.com/view/e80d9d8c75a2c94034fac7d68d0d1dfc/e80d9d8c75a2c94034fac7d68d0d1dfc2.gif)
![聚類分析講義課件_第3頁](http://file4.renrendoc.com/view/e80d9d8c75a2c94034fac7d68d0d1dfc/e80d9d8c75a2c94034fac7d68d0d1dfc3.gif)
![聚類分析講義課件_第4頁](http://file4.renrendoc.com/view/e80d9d8c75a2c94034fac7d68d0d1dfc/e80d9d8c75a2c94034fac7d68d0d1dfc4.gif)
![聚類分析講義課件_第5頁](http://file4.renrendoc.com/view/e80d9d8c75a2c94034fac7d68d0d1dfc/e80d9d8c75a2c94034fac7d68d0d1dfc5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
聚類分析§6.1引言§6.2距離和相似系數(shù)§6.3系統(tǒng)聚類法§6.4動態(tài)聚類法8/7/20231聚類分析8/2/20231§6.1引言8/7/20232§6.1引言8/2/20232什么是聚類聚類(Clustering)就是將數(shù)據(jù)分組成為多個類(Cluster)。在同一個類內(nèi)對象之間具有較高的相似度,不同類之間的對象差別較大。8/7/20233什么是聚類8/2/20233什么是聚類早在孩提時代,人就通過不斷改進下意識中的聚類模式來學會如何區(qū)分貓和狗,動物和植物8/7/20234什么是聚類早在孩提時代,人就通過不斷改進下意識中的聚類模式來聚類分析無處不在誰經(jīng)常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以….識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習慣周末時一次性大采購)刻畫不同的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣)8/7/20235聚類分析無處不在誰經(jīng)常光顧商店,誰買什么東西,買多少?8/2什么情況下需要聚類為什么這樣分類?因為每一個類別里面的人消費方式都不一樣,需要針對不同的人群,制定不同的關系管理方式,以提高客戶對公司商業(yè)活動的相應率。8/7/20236什么情況下需要聚類為什么這樣分類?8/2/20236聚類分析無處不在挖掘有價值的客戶,并制定相應的促銷策略:如,對經(jīng)常購買酸奶的客戶對累計消費達到12個月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!8/7/20237聚類分析無處不在挖掘有價值的客戶,并制定相應的促銷策略:8/聚類分析無處不在誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以……制定更吸引的服務,留住客戶!比如:一定額度和期限的免息透資服務!百盛的貴賓打折卡!在他或她生日的時候送上一個小蛋糕!8/7/20238聚類分析無處不在誰是銀行信用卡的黃金客戶?8/2/20238聚類的應用領域經(jīng)濟領域:幫助市場分析人員從客戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同的客戶群的特征。誰喜歡打國際長途,在什么時間,打到那里?對住宅區(qū)進行聚類,確定自動提款機ATM的安放位置股票市場板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級分類……生物學領域推導植物和動物的分類;對基因分類,獲得對種群的認識數(shù)據(jù)挖掘領域作為其他數(shù)學算法的預處理步驟,獲得數(shù)據(jù)分布狀況,集中對特定的類做進一步的研究8/7/20239聚類的應用領域經(jīng)濟領域:8/2/20239有貢獻的研究領域數(shù)據(jù)挖掘聚類可伸縮性、各種各種復雜形狀類的識別,高維聚類等統(tǒng)計學主要集中在基于距離的聚類分析,發(fā)現(xiàn)球狀類機器學習無指導學習(聚類不依賴預先定義的類,不等同于分類)空間數(shù)據(jù)技術生物學市場營銷學8/7/202310有貢獻的研究領域數(shù)據(jù)挖掘8/2/202310什么情況下需要聚類以上分析,沒有大量的數(shù)據(jù)去支持,DataMining就什么都挖不出來。大量的數(shù)據(jù)不等于大量的垃圾,我們需要針對客戶市場細分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動率,各自平均消費水平有多少,等;聚類分析可以輔助企業(yè)進行客戶細分,但是Datamining的客戶細分不等同于商業(yè)領域的細分,看不懂結果,也可能造成企業(yè)管理層無法對結果善加利用。8/7/202311什么情況下需要聚類以上分析,沒有大量的數(shù)據(jù)去支持,Data聚類分析原理介紹聚類分析中“類”的特征:聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分聚類的數(shù)目和結構都沒有事先假定8/7/202312聚類分析原理介紹聚類分析中“類”的特征:8/2/202312聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結構astructureof“natural”grouping感興趣的關系relationship8/7/202313聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:8/2/2023聚類分析原理介紹什么是自然分組結構Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ8/7/202314聚類分析原理介紹什么是自然分組結構Naturalgroup聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits8/7/202315聚類分析原理介紹分成四組AKQJ花色相同的牌為一副8/2/2聚類分析原理介紹分成四組符號相同的牌為一組AKQJ符號相同的的牌Likefacecards8/7/202316聚類分析原理介紹分成四組AKQJ符號相同的的牌8/2/202聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對Blackandredsuits8/7/202317聚類分析原理介紹分成兩組AKQJ顏色相同的配對8/2/202聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對和小配對Majorandminorsuits8/7/202318聚類分析原理介紹分成兩組AKQJ大配對和小配對8/2/202聚類分析原理介紹這個例子告訴我們,分組的意義在于我們怎么定義并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對和小配對Majorandminorsuits8/7/202319聚類分析原理介紹這個例子告訴我們,分組的意義在于我們怎么定義§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。距離常用來度量樣品之間的相似性,相似系數(shù)常用來度量變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關系。8/7/202320§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。8/2變量的測量尺度通常變量按測量尺度的不同可以分為間隔、有序和名義尺度變量三類。間隔尺度變量:變量用連續(xù)的量來表示,如長度、重量、速度、溫度等。有序尺度變量:變量度量時不用明確的數(shù)量表示,而是用等級來表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關系。名義尺度變量:變量用一些類表示,這些類之間既無等級關系也無數(shù)量關系,如性別、職業(yè)、產(chǎn)品的型號等。本章主要討論具有間隔尺度變量的樣品聚類分析方法。8/7/202321變量的測量尺度通常變量按測量尺度的不同可以分為間隔、有序和名8/7/2023228/2/202322距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有當各變量的單位不同或測量值范圍相差很大時,應先對各變量的數(shù)據(jù)作標準化處理。最常用的標準化處理是,令其中和分別為第個變量的樣本均值和樣本方差。8/7/202323距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有8/二、相似系數(shù)聚類分析方法不僅用來對樣品進行分類,而且可用來對變量進行分類,在對變量進行分類時,常常采用相似系數(shù)來度量變量之間的相似性。變量之間的這種相似性度量,在一些應用中要看相似系數(shù)的大小,而在另一些應用中要看相似系數(shù)絕對值的大小。相似系數(shù)(或其絕對值)越大,認為變量之間的相似性程度就越高;反之,則越低。聚類時,比較相似的變量傾向于歸為一類,不太相似的變量歸屬不同的類。8/7/202324二、相似系數(shù)聚類分析方法不僅用來對樣品進行分類,而且可用來對相似系數(shù)一般需滿足的條件(1),當且僅當和是常數(shù);(2),對一切;(3),對一切。
8/7/202325相似系數(shù)一般需滿足的條件(1),當且最常用的兩個相似系數(shù)8/7/202326最常用的兩個相似系數(shù)8/2/2023268/7/2023278/2/202327相似系數(shù)除常用來度量變量之間的相似性外有時也用來度量樣品之間的相似性,同樣,距離有時也用來度量變量之間的相似性。由距離來構造相似系數(shù)總是可能的,如令這里為第個樣品與第個樣品的距離,顯然滿足定義相似系數(shù)的三個條件,故可作為相似系數(shù)。距離必須滿足定義距離的四個條件,所以不是總能由相似系數(shù)構造。高爾(Gower)證明,當相似系數(shù)矩陣為非負定時,如令則滿足距離定義的四個條件。8/7/202328相似系數(shù)除常用來度量變量之間的相似性外有時也用來度量樣品之間§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的一種?;舅枷胧牵洪_始將個樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離;重復進行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類。8/7/202329§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的常用的系統(tǒng)聚類方法一、最短距離法二、最長距離法三、中間距離法四、類平均法五、重心法六、離差平方和法(Ward方法)8/7/202330常用的系統(tǒng)聚類方法一、最短距離法8/2/202330一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即8/7/202331一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計算個樣品的距離矩陣,它是一個對稱矩陣。(2)選擇中的最小元素,設為,則將和合并成一個新類,記為,即(3)計算新類與任一類之間距離的遞推公式為8/7/202332最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計算個最短距離法的聚類步驟在中,和所在的行和列合并成一個新行新列,對應,該行列上的新距離值由(6.3.2)式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作。(4)對重復上述對的兩步得,如此下去直至所有元素合并成一類為止。如果某一步中最小的元素不止一個,則稱此現(xiàn)象為結(tie),對應這些最小元素的類可以任選一對合并或同時合并。8/7/202333最短距離法的聚類步驟在中,和所8/7/2023348/2/2023348/7/2023358/2/2023358/7/2023368/2/202336二、最長距離法類與類之間的距離定義為兩類最遠樣品間的距離,即8/7/202337二、最長距離法類與類之間的距離定義為兩類最遠樣品間的距離,即最長距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:最長距離法容易被異常值嚴重地扭曲,一個有效的方法是將這些異常值單獨拿出來后再進行聚類。8/7/202338最長距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推8/7/2023398/2/202339三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也不取兩類最遠樣品間的距離,而是取介于兩者中間的距離。8/7/202340三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也8/7/2023418/2/2023418/7/2023428/2/2023428/7/2023438/2/2023438/7/2023448/2/2023448/7/2023458/2/2023458/7/2023468/2/2023468/7/2023478/2/2023478/7/2023488/2/2023488/7/2023498/2/2023498/7/2023508/2/202350以上我們對例6.3.1采用了多種系統(tǒng)聚類法進行聚類,其結果都是相同的,原因是該例只有很少幾個樣品,此時聚類的過程不易有什么變化。一般來說,只要聚類的樣品數(shù)目不是太少,各種聚類方法所產(chǎn)生的聚類結果一般是不同的,甚至會有大的差異。從下面例子中可以看到這一點。8/7/2023518/2/2023518/7/2023528/2/2023528/7/2023538/2/2023538/7/2023548/2/2023548/7/2023558/2/202355從這三個樹形圖來看,只有Ward方法較好地符合了我們的實際聚類要求,它將31個地區(qū)分為以下三類:第Ⅰ類:北京、浙江、上海和廣東。這些都是我國經(jīng)濟最發(fā)達、城鎮(zhèn)居民消費水平最高的沿海地區(qū)。第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國基本上屬于經(jīng)濟發(fā)展水平和城鎮(zhèn)居民消費水平中等的地區(qū)。第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國基本上屬于經(jīng)濟較落后地區(qū),城鎮(zhèn)居民的消費水平也是較低的。如果分為五類,則廣東和西藏將各自為一類。8/7/202356從這三個樹形圖來看,只有Ward方法較好地符合了我們的實際聚單調(diào)性令是系統(tǒng)聚類法中第次并類時的距離,如果一種系統(tǒng)聚類法能滿足,則稱它具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相似的類,后合并較疏遠的類。最短距離法、最長距離法、可變法、類平均法、可變類平均法和離差平方和法都具有單調(diào)性,但中間距離法和重心法不具有單調(diào)性。8/7/202357單調(diào)性令是系統(tǒng)聚類法中第次并類時的距離,如果一種類的個數(shù)如果能夠分成若干個很分開的類,則類的個數(shù)就比較容易確定;反之,如果無論怎樣分都很難分成明顯分開的若干類,則類個數(shù)的確定就比較困難了。確定類個數(shù)的常用方法有:1.給定一個閾值T。2.觀測樣品的散點圖。3.使用統(tǒng)計量。包括:統(tǒng)計量,半偏統(tǒng)計量,偽統(tǒng)計量和偽統(tǒng)計量。8/7/202358類的個數(shù)如果能夠分成若干個很分開的類,則類的個數(shù)就比較容易確§6.4動態(tài)聚類法動態(tài)聚類法的基本思想是,選擇一批凝聚點或給出一個初始的分類,讓樣品按某種原則向凝聚點凝聚,對凝聚點進行不斷的修改或迭代,直至分類比較合理或迭代穩(wěn)定為止。類的個數(shù)k可以事先指定,也可以在聚類過程中確定。選擇初始凝聚點(或給出初始分類)的一種簡單方法是采用隨機抽選(或隨機分割)樣品的方法。動態(tài)聚類法有許多種方法,本節(jié)中,只討論一種比較流行的動態(tài)聚類法——k均值法。k均值法是由麥奎因(MacQueen,1967)提出并命名的一種算法。8/7/202359§6.4動態(tài)聚類法動態(tài)聚類法的基本思想是,選擇一批凝聚點k均值法的基本步驟(1)選擇k個樣品作為初始凝聚點,或者將所有樣品分成k個初始類,然后將這k個類的重心(均值)作為初始凝聚點。(2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機械設備海上運輸合同范本
- 軟件開發(fā)技術施工方案
- 室內(nèi)設計工作室裝修協(xié)議
- 個性化咖啡館裝修合同模板
- 親子酒店陽臺裝修合同
- 民宿藝術館裝修合同范本
- 機械設備物流合同范本
- 長寧防靜電地坪施工方案
- 合同范本政府蓋章
- 公寓短租租房合同范例
- 加油站復工復產(chǎn)方案
- 《鋼筋焊接及驗收規(guī)程》(JGJ18)
- 2025年高考物理復習新題速遞之萬有引力與宇宙航行(2024年9月)
- 2025年首都機場集團公司招聘筆試參考題庫含答案解析
- 2025云南省貴金屬新材料控股集團限公司面向高校畢業(yè)生專項招聘144人高頻重點提升(共500題)附帶答案詳解
- 蘇州市區(qū)2024-2025學年五年級上學期數(shù)學期末試題一(有答案)
- 暑期預習高一生物必修二知識點
- 三級教育考試卷(電工)答案
- 醫(yī)院標準化運營管理課件
- 《數(shù)值分析》配套教學課件
- 山西省衛(wèi)生院社區(qū)衛(wèi)生服務中心信息名單目錄
評論
0/150
提交評論