聚類分析講義課件_第1頁(yè)
聚類分析講義課件_第2頁(yè)
聚類分析講義課件_第3頁(yè)
聚類分析講義課件_第4頁(yè)
聚類分析講義課件_第5頁(yè)
已閱讀5頁(yè),還剩129頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析§6.1引言§6.2距離和相似系數(shù)§6.3系統(tǒng)聚類法§6.4動(dòng)態(tài)聚類法12/27/20221聚類分析12/20/20221§6.1引言12/27/20222§6.1引言12/20/20222什么是聚類聚類(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(Cluster)。在同一個(gè)類內(nèi)對(duì)象之間具有較高的相似度,不同類之間的對(duì)象差別較大。12/27/20223什么是聚類12/20/20223什么是聚類早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類模式來(lái)學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物12/27/20224什么是聚類早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類模式來(lái)聚類分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類、金額等變量分類這樣商店可以….識(shí)別顧客購(gòu)買模式(如喜歡一大早來(lái)買酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫(huà)不同的客戶群的特征(用變量來(lái)刻畫(huà),就象刻畫(huà)貓和狗的特征一樣)12/27/20225聚類分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?12/什么情況下需要聚類為什么這樣分類?因?yàn)槊恳粋€(gè)類別里面的人消費(fèi)方式都不一樣,需要針對(duì)不同的人群,制定不同的關(guān)系管理方式,以提高客戶對(duì)公司商業(yè)活動(dòng)的相應(yīng)率。12/27/20226什么情況下需要聚類為什么這樣分類?12/20/20226聚類分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:如,對(duì)經(jīng)常購(gòu)買酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!12/27/20227聚類分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:12聚類分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類,找出“黃金客戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!12/27/20228聚類分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?12/20/202聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:幫助市場(chǎng)分析人員從客戶數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買模式來(lái)刻畫(huà)不同的客戶群的特征。誰(shuí)喜歡打國(guó)際長(zhǎng)途,在什么時(shí)間,打到那里?對(duì)住宅區(qū)進(jìn)行聚類,確定自動(dòng)提款機(jī)ATM的安放位置股票市場(chǎng)板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級(jí)分類……生物學(xué)領(lǐng)域推導(dǎo)植物和動(dòng)物的分類;對(duì)基因分類,獲得對(duì)種群的認(rèn)識(shí)數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對(duì)特定的類做進(jìn)一步的研究12/27/20229聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:12/20/20229有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘聚類可伸縮性、各種各種復(fù)雜形狀類的識(shí)別,高維聚類等統(tǒng)計(jì)學(xué)主要集中在基于距離的聚類分析,發(fā)現(xiàn)球狀類機(jī)器學(xué)習(xí)無(wú)指導(dǎo)學(xué)習(xí)(聚類不依賴預(yù)先定義的類,不等同于分類)空間數(shù)據(jù)技術(shù)生物學(xué)市場(chǎng)營(yíng)銷學(xué)12/27/202210有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘12/20/202210什么情況下需要聚類以上分析,沒(méi)有大量的數(shù)據(jù)去支持,DataMining就什么都挖不出來(lái)。大量的數(shù)據(jù)不等于大量的垃圾,我們需要針對(duì)客戶市場(chǎng)細(xì)分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動(dòng)率,各自平均消費(fèi)水平有多少,等;聚類分析可以輔助企業(yè)進(jìn)行客戶細(xì)分,但是Datamining的客戶細(xì)分不等同于商業(yè)領(lǐng)域的細(xì)分,看不懂結(jié)果,也可能造成企業(yè)管理層無(wú)法對(duì)結(jié)果善加利用。12/27/202211什么情況下需要聚類以上分析,沒(méi)有大量的數(shù)據(jù)去支持,Data聚類分析原理介紹聚類分析中“類”的特征:聚類所說(shuō)的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來(lái)劃分聚類的數(shù)目和結(jié)構(gòu)都沒(méi)有事先假定12/27/202212聚類分析原理介紹聚類分析中“類”的特征:12/20/2022聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)astructureof“natural”grouping感興趣的關(guān)系relationship12/27/202213聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:12/20/20聚類分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ12/27/202214聚類分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgroup聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits12/27/202215聚類分析原理介紹分成四組AKQJ花色相同的牌為一副12/20聚類分析原理介紹分成四組符號(hào)相同的牌為一組AKQJ符號(hào)相同的的牌Likefacecards12/27/202216聚類分析原理介紹分成四組AKQJ符號(hào)相同的的牌12/20/2聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對(duì)Blackandredsuits12/27/202217聚類分析原理介紹分成兩組AKQJ顏色相同的配對(duì)12/20/2聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對(duì)和小配對(duì)Majorandminorsuits12/27/202218聚類分析原理介紹分成兩組AKQJ大配對(duì)和小配對(duì)12/20/2聚類分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對(duì)和小配對(duì)Majorandminorsuits12/27/202219聚類分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。距離常用來(lái)度量樣品之間的相似性,相似系數(shù)常用來(lái)度量變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。12/27/202220§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。12/變量的測(cè)量尺度通常變量按測(cè)量尺度的不同可以分為間隔、有序和名義尺度變量三類。間隔尺度變量:變量用連續(xù)的量來(lái)表示,如長(zhǎng)度、重量、速度、溫度等。有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來(lái)表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。名義尺度變量:變量用一些類表示,這些類之間既無(wú)等級(jí)關(guān)系也無(wú)數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號(hào)等。本章主要討論具有間隔尺度變量的樣品聚類分析方法。12/27/202221變量的測(cè)量尺度通常變量按測(cè)量尺度的不同可以分為間隔、有序和名12/27/20222212/20/202222距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理。最常用的標(biāo)準(zhǔn)化處理是,令其中和分別為第個(gè)變量的樣本均值和樣本方差。12/27/202223距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有12二、相似系數(shù)聚類分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類,而且可用來(lái)對(duì)變量進(jìn)行分類,在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來(lái)度量變量之間的相似性。變量之間的這種相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對(duì)值的大小。相似系數(shù)(或其絕對(duì)值)越大,認(rèn)為變量之間的相似性程度就越高;反之,則越低。聚類時(shí),比較相似的變量?jī)A向于歸為一類,不太相似的變量歸屬不同的類。12/27/202224二、相似系數(shù)聚類分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類,而且可用來(lái)對(duì)相似系數(shù)一般需滿足的條件(1),當(dāng)且僅當(dāng)和是常數(shù);(2),對(duì)一切;(3),對(duì)一切。

12/27/202225相似系數(shù)一般需滿足的條件(1),當(dāng)且最常用的兩個(gè)相似系數(shù)12/27/202226最常用的兩個(gè)相似系數(shù)12/20/20222612/27/20222712/20/202227相似系數(shù)除常用來(lái)度量變量之間的相似性外有時(shí)也用來(lái)度量樣品之間的相似性,同樣,距離有時(shí)也用來(lái)度量變量之間的相似性。由距離來(lái)構(gòu)造相似系數(shù)總是可能的,如令這里為第個(gè)樣品與第個(gè)樣品的距離,顯然滿足定義相似系數(shù)的三個(gè)條件,故可作為相似系數(shù)。距離必須滿足定義距離的四個(gè)條件,所以不是總能由相似系數(shù)構(gòu)造。高爾(Gower)證明,當(dāng)相似系數(shù)矩陣為非負(fù)定時(shí),如令則滿足距離定義的四個(gè)條件。12/27/202228相似系數(shù)除常用來(lái)度量變量之間的相似性外有時(shí)也用來(lái)度量樣品之間§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的一種?;舅枷胧牵洪_(kāi)始將個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。12/27/202229§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的常用的系統(tǒng)聚類方法一、最短距離法二、最長(zhǎng)距離法三、中間距離法四、類平均法五、重心法六、離差平方和法(Ward方法)12/27/202230常用的系統(tǒng)聚類方法一、最短距離法12/20/202230一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即12/27/202231一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算個(gè)樣品的距離矩陣,它是一個(gè)對(duì)稱矩陣。(2)選擇中的最小元素,設(shè)為,則將和合并成一個(gè)新類,記為,即(3)計(jì)算新類與任一類之間距離的遞推公式為12/27/202232最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算個(gè)最短距離法的聚類步驟在中,和所在的行和列合并成一個(gè)新行新列,對(duì)應(yīng),該行列上的新距離值由(6.3.2)式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作。(4)對(duì)重復(fù)上述對(duì)的兩步得,如此下去直至所有元素合并成一類為止。如果某一步中最小的元素不止一個(gè),則稱此現(xiàn)象為結(jié)(tie),對(duì)應(yīng)這些最小元素的類可以任選一對(duì)合并或同時(shí)合并。12/27/202233最短距離法的聚類步驟在中,和所12/27/20223412/20/20223412/27/20223512/20/20223512/27/20223612/20/202236二、最長(zhǎng)距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即12/27/202237二、最長(zhǎng)距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即最長(zhǎng)距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:最長(zhǎng)距離法容易被異常值嚴(yán)重地扭曲,一個(gè)有效的方法是將這些異常值單獨(dú)拿出來(lái)后再進(jìn)行聚類。12/27/202238最長(zhǎng)距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推12/27/20223912/20/202239三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也不取兩類最遠(yuǎn)樣品間的距離,而是取介于兩者中間的距離。12/27/202240三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也12/27/20224112/20/20224112/27/20224212/20/20224212/27/20224312/20/20224312/27/20224412/20/20224412/27/20224512/20/20224512/27/20224612/20/20224612/27/20224712/20/20224712/27/20224812/20/20224812/27/20224912/20/20224912/27/20225012/20/202250以上我們對(duì)例6.3.1采用了多種系統(tǒng)聚類法進(jìn)行聚類,其結(jié)果都是相同的,原因是該例只有很少幾個(gè)樣品,此時(shí)聚類的過(guò)程不易有什么變化。一般來(lái)說(shuō),只要聚類的樣品數(shù)目不是太少,各種聚類方法所產(chǎn)生的聚類結(jié)果一般是不同的,甚至?xí)写蟮牟町悺南旅胬又锌梢钥吹竭@一點(diǎn)。12/27/20225112/20/20225112/27/20225212/20/20225212/27/20225312/20/20225312/27/20225412/20/20225412/27/20225512/20/202255從這三個(gè)樹(shù)形圖來(lái)看,只有Ward方法較好地符合了我們的實(shí)際聚類要求,它將31個(gè)地區(qū)分為以下三類:第Ⅰ類:北京、浙江、上海和廣東。這些都是我國(guó)經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的沿海地區(qū)。第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)較落后地區(qū),城鎮(zhèn)居民的消費(fèi)水平也是較低的。如果分為五類,則廣東和西藏將各自為一類。12/27/202256從這三個(gè)樹(shù)形圖來(lái)看,只有Ward方法較好地符合了我們的實(shí)際聚單調(diào)性令是系統(tǒng)聚類法中第次并類時(shí)的距離,如果一種系統(tǒng)聚類法能滿足,則稱它具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相似的類,后合并較疏遠(yuǎn)的類。最短距離法、最長(zhǎng)距離法、可變法、類平均法、可變類平均法和離差平方和法都具有單調(diào)性,但中間距離法和重心法不具有單調(diào)性。12/27/202257單調(diào)性令是系統(tǒng)聚類法中第次并類時(shí)的距離,如果一種類的個(gè)數(shù)如果能夠分成若干個(gè)很分開(kāi)的類,則類的個(gè)數(shù)就比較容易確定;反之,如果無(wú)論怎樣分都很難分成明顯分開(kāi)的若干類,則類個(gè)數(shù)的確定就比較困難了。確定類個(gè)數(shù)的常用方法有:1.給定一個(gè)閾值T。2.觀測(cè)樣品的散點(diǎn)圖。3.使用統(tǒng)計(jì)量。包括:統(tǒng)計(jì)量,半偏統(tǒng)計(jì)量,偽統(tǒng)計(jì)量和偽統(tǒng)計(jì)量。12/27/202258類的個(gè)數(shù)如果能夠分成若干個(gè)很分開(kāi)的類,則類的個(gè)數(shù)就比較容易確§6.4動(dòng)態(tài)聚類法動(dòng)態(tài)聚類法的基本思想是,選擇一批凝聚點(diǎn)或給出一個(gè)初始的分類,讓樣品按某種原則向凝聚點(diǎn)凝聚,對(duì)凝聚點(diǎn)進(jìn)行不斷的修改或迭代,直至分類比較合理或迭代穩(wěn)定為止。類的個(gè)數(shù)k可以事先指定,也可以在聚類過(guò)程中確定。選擇初始凝聚點(diǎn)(或給出初始分類)的一種簡(jiǎn)單方法是采用隨機(jī)抽選(或隨機(jī)分割)樣品的方法。動(dòng)態(tài)聚類法有許多種方法,本節(jié)中,只討論一種比較流行的動(dòng)態(tài)聚類法——k均值法。k均值法是由麥奎因(MacQueen,1967)提出并命名的一種算法。12/27/202259§6.4動(dòng)態(tài)聚類法動(dòng)態(tài)聚類法的基本思想是,選擇一批凝聚點(diǎn)k均值法的基本步驟(1)選擇k個(gè)樣品作為初始凝聚點(diǎn),或者將所有樣品分成k個(gè)初始類,然后將這k個(gè)類的重心(均值)作為初始凝聚點(diǎn)。(2)對(duì)除凝聚點(diǎn)之外的所有樣品逐個(gè)歸類,將每個(gè)樣品歸入凝聚點(diǎn)離它最近的那個(gè)類(通常采用歐氏距離),該類的凝聚點(diǎn)更新為這一類目前的均值,直至所有樣品都?xì)w了類。(3)重復(fù)步驟(2),直至所有的樣品都不能再分配為止。12/27/202260k均值法的基本步驟(1)選擇k個(gè)樣品作為初始凝聚點(diǎn),或者將所最終的聚類結(jié)果在一定程度上依賴于初始凝聚點(diǎn)或初始分類的選擇。經(jīng)驗(yàn)表明,聚類過(guò)程中的絕大多數(shù)重要變化均發(fā)生在第一次再分配中。12/27/202261最終的聚類結(jié)果在一定程度上依賴于初始凝聚點(diǎn)或初始分類的選擇。12/27/20226212/20/20226212/27/20226312/20/202263例6.4.2對(duì)例6.3.3使用k均值法進(jìn)行聚類,聚類前對(duì)各變量作標(biāo)準(zhǔn)化變換,聚類結(jié)果如下:第Ⅰ類:北京、上海和浙江。第Ⅱ類:廣東。第Ⅲ類:天津、江蘇、福建、山東、湖南、廣西、 重慶、四川和云南。第Ⅳ類:河北、山西、內(nèi)蒙古、遼寧、吉林、黑龍 江、安徽、江西、河南、湖北、海南、貴 州、陜西、甘肅、青海、寧夏和新疆。第Ⅴ類:西藏。12/27/202264例6.4.2對(duì)例6.3.3使用k均值法進(jìn)行聚類,聚類前對(duì)各變案例分析

參見(jiàn)航空業(yè)客戶細(xì)分12/27/202265案例分析

參見(jiàn)航空業(yè)客戶細(xì)分12/20/202265參考資料應(yīng)用多元統(tǒng)計(jì)分析,高惠璇,北京大學(xué)出版社。12/27/202266參考資料應(yīng)用多元統(tǒng)計(jì)分析,高惠璇,北京大學(xué)出版社。12/20END12/27/202267END12/20/202267聚類分析§6.1引言§6.2距離和相似系數(shù)§6.3系統(tǒng)聚類法§6.4動(dòng)態(tài)聚類法12/27/202268聚類分析12/20/20221§6.1引言12/27/202269§6.1引言12/20/20222什么是聚類聚類(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(Cluster)。在同一個(gè)類內(nèi)對(duì)象之間具有較高的相似度,不同類之間的對(duì)象差別較大。12/27/202270什么是聚類12/20/20223什么是聚類早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類模式來(lái)學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物12/27/202271什么是聚類早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類模式來(lái)聚類分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類、金額等變量分類這樣商店可以….識(shí)別顧客購(gòu)買模式(如喜歡一大早來(lái)買酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫(huà)不同的客戶群的特征(用變量來(lái)刻畫(huà),就象刻畫(huà)貓和狗的特征一樣)12/27/202272聚類分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?12/什么情況下需要聚類為什么這樣分類?因?yàn)槊恳粋€(gè)類別里面的人消費(fèi)方式都不一樣,需要針對(duì)不同的人群,制定不同的關(guān)系管理方式,以提高客戶對(duì)公司商業(yè)活動(dòng)的相應(yīng)率。12/27/202273什么情況下需要聚類為什么這樣分類?12/20/20226聚類分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:如,對(duì)經(jīng)常購(gòu)買酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!12/27/202274聚類分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:12聚類分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類,找出“黃金客戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!12/27/202275聚類分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?12/20/202聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:幫助市場(chǎng)分析人員從客戶數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買模式來(lái)刻畫(huà)不同的客戶群的特征。誰(shuí)喜歡打國(guó)際長(zhǎng)途,在什么時(shí)間,打到那里?對(duì)住宅區(qū)進(jìn)行聚類,確定自動(dòng)提款機(jī)ATM的安放位置股票市場(chǎng)板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級(jí)分類……生物學(xué)領(lǐng)域推導(dǎo)植物和動(dòng)物的分類;對(duì)基因分類,獲得對(duì)種群的認(rèn)識(shí)數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對(duì)特定的類做進(jìn)一步的研究12/27/202276聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:12/20/20229有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘聚類可伸縮性、各種各種復(fù)雜形狀類的識(shí)別,高維聚類等統(tǒng)計(jì)學(xué)主要集中在基于距離的聚類分析,發(fā)現(xiàn)球狀類機(jī)器學(xué)習(xí)無(wú)指導(dǎo)學(xué)習(xí)(聚類不依賴預(yù)先定義的類,不等同于分類)空間數(shù)據(jù)技術(shù)生物學(xué)市場(chǎng)營(yíng)銷學(xué)12/27/202277有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘12/20/202210什么情況下需要聚類以上分析,沒(méi)有大量的數(shù)據(jù)去支持,DataMining就什么都挖不出來(lái)。大量的數(shù)據(jù)不等于大量的垃圾,我們需要針對(duì)客戶市場(chǎng)細(xì)分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動(dòng)率,各自平均消費(fèi)水平有多少,等;聚類分析可以輔助企業(yè)進(jìn)行客戶細(xì)分,但是Datamining的客戶細(xì)分不等同于商業(yè)領(lǐng)域的細(xì)分,看不懂結(jié)果,也可能造成企業(yè)管理層無(wú)法對(duì)結(jié)果善加利用。12/27/202278什么情況下需要聚類以上分析,沒(méi)有大量的數(shù)據(jù)去支持,Data聚類分析原理介紹聚類分析中“類”的特征:聚類所說(shuō)的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來(lái)劃分聚類的數(shù)目和結(jié)構(gòu)都沒(méi)有事先假定12/27/202279聚類分析原理介紹聚類分析中“類”的特征:12/20/2022聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)astructureof“natural”grouping感興趣的關(guān)系relationship12/27/202280聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:12/20/20聚類分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ12/27/202281聚類分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgroup聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits12/27/202282聚類分析原理介紹分成四組AKQJ花色相同的牌為一副12/20聚類分析原理介紹分成四組符號(hào)相同的牌為一組AKQJ符號(hào)相同的的牌Likefacecards12/27/202283聚類分析原理介紹分成四組AKQJ符號(hào)相同的的牌12/20/2聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對(duì)Blackandredsuits12/27/202284聚類分析原理介紹分成兩組AKQJ顏色相同的配對(duì)12/20/2聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對(duì)和小配對(duì)Majorandminorsuits12/27/202285聚類分析原理介紹分成兩組AKQJ大配對(duì)和小配對(duì)12/20/2聚類分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對(duì)和小配對(duì)Majorandminorsuits12/27/202286聚類分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。距離常用來(lái)度量樣品之間的相似性,相似系數(shù)常用來(lái)度量變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。12/27/202287§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。12/變量的測(cè)量尺度通常變量按測(cè)量尺度的不同可以分為間隔、有序和名義尺度變量三類。間隔尺度變量:變量用連續(xù)的量來(lái)表示,如長(zhǎng)度、重量、速度、溫度等。有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來(lái)表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。名義尺度變量:變量用一些類表示,這些類之間既無(wú)等級(jí)關(guān)系也無(wú)數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號(hào)等。本章主要討論具有間隔尺度變量的樣品聚類分析方法。12/27/202288變量的測(cè)量尺度通常變量按測(cè)量尺度的不同可以分為間隔、有序和名12/27/20228912/20/202222距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理。最常用的標(biāo)準(zhǔn)化處理是,令其中和分別為第個(gè)變量的樣本均值和樣本方差。12/27/202290距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有12二、相似系數(shù)聚類分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類,而且可用來(lái)對(duì)變量進(jìn)行分類,在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來(lái)度量變量之間的相似性。變量之間的這種相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對(duì)值的大小。相似系數(shù)(或其絕對(duì)值)越大,認(rèn)為變量之間的相似性程度就越高;反之,則越低。聚類時(shí),比較相似的變量?jī)A向于歸為一類,不太相似的變量歸屬不同的類。12/27/202291二、相似系數(shù)聚類分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類,而且可用來(lái)對(duì)相似系數(shù)一般需滿足的條件(1),當(dāng)且僅當(dāng)和是常數(shù);(2),對(duì)一切;(3),對(duì)一切。

12/27/202292相似系數(shù)一般需滿足的條件(1),當(dāng)且最常用的兩個(gè)相似系數(shù)12/27/202293最常用的兩個(gè)相似系數(shù)12/20/20222612/27/20229412/20/202227相似系數(shù)除常用來(lái)度量變量之間的相似性外有時(shí)也用來(lái)度量樣品之間的相似性,同樣,距離有時(shí)也用來(lái)度量變量之間的相似性。由距離來(lái)構(gòu)造相似系數(shù)總是可能的,如令這里為第個(gè)樣品與第個(gè)樣品的距離,顯然滿足定義相似系數(shù)的三個(gè)條件,故可作為相似系數(shù)。距離必須滿足定義距離的四個(gè)條件,所以不是總能由相似系數(shù)構(gòu)造。高爾(Gower)證明,當(dāng)相似系數(shù)矩陣為非負(fù)定時(shí),如令則滿足距離定義的四個(gè)條件。12/27/202295相似系數(shù)除常用來(lái)度量變量之間的相似性外有時(shí)也用來(lái)度量樣品之間§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的一種?;舅枷胧牵洪_(kāi)始將個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。12/27/202296§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的常用的系統(tǒng)聚類方法一、最短距離法二、最長(zhǎng)距離法三、中間距離法四、類平均法五、重心法六、離差平方和法(Ward方法)12/27/202297常用的系統(tǒng)聚類方法一、最短距離法12/20/202230一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即12/27/202298一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算個(gè)樣品的距離矩陣,它是一個(gè)對(duì)稱矩陣。(2)選擇中的最小元素,設(shè)為,則將和合并成一個(gè)新類,記為,即(3)計(jì)算新類與任一類之間距離的遞推公式為12/27/202299最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算個(gè)最短距離法的聚類步驟在中,和所在的行和列合并成一個(gè)新行新列,對(duì)應(yīng),該行列上的新距離值由(6.3.2)式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作。(4)對(duì)重復(fù)上述對(duì)的兩步得,如此下去直至所有元素合并成一類為止。如果某一步中最小的元素不止一個(gè),則稱此現(xiàn)象為結(jié)(tie),對(duì)應(yīng)這些最小元素的類可以任選一對(duì)合并或同時(shí)合并。12/27/2022100最短距離法的聚類步驟在中,和所12/27/202210112/20/20223412/27/202210212/20/20223512/27/202210312/20/202236二、最長(zhǎng)距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即12/27/2022104二、最長(zhǎng)距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即最長(zhǎng)距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:最長(zhǎng)距離法容易被異常值嚴(yán)重地扭曲,一個(gè)有效的方法是將這些異常值單獨(dú)拿出來(lái)后再進(jìn)行聚類。12/27/2022105最長(zhǎng)距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推12/27/202210612/20/202239三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也不取兩類最遠(yuǎn)樣品間的距離,而是取介于兩者中間的距離。12/27/2022107三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也12/27/202210812/20/20224112/27/202210912/20/20224212/27/202211012/20/20224312/27/202211112/20/20224412/27/202211212/20/20224512/27/202211312/20/20224612/27/202211412/20/20224712/27/202211512/20/20224812/27/202211612/20/20224912/27/202211712/20/202250以上我們對(duì)例6.3.1采用了多種系統(tǒng)聚類法進(jìn)行聚類,其結(jié)果都是相同的,原因是該例只有很少幾個(gè)樣品,此時(shí)聚類的過(guò)程不易有什么變化。一般來(lái)說(shuō),只要聚類的樣品數(shù)目不是太少,各種聚類方法所產(chǎn)生的聚類結(jié)果一般是不同的,甚至?xí)写蟮牟町?。從下面例子中可以看到這一點(diǎn)。12/27/202211812/20/20225112/27/202211912/20/20225212/27/202212012/20/20225312/27/202212112/20/20225412/27/202212212/20/202255從這三個(gè)樹(shù)形圖來(lái)看,只有Ward方法較好地符合了我們的實(shí)際聚類要求,它將31個(gè)地區(qū)分為以下三類:第Ⅰ類:北京、浙江、上海和廣東。這些都是我國(guó)經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的沿海地區(qū)。第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)較落后地區(qū),城鎮(zhèn)居民的消費(fèi)水平也是較低的。如果分為五類,則廣東和西藏將各自為一類。12/27/2022123從這三個(gè)樹(shù)形圖來(lái)看,只有Ward方法較好地符合了我們的實(shí)際聚單調(diào)性令是系統(tǒng)聚類法中第次并類時(shí)的距離,如果一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論