Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-6.K-均值聚類_第1頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-6.K-均值聚類_第2頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-6.K-均值聚類_第3頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-6.K-均值聚類_第4頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-6.K-均值聚類_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)聚類思想與K-均值聚類K-均值聚類應(yīng)用舉例聚類思想第5章

聚類分析主要是使類內(nèi)的樣本盡可能相似,而類之間的樣本盡可能相異。聚類問(wèn)題的一般提法是,設(shè)有n個(gè)樣本的

維觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣為:其中,每一行表示一個(gè)樣本,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣本關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值,并根據(jù)觀測(cè)值矩陣X對(duì)樣本進(jìn)行聚類。聚類分析的基本思想是:在樣本之間定義距離,距離表明樣本之間的相似度,距離越小,相似度越高,關(guān)系越緊密;將關(guān)系密切的聚集為一類,關(guān)系疏遠(yuǎn)的聚集為另一類,直到所有樣本都聚集完畢。K-均值聚類方法第5章

K-均值聚類是一種基于原型的、根據(jù)距離劃分組的算法,其時(shí)間復(fù)雜度比其他聚類算法低,用戶需指定劃分組的個(gè)數(shù)K。其中,K-均值聚類常見距離測(cè)度包括歐幾里得距離(也稱歐氏距離)、曼哈頓距離、切比雪夫距離等。K-均值聚類默認(rèn)采用歐氏距離進(jìn)行計(jì)算,其公式如下:(表示第個(gè)i樣本與第個(gè)j樣本之間的歐氏距離)K-均值聚類算法的直觀理解如下:Step1:隨機(jī)初始化K個(gè)聚類中心,即K個(gè)類中心向量。Step2:對(duì)每個(gè)樣本,計(jì)算其與各個(gè)類中心向量的距離,并將該樣本指派給距離最小的類。Step3:更新每個(gè)類的中心向量,更新的方法為取該類所有樣本的特征向量均值。Step4:直到各個(gè)類的中心向量不再發(fā)生變化為止,作為退出條件。K-均值聚類方法第5章

xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下Step1:初始化兩個(gè)類的聚類中心,這里取前兩個(gè)樣本分別為聚類中心。C1=(1.5,2.5),C2=(1.7,1.3)到達(dá)C1的距離:0

1.22

0.32

3.75

2.79

4.69

4.41

0.67到達(dá)C2的距離:1.22

0

0.91

4.92

3.93

5.84

5.56

0.61各樣本所屬類:

1

2

1

1

1

1

1

2Step2:分別計(jì)算每個(gè)樣本到達(dá)各個(gè)聚類中心的距離:Step3:更新聚類中心,更新方法為計(jì)算所屬類的特征向量的均值C1=((1.5+1.6+2.1+2.2+2.4+2.5)/6,(2.5+2.2+6.2+5.2+7.1+6.8)/6)=(2.05,5)C2=((1.7+1.8)/2,(1.3+1.9)/2)=(1.75,1.6)K-均值聚類方法第5章

xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:2.56

3.72

2.84

1.2

0.25

2.13

1.86

3.11到達(dá)C2的距離:0.93

0.3

0.62

4.61

3.63

5.54

5.25

0.3各樣本所屬類:

2

2

2

1

1

1

1

2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:3.91

5.06

4.18

0.24

1.13

0.78

0.52

4.45到達(dá)C2的距離:0.55

0.68

0.23

4.25

3.27

5.18

4.9

0.17各樣本所屬類:

2

2

2

1

1

1

1

2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4:這里我們發(fā)現(xiàn),聚類中心不再發(fā)生變化,而且類歸屬也沒有發(fā)生變化。其實(shí)正是因?yàn)轭悮w屬?zèng)]有發(fā)生變化,才導(dǎo)致了聚類中心不再發(fā)生變化,達(dá)到算法終止條件。故樣本1、2、3、8歸為一類,樣本4、5、6、7歸為另一類。K-均值聚類算法應(yīng)用舉例第5章

對(duì)表所示的31個(gè)地區(qū)2016年農(nóng)村居民人均可支配收入情況做聚類分析地區(qū)工資性收入(X1)經(jīng)營(yíng)凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………1.?dāng)?shù)據(jù)獲取及標(biāo)準(zhǔn)化處理importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來(lái)源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)K-均值聚類算法應(yīng)用舉例第5章

(1)導(dǎo)入K-均值聚類模塊KMeans。

fromsklearn.clusterimportKMeans(2)利用KMeans創(chuàng)建K-均值聚類對(duì)象model。

model=KMeans(n_clusters=K,random_state=0,max_iter=500)

參數(shù)說(shuō)明如下:

n_clusters:設(shè)置的聚類個(gè)數(shù)K。

random_state:隨機(jī)初始狀態(tài),設(shè)置為0即可。

max_iter:最大迭代次數(shù)。(3)調(diào)用model對(duì)象中的fit()方法進(jìn)行擬合訓(xùn)練。

model.fit(X)(4)獲取model對(duì)象中的labels_屬性,可以返回其聚類的標(biāo)簽。

c=model.labels_2.K-均值聚類分析K-均值聚類算法應(yīng)用舉例第5章

完整代碼如下:importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來(lái)源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)fromsklearn.clusterimportKMeans

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論