版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)聚類思想與K-均值聚類K-均值聚類應(yīng)用舉例聚類思想第5章
聚類分析主要是使類內(nèi)的樣本盡可能相似,而類之間的樣本盡可能相異。聚類問(wèn)題的一般提法是,設(shè)有n個(gè)樣本的
維觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣為:其中,每一行表示一個(gè)樣本,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣本關(guān)于第j項(xiàng)指標(biāo)的觀測(cè)值,并根據(jù)觀測(cè)值矩陣X對(duì)樣本進(jìn)行聚類。聚類分析的基本思想是:在樣本之間定義距離,距離表明樣本之間的相似度,距離越小,相似度越高,關(guān)系越緊密;將關(guān)系密切的聚集為一類,關(guān)系疏遠(yuǎn)的聚集為另一類,直到所有樣本都聚集完畢。K-均值聚類方法第5章
K-均值聚類是一種基于原型的、根據(jù)距離劃分組的算法,其時(shí)間復(fù)雜度比其他聚類算法低,用戶需指定劃分組的個(gè)數(shù)K。其中,K-均值聚類常見距離測(cè)度包括歐幾里得距離(也稱歐氏距離)、曼哈頓距離、切比雪夫距離等。K-均值聚類默認(rèn)采用歐氏距離進(jìn)行計(jì)算,其公式如下:(表示第個(gè)i樣本與第個(gè)j樣本之間的歐氏距離)K-均值聚類算法的直觀理解如下:Step1:隨機(jī)初始化K個(gè)聚類中心,即K個(gè)類中心向量。Step2:對(duì)每個(gè)樣本,計(jì)算其與各個(gè)類中心向量的距離,并將該樣本指派給距離最小的類。Step3:更新每個(gè)類的中心向量,更新的方法為取該類所有樣本的特征向量均值。Step4:直到各個(gè)類的中心向量不再發(fā)生變化為止,作為退出條件。K-均值聚類方法第5章
xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下Step1:初始化兩個(gè)類的聚類中心,這里取前兩個(gè)樣本分別為聚類中心。C1=(1.5,2.5),C2=(1.7,1.3)到達(dá)C1的距離:0
1.22
0.32
3.75
2.79
4.69
4.41
0.67到達(dá)C2的距離:1.22
0
0.91
4.92
3.93
5.84
5.56
0.61各樣本所屬類:
1
2
1
1
1
1
1
2Step2:分別計(jì)算每個(gè)樣本到達(dá)各個(gè)聚類中心的距離:Step3:更新聚類中心,更新方法為計(jì)算所屬類的特征向量的均值C1=((1.5+1.6+2.1+2.2+2.4+2.5)/6,(2.5+2.2+6.2+5.2+7.1+6.8)/6)=(2.05,5)C2=((1.7+1.8)/2,(1.3+1.9)/2)=(1.75,1.6)K-均值聚類方法第5章
xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:2.56
3.72
2.84
1.2
0.25
2.13
1.86
3.11到達(dá)C2的距離:0.93
0.3
0.62
4.61
3.63
5.54
5.25
0.3各樣本所屬類:
2
2
2
1
1
1
1
2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:3.91
5.06
4.18
0.24
1.13
0.78
0.52
4.45到達(dá)C2的距離:0.55
0.68
0.23
4.25
3.27
5.18
4.9
0.17各樣本所屬類:
2
2
2
1
1
1
1
2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4:這里我們發(fā)現(xiàn),聚類中心不再發(fā)生變化,而且類歸屬也沒有發(fā)生變化。其實(shí)正是因?yàn)轭悮w屬?zèng)]有發(fā)生變化,才導(dǎo)致了聚類中心不再發(fā)生變化,達(dá)到算法終止條件。故樣本1、2、3、8歸為一類,樣本4、5、6、7歸為另一類。K-均值聚類算法應(yīng)用舉例第5章
對(duì)表所示的31個(gè)地區(qū)2016年農(nóng)村居民人均可支配收入情況做聚類分析地區(qū)工資性收入(X1)經(jīng)營(yíng)凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………1.?dāng)?shù)據(jù)獲取及標(biāo)準(zhǔn)化處理importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來(lái)源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)K-均值聚類算法應(yīng)用舉例第5章
(1)導(dǎo)入K-均值聚類模塊KMeans。
fromsklearn.clusterimportKMeans(2)利用KMeans創(chuàng)建K-均值聚類對(duì)象model。
model=KMeans(n_clusters=K,random_state=0,max_iter=500)
參數(shù)說(shuō)明如下:
n_clusters:設(shè)置的聚類個(gè)數(shù)K。
random_state:隨機(jī)初始狀態(tài),設(shè)置為0即可。
max_iter:最大迭代次數(shù)。(3)調(diào)用model對(duì)象中的fit()方法進(jìn)行擬合訓(xùn)練。
model.fit(X)(4)獲取model對(duì)象中的labels_屬性,可以返回其聚類的標(biāo)簽。
c=model.labels_2.K-均值聚類分析K-均值聚類算法應(yīng)用舉例第5章
完整代碼如下:importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來(lái)源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)fromsklearn.clusterimportKMeans
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級(jí)教學(xué)工作計(jì)劃模板錦集四篇
- 耐材項(xiàng)目建議書(立項(xiàng)報(bào)告)
- 2021八年級(jí)歡慶中秋節(jié)滿分作文五篇
- 初中體育教師學(xué)期教學(xué)工作計(jì)劃范文
- 人才公寓(原公租房)項(xiàng)目第三方檢測(cè)和監(jiān)測(cè)服務(wù)招標(biāo)文件
- 2025年食品級(jí)纖維素醚項(xiàng)目發(fā)展計(jì)劃
- 2024職業(yè)教育改革與發(fā)展報(bào)告
- 初三考試作文6篇
- 河北省衡水市棗強(qiáng)中學(xué)2024-2025學(xué)年高一(上)第三次調(diào)研物理試卷(含答案)
- 期中學(xué)情評(píng)估卷(含答案)2024-2025學(xué)年部編版七年級(jí)語(yǔ)文下冊(cè)
- 蘇教版(2024新版)七年級(jí)上冊(cè)生物期末模擬試卷 3套(含答案)
- 《項(xiàng)目管理》完整課件
- IB課程-PYP小學(xué)項(xiàng)目省公開課獲獎(jiǎng)?wù)n件說(shuō)課比賽一等獎(jiǎng)?wù)n件
- 上市央國(guó)企數(shù)智化進(jìn)程中人才就業(yè)趨勢(shì)
- 2024-2030年中國(guó)苯胺行業(yè)現(xiàn)狀動(dòng)態(tài)與需求前景展望報(bào)告
- 英雄之旅思維模型
- 釘釘數(shù)字化管理師中級(jí)題庫(kù)
- 解一元二次方程(公式法)(教學(xué)設(shè)計(jì))-九年級(jí)數(shù)學(xué)上冊(cè)同步備課系列
- 2024版小學(xué)科學(xué)六年級(jí)上冊(cè)第四單元《能量》教學(xué)課件
- 2024年秋新滬教牛津版英語(yǔ)三年級(jí)上冊(cè) Unit 6 第1課時(shí) 教學(xué)課件
- 江蘇揚(yáng)州中學(xué)教育集團(tuán)2023-2024學(xué)年中考三模數(shù)學(xué)試題含解析
評(píng)論
0/150
提交評(píng)論