版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、對(duì)數(shù)據(jù)進(jìn)行聚類分析實(shí)驗(yàn)報(bào)告一、基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的數(shù)據(jù)作為本次實(shí)驗(yàn)使用的樣本集,利用C均值和分級(jí)聚類方法對(duì)樣本集進(jìn)行聚類分析,對(duì)結(jié)果進(jìn)行分析, 從而加深對(duì)所學(xué)內(nèi)容的理解和感性認(rèn)識(shí)。二、實(shí)驗(yàn)要求1、把FAMALE.TXT和MALE.TXT兩個(gè)文件合并成一個(gè),同時(shí)采用身高 和體重?cái)?shù)據(jù)作為特征,設(shè)類別數(shù)為 2,利用C均值聚類方法對(duì)數(shù)據(jù)進(jìn) 行聚類,并將聚類結(jié)果表示在二維平面上。嘗試不同初始值對(duì)此數(shù)據(jù) 集是否會(huì)造成不同的結(jié)果。2、對(duì)1中的數(shù)據(jù)利用C均值聚類方法分別進(jìn)行兩類、 三類、四類、五類 聚類,畫出聚類指標(biāo)與類別數(shù)之間的關(guān)系曲線,探討是否可以確定
2、出 合理的類別數(shù)目。3、對(duì)1中的數(shù)據(jù)利用分級(jí)聚類方法進(jìn)行聚類,分析聚類結(jié)果,體會(huì)分級(jí)聚類方法。4、利用test2.txt數(shù)據(jù)或者把test2.txt的數(shù)據(jù)與上述1中的數(shù)據(jù)合并在一 起,重復(fù)上述實(shí)驗(yàn),考察結(jié)果是否有變化,對(duì)觀察到的現(xiàn)象進(jìn)行分析, 寫出體會(huì)三、實(shí)驗(yàn)步驟及流程圖根據(jù)以上實(shí)驗(yàn)要求,本次試驗(yàn)我們將分為兩組:一、首先對(duì)FEMALE MALE中數(shù)據(jù)組成的樣本按照上面要求用 C均值法進(jìn)行聚類分析,然后對(duì)FEMALE MALE test2中數(shù)據(jù)組成的樣本集用C均值法進(jìn)行聚類分析,比較二者結(jié)果。二、將上 述兩個(gè)樣本用分即聚類方法進(jìn)行聚類, 觀察聚類結(jié)果。并將兩種聚類結(jié)果進(jìn)行比 較。一、(1)、C均
3、值算法思想C均值算法首先取定C個(gè)類別和選取C個(gè)初始聚類中心,按最小距離原則將各模式 分配到C類中的某一類,之后不斷地計(jì)算類心和調(diào)整各模式的類別,最終使各模 式到其判屆類別中心的距離平方之和最小(2)、實(shí)驗(yàn)步驟第一步:確定類別數(shù)C,并選擇C個(gè)初始聚類中心。本次試驗(yàn),我們分別將 C的 值取為2和3。用的是憑經(jīng)驗(yàn)選擇代表點(diǎn)的方法。比如:在樣本數(shù)為 N時(shí),分為兩類時(shí),取第1個(gè)點(diǎn)和第INT (N/2)+1個(gè)點(diǎn)作為代表點(diǎn);分為三類時(shí),取第 1、INT (N /3 )+1、INT (2N /3 )+1 個(gè)點(diǎn)作為代表點(diǎn);第二步:將待聚類的樣本集中的樣本逐個(gè)按最小距離規(guī)則分劃給C個(gè)類中的某一類。第三步:計(jì)算重新
4、聚類后的個(gè)各類心,即各類的均值向量。第四步:如果重新得到的類別的類心與上一次迭代的類心相等,則結(jié)束迭代,否則轉(zhuǎn)至第二步。第五步:迭代結(jié)束時(shí),換不同的初始值進(jìn)行試驗(yàn),將實(shí)驗(yàn)結(jié)果進(jìn)行比較(3)、實(shí)驗(yàn)流程圖(4)、本次試驗(yàn)我們用的聚類指標(biāo)是誤差平方和聚類準(zhǔn)則 Je設(shè)Ni是第i聚類Ci的樣本數(shù)目,Zi是這些樣本的均值,則把Ci中得各樣本y與均值Zi問(wèn)的誤差平方和對(duì)所有類相加后為:cJ e一 | y - mi 2當(dāng)C取不同的值時(shí)各自算出它們的J e ,進(jìn)行比較。二、利用分級(jí)聚類方法進(jìn)行聚類1、分級(jí)聚類法思想:首先 把全部樣本作為一類看做一類,然后根據(jù)一定的目標(biāo) 函數(shù)進(jìn)行分解。2、步驟第一步:開(kāi)始時(shí),將全
5、部樣本當(dāng)做一類,第二類即為空集。第二步:將第一類中的所有樣本依次放入第二類,計(jì)算兩類樣本均值X1, X2,樣本數(shù)目N1 ,疆以及目標(biāo)函數(shù)E =生!。1 _X2)'(Xi X2),比較E值大小,選 N擇E值最大所對(duì)應(yīng)的樣本,將其歸入第二類。并記錄此時(shí)的E為E (1)第三步:將第一類中剩下樣本依次放入第二類中, 按照上面運(yùn)算得出E值,并比 較E值大小,選擇E值最大所對(duì)應(yīng)的樣本,將其歸入第二類。并記錄此時(shí)的 E 為 E (2)第三步:將新的兩類按照上面的方法繼續(xù)劃分, 直到第i次迭代的E(i) <E(i-1 ) 或者到達(dá)規(guī)定的迭代次數(shù)。3、實(shí)驗(yàn)流程圖四、實(shí)驗(yàn)結(jié)果I、1、用FAMALE.
6、TXT和MALE.TXT中的數(shù)據(jù)組合起來(lái)作為樣本集:C=2時(shí)(1)、取第一個(gè)和第五十一個(gè)樣本作為初始聚類中心,得出的實(shí)驗(yàn)結(jié)果圖如下:140145150155160165170175180135190得到結(jié)果是:點(diǎn)號(hào)表示的類別中樣本總數(shù)為61,星表示的類別中樣本總數(shù)為39兩個(gè)聚類中心分另U為:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )2)、取第二十五個(gè)和七十五個(gè)樣本作為初始聚類中心時(shí)得到的實(shí)驗(yàn)結(jié)果如下:9065807570656。5550454014014515015516。165170175180185190得到結(jié)果是:點(diǎn)號(hào)表示的類別中樣本
7、總數(shù)為 61,星表示的類別中樣本總數(shù)為39兩個(gè)聚類中心分另U為:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )進(jìn)行多次試驗(yàn)發(fā)現(xiàn)取不同的初始聚類中心時(shí)實(shí)驗(yàn)結(jié)果相同它們的 J e=5.9707e+003但是,經(jīng)過(guò)后面的實(shí)驗(yàn)我們發(fā)現(xiàn),初始聚類中心選擇影響最后的聚類中心,其能保證優(yōu)化,而不能保證全局優(yōu)化,ISODATA在這一點(diǎn)比C-均化更好。卜面是將男女樣本所代表的點(diǎn)分別畫到圖上可得下圖:9085S07570656065504540140145150155160165170175130135190其中點(diǎn)表示的是女生樣本,圓圈表示的是男生樣本。其中,男生
8、的樣本均值為 (173.9200 , 65.5020 )女生的樣本均值為(162.8400 , 52.5960 )通過(guò)比較兩幅圖,可以發(fā)現(xiàn),當(dāng)去 C=2時(shí),對(duì)數(shù)據(jù)進(jìn)行聚類分析得到的聚類結(jié) 果基本類似丁男女生分類,他們的樣本均值相差不大,不過(guò)還是有一定差別。差 別出現(xiàn)在一些身高低丁 1.70米的男生處。C=3時(shí)得到的聚類結(jié)果圖如下:9085807570656055504540 1401451501561601651701761801185190最終的三個(gè)聚類中心:A (159.2333 , 49.9333 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.01
9、56 )J e =3.9251e+003從圖中可以看出,當(dāng)劃分為三類時(shí),其結(jié)果可以看做按照身高與體重的比將樣本 進(jìn)行聚類,身高體重比大,較大,小的分別為一類。C=4時(shí):得到的分來(lái)結(jié)果如下:90858075706560555045401401451501551&O165170175180135190得到的四個(gè)聚類中心為:A (157.4286 , 49.2381 ), B (164.7727 , 53.3545 )C (170.4400 , 58.2640 ), D (176.4375 , 70.0156 )J e =3.4318e+003C=5時(shí)得到的聚類結(jié)果如下:9085807570
10、656055504540140145150156160165170175180135190最終的五個(gè)聚類中心分別為:A (158.1579 , 47.3684 ), B (163.3913 , 54.4652 )C (170.3462 , 58.1423 ), D (176.0741 , 67.7593 )E (178.4000 , 82.2000 )J e=2.6352e+003C=7時(shí)得到的聚類結(jié)果圖如下:90111111185807570656055504540¥140145150155160+ 165170175160185190最終的6個(gè)聚類中心分別為:A (158.346
11、2,49.8462 )B(166.9259 ,54.5889 )C (171.4737,60.8158 )D(175.6842 ,68.1842 )E (178.0000,80.6667 )F(183.3333 ,66.6667 )J e= 2.5607e+0031、畫出C值與J e之間的關(guān)系曲線如下:由圖可以看出,拐點(diǎn)離2較近,所以講此樣本集聚為二類最佳2、把test2.txt的數(shù)據(jù)與上述1中的數(shù)據(jù)合并在一起,重復(fù)上述實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:(1)、取第二十五個(gè)和第二白零一個(gè)個(gè)樣本作為初始聚類中心,得出的實(shí)驗(yàn) 結(jié)果圖其中,A (165.0479 , 53.6491 ), B (176.4506
12、, 69.9378 )J e =3.2952e+004取第一白個(gè)和第三白個(gè)樣本作為初始聚類中心時(shí)得出結(jié)果與前面相同(3)、C=4 時(shí):oo401oJI7 JIA (163.3438 , 51.8742 ) , B (174.5561 , 64.5024 )C (178.8657 , 80.4776 )Je =2.0594e+004Je=1.6346e+004A (159.8548 , 48.3145 ), B (167.5567 , 56.6485)C (175.4783 , 65.7908 ), D (179.3684 , 81.7368 )(4) C=5 時(shí):130 rtr1O120 -1
13、10 -100 -a o c140150160170180190200Je=1.3575e+004A (160.5732 , 50.0512 ), B (170.0510 , 57.5020 )C (175.3836 ,65.9452 ), D (178.6429,75.7589)E (179.6667 , 91.3889 )(5)、C=6 時(shí)40401o06o7o8o620JIo o601.1JI其中,Je = 1.3018e+004A (160.8427 , 50.6596 ) C (172.6381 , 62.9143 ) E (177.2955 , 68.0057 ) B (170.6
14、296 , 55.1241 ) D (176.8488 , 76.8837 ) F (181.5952 , 89.1905 )畫出C值與J e之間的關(guān)系曲線如下與圖可知,拐點(diǎn)離2較近,所以認(rèn)為此時(shí)仍是將樣本集分為二類最佳(4)、將兩種樣本即進(jìn)行聚類后的樣本中心進(jìn)行比較,如下表:以FEMALE和MALE中得數(shù)據(jù)作為樣本以FEMALE和MALE以及test2中的數(shù)據(jù)作為樣木2A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )3A (159.2333 , 49.933
15、3 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.0156)A (163.3438 , 51.8742 ) B (174.5561 , 64.5024 ) C (178.8657, 80.4776 )4A (157.4286 , 49.2381 ) B (164.7727 , 53.3545 ) C (170.4400 , 58.2640) D (176.4375 , 70.0156)A (159.8548 , 48.3145 ) B (167.5567, 56.6485 ) C (175.4783 , 65.7908 ) D (179.3684 , 8
16、1.7368 )5A (158.1579 , 47.3684 ) B (163.3913 , 54.4652 ) C (170.3462 , 58.1423) D (176.0741 , 67.7593) E (178.4000 , 82.2000 )A (160.5732 , 50.0512 ) B (170.0510 , 57.5020 ) C (175.3836 , 65.9452 )D (178.6429,75.7589) E (179.6667, 91.3889 )6A (158.3462 , 49.8462 ) B (166.9259 , 54.5889 ) C (171.4737
17、 , 60.8158) D (175.6842 , 68.1842) E (178.0000 , 80.6667 ) F (183.3333 , 66.6667 )A (160.8427 , 50.6596 ) B (170.6296 , 55.1241 ) C (172.6381 , 62.9143 ) D (176.8488 , 76.8837 ) E (177.2955 , 68.0057 ) F (181.5952 , 89.1905 )從上表可以縱向比較可以看出,C越大,即聚類數(shù)目越多,聚類之間差別越小, 他們的聚類中心也越接近。橫向比較用FEMALE,MALE中數(shù)據(jù)作為樣本和用FE
18、MALE,MALE , test2中數(shù)據(jù)作為樣本時(shí),由丁引入了新的樣本,可以發(fā)現(xiàn)后 者的聚類中心比前者都稍大。但是它們的分布類似,變化不大。II、將兩個(gè)樣本分別用分級(jí)聚類方法進(jìn)行聚類,得出結(jié)果,并與C均值聚類法進(jìn)行比較:1、 對(duì)FEMALE與MALE中數(shù)據(jù)組成的樣本集進(jìn)行分級(jí)聚類:9085807570656055504540 14014515015516016517017E180185190由圖可見(jiàn),分級(jí)聚類法將樣本分為兩類,它們的聚類中心分別為A (163.4667 , 53.0400 ) B (175.7500 , 68.0625 )將它與C=2時(shí)的C均值聚類結(jié)果進(jìn)行比較,分別比較它們的結(jié)
19、果圖以及聚類中 心,下面是它們的聚類中心比較:聚類方法C均值聚類分級(jí)聚類聚類中心A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (163.4667 , 53.0400 )B (175.7500 , 68.0625 )比較發(fā)現(xiàn)它們的聚類結(jié)果很相似2、對(duì)由MALE MALE test2中數(shù)據(jù)組成的樣本集進(jìn)行分級(jí)聚類:* *.140O6501o o3 2o o o1 o 9ODO 8 7 6o O16 4>+*"+ST*4+f *+*1 * $ 4 t itO 8 Ji由圖可見(jiàn),分級(jí)聚類法將樣本分為兩類,它們的聚類中心分別為A (164
20、.9819 , 53.6229 ), B (176.4487 , 69.8868 )將它與C=2時(shí)的C均值聚類結(jié)果進(jìn)行比較,分別比較它們的結(jié)果圖以及聚類中 心,下面是它們的聚類中心比較:聚類方法C均值聚類分級(jí)聚類聚類中心A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )A (164.9819 , 53.6229 )B (176.4487 , 69.8868 )比較發(fā)現(xiàn)它們的聚類結(jié)果也很類似分析:比較發(fā)現(xiàn)利用分級(jí)聚類方法與利用 C均值聚類法時(shí) C取2時(shí)的聚類結(jié)果極其相似.五、心得體會(huì)通過(guò)本次試驗(yàn),我們隊(duì) C均值聚類法以及分級(jí)聚類法都有了較好的理解,并且
21、在用MATLAB編程方面都有了很大進(jìn)步。部分代碼:C勻值%C=2clc;clear all;FH FW=textread('C:UsersxuydDesktophomeworkFEMALE.txt','%f %f');MH MW=textread('C:UsersxuydDesktophomeworkMALE.txt','%f %f);FA=FH FW;FA=FA'MA=MH MW;MA=MA'for k=1:50NT(:,k)=FA(:,k);endfor k=51:100NT(:,k)=MA(:,k-50);endz1
22、=NT(:,1);z2=NT(:,51);for k=1:100a=z1,b=z2G1=zeros(2,100);G2=zeros(2,100);for i=1:100d1=sqrt(NT(1,i)-z1(1,1)A2+(NT(2,i)-z1(2,1)A2);d2=sqrt(NT(1,i)-z2(1,1)A2+(NT(2,i)-z2(2,1)A2);if d1<d2G1(:,i)=NT(:,i);elseG2(:,i)=NT(:,i);endendG1(:,find(sum(abs(G1),1)=0)=;G2(:,find(sum(abs(G2),1)=0)=;z1=mean(G1,2)
23、;z2=mean(G2,2);if isequal(a,z1)=1&&isequal(z2,b)=1breakendendz1,z2,G1,G2,size(G1,2),size(G2,2)for i=1:size(G1,2)x=G1(1,i);y=G1(2,i);plot(x,y,'G.');hold onendfoz.£sN'e(G2-2)xnG2?mynG2(2uP_of(xy-R*who-d onendpofN(二)N(2iB+-)ho-d onp_ofN2(二)N2(2iB+-)ho-d oncpcCDar a=【FH Fwln(Dxfread(-ocsersxuyd-Deskfop-homework-FEMALE.><f-%f %f-)_【MH Mwln(Dxfread(-9cser
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版淀粉行業(yè)市場(chǎng)調(diào)研與信息共享合同3篇
- 基于云計(jì)算技術(shù)的2025年度自建房項(xiàng)目管理合同2篇
- 2024年08月中國(guó)光大銀行零售與財(cái)富管理部遠(yuǎn)程銀行中心遠(yuǎn)程客戶經(jīng)理崗招聘筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月中國(guó)光大銀行蘇州分行投資顧問(wèn)崗招聘筆試歷年參考題庫(kù)附帶答案詳解
- 二零二五年度門崗智能化改造聘用合同4篇
- 2025年度行政合同行政主體特權(quán)在公共安全領(lǐng)域的運(yùn)用合同4篇
- 2025年社區(qū)文化活動(dòng)中心場(chǎng)地租賃及公益活動(dòng)合同3篇
- 水庫(kù)水資源管理服務(wù)2025年度承包合同3篇
- 2025年1,7-二甲氧基萘項(xiàng)目投資可行性研究分析報(bào)告
- 二零二五版黃沙水泥采購(gòu)合同(含工程結(jié)算及審計(jì))3篇
- 高二物理競(jìng)賽霍爾效應(yīng) 課件
- 金融數(shù)學(xué)-(南京大學(xué))
- 基于核心素養(yǎng)下的英語(yǔ)寫作能力的培養(yǎng)策略
- 現(xiàn)場(chǎng)安全文明施工考核評(píng)分表
- 亞什蘭版膠衣操作指南
- 四年級(jí)上冊(cè)數(shù)學(xué)教案 6.1口算除法 人教版
- DB32-T 3129-2016適合機(jī)械化作業(yè)的單體鋼架塑料大棚 技術(shù)規(guī)范-(高清現(xiàn)行)
- 6.農(nóng)業(yè)產(chǎn)值與增加值核算統(tǒng)計(jì)報(bào)表制度(2020年)
- 人工挖孔樁施工監(jiān)測(cè)監(jiān)控措施
- 供應(yīng)商物料質(zhì)量問(wèn)題賠償協(xié)議(終端)
- 物理人教版(2019)必修第二冊(cè)5.2運(yùn)動(dòng)的合成與分解(共19張ppt)
評(píng)論
0/150
提交評(píng)論