數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文終稿_第1頁
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文終稿_第2頁
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文終稿_第3頁
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文終稿_第4頁
數(shù)據(jù)分析課程設(shè)計(jì)報(bào)告論文終稿_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.基于K-均值的Iris數(shù)據(jù)聚類分析姓名謝 穩(wěn)學(xué)號 1411010122 班級信科 14-1 成績 _基于K-均值的Iris數(shù)據(jù)聚類分析姓名:謝 穩(wěn)信息與計(jì)算科學(xué)14-1班摘要數(shù)據(jù)挖掘在當(dāng)今大數(shù)據(jù)新起的時代是一項(xiàng)必須掌握的技能,聚類分析是數(shù)據(jù)挖掘技術(shù)中一項(xiàng)重要的研究課題,在很多領(lǐng)域都有具有廣泛的應(yīng)用,如模式識別、數(shù)據(jù)分析等。聚類分析的目的是將數(shù)據(jù)對象分成若干個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象之間相似度較低5。通過聚類分析,人們能夠識別出數(shù)據(jù)分布密集和稀疏的區(qū)域,發(fā)現(xiàn)全局的分布模式以及數(shù)據(jù)屬性之間一些意想不到的相互關(guān)系。本文對R.A.Fisher 在1936

2、年發(fā)表的Iris 數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,使用聚類分析中的K-Means對該問題進(jìn)行進(jìn)一步分析研究。實(shí)驗(yàn)證明兩種方法都是適合的解決此類問題的。關(guān)鍵詞Iris數(shù)據(jù);聚類分析;K-均值聚類.前言本文對聚類分析的原理進(jìn)行闡述,并聚類分析中的譜系聚類法和K-means對的Iris 數(shù)據(jù)進(jìn)行了數(shù)據(jù)分析,得到了幾乎相同的結(jié)論,數(shù)據(jù)量太少,回帶誤差大約是20%。數(shù)據(jù)分析預(yù)處理1.1 數(shù)據(jù)來源分析的數(shù)據(jù)來自R.A.Fisher 在1936 年發(fā)表的Iris 數(shù)據(jù)見附錄B表B.1,據(jù)表可知前50個數(shù)據(jù)為牽牛一類,再50個數(shù)據(jù)為雜色一類,后50個數(shù)據(jù)為錦葵一類。將數(shù)據(jù)樣本X變量放入matlab變量名X,保存為matla

3、b的huaban.mat文件。1.2 數(shù)據(jù)分析采用譜系聚類分析方法和K-means聚類法解決例如Iris類的分類等問題。聚類分析2.1聚類的概述聚類分析是研究對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對象的個體的特征進(jìn)行分類的方法;聚類分析把分類對象按一定規(guī)則分成若干類,這些類非事先指定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中趨向于不相似;職能是建立一種能按照樣品或變量的相似程度進(jìn)行分類的方法。聚類準(zhǔn)則為親者相聚,疏者相分。2.2 分類2.2.1 R型聚類分析R型聚類分析是對變量指標(biāo)的分類,其主要作用:不但可以了解個別變量之間的親疏程度,而

4、且可以了解各個變量組合之間的親疏程度。2.2.2 Q型聚類分析Q型聚類分析是對樣品的分類,其主要作用:可以綜合利用多個變量的信息對樣本進(jìn)行分析;分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果;所得結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。其常用的統(tǒng)計(jì)量是距離。常用的聚類方法為譜系聚類法等。2.3譜系聚類法2.3.1概念譜系聚類法是目前應(yīng)用較為廣泛的一種聚類法。譜系聚類是根據(jù)生物分類學(xué)的思想對研究對象進(jìn)行分類的方法。在生物分類學(xué)中,分類的單位是:門、綱、目、科、屬、種。其中種是分類的基本單位,分類單位越小,它所包含的生物就越少,生物之間的共同特征就越多。利用這種思想,譜系聚類首先將各樣品自成一類,然

5、后把最相似距離最近或相似系數(shù)最大的樣品聚為小類,再將已聚合的小類按各類之間的相似性用類間距離度量進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類都聚為一大類,從而得到一個按相似性大小聚結(jié)起來的一個譜系圖。2.3.2 選擇距離在使用系統(tǒng)聚類法進(jìn)行聚類的過程中, 尤其是Q型聚類是建立在樣品之間距離矩陣的基礎(chǔ)上的,通常需要對原始數(shù)據(jù)進(jìn)行參考點(diǎn)的建立和去量綱化的處理,然后求出樣 品距離矩陣D,我們采用比較廣泛的閔可夫斯基Minkowski距離:當(dāng)p=2時 即為歐幾里得CEuclidean距離。然后進(jìn)行類的搜索、合并于距離矩陣的 更新涉及類間距離的計(jì)算,需要事先計(jì)算類 與類之間的距離。依據(jù)類問距離不同的計(jì)算

6、 方法,我們可以把系統(tǒng)聚類法分為最短距離 法、最長距離法、重心法、離差平方和法ward等。設(shè)Gp ,Gq 為前一輪操作中形成的某兩個聚類,在本輪操作中歸聚為新類Gr =GpGq則新類Gr與前一輪操作中形成噸,Gq 之外的任意一類 G,的距離遞推公式如下:最短距離法其中l(wèi) p,q.最長距離法其中l(wèi) p,q.中間距離法 -. 中心距離法其中,和分別為和包含的聚類對象個數(shù),=+. Ward法注意,Ward法要求初始距離矩陣采用歐式距離公式計(jì)算各個對象的距離。2.4得到閔可夫斯基Minkowski距離譜系聚類法函數(shù)見附錄A.11pdist創(chuàng)建聚類對象的Minkowski距離矩陣。2squarform拉

7、直矩陣D。3linkage用D或其拉直矩陣創(chuàng)建信息矩陣G,默認(rèn)的類間距離為最短距離法。4dendrogram創(chuàng)建G的譜系聚類圖。5cluster創(chuàng)建G的指定個數(shù)類。2.5畫譜系聚類圖見圖2.1圖2.1Iris花瓣數(shù)據(jù)譜系聚類圖2.6 得出分類由圖2.1得出Iris花瓣數(shù)據(jù)截?cái)嗵幙蛇x擇d=1,d=0.8,d=0.666對應(yīng)的分類個數(shù)為2,3,5類。2.7 cluster創(chuàng)建G的指定個數(shù)類。matlab程序見A.32.7.1 分3類圖見圖2.2圖2.2譜系聚類分析分為三類圖2.8 結(jié)論 由圖2.2將數(shù)據(jù)譜系聚類分析分為三類圖可知,將數(shù)據(jù)分為3類不太恰當(dāng),應(yīng)該兩類或者5類更合適,不過也有可能是我們選

8、擇的距離有問題。下面K-means我們將更改距離。k-均值聚類3.1 K-Means算法思想1967 年Macqueen 提出了K-means 算法4,基本思想是把數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)隨機(jī)生成k 組,把每組的均值作為中心點(diǎn)。重新計(jì)算每個數(shù)據(jù)點(diǎn)與各組的中心點(diǎn)的相似性,根據(jù)數(shù)據(jù)點(diǎn)相似性的度量準(zhǔn)則,把每個數(shù)據(jù)點(diǎn)重新分組,計(jì)算每組新的均值作為中心點(diǎn)。不斷重復(fù)上述過程,直到中心點(diǎn)的均值收斂,停止迭代過程。K-means 算法是一種比較快速的聚類方法,時間復(fù)雜度為O ,其中n 是數(shù)據(jù)點(diǎn)的數(shù)目,k 是分組數(shù)目,t 是迭代次數(shù)。K-means 算法也存在不足,最大問題要指定分組數(shù)目并且在運(yùn)行過程中容易導(dǎo)致局部最優(yōu)

9、。3.1.1 K-均值算法K-均值算法是一種已知聚類個數(shù)的無監(jiān)督學(xué)習(xí)算法。首先指定表示聚類個數(shù)的K 值,然后對數(shù)據(jù)集聚類,算法結(jié)束時用K 個聚類中心表示聚類結(jié)果。對于設(shè)定的目標(biāo)準(zhǔn)則函數(shù),通過向目標(biāo)準(zhǔn)則函數(shù)值減小的方向進(jìn)行迭代更新,目標(biāo)準(zhǔn)則函數(shù)值達(dá)到極小值時算法結(jié)束,得到較優(yōu)的聚類結(jié)果。設(shè)數(shù)據(jù)集為,K個距離中心為V1,V2,.,Vk。令表示K個聚類的類別,則:定義目標(biāo)準(zhǔn)則函數(shù)為:2其中|Ci |表示Ci類包含樣本的個數(shù),使用歐式距離3度量樣本間的相似性。歐式距離適用于類內(nèi)數(shù)據(jù)對象符合超球形分布的情況,目標(biāo)準(zhǔn)則函數(shù)SSE表示為每個數(shù)據(jù)對象到相應(yīng)聚類中心距離的平方和,即聚類均方誤差的最小值。3.1.

10、2 K-均值算法的流程如下:1隨機(jī)選取K 個初始聚類中心V1,V2,.,Vk ;2按照最小距離原則,對數(shù)據(jù)集聚類,確定每個樣本的類屬關(guān)系;3使用公式1更新K 個簇的中心;4重復(fù)執(zhí)行2到4,直到目標(biāo)準(zhǔn)則函數(shù)收斂或聚類中心穩(wěn)定。顯然,初始聚類中心對K-均值算法產(chǎn)生很大的影響,簇集中易存在平均誤差較大的簇,聚類結(jié)果僅能收斂到局部最優(yōu)。即使選取不同的初始聚類中心執(zhí)行多次K-均值算法,也只是在龐大的初值空間里進(jìn)行簡單的搜索,聚類結(jié)果很難達(dá)到全局最優(yōu)。當(dāng)數(shù)據(jù)集中存在較多噪音或孤立點(diǎn)時,已有的初始聚類中心優(yōu)化方法很難發(fā)現(xiàn)合適的初始聚類中心。3.2復(fù)合相關(guān)系數(shù)的計(jì)算計(jì)算過程見附錄A.4分別記最短、最長、類平均

11、、重心、離差平方和距離為G1、G2、G3、G4、G5,相對應(yīng)的復(fù)合相關(guān)系數(shù)分別記為R1、R2、R3、R4、R5,以歐式距離為樣本間距離計(jì)算得到表3-1表3-1復(fù)合相關(guān)系數(shù)R1R2R3R4R50.86390.72760.87680.87700.8728由表2可知以重心距離進(jìn)行聚類分析效果應(yīng)該最為理想3.3 聚類結(jié)果見圖3.1 以重心距離為類間距離進(jìn)行譜系聚類分析得到matlab程序參考附錄A.1-4圖3.1譜系聚類圖3.4譜系聚類結(jié)果見圖3.2圖3.2譜系聚類結(jié)果3.4K-Means聚類結(jié)果見圖3.3圖3.3K-Means聚類結(jié)果3.5分析結(jié)果由圖3.2結(jié)果可得第1類有36個樣本,第2類有64個

12、樣本,第3類有50個樣本,由圖3.3可知第1類有62個樣本,第2類有49個樣本,第3類有39個樣本兩種方法基本得到的結(jié)論基本一致,不過都不太理想。這可能是數(shù)據(jù)量太小了的原因。大數(shù)據(jù)時代,需要大量的數(shù)據(jù)。參考文獻(xiàn)1 包研科.數(shù)據(jù)分析教程.北京:清華大學(xué)出版社,20112 曾繁慧.數(shù)值分析.XX:中國礦業(yè)大學(xué)出版社,20093 袁方,周志勇,宋鑫初始聚類中心優(yōu)化的K-means算發(fā) J .計(jì)算機(jī)工程,2007,333:65-664 MacQueen, James. Some methods for classification andanalysis of multivariate observa

13、tions. Proceedings of thefifth Berkeley symposium on mathematical statistics andprobability. Vol. 1. No. 281-297. 19675 余立強(qiáng)LAMP 架構(gòu)搭建與網(wǎng)站運(yùn)行實(shí)例J網(wǎng)絡(luò)與信息,20118:50526 吳夙慧,成穎,鄭彥寧,潘云濤. K-means 算法研究綜述 J . 現(xiàn)代圖書情報(bào)技術(shù), 2011, : 28-35.附錄A.1譜系聚類法函數(shù)function f = test4load huaban.matD = pdist;G = linkage;dendrogram;T=clu

14、sterA.2 自編k-means聚類分析xwKmeans.m函數(shù)function cid,nr,centers = xwKmeans% CID,NR,CENTERS = CSKMEANS Performs K-means% X輸入聚合數(shù)據(jù)% K通過觀察得到的經(jīng)驗(yàn)分組數(shù)據(jù)% 每行一個觀測,NC為聚類指數(shù),來源于初始的聚類中心值,默認(rèn)情況下為隨機(jī)的觀測% 輸出: IDX為最終分類% nr為每個每個聚合的中心值% CENTERS is a matrix, where each row% corresponds to a cluster center.n,d = size;if nargin 3 i

15、nd = ceiln*rand;nc = x + randn;endcid = zeros; oldcid = ones;nr = zeros; maxiter = 100;iter = 1;while isequal & iter maxiterfor i = 1:n dist = sumrepmatx,k,1-nc.2,2; m,ind = min; cid = ind;end for i = 1:k ind = find; nc = meanx; nr = length;end iter = iter + 1;endmaxiter = 2;iter = 1;move = 1;while

16、iter maxiter & move = 0 move = 0;for i = 1:n % 找到與所有聚合的距離 dist = sumrepmatx,k,1-nc.2,2; r = cid; dadj = nr./.*dist; m,ind = min; %最小的就是聚合的分類 if ind = r cid = ind; ic = find; nc = meanx; move = 1; endenditer = iter+1;endcenters = nc;if move = 0dispelsedispendcid =cid;A.3 k-means聚類分析分類圖matlab的main.m函數(shù)

17、function f = main n,d = size; bn=round;%第一個隨機(jī)數(shù)在前1/K的范圍內(nèi) %;表示按列顯示,都好表示按行顯示 %初始聚類中心 %X 選擇某一行數(shù)據(jù)作為聚類中心,其列值為全部 %X數(shù)據(jù)源,k聚類數(shù)目,nc表示k個初始化聚類中心 %cid表示每個數(shù)據(jù)屬于哪一類,nr表示每一類的個數(shù),centers表示聚類中心cid,nr,centers = xwKmeansfor i=1:150 if cid=1 plotX,X,r* % 顯示第一類hold on else if cid=2, plotX,X,b*%顯示第二類 plotX,b* % 顯示第一類 hold on

18、 else if cid=3, plotX,X,g* %顯示第三類 % plotX,g*% 顯示第一類 hold on else if cid=4, plotX,X,k* %顯示第四類 % plotX,k* % 顯示第一類 hold on end end end end end text; text; text; text; A.4相關(guān)系數(shù)matllab指令d=pdist;G1=linkage;G2=linkage;G3=linkage;G4=linkage;G5=linkage;R1=cophenet;R2=cophenet;R3=cophenet;R4=cophenet;R5=cophen

19、et;B.1:R.A.Fisher 在1936 年發(fā)表的Iris 數(shù)據(jù)表B.1Iris 數(shù)據(jù)樣本號萼片長萼片寬花瓣長花瓣寬種類15.13.51.40.2牽牛24.931.40.2牽牛34.73.21.30.2牽牛44.63.11.50.2牽牛553.61.40.2牽牛65.43.91.70.4牽牛74.63.41.40.3牽牛853.41.50.2牽牛94.42.91.40.2牽牛104.93.11.50.1牽牛115.43.71.50.2牽牛124.83.41.60.2牽牛134.831.40.1牽牛144.331.10.1牽牛155.841.20.2牽牛165.74.41.50.4牽牛17

20、5.43.91.30.4牽牛185.13.51.40.3牽牛195.73.81.70.3牽牛205.13.81.50.3牽牛215.43.41.70.2牽牛225.13.71.50.4牽牛234.63.610.2牽牛245.13.31.70.5牽牛254.83.41.90.2牽牛26531.60.2牽牛2753.41.60.4牽牛285.23.51.50.2牽牛295.23.41.40.2牽牛304.73.21.60.2牽牛314.83.11.60.2牽牛325.43.41.50.4牽牛335.24.11.50.1牽牛345.54.21.40.2牽牛354.93.11.50.2牽牛3653.2

21、1.20.2牽牛375.53.51.30.2牽牛384.93.61.40.1牽牛394.431.30.2牽牛405.13.41.50.2牽牛4153.51.30.3牽牛424.52.31.30.3牽牛434.43.21.30.2牽牛4453.51.60.6牽牛455.13.81.90.4牽牛464.831.40.3牽牛475.13.81.60.2牽牛484.63.21.40.2牽牛495.33.71.50.2牽牛5053.31.40.2牽牛5173.24.71.4雜色526.43.24.51.5雜色536.93.14.91.5雜色545.52.341.3雜色556.52.84.61.5雜色56

22、5.72.84.51.3雜色576.33.34.71.6雜色584.92.43.31雜色596.62.94.61.3雜色605.22.73.91.4雜色61523.51雜色625.934.21.5雜色6362.241雜色646.12.94.71.4雜色655.62.93.61.3雜色666.73.14.41.4雜色675.634.51.5雜色685.82.74.11雜色696.22.24.51.5雜色705.62.53.91.1雜色715.93.24.81.8雜色726.12.841.3雜色736.32.54.91.5雜色746.12.84.71.2雜色756.42.94.31.3雜色766.

23、634.41.4雜色776.82.84.81.4雜色786.7351.7雜色7962.94.51.5雜色805.72.63.51雜色815.52.43.81.1雜色825.52.43.71雜色835.82.73.91.2雜色8462.75.11.6雜色855.434.51.5雜色8663.44.51.6雜色876.73.14.71.5雜色886.32.34.41.3雜色895.634.11.3雜色905.52.541.3雜色915.52.64.41.2雜色926.134.61.4雜色935.82.641.2雜色9452.33.31雜色955.62.74.21.3雜色965.734.21.2雜色975.72.94.21.3雜色986.22.94.31.3雜色995.12.531.1雜色1005.72.84.11.3雜色1016.33.362.5錦葵1025.82.7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論