原創(chuàng)WEKA聚類算法wine數(shù)據(jù)集分析研究報告附代碼數(shù)據(jù)_第1頁
原創(chuàng)WEKA聚類算法wine數(shù)據(jù)集分析研究報告附代碼數(shù)據(jù)_第2頁
原創(chuàng)WEKA聚類算法wine數(shù)據(jù)集分析研究報告附代碼數(shù)據(jù)_第3頁
原創(chuàng)WEKA聚類算法wine數(shù)據(jù)集分析研究報告附代碼數(shù)據(jù)_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、WEK聚類算法wine數(shù)據(jù)集分析研究1實驗?zāi)康南Mㄟ^實驗研究葡萄酒的差異化,并分析造成這種差異化的原因,可以更深刻 的掌握聚類分析的原理;進(jìn)一步熟悉聚類分析問題的提出、 解決問題的思路、方 法和技能;達(dá)到能綜合運用所學(xué)基本理論和專業(yè)知識;鍛煉收集、整理、運用資 料的能力的目的;希望能會調(diào)用 WEKA軟件聚類分析有關(guān)過程命令,并且可以 對數(shù)據(jù)處理結(jié)果進(jìn)行正確判斷分析,作出綜合評價。2實驗數(shù)據(jù)Wine這份數(shù)據(jù)集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是 葡萄酒的13種化學(xué)成分。通過化學(xué)分析可以來推斷葡萄酒的起源。值得一提的 是所有屬性變量都是連續(xù)變量。數(shù)據(jù)集特征:多變量記錄數(shù):1

2、78領(lǐng)域:物理屬性特征:整數(shù),實數(shù)屬性數(shù)目:13捐贈日期1991-07-01相關(guān)應(yīng)用:分類缺失值?無網(wǎng)站點擊數(shù):337319該實驗的數(shù)據(jù)集是 MostPopular Data Sets (hits since 2007)中的wine數(shù)據(jù)集,這 是是對在意大利同一地區(qū)生產(chǎn)的三種不同品種的酒,做大量分析所得出的數(shù)據(jù)。這些數(shù)據(jù)包括了三種酒中13種不同成分的數(shù)量。經(jīng)過幾天對數(shù)據(jù)集以及分類算法的研究,詳細(xì)研究了樸素貝葉斯分類器和其他學(xué) 習(xí)算法,包括決策樹和神經(jīng)網(wǎng)絡(luò)等等。同時由于這個數(shù)據(jù)集有13個屬性,用決策樹實現(xiàn)起來會很復(fù)雜。我最終選擇了用貝葉斯分類算法來實現(xiàn)。我將178個樣本分成118個訓(xùn)練樣本和60

3、個測試樣本,采用樸素貝葉斯分類算法,計算出先 驗概率和后驗概率,通過比較概率的最大值,判別出測試樣本所屬于的酒的類型, 同時輸出測試樣本計算的正確率和錯誤率。這些數(shù)據(jù)包括了三種酒中13種不同成分的數(shù)量。13種成分分別為:Alcohol, Malicacid , Ash , Alcalinity of ash, Magnesium, Total phenols, Flavanoids, Nonflavanoid phenols, Proanthocyanins Color intensity , Hue, OD280/OD315 of diluted wines, Proline。在 “wine

4、.data”文件中,每行代表一種酒的樣本,共有 178個樣本;一共有14歹1,其中,第一列為類標(biāo)志屬性,共有三類,分別記為“1”,“2”,“3” ;后面的13列為每個樣本的對應(yīng)屬性的樣本值。其中第 1 類有59個樣本,第2類有71個樣本,第3類有48個樣本。3實驗方法聚類是對數(shù)據(jù)對象進(jìn)行劃分的一種過程,與分類不同的是,它所劃分的類是未知的,故此,這是一個“無指導(dǎo)的學(xué)習(xí)”過程,它傾向于數(shù)據(jù)的自然劃分。其中聚類算法常見的有基于層次方法、基于劃分方法、基于密度以及網(wǎng)格等方法。本文中對近年來聚類算法的研究現(xiàn)狀與新進(jìn)展進(jìn)行歸納總結(jié)。一方面對近年來提出的較有代表性的聚類算法,從算法思想。關(guān)鍵技術(shù)和優(yōu)缺點等

5、方面進(jìn)行分析概 括;另一方面選擇一些典型的聚類算法和一些知名的數(shù)據(jù)集,主要從正確率和運行效率兩個方面進(jìn)行模擬實驗,并分別就同一種聚類算法、不同的數(shù)據(jù)集以及同 一個數(shù)據(jù)集、不同的聚類算法的聚類情況進(jìn)行對比分析。最后通過綜合上述兩方面信息給出聚類分析的研究熱點、難點、不足和有待解決的一些問題等。實驗中主要選擇了 K均值聚類算法、FCM模糊聚類算法并以UCI Machine Learning Repos計ory網(wǎng)站下載的 WINE數(shù)據(jù)集為基礎(chǔ),然后以 WINE數(shù)據(jù)集在學(xué) 習(xí)了解 Weka軟件接口方面的基礎(chǔ)后作聚類分析,使用最常見的K均值(即K-means)聚類算法和FCM模糊聚類算法。下面簡單描述一

6、下 K均值聚類的步 驟。K均值算法首先隨機的指定 K個類中心。然后:(1)將每個實例分配到距它最近的類中心,得到 K個類;(2)計分別計算各類中所有實例的均值,把它們作為各類新的類中心。重復(fù)(1)和(2),直到K個類中心的位置都固定,類的分配也固定。在實驗過程中通過利用 Weka軟件中提供的simpleKmeans (也就是K均值聚類 算法對 WINE數(shù)據(jù)集進(jìn)行聚類分析,更深刻的理解 k均值算法,并通過對實驗 結(jié)果進(jìn)行觀察分析,找出實驗中所存在的問題。然后再在學(xué)習(xí)了解Weka軟件接口方面的基礎(chǔ)上對 Weka軟件進(jìn)行一定的擴展以加入新的聚類算法來實現(xiàn)基于 Weka平臺的聚類分析。3.1 K均值聚

7、類算法3.1.1 K均值聚類算法理論K均值算法是一種硬劃分方法,簡單流行但其也存在一些問題諸如其劃分結(jié) 果并不一定完全可信。K均值算法的劃分理論基礎(chǔ)是cmin£ £ keAlxk-vil(1)i3其中c是劃分的聚類數(shù),A是已經(jīng)屬于第i類的數(shù)據(jù)集Vi是相應(yīng)的點到第i類的平均距離,即N '、k/k Vi =",Xk w Ai2Ni其中Ni表示在數(shù)據(jù)集A中的對象數(shù)。3.1.2 算法的基本過程step1:任意選擇K個對象作為初始的類的中心;step2 : repeat;step3:根據(jù)類中的平均值,將每個數(shù)據(jù)點(重新)賦給最相近的類;step4:更新類的平均值;s

8、tep5: until不再發(fā)生變化,即沒有對象進(jìn)行被重新分配時過程結(jié)束3.2 FCM莫糊聚類算法FCM算法也是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一 類的對象之間相似度最大,而不同類之間的相似度最小。模糊 C均值算法是普 通C均值算法的改進(jìn),普通C均值算法對于數(shù)據(jù)的劃分是硬性的, 而FCM則是 一種柔性的模糊劃分。在介紹 FCM具體算法之前我們先介紹一些模糊集合的基 本知識。3.2.1 FCM真糊聚類算法的理論1)理論基礎(chǔ)-模糊集基本知識首先說明隸屬度函數(shù)的概念。隸屬度函數(shù)是表示一個對象x隸屬于集合A的 程度的函數(shù),通常記做 U(x),其自變量范圍是所有可能屬于集合 A的對象(即

9、 集合A所在空間中的所有點),取值范圍是0,1,即0ENA(x)W1。NA(x) = 1表 示x完全隸屬于集合 A,相當(dāng)于傳統(tǒng)集合概念上的x- Ao 一個定義在空間X =x上的隸屬度函數(shù)就定義了一個模糊集合 A,或者叫定義在論域X=x上 的模糊子集。在聚類的問題中,可以把聚類生成的類看成模糊集合,因此每個樣本點隸屬于每個類的隸屬度就是 011區(qū)間里面的值。2) FCM的算法理論1973年,Bezdek提出了該算法,并作為早期硬 C均值聚類(HCM )方法的 一種改進(jìn),命名為模糊C均值聚類簡稱FCM是一種目標(biāo)函數(shù)法。假設(shè)將樣本空 問X要分為k個類,則類中心集C=(G,C2,C3,lll,Ck)使

10、下式的目標(biāo)函數(shù)值最小n k2minJm=££ 町卜cj(3)i W j Wk工 % =1(4)j 1且有% 0,1 i =1,2,HI,n; j =1,2,IH,k 其中U = ( 'ij )被稱為模糊隸屬度矩陣。 5表示的是數(shù)據(jù)x隸屬于類中心Cj的隸屬度。m是模糊加權(quán)參數(shù),用于控制在模糊類間的程度依據(jù)參考的文獻(xiàn)中一般取值為1 5應(yīng)用拉格朗日乘法并基于上述約束可得到如下式1.、% 二工(5)ct4 Dtj且1 < i < c,1 < j < NNV;XjG=jN1<i <c(6)一 mj 1其中Dj是Xi到第j類中心Cj的歐氏距離

11、,即3.2.2 FCM真糊聚類算法的過程step1:置初始化參數(shù)值,包含模糊加權(quán)參數(shù)值m和聚類數(shù)k ,以及迭代的次數(shù)s和算法終止誤差30step2:隨機化置初始化聚類的中心 C0,t =0 。step3:計算隸屬度矩陣U可通過(5)式計算U s得來step4:依據(jù)(6)式迭代計算聚類的中心Cs書。step5:檢當(dāng)U jU s* -U s| <8是否成立,成立則算法結(jié)束否則 goto step3。3.2.3 實驗配置實驗配置過程與K均值算法的實驗配置過程基本相同,只是在FCM模糊聚 類算法實驗中要用到模糊隸屬度參數(shù),一般將其設(shè)置在15之間在實驗中設(shè)置如 下param.m=2也可以根據(jù)需要對

12、其進(jìn)行修改。3.2.4 FCM真糊聚類算法特點FCM算法需要兩個參數(shù)一個是聚類數(shù)目c ,另一個是參數(shù)m 0 一般來講c要 遠(yuǎn)遠(yuǎn)小于聚類樣本的總個數(shù),同時要保證c>1o對于m,它是一個控制算法的柔性的參數(shù),如果m過大,則聚類效果會很次,而如果 m過小則算法會接近 K 均值聚類算法。算法的輸出是c個聚類中心點向量和c*N的一個模糊劃分矩陣, 這個矩陣表示的是每個樣本點屬于每個類的隸屬度。根據(jù)這個劃分矩陣按照模糊 集合中的最大隸屬原則就能夠確定每個樣本點歸為哪個類。聚類中心表示的是每個類的平均特征,可以認(rèn)為是這個類的中心代表。FCM算法是圖像分割使用最多的方法之一,它的成功主要歸功于為解決每個圖像像素的隸屬需要引入了模糊性。 與K均值聚類相比較來說FCM能夠保留 初始圖像的更多信息。FCM對孤立點和其他人造圖像非常敏感。3.3基于weka的聚類分析3.4.1 數(shù)據(jù)的預(yù)處理從網(wǎng)站下載的WINE原始數(shù)據(jù)集wine.data文件,而Weka軟件需要的是ARFF 文件格式的數(shù)據(jù)。因此需要將數(shù)據(jù)轉(zhuǎn)換成Weka支持的ARFF文件格式的。轉(zhuǎn)換過程如下首先用記事本方式打開文件發(fā)現(xiàn)文件中的數(shù)據(jù)之間是以逗號來劃分的,因此可以將數(shù)據(jù)文件的名稱改為 wine.csv。然后,打開 Weka選才T Tool

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論