



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、WEK聚類算法wine數(shù)據(jù)集分析研究1實(shí)驗(yàn)?zāi)康南Mㄟ^實(shí)驗(yàn)研究葡萄酒的差異化,并分析造成這種差異化的原因,可以更深刻的掌握聚類分析的原理;進(jìn)一步熟悉聚類分析問題的提出、解決問題的思路、方法和技能;達(dá)到能綜合運(yùn)用所學(xué)基本理論和專業(yè)知識;鍛煉收集、整理、運(yùn)用資料的能力的目的;希望能會調(diào)用WEKA軟件聚類分析有關(guān)過程命令,并且可以對數(shù)據(jù)處理結(jié)果進(jìn)行正確判斷分析,作出綜合評價。2實(shí)驗(yàn)數(shù)據(jù)Wine這份數(shù)據(jù)集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是葡萄酒的13種化學(xué)成分。通過化學(xué)分析可以來推斷葡萄酒的起源。值得一提的是所有屬性變量都是連續(xù)變量。數(shù)據(jù)集特征:多變量記錄數(shù):178領(lǐng)域:物理屬
2、性特征:整數(shù),實(shí)數(shù)屬性數(shù)目:13捐贈日期1991-07-01相關(guān)應(yīng)用:分類缺失值?無網(wǎng)站點(diǎn)擊數(shù):337319該實(shí)驗(yàn)的數(shù)據(jù)集是MostPopularDataSets(hitssince2007)中的wine數(shù)據(jù)集,這是是對在意大利同一地區(qū)生產(chǎn)的三種不同品種的酒,做大量分析所得出的數(shù)據(jù)。這些數(shù)據(jù)包括了三種酒中13種不同成分的數(shù)量。經(jīng)過幾天對數(shù)據(jù)集以及分類算法的研究,詳細(xì)研究了樸素貝葉斯分類器和其他學(xué)習(xí)算法,包括決策樹和神經(jīng)網(wǎng)絡(luò)等等。同時由于這個數(shù)據(jù)集有13個屬性,用決策樹實(shí)現(xiàn)起來會很復(fù)雜。我最終選擇了用貝葉斯分類算法來實(shí)現(xiàn)。我將178個樣本分成118個訓(xùn)練樣本和60個測試樣本,采用樸素貝葉斯分類算
3、法,計算出先驗(yàn)概率和后驗(yàn)概率,通過比較概率的最大值,判別出測試樣本所屬于的酒的類型,同時輸出測試樣本計算的正確率和錯誤率。這些數(shù)據(jù)包括了三種酒中13種不同成分的數(shù)量。13種成分分別為:Alcohol,Malicacid,Ash,Alcalinityofash,Magnesium,Totalphenols,Flavanoids,Nonflavanoidphenols,ProanthocyaninsColorintensity,Hue,OD280/OD315ofdilutedwines,Proline。在“wine.data”文件中,每行代表一種酒的樣本,共有178個樣本;一共有14歹1,其中,第
4、一列為類標(biāo)志屬性,共有三類,分別記為“1”,“2”,“3”;后面的13列為每個樣本的對應(yīng)屬性的樣本值。其中第1類有59個樣本,第2類有71個樣本,第3類有48個樣本。3實(shí)驗(yàn)方法聚類是對數(shù)據(jù)對象進(jìn)行劃分的一種過程,與分類不同的是,它所劃分的類是未知的,故此,這是一個“無指導(dǎo)的學(xué)習(xí)”過程,它傾向于數(shù)據(jù)的自然劃分。其中聚類算法常見的有基于層次方法、基于劃分方法、基于密度以及網(wǎng)格等方法。本文中對近年來聚類算法的研究現(xiàn)狀與新進(jìn)展進(jìn)行歸納總結(jié)。一方面對近年來提出的較有代表性的聚類算法,從算法思想。關(guān)鍵技術(shù)和優(yōu)缺點(diǎn)等方面進(jìn)行分析概括;另一方面選擇一些典型的聚類算法和一些知名的數(shù)據(jù)集,主要從正確率和運(yùn)行效率兩
5、個方面進(jìn)行模擬實(shí)驗(yàn),并分別就同一種聚類算法、不同的數(shù)據(jù)集以及同一個數(shù)據(jù)集、不同的聚類算法的聚類情況進(jìn)行對比分析。最后通過綜合上述兩方面信息給出聚類分析的研究熱點(diǎn)、難點(diǎn)、不足和有待解決的一些問題等。實(shí)驗(yàn)中主要選擇了K均值聚類算法、FCM模糊聚類算法并以UCIMachineLearningRepos計ory網(wǎng)站下載的WINE數(shù)據(jù)集為基礎(chǔ),然后以WINE數(shù)據(jù)集在學(xué)習(xí)了解Weka軟件接口方面的基礎(chǔ)后作聚類分析,使用最常見的K均值(即K-means)聚類算法和FCM模糊聚類算法。下面簡單描述一下K均值聚類的步驟。K均值算法首先隨機(jī)的指定K個類中心。然后:(1)將每個實(shí)例分配到距它最近的類中心,得到K個類
6、;(2)計分別計算各類中所有實(shí)例的均值,把它們作為各類新的類中心。重復(fù)(1)和(2),直到K個類中心的位置都固定,類的分配也固定。在實(shí)驗(yàn)過程中通過利用Weka軟件中提供的simpleKmeans(也就是K均值聚類算法對WINE數(shù)據(jù)集進(jìn)行聚類分析,更深刻的理解k均值算法,并通過對實(shí)驗(yàn)結(jié)果進(jìn)行觀察分析,找出實(shí)驗(yàn)中所存在的問題。然后再在學(xué)習(xí)了解Weka軟件接口方面的基礎(chǔ)上對Weka軟件進(jìn)行一定的擴(kuò)展以加入新的聚類算法來實(shí)現(xiàn)基于Weka平臺的聚類分析。3.1.1 K均值聚類算法K均值聚類算法理論K均值算法是一種硬劃分方法,簡單流行但其也存在一些問題諸如其劃分結(jié)果并不一定完全可信。K均值算法的劃分理論基
7、礎(chǔ)是cmin££keAlxk-vil(1)i3其中c是劃分的聚類數(shù),A是已經(jīng)屬于第i類的數(shù)據(jù)集Vi是相應(yīng)的點(diǎn)到第i類的平均距離,即N'、k/kVi=",XkwAi2Ni其中Ni表示在數(shù)據(jù)集A中的對象數(shù)。3.1.2 算法的基本過程step1:任意選擇K個對象作為初始的類的中心;step2:repeat;step3:根據(jù)類中的平均值,將每個數(shù)據(jù)點(diǎn)(重新)賦給最相近的類;step4:更新類的平均值;3.2 step5:until不再發(fā)生變化,即沒有對象進(jìn)行被重新分配時過程結(jié)束FCM莫糊聚類算法FCM算法也是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一類的
8、對象之間相似度最大,而不同類之間的相似度最小。模糊C均值算法是普通C均值算法的改進(jìn),普通C均值算法對于數(shù)據(jù)的劃分是硬性的,而FCM則是一種柔性的模糊劃分。在介紹FCM具體算法之前我們先介紹一些模糊集合的基本知識。FCM真糊聚類算法的理論1)理論基礎(chǔ)-模糊集基本知識首先說明隸屬度函數(shù)的概念。隸屬度函數(shù)是表示一個對象x隸屬于集合A的程度的函數(shù),通常記做U(x),其自變量范圍是所有可能屬于集合A的對象(即集合A所在空間中的所有點(diǎn)),取值范圍是0,1,即0ENA(x)W1。NA(x)=1表示x完全隸屬于集合A,相當(dāng)于傳統(tǒng)集合概念上的x-Ao一個定義在空間X=x上的隸屬度函數(shù)就定義了一個模糊集合A,或者
9、叫定義在論域X=x上的模糊子集。在聚類的問題中,可以把聚類生成的類看成模糊集合,因此每個樣本點(diǎn)隸屬于每個類的隸屬度就是011區(qū)間里面的值。2)FCM的算法理論1973年,Bezdek提出了該算法,并作為早期硬C均值聚類(HCM)方法的一種改進(jìn),命名為模糊C均值聚類簡稱FCM是一種目標(biāo)函數(shù)法。假設(shè)將樣本空問X要分為k個類,則類中心集C=(G,C2,C3,lll,Ck)使下式的目標(biāo)函數(shù)值最小nk2minJm=££町卜cj(3)iWjWk工%=1(4)j1且有%0,1i=1,2,HI,n;j=1,2,IH,k其中U=('ij)被稱為模糊隸屬度矩陣。5表示的是數(shù)據(jù)x隸屬于類
10、中心Cj的隸屬度。m是模糊加權(quán)參數(shù),用于控制在模糊類間的程度依據(jù)參考的文獻(xiàn)中一般取值為15應(yīng)用拉格朗日乘法并基于上述約束可得到如下式1.、%二工(5)ct4Dtj且1<i<c,1<j<NNV;XjG=jN1<i<c(6)一mj1其中Dj是Xi到第j類中心Cj的歐氏距離,即3.2.2 FCM真糊聚類算法的過程step1:置初始化參數(shù)值,包含模糊加權(quán)參數(shù)值m和聚類數(shù)k,以及迭代的次數(shù)s和算法終止誤差30step2:隨機(jī)化置初始化聚類的中心C0,t=0。step3:計算隸屬度矩陣U可通過(5)式計算Us得來step4:依據(jù)(6)式迭代計算聚類的中心Cs書。step
11、5:檢當(dāng)UjUs*-Us|<8是否成立,成立則算法結(jié)束否則gotostep3。3.2.3 實(shí)驗(yàn)配置實(shí)驗(yàn)配置過程與K均值算法的實(shí)驗(yàn)配置過程基本相同,只是在FCM模糊聚類算法實(shí)驗(yàn)中要用到模糊隸屬度參數(shù),一般將其設(shè)置在15之間在實(shí)驗(yàn)中設(shè)置如下param.m=2也可以根據(jù)需要對其進(jìn)行修改。3.2.4 FCM真糊聚類算法特點(diǎn)FCM算法需要兩個參數(shù)一個是聚類數(shù)目c,另一個是參數(shù)m0一般來講c要遠(yuǎn)遠(yuǎn)小于聚類樣本的總個數(shù),同時要保證c>1o對于m,它是一個控制算法的柔性的參數(shù),如果m過大,則聚類效果會很次,而如果m過小則算法會接近K均值聚類算法。算法的輸出是c個聚類中心點(diǎn)向量和c*N的一個模糊劃分
12、矩陣,這個矩陣表示的是每個樣本點(diǎn)屬于每個類的隸屬度。根據(jù)這個劃分矩陣按照模糊集合中的最大隸屬原則就能夠確定每個樣本點(diǎn)歸為哪個類。聚類中心表示的是每個類的平均特征,可以認(rèn)為是這個類的中心代表。FCM算法是圖像分割使用最多的方法之一,它的成功主要?dú)w功于為解決每個圖像像素的隸屬需要引入了模糊性。與K均值聚類相比較來說FCM能夠保留初始圖像的更多信息。FCM對孤立點(diǎn)和其他人造圖像非常敏感。3.4.1 3.3基于weka的聚類分析數(shù)據(jù)的預(yù)處理從網(wǎng)站下載的WINE原始數(shù)據(jù)集wine.data文件,而Weka軟件需要的是ARFF文件格式的數(shù)據(jù)。因此需要將數(shù)據(jù)轉(zhuǎn)換成Weka支持的ARFF文件格式的。轉(zhuǎn)換過程如下首先用記事本方式打開文件發(fā)現(xiàn)文件中的數(shù)據(jù)之間是以逗號來劃分的,因此可以將數(shù)據(jù)文件的名稱改為wine.csv。然后,打開Wek
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校福利房管理制度
- 學(xué)校茶水房管理制度
- 學(xué)生會人事管理制度
- 學(xué)生課堂上管理制度
- 安保部工作管理制度
- 安全痕跡化管理制度
- 安防部宿舍管理制度
- 定制類店面管理制度
- 實(shí)訓(xùn)室創(chuàng)意管理制度
- 客車站風(fēng)險管理制度
- 《藥物設(shè)計學(xué)》課程教學(xué)大綱
- DB5301∕T 43-2020 城鎮(zhèn)污水處理廠主要水污染物排放限值
- 炮車專項方案
- 解讀三級公立醫(yī)院績效考核課件
- 華能集團(tuán)全員績效考核指導(dǎo)意見
- 高三地理復(fù)習(xí)資料_《極地地區(qū)》導(dǎo)學(xué)案
- 35KV集電線路鐵塔組立專項方案
- CJJ101-2004埋地聚乙烯給水管道工程技術(shù)規(guī)程
- 油變使用說明書
- 涉農(nóng)貸款客戶貸后管理操作規(guī)范
- ISO9001表單英文版
評論
0/150
提交評論