已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于Weka的數(shù)據(jù)聚類分析實驗姓名:覃麗萍 專業(yè):計算機應用技術 學號:20610020471. 實驗基本原理及目的聚類分析中的“類”(cluster)和前面分類的“類”(class)是不同的,對cluster更加準確的翻譯應該是“簇”。聚類的任務是把所有的實例分配到若干的簇,使得同一個簇的實例聚集在一個簇中心的周圍,它們之間距離的比較近;而不同簇實例之間的距離比較遠。對于由數(shù)值型屬性刻畫的實例來說,這個距離通常指歐氏距離。在本實驗中,我們對前面的“bank-data”作聚類分析,使用最常見的K均值(K-means)算法。下面我們簡單描述一下K均值聚類的步驟。K均值算法首先隨機的指定K個簇中心。然后:(1)將每個實例分配到距它最近的簇中心,得到K個簇;(2)計分別計算各簇中所有實例的均值,把它們作為各簇新的簇中心。重復(1)和(2),直到K個簇中心的位置都固定,簇的分配也固定。本次實驗的目的,是通過利用Weka中提供的simpleKmeans方法對“bank-data”進行聚類分析,更深刻的理解k均值算法,并通過對實驗結果進行觀察分析,找出實驗中所存在的問題。2. 數(shù)據(jù)的準備及預處理原始數(shù)據(jù)“bank-data.xls”是excel文件格式的數(shù)據(jù),需要轉換成Weka支持的ARFF文件格式的。轉換方法:在excel中打開“bank-data.xls”,選擇菜單文件另存為,在彈出的對話框中,文件名輸入“bank-data”,保存類型選擇“CSV(逗號分隔)”,保存,我們便可得到“bank-data.csv”文件;然后,打開Weka的Exporler,點擊Open file按鈕,打開剛才得到的“bank-data.csv”文件,點擊“save”按鈕,在彈出的對話框中,文件名輸入“bank-data.arff”,文件類型選擇“Arff data files(*.arff)”,這樣得到的數(shù)據(jù)文件為“bank-data.arff”。K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值0和1的屬性。WEKA將自動實施這個分類型到數(shù)值型的變換,而且WEKA會自動對數(shù)值型的數(shù)據(jù)作標準化。因此,對于ARFF格式的原始數(shù)據(jù)“bank-data.arff”,我們所做的預處理只是刪去屬性“id”,修改屬性“children”為分類型。 修改過程如下:在Ultredit中打開“bank-data.arff”,將attribute children numeric改成如下:圖1 修改children為分類型這樣我們最終得到的數(shù)據(jù)文件為“bank-data.arff”,含600條實例。3. 實驗過程及結果截圖用“Explorer”打開剛才得到的“bank-data.arff”,并切換到“Cluster”。點“Choose”按鈕選擇“SimpleKMeans”,這是WEKA中實現(xiàn)K均值的算法。點擊旁邊的文本框,修改“numClusters”為6,說明我們希望把這600條實例聚成6類,即K=6。下面的“seed”參數(shù)是要設置一個隨機種子,依此產(chǎn)生一個隨機數(shù),用來得到K均值算法中第一次給出的K個簇中心的位置。我們不妨暫時讓它就為10。選中“Cluster Mode”的“Use training set”,點擊“Start”按鈕,觀察右邊“Clusterer output”給出的聚類結果如下:圖2 實驗結果也可以在左下角“Result list”中這次產(chǎn)生的結果上點右鍵,“View in separate window”在新窗口中瀏覽結果。4. 實驗結果分析4.1 實驗結果下面對實驗結果進行解釋。觀察圖1,首先我們注意到結果中有這么一行:Within cluster sum of squared errors: 1604.7416693522332這是評價聚類好壞的標準,數(shù)值越小說明同一簇實例之間的距離越小。也許你得到的數(shù)值會不一樣;實際上如果把“seed”參數(shù)改一下,得到的這個數(shù)值就可能會不一樣。我們應該多嘗試幾個“seed”,并采納這個數(shù)值最小的那個結果。例如我讓“seed”取100,就得到:Within cluster sum of squared errors: 1555.6241507629218我們該取后面這個。當然再嘗試幾個“seed”,這個數(shù)值可能會更小。接下來“Cluster centroids:”之后列出了各個簇中心的位置。對于數(shù)值型的屬性,簇中心就是它的均值(Mean),如cluster0的數(shù)值型變量age的均值37.1299;分類型的就是它的眾數(shù)(Mode),如cluster0的分類型變量children的眾數(shù)為3,也就是說這個屬性上取值為眾數(shù)值3(有3個孩子)的實例最多。對于數(shù)值型的屬性,還給出了它在各個簇里的標準差(Std Devs)。 最后的“Clustered Instances”是各個簇中實例的數(shù)目及百分比。為了觀察可視化的聚類結果,我們在左下方“Result list”列出的結果上右擊,點“Visualize cluster assignments”。彈出的窗口給出了各實例的散點圖。最上方的兩個框是選擇橫坐標和縱坐標,第二行的”color”是散點圖著色的依據(jù),默認是根據(jù)不同的簇“Cluster”給實例標上不同的顏色。圖3 實驗結果可視化可以在這里點“Save”把聚類結果保存成ARFF文件。在這個新的ARFF文件中,“instance_number”屬性表示某實例的編號,“Cluster”屬性表示聚類算法給出的該實例所在的簇,如下圖4。圖4 結果的arff文件4.2 存在的問題在本次實驗中,我用了不同的“seed”值對數(shù)據(jù)進行了三階段的實驗分析:第一階段不斷增大seed值,直到為實例數(shù)目600;通過觀察第一階段的實驗結果,找到兩個最小值點,在第二階段和第三階段中,在最小值點seed附近不斷改變seed值,以逼近可能最小的“Within cluster sum of squared errors”值。我把部分實驗結果整理如下表:表1 實驗結果分析我們知道,“Within cluster sum of squared errors”值越小說明同一簇實例之間的距離越小,聚類的結果也就越好。從表中我們可以看出“Within cluster sum of squared errors”的最小值有兩個,即seed去200時的1551.72650865326,和seed取400時的1535.19232923634,這也是本次實驗中最好的一個方案結果。我所遇到的問題是,如何迅速的找到是“Within cluster sum of squared errors”值最小的聚類方案?如果數(shù)據(jù)實例的數(shù)目非常的大,通過不但的改變seed值去嘗試尋找是很不現(xiàn)實的,而且,還可能出現(xiàn)局部的最小值。如何以最快的速度找出最好的聚類方案,這是值得我們?nèi)タ紤]的一個問題。5. 預置問題的回答在Weka中實現(xiàn)K均值聚類的數(shù)據(jù)預處理中:(1)為什么要將children屬性變成分類型?因為K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時要把它變?yōu)槿舾蓚€取值0和1的屬性。而Weka能自動實施這個分類型到數(shù)值型的變換,而且Weka會自動對數(shù)值型的數(shù)據(jù)作標準化。而且,children屬性不能直接處理為數(shù)值性屬性,因為孩子的數(shù)量不能出現(xiàn)有小數(shù)的情況。因此,我們?yōu)榱耸筗eka能自動地,正確的處理children屬性,要將children屬性變成分類型。(2)Weka將自動實施這個分類型到數(shù)值型的變換是指將這個分類型的屬性變?yōu)槿舾蓚€取值0和1的屬性,將這個變化結果截圖,并進行解釋。我們以children屬性為例加以說明。之前,我們將children屬性變成了分類型,在Weka中我們點擊它,便可在右下方看到如下的結果:圖5 children屬性變?yōu)榉诸愋蛷膱D中我們可以看出,children屬性變成了只有0,1,2,3四種取值的分類型。在Weka自動實施將children分類型到數(shù)值型的變換后,便將children分類型的屬性變?yōu)樗膫€取值0和1的屬性,我們不妨設為children0,children1,children2,children3。于是,原來實例中孩子為0,1,2或3的實例,轉變后其取值方法如下表:表2 變換為數(shù)值型后的children屬性取值方法Children0Children1Children2Children31000010000100001其中,children0取值1,說明這個實例原children屬性的值為0,而且,每個實例在children*(*為0,1,2或3)四個屬性上只能有唯一的一個屬性取值為1,其余三個為0。這只是我自己的分析,由于在Weka還是保持的arff文件中沒有找到相關的分類型變換為數(shù)值型后的結果,因此沒有相關的截圖。6. 實驗總結本次實驗進行比較順利,使我對如何在Weka中進行聚類分析有了更深刻的了解,對Weka中進行聚類分析的simpleKmeans算法也有了進一步的理解,但是實驗中所遇到的,如何以最快的速度找出最好的聚類方案的問題,還沒有得到更好的解決。我將繼續(xù)閱讀相關的文獻,希望可以找到這個問題的解決方案。已有實踐證明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南省岳陽市2024年中考第二次模擬考試數(shù)學試卷附答案
- 高一化學二課后習題(全)
- 2024屆百色市重點中學高考化學三模試卷含解析
- 2024高中地理第2章區(qū)域生態(tài)環(huán)境建設第2節(jié)第2課時熱帶雨林的開發(fā)與保護學案新人教版必修3
- 2024高中物理第三章磁場章末質量評估三含解析粵教版選修3-1
- 2024高中語文第四單元創(chuàng)造形象詩文有別大鐵椎傳作業(yè)含解析新人教版選修中國古代詩歌散文欣賞
- 2024高考化學一輪復習專練48基本儀器的使用及藥品的存放含解析新人教版
- 2024高考化學一輪復習課練31物質的制備含解析
- 2024高考歷史一輪復習第4講太平天國運動與辛亥革命學案含解析人民版
- 2024高考地理一輪復習第五單元地表形態(tài)的塑造考法精練含解析
- (完整版)共邊比例定理及其應用
- 乙酸鈉?;钒踩畔⒖?、周知卡及MSDS-
- 村情要素模板
- 德宏隴川縣人民法院招聘聘用制書記員筆試真題2023
- 人工氣道脫出應急預案
- 日本預防控制慢性病新型健康管理模式的研究及啟示的開題報告
- 初中物理八年級下冊《壓強》教學課件
- 人工造林項目與其他單位的協(xié)調(diào)配合
- (高清版)DZT 0426-2023 固體礦產(chǎn)地質調(diào)查規(guī)范(1:50000)
- 文旅微電影項目策劃
- 比亞迪電子員工手冊
評論
0/150
提交評論