數(shù)據(jù)挖掘個(gè)實(shí)驗(yàn)實(shí)驗(yàn)報(bào)告_第1頁
數(shù)據(jù)挖掘個(gè)實(shí)驗(yàn)實(shí)驗(yàn)報(bào)告_第2頁
數(shù)據(jù)挖掘個(gè)實(shí)驗(yàn)實(shí)驗(yàn)報(bào)告_第3頁
數(shù)據(jù)挖掘個(gè)實(shí)驗(yàn)實(shí)驗(yàn)報(bào)告_第4頁
數(shù)據(jù)挖掘個(gè)實(shí)驗(yàn)實(shí)驗(yàn)報(bào)告_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院數(shù)據(jù)挖掘與知識發(fā)現(xiàn)綜合實(shí)驗(yàn)報(bào)告姓 名 年 級 專 業(yè) 軟件工程指導(dǎo)教師 學(xué) 號 序 號 實(shí)驗(yàn)類型 綜合型 成績評定評語:教師簽名: 年 月 日 2016 年 12 月 10 日年級 14級專 業(yè) 軟件工程班級 2班組號 實(shí)驗(yàn)室日期實(shí)驗(yàn)名稱實(shí)驗(yàn)內(nèi)容分項(xiàng)內(nèi)容實(shí)驗(yàn)級別 1.Weka環(huán)境熟悉;決策樹(1) 2.決策樹(2) 3.關(guān)聯(lián)規(guī)則,聚類分析 4.KDD案例 5.屬性相關(guān)性,神經(jīng)網(wǎng)絡(luò)(1) 6.神經(jīng)網(wǎng)絡(luò)(2)小 組 成 員姓名學(xué)號組內(nèi)分工自我評分教師評分實(shí)驗(yàn)分項(xiàng) 1、Weka環(huán)境熟悉;決策樹(1)實(shí)驗(yàn)?zāi)康模?) 熟悉 Weka 軟件的環(huán)境和基本用法;(2)掌握 ARFF

2、數(shù)據(jù)文件的編制方法;(3)學(xué)習(xí)應(yīng)用 Weka 軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類效果。實(shí)驗(yàn)要求一、具體題目:1、 參照教材 19-22 頁內(nèi)容,熟悉 Weka 軟件的安裝及使用環(huán)境;2、 在記事本程序中編制 ColdType-training.arff,ColdType-test.arff3、 打開Weka 軟件,并參照教材 1.9.2,1.9.3 小節(jié),完成相關(guān)操作, 并理解相應(yīng)處理結(jié)果。 4、 根據(jù)教材表 2.1 所提供的數(shù)據(jù)集 T,基于 Weka 軟件,應(yīng)用 C4.5 法建立決策樹, 預(yù)測某個(gè)學(xué)生是否決定去打籃球。 要求:(1)采用 arff 文件來完成; (2)分別

3、完成決策樹剪枝和未剪枝的情況。二、系統(tǒng)平臺:Weka3.6 實(shí)驗(yàn)原理步驟(算法流程)1、 使用Weka建立決策樹模型1、準(zhǔn)備數(shù)據(jù):在記事本程序中編制 ColdType-training.arff,ColdType-test.arff。2、 加載和預(yù)處理數(shù)據(jù)。3、 建立分類模型。(選擇C4.5決策樹算法)4、 分類未知實(shí)例 2、 使用Weka進(jìn)行聚類1、 準(zhǔn)備數(shù)據(jù):使用ColdType.csv文件作為數(shù)據(jù)集。2、 加載和預(yù)處理數(shù)據(jù)。3、 聚類(用簡單 K - 均值算法)4、 解釋和評估聚類結(jié)果三、完成感冒類型的相關(guān)操作及相應(yīng)處理結(jié)果 1.加載了ColdType-training.arff文件后的

4、Weka Explorer界面: 2.感冒類型診斷分類模型輸出結(jié)果:Sore-throat = Yes| Cooling-effect = Good: Viral (2.0)| Cooling-effect = Notgood: Bacterial (4.0/1.0)| Cooling-effect = Unknown: Bacterial (1.0)Sore-throat = No: Viral (3.0)Number of Leaves : 4Size of the tree : 6Time taken to build model: 0.02 seconds= Evaluation on

5、 training set = Summary =Correctly Classified Instances 9 90 %Incorrectly Classified Instances 1 10 %Kappa statistic 0.8 Mean absolute error 0.15 Root mean squared error 0.2739Relative absolute error 31.0345 %Root relative squared error 55.8694 %Total Number of Instances 10 = Detailed Accuracy By Cl

6、ass = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.833 0 1 0.833 0.909 0.938 Viral 1 0.167 0.8 1 0.889 0.938 BacterialWeighted Avg. 0.9 0.067 0.92 0.9 0.901 0.938= Confusion Matrix = a b - classified as 5 1 | a = Viral 0 4 | b = Bacterial分析:該輸出結(jié)果給出了決策樹的結(jié)構(gòu),該決策樹共有六個(gè)節(jié)點(diǎn),其中四個(gè)節(jié)點(diǎn)為葉子。該決策樹的檢驗(yàn)數(shù)

7、據(jù)為訓(xùn)練數(shù)據(jù),檢驗(yàn)的結(jié)果為分類的正確實(shí)例數(shù)占90%,分類錯(cuò)誤的實(shí)例數(shù)占10%。由最后的混淆矩陣可看出,有5個(gè)實(shí)際為Viral的實(shí)例,正確的分到了Viral類中;有4個(gè)實(shí)際為Bacterial的實(shí)例也被正確的分類到了Bacterial類中;但是有一個(gè)實(shí)際為Viral的實(shí)例卻被錯(cuò)誤的分到了Bacterial類中。通過分類正確率可對分類模型的質(zhì)量進(jìn)行初步評估,因本例中該值為90%,可以認(rèn)為模型的性能較好。但是本例中使用的數(shù)據(jù)為訓(xùn)練數(shù)據(jù),所以模型在未來的未知數(shù)據(jù)中所表現(xiàn)的性能還不能通過現(xiàn)在的分類正確率進(jìn)行評估。3.感冒類型診斷決策樹:4.感冒類型診斷聚類結(jié)果:Cluster centroids: Cl

8、uster#Attribute Full Data 0 1 (10) (5) (5)=Increased-lym Yes Yes NoLeukocytosis Yes No YesFever Yes Yes YesAcute-onset Yes Yes NoSore-throat Yes No YesCooling-effect Good Good NotgoodGroup Yes Yes NoTime taken to build model (full training data) : 0 seconds= Model and evaluation on training set =Clu

9、stered Instances0 5 ( 50%)1 5 ( 50%)Class attribute: Cold-typeClasses to Clusters: 0 1 - assigned to cluster 5 1 | Viral 0 4 | BacterialCluster 0 - ViralCluster 1 - BacterialIncorrectly clustered instances :1.0 10 %分析:由診斷聚類結(jié)果圖可知,聚類中有兩個(gè)簇Cluster0和Cluster1,分別對應(yīng)Viral類和Bacterial類,但有一個(gè)實(shí)例被聚類到錯(cuò)誤的簇,聚類錯(cuò)誤率為10%

10、。5.感冒類型診斷聚類可視化界面:6.聚類錯(cuò)誤的實(shí)例信息:分析:由上圖可知,這個(gè)被錯(cuò)誤分到簇Cluster1中的是實(shí)例7。4 應(yīng)用 C4.5 算法建立決策樹, 預(yù)測某個(gè)學(xué)生是否決定去打籃球。未剪枝的決策樹:剪枝后的決策樹:分析:由上圖可知,未剪枝和剪枝的決策樹是一樣的,理論上應(yīng)該是有差別的,可能因?yàn)榇死袛?shù)據(jù)量過少,所以它們的差別沒有顯現(xiàn)出來。實(shí)驗(yàn)收獲 通過本次實(shí)驗(yàn),我掌握 ARFF 數(shù)據(jù)文件的編制方法,并且學(xué)會了應(yīng)用 Weka軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類效果。 實(shí)驗(yàn)分項(xiàng) 2、決策樹(2)實(shí)驗(yàn)?zāi)康模?)進(jìn)一步熟悉 Weka 軟件的環(huán)境和基本用法;(2)學(xué)習(xí)應(yīng)用 Wek

11、a 軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類效果。實(shí)驗(yàn)要求一、具體題目:1、 對例 2.3 進(jìn)行驗(yàn)證。使用來自 UCI 的 Credit screening database 數(shù)據(jù)集,應(yīng)用weka 的 J48 算法建立 2 棵決策樹,分別為剪枝和未剪枝的情形。2、對以上問題,分別采用 use training set 和 cross-validation 方式進(jìn)行驗(yàn)證。3、理解決策樹算法的不穩(wěn)定性:將表 2.1 中的第 3 條實(shí)例的 Play 屬性值由 Yes改為 No,再進(jìn)行相同的決策數(shù)訓(xùn)練,比較生成的分類模型。二、系統(tǒng)平臺:Weka3.6 實(shí)驗(yàn)原理步驟(算法流程)1、 使用來

12、自 UCI 的 Credit screening database 數(shù)據(jù)集,應(yīng)用weka 的 J48 算法建立的決策樹。1. 用use training set驗(yàn)證未剪枝的決策樹:輸出結(jié)果:= Classifier model (full training set) =J48 unpruned tree= Evaluation on training set = Summary =Correctly Classified Instances 655 94.9275 %Incorrectly Classified Instances 35 5.0725 %Kappa statistic 0.89

13、69Mean absolute error 0.0866Root mean squared error 0.206 Relative absolute error 17.5277 %Root relative squared error 41.4557 %Total Number of Instances 690 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.925 0.031 0.959 0.925 0.942 0.977 + 0.969 0.075 0.9

14、42 0.969 0.955 0.977 -Weighted Avg. 0.949 0.056 0.95 0.949 0.949 0.977= Confusion Matrix = a b - classified as 284 23 | a = + 12 371 | b = -剪枝后的決策樹:輸出結(jié)果:= Classifier model (full training set) =J48 pruned tree= Evaluation on training set = Summary =Correctly Classified Instances 626 90.7246 %Incorrec

15、tly Classified Instances 64 9.2754 %Kappa statistic 0.8125Mean absolute error 0.1564Root mean squared error 0.2781Relative absolute error 31.6573 %Root relative squared error 55.9554 %Total Number of Instances 690 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Cla

16、ss 0.902 0.089 0.891 0.902 0.896 0.937 + 0.911 0.098 0.921 0.911 0.916 0.937 -Weighted Avg. 0.907 0.094 0.907 0.907 0.907 0.937= Confusion Matrix = a b - classified as 277 30 | a = + 34 349 | b = -2. 用 cross-validation驗(yàn)證未剪枝的決策樹:輸出結(jié)果:= Classifier model (full training set) =J48 unpruned tree= Stratifi

17、ed cross-validation = Summary =Correctly Classified Instances 565 81.8841 %Incorrectly Classified Instances 125 18.1159 %Kappa statistic 0.6314Mean absolute error 0.202 Root mean squared error 0.3982Relative absolute error 40.8871 %Root relative squared error 80.1346 %Total Number of Instances 690 =

18、 Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.772 0.144 0.812 0.772 0.791 0.819 + 0.856 0.228 0.824 0.856 0.84 0.819 -Weighted Avg. 0.819 0.19 0.819 0.819 0.818 0.819= Confusion Matrix = a b - classified as 237 70 | a = + 55 328 | b = -剪枝后的決策樹:輸入結(jié)果:= Class

19、ifier model (full training set) =J48 unpruned tree= Stratified cross-validation = Summary =Correctly Classified Instances 565 81.8841 %Incorrectly Classified Instances 125 18.1159 %Kappa statistic 0.6314Mean absolute error 0.202 Root mean squared error 0.3982Relative absolute error 40.8871 %Root rel

20、ative squared error 80.1346 %Total Number of Instances 690 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.772 0.144 0.812 0.772 0.791 0.819 + 0.856 0.228 0.824 0.856 0.84 0.819 -Weighted Avg. 0.819 0.19 0.819 0.819 0.818 0.819= Confusion Matrix = a b - cla

21、ssified as 237 70 | a = + 55 328 | b = -分析:由剪枝和未剪枝的結(jié)果可以看出,未剪枝的決策樹盡管得到了更高的分類正確率,但是因其決策樹寬度較大、分支較多,對于結(jié)果的解釋能力較弱,分類的一般化程度較低。 實(shí)驗(yàn)收獲 通過本次實(shí)驗(yàn),我進(jìn)一步掌握了Weka 軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類效果。 實(shí)驗(yàn)分項(xiàng) 3、關(guān)聯(lián)規(guī)則,聚類分析 實(shí)驗(yàn)?zāi)康模?)進(jìn)一步熟悉 Weka 軟件的環(huán)境和基本用法;(2)學(xué)習(xí)應(yīng)用 Weka 軟件生成關(guān)聯(lián)規(guī)則的方法;(3)學(xué)習(xí)應(yīng)用 Weka 軟件進(jìn)行 K-means 聚類分析的方法。實(shí)驗(yàn)要求一、具體題目:1、 根據(jù)教材表

22、2.3 所提供的數(shù)據(jù)集,基于 Weka 軟件,應(yīng)用 Apriori 算法建立關(guān)聯(lián)規(guī)則。 要求:(1)采用 arff 文件來完成;(注意文件頭部的relation,attribute,data等信息不能缺?。?(2)將表 2.3 的數(shù)值型數(shù)據(jù)改為分類類型數(shù)據(jù)。2、對教材表 2.6 的數(shù)據(jù)集,應(yīng)用 Weka 軟件進(jìn)行 K-means 聚類,注意先建立一個(gè)arff 文件。3、對教材習(xí)題 2-10 題,進(jìn)行上機(jī)驗(yàn)證。二、系統(tǒng)平臺:Weka3.6 實(shí)驗(yàn)原理步驟(算法流程) 1. 根據(jù)教材表 2.3 所提供的數(shù)據(jù)集,基于 Weka 軟件,應(yīng)用 Apriori 算法建立關(guān)聯(lián)規(guī)則。輸出結(jié)果:分析:由以上輸出結(jié)

23、果可知,支持度閾值為0.35,置信度閾值為0.9,以及生成的關(guān)聯(lián)規(guī)則有10條,置信度都為100%。 2、對教材表 2.6 的數(shù)據(jù)集,應(yīng)用 Weka 軟件進(jìn)行 K-means 聚類,注意先建立一個(gè)arff 文件。K-means聚類的輸出結(jié)果:分析:由輸出結(jié)果可知,實(shí)例被分為0,1兩個(gè)簇,分別有3個(gè)和2個(gè)實(shí)例,每個(gè)簇中心值分別為(4.1667,4.3333)和(1.5,1.25),與計(jì)算結(jié)果吻合。K-means聚類的可視化輸出結(jié)果:3、使用打籃球數(shù)據(jù)集進(jìn)行K-means無指導(dǎo)的聚類,檢查聚類結(jié)果 輸出結(jié)果:實(shí)驗(yàn)收獲 通過本次實(shí)驗(yàn),我掌握了Weka 軟件生成關(guān)聯(lián)規(guī)則的方法,并學(xué)會了用Weka 軟件進(jìn)

24、K-means 聚類分析的方法。 實(shí)驗(yàn)分項(xiàng) 4、KDD案例實(shí)驗(yàn)?zāi)康模?)學(xué)習(xí)應(yīng)用 Weka 軟件進(jìn)行 KDD 案例分析的基本步驟;(2)學(xué)習(xí)通過 K-means 聚類算法對輸入屬性進(jìn)行評估的方法。實(shí)驗(yàn)要求一、具體題目:參照教材 3.3 小節(jié),基于 Weka 軟件,完成 KDD 過程模型和分析任務(wù)。要求:(1)采用 arff 文件來完成; (2)數(shù)據(jù)源基于 UCI 的 Credit Screening Database.arff。實(shí)驗(yàn)第 1 部分:使用 Weka 進(jìn)行有指導(dǎo)的學(xué)習(xí)訓(xùn)練,選擇 C4.5 算法實(shí)驗(yàn)第 2 部分:基于無指導(dǎo)聚類技術(shù),對輸入屬性進(jìn)行評估二、系統(tǒng)平臺:Weka3.6 實(shí)驗(yàn)原

25、理步驟(算法流程)1、使用KDD過程模型,通過建立信用卡篩選分類模型,對申請信用卡用戶進(jìn)行評估,決定是否接受其信用卡申請。通過實(shí)驗(yàn)重點(diǎn)掌握KDD的數(shù)據(jù)準(zhǔn)備、建模和評估過程,了解和體會KDD的迭代過程。分類模型訓(xùn)練結(jié)果:= Evaluation on test split = Summary =Correctly Classified Instances 198 84.2553 %Incorrectly Classified Instances 37 15.7447 %Kappa statistic 0.6801Mean absolute error 0.2032Root mean square

26、d error 0.3418Relative absolute error 41.0193 %Root relative squared error 68.4314 %Total Number of Instances 235 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.752 0.079 0.891 0.752 0.816 0.893 + 0.921 0.248 0.811 0.921 0.862 0.893 -Weighted Avg. 0.843 0.

27、17 0.848 0.843 0.841 0.893= Confusion Matrix = a b - classified as 82 27 | a = + 10 116 | b = -分析:通過輸出結(jié)果,得出檢驗(yàn)集分類正確率為84.3%,是個(gè)不算太差的結(jié)果,可以用于評估新申請信息卡客戶。聚類結(jié)果:2. 屬性評估Weka檢測出的缺失屬性值: 分析:由圖可知,Missing顯示該屬性具有9個(gè)缺失值。實(shí)驗(yàn)收獲 通過本次實(shí)驗(yàn),我掌握了通過 K-means 聚類算法對輸入屬性進(jìn)行評估的方法,獲益匪淺。 實(shí)驗(yàn)分項(xiàng) 5、屬性相關(guān)性,神經(jīng)網(wǎng)絡(luò)(1)實(shí)驗(yàn)?zāi)康模?)理解評估的原理,掌握屬性相關(guān)性的計(jì)算。(2

28、)理解BP神經(jīng)網(wǎng)絡(luò)的基本原理,掌握應(yīng)用BP算法建立前饋神經(jīng)網(wǎng)絡(luò)的方法和步驟。1、 具體題目:1. 根據(jù)5.4節(jié)的5.4.1小節(jié),基于Excel的correl函數(shù)計(jì)算屬性相關(guān)性,并使用散點(diǎn)圖來查看屬性相關(guān)性,對結(jié)果進(jìn)行分析。2. 參照教材6.2.3小節(jié),基于weka軟件,使用BP算法創(chuàng)建有指導(dǎo)的分類模型。二、系統(tǒng)平臺:Weka3.6 實(shí)驗(yàn)原理步驟(算法流程) 1. 1使用MS Excel 的CORREL函數(shù)計(jì)算屬性相關(guān)性輸出結(jié)果:分析:在上下單元格中分別顯示了0.9627和-0.3661。前一個(gè)值接近于1,說明花瓣長度和寬度之間有較強(qiáng)的正相關(guān)性;而后一個(gè)值說明花瓣寬度和花萼寬度兩個(gè)屬性之間具有一

29、定的但較小的負(fù)相關(guān)性。1.2使用散點(diǎn)圖檢查屬性相關(guān)性Petal_width和Petal_length的散點(diǎn)圖:Petal_width和Sepal_width的散點(diǎn)圖:分析:在以上兩個(gè)散點(diǎn)圖中,根據(jù)相關(guān)系數(shù)和散點(diǎn)圖可以判斷Petal_with和Petal_length兩個(gè)屬性之間具有較強(qiáng)的正相關(guān)性,Petal_with和Sepal_with兩個(gè)屬性之間沒有相關(guān)性。2.1應(yīng)用BP算法建立前饋神經(jīng)網(wǎng)絡(luò)解釋訓(xùn)練結(jié)果分析:從上圖的輸出結(jié)果可以看到,結(jié)果并不理想RMS為0.4361,4個(gè)檢驗(yàn)集實(shí)例,2個(gè)屬于XOR等于1的類實(shí)例分類正確,而2個(gè)屬于XOR等于0的類實(shí)例中的一個(gè)分類錯(cuò)誤,另一個(gè)的計(jì)算輸出值為0.213,并不能清晰地確定屬于哪個(gè)類。2.2結(jié)果不理想,更改結(jié)構(gòu),調(diào)整參數(shù),重復(fù)實(shí)驗(yàn).第二次實(shí)驗(yàn)的XOR神經(jīng)網(wǎng)絡(luò)GUI界面:第二次實(shí)驗(yàn)X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論