




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘之鶯尾(IRIS)第一部分概述1. 數(shù)據(jù)挖掘目的:根據(jù)已有的數(shù)據(jù)信息,尋找出鶯尾的屆性之間存在怎樣的關(guān)聯(lián) 規(guī)則。2. 數(shù)據(jù)源:UCI提供的3. 數(shù)據(jù)集的屆性信息:(1) . sepal length in cm(2) . sepal width in cm(3) . petal length in cm(4) . petal width in cm150個(gè)實(shí)例,每個(gè)實(shí)例有萼片長(zhǎng)度(單位:厘米) 萼片寬度(單位:厘米) 花瓣長(zhǎng)度(單位:厘米) 花瓣寬度(單位:厘米)5個(gè)屆性。(數(shù)值型)(數(shù)值型)(數(shù)值型)(數(shù)值型)-5 -(5) . class:類型(分類型),取值如下-Iris Set
2、osa 山鶯尾-Iris Versicolor 變色鶯尾-Iris Virginica 維吉尼業(yè)鶯尾UCI發(fā)布的iris.data數(shù)據(jù)集4. 試驗(yàn)中我們采用bezdekIris.data數(shù)據(jù)集,對(duì)比(08-Mar-1993)和 bezdekIris.data數(shù)據(jù)集(14-Dec-1999),可知前者的第 35 個(gè) 實(shí)例 4.9,3.1,1.5,0.1,Iris-setosaffi第 38 個(gè)實(shí)例 4.9,3.1,1.5,0.1,Iris-setosa 后者相應(yīng) 的修改為:4.9,3.1,1.50.2,Iris-setosa和 4.9,3.1,1.4,0.1,Iris-setosa第二部分 將U
3、CI提供的數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)的 ARFF數(shù)據(jù)集1.將數(shù)據(jù)集處理為標(biāo)準(zhǔn)的數(shù)據(jù)集,對(duì)丁原始數(shù)據(jù),我們將其拷貝保存到TXT文檔,采用UltraEdit工具打開,為其添加屆性信息。如圖:irisl.arff J iris.arff bezdeklris.bd XQ II I I I I I 一1。I I I I I L I -2。I L 1 I L J I 34 L J I L J I L m J I t I I h I I I 1 I I I I -6Q I1 sepallength sepal-width petal-length petal-width class2 Iris-sec osa3 9f
4、3.0f1.4f0*2fIri3-setosa4 Ixis-setaaaEIris-setoaaIxis-setasa7S.4,3.9,1.7,0.4,Iris-setasa2. (1)將bezdekIris.txt文件導(dǎo)入 Microsoft Office Excel (導(dǎo)入時(shí),文本類型選擇 文本文件),如圖:文本文件(*. txt; #. prn; *. csv;彳| Excel (* 由三) 網(wǎng)頁(yè)(*. htm -牛名值):新建源豆ZLotus -2-3Paradox 艾1牛 DB豺*文伴鼠心曰(2)下一步,設(shè)置分隔符號(hào),如圖:(3)得到的XLS格式數(shù)據(jù)如圖:C6 A 1.4ACDELs
5、epal-lengthsepal-widthpetal T engthpetal-width75. 13.51.40.2Iris-setoea4. 931. 40. 2Iris-setosa14. 73. 2L30. 2Iris-setosa4.63. 11. 50. 2Iris-setosa5361L 4 一10,2Iris-setosa5. 43, 9L ?0, 4Iris-setosa34. 63. 41. 40. 3Iris-setosaa53. 4L50. 2Iris-setosa04. 42,91.40.2Iris-getoeai4. 93. 11. 50. 1Iris-setos
6、aF5. 431.50.2Iris-setosa4.在Excel中將其另存為CS呻式文件(CSV格式的文件和XLS格式文件一樣), 保存的路徑為C:Program FilesWeka-3-6,方便對(duì)其進(jìn)行轉(zhuǎn)化為weka標(biāo)準(zhǔn)的arff格式文件,如圖:5.采用 weka 的 Simple CLI 模塊輸入命令:java weka.core.converters.CSVLoader bezdekIris.csv > bezdekIris.arff將CSV文件轉(zhuǎn)化為標(biāo)準(zhǔn) ARFF文件。成功完成的 提示信息:Finished redirecting output to 'bezdekIri
7、s.arff。得到的數(shù)據(jù)集如圖所示:sepal-lengxh nuireric sepal-widtih numeric petal-length numeric petal-width nuineric class (Iris-B&toBa, Iris-versicolcir, Iris-virginica3 attribute4 attzxbute5 attribute6 attributeattribute7B310111213140daua5.1,3.5,1.4,0.2rIriB-Betosa4.9,3,1.4,0.2,Iris-fl&tDsa4.7,3,2,l-3,0
8、.2firis-s&tosa4T6f3-lf1.5f0.2fIris-setosa5f3,l,4,0<2,Iris-setosa6.至此得到了標(biāo)準(zhǔn)的ARFF格式文件第三部分采用關(guān)聯(lián)規(guī)則對(duì)ARFF數(shù)據(jù)集進(jìn)行處理1.對(duì)ARFF數(shù)據(jù)集進(jìn)行預(yù)處理,即進(jìn)行數(shù)據(jù)的離散化,將sepal-length, sepal-width, petal-length和petal-width四個(gè)數(shù)值型的數(shù)據(jù)轉(zhuǎn)化為分類型的數(shù)據(jù),設(shè)置相應(yīng)的參 數(shù)為:weka.filters.unsupervised.attribute.Discretize -B 10 -M -1.0 -R 1-4,即將每個(gè) 屆性的值分為10類,
9、選擇關(guān)聯(lián)規(guī)則的Apriori算法,相應(yīng)的參數(shù)設(shè)置為: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -c -1 ,即 計(jì)劃挖掘出支持度在10%到100%之間,并且置信度超過90%,按照置信度排前 10條的關(guān)聯(lián)規(guī)則。2.在關(guān)聯(lián)規(guī)則挖掘面板中操作:(1) car”設(shè)置為Ture,表示挖掘?yàn)轭愱P(guān)聯(lián)規(guī)則;(2) dassIndex”設(shè)置為-1,表示最后的屆性被當(dāng)作類屆性;(3)把lbwerBoundMinSupport”和 upperBoundMinSupport"分別設(shè)為 1 和 0
10、.1,表示支持 度的上界和下界;(4) metricType”設(shè)為Confidence,表示以置信度衡量(類關(guān) 聯(lián)規(guī)則只能用置信度挖掘);(5) minMetric”設(shè)為0.9,表示度量最小值;(6)numRules”設(shè)為10,表示規(guī)則數(shù)。其他選項(xiàng)保持默認(rèn)。OK ”之后在Explorer”中點(diǎn)擊Start”開始運(yùn)行算法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果,運(yùn)行結(jié)果 如下(設(shè)置不同的參數(shù)得到的結(jié)果會(huì)有所不同):=Run information =Scheme:weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S
11、-1.0 -A -c-1Relation:bezdekIris-weka.filters.unsupervised.attribute.Discretize-B10-M-1.0-Rfirst-lastInstances:150Attributes:5sepal-lengthsepal-width petal-length petal-width class=Associator model (full training set)=Apriori=Minimum support: 0.1 (15 instances)Minimum metricconfidence: 0.9Number of c
12、ycles performed: 18Generated sets of large itemsets:Size of set of large itemsets L(1): 12Size of set of large itemsets L(2): 3Best rules found:1. petal-width='(-inf-0.34' 41 => class=Iris-setosa 41 conf:(1)2. petal-length='(-inf-1.59' 37 => class=Iris-setosa 37 conf:(1)3. peta
13、l-length='(-inf-1.59' petal-width='(-inf-0.34' 33 => class=Iris-setosa 33 conf:(1)4. petal-width='(1.06-1.3' 21 => class=Iris-versicolor 21 conf:(1)5. petal-length='(5.13-5.72' 18 => class=Iris-virginica 18 conf:(1)6. sepal-length='(4.66-5.02' petal-w
14、idth='(-inf-0.34' 17 => class=Iris-setosa 17 conf:(1)7. sepal-width='(2.96-3.2' petal-width='(-inf-0.34' 15 => class=Iris-setosa 15 conf:(1)8. petal-length='(3.95-4.54' 26 => class=Iris-versicolor 25conf:(0.96)9. petal-width='(1.78-2.02' 23 => clas
15、s=Iris-virginica 22conf:(0.96)3.1得到的關(guān)聯(lián)規(guī)則結(jié)果如圖:conf:(1)conf: (1)cla53=Iri3-3etD5a 33conf:(1)conf:(L)class-Iris-setoaa 17coq£:(1) con£:Dest mles found;數(shù)據(jù)挖掘之鶯尾(IRIS)3.2這樣我們一共產(chǎn)生了 9條規(guī)則,分析如下:(1) 對(duì)丁規(guī)則1,可以得到的知識(shí)為:當(dāng)花瓣寬度小丁等丁 0.34厘米(petal-width< 0.34)時(shí),此鶯尾為山鶯尾,規(guī)則的置信度為1,支持度為41/150=0.273。(2) 對(duì)丁規(guī)則2,可以得
16、到的知識(shí)為:當(dāng)花瓣長(zhǎng)度小丁等丁 1.59厘米(petal-length< 1.59)時(shí),此鶯尾為山鶯尾,規(guī)則的置信度為1,支持度為37/150=0.247。(3) 規(guī)則3其實(shí)是規(guī)則1和2的交集,演化。(4) 對(duì)丁規(guī)則4,可以得到的知識(shí)為:花瓣寬度在1.06厘米到1.3厘米之間(1.06< petal-width< 1.3)時(shí),此鶯尾為變色鶯尾,規(guī)則的置信度為1,支持度為21/150=0.14。(5) 對(duì)丁規(guī)則5,可以得到的知識(shí)為:花瓣長(zhǎng)度在5.13厘米到5.72厘米之間(5.13< petal-lengthv 5.72)時(shí),此鶯尾為維吉尼業(yè)鶯尾,規(guī)則的置信度為1,支持度
17、為 18/150=0.12。(6) 規(guī)則6是規(guī)則1的演化。(7) 規(guī)則7是規(guī)則1的演化。(8) 對(duì)丁規(guī)則8,可以得到的知識(shí)為:花瓣長(zhǎng)度在3.95厘米至U 4.54厘米之間(3.95Vpetal-lengthw4.54)時(shí),此鶯尾為變色鶯尾,規(guī)則的置信度為0.96,支持度為 25/150=0.167。(9) 對(duì)丁規(guī)則9,可以得到的知識(shí)為:花瓣寬度在1.78厘米到2.02厘米之間(1.78<petal-width<2.02)時(shí),此鶯尾為維吉尼業(yè)鶯尾,規(guī)則的置信度為0.96,支持度為 22/150=0.147。3.3將規(guī)則總結(jié)如下表:單位:CM v 0.341.06VW 1.31.78V
18、W 2.02花瓣寬度 petal-width山鶯尾變色鶯尾維吉尼亞鶯尾 V 1.593.95VW 4.545.13VW 5.72花瓣長(zhǎng)度 petal-length山鶯尾變色鶯尾維吉尼亞鶯尾3.4從這些規(guī)則中我們可以知道,判斷鶯尾屆丁那一種類,應(yīng)該從花瓣的長(zhǎng)度和 寬度上進(jìn)行考慮。第四部分 采用聚類對(duì)ARFF數(shù)據(jù)集進(jìn)行處理1.參數(shù)相應(yīng)設(shè)置為 weka.clusterers.SimpleKMeans -N 3 -A "weka.core.EuclideanDistance -R first-last" -I 500 -S 800 設(shè)置分為 3 個(gè)簇,距離公 式采用歐幾里德距離公式
19、,隨機(jī)種子數(shù)依次為100, 200, 300.800, "Clustermode”設(shè)置為"classes to clusters evalution"以便對(duì)比進(jìn)行評(píng)估,并且勾選"Storeclusters for visualization”SeedWithin cluster sum of squared errors:Cluster 0Iris-virginicaCluster 1 Iris-setosaCluster 2Iris-versicolorIncorrectly clustered instances :10010.89225290446
20、121396 ( 64%)33 ( 22%)21 ( 14%)63.042%2006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %3007.12275017294385152 ( 35%)50 ( 33%)48 ( 32%)18.012 %4006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %50010.92513068267596394 ( 63%)35 ( 23%)21 ( 14%)59.039.3333 %6006.98221647378523439 ( 2
21、6%)50 ( 33%)61 ( 41%)17.011.3333 %7007.12275017294385252 ( 35%)50 ( 33%)48 ( 32%)18.012%8006.98221647378523439 ( 26%)50 ( 33%)61 ( 41%)17.011.3333 %2.我們知道 Within cluster sum of squared errors是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越 小說明同一簇類實(shí)例之間的距離越小,聚類的結(jié)果也就越好。從這個(gè)表中我們可以知道當(dāng) seed取值為 200,400,600,800 時(shí),其 Within cluster sum of squa
22、red errors 值相同,且為最小,這時(shí)的聚類效果最好,這樣我們就找到了最好的聚類方案。3.1將seed取值為800,其聚類效果如圖所示:Clux etlurX.: Clusita* (HgJ害 1. lu L«Ii!2B_iiib4E Ohfe )C«14ur: ClMlLtr 04mi)Cluttefef Vi&ualize: 19J2J0 - SimpleKM 段 佰 命畋蜘國(guó)Jit Hr圖4-1 seed-800聚類效果圖注:口表示預(yù)測(cè)與真實(shí)不相符合,x表示預(yù)測(cè)與真實(shí)相符合,那么x越多表示 聚類的效果越好。3.2運(yùn)行結(jié)果如下:=Run informati
23、on =Scheme:weka.clusterers.SimpleKMeans -N 3 -A "weka.core.EuclideanDistance -Rfirst-last" -I 500 -S 800Relation:bezdekIrisInstances:Attributes:1505sepal-length sepal-width petal-length petal-widthIgnored:classTest mode:Classes to clusters evaluation on training data=Model and evaluation o
24、n training set kMeansNumber of iterations: 6Within cluster sum of squared errors: 6.982216473785234Missing values globally replaced with mean/modeCluster centroids:AttributeFull Data(150)Cluster# 0 (61)1 (50)2(39)=sepal-length5.84335.88855.006;6.8462sepal-width3.05732.73773.4283.0821petal-length3.75
25、84.39671.4625.7026petal-width1.19931.4180.2462.0795Clustered Instances061( 41%)1 50( 33%)2 39( 26%)Class attribute: classClasses to Clusters:0 1 2 <- assigned to cluster0 50 0 | Iris-setosa47 0 3 | Iris-versicolor14 0 36 | Iris-virginicaCluster 0 <- Iris-versicolorCluster 1 <- Iris-setosaCl
26、uster 2 <- Iris-virginicaIncorrectly clustered instances : 17.011.3333 %4.1如果將seed取值改為100,其效果如圖:1: ClulLkr1: lUOhfei)C«14Ut CLmLu CHm)F£*!-« L 1am,JiUirLlsikrDpnnlv«* 攜暗蛆匚1員1稅版酒*1訃&9:2泗0 -旬中|£04皓1西血*如蹌-11 -cluscerZElgsr/D C1U3tEXlC11XX E&1-3UFC1US.«E1圖4-2 see
27、d-100聚類效果圖分析結(jié)論:此圖與圖4-1 seed-800聚類效果圖的相比,其聚類效果有很大的劣勢(shì)。 這樣我們就必須對(duì)SimpleKMeans算法的參數(shù)做相應(yīng)調(diào)整,可以使聚類效果達(dá)到 最佳。注:口表示預(yù)測(cè)與真實(shí)不相符合,x表示預(yù)測(cè)與真實(shí)相符合,那么x越多表示 聚類的效果越好。4.2運(yùn)行結(jié)果如下:Run informationScheme:weka.clusterers.SimpleKMeans -N 3 -A "weka.core.EuclideanDistance -Rfirst-last" -I 500 -O -S 100Relation:bezdekIrisIns
28、tances:150Attributes:5sepal-length sepal-width petal-lengthpetal-widthIgnored:classTest mode:Classes to clusters evaluation on training dataModel and evaluation on training setkMeansNumber of iterations: 4Within cluster sum of squared errors: 10.892252904461213Missing values globally replaced with mean/modeCluster centroids:AttributeFull Data(150)Cluster# 0 (96)1(33)2(21)=sepal-length5.84336.31465.16974.7476sepal-width3.05732.89583.63032.8952petal-length3.7584.974
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 片區(qū)開發(fā)項(xiàng)目可行性研究報(bào)告
- 低空經(jīng)濟(jì)的未來發(fā)展前景
- 農(nóng)業(yè)保險(xiǎn)精準(zhǔn)賠付系統(tǒng)實(shí)施方案
- 物流配送形式
- 茶藝師練習(xí)試題附答案(一)
- 婦產(chǎn)科護(hù)理復(fù)習(xí)試題及答案
- 電商平臺(tái)訂單管理和物流配送優(yōu)化方案
- 綠色建筑節(jié)能技術(shù)應(yīng)用案例分享
- 國(guó)際貿(mào)易談判實(shí)務(wù)作業(yè)指導(dǎo)書
- 游戲測(cè)試工程師技能培訓(xùn)作業(yè)指導(dǎo)書
- 2023年陜西高職單招考試語文真題
- 石油焦生產(chǎn)工藝及設(shè)備解讀課件
- 肺炎-疑難病例討論課件
- 2023全國(guó)高中化學(xué)奧林匹克競(jìng)賽預(yù)賽試題及答案
- 音樂劇悲慘世界歌詞
- 復(fù)合材料鋪層設(shè)計(jì)說明
- 戴德梁行物業(yè)培訓(xùn)ppt課件
- GB∕T 16422.3-2022 塑料 實(shí)驗(yàn)室光源暴露試驗(yàn)方法 第3部分:熒光紫外燈
- 煤礦防治水中長(zhǎng)期規(guī)劃2017—2019
- 2022年鄉(xiāng)鎮(zhèn)(街道)執(zhí)法人員資格考試題庫(kù)(含答案)
- 新版廣西大學(xué)畢業(yè)設(shè)計(jì)封面
評(píng)論
0/150
提交評(píng)論