




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2020/7/9/1,數(shù)據(jù)挖掘工具- WEKA教程,WEKA介紹。2數(shù)據(jù)集。11數(shù)據(jù)準(zhǔn)備。24數(shù)據(jù)預(yù)處理36分類63聚類。184關(guān)聯(lián)規(guī)則225選擇屬性244數(shù)據(jù)可視化253知識(shí)流接口275,WEKA介紹。2/1,2020,WEKA的全名是用于知識(shí)分析的懷卡托環(huán)境。WEKA在新西蘭也是一個(gè)鳥的名字。這是一個(gè)機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘開源軟件,由新西蘭懷卡托大學(xué)的韋卡團(tuán)隊(duì)用Java開發(fā)。2005年8月,在第11屆ACM SIGKDD國(guó)際會(huì)議上,懷卡托大學(xué)的WEKA團(tuán)隊(duì)獲得了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),WEKA系統(tǒng)被公認(rèn)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是當(dāng)今最完整的數(shù)據(jù)挖掘工具之一。WEKA每月
2、被下載超過10,000次。2020/7/9/3,WEKA軟件,這是一個(gè)綜合數(shù)據(jù)挖掘工具,集成了數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法(分類、回歸、聚類、關(guān)聯(lián)分析)和評(píng)估方法。具有交互式視覺界面。提供算法學(xué)習(xí)和比較環(huán)境,通過其界面,可以實(shí)現(xiàn)自己的數(shù)據(jù)挖掘算法。WEKA接口,2020/7/9,4、探索環(huán)境、命令行環(huán)境、知識(shí)流環(huán)境、算法測(cè)試環(huán)境、2020/7/9,5、資源管理器環(huán)境,2020/7/9,6,輸入預(yù)處理:選擇并修改要處理的數(shù)據(jù)。分類:訓(xùn)練和測(cè)試分類或回歸模型。聚類:從數(shù)據(jù)中聚類。關(guān)聯(lián):從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。選擇屬性:選擇數(shù)據(jù)中最相關(guān)的屬性??梢暬翰榭磾?shù)據(jù)的二維散點(diǎn)圖。區(qū)域2是一些常用的按鈕。包括打開、編
3、輯、保存數(shù)據(jù)和數(shù)據(jù)轉(zhuǎn)換等功能。例如,我們可以將文件“bank-data.csv”保存為“bank-data.arff”。在區(qū)域3中,您可以選擇過濾器來過濾數(shù)據(jù)或轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)預(yù)處理主要通過它來實(shí)現(xiàn)。2020年7月9日,區(qū)域4顯示了基本信息,如關(guān)系名稱、屬性數(shù)和數(shù)據(jù)集實(shí)例數(shù)。數(shù)據(jù)集的所有屬性都列在區(qū)域5中。檢查一些屬性并“刪除”以刪除它們。刪除后,您還可以使用區(qū)域2中的“撤消”按鈕來檢索它們。區(qū)域5上方的一行按鈕用于快速檢查。在區(qū)域5中選擇的當(dāng)前屬性的概要顯示在區(qū)域6中。摘要包括屬性名稱、屬性類型、缺失值的數(shù)量和比例、不同值的數(shù)量、唯一值的數(shù)量和比例。該圖顯示了數(shù)字屬性“收入”的匯總。數(shù)字屬性顯
4、示最小、最大、平均和標(biāo)準(zhǔn)偏差。標(biāo)稱屬性顯示每個(gè)不同值的計(jì)數(shù),2020/7/9/8,區(qū)域7是區(qū)域5中所選屬性的直方圖。如果數(shù)據(jù)集的最后一個(gè)屬性(它是分類或回歸任務(wù)的默認(rèn)目標(biāo)變量)是類標(biāo)簽變量(例如,“pep”),則直方圖中的每個(gè)矩形將根據(jù)該變量的比例分成不同顏色的段。要更改分段的基礎(chǔ),請(qǐng)?jiān)趨^(qū)域7上方的下拉框中選擇不同的分類屬性。在下拉框中選擇“無類別”,否則數(shù)字屬性將變成黑白直方圖。2020/7/9、9以及區(qū)域8的窗口底部區(qū)域,包括狀態(tài)欄、日志按鈕和Weka鳥。狀態(tài)欄會(huì)顯示一些信息,讓您知道自己在做什么。例如,如果資源管理器正忙于加載文件,狀態(tài)欄中將會(huì)出現(xiàn)一個(gè)通知。右鍵單擊狀態(tài)欄中的任意位置,將
5、出現(xiàn)一個(gè)小菜單。該菜單提供兩個(gè)選項(xiàng):內(nèi)存信息-顯示W(wǎng)EKA中可用的內(nèi)存量。運(yùn)行垃圾收集器-強(qiáng)制運(yùn)行Java垃圾收集器,搜索不再需要的內(nèi)存空間并釋放它,以便為新任務(wù)分配更多內(nèi)存。日志按鈕可以查看weka操作的日志。如果右邊的weka鳥正在移動(dòng),這意味著WEKA正在執(zhí)行挖掘任務(wù)。2020/7/9,10,知識(shí)流環(huán)境,2020/7/9,11,2,WEKA數(shù)據(jù)集,WEKA處理的數(shù)據(jù)集是一個(gè)二維表。arff文件,2020/7/9,12,表中的水平線稱為實(shí)例,相當(dāng)于統(tǒng)計(jì)數(shù)據(jù)。垂直線稱為屬性,相當(dāng)于統(tǒng)計(jì)數(shù)據(jù)中的變量或數(shù)據(jù)庫中的字段。在WEKA看來,這樣的表或數(shù)據(jù)集表示屬性之間的關(guān)系。上圖中有14個(gè)實(shí)例和5個(gè)屬
6、性,關(guān)系名為“天氣”。WEKA以ARFF(屬性關(guān)系文件格式)文件存儲(chǔ)數(shù)據(jù),這是一個(gè)ASCII文本文件。上面顯示的二維表格存儲(chǔ)在以下ARFF文件中。這是WEKA自己的“weather.arff”文件,可以在WEKA安裝目錄的“data”子目錄中找到。關(guān)系天氣屬性展望晴天,陰天,雨天屬性溫度真實(shí)屬性濕度真實(shí)屬性風(fēng)真實(shí)屬性假屬性播放是,無數(shù)據(jù)晴天,85,85,假,無晴天,80,90,真,無陰天,83,86,假,有雨天,70,96,假,有雨天,68,80,假,有雨天,65,70,真,無陰天,64,65,真,有晴天,72,95,假,無晴天,69,70,假,是ARFF,可以通過寫字板打開和編輯。刪除注釋后
7、,整個(gè)ARFF文件可以分為兩部分。的第一部分給出了Head信息,包括關(guān)系聲明和屬性聲明。第二部分給出數(shù)據(jù)信息,即數(shù)據(jù)集中給出的數(shù)據(jù)。從“數(shù)據(jù)”標(biāo)簽開始,數(shù)據(jù)信息如下。2020/7/9/16,relation declaration,關(guān)系名稱在ARFF文件的第一個(gè)有效行中定義,格式為:relation是一個(gè)字符串。如果該字符串包含空格,則必須用引號(hào)括起來(英文標(biāo)點(diǎn)的單引號(hào)或雙引號(hào))。2020/7/9/17,屬性聲明,由以“attribute”開頭的語句列表表示。數(shù)據(jù)集中的每個(gè)屬性都有相應(yīng)的“attribute”語句來定義其屬性名和數(shù)據(jù)類型):attribute,它必須是以字母開頭的字符串。與關(guān)系
8、名一樣,如果該字符串包含空格,則必須用引號(hào)引起來。屬性聲明語句的順序很重要,它指示了屬性在數(shù)據(jù)段中的位置。例如,“濕度”是第三個(gè)聲明的屬性,這意味著在數(shù)據(jù)部分用逗號(hào)分隔的列中,數(shù)據(jù)85 90 86 96.第二列(從第0列開始)是相應(yīng)的“濕度”值。其次,最后聲明的屬性稱為類屬性,它是分類或回歸任務(wù)中的默認(rèn)目標(biāo)變量。2020/7/9/18,數(shù)據(jù)類型,WEKA支持四種數(shù)據(jù)類型:數(shù)值型、名義型、字符串型、日期和時(shí)間型,也可以使用“整數(shù)”和“實(shí)數(shù)”兩種類型,但WEKA將其視為“數(shù)字”。注意:“整數(shù)”、“實(shí)數(shù)”、“數(shù)字”、“日期”和“字符串”區(qū)分大小寫,而“關(guān)系”、“屬性”和“數(shù)據(jù)”不區(qū)分大小寫。2020
9、/7/9/19,數(shù)字屬性可以是整數(shù)或?qū)崝?shù),但WEKA將它們視為實(shí)數(shù)。例如,屬性溫度實(shí)字符串屬性字符串屬性可以包含任意文本。示例:屬性LCC字符串,2020/7/9,20,標(biāo)稱屬性標(biāo)稱屬性列出了一系列可能的類別名稱,并將它們放在大括號(hào)中:數(shù)據(jù)集中此屬性的值只能是類別之一。例如,屬性聲明:屬性展望晴、陰、雨顯示有三類“展望”屬性:“晴”、“陰”和“雨”。對(duì)應(yīng)于數(shù)據(jù)集中每個(gè)實(shí)例的“outlook”值必須是三個(gè)值之一。如果類名有空格,仍然需要用引號(hào)括起來。2020/7/9/21,日期和時(shí)間屬性統(tǒng)一用“date”類型表示,其格式為:attribute date,這是一個(gè)字符串,用于指定如何解析和顯示日期
10、或時(shí)間的格式。默認(rèn)字符串是由ISO-8601給出的日期時(shí)間組合格式:“yyyy-mm-DD HH: mm3360 ss”,數(shù)據(jù)信息部分表示的日期字符串必須滿足聲明中規(guī)定的格式要求。例如,屬性時(shí)間戳日期yyyy-mm-DD hh :mm 3360 sdata 2011-05-03 12:59336055,2020/7/9/22,數(shù)據(jù)信息,數(shù)據(jù)信息中的“數(shù)據(jù)”標(biāo)記占據(jù)一行,其余是每個(gè)實(shí)例的數(shù)據(jù)。每個(gè)實(shí)例占用一行,實(shí)例的屬性值用逗號(hào)分隔。如果屬性值缺少值,請(qǐng)使用問號(hào)“?”說,這個(gè)問號(hào)不能省略。示例:數(shù)據(jù)sunny,85,85,F(xiàn)ALSE,否?78,90?是的,2020/7/9/23,稀疏數(shù)據(jù)。有時(shí)數(shù)
11、據(jù)集包含大量的0值。此時(shí),以稀疏格式存儲(chǔ)數(shù)據(jù)更節(jié)省空間。稀疏格式意味著對(duì)于數(shù)據(jù)信息中對(duì)象的表示,ARFF文件的其他部分不需要修改。例如,數(shù)據(jù):數(shù)據(jù)0,X,0,Y,classa0,0,W,0,classb是以稀疏格式表示的數(shù)據(jù)1 X,3 Y,A 2 W,4 B類。注意:ARFF數(shù)據(jù)集最左邊的屬性列是第0列,所以1 X表示X是第一列的屬性值。2020/7/9,24,3。ARFF文件數(shù)據(jù)直接用于數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)采集。從CSV、C4.5、二進(jìn)制和其他格式文件導(dǎo)入。通過JDBC從數(shù)據(jù)庫中讀取數(shù)據(jù)。從統(tǒng)一資源定位器獲取網(wǎng)絡(luò)資源數(shù)據(jù)。數(shù)據(jù)格式轉(zhuǎn)換ARFF格式是WEKA支持的最好的文件格式。當(dāng)WEKA用于數(shù)據(jù)挖
12、掘時(shí),第一個(gè)問題是數(shù)據(jù)不是ARFF格式的。WEKA還提供對(duì)CSV文件的支持,這是由許多其他軟件(如Excel)支持的。您可以使用WEKA將CSV文件格式轉(zhuǎn)換為ARFF文件格式。2020/7/9/25,數(shù)據(jù)資源,WEKA自己的數(shù)據(jù)表程序文件WEKA-3-6數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)資源http:/archive . ics . UCI . edu/ml/dataset . html,2020/7/9,26, XLS.csv.arff,Excel XLS文件可以將多個(gè)2D表放在不同的工作表中,并且只將每個(gè)工作表保存為不同的csv文件。打開XLS文件,切換到要轉(zhuǎn)換的工作表,將其保存為CSV類型,單擊“確定”、“是
13、”,忽略提示完成操作。在WEKA中打開一個(gè)CSV文件,并將其保存為ARFF文件。2020/7/9/27,在Excel中打開Iris.xls文件,2020/7/9/28,2020/7/9/29,并將Iris.xls另存為iris.csv文件,2020/7/9/30,2020/7 2020/7/9,33,2020/7/9,34,保存iris。csv為iris。arff文件,2020/7/9,35,2020/7/9,36,4,數(shù)據(jù)預(yù)處理,在WEKA中,數(shù)據(jù)預(yù)處理工具稱為過濾器(。“過濾器”列用于為各種過濾器進(jìn)行必要的設(shè)置。選擇按鈕:點(diǎn)擊此按鈕選擇WEKA中的過濾器。選擇過濾器后,其名稱和選項(xiàng)將顯示在“選擇”按鈕旁邊的文本框中。2020/7/9/37,加載數(shù)據(jù),瀏覽器預(yù)處理頁面區(qū)域2的前四個(gè)按鈕用于將數(shù)據(jù)加載到WEKA:打開文件.打開一個(gè)對(duì)話框,允許您瀏覽本地文件系統(tǒng)上的數(shù)據(jù)文件。打開網(wǎng)址.請(qǐng)求存儲(chǔ)數(shù)據(jù)的網(wǎng)址。開放數(shù)據(jù)庫.從數(shù)據(jù)庫中讀取數(shù)據(jù)。產(chǎn)生.從一些數(shù)據(jù)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024成都冶金職工大學(xué)輔導(dǎo)員招聘筆試真題
- 文化旅游項(xiàng)目規(guī)劃師筆試試題及答案
- 2025年隔離接地開關(guān)項(xiàng)目發(fā)展計(jì)劃
- 2025年車用交流發(fā)電機(jī)合作協(xié)議書
- 玉林市陸川縣招聘特崗教師筆試真題2024
- 2025年市場(chǎng)調(diào)查服務(wù)項(xiàng)目合作計(jì)劃書
- 2025年經(jīng)典心理健康知識(shí)競(jìng)賽考試練習(xí)題庫(350題)【答案】
- 2025年事業(yè)單位考試中國(guó)古代近代文學(xué)史知識(shí)考試題庫(五套)【答案】
- 活動(dòng)總結(jié)范文學(xué)校五四青年節(jié)活動(dòng)總結(jié)怎么寫
- 糧食局員工年末述職報(bào)告范文
- GB/T 1796.6-2018輪胎氣門嘴第6部分:氣門芯
- 逆向工程技術(shù)-課件
- 基于PLC交流變頻調(diào)速系統(tǒng)的設(shè)計(jì) 畢業(yè)設(shè)計(jì)(論文)
- 高中新生入學(xué)教育課件
- 齊魯醫(yī)學(xué)健康知識(shí)-遠(yuǎn)離“三高”
- 2019-2020學(xué)年湖南長(zhǎng)沙長(zhǎng)郡中學(xué)高一入學(xué)分班考試數(shù)學(xué)卷(常用)
- 職業(yè)安全衛(wèi)生知識(shí)競(jìng)賽題
- 消防設(shè)施移交及消防設(shè)施操作維護(hù)人員培訓(xùn)和清單參考模板范本
- SLAP損傷的治療課件
- 廣東省外語藝術(shù)職業(yè)學(xué)院后勤服務(wù)項(xiàng)目檢查評(píng)分標(biāo)準(zhǔn)
- 以理解為中心的歷史教育 西安張漢林 全國(guó)歷史教育專家2016年夏高考研討會(huì)最新材料
評(píng)論
0/150
提交評(píng)論