




已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘實訓課程論文(報告、案例分析)院 系 信 息 學 院 專 業(yè) 統(tǒng) 計 班 級 10級統(tǒng)計 3 班 學生姓名 李健 學 號 2010210453 任課教師 劉 洪 偉 2013年 01月17日課程論文評分表各項滿分評分標準學生得分評分標準一10有明確的研究背景和意義 評分標準二30數據準確、有時效性,必須是最新的數據評分標準三40方法得當,有實證分析評分標準四10條理性和邏輯性強,內容闡述清晰、結論明確評分標準五10論文按規(guī)定的格式撰寫,文章中引用的內容需用腳注注明來源評分標準六特別提醒文章出現大段抄襲或者兩人之間內容雷同達到80%以上,均不能及格。論文按規(guī)定的時間上交,每推遲一天,扣減2分總分評閱人簽字數據挖掘實訓課程論文選題要求:根據公開發(fā)表統(tǒng)計數據,請結合數據挖掘理論與方法,撰寫一篇與數據挖掘領域相關的論文。寫作要求:(1)數據準確、有時效性,必須是最新的數據。(2)文章必須有相應的統(tǒng)計方法,這些統(tǒng)計方法包括以前專業(yè)課中學到的任何統(tǒng)計方法,如參數估計、假設檢驗、相關與回歸、多元統(tǒng)計等等。(3)論文的內容必須是原創(chuàng),有可靠的分析依據和明確的結論。(4)論文按照規(guī)定的格式化撰寫;(5)字數不少于2000字。數據挖掘(WEKA軟件)實驗報告統(tǒng)計學 專業(yè) 學生 李健 學號 2010210453關鍵詞:數據挖掘;游玩;因素;WEKA本次實驗指在熟練的運用軟件weka進行數據處理,其中包括數據準備,關聯規(guī)則等同時了解weka的基本用法。一、軟件介紹1簡介 數據挖掘、機器學習這些字眼,在一些人看來,是門檻很高的東西。誠然,如果做算法實現甚至算法優(yōu)化,確實需要很多背景知識。但事實是,絕大多數數據挖掘工程師,不需要去做算法層面的東西。他們的精力,集中在特征提取,算法選擇和參數調優(yōu)上。那么,一個可以方便地提供這些功能的工具,便是十分必要的了。而weka,便是數據挖掘工具中的佼佼者。 WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment forKnowledge Analysis),是由新西蘭懷卡托(Waikato)大學開發(fā)的機器學習軟件,純Java技術實現的開源軟件,遵循于GNU General Public License,跨平臺運行,集合了大量能承擔數據挖掘任務的機器學習算法,分類器實現了常用ZeroR算法、Id3算法、J48算法等40多個算法,聚類器實現了EM算法、SimpleKMeans算法和Cobweb算法3種算法,能對數據進行預處理、分類、回歸、聚類、關聯規(guī)則以及在新的交互式界面上的可視化。2oo5年8月,在第11屆ACM SIGKDD國際會議上,懷卡托大學的WEKA小組榮獲了數據挖掘和知識探索領域的最高服務獎,WEKA系統(tǒng)得到了廣泛的認可,被譽為數據挖掘和機器學習歷史上的里程碑,是現今最完備的數據挖掘工具之一。WEKA使用的是一種叫做arff(AttributeRelation File Format)的數據文件結構。這種arff文件是普通的ASCII文本文件,內部結構很簡單,主要是測試算法使用的輕量級的數據文件結構。arff文件可以自己建立,也可通過JDBC從Oracle和Mysql等流行數據庫中獲得。整個arf文件可以分為兩個部分。第一部分給出了頭信息(Head information),包括關系聲明(Relation Declaration)和屬性聲明(AttributeDeclarations)。第二部分給出了數據信息(Datainformation),即數據集中給出的數據。關系聲明的定義格式為:relation;屬性聲明的定義格式為:attribute;數據信息的定義格式為獨占一行的data,后面跟著的就是數據信息。2.安裝Weka的官方地址是http:/www.cs.waikato.ac.nz/ml/weka/。點開左側download欄,可以進入下載頁面,里面有windows,mac os,linux等平臺下的版本,我們以windows系統(tǒng)作為示例。目前穩(wěn)定的版本是3.6。如果本機沒有安裝java,可以選擇帶有jre的版本。下載后是一個exe的可執(zhí)行文件,雙擊進行安裝即可。安裝完畢,打開啟動weka的快捷方式,如果可以看到下面的界面,那么恭喜,安裝成功了。共有4個應用,分別是1)Explorer用來進行數據實驗、挖掘的環(huán)境,它提供了分類,聚類,關聯規(guī)則,特征選擇,數據可視化的功能。(An environment for exploring data with WEKA)2)Experimentor用來進行實驗,對不同學習方案進行數據測試的環(huán)境。(An environment for performing experiments and conducting statistical tests between learning schemes.)3)KnowledgeFlow功能和Explorer差不多,不過提供的接口不同,用戶可以使用拖拽的方式去建立實驗方案。另外,它支持增量學習。(This environment supports essentially the same functions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.)4)SimpleCLI簡單的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.)二、實驗內容1.選用數據文件為:small_dataset中的weather.arff數據文件2.在WEKA中點擊explorer 打開文件 weather.arff3.對數據整理分析4.將數據分類:單機classify在test options中 選擇第一項(Use training set)點擊classifier下面的choose 按鈕 選擇trees中的J48由上圖可知該樹有5個葉子是否出去游玩由天氣晴朗(sunny)、天氣預報(overcast)以及陰雨天(rainy)因素決定5. 關聯規(guī)則我們打算對前面的“bank-data”數據作關聯規(guī)則的分析。用“Explorer”打開“bank-data-final.arff”后,切 換到“Associate”選項卡。默認關聯規(guī)則分析是用Apriori算法,我們就用這個算法,但是點“Choose”右邊的文本框修改默認的參數,彈 出的窗口中點“More”可以看到各參數的說明。 7.切換到“Associate”選項卡。默認關聯規(guī)則分析是用Apriori算法,我們就用這個算法1), 將經過離散化的數據存入subset example1.arff2), 點擊“Choose”旁邊的文本框會彈出新窗口以修改離散化的參數。3), 現在我們計劃挖掘出支持度在10%到100%之間,并且lift值超過1.5且lift值排在前100位的那些關聯規(guī)則。numRules”設為100,metrictype 由 confidence改為lift 。其他選項保持默認即可。點擊start 輸出100個數據Best rules found: 1. humidity=80.5_max 7 = play=no 4 conf:(0.57) lev:(0.11) 1 conv:(1.13) 2. play=no 5 = humidity=80.5_max 4 conf:(0.8) lev:(0.11) 1 conv:(1.25) 3. outlook=overcast 4 = play=yes 4 conf:(1) lev:(0.1) 1 conv:(1.43) 4. play=yes 9 = outlook=overcast 4 conf:(0.44) lev:(0.1) 1 conv:(1.07) 5. humidity=0_80.5 windy=FALSE 4 = play=yes 4 conf:(1) lev:(0.1) 1 conv:(1.43) 6. play=yes 9 = humidity=0_80.5 windy=FALSE 4 conf:(0.44) lev:(0.1) 1 conv:(1.07) 7. outlook=rainy 5 = temperature=0_74.5 4 conf:(0.8) lev:(0.08) 1 conv:(1.07) 8. temperature=0_74.5 8 = outlook=rainy 4 conf:(0.5) lev:(0.08) 1 conv:(1.03) 9. humidity=0_80.5 7 = play=yes 6 conf:(0.86) lev:(0.11) 1 conv:(1.25)10. play=yes 9 = humidity=0_80.5 6 conf:(0.67) lev:(0.11) 1 conv:(1.13)三、總結:通過實踐周的學習,我們不僅繼續(xù)學習了R還學習了Weka軟件的應用。使我重新學習了一下數據挖掘的相關概念、知識和軟件的應用,理解了數據挖掘的用途和使用步驟。在此過程中學會了運用各個模塊的分析方法。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- TWEETER公司管理學案例分析
- 財務會計學培訓教案(一)
- 設備維修工作年終總結
- 從職業(yè)規(guī)劃生涯發(fā)展報告看未來職場趨勢與就業(yè)機會
- 2024-2025學年下學期高二生物滬科版期末必刷常考題之生態(tài)系統(tǒng)的結構與功能
- 建筑施工特種作業(yè)-建筑起重機械司機(施工升降機)真題庫-1
- 建筑施工特種作業(yè)-建筑架子工(普通腳手架)真題庫-9
- 山東中考傳奇題目及答案
- 瑞士銀行招聘題目及答案
- 03《相互作用》-2025高中物理水平合格考備考知識清單+習題鞏固
- 壯族文化宣傳介飲食服飾建筑風俗習慣特點傳統(tǒng)節(jié)日課件
- 牛津譯林版英語八年級下冊期末復習各單元話題寫作范文背誦
- 降低患者便秘品管圈課件
- 《國有企業(yè)管理人員處分條例》重點解讀
- CJT163-2015 導流型容積式水加熱器和半容積式水加熱器
- DL-T5159-2012電力工程物探技術規(guī)程
- 2025屆新疆維吾爾自治區(qū)新疆生產建設兵團二中物理高一第二學期期末質量檢測試題含解析
- 湖南省株洲荷塘區(qū)四校聯考2024屆八下物理期末綜合測試試題及答案解析
- FZ∕T 61002-2019 化纖仿毛毛毯
- GB/T 3880.3-2024一般工業(yè)用鋁及鋁合金板、帶材第3部分:尺寸偏差
- 2024年《企業(yè)戰(zhàn)略管理》期末考試復習題庫(含答案)
評論
0/150
提交評論