




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘?qū)嵱?xùn)課程論文(報(bào)告、案例分析)院 系_專(zhuān)業(yè)_班級(jí)10級(jí)統(tǒng)計(jì)3班學(xué)生姓名 李健_學(xué)號(hào)2010210453_任課教師 劉 洪 偉2013年01月17日課程論文評(píng)分表各項(xiàng)滿(mǎn)分評(píng)分標(biāo)準(zhǔn)學(xué)生得分評(píng)分標(biāo)準(zhǔn)一10有明確的研究背景和意義評(píng)分標(biāo)準(zhǔn)二30數(shù)據(jù)準(zhǔn)確、有時(shí)效性,必須是最新的數(shù)據(jù)評(píng)分標(biāo)準(zhǔn)三40方法得當(dāng),有實(shí)證分析評(píng)分標(biāo)準(zhǔn)四10條理性和邏輯性強(qiáng),內(nèi)容闡述清晰、結(jié)論明確評(píng)分標(biāo)準(zhǔn)五10論文按規(guī)定的格式撰寫(xiě),文章中引用的內(nèi)容需用腳注注明來(lái)源評(píng)分標(biāo)準(zhǔn)六特別提醒文章出現(xiàn)大段抄襲或者兩人之間內(nèi)容雷問(wèn)達(dá)到80姆上,均不能及格。論文按規(guī)定的時(shí)間上交,每推退一天,扣減2分總分評(píng)閱人簽字?jǐn)?shù)據(jù)挖掘?qū)嵱?xùn)課程論文選題要求:
2、根據(jù)公開(kāi)發(fā)表統(tǒng)計(jì)數(shù)據(jù),請(qǐng)結(jié)合 數(shù)據(jù)挖掘 理論與方法, 撰寫(xiě)一篇與數(shù)據(jù)挖掘領(lǐng)域相關(guān)的論文。寫(xiě)作要求:(1)數(shù)據(jù)準(zhǔn)確、有時(shí)效性,必須是最新的數(shù)據(jù)。(2)文章必須有相應(yīng)的統(tǒng)計(jì)方法,這些統(tǒng)計(jì)方法包括以 前專(zhuān)業(yè)課中學(xué)到的任何統(tǒng)計(jì)方法,如參數(shù)估計(jì)、假設(shè)檢驗(yàn)、 相關(guān)與回歸、多元統(tǒng)計(jì)等等。(3)論文的內(nèi)容必須是原創(chuàng),有可靠的分析依據(jù)和明確 的結(jié)論。(4)論文按照規(guī)定的格式化撰寫(xiě);(5)字?jǐn)?shù)不少于2000字。數(shù)據(jù)挖掘(WEKA軟件)實(shí)驗(yàn)報(bào)告統(tǒng)計(jì)學(xué) 專(zhuān)業(yè) 學(xué)生 李健 學(xué)號(hào)20102104532010210453關(guān)鍵詞:數(shù)據(jù)挖掘;游玩;因素;WEKA本次實(shí)驗(yàn)指在熟練的運(yùn)用軟件weka進(jìn)行數(shù)據(jù)處理,其中包括數(shù)據(jù)準(zhǔn)備,
3、關(guān)聯(lián)規(guī)則等同時(shí)了解weka的基本用法。一、軟件介紹1簡(jiǎn)介數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些字眼,在一些人看來(lái),是門(mén)檻很高的東西。誠(chéng)然,如果做算法實(shí)現(xiàn)甚至算法優(yōu)化, 確實(shí)需要很多背景知識(shí)。但事實(shí)是,絕大多數(shù)數(shù)據(jù)挖掘工程師,不需要去做算法層面的東西。他們的精力,集中在特征提取,算法選擇和參數(shù)調(diào)優(yōu)上。那么,一個(gè)可以方便地提供這些功能的工具,便是十分必要的了。而weka,便是數(shù)據(jù)挖掘工具中的佼佼者。WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment forKnowledge Analysis),是由新西蘭懷卡托(Waikato)大學(xué)開(kāi)發(fā)的機(jī)器學(xué)習(xí)軟件,純Java技 術(shù)實(shí)現(xiàn)的開(kāi)源軟件,遵循于
4、GNU General PublicLicense,跨平臺(tái)運(yùn)行,集合 了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,分類(lèi)器實(shí)現(xiàn)了常用ZeroR算法、Id3算法、J4. 8算法等40多個(gè)算法,聚類(lèi)器實(shí)現(xiàn)了EM算法、SimpleKMeans算法和Cobweb法3種算法,能對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分類(lèi)、回歸、聚類(lèi)、關(guān)聯(lián)規(guī)則以 及在新的交互式界面上的可視化。2oo5年8月,在第11屆ACM SIGKD國(guó)際會(huì) 議上,懷卡托大學(xué)的WEKAI、組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域的最高服務(wù)獎(jiǎng),WEKAI統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是 現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。WEK瘢用的是一種叫做arff
5、(Attribute一Relation FileFormat)的數(shù)據(jù)文件結(jié)構(gòu)。這種arff文件是普通的ASCII文本文 件,內(nèi)部結(jié)構(gòu)很簡(jiǎn)單,主要是測(cè)試算法使用的輕量級(jí)的數(shù)據(jù)文件結(jié)構(gòu)。arff文件可以自己建立,也可通過(guò)JDBC從Oracle和Mysql等流行數(shù)據(jù)庫(kù)中獲得。整個(gè)arf文件可以分為兩個(gè)部分。第一部分給出了頭信息(Head information),包括關(guān)系聲明(Relation Declaration)和屆性聲明(AttributeDeclarations)。第二部分給出了數(shù)據(jù)信息(Datainformation),即數(shù)據(jù)集中給出的數(shù)據(jù)。關(guān)系聲明的 定義格式為:relation屆性聲
6、明的定義格式為:attribute;數(shù)據(jù)信息的定義格式為獨(dú)占一行的data,后面跟著的就是數(shù)據(jù)信息。2.安裝Weka勺官方地址是http:/www.cs.waikato.ac.nz/ml/weka/。點(diǎn)開(kāi)左側(cè)download欄,可以進(jìn)入下載頁(yè)面,里面有windows, mac os, linux等平臺(tái)下的 版本,我們以windows系統(tǒng)作為示例。目前穩(wěn)定的版本是3.6。如果本機(jī)沒(méi)有安裝java,可以選擇帶有jre的版本。下載后是一個(gè)exe的可執(zhí) 行文件,雙擊進(jìn)行安裝即可。安裝完畢,打開(kāi)啟動(dòng)weka的快捷方式,如果可以看到下面的界面,那么恭喜, 安裝成功了。共有4個(gè)應(yīng)用,分別是1)Explore
7、r用來(lái)進(jìn)行數(shù)據(jù)實(shí)驗(yàn)、挖掘的環(huán)境,它提供了分類(lèi),聚類(lèi),關(guān)聯(lián)規(guī)則,特征選擇, 數(shù)據(jù)可視化的功能。(An environment for exploring data with WEKA )2)Experimentor用來(lái)進(jìn)行實(shí)驗(yàn),對(duì)不同學(xué)習(xí)方案進(jìn)行數(shù)據(jù)測(cè)試的環(huán)境。(An environment for performing experimentsand conducting statistical tests between learning schemes.)3)KnowledgeFlow功能和Explorer差不多,不過(guò)提供的接口不同,用戶(hù)可以使用拖拽的方式去建立實(shí)驗(yàn)方案。另夕卜,它支持增量學(xué)
8、習(xí)。(This environment supports essentially the same functionsas the Explorer but with a drag-and-drop interface.One advantage is that it supports incremental learning.)4)SimpleCLI簡(jiǎn)單的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKAcommands for operating systems that
9、do not provide their own command line interface. )、實(shí)驗(yàn)內(nèi)容1.選用數(shù)據(jù)文件為:small_dataset中的weather.arff數(shù)據(jù)文件2.在WEK沖點(diǎn)擊explorer打開(kāi)文件weather.arff3.對(duì)數(shù)據(jù)整理分析.i.1veka. gux. GenericOb jectEditorweka. f:iIters. uriEupeirTi sed. attribute. DiscretiisAboutAn instance filter that discretizes a range of numericMoreattributes
10、 in the dataset into nominal attributes.-Capibili tisattr ibutelndi ces 1,2, 34,5bins 2如mi mdNei ghtO flnw t ancsPerlnt ervalNonbT o binsfiikdlTmuiiBirLE FalseVi明orwCly mFelmVinvertSelectionFalseVm MkwE i ikaryFU眼Vus E qnalF r quencyFalseVOpen. . .Save.OKC play=no 4 conf:(0.57) lev:(0.11) 1 conv:(1.
11、13)2. play=no 5 = humidity=80.5_max 4 conf:(0.8) lev:(0.11) 1 conv:(1.25)3. outlook=overcast 4 = play=yes 4 conf:(1) lev:(0.1) 1 conv:(1.43)4. play=yes 9 = outlook=overcast 4 conf:(0.44) lev:(0.1) 1 conv:(1.07)5.humidity=0_80.5 windy=FALSE 4 = play=yes 4 conf: lev:(0.1)1 conv:(1.43)6.play=yes 9 = hu
12、midity=0_80.5 windy=FALSE 4 conf:(0.44)lev:(0.1)1 conv:(1.07)7.outlook=rainy 5 =temperature=0_74.54conf:(0.8)lev:(0.08)1conv:(1.07)8.temperature=0_74.58 = outlook=rainy4conf:(0.5)lev:(0.08)1conv:(1.03)9. humidity=0_80.5 7 = play=yes 6 conf:(0.86) lev:(0.11) 1 conv:(1.25)10. play=yes 9 = humidity=0_80.5 6 conf:(0.67) lev:(0.11) 1 conv:(1.13)三、總結(jié):通過(guò)實(shí)踐周的學(xué)習(xí),我們不僅繼續(xù)學(xué)習(xí)了R還學(xué)習(xí)了Weka軟件的應(yīng)用。使我重新學(xué)習(xí)了一下數(shù)據(jù)挖掘的相關(guān)概念、知識(shí)和軟件的應(yīng)用,理解了數(shù)據(jù)挖掘的用途和使用步驟。在此過(guò)程中學(xué)會(huì)了運(yùn)用各個(gè)模塊的分析方法。通過(guò)本次實(shí)訓(xùn)操作,也認(rèn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 冰柜活動(dòng)促銷(xiāo)活動(dòng)方案
- 醫(yī)保局組織登山活動(dòng)方案
- 初冬清倉(cāng)福利活動(dòng)方案
- 公司聚會(huì)贊助活動(dòng)方案
- 公司現(xiàn)場(chǎng)宣傳活動(dòng)方案
- 公司營(yíng)地團(tuán)建活動(dòng)方案
- 公司清遠(yuǎn)漂流活動(dòng)方案
- 公司春茗策劃方案
- 公司椅子清倉(cāng)活動(dòng)方案
- 公司新生產(chǎn)線(xiàn)策劃方案
- 人教版(2024)七年級(jí)下學(xué)期地理期末質(zhì)量檢測(cè)試卷(含答案)
- 2025年新能源汽車(chē)產(chǎn)業(yè)發(fā)展考試試卷及答案
- (2025)黨校入黨積極分子培訓(xùn)結(jié)業(yè)考試題庫(kù)與答案
- 2025年中國(guó)超薄柔性玻璃(UTG)行業(yè)深度分析、投資前景及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告(智研咨詢(xún))
- 交房期間業(yè)主維權(quán)突發(fā)事件應(yīng)急預(yù)案
- 【專(zhuān)題訓(xùn)練】專(zhuān)題04三角形(考題猜想九大題型)(學(xué)生版+解析)-2025年七年級(jí)數(shù)學(xué)下學(xué)期期末總復(fù)習(xí)(北師大版)
- 2025年全國(guó)護(hù)士資格考試試卷及答案
- 難點(diǎn)01:總集篇·十三種簡(jiǎn)便計(jì)算巧算法【十三大考點(diǎn)】-2024年小升初數(shù)學(xué)典型例題系列(原卷版+解析)
- 三一挖機(jī)合同協(xié)議書(shū)
- 越秀地產(chǎn)合作協(xié)議書(shū)
- 上海市普陀區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期期末考試物理試題(解析版)
評(píng)論
0/150
提交評(píng)論