版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、WEKA 3-5-3 Experimenter 指南原文版本 3.5. 3 原文鏈接 翻譯 王娜 校對 C6H5NO2Pentaho 中文討論組 QQ 群: 12635055 論壇: /bipub/index.asp David ScusePeter ReutemannJune 8, 20061 簡介 12 標準試驗 22.1 簡單模式 22.1.1 新試驗 22.1.2 結(jié)果的目的文件 22.1.3 試驗類型 42.1.4 數(shù)據(jù)集 52.1.5 迭代控制 62.1.6 算法 62.1.7 保存設(shè)置 82.1.8 運行試驗 82.2 高級模式 92.2.1
2、 定義試驗 92.2.2 運行試驗 122.2.3 改變試驗參數(shù) 132.2.4 其他結(jié)果的產(chǎn)生 193 遠程試驗 233.1 準備 233.2 數(shù)據(jù)庫服務(wù)器設(shè)置 233.3 遠程引擎安裝 233.4 配置 Experimenter243.5 疑難問題解答 244 分析結(jié)果 254.1設(shè)置 254.2保存結(jié)果 284.3 改變基準算法 284.4 統(tǒng)計顯著性 294.5 描述性檢驗 294.6 排序檢驗 295 參考文獻 301 簡介Weka 試驗( Experiment )環(huán)境可以讓用戶創(chuàng)建,運行,修改和分析算法試驗,這也許比單獨的分 析各個算法更加方便。例如,用戶可創(chuàng)建一次試驗,在一系列數(shù)
3、據(jù)集上運行多個算法( schemes ),然 1后分析結(jié)果以判斷是否某個算法比其他算法(在統(tǒng)計意義下)更好。可以通過Simple CLI在命令行的方式下運行試驗環(huán)境。例如,在CLI上鍵入以下命令,將通過一個基本的訓(xùn)練和測試步驟在Iris數(shù)據(jù)集上運行OneR算法。(注意該命令應(yīng)放在同一行中輸入CLI。)java weka.experiment.Experiment -r -T data/iris.arff-D weka.experiment.lnstancesResultListener-P weka.experiment .RandomSplitResultProducer -W weka.
4、experiment .ClassifierSplitEvaluator -W weka. classifiers. rules. OneR然而直接把命令直接輸入 CLI這種方式并不是很方便,且試驗不容易修改。Experimenter有兩種模式:一種具有較簡單的界面,并提供了試驗所需要的大部分功能,另一種則 提供了一個可以使用 Experime nter 所有功能的界面。你可使用 Experime nt Con figuration Mode單選按鈕在這兩者間進行選擇。? Simple?Advaneed在兩種模式下,你都進行在本地單一機器上的標準試驗,或者分布在幾臺主機上的遠程試驗。分布 式的
5、試驗減少了完成試驗本身所需的時間,但是另一方面,設(shè)置這樣的試驗需要更多的時間。以下的章節(jié)節(jié)將介紹標準試驗(包括simple和advaneed模式),然后是遠程試驗,最后部分是結(jié)果 的分析。這個手冊也可在 WekaDoc Wiki 5 上找到。2 標準試驗2.1 Simple (簡單)模式2.1.1新試驗在點擊New后,就定義了一次試驗的默認參數(shù)。2.1.2 Result Dest in ation (結(jié)果的目的文件)一個ARFF文件將默認作為結(jié)果輸出的目的文件。但你也可選擇: ? ARFF file ( ARFF 文件)? CSV file ( CSV 文件)? JDBC database (
6、 JDBC 數(shù)據(jù)庫)以下章節(jié)將詳細討論 ARFF文件和JDBC數(shù)據(jù)庫。CSV類似于ARFF,但它可以用其他的電子表 格程序加載。2.121 ARFF file如果文件名為空,將在系統(tǒng)的TEMP目錄下創(chuàng)建一個臨時文件。如果你想顯式的指定一個結(jié)果文件, 只需點擊Browse,并選一個文件名,例如 Experimentl.arff 。點擊Save,文件路徑將出現(xiàn)在 ARFF file旁的文本框中。ARFF或CSV文件的優(yōu)點是它們的創(chuàng)建不需要 Weka之外的類文件。它們的缺點則是試驗一被中 斷就無法繼續(xù)進行,所謂中斷包括出現(xiàn)錯誤,添加數(shù)據(jù)集或添加算法。尤其對于那些相當耗時的試驗, 這一不足會增加很多麻
7、煩。 JDBC database有了 JDBC,就可以很容易的把結(jié)果存儲在數(shù)據(jù)庫中。要使用某種特定數(shù)據(jù)庫的JDBC功能,必須在CLASSPATH中指定相應(yīng)的jar文件。把ARFF file改成JDBC database后,點擊User.來指定訪問數(shù)據(jù)庫的 JDBC URL和用戶帳號。在提供了必要的數(shù)據(jù)并點擊 OK后,主窗口中的URL將會更新。 注意:這個時候還沒有測試數(shù)據(jù)庫連接;啟動試驗時才會進行連接測試。5JDBC數(shù)據(jù)庫的優(yōu)點是可以繼續(xù)運行那些被中止的或擴展了的試驗。它不用重新運行那些已試驗過 的算法/數(shù)據(jù)集組合,而僅計算還沒有被試驗的那些。2.1.3 Experiment t
8、ype (試驗類型)用戶可選擇以下三種不同的類型:? Cross-validation(交叉驗證)(默認):根據(jù)給定的折數(shù)執(zhí)行分層交叉驗證?Train/Test Percentage Split (datarandomized)(按比例分割訓(xùn)練/測試集,隨機挑選數(shù)據(jù))把數(shù)據(jù)打亂順序并確定層次后,根據(jù)給定的百分比把這個數(shù)據(jù)集分割成一個訓(xùn)練文件和一個測試 文件(在Experimenter中,不能顯式的指定訓(xùn)練文件和測試文件)Train/Test Percentage Split(order preserved) (按比例分割訓(xùn)練/測試集,按順序挑選數(shù)據(jù))因為不能顯式的指定訓(xùn)練/測試文件對,可以利用
9、這個試驗類型把合并過的訓(xùn)練和測試文件還原 (只需找到正確的比例)而且,可在Classification (分類,又稱判別)和 Regression (回歸)間進行選擇,這依賴于所用 的數(shù)據(jù)集和分類器1( classifiers )。對于像J48 (即Quinlan的C4.5算法3在Weka中的實現(xiàn))這 樣的決策樹算法和iris數(shù)據(jù)集,Classification是必需的;另一方面,對于 M5P這樣的數(shù)值型分類器, 則需要選用Regression。默認選中的是 Classification。注意:如果使用了按比例分割,必須確保修正過的成對T檢驗在給定的比值下仍能產(chǎn)生有意義的結(jié)果2。2.1.4 D
10、atasets (數(shù)據(jù)集)可以通過絕對路徑或相對路徑添加數(shù)據(jù)集文件。后者使得在不同的機器上運行試驗更加方便,因此 你在點擊 Add new.之前,應(yīng)該勾選 Use relative paths (使用相對路徑)。在這個例子中,打開data目錄,選擇iris.a市 數(shù)據(jù)集WEKA把用于分類和回歸的算法都叫做分類器-譯注openLw*i怦 口T :a Tj i可 dq|s=| r.Mrff口 WMlWJWiHhalJfff.吩加|口 UUmi JtrllQ HbqinM: 4ndun-TtQ linenl JrvL.ITR «oM*eanafn在點擊Open后,文件將顯示在數(shù)據(jù)集列表中。
11、如果選中一個目錄點擊Open,那么將遞歸的添加所有ARFF文件。從列表刪除文件時,可選中那些文件,然后點擊Delete selected。2.1.5 Iteratio n con trol (迭代控制)?Number of repetitio ns(重復(fù)次數(shù)):為了獲得統(tǒng)計上有意義的結(jié)果,默認的迭代數(shù)量是10。在10折交叉驗證的情形下,這意味著對一個分類器要進行100次調(diào)用一一從訓(xùn)練集計算它,并在測試集上測試。? Data sets first/Algorithms first(數(shù)據(jù)集優(yōu)先 / 算法優(yōu)先):當存在多個數(shù)據(jù)集和算法的時候,切換成優(yōu)先迭代數(shù)據(jù)集的模式可能會有用。舉個例子,會有人把結(jié)
12、果存儲在數(shù)據(jù)庫中,并且想盡早完成某個算法在所有數(shù)據(jù)集上的結(jié)果。2.1.6 Algorithms (算法)可以通過Add new.按鈕添加新算法。如果是第一次打開這個對話框,將出現(xiàn) ZeroR ;否則將出現(xiàn)上次選中的那個??梢杂肅hoose按鈕打開GenericObjectEditor來選擇別的分類器。9wvkd.qLiiJGetiKrkLHj二旦邑- -iI " b競世* desires UM置I: 強u曲*-C rr*ta 口 E 口隕弭T U1*"DDD Z«qLjnctWSnWil O r*t±Qi*iTah*10wvkd.qLiiJGetiKrk
13、LHj二旦邑#wvkd.qLiiJGetiKrkLHj二旦邑有的分類器僅針對某種特定類型的屬性(attribute )和目標屬性(class),使用Filter.按鈕能夠加 亮顯示它們。點擊Remove filter,加亮顯示又會被取消。可使用Add new.按鈕繼續(xù)添加其他的算法,如J48決策樹。在設(shè)置好分類器的參數(shù)后,可點擊 OK將之添加進算法列表。#使用Load options.和Save options.按鈕,你可從XML加載或保存選中分類器的設(shè)置。這對 配置相當復(fù)雜的分類器(如nested meta-分類器)尤其有用,因為手動設(shè)置它們需要一些時間,卻又經(jīng) 常要用到。Save.即可。2
14、.1.7保存設(shè)置為了將來能重復(fù)使用,可將試驗的當前設(shè)置保存進一個文件,點擊窗口頂部的11#試驗文件默認的的格式是 Java序列化提供的二進制文件。這個格式的缺點是不同版本的 Weka間可能存在格式的不兼容性。還有一種更加健壯的XML格式可供選擇??赏ㄟ^Open.按鈕重新裝載之前保存的 experiments 。2.1.8運行試驗要運行當前試驗,需點擊試驗環(huán)境窗口中的Run標簽頁。當前試驗將使用 ZeroR和J48算法在Iris數(shù)據(jù)集上執(zhí)行十次10折的分層交叉驗證。#點擊Start運行試驗。#UUlf1GJT. 12 SortediBlriz Aiima iScITia ThtllWtfti3t
15、ilDII3iiKmIkv ruvdNi如果試驗定義正確,在 Log面板上將顯示如上 3條信息。試驗結(jié)果保存在 Experimentl. a市數(shù)據(jù)集里。2.2 Adva need (高級)模式2.2.1 定義試驗切換到Setup標簽頁,在高級模式下開始試驗。點擊New以初始化一次試驗。這樣為試驗給定了默認的參數(shù)。要給定由算法所處理的數(shù)據(jù)集,先在Setup標簽頁的Datasets面板上選擇Use relative paths ,然后點擊Add new.打開一個對話框窗口。13可以雙擊data文件夾查看可用的數(shù)據(jù)集,也可以瀏覽到其它的位置。選擇iris.arff,點擊Open選擇Iris數(shù)據(jù)集。1
16、4#lxHuigBinjriMri£ toqMsvna:Gmct-iSin pi aurinsli cm: I數(shù)據(jù)集名現(xiàn)在顯示在 Setup標簽頁的Datasets面板。221.1 保存試驗結(jié)果要指定結(jié)果保存的數(shù)據(jù)集,點擊Destination 面板上的InstancesResultListener數(shù)靠近窗口底部,在文本 outputFile 的旁邊。點擊這個參數(shù)顯示一個文件選擇窗口。條目。輸出文件參| 2 IMekdi Experlrrierit Erwirarrnenl| Hui AmIsdI xiHHianiri CiiriliEjiaidlam ttKhc,1 L"
17、;l ll±: '.IInilMl.ioHhiailI hilHiiiHJ-CIi-wsrl J-h* fi 訂Ctvma iMri-irnptiHmiillFPMSicFB -衛(wèi)£> 0 用唱淳札河I JIfAI j: p«pp-mt| £|>iss!tiHti|rifiZYii*L -l<r 知耳 clnarlij鍵入輸出文件的名字, 關(guān)閉窗口。點擊Select ,然后點擊close (x)。文件名顯示在outputFile 面板,點擊0K數(shù)據(jù)集名顯示在Setup標簽頁的Destination 面板。221.2 保存試驗定義
18、可在任何時候保存 experiment定義。選擇Setup標簽頁頂部的Save即可。對于二進制文件,輸 入帶有擴展名exp的數(shù)據(jù)集名(如果試驗定義的數(shù)據(jù)集已存在,則選擇這個數(shù)據(jù)集名)或從File ofType復(fù)選框中選擇試驗配置文件(*,xml)(當版本變化時,XML文件是健壯的)。15可在Setup標簽頁中選擇Open恢復(fù)試驗,然后在對話框窗口中選擇Experimentl.exp 。2.2.2運行試驗為運行當前試驗,點擊試驗環(huán)境窗口頂部的Iris數(shù)據(jù)集上執(zhí)行了10次Run標簽頁。當前試驗在隨機化的訓(xùn)練和測試,66%的數(shù)據(jù)樣本用于訓(xùn)練,34%用于測試,使用ZeroR算法。點擊Start運行試驗
19、。如果試驗定義正確,在Log面板頂部顯示將3條消息。試驗結(jié)果被保存在 Experiment1.arff數(shù)據(jù)16集。這個 dataset 的前面幾行顯示如下:relation InstanceResultListenerattribute Key_Dataset irisattribute Key_Run 1,2,3,4,5,6,7,8,9,10attribute Key_Scheme weka. classifiers . rules . ZeroR,weka. classifiers. trees . J48 attribute Key_Scheme_options , '-C 0.
20、 25 -M 2 'attribute Key_Scheme_version_ID 48055541465867954, -217733168393644444 attribute Date_time numericattribute Number_of_training_instances numericattribute Number_of_testing_instances numericattribute Number_correct numeric attribute Number_incorrect numeric attribute Number_unclassified
21、 numeric attributePercent_correct numeric attributePercent_incorrect numeric attribute Percent_unclassified numeric attributeKappa_statistic numeric attribute Mean_absolute_error numeric attribute Root_mean_squared_error numericattribute Relative_absolute_error numeric attribute Root_relative_square
22、d_error numericattribute SF_prior_entropy numeric attribute SF_scheme_entropy numeric attribute SF_entropy_gain numeric attribute SF_mean_prior_entropy numericattribute SF_mean_scheme_entropy numeric attributeSF_mean_entropy_gain numeric attributeKB_information numericattributeKB_mean_information nu
23、meric attributeKB_relative_information numeric attribute True_positive_rate numeric attribute Num_true_positives numeric attribute False_positive_rate numeric attributeNum_false_positives numeric attribute True_negative_rate numeric attribute Num_true_negatives numeric attribute False_negative_rate
24、numeric attribute Num_false_negatives numeric attribute IR_precision numericattribute IR_recall numericattribute F_measure numericattribute Area_under_ROC numeric attributeTime_training numeric attribute Time_testing numericattribute Summary 'Number of leaves: 3nSize of the tree: 5n','Nu
25、mber of leaves: 5nSize of the tree: 9n','Number of leaves: 4nSize of the tree: 7n'attributemeasureTreeSize numeric attributemeasureNumLeaves numeric attribute measureNumRules numericdatairis, 1 ,weka.classifiers .rules .ZeroR, ,48055541465867954,20051221 .033,99,51, 17,34,0,33.333333,66.
26、666667,0,0,0.444444,0.471405,100,100,80.833088,80.833088, 0,1.584963,1.584963,0,0,0,0,1,17,1,34,0,0,0,0,0.333333,1,0.5,0.5,0,0,?,?,?,?2.2.3 改變試驗參數(shù)223.1 改變分類器可通過點擊Result generator(結(jié)果生成器)面板,改變試驗的參數(shù)。* wckdgiJ.GcrkcirkQbjcctEtll or亠墨JJUm itPnftinri 'QrviirHliiiri wdinsllRiiio n ?ij(inlini1I 暢&Mk
27、kJilxir*甜頃rw 対MEfsMtoPuHiiJ1 dralunuirifanif liiwrwMrtpi* FatMT蒔B;y創(chuàng)Im Owutv |obmiliSi4lEwilUjr -Wtl-s-jiflibwiPf*i ucnl1 |関(|0|“缶H%,OKC-MiGvi使用RandomSplitResultProducer(隨機劃分訓(xùn)練集和測試集的結(jié)果生成器)將重復(fù)的運行訓(xùn)練/測試。在trainPercent框中給出了用于訓(xùn)練的樣本數(shù)目(用百分比表示)。(在Setup標簽頁的Runs面板中指定了運行次數(shù))在About面板中點擊More,會顯示一個小型的幫助文件。inftimrir
28、tTionwet:a.e>pB *lm mni FmfornSpirtResj tPn: dtucBrSJOPSEPerflnrms nndc«nIrmin andle-tire ng mevuaflorOFTHOMShjIlF Is Sstltw dn-sflnnOor fir waMnjg "jwuuGplA Itier-OTOUttfl cfjliun dk 1 ul itliKi,ITiihi oujiJgrn vp jiEvdluatborigr individual tTQirvte笨 £百1 幗 Is £刪旳 If the destn
29、aton » a d帕cUNy. 勢 帕的 臨 $ Md InrirMdual gzip fl B-; <tie deHnUnn is a flip, than 購cd DuipLlif; svad 事弓 ai rAr m =目口1伯酣間也帥第憐 De flffl rarwsmHe swasei 5hfl as hd aeKcum prtubribfl btcilJU®rawdulpui Ea快 陽如歎刊I陽de典州悄加if $qln(MJlpuil -s § ern Iolhe deitlnjljMi speciT加 aUlpulFMedliEvLalzi
30、 - The evaluator 也酣ply 沽佈 m 逼呂t data Bifc$ msy he & classmer ib jre)=i6ion uhBrne abc.UjinPertcw: £<rtthc pD<uen»D3 orfdoll:itirHrsinng點擊splitEvaluator 條目將顯示SplitEvaluator 的屬性。點擊classifier條目(ZeroR)將顯示算法的屬性。這個算法沒有可修改的屬性(除了 debug mode on/off),但大多數(shù)其他算法確實有可被用戶修改的 屬性。Capabilities按鈕打開一
31、個小型的對話框,列出了這個分類器可處理的所有屬性和目標屬性的類 型。點擊Choose按鈕可選擇一個不同的算法。以下窗口顯示了J48決策樹算法可用的參數(shù)。如果需要的話,在這里修改參數(shù),然后點擊0K關(guān)閉窗口。新算法的名稱顯示在 Result generator面板。223.2添加額外的算法可在Gen erator properties 面板中添加額外的算法。開始前,先將 Gen erator屬性面板中的下拉 列表條目從 Disabled 變成Enabled 。點擊Select property,展開splitEvaluator,這樣classifier條目就在屬性列表上可見了,選中后點 擊 Sel
32、ect。在Generator properties面板中顯示了算法的名字。21要添加另一個算法,點擊Choose按鈕以顯示GenericObjectEditor 窗口。I 田ekd L>f>9iiiieni. LjivirannKrrt詛叩Hun Anab'scbMpBIwuriilMuitr.UPBII-ChNSt!iihridfinHFIe»dlLhrtfflM 0 Ea|.t- n-tn1r drff呵切* nwrr-vwBfMAe-sukTroduccr p前、;0:;pi1Tw!?JtE© 州卄:齊py “cm 二出常參電廚垢旳州二為 i
33、9;>7fcaj;i:< «trhan: H to: J_EnAiMdIrslf uslcim vffiRrniDr ft-yC5 艱 fciT ElIiVkKIif'K 口詢M *二 un:l nnaQ3rYili*亍>WhI. qa'Clai ariMihanipmF: FlddRlF 州AEfTiee彷U3噴霜 v 口蝕皿選擇J48 (在子樹trees中)切換到一個決策樹算法。22新的算法被添加進 Generator properties面板,點擊Add添加這個新算法?,F(xiàn)在運行試驗,兩個算法的結(jié)果都將被生成。要添加更多的算法,重復(fù)上述步驟。要移
34、除一個算法,點擊選中它,然后點擊Delete。223.3添加額外的數(shù)據(jù)集一次試驗可以讓算法運行于任意數(shù)量的數(shù)據(jù)集上。通過在Datasets面板點擊Add new.添加額外的數(shù)據(jù)集。要從試驗中刪除數(shù)據(jù)集,可在選種那些待刪除的數(shù)據(jù)集后點擊Delete Selected o223.4 Raw Output (原始輸出)試驗執(zhí)行過程中生成的原始輸出可保存進一個文件,之后進行檢查。點擊Setup標簽頁的Resultgenerator 面板打開 ResultProducer 窗口。點擊rawOutput ,從下拉列表中選擇 True 。輸出默認被發(fā)送進 zip文件splitEvaluatorOut.zip
35、 。通每次運行的結(jié)果都將被記入文件,過點擊該窗口中的outputFile 面板改變輸出文件?,F(xiàn)在運行試驗時,如下所示。<iE55l5i6 晉jsm«更丄弟/我guar衣汀程'&嚴XMHM玄4酹吋:<4懲用劑115冊«_<_«,+< JtMfirtiJI77321 EiJH甲4<刖弓呂Jik EaKiPJB1urccn_®«5B|Tl £!»?!"569R齊 _ir.甲訂卍E Ri Wti1 DU西 KiFjh師引一1555414S»7ir4i5EDFL祀 h沖
36、附iiMH J?em J*l_-C_03S_-HNeninr_ ?l/?aii 湖舸? 3| _fwJp> 花可鼻_楓16-母馬再<1S88刃 “日剁 C i. i<! IM H曲旳r ZIj'JZZTEOSMMU!M目申強開bP 應(yīng)口I(!a中<a_£_gVM JEW 呦訊_呂7 草H單啊1JI1営 lB;.ZaKiP_Mi£n_WHiH41 桂!4fi 円!HiSEE)j 腌-C C15.A1“ VMM諦趟賢拿社B狎i .rUtl ZtKiPJ.lr*iSn_«K5541 «W6?9Ml彌3蟲1和 J_-C:_C_-M
37、jM«!iiDr_-JlTnj t!dr»H*E4<:虬j>>riF! Z-n J-unRH-W5P5<I *45®7!l5«:i町eHM翻.P.O聽即噹盯?311 &劇乂91?少血遊16阪It釘Fl外2WE;煽.幀ZI/ISJSHE' 16E441?2I/12J2OE 165 5Z57JlfiJ.lJfiM IfcEB4JE? im Q«ujiiH£i|iliua*jHkj?Ii'12iI3H:-1655%Z5?3 iM CintawlBrfSpriMjrL!53%俑3 IWS Oc5
38、iEfSpl£ifllUfl1$r日川和遊璋坯4 m也smR i« Om-hcfSpInEvvftjsIcc內(nèi)E腹瞋越珈E ?帯P噸FTcrZ1)即 3OB1E .弗1X-1145 iad OdifeCipbfvduniQrisE 朗 OiirrSp tifc rtfcatarEIM2丿解悔詳E T 03嘆p咗展驗r21/12|120£ ie 5525?Tih <iaicfEphiE¥C*j±i:rE測MH5<%? m OinittfSpIHEMiAudkr55%滬H ivt狀:卩圧超周訂ZlNhSM! Tk.冒強4140 1M C
39、«l!hl9f5pifCv4iU9l:r占苗一55%2S?0 T! CdJ'ifCp rCi<fciji:r訓(xùn)Eli撫際1*$ irii CtiidilflrSpwCuclLj?1 |«S Gm如軸環(huán)*皿1 im Cuial£fiplrMikj9i:r 卄 e:.住醉為占p *E W Q* F1 luiit 統(tǒng)洶dfSpE" >« uMXp 比曲歸kr24#第一次運行的結(jié)果是:-C 0.25 -M 2(version -217733168393644444)ClassifierSplitEvaluator:weka.clas
40、sifiers.trees.J48Classif ier model:J48 pruned treepetalwidth <= 0.6: Iris-setosa (33.0)petalwidth > 0.6I petalwidth <= 1.5: Iris-versicolor (31.0/1.0) I petalwidth > 1.5:Iris-virginica (35.0/3.0)Number of Leaves : 3Size of the tree : 5Correctly Classified Instances4792.1569 ° hIncor
41、rectly Classified Instances47.8431 ° hKappa statistic0.8824Mean absolute error0.0723Root mean squared error0.2191Relative absolute error16.2754 ° hRoot relative squared error46.4676 ° hTotal Number of Instances51measureTreeSize : 5.0 measureNumLeaves : 3.0 measureNumRules : 3.02.2.4其他
42、結(jié)果的產(chǎn)生 Cross-Validatio n Result Producer (交叉驗證的結(jié)果生成器)為從隨機劃分訓(xùn)練集和測試集的試驗切換到交叉驗證試驗,點擊Result generator條目。在窗口頂部,點擊下拉列表,選擇Cross-Validatio nResultProducer。窗口現(xiàn)在包含交叉驗證專有的參數(shù),例如它的折數(shù)。試驗將執(zhí)行10折交叉驗證,而不是像上面例子中那樣分開訓(xùn)練集和測試集。25Result generator面板現(xiàn)在告訴我們將執(zhí)行交叉驗證。點擊More生成關(guān)于Cross-ValidationResultProducer的簡短描述。i Inibrnid
43、tlorii-! »1NWEweKa.eopflCna&Waldiaf onPer5i,IPn)ducEr盯NOP冒ISP«iffirim* n cinx* YAliriitinn n«i uing a KLppli»d mrjtlii vinrOPTIONrwmfnMs - humh椚 卅伽時 材 Mt m mss伽nCHjtDuf lg “ S fl IM dtFlmstWH 曲I $ swigQutaul tftiv r聘OUfcqitvUon is 勺Me口ed-inefi outpuinom 口金沖 itEiraluabcirfar I
44、rtiMdualito tiw is t3.*ed l- Onff destnafbQn 區(qū) a cirectory, Itien Bdc h output iswiM m an inW 呱鹽 fl “*師 it a niajivin welloulpul is =avel as on enlrv ln. a dp HierwOnliJUl:- Sivti ruwuuimjL(ij«if'ul h»is bULu|ini|'i 忙劉l 汨佃n«|ipii9in = rhI tnrip =tin>fin«i pprrfflri fiy
45、 niflpkilF曲印 lilEFu 尊 j - The evlualDi tolu Hib c 聞詼 vMafeon R> 質(zhì)Th Ifhili A 打勒,ri|*ri!i護$出底rfi寒電和Ran domSplitResultProducer樣,在交叉驗證期間可以運行多個算法,只需將它們添加進Gen erator properties面板即可。在這個例子中,運行的次數(shù)在 Setup標簽頁被設(shè)置成1,因此對于每個算法和數(shù)據(jù)集,僅執(zhí)行一 次交叉驗證。當分析這個例子時,將有下圖所示的結(jié)果。注意這里處理了30個(1次運行x 10折交叉驗證x 3個算法)結(jié)果行。fcnMfcwgiWflThr
46、ttap I4mi IlMhntaIPtrftjmi fedPend T Itm-Ff >?ur | WlwlMlcLIC«uwiCflQpjmiflrirlrtfMm_Eorrp>*SoiviwiiHc.itPirShM tkL>deiHII««3IMPtcwpHS<r4kmcvIfeJ buKii1£3*£±:«tkL.<«LiUsL- ?u_E±K-exuetedTTcdttxPek>:H.i CQCJibT-DfeTA WFH !SHmuL*bbu: 1C-Jh
47、iliUtk-t!f SI汕3#lIv4.刪 打商JL/LX/Q5 I fl 4TD1EAM?封 EUltJ-Zt: I l|Z| BlL£J (3)liripm) >1 N I州啊$>/ zpi I4丄潭j卅MM!iMi;【3* ruJ«B.LrEdR ,B 4ICUS414IXMTH4LX|i Eul-hA."-t a' -JIM*U'KIL-1.14t-L-Uhj|> 生Efi.J將 -C d.£A H 2£l!咿T忖:鈕齊mkk444fWiul ImI2.242 Averagi ng Result Pr
48、oducer(平均化的結(jié)果生成器)Cross-ValidationResultProducer的一個替換物是 AveragingResultProducer。這個結(jié)果生成器取了一組試驗(通常是cross-validation試驗)運行的平均值。點擊Result generator 面板,然后從Gen ericObjectEditor 選擇 Averagi ngResultProducer,可以選定這個結(jié)果生成器。F圖顯示相關(guān)的幫助文件。|inft?nnrtlionM44Fwelca.紳 e *lm smArtraflinoResuFtP-': Huce rSJOP3ET-ates-fl
49、ie result j ReGultProclucEf &nd submrls 1De im rc & doh/sV血耙?guī)洿柏恗liHF泊巾血職悒卩酊-刖旳n miinld rrasa YalKWilDTOPT1IOM3cikulitald - Rstoni stanJarj Oey伺和曲 ir«ac:Munea:p?cMP?SJLlt=.R&rft«raie - 91 the 的卩攵鶴皿 dumbei Mres<j fe in 曲tr、吸 DC> R-fl Far ctoiripje rf a Oosssi dancmResuliPrw
50、u<er 咋 buiriy <J> ud KdliHiir riiUliibHil Zfjldb- *td I Li I DTi, Kiifii Ititf uMjif-3=d MiEtl匿I nf ro-iplh; ppf nisi 10keyFreldmE Sei Vie field nam: L 淤別曹 be unique Tw a runresi>:Pit)aucer- ge11iK reulProduc err&suHa are bo te曲 bmgscl.點擊resultProducer 面板,會出現(xiàn)以下窗口。27i wekajiJ.Geneficn
51、bJeictEcltnrJTL2S1a_a k|hwvi mp* .匚 rmg H 疋血h mn 代陽u ril (JttkIu catAtautA ?ro9l *i*daflpn run miirj & 艸P®l ?o 護 U9 I Mart28i wekajiJ.GeneficnbJeictEcltnrJTL2S10H9A.和其他的結(jié)果生成器一樣,可給定多個的算法。當使用Averagi ngResultProducer 時,分類器屬性Select a property位于Ge nerator屬性設(shè)置的較深層次中。2d|Q| bailable prsperiies0 cal
52、ciulai5idDev&0 keyFleidNaii&F 口 resultPrsducerD numFoldtD oudpulFilePl lawOutpuif 字pitt訥lu擁" aanbut«iDD claseForiRSisCiCB* 口 I:用鋁山叭 pnedT argEbCcriunnn在這個試驗中,ZeroR,OneR,和J48算法將運行10次,進行10折交叉驗證。 每組10折交叉驗 證的結(jié)果被取平均值,來產(chǎn)生一個結(jié)果行(而不是之前使用Cross-Validatio nResultProducer 的例子中 的每一折產(chǎn)生一個結(jié)果行),總共有3
53、0個結(jié)果行。如果保存了原始輸出,所有的 300個結(jié)果被發(fā)送 到文檔中。#3 遠程試驗遠程試驗使得你能夠?qū)⒂嬎阖撦d分布于多臺計算機上。3.1 準備為運行一個遠程試驗,你需要:? 一個數(shù)據(jù)庫服務(wù)器?若干可運行遠程試驗引擎(remote engines )的計算機? 編輯Weka發(fā)行包中的遠程引擎策略 (remote engine policy )文件允許從你的主目錄裝載類文件?在某臺機器上運行Experimenter (任何哪臺都可以)在下面的例子中,我們假設(shè)名為joh ndoe的用戶使用了這個設(shè)置:?能夠訪問一組運行某一版本 Unix的機器(對于Windows,需要改變路徑名)? 主目錄位于 /
54、home/johndoe?這個遠程試驗使用 HSQLDB 4數(shù)據(jù)庫來描述,這需要編輯DatabaseUps 文件。? HSQLDB需要設(shè)置參數(shù),把 DatabaseUps.hsql 的內(nèi)容放到 DatabaseUps 即可。? HSQLDB 所需的 jar 文件位于:/home/johndoe/hsqldb. jar3.2 數(shù)據(jù)庫服務(wù)器設(shè)置要設(shè)置數(shù)據(jù)庫服務(wù)器,先選定或創(chuàng)建一個目錄來運行數(shù)據(jù)庫服務(wù)器,然后使用以下命令啟動服務(wù)器:java -classpath /home/johndoe/hsqldb.jar org.hsqldb.Server -d
55、atabase.。-dbname xdb3.3遠程引擎安裝? 首先,為腳本和策略文件設(shè)置一個目錄:/home/j ohn doe/remote_e ngi ne? 接著,復(fù)制remoteEngine.jar (Weka發(fā)行包中的;或從源碼編譯,使用命令ant remotejar) 到/home/joh ndoe/remote_e ngine 目錄。?創(chuàng)建一個腳本,名為 /home/johndoe/remote engine/startRemoteEngine,內(nèi)容如下(如果你使用某種類型的Unix話,不要忘記使用chmod讓它可執(zhí)行):/path/to/your/jdk/bin/java -X
56、mx256m-classpath /home/johndoe/hsqldb.jar:remoteEngine.jar -Djava.security.policy=remote_engine.policyweka.experiment.RemoteEngine &?現(xiàn)在我們將啟動遠程引擎(注意必須讓Experimenter和遠程引擎使用相同版本的Java):編輯/home/johndoe/remote_engine中的遠程 engine.policy 文件,添加以下行:permissionjava.io.FilePermission"/home/johndoe/-","read&qu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024石材行業(yè)深度合作開發(fā)合同書3篇
- VI設(shè)計合同書模板標準
- 2025年度個人住宅陽臺防水改造合同范本8篇
- 個人間緊急貸款協(xié)議樣本2024年版版
- 2025年度新能源汽車充電設(shè)施運營管理承包合同協(xié)議書模板1500字4篇
- 長沙文創(chuàng)藝術(shù)職業(yè)學(xué)院《藝術(shù)學(xué)理論》2023-2024學(xué)年第一學(xué)期期末試卷
- 家庭火災(zāi)自救技巧的普及與推廣
- 小空間大功能單身公寓的空間利用畢業(yè)設(shè)計
- 2025年度精密模具租賃服務(wù)合同模板4篇
- 2025年食品加工委托生產(chǎn)與食品安全合同3篇
- 氣動調(diào)節(jié)閥調(diào)校
- 中考模擬考試化學(xué)試卷與答案解析(共三套)
- 新人教版五年級小學(xué)數(shù)學(xué)全冊奧數(shù)(含答案)
- 風電場升壓站培訓(xùn)課件
- 收納盒注塑模具設(shè)計(論文-任務(wù)書-開題報告-圖紙)
- 博弈論全套課件
- CONSORT2010流程圖(FlowDiagram)【模板】文檔
- 腦電信號處理與特征提取
- 高中數(shù)學(xué)知識點全總結(jié)(電子版)
- GB/T 10322.7-2004鐵礦石粒度分布的篩分測定
- 2023新譯林版新教材高中英語必修一重點詞組歸納總結(jié)
評論
0/150
提交評論