數(shù)據(jù)挖掘WEKA實驗報告_第1頁
數(shù)據(jù)挖掘WEKA實驗報告_第2頁
數(shù)據(jù)挖掘WEKA實驗報告_第3頁
數(shù)據(jù)挖掘WEKA實驗報告_第4頁
數(shù)據(jù)挖掘WEKA實驗報告_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)發(fā)掘-WAKA實驗報告一、WEKA軟件簡介在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù)平常知識發(fā)揮了一小部分的作用,其包含了大批的隱性的信息其實不為所用,但是卻可以為一些公司的決講和對客戶的服務(wù)供給不小的價值。所以,我們1/21可以經(jīng)過一些數(shù)據(jù)采集、數(shù)據(jù)發(fā)掘來獲取潛伏的有價值的信息。數(shù)據(jù)發(fā)掘就是經(jīng)過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。在數(shù)據(jù)發(fā)掘被騙算機以電子化的形式儲存數(shù)據(jù),并且能自動的查詢數(shù)據(jù),經(jīng)過關(guān)系規(guī)則、分類于回歸、聚類分析等算法對數(shù)據(jù)進行一系列的辦理,找尋和描畫數(shù)據(jù)里的結(jié)構(gòu)模式,從而發(fā)掘出潛伏的實用的信息。數(shù)據(jù)發(fā)掘就是經(jīng)過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。WEKA

2、的出現(xiàn)讓我們把數(shù)據(jù)發(fā)掘無需編程即可輕松搞定。WEKA是由新西蘭懷卡托大學開發(fā)的開源項目,全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是由JAVA編寫的,它的源代碼可經(jīng)過獲取,并且限制在GBU通用公眾證書的條件下公布,可以運轉(zhuǎn)在所有的操作系統(tǒng)中。是一款免費的,非商業(yè)化的機器學習以與數(shù)據(jù)發(fā)掘軟件WEKA作為一個公開的數(shù)據(jù)發(fā)掘工作平臺,匯合了大批能擔當數(shù)據(jù)發(fā)掘任務(wù)的機器學習算法,包含對數(shù)據(jù)進行預(yù)辦理,分類,回歸、聚類、關(guān)系規(guī)則以與在新的交互式界面上的可視化。假如想自己實現(xiàn)數(shù)據(jù)發(fā)掘算法的話,可以看一看WEKA的接口文檔。在WEKA中

3、集成自己的算法甚至借鑒它的方法自己實現(xiàn)可視化工具其實不是件很困難的事情。安裝WEKA也十分簡單,首相要下載安裝JDK環(huán)境,JDK在這個頁面可以找到它的下載java.sun./javase/downloads/index.jsp。點擊JDK6以后的Download按鈕,轉(zhuǎn)到下載頁面。選擇Accepct,過一會兒頁面會刷新。我們需要的是這個WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe53.16MB,點擊它下載。也可以右鍵點擊它上邊的,在Flashget等工具中下載。安裝它和一般軟件沒什么差別。但是中間會中斷一下提示你

4、安裝JRE,一并裝上即可。以后就是安裝WEKA軟件,這個在網(wǎng)上很多地方都有。相同簡單地按默認方法安裝后即可使用。點擊啟動運轉(zhuǎn)WEKA軟件后,我門發(fā)現(xiàn)WEKA儲存數(shù)據(jù)的格式是ARFF(Attribute-RelationFileFormat)文件,這是一種ASCII文本文件。我們?nèi)鐖D1經(jīng)過軟件的Tools菜單進入ArffViewer可以在安裝目錄下查察軟件自帶的幾個ARFF文件。2/21圖1圖2如圖2,打開文件后選擇data自目錄下的隨便一表,我們都可以看到如圖3所示的二維表格儲存在以下的ARFF文件中。這也就是WEKA自帶的“contact-lenses.arff”文件。這里我們要介紹一下WE

5、KA中的術(shù)語。表格里的一個橫行稱作一個實例(Instance),相當于統(tǒng)計學中的一個樣本,也許數(shù)據(jù)庫中的一條記錄。豎行稱作一個屬性(Attrbute),相當于統(tǒng)計學中的一個變量,也許數(shù)據(jù)庫中的一個字段。這樣一個表格,也許叫數(shù)據(jù)集,在WEKA看來,表現(xiàn)3/21了屬性之間的一種關(guān)系(Relation)。圖1中一共有22個實例,5個屬性,關(guān)系名稱為“contact-lenses”。除了ARFF格式,WEKA還支持別的一種常有格式,CSV格式。CSV相同是一種二進制保存的文本格式,我們可以在WEKA中直接打開CSV格式的文件,并保存為ARFF格式。這樣就給我供給了把常有的數(shù)據(jù)格式變換為ARFF格式的方

6、法,如對于Excel文件,我們可以經(jīng)過把每表保存為CSV格式,從而保存為ARFF格式,與此同時,我們可以利用filter對數(shù)據(jù)進行相應(yīng)的預(yù)辦理。而對于Matlab格式的數(shù)據(jù),我們可以經(jīng)過命令csvwrite把數(shù)據(jù)轉(zhuǎn)變?yōu)镃SV格式的文件,從而轉(zhuǎn)變?yōu)锳RFF格式文件。對于海量數(shù)據(jù),一般保存在數(shù)據(jù)庫中,WEKA同時支持JDBC接見數(shù)據(jù)庫。圖3打開WEKA,第一出現(xiàn)一個命令行窗口。原認為要在這個命令行下寫java語句呢,但是稍等一秒,WEKAGUIChooser的出現(xiàn)了。這是一個很簡單的窗體,供給四個按鈕:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。Si

7、mpleCLI應(yīng)該是一個使用命令行的界面,有點像SAS的編寫器;Explorer是則是視窗4/21模式下的數(shù)據(jù)發(fā)掘工具;Experimenter和KnowledgeFlow的使用有待進一步摸索.圖41)Explorer使用WEKA探究數(shù)據(jù)的環(huán)境。在這個環(huán)境中,WEKA供給了數(shù)據(jù)的預(yù)辦理,數(shù)據(jù)格式的轉(zhuǎn)變(從CSV格式到ARFF格式的轉(zhuǎn)變),各種數(shù)據(jù)發(fā)掘算法(包含分類與回歸算法,聚類算法,關(guān)系規(guī)則等),并供給了卻果的可視化工具。對于一個數(shù)據(jù)集,經(jīng)過簡單的數(shù)據(jù)的預(yù)辦理,并對數(shù)據(jù)發(fā)掘算法進行選擇(在WEKA3.版5本以后,加入了算法的過濾功能,可以過濾掉那些不合適當前數(shù)據(jù)集種類的算法),接著經(jīng)過窗口界

8、面對算法的參數(shù)進行配置。可視化工具分為對數(shù)據(jù)集的可視化和對部分結(jié)果的可視化,并且我們可以經(jīng)過屬性選擇工具(SelectAttribute),經(jīng)過搜找數(shù)據(jù)集中所有屬性的可能組合,找出展望成效最好的那一組屬性。Explorer是一般用戶最常用的一個界面。用戶可以從ARFF文件(Weka使用的一種文本文件格式)、網(wǎng)頁或數(shù)據(jù)庫中讀取數(shù)據(jù)集。打開數(shù)據(jù)文件后,可以選擇算法對數(shù)據(jù)進行預(yù)辦理。這時窗體上給出了這個數(shù)據(jù)集的一些基本特色,如含有多少屬性,各屬性的一些簡單統(tǒng)計量,右下方還給出一些可視化成效圖。這些都是比較直觀的分析,假如想發(fā)現(xiàn)隱蔽在數(shù)據(jù)集背后的關(guān)系,還需要選擇Weka供給的各種分類、聚類或關(guān)系規(guī)則的

9、算法。所有設(shè)置完成后,點擊Start按鈕,就可以放心地等候weka帶來最后的結(jié)果。哪些結(jié)果是真切實用的還要靠經(jīng)驗來判斷。2)Experimenter5/21運轉(zhuǎn)算法試驗、管理算法方案之間的統(tǒng)計檢驗的環(huán)境。Experiment環(huán)境可以讓用戶創(chuàng)辦,運轉(zhuǎn),更正和分析算法試驗,這也許比單獨的分析各個算法更加方便。好比,用戶可創(chuàng)辦一次試驗,在一系列數(shù)據(jù)集上運轉(zhuǎn)多個算法(schemes),而后分析結(jié)果以判斷能否某個算法比其余算法(在統(tǒng)計意義下)更好。Explorermenter主要包含簡單模式,復(fù)雜模式和遠程模式。復(fù)雜模式是對簡單模式的基本功能的擴大,而遠程模式同意我們經(jīng)過分布式的方法進行實驗。就功能模塊

10、而言,分為設(shè)置模塊,運轉(zhuǎn)模塊和分析模塊。在設(shè)置模塊中我們可以自定義實驗,加入多個算法和多方的源數(shù)據(jù)(支持ARFF文件,CSV文件和數(shù)據(jù)庫),在運轉(zhuǎn)模塊中我們可以運轉(zhuǎn)我們的實驗,而在分析模塊中,我們可以分析各種算法的的正確性,并供給了各種統(tǒng)計方法對結(jié)果進行檢驗比較。值得一提的是,我們可以把實驗的各種參數(shù),包含算法,數(shù)據(jù)集等,保存以方便下一次相同實驗的進行;也可以把各種算法保存,方便應(yīng)用在不一樣的數(shù)據(jù)集上;假如數(shù)據(jù)集本源于數(shù)據(jù)庫的話,實驗在過程中可以中斷并連續(xù)(原由可以是被中斷也許是擴展了實驗),這樣就不用重新運轉(zhuǎn)那些已實驗過的算法/數(shù)據(jù)集慶祝,而僅計算還沒有被實驗的那些。2)KnowledgeF

11、lowExplorer的一個不足在于,當用戶打開一個數(shù)據(jù)集時,所有數(shù)據(jù)將所有被讀入到主存中間,跟著任務(wù)規(guī)模的增大,一般配置的計算機很難滿足要求。KnowledgeFlow供給了一個用于辦理大型數(shù)據(jù)集的遞加算法,特地辦理這一問題。這個環(huán)境實質(zhì)上和Explorer所支持的功能是相同的,但是它有一個可以拖放的界面。它有一個優(yōu)勢,就是支持增量學習(incrementallearning)。KnowledgeFlow為WEKA供給了一個數(shù)據(jù)流形式的界面。用戶可以從一個工具欄中選擇組件,把它們擱置在面板上并按必定的順序連接起來,這樣構(gòu)成一個知識流(knowledgeflow)來辦理和分析數(shù)據(jù)。當前,所有的

12、WEKA分類器(classifier)、挑選器(filter)、聚類器(clusterer)、載入器(loader)、保存器(saver),以與一些其余的功能可以在KnowledgeFlow中使用。KnowledgeFlow可以使用增量模式(incrementally)也許批量模式inbatches)來辦理數(shù)據(jù)(Explorer只好使用批量模式)。自然對數(shù)據(jù)進行增量學習要求分類器可以依據(jù)各實例逐一逐一的更新此刻WEKA中有五個分類器6/21可以增量地辦理數(shù)據(jù):NaiveBayesUpdateable,IB1,IBk,LWR(局部加權(quán)回歸)。還有一個meta分類器RacedIncremental

13、LogitBoost可以使用隨便基于回歸的學習器來增量地學習失散的分類任務(wù)。4)SimpleCLI供給了一個簡單的命令行界面,能經(jīng)過鍵入文本命令的方式來實現(xiàn)其余三個用戶界面所供給的所有功能,從而可以在沒有自帶命令行的操作系統(tǒng)中直接執(zhí)行WEKA命令。使用命令行有兩個好處:一個是可以把模型保存下來,這樣有新的待展望數(shù)據(jù)出現(xiàn)時,不用每次重新建模,直接應(yīng)用保存好的模型即可。另一個是對展望結(jié)果給出了置信度,我們可以有選擇的采用展望結(jié)果,好比,只考慮那些置信度在85%以上的結(jié)果。二、實驗事例介紹本文用WEKA軟件作為工具,結(jié)合券商的基金某一個時段交易業(yè)務(wù)數(shù)據(jù)進行分析。實驗的數(shù)據(jù)是一個交易周的基金交易業(yè)務(wù)數(shù)

14、據(jù)。該表含有date(日期)、fund_code(基金代碼)、fund_name(基金名稱)、company_code(基金公司代碼)、company(基金公司名稱)、business_code(業(yè)務(wù)代碼)、business_name(業(yè)務(wù)名稱)、shares(基金份額)、balance(資本金額)、fares(手續(xù)費)、fares_type(手續(xù)費種類)、internet_shares(網(wǎng)上交易基金份額)、internet_balance(網(wǎng)上交易資本金額)、remark(備注)等字段,經(jīng)過實驗,希望能找出客戶的基金交易分布狀況。該數(shù)據(jù)的數(shù)據(jù)屬性以下:date(numeric),交易發(fā)誕辰期

15、;fund_code(numeric),基金代碼;fund_name(character),基金名稱;company_code(numeric),用于報送的基金公司代碼;company(character),所屬的基金公司;business_code(numeric),交易業(yè)務(wù)代碼;business_name(character),交易業(yè)務(wù)名稱;shares(numeric),基金交易份額;7/21balance(numeric),資本交易金額;fares(numeric),交易手續(xù)費;fares_type(enum),手續(xù)費種類,取值圍“全額結(jié)算”/“凈額結(jié)算”;internet_share

16、s(numeric),網(wǎng)上交易基金份額;internet_balance(numeric),網(wǎng)上交易資本金額;remark(character),備注;三、數(shù)據(jù)分析我們給出一個CSV文件的例子(Fund-data.csv)。用UltraEdit打開它可以看到,這類格式也是一種逗號切割數(shù)據(jù)的文本文件,儲備了一個二維表格。Excel的XLS文件可以讓多個二維表格放到不一樣的工作表(Sheet)中,我們只好把每個工作表存成不一樣的CSV文件。打開一個XLS文件并切換到需要變換的工作表,另存為CSV種類,點“確立”、“是”忽視提示即可完成操作。需要注意的是,Matllab給出的CSV文件常常沒有屬性名

17、(Excel給出的也有可能沒有)。而WEKA一定從CSV文件的第一行讀取屬性名,不然就會把第一行的各屬性值讀成變量名。所以我們對于Matllab給出的CSV文件需要用UltraEdit打開,手工增加一行屬性名。注意屬性名的個數(shù)要跟數(shù)據(jù)屬性的個數(shù)一致,仍用逗號分開。1、.csv-.arff將CSV變換為ARFF最靈敏的方法是使用WEKA所帶的命令行工具。運轉(zhuǎn)WEKA的主程序,出現(xiàn)GUI后可以點擊下方按鈕進入相應(yīng)的模塊。我們點擊進入“SimpleCLI”模塊供給的命令行功能。因為weka暫不支持中文輸入,所以優(yōu)選了在D盤下進行變換,在新窗口的最下方(上方是不能寫字的)輸入框?qū)懮蟡avaD:/Fun

18、d-data.csv即可完成變換,生成文件“”。見以以下圖5:8/21圖5進入“Exploer”模塊,從上方的按鈕中打開CSV文件而后另存為ARFF文件亦可。我們應(yīng)該注意到,“Exploer”還供給了很多功能,實質(zhì)上可以說這是WEKA使用最多的模塊。此刻我們先來熟習它的界面,而后利用它對數(shù)據(jù)進行預(yù)辦理。界面顯現(xiàn)見以以下圖6:圖中顯示的是使用“Exploer”打開“”的狀況。9/21圖62、預(yù)辦理以往對于WEKA來說其實不支持中文,所以我們將一些涉與中文的字段刪除。勾選屬性“fund_name”、“company”、“business_name”、“remark”,并點擊“Remove”。將新的

19、數(shù)據(jù)集保存一次。此中“fares_type”只有2個取值:全額結(jié)算和凈額結(jié)算。這時我們在UltraEdit中直接更正ARFF文件,把attributefares_type全額結(jié)算,凈額結(jié)算改為attributefares_typeFull,Netattributedatenumeric改為attributdate2009/8/24,2009/8/25,2009/8/26,2009/8/27,2009/8/28就可以了。10/21在“Explorer”中重新打開“fund-data.arff”,選中“date”和“fund_type”,看到屬性已經(jīng)變?yōu)椤癗ominal”了。WEKA支持的有四種,

20、分別是:numeric-數(shù)值型,-分類(nominal)型,string-字符串型,date-日期和時間型而本表只有nemeric和nominal兩各種類,數(shù)值屬性(nemeric)數(shù)值型屬性可以是整數(shù)也許實數(shù),但WEKA把它們都看作實數(shù)對待。分類屬性(nominal)分類屬性由列出一系列可能的類別名稱并放在花括號中:,.。數(shù)據(jù)集中該屬性的值只好是此中一種類別。假如類別名稱帶有空格,仍需要將之放入引號中?!皊hares”,“banlance”,“fares”,“internet_shares”和“internet_banlance”的失散化我們需要借助WEKA中名為“Discretize”的F

21、ilter來完成。在地域2中點“Choose”,出現(xiàn)一棵“Filter樹”,逐級找到“”,點擊。若沒法封鎖這個樹,在樹以外的地方點擊“Explorer”面板即可。此刻“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點擊這個文本框會彈出新窗口以更正失散化的參數(shù)。我們不打算對所有的屬性失散化,不過針對對第4,5,6,8,9個,故把attributeIndices右側(cè)改成“4,5,6,8,9”。我們把這兩個屬性都分成10段,于是把“bins”改成“10”。其余不變。點“OK”回到“Explorer”,可以看到“shares”,“banlanc

22、e”,“fares”,“internet_shares”和“internet_banlance”已經(jīng)被失散化成分種類的屬性。同時我們可以用UltraEdit打開保存后的ARFF文件,把所有的近似“(-inf-1464805.884”替代成“0_1464805.884”。其余標識做近似地手動替代。經(jīng)刪減后,保存date、shares、balance、fares、fares_type、internet_shares、internet_balance7個屬性,如圖711/21圖7在進行數(shù)據(jù)采集和整理的過程中,我們發(fā)現(xiàn)假如屬性的種類為數(shù)值型的話,在做關(guān)系分析時將不可以獲取結(jié)果,因為關(guān)系分析沒法辦理數(shù)值

23、型數(shù)據(jù)。所以,我們進行了數(shù)據(jù)失散辦理后使得需要分析的數(shù)據(jù)變?yōu)榉址N類,這樣就可以關(guān)系分析得以順利進行。所以經(jīng)過預(yù)辦理數(shù)據(jù)可以提高原數(shù)據(jù)的質(zhì)量,清除數(shù)據(jù)噪聲和與發(fā)掘目標沒關(guān)的數(shù)據(jù),為進一步的發(fā)掘工作莫定靠譜的基礎(chǔ)。3、分類與回歸WEKA中的“Classify”選項卡中包含了分類(Classification)和回歸(Regression),在這兩個任務(wù)中,都有一個共同的目標屬性(輸出變量)。可以依據(jù)一個樣本(WEKA中稱作實例)的一組特色(輸入變量),對目標進行展望。為了實現(xiàn)這一目的,我們需要有一個訓(xùn)練數(shù)據(jù)集,這個數(shù)據(jù)集中每個實例的輸入和輸出都是已知的。觀察訓(xùn)練集中的實例,可以建立起預(yù)測的模型。有

24、了這個模型,我們就可以新的輸出未知的實例進行展望了。衡量模型的利害就在于展望的正確程度。在WEKA中,待展望的目標(輸出)被稱作Class屬性,這應(yīng)該是來自分類任務(wù)的“類”。一般的,若Class屬性是分種類時我們的任務(wù)才叫分類,Class屬性是數(shù)值型時我們的任務(wù)叫12/21回歸。而我們使用決策樹算法C4.5對Fund-data-normal建立起分類模型。所以我們制作分類不做回歸。我們用“Explorer”打開訓(xùn)練集“Fund-data-normal.arff”,。切換到“Classify”選項卡,點擊“Choose”按鈕后可以看到很多分類也許回歸的算法分門別類的列在一個樹型框里。樹型框下方有

25、一個“Filter.”按鈕,點擊后勾選“Binaryattributes”“Numericattributes”和“Binaryclass”。點“OK”后回到樹形圖,可以發(fā)現(xiàn)一些算法名稱變灰了,說明它們不可以用。選擇“trees”下的“J48”,這就是我們需要的C4.5算法。點擊“Choose”右側(cè)的文本框,彈出新窗口為該算法設(shè)置各種參數(shù)。我們把參數(shù)保持默認。選上“Cross-validation”并在“Folds”框填上“10”。點“Start”按鈕開始讓算法生成決策樹模型。很快,用文本表示的一棵決策樹以與對這個決策樹的偏差分析結(jié)果出此刻右側(cè)“Classifieroutput”中。見圖8。圖

26、84、聚類分析聚類的任務(wù)是把所有的實例分配到若干的簇,使得同一個簇的實例聚13/21集在一個簇中心的四周,它們之間距離的比較近;而不一樣簇實例之間的距離比較遠。此刻我們對前面的“Fund-data-normal”作聚類分析,使用最常有的K均值(K-means)算法。用“Explorer”打開剛剛獲取的“Fund-data-normal.arff”,并切換到“Cluster”。點“Choose”按鈕選擇“SimpleKMeans”,這是WEKA中實現(xiàn)K均值的算法。點擊旁邊的文本框,更正“numClusters”為6,說明我們希望把這734條實例聚成6類,即K=5。下邊的“seed”參數(shù)是要設(shè)置一

27、個隨機種子,依此產(chǎn)生一個隨機數(shù),用來獲取K均值算法中第一次給出的K個簇中心的位置。我們不如臨時讓它就為10。選中“ClusterMode”的“Usetrainingset”,點擊“Start”按鈕,觀察右側(cè)“Clustereroutput”給出的聚類結(jié)果。見以以下圖9:圖95、關(guān)系規(guī)則我們打算對前面的“Fund-data-normal”數(shù)據(jù)作關(guān)系規(guī)則的分析。用“Explorer”打開“Fund-data-normal.arff”后,切換到“Associate”14/21選項卡。默認關(guān)系規(guī)則分析是用Apriori算法,我們就用這個算法,但是點“Choose”右側(cè)的文本框更正默認的參數(shù)。從網(wǎng)上獲取

28、的Apriori相關(guān)知識:對于一條關(guān)系規(guī)則L-R,我們常用支持度(Support)和置信度(Confidence)來衡量它的重要性。規(guī)則的支持度是用來預(yù)計在一個購物籃中同時觀察到L和R的概率P(L,R),而規(guī)則的置信度是預(yù)計購物欄中出現(xiàn)了L時也出會現(xiàn)R的條件概率P(R|L)。關(guān)系規(guī)則的目標一般是產(chǎn)生支持度和置信度都較高的規(guī)則。有幾個近似的胸襟取代置信度來衡量規(guī)則的關(guān)系程度,它們分別是Lift(提高度?):P(L,R)/(P(L)P(R)Lift=1時表示L和R獨立。這個數(shù)越大,越說明L和R存在在一個購物籃中不是有時現(xiàn)象。Leverage(不知道怎么翻譯):P(L,R)-P(L)P(R)它和Li

29、ft的含義差不多。Leverage=0時L和R獨立,Leverage越大L和R的關(guān)系越親近。Conviction(更不知道譯了):P(L)P(!R)/P(L,!R)(!R表示R沒有發(fā)生)Conviction也是用來衡量L和R的獨立性。從它和lift的關(guān)系(對R取反,代入Lift公式后求倒數(shù))可以看出,我們也希望這個值越大越好。值得注意的是,用Lift和Leverage作標準時,L和R是對稱的,Confidence和Conviction則不然。此刻我們計劃發(fā)掘出支持度在10%到100%之間,并且lift值超出1.5且lift值排在前100位的那些關(guān)系規(guī)則。我們把“l(fā)owerBoundMinSup

30、port”和“upperBoundMinSupport”分別設(shè)為0.1和1,“metricType”設(shè)為lift,“minMetric”設(shè)為1.5,“numRules”設(shè)為10,其余參數(shù)不變。點擊“start”見圖1015/21圖10我們也可以利用命令行來完成發(fā)掘任務(wù),在“SimlpeCLI”模塊中輸入以下格式的命令:-N100-T1-C1.5-D0.05-U1.0-M0.1-S-1.0-I-td:fund-data-normal.arff即可獲取如圖11的結(jié)果。16/21圖116、屬性分析用“Explorer”打開剛剛獲取的“Fund-data-normal.arff”,并切換到“Selec

31、tattributes”。點“AttributeEvaluator”中的“Choose”按鈕選擇“ClassifierSubsetEval”,點“SearchMethod”中的“Choose”按鈕選擇“RaceSearch”。在“AttributeSelection”中選中“Cross-validation”項,參數(shù)默認Folds=10和Seed=1。點擊“start”見圖1217/21圖127、可視化分析用“Explorer”打開剛剛獲取的“Fund-data-normal.arff”,并切換到“Visualize”。見圖1318/21圖13四、分析結(jié)果1、分類與回歸我們看到“J48”算法交織驗證的結(jié)果之一為CorrectlyClassifiedInstances73099.455%IncorrectlyClassifiedInstances40.545%=ConfusionMatrix=abcdefghij-classifiedas730000000000|a=(0_1430078.8831000000000|b=(1430078.7661000000000|c=(2860157.6490

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論