![實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第1頁](http://file4.renrendoc.com/view/a8360810eb71e042b3fb4643e57b81a8/a8360810eb71e042b3fb4643e57b81a81.gif)
![實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第2頁](http://file4.renrendoc.com/view/a8360810eb71e042b3fb4643e57b81a8/a8360810eb71e042b3fb4643e57b81a82.gif)
![實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第3頁](http://file4.renrendoc.com/view/a8360810eb71e042b3fb4643e57b81a8/a8360810eb71e042b3fb4643e57b81a83.gif)
![實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第4頁](http://file4.renrendoc.com/view/a8360810eb71e042b3fb4643e57b81a8/a8360810eb71e042b3fb4643e57b81a84.gif)
![實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第5頁](http://file4.renrendoc.com/view/a8360810eb71e042b3fb4643e57b81a8/a8360810eb71e042b3fb4643e57b81a85.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
實(shí)驗(yàn)3數(shù)據(jù)預(yù)處理信息管理學(xué)院2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組1去除無用屬性通常對(duì)于數(shù)據(jù)挖掘任務(wù)來說,像ID這樣的信息是無用的,可以將之刪除。選中屬性,點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存,并重新打開。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組2數(shù)據(jù)預(yù)處理preprocess——過濾器在WEKA中數(shù)據(jù)預(yù)處理工具稱作過濾器,也稱為篩選器(filters)。所有的過濾器都是將輸入數(shù)據(jù)集進(jìn)行某種程度的轉(zhuǎn)換,轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形式。選擇某個(gè)過濾器之后,過濾器的名字及默認(rèn)參數(shù)會(huì)出現(xiàn)在Choose按鈕旁的輸入框內(nèi),通過單擊該框可以在通用對(duì)象編輯器中設(shè)置其屬性。過濾器以及參數(shù)都會(huì)以命令行的方式顯現(xiàn)在輸入框,仔細(xì)觀察和研究這些過濾器和參數(shù)設(shè)置,是學(xué)習(xí)如何直接使用Weka命令的好方法。Weka將無監(jiān)督和有監(jiān)督兩種過濾方法分開處理,每種類型又細(xì)分為屬性過濾器和實(shí)例過濾器。使用有監(jiān)督的過濾器時(shí),如果將訓(xùn)練得到的良好間隔施加到測試集中,可能會(huì)使結(jié)果出現(xiàn)偏倚,必須非常小心,以確保評(píng)估結(jié)果的公平性。然而,由于無須經(jīng)過訓(xùn)練,無監(jiān)督過濾器就不會(huì)出現(xiàn)這個(gè)問題。預(yù)處理使用較多的是無監(jiān)督的過濾器。在Filter標(biāo)簽之下有一個(gè)Choose(選擇)按鈕,點(diǎn)擊該按鈕可以選擇一個(gè)過濾器,如下圖所示。按鈕的右側(cè)是過濾器輸入框,用于設(shè)置所選擇的過濾器的參數(shù)。一旦選定過濾器后,其名稱和參數(shù)都會(huì)顯示在過濾器輸入框內(nèi)。在框內(nèi)單擊鼠標(biāo)左鍵會(huì)彈出一個(gè)通用對(duì)象編輯器對(duì)話框一旦選擇并配置一個(gè)過濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點(diǎn)擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會(huì)顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對(duì)結(jié)果不滿意,可以點(diǎn)擊Undo按鈕撤消轉(zhuǎn)換,還可以點(diǎn)擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動(dòng)修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點(diǎn)擊預(yù)處理面板右上角的“Save...”按鈕,將當(dāng)前關(guān)系以文件格式進(jìn)行保存,以供將來使用。一旦選定過濾器后,其名稱和參數(shù)都會(huì)顯示在過濾器輸入框內(nèi)。在框內(nèi)單擊鼠標(biāo)左鍵會(huì)彈出一個(gè)通用對(duì)象編輯器對(duì)話框一旦選擇并配置一個(gè)過濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點(diǎn)擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會(huì)顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對(duì)結(jié)果不滿意,可以點(diǎn)擊Undo按鈕撤消轉(zhuǎn)換,還可以點(diǎn)擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動(dòng)修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點(diǎn)擊預(yù)處理面板右上角的“Save...”按鈕,將當(dāng)前關(guān)系以文件格式進(jìn)行保存,以供將來使用。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組8為數(shù)據(jù)庫添加一個(gè)新的屬性,新的屬性將會(huì)包含所有缺失值??蛇x參數(shù):attributeIndex:屬性位置,從1開始算,last是最后一個(gè),first是第一個(gè)attributeName:屬性名稱attributeType:屬性類型,一般是4選1dateFormat:數(shù)據(jù)格式,參考ISO-8601nominalLabels:標(biāo)稱標(biāo)簽,多個(gè)值用逗號(hào)隔開示例:Add2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組9ADD添加一個(gè)新屬性2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組10ADD添加一個(gè)新屬性注意:這里修改的內(nèi)存中的文件,可用Undo撤銷,要想修改外存中保存的文件,則必須點(diǎn)Save保存或另存為。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組11AddUserFields添加屬性(可添加多個(gè))2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組12AddValues2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組13通過Edit為新添加的屬性賦值2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組14AddID2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組15Remove在區(qū)域5選中屬性,然后點(diǎn)擊下面的Remove按鈕。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組16Reorder數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時(shí)候就需要對(duì)數(shù)值型的屬性進(jìn)行離散化。對(duì)取值有限的數(shù)值型屬性可通過修改.arff文件中該屬性數(shù)據(jù)類型實(shí)現(xiàn)離散化。例如,在某數(shù)據(jù)集中的“children”屬性只有4個(gè)數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把
@attributechildrennumeric
改為
@attributechildren{0,1,2,3}
就可以了。在“Explorer”中重新打開“bank-data.arff”,看看選中“children”屬性后,區(qū)域6那里顯示的“Type”變成“Nominal”了。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組17數(shù)據(jù)離散化對(duì)取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來完成。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組18數(shù)據(jù)離散化(1)attributeIndices:屬性下標(biāo)。選擇要離散化的屬性,將其下標(biāo)號(hào)以逗號(hào)隔開;(2)bins:決定將數(shù)據(jù)離散化為幾段;(3)desiredweightofinstancesperinterval:對(duì)等頻離散化來說每個(gè)間隔所需的實(shí)例權(quán)重(個(gè)數(shù));(4)findNumBins:如果設(shè)置為True,則對(duì)于等距離離散化找到最優(yōu)的段數(shù),對(duì)等頻離散化無作用;(5)ignoreClass:如果設(shè)置為True,則過濾器使用之前,沒有設(shè)置class屬性;(6)InvertSelection:集屬性選擇模式。如果設(shè)置為False,只有選擇(數(shù)字)范圍內(nèi)的屬性將被離散的,否則只有非選定的屬性將被離散;(6)MakeBinary:如果設(shè)置為True,則變?yōu)槎M(jìn)制;(7)UseEqualFrequency:等頻離散化,如果設(shè)置為true,則使用等頻離散化,否則使用等距離離散化。2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組19標(biāo)準(zhǔn)化、歸一化weka.filters.unsupervised.attribute.Normalize2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組202023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組21Normalize(weather.numeric.arff)2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組22Normalize結(jié)果2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組23MakeIndicator標(biāo)稱屬性轉(zhuǎn)換為二元屬性2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組24Add:添加屬性AddID:插入一個(gè)數(shù)字序號(hào)標(biāo)識(shí)符屬性,標(biāo)識(shí)符主要是便于跟蹤。Remove:刪除屬性AddExpression:過濾器通過將一個(gè)數(shù)學(xué)函數(shù)應(yīng)用于數(shù)值型屬性而生成一個(gè)新的屬性,支持運(yùn)算符如下:+,-,*,/,pow,log,abs,cos,exp,sqrt,tan,sin,ceil,floor,rint,(,),A,MEAN,MAX,MIN,SD,COUNT,SUM,SUMSQUARED,ifelse。MathExpression:類似于AddExpression,支持的運(yùn)算更多。AddCluster:先將一種聚類算法應(yīng)用于數(shù)據(jù),然后進(jìn)行過濾。用戶通過編輯器選擇聚類算法。無監(jiān)督屬性過濾器:添加和刪除屬性2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組25Reorder:重新排列屬性,輸入2-last,1可以讓第一項(xiàng)排到最后,如果輸入1,3,5的話…其他項(xiàng)就沒有了。InterquartileRange:過濾器添加新屬性,以指示實(shí)例的值是否可以視為離群值或者極端值。無監(jiān)督屬性過濾器:重新排序2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組26SwapValue:交換同一個(gè)標(biāo)稱屬性的兩個(gè)值的位置。MergeTwoValues:將一個(gè)標(biāo)稱屬性的兩個(gè)值合并為一個(gè)單獨(dú)的類別,新的名稱是兩個(gè)原有值的字符串的鏈接。ReplaceMissingValues:替代缺失值。NumbericCleaner:使用默認(rèn)的值取代數(shù)值屬性中值太大、太小或者接近于某一個(gè)特定值。無監(jiān)督屬性過濾器:改變值2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組27MakeIndicator:將標(biāo)稱屬性轉(zhuǎn)換為二元指示符屬性,將用于多個(gè)數(shù)據(jù)集轉(zhuǎn)換為多個(gè)類別的數(shù)據(jù)集。StringToNominal:用一組值將其轉(zhuǎn)換為標(biāo)稱型。ChangeDateFormat:更改用于解析日期屬性的格式化字符串,可以指定Java的SimpleDateFormat類支持的所有類型的格式。無監(jiān)督屬性過濾器:轉(zhuǎn)換2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組28Center:將數(shù)值化屬性的平均化為0。Standardize:這個(gè)和Center功能大致相同,多了一個(gè)標(biāo)準(zhǔn)化單位變異數(shù)。Normalize:規(guī)范化整個(gè)實(shí)例集。無監(jiān)督屬性過濾器:規(guī)范化2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組29Discretize:簡單劃分的離散化處理。參數(shù):attributeIndices:屬性范圍,如1-5,first-lastbins:桶的數(shù)量無監(jiān)督屬性過濾器:離散化2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組30Resample:隨機(jī)抽樣,從現(xiàn)有樣本產(chǎn)生新的小樣本Randomize:用于將數(shù)據(jù)中實(shí)例進(jìn)行隨機(jī)重排。RemovePercentage:刪除數(shù)據(jù)集中給定百分比的實(shí)例。RemoveFrequentValues:刪除滿足某個(gè)標(biāo)稱型屬性值最經(jīng)常或者最不經(jīng)常使用的對(duì)應(yīng)的實(shí)例。SubsetByExpression:滿足用戶提供的表達(dá)式的所有實(shí)例。無監(jiān)督實(shí)例過濾器:采樣2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組31NonSparseToSparse:全部輸入實(shí)例轉(zhuǎn)換為稀疏格式。SparseToNonSparse:將稀疏格式的實(shí)例轉(zhuǎn)換為非稀疏格式。無監(jiān)督實(shí)例過濾器:稀疏矩陣有監(jiān)督屬性過濾器:離散化weka.filters.supervised.attribute.DiscretizeDiscretizationisbyFayyad&Irani'sMDLmethod(thedefault)Or
UseKononenko'sMDLcriterion.2023/1/15江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組32UsamaM.Fayyad,KekiB.Irani:Multi-intervaldiscretizationofcontinuousvaluedattributesforclassificationlearning.In:ThirteenthInternationalJointConferenceonArticialIntelligence,1022-1027,1993.IgorKononenko:OnBiasesinEstimatingMulti-ValuedAttributes.In:14thInternationalJointConferenceonArticialIntelligence,1034-1040,1995.相關(guān)性分析Excel卡方檢驗(yàn)Pearson相關(guān)系數(shù)2023/1/15江西財(cái)經(jīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級(jí)上冊(cè)數(shù)學(xué)聽評(píng)課記錄 《擲一擲》人教版
- 一年級(jí)上冊(cè)數(shù)學(xué)聽評(píng)課記錄-第4單元:第2課時(shí)《一起來分類》北師大版
- 豬肉攤位員工合同(2篇)
- 魯人版九年級(jí)道德與法治上冊(cè) 3.1 我們共同的精神家園 聽課評(píng)課記錄
- 粵教版地理七年級(jí)上冊(cè)5.3《聚落的發(fā)展變化》聽課評(píng)課記錄
- 八年級(jí)歷史人教版下冊(cè)聽課評(píng)課記錄:第15課 鋼鐵長城
- 湘教版數(shù)學(xué)七年級(jí)上冊(cè)4.1《幾何圖形》聽評(píng)課記錄
- 蘇科版數(shù)學(xué)七年級(jí)下冊(cè)《11.2 不等式的解集》聽評(píng)課記錄2
- 2022年新課標(biāo)八年級(jí)上冊(cè)道德與法治《10.2 天下興亡 匹夫有責(zé) 》聽課評(píng)課記錄
- 魯教版地理七年級(jí)下冊(cè)第九章《青藏地區(qū)》單元備課聽課評(píng)課記錄
- 三年級(jí)上冊(cè)數(shù)學(xué)脫式計(jì)算大全600題及答案
- 計(jì)算機(jī)控制系統(tǒng) 課件 第10章 網(wǎng)絡(luò)化控制系統(tǒng)的分析與設(shè)計(jì)
- 魯教版(五四制)七年級(jí)數(shù)學(xué)上冊(cè)期末考試卷-附帶答案
- 南京大學(xué)儀器分析習(xí)題集
- 空調(diào)維保應(yīng)急預(yù)案
- 小學(xué)六年級(jí)數(shù)學(xué)上冊(cè)解決問題專項(xiàng)必考題西師大版
- 2023年高考語文全國乙卷作文范文及導(dǎo)寫(解讀+素材+范文)課件版
- 模塊建房施工方案
- 多域聯(lián)合作戰(zhàn)
- 定向鉆出入土點(diǎn)平面布置圖(可編輯)
- 美容美發(fā)場所衛(wèi)生規(guī)范
評(píng)論
0/150
提交評(píng)論