實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第1頁(yè)
實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第2頁(yè)
實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第3頁(yè)
實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第4頁(yè)
實(shí)驗(yàn)3 數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)3數(shù)據(jù)預(yù)處理信息管理學(xué)院2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組1去除無(wú)用屬性通常對(duì)于數(shù)據(jù)挖掘任務(wù)來(lái)說(shuō),像ID這樣的信息是無(wú)用的,可以將之刪除。選中屬性,點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存,并重新打開(kāi)。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組2數(shù)據(jù)預(yù)處理preprocess——過(guò)濾器在WEKA中數(shù)據(jù)預(yù)處理工具稱作過(guò)濾器,也稱為篩選器(filters)。所有的過(guò)濾器都是將輸入數(shù)據(jù)集進(jìn)行某種程度的轉(zhuǎn)換,轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形式。選擇某個(gè)過(guò)濾器之后,過(guò)濾器的名字及默認(rèn)參數(shù)會(huì)出現(xiàn)在Choose按鈕旁的輸入框內(nèi),通過(guò)單擊該框可以在通用對(duì)象編輯器中設(shè)置其屬性。過(guò)濾器以及參數(shù)都會(huì)以命令行的方式顯現(xiàn)在輸入框,仔細(xì)觀察和研究這些過(guò)濾器和參數(shù)設(shè)置,是學(xué)習(xí)如何直接使用Weka命令的好方法。Weka將無(wú)監(jiān)督和有監(jiān)督兩種過(guò)濾方法分開(kāi)處理,每種類型又細(xì)分為屬性過(guò)濾器和實(shí)例過(guò)濾器。使用有監(jiān)督的過(guò)濾器時(shí),如果將訓(xùn)練得到的良好間隔施加到測(cè)試集中,可能會(huì)使結(jié)果出現(xiàn)偏倚,必須非常小心,以確保評(píng)估結(jié)果的公平性。然而,由于無(wú)須經(jīng)過(guò)訓(xùn)練,無(wú)監(jiān)督過(guò)濾器就不會(huì)出現(xiàn)這個(gè)問(wèn)題。預(yù)處理使用較多的是無(wú)監(jiān)督的過(guò)濾器。在Filter標(biāo)簽之下有一個(gè)Choose(選擇)按鈕,點(diǎn)擊該按鈕可以選擇一個(gè)過(guò)濾器,如下圖所示。按鈕的右側(cè)是過(guò)濾器輸入框,用于設(shè)置所選擇的過(guò)濾器的參數(shù)。一旦選定過(guò)濾器后,其名稱和參數(shù)都會(huì)顯示在過(guò)濾器輸入框內(nèi)。在框內(nèi)單擊鼠標(biāo)左鍵會(huì)彈出一個(gè)通用對(duì)象編輯器對(duì)話框一旦選擇并配置一個(gè)過(guò)濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點(diǎn)擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會(huì)顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對(duì)結(jié)果不滿意,可以點(diǎn)擊Undo按鈕撤消轉(zhuǎn)換,還可以點(diǎn)擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動(dòng)修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點(diǎn)擊預(yù)處理面板右上角的“Save...”按鈕,將當(dāng)前關(guān)系以文件格式進(jìn)行保存,以供將來(lái)使用。一旦選定過(guò)濾器后,其名稱和參數(shù)都會(huì)顯示在過(guò)濾器輸入框內(nèi)。在框內(nèi)單擊鼠標(biāo)左鍵會(huì)彈出一個(gè)通用對(duì)象編輯器對(duì)話框一旦選擇并配置一個(gè)過(guò)濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點(diǎn)擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會(huì)顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對(duì)結(jié)果不滿意,可以點(diǎn)擊Undo按鈕撤消轉(zhuǎn)換,還可以點(diǎn)擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動(dòng)修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點(diǎn)擊預(yù)處理面板右上角的“Save...”按鈕,將當(dāng)前關(guān)系以文件格式進(jìn)行保存,以供將來(lái)使用。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組8為數(shù)據(jù)庫(kù)添加一個(gè)新的屬性,新的屬性將會(huì)包含所有缺失值??蛇x參數(shù):attributeIndex:屬性位置,從1開(kāi)始算,last是最后一個(gè),first是第一個(gè)attributeName:屬性名稱attributeType:屬性類型,一般是4選1dateFormat:數(shù)據(jù)格式,參考ISO-8601nominalLabels:標(biāo)稱標(biāo)簽,多個(gè)值用逗號(hào)隔開(kāi)示例:Add2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組9ADD添加一個(gè)新屬性2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組10ADD添加一個(gè)新屬性注意:這里修改的內(nèi)存中的文件,可用Undo撤銷,要想修改外存中保存的文件,則必須點(diǎn)Save保存或另存為。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組11AddUserFields添加屬性(可添加多個(gè))2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組12AddValues2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組13通過(guò)Edit為新添加的屬性賦值2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組14AddID2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組15Remove在區(qū)域5選中屬性,然后點(diǎn)擊下面的Remove按鈕。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組16Reorder數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時(shí)候就需要對(duì)數(shù)值型的屬性進(jìn)行離散化。對(duì)取值有限的數(shù)值型屬性可通過(guò)修改.arff文件中該屬性數(shù)據(jù)類型實(shí)現(xiàn)離散化。例如,在某數(shù)據(jù)集中的“children”屬性只有4個(gè)數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把

@attributechildrennumeric

改為

@attributechildren{0,1,2,3}

就可以了。在“Explorer”中重新打開(kāi)“bank-data.arff”,看看選中“children”屬性后,區(qū)域6那里顯示的“Type”變成“Nominal”了。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組17數(shù)據(jù)離散化對(duì)取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來(lái)完成。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組18數(shù)據(jù)離散化(1)attributeIndices:屬性下標(biāo)。選擇要離散化的屬性,將其下標(biāo)號(hào)以逗號(hào)隔開(kāi);(2)bins:決定將數(shù)據(jù)離散化為幾段;(3)desiredweightofinstancesperinterval:對(duì)等頻離散化來(lái)說(shuō)每個(gè)間隔所需的實(shí)例權(quán)重(個(gè)數(shù));(4)findNumBins:如果設(shè)置為True,則對(duì)于等距離離散化找到最優(yōu)的段數(shù),對(duì)等頻離散化無(wú)作用;(5)ignoreClass:如果設(shè)置為True,則過(guò)濾器使用之前,沒(méi)有設(shè)置class屬性;(6)InvertSelection:集屬性選擇模式。如果設(shè)置為False,只有選擇(數(shù)字)范圍內(nèi)的屬性將被離散的,否則只有非選定的屬性將被離散;(6)MakeBinary:如果設(shè)置為True,則變?yōu)槎M(jìn)制;(7)UseEqualFrequency:等頻離散化,如果設(shè)置為true,則使用等頻離散化,否則使用等距離離散化。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組19標(biāo)準(zhǔn)化、歸一化weka.filters.unsupervised.attribute.Normalize2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組202023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組21Normalize(weather.numeric.arff)2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組22Normalize結(jié)果2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組23MakeIndicator標(biāo)稱屬性轉(zhuǎn)換為二元屬性2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組24Add:添加屬性AddID:插入一個(gè)數(shù)字序號(hào)標(biāo)識(shí)符屬性,標(biāo)識(shí)符主要是便于跟蹤。Remove:刪除屬性AddExpression:過(guò)濾器通過(guò)將一個(gè)數(shù)學(xué)函數(shù)應(yīng)用于數(shù)值型屬性而生成一個(gè)新的屬性,支持運(yùn)算符如下:+,-,*,/,pow,log,abs,cos,exp,sqrt,tan,sin,ceil,floor,rint,(,),A,MEAN,MAX,MIN,SD,COUNT,SUM,SUMSQUARED,ifelse。MathExpression:類似于AddExpression,支持的運(yùn)算更多。AddCluster:先將一種聚類算法應(yīng)用于數(shù)據(jù),然后進(jìn)行過(guò)濾。用戶通過(guò)編輯器選擇聚類算法。無(wú)監(jiān)督屬性過(guò)濾器:添加和刪除屬性2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組25Reorder:重新排列屬性,輸入2-last,1可以讓第一項(xiàng)排到最后,如果輸入1,3,5的話…其他項(xiàng)就沒(méi)有了。InterquartileRange:過(guò)濾器添加新屬性,以指示實(shí)例的值是否可以視為離群值或者極端值。無(wú)監(jiān)督屬性過(guò)濾器:重新排序2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組26SwapValue:交換同一個(gè)標(biāo)稱屬性的兩個(gè)值的位置。MergeTwoValues:將一個(gè)標(biāo)稱屬性的兩個(gè)值合并為一個(gè)單獨(dú)的類別,新的名稱是兩個(gè)原有值的字符串的鏈接。ReplaceMissingValues:替代缺失值。NumbericCleaner:使用默認(rèn)的值取代數(shù)值屬性中值太大、太小或者接近于某一個(gè)特定值。無(wú)監(jiān)督屬性過(guò)濾器:改變值2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組27MakeIndicator:將標(biāo)稱屬性轉(zhuǎn)換為二元指示符屬性,將用于多個(gè)數(shù)據(jù)集轉(zhuǎn)換為多個(gè)類別的數(shù)據(jù)集。StringToNominal:用一組值將其轉(zhuǎn)換為標(biāo)稱型。ChangeDateFormat:更改用于解析日期屬性的格式化字符串,可以指定Java的SimpleDateFormat類支持的所有類型的格式。無(wú)監(jiān)督屬性過(guò)濾器:轉(zhuǎn)換2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組28Center:將數(shù)值化屬性的平均化為0。Standardize:這個(gè)和Center功能大致相同,多了一個(gè)標(biāo)準(zhǔn)化單位變異數(shù)。Normalize:規(guī)范化整個(gè)實(shí)例集。無(wú)監(jiān)督屬性過(guò)濾器:規(guī)范化2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組29Discretize:簡(jiǎn)單劃分的離散化處理。參數(shù):attributeIndices:屬性范圍,如1-5,first-lastbins:桶的數(shù)量無(wú)監(jiān)督屬性過(guò)濾器:離散化2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組30Resample:隨機(jī)抽樣,從現(xiàn)有樣本產(chǎn)生新的小樣本Randomize:用于將數(shù)據(jù)中實(shí)例進(jìn)行隨機(jī)重排。RemovePercentage:刪除數(shù)據(jù)集中給定百分比的實(shí)例。RemoveFrequentValues:刪除滿足某個(gè)標(biāo)稱型屬性值最經(jīng)?;蛘咦畈唤?jīng)常使用的對(duì)應(yīng)的實(shí)例。SubsetByExpression:滿足用戶提供的表達(dá)式的所有實(shí)例。無(wú)監(jiān)督實(shí)例過(guò)濾器:采樣2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組31NonSparseToSparse:全部輸入實(shí)例轉(zhuǎn)換為稀疏格式。SparseToNonSparse:將稀疏格式的實(shí)例轉(zhuǎn)換為非稀疏格式。無(wú)監(jiān)督實(shí)例過(guò)濾器:稀疏矩陣有監(jiān)督屬性過(guò)濾器:離散化weka.filters.supervised.attribute.DiscretizeDiscretizationisbyFayyad&Irani'sMDLmethod(thedefault)Or

UseKononenko'sMDLcriterion.2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組32UsamaM.Fayyad,KekiB.Irani:Multi-intervaldiscretizationofcontinuousvaluedattributesforclassificationlearning.In:ThirteenthInternationalJointConferenceonArticialIntelligence,1022-1027,1993.IgorKononenko:OnBiasesinEstimatingMulti-ValuedAttributes.In:14thInternationalJointConferenceonArticialIntelligence,1034-1040,1995.相關(guān)性分析Excel卡方檢驗(yàn)Pearson相關(guān)系數(shù)2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組33CHITEST用于從分類變量資料直接求得相應(yīng)的頻率分布,即我們所追求的P值,已經(jīng)包含了分類變量資料的頻數(shù)和自由度(degreesoffreedom,簡(jiǎn)稱df,等于(r-1)(c-1)),所以可以直接判定檢驗(yàn)假設(shè)是否成立。CHIINV則是一個(gè)逆運(yùn)算,其作用是從頻率分布反求相應(yīng)的χ2值,所以除了頻率分布參數(shù)外,必須使用自由度參數(shù)df。CHIDEST與CHITEST則有異曲同工之妙,所不同的是它是由統(tǒng)計(jì)量χ2值求取頻率分布,所以也要用到自由度2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組34實(shí)驗(yàn)任務(wù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論