版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
實(shí)驗(yàn)3數(shù)據(jù)預(yù)處理信息管理學(xué)院2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組1去除無(wú)用屬性通常對(duì)于數(shù)據(jù)挖掘任務(wù)來(lái)說(shuō),像ID這樣的信息是無(wú)用的,可以將之刪除。選中屬性,點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存,并重新打開(kāi)。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組2數(shù)據(jù)預(yù)處理preprocess——過(guò)濾器在WEKA中數(shù)據(jù)預(yù)處理工具稱作過(guò)濾器,也稱為篩選器(filters)。所有的過(guò)濾器都是將輸入數(shù)據(jù)集進(jìn)行某種程度的轉(zhuǎn)換,轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形式。選擇某個(gè)過(guò)濾器之后,過(guò)濾器的名字及默認(rèn)參數(shù)會(huì)出現(xiàn)在Choose按鈕旁的輸入框內(nèi),通過(guò)單擊該框可以在通用對(duì)象編輯器中設(shè)置其屬性。過(guò)濾器以及參數(shù)都會(huì)以命令行的方式顯現(xiàn)在輸入框,仔細(xì)觀察和研究這些過(guò)濾器和參數(shù)設(shè)置,是學(xué)習(xí)如何直接使用Weka命令的好方法。Weka將無(wú)監(jiān)督和有監(jiān)督兩種過(guò)濾方法分開(kāi)處理,每種類型又細(xì)分為屬性過(guò)濾器和實(shí)例過(guò)濾器。使用有監(jiān)督的過(guò)濾器時(shí),如果將訓(xùn)練得到的良好間隔施加到測(cè)試集中,可能會(huì)使結(jié)果出現(xiàn)偏倚,必須非常小心,以確保評(píng)估結(jié)果的公平性。然而,由于無(wú)須經(jīng)過(guò)訓(xùn)練,無(wú)監(jiān)督過(guò)濾器就不會(huì)出現(xiàn)這個(gè)問(wèn)題。預(yù)處理使用較多的是無(wú)監(jiān)督的過(guò)濾器。在Filter標(biāo)簽之下有一個(gè)Choose(選擇)按鈕,點(diǎn)擊該按鈕可以選擇一個(gè)過(guò)濾器,如下圖所示。按鈕的右側(cè)是過(guò)濾器輸入框,用于設(shè)置所選擇的過(guò)濾器的參數(shù)。一旦選定過(guò)濾器后,其名稱和參數(shù)都會(huì)顯示在過(guò)濾器輸入框內(nèi)。在框內(nèi)單擊鼠標(biāo)左鍵會(huì)彈出一個(gè)通用對(duì)象編輯器對(duì)話框一旦選擇并配置一個(gè)過(guò)濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點(diǎn)擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會(huì)顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對(duì)結(jié)果不滿意,可以點(diǎn)擊Undo按鈕撤消轉(zhuǎn)換,還可以點(diǎn)擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動(dòng)修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點(diǎn)擊預(yù)處理面板右上角的“Save...”按鈕,將當(dāng)前關(guān)系以文件格式進(jìn)行保存,以供將來(lái)使用。一旦選定過(guò)濾器后,其名稱和參數(shù)都會(huì)顯示在過(guò)濾器輸入框內(nèi)。在框內(nèi)單擊鼠標(biāo)左鍵會(huì)彈出一個(gè)通用對(duì)象編輯器對(duì)話框一旦選擇并配置一個(gè)過(guò)濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點(diǎn)擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會(huì)顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對(duì)結(jié)果不滿意,可以點(diǎn)擊Undo按鈕撤消轉(zhuǎn)換,還可以點(diǎn)擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動(dòng)修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點(diǎn)擊預(yù)處理面板右上角的“Save...”按鈕,將當(dāng)前關(guān)系以文件格式進(jìn)行保存,以供將來(lái)使用。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組8為數(shù)據(jù)庫(kù)添加一個(gè)新的屬性,新的屬性將會(huì)包含所有缺失值??蛇x參數(shù):attributeIndex:屬性位置,從1開(kāi)始算,last是最后一個(gè),first是第一個(gè)attributeName:屬性名稱attributeType:屬性類型,一般是4選1dateFormat:數(shù)據(jù)格式,參考ISO-8601nominalLabels:標(biāo)稱標(biāo)簽,多個(gè)值用逗號(hào)隔開(kāi)示例:Add2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組9ADD添加一個(gè)新屬性2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組10ADD添加一個(gè)新屬性注意:這里修改的內(nèi)存中的文件,可用Undo撤銷,要想修改外存中保存的文件,則必須點(diǎn)Save保存或另存為。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組11AddUserFields添加屬性(可添加多個(gè))2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組12AddValues2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組13通過(guò)Edit為新添加的屬性賦值2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組14AddID2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組15Remove在區(qū)域5選中屬性,然后點(diǎn)擊下面的Remove按鈕。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組16Reorder數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時(shí)候就需要對(duì)數(shù)值型的屬性進(jìn)行離散化。對(duì)取值有限的數(shù)值型屬性可通過(guò)修改.arff文件中該屬性數(shù)據(jù)類型實(shí)現(xiàn)離散化。例如,在某數(shù)據(jù)集中的“children”屬性只有4個(gè)數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把
@attributechildrennumeric
改為
@attributechildren{0,1,2,3}
就可以了。在“Explorer”中重新打開(kāi)“bank-data.arff”,看看選中“children”屬性后,區(qū)域6那里顯示的“Type”變成“Nominal”了。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組17數(shù)據(jù)離散化對(duì)取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來(lái)完成。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組18數(shù)據(jù)離散化(1)attributeIndices:屬性下標(biāo)。選擇要離散化的屬性,將其下標(biāo)號(hào)以逗號(hào)隔開(kāi);(2)bins:決定將數(shù)據(jù)離散化為幾段;(3)desiredweightofinstancesperinterval:對(duì)等頻離散化來(lái)說(shuō)每個(gè)間隔所需的實(shí)例權(quán)重(個(gè)數(shù));(4)findNumBins:如果設(shè)置為True,則對(duì)于等距離離散化找到最優(yōu)的段數(shù),對(duì)等頻離散化無(wú)作用;(5)ignoreClass:如果設(shè)置為True,則過(guò)濾器使用之前,沒(méi)有設(shè)置class屬性;(6)InvertSelection:集屬性選擇模式。如果設(shè)置為False,只有選擇(數(shù)字)范圍內(nèi)的屬性將被離散的,否則只有非選定的屬性將被離散;(6)MakeBinary:如果設(shè)置為True,則變?yōu)槎M(jìn)制;(7)UseEqualFrequency:等頻離散化,如果設(shè)置為true,則使用等頻離散化,否則使用等距離離散化。2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組19標(biāo)準(zhǔn)化、歸一化weka.filters.unsupervised.attribute.Normalize2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組202023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組21Normalize(weather.numeric.arff)2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組22Normalize結(jié)果2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組23MakeIndicator標(biāo)稱屬性轉(zhuǎn)換為二元屬性2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組24Add:添加屬性AddID:插入一個(gè)數(shù)字序號(hào)標(biāo)識(shí)符屬性,標(biāo)識(shí)符主要是便于跟蹤。Remove:刪除屬性AddExpression:過(guò)濾器通過(guò)將一個(gè)數(shù)學(xué)函數(shù)應(yīng)用于數(shù)值型屬性而生成一個(gè)新的屬性,支持運(yùn)算符如下:+,-,*,/,pow,log,abs,cos,exp,sqrt,tan,sin,ceil,floor,rint,(,),A,MEAN,MAX,MIN,SD,COUNT,SUM,SUMSQUARED,ifelse。MathExpression:類似于AddExpression,支持的運(yùn)算更多。AddCluster:先將一種聚類算法應(yīng)用于數(shù)據(jù),然后進(jìn)行過(guò)濾。用戶通過(guò)編輯器選擇聚類算法。無(wú)監(jiān)督屬性過(guò)濾器:添加和刪除屬性2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組25Reorder:重新排列屬性,輸入2-last,1可以讓第一項(xiàng)排到最后,如果輸入1,3,5的話…其他項(xiàng)就沒(méi)有了。InterquartileRange:過(guò)濾器添加新屬性,以指示實(shí)例的值是否可以視為離群值或者極端值。無(wú)監(jiān)督屬性過(guò)濾器:重新排序2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組26SwapValue:交換同一個(gè)標(biāo)稱屬性的兩個(gè)值的位置。MergeTwoValues:將一個(gè)標(biāo)稱屬性的兩個(gè)值合并為一個(gè)單獨(dú)的類別,新的名稱是兩個(gè)原有值的字符串的鏈接。ReplaceMissingValues:替代缺失值。NumbericCleaner:使用默認(rèn)的值取代數(shù)值屬性中值太大、太小或者接近于某一個(gè)特定值。無(wú)監(jiān)督屬性過(guò)濾器:改變值2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組27MakeIndicator:將標(biāo)稱屬性轉(zhuǎn)換為二元指示符屬性,將用于多個(gè)數(shù)據(jù)集轉(zhuǎn)換為多個(gè)類別的數(shù)據(jù)集。StringToNominal:用一組值將其轉(zhuǎn)換為標(biāo)稱型。ChangeDateFormat:更改用于解析日期屬性的格式化字符串,可以指定Java的SimpleDateFormat類支持的所有類型的格式。無(wú)監(jiān)督屬性過(guò)濾器:轉(zhuǎn)換2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組28Center:將數(shù)值化屬性的平均化為0。Standardize:這個(gè)和Center功能大致相同,多了一個(gè)標(biāo)準(zhǔn)化單位變異數(shù)。Normalize:規(guī)范化整個(gè)實(shí)例集。無(wú)監(jiān)督屬性過(guò)濾器:規(guī)范化2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組29Discretize:簡(jiǎn)單劃分的離散化處理。參數(shù):attributeIndices:屬性范圍,如1-5,first-lastbins:桶的數(shù)量無(wú)監(jiān)督屬性過(guò)濾器:離散化2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組30Resample:隨機(jī)抽樣,從現(xiàn)有樣本產(chǎn)生新的小樣本Randomize:用于將數(shù)據(jù)中實(shí)例進(jìn)行隨機(jī)重排。RemovePercentage:刪除數(shù)據(jù)集中給定百分比的實(shí)例。RemoveFrequentValues:刪除滿足某個(gè)標(biāo)稱型屬性值最經(jīng)?;蛘咦畈唤?jīng)常使用的對(duì)應(yīng)的實(shí)例。SubsetByExpression:滿足用戶提供的表達(dá)式的所有實(shí)例。無(wú)監(jiān)督實(shí)例過(guò)濾器:采樣2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組31NonSparseToSparse:全部輸入實(shí)例轉(zhuǎn)換為稀疏格式。SparseToNonSparse:將稀疏格式的實(shí)例轉(zhuǎn)換為非稀疏格式。無(wú)監(jiān)督實(shí)例過(guò)濾器:稀疏矩陣有監(jiān)督屬性過(guò)濾器:離散化weka.filters.supervised.attribute.DiscretizeDiscretizationisbyFayyad&Irani'sMDLmethod(thedefault)Or
UseKononenko'sMDLcriterion.2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組32UsamaM.Fayyad,KekiB.Irani:Multi-intervaldiscretizationofcontinuousvaluedattributesforclassificationlearning.In:ThirteenthInternationalJointConferenceonArticialIntelligence,1022-1027,1993.IgorKononenko:OnBiasesinEstimatingMulti-ValuedAttributes.In:14thInternationalJointConferenceonArticialIntelligence,1034-1040,1995.相關(guān)性分析Excel卡方檢驗(yàn)Pearson相關(guān)系數(shù)2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組33CHITEST用于從分類變量資料直接求得相應(yīng)的頻率分布,即我們所追求的P值,已經(jīng)包含了分類變量資料的頻數(shù)和自由度(degreesoffreedom,簡(jiǎn)稱df,等于(r-1)(c-1)),所以可以直接判定檢驗(yàn)假設(shè)是否成立。CHIINV則是一個(gè)逆運(yùn)算,其作用是從頻率分布反求相應(yīng)的χ2值,所以除了頻率分布參數(shù)外,必須使用自由度參數(shù)df。CHIDEST與CHITEST則有異曲同工之妙,所不同的是它是由統(tǒng)計(jì)量χ2值求取頻率分布,所以也要用到自由度2023/2/2江西財(cái)經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組34實(shí)驗(yàn)任務(wù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房間隔缺損介入手術(shù)
- 山西財(cái)經(jīng)大學(xué)華商學(xué)院《有毒有害物質(zhì)檢測(cè)》2023-2024學(xué)年第一學(xué)期期末試卷
- 山東職業(yè)學(xué)院《現(xiàn)代材料微觀分析方法》2023-2024學(xué)年第一學(xué)期期末試卷
- 中介勞務(wù)合同范例
- 代購(gòu)補(bǔ)充合同范例
- 山東藝術(shù)學(xué)院《農(nóng)業(yè)氣象學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 山東醫(yī)學(xué)高等專科學(xué)?!度褐悄芟到y(tǒng)網(wǎng)絡(luò)與協(xié)同技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 手術(shù)室無(wú)菌技術(shù)應(yīng)用
- 酒吧合同范例范例
- 【課件】擁有積極的人生態(tài)度 2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)上冊(cè)
- 九年級(jí)下冊(cè)孔乙己課文原文及解讀
- 英漢漢英口譯智慧樹知到答案2024年山東科技大學(xué)
- 2025屆新高三復(fù)習(xí)工作計(jì)劃暨備考策略
- 2024年國(guó)家開(kāi)放大學(xué)管理英語(yǔ)形考答案開(kāi)放大學(xué)英語(yǔ)答案
- DB63T 2318-2024 辦公用房維修管理規(guī)范
- 2024年人教版小學(xué)四年級(jí)科學(xué)(下冊(cè))期末試卷及答案
- 提高門診醫(yī)護(hù)人員手衛(wèi)生的依從性醫(yī)院護(hù)理品管圈QCC成果匯報(bào)(完整版本易修改)
- 儲(chǔ)能電站建設(shè)的可行性分析
- 2024至2030年中國(guó)測(cè)繪地理信息行業(yè)發(fā)展監(jiān)測(cè)及投資戰(zhàn)略研究報(bào)告
- 人教版數(shù)學(xué)九年級(jí)上冊(cè)說(shuō)課稿22.1.4《二次函數(shù)y=ax2+bx+c的圖象和性質(zhì)》
評(píng)論
0/150
提交評(píng)論