版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘工具--WEKA教程WEKA簡介…….2數(shù)據(jù)集……..11數(shù)據(jù)準(zhǔn)備…..24數(shù)據(jù)預(yù)處理…36分類……………63聚類………….184關(guān)聯(lián)規(guī)那么……225選擇屬性……244數(shù)據(jù)可視化…253知識流界面…2752024/5/2811、WEKA簡介WEKA的全名是懷卡托智能分析環(huán)境〔WaikatoEnvironmentforKnowledgeAnalysis〕weka也是新西蘭的一種鳥名是新西蘭懷卡托大學(xué)WEKA小組用Java開發(fā)的機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘開源軟件。其源代碼獲取2005年8月,在第11屆ACMSIGKDD國際會議上,懷卡托大學(xué)的WEKA小組榮獲了數(shù)據(jù)挖掘和知識探索領(lǐng)域的最高效勞獎,WEKA系統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。WEKA的每月下載次數(shù)已超過萬次。2024/5/282WEKA軟件主要特點(diǎn)它是集數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法〔分類、回歸、聚類、關(guān)聯(lián)分析〕和評估方法等為一體的綜合性數(shù)據(jù)挖掘工具。具有交互式可視化界面。提供算法學(xué)習(xí)比較環(huán)境通過其接口,可實(shí)現(xiàn)自己的數(shù)據(jù)挖掘算法WEKA的界面2024/5/283探索環(huán)境命令行環(huán)境知識流環(huán)境算法試驗(yàn)環(huán)境2024/5/284Explorer環(huán)境2024/5/285把“Explorer”界面分成8個區(qū)域區(qū)域1的幾個選項(xiàng)卡是用來切換不同的挖掘任務(wù)面板。Preprocess〔數(shù)據(jù)預(yù)處理〕:選擇和修改要處理的數(shù)據(jù)。Classify〔分類〕:訓(xùn)練和測試分類或回歸模型。Cluster〔聚類〕:從數(shù)據(jù)中聚類。Associate〔關(guān)聯(lián)分析〕:從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)那么。SelectAttributes〔選擇屬性〕:選擇數(shù)據(jù)中最相關(guān)的屬性。Visualize〔可視化〕:查看數(shù)據(jù)的二維散布圖。區(qū)域2是一些常用按鈕。包括翻開、編輯、保存數(shù)據(jù)及數(shù)據(jù)轉(zhuǎn)換等功能。例如,我們可以把文件“bank-data.csv”另存為“bank-data.arff”。區(qū)域3中可以選擇〔Choose〕某個篩選器〔Filter〕,以實(shí)現(xiàn)篩選數(shù)據(jù)或者對數(shù)據(jù)進(jìn)行某種變換。數(shù)據(jù)預(yù)處理主要就利用它來實(shí)現(xiàn)。2024/5/286區(qū)域4展示了數(shù)據(jù)集的關(guān)系名、屬性數(shù)和實(shí)例數(shù)等根本情況。區(qū)域5中列出了數(shù)據(jù)集的所有屬性。勾選一些屬性并“Remove”就可以刪除它們,刪除后還可以利用區(qū)域2的“Undo”按鈕找回。區(qū)域5上方的一排按鈕是用來實(shí)現(xiàn)快速勾選的。區(qū)域6中顯示在區(qū)域5中選中的當(dāng)前某個屬性的摘要。摘要包括屬性名〔Name〕、屬性類型〔Type〕、缺失值〔Missing〕數(shù)及比例、不同值〔Distinct〕數(shù)、唯一值〔Unique〕數(shù)及比例對于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。圖中顯示的是對數(shù)值屬性“income”的摘要。數(shù)值屬性顯示最小值〔Minimum〕、最大值〔Maximum〕、均值〔Mean〕和標(biāo)準(zhǔn)差〔StdDev〕標(biāo)稱屬性顯示每個不同值的計(jì)數(shù)2024/5/287區(qū)域7是區(qū)域5中選中屬性的直方圖。假設(shè)數(shù)據(jù)集的最后一個屬性〔這是分類或回歸任務(wù)的默認(rèn)目標(biāo)變量〕是類標(biāo)變量〔例如“pep”〕,直方圖中的每個長方形就會按照該變量的比例分成不同顏色的段。要想換個分段的依據(jù),在區(qū)域7上方的下拉框中選個不同的分類屬性就可以了。下拉框里選上“NoClass”或者一個數(shù)值屬性會變成黑白的直方圖。2024/5/288區(qū)域8窗口的底部區(qū)域,包括狀態(tài)欄、log按鈕和Weka鳥。狀態(tài)欄〔Status〕顯示一些信息讓你知道正在做什么。例如,如果Explorer正忙于裝載一個文件,狀態(tài)欄就會有通知。在狀態(tài)欄中的任意位置右擊鼠標(biāo)將會出現(xiàn)一個小菜單。這個菜單給了你兩個選項(xiàng):MemoryInformation--顯示W(wǎng)EKA可用的內(nèi)存量。Rungarbagecollector--強(qiáng)制運(yùn)行Java垃圾回收器,搜索不再需要的內(nèi)存空間并將之釋放,從而可為新任務(wù)分配更多的內(nèi)存。Log按鈕可以查看以weka操作日志。右邊的weka鳥在動的話,說明WEKA正在執(zhí)行挖掘任務(wù)。2024/5/289KnowledgeFlow環(huán)境2024/5/28102、WEKA數(shù)據(jù)集WEKA所處理的數(shù)據(jù)集是一個.arff文件的二維表2024/5/2811表格里的一個橫行稱作一個實(shí)例〔Instance〕,相當(dāng)于統(tǒng)計(jì)學(xué)中的一個樣本,或者數(shù)據(jù)庫中的一條記錄。豎行稱作一個屬性〔Attribute〕,相當(dāng)于統(tǒng)計(jì)學(xué)中的一個變量,或者數(shù)據(jù)庫中的一個字段。這樣一個表格,或者叫數(shù)據(jù)集,在WEKA看來,呈現(xiàn)了屬性之間的一種關(guān)系(Relation)。上圖中一共有14個實(shí)例,5個屬性,關(guān)系名稱為“weather”。WEKA存儲數(shù)據(jù)的格式是ARFF〔Attribute-RelationFileFormat〕文件,這是一種ASCII文本文件。上圖所示的二維表格存儲在如下的ARFF文件中。這也就是WEKA自帶的“weather.arff”文件,在WEKA安裝目錄的“data”子目錄下可以找到。2024/5/2812@relationweather@attributeoutlook{sunny,overcast,rainy}@attributetemperaturereal@attributehumidityreal@attributewindy{TRUE,FALSE}@attributeplay{yes,no}@datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no2024/5/2813WEKA數(shù)據(jù)文件WEKA存儲數(shù)據(jù)的格式是ARFF〔Attribute-RelationFileFormat〕文件這是一種ASCII文本文件文件的擴(kuò)展名為.arff可以用寫字板翻開、編輯ARFF文件文件中以“%”開始的行是注釋,WEKA將忽略這些行。除去注釋后,整個ARFF文件可以分為兩個局部:第一局部給出了頭信息〔Headinformation〕,包括了對關(guān)系的聲明和對屬性的聲明。第二局部給出了數(shù)據(jù)信息〔Datainformation〕,即數(shù)據(jù)集中給出的數(shù)據(jù)。從“@data”標(biāo)記開始,后面的就是數(shù)據(jù)信息了。2024/5/28142024/5/2815關(guān)系聲明關(guān)系名稱在ARFF文件的第一個有效行來定義,格式為:@relation<關(guān)系名><關(guān)系名>是一個字符串。如果這個字符串包含空格,它必須加上引號〔指英文標(biāo)點(diǎn)的單引號或雙引號〕。2024/5/2816屬性聲明屬性聲明用一列以“@attribute”開頭的語句表示。數(shù)據(jù)集中的每一個屬性都有對應(yīng)的“@attribute”語句,來定義它的屬性名稱和數(shù)據(jù)類型〔datatype〕:@attribute<屬性名><數(shù)據(jù)類型>其中<屬性名>必須以字母開頭的字符串。和關(guān)系名稱一樣,如果這個字符串包含空格,它必須加上引號。屬性聲明語句的順序很重要,它說明了該項(xiàng)屬性在數(shù)據(jù)局部的位置。例如,“humidity”是第三個被聲明的屬性,這說明數(shù)據(jù)局部那些被逗號分開的列中,第2列〔從第0列開始〕數(shù)據(jù)85908696...是相應(yīng)的“humidity”值。其次,最后一個聲明的屬性被稱作class屬性,在分類或回歸任務(wù)中,它是默認(rèn)的目標(biāo)變量。2024/5/2817數(shù)據(jù)類型WEKA支持四種數(shù)據(jù)類型numeric 數(shù)值型<nominal-specification> 標(biāo)稱〔nominal〕型string 字符串型date[<date-format>] 日期和時間型還可以使用兩個類型“integer”和“real”,但是WEKA把它們都當(dāng)作“numeric”看待。注意:“integer”,“real”,“numeric”,“date”,“string”這些關(guān)鍵字是區(qū)分大小寫的,而“relation”、“attribute”和“data”那么不區(qū)分。2024/5/2818數(shù)值型屬性數(shù)值型屬性可以是整數(shù)或者實(shí)數(shù),但WEKA把它們都當(dāng)作實(shí)數(shù)看待。例如:
@attributetemperaturereal
字符串屬性字符串屬性可以包含任意的文本。例如:
@attributeLCCstring2024/5/2819標(biāo)稱屬性標(biāo)稱屬性由<nominal-specification>列出一系列可能的類別名稱并放在花括號中:{<nominal-name1>,<nominal-name2>,<nominal-name3>,...}。數(shù)據(jù)集中該屬性的值只能是其中一種類別。例如屬性聲明:@attributeoutlook{sunny,overcast,rainy}說明“outlook”屬性有三種類別:“sunny”,“overcast”和“rainy”。而數(shù)據(jù)集中每個實(shí)例對應(yīng)的“outlook”值必是這三者之一。如果類別名稱帶有空格,仍需要將之放入引號中。2024/5/2820日期和時間屬性日期和時間屬性統(tǒng)一用“date”類型表示,它的格式是:
@attribute<屬性名>date[<date-format>]其中<date-format>是一個字符串,來規(guī)定該怎樣解析和顯示日期或時間的格式,默認(rèn)的字符串是ISO-8601所給的日期時間組合格式:“yyyy-MM-ddHH:mm:ss”數(shù)據(jù)信息局部表達(dá)日期的字符串必須符合聲明中規(guī)定的格式要求,例如:@ATTRIBUTEtimestampDATE"yyyy-MM-ddHH:mm:ss"
@DATA
"2011-05-0312:59:55"2024/5/2821數(shù)據(jù)信息數(shù)據(jù)信息中“@data”標(biāo)記獨(dú)占一行,剩下的是各個實(shí)例的數(shù)據(jù)。每個實(shí)例占一行,實(shí)例的各屬性值用逗號“,”隔開。如果某個屬性的值是缺失值〔missingvalue〕,用問號“?”表示,且這個問號不能省略。例如:
@data
sunny,85,85,FALSE,no
?,78,90,?,yes2024/5/2822稀疏數(shù)據(jù)有的時候數(shù)據(jù)集中含有大量的0值,這個時候用稀疏格式的數(shù)據(jù)存儲更加省空間。稀疏格式是針對數(shù)據(jù)信息中某個對象的表示而言,不需要修改ARFF文件的其它局部。例如數(shù)據(jù):@data
0,X,0,Y,"classA"
0,0,W,0,"classB"用稀疏格式表達(dá)的話就是
@data
{1X,3Y,4"classA"}
{2W,4"classB"}注意:ARFF數(shù)據(jù)集最左端的屬性列為第0列,因此,1X表示X為第1列屬性值。2024/5/28233、數(shù)據(jù)準(zhǔn)備數(shù)據(jù)獲取直接使用ARFF文件數(shù)據(jù)。從CSV,C4.5,binary等多種格式文件中導(dǎo)入。通過JDBC從SQL數(shù)據(jù)庫中讀取數(shù)據(jù)。從URL〔UniformResourceLocator〕獲取網(wǎng)絡(luò)資源的數(shù)據(jù)。數(shù)據(jù)格式轉(zhuǎn)換ARFF格式是WEKA支持得最好的文件格式。使用WEKA作數(shù)據(jù)挖掘,面臨的第一個問題往往是數(shù)據(jù)不是ARFF格式的。WEKA還提供了對CSV文件的支持,而這種格式是被很多其他軟件〔比方Excel〕所支持??梢岳肳EKA將CSV文件格式轉(zhuǎn)化成ARFF文件格式。2024/5/2824數(shù)據(jù)資源WEKA自帶的數(shù)據(jù)集C:\ProgramFiles\Weka-3-6\data網(wǎng)絡(luò)數(shù)據(jù)資源
2024/5/2825.XLS.CSV.ARFFExcel的XLS文件可以讓多個二維表格放到不同的工作表〔Sheet〕中,只能把每個工作表存成不同的CSV文件。翻開一個XLS文件并切換到需要轉(zhuǎn)換的工作表,另存為CSV類型,點(diǎn)“確定”、“是”忽略提示即可完成操作。在WEKA中翻開一個CSV類型文件,再另存為ARFF類型文件即可。2024/5/2826翻開Excel的Iris.xls文件2024/5/28272024/5/2828將iris.xls另存為iris.csv文件2024/5/28292024/5/28302024/5/2831在weka的Explorer中翻開Iris.csv文件2024/5/28322024/5/2833將iris.csv另存為iris.
arff文件2024/5/28342024/5/28354、數(shù)據(jù)預(yù)處理preprocess在WEKA中數(shù)據(jù)預(yù)處理工具稱作篩選器〔filters〕可以定義篩選器來以各種方式對數(shù)據(jù)進(jìn)行變換。Filter一欄用于對各種篩選器進(jìn)行必要的設(shè)置。Choose按鈕:點(diǎn)擊這個按鈕就可選擇WEKA中的某個篩選器。選定一個篩選器后,它的名字和選項(xiàng)會顯示在Choose按鈕旁邊的文本框中。2024/5/2836載入數(shù)據(jù)Explorer的預(yù)處理〔preprocess〕頁區(qū)域2的前4個按鈕用來把數(shù)據(jù)載入WEKA:Openfile....翻開一個對話框,允許你瀏覽本地文件系統(tǒng)上的數(shù)據(jù)文件。OpenURL....請求一個存有數(shù)據(jù)的URL地址。OpenDB....從數(shù)據(jù)庫中讀取數(shù)據(jù)。Generate....從一些數(shù)據(jù)生成器〔DataGenerators〕中生成人造數(shù)據(jù)。2024/5/2837去除無用屬性通常對于數(shù)據(jù)挖掘任務(wù)來說,像ID這樣的信息是無用的,可以將之刪除。在區(qū)域5勾選屬性“id”,并點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存,并重新翻開。2024/5/2838數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時候就需要對數(shù)值型的屬性進(jìn)行離散化。對取值有限的數(shù)值型屬性可通過修改.arff文件中該屬性數(shù)據(jù)類型實(shí)現(xiàn)離散化。例如,在某數(shù)據(jù)集中的“children”屬性只有4個數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把
@attributechildrennumeric
改為
@attributechildren{0,1,2,3}
就可以了。在“Explorer”中重新翻開“bank-data.arff”,看看選中“children”屬性后,區(qū)域6那里顯示的“Type”變成“Nominal”了。2024/5/2839對取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來完成。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊。現(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個文本框會彈出新窗口以修改離散化的參數(shù)。2024/5/2840在weka的Explorer中翻開Iris.arff文件2024/5/28412024/5/28422024/5/2843查看Iris數(shù)據(jù)集2024/5/28442024/5/2845查看Iris數(shù)據(jù)屬性分布圖,選擇屬性2024/5/28462024/5/28472024/5/2848通過觀察發(fā)現(xiàn)petallength最能區(qū)分各類2024/5/2849將屬性petallength離散化2024/5/28502024/5/28512024/5/28522024/5/28532024/5/28542024/5/2855離散化成10段數(shù)據(jù)等頻離散化離散化成10段數(shù)據(jù)2024/5/28562024/5/28572024/5/28582024/5/28592024/5/2860查看離散化后的Iris數(shù)據(jù)集2024/5/28612024/5/28625、分類ClassifyWEKA把分類(Classification)和回歸(Regression)都放在“Classify”選項(xiàng)卡中。在這兩個數(shù)據(jù)挖掘任務(wù)中,都有一個目標(biāo)屬性〔類別屬性,輸出變量〕。我們希望根據(jù)一個WEKA實(shí)例的一組特征屬性〔輸入變量〕,對目標(biāo)屬性進(jìn)行分類預(yù)測。為了實(shí)現(xiàn)這一目的,我們需要有一個訓(xùn)練數(shù)據(jù)集,這個數(shù)據(jù)集中每個實(shí)例的輸入和輸出都是的。觀察訓(xùn)練集中的實(shí)例,可以建立起預(yù)測的分類/回歸模型。有了這個模型,就可以對新的未知實(shí)例進(jìn)行分類預(yù)測。衡量模型的好壞主要在于預(yù)測的準(zhǔn)確程度。2024/5/2863WEKA中的典型分類算法Bayes:貝葉斯分類器BayesNet:貝葉斯信念網(wǎng)絡(luò)Na?veBayes:樸素貝葉斯網(wǎng)絡(luò)Functions:人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)MultilayerPerceptron:多層前饋人工神經(jīng)網(wǎng)絡(luò)SMO:支持向量機(jī)〔采用順序最優(yōu)化學(xué)習(xí)方法〕Lazy:基于實(shí)例的分類器IB1:1-最近鄰分類器IBk:k-最近鄰分類器2024/5/2864選擇分類算法Meta:組合方法AdaBoostM1:AdaBoostM1方法Bagging:袋裝方法Rules:基于規(guī)那么的分類器JRip:直接方法-Ripper算法Part:間接方法-從J48產(chǎn)生的決策樹抽取規(guī)那么Trees:決策樹分類器Id3:ID3決策樹學(xué)習(xí)算法〔不支持連續(xù)屬性〕J48:C4.5決策樹學(xué)習(xí)算法〔第8版本〕REPTree:使用降低錯誤剪枝的決策樹學(xué)習(xí)算法RandomTree:基于決策樹的組合方法2024/5/2865選擇分類算法2024/5/28662024/5/2867選擇模型評估方法四種方法Usingtrainingset使用訓(xùn)練集評估Suppliedtestset使用測試集評估Cross-validation交叉驗(yàn)證設(shè)置折數(shù)FoldsPercentagesplit保持方法。使用一定比例的訓(xùn)練實(shí)例作評估設(shè)置訓(xùn)練實(shí)例的百分比2024/5/2868選擇模型評估方法2024/5/2869Outputmodel.輸出基于整個訓(xùn)練集的分類模型,從而模型可以被查看,可視化等。該選項(xiàng)默認(rèn)選中。Outputper-classstats.輸出每個class的準(zhǔn)確度/反響率〔precision/recall〕和正確/錯誤〔true/false〕的統(tǒng)計(jì)量。該選項(xiàng)默認(rèn)選中。Outputevaluationmeasures.輸出熵估計(jì)度量。該選項(xiàng)默認(rèn)沒有選中。Outputconfusionmatrix.輸出分類器預(yù)測結(jié)果的混淆矩陣。該選項(xiàng)默認(rèn)選中。Storepredictionsforvisualization.記錄分類器的預(yù)測結(jié)果使得它們能被可視化表示。Outputpredictions.輸出測試數(shù)據(jù)的預(yù)測結(jié)果。注意在交叉驗(yàn)證時,實(shí)例的編號不代表它在數(shù)據(jù)集中的位置。Cost-sensitiveevaluation.誤差將根據(jù)一個價值矩陣來估計(jì)。Set…按鈕用來指定價值矩陣。Randomseedforxval/%Split.指定一個隨即種子,當(dāng)出于評價的目的需要分割數(shù)據(jù)時,它用來隨機(jī)化數(shù)據(jù)。點(diǎn)擊Moreoptions按鈕可以設(shè)置更多的測試選項(xiàng):2024/5/2870文字結(jié)果分析單擊start按鈕,Classifieroutput窗口顯示的文字結(jié)果信息:Runinformation運(yùn)行信息Classifiermodel(fulltrainingset)使用全部訓(xùn)練數(shù)據(jù)構(gòu)造的分類模型Summary針對訓(xùn)練/檢驗(yàn)集的預(yù)測效果匯總。DetailedAccuracyByClass對每個類的預(yù)測準(zhǔn)確度的詳細(xì)描述。ConfusionMatrix混淆矩陣,其中矩陣的行是實(shí)際的類,矩陣的列是預(yù)測得到的類,矩陣元素就是相應(yīng)測試樣本的個數(shù)。2024/5/2871文字結(jié)果2024/5/2872主要指標(biāo)CorrectlyClassifiedInstances正確分類率IncorrectlyClassifiedInstances錯誤分類率KappastatisticKappa統(tǒng)計(jì)數(shù)據(jù)Meanabsoluteerror平均絕對誤差Rootmeansquarederror根均方差Relativeabsoluteerror相對絕對誤差Rootrelativesquarederror相對平方根誤差TPRate(bad/good)正確肯定率FPRate(bad/good)錯誤肯定率Precision(bad/good)精確率Recall(bad/good)反響率F-Measure(bad/good)F測量Timetakentobuildmodel建?;ㄙM(fèi)的時間2024/5/2873輸出圖形結(jié)果鼠標(biāo)右鍵2024/5/2874Viewinmainwindow(查看主窗口)。在主窗口中查看輸出結(jié)果。Viewinseparatewindow(查看不同的窗口)。翻開一個獨(dú)立的新窗口來查看結(jié)果。Saveresultbuffer(保存結(jié)果的緩沖區(qū))。彈出對話框來保存輸出結(jié)果的文本文件。Loadmodel(下載模式)。從二進(jìn)制文件中載入一個預(yù)訓(xùn)練模式對象。Savemodel(保存模式)。將一個模式對象保存到二進(jìn)制文件中,也就是保存在JAVA的串行對象格式中。Re-evaluatemodeloncurrenttestset(對當(dāng)前測試集進(jìn)行重新評估)。通過已建立的模式,并利用Suppliedtestset(提供的測試集)選項(xiàng)下的Set..按鈕來測試指定的數(shù)據(jù)集。2024/5/2875Visualizeclassifiererrors(可視化分類器錯誤)。彈出一個可視化窗口來顯示分類器的結(jié)果圖。其中,正確分類的實(shí)例用叉表示,然而不正確分類的實(shí)例那么是以小正方形來表示的。Visualizetree(樹的可視化)。如果可能的話,那么彈出一個圖形化的界面來描述分類器模型的結(jié)構(gòu)(這只有一局部分類器才有的)。右鍵單擊空白區(qū)域彈出一個菜單,在面板中拖動鼠標(biāo)并單擊,就可以看見每個節(jié)點(diǎn)對應(yīng)的訓(xùn)練實(shí)例。Visualizemargincurve(邊際曲線的可視化)。產(chǎn)生一個散點(diǎn)圖來描述預(yù)測邊際的情況。邊際被定義為預(yù)測為真實(shí)值的概率和預(yù)測為真實(shí)值之外的其它某類的最高概率之差。例如加速算法通過增加訓(xùn)練數(shù)據(jù)集的邊際來更好地完成測試數(shù)據(jù)集的任務(wù)。2024/5/2876Visualizethresholdcurve(閾曲線的可視化)。產(chǎn)生一個散點(diǎn)圖來描述預(yù)測中的權(quán)衡問題,其中權(quán)衡是通過改變類之間閾值來獲取的。例如,缺省閾值為0.5,一個實(shí)例預(yù)測為positive的概率必須要大于0.5,因?yàn)?.5時實(shí)例正好預(yù)測為positive。而且圖表可以用來對精確率/反響率權(quán)衡進(jìn)行可視化,如ROC曲線分析(正確的正比率和錯誤的正比率)和其它的曲線。Visualizecostcurve(本錢曲線的可視化)。產(chǎn)生一個散點(diǎn)圖,來確切描述期望本錢,正如Drummond和Holte所描述的一樣。2024/5/2877Visualizeclassifiererrors.可視化分類錯誤實(shí)際類與預(yù)測類的散布圖。其中正確分類的結(jié)果用叉表示,分錯的結(jié)果用方框表示。2024/5/2878Visualizetree可視化樹2024/5/28792024/5/28802024/5/2881可視化邊際曲線〔Visualizemargincurve〕創(chuàng)立一個散點(diǎn)圖來顯示預(yù)測邊際值。四個變量Margin:預(yù)測邊際值Instance_number:檢驗(yàn)實(shí)例的序號Current:具有當(dāng)前預(yù)測邊際值的實(shí)例個數(shù)Cumulative:小于或等于預(yù)測邊際值的實(shí)例個數(shù)〔與Instance_number一致〕2024/5/28822024/5/2883單擊8號檢驗(yàn)實(shí)例,顯示該點(diǎn)的邊際值為0.5,有7個實(shí)例的邊際值小于0.5。2024/5/2884可視化閾值曲線〔基于類〕閾值是將檢驗(yàn)實(shí)例歸為當(dāng)前類的最小概率,使用點(diǎn)的顏色表示閾值曲線上的每個點(diǎn)通過改變閾值的大小生成可以進(jìn)行ROC分析X軸選假正率Y軸選真正率2024/5/28852024/5/28862024/5/2887ROC曲線ROC曲線〔ReceiverOperatingCharacteeristicCurve〕是顯示Classification模型真正率和假正率之間折中的一種圖形化方法。假設(shè)樣本可分為正負(fù)兩類,解讀ROC圖的一些概念定義:真正〔TruePositive,TP〕,被模型預(yù)測為正的正樣本假負(fù)〔FalseNegative,FN〕被模型預(yù)測為負(fù)的正樣本假正〔FalsePositive,FP〕被模型預(yù)測為正的負(fù)樣本真負(fù)〔TrueNegative,TN〕被模型預(yù)測為負(fù)的負(fù)樣本真正率〔TruePositiveRate,TPR〕或靈敏度〔sensitivity〕
TPR=TP/〔TP+FN〕
正樣本預(yù)測結(jié)果數(shù)/正樣本實(shí)際數(shù)假正率〔FalsePositiveRate,FPR〕
FPR=FP/〔FP+TN〕
被預(yù)測為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)(TPR=1,FPR=0)是理想模型一個好的分類模型應(yīng)該盡可能靠近圖形的左上角。2024/5/2888IRIS分類例如2024/5/2889在weka的Explorer中翻開Iris.arff文件2024/5/2890在weka的Explorer中翻開Iris.arff文件2024/5/28912024/5/2892選擇分類〔Classify〕數(shù)據(jù)挖掘任務(wù)2024/5/2893選擇分類算法2024/5/2894選擇決策樹算法Trees->J482024/5/2895設(shè)置相關(guān)參數(shù)2024/5/28962024/5/28972024/5/2898選擇檢驗(yàn)方法2024/5/28992024/5/281002024/5/281012024/5/281022024/5/281032024/5/28104執(zhí)行分類算法,建立決策樹模型2024/5/28105查看算法執(zhí)行的輸出信息2024/5/281062024/5/28107查看決策樹分類模型2024/5/281082024/5/281092024/5/28110查看分類錯誤散點(diǎn)圖2024/5/281112024/5/28112選擇其他的分類算法2024/5/281132024/5/28114選擇貝葉斯分類算法bayes->Naivebayes2024/5/28115選擇檢驗(yàn)方法2024/5/28116執(zhí)行分類算法,建立貝葉斯模型2024/5/28117進(jìn)行ROC分析2024/5/281182024/5/281192024/5/28120選擇其他的分類算法2024/5/28121選擇決策樹用戶自分類法trees->UserClssifier2024/5/28122選擇檢驗(yàn)方法2024/5/28123執(zhí)行算法2024/5/281242024/5/28125數(shù)據(jù)散點(diǎn)圖2024/5/28126但擊鼠標(biāo),確定分類邊界2024/5/28127查看相應(yīng)的分類樹2024/5/28128預(yù)測指定屬性值2024/5/28129選擇預(yù)測屬性2024/5/281302024/5/28131選擇算法2024/5/281322024/5/28133執(zhí)行算法2024/5/28134觀察輸出信息2024/5/281352024/5/28136查看分類錯誤散點(diǎn)圖2024/5/281372024/5/28138點(diǎn)擊實(shí)例,觀察詳細(xì)信息2024/5/28139該實(shí)例petallength的實(shí)際值為5.1,預(yù)測值為5.892024/5/28140訓(xùn)練BANK-DATA分類模型例如bank-data數(shù)據(jù)各屬性的含義如下:
id: auniqueidentificationnumber
age: ageofcustomerinyears(numeric)
sex: MALE/FEMALE
region: inner_city/rural/suburban/town
income: incomeofcustomer(numeric)
married: isthecustomermarried(YES/NO)
children: numberofchildren(numeric)
car: doesthecustomerownacar(YES/NO)
save_act: doesthecustomerhaveasavingaccount(YES/NO)
current_act:doesthecustomerhaveacurrentaccount(YES/NO)
mortgage:doesthecustomerhaveamortgage(YES/NO)
pep〔目標(biāo)變量〕:didthecustomerbuyaPEP(PersonalEquityPlan,個人參股方案)afterthelastmailing(YES/NO)2024/5/28141瀏覽bank-data.xls數(shù)據(jù)2024/5/28142數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為.csv格式2024/5/281432024/5/28144數(shù)據(jù)準(zhǔn)備—在WEKA中翻開bank-data.csv2024/5/281452024/5/281462024/5/281472024/5/28148數(shù)據(jù)準(zhǔn)備—在WEKA中瀏覽數(shù)據(jù)2024/5/281492024/5/28150數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為.arff格式2024/5/28151在寫字板中瀏覽bank-data.arff文件2024/5/281522024/5/28153數(shù)據(jù)預(yù)處理去除無用屬性 通常對于數(shù)據(jù)挖掘任務(wù)來說,ID這樣的信息是無用的,我們將之刪除。勾選屬性“id”,并點(diǎn)擊“Remove”。將新的數(shù)據(jù)集保存為“bank-data.arff”,重新翻開。離散化 在這個數(shù)據(jù)集中有3個變量是數(shù)值型的,分別是“age”,“income”和“children”。
其中“children”只有4個取值:0,1,2,3。這時我們直接修改ARFF文件,把
@attributechildrennumeric
改為
@attributechildren{0,1,2,3}
就可以了。
在“Explorer”中重新翻開“bank-data.arff”,看看選中“children”屬性后,顯示的“Type”變成“Nominal”了。2024/5/28154數(shù)據(jù)預(yù)處理“age”和“income”的離散化可借助WEKA中名為“Discretize”的Filter來完成。點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級找到“weka.filters.unsupervised.attribute.Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點(diǎn)擊這個文本框會彈出新窗口以修改離散化的參數(shù)。
我們不打算對所有的屬性離散化,只是針對對第1個和第4個屬性〔見屬性名左邊的數(shù)字〕,故把a(bǔ)ttributeIndices右邊改成“1,4”。方案把這兩個屬性都分成3段,于是把“bins”改成“3”。其它框里不用更改。點(diǎn)“OK”回到“Explorer”,可以看到“age”和“income”已經(jīng)被離散化成分類型的屬性。假設(shè)想放棄離散化可以點(diǎn)“Undo”。經(jīng)過上述操作得到的數(shù)據(jù)集我們保存為bank-data-final.arff。2024/5/28155數(shù)據(jù)預(yù)處理--去除無用屬性
2024/5/281562024/5/28157數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化2024/5/28158數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化用寫字板翻開bank-data.arff文件2024/5/281592024/5/28160在WEKA中重新翻開bank-data.arff文件。2024/5/281612024/5/28162觀察children屬性。2024/5/28163數(shù)據(jù)預(yù)處理—離散化“age”和“income”
2024/5/28164數(shù)據(jù)預(yù)處理—數(shù)據(jù)離散化2024/5/281652024/5/281662024/5/281672024/5/281682024/5/281692024/5/281702024/5/28171在寫字板中重新觀察bank-data.arff數(shù)據(jù)2024/5/28172訓(xùn)練分類模型2024/5/281732024/5/281742024/5/28175評估分類模型2024/5/28176選擇不同的分類算法或參數(shù)2024/5/281772024/5/28178選擇模型2024/5/281792024/5/281802024/5/281812024/5/281822024/5/281836、聚類cluster聚類分析是把對象分配給各個簇,使同簇中的對象相似,而不同簇間的對象相異。WEKA在“Explorer”界面的“Cluster”提供聚類分析工具選擇聚類算法2024/5/28184WEKA中的聚類算法2024/5/28185主要算法包括:SimpleKMeans—支持分類屬性的K均值算法DBScan—支持分類屬性的基于密度的算法EM—基于混合模型的聚類算法FathestFirst—K中心點(diǎn)算法OPTICS—基于密度的另一個算法Cobweb—概念聚類算法sIB—基于信息論的聚類算法,不支持分類屬性XMeans—能自動確定簇個數(shù)的擴(kuò)展K均值算法,不支持分類屬性2024/5/28186參數(shù)設(shè)置SimpleKMeans重要參數(shù)N—簇個數(shù)DBScan重要參數(shù)E—Eps半徑M—MinPts,Eps半徑內(nèi)點(diǎn)個數(shù)2024/5/28187SimpleKMeans重要參數(shù)2024/5/28188displayStdDevs:是否顯示數(shù)值屬性標(biāo)準(zhǔn)差和分類屬性個數(shù)distanceFunction:選擇比較實(shí)例的距離函數(shù)(默認(rèn):weka.core.EuclideanDistance)dontReplaceMissingValues:是否不使用均值/眾數(shù)〔mean/mode〕替換缺失值。maxIterations:最大迭代次數(shù)numClusters:聚類的簇?cái)?shù)preserveInstancesOrder:是否預(yù)先排列實(shí)例的順序Seed:設(shè)定的隨機(jī)種子值2024/5/28189聚類模式ClusterMode2024/5/28190使用訓(xùn)練集(Usetrainingset)—報(bào)告訓(xùn)練對象的聚類結(jié)果和分組結(jié)果使用附加的檢驗(yàn)集(Suppliedtestset)—報(bào)告訓(xùn)練對象的聚類結(jié)果和附加的檢驗(yàn)對象的分組結(jié)果百分比劃分(Percentagesplit)—報(bào)告全部對象的聚類結(jié)果、訓(xùn)練對象的聚類結(jié)果,以及檢驗(yàn)對象的分組結(jié)果監(jiān)督評估(Classestoclustersevaluation)—報(bào)告訓(xùn)練對象的聚類結(jié)果和分組結(jié)果、類/簇混淆矩陣和錯誤分組信息2024/5/28191執(zhí)行聚類算法點(diǎn)擊“Start”按鈕,執(zhí)行聚類算法2024/5/28192觀察聚類結(jié)果觀察右邊“Clustereroutput”給出的聚類結(jié)果。也可以在左下角“Resultlist”中這次產(chǎn)生的結(jié)果上點(diǎn)右鍵,“Viewinseparatewindow”在新窗口中瀏覽結(jié)果。2024/5/28193===Runinformation===%運(yùn)行信息Scheme:weka.clusterers.SimpleKMeans-N3-A“weka.core.EuclideanDistance-Rfirst-last”-I500-S10%
算法的參數(shù)設(shè)置:-N3-A“weka.core.EuclideanDistance-Rfirst-last”-I500-S10;%
各參數(shù)依次表示:%-N3–聚類簇?cái)?shù)為3;%-A“weka.core.EuclideanDistance–中心距離為歐氏距離;%-I500--最多迭代次數(shù)為500;%-S10--隨機(jī)種子值為10。Relation:iris%數(shù)據(jù)集名稱Instances:150%數(shù)據(jù)集中的實(shí)例個數(shù)2024/5/28194Attributes:5%數(shù)據(jù)集中的屬性個數(shù)及屬性名稱sepallengthsepalwidthpetallengthpetalwidthIgnored:%忽略的屬性classTestmode:Classestoclustersevaluationontrainingdata%測試模式===Modelandevaluationontainingset===%基于訓(xùn)練數(shù)據(jù)集的模型與評價kMeans%使用kMeans算法======Numberofiterations:6kMeans%迭代次數(shù)%SSE(誤差的平方和)Missingvaluesgloballyreplacedwithmean/mode%用均值/眾數(shù)替代缺失值2024/5/28195Clustercentroids:%各個簇的質(zhì)心Cluster#AttributeFullData012(150)(61)(60)(39)========================================sepallength5.84335.88855.0066.8462sepalwidth3.0642.73773,4183.0821petallength3.75874,39671,4645.7026petalwidth1.19871.4180.2442.0795Timetakentobuildmodel(fulltrainingdata):0.03seconds%建模用的時間===Modalandevaluationontrainingset===ClusteredInstances%各個簇中的實(shí)例個數(shù)及百分比。061(41%)150(33%)239(26%)2024/5/28196注意:采用有監(jiān)督聚類〔即建模數(shù)據(jù)集的類標(biāo)號〕,
才會出現(xiàn)以下執(zhí)行信息。Classattribute:class%類標(biāo)號屬性名稱ClassestoClusters:%類簇混淆矩陣012<--assignedtocluster0500|Iris-setosa4703|Iris-versicolor14036|Iris-virginisaCluster0<--Iris-versicolorCluster1<--Iris-setosaCluster2<--Iris-virginicaIncorrectlyclusteredinstances:17.011.3333%%錯分實(shí)例個數(shù)及百分比2024/5/28197文字分析SimpleKMeans非監(jiān)督模式:運(yùn)行信息、KMeans結(jié)果〔迭代次數(shù)、SSE、簇中心〕、檢驗(yàn)對象的分組信息監(jiān)督模式:運(yùn)行信息、KMeans結(jié)果〔迭代次數(shù)、SSE、簇中心〕、類/簇混淆矩陣、錯誤分組的對象個數(shù)和比例簇中心:對于數(shù)值屬性為均值,對于分類屬性為眾數(shù)DBScan非監(jiān)督模式:運(yùn)行信息、DBScan結(jié)果〔迭代次數(shù)、各個訓(xùn)練對象的分組信息〕、檢驗(yàn)對象的分組信息監(jiān)督模式:運(yùn)行信息、DBScan結(jié)果〔迭代次數(shù)、各個訓(xùn)練對象的分組信息〕、類/簇混淆矩陣、錯誤分組的對象個數(shù)和比例圖形分析〔必須將storeclustersforvisualization勾上〕可視化簇指派(Visualizeclusterassignments):2D散布圖,能夠可視化類/簇混淆矩陣2024/5/28198SimpleKMeans聚類結(jié)果分析重要的輸出信息“Withinclustersumofsquarederrors”評價聚類好壞的標(biāo)準(zhǔn)—SSE,即誤差的平方和。SSE值越小說明聚類結(jié)果越好?!癈lustercentroids:”之后列出了各個簇中心的位置。對于數(shù)值型的屬性,簇中心就是它的均值〔Mean〕,分類型的就是它的眾數(shù)〔Mode〕。“ClusteredInstances”是各個簇中實(shí)例的數(shù)目及百分比。2024/5/28199觀察可視化的聚類結(jié)果在左下方“Resultlist”列出的結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的”color”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。
2024/5/28200例如:對IRIS數(shù)據(jù)集作聚類分析2024/5/28201采用無監(jiān)督聚類,刪除原有的類標(biāo)號2024/5/28202選擇聚類數(shù)據(jù)挖掘任務(wù)2024/5/28203選擇聚類算法2024/5/28204選中SimpleKMeans算法2024/5/28205設(shè)置參數(shù)2024/5/28206聚類簇?cái)?shù)numCluster=32024/5/28207執(zhí)行聚類算法2024/5/28208觀察聚類結(jié)果2024/5/282092024/5/28210可視化聚類結(jié)果2024/5/28211保存聚類結(jié)果2024/5/282122024/5/28213在寫字板中觀察實(shí)例的簇2024/5/28214聚類實(shí)驗(yàn)—銀行客戶分類
本次實(shí)驗(yàn)利用Weka中提供的simpleKmeans(K-均值〕算法對“bank-data”數(shù)據(jù)進(jìn)行聚類分析,其目的是發(fā)現(xiàn)相似客戶群,以滿足銀行的客戶細(xì)分需求,為銀行針對不同客戶群體的營銷策略提供支持。2024/5/28215數(shù)據(jù)的準(zhǔn)備及預(yù)處理
原始數(shù)據(jù)“bank-data.xls”是excel文件格式的數(shù)據(jù),需要轉(zhuǎn)換成Weka支持的ARFF文件格式的。轉(zhuǎn)換方法:在excel中翻開“bank-data.xls”,選擇菜單文件—>另存為,在彈出的對話框中,文件名輸入“bank-data”,保存類型選擇“CSV〔逗號分隔〕”,保存,我們便可得到“bank-data.csv”文件;然后,翻開Weka的Exporler,點(diǎn)擊Openfile按鈕,翻開剛剛得到的“bank-data.csv”文件;點(diǎn)擊“save”按鈕,在彈出的對話框中,文件名輸入“bank-data.arff”,文件類型選擇“Arffdatafiles〔*.arff〕”,這樣得到的數(shù)據(jù)文件為“bank-data.arff”。2024/5/28216K均值算法只能處理數(shù)值型的屬性,遇到分類型的屬性時要把它變?yōu)榧僭O(shè)干個取值0和1的屬性。WEKA將自動實(shí)施這個分類型到數(shù)值型的變換,而且WEKA會自動對數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。因此,對于ARFF格式的原始數(shù)據(jù)“bank-data.arff”,我們所做的預(yù)處理只是刪去屬性“id”,修改屬性“children”為分類型。修改正程如下:翻開“bank-data.arff”,將@attributechildrennumeric改成如下:2024/5/28217使用WEKA聚類用“Explorer”翻開包含600條實(shí)例“bank-data.arff”,并切換到“Cluster”。點(diǎn)擊“Choose”按鈕,選擇“SimpleKMeans”。點(diǎn)擊旁邊的文本框,修改參數(shù)“numClusters”為6,說明我們希望把這600條實(shí)例聚成6類,即K=6。下面的“seed”參數(shù)是要設(shè)置一個隨機(jī)種子,依此產(chǎn)生一個隨機(jī)數(shù),用來得到K均值算法中第一次給出的K個簇中心的位置。我們暫時讓它就為10。選中“ClusterMode”的“Usetrainingset”點(diǎn)擊“Start”按鈕觀察右邊“Clustereroutput”給出的聚類結(jié)果。2024/5/282182024/5/282192024/5/282202024/5/28221結(jié)果分析
當(dāng)前,調(diào)整“seed”參數(shù),觀察Withinclustersumofsquarederrors〔SSE〕變化。采納SSE最小的一個結(jié)果?!癈lustercentroids:”之后列出了各個簇中心的位置。對于數(shù)值型的屬性,簇中心就是它的均值〔Mean〕,如cluster0的數(shù)值型變量age的均值37.1299;分類型的就是它的眾數(shù)〔Mode〕,如cluster0的分類型變量children的眾數(shù)為3,也就是說這個屬性上取值為眾數(shù)值3〔有3個孩子〕的實(shí)例最多。為了觀察可視化的聚類結(jié)果,在左下方“Resultlist”列出的結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出的窗口給出了各實(shí)例的散點(diǎn)圖。最上方的兩個框是選擇橫坐標(biāo)和縱坐標(biāo),第二行的”color”是散點(diǎn)圖著色的依據(jù),默認(rèn)是根據(jù)不同的簇“Cluster”給實(shí)例標(biāo)上不同的顏色。例如,橫坐標(biāo)選擇Instance_number,縱坐標(biāo)選擇income。2024/5/282222024/5/28223點(diǎn)擊“Save”,把聚類結(jié)果保存成bank_Cluster.arff文件??梢栽趯懽职逯蟹_觀察聚類結(jié)果文件。在這個新的ARFF文件中,“instance_number”屬性表示某實(shí)例的編號,“Cluster”屬性表示聚類算法給出的該實(shí)例所在的簇。2024/5/282247、關(guān)聯(lián)規(guī)那么associationsWEKA關(guān)聯(lián)規(guī)那么學(xué)習(xí)能夠發(fā)現(xiàn)屬性組之間的依賴關(guān)系:例如,milk,butterbread,eggs(置信度0.9and支持?jǐn)?shù)2000)對于關(guān)聯(lián)規(guī)那么L->R支持度〔support〕——同時觀察到前件和后件的概率 support=Pr(L,R)置信度〔confidence〕——出現(xiàn)前件時同時出現(xiàn)后件的概率 confidence=Pr(L,R)/Pr(L)2024/5/28225關(guān)聯(lián)規(guī)那么挖掘的主要算法WEKA數(shù)據(jù)挖掘平臺上的關(guān)聯(lián)規(guī)那么挖掘的主要算法有:Apriori--能夠得出滿足最小支持度和最小支持度的所有關(guān)聯(lián)規(guī)那么。PredictiveApriori--將置信度和支持度合并為預(yù)測精度而成為單一度測量法,找出經(jīng)過預(yù)測精度排序的關(guān)聯(lián)規(guī)那么。Terius--根據(jù)確認(rèn)度來尋找規(guī)那么,它與Apriori一樣尋找其結(jié)論中含有多重條件的規(guī)那么,但不同的是這些條件相互間是‘或’,而不是‘與’的關(guān)系。這三個算法均不支持?jǐn)?shù)值型數(shù)據(jù)。事實(shí)上,絕大局部的關(guān)聯(lián)規(guī)那么算法均不支持?jǐn)?shù)值型。所以必須將數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)按區(qū)段進(jìn)行劃分,進(jìn)行離散化分箱處理。2024/5/282262024/5/28227算法屬性設(shè)置2024/5/28228car:如果設(shè)為真,那么會挖掘類關(guān)聯(lián)規(guī)那么而不是全局關(guān)聯(lián)規(guī)那么。classindex:類屬性索引。如果設(shè)置為-1,最后的屬性被當(dāng)做類屬性。delta:以此數(shù)值為迭代遞減單位。不斷減小支持度直至到達(dá)最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)那么。lowerBoundMinSupport:最小支持度下界。metricType:度量類型,設(shè)置對規(guī)那么進(jìn)行排序的度量依據(jù)??梢允牵褐眯哦取差愱P(guān)聯(lián)規(guī)那么只能用置信度挖掘〕,提升度(lift),平衡度(leverage),確信度(conviction)。minMtric:度量的最小值。numRules:要發(fā)現(xiàn)的規(guī)那么數(shù)。outputItemSets:如果設(shè)置為真,會在結(jié)果中輸出項(xiàng)集。removeAllMissingCols:移除全部為缺失值的列。significanceLevel:重要程度。重要性測試〔僅用于置信度〕。upperBoundMinSupport:最小支持度上界。從這個值開始迭代減小最小支持度。verbose:如果設(shè)置為真,那么算法會以冗余模式運(yùn)行。2024/5/28229度量類型metricTypeWeka中設(shè)置了幾個類似置信度(confidence)的度量來衡量規(guī)那么的關(guān)聯(lián)程度,它們分別是:Lift,提升度:置信度與后件支持度的比率 lift=Pr(L,R)/(Pr(L)Pr(R))Lift=1時表示L和R獨(dú)立。這個數(shù)越大(>1),越說明L和B存在于一個購物籃中不是偶然現(xiàn)象,有較強(qiáng)的關(guān)聯(lián)度。Leverage,平衡度:在前件和后件統(tǒng)計(jì)獨(dú)立的假設(shè)下,被前件和后件同時涵蓋的超出期望值的那局部實(shí)例的比例。
leverage=Pr(L,R)-Pr(L)Pr(R)Leverage=0時L和R獨(dú)立,Leverage越大L和R的關(guān)系越密切。Conviction,可信度:也用來衡量前件和后件的獨(dú)立性。conviction=Pr(L)Pr(!R)/Pr(L,!R)〔!R表示R沒有發(fā)生〕從它和lift的關(guān)系〔對R取反,代入Lift公式后求倒數(shù)〕可以看出,這個值越大,L和R越關(guān)聯(lián)。2024/5/28230關(guān)聯(lián)規(guī)那么挖掘算法運(yùn)行信息===Runinformation===%運(yùn)行信息
Scheme:
weka.associations.Apriori-I-N10-T0-C0.9-D0.05-U1.0-M0.1-S-1.0-c-1
%
算法的參數(shù)設(shè)置:-I-N10-T0-C0.9-D0.05-U1.0-M0.5-S-1.0-c-1;
%
各參數(shù)依次表示:
%
I-輸出項(xiàng)集,假設(shè)設(shè)為false那么該值缺省;
%
N10-規(guī)那么數(shù)為10;
%
T0–度量單位選為置信度,(T1-提升度,T2杠桿率,T3確信度);
%
C0.9–度量的最小值為0.9;
%
D0.05-遞減迭代值為0.05;
%
U1.0-最小支持度上界為1.0;
%
M0.5-最小支持度下屆設(shè)為0.5;
%
S-1.0-重要程度為-1.0;
%
c-1-類索引為-1輸出項(xiàng)集設(shè)為真
%
(由于car,removeAllMissingCols,verbose都保持為默認(rèn)值False,因此在結(jié)果的參數(shù)設(shè)置為缺省,假設(shè)設(shè)為True,那么會在結(jié)果的參數(shù)設(shè)置信息中分別表示為A,R,V)
2024/5/28231Relation:
mushroom%數(shù)據(jù)集名稱
Instances:
8124%數(shù)據(jù)項(xiàng)個數(shù)
Attributes:
23%屬性項(xiàng)個數(shù)/屬性項(xiàng)
cap-shape
cap-surface
cap-color
bruises?
odor
gill-attachment
gill-spacing
gill-size
gill-color
stalk-shape
stalk-root
stalk-surface-above-ring
stalk-surface-below-ring
stalk-color-above-ring
stalk-color-below-ring
veil-type
veil-color
ring-number
ring-type
spore-print-color
population
habitat
class
2024/5/28232===Associatormodel(fulltrainingset)===Apriori
=======
Minimumsupport:0.95(7718instances)
%最小支持度0.95,即最少需要7718個實(shí)例
Minimummetric<confidence>:0.9
%最小度量<置信度>:0.9
Numberofcyclesperformed:1%進(jìn)行了1輪搜索
Generatedsetsoflargeitemsets:%生成的頻繁項(xiàng)集
SizeofsetoflargeitemsetsL(1):3
%頻繁1項(xiàng)集:3個
LargeItemsetsL(1):
%頻繁1項(xiàng)集(outputItemSets設(shè)為True,因此下面會具體列出)
gill-attachment=f7914
veil-type=p8124
veil-color=w7924
2024/5/28233SizeofsetoflargeitemsetsL(2):3
LargeItemsetsL(2):
%頻繁2項(xiàng)集
gill-attachment=fveil-type=p7914
gill-attachment=fveil-color=w7906
veil-type=pveil-color=w7924
SizeofsetoflargeitemsetsL(3):1
LargeItemsetsL(3):
%頻繁3項(xiàng)集
gill-attachment=fveil-type=pveil-color=w79062024/5/28234Bestrulesfound:
%最正確規(guī)那么
1.veil-color=w7924==>veil-type=p7924
conf:(1)
2.gill-attachment=f7914==>veil-type=p7914
conf:(1)
3.gill-attachment=fveil-color=w7906==>veil-type=p7906
conf:(1)
4.gill-attachment=f7914==>veil-color=w7906
conf:(1)
5.gill-attachment=fveil-type=p7914==>veil-color=w7906
conf:(1)
6.gill-attachment=f7914==>veil-type=pveil-color=w7906
conf:(1)
7.veil-color=w7924==>gill-attachment=f7906
conf:(1)
8.veil-type=pveil-color=w7924==>gill-attachment=f7906
conf:(1)
9.veil-color=w7924==>gill-attachment=fveil-type=p7906
conf:(1)
10.veil-type=p8124==>veil-color=w7924
conf:(0.98)
2024/5/28235數(shù)據(jù)挖掘任務(wù)挖掘支持度在10%到100%之間,并且置信度超過0.8且置信度排在前100位的分類關(guān)聯(lián)規(guī)那么數(shù)據(jù)集為“weather.nominal.arff”“car”設(shè)為True“metricType”設(shè)為confidence“minMetric”設(shè)為0.8“numRules”設(shè)為1002024/5/28236在WEKA中翻開“weather.nominal.arff”數(shù)據(jù)集2024/5/28237選擇關(guān)聯(lián)分析2024/5/28238選擇Apriori算法2024/5/28239設(shè)定參數(shù)2024/5/282402024/5/28241執(zhí)行算法2024/5/28242觀察關(guān)聯(lián)規(guī)那么2024/5/282438、屬性選擇SelectAttributes屬性選擇是搜索數(shù)據(jù)集中全部屬性的所有可能組合,找出預(yù)測效果最好的那一組屬性。為實(shí)現(xiàn)這一目標(biāo),必須設(shè)定屬性評估器〔evaluator〕和搜索策略。評估器決定了怎樣給一組屬性安排一個表示它們好壞的值。搜索策略決定了要怎樣進(jìn)行搜索。選項(xiàng)AttributeSelectionMode一欄有兩個選項(xiàng)。Usefulltrainingset.使用訓(xùn)練數(shù)據(jù)的全體決定一組屬性的好壞。Cross-validation.一組屬性的好壞通過一個交叉驗(yàn)證過程來決定。Fold和Seed分別給出了交叉驗(yàn)證的折數(shù)和打亂數(shù)據(jù)時的隨機(jī)種子。和Classify局部一樣,有一個下拉框來指定class屬性。2024/5/28244執(zhí)行選擇點(diǎn)擊Start按鈕開始執(zhí)行屬性選擇過程。它完成后,結(jié)果會輸出到結(jié)果區(qū)域中,同時結(jié)果列表中會增加一個條目。在結(jié)果列表上右擊,會給出假設(shè)干選項(xiàng)。其中前面三個〔Viewinmainwindow,Viewinseparatewindow和Saveresultbuffe〕和分類面板中是一樣的。還可以可視化精簡過的數(shù)據(jù)集〔Visualizereduceddata〕能可視化變換過的數(shù)據(jù)集〔Visualizetransformeddata〕精簡過/變換過的數(shù)據(jù)能夠通過Savereduceddata...或Savetransformeddata...選項(xiàng)來保存。2024/5/282452024/5/282462024/5/282472024/5/282482024/5/282492024/5/282502024/5/282512024/5/282529、數(shù)據(jù)可視化VisualizeWEKA的可視化頁面可以對當(dāng)前的關(guān)系作二維散點(diǎn)圖式的可視化瀏覽。散點(diǎn)圖矩陣選擇了Visualize面板后,會為所有的屬性給出一個散點(diǎn)圖矩陣,它們會根據(jù)所選的class屬性來著色。在這里可以改變每個二維散點(diǎn)圖的大小,改變各點(diǎn)的大小,以及隨機(jī)地抖動〔jitter〕數(shù)據(jù)〔使得被隱藏的點(diǎn)顯示出來〕。也可以改變用來著色的屬性,可以只選擇一組屬性的子集放在散點(diǎn)圖矩陣中,還可以取出數(shù)據(jù)的一個子樣本。注意這些改變只有在點(diǎn)擊了Update了按鈕之后才會生效。2024/5/282532024/5/28254選擇單獨(dú)的二維散點(diǎn)圖在散點(diǎn)圖矩陣的一個元素上點(diǎn)擊后,會彈出一個單獨(dú)的窗口對所選的散點(diǎn)圖進(jìn)行可視化。數(shù)據(jù)點(diǎn)散布在窗口的主要區(qū)域里。上方是兩個下拉框選擇用來選擇打點(diǎn)的坐標(biāo)軸。左邊是用作x軸的屬性;右邊是用作y軸的屬性。在x軸選擇器旁邊是一個下拉框用來選擇著色的方案。它
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《市場營銷策劃概述》課件
- 《社區(qū)康復(fù)知識講座》課件
- 單位管理制度集合大全【員工管理篇】
- 單位管理制度集粹選集【人員管理篇】
- 單位管理制度范文大全人力資源管理篇
- 單位管理制度范例匯編【職員管理】
- 《藥學(xué)專業(yè)知識(二)》高頻考點(diǎn)
- 《證人與證人證言》課件
- 農(nóng)學(xué)新篇章模板
- 酒店設(shè)施維護(hù)與管理培訓(xùn)
- 2024年7月國家開放大學(xué)法律事務(wù)??啤镀髽I(yè)法務(wù)》期末紙質(zhì)考試試題及答案
- 《教師法》培訓(xùn)課件
- 常用護(hù)理評估表及注意事項(xiàng)
- 河北省唐山地區(qū)2023-2024學(xué)年上學(xué)期期末八年級歷史試卷
- 專題06直線與圓的位置關(guān)系、圓與圓的位置關(guān)系(課時訓(xùn)練)原卷版
- 軍用裝備信息化融合與互聯(lián)
- 人才培養(yǎng)與團(tuán)隊(duì)建設(shè)計(jì)劃三篇
- 2024年急性胰腺炎急診診治專家共識解讀課件
- 六年級地方課程教案
- 【寒假預(yù)習(xí)】部編版二年級語文下冊生字練字帖(帶拼音、筆順)
- 信息技術(shù)-計(jì)算機(jī)第三方支付行業(yè)深度報(bào)告:監(jiān)管加速第三方支付合規(guī)及出清提費(fèi)利潤彈性巨大
評論
0/150
提交評論