多分類決策樹r語言_R語言構(gòu)造決策樹_第1頁
多分類決策樹r語言_R語言構(gòu)造決策樹_第2頁
多分類決策樹r語言_R語言構(gòu)造決策樹_第3頁
多分類決策樹r語言_R語言構(gòu)造決策樹_第4頁
多分類決策樹r語言_R語言構(gòu)造決策樹_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多分類決策樹r語言R語言構(gòu)造決策樹注:為了限制過擬合,可以限制生長(zhǎng),修剪樹枝監(jiān)督機(jī)器學(xué)習(xí)中會(huì)出現(xiàn)的問題:決策樹會(huì)用到基尼指數(shù),信息增益等知識(shí)點(diǎn),其他分類器:KNN和隨機(jī)森林*下一版我們將用KNN和隨機(jī)森林進(jìn)行數(shù)據(jù)分類#讀取數(shù)據(jù)library(tree)dataView(data)str(data)table(data$是否預(yù)定)#將數(shù)據(jù)分為測(cè)試集和訓(xùn)練集,70:30set.seed(2134)indtrain_settest_setnrow(train_set)127nrow(test_set)111#使用tree函數(shù)構(gòu)建決策樹模型#builddecisiontreemodelusingtre

2、e()str(data)data.frame:38obs.of6variables:TOC o 1-5 h z$性別:Factorw/2levels男,”女:1122121221.$年齡:Factorw/3levels00后,80后,.:3133323333.$價(jià)格敏感:Factorw/2levels否,”是:1122112111.$是否連住:Factorw/2levels否,”是:1112211211.$提各種問題:Factorw/2levels否,是:1111121111.$是否預(yù)定:Factorw/2levels否,”是:2221212222.mytree#summarizethemod

3、elsummary(mytree)30.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問題,data=train_set)Variablesactuallyusedintreeconstruction:1是否連住提各種問題Numberofterminalnodes:3Residualmeandeviance:0.4904=11.77/24Misclassificationerrorrate:0.07407=2/27模型結(jié)果顯示,剩余偏差為0.4904,誤分類誤差為7.407%。現(xiàn)在繪制樹結(jié)構(gòu)#plotthetreeplot(myt

4、ree)text(mytree,pretty=0,cex=0.6)模型準(zhǔn)備就緒后,使用測(cè)試數(shù)據(jù)集測(cè)試模型??梢粤私饽P偷谋憩F(xiàn)程度,以及是否過擬合和欠擬合pred_mytreepred_mytree1是否否否否是是是是是否Levels:否是#predictvaluesofclasssummary(pred_mytree)否是56#comparethepredictwithactualtable(pred_mytree)pred_mytree否是TOC o 1-5 h z56table(test_set,6)15.否是38table(pred_mytree,test_set,6)19.pred_m

5、ytree否是否23是15mean(pred_mytree!=test_set,6)10.3636364正如可見,誤分類誤差是36.4%,使用從未見過的測(cè)試機(jī)數(shù)據(jù)后,模型看起來表現(xiàn)不佳,可能是由于數(shù)據(jù)量太小所導(dǎo)致的。因此,我們把所有數(shù)據(jù)加入,并作圖mytreesummary(mytree)3.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問題,data=data)Variablesactuallyusedintreeconstruction:1是否連住性別價(jià)格敏感Numberofterminalnodes:4Residualmea

6、ndeviance:0.7214=24.53/34Misclassificationerrorrate:0.1316=5/38plot(mytree)text(mytree,pretty=0,cex=0.6)mytreesummary(mytree)3.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問題,data=data)Variablesactuallyusedintreeconstruction:1是否連住性別價(jià)格敏感Numberofterminalnodes:4Residualmeandeviance:0.7214=24.

7、53/34Misclassificationerrorrate:0.1316=5/38plot(mytree)text(mytree,pretty=0,cex=0.6)pred_mytreepred_mytreepred_mytree1是是否是是是是是是是否Levels:否是summary(pred_mytree)否是TOC o 1-5 h z29table(pred_mytree,test_set,6)23.pred_mytree否是否11是27table(pred_mytree)pred_mytree否是29table(test_set,6)32.否是38mean(pred_mytree!

8、=test_set,6)10.2727273誤分類誤差為27.2%,有所降低下面通過修剪樹來提高模型的性能,然后使用訓(xùn)練集set.seed(2345)prune_mytreeprune_mytree$size1432144.TOC o 1-5 h z$dev17661247.$k1-Inf01450.$method1misclass53.attr(,class)1prunetree.sequenceplot(prune_mytree$size,prune_mytree$dev,type=b)樹的偏差與size的關(guān)系圖通過繪制樹的偏差與size的關(guān)系圖,可以看出,最小誤差出現(xiàn)在size=3的地方

9、,將修剪樹size設(shè)為3,并重新計(jì)算性能prune_modelsummary(prune_model)3.Classificationtree:snip.tree(tree=mytree,nodes=2L)Variablesactuallyusedintreeconstruction:1是否連住價(jià)格敏感Numberofterminalnodes:3Residualmeandeviance:0.7592=26.57/35Misclassificationerrorrate:0.1316=5/3811.plot(prune_model)text(prune_model,pretty=0,cex=0.6)pred_prunetable(pred_prune,test_set,6)3.pred_prune否是否11是27mean(pred_prune!=test_set,6)10.2727273樹修剪后的誤分類誤差為13.16%,剩余均值偏差為0.7592,且測(cè)試集的誤分類誤差為27.3%,剩余均值偏差有所提高,且誤分類誤差沒有改變。因此,樹修剪后的模型并沒有改進(jìn)原來模型的性能。下一步可以執(zhí)行k-折驗(yàn)證。過程如下:1將數(shù)據(jù)集拆分成k個(gè)折疊,建議值為k=102,對(duì)于數(shù)據(jù)集中的每個(gè)k折,在k-1折疊上建立模型,并測(cè)試模型以檢查左側(cè)折疊的有效性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論