多分類決策樹r語言_R語言構(gòu)造決策樹

上傳人：與*** IP屬地：天津上傳時(shí)間：2022-07-20 格式：DOC 頁數(shù)：7 大?。?98.50KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多分類決策樹r語言R語言構(gòu)造決策樹注：為了限制過擬合，可以限制生長(zhǎng)，修剪樹枝監(jiān)督機(jī)器學(xué)習(xí)中會(huì)出現(xiàn)的問題：決策樹會(huì)用到基尼指數(shù)，信息增益等知識(shí)點(diǎn)，其他分類器：KNN和隨機(jī)森林*下一版我們將用KNN和隨機(jī)森林進(jìn)行數(shù)據(jù)分類#讀取數(shù)據(jù)library(tree)dataView(data)str(data)table(data$是否預(yù)定)#將數(shù)據(jù)分為測(cè)試集和訓(xùn)練集，70:30set.seed(2134)indtrain_settest_setnrow(train_set)127nrow(test_set)111#使用tree函數(shù)構(gòu)建決策樹模型#builddecisiontreemodelusingtre

2、e()str(data)data.frame:38obs.of6variables:TOC o 1-5 h z$性別:Factorw/2levels男，”女：1122121221.$年齡:Factorw/3levels00后,80后,.:3133323333.$價(jià)格敏感:Factorw/2levels否，”是：1122112111.$是否連住:Factorw/2levels否，”是:1112211211.$提各種問題:Factorw/2levels否,是：1111121111.$是否預(yù)定:Factorw/2levels否，”是：2221212222.mytree#summarizethemod

3、elsummary(mytree)30.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問題,data=train_set)Variablesactuallyusedintreeconstruction:1是否連住提各種問題Numberofterminalnodes:3Residualmeandeviance:0.4904=11.77/24Misclassificationerrorrate:0.07407=2/27模型結(jié)果顯示，剩余偏差為0.4904,誤分類誤差為7.407%。現(xiàn)在繪制樹結(jié)構(gòu)#plotthetreeplot(myt

4、ree)text(mytree,pretty=0,cex=0.6)模型準(zhǔn)備就緒后，使用測(cè)試數(shù)據(jù)集測(cè)試模型?？梢粤私饽Ｐ偷谋憩F(xiàn)程度，以及是否過擬合和欠擬合pred_mytreepred_mytree1是否否否否是是是是是否Levels:否是#predictvaluesofclasssummary(pred_mytree)否是56#comparethepredictwithactualtable(pred_mytree)pred_mytree否是TOC o 1-5 h z56table(test_set,6)15.否是38table(pred_mytree,test_set,6)19.pred_m

5、ytree否是否23是15mean(pred_mytree!=test_set,6)10.3636364正如可見，誤分類誤差是36.4%，使用從未見過的測(cè)試機(jī)數(shù)據(jù)后，模型看起來表現(xiàn)不佳，可能是由于數(shù)據(jù)量太小所導(dǎo)致的。因此，我們把所有數(shù)據(jù)加入，并作圖mytreesummary(mytree)3.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問題,data=data)Variablesactuallyusedintreeconstruction:1是否連住性別價(jià)格敏感Numberofterminalnodes:4Residualmea

6、ndeviance:0.7214=24.53/34Misclassificationerrorrate:0.1316=5/38plot(mytree)text(mytree,pretty=0,cex=0.6)mytreesummary(mytree)3.Classificationtree:tree(formula=是否預(yù)定性別+年齡+價(jià)格敏感+是否連住+提各種問題,data=data)Variablesactuallyusedintreeconstruction:1是否連住性別價(jià)格敏感Numberofterminalnodes:4Residualmeandeviance:0.7214=24.

7、53/34Misclassificationerrorrate:0.1316=5/38plot(mytree)text(mytree,pretty=0,cex=0.6)pred_mytreepred_mytreepred_mytree1是是否是是是是是是是否Levels:否是summary(pred_mytree)否是TOC o 1-5 h z29table(pred_mytree,test_set,6)23.pred_mytree否是否11是27table(pred_mytree)pred_mytree否是29table(test_set,6)32.否是38mean(pred_mytree!

8、=test_set,6)10.2727273誤分類誤差為27.2%，有所降低下面通過修剪樹來提高模型的性能，然后使用訓(xùn)練集set.seed(2345)prune_mytreeprune_mytree$size1432144.TOC o 1-5 h z$dev17661247.$k1-Inf01450.$method1misclass53.attr(,class)1prunetree.sequenceplot(prune_mytree$size,prune_mytree$dev,type=b)樹的偏差與size的關(guān)系圖通過繪制樹的偏差與size的關(guān)系圖，可以看出，最小誤差出現(xiàn)在size=3的地方

9、，將修剪樹size設(shè)為3,并重新計(jì)算性能prune_modelsummary(prune_model)3.Classificationtree:snip.tree(tree=mytree,nodes=2L)Variablesactuallyusedintreeconstruction:1是否連住價(jià)格敏感Numberofterminalnodes:3Residualmeandeviance:0.7592=26.57/35Misclassificationerrorrate:0.1316=5/3811.plot(prune_model)text(prune_model,pretty=0,cex=0.6)pred_prunetable(pred_prune,test_set,6)3.pred_prune否是否11是27mean(pred_prune!=test_set,6)10.2727273樹修剪后的誤分類誤差為13.16%,剩余均值偏差為0.7592,且測(cè)試集的誤分類誤差為27.3%,剩余均值偏差有所提高，且誤分類誤差沒有改變。因此，樹修剪后的模型并沒有改進(jìn)原來模型的性能。下一步可以執(zhí)行k-折驗(yàn)證。過程如下：1將數(shù)據(jù)集拆分成k個(gè)折疊，建議值為k=102,對(duì)于數(shù)據(jù)集中的每個(gè)k折，在k-1折疊上建立模型，并測(cè)試模型以檢查左側(cè)折疊的有效性

人人文庫(kù)> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多分類決策樹r語言_R語言構(gòu)造決策樹

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多分類決策樹r語言_R語言構(gòu)造決策樹

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔