




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章 決策樹(shù)1學(xué)習(xí)目標(biāo)理解決策樹(shù)的基本原理及不同類別決策樹(shù)算法的區(qū)別掌握運(yùn)用Scikit-learn庫(kù)實(shí)現(xiàn)決策樹(shù)算法的基本流程與方法122目錄頁(yè)37.1基本原理7.2應(yīng)用實(shí)例決策樹(shù)7.1基本原理決策樹(shù)可視為一顆用非葉節(jié)點(diǎn)表示特征的判別函數(shù),葉節(jié)點(diǎn)表示分類結(jié)果的倒置樹(shù),其對(duì)新樣本的分類過(guò)程即是根據(jù)不同層級(jí)非葉節(jié)點(diǎn)對(duì)應(yīng)判別函數(shù)的輸出,不斷明確其所屬類別的過(guò)程。利用決策樹(shù)對(duì)新樣本進(jìn)行分類的關(guān)鍵在于提前利用訓(xùn)練樣本構(gòu)建決策樹(shù),而決策樹(shù)構(gòu)建的關(guān)鍵在于最優(yōu)特征的選擇,即將每個(gè)特征安置在哪個(gè)非葉節(jié)點(diǎn)用于相關(guān)判別函數(shù)的定義最合適。事實(shí)上,決策樹(shù)的構(gòu)建過(guò)程就是利用定義于特征的判別函數(shù),將樣本集不斷分類為類別不確定性較小的樣本子集的過(guò)程。47.1基本原理對(duì)于狗兔分類問(wèn)題,如果先利用“尾巴特征”對(duì)樣本進(jìn)行分類,則兔類與狗類樣本的類別不確定性均較?。ㄍ梦舶捅裙肺舶投淌枪沧R(shí)的規(guī)律),而若先利用“皮毛顏色”對(duì)樣本進(jìn)行分類卻不易獲得較好的效果(兔與狗均有白色皮毛的品種),此時(shí)需要再利用“耳朵特征”進(jìn)一步對(duì)樣本進(jìn)行分類。57.1基本原理如何從原特征集中確定最優(yōu)特征呢?在1975年,羅斯昆(J.RossQuinlan)提出了利用信息熵構(gòu)建決策樹(shù)的算法(即ID3),其中,利用信息熵對(duì)樣本分類結(jié)果的影響進(jìn)行度量,取得較好的效果。在此基礎(chǔ)上,后續(xù)涌現(xiàn)出許多改進(jìn)算法(如C4.5、C5.0與CART等)以進(jìn)一步提高決策樹(shù)構(gòu)建的性能,相關(guān)特征選擇準(zhǔn)則包括信息增益、信息增益率、基尼指數(shù)等幾種。67.1基本原理決策樹(shù)基本算法遵循的策略是簡(jiǎn)單而直觀的“分而治之”,即將一個(gè)問(wèn)題分解成兩個(gè)或多個(gè)相同或相關(guān)類型的子問(wèn)題,直到這些問(wèn)題變得能夠容易直接解決。在學(xué)習(xí)生活中亦是如此,我們?cè)谟龅嚼щy時(shí),不應(yīng)輕易退縮和放棄,而是根據(jù)現(xiàn)有的能力將問(wèn)題不斷分解,從自己會(huì)做的開(kāi)始,不斷優(yōu)化求解的方式實(shí)現(xiàn)問(wèn)題求解,養(yǎng)成不言放棄、精益專注的優(yōu)秀品質(zhì)。7課程思政7.1.1ID3算法
87.1.1ID3算法
97.1.1ID3算法
107.1.1ID3算法
117.1.1ID3算法
127.1.1ID3算法
137.1.1ID3算法
147.1.1ID3算法
157.1.1ID3算法ID3算法的基本步驟可描述為:步驟1.將初始樣本集作為根節(jié)點(diǎn)的待分類樣本并從特征集中利用信息增益準(zhǔn)則選擇最優(yōu)特征以對(duì)初始樣本集進(jìn)行分類,進(jìn)而生成多個(gè)樣本子集。步驟2.對(duì)于每個(gè)樣本子集,將其作為非葉節(jié)點(diǎn)的待分類樣本并利用信息增益準(zhǔn)則從未選特征中選擇最優(yōu)特征以對(duì)其進(jìn)行分類,進(jìn)而生成更多樣本子集。步驟3.重復(fù)步驟2以對(duì)持續(xù)對(duì)不同層的樣本子集進(jìn)行分類直至滿足指定終止條件(如決策樹(shù)深度)。16
7.1.2C4.5算法
17
7.1.3CART算法
18
7.1.3CART算法
19三個(gè)算法對(duì)比算法支持模型樹(shù)結(jié)構(gòu)特征選擇連續(xù)值處理缺失值處理剪枝ID3分類多叉樹(shù)信息增益不支持不支持不支持C4.5分類多叉樹(shù)信息增益比支持支持支持CART分類,回歸二叉樹(shù)基尼系數(shù)支持支持支持207.2應(yīng)用實(shí)例Scikit-learn庫(kù)包含DecisionTreeClassifier與DecisionTreeRegressor兩種分別用于分類與回歸的決策樹(shù)模型,其導(dǎo)入方法如下:fromsklearn.treeimportDecisionTreeClassifierfromsklearn.treeimportDecisionTreeRegressor217.2應(yīng)用實(shí)例函數(shù)原型如下:DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None,class_weight=None,presort=False)DecisionTreeRegressor(criterion='squared_error',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,ccp_alpha=0.0)227.2.1紅酒分類Scikit-learn庫(kù)中的紅酒數(shù)據(jù)包含178個(gè)樣本、13個(gè)特征(即酒精、蘋(píng)果酸、類黃酮等)與3種類別,利用決策樹(shù)構(gòu)建紅酒分類模型以對(duì)紅酒進(jìn)行分類。(1)問(wèn)題描述紅酒的不同構(gòu)成元素對(duì)紅酒分類具有重要的影響,利用決策樹(shù)算法對(duì)紅酒數(shù)據(jù)進(jìn)行分析:①對(duì)比不同深度時(shí)決策樹(shù)的精度變化。②分析決策樹(shù)構(gòu)建時(shí)各特征的重要性。③對(duì)決策樹(shù)結(jié)構(gòu)進(jìn)行可視化展示。(2)編程實(shí)現(xiàn)見(jiàn)7.2.1紅酒分類.py23
7.2.1紅酒分類(3)結(jié)果分析數(shù)據(jù)基本信息:(178,13)特征名稱:['alcohol','malic_acid','ash','alcalinity_of_ash','magnesium','total_phenols','flavanoids','nonflavanoid_phenols','proanthocyanins','color_intensity','hue','od280/od315_of_diluted_wines','proline']247.2.1紅酒分類25(3)結(jié)果分析(a)精度對(duì)比
(b)特征重要性圖7-2不同深度的決策樹(shù)精度對(duì)比圖7-3決策樹(shù)可視化7.2.1紅酒分類(3)結(jié)果分析在此例中,訓(xùn)練樣本集前4個(gè)樣本A類(圓形點(diǎn))、后3個(gè)為B類(方形點(diǎn));在利用K近鄰分類器對(duì)測(cè)試樣本(三角形點(diǎn))進(jìn)行分類后,測(cè)試樣本顯示為圓形點(diǎn)(A點(diǎn))或方形點(diǎn)(B類)。從K近鄰分類器采用不同權(quán)重時(shí)的對(duì)應(yīng)結(jié)果可知,序號(hào)為4的測(cè)試樣本在采用“距離倒數(shù)”權(quán)重時(shí)被分至B類,而在采用“相同”權(quán)重時(shí)卻被錯(cuò)分A類,因而,采用“距離倒數(shù)”權(quán)重時(shí)的精度相對(duì)更高。267.2.2薪水預(yù)測(cè)
對(duì)企業(yè)員工的薪水高低進(jìn)行預(yù)測(cè)以及相關(guān)因素進(jìn)行分析有利于提高求職人員的成功率及企業(yè)對(duì)人事管理的效率。一般情況下,如表7-5所示,企業(yè)員工的薪水(Y:Salary)通常與年齡(F1:Age)、性別(F2:Gender)、文化程度(F3:EducationLevel)、工作經(jīng)驗(yàn)(F4:YearsofExperience)等因素相關(guān),因而,在已知輸入X(F_1,F_2,F_3,F_4)與輸出Y相關(guān)數(shù)據(jù)的基礎(chǔ)上,可利用決策樹(shù)以求解相應(yīng)的回歸問(wèn)題以實(shí)現(xiàn)企業(yè)員工薪水的預(yù)測(cè)。(1)問(wèn)題描述利用表7-5所示數(shù)據(jù)構(gòu)建決策樹(shù)回歸模型以實(shí)現(xiàn)企業(yè)員工的薪水預(yù)測(cè),具體要求如下:①對(duì)不同特征之間的相關(guān)性進(jìn)行可視化分析。②分析決策樹(shù)在不同最大深度時(shí)的擬合優(yōu)度以確定最優(yōu)最大深度。③對(duì)不同特征的重要性進(jìn)行可視化。(2)編程實(shí)現(xiàn)見(jiàn)7.2.2薪水預(yù)測(cè).py277.2.2薪水預(yù)測(cè)(3)結(jié)果分析從圖7-4(a)所示的結(jié)果可知,員工年齡與工作經(jīng)驗(yàn)相關(guān)度較高,年齡越大,工作經(jīng)歷越長(zhǎng)、經(jīng)驗(yàn)越豐富;其他特征之間的相關(guān)性相對(duì)較弱。在構(gòu)建薪水預(yù)測(cè)模型時(shí),如圖7-4(b)所示,擬合優(yōu)度在訓(xùn)練樣本上先增長(zhǎng)而后趨于穩(wěn)定,而在測(cè)試樣本上則先增長(zhǎng)而后在最大深度值為3時(shí)開(kāi)始降低,表明決策樹(shù)模型復(fù)雜度在最大深度設(shè)置為3時(shí)較優(yōu)。此外,對(duì)于特征重要性,如圖7-4(c)所示,工作經(jīng)驗(yàn)對(duì)薪水預(yù)測(cè)精度的影響最大,而年齡也是影響薪水預(yù)測(cè)精度的重要因素。28(a)特征相關(guān)性
(b)擬合優(yōu)度變化
(c)特征重要性本章小結(jié)決策樹(shù)通過(guò)直觀的樹(shù)型結(jié)構(gòu)對(duì)樣本進(jìn)行分類,既可用于離散型數(shù)據(jù)也可用于連續(xù)型數(shù)據(jù),而且數(shù)據(jù)基
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 出兌攤位合同范本
- 別墅設(shè)計(jì)合同范例
- 個(gè)人門窗施工合同范本
- 鄉(xiāng)村空房轉(zhuǎn)讓合同范本
- 第7課《敬業(yè)與樂(lè)業(yè)》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版語(yǔ)文九年級(jí)上冊(cè)
- 加盟金額寫(xiě)入合同范例
- 保本合同范本
- 切割加工項(xiàng)目合同范本
- 企業(yè)贊助活動(dòng)合同范本
- 交技術(shù)合同范本
- 初中英語(yǔ) 滬教牛津版 9A U7-1 Reading Tom Sawyer paints the fence 課件
- 騙提個(gè)人住房公積金檢討書(shū)
- 監(jiān)控系統(tǒng)維保方案計(jì)劃及報(bào)價(jià)
- 無(wú)線通信與網(wǎng)絡(luò)復(fù)習(xí)資料
- ABCD2評(píng)分量表(TIA早期卒中風(fēng)險(xiǎn)預(yù)測(cè)工具)
- E-learning平臺(tái)使用手冊(cè)(培訓(xùn)管理員版)
- 自動(dòng)化物料編碼規(guī)則
- 人教版小學(xué)數(shù)學(xué)五年級(jí)下冊(cè)教材分析
- 小學(xué)音樂(lè)教材分析
- 委托收款三方協(xié)議
- 黃岡市2021-2022高一上學(xué)期期末考試數(shù)學(xué)試題及答案
評(píng)論
0/150
提交評(píng)論