版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
決策樹分類法中原資管所李維平老師決策樹的重要性在商業(yè)界最常用的方法之一DecisionTree之意義DecisionTree之意義If WehavemuchmoneyAND WearebuyingagiftforanadultTHEN BuyacarIf WehavemuchmoneyAND WerebuyingagiftforachildTHEN BuyacomputerYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoYes有弦?用吹的?彎如弓的?演奏時要用下巴夾的?用彈的?有鍵盤的?木管樂器?有簧片?有雙簧片?銅管樂器?常用於通俗樂器中?比演奏者高?常用於通俗樂器中?有十根弦以上?打擊樂器?有弦?鼓棒?有音鎚的?曲型的?筆直的?彈奏?小提琴中提琴低音提琴大提琴不知道豎琴詩琴揚(yáng)琴不知道電子樂器風(fēng)琴Yes撥弦古鋼琴鋼琴YesNoYesNo名詞解釋根節(jié)點葉節(jié)點內(nèi)部節(jié)點決策樹本質(zhì):是一個分類器收入年齡職業(yè)…分類器好普通差銀行客戶:信用分類“信用”為
目標(biāo)屬性:決策樹決策樹優(yōu)點:可以萃取分類規(guī)則例如:銀行新客戶的信用分類問題決策樹X1X2Y決策樹例子1:信用好,2:信用差收入年齡X2X1222222211111307萬5萬3萬年齡1111112222222年齡<30年齡>30收入1122221111222
收入<5萬
收入>5萬單純資料混亂資料例子:舊客客戶購買之歷歷史資料No性別學(xué)院購買產(chǎn)品1男商電腦2男人文手機(jī)3女商電腦4女人文手機(jī)新客戶:女生生、商學(xué)院,,請問她最可可能購買的產(chǎn)產(chǎn)品?決策樹例子1:電腦,2:手機(jī)學(xué)院性別1212男女學(xué)院2211商人文單純資料男女商人文電腦電腦手機(jī)手機(jī)性別混亂資料(混亂度高)(混亂度低)決策樹目標(biāo)屬性:購購買產(chǎn)品類別別輸入屬性:性性別、學(xué)院、年級性別年級學(xué)院……購買產(chǎn)品購買產(chǎn)品混亂度定義:一群物物件的目標(biāo)屬性混亂的程度三種計算方式式:P1*P2[0~1/4]P1:這群物件目標(biāo)屬性值為1的機(jī)率P2:這群物件目標(biāo)屬性值為2的機(jī)率Min(P1,P2)[0~1/2]Entropy:-P1log2P1-P2log2P2[0~1]練習(xí):計算算混亂度1,1,1,11,1,1,21,1,2,2Min(P1,P2)P1*P2決策樹精神挑選一輸入屬性,能將目標(biāo)屬性的混亂度降到最低決策樹演算法法(Step1)選擇一一輸入屬性,將所有objects作分類(Step2)計算分分類後之平均混亂度(Step3)選擇能使混亂度降得最低的屬屬性,作為節(jié)點之判判別屬性(Step4)反覆(Step1~3),直到停止條件停止條件當(dāng)葉節(jié)點滿足足下列條件即即停止1.所有物物件的目標(biāo)屬性,皆為同一類2.沒沒有輸入入屬性可可以降低低混亂度決策樹模模型:三三階段段模式訓(xùn)練階段將決策樹樹訓(xùn)練出出來測試階段測試決策策樹的準(zhǔn)準(zhǔn)確性運(yùn)用階段可對一未未知資料料作分類類DecisionTree之準(zhǔn)準(zhǔn)確率利用””測試資資料”作作測試試練習(xí)ageincomestudentcredit_ratingbuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentnoage?income?creditrating?fairexcellent<=30>40nonoyesyesyes30~40RootNodeChildNodeLeafNodehmlno決策樹相相關(guān)演算算法ID3:(前面所所教)Quinlan1979輸入屬性性為離散C4.5:(IBMMining軟軟體所採採用)Breiman1984輸入屬性性可為連續(xù)決策樹mining過程程A決定定想解決決的問題題B決定定目標(biāo)屬屬性與輸輸入屬性性C決定定資料範(fàn)範(fàn)圍D資料料前處理理或許需要要將連續(xù)變數(shù)數(shù)改為”離散”變數(shù)E建構(gòu)構(gòu)決策樹樹,並解解釋結(jié)果果F若無無法解釋釋,應(yīng)回回到A或B再再思考決策樹專專案注注意事項項(1/2)目標(biāo)變數(shù)數(shù)應(yīng)為””離散散(類別別)”變變數(shù)值不能太太多輸入變數(shù)數(shù)關(guān)聯(lián)性太太高不適適合使用用預(yù)測所得得高低:輸入入變數(shù)為為年齡齡,職職業(yè),繳繳稅高高低預(yù)測打擊擊率高低低:輸輸入變數(shù)數(shù)為年年齡,守守備位位置,長長打率率,月月薪?jīng)Q策樹專專案注注意事項項(2/2)目標(biāo)屬性性與輸入入屬性關(guān)關(guān)聯(lián)性太太低例如:樂樂透獎獎輸入:年年,月,,週,日日輸出:樂樂透號碼碼作業(yè)(碩專)時間:2週請於3/24(一)前,將將報告mail給給老師與與上課成成員報告請用用Word檔撰撰寫,約約3~6頁應(yīng)說明每每位組員員的貢獻(xiàn)獻(xiàn)若有問題題詢問,,每位組組員皆可可回答附錄下週報告告(大學(xué)學(xué)部
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報參考:明代戲曲的少數(shù)民族書寫研究
- 二零二五年度智慧城市人工費(fèi)承包合同協(xié)議2篇
- 二零二五年度民房租賃合同終止協(xié)議范本
- 2025年度建筑模板施工班組質(zhì)量保修服務(wù)合同
- 2025年度個人在線教育平臺會員貸款合同(含課程更新)4篇
- 河南省鄭州市智林學(xué)校高三上學(xué)期期末考試語文試題(含答案)
- 二零二五年度抹灰施工安全教育培訓(xùn)資源共享合同4篇
- 二零二五年度新型木門安裝與綠色建材采購合同4篇
- 2025年度企業(yè)內(nèi)部培訓(xùn)項目合同書范本4篇
- 2025年度苗木養(yǎng)護(hù)與生態(tài)園林景觀改造合同4篇
- CONSORT2010流程圖(FlowDiagram)【模板】文檔
- 腦電信號處理與特征提取
- 游戲綜合YY頻道設(shè)計模板
- 高中數(shù)學(xué)知識點全總結(jié)(電子版)
- GB/T 10322.7-2004鐵礦石粒度分布的篩分測定
- 2023新譯林版新教材高中英語必修一重點詞組歸納總結(jié)
- 蘇教版四年級數(shù)學(xué)下冊第3單元第2課時“常見的數(shù)量關(guān)系”教案
- 弘揚(yáng)中華傳統(tǒng)文化課件
- 基于協(xié)同過濾算法的電影推薦系統(tǒng)設(shè)計
- 消防應(yīng)急預(yù)案流程圖
- 人教統(tǒng)編版高中語文必修下冊第六單元(單元總結(jié))
評論
0/150
提交評論