版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
集成學(xué)習(xí)課程大綱2018.9.15集成學(xué)習(xí)實戰(zhàn)2018.9.22Boosting與Adaboost實戰(zhàn)2018.9.29Bagging與隨機森林實戰(zhàn)集成學(xué)習(xí)集成學(xué)習(xí)(ensemblelearning)是現(xiàn)在非常火爆的機器學(xué)習(xí)方法。它本身不是一個單獨的機器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個機器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長”。集成學(xué)習(xí)可以用于分類問題集成,回歸問題集成,特征選取集成,異常點檢測集成等等,可以說所有的機器學(xué)習(xí)領(lǐng)域都可以看到集成學(xué)習(xí)的身影。集成學(xué)習(xí)集成學(xué)習(xí)綜述基本思想基礎(chǔ)分類器組合策略
對于回歸預(yù)測(數(shù)值)簡單平均加權(quán)平均對于分類預(yù)測(類別)簡單投票加權(quán)投票學(xué)習(xí)法集成學(xué)習(xí)方法BoostingAdaboostAdboost+決策樹=提升樹決策樹+GradientBoosting=GBDTBagging隨機森林(決策樹)(決策樹)ID3(信息增益)c4.5(信息增益率)CART(基尼系數(shù))Stacking模型評價方差&偏差集成學(xué)習(xí)概述對于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個個體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個強學(xué)習(xí)器,以達(dá)到博采眾長的目的。集成學(xué)習(xí)有兩個主要的問題需要解決,第一是如何得到若干個個體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個體學(xué)習(xí)器集合成一個強學(xué)習(xí)器。集成學(xué)習(xí):簡單直觀的例子對實例進行分類對多個分類器的分類結(jié)果進行某種組合來決定最終的分類,以取得比單個分類器更好的性能※定義:集成學(xué)習(xí)是使用一系列學(xué)習(xí)器進行學(xué)習(xí),并使用某種規(guī)則把各個學(xué)習(xí)結(jié)果進行整合從而獲得比單個學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機器學(xué)習(xí)方法。如果把單個分類器比作一個決策者的話,集成學(xué)習(xí)的方法就相當(dāng)于多個決策者共同進行一項決策。集成學(xué)習(xí)在概率近似正確(PAC)學(xué)習(xí)的框架中,一個概念(一個類),如果存在一個多項式的學(xué)習(xí)算法能夠?qū)W習(xí)它,如果正確率很高,那么就稱這個概念是強可學(xué)習(xí)(stronglylearnable)的。如果正確率不高,僅僅比隨即猜測略好,那么就稱這個概念是弱可學(xué)習(xí)(weaklylearnable)的。后來證明強可學(xué)習(xí)與弱可學(xué)習(xí)是等價的
解決的問題:1.弱分類器之間是怎樣的關(guān)系?2.組合時,如何選擇學(xué)習(xí)器?3.怎樣組合弱分類器?集成學(xué)習(xí)解決的問題1.弱分類器之間是怎樣的關(guān)系?
第一種就是所有的個體學(xué)習(xí)器都是一個種類的,或者說是同質(zhì)的。
第二種是所有的個體學(xué)習(xí)器不全是一個種類的,或者說是異質(zhì)的。集成學(xué)習(xí)之個體學(xué)習(xí)器個體學(xué)習(xí)器有兩種選擇:第一種就是所有的個體學(xué)習(xí)器都是一個種類的,或者說是同質(zhì)的。比如都是決策樹個體學(xué)習(xí)器,或者都是神經(jīng)網(wǎng)絡(luò)個體學(xué)習(xí)器。第二種是所有的個體學(xué)習(xí)器不全是一個種類的,或者說是異質(zhì)的。比如我們有一個分類問題,對訓(xùn)練集采用支持向量機個體學(xué)習(xí)器,邏輯回歸個體學(xué)習(xí)器和樸素貝葉斯個體學(xué)習(xí)器來學(xué)習(xí),再通過某種結(jié)合策略來確定最終的分類強學(xué)習(xí)器。集成學(xué)習(xí)之個體學(xué)習(xí)器目前而言,同質(zhì)個體學(xué)習(xí)器應(yīng)用最廣泛,一般我們常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個體學(xué)習(xí)器。而同質(zhì)個體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個體學(xué)習(xí)器按照個體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩類,第一個是個體學(xué)習(xí)器之間存在強依賴關(guān)系,一系列個體學(xué)習(xí)器基本都需要串行生成,代表算法是boosting系列算法,第二個是個體學(xué)習(xí)器之間不存在強依賴關(guān)系,一系列個體學(xué)習(xí)器可以并行生成,代表算法是bagging和隨機森林(RandomForest)系列算法。集成學(xué)習(xí)2.組合時,如何選擇學(xué)習(xí)器?
考慮準(zhǔn)確性和多樣性
準(zhǔn)確性指的是個體學(xué)習(xí)器不能太差,要有一定的準(zhǔn)確度;
多樣性則是個體學(xué)習(xí)器之間的輸出要具有差異性集成學(xué)習(xí)3.怎樣組合弱分類器?
組合策略:(1)平均法(2)投票法(3)學(xué)習(xí)法集成學(xué)習(xí)(1)平均法對于數(shù)值類的回歸預(yù)測問題思想:對于若干個弱學(xué)習(xí)器的輸出進行平均得到最終的預(yù)測輸出。簡單平均法加權(quán)平均法其中wi是個體學(xué)習(xí)器hi的權(quán)重,通常有wi≥0,集成學(xué)習(xí)(2)投票法對于分類問題的預(yù)測
思想:多個基本分類器都進行分類預(yù)測,然后根據(jù)分類結(jié)果用某種投票的原則進行投票表決,按照投票原則使用不同投票法。一票否決、一致表決、少數(shù)服從多數(shù)閾值表決:首先統(tǒng)計出把實例x劃分為Ci和不劃分為Ci的分類器數(shù)目分別是多少,然后當(dāng)這兩者比例超過某個閾值的時候把x劃分到Ci。集成學(xué)習(xí)(3)學(xué)習(xí)法之前的方法都是對弱學(xué)習(xí)器的結(jié)果做平均或者投票,相對比較簡單,但是可能學(xué)習(xí)誤差較大。代表方法是Stacking思想:不是對弱學(xué)習(xí)器的結(jié)果做簡單的邏輯處理,而是再加上一層學(xué)習(xí)器,分為2層。第一層是用不同的算法形成T個弱分類器,同時產(chǎn)生一個與原數(shù)據(jù)集大小相同的新數(shù)據(jù)集,利用這個新數(shù)據(jù)集和一個新算法構(gòu)成第二層的分類器。
集成學(xué)習(xí)集成學(xué)習(xí)主要學(xué)習(xí)方法:根據(jù)個體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩類,Boosting:個體學(xué)習(xí)器間存在強依賴關(guān)系,必須串行生成的序列化方法;
串行:下一個分類器只在前一個分類器預(yù)測不夠準(zhǔn)的實例上進行訓(xùn)練或檢驗。Bagging:個體學(xué)習(xí)器間不存在強依賴關(guān)系,可同時生成的并行化方法。并行:所有的弱分類器都給出各自的預(yù)測結(jié)果,通過組合把這些預(yù)測結(jié)果轉(zhuǎn)化為最終結(jié)果。集成學(xué)習(xí)Boosting重賦權(quán)法:即在訓(xùn)練過程的每一輪中,根據(jù)樣本分布為每一個訓(xùn)練樣本重新賦予一個權(quán)重。對無法接受帶權(quán)樣本的基學(xué)習(xí)算法,則可以通過重采樣法來處理,即在每一輪的學(xué)習(xí)中,根據(jù)樣本分布對訓(xùn)練集重新進行采樣,在用重采樣而來的樣本集對基學(xué)習(xí)器進行訓(xùn)練。
代表算法:Adboost決策樹+adboost=提升樹GBDT(GradientBoostDecisionTree)梯度提升決策樹決策樹+GradientBoosting=GBDT
其他叫法:GradientTreeBoostingGBRT(GradientBoostRegressionTree)梯度提升回歸樹MART(MultipleAdditiveRegressionTree)多決策回歸樹TreeNet決策樹網(wǎng)絡(luò)集成學(xué)習(xí)Bagging(bootstrapaggregation)Bagging的策略:
-從樣本集中用Bootstrap采樣選出n個樣本
-在所有屬性上,對這n個樣本建立分類器(CARTorSVMor...)
-重復(fù)以上兩步m次,i.e.buildm個分類器(CARTorSVMor...)
-將數(shù)據(jù)放在這m個分類器上跑,最后vote看到底分到哪一類
Bootstrap方法是非常有用的一種統(tǒng)計學(xué)上的估計方法。Bootstrap是對觀測信息進行再抽樣,進而對總體的分布特性進行統(tǒng)計推斷。Bootstrap是一種有放回的重復(fù)抽樣方法,抽樣策略就是簡單的隨機抽樣。Bagging擴展變體隨機森林(randomforest簡稱RF)隨機森林:決策樹+bagging=隨機森林集成學(xué)習(xí)從偏差-方差分解的角度偏差(bias):描述的是預(yù)測值的期望與真實值之間的差距。偏差越大,越偏離真實數(shù)據(jù),如下圖第二行所示。方差(variance)
:描述的是預(yù)測值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數(shù)據(jù)的分布越分散,如下圖右列所示。集成學(xué)習(xí)Boosting主要關(guān)注降低偏差偏差刻畫了學(xué)習(xí)算法本身的擬合能力Boosting思想,對判斷錯誤的樣本不停的加大權(quán)重,為了更好地擬合當(dāng)前數(shù)據(jù),所以降低了偏差,因此Boosting能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025安全生產(chǎn)月計劃例文
- 幼兒園工作計劃匯編
- 2025年度高中美術(shù)班教學(xué)計劃范文
- 關(guān)于幼兒園下半年工作計劃模板錦集
- 2025年1月外貿(mào)業(yè)務(wù)員工作計劃
- 中小學(xué)學(xué)籍管理工作計劃
- 2025年行政人事主管工作計劃
- 2025年中學(xué)體育教研組工作計劃例文
- 《食品添加劑概述》課件
- 《多目標(biāo)決策分析》課件
- 網(wǎng)絡(luò)設(shè)備售后服務(wù)和培訓(xùn)方案
- 大學(xué)學(xué)院輔導(dǎo)員工作室建設(shè)與管理辦法(試行)
- 微生物學(xué)(細(xì)胞型)智慧樹知到期末考試答案章節(jié)答案2024年哈爾濱師范大學(xué)
- 嚴(yán)重精神障礙患者隨訪服務(wù)記錄表
- 學(xué)前衛(wèi)生學(xué)智慧樹知到期末考試答案章節(jié)答案2024年杭州師范大學(xué)
- 2024年成都環(huán)境投資集團有限公司招聘筆試沖刺題(帶答案解析)
- 二年級美術(shù)上冊第14課奇特的夢全國公開課一等獎百校聯(lián)賽微課賽課特等獎?wù)n件
- 農(nóng)民專業(yè)合作社財務(wù)報表(三張報表)
- 版《公路工程機械臺班費用定額》
- 應(yīng)急管理部宣傳教育中心招聘筆試試卷2021
- 2024-2030年全球智能垃圾桶行業(yè)市場發(fā)展分析及前景趨勢與投資研究報告
評論
0/150
提交評論