




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第十四章集成學習數(shù)據(jù)分析與數(shù)據(jù)挖掘01機器學習中的若干問題20%30%40%50%機器學習(Machinelearning)是指,如果計算機程序?qū)τ谌蝿誘的性能度量P,可以通過經(jīng)驗E得到提高,則認為此程序?qū)?jīng)驗E進行了學習。
數(shù)據(jù)分析與數(shù)據(jù)挖掘的主要任務類型包括統(tǒng)計性描述、假設檢驗、方差分析、回歸分析、關(guān)聯(lián)規(guī)則、分類任務、聚類任務、離群點分析。機器學習的主要任務類型
機器學習按照訓練數(shù)據(jù)的給定方式可分為三種:有監(jiān)督學習、無監(jiān)督學習和強化學習。分類模型使用有監(jiān)督學習方式,訓練集用于訓練,測試集用于評價。機器學習的泛化問題以回歸分析做預測為例,圖14.1(a)表示欠擬合,圖14.1(b)表示擬合較好,圖14.1(c)表示過擬合。欠擬合(Underfitting)是指模型的擬合能力嚴重不足;過擬合(Overfitting)是指過于強調(diào)模型的擬合能力,而影響總體規(guī)律的學習,其泛化性能嚴重降低。誤差與模型復雜度關(guān)系如圖14.2(a)所示,誤差與模型訓練深度關(guān)系如圖14.2(b)所示。機器學習的泛化問題20%30%40%50%當采用大量特征,特別是引入許多非本質(zhì)重要特征時,會使得特征空間的維度上升,這常帶來如下問題:①數(shù)據(jù)收集的難度和代價可能上升。②使模型的參數(shù)空間更大,從而引發(fā)更嚴重的數(shù)據(jù)稀疏問題。③在機器學習中常引起過擬合問題。④那些次要的非本質(zhì)的特征可能影響重要的本質(zhì)特征在模型中的作用。維數(shù)災難問題在預測性任務中,令F(X)Hy,其中,F(xiàn)實現(xiàn)將X映射為類別y。F實質(zhì)上是一個映射,本小節(jié)按習慣(不夠嚴謹)稱F為目標函數(shù)。對特定的應用問題,F(xiàn)是一個未知的固定映射。當給定一個任意的F時就構(gòu)造了一個預測問題。機器學習模型的優(yōu)越性問題02統(tǒng)計量重抽樣技術(shù)偏差(Bias)表示預測期望值和真實值的差異。方差(Variance)表示模型預測值圍繞期望值的波動程度。在給定的一組數(shù)據(jù)中,偏差表示該組數(shù)據(jù)算術(shù)平均值距離某一特定值的偏離程度;方差表示數(shù)據(jù)圍繞這組數(shù)據(jù)均值的波動程度,可作為穩(wěn)定性度量。偏差與方差在特征空間表示確定的情況下,為克服“偏差和方差兩難”現(xiàn)象,常用三種方法:擴大數(shù)據(jù)集、多次從總體中抽樣并求期望值、重抽樣技術(shù)。令容量為n的樣本集D,樣例x(i=1,…,n)服從某個一維分布。單個留一法(Singleleaveoneout)估計是指去掉一個樣例后在剩余n-1個樣例構(gòu)成的子集上進行統(tǒng)計量估計。刀切法統(tǒng)計量估計自助法統(tǒng)計量估計自助法估計(Boostrapestimation)估計一個統(tǒng)計量θ,就是先對各自助數(shù)據(jù)集計算統(tǒng)計量θ,然后對各自助數(shù)據(jù)集上的統(tǒng)計量求均值,得到θ的自助法估計值,如式(14.14)所示。03分類器重抽樣技術(shù)與組合分類器Bagging法Bagging法,也稱自助法或裝袋法。從樣本容量為n的數(shù)據(jù)集D中,每次放回抽樣n'個樣例(一般n'≤n)構(gòu)成自助數(shù)據(jù)集,如進行b次重抽樣實驗,就會生成b個獨立的自助數(shù)據(jù)集;再用一個自助數(shù)據(jù)集去單獨地訓練一個子分類器,b個自助數(shù)據(jù)集就會訓練出b個子分類器(Subclassifier);最終由這b個子分類器進行組合分類。Boosting法,也稱提升法或增強法。Boosting法的目標是提高任何給定學習算法的準確率。它首先根據(jù)已給定的訓練集訓練一個子分類器,然后根據(jù)某種策略訓練下一個子分類器。常用兩種可選擇策略:①調(diào)整訓練樣例權(quán)重,一般是加大“現(xiàn)有已訓練的各子分類器都無法正確分類的樣例”的權(quán)重,然后訓練下一個分類器;②依據(jù)現(xiàn)有已訓練的各子分類器的誤差評價,在多個子分類器中選擇能夠最大修正分類錯誤的分類器作為下一個分類器。Boosting法20%30%40%50%從樣本選擇角度,Bagging法的各子分類器的訓練集是從原始集中按有放回抽樣方式抽取得到的自助數(shù)據(jù)集,各自助訓數(shù)據(jù)集集之間是獨立的。Boosting法的各子分類器的訓練集不變。
從樣例權(quán)重角度,Bagging法通常使用均勻取樣,每個樣例的權(quán)重相等。Boosting法通常根據(jù)上一輪的錯誤率來調(diào)整本輪樣例的權(quán)值,樣例被錯分的次數(shù)越多,權(quán)重越大。Bagging法與Boosting法的主要特點
從子分類器作用的角度,Bagging法中,通常所有子分類器的權(quán)重相等,也可構(gòu)建加權(quán)組合分類器,其權(quán)重由各子分類器性能確定。20%30%40%50%從子分類器并行訓練角度,Bagging法的各個子分類器可以并行訓練生成。Boosting法由于后續(xù)弱分類器的訓練和選擇需要利用前面弱分類器的結(jié)果,故各個子分類器只能按順序訓練生成。
從子分類器并行分類角度,Bagging法可以并行計算,最后合成。Boosting法需要串行計算,最后合成。Bagging法與Boosting法的主要特點
從訓練過擬合角度,Bagging法可有效克服過擬合現(xiàn)象。Boosting法在序列增加弱分類器的訓練過程中,仍然存在確定何時停止增加弱分類器的問題,以避免過擬合問題。組合分類器組合分類器(Combinationclassifier)是指,為了提高總體分類性能,將兩個或更多子分類器通過相互協(xié)作組合在一起所形成的一個總分類器。04隨機森林與Adaboost算法隨機森林隨機森林(Randomforest)采用多棵樹組合分類技術(shù),屬于一種重抽樣集成學習技術(shù),其算法結(jié)構(gòu)如圖14.4所示。Boosting法的目標是提供給定分類器的準確率。將給定的分類器視作弱分類器,假設其優(yōu)于“隨機猜”的性能。Boosting法通過調(diào)整訓練集權(quán)重或某種評價標準逐步增加弱分類器,最終組合成強分類器。Adaboost算法05分類模型中的若干問題有多個常用的重要模型本身只屬于二分類模型,如支持向量機、邏輯回歸、單感知機模型、二分類Adaboost算法等。用二分類器處理多分類問題多標簽分類方法多標簽分類(Multi-labelclassification)是指一個對象可以有1個或更多類別標記。之前那種每個類別有且只有1個類別標記的分類問題,稱為單標簽分類(Singlelabelclassification)。可將單標簽分類視作考試題中的單選題,而多標簽分類視作不定項選擇題(至少有一項正確,多者不限)。多標簽分類的難度通常要高于單標簽分類的難度。在通常情況下,訓練集中各類別樣例的數(shù)量大致相當,這樣的數(shù)據(jù)集稱為類別平衡數(shù)據(jù)集,簡稱平衡數(shù)據(jù)集(Balancedataset)。在有些任務中,某些類別的樣例數(shù)量特別多,而某些類別的樣例數(shù)量非常少,這樣的數(shù)據(jù)集稱為類別不平衡數(shù)據(jù)集,簡稱不平衡數(shù)據(jù)集(Imbalancedataset)。類別數(shù)據(jù)不平衡問題不平衡數(shù)據(jù)分類問題在現(xiàn)實應用中廣泛存在。例如,在銀行違約客戶識別問題中,違約客戶常占非常少的一部分;在銀行信譽卡欺詐識別中,欺詐類別樣例占比較低;在客戶流失預測中,流失客戶占比較低。(1)優(yōu)化分類器的判別閾值。(2)優(yōu)化組合分類策略。(3)多級分類優(yōu)化策略。使用多種分類器進行級聯(lián)判別,可以先優(yōu)先選用召回率較高的模型進行初步篩選,再級聯(lián)構(gòu)建分類器進行逐步尋優(yōu)提高精確率。(4)引入領域先驗知識。引入領域先驗知識,一種方式是將領域先驗知識抽取出特征,以增強分類對象的描述能力;另一種方式是運用領域知識,引入專家推理技術(shù),以提高精確率或召回率的分類識別性能。單純提高精確率與單純提高召回率的方法06本章小結(jié)本章小結(jié)集成學習是機器學習中的一類方法,主要討論與具體學習算法無關(guān)的提高分類器性能的方法,主要包括Bagging法和Boos
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級上冊數(shù)學教案 - 5.3 分餅 北師大版
- 2025年租憑合同延期申請書模板
- 五年級下冊數(shù)學教案-練習一 北師大版
- 三年級上冊語文部編版期中測試卷(含答案)
- 2024年水電站計算機監(jiān)控裝置項目資金申請報告代可行性研究報告
- 2025年濟南工程職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫含答案
- 《7 秋季星空》 教學設計-2023-2024學年科學六年級上冊青島版
- 我為爸爸慶祝父親節(jié)教案教學設計
- 2025年廣東省建筑安全員-A證考試題庫附答案
- 2025年桂林信息工程職業(yè)學院單招職業(yè)傾向性測試題庫帶答案
- 羅姓姓氏源流和遷徙分布
- 發(fā)展經(jīng)濟學 馬工程課件 1.第一章 發(fā)展中國家與發(fā)展經(jīng)濟學
- GB/T 25775-2010焊接材料供貨技術(shù)條件產(chǎn)品類型、尺寸、公差和標志
- 房屋建筑學-01概論
- 2023年大唐集團招聘筆試試題及答案新編
- 班前安全活動記錄(防水工)
- 《干部履歷表》(1999版電子版)
- 帶狀皰疹的針灸治療課件
- 花城版三年級下冊音樂教學計劃
- 全國計算機等級證書樣本
- 靜脈血標本的采集流程
評論
0/150
提交評論