機器學(xué)習(xí) Chap02模型評估與選擇_第1頁
機器學(xué)習(xí) Chap02模型評估與選擇_第2頁
機器學(xué)習(xí) Chap02模型評估與選擇_第3頁
機器學(xué)習(xí) Chap02模型評估與選擇_第4頁
機器學(xué)習(xí) Chap02模型評估與選擇_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,權(quán),保,留,機器學(xué)習(xí)導(dǎo)論,(2016 春季學(xué)期),二、模型評估與選擇 主講教師:周志華,.,權(quán),學(xué),機,16,南,京,大,保,20,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,留,典型的機器學(xué)習(xí)過程 什么模型好?,能很好地適用于 unseen instance,泛化能力強!,例如,錯誤率低、精度高 然而,我們手上沒有 unseen instance,,.,權(quán),所,有,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,保,留,泛化誤差 vs. 經(jīng)驗誤差,泛化誤差:在“未來”樣本上的誤差,經(jīng)驗誤差:在

2、訓(xùn)練集上的誤差,亦稱“訓(xùn)練誤差”, 泛化誤差越小越好, 經(jīng)驗誤差是否越小越好?,NO! 因為會出現(xiàn)“過擬合”(overfitting),.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,權(quán),保,留,過擬合,(overfitting),vs. 欠擬合,(underfitting),.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,用,專,所,有,權(quán),保,留,模型選擇,(model selection),三個關(guān)鍵問題:, 如何獲得測試結(jié)果? 如何評估性能優(yōu)劣? 如何判斷實質(zhì)差別?,評估方法 性能度量 比較檢驗,.,權(quán),專,用,20,16,南,京,大,學(xué),

3、機,器,學(xué),習(xí),導(dǎo),論,課,程,所,有,保,留,評估方法,關(guān)鍵:怎么獲得“測試集”(test set) ?,測試集應(yīng)該與訓(xùn)練集“互斥”,常見方法:, 留出法 (hold-out), 交叉驗證法 (cross validation) 自助法 (bootstrap),.,權(quán),20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,保,留,訓(xùn)練集,測試集,留出法 擁有的數(shù)據(jù)集,注意: 保持?jǐn)?shù)據(jù)分布一致性 (例如: 分層采樣) 多次重復(fù)劃分 (例如: 100次隨機劃分) 測試集不能太大、不能太小 (例如:1/51/3),.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程

4、,專,用,所,有,權(quán),保,留,k-折交叉驗證法,若 k = m,則得到“留一法”,(leave-one-out, LOO),.,權(quán),保,器,學(xué),習(xí),導(dǎo),論,課,學(xué),機,20,16,南,京,大,程,專,用,所,有,留,自助法 基于“自助采樣” (bootsrap sampling) 亦稱“有放回采樣”、“可重復(fù)采樣”,約有 36.8% 的樣本不出現(xiàn),訓(xùn)練集與原樣本集同規(guī)模,數(shù)據(jù)分布有所改變 “包外估計”(out-of-bag estimation),.,權(quán),專,用,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,所,有,保,留,“調(diào)參”與最終模型,算法的參數(shù):一般由人工設(shè)定,亦稱“超

5、參數(shù)” 模型的參數(shù):一般由學(xué)習(xí)確定,參數(shù)調(diào)得好不好對性能往往對最終性能有關(guān)鍵影響,調(diào)參過程相似:先產(chǎn)生若干模型,然后基于某種評估 方法進行選擇,區(qū)別:訓(xùn)練集 vs. 測試集 vs. 驗證集 (validation set),算法參數(shù)選定后,要用“訓(xùn)練集+驗證集”重新訓(xùn)練最終模型,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,用,專,所,有,權(quán),保,留,模型選擇,(model selection),三個關(guān)鍵問題:, 如何獲得測試結(jié)果? 如何評估性能優(yōu)劣? 如何判斷實質(zhì)差別?,評估方法 性能度量 比較檢驗,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所

6、,有,權(quán),保,留,性能度量,性能度量(performance measure)是衡量模型泛化能力的 評價標(biāo)準(zhǔn),反映了任務(wù)需求,使用不同的性能度量往往會導(dǎo)致不同的評判結(jié)果,什么樣的模型是“好”的,不僅取決于算法和數(shù)據(jù),,還取決于任務(wù)需求, 回歸(regression) 任務(wù)常用均方誤差:,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,權(quán),保,留,錯誤率 vs. 精度, 錯誤率:, 精度:,.,權(quán),20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,保,留, 查準(zhǔn)率:,查準(zhǔn)率 vs. 查全率, 查全率:,.,權(quán),所,用,專,有,程,課,機,

7、器,學(xué),習(xí),導(dǎo),論,大,學(xué),20,16,南,京,保,留,(BEP),PR圖: 學(xué)習(xí)器 A 優(yōu)于 學(xué)習(xí)器 C 學(xué)習(xí)器 B 優(yōu)于 學(xué)習(xí)器 C 學(xué)習(xí)器 A ? 學(xué)習(xí)器 B BEP: 學(xué)習(xí)器 A 優(yōu)于 學(xué)習(xí)器 B 學(xué)習(xí)器 A 優(yōu)于 學(xué)習(xí)器 C 學(xué)習(xí)器 B 優(yōu)于 學(xué)習(xí)器 C,PR圖, BEP 根據(jù)學(xué)習(xí)器的預(yù)測結(jié)果按正例可能性大小對樣例 進行排序,并逐個把樣本作為正例進行預(yù)測,.,權(quán),20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,保,留,F1,若對查準(zhǔn)率/查全率有不同偏好:,比 BEP 更常用的 F1 度量:,.,權(quán),20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程

8、,專,用,所,有,保,留,宏xx vs. 微xx 若能得到多個混淆矩陣: (例如多次訓(xùn)練/測試的結(jié)果,多分類的兩兩混淆矩陣),宏(macro-)查準(zhǔn)率、查全率、F1,微(micro-)查準(zhǔn)率、查全率、F1,.,權(quán),保,用,導(dǎo),論,課,程,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),專,所,有,留,ROC Curve,ROC, AUC AUC: Area Under the ROC Curve ROC (Receiver Operating Characteristic) Curve Green Spackman, IWML89 Area Under,The bigger, the better

9、,.,權(quán),用,程,專,所,有,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,保,留,非均等代價,犯不同的錯誤往往會造成不同的損失,此時需考慮“非均等代價”,(unequal cost), 代價敏感(cost-sensitive)錯誤率:,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,用,專,所,有,權(quán),保,留,模型選擇,(model selection),三個關(guān)鍵問題:, 如何獲得測試結(jié)果? 如何評估性能優(yōu)劣? 如何判斷實質(zhì)差別?,評估方法 性能度量 比較檢驗,.,權(quán),20,16,南,京,學(xué),機,器,學(xué),習(xí),導(dǎo),大,論,課,程,專,用,所,有,保,留,比較檢驗 在某

10、種度量下取得評估結(jié)果后,是否可以直接比較以評判優(yōu)劣? NO ! 因為: 測試性能不等于泛化性能 測試性能隨著測試集的變化而變化 很多機器學(xué)習(xí)算法本身有一定的隨機性,機器學(xué)習(xí),“概率近似正確”,.,程,專,用,所,有,課,權(quán),學(xué),習(xí),20,16,南,京,大,學(xué),機,器,導(dǎo),論,保,留,(萊斯利 維利昂特) (1949- ) 2010年圖靈獎,機器學(xué)習(xí)的理論基礎(chǔ) 計算學(xué)習(xí)理論 Computational learning theory Leslie Valiant,PAC (Probably Approximately Correct),learning model,Valiant, 1984,.

11、,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,所,用,有,權(quán),保,留, 兩學(xué)習(xí)器比較, 交叉驗證 t 檢驗 (基于成對 t 檢驗) k 折交叉驗證; 5x2交叉驗證 McNemar 檢驗 (基于列聯(lián)表,卡方檢驗) 多學(xué)習(xí)器比較 Friedman + Nemenyi Friedman檢驗 (基于序值,F(xiàn)檢驗; 判斷”是否都相同”) Nemenyi 后續(xù)檢驗 (基于序值,進一步判斷兩兩差別),常用方法 統(tǒng)計假設(shè)檢驗 (hypothesis test) 為學(xué)習(xí)器性能比較提供了 重要依據(jù),統(tǒng)計顯著性,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,權(quán)

12、,保,留,Friedman 檢驗圖,橫軸為平均序值,每個算法圓點為其平均序值,線段為臨界閾值的大小,若兩個算法有交疊 (A 和 B),則說明沒有顯著差別; 否則有顯著差別 (A 和 C),算法 A 顯著優(yōu)于算法 C,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,權(quán),保,留,“誤差”包含了哪些因素 ?,換言之,從機器學(xué)習(xí)的角度看,,“誤差”從何而來?,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),導(dǎo),論,課,程,專,用,所,有,權(quán),保,留,偏差-方差分解,(bias-variance decomposition),對回歸任務(wù),泛化誤差可通過“偏差-方差分解”拆解為: 期望輸出與真實 輸出的差別 同樣大小的訓(xùn)練集 的變動,所導(dǎo)致的,性能變化,訓(xùn)練樣本的標(biāo)記與,真實標(biāo)記有區(qū)別 表達了當(dāng)前任務(wù)上任何學(xué)習(xí)算法 所能達到的期望泛化誤差下界 泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù) 本身的難度共同決定,.,20,16,南,京,大,學(xué),機,器,學(xué),習(xí),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論