![《機器學習與Python實踐》課件-03-02數據的正則化_第1頁](http://file4.renrendoc.com/view10/M03/19/1C/wKhkGWetQZKAFi5NAACHqF9uhl4501.jpg)
![《機器學習與Python實踐》課件-03-02數據的正則化_第2頁](http://file4.renrendoc.com/view10/M03/19/1C/wKhkGWetQZKAFi5NAACHqF9uhl45012.jpg)
![《機器學習與Python實踐》課件-03-02數據的正則化_第3頁](http://file4.renrendoc.com/view10/M03/19/1C/wKhkGWetQZKAFi5NAACHqF9uhl45013.jpg)
![《機器學習與Python實踐》課件-03-02數據的正則化_第4頁](http://file4.renrendoc.com/view10/M03/19/1C/wKhkGWetQZKAFi5NAACHqF9uhl45014.jpg)
![《機器學習與Python實踐》課件-03-02數據的正則化_第5頁](http://file4.renrendoc.com/view10/M03/19/1C/wKhkGWetQZKAFi5NAACHqF9uhl45015.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
01數據集劃分02評價指標03正則化、偏差和方差本章目錄01數據集劃分02評價指標1.數據集劃分03正則化、偏差和方差訓練集(TrainingSet):幫助我們訓練模型,簡單的說就是通過訓練集的數據讓我們確定擬合曲線的參數。
驗證集(ValidationSet):也叫做開發(fā)集(DevSet),用來做模型選擇(modelselection),即做模型的最終優(yōu)化及確定的,用來輔助我們的模型的構建,即訓練超參數,可選;測試集(TestSet):為了測試已經訓練好的模型的精確度。三者劃分:訓練集、驗證集、測試集機器學習:60%,20%,20%;70%,10%,20%深度學習:98%,1%,1%(假設百萬條數據)1.數據集劃分數據集訓練集驗證集測試集交叉驗證1.使用訓練集訓練出k個模型2.用k個模型分別對交叉驗證集計算得出交叉驗證誤差(代價函數的值)3.選取代價函數值最小的模型4.用步驟3中選出的模型對測試集計算得出推廣誤差(代價函數的值)數據不平衡是指數據集中各類樣本數量不均衡的情況.常用不平衡處理方法有采樣和代價敏感學習采樣欠采樣、過采樣和綜合采樣的方法不平衡數據的處理SMOTE(SyntheticMinorityOver-samplingTechnique)算法是過采樣中比較常用的一種。算法的思想是合成新的少數類樣本,而不是簡單地復制樣本。算法過程如圖:不平衡數據的處理(a)原始樣本(b)選定少類樣本
(d)增加樣本代價敏感學習不平衡數據的處理代價敏感學習是指為不同類別的樣本提供不同的權重,從而讓機器學習模型進行學習的一種方法比如風控或者入侵檢測,這兩類任務都具有嚴重的數據不平衡問題,可以在算法學習的時候,為少類樣本設置更高的學習權重,從而讓算法更加專注于少類樣本的分類情況,提高對少類樣本分類的查全率,但是也會將很多多類樣本分類為少類樣本,降低少類樣本分類的查準率。01數據集劃分02評價指標2.評價指標03正則化、偏差和方差預測值PositiveNegtive實際值PositiveTPFNNegtiveFPTN1.正確肯定(TruePositive,TP):
預測為真,實際為真2.正確否定(TrueNegative,TN):預測為假,實際為假3.錯誤肯定(FalsePositive,FP):
預測為真,實際為假4.錯誤否定(FalseNegative,FN):預測為假,實際為真混淆矩陣(confusion_matrix)評價指標
評價指標有100張照片,其中,貓的照片有60張,狗的照片是40張。輸入這100張照片進行二分類識別,找出這100張照片中的所有的貓。正例(Positives):識別對的負例(Negatives):識別錯的
預測值PositiveNegtive實際值PositiveTP=40FN=20NegtiveFP=10TN=30識別結果的混淆矩陣評價指標
正確率(Accuracy)=(TP+TN)/STP+TN=70,S=100,則正確率為:Accuracy=70/100=0.7
精度(Precision)=TP/(TP+FP)TP=40,TP+FP=50。Precision=40/50=0.8
召回率(Recall)=TP/(TP+FN)TP=40,TP+FN=60。則召回率為:Recall=40/60=0.67項目符號貓狗的例子識別出的正例TP+FP40+10=50識別出的負例TN+FN30+20=50總識別樣本數TP+FP+TN+FN50+50=100識別對了的正例與負例真正例+真負例=TP+TN40+30=70識別錯了的正例與負例偽正例+偽負例=FP+FN10+20=30實際總正例數量真正例+偽負例=TP+FN40+20=60實際總負例數量真負例+偽正例=TN+FP30+10=40評價指標ROC和PR曲線01數據集劃分02評價指標3.正則化、偏差和方差03正則化、偏差和方差
梯度
梯度為什么要標準化/歸一化?提升模型精度:不同維度之間的特征在數值上有一定比較性,可以大大提高分類器的準確性。加速模型收斂:最優(yōu)解的尋優(yōu)過程明顯會變得平緩,更容易正確的收斂到最優(yōu)解。3.正則化、偏差和方差w1w1w2Jw1w2Jw1w2w2BeforeNormalizationAfterNormalizationx1x2r=1x1x2Normalization3.正則化、偏差和方差歸一化(最大-最小規(guī)范化)
將數據映射到[0,1]區(qū)間Z-Score標準化
處理后的數據均值為0,方差為1數據歸一化的目的是使得各特征對目標變量的影響一致,會將特征數據進行伸縮變化,所以數據歸一化是會改變特征數據分布的。數據標準化為了不同特征之間具備可比性,經過標準化變換之后的特征數據分布沒有發(fā)生改變。就是當數據特征取值范圍或單位差異較大時,最好是做一下標準化處理。3.正則化、偏差和方差需要做數據歸一化/標準化線性模型,如基于距離度量的模型包括KNN(K近鄰)、K-means聚類、感知機和SVM、神經網絡。另外,線性回歸類的幾個模型一般情況下也是需要做數據歸一化/標準化處理的。不需要做數據歸一化/標準化決策樹、基于決策樹的Boosting和Bagging等集成學習模型對于特征取值大小并不敏感,如隨機森林、XGBoost、LightGBM等樹模型,以及樸素貝葉斯,以上這些模型一般不需要做數據歸一化/標準化處理。3.正則化、偏差和方差過擬合和欠擬合欠擬合過擬合正合適過擬合的處理1.獲得更多的訓練數據使用更多的訓練數據是解決過擬合問題最有效的手段,因為更多的樣本能夠讓模型學習到更多更有效的特征,減小噪聲的影響。2.降維即丟棄一些不能幫助我們正確預測的特征??梢允鞘止みx擇保留哪些特征,或者使用一些模型選擇的算法來幫忙(例如PCA)。3.正則化正則化(regularization)的技術,保留所有的特征,但是減少參數的大?。╩agnitude),它可以改善或者減少過擬合問題。4.集成學習方法集成學習是把多個模型集成在一起,來降低單一模型的過擬合風險。通過這張圖可以看出,各種不同算法在輸入的數據量達到一定級數后,都有相近的高準確度。于是誕生了機器學習界的名言:成功的機器學習應用不是擁有最好的算法,而是擁有最多的數據!
數據決定一切
數據大小準確率欠擬合的處理1.添加新特征當特征不足或者現有特征與樣本標簽的相關性不強時,模型容易出現欠擬合。通過挖掘組合特征等新的特征,往往能夠取得更好的效果。2.增加模型復雜度簡單模型的學習能力較差,通過增加模型的復雜度可以使模型擁有更強的擬合能力。例如,在線性模型中添加高次項,在神經網絡模型中增加網絡層數或神經元個數等。3.減小正則化系數正則化是用來防止過擬合的,但當模型出現欠擬合現象時,則需要有針對性地減小正則化系數。
正則化
正則化
正則化x[2]x[3]x[1]a[L]DropOut
keep-prob=1(沒有dropout)keep-prob=0.5(常用取值,保留一半神經元)在訓練階段使用,在測試階段不使用!Dropout正則化正則化Earlystopping代表提早停止訓練神經網絡
正則化大部分的計算機視覺任務使用很多的數據,所以數據增強是經常使用的一種技巧來提高計算機視覺系統(tǒng)的表現。計算機視覺任務的數據增強通常以下方法實現:(1)隨意翻轉、鏡像。(2)隨意裁剪。(3)扭曲變形圖片。(4)顏色轉換,然后給R、G和B三個通道上加上不同的失真值。產生大量的樣本,進行數據增強。偏差和方差方差Variance:描述的是預測值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數據的分布越分散,如右圖右列所示。偏差Bias:描述的是預測值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實數據,如右圖第二行所示。低方差高方差高偏差低偏差偏差和方差總體誤差方差偏差2最優(yōu)模型復雜度模型復雜度誤差方差、偏差和模型復雜度右圖是模型復雜度與誤差的關系,一般來說,隨著模型復雜度的增加,方差會逐漸增大,偏差會逐漸減小,在虛線處,差不多是模型復雜度的最恰當的選擇,其“偏差”和“方差”也都適度,才能“適度擬合”。偏差和方差訓練集誤差和交叉驗證集誤差近似時:偏差/欠擬合交叉驗證集誤差遠大于訓練集誤差時:方差/過擬合x1x2x1x2x1x2UnderfittingGoodfitOverfitting偏差和方差1.獲得更多的訓練實例——解決高方差2.嘗試減少特征的數量——解決高方差3.嘗試獲得更多的特征——解決高偏差4.嘗試增加多項式特征——解決高偏差5.嘗試減少正則化程度λ——解決高偏差6.嘗試增加正則化程度λ——解決高方差x1x2參考文獻[1]AndrewNg.MachineLearning[EB/OL].StanfordUniversity,2014./course/ml[2]PeterHarrington.機器學習實戰(zhàn)[M].北京:人民郵電出版社,2013.[3]TOMMMICHELLE.MachineLearning[M].NewYork:McGraw-HillCompanies,Inc,1997.[4]HastieT.,TibshiraniR.,FriedmanJ.TheElementsofStatisticalLearning[M].NewYork:Springer,2001.[5]CHRISTOPHERM.BISHOP.PatternRecognitionandMachineLearning[M].NewYork:Springer,2006.[6]KohaviR.,Scalinguptheaccuracyofna?veBayesclassifiers:Adecision-treehybrid[C]//Proceedingsofthe2ndInternationalConferenceonKnowledgeDiscoveryandDa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年調脂抗動脈粥樣硬化藥項目提案報告模范
- 2025年輸注延長管項目申請報告模板
- 2025年衛(wèi)生巾供應合同格式
- 2025年加工服務協(xié)作協(xié)議模板
- 2025年合作研發(fā)新范本協(xié)議書
- 2025年個人房產購買協(xié)議標準文本
- 2025年農村住宅用地互易協(xié)議標準化
- 2025年電氣安裝工程策劃合作框架協(xié)議范本提供
- 2025年修理廠技術師傅指導學徒合同
- 2025年信用卡消費抵押貸款協(xié)議書
- 2025版職業(yè)院校與企業(yè)合作育人合同3篇
- 自動化設備項目評估報告模板范文
- DB32T 4969-2024大型醫(yī)用設備使用監(jiān)督管理平臺基礎數據采集規(guī)范
- 2025年廣東廣州市海珠區(qū)官洲街道辦事處政府雇員招聘5人高頻重點提升(共500題)附帶答案詳解
- 《道路交通安全法》課件完整版
- 初中2025教學工作計劃
- 部編版教科版三年級科學下冊全冊教案【統(tǒng)編教材】
- 2024年度市政工程項目三方合作協(xié)議3篇
- 【大學課件】機電設備管理技術概論
- 切削加工中的刀具路徑規(guī)劃算法考核試卷
- 《推拿學》期末考試復習題庫(含答案)
評論
0/150
提交評論