![模式識別第11章獨立于算法的機器學習_第1頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae181.gif)
![模式識別第11章獨立于算法的機器學習_第2頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae182.gif)
![模式識別第11章獨立于算法的機器學習_第3頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae183.gif)
![模式識別第11章獨立于算法的機器學習_第4頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae184.gif)
![模式識別第11章獨立于算法的機器學習_第5頁](http://file4.renrendoc.com/view/6e294e8845288749477d5a11c21dae18/6e294e8845288749477d5a11c21dae185.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第十一章獨立于算法的機器學習11.1模式識別中的哲學這里討論的是一些獨立于具體識別算法的一般性原理,但可以適用于任何一個特定的識別方法:沒有免費午餐定理;丑小鴨定理;Occam剃刀原理。沒有免費的午餐定理
(NFL,NoFreeLunchTheorem)不存在一個與具體應(yīng)用無關(guān)的,普遍適用的“最優(yōu)分類器”;學習算法必須要作出一個與問題領(lǐng)域有關(guān)的“假設(shè)”,分類器必須與問題域相適應(yīng)。丑小鴨定理(UglyDuckling)不存在與問題無關(guān)的“最優(yōu)”的特征集合或?qū)傩约希灰餐瑯硬淮嬖谂c問題無關(guān)的模式之間的“相似性度量”。Occam剃刀原理設(shè)計者不應(yīng)該選用比“必要”更加復(fù)雜的分類器,“必要”是由訓練數(shù)據(jù)的擬合情況決定的;在對訓練數(shù)據(jù)分類效果相同時,“簡單的”分類器往往優(yōu)于“復(fù)雜的”分類器;根據(jù)“沒有免費午餐定理”,不能說“簡單的”分類器對“復(fù)雜的”分類器具有天生的優(yōu)越性,但在現(xiàn)實世界中遇到的各種問題,這種優(yōu)越性往往是存在。11.2分類性能評價方法使用什么樣本測試分類器的性能?如何劃分樣本集?兩分法:隨機地將樣本集D劃分為不相交的兩個集合Dl和Dt,分別用于學習分類器和測試分類器性能。訓練樣本集(Dl)測試樣本集(Dt)分類性能評價方法交叉驗證:將樣本集D隨機地劃分為互不相交的k個子集:使用k-1個子集的樣本訓練一個分類器;測試沒有參與訓練子集的樣本;重復(fù)k次取平均。留一法(刀切法):k=nD1…D2Dk-1DkDlDt分類性能評價方法Bootstrap方法(自助法):從樣本集D中有放回地抽取n個樣本用于訓練;從樣本集D中有放回地抽取n個樣本用于測試;重復(fù)k次取平均。樣本集D樣本集Dl樣本集Dt11.3分類設(shè)計的重采樣技術(shù)分類器設(shè)計的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合(arcing,adaptivereweightingandcombining);這類方法的主要思想是利用同一個訓練樣本集合構(gòu)造多個分類器,然后以某種方式將這些分類器組合成一個分類器;主要方法包括:bagging算法和boosting算法bagging算法從大小為n的原始數(shù)據(jù)集D中獨立隨機地抽取n’個數(shù)據(jù)(n’<n),形成一個自助數(shù)據(jù)集;重復(fù)上述過程,產(chǎn)生出多個獨立的自助數(shù)據(jù)集;利用每個自助數(shù)據(jù)集訓練出一個“分量分類器”;最終的分類結(jié)果由這些“分量分類器”各自的判別結(jié)果投票決定。boosting算法boosting算法同樣是利用訓練樣本集合構(gòu)造多個分量分類器,它只要求這個分量分類器是一個弱分類器—準確率比平均性能好即可。2類問題,3個分量分類器的訓練算法:在數(shù)量為n的原始樣本集D中隨機選取n1個樣本構(gòu)成D1,利用D1訓練出一個分類器C1;在樣本集D-D1中選擇被C1正確分類和錯誤分類的樣本各一半組成樣本集D2,用D2訓練出一個分類器C2;將樣本集D-D1-D2中所有C1和C2分類結(jié)果不同的樣本組成樣本集D3,訓練出一個分類器C3;boosting的分類算法對新的樣本x進行分類,如果C1和C2判別結(jié)果相同,則將x判別為此類別,否則以C3的結(jié)果作為x的類別;原始樣本集分量分類器組合分類器AdaBoost方法AdaBoost(adaptiveboosting)是boosting方法的一個重要變形,一般所說的boosting方法均是指AdaBoost;AdaBoost方法中,設(shè)計者可以不斷地增加分量分類器,直到達到足夠小的錯誤率為止;總體分類結(jié)果是由各分量分類器加權(quán)平均得到,權(quán)重由分量分類器的錯誤率確定。AdaBoost方法begininitializeD,kmax,W1(i)1/n,i=1,…,n;
k0;dokk+1
訓練使用按照Wk(i)采樣D的弱分類器Ck;
Ek用Wk(i)采樣D的樣本集測量Ck的訓練誤差;
untilk=kmax;
endAdaBoost方法算法中Wk(i)為每一步迭代中對每個樣本的加權(quán),Zk是歸一化因子,Ck為第k個分量分類器,αk為對Ck的加權(quán);總體的判別函數(shù)由各分量分類器的加權(quán)平均得到: 其中為Ck分類器給出的判別結(jié)果。AdaBoost方法的推廣能力AdaBoost方法實際上是增加了分類器的復(fù)雜程度,但實踐表明此方法出現(xiàn)“過擬合”的現(xiàn)象極少,這是此方法最吸引人的地方。針對特征的Boosting算法特征選擇:就是從一組數(shù)量為n的特征中選擇出數(shù)量為m的最優(yōu)特征;最優(yōu)特征組合的評價標準;選擇出最優(yōu)特征組合的算法;Boosting可以作為特征選擇的方法。AdaBoost特征選擇算法Givenexamples(x1,y1),…,(xn,yn),whereyi=0,1fornegativeandpositiveexamplesrespectively;Initializeweightsw1,i=1/2m,1/2lforyi=0,1respectively,wheremandlarethenumberofnegativesandpositivesrespectively;Fort=1,…,T:Normalizetheweights: sothatwtisaprobabilitydistribution.AdaBoost特征選擇算法Foreachfeature,j,trainaclassifierhjwhichisrestrictedtousingasinglefeature.Theerrorisevaluatedwithrespecttowt,Choosetheclassifierht,with
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學生交流會策劃方案(8篇)
- 2025年材料用過濾袋合同采購流程
- 2025年醫(yī)用耗材集中采購協(xié)議
- 2025年文物遺址保護服務(wù)項目規(guī)劃申請報告
- 2025年舞蹈學校教職員工勞動合同
- 2025年貴金屬靶材項目申請報告模板
- 2025年企業(yè)互助共享協(xié)議
- 2025年單位二手商業(yè)房產(chǎn)出售合同范本
- 2025年公司員工競業(yè)限制協(xié)議范例
- 2025年組合開關(guān)項目提案報告
- 2025年廣東省春季高考英語情景交際題專項練習(含答案)
- 浙江省湖州是吳興區(qū)2024年中考語文二模試卷附參考答案
- 風電設(shè)備安裝施工專項安全措施
- IQC培訓課件教學課件
- 關(guān)于成立合同審核小組的通知
- 2024年上海市中考英語試題和答案
- 教育部《中小學校園食品安全和膳食經(jīng)費管理工作指引》知識培訓
- 征地拆遷項目社會穩(wěn)定風險評價報告
- 長沙醫(yī)學院《無機化學》2021-2022學年第一學期期末試卷
- eras婦科腫瘤圍手術(shù)期管理指南解讀
- 蘇州大學《實證金融》2022-2023學年第一學期期末試卷
評論
0/150
提交評論