


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計(jì)學(xué)習(xí)第一統(tǒng)計(jì)學(xué)習(xí)三要素統(tǒng)計(jì)學(xué)習(xí)的三要素為:模型、策略、算法。以下以監(jiān)督學(xué)習(xí)為基礎(chǔ)來進(jìn)行論述。監(jiān)督學(xué)習(xí)的假設(shè):在監(jiān)督學(xué)習(xí)當(dāng)中,我們假設(shè)輸入和輸出的隨機(jī)變量「一和:服從聯(lián)合概率分布,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)被看做是依聯(lián)合概率分布獨(dú)立同分布產(chǎn)生的。一,模型在監(jiān)督學(xué)習(xí)當(dāng)中,我們的目的是學(xué)習(xí)一個(gè)由輸入到輸出的映射,這個(gè)映射就是模型。一般來說,模型有兩種形式,一種是據(jù)率模型,"「上(條件概率分布),另一種形式是非概率模型 ./:.「(決策函數(shù))。我們根據(jù)實(shí)際情況和具體的學(xué)習(xí)方法來決定是用概率模型還是用非概率模型。在介紹策略之前,首先介紹假設(shè)空間的概念。假設(shè)空間是一集合:由輸入空間到輸出空間所有映射的集合。策略的目的是為了讓我們找到一個(gè)方法,來從眾多的假設(shè)空間中選擇最優(yōu)的模型。自然而然的,我們想找一個(gè)能描述輸入到輸出最完美的映射。順著這個(gè)思路,首先介紹損失函數(shù)和風(fēng)險(xiǎn)函數(shù)。損失函數(shù)是用來度量模型一次映射結(jié)果的好壞,記作二仍.f■,這里只舉例0-1損失函數(shù)來幫助理解:11-if〉「W/(X)黑即=》(X)
風(fēng)險(xiǎn)函數(shù)(期望損失)是用度量平均意義下模型預(yù)測的好壞。也就是對于整個(gè)輸入輸出空間的損失函數(shù)的期望。皂叩⑴=皂叩⑴=Ep[L(X/(*))]=[祉/⑴)P(‘】W)血切這里的需要特別說明一下。在監(jiān)督學(xué)習(xí)當(dāng)中,我們假設(shè)輸入和輸出的隨機(jī)變量.;一和'服從聯(lián)合概率分布機(jī)W。但是這個(gè)分布對于我們來說,是不可知的,如果可知,我們就可以直接通過,W上.「;來求解nvJ,而不需要使用統(tǒng)計(jì)學(xué)習(xí)方法了。顯然而然,對應(yīng)我們來說,最好的策略就是找到讓風(fēng)險(xiǎn)函數(shù)最小的模型。可是呢,風(fēng)險(xiǎn)函數(shù)的計(jì)算需要用到;'**,我們對它又不可知,所以監(jiān)督學(xué)習(xí)就成了一個(gè)病態(tài)問題。既然這樣,我們就想,在統(tǒng)計(jì)學(xué)中有一個(gè)大數(shù)定律,如果我在輸入輸出空間中取一個(gè)足夠大的樣本,用這個(gè)樣本來近似的計(jì)算風(fēng)險(xiǎn)函數(shù)" :?;谶@樣的想法,我們對于含有N組數(shù)據(jù)的訓(xùn)練集,定義經(jīng)驗(yàn)損失函數(shù):=V〉:Z(肱>5(珂))根據(jù)大數(shù)定律,當(dāng)N趨近于無窮大的時(shí)候,經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)" |就趨近于風(fēng)險(xiǎn)函數(shù) 。所以,在樣本容量足夠大的時(shí)候,我們可以用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小花的策略來選擇最優(yōu)的模型。
但是在訓(xùn)練樣本的數(shù)量很有限時(shí),利用經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)".「來估算風(fēng)險(xiǎn)函數(shù):的效果并不理想,它很有可能產(chǎn)生一個(gè)叫做過擬合的現(xiàn)象。為了防止過擬合現(xiàn)象,結(jié)構(gòu)風(fēng)險(xiǎn)最小化這個(gè)策略被提了出來。結(jié)構(gòu)風(fēng)險(xiǎn)的定義為:S(T)=(城g)+頃)其中,n;表示的是模型的復(fù)雜度。模型『越復(fù)雜"技;的值就越大。入是一個(gè)大于等于0的系數(shù),用來做一個(gè)trade-off的作用,平衡經(jīng)驗(yàn)損失和模型復(fù)雜度的一個(gè)系數(shù)??梢詮倪@個(gè)式子看出來,入',」;起到是一個(gè)懲罰項(xiàng)的作用,當(dāng)模型越復(fù)雜,懲罰項(xiàng)越大。它所基于的理論是,當(dāng)一個(gè)模型越復(fù)雜,我們認(rèn)為它的泛化能力越差,越不具有一般性,越容易發(fā)生過擬合。綜上,我們在統(tǒng)計(jì)學(xué)習(xí)中的策略一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 混凝土底板施工方案
- 連續(xù)剛構(gòu)施工方案
- 寧夏攔水壩施工方案
- TSICA 007-2024 數(shù)字旋變轉(zhuǎn)換器芯片的技術(shù)規(guī)范
- TSHCH 01-2024 SLAM測量技術(shù)標(biāo)準(zhǔn)
- 二零二五年度幼兒園藝術(shù)教育合作項(xiàng)目協(xié)議
- 2025年度茶葉加工廠租賃及茶藝培訓(xùn)服務(wù)合同
- 2025年度跨境電商合伙人公司運(yùn)營合作協(xié)議書
- 二零二五年度酒店客房餐飲服務(wù)滿意度調(diào)查合同
- 二零二五年度布展演出項(xiàng)目安全風(fēng)險(xiǎn)評估及整改合同
- 《中醫(yī)藥健康知識講座》課件
- 2023版義務(wù)教育小學(xué)美術(shù)課程標(biāo)準(zhǔn)
- 分揀員工作管理制度
- 中央廣播電視大學(xué)畢業(yè)生登記表-6
- 酒店管理概論 課件 第1章 酒店管理概述
- 網(wǎng)絡(luò)分布式系統(tǒng)架構(gòu)
- 零信任網(wǎng)絡(luò)安全模型介紹
- 集裝箱七點(diǎn)檢查表
- 創(chuàng)傷傷口包扎術(shù)(加壓包扎止血法)技術(shù)操作考核評分標(biāo)準(zhǔn)
- 7S管理標(biāo)準(zhǔn)目視化管理標(biāo)準(zhǔn)
- 談書畫裝裱的歷史與現(xiàn)實(shí)
評論
0/150
提交評論