貝葉斯學(xué)習(xí)過(guò)程課件_第1頁(yè)
貝葉斯學(xué)習(xí)過(guò)程課件_第2頁(yè)
貝葉斯學(xué)習(xí)過(guò)程課件_第3頁(yè)
貝葉斯學(xué)習(xí)過(guò)程課件_第4頁(yè)
貝葉斯學(xué)習(xí)過(guò)程課件_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、貝葉斯學(xué)習(xí)過(guò)程貝葉斯學(xué)習(xí)過(guò)程Part 1 最大似然估計(jì)Part 1 最大似然估計(jì)模式分類(lèi)的途徑途徑1:估計(jì)類(lèi)條件概率密度通過(guò) 和 ,利用貝葉斯規(guī)則計(jì)算后驗(yàn)概率 ,然后通過(guò)最大后驗(yàn)概率做出決策兩種方法方法1a:概率密度參數(shù)估計(jì)基于對(duì) 的含參數(shù)的描述方法1b:概率密度非參數(shù)估計(jì)基于對(duì) 的非參數(shù)的描述途徑2:直接估計(jì)后驗(yàn)概率不需要先估計(jì)途徑3:直接計(jì)算判別函數(shù)不需要估計(jì) 或者模式分類(lèi)的途徑途徑1:估計(jì)類(lèi)條件概率密度概率密度函數(shù)估計(jì)與參數(shù)估計(jì)參數(shù)估計(jì)基于對(duì) 用已知函數(shù)形式的參數(shù)化表示估計(jì)未知概率密度函數(shù) 的問(wèn)題被簡(jiǎn)化為估計(jì)已知函數(shù)形式中的未知參數(shù) 中的所有未知參數(shù)可以寫(xiě)成向量形式,稱(chēng)為參數(shù)向量 ,含有

2、未知參數(shù)的概率密度函數(shù) 可以表示為高斯密度函數(shù)中的參數(shù)向量概率密度函數(shù)估計(jì)與參數(shù)估計(jì)參數(shù)估計(jì)基于對(duì) 用貝葉斯決策中的參數(shù)估計(jì)貝葉斯決策為最優(yōu)決策(最小總風(fēng)險(xiǎn)、最小誤差概率)前提條件已知先驗(yàn)概率已知類(lèi)條件概率密度不幸的是多數(shù)情況下,先驗(yàn)概率和類(lèi)條件概率密度未知我們可利用的有關(guān)模式識(shí)別問(wèn)題的一些模糊而籠統(tǒng)的知識(shí)一些設(shè)計(jì)樣本(訓(xùn)練樣本),構(gòu)成待分類(lèi)的模式的一個(gè)特定的子集,作為該模式的代表貝葉斯決策中的參數(shù)估計(jì)貝葉斯決策為最優(yōu)決策(最小總風(fēng)險(xiǎn)、最小貝葉斯決策中的參數(shù)估計(jì)解決方案假設(shè)類(lèi)條件概率密度為某種含參數(shù)的概率密度分布函數(shù),通過(guò)訓(xùn)練數(shù)據(jù)來(lái)估計(jì)該函數(shù)中未知的參數(shù)將參數(shù)估計(jì)后的概率密度函數(shù)作為類(lèi)條件概率

3、密度,利用貝葉斯決策進(jìn)行分類(lèi)有監(jiān)督學(xué)習(xí)訓(xùn)練集中每個(gè)樣本的真實(shí)類(lèi)別已知貝葉斯決策中的參數(shù)估計(jì)解決方案參數(shù)估計(jì)方法最大似然估計(jì)(ML估計(jì))假設(shè)將待估計(jì)的參數(shù)看作確定的量,只是值未知估計(jì)方式將使得產(chǎn)生訓(xùn)練樣本的概率最大的參數(shù)值作為這些參數(shù)的最佳估計(jì)貝葉斯估計(jì)(貝葉斯學(xué)習(xí))假設(shè)將待估計(jì)的參數(shù)看作符合某種先驗(yàn)概率分布的隨機(jī)變量估計(jì)方式通過(guò)觀察樣本,將先驗(yàn)概率密度通過(guò)貝葉斯規(guī)則轉(zhuǎn)化為后驗(yàn)概率密度參數(shù)估計(jì)方法最大似然估計(jì)(ML估計(jì))參數(shù)估計(jì)方法ML估計(jì)與貝葉斯估計(jì)的關(guān)系ML估計(jì)通常比貝葉斯估計(jì)簡(jiǎn)單ML估計(jì)給出參數(shù)的值,而貝葉斯估計(jì)給出所有可能的參數(shù)值的分布當(dāng)可用數(shù)據(jù)很多以至于減輕了先驗(yàn)知識(shí)的作用時(shí),貝葉斯估

4、計(jì)可以退化為ML估計(jì)參數(shù)估計(jì)方法ML估計(jì)與貝葉斯估計(jì)的關(guān)系最大似然估計(jì)給定c個(gè)類(lèi):假設(shè)所有的類(lèi)條件概率密度函數(shù) 都具有已知的參數(shù)化形式假設(shè)每個(gè)參數(shù)向量 對(duì)它所屬的類(lèi)別起的作用都是相互獨(dú)立的例如:給定c個(gè)數(shù)據(jù)集(每個(gè)數(shù)據(jù)集對(duì)應(yīng)一個(gè)類(lèi)別):每個(gè)數(shù)據(jù)集 中的樣本為獨(dú)立同分布(independent and identically distributed,縮寫(xiě)為i.i.d.)的隨機(jī)變量,這些隨機(jī)變量均從某個(gè)概率密度函數(shù) 獨(dú)立抽取由于不同類(lèi)的參數(shù)相互獨(dú)立, 無(wú)法為 , 的估計(jì)提供任何信息因此,可以對(duì)每個(gè)類(lèi)別分別估計(jì)參數(shù),類(lèi)別下標(biāo)可以省略最大似然估計(jì)給定c個(gè)類(lèi):最大似然估計(jì) 相對(duì)于數(shù)據(jù)集 的似然函數(shù)對(duì) 的

5、ML估計(jì)即使得似然函數(shù) 最大的值直觀上講, 是使得觀察到D中樣本的可能性最大化的值最大似然估計(jì) 相對(duì)于數(shù)據(jù)集 最大似然估計(jì)完成ML估計(jì)后,概率密度函數(shù) 完全已知,即其參數(shù)的形式和值都已知類(lèi) 的后驗(yàn)概率可由貝葉斯公式計(jì)算基于后驗(yàn)概率可做出貝葉斯決策顯式表示數(shù)據(jù)集 在參數(shù)估計(jì)中的作用:最大似然估計(jì)完成ML估計(jì)后,概率密度函數(shù) 似然函數(shù)和對(duì)數(shù)似然函數(shù)給定數(shù)據(jù)集D,定義似然函數(shù) 為: 也可寫(xiě)為 ,以強(qiáng)調(diào)其依賴(lài)于數(shù)據(jù)集D對(duì)數(shù)似然函數(shù)對(duì)數(shù)似然函數(shù)的計(jì)算常常較似然函數(shù)更為簡(jiǎn)單最大似然估計(jì)log(x)是單調(diào)遞增函數(shù)似然函數(shù)和對(duì)數(shù)似然函數(shù)給定數(shù)據(jù)集D,定義似然函數(shù) 最大化問(wèn)題ML估計(jì)的解通過(guò)最大化似然函數(shù)或?qū)?shù)

6、似然函數(shù)實(shí)現(xiàn)最大化問(wèn)題ML估計(jì)的解通過(guò)最大化似然函數(shù)或?qū)?shù)似然函數(shù)實(shí)現(xiàn)最大化問(wèn)題記 表示p維參數(shù)向量 , 表示梯度算子全局最大值的必要條件(似然方程) 或等價(jià)的(對(duì)數(shù)似然方程)似然方程或?qū)?shù)似然方程的解并不是獲得全局最大值的充分條件可能為:全局最大/最小、局部最大/最小、拐點(diǎn)極值最大化問(wèn)題記 表示p維參數(shù)向量 ML估計(jì)-高斯情況: 未知 在 下的對(duì)數(shù)似然對(duì)數(shù)似然方程 的ML估計(jì)數(shù)據(jù)集D的樣本均值ML估計(jì)-高斯情況: 未知 數(shù)據(jù)集D的樣本均值ML估計(jì)-高斯情況: 和 均未知x為單變量情況參數(shù)向量 在 下的對(duì)數(shù)似然對(duì)數(shù)似然方程ML估計(jì)-高斯情況: 和 均未知x為單變量情況ML估計(jì)-高斯情況: 和

7、均未知x為單變量情況 的ML估計(jì)ML估計(jì)-高斯情況: 和 均未知x為單變量情況ML估計(jì)-高斯情況: 和 均未知x為多元變量情況參數(shù)向量 在 下的對(duì)數(shù)似然 的ML估計(jì)數(shù)據(jù)集D的樣本均值ML估計(jì)-高斯情況: 和 均未知x為多元變量情況數(shù)據(jù)集估計(jì)的偏差 的ML估計(jì)是有偏估計(jì),即對(duì)所有可能的大小為n的樣本集進(jìn)行協(xié)方差矩陣的ML估計(jì),其數(shù)學(xué)期望并不等于實(shí)際的協(xié)方差矩陣 的無(wú)偏估計(jì)由于ML估計(jì) 為漸進(jìn)無(wú)偏估計(jì),即隨著樣本數(shù)n的增大, 趨近于C數(shù)據(jù)集D的樣本協(xié)方差矩陣估計(jì)的偏差 的ML估計(jì)是有偏估計(jì),即對(duì)所有可能的大小為n參數(shù)估計(jì)方法最大似然估計(jì)(ML估計(jì))假設(shè)將待估計(jì)的參數(shù)看作確定的量,只是值未知估計(jì)方式

8、將使得產(chǎn)生訓(xùn)練樣本的概率最大的參數(shù)值作為這些參數(shù)的最佳估計(jì)貝葉斯估計(jì)(貝葉斯學(xué)習(xí))假設(shè)將待估計(jì)的參數(shù)看作符合某種先驗(yàn)概率分布的隨機(jī)變量估計(jì)方式通過(guò)觀察樣本,將先驗(yàn)概率密度通過(guò)貝葉斯規(guī)則轉(zhuǎn)化為后驗(yàn)概率密度參數(shù)估計(jì)方法最大似然估計(jì)(ML估計(jì))Part 2 貝葉斯估計(jì)Part 2 貝葉斯估計(jì)貝葉斯估計(jì)給定參數(shù)形式的概率密度函數(shù) ,其中的未知參數(shù)表示為向量有關(guān) 的先驗(yàn)概率密度數(shù)據(jù)集求解參數(shù)向量 的后驗(yàn)概率密度x的后驗(yàn)概率密度貝葉斯估計(jì)給定貝葉斯估計(jì)貝葉斯估計(jì)最大似然估計(jì)貝葉斯估計(jì)貝葉斯估計(jì)貝葉斯估計(jì)為明確數(shù)據(jù)集D的作用,類(lèi)似于ML估計(jì),貝葉斯決策所需后驗(yàn)概率可重新寫(xiě)作簡(jiǎn)化貝葉斯估計(jì)為明確數(shù)據(jù)集D的作用

9、,類(lèi)似于ML估計(jì),貝葉斯決策所貝葉斯估計(jì)核心問(wèn)題已知一組訓(xùn)練樣本D,這些樣本都是從固定但未知的概率密度函數(shù)p(x)中獨(dú)立抽取的,要求根據(jù)這些樣本估計(jì)基本思路假設(shè) 為已知參數(shù)形式的概率密度 是 在D下的后驗(yàn)概率密度通過(guò)貝葉斯估計(jì)得到的如果 在某一個(gè)值 附近形成最顯著的尖峰,則貝葉斯估計(jì)核心問(wèn)題貝葉斯估計(jì)通過(guò)觀察數(shù)據(jù)集D,將先驗(yàn)概率密度 轉(zhuǎn)化為后驗(yàn)概率密度 ,并期望其在真實(shí)的 值處有一個(gè)尖峰貝葉斯估計(jì)通過(guò)觀察數(shù)據(jù)集D,將先驗(yàn)概率密度 轉(zhuǎn)化為后高斯情況:?jiǎn)巫兞浚?未知, 已知目標(biāo)概率密度函數(shù) 未知,但是其分布 已知 已知, 可簡(jiǎn)化為根據(jù) 選擇某個(gè)具體的 值高斯情況:?jiǎn)巫兞浚?未知, 已知目標(biāo)概率密度

10、函數(shù)根據(jù) 高斯情況:?jiǎn)巫兞浚?未知, 已知應(yīng)用貝葉斯規(guī)則計(jì)算 的后驗(yàn)概率其中, 是一個(gè)依賴(lài)于樣本集 的歸一化系數(shù),該系數(shù)不依賴(lài)于假設(shè) ,其中 和 均已知高斯情況:?jiǎn)巫兞浚?未知, 已知應(yīng)用貝葉斯規(guī)則計(jì)算 高斯情況:?jiǎn)巫兞浚?未知, 已知 也呈高斯分布 稱(chēng)為共軛先驗(yàn)(conjugate prior), 稱(chēng)為復(fù)制密度(reproducing density)計(jì)算樣本均值高斯情況:?jiǎn)巫兞浚?未知, 已知 也呈高斯情況:?jiǎn)巫兞浚?未知, 已知觀察結(jié)論 如果 當(dāng) 時(shí),如果退化情況:如果 樣本均值和為1,說(shuō)明 位于 和 的連線上ML估計(jì)當(dāng)獲得足夠多的樣本后, 和 的具體數(shù)值的精確假定變得無(wú)關(guān)緊要, 將收斂

11、于樣本均值先驗(yàn)知識(shí)和經(jīng)驗(yàn)數(shù)據(jù)各自的貢獻(xiàn)取決于 和 的比值,這個(gè)比值稱(chēng)為決斷因子(dogmatism)高斯情況:?jiǎn)巫兞浚?未知, 已知觀察結(jié)論 樣本均值和為高斯情況:?jiǎn)巫兞浚?未知, 已知觀察結(jié)論 隨著樣本數(shù)n的遞增, 單調(diào)遞減,即新增的樣本能夠減少關(guān)于 的估計(jì)的不確定性。隨著n的增大, 的波形變得越來(lái)越尖。貝葉斯學(xué)習(xí)過(guò)程高斯情況:?jiǎn)巫兞浚?未知, 已知觀察結(jié)論 貝葉斯學(xué)習(xí)過(guò)高斯情況:?jiǎn)巫兞浚?未知, 已知觀察結(jié)論 隨著樣本數(shù)n的遞增, 單調(diào)遞減,即新增的樣本能夠減少關(guān)于 的估計(jì)的不確定性。隨著n的增大, 的波形變得越來(lái)越尖。貝葉斯學(xué)習(xí)過(guò)程高斯情況:?jiǎn)巫兞浚?未知, 已知觀察結(jié)論 貝葉斯學(xué)習(xí)過(guò)高

12、斯情況:?jiǎn)巫兞浚?未知, 已知類(lèi)條件概率密度 高斯情況:?jiǎn)巫兞浚?未知, 已知類(lèi)條件概率密度 高斯情況:?jiǎn)巫兞浚?未知, 已知類(lèi)條件概率密度 的參數(shù)形式為貝葉斯估計(jì)的結(jié)果為對(duì) 估計(jì)的不確定性增加了x的不確定性( ) )貝葉斯決策規(guī)則高斯情況:?jiǎn)巫兞浚?未知, 已知類(lèi)條件概率密度 高斯情況:多變量, 未知, 已知假設(shè)所以已知未知高斯情況:多變量, 未知, 已知假設(shè)已知未知高斯情況:多變量, 未知, 已知類(lèi)條件概率密度一種較簡(jiǎn)單的理解視角高斯情況:多變量, 未知, 已知類(lèi)條件概率密度貝葉斯估計(jì)的一般過(guò)程第一階段第二階段第一階段第二階段貝葉斯估計(jì)的一般過(guò)程第一階段第二階段第一階段第二階段遞歸的貝葉斯

13、學(xué)習(xí)明確樣本集中的樣本個(gè)數(shù)貝葉斯學(xué)習(xí) 在n個(gè)樣本下的后驗(yàn)概率密度 在n-1個(gè)樣本下的后驗(yàn)概率密度遞歸的貝葉斯學(xué)習(xí)明確樣本集中的樣本個(gè)數(shù) 在n個(gè)樣本下的遞歸的貝葉斯學(xué)習(xí)遞歸學(xué)習(xí)過(guò)程觀察樣本前 觀察樣本 觀察樣本 n. 觀察樣本每一步中,僅需要知道當(dāng)前樣本 和上一步的結(jié)果增量學(xué)習(xí)(incremental learning)遞歸的貝葉斯學(xué)習(xí)遞歸學(xué)習(xí)過(guò)程每一步中,僅需要知道當(dāng)前樣本 例子問(wèn)題一維樣本服從均勻分布已知:參數(shù) 有界,假設(shè)已有樣本集用遞歸貝葉斯求解例子問(wèn)題例子解觀察樣本之前觀察樣本觀察樣本例子解例子解觀察樣本觀察樣本例子解例子解例子解例子解例子解貝葉斯估計(jì) vs. ML估計(jì)樣本數(shù)量趨于無(wú)窮時(shí)計(jì)算復(fù)雜度可理解性先驗(yàn)知識(shí)的靈活運(yùn)用理論基礎(chǔ)貝葉斯估計(jì)=ML估計(jì)貝葉斯估計(jì)ML估計(jì)貝葉斯估計(jì)ML估計(jì)貝葉斯估計(jì)ML估計(jì)貝葉斯估計(jì) vs. ML估計(jì)樣本數(shù)量趨于無(wú)窮時(shí)貝葉斯估計(jì)=M基于參數(shù)估計(jì)的貝葉斯決策假設(shè)類(lèi)條件概率密度的參數(shù)形式用ML估計(jì)或貝葉斯估計(jì)對(duì)類(lèi)條件概率密度進(jìn)行模型估計(jì)利用貝葉斯公式計(jì)算后驗(yàn)概率根據(jù)最大后

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論