參數(shù)估計(jì)與非參數(shù)估計(jì)課件_第1頁
參數(shù)估計(jì)與非參數(shù)估計(jì)課件_第2頁
參數(shù)估計(jì)與非參數(shù)估計(jì)課件_第3頁
參數(shù)估計(jì)與非參數(shù)估計(jì)課件_第4頁
參數(shù)估計(jì)與非參數(shù)估計(jì)課件_第5頁
已閱讀5頁,還剩93頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)

參數(shù)估計(jì)理論非參數(shù)估計(jì)理論

第五章參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)1§5-1參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)貝葉斯分類器中只要知道先驗(yàn)概率,條件概率或后驗(yàn)概概率P(ωi),P(x/ωi),P(ωi/x)就可以設(shè)計(jì)分類器了?,F(xiàn)在來研究如何用已知訓(xùn)練樣本的信息去估計(jì)P(ωi),P(x/ωi),P(ωi/x)一.參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì):先假定研究的問題具有某種數(shù)學(xué)模型,如正態(tài)分布,二項(xiàng)分布,再用已知類別的學(xué)習(xí)樣本估計(jì)里面的參數(shù)。非參數(shù)估計(jì):不假定數(shù)學(xué)模型,直接用已知類別的學(xué)習(xí)樣本的先驗(yàn)知識(shí)直接估計(jì)數(shù)學(xué)模型?!?-1參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)2二.監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):在已知類別樣本指導(dǎo)下的學(xué)習(xí)和訓(xùn)練,參數(shù)估計(jì)和非參數(shù)估計(jì)都屬于監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí):不知道樣本類別,只知道樣本的某些信息去估計(jì),如:聚類分析。二.監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)3§5-2參數(shù)估計(jì)理論

一.最大似然估計(jì)假定:①待估參數(shù)θ是確定的未知量②按類別把樣本分成M類X1,X2,X3,…XM其中第i類的樣本共N個(gè)Xi=(X1,X2,…XN)T并且是獨(dú)立從總體中抽取的③Xi中的樣本不包含(i≠j)的信息,所以可以對(duì)每一類樣本獨(dú)立進(jìn)行處理。④第i類的待估參數(shù)根據(jù)以上四條假定,我們下邊就可以只利用第i類學(xué)習(xí)樣本來估計(jì)第i類的概率密度,其它類的概率密度由其它類的學(xué)習(xí)樣本來估計(jì)?!?-2參數(shù)估計(jì)理論41.一般原則:第i類樣本的類條件概率密度:P(Xi/ωi)=P(Xi/ωi﹒θi)=P(Xi/θi)原屬于i類的學(xué)習(xí)樣本為Xi=(X1,X2,…XN,)T

i=1,2,…M求θi的最大似然估計(jì)就是把P(Xi/θi)看成θi的函數(shù),求出使它最大時(shí)的θi值?!邔W(xué)習(xí)樣本獨(dú)立從總體樣本集中抽取的∴

N個(gè)學(xué)習(xí)樣本出現(xiàn)概率的乘積取對(duì)數(shù):1.一般原則:5對(duì)θi求導(dǎo),并令它為0:有時(shí)上式是多解的,上圖有5個(gè)解,只有一個(gè)解最大即.P(Xi/θi)對(duì)θi求導(dǎo),并令它為0:P(Xi/θi)62.多維正態(tài)分布情況①∑已知,μ未知,估計(jì)μ

服從正態(tài)分布所以在正態(tài)分布時(shí)代入上式得2.多維正態(tài)分布情況代入上式得7所以這說明未知均值的最大似然估計(jì)正好是訓(xùn)練樣本的算術(shù)平均。參數(shù)估計(jì)與非參數(shù)估計(jì)課件8②∑,μ均未知A.一維情況:n=1對(duì)于每個(gè)學(xué)習(xí)樣本只有一個(gè)特征的簡(jiǎn)單情況:

(n=1)由上式得

即學(xué)習(xí)樣本的算術(shù)平均

樣本方差②∑,μ均未知9討論:1.正態(tài)總體均值的最大似然估計(jì)即為學(xué)習(xí)樣本的算術(shù)平均2.正態(tài)總體方差的最大似然估計(jì)與樣本的方差不同,當(dāng)N較大的時(shí)候,二者的差別不大。B.多維情況:n個(gè)特征(學(xué)生可以自行推出下式)估計(jì)值:結(jié)論:①μ的估計(jì)即為學(xué)習(xí)樣本的算術(shù)平均

②估計(jì)的協(xié)方差矩陣是矩陣的算術(shù)平均(nⅹn陣列,nⅹn個(gè)值)討論:10二.貝葉斯估計(jì)最大似然估計(jì)是把待估的參數(shù)看作固定的未知量,而貝葉斯估計(jì)則是把待估的參數(shù)作為具有某種先驗(yàn)分布的隨機(jī)變量,通過對(duì)第i類學(xué)習(xí)樣本Xi的觀察,使概率密度分布P(Xi/θ)轉(zhuǎn)化為后驗(yàn)概率P(θ/Xi),再求貝葉斯估計(jì)。估計(jì)步驟:①

確定θ的先驗(yàn)分布P(θ),待估參數(shù)為隨機(jī)變量。②用第i類樣本xi=(x1,x2,….xN)T求出樣本的聯(lián)合概率密度分布P(xi|θ),它是θ的函數(shù)。③

利用貝葉斯公式,求θ的后驗(yàn)概率

④二.貝葉斯估計(jì)11下面以正態(tài)分布的均值估計(jì)為例說明貝葉斯估計(jì)的過程一維正態(tài)分布:已知σ2,估計(jì)μ

假設(shè)概率密度服從正態(tài)分布P(X|μ)=N(μ,σ2),P(μ)=N(μ0,σ02)第i類學(xué)習(xí)樣本xi=(x1,x2,….xN)T,i=1,2,…M第i類概率密度P(x|μi,xi)=P(x|xi)

所以后驗(yàn)概率(貝葉斯公式)下面以正態(tài)分布的均值估計(jì)為例說明貝葉斯估計(jì)的過程12因?yàn)镹個(gè)樣本是獨(dú)立抽取的,所以上式可以寫成

其中

為比例因子,只與x有關(guān),與μ無關(guān)∵P(Xk|μ)=N(μ,σ2),P(u)=N(μ0,σ02)

其中a’,a’’包含了所有與μ無關(guān)的因子因?yàn)镹個(gè)樣本是獨(dú)立抽取的,所以上式可以寫成13∴P(μ|xi)是u的二次函數(shù)的指數(shù)函數(shù)∴P(μ|xi)仍然是一個(gè)正態(tài)函數(shù),P(μ|Xi)=N(μN(yùn),σN2)另外后驗(yàn)概率可以直接寫成正態(tài)形式:比較以上兩個(gè)式子,對(duì)應(yīng)的系數(shù)應(yīng)該相等∴

∴P(μ|xi)是u的二次函數(shù)的指數(shù)函數(shù)14解以上兩式得將μN(yùn),σN2代入P(μ|Xi)可以得到后驗(yàn)概率,再用公式

解以上兩式得15

∴對(duì)μ的估計(jì)為若令P(μ)=N(μ0,σ02)=N(0,1)

與最大似然估計(jì)相似,只是分母不同∵

∵16三.貝葉斯學(xué)習(xí)1.貝葉斯學(xué)習(xí)的概念:求出μ的后驗(yàn)概率之后,直接去推導(dǎo)總體分布即當(dāng)觀察一個(gè)樣本時(shí),N=1就會(huì)有一個(gè)μ的估計(jì)值的修正值當(dāng)觀察N=4時(shí),對(duì)μ進(jìn)行修正,向真正的μ靠近當(dāng)觀察N=9時(shí),對(duì)μ進(jìn)行修正,向真正的μ靠的更近當(dāng)N↑,μN(yùn)就反映了觀察到N個(gè)樣本后對(duì)μ的最好推測(cè),而σN2反映了這種推測(cè)的不確定性,N↑,σN2↓,σN2隨觀察樣本增加而單調(diào)減小,且當(dāng)N→∞,σN2→0

當(dāng)N↑,P(μ|xi)越來越尖峰突起N→∞,P(μ|xi)→σ函數(shù),這個(gè)過程成為貝葉斯學(xué)習(xí)。三.貝葉斯學(xué)習(xí)17參數(shù)估計(jì)與非參數(shù)估計(jì)課件182.類概率密度的估計(jì)

在求出u的后驗(yàn)概率P(μ|xi)后,可以直接利用式推斷類條件概率密度。即P(x|xi)=P(x|ωi,xi)⑴一維正態(tài):已知σ2,μ未知∵μ的后驗(yàn)概率為2.類概率密度的估計(jì)19參數(shù)估計(jì)與非參數(shù)估計(jì)課件20結(jié)論:①把第i類的先驗(yàn)概率P(ωi)與第i類概率密度P(x|xi)相乘可以得到第i類的后驗(yàn)概率P(ωi/x),根據(jù)后驗(yàn)概率可以分類。②對(duì)于正態(tài)分布P(x|xi),用樣本估計(jì)出來的μN(yùn)代替原來的μ用代替原來的方差即可。③把估計(jì)值μN(yùn)作為μ的實(shí)際值,那么使方差由原來的變?yōu)?使方差增大結(jié)論:21⑵多維正態(tài)(已知Σ,估計(jì)μ

)設(shè)P(x|μ)=N(μ,∑)P(μ)=N(μ0,∑0).根據(jù)Bayes公式,仿上面步驟可以得到:ΣN,μN(yùn)

有以下關(guān)系其中a與μ無關(guān)⑵多維正態(tài)(已知Σ,估計(jì)μ)其中a與μ無關(guān)22這就是在多維情況下,對(duì)μ的估計(jì)參數(shù)估計(jì)與非參數(shù)估計(jì)課件23§5-3非參數(shù)估計(jì)參數(shù)估計(jì)要求密度函數(shù)的形式已知,但這種假定有時(shí)并不成立,常見的一些函數(shù)形式很難擬合實(shí)際的概率密度,經(jīng)典的密度函數(shù)都是單峰的,而在許多實(shí)際情況中卻是多峰的,因此用非參數(shù)估計(jì)。非參數(shù)估計(jì):直接用已知類別樣本去估計(jì)總體密度分布,方法有:①

用樣本直接去估計(jì)類概率密度p(x/ωi)以此來設(shè)計(jì)分類器,如窗口估計(jì)②

用學(xué)習(xí)樣本直接估計(jì)后驗(yàn)概率p(ωi/x)作為分類準(zhǔn)則來設(shè)計(jì)分類器如k近鄰法.1.

密度估計(jì):一個(gè)隨機(jī)變量X落在區(qū)域R的概率為P

P(X’)為P(X)在R內(nèi)的變化值,P(X)就是要求的總體概率密度

RP(x)§5-3非參數(shù)估計(jì)RP(x)24假設(shè)有N個(gè)樣本X=(X1,X2,…XN)T都是按照P(X)從總體中獨(dú)立抽取的若N個(gè)樣本中有k個(gè)落入在R內(nèi)的概率符合二項(xiàng)分布

其中P是樣本X落入R內(nèi)的概率Pk是k個(gè)樣本落入R內(nèi)的概率數(shù)學(xué)期望:E(k)=k=NP

∴對(duì)概率P的估計(jì):。是P的一個(gè)比較好的估計(jì)

設(shè)P(x’)在R內(nèi)連續(xù)變化,當(dāng)R逐漸減小的時(shí)候,小到使P(x)在其上幾乎沒有變化時(shí),則

其中是R包圍的體積

假設(shè)有N個(gè)樣本X=(X1,X2,…XN)T都是按25∴

∴條件密度的估計(jì):(V足夠小)討論:①當(dāng)V固定的時(shí)候N增加,k也增加,當(dāng)時(shí)

只反映了P(x)的空間平均估計(jì)而反映不出空間的變化②N固定,體積變小當(dāng)時(shí),k=0時(shí)

時(shí)

所以起伏比較大,噪聲比較大,需要對(duì)V進(jìn)行改進(jìn).∴26對(duì)體積V進(jìn)行改進(jìn):為了估計(jì)X點(diǎn)的密度,我們構(gòu)造一串包括X的區(qū)域序列R1,R2,..RN.對(duì)R1采用一個(gè)樣本進(jìn)行估計(jì),對(duì)R2采用二個(gè)樣本進(jìn)行估計(jì)..。設(shè)VN是RN的體積,KN是N個(gè)樣本落入VN的樣本數(shù)則密度的第N次估計(jì):VN是RN的體積

KN是N個(gè)樣本落入VN的樣本數(shù)∴PN(x)是P(x)的第N次估計(jì)對(duì)體積V進(jìn)行改進(jìn):27若PN(x)收斂于P(x)應(yīng)滿足三個(gè)條件:①,當(dāng)N↑時(shí),VN↓,N→∞,VN→0

這時(shí)雖然樣本數(shù)多,但由于VN↓,落入VN內(nèi)的樣本KN

也減小,所以空間變化才反映出來

②,N↑,kN↑,N與KN同相變化

③,KN的變化遠(yuǎn)小于N的變化。因此盡管在R內(nèi)落入了很多的樣本,但同總數(shù)N比較,仍然是很小的一部分。若PN(x)收斂于P(x)應(yīng)滿足三個(gè)條件:28如何選擇VN滿足以上條件:①使體積VN以N的某個(gè)函數(shù)減小,如

(h為常數(shù))②使KN作為N的某個(gè)函數(shù),例VN的選擇使RN正好包含KN個(gè)近鄰

V1→K1,V2→K2,..VR→KR→Kn近鄰法窗口法如何選擇VN滿足以上條件:窗口法292.Parzen窗口估計(jì)假設(shè)RN為一個(gè)d維的超立方體,hN為超立方體的長度∴超立方體體積為:,d=1,窗口為一線段d=2,窗口為一平面d=3,窗口為一立方體d>3,窗口為一超立方體窗口的選擇:方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)Φ(u)Φ(u)Φ(u)hN

正態(tài)窗函數(shù)2.Parzen窗口估計(jì)方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)Φ(u30∵

ф(u)是以原點(diǎn)x為中心的超立方體。∴在xi落入方窗時(shí),則有在VN內(nèi)為1

不在VN內(nèi)為0落入VN的樣本數(shù)為所有為1者之和∴密度估計(jì)∵ф(u)是以原點(diǎn)x為中心的超立方體。31討論:①每個(gè)樣本對(duì)估計(jì)所起的作用依賴于它到x的距離,即|x-xi|≤hN/2時(shí),xi在VN內(nèi)為1,否則為0。

②稱為的窗函數(shù),取0,1兩種值,但有

時(shí)可以取0,0.1,0.2……多種數(shù)值,例如隨xi離x接近的程度,取值由0,0.1,0.2……到1。討論:32③要求估計(jì)的PN(x)應(yīng)滿足:為滿足這兩個(gè)條件,要求窗函數(shù)滿足:④窗長度hN對(duì)PN(x)的影響若hN太大,PN(x)是P(x)的一個(gè)平坦,分辨率低的估計(jì),有平均誤差若hN太小,PN(x)是P(x)的一個(gè)不穩(wěn)定的起伏大的估計(jì),有噪聲誤差為了使這些誤差不嚴(yán)重,hN應(yīng)很好選擇③要求估計(jì)的PN(x)應(yīng)滿足:33例1:對(duì)于一個(gè)二類(ω1,ω2)識(shí)別問題,隨機(jī)抽取ω1類的6個(gè)樣本X=(x1,x2,….x6)ω1=(x1,x2,….x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估計(jì)P(x|ω1)即PN(x)解:選正態(tài)窗函數(shù)0123456x6x5x3x1x2x4x例1:對(duì)于一個(gè)二類(ω1,ω2)識(shí)別問題,隨機(jī)抽取ω134∵x是一維的上式用圖形表示是6個(gè)分別以3.2,3.6,3,6,2.5,1.1為中心的丘形曲線(正態(tài)曲線),而PN(x)則是這些曲線之和。∵x是一維的35由圖看出,每個(gè)樣本對(duì)估計(jì)的貢獻(xiàn)與樣本間的距離有關(guān),樣本越多,PN(x)越準(zhǔn)確。由圖看出,每個(gè)樣本對(duì)估計(jì)的貢獻(xiàn)與樣本間36例2:設(shè)待估計(jì)的P(x)是個(gè)均值為0,方差為1的正態(tài)密度函數(shù)。若隨機(jī)地抽取X樣本中的1個(gè)、16個(gè)、256個(gè)作為學(xué)習(xí)樣本xi,試用窗口法估計(jì)PN(x)。解:設(shè)窗口函數(shù)為正態(tài)的,σ=1,μ=0hN:窗長度,N為樣本數(shù),h1為選定可調(diào)節(jié)的參數(shù)。例2:設(shè)待估計(jì)的P(x)是個(gè)均值為0,方差為1的正態(tài)密度37用窗法估計(jì)單一正態(tài)分布的實(shí)驗(yàn)N=∞N=256N=16N=1用窗法估計(jì)單一正態(tài)分布的實(shí)驗(yàn)N=∞N=256N=138討論:由圖看出,PN(x)隨N,h1的變化情況①當(dāng)N=1時(shí),PN(x)是一個(gè)以第一個(gè)樣本為中心的正態(tài)形狀的小丘,與窗函數(shù)差不多。②當(dāng)N=16及N=256時(shí)h1=0.25曲線起伏很大,噪聲大h1=1起伏減小h1=4曲線平坦,平均誤差

③當(dāng)N→∞時(shí),PN(x)收斂于一平滑的正態(tài)曲線,估計(jì)曲線較好。討論:由圖看出,PN(x)隨N,h1的變化情況39例3。待估的密度函數(shù)為二項(xiàng)分布解:此為多峰情況的估計(jì)設(shè)窗函數(shù)為正態(tài)解:此為多峰情況的估計(jì)設(shè)窗函數(shù)為正態(tài)x-2.5-210.2502P(x)-0.25<x<-20<x<2x為其它例3。待估的密度函數(shù)為二項(xiàng)分布x-2.5-210.2502P40N=∞N=256N=16N=1用窗法估計(jì)兩個(gè)均勻分布的實(shí)驗(yàn)N=∞N=256N=16N=1用窗法估計(jì)兩個(gè)均勻分41當(dāng)N=1、16、256、∞時(shí)的PN(x)估計(jì)如圖所示①當(dāng)N=1時(shí),PN(x)實(shí)際是窗函數(shù)。②當(dāng)N=16及N=256時(shí)h1=0.25曲線起伏大h1=1曲線起伏減小h1=4曲線平坦

③當(dāng)N→∞時(shí),曲線較好。當(dāng)N=1、16、256、∞時(shí)的PN(x)估計(jì)如圖所示42結(jié)論:

①由上例知窗口法的優(yōu)點(diǎn)是應(yīng)用的普遍性。對(duì)規(guī)則分布,非規(guī)則分布,單鋒或多峰分布都可用此法進(jìn)行密度估計(jì)。②要求樣本足夠多,才能有較好的估計(jì)。因此使計(jì)算量,存儲(chǔ)量增大。結(jié)論:433.KN近鄰估計(jì):在窗口法中存在一個(gè)問題是對(duì)hN的選擇問題。若hN選太小,則大部分體積將是空的(即不包含樣本),從而使PN(x)估計(jì)不穩(wěn)定。若hN選太大,則PN(x)估計(jì)較平坦,反映不出總體分布的變化,而KN近鄰法的思想是以x為中心建立空胞,使v↑,直到捕捉到KN個(gè)樣本為止?!喾QKN-近鄰估計(jì)

v的改進(jìn),樣本密度大,VN↓;樣本密度小,VN↑;

∴P(x)的估計(jì)為:3.KN近鄰估計(jì):在窗口法中存在一個(gè)問題是對(duì)hN的選擇問題。44使PN(x)收斂于P(x)的充分必要條件:①,N與KN同相變化②,KN的變化遠(yuǎn)小于N的變化

V1為N=1時(shí)的VN值使PN(x)收斂于P(x)的充分必要條件:V1為N=1時(shí)的V45∴KN近鄰估計(jì)對(duì)KN和VN都作了限制KN近鄰法作后驗(yàn)概率的估計(jì)由KN近鄰估計(jì)知N個(gè)已知類別樣本落入VN內(nèi)為KN個(gè)樣本的概率密度估計(jì)為:

N個(gè)樣本落入VN內(nèi)有KN個(gè),KN個(gè)樣本內(nèi)有Ki個(gè)樣本屬于ωi類則聯(lián)合概率密度:

參數(shù)估計(jì)與非參數(shù)估計(jì)課件46根據(jù)Bayes公式可求出后驗(yàn)概率:類別為ωi的后驗(yàn)概率就是落在VN內(nèi)屬于ωi的樣本ki與VN內(nèi)總樣本數(shù)KN的比值∴

∵根據(jù)Bayes公式可求出后驗(yàn)概率:∴∵47K近鄰分類準(zhǔn)則:對(duì)于待分樣本x,找出它的k個(gè)近鄰,檢查它的類別,把x歸于樣本最多的那個(gè)類別。K近鄰分類的錯(cuò)誤率隨K↑,Pk↓,最低的錯(cuò)誤率為Bayes分類。P*PK

P*PK484、最近鄰分類準(zhǔn)則:待分樣本x,找一個(gè)離它最近的樣本,把x歸于最近的樣本一類。錯(cuò)誤率:M為類別數(shù)P(e)為Bayes估計(jì)的錯(cuò)誤率最近鄰分類法則的錯(cuò)誤率P比K近鄰錯(cuò)誤率還大,但最大不會(huì)超過貝葉斯分類器錯(cuò)誤率的二倍。

PP(e)BayesK近鄰最近鄰4、最近鄰分類準(zhǔn)則:待分樣本x,找一個(gè)離它最近的樣本,PP(49第五章參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)

參數(shù)估計(jì)理論非參數(shù)估計(jì)理論

第五章參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)50§5-1參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)貝葉斯分類器中只要知道先驗(yàn)概率,條件概率或后驗(yàn)概概率P(ωi),P(x/ωi),P(ωi/x)就可以設(shè)計(jì)分類器了。現(xiàn)在來研究如何用已知訓(xùn)練樣本的信息去估計(jì)P(ωi),P(x/ωi),P(ωi/x)一.參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì):先假定研究的問題具有某種數(shù)學(xué)模型,如正態(tài)分布,二項(xiàng)分布,再用已知類別的學(xué)習(xí)樣本估計(jì)里面的參數(shù)。非參數(shù)估計(jì):不假定數(shù)學(xué)模型,直接用已知類別的學(xué)習(xí)樣本的先驗(yàn)知識(shí)直接估計(jì)數(shù)學(xué)模型?!?-1參數(shù)估計(jì)與監(jiān)督學(xué)習(xí)51二.監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):在已知類別樣本指導(dǎo)下的學(xué)習(xí)和訓(xùn)練,參數(shù)估計(jì)和非參數(shù)估計(jì)都屬于監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí):不知道樣本類別,只知道樣本的某些信息去估計(jì),如:聚類分析。二.監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)52§5-2參數(shù)估計(jì)理論

一.最大似然估計(jì)假定:①待估參數(shù)θ是確定的未知量②按類別把樣本分成M類X1,X2,X3,…XM其中第i類的樣本共N個(gè)Xi=(X1,X2,…XN)T并且是獨(dú)立從總體中抽取的③Xi中的樣本不包含(i≠j)的信息,所以可以對(duì)每一類樣本獨(dú)立進(jìn)行處理。④第i類的待估參數(shù)根據(jù)以上四條假定,我們下邊就可以只利用第i類學(xué)習(xí)樣本來估計(jì)第i類的概率密度,其它類的概率密度由其它類的學(xué)習(xí)樣本來估計(jì)?!?-2參數(shù)估計(jì)理論531.一般原則:第i類樣本的類條件概率密度:P(Xi/ωi)=P(Xi/ωi﹒θi)=P(Xi/θi)原屬于i類的學(xué)習(xí)樣本為Xi=(X1,X2,…XN,)T

i=1,2,…M求θi的最大似然估計(jì)就是把P(Xi/θi)看成θi的函數(shù),求出使它最大時(shí)的θi值?!邔W(xué)習(xí)樣本獨(dú)立從總體樣本集中抽取的∴

N個(gè)學(xué)習(xí)樣本出現(xiàn)概率的乘積取對(duì)數(shù):1.一般原則:54對(duì)θi求導(dǎo),并令它為0:有時(shí)上式是多解的,上圖有5個(gè)解,只有一個(gè)解最大即.P(Xi/θi)對(duì)θi求導(dǎo),并令它為0:P(Xi/θi)552.多維正態(tài)分布情況①∑已知,μ未知,估計(jì)μ

服從正態(tài)分布所以在正態(tài)分布時(shí)代入上式得2.多維正態(tài)分布情況代入上式得56所以這說明未知均值的最大似然估計(jì)正好是訓(xùn)練樣本的算術(shù)平均。參數(shù)估計(jì)與非參數(shù)估計(jì)課件57②∑,μ均未知A.一維情況:n=1對(duì)于每個(gè)學(xué)習(xí)樣本只有一個(gè)特征的簡(jiǎn)單情況:

(n=1)由上式得

即學(xué)習(xí)樣本的算術(shù)平均

樣本方差②∑,μ均未知58討論:1.正態(tài)總體均值的最大似然估計(jì)即為學(xué)習(xí)樣本的算術(shù)平均2.正態(tài)總體方差的最大似然估計(jì)與樣本的方差不同,當(dāng)N較大的時(shí)候,二者的差別不大。B.多維情況:n個(gè)特征(學(xué)生可以自行推出下式)估計(jì)值:結(jié)論:①μ的估計(jì)即為學(xué)習(xí)樣本的算術(shù)平均

②估計(jì)的協(xié)方差矩陣是矩陣的算術(shù)平均(nⅹn陣列,nⅹn個(gè)值)討論:59二.貝葉斯估計(jì)最大似然估計(jì)是把待估的參數(shù)看作固定的未知量,而貝葉斯估計(jì)則是把待估的參數(shù)作為具有某種先驗(yàn)分布的隨機(jī)變量,通過對(duì)第i類學(xué)習(xí)樣本Xi的觀察,使概率密度分布P(Xi/θ)轉(zhuǎn)化為后驗(yàn)概率P(θ/Xi),再求貝葉斯估計(jì)。估計(jì)步驟:①

確定θ的先驗(yàn)分布P(θ),待估參數(shù)為隨機(jī)變量。②用第i類樣本xi=(x1,x2,….xN)T求出樣本的聯(lián)合概率密度分布P(xi|θ),它是θ的函數(shù)。③

利用貝葉斯公式,求θ的后驗(yàn)概率

④二.貝葉斯估計(jì)60下面以正態(tài)分布的均值估計(jì)為例說明貝葉斯估計(jì)的過程一維正態(tài)分布:已知σ2,估計(jì)μ

假設(shè)概率密度服從正態(tài)分布P(X|μ)=N(μ,σ2),P(μ)=N(μ0,σ02)第i類學(xué)習(xí)樣本xi=(x1,x2,….xN)T,i=1,2,…M第i類概率密度P(x|μi,xi)=P(x|xi)

所以后驗(yàn)概率(貝葉斯公式)下面以正態(tài)分布的均值估計(jì)為例說明貝葉斯估計(jì)的過程61因?yàn)镹個(gè)樣本是獨(dú)立抽取的,所以上式可以寫成

其中

為比例因子,只與x有關(guān),與μ無關(guān)∵P(Xk|μ)=N(μ,σ2),P(u)=N(μ0,σ02)

其中a’,a’’包含了所有與μ無關(guān)的因子因?yàn)镹個(gè)樣本是獨(dú)立抽取的,所以上式可以寫成62∴P(μ|xi)是u的二次函數(shù)的指數(shù)函數(shù)∴P(μ|xi)仍然是一個(gè)正態(tài)函數(shù),P(μ|Xi)=N(μN(yùn),σN2)另外后驗(yàn)概率可以直接寫成正態(tài)形式:比較以上兩個(gè)式子,對(duì)應(yīng)的系數(shù)應(yīng)該相等∴

∴P(μ|xi)是u的二次函數(shù)的指數(shù)函數(shù)63解以上兩式得將μN(yùn),σN2代入P(μ|Xi)可以得到后驗(yàn)概率,再用公式

解以上兩式得64

∴對(duì)μ的估計(jì)為若令P(μ)=N(μ0,σ02)=N(0,1)

與最大似然估計(jì)相似,只是分母不同∵

∵65三.貝葉斯學(xué)習(xí)1.貝葉斯學(xué)習(xí)的概念:求出μ的后驗(yàn)概率之后,直接去推導(dǎo)總體分布即當(dāng)觀察一個(gè)樣本時(shí),N=1就會(huì)有一個(gè)μ的估計(jì)值的修正值當(dāng)觀察N=4時(shí),對(duì)μ進(jìn)行修正,向真正的μ靠近當(dāng)觀察N=9時(shí),對(duì)μ進(jìn)行修正,向真正的μ靠的更近當(dāng)N↑,μN(yùn)就反映了觀察到N個(gè)樣本后對(duì)μ的最好推測(cè),而σN2反映了這種推測(cè)的不確定性,N↑,σN2↓,σN2隨觀察樣本增加而單調(diào)減小,且當(dāng)N→∞,σN2→0

當(dāng)N↑,P(μ|xi)越來越尖峰突起N→∞,P(μ|xi)→σ函數(shù),這個(gè)過程成為貝葉斯學(xué)習(xí)。三.貝葉斯學(xué)習(xí)66參數(shù)估計(jì)與非參數(shù)估計(jì)課件672.類概率密度的估計(jì)

在求出u的后驗(yàn)概率P(μ|xi)后,可以直接利用式推斷類條件概率密度。即P(x|xi)=P(x|ωi,xi)⑴一維正態(tài):已知σ2,μ未知∵μ的后驗(yàn)概率為2.類概率密度的估計(jì)68參數(shù)估計(jì)與非參數(shù)估計(jì)課件69結(jié)論:①把第i類的先驗(yàn)概率P(ωi)與第i類概率密度P(x|xi)相乘可以得到第i類的后驗(yàn)概率P(ωi/x),根據(jù)后驗(yàn)概率可以分類。②對(duì)于正態(tài)分布P(x|xi),用樣本估計(jì)出來的μN(yùn)代替原來的μ用代替原來的方差即可。③把估計(jì)值μN(yùn)作為μ的實(shí)際值,那么使方差由原來的變?yōu)?使方差增大結(jié)論:70⑵多維正態(tài)(已知Σ,估計(jì)μ

)設(shè)P(x|μ)=N(μ,∑)P(μ)=N(μ0,∑0).根據(jù)Bayes公式,仿上面步驟可以得到:ΣN,μN(yùn)

有以下關(guān)系其中a與μ無關(guān)⑵多維正態(tài)(已知Σ,估計(jì)μ)其中a與μ無關(guān)71這就是在多維情況下,對(duì)μ的估計(jì)參數(shù)估計(jì)與非參數(shù)估計(jì)課件72§5-3非參數(shù)估計(jì)參數(shù)估計(jì)要求密度函數(shù)的形式已知,但這種假定有時(shí)并不成立,常見的一些函數(shù)形式很難擬合實(shí)際的概率密度,經(jīng)典的密度函數(shù)都是單峰的,而在許多實(shí)際情況中卻是多峰的,因此用非參數(shù)估計(jì)。非參數(shù)估計(jì):直接用已知類別樣本去估計(jì)總體密度分布,方法有:①

用樣本直接去估計(jì)類概率密度p(x/ωi)以此來設(shè)計(jì)分類器,如窗口估計(jì)②

用學(xué)習(xí)樣本直接估計(jì)后驗(yàn)概率p(ωi/x)作為分類準(zhǔn)則來設(shè)計(jì)分類器如k近鄰法.1.

密度估計(jì):一個(gè)隨機(jī)變量X落在區(qū)域R的概率為P

P(X’)為P(X)在R內(nèi)的變化值,P(X)就是要求的總體概率密度

RP(x)§5-3非參數(shù)估計(jì)RP(x)73假設(shè)有N個(gè)樣本X=(X1,X2,…XN)T都是按照P(X)從總體中獨(dú)立抽取的若N個(gè)樣本中有k個(gè)落入在R內(nèi)的概率符合二項(xiàng)分布

其中P是樣本X落入R內(nèi)的概率Pk是k個(gè)樣本落入R內(nèi)的概率數(shù)學(xué)期望:E(k)=k=NP

∴對(duì)概率P的估計(jì):。是P的一個(gè)比較好的估計(jì)

設(shè)P(x’)在R內(nèi)連續(xù)變化,當(dāng)R逐漸減小的時(shí)候,小到使P(x)在其上幾乎沒有變化時(shí),則

其中是R包圍的體積

假設(shè)有N個(gè)樣本X=(X1,X2,…XN)T都是按74∴

∴條件密度的估計(jì):(V足夠小)討論:①當(dāng)V固定的時(shí)候N增加,k也增加,當(dāng)時(shí)

只反映了P(x)的空間平均估計(jì)而反映不出空間的變化②N固定,體積變小當(dāng)時(shí),k=0時(shí)

時(shí)

所以起伏比較大,噪聲比較大,需要對(duì)V進(jìn)行改進(jìn).∴75對(duì)體積V進(jìn)行改進(jìn):為了估計(jì)X點(diǎn)的密度,我們構(gòu)造一串包括X的區(qū)域序列R1,R2,..RN.對(duì)R1采用一個(gè)樣本進(jìn)行估計(jì),對(duì)R2采用二個(gè)樣本進(jìn)行估計(jì)..。設(shè)VN是RN的體積,KN是N個(gè)樣本落入VN的樣本數(shù)則密度的第N次估計(jì):VN是RN的體積

KN是N個(gè)樣本落入VN的樣本數(shù)∴PN(x)是P(x)的第N次估計(jì)對(duì)體積V進(jìn)行改進(jìn):76若PN(x)收斂于P(x)應(yīng)滿足三個(gè)條件:①,當(dāng)N↑時(shí),VN↓,N→∞,VN→0

這時(shí)雖然樣本數(shù)多,但由于VN↓,落入VN內(nèi)的樣本KN

也減小,所以空間變化才反映出來

②,N↑,kN↑,N與KN同相變化

③,KN的變化遠(yuǎn)小于N的變化。因此盡管在R內(nèi)落入了很多的樣本,但同總數(shù)N比較,仍然是很小的一部分。若PN(x)收斂于P(x)應(yīng)滿足三個(gè)條件:77如何選擇VN滿足以上條件:①使體積VN以N的某個(gè)函數(shù)減小,如

(h為常數(shù))②使KN作為N的某個(gè)函數(shù),例VN的選擇使RN正好包含KN個(gè)近鄰

V1→K1,V2→K2,..VR→KR→Kn近鄰法窗口法如何選擇VN滿足以上條件:窗口法782.Parzen窗口估計(jì)假設(shè)RN為一個(gè)d維的超立方體,hN為超立方體的長度∴超立方體體積為:,d=1,窗口為一線段d=2,窗口為一平面d=3,窗口為一立方體d>3,窗口為一超立方體窗口的選擇:方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)Φ(u)Φ(u)Φ(u)hN

正態(tài)窗函數(shù)2.Parzen窗口估計(jì)方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)Φ(u79∵

ф(u)是以原點(diǎn)x為中心的超立方體?!嘣趚i落入方窗時(shí),則有在VN內(nèi)為1

不在VN內(nèi)為0落入VN的樣本數(shù)為所有為1者之和∴密度估計(jì)∵ф(u)是以原點(diǎn)x為中心的超立方體。80討論:①每個(gè)樣本對(duì)估計(jì)所起的作用依賴于它到x的距離,即|x-xi|≤hN/2時(shí),xi在VN內(nèi)為1,否則為0。

②稱為的窗函數(shù),取0,1兩種值,但有

時(shí)可以取0,0.1,0.2……多種數(shù)值,例如隨xi離x接近的程度,取值由0,0.1,0.2……到1。討論:81③要求估計(jì)的PN(x)應(yīng)滿足:為滿足這兩個(gè)條件,要求窗函數(shù)滿足:④窗長度hN對(duì)PN(x)的影響若hN太大,PN(x)是P(x)的一個(gè)平坦,分辨率低的估計(jì),有平均誤差若hN太小,PN(x)是P(x)的一個(gè)不穩(wěn)定的起伏大的估計(jì),有噪聲誤差為了使這些誤差不嚴(yán)重,hN應(yīng)很好選擇③要求估計(jì)的PN(x)應(yīng)滿足:82例1:對(duì)于一個(gè)二類(ω1,ω2)識(shí)別問題,隨機(jī)抽取ω1類的6個(gè)樣本X=(x1,x2,….x6)ω1=(x1,x2,….x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估計(jì)P(x|ω1)即PN(x)解:選正態(tài)窗函數(shù)0123456x6x5x3x1x2x4x例1:對(duì)于一個(gè)二類(ω1,ω2)識(shí)別問題,隨機(jī)抽取ω183∵x是一維的上式用圖形表示是6個(gè)分別以3.2,3.6,3,6,2.5,1.1為中心的丘形曲線(正態(tài)曲線),而PN(x)則是這些曲線之和?!選是一維的84由圖看出,每個(gè)樣本對(duì)估計(jì)的貢獻(xiàn)與樣本間的距離有關(guān),樣本越多,PN(x)越準(zhǔn)確。由圖看出,每個(gè)樣本對(duì)估計(jì)的貢獻(xiàn)與樣本間85例2:設(shè)待估計(jì)的P(x)是個(gè)均值為0,方差為1的正態(tài)密度函數(shù)。若隨機(jī)地抽取X樣本中的1個(gè)、16個(gè)、256個(gè)作為學(xué)習(xí)樣本xi,試用窗口法估計(jì)PN(x)。解:設(shè)窗口函數(shù)為正態(tài)的,σ=1,μ=0hN:窗長度,N為樣本數(shù),h1為選定可調(diào)節(jié)的參數(shù)。例2:設(shè)待估計(jì)的P(x)是個(gè)均值為0,方差為1的正態(tài)密度86用窗法估計(jì)單一正態(tài)分布的實(shí)驗(yàn)N=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論