模式識別第三章_第1頁
模式識別第三章_第2頁
模式識別第三章_第3頁
模式識別第三章_第4頁
模式識別第三章_第5頁
已閱讀5頁,還剩120頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

模式識別第三章第一頁,共一百二十五頁,2022年,8月28日

解決思路:

利用已知訓(xùn)練樣本估計P(ωi),p(x/ωi),分類器訓(xùn)練的主要任務(wù):確定類概密函數(shù)p(x/ωi)

可利用信息:

訓(xùn)練樣本第二頁,共一百二十五頁,2022年,8月28日任務(wù):利用有限的樣本集去設(shè)計分類器。1)利用樣本集估計p(x/wi)和P(wi),得到估計值和2)利用、代替貝葉斯決策中的p(x/wi)和P(wi),完成分類器設(shè)計希望:當(dāng)樣本數(shù)N時,收斂于p(x/wi)、P(wi)第三頁,共一百二十五頁,2022年,8月28日三個要解決的主要問題:1)如何利用樣本集估計2)估計量的性質(zhì)如何(希望無偏估計)3)利用樣本集進(jìn)行錯誤率估計第四頁,共一百二十五頁,2022年,8月28日基本方法:1)監(jiān)督參數(shù)估計:樣本所屬類別及類條件總體概率密度函數(shù)的形式已知,未知的是表征概率密度函數(shù)的某些參數(shù);例:正態(tài)分布,未知參數(shù),2,稱為:監(jiān)督參數(shù)估計第五頁,共一百二十五頁,2022年,8月28日3)監(jiān)督非參數(shù)估計:2)非監(jiān)督參數(shù)估計:已知總體概率密度函數(shù)形式,但未知樣本所屬類別,要求推斷概率密度函數(shù)的某些參數(shù);以上都是已知p(x/wi)的函數(shù)形式已知樣本所屬類別,但未知p(x/wi)形式,直接推斷概率密度函數(shù)第六頁,共一百二十五頁,2022年,8月28日3.2參數(shù)估計中的幾個基本概念(1)統(tǒng)計量由樣本按某種規(guī)律構(gòu)造的函數(shù)或:設(shè)樣本xk(k=1,…,n)都含有總體信息,為估計未知參數(shù),把有用信息抽取出來構(gòu)造樣本的某函數(shù),即為統(tǒng)計量。例:對正態(tài)分布,其統(tǒng)計量

第七頁,共一百二十五頁,2022年,8月28日(2)參數(shù)空間:在統(tǒng)計學(xué)中,把未知參數(shù)的全部可取值的集合稱參數(shù)空間,記為第八頁,共一百二十五頁,2022年,8月28日(3)點(diǎn)估計、估計量和估計值構(gòu)造一個統(tǒng)計量d(x1,…,xN)作為某未知參數(shù)的估計,這種估計稱為點(diǎn)估計在統(tǒng)計學(xué)中,稱為的估計量。將屬于wi的樣本得到第i類的的具體數(shù)值,稱為的估計值。代入統(tǒng)計量d,這種構(gòu)造統(tǒng)計量得到參數(shù)估計量的過程,稱為點(diǎn)估計問題。第九頁,共一百二十五頁,2022年,8月28日(4)區(qū)間估計:估計某個區(qū)間(d1,d2)作為未知參數(shù)的可能取值范圍,估計的區(qū)間(d1,d2)稱為置信區(qū)間,這類估計稱為區(qū)間估計。即在一定置信度條件下估計某一未知參數(shù)的取值范圍,稱為置信區(qū)間,這類估計稱為區(qū)間估計。第十頁,共一百二十五頁,2022年,8月28日參數(shù)估計方法的主要方法:最大似然估計貝葉斯估計最大似然估計:一種常用、有效的方法把待估參數(shù)看作確定性的量,最佳估計就是使訓(xùn)練樣本的概率為最大的那個值。兩種方法的結(jié)果很接近,但本質(zhì)有很大差別即:使似然函數(shù)達(dá)到最大的參數(shù)值作為估計值。其中參數(shù)是確定的未知量(非隨機(jī))第十一頁,共一百二十五頁,2022年,8月28日貝葉斯估計的典型效果就是,每得到新的觀測樣本,都使后驗概密函數(shù)更加尖銳,使其在待估參數(shù)的真實(shí)值附近形成最大尖峰,這個現(xiàn)象稱為“貝葉斯學(xué)習(xí)”過程。貝葉斯估計:把待估參數(shù)看成符合某種先驗概率分布的隨機(jī)變量,對樣本進(jìn)行修正的過程就是把先驗概率密度轉(zhuǎn)化為后驗概率密度的過程。第十二頁,共一百二十五頁,2022年,8月28日1.最大似然估計假設(shè):(前提條件)1)待估參數(shù)θ是確定的未知量(非隨機(jī))2)按類別把樣本集分為C個子集:X1,X2,…,XC任意一個子集Xi的樣本是從總體中獨(dú)立抽取的,每一個樣本集Xi中樣本都是獨(dú)立同分布的隨機(jī)變量第十三頁,共一百二十五頁,2022年,8月28日3)每個類條件概密函數(shù)p(x/wi)的形式已知,未知的是參數(shù)向量i的值為強(qiáng)調(diào)p(x/wi)與i有關(guān),記為p(x/wi,i)

4)不同類別的參數(shù)i是獨(dú)立的即Xi中的樣本不包含j(ji)的信息,只包含i的信息(Xi與j無關(guān))可對每一類樣本獨(dú)立進(jìn)行處理,每個參數(shù)向量只由自己類別中的樣本決定。下邊就只利用第i類學(xué)習(xí)樣本來估計第i類的概率密度,忽略類別標(biāo)志,即p(x/wi,i)p(x/)

第十四頁,共一百二十五頁,2022年,8月28日設(shè)樣本子集當(dāng)樣本是獨(dú)立抽取的,則似然函數(shù)為定義:(似然函數(shù))(當(dāng)已得到同一類樣本集X,可略去類別下標(biāo),,可寫為p(X/))

當(dāng)X的N個樣本確定后,p(X/)只是的函數(shù),記為l()。第十五頁,共一百二十五頁,2022年,8月28日最大似然估計的基本思想:例:設(shè)x~N(6,1),則最可能出現(xiàn)的樣本就是x=6,即l()=maxp(x/(6,1)))=p(6/(6,1)),若已知,當(dāng)從觀測值中抽取樣本x1,x2,…,xN時,最可能出現(xiàn)的樣本是使l()為最大的樣本。若未知,X選定。不同的選擇,對N個樣本x1,x2,…,xN就有不同的p(X/)值,應(yīng)選擇使x1,x2,…,xN的似然函數(shù)l()為最大的第十六頁,共一百二十五頁,2022年,8月28日定義最大似然估計:使p(X/)達(dá)極大值的參數(shù)向量,就是的最大似然估計。顯然使最大的是樣本x1,x2,…,xN的函數(shù),記為第十七頁,共一百二十五頁,2022年,8月28日計算方法:

或若有s個分量:求即為便于分析,取對數(shù)形式求導(dǎo)第十八頁,共一百二十五頁,2022年,8月28日則:s個聯(lián)立方程組求解,可得即:使對數(shù)似然函數(shù)最大的值,也必然使似然函數(shù)最大。是樣本的函數(shù),若樣本數(shù)N∞時,估計值收斂于真值。第十九頁,共一百二十五頁,2022年,8月28日注:極值解可能有多解,有全局最大解、局部極大點(diǎn)和拐點(diǎn)等,確定最大值點(diǎn)即可。按上式對所有類型進(jìn)行同樣操作,最終完成對所有類型的最大似然估計。p(X/)第二十頁,共一百二十五頁,2022年,8月28日例:高斯分布1)∑已知,μ未知,似然函數(shù)為:其中,對于正態(tài)分布第二十一頁,共一百二十五頁,2022年,8月28日求導(dǎo):第二十二頁,共一百二十五頁,2022年,8月28日令則說明未知均值的最大似然估計正好是訓(xùn)練樣本的算術(shù)平均第二十三頁,共一百二十五頁,2022年,8月28日2)、均未知考慮一維情況(d=1)令1=,2=2

似然函數(shù)其中,對于一維正態(tài)分布第二十四頁,共一百二十五頁,2022年,8月28日令求導(dǎo)則有第二十五頁,共一百二十五頁,2022年,8月28日對于多元高斯函數(shù)(d維),則有∴最大似然估計結(jié)果令人滿意結(jié)論:①μ的估計即為學(xué)習(xí)樣本的算術(shù)平均②估計的協(xié)方差矩陣是矩陣的算術(shù)平均(dⅹd陣列,dⅹd個值)第二十六頁,共一百二十五頁,2022年,8月28日一個反例:均勻分布似然函數(shù)的解為必要條件

(3-11式)不一定有解,即:(有兩個需估計的參數(shù))注意:第二十七頁,共一百二十五頁,2022年,8月28日取對數(shù):求導(dǎo):極值解為無窮大,結(jié)果無意義。需用其它方法找最大值。第二十八頁,共一百二十五頁,2022年,8月28日給定N個觀察值x1,…,xN,由這些樣本集估計1,2∵1<x<2

若取x是X中最大的,2不能小于x

2-1最小可能的取值為x-x,使l()達(dá)到了最大值∴,就是的最大似然估計量x是X中最小的,1不能大于x第二十九頁,共一百二十五頁,2022年,8月28日3.2.2貝葉斯估計及貝葉斯學(xué)習(xí)1.貝葉斯估計(BE)利用已知的訓(xùn)練樣本,使的初始密度估計轉(zhuǎn)化為后驗概率密度p(/X)與最大似然估計的區(qū)別:最大似然估計:為確定量貝葉斯估計:為服從某種先驗分布的隨機(jī)量,其先驗概率密度為p()第三十頁,共一百二十五頁,2022年,8月28日與貝葉斯決策基本思想一樣,都是使貝葉斯風(fēng)險最小。不同是一個決策真實(shí)類別wk,一個估計真實(shí)參數(shù)。差別:1)參數(shù)的估計,不是類別wj的判決2)在參數(shù)空間里進(jìn)行,是連續(xù),不是在類型空間A里進(jìn)行,A是離散的3)考慮條件:是樣本集X和未知參數(shù)的先驗概率密度p(),而不是樣本x和類型的先驗概率p(wi)第三十一頁,共一百二十五頁,2022年,8月28日引入估計風(fēng)險(也稱為代價函數(shù)、損失函數(shù)):貝葉斯決策中的總平均風(fēng)險為:第三十二頁,共一百二十五頁,2022年,8月28日貝葉斯估計中的總平均風(fēng)險為:其中

為x的風(fēng)險條件,即為:(**)第三十三頁,共一百二十五頁,2022年,8月28日注意:小寫x表示具體樣本,大寫X表示樣本集。對于樣本集,貝葉斯公式(3-21)可寫為:第三十四頁,共一百二十五頁,2022年,8月28日貝葉斯估計的基本思想:若的估計量使條件風(fēng)險最小(即等價于使平均風(fēng)險R最?。?,則稱是關(guān)于的貝葉斯估計量定義貝葉斯估計:為了求解,必須定義損失函數(shù)。對不同的定義,可得不同的最佳貝葉斯估計。例:可定義平均誤差為損失函數(shù)。求得的的估計值應(yīng)使R最小,等價于求使條件風(fēng)險最小的估計值第三十五頁,共一百二十五頁,2022年,8月28日舉例:定義損失函數(shù)為可得貝葉斯估計量為

(推導(dǎo)過程略p52)平方誤差損失函數(shù)利用上式,推廣到樣本集X,則計算(求導(dǎo))第三十六頁,共一百二十五頁,2022年,8月28日在許多情況下最小方差貝葉斯估計是最理想的,是貝葉斯的最優(yōu)估計。

給定觀測樣本集X時,貝葉斯估計量為的條件期望值,稱為最小方差貝葉斯估計。第三十七頁,共一百二十五頁,2022年,8月28日在平方誤差為損失函數(shù)條件下,求解的過程:1)確定未知參數(shù)的先驗分布密度p()(即對有一個先驗知識);3)利用貝葉斯公式求出的

后驗分布密度p(/X);4)利用平方誤差損失函數(shù),可計算出使R最小的貝葉斯估計量,即2)由樣本集,以及公式,求出樣本聯(lián)合概率密度p(X/);第三十八頁,共一百二十五頁,2022年,8月28日例:正態(tài)分布的均值貝葉斯估計一維正態(tài)分布:已知σ2,估計μ

假設(shè)概率密度服從正態(tài)分布

p(x/μ)~N(μ,σ2),p(μ)~N(μ0,σ02)已知樣本集X=(x1,x2,….xN)T,聯(lián)合概率密度p(X/μ,x)=p(X/μ)μ后驗概率為:(貝葉斯公式)第三十九頁,共一百二十五頁,2022年,8月28日因為N個樣本是獨(dú)立抽取的,上式為其中只與x有關(guān),與μ無關(guān)∵p(x/μ)~N(μ,σ2),p(μ)~N(μ0,σ02)μ后驗概率為:第四十頁,共一百二十五頁,2022年,8月28日其中a’,a’’包含了所有與μ無關(guān)的因子第四十一頁,共一百二十五頁,2022年,8月28日后驗概率可直接寫成正態(tài)形式:比較以上兩式,對應(yīng)系數(shù)相等,∴有:可見,p(μ/X)是u的二次函數(shù)的指數(shù)函數(shù)∴仍然是一個正態(tài)函數(shù),p(μ/X)~N(μN(yùn),σN2)第四十二頁,共一百二十五頁,2022年,8月28日解以上兩式得:將μN(yùn),σN2代入p(μ/X),即可得后驗概率再利用公式求的估計第四十三頁,共一百二十五頁,2022年,8月28日則∴對μ的估計為:若令p(μ)=N(μ0,σ02)=N(0,1),且σ2=1與最大似然估計相似,只是分母不同第四十四頁,共一百二十五頁,2022年,8月28日2.貝葉斯學(xué)習(xí)貝葉斯估計的前提條件:1)已知類概率密度p(x/)形式,但未知;2)信息包含在p()中;3)信息從樣本集X中提取。第四十五頁,共一百二十五頁,2022年,8月28日

訓(xùn)練樣本類別已知,抽取同一類樣本數(shù)決定概率密度函數(shù)p(x/X),而沒必要去確定有類別標(biāo)記的p(x/wi)。即求出概密函數(shù)p(x/X),使其盡可能接近未知的p(x)貝葉斯學(xué)習(xí)的中心要點(diǎn):與貝葉斯估計前提條件相同,區(qū)別是:通過訓(xùn)練樣本集直接推斷總體概率密度分布p(x/X):.第四十六頁,共一百二十五頁,2022年,8月28日上式中根據(jù)貝葉斯估計的步驟,執(zhí)行完前三步驟求出p(/X)后,直接求p(x/X)總體樣本的后驗概率密度p(x/X)為:已知的條件下,X對x已不具有什么信息未知參數(shù)的后驗分布密度第四十七頁,共一百二十五頁,2022年,8月28日

采集的樣本越多,在出現(xiàn)的概率就越大。就會在處出現(xiàn)一個尖峰。先討論(似然函數(shù))假設(shè)已經(jīng)得到的估計,即已確定,最大似然法的基本思想第四十八頁,共一百二十五頁,2022年,8月28日所以,也會在處出現(xiàn)峰值(當(dāng)N時,在處如果分布不太奇異,即如果p()在不為零,且比較平坦,而且上式分母表示X出現(xiàn)的概率,變化不大?!?/p>

可近似當(dāng)作在處的一個函數(shù)根據(jù)3.32式,即:第四十九頁,共一百二十五頁,2022年,8月28日表明:用極大似然估計值代替真實(shí)參數(shù)后,得到概率估計值,即可近似作為真實(shí)概率分布。由式:(式3-31)近似為函數(shù)∴與最大似然估計結(jié)果近似相等??傻茫海ㄊ?-33)第五十頁,共一百二十五頁,2022年,8月28日討論

的收斂性問題:∵x1,…,xN條件獨(dú)立,則有

可利用的估計值去判在什么地方出現(xiàn)尖峰,若峰不尖銳,不能用最大似然估計值來代替似然函數(shù)即N時,是否收斂于p(x)第五十一頁,共一百二十五頁,2022年,8月28日由貝葉斯公式有:遞推公式,即貝葉斯學(xué)習(xí)第五十二頁,共一百二十五頁,2022年,8月28日顯然正態(tài)分布及大多數(shù)概密都有此性質(zhì)不斷重復(fù),可產(chǎn)生一序列如果該序列收斂于以真實(shí)參數(shù)為中心的函數(shù),則這種遞推過程稱為貝葉斯學(xué)習(xí)稱為參數(shù)估計的一種遞推貝葉斯方法第五十三頁,共一百二十五頁,2022年,8月28日第五十四頁,共一百二十五頁,2022年,8月28日當(dāng)觀察一個樣本時,N=1就會有一個估計值μ的修正值當(dāng)觀察N=4時,對μ進(jìn)行修正,向真正的μ靠近當(dāng)觀察N=9時,對μ進(jìn)行修正,向真正的μ靠的更近當(dāng)N↑,μN(yùn)反映了觀察到N個樣本后對μ的最好推測。而σN2反映了這種推測的不確定性,N↑,σN2↓σN2隨觀察樣本增加而單調(diào)減小,且當(dāng)N→∞,σN2→0N→∞,P(μ|xi)→函數(shù),這個過程成為貝葉斯學(xué)習(xí)N↑,P(μ|xi)越來越尖峰突起,第五十五頁,共一百二十五頁,2022年,8月28日當(dāng)N時,的估計量就是真實(shí)參數(shù),則如果類概密具有貝葉斯學(xué)習(xí)的性質(zhì),則當(dāng)樣本數(shù)目N時,式3-33的近似等式變?yōu)榇_切等式,且估計值就是真實(shí)參數(shù),后驗概分布就是真實(shí)分布p(x)。第五十六頁,共一百二十五頁,2022年,8月28日⑴一維正態(tài):已知σ2,μ未知∵μ的后驗概率為例:正態(tài)分布推斷類條件概率密度。在求出u的后驗概率p(μ|X)后,可利用式第五十七頁,共一百二十五頁,2022年,8月28日類概率密度函數(shù)第五十八頁,共一百二十五頁,2022年,8月28日結(jié)論:

對于正態(tài)分布p(x|X),可用樣本估計出來的μN(yùn)代替原來的μ,用代替原來的方差即可。把估計值μN(yùn)作為μ的實(shí)際值,則使方差由原來的變?yōu)?使方差增大。第五十九頁,共一百二十五頁,2022年,8月28日3.最大似然估計、貝葉斯估計、貝葉斯學(xué)習(xí)之間的關(guān)系

最大似然估計:貝葉斯估計:求貝葉斯學(xué)習(xí):直接求總體分布只有樣本信息綜合了先驗信息和樣本信息綜合了先驗信息和樣本信息第六十頁,共一百二十五頁,2022年,8月28日3.4非監(jiān)督參數(shù)估計

當(dāng)不能確知樣本的類別屬性,而又要對分類器進(jìn)行訓(xùn)練時,就選用非監(jiān)督參數(shù)估計。與監(jiān)督參數(shù)估計的差別:只提供未分類的訓(xùn)練樣本集。處理方法類似:也主要是最大似然估計和貝葉斯方法。第六十一頁,共一百二十五頁,2022年,8月28日3.4.1幾個問題

1.假設(shè)條件:1)類型數(shù)目c已知,樣本

來自各類,但不知其類別屬性,樣本試驗獨(dú)立進(jìn)行。則稱該樣本集

為混合樣本集。2)已知第六十二頁,共一百二十五頁,2022年,8月28日3)已知每個類型的

形式,j是該概密函數(shù)的未知參數(shù)4)僅有c個參數(shù)向量1,2,…,c的值未知

只要確定,類概率密度就被確定,的信息主要存在于混合樣本集X中,其次存在于p()或p(wj)中。第六十三頁,共一百二十五頁,2022年,8月28日2.構(gòu)造似然函數(shù)混合密度定義:其中監(jiān)督參數(shù)估計:似然函數(shù)定義為其中X是針對某一類。

對于非監(jiān)督,沒有給樣本所屬類別,稱混合密度第六十四頁,共一百二十五頁,2022年,8月28日非監(jiān)督下的似然函數(shù)定義為(獨(dú)立抽樣)對數(shù)似然函數(shù):最大似然估計:第六十五頁,共一百二十五頁,2022年,8月28日3.可識別性問題(在非監(jiān)督估計中,存在可識別問題)訓(xùn)練的目的:即避免不同的,產(chǎn)生相同的密度函數(shù)p(x/)

估計未知參數(shù)向量,且可分解為唯一一組1,…,c,則可確定類條件概率密度p(x/wj)。

若出現(xiàn)多組解,p(x/wi,XN)并不收斂于真實(shí)的p(x/wj)可識別問題:能否分解第六十六頁,共一百二十五頁,2022年,8月28日

當(dāng),有p(x/)p(x/),稱p(x/)為可識別性,

對于監(jiān)督訓(xùn)練,可允許多個解i,可導(dǎo)致相同的類概率密度

非監(jiān)督訓(xùn)練,訓(xùn)練樣本不可能在同一類中進(jìn)行,若時,有p(x/)=p(x/),則不可識別。

在研究非監(jiān)督參數(shù)估計方法時,假定混合密度是可識別的??勺R別性:第六十七頁,共一百二十五頁,2022年,8月28日4.計算問題其中求最大似然估計量令上式=0,解c個微分方程組,得第六十八頁,共一百二十五頁,2022年,8月28日利用貝葉斯公式,轉(zhuǎn)化為后驗概率的微分方程由此得p(xk/)為:后驗概率為(更簡單)代入3-67式第六十九頁,共一百二十五頁,2022年,8月28日則令上式為0,即c個方程,可算出c個未知參數(shù)當(dāng)

時,i與j在函數(shù)上是獨(dú)立的。得最大似然估計第七十頁,共一百二十五頁,2022年,8月28日

首先后驗概率p(wi/xk,i)要已知,可由3-68算出,也必須知道P(wi)i=1,…,c。由此可求得最大似然估計的解和若不知道先驗概率p(wi),則微分方程應(yīng)加約束條件。可從似然函數(shù)p(X/)和混合樣本集中提取信息,估計P(wi)第七十一頁,共一百二十五頁,2022年,8月28日例:正態(tài)分布中的最大似然估計1)僅均值向量ui未知——均值向量的最大似然估計量??赏茖?dǎo)ui的最大似然估計量為(過程見p63)第七十二頁,共一百二十五頁,2022年,8月28日因

未知,上式不是ui的顯函數(shù)利用貝葉斯公式,可求得后驗概率:

代入,則得一組十分復(fù)雜的非線性聯(lián)立方程組,很難解,一般用迭代法。第七十三頁,共一百二十五頁,2022年,8月28日迭代法求似然函數(shù)最大解,具體過程:1)給定混合樣本X、類型數(shù)目C、先驗概率P(wi),給定迭代次數(shù)2)給定一較好的初始估計值

3)計算后驗概率4)計算均值直到結(jié)果滿意為止第七十四頁,共一百二十五頁,2022年,8月28日缺點(diǎn):2)不一定是全局最優(yōu)解,可能僅是局部最優(yōu)值如果各類型的分量密度重疊較少,算法收斂較快,其它情況更困難1)受初值影響較大

第七十五頁,共一百二十五頁,2022年,8月28日3.5總體分布的非參數(shù)估計非參數(shù)估計優(yōu)勢:能處理任意的概率分布,不必假設(shè)概密的形式。

參數(shù)估計要求密度函數(shù)的形式已知,但有時并不成立。常見的一些函數(shù)形式很難擬合實(shí)際的概率密度,且許多都是單峰的,而在許多實(shí)際情況中卻是多峰的,因此用非參數(shù)估計。第七十六頁,共一百二十五頁,2022年,8月28日①

用訓(xùn)練樣本直接去估計類概率密度p(x/ωi)以此來設(shè)計分類器,如窗口估計當(dāng)樣本數(shù)目N足夠大時,則p(x/X)非常接近真實(shí)分布密度p(x),即方法有:任務(wù):直接用已知類別樣本去估計總體密度分布。②

用訓(xùn)練樣本直接估計后驗概率p(ωi/x)作為分類準(zhǔn)則來設(shè)計分類器如k近鄰法.第七十七頁,共一百二十五頁,2022年,8月28日基本思想:

每個訓(xùn)練樣本xk(k=1,2,…,N)對總體概率密度p(x)都有一定貢獻(xiàn),把N個訓(xùn)練樣本的貢獻(xiàn)疊加起來,就得到總體

密度估計密度估計:∴概率P是概密p(x)的一種平滑或取平均的形式,p(x)為P在R內(nèi)的變化值。對于某區(qū)域R,當(dāng)一向量x落入某區(qū)域R的概率為可通過估計概率P來估計概率密度p(x)第七十八頁,共一百二十五頁,2022年,8月28日其中假設(shè)有N個樣本x=(x1,x2,…xN)T都是按照概率密度p(x)從總體分布中獨(dú)立抽取,則N個樣本中有k個落入?yún)^(qū)域R的概率是服從二項式分布:P是樣本x落入R內(nèi)的概率

Pk是k個樣本落入R內(nèi)的概率第七十九頁,共一百二十五頁,2022年,8月28日∵樣本x是隨機(jī)抽取的,∴落入?yún)^(qū)域R的數(shù)目k是隨機(jī)的,則k的數(shù)學(xué)期望為:Pk是k個樣本落入?yún)^(qū)域R的概率P是樣本x落入?yún)^(qū)域R的概率眾數(shù)的概念:使Pk最大的k值,稱為眾數(shù),記為m,即這個概率發(fā)生在k的眾數(shù)m上第八十頁,共一百二十五頁,2022年,8月28日∴對概率P的估計:根據(jù)二項式分布,k的眾數(shù)為:m=[(N+1)P]的整數(shù)部分意義:抽N個樣本中,有k=m個樣本落入?yún)^(qū)域R的概率最大。可取:來對P進(jìn)行估計是P的一個較好的估計,尤其N非常大時,估計將非常準(zhǔn)確?!吣康氖枪烙嫺怕拭芏萷(x)第八十一頁,共一百二十五頁,2022年,8月28日設(shè)p(x)在R內(nèi)連續(xù)變化,當(dāng)R逐漸減小的時候,小到使p(x)在其上幾乎沒有變化時,則其中是R包圍的體積∴概率密度的估計為:(V足夠小)∴與N、V、k有關(guān),顯然與p(x)存在差異第八十二頁,共一百二十五頁,2022年,8月28日討論:①若區(qū)域R的體積V固定,隨著N增加,k也增加,

當(dāng)

時②若N固定,體積變小.當(dāng)

時,k=0時

只能反映p(x)的空間平均估計,而反映不出空間的變化。則需讓無意義第八十三頁,共一百二十五頁,2022年,8月28日該方法的局限性:實(shí)際估計時,N有限,V也不能任意小,估計的p(x)總是存在一定誤差,密度函數(shù)是一定范圍內(nèi)的平均值,存在一定的平滑效果。如果樣本數(shù)目N固定,讓V→0,則會出現(xiàn)無意義的情況,p(x)=0,p(x)→∞。p(x)值起伏比較大,噪聲比較大.∴為了提高x處概率p(x)的估計精度,需要對V進(jìn)行改進(jìn),設(shè)計適當(dāng)限制條件第八十四頁,共一百二十五頁,2022年,8月28日為了估計x點(diǎn)處的概率密度函數(shù),我們構(gòu)造一串包括x的區(qū)域序列R1,R2,…,RN。對體積V進(jìn)行改進(jìn):對R1采用一個樣本進(jìn)行估計,對R2采用二個樣本進(jìn)行估計…。設(shè)VN是RN的體積,KN是N個樣本中落入VN的樣本數(shù),則概率密度的第N次估計:是p(x)的第N次估計第八十五頁,共一百二十五頁,2022年,8月28日

為使

收斂于p(x),提高p(x)估計精度,序列必須滿足三個條件:

當(dāng)N↑時,VN↓,N→∞,VN→0

這時雖然樣本數(shù)多,但由于VN↓,落入VN內(nèi)的樣本KN也減小,所以空間變化才反映出來

保證了在區(qū)域均勻收縮及p(x)在x處連續(xù)情況下,可使平均密度收斂于真實(shí)分布p(x),即第八十六頁,共一百二十五頁,2022年,8月28日

只對p(x)≠0的點(diǎn)有意義,可使頻率數(shù)

收斂于真實(shí)概率PN↑,kN↑,N與KN同相變化

KN的變化遠(yuǎn)小于N的變化。盡管在RN內(nèi)落入了大量樣本,但與樣本總數(shù)N比較,仍然很少。避免了

的可能性。第3個條件是必要條件第八十七頁,共一百二十五頁,2022年,8月28日

滿足上述條件的區(qū)域序列(VN)有兩種選擇方法,形成兩種非參數(shù)估計方法:1)Parzen窗法;兩者如何選擇VN?2)KN近鄰估計選擇VN滿足上述條件,可使

收斂于p(x)第八十八頁,共一百二十五頁,2022年,8月28日1)Parzen窗法:2.KN近鄰估計使體積VN以N的某個函數(shù)減小,例(滿足第1條)使KN作為N的某個函數(shù),例VN的選擇使RN正好包含KN個近鄰(滿足第2條)V1→K1,V2→K2,..VR→KR——近鄰法這兩種方法最終都能夠收斂,但卻很難預(yù)測在有限樣本情況下的估計效果。第八十九頁,共一百二十五頁,2022年,8月28日3.5.2Parzen窗法——一種非參數(shù)估計方法1.Parzen窗估計法的基本概念由出發(fā),可假設(shè)圍繞x點(diǎn)的區(qū)域RN為一個d維超立方體,邊長為hN,其中第九十頁,共一百二十五頁,2022年,8月28日d=1,窗口為一線段;d=2,窗口為一平面d=3,窗口為一立方體;d>3,窗口為一超立方體窗口的選擇:有多種選擇方窗函數(shù)指數(shù)窗函數(shù)正態(tài)窗函數(shù)Φ(u)Φ(u)Φ(u)hN

正態(tài)窗函數(shù)第九十一頁,共一百二十五頁,2022年,8月28日若選ф(u)是以原點(diǎn)x為中心的超立方體。在xi落入方窗時,則有在VN內(nèi)為1不在VN內(nèi)為0落入VN的樣本數(shù)等于所有為1者之和即第九十二頁,共一百二十五頁,2022年,8月28日則概率密度估計:∴落入窗口中的樣本為——Parzen窗法估計的基本公式該式是一個迭加函數(shù),使用KN個以xi為中心的窗函數(shù)迭加,對x處的概密進(jìn)行估計。每一樣本xi對概率密度函數(shù)的貢獻(xiàn)只在一個窗口范圍,離x遠(yuǎn)近不同,貢獻(xiàn)不同,是一種內(nèi)插過程。第九十三頁,共一百二十五頁,2022年,8月28日①每個樣本對估計所起的作用依賴于它到x的距離,即|x-xi|≤hN/2時,xi在VN內(nèi)為1,否則為0。討論:②

稱為窗函數(shù),取0,1兩種值,

但有時可取0,0.1,0.2……多種數(shù)值,例如隨xi離x接近的程度,

取值可由0,0.1,0.2……到1。第九十四頁,共一百二十五頁,2022年,8月28日為滿足這兩個條件,要求窗函數(shù)滿足:(保證

非負(fù))④窗函數(shù)的選擇例:矩形窗、正態(tài)窗、指數(shù)窗、三角窗等等(只要滿足上述兩條件,都可作為窗函數(shù)使用)③要求估計的

應(yīng)滿足:第九十五頁,共一百二十五頁,2022年,8月28日④窗長度hN對

的影響

hN又稱為平滑因子,N有限時,hN影響大,既影響幅度,又影響寬度若定義則hN太大,是p(x)的一個平滑估計,不能跟上p(x)變化,分辨力太低,有平均誤差。

若hN太大,N(x)幅度小,而寬度拓寬,變得平緩,是由N個寬的低幅緩變函數(shù)迭加。第九十六頁,共一百二十五頁,2022年,8月28日

若hN太小,N(x)幅度很大,寬度很小,是N個以xi為中心的尖脈沖在x處的疊加。hN太小,是p(x)的一個起伏大的估計,分辨力高,但不穩(wěn)定,波動太大,有噪聲誤差。

圖3.6、圖3.7,說明hN及N的影響為使這些誤差不嚴(yán)重,hN應(yīng)折衷選擇,即VN選擇很關(guān)鍵

看出要得到與真實(shí)分布相近的估計,需要非常大量的訓(xùn)練樣本。第九十七頁,共一百二十五頁,2022年,8月28日(5)的統(tǒng)計特性對p(x),(u),hN作必要的約束,即滿足3.115~3.123式,就能保證收斂?!嘣谝欢ㄏ拗茥l件下,是漸近無偏估計,平方誤差一致,即N,第九十八頁,共一百二十五頁,2022年,8月28日0123456x6x5x3x1x2x4x例1:對于一個二類(ω1,ω2)識別問題,隨機(jī)抽取ω1類的6個樣本X=(x1,x2,….x6)ω1=(x1,x2,….x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估計p(x|ω1),即第九十九頁,共一百二十五頁,2022年,8月28日解:選正態(tài)窗函數(shù)∵x是一維的第一百頁,共一百二十五頁,2022年,8月28日

上式用圖表示,則是6個分別以3.2,3.6,3,6,2.5,1.1為中心的正態(tài)曲線,而

則是這些曲線之和。第一百零一頁,共一百二十五頁,2022年,8月28日由圖看出:每個樣本對估計的貢獻(xiàn)與樣本間的距離有關(guān),樣本越多,PN(x)越準(zhǔn)確。第一百零二頁,共一百二十五頁,2022年,8月28日例2:設(shè)待估計的p(x)是均值為0,方差為1的正態(tài)密度函數(shù)。若隨機(jī)抽取X樣本中的1個、16個、256個作為學(xué)習(xí)樣本xi,試用窗口法估計pN(x)。解:設(shè)窗口函數(shù)為正態(tài)的,σ=1,μ=0第一百零三頁,共一百二十五頁,2022年,8月28日hN:窗長度,N為樣本數(shù),h1為選定可調(diào)節(jié)的參數(shù)。第一百零四頁,共一百二十五頁,2022年,8月28日用窗法估計單一正態(tài)分布的實(shí)驗N=∞N=256N=16N=1第一百零五頁,共一百二十五頁,2022年,8月28日①當(dāng)N=1時,是一個以第一個樣本為中心的正態(tài)形狀的小丘,與窗函數(shù)差不多。

討論:由圖看出,隨N,h1的變化情況②當(dāng)N=16及N=256時h1=0.25曲線起伏很大,噪聲大h1=1起伏減小h1=4曲線平坦,平均誤差

③當(dāng)N→∞時,pN(x)收斂于一平滑的正態(tài)曲線,估計曲線較好。第一百零六頁,共一百二十五頁,2022年,8月28日例3.待估的密度函數(shù)為二項分布解:此為多峰情況的估計設(shè)窗函數(shù)為正態(tài)-0.25<x<-20<x<2x為其它x-2.5-210.2502p(x)第一百零七頁,共一百二十五頁,2022年,8月28日N=∞N=256N=16N=1用窗法估計兩個均勻分布的實(shí)驗第一百零八頁,共一百二十五頁,2022年,8月28日①當(dāng)N=1時,實(shí)際是窗函數(shù)。

②當(dāng)N=16及N=256時h1=0.25曲線起伏大h1=1曲線起伏減小h1=4曲線平坦③當(dāng)N→∞時,曲線較好上圖是N=1、16、256、∞時的

估計結(jié)果第一百零九頁,共一百二十五頁,2022年,8月28日圖3.6、圖3.7說明了該方法的功能和限制,其結(jié)果依賴N和h1。尤其要得到精確的估計,所需的樣本個數(shù)非常多。N=1時,得到的更多是關(guān)于窗函數(shù)的信息,而不是概密函數(shù);當(dāng)N=16時,估計結(jié)果不令人滿意;當(dāng)N=256,h1=1時,結(jié)果開始趨于精確。圖3.7更明顯:第一百一十頁,共一百二十五頁,2022年,8月28日①窗口法具有應(yīng)用的普遍性。對規(guī)則、非規(guī)則分布,單鋒或多峰分布都可用此法估計概率密度。

圖3.6、圖3.7說明了如下結(jié)論:

只要樣本足夠多,總可保證收斂于任何復(fù)雜的概密函數(shù)。Parzen窗的優(yōu)點(diǎn):第一百一十一頁,共一百二十五頁,2022年,8月28日Parzen窗的缺點(diǎn):尤其特征空間維數(shù)大于1后,更加突出,對樣本的需求相對于維數(shù)按指數(shù),所以易出現(xiàn)“維數(shù)災(zāi)難”。②要求樣本足夠多,才能有較好的估計。比參數(shù)估計法所需樣本數(shù)大得多,∴需大量的存儲單元和計算時間,計算效率不高。第一百一十二頁,共一百二十五頁,2022年,8月28日利用訓(xùn)練樣本類別屬性已知,對每一類獨(dú)立估計概率密度,并根據(jù)最大后驗概率(MAP)的原則進(jìn)行分類。為提高處理效率,模式識別可用并行處理方式實(shí)現(xiàn),以空間復(fù)雜度來換取時間復(fù)雜度——具有人工網(wǎng)絡(luò)的結(jié)構(gòu)。Parzer窗法+神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)概率神經(jīng)網(wǎng)絡(luò)(ProbabilisticneuralnetworkPNN)分類器設(shè)計:第一百一十三頁,共一百二十五頁,2022年,8月28日3.5.3KN近鄰估計Parzen窗法存在的問題:

例,對V1敏感(圖3.6,圖3.7)對VN(hN)的選擇,對估計結(jié)果影響很大若hN選太小,則大部分體積將是空的(不包含樣本),使PN(x)估計不穩(wěn)定;若hN選太大,則PN(x)估計較平坦,反映不出總體分布的變化.KN近鄰估計是克服該問題的一個較有效方法第一百一十四頁,共一百二十五頁,2022年,8月28日以x為中心建立區(qū)域V,使V增大(V1,V2,…,VN),直到捕捉到KN個樣本為止?!喾QKN-近鄰估計KN近鄰法的思想:VN受控于KN,而不是直接作為N的函數(shù),可避免出現(xiàn)空的區(qū)域RN,消除了不穩(wěn)定性。VN適應(yīng)于KN的變化即:樣本密度大,V

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論