模式識別第三章

上傳人：卓*** IP屬地：廣東上傳時間：2023-03-16 格式：PPT 頁數：125 大小：5.62MB 積分：25 舉報 版權申訴

已閱讀5頁，還剩120頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

模式識別第三章第一頁，共一百二十五頁，2022年，8月28日

解決思路：

利用已知訓練樣本估計P(ωi),p(x/ωi),分類器訓練的主要任務：確定類概密函數p(x/ωi)

可利用信息：

訓練樣本第二頁，共一百二十五頁，2022年，8月28日任務：利用有限的樣本集去設計分類器。1）利用樣本集估計p(x/wi)和P(wi)，得到估計值和2）利用、代替貝葉斯決策中的p(x/wi)和P(wi)，完成分類器設計希望：當樣本數N時，收斂于p(x/wi)、P(wi)第三頁，共一百二十五頁，2022年，8月28日三個要解決的主要問題：1）如何利用樣本集估計2）估計量的性質如何（希望無偏估計）3）利用樣本集進行錯誤率估計第四頁，共一百二十五頁，2022年，8月28日基本方法：1）監(jiān)督參數估計：樣本所屬類別及類條件總體概率密度函數的形式已知，未知的是表征概率密度函數的某些參數；例：正態(tài)分布，未知參數，2，稱為：監(jiān)督參數估計第五頁，共一百二十五頁，2022年，8月28日3）監(jiān)督非參數估計：2）非監(jiān)督參數估計：已知總體概率密度函數形式，但未知樣本所屬類別，要求推斷概率密度函數的某些參數；以上都是已知p(x/wi)的函數形式已知樣本所屬類別，但未知p(x/wi)形式，直接推斷概率密度函數第六頁，共一百二十五頁，2022年，8月28日3.2參數估計中的幾個基本概念（1）統(tǒng)計量由樣本按某種規(guī)律構造的函數或：設樣本xk(k=1,…,n)都含有總體信息，為估計未知參數，把有用信息抽取出來構造樣本的某函數，即為統(tǒng)計量。例：對正態(tài)分布，其統(tǒng)計量

第七頁，共一百二十五頁，2022年，8月28日（2）參數空間：在統(tǒng)計學中，把未知參數的全部可取值的集合稱參數空間，記為第八頁，共一百二十五頁，2022年，8月28日（3）點估計、估計量和估計值構造一個統(tǒng)計量d(x1,…,xN)作為某未知參數的估計，這種估計稱為點估計在統(tǒng)計學中，稱為的估計量。將屬于wi的樣本得到第i類的的具體數值，稱為的估計值。代入統(tǒng)計量d，這種構造統(tǒng)計量得到參數估計量的過程，稱為點估計問題。第九頁，共一百二十五頁，2022年，8月28日（4）區(qū)間估計：估計某個區(qū)間（d1,d2）作為未知參數的可能取值范圍，估計的區(qū)間（d1,d2）稱為置信區(qū)間，這類估計稱為區(qū)間估計。即在一定置信度條件下估計某一未知參數的取值范圍，稱為置信區(qū)間，這類估計稱為區(qū)間估計。第十頁，共一百二十五頁，2022年，8月28日參數估計方法的主要方法:最大似然估計貝葉斯估計最大似然估計：一種常用、有效的方法把待估參數看作確定性的量，最佳估計就是使訓練樣本的概率為最大的那個值。兩種方法的結果很接近，但本質有很大差別即：使似然函數達到最大的參數值作為估計值。其中參數是確定的未知量（非隨機）第十一頁，共一百二十五頁，2022年，8月28日貝葉斯估計的典型效果就是，每得到新的觀測樣本，都使后驗概密函數更加尖銳，使其在待估參數的真實值附近形成最大尖峰，這個現象稱為“貝葉斯學習”過程。貝葉斯估計：把待估參數看成符合某種先驗概率分布的隨機變量，對樣本進行修正的過程就是把先驗概率密度轉化為后驗概率密度的過程。第十二頁，共一百二十五頁，2022年，8月28日1．最大似然估計假設：（前提條件）1）待估參數θ是確定的未知量（非隨機）2）按類別把樣本集分為C個子集：X1，X2，…，XC任意一個子集Xi的樣本是從總體中獨立抽取的，每一個樣本集Xi中樣本都是獨立同分布的隨機變量第十三頁，共一百二十五頁，2022年，8月28日3）每個類條件概密函數p(x/wi)的形式已知，未知的是參數向量i的值為強調p(x/wi)與i有關，記為p(x/wi,i)

4）不同類別的參數i是獨立的即Xi中的樣本不包含j(ji)的信息，只包含i的信息（Xi與j無關）可對每一類樣本獨立進行處理，每個參數向量只由自己類別中的樣本決定。下邊就只利用第i類學習樣本來估計第i類的概率密度，忽略類別標志，即p(x/wi,i)p(x/)

第十四頁，共一百二十五頁，2022年，8月28日設樣本子集當樣本是獨立抽取的，則似然函數為定義:(似然函數)（當已得到同一類樣本集X，可略去類別下標，，可寫為p(X/)）

當X的N個樣本確定后，p(X/)只是的函數，記為l()。第十五頁，共一百二十五頁，2022年，8月28日最大似然估計的基本思想：例：設x~N(6,1)，則最可能出現的樣本就是x=6，即l()=maxp(x/(6,1)))=p(6/(6,1)),若已知，當從觀測值中抽取樣本x1,x2,…,xN時，最可能出現的樣本是使l()為最大的樣本。若未知，X選定。不同的選擇，對N個樣本x1,x2,…,xN就有不同的p(X/)值，應選擇使x1,x2,…,xN的似然函數l()為最大的第十六頁，共一百二十五頁，2022年，8月28日定義最大似然估計：使p(X/)達極大值的參數向量，就是的最大似然估計。顯然使最大的是樣本x1,x2,…,xN的函數，記為第十七頁，共一百二十五頁，2022年，8月28日計算方法：

或若有s個分量：求即為便于分析，取對數形式求導第十八頁，共一百二十五頁，2022年，8月28日則：s個聯立方程組求解,可得即：使對數似然函數最大的值，也必然使似然函數最大。是樣本的函數，若樣本數N∞時，估計值收斂于真值。第十九頁，共一百二十五頁，2022年，8月28日注：極值解可能有多解，有全局最大解、局部極大點和拐點等，確定最大值點即可。按上式對所有類型進行同樣操作，最終完成對所有類型的最大似然估計。p(X/)第二十頁，共一百二十五頁，2022年，8月28日例：高斯分布1)∑已知,μ未知,似然函數為：其中，對于正態(tài)分布第二十一頁，共一百二十五頁，2022年，8月28日求導：第二十二頁，共一百二十五頁，2022年，8月28日令則說明未知均值的最大似然估計正好是訓練樣本的算術平均第二十三頁，共一百二十五頁，2022年，8月28日2)、均未知考慮一維情況（d＝1）令1=，2=2

似然函數其中，對于一維正態(tài)分布第二十四頁，共一百二十五頁，2022年，8月28日令求導則有第二十五頁，共一百二十五頁，2022年，8月28日對于多元高斯函數(d維），則有∴最大似然估計結果令人滿意結論：①μ的估計即為學習樣本的算術平均②估計的協方差矩陣是矩陣的算術平均（dⅹd陣列，dⅹd個值）第二十六頁，共一百二十五頁，2022年，8月28日一個反例：均勻分布似然函數的解為必要條件

（3-11式）不一定有解，即：（有兩個需估計的參數）注意：第二十七頁，共一百二十五頁，2022年，8月28日取對數：求導：極值解為無窮大，結果無意義。需用其它方法找最大值。第二十八頁，共一百二十五頁，2022年，8月28日給定N個觀察值x1,…,xN，由這些樣本集估計1，2∵1<x<2

若取x是X中最大的，2不能小于x

2-1最小可能的取值為x-x，使l()達到了最大值∴，就是的最大似然估計量x是X中最小的，1不能大于x第二十九頁，共一百二十五頁，2022年，8月28日3.2.2貝葉斯估計及貝葉斯學習1．貝葉斯估計（BE）利用已知的訓練樣本，使的初始密度估計轉化為后驗概率密度p(/X)與最大似然估計的區(qū)別：最大似然估計：為確定量貝葉斯估計：為服從某種先驗分布的隨機量，其先驗概率密度為p()第三十頁，共一百二十五頁，2022年，8月28日與貝葉斯決策基本思想一樣，都是使貝葉斯風險最小。不同是一個決策真實類別wk，一個估計真實參數。差別：1)參數的估計，不是類別wj的判決2)在參數空間里進行，是連續(xù)，不是在類型空間A里進行，A是離散的3)考慮條件：是樣本集X和未知參數的先驗概率密度p()，而不是樣本x和類型的先驗概率p(wi)第三十一頁，共一百二十五頁，2022年，8月28日引入估計風險（也稱為代價函數、損失函數）：貝葉斯決策中的總平均風險為：第三十二頁，共一百二十五頁，2022年，8月28日貝葉斯估計中的總平均風險為：其中

為x的風險條件，即為：（**）第三十三頁，共一百二十五頁，2022年，8月28日注意：小寫x表示具體樣本，大寫X表示樣本集。對于樣本集，貝葉斯公式(3-21)可寫為：第三十四頁，共一百二十五頁，2022年，8月28日貝葉斯估計的基本思想：若的估計量使條件風險最小（即等價于使平均風險R最?。?，則稱是關于的貝葉斯估計量定義貝葉斯估計：為了求解，必須定義損失函數。對不同的定義，可得不同的最佳貝葉斯估計。例：可定義平均誤差為損失函數。求得的的估計值應使R最小，等價于求使條件風險最小的估計值第三十五頁，共一百二十五頁，2022年，8月28日舉例：定義損失函數為可得貝葉斯估計量為

（推導過程略p52）平方誤差損失函數利用上式，推廣到樣本集X，則計算（求導）第三十六頁，共一百二十五頁，2022年，8月28日在許多情況下最小方差貝葉斯估計是最理想的，是貝葉斯的最優(yōu)估計。

給定觀測樣本集X時，貝葉斯估計量為的條件期望值，稱為最小方差貝葉斯估計。第三十七頁，共一百二十五頁，2022年，8月28日在平方誤差為損失函數條件下，求解的過程：1）確定未知參數的先驗分布密度p()（即對有一個先驗知識）；3）利用貝葉斯公式求出的

后驗分布密度p(/X)；4）利用平方誤差損失函數，可計算出使R最小的貝葉斯估計量，即2）由樣本集，以及公式,求出樣本聯合概率密度p(X/)；第三十八頁，共一百二十五頁，2022年，8月28日例：正態(tài)分布的均值貝葉斯估計一維正態(tài)分布：已知σ2，估計μ

假設概率密度服從正態(tài)分布

p(x/μ)～N(μ,σ2),p(μ)～N(μ0,σ02)已知樣本集X=(x1,x2,….xN)T,聯合概率密度p(X/μ,x)=p(X/μ)μ后驗概率為：(貝葉斯公式）第三十九頁，共一百二十五頁，2022年，8月28日因為N個樣本是獨立抽取的，上式為其中只與x有關,與μ無關∵p(x/μ)～N(μ,σ2)，p(μ)～N(μ0,σ02)μ后驗概率為：第四十頁，共一百二十五頁，2022年，8月28日其中a’,a’’包含了所有與μ無關的因子第四十一頁，共一百二十五頁，2022年，8月28日后驗概率可直接寫成正態(tài)形式：比較以上兩式,對應系數相等，∴有：可見，p(μ/X)是u的二次函數的指數函數∴仍然是一個正態(tài)函數,p(μ/X)~N(μN,σN2)第四十二頁，共一百二十五頁，2022年，8月28日解以上兩式得：將μN,σN2代入p(μ/X)，即可得后驗概率再利用公式求的估計第四十三頁，共一百二十五頁，2022年，8月28日則∴對μ的估計為：若令p(μ)=N(μ0,σ02)=N(0,1)，且σ2=1與最大似然估計相似，只是分母不同第四十四頁，共一百二十五頁，2022年，8月28日2．貝葉斯學習貝葉斯估計的前提條件：1）已知類概率密度p(x/)形式，但未知；2）信息包含在p()中；3）信息從樣本集X中提取。第四十五頁，共一百二十五頁，2022年，8月28日

訓練樣本類別已知，抽取同一類樣本數決定概率密度函數p(x/X)，而沒必要去確定有類別標記的p(x/wi)。即求出概密函數p(x/X)，使其盡可能接近未知的p(x)貝葉斯學習的中心要點：與貝葉斯估計前提條件相同，區(qū)別是：通過訓練樣本集直接推斷總體概率密度分布p(x/X)：.第四十六頁，共一百二十五頁，2022年，8月28日上式中根據貝葉斯估計的步驟，執(zhí)行完前三步驟求出p(/X)后，直接求p(x/X)總體樣本的后驗概率密度p(x/X)為：已知的條件下，X對x已不具有什么信息未知參數的后驗分布密度第四十七頁，共一百二十五頁，2022年，8月28日

采集的樣本越多，在出現的概率就越大。就會在處出現一個尖峰。先討論（似然函數）假設已經得到的估計，即已確定，最大似然法的基本思想第四十八頁，共一百二十五頁，2022年，8月28日所以，也會在處出現峰值（當N時，在處如果分布不太奇異，即如果p()在不為零，且比較平坦，而且上式分母表示X出現的概率，變化不大?！?/p>

可近似當作在處的一個函數根據3.32式，即：第四十九頁，共一百二十五頁，2022年，8月28日表明：用極大似然估計值代替真實參數后，得到概率估計值，即可近似作為真實概率分布。由式:（式3-31）近似為函數∴與最大似然估計結果近似相等?？傻茫海ㄊ?-33）第五十頁，共一百二十五頁，2022年，8月28日討論

的收斂性問題：∵x1,…,xN條件獨立，則有

可利用的估計值去判在什么地方出現尖峰，若峰不尖銳，不能用最大似然估計值來代替似然函數即N時，是否收斂于p(x)第五十一頁，共一百二十五頁，2022年，8月28日由貝葉斯公式有：遞推公式，即貝葉斯學習第五十二頁，共一百二十五頁，2022年，8月28日顯然正態(tài)分布及大多數概密都有此性質不斷重復，可產生一序列如果該序列收斂于以真實參數為中心的函數，則這種遞推過程稱為貝葉斯學習稱為參數估計的一種遞推貝葉斯方法第五十三頁，共一百二十五頁，2022年，8月28日第五十四頁，共一百二十五頁，2022年，8月28日當觀察一個樣本時，N=1就會有一個估計值μ的修正值當觀察N=4時，對μ進行修正，向真正的μ靠近當觀察N=9時，對μ進行修正，向真正的μ靠的更近當N↑,μN反映了觀察到N個樣本后對μ的最好推測。而σN2反映了這種推測的不確定性,N↑,σN2↓σN2隨觀察樣本增加而單調減小，且當N→∞,σN2→0N→∞,P(μ|xi)→函數，這個過程成為貝葉斯學習N↑，P(μ|xi)越來越尖峰突起，第五十五頁，共一百二十五頁，2022年，8月28日當N時，的估計量就是真實參數，則如果類概密具有貝葉斯學習的性質，則當樣本數目N時，式3-33的近似等式變?yōu)榇_切等式，且估計值就是真實參數，后驗概分布就是真實分布p(x)。第五十六頁，共一百二十五頁，2022年，8月28日⑴一維正態(tài)：已知σ2，μ未知∵μ的后驗概率為例：正態(tài)分布推斷類條件概率密度。在求出u的后驗概率p(μ|X)后，可利用式第五十七頁，共一百二十五頁，2022年，8月28日類概率密度函數第五十八頁，共一百二十五頁，2022年，8月28日結論：

對于正態(tài)分布p(x|X)，可用樣本估計出來的μN代替原來的μ，用代替原來的方差即可。把估計值μN作為μ的實際值，則使方差由原來的變?yōu)?使方差增大。第五十九頁，共一百二十五頁，2022年，8月28日3．最大似然估計、貝葉斯估計、貝葉斯學習之間的關系

最大似然估計:貝葉斯估計：求貝葉斯學習：直接求總體分布只有樣本信息綜合了先驗信息和樣本信息綜合了先驗信息和樣本信息第六十頁，共一百二十五頁，2022年，8月28日3.4非監(jiān)督參數估計

當不能確知樣本的類別屬性，而又要對分類器進行訓練時，就選用非監(jiān)督參數估計。與監(jiān)督參數估計的差別：只提供未分類的訓練樣本集。處理方法類似：也主要是最大似然估計和貝葉斯方法。第六十一頁，共一百二十五頁，2022年，8月28日3.4.1幾個問題

1．假設條件：1）類型數目c已知，樣本

來自各類，但不知其類別屬性，樣本試驗獨立進行。則稱該樣本集

為混合樣本集。2）已知第六十二頁，共一百二十五頁，2022年，8月28日3）已知每個類型的

形式，j是該概密函數的未知參數4）僅有c個參數向量1，2，…，c的值未知

只要確定，類概率密度就被確定，的信息主要存在于混合樣本集X中，其次存在于p()或p(wj)中。第六十三頁，共一百二十五頁，2022年，8月28日2．構造似然函數混合密度定義：其中監(jiān)督參數估計：似然函數定義為其中X是針對某一類。

對于非監(jiān)督,沒有給樣本所屬類別，稱混合密度第六十四頁，共一百二十五頁，2022年，8月28日非監(jiān)督下的似然函數定義為（獨立抽樣）對數似然函數：最大似然估計：第六十五頁，共一百二十五頁，2022年，8月28日3．可識別性問題（在非監(jiān)督估計中，存在可識別問題）訓練的目的：即避免不同的，產生相同的密度函數p(x/)

估計未知參數向量，且可分解為唯一一組1，…，c，則可確定類條件概率密度p(x/wj)。

若出現多組解，p(x/wi,XN)并不收斂于真實的p(x/wj)可識別問題：能否分解第六十六頁，共一百二十五頁，2022年，8月28日

當，有p(x/)p(x/)，稱p(x/)為可識別性，

對于監(jiān)督訓練，可允許多個解i，可導致相同的類概率密度

非監(jiān)督訓練，訓練樣本不可能在同一類中進行，若時，有p(x/)=p(x/)，則不可識別。

在研究非監(jiān)督參數估計方法時，假定混合密度是可識別的?？勺R別性：第六十七頁，共一百二十五頁，2022年，8月28日4．計算問題其中求最大似然估計量令上式=0，解c個微分方程組，得第六十八頁，共一百二十五頁，2022年，8月28日利用貝葉斯公式，轉化為后驗概率的微分方程由此得p(xk/)為：后驗概率為（更簡單）代入3－67式第六十九頁，共一百二十五頁，2022年，8月28日則令上式為0，即c個方程，可算出c個未知參數當

時，i與j在函數上是獨立的。得最大似然估計第七十頁，共一百二十五頁，2022年，8月28日

首先后驗概率p(wi/xk,i)要已知，可由3-68算出，也必須知道P(wi)i=1,…,c。由此可求得最大似然估計的解和若不知道先驗概率p(wi)，則微分方程應加約束條件?？蓮乃迫缓瘮祊(X/)和混合樣本集中提取信息，估計P(wi)第七十一頁，共一百二十五頁，2022年，8月28日例：正態(tài)分布中的最大似然估計1）僅均值向量ui未知——均值向量的最大似然估計量。可推導ui的最大似然估計量為（過程見p63）第七十二頁，共一百二十五頁，2022年，8月28日因

未知，上式不是ui的顯函數利用貝葉斯公式，可求得后驗概率：

將

代入，則得一組十分復雜的非線性聯立方程組，很難解，一般用迭代法。第七十三頁，共一百二十五頁，2022年，8月28日迭代法求似然函數最大解，具體過程：1）給定混合樣本X、類型數目C、先驗概率P(wi)，給定迭代次數2）給定一較好的初始估計值

3）計算后驗概率4）計算均值直到結果滿意為止第七十四頁，共一百二十五頁，2022年，8月28日缺點：2)不一定是全局最優(yōu)解，可能僅是局部最優(yōu)值如果各類型的分量密度重疊較少，算法收斂較快，其它情況更困難1）受初值影響較大

第七十五頁，共一百二十五頁，2022年，8月28日3.5總體分布的非參數估計非參數估計優(yōu)勢：能處理任意的概率分布，不必假設概密的形式。

參數估計要求密度函數的形式已知，但有時并不成立。常見的一些函數形式很難擬合實際的概率密度，且許多都是單峰的，而在許多實際情況中卻是多峰的，因此用非參數估計。第七十六頁，共一百二十五頁，2022年，8月28日①

用訓練樣本直接去估計類概率密度p(x/ωi)以此來設計分類器,如窗口估計當樣本數目N足夠大時，則p(x/X)非常接近真實分布密度p(x)，即方法有：任務:直接用已知類別樣本去估計總體密度分布。②

用訓練樣本直接估計后驗概率p(ωi/x)作為分類準則來設計分類器如k近鄰法.第七十七頁，共一百二十五頁，2022年，8月28日基本思想：

每個訓練樣本xk(k=1,2,…,N)對總體概率密度p(x)都有一定貢獻，把N個訓練樣本的貢獻疊加起來，就得到總體

密度估計密度估計:∴概率P是概密p(x)的一種平滑或取平均的形式，p(x)為P在R內的變化值。對于某區(qū)域R，當一向量x落入某區(qū)域R的概率為可通過估計概率P來估計概率密度p(x)第七十八頁，共一百二十五頁，2022年，8月28日其中假設有N個樣本x=(x1,x2,…xN)T都是按照概率密度p(x)從總體分布中獨立抽取，則N個樣本中有k個落入區(qū)域R的概率是服從二項式分布：P是樣本x落入R內的概率

Pk是k個樣本落入R內的概率第七十九頁，共一百二十五頁，2022年，8月28日∵樣本x是隨機抽取的，∴落入區(qū)域R的數目k是隨機的，則k的數學期望為：Pk是k個樣本落入區(qū)域R的概率P是樣本x落入區(qū)域R的概率眾數的概念：使Pk最大的k值，稱為眾數，記為m，即這個概率發(fā)生在k的眾數m上第八十頁，共一百二十五頁，2022年，8月28日∴對概率P的估計:根據二項式分布，k的眾數為：m＝[(N+1)P]的整數部分意義:抽N個樣本中,有k=m個樣本落入區(qū)域R的概率最大?？扇?來對P進行估計是P的一個較好的估計，尤其N非常大時，估計將非常準確?！吣康氖枪烙嫺怕拭芏萷(x)第八十一頁，共一百二十五頁，2022年，8月28日設p(x)在R內連續(xù)變化,當R逐漸減小的時候,小到使p(x)在其上幾乎沒有變化時，則其中是R包圍的體積∴概率密度的估計為：(V足夠小)∴與N、V、k有關，顯然與p(x)存在差異第八十二頁，共一百二十五頁，2022年，8月28日討論:①若區(qū)域R的體積V固定，隨著N增加,k也增加,

當

時②若N固定,體積變小.當

時，k=0時

只能反映p(x)的空間平均估計，而反映不出空間的變化。則需讓無意義第八十三頁，共一百二十五頁，2022年，8月28日該方法的局限性：實際估計時，N有限，V也不能任意小，估計的p(x)總是存在一定誤差，密度函數是一定范圍內的平均值，存在一定的平滑效果。如果樣本數目N固定，讓V→0，則會出現無意義的情況，p(x)=0,p(x)→∞。p(x)值起伏比較大,噪聲比較大.∴為了提高x處概率p(x)的估計精度，需要對V進行改進，設計適當限制條件第八十四頁，共一百二十五頁，2022年，8月28日為了估計x點處的概率密度函數,我們構造一串包括x的區(qū)域序列R1，R2，…，RN。對體積V進行改進：對R1采用一個樣本進行估計，對R2采用二個樣本進行估計…。設VN是RN的體積，KN是N個樣本中落入VN的樣本數，則概率密度的第N次估計：是p(x)的第N次估計第八十五頁，共一百二十五頁，2022年，8月28日

為使

收斂于p(x)，提高p(x)估計精度，序列必須滿足三個條件：

當N↑時，VN↓，N→∞，VN→0

這時雖然樣本數多，但由于VN↓，落入VN內的樣本KN也減小，所以空間變化才反映出來

保證了在區(qū)域均勻收縮及p(x)在x處連續(xù)情況下，可使平均密度收斂于真實分布p(x)，即第八十六頁，共一百二十五頁，2022年，8月28日

只對p(x)≠0的點有意義，可使頻率數

收斂于真實概率PN↑，kN↑，N與KN同相變化

KN的變化遠小于N的變化。盡管在RN內落入了大量樣本，但與樣本總數N比較,仍然很少。避免了

的可能性。第3個條件是必要條件第八十七頁，共一百二十五頁，2022年，8月28日

滿足上述條件的區(qū)域序列(VN)有兩種選擇方法，形成兩種非參數估計方法：1）Parzen窗法；兩者如何選擇VN？2）KN近鄰估計選擇VN滿足上述條件，可使

收斂于p(x)第八十八頁，共一百二十五頁，2022年，8月28日1）Parzen窗法：2．KN近鄰估計使體積VN以N的某個函數減小，例（滿足第1條）使KN作為N的某個函數，例VN的選擇使RN正好包含KN個近鄰（滿足第2條）V1→K1，V2→K2，..VR→KR——近鄰法這兩種方法最終都能夠收斂，但卻很難預測在有限樣本情況下的估計效果。第八十九頁，共一百二十五頁，2022年，8月28日3.5.2Parzen窗法——一種非參數估計方法1．Parzen窗估計法的基本概念由出發(fā)，可假設圍繞x點的區(qū)域RN為一個d維超立方體，邊長為hN，其中第九十頁，共一百二十五頁，2022年，8月28日d=1，窗口為一線段；d=2，窗口為一平面d=3，窗口為一立方體；d>3，窗口為一超立方體窗口的選擇：有多種選擇方窗函數指數窗函數正態(tài)窗函數Φ(u)Φ(u)Φ(u)hN

正態(tài)窗函數第九十一頁，共一百二十五頁，2022年，8月28日若選ф(u)是以原點x為中心的超立方體。在xi落入方窗時，則有在VN內為1不在VN內為0落入VN的樣本數等于所有為1者之和即第九十二頁，共一百二十五頁，2022年，8月28日則概率密度估計：∴落入窗口中的樣本為——Parzen窗法估計的基本公式該式是一個迭加函數，使用KN個以xi為中心的窗函數迭加，對x處的概密進行估計。每一樣本xi對概率密度函數的貢獻只在一個窗口范圍，離x遠近不同，貢獻不同，是一種內插過程。第九十三頁，共一百二十五頁，2022年，8月28日①每個樣本對估計所起的作用依賴于它到x的距離，即|x-xi|≤hN/2時，xi在VN內為1，否則為0。討論：②

稱為窗函數，取0，1兩種值，

但有時可取0,0.1,0.2……多種數值，例如隨xi離x接近的程度，

取值可由0,0.1,0.2……到1。第九十四頁，共一百二十五頁，2022年，8月28日為滿足這兩個條件，要求窗函數滿足：（保證

非負）④窗函數的選擇例：矩形窗、正態(tài)窗、指數窗、三角窗等等（只要滿足上述兩條件，都可作為窗函數使用）③要求估計的

應滿足：第九十五頁，共一百二十五頁，2022年，8月28日④窗長度hN對

的影響

hN又稱為平滑因子，N有限時，hN影響大，既影響幅度，又影響寬度若定義則hN太大,是p(x)的一個平滑估計,不能跟上p(x)變化，分辨力太低，有平均誤差。

若hN太大，N(x)幅度小，而寬度拓寬，變得平緩，是由N個寬的低幅緩變函數迭加。第九十六頁，共一百二十五頁，2022年，8月28日

若hN太小，N(x)幅度很大，寬度很小，是N個以xi為中心的尖脈沖在x處的疊加。hN太小,是p(x)的一個起伏大的估計,分辨力高，但不穩(wěn)定，波動太大，有噪聲誤差。

圖3.6、圖3.7，說明hN及N的影響為使這些誤差不嚴重，hN應折衷選擇，即VN選擇很關鍵

看出要得到與真實分布相近的估計，需要非常大量的訓練樣本。第九十七頁，共一百二十五頁，2022年，8月28日（5）的統(tǒng)計特性對p(x)，(u)，hN作必要的約束，即滿足3.115~3.123式，就能保證收斂。∴在一定限制條件下，是漸近無偏估計，平方誤差一致，即N，第九十八頁，共一百二十五頁，2022年，8月28日0123456x6x5x3x1x2x4x例1：對于一個二類（ω1，ω2）識別問題，隨機抽取ω1類的6個樣本X=(x1，x2，….x6)ω1=(x1，x2，….x6)=(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估計p(x|ω1)，即第九十九頁，共一百二十五頁，2022年，8月28日解：選正態(tài)窗函數∵x是一維的第一百頁，共一百二十五頁，2022年，8月28日

上式用圖表示，則是6個分別以3.2，3.6，3，6，2.5，1.1為中心的正態(tài)曲線，而

則是這些曲線之和。第一百零一頁，共一百二十五頁，2022年，8月28日由圖看出：每個樣本對估計的貢獻與樣本間的距離有關，樣本越多，PN(x)越準確。第一百零二頁，共一百二十五頁，2022年，8月28日例2：設待估計的p(x)是均值為0，方差為1的正態(tài)密度函數。若隨機抽取X樣本中的1個、16個、256個作為學習樣本xi,試用窗口法估計pN(x)。解：設窗口函數為正態(tài)的，σ＝1，μ＝0第一百零三頁，共一百二十五頁，2022年，8月28日hN:窗長度，N為樣本數，h1為選定可調節(jié)的參數。第一百零四頁，共一百二十五頁，2022年，8月28日用窗法估計單一正態(tài)分布的實驗N=∞N=256N=16N=1第一百零五頁，共一百二十五頁，2022年，8月28日①當N＝1時，是一個以第一個樣本為中心的正態(tài)形狀的小丘，與窗函數差不多。

討論：由圖看出，隨N,h1的變化情況②當N＝16及N=256時h1＝0.25曲線起伏很大，噪聲大h1＝1起伏減小h1＝4曲線平坦，平均誤差

③當N→∞時，pN(x)收斂于一平滑的正態(tài)曲線，估計曲線較好。第一百零六頁，共一百二十五頁，2022年，8月28日例3.待估的密度函數為二項分布解：此為多峰情況的估計設窗函數為正態(tài)-0.25<x<-20<x<2x為其它x-2.5-210.2502p(x)第一百零七頁，共一百二十五頁，2022年，8月28日N=∞N=256N=16N=1用窗法估計兩個均勻分布的實驗第一百零八頁，共一百二十五頁，2022年，8月28日①當N＝1時，實際是窗函數。

②當N＝16及N=256時h1＝0.25曲線起伏大h1＝1曲線起伏減小h1＝4曲線平坦③當N→∞時，曲線較好上圖是N=1、16、256、∞時的

估計結果第一百零九頁，共一百二十五頁，2022年，8月28日圖3.6、圖3.7說明了該方法的功能和限制，其結果依賴N和h1。尤其要得到精確的估計，所需的樣本個數非常多。N=1時，得到的更多是關于窗函數的信息，而不是概密函數;當N=16時，估計結果不令人滿意;當N=256，h1=1時，結果開始趨于精確。圖3.7更明顯:第一百一十頁，共一百二十五頁，2022年，8月28日①窗口法具有應用的普遍性。對規(guī)則、非規(guī)則分布，單鋒或多峰分布都可用此法估計概率密度。

圖3.6、圖3.7說明了如下結論：

只要樣本足夠多，總可保證收斂于任何復雜的概密函數。Parzen窗的優(yōu)點：第一百一十一頁，共一百二十五頁，2022年，8月28日Parzen窗的缺點：尤其特征空間維數大于1后，更加突出，對樣本的需求相對于維數按指數，所以易出現“維數災難”。②要求樣本足夠多，才能有較好的估計。比參數估計法所需樣本數大得多，∴需大量的存儲單元和計算時間，計算效率不高。第一百一十二頁，共一百二十五頁，2022年，8月28日利用訓練樣本類別屬性已知，對每一類獨立估計概率密度，并根據最大后驗概率（MAP）的原則進行分類。為提高處理效率，模式識別可用并行處理方式實現，以空間復雜度來換取時間復雜度——具有人工網絡的結構。Parzer窗法＋神經網絡結構概率神經網絡（ProbabilisticneuralnetworkPNN）分類器設計：第一百一十三頁，共一百二十五頁，2022年，8月28日3.5.3KN近鄰估計Parzen窗法存在的問題：

例，對V1敏感(圖3.6，圖3.7)對VN（hN）的選擇，對估計結果影響很大若hN選太小，則大部分體積將是空的（不包含樣本），使PN(x)估計不穩(wěn)定;若hN選太大，則PN(x)估計較平坦，反映不出總體分布的變化.KN近鄰估計是克服該問題的一個較有效方法第一百一十四頁，共一百二十五頁，2022年，8月28日以x為中心建立區(qū)域V，使V增大（V1，V2，…，VN），直到捕捉到KN個樣本為止。∴稱KN-近鄰估計KN近鄰法的思想:VN受控于KN，而不是直接作為N的函數，可避免出現空的區(qū)域RN，消除了不穩(wěn)定性。VN適應于KN的變化即：樣本密度大，V

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

模式識別第三章

文檔簡介

溫馨提示

最新文檔

評論

模式識別第三章

文檔簡介

溫馨提示

最新文檔

評論

相關文檔