a05統(tǒng)計決策中的訓練、學習與錯誤率測試、估計模式識.ppt_第1頁
a05統(tǒng)計決策中的訓練、學習與錯誤率測試、估計模式識.ppt_第2頁
a05統(tǒng)計決策中的訓練、學習與錯誤率測試、估計模式識.ppt_第3頁
a05統(tǒng)計決策中的訓練、學習與錯誤率測試、估計模式識.ppt_第4頁
a05統(tǒng)計決策中的訓練、學習與錯誤率測試、估計模式識.ppt_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

模式識別,73441(O),73442(H)E-mail:xpcai:,第五章統(tǒng)計決策中的訓練、學習與錯誤率測試、估計,統(tǒng)計推斷概述參數估計概密的窗函數估計法有限項正交函數級數逼近法,51統(tǒng)計推斷概述,第五章統(tǒng)計決策中的訓練、學習與錯誤率測試、估計,本章目的:已知類別的樣本(訓練樣本)學習或訓練獲得類概密,在上一章的學習中,我們一直假設類的條件概率密度函數是已知的,然后去設計貝葉斯分類器。但在實際中,這些知識往往是不知道的,這就需要用已知的樣本進行學習或訓練。也就是說利用統(tǒng)計推斷理論中的估計方法,從樣本集數據中估計這些參數。,5.1統(tǒng)計推斷概述,參數估計,參數估計有兩類方法:將參數作為非隨機量處理,如矩法估計、最大似然估計;將參數作為隨機變量,貝葉斯估計就屬此類。,5.1統(tǒng)計推斷概述,非參數估計,5.1統(tǒng)計推斷概述,當不知道類的概型時,就要采用非參數估計的方法,這種方法也稱為總體推斷,這類方法有:1.p-窗法2.有限項正交函數級數逼近法3.隨機逼近法,基本概念,母體(總體):一個模式類稱為一個總體或母體,5.1統(tǒng)計推斷概述,母體的子樣:一個模式類中某些模式(即母體中的一些元素)的集合稱為這個母體的子樣。母體的子樣含有母體的某些信息,可以通過構造樣本的函數來獲得。,統(tǒng)計量:一般來說,每一個樣本都包含著母體的某些信息,為了估計未知參數就要把有用的信息從樣本中抽取出來。為此,要構造訓練樣本的某種函數,這種函數在統(tǒng)計學中稱為統(tǒng)計量。,基本概念,經驗分布:由樣本推斷的分布稱為經驗分布。,5.1統(tǒng)計推斷概述,數學期望、方差等,理論量(或理論分布):,參數空間:在統(tǒng)計學中,把未知參數q的可能值的集合稱為參數空間,記為Q。,點估計、估計量:針對某未知參數q構造一個統(tǒng)計量作為q的估計,這種估計稱為點估計。稱為q的估計量。,基本概念,5.1統(tǒng)計推斷概述,為了準確地對某一類的分布進行參數估計或總體推斷,應只使用該類的樣本。,就是說在進行參數估計時,應對各類進行獨立的參數估計或總體推斷。因此在以后的論述中,如無必要,不特別言明類別。,區(qū)間估計:在一定置信度條件下估計某一未知參數q的取值范圍,稱之為置信區(qū)間,這類估計成為區(qū)間估計。,基本概念,5.1統(tǒng)計推斷概述,漸近無偏估計:即。當不能對所有的都有時,希望估計量是漸近無偏估計。,基本概念,5.1統(tǒng)計推斷概述,均方收斂:,又稱相合估計,一致估計:當樣本無限增多時,估計量依概率收斂于,,52參數估計,第五章統(tǒng)計決策中的訓練、學習與錯誤率測試、估計,5.2參數估計,5.2.1均值矢量和協(xié)方差陣的矩法估計5.2.2最大似然估計(MLE)5.2.3貝葉斯估計(BE),5.2參數估計,均值矢量和協(xié)方差陣的矩法估計,矩法估計是用樣本(的統(tǒng)計)矩作為總體(理論)矩的估值。若類的概型為正態(tài)分布,我們用矩法估計出類的均值矢量和協(xié)方差陣后,類的概密也就完全確定了。,均值矢量:,均值無偏估計:,5.2參數估計,均值矢量和協(xié)方差陣的矩法估計,協(xié)方差陣:,5.2參數估計,均值矢量和協(xié)方差陣的矩法估計,協(xié)方差陣:,協(xié)方差陣無偏估計:,或,5.2參數估計,初始值:,均值矢量和協(xié)方差陣的矩法估計,5.2參數估計,協(xié)方差矩陣的遞推估計式:,均值矢量和協(xié)方差陣的矩法估計,初始值:,5.2參數估計,均值矢量和協(xié)方差陣的矩法估計,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),如同矩法估計一樣,最大似然估計要求已知總體的概型,即概密的具體函數形式,它也將被估計量作為確定性的變量對待。但最大似然估計適用范圍比矩法估計更寬一些,可以用于不是正態(tài)分布的情況。,最大似然估計是參數估計中最重要的方法。,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),似然函數:,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),最大似然估計:,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),在實際中多是獨立取樣和經常處理正態(tài)變量,而且對數函數是單值單調函數,對數似然函數與似然函數在相同的處取得最大值。,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),在似然函數可微的條件下,求下面微分方程組的解:,或等價地求,作為極值的必要條件。,對數似然方程組,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),需要指出的是:對于具體問題,有時用上述方法不一定可行,原因之一是似然函數在最大值點處沒有零斜率。,因此,最大似然的關鍵是必須知道概型。,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),下面我們以多維正態(tài)分布為例進行說明。,(1)假設是已知的,未知的只是均值,則:,5.2參數估計,最大似然估計(MLE),(MaximumLikelihoodEstimate),這說明,樣本總體的未知均值的最大似然估計就是訓練樣本的平均值。它的幾何解釋就是:若把N個樣本看成是一群質點,則樣本均值便是它們的質心。,可見,正態(tài)分布中的協(xié)方差陣的最大似然估計量等于N個矩陣的算術平均值。,(3)對于一般的多維正態(tài)密度的情況,計算方法完全是類似的。最后的結果是:,可以證明上式的均值是無偏估計,但協(xié)方差陣并不是無偏估計,無偏估計是:,5.2參數估計,貝葉斯估計(BE),5.2參數估計,貝葉斯估計(BE),5.2參數估計,貝葉斯估計(BE),于是:,5.2參數估計,貝葉斯估計(BE),5.2參數估計,貝葉斯估計(BE),從而可得:,5.2參數估計,貝葉斯估計(BE),下面介紹估計,所涉及的其它公式或近似算式:由于各樣本是獨立抽取的,故它們條件獨立,即有,由貝葉斯定理知:,5.2參數估計,貝葉斯估計(BE),5.2參數估計,貝葉斯估計(BE),作業(yè):,P1705.1,5.2,5.3,54概密的窗函數估計法,第五章統(tǒng)計決策中的訓練、學習與錯誤率測試、估計,設個樣本是從上述概密為的總體中獨立抽取的,個樣本中有個樣本落入區(qū)域中的概率服從離散隨機變量的二項分布,如果是整數,則:和,由于:,所以:,這里是的估計,當較大較小時上式的近似程度是足夠的。,5.4概密的窗函數估計法,概率密度的基本估計式,當固定時,對的最大似然估計,由概率論知,的數學期望。,5.4概密的窗函數估計法,概率密度的基本估計式,于是可得,5.4概密的窗函數估計法,概率密度的基本估計式,R0V0,同時k,N。,5.4概密的窗函數估計法,概率密度的基本估計式,為了提高,處的概密,的估計精度,我們根據,理論,可以采用如下步驟以盡量滿足理論要求:,極限,5.4概密的窗函數估計法,Parzen窗法,5.4概密的窗函數估計法,Parzen窗法,5.4概密的窗函數估計法,Parzen窗法,上面所講的是從構造上導出了估計式,所取的窗函數即迭加基函數為維方窗(柱)函數。事實上只要窗函數滿足下面的兩個條件:,由式構造的估計式就是概密函數。,5.4概密的窗函數估計法,Parzen窗法,按照上面的條件,除了選擇方窗外,還可以選擇其它的滿足上述兩個條件的函數作窗函數。下面列出幾個一維窗函數的例子,n維的窗函數可用乘積的方法由一維函數構造。,指數窗函數,方窗函數,正態(tài)窗函數,下面進一步討論窗寬對估計的影響:,5.4概密的窗函數估計法,Parzen窗法,定義:,于是估計式表示成:,5.4概密的窗函數估計法,Parzen窗法,5.4概密的窗函數估計法,Parzen窗法,估計量是一隨機變量,它依賴于隨機的訓練樣本,所以估計量的性能只能用統(tǒng)計性質表示。,在滿足下列條件下是漸近無偏估計、均方收斂、均方逼近、且是漸近正態(tài)分布。,5.4概密的窗函數估計法,Parzen窗法,(1)是的漸近無偏估計,證明:,P窗法的特點,適用范圍廣,無論概密是規(guī)則的或不規(guī)則的、單峰的或多峰的。,但它要求樣本分布較好且數量要大,顯然這也是一個良好估計所必須的,但它的取樣過程的操作增加了取樣工作的復雜性。,窗函數選取得當有利于提高估計的精度和減少樣本的數量。,(a),圖中,p(x)是均值為零、方差為1的一維正態(tài)分布,窗函數選擇為正態(tài)窗函數:,h1為可調節(jié)參量。于是:,(a),由結果曲線可以看出,樣本量越大,估計越精確;同時,也可以看出窗口選擇是否適當對估計結果有一定影響。,和,同上,由圖中曲線可以看出,當N較小時,窗函數對估計結果影響較大,其估計結果與真實分布相差較遠;當N增大時,估計結果與真實分布較為接近。,5.4概密的窗函數估計法,kN-近鄰估計法,近鄰元估計法是克服這個問題的一個可能的方法。,5.4概密的窗函數估計法,kN-近鄰估計法,基本思想:把含,點的序列區(qū)域的體積,作為落入,中樣本數,的函數,而不是直接作為,的函數。我們可以預先確定,是,的某個函數,然后在,點附近選擇一“緊湊”區(qū)域,,個鄰近樣本。,實驗樣本數,讓它只含,點附近概密較大,則包含,個樣本的區(qū)域,如果,體積自然就相對的小;,點附近概密較小,則區(qū)域體積就較大。,個鄰近樣本而擴展到高密度,如果,顯然,當區(qū)域為含有,區(qū)時,擴展過程必然會停止。,5.4概密的窗函數估計法,kN-近鄰估計法,如果滿足條件,5.4概密的窗函數估計法,kN-近鄰估計法,5.4概密的窗函數估計法,kN-近鄰估計法,作業(yè),P1705.75.8,55有限項正交函數級數逼近法,第五章統(tǒng)計決策中的訓練、學習與錯誤率測試、估計,55有限項正交函數級數逼近法,應根據的特點適當選擇以期在固定的項數下減小誤差,項數R取得越大近似得就越好。,最小積分平方逼近方法,55有限項正交函數級數逼近法,將的具體表示代入上式得:,最小積分平方逼近方法,由此可得:,從而有:,則有:,則有:,的計算式可寫成迭代形式。,同理可得到的迭代形式。,初始值:,前面介紹的方法中被逼近的函數是概密,對于這種幅值大小變化較劇烈的函數,須用較多的項才可能在整個空間中有較好的逼近。,為減少計算量,在樣本出現(xiàn)較密集的區(qū)域(即概密取值較大的區(qū)域)中,應要求逼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論