模式識別課程小結(jié)_第1頁
模式識別課程小結(jié)_第2頁
模式識別課程小結(jié)_第3頁
模式識別課程小結(jié)_第4頁
模式識別課程小結(jié)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、模式識別課程小結(jié) 專業(yè):導(dǎo)航、制導(dǎo)與控制姓名:張躍文2006年6月18日 課程結(jié)構(gòu)安排和核心思想本教材詳細(xì)介紹了在模式識別中常用的基本理論和基本方法,從理想狀況下的貝葉斯決策理論開始,按照由淺入深、由表入里的邏輯順序,重點講解了線性和非線性判別函數(shù)、近鄰法、最優(yōu)化算法,特征選擇和提取方面的內(nèi)容。通過詳細(xì)的講解,使讀者對模式識別的理論、方法和實際用途有了一個明確的思路和認(rèn)識,對以后的實際應(yīng)用有很強(qiáng)的指導(dǎo)意義,是一本很好的入門教材。本書前幾章著重討論監(jiān)督學(xué)習(xí),即已知訓(xùn)練集樣本所屬類別的條件下分類器的設(shè)計方法。然后討論特征提取和選擇的準(zhǔn)則和算法。在這之后,討論在不利用或沒有樣本所屬類別信息的情況下的

2、分類方法,即非監(jiān)督模式識別方法。根據(jù)有關(guān)模式識別理論和技術(shù)的發(fā)展,簡單介紹了一些實例,對讀者對這門課程的實用性有了更直觀的認(rèn)識。模式識別系統(tǒng)有兩種基本的方法,即統(tǒng)計識別方法和結(jié)構(gòu)(句法)識別方法,與此相應(yīng)的系統(tǒng)都由兩個過程所組成,即設(shè)計和實現(xiàn)。設(shè)計是指用一定數(shù)量的樣本(叫作訓(xùn)練集或?qū)W習(xí)集)進(jìn)行分類器的設(shè)計。實現(xiàn)是指用所設(shè)計的分類器對待識別的樣本進(jìn)行分類決策。本教材只討論了統(tǒng)計識別方法?;诮y(tǒng)計方法的模式識別系統(tǒng)主要由4個部分組成:數(shù)據(jù)獲取,預(yù)處理,特征提取和選擇,分類決策。數(shù)據(jù)獲取的過程就是通過測量、采樣和量化,用矩陣或向量表示二維圖像或一唯波形的過程。預(yù)處理的目的是去除噪聲,加強(qiáng)有用的信息,

3、并對輸入測量儀器或其他因素所造成的退化現(xiàn)象進(jìn)行復(fù)原。然而由于圖像或波形所包含的數(shù)據(jù)量是相當(dāng)大的,為了有效的實現(xiàn)分類識別,就要找出最能反映分類本質(zhì)的特征,這就是特征提取和選擇的過程。分類決策就是在特征空間中用統(tǒng)計方法把被識別對象歸為某一類別。通過確定某個判決規(guī)則,使按這種判別規(guī)則對被識別對象進(jìn)行分類所造成的錯誤率或引起的損失最小。第二章 貝葉斯決策理論主要精髓:一、基于最小錯誤率的貝葉斯決策如果p(w1| x)>p(w2| x),則把x規(guī)類于正常狀態(tài)w1,反之p(w1| x)<p(w2| x),則把x歸于異常狀態(tài)w2。錯誤率p(e)p(w2)p2(e)+p(w1)p1(e),由于貝葉

4、斯決策規(guī)則式實際上是對每個x都使p(e| x)最小,所以必然有p(e)最小。也就是說,最小錯誤率決策規(guī)則確實使錯誤率最小。二、基于最小風(fēng)險的貝葉斯決策用損失函數(shù);i=1,2,a;j=1,2,c;表示當(dāng)真實狀態(tài)為wj而所采取的決策為時所帶來的損失,就可以得到一般決策表。定義條件期望風(fēng)險得到期望風(fēng)險r=,最小風(fēng)險貝葉斯決策規(guī)則為:如果則。三、分類器的設(shè)計通常定義一組判別函數(shù)用于表示多類決策規(guī)則,如果對一切ji,有,則將x歸于wi類。故可根據(jù)需要定義不同的判別函數(shù),只要滿足上面這條性質(zhì)就行。對別判別對象只有兩類的情況下,我們可以定義判別函數(shù),決策面方程顯然為。難點:錯誤率的正確含義;最小錯誤率和最小

5、風(fēng)險的區(qū)別;分類器的設(shè)計。學(xué)習(xí)體會:通過本章的學(xué)習(xí),對模式識別的基本內(nèi)容和方法有了一個概括的了解。其本質(zhì)就是將客觀事物通過抽象,概括,找出最能反應(yīng)事物本質(zhì)的特征,利用數(shù)學(xué)工具尤其是統(tǒng)計學(xué)的有關(guān)理論,比較后驗概率的大小,從而對被識別對象進(jìn)行規(guī)類。這樣設(shè)計出的分類器理論上最優(yōu)而先驗條件難以滿足,故在應(yīng)用中受到一定限制。 第三章 概率密度函數(shù)的估計主要精髓:一、參數(shù)估計1、最大似然估計把參數(shù)看成為確定的未知參數(shù)。似然函數(shù)定義為最大似然估計就是求使似然函數(shù)為最大的作為最大似然估計量。2、貝葉斯估計把參數(shù)看成為隨機(jī)的未知參數(shù),一般具有先驗分布。樣本通過似然函數(shù)并利用貝葉斯公式將的先驗分布轉(zhuǎn)化為后驗分布,

6、再利用使平方誤差損失函數(shù)的貝葉斯風(fēng)險極小化。3、貝葉斯學(xué)習(xí)利用的先驗分布及樣本提供的信息求出的后驗分布,然后直接求總體分布。二、參數(shù)估計方法的應(yīng)用1、正態(tài)分布的監(jiān)督參數(shù)估計假定樣本類別已知,且樣本服從正態(tài)分布,則通過以上三種參數(shù)估計方法能夠得到很好的效果,估計值擬合程度很高。2、非監(jiān)督參數(shù)估計在未知樣本類別條件下,經(jīng)常利用最大似然估計,首先定義似然函數(shù),然后利用從混合密度中提取的樣本估計未知參數(shù),如果混合分布可識別,則可用一般方法求最大似然估計量。如果不識別,則不可使用非監(jiān)督參數(shù)估計,但實際上大部分常見連續(xù)隨機(jī)變量的分布密度函數(shù)都是可識別的,故這種方法還有較強(qiáng)的實際應(yīng)用價值。三、關(guān)于分類器錯誤

7、率的估計問題1、對于已設(shè)計好的分類器,利用樣本來估計錯誤率。這種只用來估計分類器錯誤率的樣本集稱為檢驗集或考試集。2、對于未設(shè)計好的分類器,需將樣本分成兩部分,即分為設(shè)計集和檢驗集,分別用以設(shè)計分類器和估計錯誤率。難點:參數(shù)估計方法在實際中的應(yīng)用。學(xué)習(xí)體會:本章主要討論了當(dāng)概率密度函數(shù)未知時,利用三種參數(shù)估計對其進(jìn)行估計的問題。但是可以看出,盡管參數(shù)估計在統(tǒng)計學(xué)中已經(jīng)有一套較完整的理論和方法,但在實際應(yīng)用中,當(dāng)樣本數(shù)有限時,并不能保證估計出的概率密度函數(shù)能很好的反應(yīng)真實情況,故一般情況下在此基礎(chǔ)上設(shè)計性能良好的分類器并不是一個十分簡單的問題。第四章 線性判別函數(shù)主要精髓:一、線性判別函數(shù)的基本

8、概念及設(shè)計步驟一般表達(dá)式為;令;則當(dāng)時,否則,若,則將任意分到某一類,或拒絕。線性分類器的主要設(shè)計步驟如下:1、要有一組具有類別標(biāo)志的樣本集。2、根據(jù)實際情況確定一個準(zhǔn)則函數(shù),且要能反映分類器的性能,極值解對應(yīng)于最好的決策。3、用最優(yōu)化技術(shù)求出準(zhǔn)則函數(shù)的極值解,利用極值解就可以構(gòu)造判別函數(shù)了。二、感知準(zhǔn)則函數(shù)及其梯度下降算法對于一組線性可分的樣本集,我們先構(gòu)造準(zhǔn)則函數(shù),使得我們能夠從準(zhǔn)則函數(shù)的符號來判斷樣本是否被錯分,故可以采用梯度下降算法,感知準(zhǔn)則函數(shù)對所求的解向量求導(dǎo)數(shù),再通過迭代循環(huán)即可求出使準(zhǔn)則函數(shù)達(dá)到最小值的解向量。三、最小錯分樣本數(shù)準(zhǔn)則由于感知準(zhǔn)則函數(shù)及其梯度下降算法只適用于線性可

9、分情況,對于線性不可分情況,迭代過程永遠(yuǎn)不會終結(jié),即算法不收斂。但在實際中很難事先知道樣本集是否可分,因此,有必要研究一種既能適用于線性可分情況,又適用于線性不可分情況的算法。對于線性可分問題,可以得到一個如感知函數(shù)那樣的解向量,使樣本全部正確分類;而對于線性不可分情況,則得到一個使兩類樣本集錯分?jǐn)?shù)目最少的權(quán)向量,這樣的準(zhǔn)則就叫作最小錯分樣本數(shù)準(zhǔn)則。主要算法有共軛梯度法、搜索法等。難點:算法的深刻理解及程序設(shè)計的實現(xiàn)學(xué)習(xí)體會:通過本章的學(xué)習(xí),對基于幾個常用準(zhǔn)則函數(shù)的線性分類器設(shè)計方法有了一個大致的了解,深刻認(rèn)識到在工程實踐中化繁為簡的思維方法,復(fù)雜的分類判別問題可以用線性判別函數(shù)近似逼近,為我

10、以后解決實際問題提供了一個很好的思路。第五章 非線性判別函數(shù)主要精髓:一、分段線性判別函數(shù)概念分段線性判別函數(shù)是一種特殊的非線性判別函數(shù),它確定的決策面是由若干超平面段組成的,能逼近各種形狀的超曲面,具有很強(qiáng)的適應(yīng)能力。如基于距離的分段線性判別函數(shù)可以將多個樣本集分類,也就是說樣本點距離哪個類的代表點近就把它分到哪一類。二、用凹函數(shù)的并表示分段線性判別函數(shù)對于多峰分布的兩類問題,可以考慮用這種方法構(gòu)造判別函數(shù),通過判斷判別函數(shù)的符號可以對樣本進(jìn)行分類,通常可以得到滿意的結(jié)果,但也存在明顯的問題,在算法執(zhí)行前,要首先判斷每類分布有多少個峰,從而確定設(shè)計幾個分段線性判別函數(shù),這就需要有先驗知識,還

11、需要給出每個分段線性判別函數(shù)中分段的數(shù)目。0三、用交遇區(qū)的樣本設(shè)計分段線性分類器這是一種實現(xiàn)最少分段線性分類器的方法。當(dāng)兩類樣本非線性可分時,貝葉斯分界面一般通過兩類樣本十分靠近或相互交迭的區(qū)域,即交遇區(qū)。把這些區(qū)域找出來,利用這些區(qū)域中的樣本集設(shè)計線性判別函數(shù),然后把它們連在一起,就構(gòu)成了一個線性判別函數(shù),所得的分界面時分段線性分界面,它可以很好地逼近貝葉斯分界面。難點:利用樣本集確定子類數(shù)目及求子類的權(quán)向量和閥值權(quán)。學(xué)習(xí)體會:通過本章的學(xué)習(xí),使我對復(fù)雜問題簡單化的思路有了更深刻的認(rèn)識。由于實際中很多模式識別問題并不是線性可分的,而且經(jīng)常具有多峰性質(zhì)和互相交錯,但直接利用非線性函數(shù)解決問題又

12、十分的復(fù)雜,因此,用分段線性函數(shù)進(jìn)行逼近不僅是可能的而且效果很好,在實踐中得到了廣泛的應(yīng)用。第六章 近鄰法主要精髓:前兩章基于距離的判別函數(shù)都是在每一類選一個代表點,是很直觀和簡單的方法,但這樣的代表點可能不能很好的代表各個類,結(jié)果錯誤率比較高。本章討論的近鄰法就是將各類中的全部樣本都作為代表點,即近鄰法,是一種比較成熟的設(shè)計方法。一、最近鄰法這是一種最簡單但錯誤率也很小的方法,即比較待測樣本與若干個已知類別的樣本之間距離的大小,取最小值,則待測樣本就屬于那一類。其錯誤率大約為貝葉斯錯誤率的一到兩倍,是一種很實用的設(shè)計方法。二、k近鄰法這是最近鄰法的一個推廣。這種方法就是取未知樣本x的k個近鄰

13、,看這k個近鄰中多數(shù)屬于哪一類,就把x歸于哪一類。也就是在n個已知樣本中,找出x的k個近鄰。設(shè)這n個樣本中,來自w1類的樣本有n1個,來自w2類的有n2個,來自wc類的有nc個,若k1,k2,kc分別是k個近鄰中屬于w1,w2,wc類的樣本數(shù),則定義判別函數(shù),決策規(guī)則為:若,則;三、減少近鄰法計算量和存儲量的方法近鄰法雖然有很好的特性,但一個明顯的缺點就是計算量大??刹捎每焖偎阉鞣ǎ瑢颖痉旨壋梢恍┎幌嘟坏淖蛹?,并在子集的基礎(chǔ)上進(jìn)行搜索,這種方法對最近鄰法和k-近鄰法都適用。還可采用剪輯近鄰法,即將樣本集分成兩個獨立的集合設(shè)計集和考試集,并用設(shè)計集設(shè)計分類器,用考試集估計錯誤率。更進(jìn)一步還有壓

14、縮近鄰法,即在剪輯的基礎(chǔ)上,再去掉一部分對分類決策沒什么影響的樣本以縮短計算時間和降低存儲要求。難點:快速搜索算法的分級方法、程序設(shè)計學(xué)習(xí)體會:通過本章的學(xué)習(xí),對近鄰法的基本理論和方法有了一個較為全面的認(rèn)識,也對它的重要性有了更深的體會,是一種很有實用價值又在理論上比較完善的設(shè)計方法。為了解決它對存儲量和計算速度要求過高的問題,又進(jìn)一步學(xué)習(xí)了幾種改進(jìn)的近鄰法,尤其是快速搜索算法為緩解這一矛盾提供了一個很好的思路。第八章 特征的選擇與提取主要精髓:特征選擇與提取的目的就是通過一系列判據(jù)把高維特征空間壓縮到低維空間,保留最有效的特征,以便更有效的設(shè)計分類器。特征提取和選擇并不是截然分開的??梢韵冉?jīng)

15、過選擇去掉那些明顯沒有分類信息的特征,再進(jìn)行映射以降低維數(shù)。也可以先將原始特征空間映射到維數(shù)較低的空間,再在這個空間中再進(jìn)行選擇以進(jìn)一步降低維數(shù)。一、特征提取本質(zhì)上就是一種變換,即通過一定的映射方法,把處在高維空間中的樣本用低維空間表示。根據(jù)所依據(jù)的判據(jù)不同,特征提取有很多種方法,如按歐氏距離度量的提取方法,選擇的特征就使各個類別樣本之間平均距離最大,從而使各類盡可能遠(yuǎn)地分開。按概率距離判據(jù)的特征提取方法,則是將分布密度的交疊程度用兩類的先驗概率密度函數(shù)之間的距離來度量,當(dāng)兩類完全可分時,這個距離最大;反之,當(dāng)兩類分布密度相同時,距離為零?;谂袆e熵最小化的特征提取,則是利用相對熵函數(shù)來判別,

16、即相對熵越小,兩類概率分布的差別就越大,當(dāng)兩類概率分布完全相同時,相對熵最大為零。二、特征選擇任務(wù)就是從一組高維特征中選出一組較低維的最優(yōu)特征,再通過一個較好的算法,以便在允許的時間內(nèi)找出最優(yōu)的那一組特征。常用的算法有最優(yōu)搜索算法,也即“分支定界”算法,它是一種自上而下方法,但具有回溯功能,故可使所有可能的特征組合都被考慮到。這種算法主要利用了可分離性判據(jù)的單調(diào)性,一定能得到最優(yōu)解。當(dāng)然,這種算法計算量還是比較大甚至難以實現(xiàn),所以有時經(jīng)常采取一些次優(yōu)算法,如順序前進(jìn)法,順序后退法等。難點:最優(yōu)算法的實現(xiàn),熵函數(shù)的理解學(xué)習(xí)體會:通過本章的學(xué)習(xí),對在圖像處理等領(lǐng)域中使用的降維方法有了一個大概的了解,強(qiáng)化了通過數(shù)學(xué)工具解決實際問題的思想,對特征選擇和提取的有關(guān)理論和方法有了一個明確的概念,深刻認(rèn)識到特征選擇和提取在模式識別中的重要性,為以后深入研究打下了一個良好的基礎(chǔ)。第九章 基于k-l展開式的特征提取主要精髓:本章分析了利用少量的特征對樣本進(jìn)行描述從而降低特征空間維數(shù)的方法,即基于k-l展開式的特征提取方法。k-l展開式的一個重要性質(zhì)就是它的展開系數(shù)是相互無關(guān)的,通過k-l變換,消除了原有向量各分量之間的線性相關(guān)性,從而可能去掉那些帶有較少信息的坐標(biāo)軸以達(dá)到降維的目的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論