模式識別緒論_第1頁
模式識別緒論_第2頁
模式識別緒論_第3頁
模式識別緒論_第4頁
模式識別緒論_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、先修課程 概率論與數(shù)理統(tǒng)計(jì)概率論與數(shù)理統(tǒng)計(jì), ,矩陣?yán)碚?,矩陣?yán)碚摚?線性代數(shù)線性代數(shù), , 高級高級語言程序設(shè)計(jì)語言程序設(shè)計(jì)/ /MatlabMatlab課程簡介 介紹模式識別的基本概念、基本理論、基本介紹模式識別的基本概念、基本理論、基本方法、基本應(yīng)用。為今后學(xué)習(xí)人工智能、人機(jī)方法、基本應(yīng)用。為今后學(xué)習(xí)人工智能、人機(jī)交互、系統(tǒng)分析等打下基礎(chǔ)交互、系統(tǒng)分析等打下基礎(chǔ)l基本:掌握模式識別的基本知識,按時(shí)上基本:掌握模式識別的基本知識,按時(shí)上課、完成作業(yè),通過考試,獲得學(xué)分。課、完成作業(yè),通過考試,獲得學(xué)分。l擴(kuò)展:能夠?qū)⑺鶎W(xué)知識和內(nèi)容用于解決實(shí)擴(kuò)展:能夠?qū)⑺鶎W(xué)知識和內(nèi)容用于解決實(shí)際問題,通過模

2、式識別的學(xué)習(xí),改進(jìn)思維際問題,通過模式識別的學(xué)習(xí),改進(jìn)思維方式,為將來的學(xué)習(xí)工作打好基礎(chǔ)。方式,為將來的學(xué)習(xí)工作打好基礎(chǔ)。l教材 模式識別模式識別清華大學(xué)出版社清華大學(xué)出版社 邊肇祺邊肇祺 、張學(xué)工、張學(xué)工。l參考文獻(xiàn):l1 模式識別模式識別,蔡元龍,西安電子科技大學(xué)出版社,蔡元龍,西安電子科技大學(xué)出版社。l2 模式識別模式識別,李晶皎、朱志良等,電子工業(yè)出版社,李晶皎、朱志良等,電子工業(yè)出版社l3 模式識別模式識別,楊光正、吳岷等,中國科技大學(xué)出版社,楊光正、吳岷等,中國科技大學(xué)出版社l4 Pattern Classification, 2nd Edition, Richard O. Dud

3、a, Peter E. Hart, and David G. Stork,l5 Pattern Recognition and Machine Learning,Christopher Bishopl6 The Elements of Statistical Learning, Trevor Hastie, Robert Tibshirani & Jerome Friedmanl課時(shí)安排: 每周每周2 2次課、共次課、共8 8周周l實(shí)驗(yàn)安排(課外自行安排): 實(shí)驗(yàn)一:實(shí)驗(yàn)一:K K均值的系統(tǒng)聚類。均值的系統(tǒng)聚類。 實(shí)驗(yàn)二:均值向量和協(xié)方差矩陣的參數(shù)估計(jì)。實(shí)驗(yàn)二:均值向量和協(xié)方差矩陣的參

4、數(shù)估計(jì)。 實(shí)驗(yàn)三:計(jì)算總體散布矩陣、本征根和特征實(shí)驗(yàn)三:計(jì)算總體散布矩陣、本征根和特征向向l考試安排: 期末,開卷期末,開卷l第零章模式識別引論第零章模式識別引論(第第1章章) l第一章第一章 非監(jiān)督學(xué)習(xí)方法非監(jiān)督學(xué)習(xí)方法 (第三版第第三版第9章或第二版第章或第二版第10章章) l第二章第二章 線性判別函數(shù)線性判別函數(shù) (第三版第第三版第4章第章第5章的章的5.15.3或第二版第或第二版第4,5章章) l第三章第三章 貝葉斯決策理論貝葉斯決策理論(第第2章章) l第四章第四章 概率密度函數(shù)估計(jì)概率密度函數(shù)估計(jì) (第三版第第三版第3章第章第10章的章的10.1或第二版第或第二版第3章章) l第五

5、章第五章 特征選擇與特征提取特征選擇與特征提取 (第三版第第三版第7,8章或第二版第章或第二版第8,9章章) 1.1模式識別的基本概念一、模式識別基本定義 l模式(Pattern):存在于時(shí)間,空間中可觀察的事物,具有時(shí)間或空間分布的信息。l模式識別(Pattern Recognition):用計(jì)算機(jī)實(shí)現(xiàn)人對各種事物或現(xiàn)象的分析,描述,判斷,識別。NOTE:模式通常所指的不是事物本身,模式通常所指的不是事物本身,而是從事物獲得的信息,因此,模式往而是從事物獲得的信息,因此,模式往往表現(xiàn)為具有時(shí)間和空間分布的信息。往表現(xiàn)為具有時(shí)間和空間分布的信息。l模式識別與圖像識別,圖像處理的關(guān)系: 模式識別

6、是模擬人的某些功能,達(dá)到劃分對象的目的。 模擬人的視覺: 計(jì)算機(jī)+光學(xué)系統(tǒng) 模擬人的聽覺: 計(jì)算機(jī)+聲音傳感器 模擬人的嗅覺和觸覺: 計(jì)算機(jī)+傳感器l圖像識別:對二維圖像信號的處理,識別感興趣的部分。 比如,一副圖像,里面有背景和人臉,要將人臉從圖像重提取出來,甚至將人臉圖像分成輪廓和五官等各個(gè)組件,這就完成了圖像識別或者圖像特征的提取。當(dāng)需要從多幅這樣的圖像中分類出每個(gè)人的照片的時(shí)候,就需要完成模式識別了,每個(gè)五官都有自身的特點(diǎn),即模式的特征,運(yùn)用模式識別理論就可以達(dá)到分類。l主要?jiǎng)恿Γ翰煌潭鹊哪M或者取代人腦的部分功能。l主要目標(biāo):利用機(jī)器(不僅僅是計(jì)算機(jī)),在錯(cuò)誤概率最小的情況下,對對

7、象進(jìn)行分類處理,使分類的結(jié)果與實(shí)際盡量相符合。l 1929年年 G. Tauschek發(fā)明閱讀機(jī)發(fā)明閱讀機(jī) ,能夠閱讀,能夠閱讀0-9的數(shù)的數(shù)字。字。l20世紀(jì)世紀(jì)30年代年代 Fisher提出統(tǒng)計(jì)分類理論提出統(tǒng)計(jì)分類理論,奠定了統(tǒng)計(jì)奠定了統(tǒng)計(jì)模式識別的基礎(chǔ)。因此,在模式識別的基礎(chǔ)。因此,在6070年代,統(tǒng)計(jì)模式年代,統(tǒng)計(jì)模式識別發(fā)展很快,但由于被識別的模式愈來愈復(fù)雜,識別發(fā)展很快,但由于被識別的模式愈來愈復(fù)雜,特征也愈多,就出現(xiàn)特征也愈多,就出現(xiàn)“維數(shù)災(zāi)難維數(shù)災(zāi)難”。但由于計(jì)算機(jī)。但由于計(jì)算機(jī)運(yùn)算速度的迅猛發(fā)展,這個(gè)問題得到一定克服。統(tǒng)運(yùn)算速度的迅猛發(fā)展,這個(gè)問題得到一定克服。統(tǒng)計(jì)模式識別仍

8、是模式識別的主要理論。計(jì)模式識別仍是模式識別的主要理論。l20世紀(jì)世紀(jì)50年代年代 Noam Chomsky提出形式語言理論提出形式語言理論 ,美籍華人付京蓀美籍華人付京蓀 提出句法結(jié)構(gòu)模式識別。提出句法結(jié)構(gòu)模式識別。l20世紀(jì)世紀(jì)60年代年代 L.A.Zadeh提出了模糊集理提出了模糊集理論,模糊模式識別理論得到了較廣泛的應(yīng)論,模糊模式識別理論得到了較廣泛的應(yīng)用。用。l20世紀(jì)世紀(jì)80年代年代 Hopfield提出神經(jīng)元網(wǎng)絡(luò)模提出神經(jīng)元網(wǎng)絡(luò)模型理論。近些年人工神經(jīng)元網(wǎng)絡(luò)在模式識型理論。近些年人工神經(jīng)元網(wǎng)絡(luò)在模式識別和人工智能上得到較廣泛的應(yīng)用。別和人工智能上得到較廣泛的應(yīng)用。l20世紀(jì)世紀(jì)9

9、0年代年代 小樣本學(xué)習(xí)理論,支持向量小樣本學(xué)習(xí)理論,支持向量機(jī)機(jī)(SVM)也受到了很大的重視。也受到了很大的重視。l近來近來 盲分析識別、獨(dú)立分量分析等應(yīng)用到盲分析識別、獨(dú)立分量分析等應(yīng)用到模式識別模式識別 。l1973年年 IEEE發(fā)起了第一次關(guān)于模式識別的國際會發(fā)起了第一次關(guān)于模式識別的國際會議議“ICPR” IEEE International Conference on Pattern Recognition,每每2年召開一次國際學(xué)術(shù)會議。年召開一次國際學(xué)術(shù)會議。lIEEE International Conference on Computer Vision and Pattern

10、Recognition (CVPR) lIEEE International Conference on Computer Vision (ICCV) lEuropean Conference on Computer Vision (ECCV)lIEEE International Conference on Image Processing (ICIP)l1977年年 IEEE的計(jì)算機(jī)學(xué)會成立了模式分析與機(jī)器的計(jì)算機(jī)學(xué)會成立了模式分析與機(jī)器智能(智能(PAMI)委員會,每委員會,每2年召開一次模式識別與年召開一次模式識別與圖像處理學(xué)術(shù)會議。圖像處理學(xué)術(shù)會議。lIEEE Transaction

11、s on Pattern Analysis and Machine Intelligence (PAMI)lInternational Journal of Computer VisionlIEEE Transactions on Image Processing (TIP)lPattern RecognitionlMachine Learning lIEEE Transactions on Multimedia (MM)lIEEE Transactions on Circuits and Systems for Video Technology (CSVT)l國內(nèi)的組織有電子學(xué)會,通信學(xué)會,

12、自動(dòng)化協(xié)會,國內(nèi)的組織有電子學(xué)會,通信學(xué)會,自動(dòng)化協(xié)會,中文信息學(xué)會。中文信息學(xué)會。l中科院自動(dòng)化研究所模式識別重點(diǎn)實(shí)驗(yàn)室中科院自動(dòng)化研究所模式識別重點(diǎn)實(shí)驗(yàn)室l中科院合肥智能機(jī)械研究所,主辦模式識別與人中科院合肥智能機(jī)械研究所,主辦模式識別與人工智能工智能信息獲取預(yù)處理特征選取分類器設(shè)計(jì)模式分類錯(cuò)誤率檢測改進(jìn)分類器(參數(shù))識別結(jié)果輸出信息的獲取:通過傳感器,將光或聲音等信息轉(zhuǎn)化為電信息。信息可以是二維的圖像如文字,圖像等;可以是一維的波形如聲波,心電圖,腦電圖;也可以是物理量與邏輯值。預(yù)處理:包括A/D,二值化,圖像的平滑,變換,增強(qiáng),恢復(fù),濾波等, 主要指圖像處理。特征抽取和選擇:在模式識別

13、中,需要進(jìn)行特征的抽取和選擇,例如,一幅64x64x8bits的圖像可以得到4096個(gè)數(shù)據(jù)(字節(jié)),這種在測量空間的原始數(shù)據(jù)通過變換獲得在特征空間最能反映分類本質(zhì)的特征。這就是特征提取和選擇的過程。分類器設(shè)計(jì):分類器設(shè)計(jì)的主要功能是通過訓(xùn)練確定判決規(guī)則,使按此類判決規(guī)則分類時(shí),錯(cuò)誤率最低。把這些判決規(guī)則建成標(biāo)準(zhǔn)庫。錯(cuò)誤率檢測:計(jì)算分類器錯(cuò)誤分類的概率,總結(jié)分類錯(cuò)誤的主要特征。改進(jìn)分類器(參數(shù)): 依據(jù)錯(cuò)誤率檢測的結(jié)果適當(dāng)修正分類器的參數(shù)或者構(gòu)造新的分類器。模式分類:在特征空間中對被識別對象進(jìn)行分類。1 1、字符識別:、字符識別: 包括印刷體字符的識別;手寫體字符的識別,各種包括印刷體字符的識別

14、;手寫體字符的識別,各種OCROCR(Optical character recognitionOptical character recognition)設(shè)備例如信函分揀、設(shè)備例如信函分揀、文件處理、卡片輸入、支票查對、自動(dòng)排板、期刊閱讀、文件處理、卡片輸入、支票查對、自動(dòng)排板、期刊閱讀、稿件輸入、各種書寫輸入板。稿件輸入、各種書寫輸入板。2 2、生物醫(yī)學(xué)、生物醫(yī)學(xué) 心電圖,腦電圖,染色體,癌細(xì)胞識別,心電圖,腦電圖,染色體,癌細(xì)胞識別,疾病診斷、疾病診斷、自動(dòng)細(xì)胞學(xué)、染色體特性研自動(dòng)細(xì)胞學(xué)、染色體特性研究、遺傳研究究、遺傳研究3 3、航空航天、航空航天 資源衛(wèi)星照片,氣象衛(wèi)星照片處理,數(shù)字

15、資源衛(wèi)星照片,氣象衛(wèi)星照片處理,數(shù)字化地球,圖像分辨率可以達(dá)到化地球,圖像分辨率可以達(dá)到1 1米。米。4 4、生物特征標(biāo)識(、生物特征標(biāo)識(安全檢查)安全檢查) 指紋識別指紋識別 、臉形識別,虹膜識別。、臉形識別,虹膜識別。5 5、環(huán)境保護(hù)、環(huán)境保護(hù) 檢測污染分析、大氣、水源、環(huán)境監(jiān)測。檢測污染分析、大氣、水源、環(huán)境監(jiān)測。6 6、工業(yè)生產(chǎn)、工業(yè)生產(chǎn) 自動(dòng)檢測:產(chǎn)品質(zhì)量自動(dòng)檢測。自動(dòng)檢測:產(chǎn)品質(zhì)量自動(dòng)檢測。7. 7. 人機(jī)智能人機(jī)智能 語聲識別、機(jī)器翻譯、電話號碼自動(dòng)查語聲識別、機(jī)器翻譯、電話號碼自動(dòng)查詢、偵聽、機(jī)器故障判斷。詢、偵聽、機(jī)器故障判斷。8. 8. 國防軍事國防軍事 軍事設(shè)置的目標(biāo)識

16、別。軍事設(shè)置的目標(biāo)識別。一一. .模式模式( (樣本樣本) )表示方法表示方法l向量表示向量表示 : 假設(shè)一個(gè)樣本有假設(shè)一個(gè)樣本有n個(gè)變量個(gè)變量(特征特征) = (X1,X2,Xn)T2. 矩陣表示矩陣表示: N個(gè)樣本,個(gè)樣本,n個(gè)變量個(gè)變量(特征特征) 變 量 樣 本 x1 x2 xn X1 X11 X12 X1n X2 X21 X22 X2n XN XN1 XN2 XNn 3. 幾何表示幾何表示 一維表示一維表示 X1=1.5 X2=3 二維表示二維表示 X1=(x1,x2)T=(1,2)T X2=(x1,x2)T=(2,1)T 三維表示三維表示 X1=(x1,x2, x3)T=(1,1,

17、0)T X2=(x1,x2 , x3)T=(1,0,1)T4. 基元(鏈碼)表示:基元(鏈碼)表示:在右側(cè)的圖中八個(gè)基元在右側(cè)的圖中八個(gè)基元分別表示分別表示0,1,2,3,4,5,6,7,八個(gè)方向,八個(gè)方向和基元線段長度。和基元線段長度。則右側(cè)樣本可以表示為則右側(cè)樣本可以表示為 X1=006666這種方法將在句法模式識這種方法將在句法模式識別中用到。別中用到。1. 緊致集:同一類模式類樣本的分布比較緊致集:同一類模式類樣本的分布比較集中,沒有或臨界樣本很少,這樣的模集中,沒有或臨界樣本很少,這樣的模式類稱緊致集。式類稱緊致集。2. 臨界點(diǎn)臨界點(diǎn)(樣本樣本):在多類樣本中,某些樣本的值:在多類樣

18、本中,某些樣本的值有微小變化時(shí)就變成另一類樣本稱為臨界樣本有微小變化時(shí)就變成另一類樣本稱為臨界樣本(點(diǎn))。(點(diǎn))。3. 緊致集的性質(zhì)緊致集的性質(zhì) 要求臨界點(diǎn)很少要求臨界點(diǎn)很少 集合內(nèi)的任意兩點(diǎn)的連線集合內(nèi)的任意兩點(diǎn)的連線,在線上的點(diǎn)屬于在線上的點(diǎn)屬于同同 一集合一集合 集合內(nèi)的每一個(gè)點(diǎn)都有足夠大的鄰域集合內(nèi)的每一個(gè)點(diǎn)都有足夠大的鄰域,在鄰在鄰域內(nèi)只包含同一集合的點(diǎn)域內(nèi)只包含同一集合的點(diǎn)4. 模式識別的要求模式識別的要求:滿足緊致集,才能很好的分滿足緊致集,才能很好的分類;如果不滿足緊致集,就要采取變換的方法類;如果不滿足緊致集,就要采取變換的方法,滿足緊致集滿足緊致集.1.兩個(gè)樣本兩個(gè)樣本xi

19、 ,xj之間的相似度量滿足以下要求:之間的相似度量滿足以下要求: 應(yīng)為非負(fù)值應(yīng)為非負(fù)值 樣本本身相似性度量應(yīng)最大樣本本身相似性度量應(yīng)最大 度量應(yīng)滿足對稱性度量應(yīng)滿足對稱性 在滿足緊致性的條件下,相似性應(yīng)該是點(diǎn)間距離的在滿足緊致性的條件下,相似性應(yīng)該是點(diǎn)間距離的 單調(diào)函數(shù)單調(diào)函數(shù) 2. 用各種距離表示相似性:用各種距離表示相似性: 絕對值距離絕對值距離 已知兩個(gè)樣本已知兩個(gè)樣本 xi=(xi1, xi2 , xi3,xin)T xj=(xj1, xj2 , xj3,xjn)T 模式識別就是把具體事物歸入某一類的過程。識別(Recognition)其實(shí)就是再認(rèn)知(Re-Cognition)。相似和

20、分類是認(rèn)知的基本問題。 歐幾里德距離歐幾里德距離明考夫斯基距離明考夫斯基距離 其中當(dāng)其中當(dāng)q=1q=1時(shí)為絕對值距離,當(dāng)時(shí)為絕對值距離,當(dāng)q=2q=2時(shí)為歐氏距離時(shí)為歐氏距離nkjkikijXXd1|nkjkikijXXd12nkjkikqijXXqqd1|1)( 切比雪夫距離切比雪夫距離 q q趨向無窮大時(shí)明氏距離的極限情況趨向無窮大時(shí)明氏距離的極限情況 馬哈拉諾比斯距離馬哈拉諾比斯距離 其中其中xi ,xj為特征向量,為特征向量, 為協(xié)方差。使用的條件是為協(xié)方差。使用的條件是 樣樣 本符合正態(tài)分布本符合正態(tài)分布|max)(1jkiknkijXXd1)(XjXiXXMdjiTij 夾角余弦夾

21、角余弦 為為xi xj的均值的均值 即樣本間夾角小的為一類,具有相似性即樣本間夾角小的為一類,具有相似性例:例: x1 , x2 , x3的夾角如圖:的夾角如圖:因?yàn)橐驗(yàn)閤1 , x2 的夾角小的夾角小,所以所以x1 , x2 最相似。最相似。nkjknkiknkjkikijXXXXC12121x1x2x1x2x3XXji, 相關(guān)系數(shù)相關(guān)系數(shù) 為為xi xj的均值的均值注意:在求相關(guān)系數(shù)之前,要將數(shù)據(jù)標(biāo)準(zhǔn)化注意:在求相關(guān)系數(shù)之前,要將數(shù)據(jù)標(biāo)準(zhǔn)化3. 分類的主觀性和客觀性分類的主觀性和客觀性 分類帶有主觀性:目的不同,分類不同。例如:鯨魚,分類帶有主觀性:目的不同,分類不同。例如:鯨魚,牛,馬從

22、生物學(xué)的角度來講都屬于哺乳類,但是從產(chǎn)牛,馬從生物學(xué)的角度來講都屬于哺乳類,但是從產(chǎn)業(yè)角度來講鯨魚屬于水產(chǎn)業(yè),牛和馬屬于畜牧業(yè)。業(yè)角度來講鯨魚屬于水產(chǎn)業(yè),牛和馬屬于畜牧業(yè)。 分類的客觀性:科學(xué)性分類的客觀性:科學(xué)性判斷分類必須有客觀標(biāo)準(zhǔn),因此分類是追求客觀性的,判斷分類必須有客觀標(biāo)準(zhǔn),因此分類是追求客觀性的,但主觀性也很難避免,這就是分類的復(fù)雜性。但主觀性也很難避免,這就是分類的復(fù)雜性。nknkjkjikinkjkjikiXXXXXXXXrij11221jiXX,四四.特征的生成特征的生成 (特征是決定相似性與分類的關(guān)鍵特征是決定相似性與分類的關(guān)鍵) 1.低層特征:低層特征: 無序尺度:有明確

23、的數(shù)量和數(shù)值。無序尺度:有明確的數(shù)量和數(shù)值。 有序尺度:有先后、好壞的次序關(guān)系,如酒有序尺度:有先后、好壞的次序關(guān)系,如酒 分為上,中,下三個(gè)等級。分為上,中,下三個(gè)等級。 名義尺度:無數(shù)量、無次序關(guān)系,如有紅,名義尺度:無數(shù)量、無次序關(guān)系,如有紅, 黃兩種顏色黃兩種顏色 2. 中層特征:經(jīng)過計(jì)算,變換得到的特征中層特征:經(jīng)過計(jì)算,變換得到的特征 3. 高層特征:在中層特征的基礎(chǔ)上有目的的經(jīng)過運(yùn)高層特征:在中層特征的基礎(chǔ)上有目的的經(jīng)過運(yùn) 算形成算形成例如:椅子的重量例如:椅子的重量=體積體積*比重比重 體積與長,寬,高有關(guān);比重與材料,紋理,顏體積與長,寬,高有關(guān);比重與材料,紋理,顏色有關(guān)。

24、這里低、中、高三層特征都有了。色有關(guān)。這里低、中、高三層特征都有了。五五.數(shù)據(jù)的標(biāo)準(zhǔn)化數(shù)據(jù)的標(biāo)準(zhǔn)化 1.極差標(biāo)準(zhǔn)化,一批樣本中,每個(gè)特征的最大值極差標(biāo)準(zhǔn)化,一批樣本中,每個(gè)特征的最大值與最小值之差。與最小值之差。 極差極差 極差標(biāo)準(zhǔn)化極差標(biāo)準(zhǔn)化 2. 方差標(biāo)準(zhǔn)化方差標(biāo)準(zhǔn)化 Si 為方差為方差標(biāo)準(zhǔn)化的方法很多,原始數(shù)據(jù)是否應(yīng)該標(biāo)準(zhǔn)化,應(yīng)采用標(biāo)準(zhǔn)化的方法很多,原始數(shù)據(jù)是否應(yīng)該標(biāo)準(zhǔn)化,應(yīng)采用什么方法標(biāo)準(zhǔn)化,都要根據(jù)具體情況來定。什么方法標(biāo)準(zhǔn)化,都要根據(jù)具體情況來定。ijijiXXRminmaxiiijRXXXijiiijSXXXij1 1、 對象具有顯著的特征(對象具有顯著的特征(可觀察性)可觀察性

25、) 對象在經(jīng)過一定的處理之后能提取出部分顯著對象在經(jīng)過一定的處理之后能提取出部分顯著的特征,這些特征可以描述該對象,或者以此的特征,這些特征可以描述該對象,或者以此將該對象區(qū)別與其他的對象將該對象區(qū)別與其他的對象, ,用特征向量來表用特征向量來表示特征示特征。2 2、 對象具有邏輯可分性(對象具有邏輯可分性(可區(qū)分性)可區(qū)分性) 從邏輯上可以依據(jù)一定的標(biāo)準(zhǔn)將對象劃分成不從邏輯上可以依據(jù)一定的標(biāo)準(zhǔn)將對象劃分成不同的類別,依據(jù)的標(biāo)準(zhǔn)可能與對象特征密切聯(lián)同的類別,依據(jù)的標(biāo)準(zhǔn)可能與對象特征密切聯(lián)系,劃分的方法又直接關(guān)系到分類方法的正確系,劃分的方法又直接關(guān)系到分類方法的正確程度,劃分方法又可能從已有的

26、一部分樣本來程度,劃分方法又可能從已有的一部分樣本來進(jìn)行歸納得到。進(jìn)行歸納得到。3 3、 統(tǒng)計(jì)意義上的最優(yōu)性(源于統(tǒng)計(jì)意義上的最優(yōu)性(源于相似性)相似性) 對象或者說是待分類的樣本總體數(shù)目可對象或者說是待分類的樣本總體數(shù)目可能無限大,有時(shí)候無法求得對所有的樣能無限大,有時(shí)候無法求得對所有的樣本進(jìn)行精確分類,這個(gè)時(shí)候只是需要統(tǒng)本進(jìn)行精確分類,這個(gè)時(shí)候只是需要統(tǒng)計(jì)意義上的最優(yōu),或者錯(cuò)誤率最低則可。計(jì)意義上的最優(yōu),或者錯(cuò)誤率最低則可。 模式識別系統(tǒng)的目標(biāo):在模式識別系統(tǒng)的目標(biāo):在特征空間特征空間和和分分類空間類空間之間找到一種之間找到一種歸屬關(guān)系映射映射,這這種映射也稱之為種映射也稱之為分類。特征空

27、間:從模式得到的對分類有用的度量、特征空間:從模式得到的對分類有用的度量、屬性或基元構(gòu)成的空間。屬性或基元構(gòu)成的空間。分類空間:將分類空間:將c個(gè)類別表示為個(gè)類別表示為其中其中 為所屬類別的集合,稱為分類空間。為所屬類別的集合,稱為分類空間。 X1、 X2 、 X3 、Xn 1、 2、 、 c1 判別函數(shù) 作為模式識別,模式分類的依據(jù),從作為模式識別,模式分類的依據(jù),從數(shù)值上劃分模式。判別函數(shù),有線性函數(shù)值上劃分模式。判別函數(shù),有線性函數(shù)和非線性函數(shù),模式空間(或者模式數(shù)和非線性函數(shù),模式空間(或者模式特征空間)特點(diǎn)決定了判別函數(shù)的得來特征空間)特點(diǎn)決定了判別函數(shù)的得來和特征以及表達(dá)形式。這也

28、是我們這門和特征以及表達(dá)形式。這也是我們這門課程研究的一個(gè)重點(diǎn)。將在不同的情形課程研究的一個(gè)重點(diǎn)。將在不同的情形確定判別函數(shù),并且深入討論它的特性。確定判別函數(shù),并且深入討論它的特性。 2 監(jiān)督分類和非監(jiān)督分類監(jiān)督分類和非監(jiān)督分類 監(jiān)督類監(jiān)督類( (Supervised)Supervised)分類方法分類方法:依靠已知所:依靠已知所屬類別的訓(xùn)練樣本集合,按照他們特征向?qū)兕悇e的訓(xùn)練樣本集合,按照他們特征向量的分布來確定判別函數(shù),只有判別函數(shù)量的分布來確定判別函數(shù),只有判別函數(shù)確定之后才能用它來對未知的模式進(jìn)行分確定之后才能用它來對未知的模式進(jìn)行分類判別。類判別。 要求:進(jìn)行大量的測試、實(shí)驗(yàn)、提煉

29、、要求:進(jìn)行大量的測試、實(shí)驗(yàn)、提煉、統(tǒng)計(jì)得到足夠的先驗(yàn)知識。作為確定判別統(tǒng)計(jì)得到足夠的先驗(yàn)知識。作為確定判別函數(shù)的基礎(chǔ)。并且要有足夠的樣本。函數(shù)的基礎(chǔ)。并且要有足夠的樣本。3 監(jiān)督分類和非監(jiān)督分類監(jiān)督分類和非監(jiān)督分類 非監(jiān)督(非監(jiān)督(Unsupervised)分類方法分類方法:沒有:沒有(足夠的足夠的)先驗(yàn)知識,而是基于先驗(yàn)知識,而是基于“物以類聚物以類聚”的出發(fā)點(diǎn),通過聚類分析,將模式特征的出發(fā)點(diǎn),通過聚類分析,將模式特征相近的劃分成一類,在特征空間相距比相近的劃分成一類,在特征空間相距比較近的一些模式歸為一類。較近的一些模式歸為一類。 目標(biāo):用某種相似性度量的方法將原始數(shù)目標(biāo):用某種相似性

30、度量的方法將原始數(shù)據(jù)組織成有意義的和有用的各種數(shù)據(jù)集。據(jù)組織成有意義的和有用的各種數(shù)據(jù)集。4 統(tǒng)計(jì)模式識別統(tǒng)計(jì)模式識別 以模式集合的樣本在特征空間中表現(xiàn)出隨機(jī)性,以模式集合的樣本在特征空間中表現(xiàn)出隨機(jī)性,我們只能根據(jù)類的分布概率密度函數(shù)為基礎(chǔ),我們只能根據(jù)類的分布概率密度函數(shù)為基礎(chǔ),來確定判別函數(shù),以某一個(gè)置信度來分類模式。來確定判別函數(shù),以某一個(gè)置信度來分類模式。(1 1) 參數(shù)方法參數(shù)方法 已知概率密度函數(shù)的參數(shù)和表達(dá)形式,或已知概率密度函數(shù)的參數(shù)和表達(dá)形式,或者通過樣本訓(xùn)練學(xué)習(xí)能估計(jì)出類的概率密度函者通過樣本訓(xùn)練學(xué)習(xí)能估計(jì)出類的概率密度函數(shù)的近似表達(dá)式。數(shù)的近似表達(dá)式。(2 2) 非參數(shù)

31、方法非參數(shù)方法 在沒有概率密度函數(shù)或者也估計(jì)不出概率密度在沒有概率密度函數(shù)或者也估計(jì)不出概率密度函數(shù)的情況下,就無法利用概率密度函數(shù)來計(jì)算判函數(shù)的情況下,就無法利用概率密度函數(shù)來計(jì)算判別函數(shù)。按我們教材上的說法:凡是不采用某種概別函數(shù)。按我們教材上的說法:凡是不采用某種概率密度函數(shù)的估計(jì)參數(shù)來確定判別函數(shù)的,都可以率密度函數(shù)的估計(jì)參數(shù)來確定判別函數(shù)的,都可以歸之為非參數(shù)方法。那么,歸之為非參數(shù)方法。那么, (i) 繞過概率密度函數(shù)直接確定判別函數(shù)(或繞過概率密度函數(shù)直接確定判別函數(shù)(或者判函數(shù)的形式,再通過訓(xùn)練樣本來確定參數(shù))者判函數(shù)的形式,再通過訓(xùn)練樣本來確定參數(shù)) (ii) 最鄰近的原則分

32、類。最鄰近的原則分類。 l19名男女同學(xué)進(jìn)行體檢,測量了身高和名男女同學(xué)進(jìn)行體檢,測量了身高和體重,但事后發(fā)現(xiàn)其中有體重,但事后發(fā)現(xiàn)其中有4人忘記填寫人忘記填寫性別,試問(在最小錯(cuò)誤的條件下)這性別,試問(在最小錯(cuò)誤的條件下)這4人是男是女?體檢數(shù)值如下:人是男是女?體檢數(shù)值如下:待識別的模式:性別(男或女)待識別的模式:性別(男或女)測量的特征:身高和體重測量的特征:身高和體重訓(xùn)練樣本:訓(xùn)練樣本:15名已知性別的樣本特征名已知性別的樣本特征目標(biāo):希望借助于訓(xùn)練樣本的特征建立判目標(biāo):希望借助于訓(xùn)練樣本的特征建立判別函數(shù)(即數(shù)學(xué)模型)別函數(shù)(即數(shù)學(xué)模型)l由訓(xùn)練樣本得到的特征空間分布圖由訓(xùn)練樣本

33、得到的特征空間分布圖l從圖中訓(xùn)練樣本的分布情況,找出男、從圖中訓(xùn)練樣本的分布情況,找出男、女兩類特征各自的聚類特點(diǎn),從而求取女兩類特征各自的聚類特點(diǎn),從而求取一個(gè)判別函數(shù)(直線或曲線)。一個(gè)判別函數(shù)(直線或曲線)。l只要給出待分類的模式特征的數(shù)值,看只要給出待分類的模式特征的數(shù)值,看它在特征平面上落在判別函數(shù)的哪一側(cè),它在特征平面上落在判別函數(shù)的哪一側(cè),就可以判別是男還是女了。就可以判別是男還是女了。5 句法模式識別 對象從結(jié)構(gòu)上由多個(gè)部分組成,依據(jù)對象從結(jié)構(gòu)上由多個(gè)部分組成,依據(jù)文法理論和句式結(jié)構(gòu),判斷組成部分之文法理論和句式結(jié)構(gòu),判斷組成部分之間的結(jié)構(gòu)關(guān)系,通過該關(guān)系達(dá)到分類對間的結(jié)構(gòu)關(guān)系

34、,通過該關(guān)系達(dá)到分類對象集合。象集合。 l問題:如何利用對圖像的結(jié)構(gòu)信息描述,問題:如何利用對圖像的結(jié)構(gòu)信息描述,識別如下所示圖片:識別如下所示圖片:l將整個(gè)場景圖像結(jié)構(gòu)分解成一些比較簡單的將整個(gè)場景圖像結(jié)構(gòu)分解成一些比較簡單的子圖像子圖像(subimage)的組合;的組合;l子圖像又用一些更為簡單的基本圖像單元子圖像又用一些更為簡單的基本圖像單元(item ,element)來表示,直至子圖像達(dá)到了我來表示,直至子圖像達(dá)到了我們認(rèn)為的最簡單的圖像單元(基元);們認(rèn)為的最簡單的圖像單元(基元);l所有這些基元按一定的結(jié)構(gòu)關(guān)系來表示,利所有這些基元按一定的結(jié)構(gòu)關(guān)系來表示,利用多級樹結(jié)構(gòu)對其進(jìn)行描

35、述(這種描述可以用多級樹結(jié)構(gòu)對其進(jìn)行描述(這種描述可以采用形式語言理論)。采用形式語言理論)。l多級樹描述結(jié)構(gòu)多級樹描述結(jié)構(gòu)l訓(xùn)練過程:用已知結(jié)構(gòu)信息的圖像作為訓(xùn)練樣本,先識別出基元(比如場景圖中的X、Y、Z等簡單平面)和它們之間的連接關(guān)系(例如長方體E是由X、Y和Z三個(gè)面拼接而成),并用字母符號代表之;然后用構(gòu)造句子的文法來描述生成這幅場景的過程,由此推斷出生成該場景的一種文法。l識別過程:先對未知結(jié)構(gòu)信息的圖像進(jìn)行基元提取及其相互結(jié)構(gòu)關(guān)系的識別;然后用訓(xùn)練過程獲得的文法做句法分析;如果能被已知結(jié)構(gòu)信息的文法分析出來,則該幅未知圖像與訓(xùn)練樣本具有相同的結(jié)構(gòu)(識別成功),否則就不是這種結(jié)構(gòu)(識

36、別失?。P问秸Z言和文法理論形式語言和文法理論 自然語言:人們平時(shí)說話時(shí)所使用的一種語言,:人們平時(shí)說話時(shí)所使用的一種語言,不同的國家和民族有著不同的語言。不同的國家和民族有著不同的語言。 形式語言:形式化描述的字母表上的字符串的:形式化描述的字母表上的字符串的集合。通過人們公認(rèn)的符號,表達(dá)方式所描述集合。通過人們公認(rèn)的符號,表達(dá)方式所描述的一種語言,是一種通用語言,沒有國籍之分。的一種語言,是一種通用語言,沒有國籍之分。形式語言是某個(gè)字母表上的字符串的集合,有形式語言是某個(gè)字母表上的字符串的集合,有一定的描述范圍一定的描述范圍. .字母表:字符的有限集合。:字符的有限集合。e.g.e.g.:

37、2626個(gè)英個(gè)英文字母構(gòu)成的字母表。文字母構(gòu)成的字母表。字符串:字母表中的字符構(gòu)成的有限序列。:字母表中的字符構(gòu)成的有限序列。e.g. hello, afjhkfyue.g. hello, afjhkfyu形 式 語 言 的 最 初 起 因 : 語 言 學(xué) 家語 言 學(xué) 家(ChomskyChomsky)想用一套形式化方法來描述想用一套形式化方法來描述語言。形式語言在自然語言研究中起步,語言。形式語言在自然語言研究中起步,在計(jì)算機(jī)科學(xué)中得到廣泛應(yīng)用。在計(jì)算機(jī)科學(xué)中得到廣泛應(yīng)用。最初的應(yīng)用:編譯,:編譯, 讓計(jì)算機(jī)按照語法規(guī)則將讓計(jì)算機(jī)按照語法規(guī)則將高級語言方便地翻譯成機(jī)器語言。高級語言方便地翻

38、譯成機(jī)器語言?,F(xiàn)在: 已廣泛應(yīng)用在人工智能、圖像處理、通已廣泛應(yīng)用在人工智能、圖像處理、通信協(xié)議、通信軟件等多個(gè)領(lǐng)域信協(xié)議、通信軟件等多個(gè)領(lǐng)域在計(jì)算機(jī)理論科學(xué)方面:是可計(jì)算理論(算法:是可計(jì)算理論(算法在有限步驟內(nèi)求得解、算法復(fù)雜性、停機(jī)問在有限步驟內(nèi)求得解、算法復(fù)雜性、停機(jī)問題、)、定理自動(dòng)證明、程序轉(zhuǎn)換(程序自動(dòng)題、)、定理自動(dòng)證明、程序轉(zhuǎn)換(程序自動(dòng)生成)、模式識別等的基礎(chǔ)。生成)、模式識別等的基礎(chǔ)。 補(bǔ)充:有的文獻(xiàn)上對模式識別的分類方補(bǔ)充:有的文獻(xiàn)上對模式識別的分類方法不太一樣。如可以分成這樣幾個(gè)大類法不太一樣。如可以分成這樣幾個(gè)大類: : (1 1)統(tǒng)計(jì)決策:)統(tǒng)計(jì)決策:依據(jù)概率論數(shù)

39、理統(tǒng)計(jì)的依據(jù)概率論數(shù)理統(tǒng)計(jì)的知識,研究對象的特征向量,并以此來知識,研究對象的特征向量,并以此來分類,常用的方法有幾何分類(線性分分類,常用的方法有幾何分類(線性分類、非線性分類)、統(tǒng)計(jì)分類(類、非線性分類)、統(tǒng)計(jì)分類(BayesBayes)決策、無教師分類(聚類分析)。決策、無教師分類(聚類分析)。(2 2)句法結(jié)構(gòu):)句法結(jié)構(gòu):依據(jù)形式語言和自動(dòng)機(jī)技術(shù)等依據(jù)形式語言和自動(dòng)機(jī)技術(shù)等理論研究符號串、樹、圖的關(guān)系,并以此來分理論研究符號串、樹、圖的關(guān)系,并以此來分類,常用的分類方法有自動(dòng)機(jī)技術(shù)、類,常用的分類方法有自動(dòng)機(jī)技術(shù)、CYKCYK剖析剖析算法、算法、EarlyEarly算法、轉(zhuǎn)移圖法。算

40、法、轉(zhuǎn)移圖法。(3 3)模糊判決)模糊判決 :依據(jù)模糊數(shù)學(xué)的理論,建立模依據(jù)模糊數(shù)學(xué)的理論,建立模糊集合和模糊關(guān)系,用隸屬度將模糊集合劃分糊集合和模糊關(guān)系,用隸屬度將模糊集合劃分為若干子集,再根據(jù)擇近原則分類。關(guān)鍵的就為若干子集,再根據(jù)擇近原則分類。關(guān)鍵的就是隸屬度函數(shù)的設(shè)計(jì),通常有這樣幾種方法:是隸屬度函數(shù)的設(shè)計(jì),通常有這樣幾種方法:模糊統(tǒng)計(jì)法、二元對比排序法、推理法等模糊統(tǒng)計(jì)法、二元對比排序法、推理法等(4 4)邏輯推理:)邏輯推理:依據(jù)演繹邏輯和布爾代數(shù)的相依據(jù)演繹邏輯和布爾代數(shù)的相關(guān)理論,從事實(shí)出發(fā)運(yùn)用一系列規(guī)則,推理得關(guān)理論,從事實(shí)出發(fā)運(yùn)用一系列規(guī)則,推理得到不同的結(jié)果,以此達(dá)到分類

41、的目的。產(chǎn)生式到不同的結(jié)果,以此達(dá)到分類的目的。產(chǎn)生式推理、語義網(wǎng)推理、框架推理。推理、語義網(wǎng)推理、框架推理。(5 5)神經(jīng)網(wǎng)絡(luò):)神經(jīng)網(wǎng)絡(luò):依據(jù)神經(jīng)生理學(xué)、心理學(xué)中的依據(jù)神經(jīng)生理學(xué)、心理學(xué)中的一些原理來進(jìn)行分類。這些原理就是闡述人類一些原理來進(jìn)行分類。這些原理就是闡述人類在學(xué)習(xí)、記憶、推理等活動(dòng)中的關(guān)系和規(guī)則。在學(xué)習(xí)、記憶、推理等活動(dòng)中的關(guān)系和規(guī)則。通過對樣本的學(xué)習(xí)建立起記憶,然后將為止模通過對樣本的學(xué)習(xí)建立起記憶,然后將為止模式判決為其最接近的記憶。式判決為其最接近的記憶。總結(jié):總結(jié): 這種分類方法很明了,利用某一方面的概念、這種分類方法很明了,利用某一方面的概念、理論來描述對象、以此達(dá)到

42、分類識別的目的,理論來描述對象、以此達(dá)到分類識別的目的,有一種為了理論而模式識別的感覺。有一種為了理論而模式識別的感覺。 NOTE:NOTE:我們是面向問題的而不是面向知識和理我們是面向問題的而不是面向知識和理論的,我們要發(fā)現(xiàn)問題,為尋求解決問題而建論的,我們要發(fā)現(xiàn)問題,為尋求解決問題而建立相關(guān)的理論,尋求解決問題的方法。立相關(guān)的理論,尋求解決問題的方法。(1) 隨機(jī)向量隨機(jī)向量l如果一個(gè)對象的特征觀察值為如果一個(gè)對象的特征觀察值為x1, x2, , xn,它它可構(gòu)成一個(gè)可構(gòu)成一個(gè)n維的特征向量值維的特征向量值x,即即X= (x1, x2, , xn)T 式中,式中, x1, x2, , xn

43、為特征向量為特征向量X的各個(gè)分量。的各個(gè)分量。l一個(gè)特征可以看作一個(gè)特征可以看作n維空間中的向量或點(diǎn),此空維空間中的向量或點(diǎn),此空間稱為模式的特征空間間稱為模式的特征空間Rn。隨機(jī)向量隨機(jī)向量l在模式識別過程中,要對許多具體對象進(jìn)行測量,在模式識別過程中,要對許多具體對象進(jìn)行測量,以獲得許多次觀測值。以獲得許多次觀測值。l每次觀測值不一定相同,所以對許多對象而言,每次觀測值不一定相同,所以對許多對象而言,各個(gè)特征分量都是隨機(jī)變量,即許多對象的特征各個(gè)特征分量都是隨機(jī)變量,即許多對象的特征向量在向量在n維空間中呈隨機(jī)性分布,稱為隨機(jī)向量。維空間中呈隨機(jī)性分布,稱為隨機(jī)向量。分布函數(shù)分布函數(shù)密度函數(shù)密度函數(shù)隨機(jī)向量的參數(shù)隨機(jī)向量的參數(shù)l數(shù)學(xué)期望數(shù)學(xué)期望l協(xié)方差矩陣協(xié)方差矩陣l自相關(guān)矩陣自相關(guān)矩陣l協(xié)方差正定性協(xié)方差正定性l正態(tài)分布正態(tài)分布一維正態(tài)密度函數(shù)一維正態(tài)密度函數(shù)222)(exp21)(mxxpP(x)N(0,1.5)l正態(tài)分布多維正態(tài)密度函數(shù)不相關(guān)與獨(dú)立性邊界密度函數(shù)、條件概率密度函數(shù)。馬氏平方 )()(),(12mxCmxCmxdt定義 稱為X到m的馬氏距離平方 l密度函數(shù)的變換和雅克比行列式)(XgY ),(),(11121nnnxxgxxgYYYJxpyp)()(nnnn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論