版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)字圖像處理學第10章模式識別的理論和方法(第一講)數(shù)字圖像處理學1
10.1概述
模式識別是隨著計算機的發(fā)展而興起的一門新的技術科學。自50年代末期開始來,至今已得到了迅速的發(fā)展和廣泛的應用。模式識別對我們每個人來說,每時每刻都在進行著,用計算機進行模式識別就是研究讓計算機處理哪些信息和怎樣處理這些信息。因此,它是信息處理中的又一個研究領域。10.1概述模式識別是隨著計算機的發(fā)2例如,根據(jù)氣象觀測數(shù)據(jù)或氣象衛(wèi)星拍照的照片如何準確地預報天氣;根據(jù)石油勘探的人工地震波如何提供存油的巖層結構;從遙感圖片中如何區(qū)別出農(nóng)作物、湖泊、森林、導彈基地等;例如,3在高能物理實驗中怎樣識別粒子經(jīng)跡;在醫(yī)療診斷中如何從X光片中發(fā)現(xiàn)病灶;如何根據(jù)信函上的郵政編碼自動分揀信件;在繁華的交通中心根據(jù)車輛的流量如何決定開放紅燈或綠燈等諸如此類的問題都是模式識別研究的課題。在高能物理實驗中怎樣識別粒子經(jīng)跡;4這些課題看上去名目繁多,但總起來看主要是研究分類問題。模式識別研究的對象基本上可概括為二類:一是有直覺形象的如圖片、相片、圖案、文字等等;一種是無直覺形象而只有數(shù)據(jù)或信號波形如言、聲音、心電脈沖、地震波等等。這些課題看上去名目繁多,但總起來看主要是研究分類問題。5
但對模式識別來說,無論是數(shù)據(jù)、信號還是平面圖形和物體,都是除掉它們的物理內容找出它們的共性,把具有同一共性的歸為一類,有另一種共性者則歸為另一類。例如:10個阿拉伯數(shù)字分為10類;26個英文字母分成26類;白血球有5種就分為5類;肺部X光片可分為異常和正常2類等等。但對模式識別來說,無論是數(shù)據(jù)、信號還是平面圖形和物體6
模式識別研究的目的是構造自動處理某些信息的機器系統(tǒng),以代替人完成分類和辨識的任務。特別是有直覺形象的一類圖像識別問題同人或其它動物的感知活動尤其同人腦的智力活動聯(lián)系密切。因此,根據(jù)人的大腦識別的機理,在工程上用計算機模擬,從而研究識別方法是有現(xiàn)實意義的。模式識別研究的目的是構造自動處理某些信息的機器系統(tǒng),以代替7
盡管這種模擬同人的意識和思維活動有本質的差別,但若從人類識別圖像的過程及認識規(guī)律中得到啟發(fā),在某些環(huán)節(jié)上得到借鑒,從而采用現(xiàn)代技術解決實際問題這是十分有益的。盡管這種模擬同人的意識和思維活動有本質的差別,但若從人8
在具有視覺形象的圖像識別中,許多方法和概念就是從人類認識圖像的過程中直接移植過來的。人類在現(xiàn)實生活中要區(qū)別各種現(xiàn)象、物體及聲音,一般總是首先抓住它們的特征進行比較、分析、判斷,從而將它們分類或識別。特別是數(shù)理統(tǒng)計和模糊數(shù)學的發(fā)展,總結了人們的認識邏輯,從而也使圖像識別有了理論基礎。在具有視覺形象的圖像識別中,許多方法和概念就是從人類9一個圖像識別系統(tǒng)可分為三個主要部分。其框圖如圖(10.1)所示。(1)圖像信息的獲取;(2)信息的加工和處理,抽取特征;(3)判斷或分類。
圖10—1圖像識別系統(tǒng)框圖被識圖像圖像獲取信息處理特征抽取判決結果一個圖像識別系統(tǒng)可分為三個主要部分。其框圖如圖(10.1)所10
第一部分相當于對被研究對象的調查和了解,從中得到數(shù)據(jù)和材料;對圖像識別來說,就是把圖片,底片,文字圖形等用光電掃描設備變換為電信號,而對語音來說就可用話筒等設備把聲音變成電信號以備后序處理。第一部分相當于對被研究對象的調查和了解,從中得到數(shù)據(jù)和材料11
第二部分相當于人們把調查了解到的數(shù)據(jù)材料進行加工、整理、分析、歸納,以去偽存真,去粗取精,抽出能反映事物本質的東西。當然,抽取什么特征,保留多少特征與采用何種判決有很大關系。
第二部分相當于人們把調查了解到的數(shù)據(jù)材料進行加工、整12
第三部分是判決和分類,這相當與人們從感性認識上升到理性認識而做出結論的過程。第三部分與抽取特征的方式密切相關。它的復雜程度依賴于特征的抽取方式,例如:類似度、相關性、最小距離等。第三部分是判決和分類,這相當與人們從感性認識上升到理性13
模式識別的主要方法可分為兩大類:統(tǒng)計學方法語言學方法。模式識別的主要方法可分為兩大類:14
統(tǒng)計學方法是建立在被研究對象的統(tǒng)計知識上,也就是對圖像進行大量的統(tǒng)計分析,抽出圖像中本質的特征而進行識別。統(tǒng)計學方法是建立在被研究對象的統(tǒng)計知識上,也就是對圖像15
這統(tǒng)計學方法是一種數(shù)學方法,它是受數(shù)學中的決策理論的啟發(fā)而產(chǎn)生的識別方法。在這種方法中很大的力量用在抽取圖像特征方面,也就是把圖像大量的原始信息減縮為少數(shù)特征,然后再提取這些特征,把它作為識別的依據(jù)。這統(tǒng)計學方法是一種數(shù)學方法,它是受數(shù)學中的決策理論的啟16語言學法或句法結構識別法是立足于分析圖像結構。把一個圖像看成語言構造。例如一個英文句子,它是詞和短語組成的并按一定的語法表達出來,其中最基本元素是單詞。與此類似,圖像是由一些直線、斜線、點、彎曲線及環(huán)等組成。語言學法或句法結構識別法是立足于分析圖像結構。把一個17剖析這些基本原素,看它們是以什么規(guī)則構成圖像,這就是結構分析的課題。這些基本元素相當于句子中的單詞,那些直線,曲線的組合相當于短語,它們全體如何構成圖像就相當于語法規(guī)則。此時,圖像識別就相當于檢查圖像所代表的某一類句型是否符合事先規(guī)定的語法,如果語法正確就識別出結果。由此可見,這種方法主要是利用了圖像結構上的關系,這和統(tǒng)計學方法不同。剖析這些基本原素,看它們是以什么規(guī)則構成圖像,這就是結構分析18
兩類方法的不足:
第一種方法沒有利用圖像本身的結構關系,第二類方法沒有考慮圖像在環(huán)境中受噪聲的干擾。兩類方法的不足:19
如果兩者結合起來考慮可能會有新的識別方法,目前這方面的研究還不多。除此之之外,其于模糊數(shù)學的發(fā)展,目前正在發(fā)展一種模糊識別法。這種方法較多地考慮了人的邏輯思維方法,方法較為獨特,這種方法的研究得到了人們的關注。如果兩者結合起來考慮可能會有新的識別方法,目前這方面的20模糊識別的應用較廣,大致可有如下幾個方面:
(1)字符識別(Characterrecognition);
(2)醫(yī)學診斷(Medicaldiagnosis);
(3)遙感(RemoteSensing);
(4)人臉和指紋鑒別(Identificationofhumanfacesandfingerprints);
(5)污染(Pollution);
模糊識別的應用較廣,大致可有如下幾個方面:21(6)自動檢查和自動化(AutomaticinspectionandAutomation);
(7)可靠性(Reliability);
(8)社會經(jīng)濟(Socio-economics);
(9)語音識別和理解(Speechunderstandingandrecognition);
(10)考古(Archaeology)。(6)自動檢查和自動化(Automaticin22
目前世界上已有一些較為完善的圖像識別系統(tǒng)。這些系統(tǒng)無論從識別分析的功能來講還是從處理速度上來說都較初期有很大的發(fā)展。例如,美國的OLPARS(聯(lián)機圖像分析識別系統(tǒng))能識別數(shù)字、字母及分析識別航空照片。目前世界上已有一些較為完善的圖像識別系統(tǒng)。這些系統(tǒng)無論從識23
英國新產(chǎn)品QUANTIMET720高速多功能圖像分析系統(tǒng)可以觀察由光學和顯微鏡獲得的圖像、照片、底片、電影、幻燈片及X光照片。能對圖像進行各種測量及單獨實時測量特征,數(shù)據(jù)由微計算機處理。日本的OCR-ASPET/71型識別系統(tǒng)能識別多種字體,每秒鐘可識別2000字。英國新產(chǎn)品QUANTIMET720高速多功能圖像24
英國的IBM1287光學文字閱讀機能識別10個阿拉伯數(shù)字,在郵局推廣應用,誤識率為0.4%,拒識率為1.4%。日本NEC公司研制的郵區(qū)編碼信函分揀機能識別印刷體數(shù)字、字母、速度達30000件/小時。在醫(yī)學中也有較多應用,如一種5類白血球分類器可做到95%的正確分類,每分鐘100個細胞。另外還有染色體自動分類,醫(yī)學管理等方面也多有應用。英國的IBM1287光學文字閱讀機能識別10個阿拉25
隨著計算機技術的發(fā)展,模式識別的理論和方法得到進一步發(fā)展特別是圖像識別這個領域近年來興旺活躍,發(fā)展蓬勃。在某種意義上來說,圖像識別已發(fā)展成為人同機器,自然科學和社會科學基礎理論同技術應用之間的接口領域。隨著計算機技術的發(fā)展,模式識別的理論和方法得到進一步發(fā)展特26
目前,不僅研究單一功能的識別系統(tǒng),而且在研制多功能的綜合識別系統(tǒng)。如北方交通大學信息科學研究所會同清華大學、上海交通大學研究的“超級智能視聽信息處理系統(tǒng)”就是一種多信息融合的處理系統(tǒng),它的目的是利用多信息的融合技術,在模式識別中互相補充、互相借鑒,從而克服過去單一識別所面臨的難以克服的困難,試圖在模式識別領域有較大的突破。目前,不僅研究單一功能的識別系統(tǒng),而且在研制多功能的27同時,該系統(tǒng)在當今頗為熱門的人—機通過自然手段進行交互的領域也進行了有益的嘗試。近年來國際上在這一領域給予了極大的重視,微軟、Intel、IBM等大公司紛紛提出研究計劃,所謂的“Multimodel”研究已形成了新的研究熱點。同時,該系統(tǒng)在當今頗為熱門的人—機通過自然手段進行交互的領域28與此同時,對有關圖像識別的圖像處理軟件及新算法也受到極大的重視,如人工神經(jīng)元網(wǎng)絡、遺傳算法等在模式識別研究中已取得了可喜的結果?,F(xiàn)在,研制高性能、多用途的圖像分析識別系統(tǒng)乃是有待我們努力解決的課題,隨著生產(chǎn)與科學技術的發(fā)展,各個領域將會給模式識別技術以極大的注意,這一技術必將在我國的現(xiàn)代化建設中發(fā)揮作用。與此同時,對有關圖像識別的圖像處理軟件及新算法也受到極2910.2統(tǒng)計模式識別法
統(tǒng)計模式識別的過程如下圖所示。這是計算機識別的基本過程。10.2統(tǒng)計模式識別法統(tǒng)計模式識別的過程如下圖所示。30工學圖像處理第10章模式識別課件31數(shù)字化的任務是把圖像信號變成計算機能夠接受的數(shù)字信號。預處理的目的是去除干擾、噪聲及差異,將原始信號變成適合于進行特征抽取的形式,然后,對經(jīng)過預處理的信號進行特征抽取。最后進行判決分類,得到識別結果。數(shù)字化的任務是把圖像信號變成計算機能夠接受的數(shù)字信號。預處理32為了進行分類,必須有圖像樣本。對樣本圖像進行特征選擇及學習是識別處理中所必要的分析工作。為了進行分類,必須有圖像樣本。對樣本圖像進行特征選擇及學習是33
10.2.3特征的抽取與選擇
10.2.1決策理論方法
10.2.2統(tǒng)計分類法
10.2.3特征的抽取與選擇10.2.1決策理論方法1342.1決策理論方法統(tǒng)計模式識別方法最終歸結為分類問題。假如已抽取出N個特征,而圖像可分為m類,那么就可以對N進行分類,從而決定未知圖像屬于m類中的哪一類。一般把識別模式看成是對N維空間中的向量X進行分類,即:2.1決策理論方法統(tǒng)計模式識別方法最終歸結為分類問題。假如35
(10—1)(10—1)36模式類別為。識別就是要判斷X是否屬于以及屬于中的哪一類。在這個過程中主要解決兩個問題:一是如何抽取特征,要求特征數(shù)N盡可能小而且對分類判斷有效;二是假設已有了代表模式的向量,如何決定它屬于哪一類,這就需要判別函數(shù)。模式類別為37例如,模式有共m個類別,則應有,,共m個判別函數(shù)。如果X屬于第i類,則有:
(10—2)例如,模式有38在兩類的分界線上,則有
(10—3)這時X既屬于第I類,也屬于第j類,因此這種判別失效。為了進行識別就必須重新考慮其他特征,再進行判別。問題的關鍵是找到合適的判別函數(shù)。在兩類的分界線上,則有391.常用的決策規(guī)則1)、基于最小錯誤率的貝葉斯決策在圖像識別中,我們總希望盡量減少分類錯誤,利用貝葉斯(Bayes)公式能夠得到錯誤率最小的分類規(guī)則,這就是基于最小錯誤率的貝葉斯決策。1.常用的決策規(guī)則40
為解決兩類事務X的分類問題,設模式類別為和,其中類別狀態(tài)是一個隨機變量,狀態(tài)的概率是可以估計的。狀態(tài)的概率為,狀態(tài)的概率為。顯然,為解決兩類事務X的分類問題,設模式類別為41
設:為狀態(tài)下觀察X
類的條件概率密度;為狀態(tài)下觀察X類的條件概率密度;
利用貝葉斯公式:設:為狀態(tài)42得到的條件概率稱為狀態(tài)的后驗概率。得到的條件概率稱43貝葉斯公式實質上是通過觀察x,把狀態(tài)的先驗概率轉化為狀態(tài)的后驗概率。這樣基于最小錯誤率的貝葉斯決策規(guī)則為:貝葉斯公式實質上是通過觀察x,把狀態(tài)的先驗概率44如果,則把X歸類為;如果,則把X歸類為。如果45上面的規(guī)則也可以寫成下式形式:則。上面的規(guī)則也可以寫成下式形式:462)、基于最小風險的貝葉斯決策最小風險的貝葉斯決策是考慮各種錯誤造成損失而提出的決策規(guī)則。2)、基于最小風險的貝葉斯決策47設:①觀察是n維隨機向量,(10-6)②狀態(tài)空間由c個自然狀態(tài)組成,
設:①觀察是n維隨機向量,48
③決策空間由個決策組成。④損失函數(shù)為。它表示當真實狀態(tài)為,而所采取的決策為時所帶來的損失。③決策空間由個決策49已知條件概率及類條件概率密度,這里。后驗概率為已知條件概率及類條件概率密度50這里引入了“損失”的概念,就必須考慮所采取的決策是否能使損失最小。對于給定的X,如果采用決策,可以在中任選一個,在這種情況下,條件期望損失為:這里引入了“損失”的概念,就必須考慮所采取的決策是否51這里條件期望損失也稱為條件風險。由于X是觀察值,采取不同的決策時,條件風險的大小不同,因此,采用的決策與X有關,這樣決策可以看成是X的函數(shù),即,,
這里條件期望損失也稱為條52因此,可定義期望風險為:這里是采取的平均風險,是對某一X的取值采取決策所帶來的風險。
因此,可定義期望風險為:53因此,最小風險貝葉斯決策為:則因此,最小風險貝葉斯決策為:54
2.
線性判別函數(shù)線性判別函數(shù)是應用較廣的一種判別函數(shù)。所謂線性判別函數(shù)是指判別函數(shù)是圖像所有特征量的線性組合,即式中代表第i個判別函數(shù);是系數(shù)或權;為常數(shù)項或稱為閾值。在兩類之間的判決界處有下式的形式。
(10—4)
(10—5)2.線性判別函數(shù)線性判別函數(shù)是應用較廣的一種判別函數(shù)55可以寫成下式形式:
(10—6)
該方程在二度空間中是直線,在三度空間中是平面,在N度空間中則是超平面??梢詫懗上率叫问剑?1056其判決過程可如下進行:如果或,則;如果或,則。其判決過程可如下進行:57
用線性判別函數(shù)進行分類的是線性分類器。任何m類問題都可以分解為(m-1)個2類識別問題。方法是先把模式空間分為1類和其他類,如此進行下去即可。因此,最簡單和最基本的是兩類線性分類器。用線性判別函數(shù)進行分類的是線性分類器。任何m類問題都58
分離兩類的判決界由表示。對于任何特定的輸入模式必須判定大還是大。若考慮某個函數(shù),對于1類模式D為正,對于2類模式D為負。于是,只要處理與D相應的一組權的輸入模式并判斷輸出符號即可進行分類。分離兩類的判決界由表示。對于任何特59在線性分類器中要找到合適的系數(shù),以便使分類盡可能不出差錯,唯一的辦法就是試驗法。例如,先設所有的系數(shù)為1,送進每一個模式,如果分類有錯就調整系數(shù),這個過程就叫做線性分類器的訓練或學習。例如,我們把N個特征X和1放在一起叫做Y,N+1個系數(shù)為W,即:在線性分類器中要找到合適的系數(shù),以便使分類盡可能不出差60(10—7)(10—7)61考慮分別屬于兩個不同模式類,m=2,此時,有兩個訓練集和。兩個訓練集合是線性可分的,這意味著存在一個加權向量W,使得
(10—8)式中是Y的轉置??紤]分別屬于兩個不同模式類,m=2,此時,有兩個訓練集62工學圖像處理第10章模式識別課件63如果分類器的輸出不能滿足式(10—8)的條件,可以通過“誤差校正”的訓練步驟對系數(shù)加以調整。例如,如果第一類模式不大于零,則說明系數(shù)不夠大,可用加大系數(shù)的方法進行誤差修正。如果分類器的輸出不能滿足式(10—8)的條件,可以通過“誤差64具體修正方法如下:
對于任一個,若,則使
(10—9)
對于任一個,若,則使
(10—10)具體修正方法如下:對于任一個,若,則使65通常使用的誤差修正方法有固定增量規(guī)則,絕對修正規(guī)則及部分修正規(guī)則。固定增量規(guī)則是選擇為一個固定的非負數(shù)。絕對修正規(guī)則是取為一個最小整數(shù),它可使的值剛好大于零,即的最小整數(shù)(10—11)通常使用的誤差修正方法有固定增量規(guī)則,絕對修正規(guī)則及部分修正66部分修正規(guī)則可取為下式所決定的值(10—12)部分修正規(guī)則可取為下式所決定的值(10—1267
3.Fisher線性判別
Fisher線性判別起源于1936年R.A.Fisher的研究工作。在統(tǒng)計模式識別方法中,遇到的主要問題之一就是維數(shù)問題。在低維中可行的方法在高維上往往行不通。因此,降低維數(shù)是識別的關鍵問題。3.Fisher線性判別Fisher線性判別起源于168
考慮把一個d維空間樣本投影到一條直線上,形成一維空間,在數(shù)學上并非難事。但是,在原有的d維空間中緊湊可分的集群,當投影到一維時,有可能使幾類樣本混在一起而無法識別。因此,如何找到最好的,易于分類的投影線就是Fisher法要解決的基本問題??紤]把一個d維空間樣本投影到一條直線上,形成一維空間,69設有一個集合包含N個d維樣本,其中個屬于類的樣本子集為,屬于的個樣本為。對的分量作線性組合有:
(10-21)
設有一個集合包含N個d維樣本70由此可得到個一維樣本組成的集合。從幾何上看,如果,則每個就是相對應的到方向為直線上的投影。這里方向的選擇是很重要的,它將影響投影后的可分離程度,進而影響識別結果。由此可得到個一維樣本組成的集71設:①在維空間,各類樣本的均值向量為(10-22)樣本類內離散度矩陣為,總類內離散度矩陣為設:72
(10-23)樣本類間離散度(10-24)
73
②在一維Y空間各類樣本均值為(10-25)②在一維Y空間74樣本類內離散度矩陣為,總類內離散度矩陣為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年寶雞職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年安徽電氣工程職業(yè)技術學院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年天津交通職業(yè)學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年廈門華天涉外職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025至2031年中國小名片PVC卡行業(yè)投資前景及策略咨詢研究報告
- 全基因組關聯(lián)研究進展-第1篇-深度研究
- 2025年度國際組織在華項目外籍志愿者聘用合同
- 二零二五年度沈陽生姜種植戶與經(jīng)銷商合作合同
- 二零二五年度燃氣行業(yè)風險管理咨詢合同
- 科技發(fā)展對學校道德教育的影響與應對
- 2024夏季廣東廣州期貨交易所招聘高頻難、易錯點500題模擬試題附帶答案詳解
- 浙江省2024年高考化學模擬試題(含答案)2
- 2024新人教七年級英語上冊 Unit 2 Were Family!(大單元教學設計)
- 材料力學之材料疲勞分析算法:S-N曲線法:疲勞分析案例研究與項目實踐.Tex.header
- 中國醫(yī)美行業(yè)2024年度洞悉報告-德勤x艾爾建-202406
- 藥用植物種植制度和土壤耕作技術
- 《火力發(fā)電企業(yè)設備點檢定修管理導則》
- 重慶市渝北區(qū)2024年八年級下冊數(shù)學期末統(tǒng)考模擬試題含解析
- 保安服務項目信息反饋溝通機制
- 《團隊介紹模板》課件
- 運動技能學習與控制課件第十一章運動技能的練習
評論
0/150
提交評論