數(shù)字圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別_第1頁(yè)
數(shù)字圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別_第2頁(yè)
數(shù)字圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別_第3頁(yè)
數(shù)字圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別_第4頁(yè)
數(shù)字圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)字圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別技術(shù)概覽撰文周翔摘要:圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別和其他模式的識(shí)別所采用的方法是多種多樣的。本文論述了圖像中手寫阿拉伯?dāng)?shù)字的識(shí)別過(guò)程,并對(duì)手寫數(shù)字識(shí)別的三種方法(基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法)進(jìn)行了簡(jiǎn)要介紹和分析,并通過(guò)實(shí)例重點(diǎn)對(duì)基于規(guī)則的方法進(jìn)行了描述。最后是對(duì)這些方法的簡(jiǎn)要評(píng)價(jià)。手寫數(shù)字圖像識(shí)別簡(jiǎn)介手寫阿拉伯?dāng)?shù)字識(shí)別是圖像內(nèi)容識(shí)別中較為簡(jiǎn)單的一個(gè)應(yīng)用領(lǐng)域,原因有被識(shí)別的模式數(shù)較少(只有0到9,10個(gè)阿拉伯?dāng)?shù)字)、阿拉伯?dāng)?shù)字筆畫(huà)少并且簡(jiǎn)單等。手寫阿拉伯?dāng)?shù)字的識(shí)別采用的方法相對(duì)于人臉識(shí)別、漢字識(shí)別等應(yīng)用領(lǐng)域來(lái)說(shuō)可以采用更為靈活的方法,例如基于規(guī)

2、則的方法、基于有限狀態(tài)自動(dòng)機(jī)的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法等。目前比較流行的方法是基于神經(jīng)網(wǎng)絡(luò)的方法和基于統(tǒng)計(jì)的方法,但無(wú)論使用哪種方法,也需要通過(guò)基本的圖像處理技術(shù)來(lái)對(duì)圖像進(jìn)行預(yù)處理,才能獲得這些方法的輸入信息。所以,本文的開(kāi)始部分先對(duì)手寫阿拉伯?dāng)?shù)字識(shí)別的整個(gè)處理流程進(jìn)行論述,而這個(gè)流程也可以用于圖像中其他模式的識(shí)別。當(dāng)然這個(gè)處理流程也不是唯一的,可以根據(jù)不同的模式識(shí)別應(yīng)用場(chǎng)景進(jìn)行與之不同的預(yù)處理流程。手寫數(shù)字圖像識(shí)別的主要流程在本文中,筆者在對(duì)圖像進(jìn)行分析前,先對(duì)圖像進(jìn)行了以下處理操作。第一步:對(duì)源圖像進(jìn)行黑白二值化處理,如圖1。302754q3027S4q圖1:源圖像(左)和

3、處理后的圖像(右)第二步:對(duì)第一步處理后的圖像進(jìn)行形態(tài)學(xué)圖像處理中的開(kāi)運(yùn)算,然后再進(jìn)行閉運(yùn)算(如圖2),先進(jìn)行開(kāi)運(yùn)算的目的是去除圖像中的離散黑色像素點(diǎn),再進(jìn)行閉運(yùn)算可以填補(bǔ)手寫數(shù)字中的裂縫。為了突出變換前后的區(qū)別,圖2中將源圖像中的一部分放大顯示,可以看出,經(jīng)過(guò)處理,數(shù)字7上面橫線中的空虛白色像素被黑色像素填實(shí)。圖2:進(jìn)行閉操作前的二值圖像(左)和經(jīng)過(guò)閉操作后的二值圖像(右)第三步:為了提取出圖像中的每一個(gè)數(shù)字,可用泛洪(FloodFill)算法,從數(shù)字上的某個(gè)像素開(kāi)始對(duì)數(shù)字進(jìn)行填充,也可以按從左到右、從上到下的順序掃描圖像,找到一個(gè)黑色的像素開(kāi)始填充,當(dāng)填充結(jié)束時(shí)所得到的填充區(qū)域就是圖中某個(gè)

4、手寫阿拉伯?dāng)?shù)字的圖像區(qū)域,這時(shí),得到這個(gè)阿拉伯?dāng)?shù)字圖像區(qū)域中像素坐標(biāo)點(diǎn)對(duì)的集合,如圖3所示。圖3:對(duì)第二步處理后的圖像中的某個(gè)像素進(jìn)行泛洪填充提取出的數(shù)字5的圖像第四步:通過(guò)第三步得到的某個(gè)數(shù)字的像素坐標(biāo)點(diǎn)對(duì)的集合,通過(guò)骨架提取算法(見(jiàn)參考文獻(xiàn)3)提取出手寫數(shù)字的骨架,再將其骨架圖像映射到某個(gè)8x8的0/1矩陣,矩陣中值為1的點(diǎn)表示手寫數(shù)字骨架經(jīng)過(guò)的矩陣中的點(diǎn),0表示數(shù)字的背景,要求數(shù)字圖像的每一行或每一列都至少有一個(gè)值為1,如圖4所示。圖4:數(shù)字5的骨架(左)和映射到8x8矩陣中的情況(圖中灰色表示1,白色表示0)可以想象出,矩陣的行列數(shù)越大,表示的骨架越精確,但對(duì)于手寫阿拉伯?dāng)?shù)字的識(shí)別來(lái)說(shuō)

5、,取8x8的矩陣就足夠了。如果要進(jìn)行漢字手寫體的識(shí)別,一般需要用64x64的矩陣或者128x128的矩陣。第五步:對(duì)8x8的0/1矩陣進(jìn)行內(nèi)容分析。其中分析的方法主要有基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法,這三種方法將在本文的第3、4、5部分進(jìn)行介紹。通過(guò)這些方法可以識(shí)別8x8的0/1矩陣中的數(shù)字,然后輸出結(jié)果,轉(zhuǎn)向第三步對(duì)圖像中的其他數(shù)字進(jìn)行識(shí)別?;谝?guī)則的方法基于規(guī)則的方法主要是根據(jù)0/1矩陣的特征對(duì)矩陣所描述的圖形表示的內(nèi)容進(jìn)行描述。在這里,我采用的是對(duì)矩陣的一行為一步進(jìn)行特征判斷??梢允孪纫?guī)定阿拉伯?dāng)?shù)字在矩陣中靠左上角顯示,則有這樣的規(guī)則:如果矩陣第一行中有兩個(gè)值為1,而

6、且這兩個(gè)1之間有大于1個(gè)的0,則這個(gè)矩陣所表示的數(shù)字為4。用規(guī)則的方法進(jìn)行識(shí)別時(shí),可以采用規(guī)則樹(shù)的結(jié)構(gòu)進(jìn)行判斷,樹(shù)的每一層對(duì)應(yīng)矩陣某一行的規(guī)則,比如,對(duì)于n行矩陣,樹(shù)的第k層對(duì)應(yīng)矩陣的第k行的規(guī)則(l=k=n),如圖5所示,樹(shù)中的節(jié)點(diǎn)是規(guī)則滿足規(guī)則的數(shù)字的集合”的形式。圖5:規(guī)則樹(shù)在運(yùn)行該算法時(shí),程序會(huì)從根節(jié)點(diǎn)(開(kāi)始節(jié)點(diǎn))開(kāi)始根據(jù)規(guī)則沿著某條分支到達(dá)葉節(jié)點(diǎn),這時(shí)候算法結(jié)束輸出節(jié)點(diǎn)集合中的元素。往往這樣的集合中的元素個(gè)數(shù)為1個(gè),也有時(shí)候是多個(gè),比如手寫體的數(shù)字1和7很像,當(dāng)算法結(jié)束時(shí),有可能會(huì)輸出兩個(gè)結(jié)果。這個(gè)算法的時(shí)間復(fù)雜度正比于矩陣的行數(shù),在本例中,因?yàn)榫仃囉?行,則最多需要進(jìn)行8步判斷可以

7、得出識(shí)別結(jié)果??梢?jiàn),算法的復(fù)雜度與規(guī)則樹(shù)的分叉數(shù)無(wú)關(guān)。而規(guī)則分的越細(xì),分叉數(shù)越多,對(duì)象的區(qū)分度越好,搜索過(guò)程中對(duì)樹(shù)的遍歷深度越少,識(shí)別的正確率就越高??梢?jiàn),定義一系列精密的規(guī)則是采用本方法進(jìn)行模式識(shí)別的關(guān)鍵。當(dāng)然,也可以每一步按每列的規(guī)則進(jìn)行判斷,方法與上面的敘述類似?;诮y(tǒng)計(jì)的方法基于統(tǒng)計(jì)的模式識(shí)別方法是根據(jù)系統(tǒng)已有的統(tǒng)計(jì)信息,在當(dāng)前的實(shí)例情況下,取概率最大的一個(gè)模式。這里的模式是阿拉伯?dāng)?shù)字。如果設(shè)當(dāng)前的實(shí)例為E,阿拉伯?dāng)?shù)字為N,則我們要求的是對(duì)所有的E,條件概率值P(N|E)最大的一個(gè)N。即:識(shí)另9纟吉果=argmaxP(N二argmax玖上、N)F(N)*尸(左)對(duì)上式的右端進(jìn)行分母歸一

8、化處理并假設(shè)所有阿拉伯?dāng)?shù)字出現(xiàn)的概率是相等的,則上式可簡(jiǎn)化為:識(shí)別結(jié)杲=argmaxAI也就是要求對(duì)于數(shù)字N,它的圖像是E的概率為最大的那個(gè)數(shù)字N。當(dāng)然,對(duì)整個(gè)圖像求概率得到的結(jié)果是非常小的,而且求解過(guò)程比較困難,我們可以對(duì)整個(gè)圖像進(jìn)行區(qū)域劃分,進(jìn)行粒度計(jì)算得出在每個(gè)區(qū)域中對(duì)應(yīng)的數(shù)字出現(xiàn)的概率,并將這些概率值進(jìn)行平滑處理或放大處理,然后把這些概率值相乘,最后取條件概率最大的一個(gè)數(shù)字,就是阿拉伯?dāng)?shù)字的識(shí)別結(jié)果。同時(shí),還可以采用隱馬爾可夫模型(HMM)的思想(見(jiàn)參考文獻(xiàn)2),如果按照在本文第2節(jié)中的預(yù)處理流程得到的結(jié)果,設(shè)觀察序列是8x8矩陣中的0/1值,狀態(tài)是阿拉伯?dāng)?shù)字,可以通過(guò)樣本進(jìn)行參數(shù)訓(xùn)練

9、,得出HMM的參數(shù),然后通過(guò)Viterbi算法得出在已知狀態(tài)序列(8x8矩陣中的0/1值)的情況下,求出概率最大的狀態(tài)(即阿拉伯?dāng)?shù)字,也就是識(shí)別結(jié)果)?;谏窠?jīng)網(wǎng)絡(luò)的方法神經(jīng)網(wǎng)絡(luò)的方法是采用人類大腦神經(jīng)中學(xué)習(xí)反饋的思想,通過(guò)用戶訓(xùn)練得出正確的識(shí)別結(jié)果。您可以通過(guò)網(wǎng)頁(yè) HYPERLINK /document/viewdoc/2idu1187%e6%9d%a5%e6%9f%a5%e7%9c%8b%e8%bf%99%e7%a7%8d%e6%96%b9%e6%b3%95%e7%9a%84%e5%85%b7%e4%bd%93%e5%ae%9e%e7%8e%b0%e8%bf%87%e7%a8%8b%e5%

10、92%8c%e6%ba%90 /document/viewdoc/2idu1187來(lái)查看這種方法的具體實(shí)現(xiàn)過(guò)程和源代碼。6.分析與總結(jié)通過(guò)上面的分析,我們可以看出,基于規(guī)則的方法,相對(duì)較為簡(jiǎn)單,比如手寫阿拉伯?dāng)?shù)字識(shí)別等識(shí)別對(duì)象較少的情況,有比較少的時(shí)間復(fù)雜度和比較高的識(shí)別正確率,這種方法的關(guān)鍵在于規(guī)則的定義對(duì)模式是否有較高的區(qū)分度;這種方法對(duì)于比較復(fù)雜的情況,則需要一個(gè)規(guī)則庫(kù)來(lái)保存這些規(guī)則,但這時(shí),規(guī)則的設(shè)計(jì)也會(huì)變的復(fù)雜而且困難?;诮y(tǒng)計(jì)的方法需要維護(hù)一個(gè)具有一定規(guī)模的樣本庫(kù),而且在使用HMM進(jìn)行數(shù)字識(shí)別時(shí)計(jì)算量較大。樣本庫(kù)的規(guī)模越大,樣本的分布越接近于實(shí)際情況,數(shù)字識(shí)別的正確率越高。在使用基于統(tǒng)計(jì)的方法的時(shí)候還需要數(shù)據(jù)平滑的技術(shù)來(lái)擴(kuò)大小概率的值?;谏窠?jīng)網(wǎng)絡(luò)的方法是當(dāng)今應(yīng)用的最廣泛的方法,其特點(diǎn)在于樣本數(shù)可以比較少,神經(jīng)節(jié)點(diǎn)的激勵(lì)函數(shù)的運(yùn)算與HMM中的概率計(jì)算相比較為簡(jiǎn)單,因此有比較好的運(yùn)行效率,實(shí)現(xiàn)比較簡(jiǎn)單。但識(shí)別的過(guò)程需要人的參與(訓(xùn)練),識(shí)別的正確率受用戶主觀因素的影響?;谟邢逘顟B(tài)自動(dòng)機(jī)的方法也可以看做是基于規(guī)則的方法,單獨(dú)將這種方法作為數(shù)字識(shí)別的系統(tǒng)比較少,因?yàn)閷?duì)于復(fù)雜的應(yīng)用,形成的有限狀態(tài)自動(dòng)機(jī)的拓?fù)浣Y(jié)構(gòu)往往比較復(fù)雜。在比較簡(jiǎn)單的情況下,如7段碼數(shù)字識(shí)別,將會(huì)有較其他

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論