基于matlab的數(shù)字識別系統(tǒng)設(shè)計論文_第1頁
基于matlab的數(shù)字識別系統(tǒng)設(shè)計論文_第2頁
基于matlab的數(shù)字識別系統(tǒng)設(shè)計論文_第3頁
基于matlab的數(shù)字識別系統(tǒng)設(shè)計論文_第4頁
基于matlab的數(shù)字識別系統(tǒng)設(shè)計論文_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于matlab的數(shù)字識別系統(tǒng)設(shè)計論文 1.緒論1.1研究背景1.1.1索書號的簡介 索書號是圖書館賦予每一種館藏圖書的號碼,這種號碼具有一定結(jié)構(gòu)并帶有特定的意義。在館藏系中,每種書的索書號是唯一的,可準確地確定館藏圖書在書架上的排列位置,它是讀者查找圖書必要的代碼信息。索書號通常是根據(jù)中國圖書資料分類法編排的【1】簡稱中圖法。中圖法采拉丁字母和阿拉伯數(shù)字相結(jié)合的混合標記符號。根據(jù)圖書的學科主題,以拉丁字母標記并順序展列出22個基本大類,其中沒有L、M和Y開頭的參考附錄1中圖法簡表。由于“T工業(yè)技術(shù)”的大類范圍廣泛、內(nèi)容繁多,故又在該類基礎(chǔ)上采用雙位拉丁字母標記出16個二級類目,如TK、TL、

2、TM和TN等。字母之后再用阿拉伯數(shù)字對大類進行細分。如B表示哲學、宗教一大類;B020則表示宗教理論。有的圖書館如清華大學還在圖書分類號碼后添加按照圖書作者姓名所編排的著者號碼,或者是按照圖書進館時間的先后所取用的順序號碼。 不同索書號確定排列先后順序的步驟是,先比較分類號碼:如分類號碼相同再比較著者號碼或順序號碼。最后按照字母表和數(shù)字大小的順序排列。1.1.2書庫中圖書查找存在的問題 隨著電子計算機和網(wǎng)絡(luò)技術(shù)的發(fā)展,現(xiàn)代圖書館都已經(jīng)廣泛建立電子數(shù)據(jù)庫圖書管理系統(tǒng),方便用戶查找、閱覽書籍。讀者借圖書的流程如圖2所示,一般利用書目查詢系統(tǒng),根據(jù)圖書的書名,出版社,作者以及書的內(nèi)容等在電子數(shù)據(jù)庫中

3、檢索自己需要的圖書,記錄圖書相關(guān)信息。最后,根據(jù)圖書的索書號,快速方便地在書庫中找到相應(yīng)的圖書。但是,經(jīng)常會遇到下列問題:電子數(shù)據(jù)庫系統(tǒng)顯示圖書狀態(tài)為“歸還”,利用檢索到號,卻無法在書庫找到此書。出現(xiàn)這種情況主要有兩個原因:(1)圖書錯位放置,即圖書在書庫中擺放的位置與索書號不一致。(2)圖書已經(jīng)丟失,即雖然電子數(shù)據(jù)庫中顯示圖書狀態(tài)為“歸還”,但實質(zhì)圖書已經(jīng)丟失,并不在書庫中。隨著圖書館藏書數(shù)目的不斷增加,每天借閱的人數(shù)增多,而且有的圖書館發(fā)展成擁有幾個分館,上述問題越來越嚴重。這一方面嚴重降低了圖書館的資源的利用率;另一方面,浪費了讀者的時間,造成了很大麻煩。 目前,圖書館主要通過定期的人工

4、檢查發(fā)現(xiàn)書庫中錯位和丟失的圖書。但是,由丁館藏圖書多達上萬,甚至幾十萬,而且每天又都有大量圖書的借出和還入,人工檢查工作量很大,單調(diào)、重復(fù)的工作容易使工作員疲勞,檢查速度比較慢,無法滿足實際的需要。因此,迫切希望開發(fā)索書號自動識別系統(tǒng),實現(xiàn)對書庫中圖書放置位置的自動檢查,并通過索書號識別結(jié)果與電子數(shù)據(jù)庫中圖書信息的比較,找出已經(jīng)丟失的圖書。確保電子數(shù)據(jù)庫中的圖書狀態(tài)與書庫中的一致,以及書庫中的圖書準確排放,從而有效解決上述“用索書號找不到圖書”的問題。1.2索書號自動識別系統(tǒng) 近年來,隨著電子計算機技術(shù)、圖像處理技術(shù)和攝像技術(shù)的迅速發(fā)展,圖像中的文字信息提取系統(tǒng)已經(jīng)成功地應(yīng)用于各個領(lǐng)域。因此,

5、借助其經(jīng)驗,本文研究采用圖像處理和識別技術(shù)實現(xiàn)索書號的自動識別。1.2.1索書號自動識別系統(tǒng)概述系統(tǒng)的硬件由彩色CCD攝像頭,8位圖像采集卡和計算機組成,拍攝的圖像為8位RGB彩色數(shù)字圖像。如圖1-1所示 CCD攝像 索書號文字圖像分割 文字圖像二值化 單個字符切分 索書號識別 圖書排放位置判斷CCD攝像機拍攝排放在書架上的圖書圖像,圖書的圖像出索書號外還有其他內(nèi)容,如出版社的標志,其他文字甚至大塊的污漬等,必須從中分割出僅包含索書號的文字圖像。灰度的文字圖像難以直接用于識別,所以講灰度的文字圖像裝換為二值圖像。由于噪聲和五點的干擾,以及光照不均勻的影響,二值化后的文字會發(fā)生粘連,嚴重改變文字

6、的自營。字符切分成單個字符后才進行文字識別。按照上述流程,具體介紹索書號識別的整個過程。1.2.2 索書號識別存在的問題及關(guān)鍵技術(shù) 索書號識別所涉及的攝像技術(shù),無線通訊技術(shù),電子數(shù)據(jù)庫圖書管理技術(shù),AGV自動導引技術(shù)和圖像處理技術(shù)都已經(jīng)在其他領(lǐng)域有成功應(yīng)用的實例。圖像處理技術(shù)是索書號識別的核心技術(shù),而與相類似的應(yīng)用相比,索書號圖像處理與識別又有其自身顯著的特點和難點。 圖書館收集了近幾十年的藏書,不同時代的索書號編寫風格大不相同。本論文選取圖書館的主要類別圖書印刷體索書號,從圖書館的書架上隨即抽取樣本進行研究。如圖7所示,CCD攝像頭拍攝的索書號圖像,由于光照不均勻、退色、污跡、噪聲以及其他非

7、索書號文字的存在,大大增加了索書號識別的困難。為了能夠解決上述問題,索書號圖像識別主要由以下4個模塊組成:索書號定位,索書號提取,索書號字符切分和索書號單字識別。 第一階段:索書號定位是在圖像中找到包含索書號的圖像區(qū)域,要求該區(qū)域盡可能包含完整的索書號,同時盡量排除非索書號的圖像區(qū)域。由于該階段是解決索書號的區(qū)域查找問題,而沒有涉及單字切分,因此圖像區(qū)域的估計允許有一定誤差。為了包含完整的索書號以及避免索書號漏檢,往往是定位得到的圖像區(qū)域略大于索書號的真實區(qū)域。索書號定位主要存在兩個問題:(1)受不均勻光照和褪色的影響,索書號的紋理特征、顏色特征以及形狀特征等有較大的變化,可靠性相對較差;(2

8、)有的索書號由1個字符串組成,有的索陸號由2個字符串組成,而在索書號的周圍附近還會存在其他文字,如出版社名稱和作者姓名。因此,將索書號與其他文字相區(qū)別比較困難。 第二階段:索書號提取是在定位得到的索書號區(qū)域中,將索書號字符與周圍目標和背景相互分離。通過二值化處理,能將字符與背最相互分離。但由于定位得到的圖像區(qū)域略大于真實索書號區(qū)域,二值化后在索書號字符附近可能會存在一些非字符目標,影響后續(xù)的單字切分和識別。所以,二值化后采用連通域濾波進一步消除索書號周圍的非字符目標。索書號提取主要存在的問題:(1)不均勻光照增大了索書號圖像的灰度值變化范圍。(2)褪色程度的不同則降低了字符與背景的對比度。(3

9、)污跡的影響。上述因素的存在不僅使得確定二值化過程中合理的閾值非常困難,而且會改變索書號字符的形狀特征,最終影響連通域濾波的性能。 第三階段:索書號字符切分是將索書號字符串切分成一個個字符,以提供給識別算法進行識別。單字切分的結(jié)果如何將直接影響識別結(jié)果,而且切分好壞除字符能否正確識別之外,沒有較好的判別依據(jù)。因此,單字切分往往與字符識別緊密結(jié)合在一起。索書號的單字切分可以分為兩種情況:非粘連單字切分和粘連字符的單字切分。非粘連單字切分比價容易解決。但質(zhì)量較差索書號圖像二值化處理后,相鄰字符可能會發(fā)生粘連。而粘連索書號切分存在的主要問題是(1)粘連字符的切分比較困難:(2)索書號字符發(fā)生粘連有一

10、部分是字符的筆畫發(fā)生變形所致,如筆劃寬度變粗等。即使正確的切分也不一定能夠完全修正筆畫的變形,即無法通過粘連切分恢復(fù)字符的原形。 第四階段:索書號單字識別。印刷體單字識別的研究已經(jīng)相當成熟,只是與其他應(yīng)用領(lǐng)域的文字識別相比,索書號文字的質(zhì)量較差,存在字符不均勻褪色,筆劃殘缺以及大面積污跡等問題,2索書號文字圖像分割 復(fù)雜背景圖像中的文字定位和分割是從圖像中獲取文字信息的關(guān)鍵步驟,直接影響到后續(xù)文字識別的準確性,它在機器人視覺汽車牌照自動識別,計算機文本自動輸入,郵件地址自動識別,集裝箱編號自動識別以及視頻圖像內(nèi)容的檢索等系統(tǒng)中都有廣泛的應(yīng)用。CCD拍攝的圖書索書號圖像如圖2-1所示.圖像中除了

11、索書號還包含尤其他文字,紅色條形框還包含有其他文字,紅色條形框以及裝飾景物等,為了能夠正確識別該書的索書號,首先必須從圖像中正確分割出索書號圖像。 圖2-1 圖書索書號圖像但是,從圖像尤其場景圖像中自動定位和分割文字是比較困難的,其主要原因有以下幾個方面:第一,文字嵌入在圖像中,并與其它圖形共存,如邊框,商標,裝飾物以及污點等;第二,由于文字顏色退化,文字顏色不均勻,熱切背景顏色有食欲吻脖子顏色差異很?。坏谌?,文字尺寸大小變化;第四,關(guān)照條件無法控制,廣州不均勻;第五,索書號文字與其他文字。 本課題利用基于邊緣點數(shù)量統(tǒng)計的文字圖像分割方法。根據(jù)圖書館索書號的制定規(guī)則,索書號文字圖像具有如下特征

12、:第一,索書號文字采用黑色應(yīng)刷;第二,索書號文字的數(shù)量至少為3個;第三,索書號字符水平排列;第四,索書號貼在書脊的下半部分。它的算法流程如圖2-2所示,實驗結(jié)果證明,該方法具有定位精度高,準確率高,抗噪能力強,并在“索書號自動識別系統(tǒng)”中取得理想效果。 HSI彩色空間轉(zhuǎn)換 索書號邊緣點彩色分割 Canny算子檢測 文字圖像行區(qū)域檢測 文字圖像列區(qū)域檢測 邊界調(diào)整 圖2-2 索書號圖像分割算法流程 2.1 HSI彩色空間轉(zhuǎn)換 攝像頭拍攝的彩色圖片的像素點通常是采用24位RGB表示。但R,G和B3分量之間有很高的相關(guān)性,直接利用這些分量常常不嫩得到所需的分割效果。比較接近人堆顏色視覺感知的是色度,

13、飽和度和亮度空間。其中I表示顏色的敏感程度,H表示不同的顏色,S表示顏色的深淺,I分量與彩色信息無關(guān),H和S與人感受彩色的方式緊密相連。 本算法中,只對邊緣點進行財社分割,切自用S分量。英雌,問了減少算法的耗時,首先子轉(zhuǎn)換I分量,如圖2-3所示,待邊緣檢測出來后,再堆邊緣點進行S分量計算。轉(zhuǎn)換關(guān)系如下: I=(R+G+B)/3 (2-1) S=1-3/(R+G+B)*min(R,G,B) (2-2) 圖2-2 HSI彩色空間的I分量圖2.2 Canny算子檢測Canny算子邊緣檢測先計算X和Y方向的梯度平方和,局部最大的梯度幅值局部變化最大的點的過程叫非極大值抑制。 Canny算子邊緣檢測有如

14、下3個指標:第一,對每個邊緣點有唯一的響應(yīng),得到的邊緣為單像素狂;第二,錯誤率最低,即要少將真正的邊緣點丟失也要少將非邊緣點判為邊緣點;第三,高位置精度,檢測的邊緣應(yīng)在正真的邊界上。為此,Canny像影帝定義了3給準函數(shù)衣表達上述指標的約束:a,信噪比函數(shù)準則;b,定位精度準這函數(shù);c,單邊緣響應(yīng)準這函數(shù)。這三個準則相結(jié)合可以檢測的最佳的邊緣。 Canny算子中有3個參數(shù),是高斯函數(shù)聞不得參數(shù),他控制平滑程度:高閾值(TG)和低閾值(TL)。實驗中設(shè)置為1,TL=0.4*TG。這樣在Canny算子中只保留了一個參數(shù)高閾值(TG)。實際應(yīng)用中,TG取值只需要滿足兩個條件:第一,確保盡可能地檢測出

15、索書號文字的邊緣點,這粗限定了TG取值的最高上限;第二,確保加邊緣盡可能少,這限定了TG取值的下限。由于文字和背景具有較強的對比度,TG取值有一個較大的范圍,實驗中TG=0.2。如圖2-4所示,即實驗中的Canny算子邊緣檢測結(jié)果。 圖2-3 Canny算子檢測的邊緣 2.3索書號邊緣點彩色分割文字圖像有一些獨特的特征,文字圖像的解構(gòu)比較復(fù)雜,邊緣像素點比較多,切分布比較集中。受光照條件和文字顏色退化程度不同的影響,文字部分特征如對比度,亮度等容易搜到干擾,但是文字的邊緣分布規(guī)律且有較強的干擾性能。Canny算子檢測等到的邊緣點在HSI彩色空間S分量上精心索書號文字邊緣點的分割。由于索書號文字

16、采用黑色應(yīng)刷,但發(fā)生不同程度的退色,繼黑巖色的飽和度S有一定的變化,故 BW_Word(i,j)= S1Ss2 and BW(i,j)=1 (2-3)式中, BW(i,j)是Canny算子檢測的邊緣,BW_Word(i,j)是文字的邊緣點,S1和S2表示索書號文字S分量對應(yīng)的范圍。實驗中,去S1=0,S2=0.05。經(jīng)邊緣點S分量分割后的圖像如圖2-5所示,圖中的邊緣點為主要的文字邊緣點。 圖2-5 分割出的索書號圖像2.4文字圖像行區(qū)域檢測由于文字圖像中解構(gòu)相對比較復(fù)雜,其邊緣點數(shù)量也就比較多,分布比較集中。因此文字圖像區(qū)域中行統(tǒng)計平均的邊緣點數(shù)量比非文字圖像區(qū)域中的多,則: Ny0(wor

17、d)Ny0 (non-word) (2-4)式中, Ny0(word)為文職圖像區(qū)域的行平均邊緣點個數(shù),Ny0(non-word) 為非文字圖像區(qū)域的行平均邊緣點個數(shù)。雖然文字圖像區(qū)域中也存在者字符見得間隔,必能完全保證每一行的邊緣點數(shù)量都比非文字區(qū)域的行邊緣點數(shù)量多。但是從概率角度可以認為,文字圖像區(qū)域的每一行邊緣點適量大于政府圖像邊緣點數(shù)量的行平均值,而非文字圖像區(qū)域者相反,即: Ny(word) Ny0(word)Ny (non-word) (2-5)式中 Ny(word)是文字圖像區(qū)域中某一行的邊緣點數(shù)量,Ny (non-word)是非文字圖像區(qū)域中某一行的邊緣點數(shù)量,Ny0(word

18、)所示是整幅圖像邊緣點數(shù)量的行平均值。邊緣點數(shù)量統(tǒng)計如圖2-6所示。 圖2-6 行方向邊緣點數(shù)量統(tǒng)計 檢測出的可能文字圖像應(yīng)先進行合并,形成可能的文字圖像區(qū)域。受文字圖形自身結(jié)構(gòu)繁簡程度不同的影響,以及索書號可能有多行字符串組成,而兩行字符串之間可能存在間隔,使的圖像文字區(qū)域中的某些行的邊緣點數(shù)量低于平均值,設(shè)置行方向的間隔閾值Ty=10.即去過兩可能文字圖像行的間距DyTy,這經(jīng)性合并,否則視為兩個獨立的文字圖像區(qū)域。 經(jīng)可能文字圖像行合并后,圖2-1所示的索書號文字圖像區(qū)域中存在兩個索書號圖像區(qū)域?,F(xiàn)在其中包含可能文字圖像行最多的區(qū)域為索書號文字圖像。2.5文字圖像列區(qū)域檢測 在檢測出行區(qū)

19、域文字圖像中進一步確定。同理: Nx0(word)Nx0 (non-word) (2-6) 式中, Nx0(word)為文字圖像區(qū)域的列平均邊緣點個數(shù),Nx0(non-word) 為非文字圖像區(qū)域的列平均邊緣點個數(shù)。文字圖像區(qū)域列邊緣點數(shù)兩也有下屬關(guān)系: Nx(word) Nx0(word)Nx (non-word) (2-7)式中 Nx(word)是文字圖像區(qū)域中某一列的邊緣點數(shù)量,Nx (non-word)是非文字圖像區(qū)域中某一列的邊緣點數(shù)量,Nx0(word)所示是整幅圖像邊緣點數(shù)量的列平均值。邊緣點數(shù)量統(tǒng)計如圖2-7所示。 圖2-7 列方向邊緣點數(shù)量統(tǒng)計 檢測出的可能文字圖像應(yīng)先進行合

20、并,形成可能的文字圖像區(qū)域。受文字圖形自身結(jié)構(gòu)繁簡程度不同的影響,以及索書號可能有多列字符串組成,而兩列字符串之間可能存在間隔,使的圖像文字區(qū)域中的某些列的邊緣點數(shù)量低于平均值,設(shè)置行方向的間隔閾值Tx=20.即去過兩可能文字圖像行的間距DxTx,這經(jīng)性合并,否則視為兩個獨立的文字圖像區(qū)域。 經(jīng)可能文字圖像行合并后,圖2-1所示的索書號文字圖像區(qū)域中存在兩個索書號圖像區(qū)域。現(xiàn)在其中包含可能文字圖像行最多的區(qū)域為索書號文字圖像。 2.6 邊界調(diào)整 檢測出的文字圖像中,由于文字大小寫,吱聲結(jié)構(gòu)等造成字符排列不爭氣,導致不問字符的筆畫會被漏檢,如字符P的下半部分。因此,必須調(diào)整文字圖像的邊界。在已經(jīng)

21、分割出的文字區(qū)域赴京,統(tǒng)計行方向的邊緣點數(shù)量,若邊緣點數(shù)量大于2,則將列并入文字圖像區(qū)域。同理在列方向進行邊界調(diào)整。經(jīng)過列方向和行方向邊界天正,形成完整的文字圖像區(qū),并提取出文字圖像。如圖2-1所示的索書號分割出的索書號圖像如圖2-8所示。 圖2-8 分割出的索書號圖像 3文字圖像二值化3.1二值化的概述 多數(shù)OCR文字識別系統(tǒng)都是在二值化的文字圖像上實現(xiàn)的。因此,灰度文字圖像的二值化處理是文字識別系統(tǒng)中的關(guān)鍵步驟,其結(jié)果直接影響后續(xù)的圖像處理,包括字符切分、特征提取和字符識別等。 二值化問題描述如:令N為一系列自然數(shù),(x,y)是數(shù)字圖像的空間坐標,G=0,1,2.l-1是表示灰度級的正整數(shù)

22、,這樣圖像函數(shù)以定義為映射:f:N*NG,坐標為(x,y)的像素點值為f(x,y)。設(shè)t為閾值,B=(0,1),是一對二值灰度,其二值化過程為: f(x,y)= f(x,y)t 由此可見,確定合理的閾值是灰度圖像二值化的關(guān)鍵。閾值法就是按照某種準則確定閾值t3.2最優(yōu)閾值法對灰度圖像,基于各像素值的閾值是僅考慮各像素本身灰度值而確定的,因而算法一般較簡單,但對抗噪聲能力不強。所確定的閾值作用與政府圖像的每個相熟,嬰兒對木表和背景的灰度有梯度變化的圖像效果較差或失效。圖像的灰度直方圖是圖像個相熟灰度值得一種統(tǒng)計度量。許多常用的閾值選取反復(fù)發(fā)就是更具直方圖來進行。如果對算風直方圖選取兩峰之間的谷所

23、對應(yīng)的灰度值作為閾值就可將目標和背景分開。谷的選取有很多方法,下面主要介紹最優(yōu)閾值法。有時圖像中目標和背景的灰度值有部分交錯,這是乳癰一個全局閾值進行分割則總會稀罕省一定的誤差。實際中長希望能盡可能減少誤分割(包括吧目標分成背景和把背景分成目標兩類)的概率,而選取最有閾值是一種常用的方法。這里最優(yōu)閾值指能使誤分割率最小的分割閾值。圖像的直方圖可看成像素灰度值的概率分布廣函數(shù)的一個近似,設(shè)疑富圖像僅包含兩類主要的灰度值區(qū)域(目標和背景),那其直方圖所代表的像素灰度值概率分布密度函數(shù)實際上是對應(yīng)目標和背景的兩個蛋羹分布密度函數(shù)紙盒。如果已知密度函數(shù)的形式,就有可能計算出一個最優(yōu)閾值,用它可把圖像分

24、成兩類區(qū)域而是誤分割率最小。設(shè)有這樣一副混有加性高斯噪聲的圖像,背景和噪聲的概率密度分別是P1(z)和P2(z),政府圖像的混合概率密度: P(z)=P1*p1(z)+P2*p2(z) (式3-1)P1和p2分別是背景和目標區(qū)域灰度值的先驗概率。根據(jù)概率定義有P1+p2=1,所以混合概率密度式自由5個未知的參數(shù)。如果能求的這些參數(shù)可以確定混合概率密度。需確定一個閾值T是的灰度值小于T的像素分割為背景而是的灰度值大于T的像素分割為目標。這時錯誤地將目標像素劃分為背景的概率和將背景像素錯誤地劃分為目標的概率分別是: E1(T)= (式3-2) E2(T)= (式3-3)總的誤差概率為: E(T)=

25、P2*E1(T)+P1*E2(T) (式3-4) 為了求得誤差最小的閾值可將E(T)對T求導并令導數(shù)為零,這樣得到: P1p1(T)=P2p2(T) (式3-5)將這個結(jié)果用于高斯密度,并假設(shè)先驗概率相等,即P1=P2,則: T=(A1+A2)/2 (式3-6)其中A1,A2為別是背景和目標區(qū)域的平均灰度值。這表示如果圖像灰度值服從正太分布是,最佳閾值可按上式求得。3.3實驗結(jié)果及分析經(jīng)索書號定位和分割處理后,用于驗證本二值化算法的性能。其中有的索書號圖像中存在污跡,有的文字或標簽紙不均勻褪色,有的存在大面積陰影和低對比度等4種典型。圖36為實驗樣本中存在文字褪色和陰影的典型索書號圖像。圖42

26、為實驗樣本中低對比度和污跡干擾的典型索書號圖像。由于本算法是基于筆畫模型檢測文字像素點的,因此,實驗分為2部分:筆畫模型檢測文字像素點實驗和提出的二值化算法實驗。如圖3-1即分割出的索書號圖像的二值化圖像。 圖3-1 索書號二值化圖像4單個字符的切分4.1粘連字符切分的概述OCR(OplicalCharacterRecognition)文字識別系統(tǒng)大多數(shù)是指對單個字符的識別。但在實際應(yīng)用中,需要識別的往往都是由多個字符組成的字符串,其中不乏存在筆畫粘連的字符切分是尋求最佳的路徑將字符串切分成一個個的完整字符,它是文字識別系統(tǒng)的關(guān)鍵步驟之一。 錯誤的字符切分是無法得到正確的識別結(jié)果的。一般認為粘

27、連字符的錯誤切分會導致字符筆畫的嚴重失真變形,以致無法實現(xiàn)字符的正確識別。美國Nevada大學的商業(yè)印刷體文字識別系統(tǒng)實驗表明,錯誤的字符切分是產(chǎn)生錯誤識別的主要原,而且隨著圖像質(zhì)量的下降,粘連現(xiàn)象趨于嚴重,將會導致誤切分率的急劇增加。4.2索書號字符的粘連原因文檔圖像本身是二值圖像,如前所述,其粘連的主要原因是字符的字體、尺寸、間距的變化,低劣的印刷質(zhì)量和圖像分辨率較低而引起的,字符筆劃變形主要是由字符粘連和粘連筆劃的切分引起。因此,準確的切分路徑就能糾正字符變形,保證切分后字符識別有較高的正確率。與文檔圖像相比,索書號字符圖像具有以下特點:(1)字符間隔比文檔中單詞的字符問隔大;(2)索書

28、號的字符基本保持相同高度;發(fā)生重疊粘連和交錯粘連的概率很小。 但是,從書架上的圖書側(cè)翼分割出的索書號字符圖像是彩色圖像或灰度圖像,字符識別之前需要二值化處理。而且索書號字符圖像受下列因素的嚴重干擾:(1)字符串附近存在的污點;(2)字符和紙張的不均勻褪色:(3)光照不均勻。這些因素的存在,使字符圖像在二值化處理時,不可避免地會將部分背景I區(qū)域錯誤地分為字符筆劃使得筆畫變寬或變長,致使字符筆劃發(fā)生變形而導致粘連,即字符粘連處也是筆劃變形程度相當嚴重的地方,即使準確切分也不一定能完全糾正字符的筆畫變形。切分后字符的筆畫粘連引起的字符變形被糾正,但是,字符“3”的筆畫變形依舊沒有修復(fù)。因此,索書號粘

29、連字符在準確切分后還必須糾正粘連處的筆劃J變形。另一方面,由于干擾而引起的字符變形比較嚴重,導致圖像分析容易出錯,切分點的選擇和切分路徑的建立比較困難。43索書號粘連字符的切分為了提高切分速度,本節(jié)提出了采用上下輪廓凹凸特征近似檢測單個字符的寬度,在字符寬度的約束下,根據(jù)輪廓凹凸特征,直接建立切分路徑。并利用切分處筆劃寬度特征,對切分處的變形筆劃進行了恢復(fù),有效抑制噪聲干擾而產(chǎn)生的字符筆劃變形,提高索書號文字識別的正確率。431 字符串凹凸輪廓的定義及檢測圖書館藏書的索書號文字圖像經(jīng)過文字提取分割后得到的字符串,經(jīng)閾值分割后大小為MN的二值化圖像定義1:從上而下逐列掃描圖像,由每列的第一個黑色

30、像素點組成的輪廓曲線稱之為字符串上輪廓。上輪廓用其像素點的坐標表示為: PT(i)=ET(i) i=1,2,3,4.M (式4-1)式中ET(i) 即自上而下掃描i列圖像時遇到的第一個黑色像素點的y軸坐標。如果所在列無字符,即無黑色像素點,則該列ET(i)為0。同理,同理,從下而上逐列掃描圖像,由每列的第一個黑色像素點組成的輪廓曲線稱之為字符串下輪廓。下輪廓用其像素點的坐標表示為: PB(i)=EB(i) i=1,2,3,4.M (式4-2)式中Eb(i) 即自上而下掃描i列圖像時遇到的第一個黑色像素點的y軸坐標。如果所在列無字符,即無黑色像素點,則該列Eb(i)為0。 根據(jù)上述定義檢測到的索

31、書號字符的上下輪廓如圖所示。在字符間的間隔處,則在上輪廓存在凹結(jié)構(gòu),在下輪廓存在凸結(jié)構(gòu)。上輪廓的離散差分為, TDp(i)=Tp(i+1)-Tp(i), i=1,2,3,4.M-1 (式4-3)下輪廓的離散差分為: BDp(i)=Bp(i+1)-Bp(i), i=1,2,3,4.M-1 (式4-4)如果TDp(j)0,若k2,i(j,j+k),TDp(i)=0,則在j,j+k】內(nèi)必然存在唯一的凹結(jié)構(gòu),如果BDp(j)0,若k2,i(j,j+k),BDp(i)=0,則在j,j+k】內(nèi)必然存在唯一的凸結(jié)構(gòu),如圖4-1所示為二值化的索書號圖像的上輪廓和下輪廓曲線,在凹凸輪廓實際檢測時,由于字符圖像受

32、噪聲影響,字符的部分筆劃邊緣不光滑,會檢測到一些僅有1,2個象素深度或高度的假凹輪廓或假凸輪廓。為了有效抑制筆劃邊緣不光滑的干擾影響,在檢測過程中,增加了一個約束條件,即凹輪廓的深度和凸輪廓的高度必須大于等于3個象素。 圖4-1(a) 字符串上輪廓曲線 圖4-1(b) 字符串下輪廓曲線432字符高度和寬度的近似檢測 根據(jù)上輪廓和下輪廓的定義,可以檢測到各列字符高度H(i): H(i)=ET(i)- EB(i) (式4-4)取字符串的最大高度為字符的近似高度Hw: Hw=maxH(i) (式4-5)字符串圖像的上下輪廓曲線表明:(1)非粘連字符的間隔處存在鮮明的凹凸結(jié)構(gòu);(2)絕大部分粘連字符在

33、間隔處也會同樣存在凹凸結(jié)構(gòu);(3)絕大部分水平筆劃粘連的字符至少也會存在凹結(jié)構(gòu)或凸結(jié)構(gòu)。因此,可以采用凹凸結(jié)構(gòu)的間距近似檢測單個字符的寬度Gw. 由于凹凸結(jié)構(gòu)受字符自身形狀和粘連情況的影響,如I,I,l(小寫L)和1等字符相對較窄,而M,N,V,W等字符本身包含凹凸結(jié)構(gòu),從這些字符檢測到的問距會偏小,而水平筆劃的字符粘連會使檢測到的間距偏大,所以取凹結(jié)構(gòu)間距和凸結(jié)構(gòu)間距的中間值作為單個字符的近似寬度。設(shè)n個凹結(jié)構(gòu)的位置集合為CT(1),CT(2),.CT(n),凸結(jié)構(gòu)位置集合為CB(1),CB(2),.CB(m),則凹結(jié)構(gòu)和凸結(jié)構(gòu)的間距分別為: DCT(i)=CT(i)-CT(i-1),i=2

34、,3,.,n (式4-6) DCB(i)=CB(i)-CB(i-1),i=2,3,.,m (式4-7)為了將第一個凹結(jié)構(gòu)和凸結(jié)構(gòu)的間距包括在內(nèi),定義第一個凹結(jié)構(gòu)和凸結(jié)構(gòu)的間距為: DCT(1)=CT(1)-Lc (式4-8) DCB(1)=CB(1)-Lc (式4-9)其中Lc為字符串的起始列。 單個字符的寬度估計值為: Gw=medDCT(1),.DCT(1),.DCB(1),.DCB(1) (式4-10)由于受字符形態(tài)的影響,即使相同字體的字符,其寬度也有較大的變化,如字符1和字符“M”的寬度,而字符的高度保持基本保持一致。因此,字符高度的檢測比寬度檢測更加準確,一般來說印刷體的字符高度和

35、寬度之間滿足如下關(guān)系; Gw=0.7Hw (式4-11)因此,如果當字符因干擾嚴重而無法準確檢測到字符寬度時,根據(jù)上述(4-14)式關(guān)系,建立字符寬度檢測的約束條件: 0.5HwGw0.8Hw (式4-12)即當用凹凸結(jié)構(gòu)輪廓檢測的字符寬度不能滿足式(4-11)的約束關(guān)系時,用式(4-12)估計字符寬度。433粘連索書號的切分 索書號字符粘連的類型主要是簡單粘連。上下輪廓的凹凸結(jié)構(gòu)位置作為可能的切分列,在如在約束條件的作用下進行切分: 同一索書號的字符尺寸大小相同,則每個字符的寬度Lw應(yīng)該在一定范圍內(nèi),即: 0.6GwLw1.5Gw (式4-13)在上述約束條件的作用下,切分算法如下所示。切分

36、的步驟如下:第一步:為非粘連字符的切分。檢測上輪廓的凹結(jié)構(gòu),若第i個凹結(jié)構(gòu)的Tp(CT(i)=0,則i凹結(jié)構(gòu)為非粘連字符的間隔,切分后所得的字符區(qū)域為Pl,P2.Pn)。第二步:在上述切分的基礎(chǔ)進行粘連字符的切分。4.3.4字符筆畫變形的修復(fù)粘連字符的切分是對字符變形的糾正,但并不是正確的切分就能完全修復(fù)字符筆劃的變形。如圖55所示,正確的切分后,字符“3”的變形。由于索書號字符串的字符筆劃寬度接近相等,粘連筆劃切分后同樣應(yīng)該滿足該條件: Rw=minSL/SR,SR/SL (式4-14)若Rw0.5,若Rw0.5,則消除筆劃寬度較小的筆劃。有時切分,會使上式中的SR或SL為0,無法進行計算分

37、析,因此,當其中任意一值為0時,則令Rw=1。經(jīng)過筆劃修復(fù)后,字符3可以回復(fù)筆劃形。4.4 實驗結(jié)果分析 字符寬度和高度的估計準確與否直接影響算法的切分結(jié)果。首先驗證算法對字符寬度和高度估計的準確性。由于不同尺寸大小、不同字符的文字筆畫粗不同,而且受文字結(jié)構(gòu)自身變化的影響即使同一個文字,其字符寬度也不是保持某一個恒定的值。為此,采用Wo+1個像素的范圍來衡量字符寬度估計的準確性。 索書號字符的估計寬度Gw為22個象素,字符串中最大字符的寬度為28個象素,晟小字符的寬度為20個像素,字符的估計高度Hw為29個象素,字符串的字符寬度均在合理范圍內(nèi)。50本書共有字符377個,若不考慮1、1和J等過窄

38、字符,字符的真實寬度均在估計范圍內(nèi)。其中粘連的字符有115個,有107個準確切分,其中有5個字符經(jīng)過切分后的筆劃修復(fù)回復(fù)字形,8個字符發(fā)生錯誤切分,切分準確率為93% 通過實驗和分析發(fā)現(xiàn),粘連字符發(fā)生錯誤切分的主要類型是字符M、N和l、T以及7等發(fā)生水平筆劃粘連。在凹凸輪廓結(jié)構(gòu)分析選擇切分路徑時,容易在M和N的兩邊的豎直筆劃處發(fā)生錯誤切分。如圖所示為索書號二值圖像的部分切割的字符。 圖4-2 字符4 圖4-3 字符7 圖 4-4 字符3 5字符識別 采用數(shù)字字符輪廓解構(gòu)特征和統(tǒng)計特征相結(jié)合的方法,并從中選出穩(wěn)定的局部特征,理由結(jié)夠語句識別的方法進行數(shù)字的識別,能夠?qū)崿F(xiàn)不同字體索書號多種字體數(shù)字

39、的準確識別,同事還提高了識別的速度。5.1字符輪廓定義 由于受噪聲和隨機污點的干擾,以及二值化和粘連字符處理會一起字符的變形。為了盡量減少這種變形對星系特征的干擾,或者從變形的字符中提取可靠的特征子女系,講字符的整體輪廓分解為底部,頂部,左側(cè)和右側(cè)4個方向的輪廓特征來描述,是的當其中某部位的筆畫發(fā)生變形是,不會改變或者減少對其他部位特征的影響。 左側(cè)輪廓(LP(k),k=1,2.M)定義為字符最左側(cè)邊界像素點的遂平方向坐標值。 LP(i)=minx/P(x,y),y=i i=1,2.M (式5-1)式中P(x,y)表示圖像坐標為(x,y)的像素點,同理,右輪廓(RP(k),k=1,2.M)定義

40、為字符最右側(cè)邊界像素點的遂平方向坐標值。 RP(i)=minx/P(x,y),y=i i=1,2.M (式5-2)相應(yīng)地,頂部輪廓(TP(k),k=1,2.N)定義為字符最高邊界像素點的垂直方向坐標值。底部輪廓(BP(k),k=1,2.N)定義為字符最低邊界像素點的垂直方向坐標值。 TP(i)=miny/P(x,y),y=j j=1,2.N (式5-3) BP(i)=miny/P(x,y),y=j j=1,2.N (式5-4)為了描述輪廓的變化特征,定義四個方向輪廓的一階微分: LPD=LP(i+1)-LP(i) RPD=RP(i+1)-RP(i) (式5-5) TPD=TP(j+1)-TP(

41、j) BPD=BP(j+1)-BP(j)式中 i=1,2.M-1, j=1,2.N-15.2結(jié)構(gòu)基元 索書號印刷體數(shù)字比較簡單,可以由5個基本基元組成,分別為:突變(P)、豎直(v)、左斜(L)、右斜(R)和圓弧(C)。左右兩側(cè)的輪廓,結(jié)構(gòu)基元按照從上到下的順序組合排列;頂部和底部輪廓的結(jié)構(gòu)基元,按照從左到右的順序組合排列。以左則輪廓為例,定義上述基本單元:(1) 豎直定義:假設(shè)SL,SV和SR分別表示某側(cè)輪廓一階微分值大于0,等于0,小于0的個數(shù),若SR=0,SL=0,則解構(gòu)為V(2) 左斜定義:假設(shè)SL,SV和SR分別表示某側(cè)輪廓一階微分值大于0,等于0,小于0的個數(shù),若SR=0,SL大于

42、閾值TL,則解構(gòu)為L(3) 右斜定義: 假設(shè)SL,SV和SR分別表示某側(cè)輪廓一階微分值大于0,等于0,小于0的個數(shù),若SR=0,SL大于閾值TR,則解構(gòu)為R(4) 圓弧定義: 假設(shè)SL,SV和SR分別表示某側(cè)輪廓一階微分值大于0,等于0,小于0的個數(shù),若SR大于閾值RT,SL大于閾值LT,則解構(gòu)為C。(5) 突變連續(xù)的字符輪廓,其一階微分值的變化量比較小,而當字符輪廓不連續(xù)時,其一階微分值相對比較大。因此,定義:當輪廓的異界微分值超過PT時則字符輪廓有突變,即為結(jié)構(gòu)P。5.3基元的檢測 根據(jù)上述定義,考慮實際應(yīng)用中存在的干擾,基元的檢測規(guī)則如下:(1)若=PT,則在k處檢測到結(jié)構(gòu)突變(P);

43、若SLLT,SRLT,SRRT則檢測到結(jié)構(gòu)為左斜(L); 若SLRT,則檢測到結(jié)構(gòu)為右斜(R); 若SLLT,SRRT,則檢測到結(jié)構(gòu)為圓弧(c)。(2)由于字符輪廓突變處,表示字符輪廓不連續(xù),則突變前后的輪廓特征必須分別檢測。即若kl處檢測到P,則在【1,k11】的字符輪廓范圍內(nèi)統(tǒng)計SL,SV和SR獨立進行結(jié)構(gòu)基元檢測。若在k2處又檢測到P,則在【kl+1,k21】范圍內(nèi)進行基元檢測,依此類推。(3)由于字符輪廓基元的形成需要一定數(shù)(T)輪廓像素點,即只有當SL+SV+SR=ST時,才能進行基元檢測,否則不進行基元檢測。例如,當SL+SV+SR=2時,其形成的基元結(jié)構(gòu)是不穩(wěn)定。一般取ST=4。

44、(4)檢測到突變結(jié)構(gòu)P的有效范圍在x【ST,NST+1】,Y【ST,MST+1】。這主要是因為在其他范圍內(nèi)出現(xiàn)的結(jié)構(gòu)P多為干擾所致,結(jié)構(gòu)P截成的輪廓曲線過短,不能判定其結(jié)構(gòu)。 左右兩側(cè)輪廓上檢測到的基元按照從上到下的順序保存在各自的向量組LS和RS中;項部檢測到基元按從左到右的順序保存在另一個向量組TS中。頂部輪廓上,Ts(i)表示頂部輪廓結(jié)構(gòu)基元的向量組的第i個結(jié)構(gòu)基元,Tn表示頂部輪廓共有的基元數(shù)目;左側(cè)輪廓上,LS(i)表示左側(cè)輪廓結(jié)構(gòu)基元的向量組的第i個結(jié)構(gòu)基元,Ln表示左側(cè)輪廓共有的基元數(shù)目;右側(cè)輪廓上,RS(i)表示右側(cè)輪廓結(jié)構(gòu)基元的向量組的第i個結(jié)構(gòu)基元,Rn表示右側(cè)輪廓共有的基

45、元數(shù)目。5.4輪廓的統(tǒng)計特征采用上述的解構(gòu)基元還不足以準確識別殘缺和完整的數(shù)字,引入輪廓的統(tǒng)計特征。(1)水平方向的最大字符寬度Wmax;Wmax =maxRP(k)-LP(k)該特征主要用語識別數(shù)字1。當Wmax H/2,即為數(shù)字1,H=M。(2) 垂直方向的筆劃數(shù)該特征主要用于所示別數(shù)字0和8。因為0和8的輪廓解構(gòu)特征及其相似,所以借助與垂直方向的筆畫數(shù)加以區(qū)分。8在垂直方向的最大筆畫數(shù)也可能位。采用檢測到筆畫數(shù)為2時垂直方向的最小值來代替。假設(shè)J列上的像素點P(j,i-1),檢測到垂直方向的筆畫書為1,在P(j,i-1)檢測到了第二個筆畫,則S2=i,表示檢測到第二個筆畫的像素點位置。當S2M-ST時,檢測到的字符為8,否則為0。5.4數(shù)字字符的識別算法講數(shù)字字符的頂部,左右兩側(cè)的局部輪廓解構(gòu)特征和輪廓統(tǒng)計特征結(jié)合成特征向量,用以描述10個數(shù)字。更具特征向量,采用結(jié)構(gòu)識別算法識別地步殘缺的和完整的數(shù)字字符。由于底部特征丟失,會改變左右兩側(cè)的部分結(jié)構(gòu)特征,但不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論