計算機文字識別的研究與實現(xiàn)_第1頁
計算機文字識別的研究與實現(xiàn)_第2頁
計算機文字識別的研究與實現(xiàn)_第3頁
計算機文字識別的研究與實現(xiàn)_第4頁
計算機文字識別的研究與實現(xiàn)_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、山東大學碩士學位論文計算機文字識別的研究與實現(xiàn)姓名:龔才春申請學位級別:碩士專業(yè):計算機系統(tǒng)結構指導教師:劉榮興20040312山東太學碩士學位論文摘要近年來,隨著計算機的迅速發(fā)展,模式識別技術不斷取得新的進展,大大改善了人機之間的信息交互能力。計算機文字識別是模式識別的一個重要分支,它包括數字字符識別、西方文字字符識別、東方文字字符識別。數字字符識別和英文字符識別研究最充分,識別方法比較成熟,識別率也比較高;而東方文字字符識別比較困難,其中漢字字符識別是文字識別中最困難的部分。漢字識別是用計算機自動辨識印刷在紙上或人寫在紙上的漢字,學科上屬于模式識別和人工智能的范疇。漢字識別涉及到模式識別、

2、圖像處理、人工智能、形式語言與自動機、模糊數學、組合數學、信息論、中文信息處理等學科,也涉及到語言文字學、心理學、仿生學等,是-f綜合性技術。計算機文字識別是使?jié)h字和其它字符高速自動輸入計算機,解決了漢字信息處理系統(tǒng)中手動輸入效率低這一關鍵問題的理想途徑,是辦公自動化不可缺少的文字自動輸入手段,是智能計算機智能接口的重要組成部分。同時聯(lián)機手寫漢字識別是一種很方便的漢字輸入方式,而且字符圖像經識別后形成的代碼,在信息量上減少了百分之九十九以上,對信息壓縮和傳輸有重要意義。漢字識別是一種難度非常大的模式識別。這是因為:從客觀上講,漢字是種特殊的模式集合,其模式種類很多,結構非常復雜,有的模式又十分

3、相似,加上印刷質量與干擾的影響,以及人們在書寫時的隨意性使字形不夠規(guī)范等原因,都使得漢字字符的識別十分困難。從技術上講,雖然關于模式識別的研究有較長的歷史,但至今仍沒有適用于分析和描述各種模式的嚴謹的理論。目前的模式識別,與其說是-I'科學,還不如說是-I'技術,有的人甚至認為它是-f藝術。在研究某些模式識別問題時,有的方法比較巧妙,或者某種識別方法比較符合被識別的模式集合的情況,因而得到較好的效果。但是即使是較好的方法,由于不容易顧及所有方面的問題,所得結果往往也不是全局最佳”】。本文在總結學術上已有關于計算機文字識別成果的基礎上,描述了計算機文字山東.tl=學碩士學位論文識

4、別的基本過程,介紹了幾種常用的數字字符識別方法和漢字字符識別方法,對已有字符識別方法的改進主要有:1.提出了一種新的數字字符識別方法,即基于整體特征的數字字符識別方法,使數字字符識別對字符的書寫風格依賴性減小,能夠識別書寫不規(guī)范的數字字符。2.對現(xiàn)有的關鍵背景點法數字字符識別進行了改進,使原本幾乎只能夠用于印刷體數字字符識別的方法能夠用于識別手寫體數字字符。3.提出了一種專用于字符識別的細化算法,使得細化骨架不受字符邊緣修飾的影響,形變很小,同時速度很快。4.提出了一種從脫機字符點陣圖像中恢復動態(tài)信息,將脫機識別問題轉變?yōu)槁?lián)機識別問題的方法。關鍵詞:數字識別/漢字識別/模式識別/文字識別/細化

5、算法ll一生查查堂堡主蘭篁堡莖AbstractWith the development of computer technology.pattern recognition technology has been making new progress recently,which has improved the ability of information interaction greatly,Computer character recognition iS an important branch of pattern recognition,which consists of dig

6、ital character recognition,western language character recognition,eastern language character recognition.Digital character and English character recognition are the most fully studied,and their recognition methods are mature,their recognition rates are fairly high:whi le eastern language character r

7、ecognition is fairly difficult,among which Chinese character recognition is the most difficult.Chinese character recognition means automatically recognizing Chinese characters printed or written on paper with the help of computer.1t is a knowledge pertain to pattern reeognition and artificial intell

8、igence.It deals with pattern recognition,image processing,artificial intelligence,formal language and autonoma,fuzzy mathematics,compounding mathematics,informatics,Chinese information processing,as well as 1inguisties,psychology,bionics,It is a universal technology.Computer character recognition is

9、 the ideal way to solve the problem of inputting characters into computer,an indispensable measure for automatic character inputting in office automation,an important component of interface of intelligent computer.At the same time。on一1ine hand-written Chinese character recognition is an convenient w

10、ay of inputting Chinese characters.Moreover,the extracted information amount of character code is much less than1%of its image.which means that character recognit tonIIl山東人學碩十學位論文_-_-_-_-_-_-_- jS useful for information compressing and transferring.Chinese character recognition i S a kind of pattern

11、 reeognitiOil with great difficulty.On one hand,Chinese characters are a special pattern set,which has many patterns,complicated structures.Some patterns are very alike.Poor quality of printing,impact of voice,and irregular shape of written characters make their recognition even more difficult.First

12、, the number of Chinese character is huge.Nowadays,the number of Chinese character in common use is about3,000to4,000,National Standard Code G9231280“C17"17ese Character Code&t for fnformatI'011 Interchange一Basic Sethas6.763characters.Only when a recognition system Call recognize these

13、characters can it satisfy practical use.Second,Chinesecharacters have quite a few fonts.There are several printing font such as Song font, Fangsong font,Black font,and regular font and SO on,hand-written fonts such as regular font,casual font,cursive fonts.Different fonts of the same Chinese charact

14、er differ in width,length,layout,shape of its strokes,size proportion,though they have the same topological structure.WhatS more,Chinese charactersstructure is complicated,many characters are almost the same.Many characters have only a little difference.Some characters are all the same except for di

15、fference of one strokeS length.There are other facts that affeet performance of Chinese character recognition systems.As for printings,the quality of its paper,the thickness of printing oil, contamination of paper,quality of scanning device all affect recognition rateand fonts,Chinese characters and

16、 directly.All kinds of characters with different sizesnon.Chinese characters,characters and graphics,tables printing on a same pagemakes it even more difficult to recognize them.On the other hand,there is no precise theory that Can be used to analyze anddescribe all kinds of patterns.nlough we have

17、researched pattern recognition for alike a technology than a science,it is long time.Nowadays pattern recognition is moreeven regarded as an art.Some methods to one pattern recognition problem are artifice, but even these good methods are not optimal.1V東人學碩士學位論文but even these good methods are not op

18、timal.The paper describes basic process of computer character recognition system.gives some commonused digital character and Chinese character recognition methods,new digital character recognition methods and a fairly good skeleton presents twoalgorithm.The main improvements to available character r

19、ecognition methods are: 1,A new digital character recognition method has been presented,i.e,digital character recognition based on global feature,which makes recognitionindependent on writing style,and can recognize irregularly。written digitalcharacters.2.Improvement has been made to available key b

20、ackground point digitalCan be used to recognize recognition method,which makes the methodhand-written digital characters.3.A brand.new characterrecognition-oriented skeleton algorithm has beenborber omarnent has little presented in the paper,which makes character'simpact on the characterS skelet

21、on.4.A method recovering dynamic infomation from off-line character matrix imagehas been found,which translates a off-line recognRion problem into a onlinenne.Key words:digital character recognition/Chinese character recognition/Character recognition/pattern recognitionskeleton algorithmV原創(chuàng)性聲明本人鄭重聲明

22、:所呈交的學位論文,是本人在導師的指導下,獨立進行研究所取得的成果。除文中已經注明引用的內容外,本論文不包含任何其他個人或集體已經發(fā)表或撰寫過的科研成果。對本文的研究作出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律責任由本人承擔。論文作者簽名:日關于學位論文使用授權的聲明本人完全了解山東大學有關保留、使用學位論文的規(guī)定,同意學校保留或向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱;本人授權山東大學可以將本學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或其他復制手段保存論文和匯編本學位論文。(保密論文在解密后應遵守此規(guī)定一:燧

23、聊躲凇東_人學碩士學位論文第一章文字識別研究的歷史回顧和現(xiàn)狀隨著模式識別和人工智能研究的發(fā)展,在英文、數字字符識別的基礎上,六十年代人們開始對漢字識別進行的研究,七十年代出現(xiàn)了初步成果。最近二十多年,全國都進行了大量的研究工作,并已經取得了不少成果。以當前在漢字識別方面居于世界前列的日本為例,約在七十年代開始對印刷體漢字識別進行了研究。飯島,中野,板井,河田等在1973年前后發(fā)表了一批漢字識別的論文,至U1977年,完成了日本通產省制定的“圖像信息處理系統(tǒng)“中印刷體漢字識別裝置,并于1980年識別進行了公開表演。該裝置可識別兩千個的漢字,識別速度為100個漢字/秒,識別率達到了98,4%。19

24、84年,日本研制成識別2300漢字的多體印刷體漢字識別裝置,識別率為99.88%,識別速度大于100個漢字/秒,代表了當前印刷體漢字識別的水平。從七十年代中期開始,手寫印刷體漢字識別在日本也開展起來,進入八十年代后,研究工作日趨活躍并且有少數使用高檔微機的印刷、手寫印刷日本漢字裝置出現(xiàn)。中國從七十年代開始進行主要用于郵政信函分檢的數字識別和計算機輸入用的英文、數字、符號識別的研究,七十年代末,一些大學和研究所開始對efJSU體和手寫印刷體漢字的識別進行原理性研究。開始的時候只有少數單位少數人進行識別方法的探索;從八十年代開始中國漢字字符識別研究的取得了可喜成就。其中,從1986年初步N1988

25、年是印刷體漢字識別和聯(lián)機漢字識別研究的豐收期;從1988年到目前是印刷體和聯(lián)機手寫漢字識別實用系統(tǒng)的研制和初步使用期,也是手寫印刷體漢字識別研究的高潮期。聯(lián)機手寫漢字識別已經研制出了幾個初步實用的裝置,其識別指標為:識別字數6,763個至lJl2000個,識別率初次使用為百分之八十左右,經常使用可以達到百分之九十五以上,但也有三分之一的人的書寫很難達到高識別率,識別速度基本能跟上人書寫的速度。書寫時要求筆劃數目和類型基本正確,最常用的少數字可以連筆書寫,這是屬于聯(lián)機手寫印刷體識別的范疇。低限制的聯(lián)機手寫體漢字識別也在研究。與擊鍵編碼人工輸入漢字相比,聯(lián)機識別裝置雖然輸入速度較tit東火學碩士學

26、位論文漢字識別也在研究。與擊鍵編碼人工輸入漢字相比,聯(lián)機識別裝置雖然輸入速度較慢,1_Ll有不用特殊培訓,人人會操作的好處。當前,為適應中文筆式計算機的需要,聯(lián)機手寫體漢字識別正在興起新高潮。它將向兩個方向發(fā)展。一是研究不嚴格依賴子筆劃和筆順的手寫行書文字識別,二是研究價格便宜、性能穩(wěn)定可靠、特別是書寫方便地板和紙。sp屆tJ體漢字識別要提高識別系統(tǒng)的識別率和速度,增強系統(tǒng)對不同文本的適用性,擴大使用范圍。要加強版面分析、識別結果后處理和各種實用化技術的研究“1。隨著國家信息化進程的加速,手寫數字識別的應用需求將越來越廣泛,因此應加強這方面的研究工作。應用系統(tǒng)性能的關鍵與瓶頸仍然在于手寫數字識

27、別核心算法性能上,最終目標是研究零誤識率和低拒識率的高速識別算法。此外,盡早建立反映中國人書寫習慣的、具有國家標準性質的手寫數字樣本庫也是當務之急?!緇I東人學碩十學位論文第二章計算機文字識別的主要應用§2.1手寫數字字符識別的應用2.1.1在大規(guī)模數據統(tǒng)計中的應用在大規(guī)模的數據統(tǒng)計(如:行業(yè)年檢、人口普查等中,需要輸入大量的數據,以前完全要手工輸入,則需要耗費大量的人力和物力。近年來在這類工作中采用OCR 技術已成為一種趨勢。因為在這種應用中,數據的錄入是集中組織的,所以往往可以通過專門設計表格和對書寫施加限制以便于機器的自動識別。目前國內的大多數實用系統(tǒng)都要求用戶按指定規(guī)范在方格

28、內填寫。另外,這些系統(tǒng)往往采用合適的用戶界面對識別結果做全面的檢查,最終保證結果正確無誤??梢钥闯?這是一類相對容易的應用,對識別核心算法的要求比較低,是目前國內很多單位應用開發(fā)的熱點。2.1.2在財務、稅務、金融領域中的應用:財務、稅務、金融是手寫數字字符識別的又一主要領域。隨著我國經濟的迅速發(fā)展,每天等待處理的財務、稅務報表、支票、付款單等越來越多。如果能把它們用計算機自動處理,無疑可以節(jié)約大量的時間、金錢和勞動力。與上面提到的統(tǒng)計報表處理相比,在這個領域的應用難度更大,原因主要是對識別的精度要求更高,處理的表格往往不止一種,系統(tǒng)應能智能地同時處理若干種表格,由于處理貫穿于整個日常工作之中

29、,書寫應盡量按一般習慣(如:不對書寫者的寫法做限定,書寫時允東人學碩十學位論文許寫連續(xù)的字串,而不是在固定的方格內書寫,這樣對識別及預處理的核心算法要 求也提高了。2.1.3在郵件分揀中的應用隨著人們生活水平的提高,經濟活動的發(fā)展,通信聯(lián)系的需求使信函量大幅度增 加,我國函件業(yè)務量也在不斷增長,預計到2000年,一些大城市的中心郵局每天處 理量將高達幾百萬件,業(yè)務量的急劇上升使得郵件的分揀自動化成為大勢所趨。在 郵件的自動分揀中,手寫數字識別(OCR往往與光學條碼識別(OBROptical Bar Reading,人工輔助識別等手段相結合,完成郵政編碼的閱讀。§2.2漢字字符識別的應

30、用領域漢字字符識別研究鑒于基礎研究和應用研究的邊緣,它的研究對加速建立漢字 信息庫,對漢字信息處理系統(tǒng)全自動化,對開拓新一代計算機的智能輸入都有著重 要意義。2.2.1漢字的高速自動輸入使?jié)h字高速自動輸入計算機,解決了漢字信息處理中手動輸入效率低這一關鍵 問題。隨著計算機技術的發(fā)展,漢字信息處理系統(tǒng)處理和輸出漢字的高速度,越來 越和使用平工輸入方式的低速產生矛盾,使得漢字輸入計算機成為整個系統(tǒng)效率的 瓶頸。代替手工自動輸入漢字的自動輸入方法,雖然有漢字字符識別和漢字語音識 別兩種,但是,使?jié)h字高速輸入計算機,在原理上能與漢字輸出速度相匹配,從目 前看,漢字字符識別是唯一的方法。東大學碩士學位論

31、文2.2.2辦公自動化是辦公自動化和建立漢語語料庫不可缺少的文字自動輸入設備的基礎和便于輸 入的手段,也是建立在自然語言理解基礎上的自動翻譯的理想輸入方法。2.2.3智能計算機是智能計算機智能接口的組成部分。智能計算機是在更高程度上,更完善的模 擬和取代人類部分腦力勞動的全新一代計算機。智能計算機能識別文字、圖形和景 物,能聽懂語言,能理解文章。視覺是智能計算機接受外界信息的重要手段。隨著 文獻、資料、統(tǒng)計報表等逐年增加,對文字信息識別的智能接口也日漸重要。2.2.4信息壓縮與傳輸漢字字符點陣圖像經計算機識別后形成的字符代碼,信息容量不到原來圖像的 百分之一,因此,漢字字符識別對漢字信息壓縮和

32、傳輸有重要意義。2.2.5漢字錄入聯(lián)機手寫體漢字字符識別是一種很方便的漢字輸入方法。是在各種自動識別輸 入的方法中,能夠完全代替或部分代替人工編碼輸入的唯一可能的方法。筆跡鑒別 儀器以及利用漢字識別技術制成的自動閱讀機等,對擴大計算機再國民經濟各部門 的應用有實際意義“3。山東大學碩士學位論文第三章計算機文字識別基礎知識§3.1BMP圖像文件的格式BMP文件格式是微軟公司定義的一種廣泛使用的圖像文件格式,在圖像處理中 使用廣泛,本文所討論的計算機文字識別的識別對象字符點陣圖像就是BMP文 件格式的,因此有必要在談論識別方法之前先介紹一下Bt“iP文件格式。BMP文件由文件頭、位圖信息

33、頭、顏色信息和圖形數據四部分組成。BMP文件 的文件頭數據結構中含有BMP文件的類型、文件大小和位圖起始位置等信息。其結 構定義如下口:typedef struet tagBITMAPFILEHEADER?WORD bfrype; /位圖文件的類型,必須為BMDWORD bfSize; /位圖文件的太小。以字節(jié)為單位WORD b承eservedl; /位圖文件保留字,必須為0WORD bfRescrvcd2; /'位圖文件保留字,必須為0DWORD bfOffBits; /位圖數據的起始位置相對于文件頭的偏移量BITMAPFILEHEADER:BMP文件的位圖信息頭用于說明位圖的尺寸等

34、信息,其結構如下:typedef struct tagBITMAPINFOHEADERDWORD biSize; /本結構所占用字節(jié)數LONG biWidth;/位圖的寬度,以像素為單位LONG biHelght;,位圖的高度,以像素為單位WORD biplanes; /目標設備的級別,必須為1WORD biBitCount/每個像素所需的位數,必須是1,4,8或24之一DWORDbiCompression; /位圖壓縮類型,DWORD biSizelmage; /位圖的大小,以字節(jié)為單位LONG biXPelsPerMeter;位圖水平分辨率,每米像素數LONG biYPelsPerMete

35、r;/位圖垂直分辨率,每米像素數DWORD biClrUsed; /位圖實際使用的顏色表中的顏色數DWORDbiClrlmportant; /位圖顯示過程中重要的顏色數BITMAPINFOHEADER;BMP文件的顏色表用于說明位圖中的顏色,它有若干個表項,每一個表項是d J東人學碩士學位論文個RGBOUAD類型的結構,定義一種顏色。RGBQUAD結構的定義如下typedef struct'tagRGBQUADBYTE rgbBlue; /藍色的亮度(值范圍為0-255BYTE rgbGreen; /綠色的亮度(值范嗣為0-255BYTE rgbRed; /'紅色的亮度(值范圍

36、為o-255BYTE rgbReserved;/保留,必須為0RGBQUAD;顏色表中RGBQUAD結構數據的個數由biBitCount來確定:當biBitCount=l、4、8時,分別有2、16、256個表項;當biBitCount為24時,沒有顏色表項。位圖信息 頭和顏色表組成位圖信息,BITMAPlNFO結構定義如下:typedef struct tagBITMAPINFOBITMAPINFOHEADER bmiHeader:/位圖信息頭RGBQUAD bmiColors1; /顏色表BITMAPINFO:位圖數據記錄了位圖的每一個像素值,記錄順序是在掃描行內是從左到右,掃描行之 間是從

37、下到上。位圖的一個像素值所占的字節(jié)數可如下計算:當biBitCount=l時,8個像素占1個字節(jié);當biBitCount-4時,2個像素占1個字節(jié);當biBitCount=8時,1個像素占1個字節(jié);當biBitCount=24時,1個像素占3個字節(jié);Windows規(guī)定一個掃描行所占的字節(jié)數必須是4的倍數(即以long為單位,不足的 以0填充,一個掃描行所占的字節(jié)數計算方法:ByteNumberPerLine=(biWidth x biBitCount+31/8DataSizePerLine=(ByteNumberPerLine/4x 4東大學碩士學位論文§3.2計算機文字識別的基本過

38、程計算機文字識別系統(tǒng)的處理流程如圖3.1。印刷資料由光電轉換裝置變?yōu)殡娦?號,一般是采用掃描儀將文稿掃描得到文稿的圖像,經預處理后送入計算機。在預處 理階段,計算機一般要完成去除噪音,斷筆續(xù)連,版面分析,行分割,字分割,字 復點陣圖像規(guī)范化,細化等工作。經過預處理后的字符點陣圖像在進行特征提取。 字符的特征有兩類:統(tǒng)計特征和結構特征?,F(xiàn)代的識別方法一般趨向于將兩類特征 結合起來,同時提取兩類特征,放入字符特征向量庫。在特征向量的基礎上,可以 開始對字符進行分類。分類一般采用多級分類,即先進行粗分類,再在粗分類的基 礎上進行進一步的細分類,直到識別該字符。識別后為了進一步提高識別率,可以 對識別

39、結果在其所處的上下文進行后處理“3。 .圖3.1計算機文字識別的流程3.3.1整體閾值二值化§3.3二值化(一人工設定整體閾值根據實驗和人的先驗經驗,預先給定一個固定閾值。當像素的灰度值小于該閩 值時認為該像素為文字筆畫,否則為背景。這是一種最常用的最簡單的速度最快的 二值化方法。當文字清晰,輪廓明顯,干擾很小時是一種行之有效的二值化方法。 人工設定整體閾值的缺點是不能根據每個文字確定最佳的閾值,而且確定閾值后,東大學碩士學位論文當外界條件改變時,不能使閾值隨之改變1】【2225【26】。(二由灰度級直方圖確定整體閾值灰度級直方圖給出了一張圖像灰度級的概貌描述,字符點陣圖像的直方圖一

40、般 有兩個峰值,一個峰值對應文字筆劃部分,另一個峰值對應字符的背景部分。閾值 應取在兩個峰值的波谷處,波谷越深越陡,二值化效果越好。這是一種根據圖像和 背景的灰度值自動確定整體閾值的方法1】25】。3.3.2局部閾值二值化由像素的灰度值和該像素周圍像素點局部灰度特征來確定該像素的閩值叫做局 部閾值選擇。識別書寫或印刷質量差,干擾較為嚴重的字符文稿時,整體閾值法很 難正確進行二值化,這時采用局部閩值二值化是一個很好的選擇【5120l 1261。3.3.3動態(tài)閾值二值化當閾值選擇不僅取決于該像素灰度值以及其周圍各小組的灰度值,而且還和該 像素坐標位置有關,這叫做動態(tài)閡值選擇。它可以處理低質量甚至單

41、峰值直方圖圖 像。對文字點陣圖像而言,其筆畫和背景的區(qū)分是比較明顯的,而且動態(tài)閡值法計 算時間長,因此在文字識別中很少采用。最后需要指出的是:局部閾值和動態(tài)閩值選擇雖然能處理書寫質量較差的文字, 避免整體閾值法帶來了不應有的失真,但是時間開銷大,而且實際的局部閾值和動 態(tài)閩值選擇算法往往在圖形的某些部分上產生整體閩值不會產生的失真,所以,在 文字識別中,以整體閩值法作為二值化的主要方法是較為妥當的1】125【261。東大學碩士學位論文§3.4版面分析一頁字符點陣圖像經過二值化處理后成為一頁字符圖像的二值數字信號,它是 一個整體,包含圖形,表格,文字,以及行間、字間的空白。所以要識別單

42、個字符, 首先要把每個字符從一頁文字中分離出來,這就是版面分析要完成的任務。3.4.1域分離印刷板面由文本域和附屬域構成。文本域包括標題域和正文域:附屬域包括圖 像、圖形、表格等。域分離器就是用來分離這些不同的域。域分離器是利用域間的 空白條、直線或者修飾線來完成域的分離的。域分離也可采用交互式分離方式1】221 241。3.4.2行切割行切割的一般方法是:對二值化圖像從上到下逐行掃描并同時計算每掃描行的 前景像素數目,以獲取圖像的水平投影,根據水平投影值確定文字行的位置,利用 文字行間空白間隙造成的水平投影空白間隙,即可將各行文字分割開來5161【18】19】。 在圖像輸入時,有時會出現(xiàn)紙張

43、的傾斜,因而造成文字行的傾斜。少量的傾斜 對行切分以及下面要講的字切分影響不大,但傾斜嚴重時可能使行切分失敗。當然 可以利用將文字圖像旋轉適當角度的辦法來消除傾斜,但這種方法運算量過大,實 際難以使用。最直接的辦法還是人工旋轉。3.4.3字切割從左往右搜索一行文字單字的左右界,切分出單字和標點符號。對文本漢字行 來說,由于存在左右部件分離的情況,字的寬度不同的情況,手寫漢字字符間粘連山東太學碩十學位論文的情況等,加上行中會有英文、數字、符號和污點干擾等,使得字切割比行切割困 難很多。字切分大致有兩個過程,首先是求出文字、符號和部件的左右界限;其次是合 并部件成為完整的漢字1】191口“。3.5

44、.1平滑§3.5平滑和規(guī)范化漢字圖像經過平滑處理,能去除孤立的噪聲、干擾、平滑筆畫邊緣。一種簡單 的平滑方法如圖3.2所示。在圖中對圖3.2(a的前景平滑化后更改為背景。對圖 3.2(b的背景更改為前景“”。困圍因圈 露圈髓圈3.5.2規(guī)范化(b圖3.2字符的平滑處理一表示前景,o表示背景所謂規(guī)范化,就是把文字尺寸變換成同一大小,糾正文字位簧,變換文字筆畫 粗細等。所以規(guī)范化有位置規(guī)范化、尺寸規(guī)范化、筆畫粗細規(guī)范化、方向規(guī)范化四 種。東火學碩士學位論文(-位置規(guī)范化”1為了消除漢字點陣配置上的偏差,即將整個漢字點陣圖形移到規(guī)范的位置上來, 稱為位置規(guī)范化。位置規(guī)范化的方法有兩種。一種

45、是基于重心的位置規(guī)范化的;另 一種是基于外框的位置規(guī)范化。前者是求出文字的重心,在把重心移到規(guī)定的位置 上;后者是先求出文字的外框,找出中心,再把文字中心移到規(guī)定的位置上?;谥匦牡奈恢靡?guī)范化方法更為穩(wěn)定,不易受污點或筆劃缺損等干擾的影響。 其過程是,先定義M(p,q如下:其中,(i,J在筆劃上為1,在背景上為o。肋(Bg=iJ9,(f,于是,重心G阮力可以衰孫髓淼端黜也有人采用的位置規(guī)范化干脆將重心直接移到中心,中心的計算很簡單,外界矩形 的兩對角線的交點即為中心。(-尺寸規(guī)范化m不同尺寸大小的文字,規(guī)范化后成為同尺寸大小的文字,稱為尺寸規(guī)范化。 尺寸規(guī)范化的方法也有兩種。一種是將文字外接邊

46、框按比例線性放大或縮小使文字 成為規(guī)定尺寸的文字,另一種方法是根據.,兩個方向前景象素的分布進行尺寸規(guī) 范化。后一種方法計算如下:先求出文字的重心,再按照式4.1求出文字的散度, 然后按比例將文字線性放大或縮小成規(guī)定的01t 2,乃2的點陣。l鄺,圳(i-G,2盯,2=竺塑F上一 (4.1 盯,。百F。一 憎l,(f,J1,(f,卅(j-G,2乃2。ir鄧,基于外框的尺寸規(guī)范化對外框的干擾很敏感,而基于t/兩方向散度的尺寸規(guī) 范化對于有些字,如,且”,”目”等,規(guī)范化后往往使其形狀更為相似,從而分類更lI J東大學碩十學位論文加固難,而且計算機時間開銷很大。因此,一般而言,對印刷體字符識別,采

47、用基 于外框的尺寸規(guī)范化就可以了。(三筆畫粗細規(guī)范化筆畫粗細規(guī)范化是一種將字符所有筆畫都變成同一寬度的處理過程。下一節(jié)所 要講述的細化實質上也是一種筆畫粗細規(guī)范化,只是其使用非常廣泛,所以取了一 個專門的名稱,而且有許多專門的方法。筆畫粗細規(guī)范化一般來說有兩種方向相反的方法。一種是在細化骨架的基礎上, 通過胖化實現(xiàn),這是一種比較通用的方法。另一種方法是在字符圖像的基礎上,通 過邊緣侵蝕的方法,將某些邊緣點變成背景點,直到所有的筆畫都具有同一個寬度。 (四方向規(guī)范化。1方向規(guī)范化又稱為傾斜校正或者抗傾斜處理。這里所說的傾斜不是指掃描時 文本放置傾斜,如果是放置傾斜則只要對整幅圖象進行旋轉一個傾角

48、即可糾正。 這里所說的傾斜是指因書寫風格不同,使字符發(fā)生東倒西歪。我們知道,圖像的矩 特征可以由下式所定義的M(p,q及其組合來決定,其中f(i,.,在筆劃上為1,在背 景上為0。M(p,彩=i9J4鄖,J (3.t(f,圖像主軸方向(圖像伸展方向的tan目可以由下式求出:tan:一+絲壘:!二絲塑!壟tan日一l:oMO,I求得了圖像的伸展方向后,根據這個方向值對圖像的某些前景象素向左或者向右移 動一定距離,從而實現(xiàn)抗傾斜處理。§3.6細化許多計算機文字識別方法在預處理中都有對字符圖形進行細化。細化就是將二 值化文字點陣逐層剝去輪廓邊緣上的點,使字符變成筆劃寬度只有一個像素的文字

49、骨架的過程。在二值化點陣圖形中,對識別有價值的文字特征信息主要集中在文字 骨架上,細化后的文字骨架既保留了原有文字絕大部分特征點,又利于特征提取。山東太學碩士學位論文細化后的骨架信患量比文字二值化點陣圖像要少得多,降低了處理工作量。幾乎所有的光學字符識別(OCR系統(tǒng)都是基于細化算法的,因此,細化算法的好壞很大程度上決定TOCR系統(tǒng)的好壞。一個好的細化算法可以減少細化造成的形變,找到能反映字符真實形狀的特征點,使系統(tǒng)有較高的識別率;相反,一個不好的細化算法會產生偽特征點,給字符分類帶來困難,甚至導致誤識或拒識閻2124】。3.6.1基于象素判斷的細化算法對于字符點陣圖像中每一個前景象素尸,如果下

50、列四個條件同時滿足,則可以將該象素置為背景【91101。其8一領域象素集合中有2到6個象素為前景象素。其8一領域前景象素集合中有且僅有2個象素相鄰。其上方象素,在方象素和右方象素中至少有一個為背景,或者上方象素的8一鄰域前景象素集合中不是有且僅有2個象素相鄰。其下方象素,在方象素和右方象素中至少有一個為背景,或者左方象素的8-令g 域前景象素集合中不是有且僅有2個象素相鄰。對圖像中的每一個象素重復這一過程,直到不存在滿足上述四個條件的象素。3.6.2基于邊緣侵蝕的細化算法細化的本質就是邊緣侵蝕【91IS。細化就是循環(huán)地檢測字符地邊緣,如果將某個邊緣象素置為背景不會改變原來字符點陣圖像地連通性,

51、則可以將此象素置為背景。直到將字符侵蝕為單象素圖像。邊緣地檢測很簡單,如果一個前景象素的8一鄰域象素集合中有一到七個象素是前景,則該象素是邊緣象素。3.6,3面向字符識別的快速細化算法為了使細化得到的字符骨架能夠盡量反映原始字符的形狀,一般細化算法都是提取字符筆道的中心線,只有在數字字符和結構簡單的西文字符識別時可能提取左東大學碩士學位論文養(yǎng)邊界或右邊界。常見的細化算法最致命的缺陷是會產生毛刺和偽分支,如圖3.3所示。圖3.3(b1圖3.3傳統(tǒng)細化算法的細化結聚是圖3.3(a中木”字按這些方法得到的細化結果。圖3.3(bA處為細化產(a(b生的毛刺,圈內為細化產生的偽分支。毛刺和偽分支嚴重影響

52、了字符分類,例如圖.3.3(a的”木”字就很容易誤識為”水”。(一相關概念圳為了算法敘述的方便,對二值化字符圖像,我們定義以下概念:(1點段:一行中值為1(前景的連續(xù)像素序列稱為點段。用seg億表示第i祗啦瓷j令莨段,isegIi.j.rsegj,eg(i.j.貪黔表示seg億的左端點、右端點、中點。(2相關點段:如果相鄰二行的兩個點段seg億和soe(i+L滿足下列條件之一則稱點段sog億j1seg(1"心為相關點段。(3起始段:如果點段seg億不存在,行的相關點段,稱點段sog億為起始段。(4終止段:如果點段seg億不存在j吖行的相關點段,稱點段s昭億為終止段。(5一對多相關:如

53、果一個點段與多個點段相關,稱為一對多相關。(6相關段:點段集segB kS,see(i+1,啟糾seg(i+m,kin,如果segG+n,kn與seg(i+n+l,kn+一對一相關(口<功<功且每個點段長度都小于一定閾值,則稱這些點段集為相關段,111則稱為相關深度。(7要點段:起始段,終止段,一對多段和長度大于一定閾值的點段,稱為要點段。(8同組要點段:深度小于一定閾值的相關要點段稱為同組要點段。其左右端點位置分別取為組中各段最小左端位置和最大右端位置。(9端腳段:與某個同組要點段相關的組外點段就稱為該同組要點段的端腳段。深度大于一定閩值的端腳段稱為有效端腳段,否則為無效端腳段。

54、東大學碩士學位論文(a(b(c圖3.4漢字”來”的細化過程如圖3.4(a所示字符”來”的段化圖,第一筆橫由三行標記為l的點段組成,這三行點段構成同組耍點段;標記為5的各點段構成相關段,其中第一行為起始段,最后一行為終止段;標記為4的同組要點段有6個有效端腳段,標記為8的點段為無效端腳段。(二細化過程我們知道,對于字符來講,細化的毛刺主要來源于字符筆劃末端的修飾,因此,要消除毛刺就必須在取筆道中心線之前去掉這些修飾,也就是將這些修飾置為背景。而細化的偽分支都是由于筆道交叉處像素較其它位置寬產生的,因此要消除偽分支就不能對筆道交叉處做簡單的邊緣侵蝕,而要用其它方法。對于二值化字符圖像,我們逐行掃描

55、得到所有點段集,并在點段集基礎上按照點段間的相關關系,記錄圖像的同組要點段及其有效端腳段,將所有無效端腳段包含的像素置為背景,這樣就清除了字符所有橫向筆道的修飾;然后逐列做相同的操作,就清除了字符所有縱向筆道的修飾。去掉字符的橫向和縱向修飾,保證了細化骨架不會產生毛刺。圖3.4(b顯示了去掉橫縱修飾后字符”來”的點段情況。去掉字符的修飾后,字符的細化就變得非常簡單了。對所有按行掃描得到的相關段包含的所有點段取中點作為最后骨架需要保留的像素,如果取中點改變了前景的連通性,即使前景中連通的筆道在骨架中不連通了,則做局部調整,將中點附近的點也作為骨架需要保留的像素。保證原始字符圖像中連通的筆道,在細

56、鼉、。mm舢哺m m 。巍¨一",一,2¨B 6三|三三¨“主蘭寶¨¨,¨¨”m”嘞計算機文字iP,30的研究與實現(xiàn)化后的骨架也是連通的。對每一個同組要點段,包括按行掃描得到的同組要點段和按列掃描得到的同組要點段,都直接在其兩端點之間連一條直線,直線經過的像素作為骨架需要保留的像素即可。圖3.4(C顯示了字符細化后的最后結果,用”標記的像素集合就構成了字符的細化骨架。(三算法分析算法首先獲得字符圖像的各點段,以及在此基礎上的要點段,相關段,同組要點段及其端腳段等,這是對字符圖像的一次掃描,所以復雜度為0舊功,H和分

57、別為字符圖像的高和寬。在點段基礎上得到骨架的過程就是對點段的一次掃描,所以其復雜度為0,三為得到的點段數目。因此,算法總的復雜度是0(件,。由于不需要循環(huán)對圖像進行掃描,所以算法速度非???。細化過程中,我們首先清除了同組要點段的無效端腳段,這樣就清除字符筆劃的修飾,因此細化就不會再出現(xiàn)毛刺了。另外,對同組要點段沒有采用邊緣侵蝕的方法,而是直接將同組要點段的端點用直線連接,直線和相關段細化后的中心線都是單像素寬度,單像素寬度的直線與直線,直線與曲線相交都不可能出現(xiàn)多余分支點,從而本細化算法也就避免了偽分支的出現(xiàn)。由此可知,用此方法的得到的細化骨架能夠最大程度上反映字符的形狀特征,是一種形變非常小的細化算法。§3.7特征提取基于字符結構的特征的提取一般是在細化骨架的基礎上實現(xiàn)的,而基于統(tǒng)計信息的特征可以是在原字符二值化點陣圖像中提取,可以在做了預處理后的字符點陣圖像中提取,也可以在細化骨架上提取。特征的提取是識別的前提,一般而言,提取某種特征就對應了某種分類方法。某些特征用于粗分類,有些特征用于細分類,還有些特征用于識別結果的驗證。常用的字符特征有重心位置,中心位置,筆畫的方向,端點,岐點,交點,折點,特定背景點,每行或每列前景象素數目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論