版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
引言 11.1研究的目的及意義 11.2字符識(shí)別研究現(xiàn)狀 12圖像預(yù)處理 12.1圖像處理發(fā)展概況 12.2圖像灰度化 22.3圖像增強(qiáng) 22.4圖像二值化 22.5梯度銳化 32.6去除離散的雜點(diǎn)噪聲 32.7圖像的傾斜校正 32.8歸一化處理 33字符分割 33.1投影法分割字符 33.2連通域法分割字符 44圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及分析 54.1總體設(shè)計(jì) 54.2硬件設(shè)計(jì) 54.3軟件設(shè)計(jì) 54.4視頻讀取與轉(zhuǎn)碼模塊 64.5預(yù)處理模塊 64.6圖像特征提取模塊 74.7字符識(shí)別模塊 84.8樣本字符識(shí)別的過程 95字符識(shí)別識(shí)別過程 105.1統(tǒng)計(jì)特征字符識(shí)別技術(shù) 115.2結(jié)構(gòu)特征字符識(shí)別技術(shù) 115.3基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù) 12結(jié)論 13參考文獻(xiàn) 141引言1.1研究的目的及意義人類社會(huì)己開始進(jìn)入信息時(shí)代,信息產(chǎn)業(yè)的發(fā)展將對(duì)國家的發(fā)達(dá)和民族的興旺產(chǎn)生重大的影響。因此,世界各國對(duì)信息產(chǎn)業(yè)的發(fā)展都給予了極大的關(guān)注和重視。人類社會(huì)的不斷進(jìn)步帶來了信息空間的增長和積累,而計(jì)算機(jī)的出現(xiàn)為現(xiàn)代化信息處理提供了有效的手段。但是,在信息技術(shù)高速發(fā)展的同時(shí),一個(gè)難題也擺在我們面前,那就是計(jì)算機(jī)數(shù)據(jù)處理和網(wǎng)絡(luò)傳輸?shù)母咚俣扰c數(shù)據(jù)輸入的低速度之間的矛盾。目前,人類的許多信息是記錄在紙上的文字圖像,將這些信息輸入計(jì)算機(jī)是非常繁瑣而低效率的工作,這在一定的程度上減緩了社會(huì)信息化的進(jìn)程。因而,作為信息化基礎(chǔ)的數(shù)據(jù)輸入成了計(jì)算機(jī)應(yīng)用中的瓶頸問題。人們接受信息最頻繁的是視覺通道.在日常學(xué)習(xí)和生活中,所處理的信息有75%-85%是視覺信息,其中文字信息愈來愈占重要地位.比如對(duì)各種期刊文獻(xiàn)的閱讀、查找、翻譯:對(duì)各種統(tǒng)計(jì)報(bào)表的匯總、計(jì)算、分析;對(duì)各種函件票證的分揀、傳送、驗(yàn)核等。要實(shí)現(xiàn)對(duì)這些文字信息處理過程的機(jī)械化、自動(dòng)化,其先決條件就是利用計(jì)算機(jī)對(duì)這些文字信息進(jìn)行識(shí)別。1.2字符識(shí)別研究現(xiàn)狀最早的文字識(shí)別始于50年代初期的歐美,1955年出現(xiàn)了印刷體數(shù)字OCR產(chǎn)品,此后轉(zhuǎn)向手寫體英文和數(shù)字的識(shí)別。對(duì)漢字識(shí)別研究最早的是美國IBM公司的Casey和Nagy。1966年他們發(fā)表了第一篇關(guān)于漢字識(shí)別的文章,用模板匹配法識(shí)別1000個(gè)印刷體漢字,從此在世界范圍內(nèi)拉開了漢字識(shí)別研究的序幕.而手寫體漢字識(shí)別的研究最早始于70年代中期的日本。我國則在80年代初期開始進(jìn)行手寫體漢字識(shí)別的研究。目前進(jìn)行手寫體漢字識(shí)別研究的國家和地區(qū)主要集中在中國、日本、中國臺(tái)灣、美國和加拿大,實(shí)際應(yīng)用水平最高的首推日本。2圖像預(yù)處理2.1圖像處理發(fā)展概況數(shù)字圖像處理(DigitalImageProcessing)又稱為計(jì)算機(jī)圖像處理,它是指將圖像信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)對(duì)其進(jìn)行處理的過程。數(shù)字圖像處理最早出現(xiàn)于20世紀(jì)50年代,當(dāng)時(shí)的電子計(jì)算機(jī)已經(jīng)發(fā)展到一定水平,人們開始利用計(jì)算機(jī)來處理圖形和圖像信息。數(shù)字圖像處理作為一門學(xué)科大約形成于20世紀(jì)60年代初期。早期的圖像處理的目的是改善圖像的質(zhì)量,它以人為對(duì)象,以改善人的視覺效果為目的。圖像處理中,輸入的是質(zhì)量低的圖像,輸出的是改善質(zhì)量后的圖像,常用的圖像處理方法有圖像增強(qiáng)、復(fù)原、編碼、壓縮等。2.2圖像灰度化圖像樣本目前大都是通過攝像頭等設(shè)備捕獲的,因而未處理的圖像都是彩色圖像。彩色圖像包含著大量的顏色信息,不但在存儲(chǔ)上開銷很大,而且在處理上也會(huì)降低系統(tǒng)的執(zhí)行速度,因此在對(duì)圖像進(jìn)行識(shí)別等處理中經(jīng)常講彩色圖像轉(zhuǎn)變?yōu)榛叶葓D像,以加快處理速度。由彩色轉(zhuǎn)換為灰度的過程叫灰度化處理?;叶葓D像就是只有強(qiáng)度信息而沒有顏色信息的圖像,存儲(chǔ)灰度圖像只需要一個(gè)數(shù)據(jù)矩陣,矩陣每個(gè)元素表示對(duì)應(yīng)位置像素的灰度值。2.3圖像增強(qiáng)圖像增強(qiáng)用于調(diào)整圖像的對(duì)比度,突出圖像中的重要細(xì)節(jié),改善視覺質(zhì)量。采用圖像灰度拉伸的方法可有效地增強(qiáng)圖像對(duì)比度,增強(qiáng)后的圖像中字符清晰、區(qū)域分明,便于圖像二值化和字符分割處理。對(duì)比度增強(qiáng)是一種比較簡明但又十分重要的空域法圖像增強(qiáng)。這種處理只是逐點(diǎn)修改輸入圖像每一個(gè)像素的灰度,圖像各像素的位置并不改變,是一種輸入與輸出像素間一對(duì)一的運(yùn)算。對(duì)比度增強(qiáng)又叫點(diǎn)運(yùn)算。對(duì)比度增強(qiáng)一般用來擴(kuò)大圖像的灰度范圍。2.4圖像二值化二值圖像是指整幅圖像畫面內(nèi)盡黑、白二值的圖像。在數(shù)字圖像處理中,二值圖像占有著非常重要的地位。在實(shí)際的圖像處理系統(tǒng)中,進(jìn)行圖像二值變換的關(guān)鍵是要確定合適的閾值,使得字符與背景能夠分割開來,二值變換的結(jié)果圖像必須要具備良好的保形性,不丟掉有用的形狀信息,不會(huì)產(chǎn)生額外的空缺等等。字符識(shí)別系統(tǒng)要求處理的速度高、成本低、信息量大,采用二值圖像進(jìn)行處理,能大大地提高處理效率。二值化的閾值選取有很多方法,主要分為三類:全局閾值法、局部閾值法和動(dòng)態(tài)閾值法。2.5梯度銳化由于需要處理的圖像由拍攝而來,所以在很多情況下字符模糊,對(duì)識(shí)別造成了一定的困難,所以要對(duì)圖像進(jìn)行銳化處理時(shí)模糊的圖像變得清晰,圖像銳化的實(shí)質(zhì)就是增強(qiáng)圖像的邊緣或輪廓,其銳化后的結(jié)果通過微分而使圖像邊緣突出、清晰。圖像銳化的方法有兩種:微分法和高通濾波法。2.6去除離散的雜點(diǎn)噪聲圖像可能在掃描或者傳輸過程中夾帶了噪聲,去噪聲是圖像處理中常用的手法。通常去噪聲用濾波的方法,比如中值濾波、均值濾波。但是那樣的算法不合適用在處理字符這樣目標(biāo)較長的圖像中,因?yàn)樵跒V波的過程中很有可能會(huì)去掉字符本身的像素2.7圖像的傾斜校正因?yàn)樽x進(jìn)來的圖像可能存在傾斜,所以必須對(duì)它進(jìn)行調(diào)整,使得字符都處于同一水平位置,那樣既有利于字符的分割也可以提高字符識(shí)別的準(zhǔn)確率。調(diào)整的算法主要是根據(jù)圖像上左右兩邊的黑色像素的平均高度來的。一般來說,眾多的字符組成的圖像它的左右兩邊的字符像素的高度應(yīng)該是處于水平位置附近的,如果兩邊字符像素的平均位置有比較大的起落,那就說明圖像存在傾斜,需要進(jìn)行調(diào)整。2.8歸一化處理因?yàn)閽呙柽M(jìn)來的圖像中字符大小存在較大的差異,而相對(duì)來說,統(tǒng)一尺寸的字符識(shí)別的標(biāo)準(zhǔn)性更強(qiáng),準(zhǔn)確率自然也更高,標(biāo)準(zhǔn)化圖像就是要把原來各不相同的字符統(tǒng)一到統(tǒng)一尺寸,在系統(tǒng)實(shí)現(xiàn)中是統(tǒng)一到同一高度,然后根據(jù)高度來調(diào)整字符的寬度。3字符分割3.1投影法分割字符傳統(tǒng)的字符分割方法是使用投影法來進(jìn)行分割。字符圖像二值化后,以像素點(diǎn)為單位逐列掃描圖像,累加該列值為1的像素點(diǎn),累積的結(jié)果即為該列的垂直投影。對(duì)圖像的所有列掃描完畢后即得到整幅圖像的垂直投影。在垂直投影直方圖中由于字符的分界處灰度為1的像素點(diǎn)很少,故投影后該處表現(xiàn)為很低的波谷,將統(tǒng)計(jì)值等于零的列最為字符分割的界限。但簡單的垂直投影法也存在很大的缺陷,由于字符中經(jīng)常存在空洞,導(dǎo)致字符的垂直投影有多處波谷,在進(jìn)行分割時(shí)難以依據(jù)波谷來確定字符的分界點(diǎn)。而且當(dāng)獲取的圖像質(zhì)量不高時(shí)二值化后字符會(huì)粘連在一起,這時(shí)垂直投影基本上不會(huì)出現(xiàn)十分明顯的波谷。對(duì)傳統(tǒng)投影法的一種改進(jìn)是使用上下邊緣投影。上下邊緣投影是指字符上邊緣與下邊緣間的距離,其中“字符上邊緣”指以像素為單位沿圖像某列自上而下搜索直到遇到字符區(qū)域的第一個(gè)點(diǎn),“字符下邊緣”指以像素為單位沿圖像某列自下而上搜索直到遇到字符區(qū)域的第一個(gè)點(diǎn),則上下邊緣投影即為字符上邊緣與字符下邊緣兩者之差。3.2連通域法分割字符字符連通域發(fā)既從一定程度上避免了預(yù)處理效果不好帶來的影響,又可以從根本上解決傾斜字符分割的問題。對(duì)字符進(jìn)行研究發(fā)現(xiàn),其根本的特征在于其連通性,無論字符如何傾斜或者變形,連通域這個(gè)根本特征是不會(huì)改變的。如果把書寫的筆畫作為連通域看待,那么數(shù)字和英文字母都是由一個(gè)連通域構(gòu)成,而漢字則是由多個(gè)連通域構(gòu)成,這多個(gè)連通域又由于漢字本身的結(jié)構(gòu)特征相距很近。依據(jù)字符的這一特點(diǎn),我們認(rèn)為連通域方法可以實(shí)現(xiàn)對(duì)字符的精確分割。對(duì)連通域的定義涉及到像素的連通,文中我們采用的是八連通定義。經(jīng)典的連通域方法是連通域生長法,使用的是遞歸算法。首先掃面圖像,找到?jīng)]有標(biāo)記的像素點(diǎn),進(jìn)行標(biāo)記。其次遞歸標(biāo)記該點(diǎn)的臨點(diǎn),如果不存在未標(biāo)記的點(diǎn)則停止并循環(huán)往復(fù)。這種遞歸算法形式很簡單,但效率很差,主要用于并行機(jī)上,這里我們使用了一種新的算法,可以在較小的時(shí)間復(fù)雜度內(nèi)完成連通域生長法的計(jì)算。首先自左向右,自上而下掃描整幅圖像,找到第一個(gè)未標(biāo)記的像素點(diǎn),接著初始化像素隊(duì)列為空,把該像素點(diǎn)標(biāo)記,加入隊(duì)列。其次搜索隊(duì)列頭像素點(diǎn)周圍八領(lǐng)域的像素并標(biāo)記、加入隊(duì)列并刪除隊(duì)頭元素以此重復(fù)直到隊(duì)列空為止。使用該算法可以快速準(zhǔn)確定位圖像中的所有連通域,由于噪聲干擾以及二值化時(shí)可能出現(xiàn)的誤差,我們必須去掉區(qū)域中一些明顯不可能是字符區(qū)域的連通域,例如寬度過大或是連通域中像素的個(gè)數(shù)過小的區(qū)域。再找出圖像中的連通域后,再做出各個(gè)連通域的外接矩形。4圖像處理識(shí)別系統(tǒng)的設(shè)計(jì)及分析4.1總體設(shè)計(jì)本題中通過攝像頭對(duì)視頻顯示界面進(jìn)行信息采集,對(duì)視頻中關(guān)注的數(shù)據(jù)進(jìn)行識(shí)別并記錄。4.2硬件設(shè)計(jì)對(duì)顯示視頻的字符提取與識(shí)別系統(tǒng)的硬件要求為整機(jī)結(jié)構(gòu)設(shè)計(jì)合理,擴(kuò)展能力強(qiáng),易于安裝維護(hù),同時(shí)要求其外形合理,重量輕,在便攜性方面具有一定的優(yōu)勢(shì),此外要求訓(xùn)練系統(tǒng)具有良好的環(huán)境適應(yīng)性,可耐高低溫、抗振、抗沖擊等,運(yùn)行穩(wěn)定可靠。根據(jù)上述要求,在實(shí)際設(shè)計(jì)顯示視頻的字符提取與識(shí)別系統(tǒng)硬件時(shí)采用一體成型技術(shù)構(gòu)建框架,系統(tǒng)的硬件主要有視頻采集裝置、數(shù)據(jù)傳輸線及視頻分析處理設(shè)備三部分組成,視頻采集裝置。該裝置采用靜態(tài)分辨率為1280960、動(dòng)態(tài)分辨率為1280720的視頻采集設(shè)備,最大幀頻為30FPS,輸出的格式靜態(tài)時(shí)為BMP/JPEG,動(dòng)態(tài)時(shí)為AVI/YUY2,感光元件為CMOS。數(shù)據(jù)傳輸線。采用傳輸速率為800Mbps的FireWire(火線)1394傳輸線。視頻分析處理設(shè)備。其芯片組選用IntelQ77ChipsetCPU選用INTELCoreI7-3770,內(nèi)存選用DDR3/4G,顯卡顯存選用1G,顯示屏選用20.1寸液晶顯示器(分辨率16001200),配備2個(gè)USB接口,2個(gè)千兆光纖網(wǎng)口。在選擇硬盤時(shí),考慮到顯示視頻的字符提取與識(shí)別軟件運(yùn)行的可行性問題,采用80G2.5英寸固態(tài)硬盤作為系統(tǒng)安裝盤,采用4T3.5英寸硬盤用于存儲(chǔ)應(yīng)用軟件和必要數(shù)據(jù)。4.3軟件設(shè)計(jì)整個(gè)系統(tǒng)的軟件設(shè)計(jì),主要包括視頻讀取與轉(zhuǎn)碼模塊、預(yù)處理模塊、特征提取模塊及字符識(shí)別模塊四個(gè)主要模塊,通過以上模塊功能的實(shí)現(xiàn),最終得出識(shí)別的結(jié)果。各模式的主要作用為:視頻讀取與轉(zhuǎn)碼模塊:通過MATLAB讀取將視頻讀入系統(tǒng)并將不同壓縮格式的視頻文件轉(zhuǎn)換為MATLAB易于識(shí)別及處理的AVI格式。預(yù)處理模塊:將轉(zhuǎn)碼得到的視頻文件處理為可供特征提取的圖像。特征提取模塊:為了獲取字符間差異的本質(zhì)特征,為字符識(shí)別提供前提條件。字符識(shí)別模塊:選用適用性強(qiáng)的識(shí)別方法,通過MATLAB編程最終實(shí)現(xiàn)本題的字符識(shí)別功能。4.4視頻讀取與轉(zhuǎn)碼模塊隨著科技的飛速發(fā)展,人們對(duì)視頻清晰度的要求越來越高,高質(zhì)量的視頻圖像同時(shí)也會(huì)占用大的存儲(chǔ)空間,另外不同品牌的視頻采集裝置采集到的視頻會(huì)有不同的格式。本系統(tǒng)應(yīng)用的是MATLAB進(jìn)行系統(tǒng)的實(shí)現(xiàn),此軟件主要支持AVI格式的視頻文件,所以系統(tǒng)在軟件設(shè)計(jì)的時(shí)候,設(shè)計(jì)了其它格式的視頻圖像轉(zhuǎn)碼為AVI格式的模塊。4.5預(yù)處理模塊此模塊主要實(shí)現(xiàn)的是對(duì)系統(tǒng)程序讀取到的視頻信息進(jìn)行處理,目的是做好圖像處理前一切準(zhǔn)備工作。此模塊主要包括視頻預(yù)處理和圖像預(yù)處理兩個(gè)部分。視頻鏡頭分割。若干個(gè)鏡頭在一起有序的銜接成為一個(gè)視頻,所以鏡頭也是視頻檢索的基本單元。鏡頭間的銜接也稱為鏡頭的切換,有些視頻為了增加觀看效果有意地進(jìn)行了編輯,為的是鏡頭間切換更加美觀、緊密。鏡頭的切換方式通常分為漸變和突變兩種。顧名思義,漸變就是鏡頭在切換的時(shí)候是一個(gè)逐漸的過程,沒有明顯的跳躍;突變就是一個(gè)鏡頭的結(jié)束直接切換到另一個(gè)鏡頭的開始,兩個(gè)鏡頭間的切換沒有過渡,切換是一個(gè)瞬間完成的過程。鏡頭邊界檢測(cè)是視頻結(jié)構(gòu)化的重要工作,也是代表幀選取的前提。其方法根據(jù)視覺特征的不同,主要有邊緣差值法、像素差值法、壓縮域方法、運(yùn)動(dòng)矢量法等,不同方法的運(yùn)用主要取決于視頻流鏡頭切換方式的不同。代表幀的選取。代表幀概括地表示了所屬鏡頭的內(nèi)容,是視頻流中提取的靜止圖像。通常情況下,一個(gè)鏡頭中的幀所含的內(nèi)容不會(huì)是完全一樣的。代表幀一般要選取最能代表鏡頭的幀,此幀要具有盡可能強(qiáng)的鏡頭概括力。根據(jù)攝像頭采集視頻特征的不同,可以采用時(shí)間自適應(yīng)算法、平均法及大運(yùn)動(dòng)變化鏡頭的代表幀提取方法等算法進(jìn)行代表幀的選取。對(duì)獲取的視頻圖像一般要灰度化、二值化、邊緣檢測(cè)等圖像的預(yù)處理過程。圖像灰度化。AVI格式的視頻為BMP格式的彩色圖像,所以對(duì)提取幀圖像的處理首先要進(jìn)行灰度化、二值化等幀圖像的預(yù)操作。圖像的灰度化又稱灰度的歸一化,顧名思義就是將讀取的圖片由彩色轉(zhuǎn)為灰度顏色,因?yàn)檫x取的代表幀一般都是調(diào)色板內(nèi)容比較復(fù)雜的彩色圖像,這樣很多算法都無法適用于圖像的處理,所以使圖像有一致的灰度尺度,便于下一步對(duì)圖像進(jìn)行二值化處理。圖像二值化。圖像的二值化是數(shù)字識(shí)別中重要的一步,上一步得到的灰度圖像通過二值化將變?yōu)楹诎變煞N顏色的二值圖。這步很大程度地方便了最后的數(shù)字識(shí)別的實(shí)現(xiàn)。關(guān)于圖像的二值化成熟的算法比較多,比如可以在處理時(shí)應(yīng)用特定閾值法,也可應(yīng)用自適應(yīng)閾值法。整體傾斜度調(diào)整。采集到的視頻信息會(huì)因?yàn)橐曨l采集裝置相對(duì)于顯示界面角度的不同,圖像發(fā)生傾斜的問題,這不利于對(duì)圖像中的字符進(jìn)行識(shí)別,所以對(duì)它進(jìn)行傾斜度的調(diào)整是十分必要的,處理后得到的字符均在同一水平位置,這樣便于下部的圖像邊緣檢測(cè),更不利于提高字符識(shí)別的準(zhǔn)確率。(4)圖像邊緣檢測(cè)。在復(fù)雜背景下的文字提取過程中,首先必須將彩色復(fù)雜背景變換為灰度圖像,然后運(yùn)用邊緣檢測(cè)方法提取出邊緣信息。Roberts,Sobel和Canny算子等都屬于常見的邊緣檢測(cè)算子。當(dāng)Roberts算子運(yùn)用到彩色圖像時(shí),與灰度化彩色圖像不同,它是將彩色圖像中兩個(gè)像素的RGB顏色空間的三個(gè)分量(r,g,b)的偶數(shù)距離代入Roberts算子中計(jì)算,確定圖像邊緣,最終獲得文本區(qū)域。在檢測(cè)視頻字符的算法中,利用其邊緣檢測(cè)和線條特征,將Canny算子進(jìn)行改進(jìn),然后應(yīng)用于圖像邊緣檢測(cè)中。一旦候選圖像的邊緣被檢測(cè)出,用連通掃描算法追蹤相鄰的邊緣像素,形成線條,然后過濾線條,再將相鄰的線條聚集起來,從而候選文字區(qū)域獲得,最后依照文本特征確定文本區(qū)域。各個(gè)尺度下沿著邊界的模極大曲線是由沿邊界方向?qū)⒃摮叨认碌倪吘夁B接起來而獲得,通過檢測(cè)二維小波變換的模極大點(diǎn)可確定圖像的邊緣點(diǎn)。當(dāng)圖像經(jīng)小波變換分解成多個(gè)尺度,對(duì)每個(gè)尺度上的成分采用相應(yīng)的時(shí)域或空域取樣步長,能不斷地聚焦到對(duì)象的任意微小細(xì)節(jié)。正因?yàn)樾〔ㄗ儞Q所具備的這種多尺度特性,恰好將其用于檢測(cè)圖像邊緣。字符歸一化處理。圖像中字符的大小一般是不同的,視頻采集裝置與顯示界面距離的不同,也會(huì)造成字符在被系統(tǒng)識(shí)別的時(shí)候出現(xiàn)大小不一的問題,所以有必要對(duì)字符進(jìn)行歸一化的調(diào)整。顧名思義,結(jié)字符進(jìn)行歸一化就是將像素值不同的字符歸一化為相同的尺寸,在本系統(tǒng)中指的是歸一化為相同的寬度和高度。本系統(tǒng)設(shè)定的字符歸一化值為1625個(gè)像素。4.6圖像特征提取模塊特征提取為的是獲取字符間差異的本質(zhì)特征。在整個(gè)字符的識(shí)別過程中,需要將圖像的固有屬性或本質(zhì)特征進(jìn)行量測(cè),形成數(shù)值化的特征向量。圖像特征的選擇和提取直接影響識(shí)別過程。如果選擇的特征對(duì)不同的類別有大的區(qū)分度,這樣設(shè)計(jì)的分類器的性能就會(huì)比較好,這樣會(huì)直接影響到字符識(shí)別的效果。根據(jù)不同的情況會(huì)選擇不同的特征提取方法,現(xiàn)階段使用較為普遍的方法有:骨架特征提取法、逐像素特征提取法及弧度梯度特征提取法等。4.7字符識(shí)別模塊復(fù)雜背景就是指圖像的背景中蘊(yùn)含著豐富紋理信息。圖像中的字符有時(shí)候是嵌入在紋理之中的,有時(shí)候字符本身就是一種紋理,它所具備的信息包括可能出現(xiàn)的位置、字體、大小和顏色也不盡相同,而且這些信息在字符定位前都是不知道的。一般的字符識(shí)別的方法都有很強(qiáng)的局限性,當(dāng)識(shí)別的樣本發(fā)生一定的變形或環(huán)境發(fā)生變化等干擾時(shí),幾種方法的識(shí)別準(zhǔn)確率和抗干擾性都不是很理想?;贐P神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別方法對(duì)于復(fù)雜的視頻數(shù)字識(shí)別環(huán)境有較強(qiáng)的自適應(yīng)性,該方法的決策區(qū)域由自身的學(xué)習(xí)機(jī)制形成,不需要事先給出判別函數(shù)和經(jīng)驗(yàn)知識(shí),神經(jīng)元的拓?fù)浣Y(jié)構(gòu)決定了此方法的特征,通過訓(xùn)練得到可以進(jìn)行識(shí)別的映射。另外神經(jīng)網(wǎng)絡(luò)的基本成果幾乎均被MATLAB所包括,所以在應(yīng)用MATLAB實(shí)現(xiàn)本系統(tǒng)的設(shè)計(jì)中,采用神經(jīng)網(wǎng)絡(luò)的字符識(shí)別方法可以很大程度地減少工作量。鑒于基于BP神經(jīng)網(wǎng)絡(luò)在字符識(shí)別中的特點(diǎn)優(yōu)勢(shì),本系統(tǒng)識(shí)別模塊采用此方法實(shí)現(xiàn)。神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、電子元件、處理元件及光電元件等處理單元互連組成的網(wǎng)絡(luò)。它反映的基本特征類似于人腦的功能,但它只是人腦的某種簡化、抽象與模擬,并不是人腦的真實(shí)描寫。神經(jīng)元間的互相作用實(shí)現(xiàn)了網(wǎng)絡(luò)的信息處理。對(duì)不同字號(hào)的印刷體數(shù)字在清晰的背景下進(jìn)行識(shí)別,基于BP神經(jīng)網(wǎng)絡(luò)的方法,能取得較好的識(shí)別率。此方法也可用于文本分類、手寫體數(shù)字的識(shí)別等領(lǐng)域。用此方法進(jìn)行字符的識(shí)別,視頻幀圖像首先要進(jìn)行預(yù)處理,之后要對(duì)圖像的特征進(jìn)行提取,接著根據(jù)需要識(shí)別的實(shí)際設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò),將事先得到的特征向量輸入神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)會(huì)進(jìn)行迭代訓(xùn)練一直到網(wǎng)絡(luò)穩(wěn)定。另外也要相應(yīng)地處理測(cè)試的圖像,網(wǎng)絡(luò)訓(xùn)練完成后,把得到的特征向量輸入到神經(jīng)網(wǎng)絡(luò)中,對(duì)字符進(jìn)行識(shí)別,并記錄識(shí)別得到的結(jié)果。4.8樣本字符識(shí)別的過程樣本以及待識(shí)別的樣本的處理過程。首先二值化,閾值100時(shí)的效果圖。第一步:檢測(cè)圖像Blob塊,去掉圖像左上端的黑快,如圖1。方法:直接對(duì)二值圖像進(jìn)行從左上開始的像素掃描,連續(xù)的黑色像素值,遇到白像素時(shí)停止掃描,然后對(duì)掃描遇到的黑色像素點(diǎn)賦值為白色像素。圖1樣本字符識(shí)別第二步:確定字符在豎直方向上的跨度:將圖像對(duì)豎直方向上做投影,確定豎直方向上的像素區(qū)間,根據(jù)區(qū)間,可以將字符分成三塊。這樣得到豎直方向的區(qū)域。水平區(qū)域類似處理:第三步:針對(duì)序列號(hào)進(jìn)行細(xì)分割,做向下方向的投影,由于數(shù)字和漢子的寬度不一樣,通過閾值可以區(qū)分出一個(gè)一個(gè)的數(shù)字。圖2閾值100時(shí)的效果圖第四步:對(duì)分割出來的數(shù)字在分別做水平方向和垂直方向的一階差分,進(jìn)一步得到單個(gè)字符區(qū)域的圖像。這里比如可能會(huì)出現(xiàn)中間斷裂的情況,這時(shí)候可以通過先驗(yàn)知識(shí),數(shù)字的大致長寬作為閾值,分割得到3第五步:對(duì)要識(shí)別的數(shù)字進(jìn)行樣本歸一化處理,比如都取20*10的像素比。圖3將樣本分成8*4共32塊第六步:對(duì)歸一化后的待識(shí)別樣本提取特征,這里由于識(shí)別的內(nèi)容比較簡單,直接采取像素值作為特征即可,這里的方式很多種,比如采用將樣本分成8*4共32塊,統(tǒng)計(jì)每一塊中的黑色像素所占的每一塊中總像素值的比率,作為特征值,這樣,每一個(gè)待識(shí)別的樣本就有一組一行32列的數(shù)組作為特征。第七步:樣本制作以及樣本的庫的處理:樣本的前期處理和對(duì)待測(cè)樣本的處理思路一樣,同上4-6步。這里樣本集的大小盡量為待測(cè)樣本特征的5—10倍。識(shí)別數(shù)字3,我們制作32*5個(gè)的樣本集,10個(gè)數(shù)字就是10*32*5個(gè)樣本集。第八步:對(duì)樣本集和待測(cè)的樣本提取的特征進(jìn)行PCA主成分分析,根據(jù)貢獻(xiàn)率提取主要的特征即前m個(gè)分量。第九步:將待測(cè)樣本與樣本集比較,做識(shí)別。5字符識(shí)別識(shí)別過程首先使識(shí)別設(shè)備學(xué)習(xí)、記憶將要辨識(shí)字符的特征,使這些特征成為識(shí)別系統(tǒng)自身的知識(shí),然后再利用這些先驗(yàn)知識(shí)對(duì)輸入圖像進(jìn)行判決,得到字符的識(shí)別結(jié)果。字符的特征不僅僅局限于平而上的點(diǎn)陣位置信息,在頻率空間、投影空間,甚至語義空間字符都有各自的特征。這些特征在識(shí)別字符時(shí)又有各自的特點(diǎn)及優(yōu)勢(shì)。根據(jù)識(shí)別字符所采用具體特征的不同便衍生出了不同的識(shí)別技術(shù)。通常,根據(jù)不同的技術(shù)策略,識(shí)別方法可以分為如下3類:統(tǒng)計(jì)特征字符識(shí)別技術(shù)、結(jié)構(gòu)字符識(shí)別技術(shù)和基于神經(jīng)網(wǎng)絡(luò)的識(shí)別技術(shù)。5.1統(tǒng)計(jì)特征字符識(shí)別技術(shù)這種識(shí)別方法一般選取同一類字符中共有的、相對(duì)穩(wěn)定的并且分類性能好的統(tǒng)計(jì)特征作為特征向量。常用的統(tǒng)計(jì)特征有字符二維平而的位置特征、字符在水平或者垂直方向投影的直方圖特征、矩特征和字符經(jīng)過頻域變換或其它形式變換后的特征等。大量字符的統(tǒng)計(jì)特征經(jīng)過提取、學(xué)習(xí)、分類形成關(guān)于字符原型知識(shí),構(gòu)成識(shí)別字符的模板信息,這些模板信息存儲(chǔ)在識(shí)別系統(tǒng)中。未知圖像在識(shí)別時(shí)首先提取相同的統(tǒng)計(jì)特征,然后與識(shí)別系統(tǒng)存儲(chǔ)的字符原型知識(shí)匹配比較,根據(jù)比較結(jié)果確定字符最終分類,達(dá)到識(shí)別的目的。衡量匹配程度的指標(biāo)常采用各種向量間的距離指標(biāo),例如歐式距離、絕對(duì)值距離等,為了表達(dá)方式的統(tǒng)一,以這些距離為基礎(chǔ),以得到歸一化匹配程度。其中,基于字符像素點(diǎn)平而分布的識(shí)別算法,因?yàn)樗惴ê唵?、?shí)現(xiàn)方便的特點(diǎn)而成為最常用的匹配方法。這種算法一般先將字符圖像歸一化為模板的幾何維數(shù),然后根據(jù)像素點(diǎn)的位置逐個(gè)匹配,求出模板和圖像的某種距離指標(biāo)。由于要對(duì)每個(gè)像素點(diǎn)逐個(gè)匹配,造成算法實(shí)現(xiàn)計(jì)算量大,且對(duì)噪音、字符的偏移和變形非常敏感,因此對(duì)輸入的待識(shí)別圖像要求較高。5.2結(jié)構(gòu)特征字符識(shí)別技術(shù)實(shí)際應(yīng)用中,更一般的情況是相近字符的識(shí)別和像手寫字符那樣字型變化很大的字符的識(shí)別,因此,發(fā)展出了基于結(jié)構(gòu)的字符識(shí)別技術(shù)。這種技術(shù)首先要提取字符的結(jié)構(gòu)。根據(jù)識(shí)別策略的不同,結(jié)構(gòu)的選擇也有所不同??梢赃x擇字根、筆劃,也可以選擇比筆劃更小的筆段。提取出的結(jié)構(gòu)又稱作字符的子模式、部件、基元,所有基元按照某種序排列起來就成了字符的特征?;诮Y(jié)構(gòu)的文字識(shí)別實(shí)際上是將字符映射到了基元組成的結(jié)構(gòu)空間進(jìn)行識(shí)別。識(shí)別過程是在提取基元的基礎(chǔ)上,利用形式語言和自動(dòng)機(jī)理論,采取詞法分析、樹匹配、圖匹配和知識(shí)推理的方法分析字符結(jié)構(gòu)的過程。常用的結(jié)構(gòu)特征有:筆劃的走向、孤立的點(diǎn),以及是否含有閉合筆畫等。由于漢字自身具有很強(qiáng)的結(jié)構(gòu)性,利用漢字的結(jié)構(gòu)特點(diǎn)進(jìn)行識(shí)別同樣可以達(dá)到很好的效果。傳統(tǒng)識(shí)別方法中,對(duì)輸入圖像采取統(tǒng)一分辨率進(jìn)行識(shí)別,分辨率由系統(tǒng)的計(jì)算和存儲(chǔ)資源先期決定,造成了系統(tǒng)資源的浪費(fèi)和識(shí)別效率的降低。5.3基于神經(jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù)迄今為止,人類識(shí)別文字的能力遠(yuǎn)遠(yuǎn)勝于計(jì)算機(jī),無論是變形的字符、模糊的字符,甚至是破損的字符,人類都能很好地識(shí)別?;谌斯ど窠?jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù)目的就是力圖通過對(duì)人腦功能和結(jié)構(gòu)的模擬來實(shí)現(xiàn)字符的高效識(shí)別。經(jīng)過近幾年的迅速發(fā)展,人工神經(jīng)網(wǎng)絡(luò)在字符識(shí)別方而得到了廣泛的應(yīng)用。在OCR系統(tǒng)中,人工神經(jīng)網(wǎng)絡(luò)主要充當(dāng)分類器的功能。網(wǎng)絡(luò)的輸入是字符的特征向量,輸出是字符的分類結(jié)果,即識(shí)別結(jié)果。由于識(shí)別策略的不同和對(duì)問題理解水平的限制,輸入的特征向量所包含的信息常常是冗余的,甚至是矛盾的。
結(jié)論本課題以印刷體字符為研究對(duì)象,通過研究圖像處理、字符分割、字符識(shí)別方法,探究了整個(gè)系統(tǒng)的實(shí)現(xiàn)方法。這一課題對(duì)減輕人工識(shí)別的勞動(dòng)強(qiáng)度,提高識(shí)別速度及識(shí)別準(zhǔn)確率,適應(yīng)計(jì)算機(jī)數(shù)據(jù)輸入的要求具有積極的促進(jìn)作用。參考文獻(xiàn)[1]陳虎,周朝輝,王守尊.HYPERLINK"/kcms/detail/detail.aspx?filename=GCTX200402020&dbcode=CJFQ&dbname=CJFD2004&v="\t"/kcms/detail/frame/_blank"基于數(shù)學(xué)形態(tài)學(xué)的圖像去噪方法研究[J].工程圖學(xué)學(xué)報(bào).2004(02)[2]呂同富,劉寶軍,畢秀芝.HYPERLINK"/kcms/detail/detail.aspx?filename=JSJZ200304031&dbcode=CJFQ&dbname=CJFD2003&v="\t"/kcms/detail/frame/_blank"圖像邊緣提取的簡單方法及應(yīng)用[J].計(jì)算機(jī)仿真.2003(04)[3]饒秀勤,應(yīng)義斌.HYPERLINK"/kcms/detail/detail.aspx?filename=NYGU200301033&dbcode=CJFQ&dbname=CJFD2003&v="\t"/kcms/detail/frame/_blank"基于機(jī)器視覺的水果尺寸檢測(cè)誤差分析[J].農(nóng)業(yè)工程學(xué)報(bào).2003(01)[4]關(guān)貞珍,霍曉靜,錢東平,楊世鳳.HYPERLINK"/kcms/detail/detai
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度建筑工地臨時(shí)用工人員工資支付與爭(zhēng)議調(diào)解協(xié)議3篇
- 應(yīng)急管理概論 教學(xué)大綱
- 企業(yè)流程管理培訓(xùn)
- 二零二五年度廣告銷售渠道拓展合同范本3篇
- ChatGPT助推學(xué)校教育數(shù)字化轉(zhuǎn)型-人工智能時(shí)代學(xué)什么與怎么教
- 航空母艦發(fā)展史
- 炒菜放料知識(shí)培訓(xùn)課件
- 山西省朔州市懷仁市2024-2025學(xué)年七年級(jí)上學(xué)期1月期末生物試題(無答案)
- Unit6 Shopping A let's spell (說課稿)-2023-2024學(xué)年人教PEP版英語四年級(jí)下冊(cè)
- 第16章 分式 評(píng)估測(cè)試卷(含答案)2024-2025學(xué)年數(shù)學(xué)華東師大版八年級(jí)下冊(cè)
- 2024年個(gè)人汽車抵押借款合同范本(四篇)
- 春聯(lián)課件教學(xué)課件
- 北師大版五年級(jí)上冊(cè)脫式計(jì)算400道及答案
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 地理試題
- 8《美麗文字 民族瑰寶》教學(xué)設(shè)計(jì)2023-2024學(xué)年統(tǒng)編版道德與法治五年級(jí)上冊(cè)
- 2024年工業(yè)廢水處理工(初級(jí))技能鑒定考試題庫(含答案)
- 2024新滬教版英語初一上單詞表(英譯漢)
- NB/T 11446-2023煤礦連采連充技術(shù)要求
- 人教版八年級(jí)上冊(cè)生物期末必刷15道識(shí)圖題
- SY-T 6966-2023 輸油氣管道工程安全儀表系統(tǒng)設(shè)計(jì)規(guī)范
- 學(xué)生公寓管理員培訓(xùn)
評(píng)論
0/150
提交評(píng)論