基于matlab的文字識(shí)別算法課程設(shè)計(jì)_第1頁(yè)
基于matlab的文字識(shí)別算法課程設(shè)計(jì)_第2頁(yè)
基于matlab的文字識(shí)別算法課程設(shè)計(jì)_第3頁(yè)
基于matlab的文字識(shí)別算法課程設(shè)計(jì)_第4頁(yè)
基于matlab的文字識(shí)別算法課程設(shè)計(jì)_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余19頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙摘要本課程設(shè)計(jì)主要運(yùn)用MATLAB的仿真平臺(tái)設(shè)計(jì)進(jìn)行文字識(shí)別算法的設(shè)計(jì)與仿真。也就是用于實(shí)現(xiàn)文字識(shí)別算法的過(guò)程。從圖像中提取文字屬于信息智能化處理的前沿課題,是當(dāng)前人工智能與模式識(shí)別領(lǐng)域中的研究熱點(diǎn)。由于文字具有高級(jí)語(yǔ)義特征,對(duì)圖片內(nèi)容的理解、索引、檢索具有重要作用,因此,研究圖片文字提取具有重要的實(shí)際意義。又由于靜態(tài)圖像文字提取是動(dòng)態(tài)圖像文字提取的基礎(chǔ),故著重介紹了靜態(tài)圖像文字提取技術(shù)。隨著計(jì)算機(jī)科學(xué)的飛速發(fā)展,以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介,在圖像中,文字信息(如新聞標(biāo)題等字幕)包含了豐富的高層語(yǔ)義信息,提取出這些文字,對(duì)于圖像高層語(yǔ)義的理解、索

2、引和檢索非常有幫助。關(guān)鍵字:文字識(shí)別算法;靜態(tài)圖像文字提取;檢索沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙目錄1課程設(shè)計(jì)目的32課程設(shè)計(jì)要求43相關(guān)知識(shí)54課程設(shè)計(jì)分析85系統(tǒng)實(shí)現(xiàn)96系統(tǒng)測(cè)試與分析176.1文字識(shí)別算法仿真結(jié)果176.2基于字符及單詞的識(shí)別196.2.1基于字符的識(shí)別196.2.2基于單詞的識(shí)別206.3現(xiàn)存算法的問(wèn)題216.3.1大多文字識(shí)別方法依賴于人工定義的特征216.3.2脫離上下文的字符識(shí)別易造成顯著的歧義216.3.3簡(jiǎn)單的單詞整體識(shí)別有著較大的局限性226.3.4訓(xùn)練樣本制作繁瑣227參考文獻(xiàn)23ii沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙1圖像文字提取又分為動(dòng)態(tài)圖像文字提取和靜態(tài)圖像文字提

3、取兩種,其中,靜態(tài)圖像文字提取是動(dòng)態(tài)圖像文字提取的基礎(chǔ),其應(yīng)用范圍更為廣泛,對(duì)它的研究具有基礎(chǔ)性,所以本文主要討論靜態(tài)圖像的文字提取技術(shù)。靜態(tài)圖像中的文字可分成兩大類:一種是圖像中場(chǎng)景本身包含的文字,稱為場(chǎng)景文字;另一種是圖像后期制作中加入的文字,稱為人工文字,如右圖所示。場(chǎng)景文字由于其出現(xiàn)的位置、小、顏色和形態(tài)的隨機(jī)性,一般難于檢測(cè)和提取;而人工文字則字體較規(guī)范、大小有一定的限度且易辨認(rèn),顏色為單色,相對(duì)與前者更易被檢測(cè)和提取,又因其對(duì)圖像內(nèi)容起到說(shuō)明總結(jié)的作用,故適合用來(lái)做圖像的索引和檢索關(guān)鍵字。對(duì)圖像中場(chǎng)景文字的研究難度大,目前這方面的研究成果與文獻(xiàn)也不是很豐富,本文主要討論圖像中人工文

4、字提取技術(shù)。靜態(tài)圖像中文字的特點(diǎn)靜態(tài)圖像中文字(本文特指人工文字,下同)具有以下主要特征:(1)文字位于前端,且不會(huì)被遮擋;(2)文字一般是單色的;(3)文字大小在一幅圖片中固定,并且寬度和高度大體相同,從滿足人眼視覺(jué)感受的角度來(lái)說(shuō),圖像中文字的尺寸既不會(huì)過(guò)大也不會(huì)過(guò)?。?4)文字的分布比較集中,排列一般為水平方向或垂直方向;(6)多行文字之間,以及單行內(nèi)各個(gè)字之間存在不同于文字區(qū)域的空隙。在靜態(tài)圖片文字的檢測(cè)與提取過(guò)程中,一般情況下都是依據(jù)上述特征進(jìn)行處理的。數(shù)字圖象處理靜態(tài)圖像文字提取一般分為以下步驟:文字區(qū)域檢測(cè)與定位、文字分割與文字提取、文字后處理。其流程如圖所示。圖1靜態(tài)文字處理流程

5、圖沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙2在高速發(fā)展的計(jì)算機(jī)軟硬件技術(shù)的支撐下,多媒體技術(shù)的發(fā)展非常迅速,計(jì)算機(jī)技術(shù)從傳統(tǒng)的辦公和計(jì)算逐漸向人工智能和數(shù)字娛樂(lè)發(fā)展。在人工智能技術(shù)中,對(duì)環(huán)境信息的拾取處理和響應(yīng)顯得尤為重要,其中文本信息占環(huán)境信息很大一部分,為了使人工智能系統(tǒng)更為完善,則需要系統(tǒng)能夠像人眼一樣對(duì)周圍環(huán)境信息進(jìn)行理解,尤其是環(huán)境信息中的文本信息。實(shí)驗(yàn)表明,人類日常生活中,50%以上的信息量來(lái)源于眼睛捕捉的周圍環(huán)境的圖像,人眼可以快速捕捉到圖像中感興趣的信息,而對(duì)于計(jì)算機(jī)來(lái)說(shuō),一幅圖像僅僅是雜亂的數(shù)據(jù),如何讓計(jì)算機(jī)想人眼一樣快速讀取圖像中的信息并進(jìn)行分類及檢索等相應(yīng)處理,一直是多年來(lái)

6、計(jì)算機(jī)視覺(jué)和模式識(shí)別研究者們探索的問(wèn)題,如果能很好解決這些問(wèn)題,能給工業(yè)生產(chǎn)及國(guó)防科技帶來(lái)巨大的改進(jìn)。文字是信息存儲(chǔ)和傳遞的重要載體,在很多由攝像設(shè)備拍攝的圖片中,都存在或多或少的文字,比如路牌、店名、車站牌、商品簡(jiǎn)介等,識(shí)別圖片中的文字對(duì)計(jì)算機(jī)理解圖像的整體內(nèi)容有非常重大的作用。如何將圖片中的文字信息抽象出來(lái)形成具有完整語(yǔ)義的信息,再將其表達(dá)出來(lái)用于信息傳遞,從而輔助人類的生產(chǎn)和生活是研究計(jì)算機(jī)視覺(jué)的學(xué)者們多年來(lái)一直致力于解決的問(wèn)題。研究如何對(duì)自然場(chǎng)景圖片中的字符進(jìn)行識(shí)別,提取出有用信息,在獲取圖片文本信息的各個(gè)領(lǐng)域都有極大的商業(yè)價(jià)值。場(chǎng)景文字識(shí)別在日常生活也有著重要的地位,例如車牌的識(shí)別,

7、盲人對(duì)周邊環(huán)境信息的獲取、圖書(shū)館管理的數(shù)字化和高效化,以及網(wǎng)絡(luò)中對(duì)指定的內(nèi)容的圖像和視頻的檢索等。自然場(chǎng)景文本識(shí)別,就是將提取出來(lái)的自然場(chǎng)景圖片中的進(jìn)行識(shí)別,提取出信息用于進(jìn)一步的處理。在對(duì)場(chǎng)景文字識(shí)別的研究中,獲取自然場(chǎng)景圖片時(shí)候,由于背景物體、光線、陰影、拍攝角度引起的圖片背景千變?nèi)f化,攝像器材的精度、拍攝人員的技術(shù)等軟硬件的不同為拍攝同樣的自然場(chǎng)景圖片也帶來(lái)了相當(dāng)大的差別,被拍攝的圖片中包含的文字大小、顏色、書(shū)寫(xiě)風(fēng)格的各不相同等因素都為自然場(chǎng)景文字識(shí)別的實(shí)現(xiàn)增加的相當(dāng)?shù)碾y度。需要對(duì)自然場(chǎng)景圖片中的識(shí)別首先需要對(duì)圖片中的文本進(jìn)行定位,然后再對(duì)己經(jīng)精確定位的圖片進(jìn)行識(shí)別。文本定位技術(shù)作為整個(gè)

8、自然場(chǎng)景文本信息獲取系統(tǒng)中的基礎(chǔ)技術(shù),已經(jīng)得到較好發(fā)展,相同地,文本識(shí)別技術(shù)在近年來(lái)也得到了比較好的發(fā)展,但是由于文本的復(fù)雜性和隨機(jī)性,較文本定位技術(shù)來(lái)說(shuō),文本識(shí)別技術(shù)發(fā)展較為緩慢。沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙3相關(guān)知識(shí)1 .在Matlab中調(diào)用i1=imread(8.jpg;可得到原始圖像,如圖所示:8圖2文字識(shí)別算法調(diào)制器模型2 .調(diào)用i2=rgb2gray(i1),則得到了灰度圖像,如圖所示:8圖3灰度圖像調(diào)用a=size(i1);b=size(i2);可得到:a=3,b=2即三維圖像變成了二維灰度圖像3 .調(diào)用i3=(i2=thresh)洪中thresh為門(mén)限,介于圖4所示之

9、間fOj1240end12.調(diào)用以下代碼創(chuàng)建字符集:code=char(由于作者水平有限書(shū)中難免存在缺點(diǎn)和疏漏之處懇請(qǐng)讀批評(píng)指正,。);將創(chuàng)建的字符集保存在一個(gè)文件夾里面,以供匹配時(shí)候調(diào)用。13.字符匹配采用模板匹配算法:將現(xiàn)有字符逐個(gè)與模板字符相減,認(rèn)為相減誤差最小的現(xiàn)有字符與該模板字符匹配。沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙丹(義7(協(xié)5(/47)=8.$1用仆打火/?心4一十)犯下2-*-d-lihLiI-*-d-lihLiIt 聚#.Id.Id 圖8字符匹配也就是說(shuō),字符A與模板字符T1更相似,我們可以認(rèn)為字符集中的字符T2就是字符Ao經(jīng)模板匹配。14、調(diào)用以下代碼,將字符放入ne

10、wtxt.txt文本:new=newtxt.txt;c=fopen(new,,a+,;fprintf(c,%B,Code(1:cnum);fclose(c);假說(shuō):字符.!=100J00100100,模板字符.=1100ri00,模板字符了二1001V00L沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙41、算法具有局限性。對(duì)于左右結(jié)構(gòu)的字符(如:川)容易造成誤識(shí)別,“川”字將會(huì)被識(shí)別成三部分。當(dāng)圖片中文字有一定傾斜角度時(shí),這將造成識(shí)別困難。2、模板匹配效率低。對(duì)于處理大小為m&TImes;m的字符,假設(shè)有n個(gè)模板字符,則識(shí)別一個(gè)字符至少需要m&TImes;mXnX2次運(yùn)算,由于漢字有

11、近萬(wàn)個(gè),這將使得運(yùn)算量十分巨大!此次字符識(shí)別一共花了2.838秒。3、伸縮范圍比較小。對(duì)于受污染的圖片,轉(zhuǎn)換成二值圖像將使字符與污染源混合在一起。對(duì)于具體的圖片,需反復(fù)選擇合適的thresh進(jìn)行二值化處理,甚至在處理之前必須進(jìn)行各種濾波。沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙5文字識(shí)別算法仿真代碼如下:functionStroke=StrDetect01(LeftD,Y1,Y2,ST,PT)%ST為結(jié)構(gòu)閾值,為了指定高度和寬度結(jié)構(gòu)變化的不同SL=0;SR=0;SV=0;Count=0;%PT=5;%突變的閾值Str=T;%T表示結(jié)構(gòu)未定,Str用于保存當(dāng)前的基本結(jié)構(gòu)Stroke=T;%用于保存

12、基本結(jié)構(gòu)Range=Y2-Y1+1;%字符的寬度或者高度f(wàn)orj=Y1:Y2Count=Count+1;if(abs(LeftD(j)PT)if(LeftD(j)0)SR=SR+1;elseSV=SV+1;endendelse%檢測(cè)到突變的決策if(Count=fix(Range/4)+1)%設(shè)定字符輪廓可能發(fā)生的突變范圍if(SL=3)&(SR=3)Str=C;elseif(SV=2*(SL+SR)&(max(SL,SR)3)|(min(SL,SR)SR)&(SL=0.5*SV)&(SR(SR+SV)沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙Str=L;elsei

13、f(SRSL)&(SR=0.5*SV)&(SL(SR+SV)Str=R;elseif(max(SL,SR)=3)&(min(SL,SR)=2)Str=C;endendendendendStroke=StrokeStr;endif(j=2+Y1)&(j=fix(Range/4)+1)%發(fā)生突變后,剩余部分可能無(wú)法形成字符結(jié)構(gòu)if(SL=ST)&(SR=ST)Str=C;elseif(SV=2*(SL+SR)&(max(SL,SR)3)|(min(SL,SR)SR)&(SL=0.5*SV)&(SR=(SR+SV)Str=L;沈陽(yáng)理工大

14、學(xué)10沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙elseif(SRSL)&(SR=0.5*SV)&(SL=(SR+SV)Str=R;elseif(max(SL,SR)=3)&(min(SL,SR)=2)Str=C;endendendendendStroke=StrokeStr;functionNumeral=Recognition(StrokeTop,StrokeLeft,StrokeRight,StrokeBottom,Comp)%采用四邊的輪廓結(jié)構(gòu)特征和筆劃統(tǒng)計(jì)(僅針對(duì)0和8)識(shí)別殘缺數(shù)字%Comp是用于識(shí)別0和8的底部補(bǔ)充信息StrT=T;StrL=T;StrR=T;StrB=T

15、;RStr=T;%用于保存識(shí)別出的數(shù)字tempXT=size(StrokeTop);tempXL=size(StrokeLeft);tempXR=size(StrokeRight);%tempXB=size(StrokeBottom);forTi=2:XTif(StrokeTop(Ti)=C)if(XL=2)&(XR=2)if(Comp=3)|(StrokeBottom(2)=C)&(StrokeLeft(2)=C)&(StrokeRight(2)=C)RStr=8;elseRStr=0;end沈陽(yáng)理工大學(xué)11沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙elseif(StrokeLeft

16、(XL)=L)&(StrokeLeft(XL-1)=P)&(StrokeLeft(2)=C)RStr=2;elseif(StrokeLeft(2)=C)&(XL=3)&(StrokeLeft(3)=P)RStr=9;elseif(XL2)forLi=2:XLif(StrokeLeft(Li)=P)RStr=3;endendelseif(XL=2)forRi=2:XR-1if(StrokeRight(Ri)=P)RStr=6;endendendendendendendelseif(StrokeTop(Ti)=V)%Topif(XR=2)&(StrokeRi

17、ght(2)=C)%數(shù)字3右端只有一個(gè)結(jié)構(gòu)RStr=3;elseif(XR=2)&(StrokeLeft(2)=P)|(StrokeLeft(3)=P)|(StrokeLeft(XL)=V)RStr=7;elseif(XR2)forRi=2:XRif(StrokeRight(Ri)=P)沈陽(yáng)理工大學(xué)12沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙RStr=5;endendendendI0=imread(8.jpg);%必須為二值圖像I=im2bw(I0,0.4);y0 x0=size(I);Range=sum(I);Hy=0;forj=1:y0if(Range(j)=1)Hy=Hy+1;endendRa

18、ngeX=sum(I);Wx=0;fori=1:x0if(RangeX(i)=1)Wx=Wx+1;endendAmp=24/Hy;%將文字圖像歸一化到24像素點(diǎn)的高度。I=imresize(I,Amp);yx=size(I);%I=bwmorph(I,skel,Inf);%I=I;tic%=基本結(jié)構(gòu)=%第一類:豎(V);左斜(L);右斜(R);突變(P)%第二類:左半圓弧(C);右半圓弧(Q)13沈陽(yáng)理工大學(xué)14沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙%的三類:結(jié)構(gòu)待定(T);%=%Left=zeros(1,y);%左端輪廓檢測(cè)forj=1:yi=1;while(i=x)&(I(j,i)

19、=1)i=i+1;endif(i=x)Left(j)=i;endendforj=1:y-1LeftD(j)=Left(j+1)-Left(j);end%=結(jié)構(gòu)特征提取=%j=1;while(Left(j)1)&(jy)j=j+1;endY1=j;j=y;while(Left(j)1)j=j-1;endY2=j-1;%去掉急劇變化的兩端%=右邊=%Right=zeros(1,y);%左端輪廓檢測(cè)forj=1:yi=x;while(i=1)&(I(j,i)=1)15沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙i=i-1;endif(i=1)Right(j)=i;endendforj=1:

20、y-1RightD(j)=Right(j+1)-Right(j);end%=%Top=zeros(1,x);%頂端輪廓檢測(cè)fori=1:xj=1;while(j=y)&(I(j,i)=1)j=j+1;endif(j=y)Top(i)=j;endendfori=1:x-1TopD(i)=Top(i+1)-Top(i);end%=%i=1;while(Top(i)1)&(ix)i=i+1;endX1=i;i=x;while(Top(i)1)16沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙i=i-1;endX2=i-1;%去掉急劇變化的兩端%=%Bottom=zeros(1,x);%底部輪

21、廓檢測(cè)fori=1:xj=y;while(j=1)&(I(j,i)=1)j=j-1;endif(j=1)Bottom(i)=j;endendfori=1:x-1BottomD(i)=Bottom(i+1)-Bottom(i);end%=數(shù)字1的寬度特征=%Width=zeros(1,y);forj=1:yWidth(j)=Right(j)-Left(j);endW=m沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙6系統(tǒng)測(cè)試與分析6.1文字識(shí)別算法仿真結(jié)果識(shí)別原圖如圖9(a)所示,仿真結(jié)果如圖9(b)所示。圖9(a)識(shí)別原圖圃FiX文編查捶工匐副楷 I*17沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙?jiān)慌c寶,母|

22、B目|口輪廓18181616141412121010&6&64 42 20 0D D5 5101520251520259090事Fiqar#14口XP豆餐由湍樂(lè)舊展 2總4 4胤 ftj)fll(Dlftj)fll(DlflnWflnWWH)WH)18沈陽(yáng)理工大學(xué)沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙圖9(b)仿真結(jié)果6.2基于字符及單詞的識(shí)別6.2.1基于字符的識(shí)別Strokelets:ALearnedMulti-scaleRepresentationforSceneTextRecognitionCVPR2014)通過(guò)聚類圖像塊來(lái)學(xué)習(xí)中層筆畫(huà)特征,然后使用霍夫(HOG)投票算法檢測(cè)字符。

23、在筆畫(huà)特征和HOG特征的基礎(chǔ)上,使用隨機(jī)森林分類器來(lái)進(jìn)行字符分類。End-to-endscenetextrecognition(2011)借鑒計(jì)算機(jī)視覺(jué)通用的目標(biāo)檢測(cè)方法,提出了一個(gè)新的文本識(shí)別系統(tǒng)。他們利用字符置信度以及字符之間的空間約束關(guān)系,給出最可能的檢測(cè)和識(shí)別結(jié)果。但是該算法只能用于水平方向排列的文本的檢測(cè)識(shí)別。End-to-EndTextRecognitionwithHybridHMMMaxoutModels(2013)和PhotoOCR:ReadingTextinUncontrolledConditions(2013)等人通過(guò)無(wú)監(jiān)督的二分類技術(shù)或有監(jiān)督的分類器,將單詞圖像分割為潛在

24、的字符區(qū)域。End-to-EndTextRecognitionwithHybridHMMMaxoutModels(2013)使用一種復(fù)雜的,包含分割、矯正以及字符識(shí)別的CNN網(wǎng)絡(luò),結(jié)合使用固定詞典的隱馬爾科夫模型(HMM),生成最終的識(shí)別結(jié)果。PhotoOCR系統(tǒng)使用基于HOG特征的神經(jīng)網(wǎng)絡(luò)分類器,對(duì)分割得到的候選結(jié)果進(jìn)行打分,使用結(jié)合N元語(yǔ)言模型(N-gram)的Beam搜索算法,得到候選字符集合。最后,再進(jìn)沈陽(yáng)理工大學(xué)19Ia aFigureZFigureZ- -文恃舊呆聲日杏看M M1616A Afl)Tfl)Tm mE E更面D)D)SOWSOW曰HiHi口修U修|琳|羯式 0 電電/

25、,多日的I口沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙一步使用語(yǔ)言模型和形狀模型對(duì)候選字符組合進(jìn)行重新排序。DeepFeaturesforTextSpotting(2014)結(jié)合了文本一非文本分類器、字符分類器、二元語(yǔ)言模型分類器,對(duì)整張圖進(jìn)行稠密的基于滑動(dòng)窗口的掃描。最后結(jié)合固定詞典,對(duì)圖片中的單詞進(jìn)行分析。基于字符的識(shí)別技術(shù)依賴于使用字符分類器對(duì)圖像進(jìn)行逐字符識(shí)別,最終將識(shí)別得到的字符進(jìn)行集成,得到圖像中的整個(gè)單詞。6.2.2基于單詞的識(shí)別SceneTextRecognitionusingHigherOrderLanguagePrior以及Large-LexiconAttribute-Consistent

26、TextRecognitioninNaturalImages的工作依舊依賴于顯式的字符分類器,但是通過(guò)構(gòu)建一個(gè)圖結(jié)構(gòu)來(lái)推導(dǎo)整個(gè)單詞。這會(huì)遇到和基于字符識(shí)別方法類似的困難。WholeisGreaterthanSumofParts:RecognizingSceneTextWords2013)使用整張文字圖片來(lái)識(shí)別單詞:他們使用基于梯度的特征圖與預(yù)先制作好的單詞圖像進(jìn)行對(duì)比,利用動(dòng)態(tài)k近鄰來(lái)判斷當(dāng)前圖片所包含的單詞。該方法依賴于一個(gè)固定詞典以及預(yù)先生成的單詞圖片。Labelembeddingfortextrecognition(2013)使用集成的Fisher向量以及結(jié)構(gòu)化的支持向量機(jī)框架來(lái)建立圖片

27、和整個(gè)單詞編碼的關(guān)系。WordSpottingandRecognitionwithEmbeddedAttributes(2014)進(jìn)一步探索了單詞編碼的概念,他們?yōu)閳D片和單詞字符串創(chuàng)建了一個(gè)編碼空間。這其實(shí)是Supervisedmid-levelfeaturesforwordimagerepresentation(2014)方法的擴(kuò)展:顯式利用字符級(jí)別的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)中間特征。Multi-digitNumberRecognitionfromStreetViewImageryusingDeepConvolutionalNeuralNetworks,(2013)等人使用深度CNN對(duì)整張圖片進(jìn)行編碼

28、,并使用多個(gè)位置敏感的字符級(jí)分類器來(lái)進(jìn)行文字識(shí)別。他們?cè)诮志伴T(mén)牌號(hào)識(shí)別任務(wù)中取得了極大的成功。他們還將該模型應(yīng)用到長(zhǎng)達(dá)8位的驗(yàn)證碼識(shí)別任務(wù)上,并使用了合成的訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。 該方法在goggle街景門(mén)牌號(hào)識(shí)別任務(wù)中獲得了96%以上的識(shí)別率。同時(shí)還在對(duì)goggle驗(yàn)證碼識(shí)別任務(wù)中獲得了99%以上的識(shí)別率。SyntheticDataandArtificialNeuralNetworksforNaturalSceneTextRecognition(2014)和ReadingTextintheWildwithConvolutionalNeuralNetworks(2014)對(duì)上述模型做了細(xì)微變

29、動(dòng):取消了預(yù)測(cè)字符長(zhǎng)度的分類器,并引入了結(jié)束符表示文字結(jié)尾。他們隨后證明了,使用合成的訓(xùn)練數(shù)據(jù)訓(xùn)練出的模型,能夠成功應(yīng)用到現(xiàn)實(shí)世界的識(shí)別問(wèn)題中。將單詞編碼為向量是一種可行的詞典單詞識(shí)別方法,但是在無(wú)約束情況下,字符之間可以任意組合。當(dāng)沈陽(yáng)理工大學(xué)20沈陽(yáng)理工大學(xué)課程設(shè)計(jì)專用紙字符數(shù)量足夠多時(shí),基于固定長(zhǎng)度向量編碼的方法性能會(huì)顯著下降。但是依然存在一些不足:一些研究將深度學(xué)習(xí)技術(shù)用于單個(gè)字符的識(shí)別步驟中,但整體框架依舊遵循傳統(tǒng)處理流程設(shè)計(jì),因此在其它步驟中依舊會(huì)遇到緒論所述問(wèn)題。Goodfellow等人的研究使用純神經(jīng)網(wǎng)絡(luò)直接完成整個(gè)識(shí)別流程,取得了業(yè)界領(lǐng)先的成績(jī)。但是由于他們需要使用固定大小的圖像作為輸入,并且將輸入圖像編碼為固定長(zhǎng)度的特征向量,在圖片中字符較多的情況下,模型的識(shí)別精度會(huì)顯著下降。另一方面,由于他們的模型沒(méi)有對(duì)圖片進(jìn)行顯式地字符定位和分割,因此無(wú)法得知每個(gè)字符在原圖中所處位置。6.3現(xiàn)存算法的問(wèn)題6.3.1大多文字識(shí)別方法依賴于人工定義的特征雖然有大量工作研究如何定義一組好的文字特征,但是大部分實(shí)際應(yīng)用的特征都不具有通用性。在極端情況下(如圖10(a),很多特征幾乎無(wú)效或甚至無(wú)法提取,如筆畫(huà)特征,形狀特征,邊緣特征等。另一方面,定義和提取人工特征也是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論