基于深度學(xué)習(xí)的場景文本檢測的研究_第1頁
基于深度學(xué)習(xí)的場景文本檢測的研究_第2頁
基于深度學(xué)習(xí)的場景文本檢測的研究_第3頁
基于深度學(xué)習(xí)的場景文本檢測的研究_第4頁
基于深度學(xué)習(xí)的場景文本檢測的研究_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、中文圖書分類號:TP183 密級:公開UDG: 004學(xué)校代碼:10005松孝- BEIJING UNIVERSITY OF TECHNOLOGY碩士專業(yè)學(xué)位論文PROFESSIONAL MASTER DISSERTATION論文題目:基于深度學(xué)習(xí)的場景文本檢測的研究 論文作者:恩孟一 專業(yè)類別/領(lǐng)域:軟件工程 指導(dǎo)教師:李蓉李建強 論文提交日期:2018年6月UDC: 004中文圖書分類號:TP 183學(xué)校代碼:10005學(xué) 號:S201525105密 級:公開北京工業(yè)大學(xué)碩士專業(yè)學(xué)位論文(全日制)題目:基于深度學(xué)習(xí)的場景文本檢測的研究英文題目:RESEARCH ON SCENE TEXT

2、DETECTION BASED ON DEEP LEARNING論文作者:恩孟一專業(yè)類別/領(lǐng)域:軟件工程研究方向:計算機(jī)視覺申請學(xué)位:工程碩士專業(yè)學(xué)位指導(dǎo)Mr師:李蓉李建強所在單位:軟件學(xué)院答辯日期:2018年6月授予學(xué)位單位:北京工業(yè)大學(xué)獨創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其 他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育 機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何 貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。簽 名:恩孟一日 期:2018

3、年6月4日關(guān)于論文使用授權(quán)的說明本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,BP:學(xué)校有 權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜?或部分內(nèi)容,可以采用影卬、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽 名: 恩孟一導(dǎo)師簽名:李建強日 期:2018年6月4日 日 期:2018年6月4日北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文摘要自然場景圖像中的文本包含著豐富而精準(zhǔn)的語義信息,是圖像中重要的信息 來源,這使檢測和識別場景圖像中的文本成為一個具有巨大應(yīng)用價值的研究主題。 近年來,場景文本的檢測和識別得到了越來越多研究者的關(guān)注,在該領(lǐng)域不斷有 新的方

4、法被提出。早期的場景文本檢測識別方法基本上都是基于人工設(shè)計的特征 的,隨著深度學(xué)習(xí)的復(fù)興,深度網(wǎng)絡(luò)強大的特征學(xué)習(xí)能力使基于深度學(xué)習(xí),特別 是基于卷積神經(jīng)網(wǎng)絡(luò)的方法逐漸成為該領(lǐng)域的主流。在該背景下,本文的主要工 作是,基于深度卷積網(wǎng)絡(luò)對場景文本檢測問題進(jìn)行研究。本文針對于多尺度場景文本尤其是小文本檢測的問題,提出了一個新的場景 文本檢測框架一一基于特征金字塔的場景文本檢測器。該框架基于通用目標(biāo)檢測 領(lǐng)域的SSD框架,并引入特征金字塔機(jī)制,通過一種自頂向下特征融合方法, 將卷積神經(jīng)網(wǎng)絡(luò)中不同深度的特征進(jìn)行融合產(chǎn)生新的特征,使這些新特征在具有 較強判別力的同時又保留較多圖像的局部細(xì)節(jié)信息。通過在新特

5、征上進(jìn)行文本檢 測,使該框架在檢測多尺度文本尤其是小文本方面的效果得到了提升。該方法在 ICDAR2013 數(shù)據(jù)集上達(dá)到 87.6%的 F-score0冃前大多數(shù)基于深度網(wǎng)絡(luò)的場景文本檢測方法需要大量擁有包圍盒級別標(biāo) 注的數(shù)據(jù)進(jìn)行模型訓(xùn)練,而這種數(shù)據(jù)往往需要昂貴的人工標(biāo)注才可獲得。針對這 一問題,本文嘗試提岀一種基于弱監(jiān)督的方法,在僅包含圖像級標(biāo)注的數(shù)據(jù)集上 訓(xùn)練得到擁有場景文本定位能力的卷積網(wǎng)絡(luò)模型,而無需任何包圍盒級別的標(biāo)注。 該網(wǎng)絡(luò)模型可以根據(jù)輸入圖像產(chǎn)生一張二維的類激活圖,該激活圖上每個像素的 值表示該位置屬于文本區(qū)域的置信度。利用該激活圖可以排除輸入圖像中大部分 的背景區(qū)域,定位到可

6、能屈于文本的區(qū)域,進(jìn)而可以在這些區(qū)域上通過基于 MSER的方法進(jìn)行進(jìn)一步的文本候選框提取。通過在ICDAR2013和ICDAR2015 數(shù)據(jù)集上進(jìn)行驗證,發(fā)現(xiàn)該方法提取的文本候選框達(dá)到的召冋率與一些監(jiān)督方法 相當(dāng)。關(guān)鍵詞:場景文本;卷積神經(jīng)網(wǎng)絡(luò);弱監(jiān)督;深度學(xué)習(xí)AbstractText in natural scene images is an important source of information, containing rich and precise high level semantics. So detecting and recognizing scene text hav

7、e great application value and have attracted much research interests during the last two decades. Early detection and recognition methods are based on artificially designed text features. However, with the revival of deep learning, deep neural networks show strong ability of learning features. Resea

8、rch based on deep neural networks, especially convolutional neural networks has became the mainstream of this field. Against the backdrop, the main task of this paper is to study the problem of scene text detection based on deep convolutional networks.In order to solve the problem of multi-scale sce

9、ne text detection, especially small text detection, we propose a new detection framework called feature pyramid based scene text detector. The framework is based on the state-of-the-art object detection framework SSD, and introduces feature pyramid mechanism. Through a top-down feature fusion manner

10、, features from different depth in CNN are combined and new features are built, forming a feature pyramid in which features have both high-level semantics and fine local details. Detecting on the new built features improves the performance on multi-scale text detection and small text detection. On I

11、CDAR2013 benchmark, the F-score of the proposed method achieves 87.6%.Most of the current state-of-the-art scene text detection methods need a large amount of data with bounding box-level or pixel-level ground-truth to train deep models. But getting these kinds of data require expensive manual annot

12、ation. We explore to propose a weakly supervised method that train a deep CNN model with text localization ability on datasets that have only image-level annotations. Given an input image, the model is capable of producing a 2-D class activation map (CAM) where value of each pixel denotes the confid

13、ence score of whether the pixel belongs to text region or not. By the help of the CAM, most of background areas in the input image can be filtered out and then we find the areas where text may exist. Based on this method, we can generate text proposals by some MSER-based methods. The proposed weakly

14、 supervised method achieves recall rate comparable to some fully supervised methods on ICDAR2013 and ICDAR2015 benchmarks.Keywords: scene text; convolutional neural netwotks; weak supervision; deep learning 北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論E摘要IAbstractII第1章緒論11.1研究背景與意義11.2國內(nèi)外研究現(xiàn)狀2121傳統(tǒng)方法31.2.2基于深度學(xué)習(xí)的方法31.3主要工作和貢獻(xiàn)51.

15、4論文結(jié)構(gòu)安排6第2章目標(biāo)檢測技術(shù)基礎(chǔ)72.1 RCNN系列方法72.1.1候選目標(biāo)區(qū)域提取72.1.2 R-CNN82.3 Fast R-CNN82.1.4 Faster R-CNN112.2 SSD132.3反思152.4本章小結(jié)15第3章基于特征金字塔的場景文本檢測173.1網(wǎng)絡(luò)結(jié)構(gòu)173.1主干網(wǎng)絡(luò)173.1.2特征金字塔193.1.3檢測模塊203.2技術(shù)細(xì)節(jié)213.2.1 atrous 卷積213.2.2特征金字塔223.2.3先驗盒263.2.4預(yù)測層283.2.5匹配規(guī)則293.2.6損失函數(shù)303.3實驗313.3.1實驗環(huán)境313.3.2數(shù)據(jù)集313.3.3訓(xùn)練和測試313

16、.3.4驗證特征金字塔的有效性323.3.5檢測小文本的實驗323.3.6不同配置下的FPTD性能對比343.3.7與其他檢測方法的對比343.3.8檢測效果展示與分析353.4本章小結(jié)36第4章基于弱監(jiān)督的場景文本注意力網(wǎng)絡(luò)374網(wǎng)絡(luò)模型374.2技術(shù)細(xì)節(jié)384.2.1空間金字塔池化384.2.2類激活圖的生成404.2.3感受野和多尺度問題424.2.4生成文本候選區(qū)域434.3實驗454.3.1實驗環(huán)境454.3.2數(shù)據(jù)集454.3.3 訓(xùn)練454.3.4 測試464.3.5二分類效果464.3.6文本候選區(qū)域提取效果464.3.7 ICDAR2013數(shù)據(jù)集上的召回效果474.3.8 I

17、CDAR2015數(shù)據(jù)集上的召回效果484.3.9單一尺度輸入的召回效果514.3.10與其他文本proposal方法的比較514.4本章小結(jié)52結(jié)論55參考文獻(xiàn)59附錄一ICDAR2013數(shù)據(jù)集介紹65附錄二ICDAR2015數(shù)據(jù)集介紹70V目錄附錄三FPTD評測結(jié)果截圖72攻讀碩士學(xué)位期間取得的成果75致謝77v第1章緒論第1章緒論1.1研究背景與意義在過去的二十多年中,如何有效地檢測、利用自然場景圖像中的文本信息得 到了越來越多研究者的關(guān)注。比較有代表性的是國際文檔分析與識別會議(International Conference on Document Analysis and Recog

18、nition, ICDAR) 和該 會議設(shè)置的魯棒閱讀競賽(Robust Reading Competition) U_5J,以及從2005年 開始舉辦、依附于ICDAR會議的基于攝像機(jī)的文檔分析與識別研討會(International Workshop on Camera-Based Document Analysis and Recognition, CBDAR) o此外,近年來在計算機(jī)視覺領(lǐng)域的各大頂級會議,如CVPR, ICCV, ECCV等會議上,自然場景圖像中文本的檢測和識別也成為了重要的研究話題。對于自然場景圖像來說,圖像中出現(xiàn)的文字?jǐn)y帶著豐富而精準(zhǔn)的高級語義信 息,這是圖像中信

19、息的重要來源。因此,如果可以有效地將這些文本信息進(jìn)行檢 測、識別并加以利用,對很多的基于視覺的應(yīng)用來說具有重大意義,例如文檔圖 像檢索,基于航拍圖像的目標(biāo)地理位置定位,基于視覺的機(jī)器人路徑導(dǎo)航兇, 幫助視障人士通過照相機(jī)讀取貨幣而值9,等等。另外,近年來隨著智能手機(jī)的普及,人們可以隨時隨地方便地“制造訝口處理 大量的圖像,這些圖像中往往包含著文本信息。這也為檢測、識別多樣環(huán)境下自 然場景圖像中的文木提供了巨大的應(yīng)用需求和應(yīng)用空間。一般來說,傳統(tǒng)光字符識別(Optical Character Recognition, OCR)的任務(wù)是 在背景干凈、文本均勻的掃描文檔上檢測、識別文本,目前該技術(shù)己

20、較為成熟一 在普通掃描文檔上一般可以達(dá)到99%以上的識別率I。和它相比,自然場景圖 像中文本的檢測與識別是一項非常具有挑戰(zhàn)性的任務(wù),在目前大部分的公開數(shù)據(jù) 集上,檢測和識別效果都要遠(yuǎn)遠(yuǎn)低于傳統(tǒng)OCR。該任務(wù)的主要難點可以概括為 以下兒個方面:(1) 圖像背景的復(fù)余性。在場景圖像中,許多的非文本物體,主要是一些 人造物,如建筑物,標(biāo)志,涂鴉等等,與場景中的文本在外觀、結(jié)構(gòu)上有較大的 相似性。這樣一來,圖像中的文本與其周圍的非文本物體很容易發(fā)生混淆,給區(qū) 分圖像中的文本與非文本造成了一定的困難。(2) 不均勻光照。在獲取(拍攝)圖像時,環(huán)境中的照明不均勻或是感光 器件本身的不均勻響應(yīng),都會使得到的

21、場景圖像中存在一定程度的光照不均。這 第1章緒論會導(dǎo)致圖像的顏色失真,一些視覺特征的退化,從而影響了圖像中文本的檢測、 分割以及識別的準(zhǔn)確性。(3)圖像模糊/退化。拍攝過程中拍攝位置的不穩(wěn)定,以及相機(jī)對焦等問題, 會造成圖像的模糊、質(zhì)量退化。此外,圖像的壓縮、解壓縮處理也會帶來圖像質(zhì) 量的退化。這種情況會使導(dǎo)致圖像中文本銳度的降低,并且有可能引入粘連字符, 從而增大某些重要任務(wù)比如文本分割的難度。(4)文本本身的多樣性。首先,場景圖像中的文本具有多樣的寬高比,例 如,交通標(biāo)志上的文本通常很“短”,而報刊雜志上的文本通常較“長二因此,文 本檢測算法需要考慮到這些多樣性來匹配不同寬高比的文本,這會

22、使算法設(shè)計的 難度大大增加。第二,場景圖像中的文本除了水平的,也可能是傾斜的,甚至是 彎曲的。這就使文本檢測算法面臨更大的挑戰(zhàn),往往一個適用于水平文本的檢測 方法在檢測傾斜、彎曲文本的時候效果會很差。第三,語種多樣性。比如,拉丁 語擁有幾十種字符,而像漢語、日語等語種擁有成千上萬種字符;阿拉伯語通常 存在粘連字符,等等。綜上,場景文木檢測和識別有著巨大的應(yīng)用價值。同時,由于該任務(wù)面臨很 大的挑戰(zhàn),所以又有著相當(dāng)大的研究價值和研究空間。一般來說,關(guān)于自然場景圖像文本的研究主要集中在場景文本的檢測和識別 這兩個方而,本文的研究工作則主要側(cè)重于文本檢測這一方而。1.2國內(nèi)外研究現(xiàn)狀近年來,越來越多的

23、高校和科研機(jī)構(gòu)都參加到了場景文木檢測領(lǐng)域的研究中 來。在國內(nèi),如中科院大學(xué),北京科技大學(xué),華中科技大學(xué)等高校,百度IDL, 騰訊優(yōu)圖,三星研究院等研究機(jī)構(gòu);在國外,如牛津大學(xué),康奈爾大學(xué)等高校, 谷歌,MSRA等研究機(jī)構(gòu)等,均有長期從事場景文本檢測方面研究的人員,也不 斷有新的方法被提出。類似于計算機(jī)視覺領(lǐng)域的其他任務(wù),場景文本檢測要解決的一個核心問題是 “表征”(representation)。簡單來講,表征”是指通過怎樣的方式、方法來 對自然場景圖像中的文本和非文本(背景)進(jìn)行描述和建模。也就是通過找到場 景圖像中文本區(qū)域和非文本區(qū)域的特征,將圖像中的這兩種區(qū)域區(qū)分開來,從而 達(dá)到將文木檢

24、測出來的目的。這里按照對文本特征的建模方式,將場景文本檢測的方法分為兩類:采用人 工設(shè)計特征的傳統(tǒng)方法和采用深度網(wǎng)絡(luò)自動學(xué)習(xí)特征的基于深度學(xué)習(xí)的方法。1.2.1傳統(tǒng)方法在傳統(tǒng)方法中,文本的特征基本上是人工設(shè)計的。檢測算法依照這些設(shè)計好 的特征,將場景圖像中符合這些特征的區(qū)域認(rèn)為是文本區(qū)域,從而與非文本區(qū)域 區(qū)分開來。下面按照人工設(shè)計特征的不同種類分別介紹相關(guān)的研究工作:(1) 顏色特征:該特征基于假設(shè)圖像中的文本擁有連續(xù)且可與背景形成 對比的顏色。相關(guān)的方法例如:將顏色特征結(jié)合聚類方法得到連通體利用一 些特殊顏色空間如HSV空間,HLS空間9中的顏色特征,等等。(2) 邊緣/梯度特征:該特征基

25、于假設(shè)一一文本與背景之間存在較強的梯度變 化。該特征常與一些分類器比如人工神經(jīng)網(wǎng)絡(luò)】4、AdaBoost等結(jié)合使用,來做 基于滑動窗(sliding window)的文木檢測。(3) 紋理特征:圖像中的文本較為密集時,文本可以被視為一種紋理(texture) 場景文本檢測中常見的紋理特征包括傅立葉變換,離散余弦變換,小波變換 ,HOG特征等。紋理特征也經(jīng)常用于結(jié)合分類器和多尺度滑動窗做文本檢 測。(4) 筆畫特征:利用該特征的一個典型方法是筆畫寬度變換法(stroke width transformation, SWT) l20J,該方法通過一種圖像算子將輸入圖像轉(zhuǎn)化為一張?zhí)卣?圖,該特征圖表

26、示原圖中每個像素最有可能被包含的筆畫的寬度。該方法具有同 時期方法中較為出色的表現(xiàn),之后被廣泛引用和改進(jìn)也。(5) 區(qū)域特征:最具有代表性的是最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions, MSER),由于其較高的有效性,在近年來的場景文本檢測工 作中被廣引用”,24,25。它充分利用了場景圖像中,文本區(qū)域通常與背景存在顯著 的色彩對比,并且趨于形成一種穩(wěn)定的、同質(zhì)的色彩區(qū)域這一普遍現(xiàn)象。1.2.2基于深度學(xué)習(xí)的方法在自然場景圖像中,文木和背景均有很大的多樣性和復(fù)雜性,僅僅利用上述 的一種或幾種人工設(shè)計特征進(jìn)行場景文本檢測,魯棒性往往并不理想。近年來隨

27、著深度學(xué)習(xí)的復(fù)興,尤其自2012年起,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在圖像識 別、冃標(biāo)檢測等計算機(jī)視覺任務(wù)上開始取得巨大成功MJ這很大程度上得益于深 度網(wǎng)絡(luò)強大的特征學(xué)習(xí)能力。與人工設(shè)計特征相比,深度網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集上 自動學(xué)習(xí)到的特征往往具有更高的判別力和魯棒性。在場景文本檢測領(lǐng)域,越來 越多基于深度學(xué)習(xí)尤其是基于DCNN的方法被提出。這一部分主要介紹基于深度網(wǎng)絡(luò)的場景文本檢測的工作。在這之前首先介紹 基于DCNN的通用冃標(biāo)檢測研究現(xiàn)狀。R-CNN27是利用DCNN進(jìn)行通用冃標(biāo)檢 測的一項開創(chuàng)性工作:先提取圖像中目標(biāo)的候選區(qū)域(objectproposal) I2S,然后 用CNN模型逐一地

28、對這些候選區(qū)域進(jìn)行分類。該方法的準(zhǔn)確率在當(dāng)時達(dá)到領(lǐng)先 水平,但缺點是非常耗時。FastR-CNNl29在RCNN的基礎(chǔ)上進(jìn)行改進(jìn),通過共 享特征圖(feature map)的方式大大提高了整個框架的速度。此后,F(xiàn)aster R-CNN1301 引入了區(qū)域候選捉取網(wǎng)絡(luò)(Region Proposal Network, RPN),將 object proposal 環(huán) 節(jié)整合到CNN中,進(jìn)一步提高了整個框架的速度。YOLO】則將冃標(biāo)檢測作為 一個回歸問題來處理:將整張圖像作為輸入,在CNN最高層feature map 直接 預(yù)測冃標(biāo)的包圍盒和對應(yīng)的分類置信度。該框架達(dá)到了很快的檢測速度,但在一 定

29、程度上犧牲了準(zhǔn)確率。SSD32則結(jié)合了 Faster R-CNN和YOLO各自的優(yōu)點, 直接在CNN多個不同的feature map上分別形成若干錨盒”(anchor box) l29J, 然后對每個anchor box進(jìn)行分類和位置、形狀回歸。該框架在具有較快速度的同 時也保留了相當(dāng)?shù)臏?zhǔn)確率。受通用目標(biāo)檢測領(lǐng)域研究的啟發(fā),近期有很多基于DCNN的場景文本檢測 方法提出,并逐漸成為該領(lǐng)域的主流。Zhang等人提出了一個基于全卷積神經(jīng) 網(wǎng)絡(luò)(fully convolutional network, FCN)的檢測框架,由兩個FCN構(gòu)成,一個 用于預(yù)測文本的顯著性圖(saliency map),結(jié)

30、合MSER來預(yù)測圖像中的文木行 區(qū)域;另一個FCN用于預(yù)測圖像中每個字符的中心以排除錯誤正例。Zhong等 人提出的方法基于FasterR-CNN,他們將RPN改進(jìn)為Inception-RPN,采用多個 尺寸的卷積核共同預(yù)測文本候選區(qū)域,用來解決文本形狀、寬高比具有多樣性的 問題cMa等人El提出了一個用于檢測多方向場景文本的方法,基于Faster R-CNN, 他們將RPN部分進(jìn)行改進(jìn),使它可以提取傾斜的、帶角度的文本候選區(qū)域,然 后通過興趣區(qū)域池化(Rolpooling)得到的特征對每個候選區(qū)域進(jìn)行分類和包圍 盒回歸。Jiang等人E利用RPN提取軸對齊文本proposal,結(jié)合不同尺寸的

31、Rol Pooling來提取區(qū)域特征,通過多任務(wù)損失使網(wǎng)絡(luò)可以同時學(xué)習(xí)對proposal進(jìn)行 分類,將其回歸成軸對齊矩形框和帶方向矩形框這三種任務(wù),使該方法適用于檢 測多方向文本。Liao等人卩提出的場景文本檢測框架TextBoxes則基于SSD,文 本檢測在CNN的多個feature map上同時進(jìn)行,先在這些feature map的每個位 置上產(chǎn)生一組缺省盒(default box),然后通過卷積層直接對每個default box進(jìn) 行分類和包圍盒回歸;該方法還對SSD進(jìn)行了若干針對于場景文本檢測的改進(jìn)。 工作37提出的方法同樣基于SSD,作者將default box設(shè)計成不規(guī)則四邊形,使

32、 該方法適合檢測多方向的文本。在工作38中,文本檢測同樣是在CNN的多個 feature map上進(jìn)行,不同的是,文本檢測不是基于default box機(jī)制,而是在feature map的每個位置上,通過卷積層嵐接對該位置進(jìn)行文木置信度打分,以及預(yù)測該 位置與其所在的文本四邊形每一條邊的距離。最近,Shi等人39提出的方法將文 本檢測分解為兩部分即segments和links,前者是多方向的包圍盒,包含著一個 單詞或是一個文本行的一部分,后者是兩個segment之間的關(guān)系,表示兩個 segment之間是否屬于同一個單詞或文本行。該框架將輸入圖像的segments和 links同時預(yù)測出來,經(jīng)過

33、后處理得到最終的檢測結(jié)果。除了借鑒通用物體檢測領(lǐng)域的思想,將場景文本檢測視為一種特殊的物體檢 測之外,在一些工作中,還引入了在機(jī)器翻譯等領(lǐng)域獲得成功的“注意力機(jī)制(attention mechanism) ”來解決場景文本檢測問題。在40中,通過訓(xùn)練一個空 間變換網(wǎng)絡(luò)(spatial transformer network, STN)作為注意力機(jī)制,用產(chǎn)生的采 樣網(wǎng)格來定位場景圖像中的文本區(qū)域。在42中,注意力機(jī)制由一個循環(huán)神經(jīng)網(wǎng) 絡(luò)(recuiTent neural network, RNN)來實現(xiàn),在 RNN 的每一個時間步(time step) 上,都會產(chǎn)生一個注意力區(qū)域,表示當(dāng)前時間需

34、要關(guān)注輸入圖像中的某個區(qū)域, 即字符區(qū)域,該機(jī)制可以處理不規(guī)則、彎曲排列的文本。在當(dāng)前的自然場景文本檢測研究領(lǐng)域,基于深度學(xué)習(xí)的方法已經(jīng)代替了基于 人工設(shè)計特征的方法,成為該領(lǐng)域的主流。目前該領(lǐng)域所面臨的的主要問題有:(1) 多方向,彎曲的以及不規(guī)則排列的場景文本檢測較為困難。(2) 多尺度文本,尤其是小文本的檢測性能有待提升。(3) 大多數(shù)檢測方法需要依靠大量人工標(biāo)注文本位置的場景文本圖像數(shù)據(jù)集, 不依賴昂貴標(biāo)注的弱監(jiān)督檢測方法較少有人研究。(4) 大部分研究目前集中于拉丁文檢測,而針對諸如漢語、口語、阿拉伯語 等語種的文本檢測檢測研究則相對較少,面臨的挑戰(zhàn)也更大。1.3主要工作和貢獻(xiàn)本文的

35、主要工作是基于深度卷積神經(jīng)網(wǎng)絡(luò)來研究場景文本檢測問題,提出相 關(guān)算法??傮w來說,本文工作包括兩部分:(1) 針對多尺度場景文本檢測尤其是小文木檢測,提出一個基于特征金字塔 的場景文本檢測框架。該工作的主要貢獻(xiàn)包括:提出了一個基于CNN的新的檢 測框架,可以用于檢測自然場景圖像中多種尺度的文本,且可以端到端訓(xùn)練;特 征金字塔機(jī)制首次被應(yīng)用到場景文本檢測中來,通過自頂向下的特征融合方法, CNN中不同層次的特征被充分結(jié)合起來,使得到的特征既擁有較強的判別力, 又保留了較多圖像中的局部特征,文本檢測則在這些新特征上進(jìn)行。該框架在 ICDAR20I3 數(shù)據(jù)集上達(dá)到了 87.6%的 F-scoreo(2

36、) 嘗試提出一種基于弱監(jiān)督的用于場景圖像中文本proposal的方法。該工 作的主要貢獻(xiàn)包括:首次將弱監(jiān)督方法應(yīng)用到場景文本檢測中來,利用通過弱監(jiān) 督訓(xùn)練得到的CNN模型來產(chǎn)生場景圖像中可能存在文本的區(qū)域;改進(jìn)Zhou等 人提出的模型,引入空間金字塔池化來提升模型的效果;利用CNN中多個不 同層的特征共同產(chǎn)生文本注意力區(qū)域使模型達(dá)到更好的效果;模型可以接收任意 大小的輸入圖像尺寸,提高了模型對于場景文木的尺度不變性。作為一種弱監(jiān)督 方法,該方法在ICDAR2013和ICDAR2015兩個數(shù)據(jù)集上達(dá)到了較高的proposal 召回率,達(dá)到了與一些監(jiān)督方法相當(dāng)?shù)男Ч?.4論文結(jié)構(gòu)安排第一章,緒論

37、。簡要介紹本文所做工作的背景與意義。然后,總結(jié)國內(nèi)外相 關(guān)研究現(xiàn)狀,介紹本文工作的內(nèi)容和貢獻(xiàn)。最后歸納研究內(nèi)容與文章組織和安排。第二章,目標(biāo)檢測技術(shù)基礎(chǔ)。木文關(guān)于場景文本檢測的研究大部分建立在通 用冃標(biāo)檢測的工作基礎(chǔ)之上,因此這一章對通用冃標(biāo)檢測領(lǐng)域一些較為重要的方 法進(jìn)行回顧和介紹,并對它們與場景文木檢測方法的關(guān)系進(jìn)行反思。第三章,基于特征金字塔的場景文本檢測。這一章對我們提出的基于特征金 字塔的場景文木檢測框架進(jìn)行詳細(xì)介紹,其中包括框架結(jié)構(gòu),其中的技術(shù)細(xì)節(jié), 以及在ICDAR2013數(shù)據(jù)集上進(jìn)行的多組實驗等。第四章,基于弱監(jiān)督的場景文本注意力網(wǎng)絡(luò)。這一章對我們提出的基于弱監(jiān) 督的場景文本候

38、選提取方法進(jìn)行詳細(xì)介紹,主要包括基于弱監(jiān)督的場景文本注意 力網(wǎng)絡(luò)的結(jié)構(gòu)、技術(shù)細(xì)節(jié)。還介紹了該方法在ICDAR2013和ICDAR2015數(shù)據(jù) 集上進(jìn)行的多組相關(guān)實驗。最后,結(jié)論??偨Y(jié)本文在自然場景文本檢測工作上的貢獻(xiàn)以及創(chuàng)新點,并指 出當(dāng)前工作的局限性,同時對該研究領(lǐng)域下一步的發(fā)展方向進(jìn)行展望。5第2章目標(biāo)檢測技術(shù)基礎(chǔ)第2章目標(biāo)檢測技術(shù)基礎(chǔ)如第一章所述,借鑒通用目標(biāo)檢測領(lǐng)域的思想和方法,將場景圖像中的文木 視為一種特殊類型的冃標(biāo)來進(jìn)行檢測,是當(dāng)前場景文本檢測領(lǐng)域的一種重要思路。 而木文在場景文木檢測方面的工作也大部分建立在通用目標(biāo)檢測技術(shù)的基礎(chǔ)之 上。因此作為技術(shù)基礎(chǔ),本章將對通用冃標(biāo)檢測中較

39、為重要的兩套方法一一R- CNN系列方法以及SSD進(jìn)行回顧和介紹,這兩套方法所采用的目標(biāo)檢測思路和 其中的技術(shù)細(xì)節(jié)對文本方法的設(shè)計具有重要意義。2.1 RCNN系列方法作為通用物體檢測領(lǐng)域的開創(chuàng)性方法之一,R-CNN (Region-basedCNN)系 列方法27,29,30自提出后就被不斷地引用、改進(jìn)并應(yīng)用于各種計算機(jī)視覺任務(wù)上。 按照提出的先后順序,該系列包括R-CNN, Fast R-CNN和Faster R-CNN三種。 這一節(jié)將對這三種方法做一個回顧和介紹。2.1.1候選目標(biāo)區(qū)域提取所謂冃標(biāo)候選區(qū)域提取,即object proposal (以下簡稱為proposal),是以一 張圖

40、片作為輸入,輸出一定數(shù)量的矩形包圍盒,對應(yīng)著輸入圖像中的一個個區(qū)域, 代表待檢測目標(biāo)可能出現(xiàn)的區(qū)域,即“候選”目標(biāo)區(qū)域。目標(biāo)檢測任務(wù)的一個基本假設(shè)是,一張圖像包含兩種成分,一種是“前景” 即日標(biāo)區(qū)域,另一種是“背景”即非目標(biāo)區(qū)域。顯然,目標(biāo)的種類可以有多種, 以PASCAL VOC剛目標(biāo)檢測數(shù)據(jù)集為例,圖像中岀現(xiàn)的目標(biāo)包括20種,如人、 火車、狗等類別;同時,背景也可能有很多類,如天空、道路、海洋等。但對于 proposal來說,其任務(wù)僅是將圖像中所有可能為目標(biāo)的區(qū)域找出,而不區(qū)分這些 區(qū)域具體屬于哪一種子類,同樣,排除掉的是所有可能為背景的區(qū)域,但不區(qū)分 這些區(qū)域屈于哪一類背景。一般把pro

41、posal的這種特性稱為“類未知(class- agnostic)-的,即算法本身僅能大致區(qū)分目標(biāo)與背景這兩大類,對于這兩大類各 自包含什么子類則是不知道的。也將產(chǎn)生的候選區(qū)域稱為“感興趣區(qū)域(region of interest, Rol)。另外,proposal方法得到的候選區(qū)域一般只能較為粗糙地定 位到冃標(biāo)上,且往往仍含有非冃標(biāo)區(qū)域,因此需要在后而的階段對這些候選區(qū)域 進(jìn)行進(jìn)一步的處理。在R-CNN系列方法中,進(jìn)行proposal的冃的是盡可能在該階段排除輸入圖 像中的非目標(biāo)區(qū)域,引導(dǎo)CNN模型去注意含有目標(biāo)的區(qū)域,使整個檢測框架的9北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文訓(xùn)練、推理更有效率。2

42、.1.2R-CNN圖2-1展示了 R-CNN冃標(biāo)檢測流程的主體,可分為如下幾步:Proposal.對于一張輸入圖像,R-CNN采用Selective Search1451方法進(jìn)行 proposal,產(chǎn)生若干候選區(qū)域/? = 盡,心,心。(2) 候選區(qū)域縮放。將所有R岸R都縮放為固定尺寸得到R = K , R?,R” (3) CNN特征提取。將每個R,: g R輸入一個CNN模型計算特征,每個斤得 到一個特征向量。(4) 候選區(qū)域分類。對每個特征向量,將其分別輸入K (目標(biāo)類別總數(shù))個 支持向量機(jī)(support vector machine, SVM)中,每個SVM負(fù)責(zé)判斷當(dāng)前候選區(qū) 域是否屬

43、于某一特定的類。這一步結(jié)束后,得到原始圖像所有的目標(biāo)區(qū)域 )= Di, 2,,A,D 二 R。(5) 包圍盒回歸。將每個DwD對應(yīng)在CNN模型pool5層的特征輸入一個線 性模型46進(jìn)行包圍盒回歸,得到修正后的冃標(biāo)區(qū)域D = D;,DS(6) 去除冗余檢測結(jié)果。對于D,逐類別進(jìn)行非極大值抑制,去除冗余的區(qū) 域,得到最終的檢測結(jié)果??s放后的 候選區(qū)域1.輸入圖像2.候選目標(biāo)區(qū)域 提取(約兩干個)3. CNN提取特征4候選區(qū)域分類圖 2-1 R-CNNFigure 2-1 R-CNN2.1.3 Fast R-CNNFast R-CNN在R-CNN的基礎(chǔ)上做了一系列改進(jìn),圖2-2展示了該框架的0 標(biāo)

44、檢測流程:(1) Proposal.與R-CNN相同,對于輸入圖像產(chǎn)主若干感興趣區(qū)域(Rol) R = K , R?,Rm (2) CNN特征提取。將圖像輸入CNN模型,得到整個圖像在CNN最后一個 卷積層上的特征巧。(3) 計算Rol的特征向量。將R*R投影到Ff上,得到該Rol對應(yīng)的卷積特 征F&.,將你.通過感興趣區(qū)域池化(RoIPooling)得到池化后的特征,再將該特 征經(jīng)過若干全連接層得到當(dāng)前Rol的特征向量厶o(4) 預(yù)測。將fR輸入兩個網(wǎng)絡(luò)分支,一個進(jìn)行分類,另一個進(jìn)行包圍盒回歸。 得到所有的檢測結(jié)果D = 0,2,2。(5) 去除冗余。同R-CNN,通過非極大值抑制去除D中的

45、冗余結(jié)果,得到最 終的檢測結(jié)果。softmmx令半句,馬1倉冋1閂圖 2-2 Fast R-CNNFigure 2-2 Fast R-CNNFast R-CNN做出的主要改進(jìn)包括:(1) 降低Rol區(qū)域特征的計算量。不必每個Rol都輸入CNN做一遍前向傳 播才能得到對應(yīng)特征,而是先用CNN計算好整張輸入圖片的卷積特征,每個Rol 的特征只需在該卷積特征上進(jìn)行投影就能得到,相當(dāng)于共享了一張圖片中所有 Rol的特征計算。(2) 引入Rol Pooling,不同尺寸的Rol可以不通過縮放大小就能得到相同維 度的特征向量。(3) 將特征提取,Rol分類,Rol包圍盒回歸三個模塊整合到同一個網(wǎng)絡(luò)中, 通

46、過設(shè)置多任務(wù)損失同時進(jìn)行優(yōu)化。不必像RCNN中分開訓(xùn)練這三部分,無需北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論E將中間特征存儲到硬盤上(R-CNN中用存儲的特征來訓(xùn)練SVM) o上述改進(jìn)使整個檢測框架的訓(xùn)練、測試過程更加簡潔、高效了。下而對Fast R-CNN中的兩個重要部分進(jìn)行介紹。(1) RoI Pooling.這種池化方式的作用是,將任意大小的Rol投影到卷積feature map上的區(qū)域特征都轉(zhuǎn)化為一個尺寸為HxW的小feature map,其中H和 W均為超參數(shù)。具體做法是:對于卷積feature map F 一個的矩形Rol區(qū) 域,將該區(qū)域劃分為HxW個尺寸為(h/H)x(w/W)的矩形格子,

47、然后在每個格 子中進(jìn)行最大池化得到對應(yīng)特征值(池化在每個通道單獨進(jìn)行)。這樣,假設(shè)F 通道數(shù)為C ,通過Rol Pooling可以將該feature map上任意大小的Rol轉(zhuǎn)化為一 個HxWxC的小feature map可將F送入全連接層進(jìn)行后續(xù)處理。(2) 多任務(wù)損失。Fast R-CNN中將Rol的分類和包圍盒回歸通過網(wǎng)絡(luò)末端的 兩個分支實現(xiàn),并且這兩個分支在訓(xùn)練中通過一個多任務(wù)損失同時進(jìn)行學(xué)習(xí)。假 設(shè)每個Rol對應(yīng)的類別標(biāo)簽(ground-truth)為u ,對應(yīng)的包圍盒標(biāo)簽為#,那么 對于每個Rol都有一個多任務(wù)損失厶,如公式(21)所示。L(p, u, f, v)二 L&(p, u

48、) + au 1 LIoe(t v)(2-1)其中Lelsu) = -ogpl(為分類損失,卩為分類預(yù)測輸出,采用了正確類的 對數(shù)損失。S為包圍盒回歸損失。嚴(yán)=(斗,龍)為對正確類的包圍盒預(yù)測輸出,各 個元素的定義見公式(22),其中為預(yù)測的包圍盒中心點坐標(biāo)和 寬、高,(迅h,臚)為Rol的中心點坐標(biāo)以及寬、高??梢姡鼑谢貧w分 支輸出的并不是包圍盒真實的坐標(biāo)和寬高,而是它們的一個變換,這樣做是為了 使冋歸過程對尺寸和位置具有不變性。同樣,標(biāo)簽v = (vv,vv,vHv/?)也經(jīng)過了同樣 的變換,見公式(2-3),其中(x*, y , w*,/? )為ground-truth包圍盒的中心點

49、坐標(biāo) 和寬、高。氐的定義見公式(2-4),其中對每個預(yù)測值都采用smooth-Ll損失, 其定義見公式(2-5) o相比于R-CNN的包圍盒回歸中采用的L2損失,smooth- Ll 損失的好處在于它對離群值的敏感性更低,可以更好地防止梯度爆炸。u為指示函數(shù),當(dāng)“ni時其值為1否則為0.也就是說,當(dāng)Rol被判定 為背景時,忽略其回歸損失。兄為平衡因子,是一個超參數(shù),用于控制分類損失 和回歸損失的平衡。Fast R-CNN這種損失函數(shù)的設(shè)計,在通用物體檢測領(lǐng)域后來的工作中被廣io第2章目標(biāo)檢測技術(shù)基礎(chǔ)17(2-2)(2-3)(2-4)(2-5)泛應(yīng)用,在本文提出的場景文本檢測模型中也使用了這種損

50、失函數(shù)。V十一尢打/屛,vvz: = log(),vvVx=(X-XR)/wR9vv=(Z-/)/A*Vv 二 bg(),wvh = og 法)Sc(廣宀)= 工伽a% -氣.)f 0.5/,ifxsmooth.= I x| -0.5, otherwise2.1.4 Faster R-CNN在Fast R-CNN中,整個框架的速度瓶頸出現(xiàn)在目標(biāo)proposal環(huán)節(jié)。盡管像 Selective Search宙,EdgeBoxes這些技術(shù)已經(jīng)盡可能地利用圖像中的低級特征 進(jìn)行低成本的計算,但在Fast R-CNN中,利用它們進(jìn)行proposal仍然占用了整 個框架大部分的計算時間。Faster R

51、-CNN引入的最重要的改進(jìn)就是將proposal環(huán)節(jié)整合到CNN中,讓 proposal環(huán)節(jié)與檢測網(wǎng)絡(luò)共享計算,也就是用深度網(wǎng)絡(luò)來進(jìn)行proposal,這個用 于 proposal 網(wǎng)絡(luò)被命名為 RPN (Region Proposal Networks)。整個Faster R-CNN框架由兩個部分構(gòu)成,一個是用于proposal的深度全卷 積網(wǎng)絡(luò)即RPN,另一個是利用RPN產(chǎn)牛的Rol進(jìn)行目標(biāo)檢測的檢測網(wǎng)絡(luò)。圖2 3描述了 Faster R-CNN的工作流程。輸入圖像通過CNN計算出整個圖像的卷積 feature map, RPN 在該 feature map 上進(jìn)行 proposal,產(chǎn)生

52、若干 Rol;這些 Rol 輸 入檢測網(wǎng)絡(luò),經(jīng)過Rol Pooling得到特征,進(jìn)而進(jìn)行分類和包圍盒回歸,得到最 終檢測結(jié)果??梢?,RPN與檢測網(wǎng)絡(luò)共享了特征提取的計算。下面對RPN進(jìn)行詳細(xì)介紹:候選區(qū)域輸入圖像feature maps圖 2-3 Faster R-CNNFigure 2-3 Faster R-CNNRPN的輸入是一張任意大小的圖像,輸出是若干proposal矩形包圍盒,每個 包圍盒帶有一個包含目標(biāo)的分?jǐn)?shù)。首先,圖像輸入特征提取網(wǎng)絡(luò)(如VGG16的 所有卷積層)計算特征;在最后一個卷積層得到的feature map ,滑動一個幾xn 的滑動窗;滑動窗每到一個位置,都會將該區(qū)域的

53、feature map映射到一個低維 的特征向量將/輸入兩個分支,一個進(jìn)行分類,一個進(jìn)行包圍盒回歸。滑動 窗到達(dá)的每個位置,都會同時預(yù)測k個proposal,因此分類分支在該位置會輸出 2R個分?jǐn)?shù),對應(yīng)每個proposal 于冃標(biāo)區(qū)域或背景區(qū)域的分?jǐn)?shù),回歸分支輸出 4k個值,對應(yīng)每個proposal的坐標(biāo)。RPN預(yù)測proposal基于錨盒(anchorbox)機(jī)制:在每個滑動窗的位置, 會以滑動窗的中心點為中心,在輸入圖像的對應(yīng)位置上產(chǎn)生個預(yù)先設(shè)計好的不 同尺寸、寬高比的矩形包圍盒,即anchor boxo若輸入feature map尺寸為HxW , 則在原圖上共有丹肱個anchor box

54、 o而上述分類、回歸分支的作用是根據(jù)特征向 量/,判斷每個anchor box是否屬于目標(biāo)區(qū)域,并H調(diào)整其位置、形狀。圖24 描述了 RPN的這一過程(圖中以/1 = 3, = 4為例)。在實現(xiàn)上,兀xn的滑動窗由一個2的卷積層來實現(xiàn),輸出結(jié)果包含每個位 置得到的分類、回歸分支則分別由兩個1x1的卷積層來實現(xiàn)(每個滑動窗位 置共享參數(shù))。損失函數(shù)方面,RPN這兩個預(yù)測分支采用和Fast R-CNN中相同 的損失函數(shù)(公式(2-1),其中包圍盒回歸輸岀的編碼方式也與Fast R-CNN 相同(公式(2-2) ,(2-3) ) o2kg類疑婦4k個回歸值原圖上的kanchor box低維特征向屋圖

55、 2-4 Faster R-CNN 中的 RPNFigure 2-4 RPN in Faster R-CNN2.2 SSDRCNN系列方法的基本流程可概括為三步:(l)Proposal得到若干Rol, (2)計 算Rol特征,(3)利用特征對Rol進(jìn)行分類、包圍盒回歸。該流稈在檢測精度上達(dá) 到了領(lǐng)先的水平,但在檢測速度則上不能達(dá)到實時處理的要求。而SSD (Single Shot MultiBox Detector)詞中提出的一系列改進(jìn)使目標(biāo)檢測框架的速度達(dá)到了較 高水平而又不至于像YOLO為了速度而犧牲檢測精度,這些使SSD成為了目 標(biāo)檢測領(lǐng)域又一個經(jīng)典的框架。SSD中最重要的思想是去除了

56、R-CNN系列方法中的第和第步,即不需 要產(chǎn)生Rol和提取Rol特征,而是通過一個CNN的一次前向傳播就能夠輸出冃 標(biāo)檢測結(jié)果,這也是其名字中single shot”的來源。圖2-5描述了 SSD的檢測流程。一張圖片輸入CNN計算特征,CNN中K 個不同層的feature map (圖中以K = 4為例)會與檢測模塊相連。每個檢測模塊 會根據(jù)其輸入的feature map進(jìn)行冃標(biāo)檢測并輸出檢測結(jié)果,來自不同檢測模塊 的檢測結(jié)果被匯總到一起,經(jīng)過非極大值抑制得到最終的檢測結(jié)果。SSD每個檢測模塊的輸入是網(wǎng)絡(luò)中某一卷積層的feature map,輸出是若T包 圍盒,毎個包圍盒對應(yīng)著c個分類分?jǐn)?shù)(c

57、為目標(biāo)總類別數(shù))。檢測模塊的工作 機(jī)制與Faster R-CNN中的RPN相似:斤的滑動窗在feature map 滑動,每個 滑動窗的位置都在原圖上關(guān)聯(lián)著k個預(yù)先定義好的不同形狀的包圍盒,SSD中稱 為缺省盒(default box);在滑動窗的每個位置,對該位置關(guān)聯(lián)的所有default box 進(jìn)行c類分類、包圍盒回歸。其中,分類由X/2卷積層實現(xiàn),輸出通道數(shù)為伙, 后接softmax;回歸由/lx總卷積層實現(xiàn),輸出通道數(shù)為4R。Figure 2-5 Detection pipeline of SSD與R-CNN系列方法只在CNN最高層feature map上進(jìn)行檢測不同,SSD在 CNN中多個不同層的feature map上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論