版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中北大學(xué)信息商務(wù)學(xué)院第第頁(yè)共36頁(yè)1緒論隨著互聯(lián)網(wǎng)和多媒體技術(shù)的快速發(fā)展,世界進(jìn)入了一個(gè)嶄新的信息化時(shí)代。以圖像、動(dòng)畫(huà)、視頻為主要元素的各種多媒體信息構(gòu)成了信息傳播的主力。最近幾年以來(lái)隨著既有拍照功能的便攜式電子設(shè)備,比如智能手機(jī),平板電腦等,隨著技術(shù)的不斷更新升級(jí),人們急需一種方便的應(yīng)用程序來(lái)提取處理圖像中內(nèi)嵌的文本信息。這都使得彩色圖像下的文本的提取成為一個(gè)很有意義的研究課題。彩色圖像中的文本提取即為彩色圖像中文本定位,是很困難的問(wèn)題。由于其廣泛的應(yīng)用領(lǐng)域越來(lái)越受到人們的重視。因此,將圖像中的文本提取出來(lái)將便于不停國(guó)家,不同文化之間的交流。1.1研究意義和背景隨著計(jì)算機(jī)技術(shù)、多媒體技術(shù)和通訊技術(shù)的發(fā)展,以圖像、聲音和視頻為主的多媒體信息的應(yīng)用越來(lái)越廣泛,圖像中的文本信息對(duì)檢索和瀏覽有十分重要的意義。在彩色圖像中,文本信息包含了豐富的高層語(yǔ)義信息[1]。文本可以作為圖像的內(nèi)容標(biāo)識(shí)和索引,是圖像內(nèi)容重要程度的判斷依據(jù),例如出現(xiàn)醒目文字的幀,可以抽取出來(lái)作為對(duì)應(yīng)的圖像的代表幀。如果這些文字信息能自動(dòng)準(zhǔn)確的被檢測(cè)、分割、識(shí)別出來(lái),則對(duì)圖像高層語(yǔ)義的自動(dòng)理解、索引和檢索是非常有價(jià)值的。隨著技術(shù)的不斷發(fā)展,人們對(duì)彩色圖像中文字提取進(jìn)行了廣泛的研究,并已有許多成熟的技術(shù)應(yīng)用在各個(gè)領(lǐng)域,如交通管理中的汽車(chē)牌照識(shí)別和港口貨物管理的集裝箱編碼識(shí)別等。但自然場(chǎng)景中的文本分割依然面臨著許多復(fù)雜的問(wèn)題,主要原因是:(1)文字和其他自然景物混雜在一起,如樹(shù)、窗戶和房屋建筑等,背景復(fù)雜;(2)文字的顏色多種多樣;(3)文字的字體和大小復(fù)雜多變;(4)光照的變化等。因此從自然場(chǎng)景圖像中提取文本是一項(xiàng)極具挑戰(zhàn)性的工作。目前已有的文本區(qū)域提取方法大致可以分為四類(lèi):(1)基于邊緣的方法(2)基于紋理的方法(3)基于連通域的方法(4)基于學(xué)習(xí)的方法。在各種自然彩色圖像中,往往可以見(jiàn)到各種各樣的文字,這些文字一般和該圖像的語(yǔ)義內(nèi)容相關(guān),或者提供了某種定位輔助信息。若能準(zhǔn)確的將這些文字信息定位出來(lái),并進(jìn)行處理,使之能夠被傳統(tǒng)的OCR軟件識(shí)別并被轉(zhuǎn)化成為機(jī)器內(nèi)碼,結(jié)合自然語(yǔ)言處理,文本檢索,文本翻譯,語(yǔ)音合成等技術(shù)可以被應(yīng)用到各種領(lǐng)域?qū)崿F(xiàn)。1.2課題發(fā)展現(xiàn)狀針對(duì)圖像、視頻文本檢測(cè)和提取的研究,主要有以下算法:RainerLienhart[2]利用文字顏色的單一性、文本區(qū)域的大小約束、同一文本會(huì)在連續(xù)幾個(gè)視頻幀出現(xiàn)等特點(diǎn),對(duì)文本進(jìn)行檢測(cè)和定位。首先對(duì)視頻幀使用分裂—合并算法,將視頻幀分解成顏色一致的連通元(connectedcomponent)。然后通過(guò)匹配算法,對(duì)連通元進(jìn)行多幀跟蹤,去除那些沒(méi)有連續(xù)多幀出現(xiàn)的連通元。最后通過(guò)對(duì)比度的分析,形狀分析等去除非文本的連通元。該算法要對(duì)每一個(gè)視頻幀進(jìn)行分裂合并算法,而且視頻中生成的連通元絕大部分都不會(huì)是文本,因此算法復(fù)雜度太高,系統(tǒng)效率低。Boon-LockYeo[3]提出利用場(chǎng)景變化來(lái)檢測(cè)視頻文本的出現(xiàn)和消失。算法對(duì)相鄰兩個(gè)視頻幀取差值,在差值圖像中尋找高亮區(qū)域。這種算法只能提取高亮的視頻字幕,而不能提取非高亮度的字幕,而且也會(huì)受到較亮的物體的干擾。Byung[4]提出用字符的拓?fù)浣Y(jié)構(gòu)特征來(lái)提取字符文本區(qū)域,然后對(duì)視頻字幕區(qū)域進(jìn)行復(fù)原。該算法是基于單個(gè)視頻幀圖像的字幕提取,效果并不明顯。MarcoBertin{5]利用角點(diǎn)特征來(lái)進(jìn)行的視頻字幕檢測(cè)。這種算法實(shí)質(zhì)上類(lèi)似于基于灰度邊緣的算法等。王辰等[6]等通過(guò)灰度邊緣檢測(cè)來(lái)定位文本區(qū)域。首先提取視頻幀的灰度邊緣,然后合并相鄰的邊緣,生成候選文本區(qū)域,最后用一些啟發(fā)式規(guī)則來(lái)去除虛假的文本區(qū)域。該算法不能提取灰度值和背景接近的文本。王勇等[7]提出一種基于邊緣點(diǎn)密度的視頻字幕自適應(yīng)檢測(cè)算法。采用基于邊緣檢測(cè)的方法,結(jié)合文字圖像區(qū)域本身的特點(diǎn),在對(duì)原圖像進(jìn)行邊緣檢測(cè)和形態(tài)學(xué)膨脹后,對(duì)其在水平和垂直方向的邊緣密度投影采用一種自適應(yīng)的檢測(cè)算法,從而檢測(cè)得到字幕圖像區(qū)域。該算法的優(yōu)點(diǎn)是可以檢測(cè)出各種字體大小的文本行。但是算法不能提取灰度值和背景接近的文本。郭麗等[8]提出一種基于顏色邊緣點(diǎn)和游程平滑的視頻文本提取算法。黃曉東等[15]綜合應(yīng)用小波變換和顏色聚類(lèi)技術(shù)來(lái)提取視頻幀中的字幕區(qū)域。首先,通過(guò)小波變換計(jì)算視頻中的局部能力特征,能量高的區(qū)域作為候選字幕區(qū)域。然后利用字幕顏色一致的特征,進(jìn)行鄰域顏色聚類(lèi)算法,從背景中分離出字幕。最后利用字幕屬性特征消除噪聲。但是該算法容易受到顏色一致的物體的干擾。處理圖像的時(shí)間較長(zhǎng)。1.3本文主要研究方向課題的主要目標(biāo)就是在彩色圖像下提取文本信息,二值化分割進(jìn)而識(shí)別文字這一特定語(yǔ)義對(duì)象。在各種彩色圖像中,往往可以見(jiàn)到各種各樣的文字,這些文字一般和該圖像的語(yǔ)義內(nèi)容相關(guān),或者提供了某種定位輔助信息。若能準(zhǔn)確的將這些文字信息定位出來(lái),并進(jìn)行處理,使之能夠被傳統(tǒng)的OCR軟件識(shí)別并被轉(zhuǎn)化成為機(jī)器內(nèi)碼,結(jié)合自然語(yǔ)言處理,文本檢索,文本翻譯,語(yǔ)音合成等技術(shù)可以被應(yīng)用到各種應(yīng)用領(lǐng)域。對(duì)圖像中文字的提取首先確定包含文字的圖像區(qū)域,濾除非文本背景的干擾,把彩色圖像中的文本區(qū)域定位出來(lái),這是文字提取工作中最難、最關(guān)鍵的環(huán)節(jié),確定包含文字圖像的區(qū)域后,利用文本特征制定啟發(fā)式規(guī)則,濾除非文本區(qū)域,得到二值化文本字符,為了方便后面的文字抽取,在字符抽取前進(jìn)行一次文字區(qū)域圖像質(zhì)量的改善也很有必要,對(duì)文字提取后,最終采用OCR技術(shù)對(duì)字符進(jìn)行識(shí)別。1.4本文主要內(nèi)容與安排論文從課題出發(fā),第一章緒論中闡述了彩色圖像中文本信息提取的四種方式,然后比較對(duì)于不同場(chǎng)景和復(fù)雜背景各種方式的可操作性。并將完整的文字提取系統(tǒng)劃分為文字定位、文字分割和文字識(shí)別三個(gè)階段,指出前兩部分是本文所要解決的問(wèn)題所在。第二章主要介紹了文本定位與提取方法綜述,簡(jiǎn)單的介紹文本提取原理,對(duì)文本粗提取與細(xì)提取的步驟進(jìn)行了闡述。第三章文本預(yù)處理,主要介紹了對(duì)文本的灰度化,直方均衡,和圖像降噪等等,使提取出來(lái)的圖像對(duì)后面的文本細(xì)定位做了準(zhǔn)備。第四章結(jié)合邊緣檢測(cè)和數(shù)學(xué)形態(tài)學(xué)特征對(duì)文字進(jìn)行定位,邊緣檢測(cè)算法中5種算子的比較,基于邊緣的圖像文本處理技術(shù)。應(yīng)用了基于彩色圖像的canny算子邊緣的方法。結(jié)合數(shù)學(xué)形態(tài)學(xué)中各種運(yùn)算做了文本細(xì)定位。第五章介紹文字分割典型的常見(jiàn)手法并且加以比較,針對(duì)彩色圖像中文本定位提取的問(wèn)題,對(duì)文本區(qū)域進(jìn)行字符提取,成功提取出單個(gè)字符串。第六章展望與總結(jié)。2.彩色圖像文本特征分析與提取人們識(shí)別文本的過(guò)程不是有規(guī)律的基于邏輯的思維方式,而是一種無(wú)規(guī)則的基于直覺(jué)的思維方式。目前電腦還達(dá)不到模擬人類(lèi)直覺(jué)思維方式的水平,它只能利用大量的運(yùn)算來(lái)逼近人們的類(lèi)比識(shí)別過(guò)程,因此某一些特定的數(shù)學(xué)運(yùn)算并不足以適應(yīng)多種情況下大的需要,并且對(duì)于圖像中的目標(biāo)文本而言,文本不單單以一種特定形式表現(xiàn),而是根據(jù)不同的情況存在有不同的表現(xiàn)方式,比如顏色、梯度、紋理、邊緣等等。2.1彩色文本提取常用方法目前存在的很多圖像文本提取技術(shù)有很強(qiáng)的針對(duì)性,對(duì)于不同的文本特征,比較適用的提取方法如表2.1所示。表2.1文本提取技術(shù)及其對(duì)應(yīng)的文本特征文本提取技術(shù)對(duì)應(yīng)文本特征具體實(shí)現(xiàn)方案基于連通分量的技術(shù)顏色、灰度值閾值化方法,顏色聚類(lèi),顏色量化基于邊緣的技術(shù)邊緣和梯度邊緣檢測(cè)算子基于紋理的技術(shù)紋理和梯度K-mean方法基于學(xué)習(xí)的技術(shù)像素灰度值、彩色梯度神經(jīng)網(wǎng)絡(luò),支持向量機(jī)目前文字識(shí)別各種技術(shù)相對(duì)成熟并已經(jīng)投入實(shí)際應(yīng)用。相比之下,如何準(zhǔn)確的將文字區(qū)域提取出來(lái)目前還處于探索階段。其主要的難點(diǎn)在于:文本存在于復(fù)雜背景之中難以區(qū)分;文本存在嚴(yán)重的形變和幾何畸變;自然環(huán)境下由于照度的不均勻、陰影、反射等原因等造成的文本圖像的亮度變化。由于存在這些難點(diǎn),才使得圖像文字提取成為一個(gè)值得深入研究的課題。通常情況下根據(jù)文本對(duì)象的存在形式將文本分為人工文本和場(chǎng)景文本。目前的研究主要集中于對(duì)人工文本的研究,而場(chǎng)景文本的研究剛剛起步。文本提取的研究思路主要集中于應(yīng)用各種圖像處理的方法將文字區(qū)域的邊角特征、色彩特征和紋理特征突出,然后根據(jù)一定的分類(lèi)算法來(lái)劃分候選的區(qū)域,經(jīng)過(guò)進(jìn)一步的后處理來(lái)最終確定實(shí)際的文本區(qū)域。在本文將文本的定位、定位與提取、作為文本區(qū)域提取整體來(lái)討論,包含預(yù)處理、特征提取、分類(lèi)(定位)、生成候選區(qū)域、文本區(qū)域提取幾個(gè)步驟來(lái)解決文本區(qū)域的準(zhǔn)確提取問(wèn)題。在本文將文本的定位、定位與提取、作為文本區(qū)域提取整體來(lái)討論,包含預(yù)處理、特征提取、分類(lèi)(定位)、生成候選區(qū)域、文本區(qū)域提取幾個(gè)步驟來(lái)解決文本區(qū)域的準(zhǔn)確提取問(wèn)題。彩色圖像文本提取流程如下圖所示。字符識(shí)別圖像采集字符分割文字定位圖像預(yù)處理字符識(shí)別圖像采集字符分割文字定位圖像預(yù)處理圖2.1彩色圖像文本提取文本信息提取流程包含了文字定位、文字分割和光學(xué)字符識(shí)別(OCR)三個(gè)串聯(lián)的階段。本文主要介紹文字定位和文字分割。在第一部分圖像采集中,主要通過(guò)CCD攝像頭與計(jì)算機(jī)的視頻捕捉卡直接相連來(lái)完成圖像采集。該部分功能可簡(jiǎn)單調(diào)用計(jì)算機(jī)視頻捕捉卡廠商提供的各種軟件開(kāi)發(fā)包工具即可實(shí)現(xiàn)。彩色圖像中的文本提取的關(guān)鍵在于后四部分。首先要對(duì)采集到的圖像進(jìn)行預(yù)處理,而文本定位又決定其后的文本字符識(shí)別,因此文本域定位是關(guān)鍵,文本區(qū)域定位就是從包含整個(gè)圖像中找到文本所在區(qū)域的位置。目前,已經(jīng)提出了很多種方法,一個(gè)共同的出發(fā)點(diǎn)是:通過(guò)文本的特征來(lái)判斷區(qū)域,利用的文本特征主要包括:文本區(qū)域內(nèi)的邊緣灰度直方圖統(tǒng)計(jì)“特征”、文本的幾何特征、文本區(qū)域的灰度分布特征、文本區(qū)域水平或垂直投影特征、文本形狀特征和頻譜特征。2.2圖像預(yù)處理根據(jù)三基色原理,世界上任何色彩都可以由紅綠藍(lán)(RGB)三色不同比例的混合來(lái)表示,如果紅綠藍(lán)(RGB)三個(gè)信號(hào)分別由一個(gè)字節(jié)表示,則該圖像顏色位數(shù)就達(dá)到二十四位真彩,也就是說(shuō)在二十四位真彩的數(shù)字圖像中每個(gè)像素點(diǎn)由三個(gè)字節(jié)來(lái)表示,根據(jù)數(shù)字圖像水平和垂直方向像素點(diǎn)數(shù)(即圖像分辨率)可計(jì)算出一幅圖像實(shí)際位圖大小。通常文字在字體、大小、顏色、對(duì)齊方式和排列方向上常常有很大的變化,文字背景復(fù)雜,圖像分辨率低,圖像噪聲高,而且很多系統(tǒng)在應(yīng)用上還要求算法有較高的處理速度,這些都使得從圖像中有效地提取出文字變得異常困難。但我們可以對(duì)圖像根據(jù)不同應(yīng)用特點(diǎn)進(jìn)行識(shí)別前的預(yù)處理,盡最大可能提高文本正確識(shí)別率,這些圖像預(yù)處理包括圖像平滑、傾斜校正、直方圖均衡化、灰度修正等。2.3文字定位彩色圖像往往是在復(fù)雜的環(huán)境中得到的,圖像中往往有很大的形變,如何在復(fù)雜背景中準(zhǔn)確、快速找出文本的位置成為文本識(shí)別中的難點(diǎn)[10]。目前已有不少學(xué)者在這方面進(jìn)行了研究??偨Y(jié)起來(lái)主要有如下幾類(lèi)方法:(1)基于水平灰度變化特征的方法,這種方法主要在文本定位以前,需要對(duì)圖像進(jìn)行預(yù)處理,將彩色圖像轉(zhuǎn)換為灰度圖像。(2)基于邊緣檢測(cè)的定位方法,這種方法是利用文本區(qū)域豐富的邊緣特征進(jìn)行文字定位[11],能夠進(jìn)行檢測(cè)的方法有多種,如Roberts邊緣算子、Prewitt算子、Sobel算子以及拉普拉斯邊緣檢測(cè);(3)基于顏色特征的定位方法,這種方法主要是應(yīng)用圖像的紋理特征、形狀特征和顏色特征即利用字符和底色具有明顯的反差特征來(lái)排除干擾進(jìn)行文字的定位;(4)基于數(shù)學(xué)形態(tài)學(xué)的定位方法,這種方法是利用數(shù)學(xué)形態(tài)學(xué)圖像處理的基本思想,利用一個(gè)結(jié)構(gòu)元素來(lái)探測(cè)一個(gè)圖像,看是否能將這個(gè)結(jié)構(gòu)元素很好的填放在圖像內(nèi)部,同時(shí)驗(yàn)證填放元素的方法是否有效。腐蝕、膨脹、開(kāi)啟和關(guān)閉是數(shù)學(xué)形態(tài)學(xué)的基本運(yùn)算。這些方法各有優(yōu)缺點(diǎn),本文結(jié)合數(shù)學(xué)形態(tài)學(xué)的特征和邊緣檢測(cè)對(duì)文本進(jìn)行定位,對(duì)于提高文本定位準(zhǔn)確率提供更有利的保障。該方法包括文字區(qū)域的粗定位和細(xì)定位兩個(gè)步驟。在粗定位階段中采用了基于數(shù)學(xué)形態(tài)學(xué)的定位方法,在得到定位圖像后進(jìn)行細(xì)定位,在細(xì)定位中采用顏色特征的方法以獲得最后定位圖像。本方法對(duì)在多種光照條件下采集的彩色圖像、背景復(fù)雜等情形,均能取得較好的定位效果。2.3.1文本粗定位由攝像機(jī)采集的彩色圖像首先轉(zhuǎn)化為灰度圖像,經(jīng)過(guò)灰度均衡變換、Canny邊緣強(qiáng)化,其邊緣得到了勾勒和加強(qiáng)。這里選用的是數(shù)學(xué)形態(tài)學(xué)的方法,其基本思想是用具有一定形態(tài)的機(jī)構(gòu)元素去量度和提取圖像中的對(duì)應(yīng)形狀以達(dá)到對(duì)圖像分析和識(shí)別的目的。數(shù)學(xué)形態(tài)學(xué)的應(yīng)用可以簡(jiǎn)化圖像數(shù)據(jù),保持它們基本的形態(tài)特征,并除去不相干的結(jié)構(gòu)。在本文中用到了膨脹和開(kāi)運(yùn)算這兩個(gè)基本運(yùn)算。2.3.2文本細(xì)定位在獲得文本粗定位后,利用彩色圖像的彩色分割方法。根據(jù)圖片底色等有關(guān)的先驗(yàn)知識(shí),采用彩色像素點(diǎn)統(tǒng)計(jì)的方法分割出合理的文本區(qū)域,確定圖片底色RGB對(duì)應(yīng)的各自灰度范圍,然后行方向統(tǒng)計(jì)在此顏色范圍內(nèi)的像素點(diǎn)數(shù)量,設(shè)定合理的閾值,確定車(chē)牌在行方向的合理區(qū)域。然后,在分割出的行區(qū)域內(nèi),統(tǒng)計(jì)列方向藍(lán)色像素點(diǎn)的數(shù)量,最終確定完整的車(chē)牌區(qū)域。2.4文本分割圖像的分割即把文本區(qū)域分割成單字符區(qū)域,以便后續(xù)進(jìn)行識(shí)別。文字分割的難點(diǎn)在于噪聲合字符粘連,斷裂對(duì)字符的影響。要想從圖像中直接提取出目標(biāo)物體,最常用的方法就是設(shè)定一個(gè)閾值T,用T將圖像的數(shù)據(jù)分成兩部分:大于T的像素群和小于T的像素群,即對(duì)圖像二值化。均值濾波是典型的線性濾波算法,它是指在圖像上對(duì)目標(biāo)像素給一個(gè)模板,該模板包括了其周?chē)呐R近像素。再用模板中的全體像素的平均值來(lái)代替原來(lái)像素值。2.5本章小結(jié):本章主要介紹了目前彩色圖像中文本信息的提取流程,對(duì)各個(gè)步驟進(jìn)行了簡(jiǎn)單的概述。想要精確的提取出文本區(qū)域,必須綜合考慮文本的各種特征,在初步提取的基礎(chǔ)上利用各種限制性條件,濾除非文本區(qū)域,得到目標(biāo)文本。3圖像預(yù)處理因?yàn)樘鞖饣蛘吲臄z角度等原因會(huì)造成圖像模糊、歪斜或缺損的情況,所以我們?cè)诜治鰣D像文本時(shí)要對(duì)圖像進(jìn)行預(yù)處理,一般動(dòng)作有對(duì)輸入的灰度圖像進(jìn)行大小歸一化,避免因圖像的變形而影響后續(xù)的處理,通過(guò)灰度拉伸增強(qiáng)圖像對(duì)比度,通過(guò)二值化處理實(shí)現(xiàn)圖像中背景和對(duì)象的分割。采用動(dòng)態(tài)閾值法確定圖像二值化的關(guān)鍵閾值,使用帶修正的自適應(yīng)鄰域平均法消除圖像干擾和噪音一般對(duì)灰度圖像可以實(shí)現(xiàn)較好的處理效果。3.1灰度校正由于圖像受到種種條件的現(xiàn)實(shí)和干擾,圖像的灰度值往往與實(shí)際景物不完全平匹配,這將直接影響到圖像的后續(xù)處理,如果造成這種影響的原因主要是被攝物體遠(yuǎn)近不同,或是由于曝光不足而使得圖像灰度變化范圍變窄。這時(shí)就可以采用灰度校正的方法來(lái)處理,增強(qiáng)灰度的變化范圍,豐富灰度層次,以達(dá)到增強(qiáng)圖像的對(duì)比率和分辨率。在RGB模型中,如果R=G=B時(shí),則彩色表示一種灰度顏色,其中R=G=B的值叫灰度值,因此,灰度圖像每個(gè)像素只需一個(gè)字節(jié)存放灰度值(又稱強(qiáng)度值、亮度值),灰度范圍為0-255。根據(jù)人類(lèi)色彩感光特性,可以采用以下公式計(jì)算得到彩色圖像中各個(gè)像素的灰度值。(3.1)為避免浮點(diǎn)數(shù)計(jì)算,加快計(jì)算速度,叫以用式(2)代替式(1)運(yùn)算。(3.2)其中考慮了整數(shù)除法的四舍五入。式(3.2)可進(jìn)一步簡(jiǎn)化為:(3.3)這使得運(yùn)算時(shí)間進(jìn)步縮短。實(shí)驗(yàn)時(shí),系統(tǒng)采用式(4)進(jìn)行灰度化計(jì)算。(3.4)一般有以下三種方法對(duì)彩色圖像進(jìn)行灰度化:1.分量法將彩色圖像中的三分量的亮度作為三個(gè)灰度圖像的灰度值,可根據(jù)應(yīng)用需要選取一種灰度圖像。2.最大值法將彩色圖像中的三分量亮度的最大值作為灰度圖的灰度值。3.平均值法將彩色圖像中的三分量亮度求平均得到一個(gè)灰度圖[14]。綜上所述,將原圖像轉(zhuǎn)化為灰度化如圖3.1所示。(a)原圖(b)灰度化圖像圖3.1原圖像轉(zhuǎn)化為灰度化3.2圖像降噪彩色圖像受到光照等影響,圖像的輸入、采集、處理的各個(gè)環(huán)節(jié)以及最終的輸出結(jié)果都會(huì)產(chǎn)生一定的影響,特別是在圖像的輸入、采集過(guò)程中,若輸入伴有較大噪聲,必定會(huì)對(duì)其后的處理以及最終的文字提取效果造成不利。因此,對(duì)圖像進(jìn)行去噪對(duì)圖像文本的提取很是重要。3.2.1均值濾波均值濾波也稱為線性濾波,其采用的主要方法為鄰域平均法。其基本原理是用均值替代原圖像中的各個(gè)像素值,即對(duì)待處理的當(dāng)前像素點(diǎn),選擇一個(gè)模板,該模板由其近鄰的若干像素組成,求模板中所有像素的均值,再把該均值賦予當(dāng)前像素點(diǎn),作為處理后圖像在該點(diǎn)上的灰度:(3.5)其中,為模板,為該模板中包含當(dāng)前像素在內(nèi)的像素總個(gè)數(shù)。3.2.2中值濾波中值濾波是基于排序統(tǒng)計(jì)理論的一種能有效抑制噪聲的非線性信號(hào)處理技術(shù)。其實(shí)現(xiàn)原理如下:將某個(gè)像素鄰域中的像素按灰度值進(jìn)行排序,然后選擇該序列的中間值作為輸出的像素值,讓周?chē)袼鼗叶戎档牟畋容^大的像素改取與周?chē)南袼刂到咏闹?從而可以消除孤立的噪聲點(diǎn)。其具體的操作是:首先確定一個(gè)以某個(gè)像素為中心點(diǎn)的領(lǐng)域,一般為方形領(lǐng)域(如3*3、5*5的矩形領(lǐng)域),然后將領(lǐng)域中的各個(gè)像素的灰度值進(jìn)行排序。假設(shè)其排序?yàn)?,(3.6)取排好序的序列的中間值作為中心點(diǎn)像素灰度的新值,這里的鄰域通常被稱為窗口。當(dāng)窗口在圖像中上下左右進(jìn)行移動(dòng)后,利用中值濾波算法可以很好地對(duì)圖像進(jìn)行平滑處理。本文應(yīng)用中值濾波對(duì)圖像進(jìn)行降噪,所以根據(jù)中值濾波原理可知,通過(guò)數(shù)據(jù)排序的方法,將圖像中未被噪聲污染的點(diǎn)代替噪聲點(diǎn)的值的概率比較大,因此噪聲的抑制效果很好,同時(shí)畫(huà)面的輪廓依然比較清晰。如下即分別為用中值濾波處理后的圖像:(a)原圖(b)中值濾波處理圖圖3.2圖像降噪處理圖3.3灰度直方圖修正直方圖是圖像的最基本的統(tǒng)計(jì)特征,它反映的是圖像的灰度值的分布情況。直方圖均衡化的目的是使圖像在整個(gè)灰度值動(dòng)態(tài)范圍內(nèi)的分布均勻化,改善圖像的亮度分布狀態(tài),增強(qiáng)圖像的視覺(jué)效果?;叶戎狈綀D是圖像預(yù)處理涉及最廣泛的基本概念之一。圖像的直方圖事實(shí)上就是圖像的亮度分布的概率密度函數(shù),是一幅圖像的所有像素集合的最基本的統(tǒng)計(jì)規(guī)律。直方圖反映了圖像的明暗分布規(guī)律,可以通過(guò)圖像變換進(jìn)行直方圖調(diào)整,獲得較好的視覺(jué)效果[17]。一幅給定圖像的灰度級(jí)經(jīng)歸一化處理后,分布在范圍內(nèi)。這時(shí)可以對(duì)[0,1]區(qū)間內(nèi)的任意一個(gè)r值進(jìn)行如下變換:(3.7)也就是說(shuō),通過(guò)上述變換,每個(gè)原始圖像的像素值r都對(duì)應(yīng)產(chǎn)生一個(gè)s值。變換函數(shù)應(yīng)該滿足下列條件:=1\*GB3①在區(qū)間內(nèi),是單值單調(diào)增加;=2\*GB3②對(duì)于,有這里第一個(gè)條件保證了圖像的灰度級(jí)西歐哪個(gè)白到黑的次序不變和反變換函數(shù)的存在。第二個(gè)條件則保證了映射變化后的像素灰度值在允許的范圍內(nèi)。從s到r的反變換可用式(3.8)表示,同樣也滿足上述兩個(gè)條件(3.8)由概率論理論可知,若已知隨機(jī)變量的概率密度為,而隨機(jī)變量是的函數(shù),即,的概率密度為,所以可以由求出。因?yàn)槭菃握{(diào)增加的,由數(shù)學(xué)分析可知,它的反函數(shù)也是單調(diào)函數(shù)。在這種情況下,當(dāng),且僅當(dāng)時(shí)發(fā)生,所以可以求得隨即變量的分布函數(shù)為:(3.9)對(duì)式(3.9)兩邊求導(dǎo),即可得到隨即變量的分布密度函數(shù)為:(3.10)由式(3.10)可知,對(duì)于連續(xù)情況,設(shè)和分別表示原圖像和變換后圖像的灰度級(jí)概率密度函數(shù)。根據(jù)概率論的知識(shí),在已知和變換函數(shù)時(shí),反變換函數(shù)也是單調(diào)增長(zhǎng),則可由式(3.10)求出。(a)原灰度圖像(b)直方圖均衡圖3.3直方圖均衡處理3.2平滑處理對(duì)于受噪聲干擾嚴(yán)重的圖像,由于噪音點(diǎn)多在頻譜中映射為高頻分量,因此可以通過(guò)中值濾波來(lái)濾除噪音,但實(shí)際中為了簡(jiǎn)化算法也可以直接在空域中用求領(lǐng)域平均值得方法來(lái)消弱噪音影響。這種方法就是平滑處理。經(jīng)過(guò)上述方法分割出來(lái)的文本區(qū)域圖像中存在目標(biāo)文本、背景還有噪聲,要想從圖像中直接提取目標(biāo)物體,最常用的方法就是設(shè)定一個(gè)閾值T,用T將圖像的數(shù)據(jù)分成兩部分:大于T的像素群和小于T的像素群,即對(duì)圖像的二值化。均值濾波是典型的線性濾波算法,它是指在圖像上對(duì)目標(biāo)像素給一個(gè)模板,該模板包括了周?chē)呐R近像素,再用模板中的全體像素的平均值來(lái)代替原來(lái)的像素值。3.5本章小結(jié):對(duì)圖像中文本區(qū)域的細(xì)定位首先要是對(duì)圖像進(jìn)行預(yù)處理,本章著重介紹了目前常用的預(yù)處理方法,通常文字在字體、大小、顏色、對(duì)齊方式和排列方向上常常有很大的變化,文字背景復(fù)雜,圖像分辨率低,圖像噪聲高,而且很多系統(tǒng)在應(yīng)用上還要求算法有較高的處理速度,這些都使得從圖像中有效地提取出文字變得異常困難。但我們可以對(duì)圖像根據(jù)不同應(yīng)用特點(diǎn)進(jìn)行識(shí)別前的預(yù)處理,盡最大可能提高文本正確識(shí)別率,這些圖像預(yù)處理包括圖像平滑、傾斜校正、灰度修正等。4文本定位在獲得預(yù)處理的圖像后,利用彩色圖像的彩色分割方法。根據(jù)圖片底色等有關(guān)的先驗(yàn)知識(shí),采用彩色像素點(diǎn)統(tǒng)計(jì)的方法分割出合理的文本區(qū)域,確定圖片底色RGB對(duì)應(yīng)的各自灰度范圍,然后行方向統(tǒng)計(jì)在此顏色范圍內(nèi)的像素點(diǎn)數(shù)量,設(shè)定合理的閾值,確定文本在行方向的合理區(qū)域。然后,在分割出的行區(qū)域內(nèi),統(tǒng)計(jì)列方向藍(lán)色像素點(diǎn)的數(shù)量,最終確定完整的文字區(qū)域。本文應(yīng)用基于邊緣的方法實(shí)現(xiàn)對(duì)文本的定位。僅僅依靠單一文本特征的圖像分割方法不適于復(fù)雜彩色圖像文本的提取,必須要在初步提取的基礎(chǔ)上,考慮更多的文本特征,對(duì)候選文本區(qū)域進(jìn)行篩選。鑒于圖像的邊緣是圖像的最基本特征之一,人們?cè)谟^察一幅圖像時(shí),最先得到的信息就是圖像的外形輪廓(邊緣)。因此,本章提出一種基于邊緣的文本檢測(cè)算法,借助圖像的邊緣特征為主要特征,顏色尺寸等特征為輔,更好地分割識(shí)別出彩色圖像中的文本。其文本定位如下圖示:(a)原圖像(b)梯度分割結(jié)果圖4.1圖像定位結(jié)果4.1圖像邊緣檢測(cè)技術(shù)根據(jù)邊緣是圖像上灰度值的變化最為劇烈的地方,反映為數(shù)學(xué)表達(dá)就是函數(shù)梯度比較大的地方,因此邊緣檢測(cè)的思路主要集中在研究比較好的求導(dǎo)算子上面[12]。邊緣檢測(cè)的方法主要集中于計(jì)算圖像灰度值的一階導(dǎo)數(shù)或二階導(dǎo)數(shù),圖像的邊緣點(diǎn)對(duì)應(yīng)于一階微分圖像的峰值點(diǎn),在二階微分圖像上對(duì)應(yīng)于零交叉點(diǎn)。一般的圖像邊緣檢測(cè)方法有三個(gè)步驟:圖像濾波,使用濾波器來(lái)改善與噪聲有關(guān)的邊緣檢測(cè)器的性能;圖像增強(qiáng),一般是通過(guò)計(jì)算梯度的幅值來(lái)完成;圖像檢測(cè),確定哪些點(diǎn)是邊緣點(diǎn)。最簡(jiǎn)單的邊緣檢測(cè)判斷依據(jù)是梯度幅值。4.2邊緣檢測(cè)算子邊緣檢測(cè)的基本算法有很多,有梯度算子、方向算子、拉普拉斯算子和坎尼(Canny)算子等等。幾種常用的邊緣檢測(cè)方法有屬于梯度算子的Roberts算子、Sobel算子和Prewitt算子、高斯偏導(dǎo)濾波器(LOG)以及Canny邊緣檢測(cè)器等。下面介紹幾種經(jīng)典的邊緣檢測(cè)算子[13]。4.2.1Sobel算子考慮到采用3×3鄰域可以避免在像素之間內(nèi)插點(diǎn)上計(jì)算梯度,設(shè)計(jì)出下圖4.1中所示的點(diǎn)[i,j]周?chē)c(diǎn)的排列。Sobel算子即是如此排列的一種梯度幅值,(4.1)其中(4.2)其中的偏導(dǎo)數(shù)用下式計(jì)算(如圖4.1):(4.3)其中常數(shù)c=2,和其他的梯度算子一樣,和,可用卷積模板來(lái)實(shí)現(xiàn),請(qǐng)注意這一算子把重點(diǎn)放在接近于模板中心的像素點(diǎn)。Sobel算子是邊緣檢測(cè)器中最常用的算子之一。4.2.2Prewitt算子Prewitt算子類(lèi)似于Sobel算子,不同的是常系數(shù)c=l。由于常量c的不同,這一算子與Sobel算子不同的地方在于沒(méi)有把重點(diǎn)放在接近模板中心的像素點(diǎn)。當(dāng)用兩個(gè)掩模板(卷積算子)組成邊緣檢測(cè)器時(shí),通常取較大的幅度作為輸出值。這使得它們對(duì)邊緣的走向有些敏感。取它們的平方和的開(kāi)方可以獲得性能更一致的全方位的響應(yīng)。這與真實(shí)的梯度值更接近。另一種方法是,可以將Prewitt算子擴(kuò)展成八個(gè)方向,即邊緣樣板算子。這些算子樣板由理想的邊緣子圖構(gòu)成。依次用邊緣樣板去檢測(cè)圖像,與被檢測(cè)區(qū)域最為相似的樣板給出最大值。用這個(gè)最大值作為算子的輸出值MIA,這樣可將邊緣像素檢測(cè)出來(lái)[13]。4.2.3Roberts算子1963年Roberts提出了邊緣檢測(cè)和邊緣檢測(cè)的這個(gè)簡(jiǎn)單算子[14]。邊緣,是指周?chē)袼鼗叶扔须A躍變化或屋頂?shù)茸兓哪切┫袼氐募?。圖像的邊緣對(duì)應(yīng)著圖像灰度的不連續(xù)性。顯然圖像的邊緣很少是從一個(gè)灰度跳到另一個(gè)灰度這樣的理想狀況。真實(shí)圖像的邊緣通常都具有有限的寬度呈現(xiàn)出陡峭的斜坡?tīng)?。邊緣的銳利程度由圖像灰度的梯度決定。梯度是一個(gè)向量,?f指出灰度變化的最快的方向和數(shù)量。(4.4)梯度的大小和方向是由:(4.5)(4.6)因此最簡(jiǎn)單的邊緣檢測(cè)算子是用圖像的垂直和水平差分來(lái)逼近梯度算子: (4.7)因此當(dāng)我想尋找邊緣的時(shí)候,最簡(jiǎn)單的方法是對(duì)每一個(gè)像素計(jì)算出的向量,然后求出他的絕對(duì)值,然后進(jìn)行閥值操作就可以了。利用這種思想就得到了Roberts算子:(4.8)它是一個(gè)兩個(gè)2×2模板作用的結(jié)果(標(biāo)注.的是當(dāng)前像素的位置):和4.2.4Log算子前面都是利用邊緣處的梯度最大(正的或負(fù)的)這一性質(zhì)來(lái)進(jìn)行邊緣檢測(cè),即利用了灰度圖像的拐點(diǎn)位置是邊緣的性質(zhì)。Log算法理論是從生物視覺(jué)理論導(dǎo)出的方法。其基本思想是:首先在一定范圍內(nèi)做平滑濾波,然后利用差分算子檢測(cè)在相應(yīng)尺度上的邊緣。濾波器的選擇取決于兩個(gè)因素,一是要求濾波器在空間上平穩(wěn),空間位置誤差要小,二是要求平滑濾波器本身是帶通濾波器,在其有限帶通內(nèi)是平穩(wěn)的,即要求頻域誤差△w要小。由信號(hào)處理中的測(cè)不準(zhǔn)原理知,與△w是矛盾的,達(dá)到測(cè)不準(zhǔn)下限的濾波器是高斯濾波器。Marr和Hildreth提出的差分算子是各向同性的拉普拉斯二階差分算子[15]。Log邊緣檢測(cè)器的基本特征是:平滑濾波器是高斯濾波器2、增強(qiáng)步驟采用二階導(dǎo)數(shù)(二維拉普拉斯函數(shù))3、邊緣檢測(cè)判據(jù)是二階導(dǎo)數(shù)零交叉點(diǎn)并對(duì)應(yīng)一階導(dǎo)數(shù)的較大峰值這種方法的特點(diǎn)是圖像首先與高斯濾波器進(jìn)行卷積,這一步既平滑了圖像又降低了噪聲,孤立的噪聲點(diǎn)和較小的結(jié)構(gòu)組織將被路濾除。由于平滑會(huì)導(dǎo)致邊緣的延展,因此邊緣檢測(cè)器只考慮那些具有局部梯度最大值的點(diǎn)為邊緣點(diǎn),這一點(diǎn)可以用二階倒數(shù)零交叉點(diǎn)來(lái)實(shí)現(xiàn)。拉普拉斯函數(shù)用作二維二階倒數(shù)的近似,是因?yàn)樗且环N無(wú)方向算子。為了避免檢測(cè)出非顯著邊緣,應(yīng)選擇一階導(dǎo)數(shù)大于某一閾值的零交叉點(diǎn)為邊緣點(diǎn)[16]。Log算子的輸出是通過(guò)卷積運(yùn)算得到的:(4.9)根據(jù)卷積求導(dǎo)法有:(4.10)一階導(dǎo)數(shù)的邊緣算子有時(shí)會(huì)導(dǎo)致檢測(cè)的邊緣點(diǎn)太多,檢測(cè)處的邊緣較粗。而二階導(dǎo)數(shù)的過(guò)零點(diǎn)處對(duì)應(yīng)著一階導(dǎo)數(shù)的局部最大值,因此利用二階導(dǎo)數(shù)的算子求得局部梯度最大值對(duì)應(yīng)的點(diǎn),并判定它們屬于邊緣點(diǎn),可以檢測(cè)得出更加精確的邊緣。Canny算子提出了評(píng)價(jià)檢測(cè)性能優(yōu)劣的三個(gè)準(zhǔn)則[28],信噪比準(zhǔn)則(真正的邊緣盡可能少的丟失又要盡可能避免將非邊緣點(diǎn)檢測(cè)為邊緣)、定位精度準(zhǔn)則(檢測(cè)的邊緣應(yīng)盡可能接近真實(shí)的邊緣)、單邊緣響應(yīng)準(zhǔn)則(對(duì)每一個(gè)邊緣點(diǎn)有唯一的響應(yīng),即得到單像素寬度的邊緣)。根據(jù)三個(gè)準(zhǔn)則,可以得到最佳的邊緣。4.2.5Canny算子還有一個(gè)重要的邊緣檢測(cè)算子,即Canny算子,它是最優(yōu)的階梯型邊緣(stepedge)檢測(cè)算子。從以下的3個(gè)標(biāo)準(zhǔn)意義來(lái)說(shuō),Canny邊緣檢測(cè)算子對(duì)白噪聲影響的階躍型邊緣是最優(yōu)。(1)檢測(cè)標(biāo)準(zhǔn)。不丟失重要的邊緣,不應(yīng)有虛假的邊緣。(2)定位標(biāo)準(zhǔn)。實(shí)際邊緣與檢測(cè)到的邊緣位置之間的偏差最小。(3)單響應(yīng)標(biāo)準(zhǔn)。將多個(gè)響應(yīng)降低為單個(gè)邊緣響應(yīng)。Canny邊緣檢測(cè)法是高斯函數(shù)的一階微分,它能在噪聲抑制和邊緣檢測(cè)之間取得較好的平衡[27]。算法如下:1.用3×3高斯濾波器來(lái)對(duì)圖像濾波,以取出圖像中的噪聲。2.對(duì)每個(gè)像素,計(jì)算其梯度的大小M和方向O。為此要使以下2×2大小的模板作為對(duì)X和Y方向偏微分的一階近似。(4.11)由此得到梯度的大小M和方向O:(4.12)對(duì)Canny算子作如下說(shuō)明:1.梯度進(jìn)行“非極大抑制”。梯度的方向可以被定義為屬于4個(gè)區(qū)之一,各個(gè)區(qū)有不同的鄰近像素用來(lái)進(jìn)行比較,以決定局部極大值。這4個(gè)區(qū)及其相應(yīng)的比較方向如下模板所示:例如,如果中心像素x的梯度方向?qū)儆诘?區(qū),則把x的梯度值同它的左上和右下相鄰像素的梯度值比較,看x的梯度值是否是局部極大值。如果不是,則把像素的灰度值設(shè)為0。這個(gè)過(guò)程叫做“非極大抑制”。2.梯度取兩次閾值。3.邊緣連接。Canny算子的實(shí)現(xiàn)步驟如下:(1)首先用2D高斯濾波模板與原始圖像進(jìn)行卷積,以消除噪聲。(2)利用導(dǎo)數(shù)算子(如Prewitt算子、Sobel算子)找到圖像灰度沿兩個(gè)方向的導(dǎo)數(shù),并求出梯度的大?。海?)利用(2)的結(jié)果計(jì)算出梯度的方向:。(4)求出了邊緣的方向,就可以把邊緣的梯度方向大致分為四種(水平、垂直、45°方向和135°方向),并可以找到這個(gè)像素梯度方向的鄰接像素。(5)遍歷圖像。若某個(gè)像素的灰度值與其梯度方向上前后兩個(gè)像素的灰度值相比不是最大的,那么將這個(gè)像素值置為0,即不是邊緣。(6)使用累計(jì)直方圖計(jì)算兩個(gè)閾值。凡是大于高閾值的一定是邊緣,凡是小于低閾值的一定不是邊緣。如果檢測(cè)結(jié)果在兩個(gè)閾值之間,則根據(jù)這個(gè)像素的鄰接像素有沒(méi)有超過(guò)高閾值的邊緣像素,如果有,則它就是邊緣,否則不是[17]。4.3各種圖像邊緣檢測(cè)算法的分析比較Roberts算子提取邊緣的結(jié)果邊緣較粗,邊緣定位不很準(zhǔn)確,Sobel算子和Prewitt算子對(duì)邊緣的定位就準(zhǔn)確了一些,而采用Log算子進(jìn)行邊緣提取的結(jié)果要明顯優(yōu)于前4種算子,特別是邊緣比較完整,位置比較準(zhǔn)確。Canny算子則能較好地體現(xiàn)圖像的弱邊緣[18]。其檢測(cè)結(jié)果如下圖:(a)灰度化調(diào)整圖(b)邊緣檢測(cè)圖圖4.2利用Canny算子的邊緣檢測(cè)圖4.4數(shù)學(xué)形態(tài)學(xué)處理技術(shù)邊緣檢測(cè)之后給出的只是二值邊緣圖像。邊緣圖像的二值化是很重要的問(wèn)題,如果閾值太大可能會(huì)漏掉一些文本邊緣,而閾值太小則可能會(huì)使較多的非文本邊緣被當(dāng)作文本邊緣來(lái)處理,造成較多的誤檢。為了使二值化取得良好的效果,首先對(duì)邊緣圖像進(jìn)行形態(tài)學(xué)填充,彌合孔洞去除噪聲,再進(jìn)行自適應(yīng)的閾值分割獲取二值圖像。最基本的形態(tài)學(xué)算子有四個(gè):腐蝕、膨脹、開(kāi)運(yùn)算以及閉運(yùn)算。4.4.1二值形態(tài)學(xué)1)基本原理數(shù)學(xué)形態(tài)學(xué)是一種非線性的濾波方法,它以嚴(yán)格的數(shù)學(xué)理論和幾何學(xué)為基礎(chǔ),著重研究圖像的幾何結(jié)構(gòu)及相互關(guān)系。其基本思想是:根據(jù)原圖像目標(biāo)特征選取適合的結(jié)構(gòu)元素,利用結(jié)構(gòu)元素對(duì)原圖像進(jìn)行平移、交、并等運(yùn)算,然后將結(jié)果圖輸出。數(shù)學(xué)形態(tài)學(xué)不僅可以簡(jiǎn)化圖像數(shù)據(jù),并能在保持基本形狀特征的基礎(chǔ)上去除不相干結(jié)構(gòu)。數(shù)學(xué)形態(tài)學(xué)的基礎(chǔ)是二值形態(tài)學(xué),基本運(yùn)算主要為腐蝕、膨脹、開(kāi)啟和閉合四種。設(shè)二值圖像集合為A,結(jié)構(gòu)元素集合為B。本文主要運(yùn)用其中的腐蝕、開(kāi)啟運(yùn)算對(duì)圖像進(jìn)行后續(xù)處理。a.腐蝕(Erosion)腐蝕是在結(jié)構(gòu)元素的約束下,消除物體的部分邊界點(diǎn)的一種過(guò)程。運(yùn)算結(jié)果使物體的面積減少了相應(yīng)數(shù)量的點(diǎn)。例如,假設(shè)結(jié)構(gòu)元素是半徑為r個(gè)象素的小圓,被作用的物體是一個(gè)大圓。腐蝕運(yùn)算的結(jié)果是沿大圓邊界向內(nèi)減少了r個(gè)象素的寬度,即直徑減少2r。如果被作用的圖象中的物體在某一處寬度小于2r+1,腐蝕的結(jié)果將使物體在該點(diǎn)斷開(kāi),分裂為兩個(gè)物體。在任何方向?qū)挾炔淮笥?r個(gè)象素的物體將被消除。腐蝕運(yùn)算的數(shù)學(xué)定義為:(4.13)上式的含義是,結(jié)構(gòu)元素B平移至點(diǎn)x后仍在A中,或B完全包含在A中時(shí),B的原點(diǎn)處象素點(diǎn)x的集合。A是由多個(gè)象素點(diǎn)連接成的圖像物體,結(jié)構(gòu)元素B是直角連接的三個(gè)象素。符號(hào)“+”代表該結(jié)構(gòu)元素的原點(diǎn),本例中,原點(diǎn)位于結(jié)構(gòu)元素之內(nèi)。將結(jié)構(gòu)元素的原點(diǎn)移至圖象A起始部分,如果B的全部象素都包含在A之中,則此時(shí)處在結(jié)構(gòu)元素原點(diǎn)位置的象素記做“1”,否則,記做“0”。繼續(xù)移動(dòng)結(jié)構(gòu)元素,直至遍歷圖象A全部。最后得到的圖象就是腐蝕運(yùn)算的結(jié)果。腐蝕運(yùn)算將一幅圖象中除去小且無(wú)意義的物體,突出主要感興趣目標(biāo)。針對(duì)本文腐蝕運(yùn)算的處理結(jié)果如下圖:圖4.3對(duì)邊緣后的圖像進(jìn)行腐蝕化處理b.開(kāi)運(yùn)算 使用同一個(gè)結(jié)構(gòu)元素對(duì)圖像先腐蝕再進(jìn)行膨脹的運(yùn)算稱為開(kāi)運(yùn)算。結(jié)構(gòu)元素B對(duì)A的開(kāi)運(yùn)算記作,其定義為(4.15)即先用B對(duì)A作腐蝕運(yùn)算,再作膨脹運(yùn)算。為了更好的理解開(kāi)運(yùn)算在圖像處理中的作用,現(xiàn)討論下面的等價(jià)方程(4.16)這個(gè)方程表明,B對(duì)A的開(kāi)運(yùn)算可由對(duì)所有可以填入A的B并集得到,A的所有比B小的部分都將舍去。開(kāi)運(yùn)算通常用來(lái)消除小對(duì)象物、在纖細(xì)點(diǎn)處分離物體、平滑較大物體的邊界的同時(shí)并不明顯改變其面積。如圖所示:圖4.4對(duì)腐蝕后的圖像開(kāi)運(yùn)算結(jié)果圖在切除了非目標(biāo)文本的小區(qū)域后得到定位剪切的彩色文本區(qū)域如下圖所示,實(shí)現(xiàn)了文本的彩色細(xì)定位:圖4.5文本的細(xì)定位4.5本章小結(jié)本章應(yīng)用了基于邊緣的文本提取方法通過(guò)形態(tài)學(xué)填充形成連通區(qū)域,得到的二值化圖像特征更加突出,更加便于后續(xù)的篩選。然后對(duì)圖像進(jìn)行腐蝕運(yùn)算,開(kāi)啟運(yùn)算并結(jié)合形態(tài)學(xué)濾波,濾除非文本區(qū)域,最后得到目標(biāo)文本。本算法對(duì)彩色圖像中的文本提取具有較高的精確率和較快的運(yùn)算速度,取得了較好的綜合效果。5文字分割文字分割指的是指從彩色圖像文字塊中將背景去除,得到只含文字信息的二值圖像。確定文本區(qū)域位置后下一步任務(wù)就是進(jìn)行字符切分分離出字符圖像。5.1文字分割問(wèn)題的定義如前所述,通過(guò)文字定位,我們得到了原始圖像中出現(xiàn)文字的一系列矩形區(qū)域。將這些區(qū)域剪裁下來(lái),就得到了原圖像的一系列子圖像,我們稱之為圖像文字塊,文字分割指的是從以上的圖像文字塊中將背景去除,得到只含文字信息的二值圖像,從這個(gè)意義上說(shuō),文字分割也可以叫做圖像文字二值化[20]。5.1.1二值化圖像二值化是指整幅圖像畫(huà)面內(nèi)僅黑、白二值的圖像。在數(shù)字圖像處理中二值圖像占有很重要的地位。這是因?yàn)?,一方面,有些需要處理的如文字圖像、指紋圖像、工程圖紙等圖像本身是二值的;另一方面,在某些情況下即使圖像本身是有灰度的,我們也設(shè)法使它變成二值圖像再進(jìn)行處理(即灰度圖像的二值化)。這是考慮到在實(shí)用系統(tǒng)中,要求處理的速度高、成本低、信息量大的濃淡圖像處理的花銷(xiāo)大。此外二值化的圖像能夠用幾何學(xué)中的概念進(jìn)行分析和特征描述,比灰度圖像優(yōu)勢(shì)大得多。在實(shí)際的圖像處理系統(tǒng)中,進(jìn)行圖像二值化的關(guān)鍵使確定合適的閾值,使得字符與背景能夠分割開(kāi)來(lái),而且二值變換的結(jié)果圖像必須要具備良好的保形性,不丟掉有用的形狀信息,不會(huì)產(chǎn)生額外的空缺等。同時(shí)車(chē)牌識(shí)別系統(tǒng)要求處理的速度高、成本低、信息量大,采用二值圖像進(jìn)行處理,能大大提高處理效率[21]。二值化的關(guān)鍵是找到合適的閾值t來(lái)區(qū)分對(duì)象和背景。設(shè)原灰度圖像為f(x,y),二值化后的圖像為g(x,y),二值化的過(guò)程表示如下:(5.1)二值化,基于實(shí)時(shí)性的要求,我力求尋找一種快速而且效果較好的方法,能夠更有針對(duì)性的解決在不同條件下牌照?qǐng)D像的二值化問(wèn)題。求解閾值的方法很多,微分直方圖法、最大方差法、基于灰度的數(shù)學(xué)期望的方法、可變閾值法等。我們采用最簡(jiǎn)單的方法,當(dāng)象素灰度級(jí)低于常數(shù)C時(shí),[0-C]象素灰度為0,[C-255]象素灰度為255。將256個(gè)亮度等級(jí)的灰度圖像通過(guò)適當(dāng)?shù)拈y值選取而獲得仍然可以反映圖像整體和局部特征的二值化圖像。在數(shù)字圖像處理中,二值圖像占有非常重要的地位,首先,圖像的二值化有利于圖像的進(jìn)一步處理,使圖像變得簡(jiǎn)單,而且數(shù)據(jù)量減小,能凸顯出感興趣的目標(biāo)的輪廓。其次,要進(jìn)行二值圖像的處理與分析,首先要把灰度圖像二值化,得到二值化圖像。所有灰度大于或等于閾值的像素被判定為屬于特定物體,其灰度值為255表示,否則這些像素點(diǎn)被排除在物體區(qū)域以外,灰度值為0,表示背景或者例外的物體區(qū)域[22]。圖像的二值化如下圖所示:(a)原文字區(qū)域圖(b)二值化圖像圖5.1轉(zhuǎn)為二值化圖由于字符本身的灰度與背景間的灰度值存在著較大差別,使得文本區(qū)域中的邊緣特性很明顯,這一特征也是尋找字符的重要依據(jù)。5.1.1文字分割的主要方法近年來(lái),研究人員在文字分割方面做了大量有意義的工作,提出了很多方法,這些方法大致可分成以下三類(lèi)[23]:a基于顏色閾值的方法?;陬伾撝档姆椒俣藞D像中文字的亮度總是比背景高或者比背景低,通過(guò)估計(jì)背景顏色和前景顏色的閾值來(lái)達(dá)到分割的目的。文字的閾值又分為全局閾值和局部閾值兩種。全局閾值是指整個(gè)圖像都使用的一個(gè)閾值;局部閾值則是指根據(jù)圖像的具體區(qū)域來(lái)確定的閾值,與全局閾值相比,它的優(yōu)點(diǎn)是能處理亮度和對(duì)比度發(fā)生變化的圖像。文[Liu97]首先利用了[Ostus79]的提出的二值化算法獲得一系列的候選閾值,這些閾值各對(duì)應(yīng)一種邊緣特征,對(duì)這些邊緣進(jìn)行分析最后確定最優(yōu)的閾值。文[Wu97]利用了局部閾值來(lái)取出背景的噪聲,同時(shí)得到二值化的圖像。b基于顏色模型的方法基于顏色模型的方法認(rèn)為圖像中的文字顏色分布是滿足一定的參數(shù)模型的,這種方法首先通過(guò)機(jī)器學(xué)習(xí)為文字像素建立一個(gè)顏色模型,然后利用該模型計(jì)算圖片中每一個(gè)像素屬于文字像素的概率,概率高于某個(gè)閾值的像素被標(biāo)記為文字像素,低于這個(gè)閾值的像素標(biāo)記為背景像素。在[Chen02]中,Chen等首先為圖像中的文字灰度值建立一個(gè)高斯混合模型(GaussianMixtureModel,GMM),然后用基于馬爾科夫隨機(jī)場(chǎng)(MarkovRandomField,MRF)的方法確定每個(gè)象素所屬的高斯項(xiàng),從而達(dá)到分割的目的。[Ye04]中,Ye等在HSI顏色空間中使用GMM表示文字顏色的H,I兩分量的分布,首先利用文字的“邊緣對(duì)”特性通過(guò)采樣得到一部分屬于文字的像素,然后使用這些樣本在線估計(jì)GMM的參數(shù)并根據(jù)GMM提取剩余的文字像素[26]?;陬伾P偷姆椒ㄓ捎诳紤]到了文字顏色的多峰值分布,因而能夠處理比較復(fù)雜的背景,但是對(duì)不同的圖像,其文字的顏色模型往往差別很大,為多種不同的圖像建立不同的模型并不容易,有時(shí)候甚至是不可能的。c基于連通分量分析的方法基于連通分量分析的方法利用了文字筆畫(huà)具有連通性的特征,這種方法首先將輸入的圖片分割成一系列的連通分量,然后通過(guò)自底向上的方法分析確定每個(gè)分量屬于前景還是背景,最后將所有前景分量組合成分割結(jié)果。文獻(xiàn)[Sobottka99]利用一種非監(jiān)督聚類(lèi)的方法將圖片中顏色相近的像素聚成若干個(gè)像素類(lèi),然后通過(guò)一個(gè)自底向上和一個(gè)自頂向下相結(jié)合的方法來(lái)完成文字的分割;文[Zhou97]則應(yīng)用了一種基于EMST的聚類(lèi)方法進(jìn)行顏色的量化[27]?;谶B通分量的方法由于對(duì)文字的筆畫(huà)作為整體處理,因分而割的結(jié)果筆畫(huà)的連貫性比較好,易于被OCR軟件所識(shí)別;但是大多數(shù)這類(lèi)方法進(jìn)行連通分量聚合的時(shí)候只利用了文字的顏色,因而只能對(duì)具有單一顏色的圖像文字有效,另一方面,較低的圖像分辨率和較高的圖像噪聲也會(huì)影響連通分量聚合的結(jié)果。5.2閾值分割法閾值方法分為全局閾值和局部閾值兩種,如果分割過(guò)程中對(duì)圖像上每個(gè)像素所使用的閾值都相等,則為全局閾值方法;如果每個(gè)像素所使用的閾值可能不同,則為局部閾值方法[28]。5.2.1全局閾值法全局閾值法是指在二值化過(guò)程中只使用一個(gè)全局閾值的方法。它將圖像的每個(gè)像素的灰度值與進(jìn)行比較,若大于,則取為前景色(白色);否則,取為背景色。根據(jù)文本圖像的直方圖或灰度空間分布確定一個(gè)閾值,以此實(shí)現(xiàn)灰度文本圖像到二值圖像的轉(zhuǎn)化。其中全局閾值法又可分為基于點(diǎn)的閾值法和基于區(qū)域的閾值法。閾值分割法的結(jié)果很大程度上依賴于對(duì)閾值的選擇,因此該方法的關(guān)鍵是如何選擇合適的閾值。全局閾值法算法簡(jiǎn)單,對(duì)于目標(biāo)和背景明顯分離、直方圖分布呈雙峰的圖像效果良好。5.2.2局部閾值法另一種方法是局部閾值化,即設(shè)定多個(gè)二值化閾值,通常由像素灰度值和此像素區(qū)域的局部灰度特性來(lái)動(dòng)態(tài)地確定:(5.2)下標(biāo)k表示第k個(gè)區(qū)域。由于每一個(gè)區(qū)域所包含的內(nèi)容與其他區(qū)域大相徑庭,因此,必須考慮區(qū)域與區(qū)域之間的關(guān)系以及每一個(gè)小區(qū)域和整幅圖像之間的關(guān)系。如果依靠人眼來(lái)進(jìn)行判斷,不僅耗時(shí)耗力,而且由于人的主觀認(rèn)知誤差,還會(huì)對(duì)圖像的分割效果產(chǎn)生影響[29]。5.3本文所用到的字符切分方法由于字符本身的灰度與背景間的灰度值存在著較大差別,使得文本區(qū)域中的邊緣特性很明顯,這一特征也是尋找字符的重要依據(jù)。在經(jīng)過(guò)邊緣檢測(cè)算子處理過(guò)的圖像中采用逐行逐像素點(diǎn)相比較判斷跳躍點(diǎn)次數(shù)的方法來(lái)尋找車(chē)牌的上下邊界,這里的跳躍點(diǎn)是指相鄰兩像素之間灰度值之差在一定閾值之上的點(diǎn)。判斷取一條穿過(guò)文字區(qū)域的直線上各個(gè)點(diǎn)的灰度值進(jìn)行研究可以看出,穿過(guò)文字區(qū)域的灰度值具有十分明顯的峰谷特征。與沒(méi)有經(jīng)過(guò)字符區(qū)的灰度值變化曲線比較來(lái)看,這個(gè)特征完全可以作為判斷所檢驗(yàn)的行是否穿過(guò)文字所在區(qū)域的標(biāo)準(zhǔn)[30]?;谏线叿治龅奶攸c(diǎn),現(xiàn)在尋找文本的上下邊界。首先,逐行讀取經(jīng)過(guò)處理的文本塊圖像的灰度值后計(jì)算相鄰像素點(diǎn)的灰度值的差,如果差值大于設(shè)定的閾值(這個(gè)閾值就是層次化是使用的層次段的值)把變化次數(shù)的計(jì)數(shù)器進(jìn)行加1,在數(shù)組中記錄各行的灰度值變化總次數(shù),如果總次數(shù)大于15,認(rèn)為這一行可能是文字所在行。因?yàn)槿绻峭ㄟ^(guò)文本區(qū)域的話,選擇15作為閾值是可行的。記錄下這一可疑行,并設(shè)置一個(gè)行計(jì)數(shù)器令其值為1,繼續(xù)按照上述方法計(jì)算下一行的灰度值變化次數(shù)。如果滿足以上的閾值條件那么行計(jì)數(shù)器的值加1;若不滿足的話對(duì)行計(jì)數(shù)器進(jìn)行清0處理,直到重新得到滿足條件的行??紤]到文字塊的高度,若得到連續(xù)滿足變化條件的行數(shù)大于15的話,則認(rèn)為這個(gè)連續(xù)變化區(qū)域?yàn)檐?chē)牌的上下區(qū)域。在這些連續(xù)變化的行中,,第一個(gè)滿足變化的行為字符的底部,而最后的滿足變化條件的一行為字符的頂部,這樣就得到了字符上下邊界的一個(gè)大體位置?;谇懊娴墓ぷ?,最后完成在彩色圖像中文本的提取,如下圖:(a)原圖對(duì)文字區(qū)域定位得到目標(biāo)文本區(qū)域:(b)文字定位文本區(qū)域的提取得到字符串:(c)(文字分割)字符串圖像圖5.2彩色圖像中的文本提取5.4本章小結(jié)本章對(duì)基于邊緣檢測(cè)算法的基礎(chǔ)上對(duì)文本的細(xì)定位做了字符的切分,即實(shí)現(xiàn)字符串,通過(guò)文本區(qū)域的二值化,去除殘余分量等算法,最后應(yīng)用閾值分割法對(duì)文本塊進(jìn)行行掃描確定文字的上下邊界,達(dá)到文字字符的單獨(dú)提取。6.結(jié)論全文工作總結(jié)本文主要研究了彩色圖像中的文本提取的算法研究。主要研究成果如下: 1.在分析文本圖像的顏色、邊緣等特征以及目標(biāo)提取算法的基礎(chǔ)上,首先將圖像灰度化,繼而進(jìn)行邊緣、檢測(cè)形態(tài)學(xué)填充,然后對(duì)連通區(qū)域進(jìn)行自適應(yīng)閾值分割,進(jìn)而根據(jù)對(duì)文本字符區(qū)域顏色、通過(guò)行掃描邊界,去除非文本區(qū)域。本算法能夠?qū)Σ噬珗D像文本進(jìn)行準(zhǔn)確和有效的提取。2.研究了簡(jiǎn)單背景下文本提取中的彩色圖像邊緣檢測(cè)的有關(guān)問(wèn)題。傳統(tǒng)的彩色圖像邊緣檢測(cè)算子是將灰度圖像邊緣檢測(cè)算子分別作用于顏色空間各個(gè)分量上,忽視了彩色分量間的關(guān)聯(lián)關(guān)系,往往會(huì)出現(xiàn)多邊緣和寬邊緣情況,不能充分體現(xiàn)顏色的距離,造成復(fù)雜圖像的分割困難。3.研究了彩色圖像文本區(qū)域提取算法視頻和彩色圖像文本提取是典型的圖像分割問(wèn)題。在視頻和彩色圖像文本區(qū)域提取的已有算法大都集中在基于區(qū)域的經(jīng)典方法上。我們認(rèn)為充分利用文本區(qū)域強(qiáng)烈的空間頻率特征,采用邊緣檢測(cè)和二值化閾值結(jié)合的方法,可以較好的指導(dǎo)圖像分割算法完成視頻和彩色圖像文本區(qū)域提取的任務(wù)。我們研究了視頻和彩色圖像文本區(qū)域提取方法,也適用與廣告、標(biāo)志等的文本提取。今后工作展望文本所用的算法相較以前的算法有一些改進(jìn),但也存在著一定的局限,例如有一些經(jīng)驗(yàn)閾值需要設(shè)定,對(duì)低分辨率的圖像文字檢測(cè)效果不好。對(duì)今后圖像文字提取工作的發(fā)展,值得關(guān)注以下方面:(1)鑒于彩色圖像中文字的字體,大小,顏色等變化多端,目前的算法主要針對(duì)某類(lèi)特定圖像,缺乏一個(gè)適用性廣泛的算法來(lái)從圖像中抽取文字。由于從彩色圖像中抽取文字信息所走流程較多,定位,二值化,識(shí)別等步驟都會(huì)不同程度地引入錯(cuò)誤,即使單看其中某些步驟可能性能良好,但整體來(lái)看能完全正確抽取出來(lái)的文字還是不多,離完全實(shí)用還有一段距離。(2)需要進(jìn)一步開(kāi)拓彩色圖像和背景復(fù)雜圖像中的文字提取的應(yīng)用領(lǐng)域,應(yīng)用需求的缺乏導(dǎo)致這方面研究工作開(kāi)展的難度。參考文獻(xiàn)[1]陳鍛生,劉政凱.膚色檢測(cè)技術(shù)綜述[J],計(jì)算機(jī)學(xué)報(bào),2006,29(2):194-207[2]莊越挺,劉駿偉,吳飛,等.基于支持向量機(jī)的視頻字幕自動(dòng)定位與提取[J],計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2002.14(8):750—753[3]YuZhong,KalleKaru,AnilKJain.LocatingTextinComplexColorImages[J].PatternRecognition,1995,28(10):1523—1535[4]徐華根,唐慧明,楊黎波.新型多媒體處理器DM642及其應(yīng)用[J].電視技術(shù),2005(1):36—38[5]陳兵旗,孫明,VisualC++使用圖像處理[M].北京:清華大學(xué)出版社,2004.[6]歐文武,朱軍民,劉昌平.自然場(chǎng)景文本定位.中文信息學(xué)報(bào).2003,17(5):55—60[7]JainAK,YuB.AutomaticTextL
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 美食廣場(chǎng)服務(wù)員工作總結(jié)
- 100萬(wàn)噸綠色清潔能源頁(yè)巖氣液化項(xiàng)目可行性研究報(bào)告寫(xiě)作模板-申批備案
- 2025-2030全球電池保護(hù)板行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)工業(yè)級(jí)4-苯氧基苯酚行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)桁架式門(mén)式起重機(jī)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)AI虛擬人交互一體機(jī)行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球心理情感咨詢服務(wù)平臺(tái)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)工業(yè)絕熱冷卻器行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球重餾分輪胎熱解油行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球消費(fèi)電子注塑機(jī)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 福建省泉州市晉江市2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 2025年春新人教版物理八年級(jí)下冊(cè)課件 第十章 浮力 第4節(jié) 跨學(xué)科實(shí)踐:制作微型密度計(jì)
- 貨運(yùn)車(chē)輛駕駛員服務(wù)標(biāo)準(zhǔn)化培訓(xùn)考核試卷
- 財(cái)務(wù)BP經(jīng)營(yíng)分析報(bào)告
- 三年級(jí)上冊(cè)體育課教案
- 2024高考物理二輪復(fù)習(xí)電學(xué)實(shí)驗(yàn)專(zhuān)項(xiàng)訓(xùn)練含解析
- 2024年全國(guó)統(tǒng)一高考英語(yǔ)試卷(新課標(biāo)Ⅰ卷)含答案
- 高中英語(yǔ):倒裝句專(zhuān)項(xiàng)練習(xí)(附答案)
- 2025屆河北衡水?dāng)?shù)學(xué)高三第一學(xué)期期末統(tǒng)考試題含解析
- 2024年山東省青島市普通高中自主招生物理試卷(含解析)
- 2024信息技術(shù)數(shù)字孿生能力成熟度模型
評(píng)論
0/150
提交評(píng)論