光學(xué)字符識(shí)別技術(shù)_第1頁(yè)
光學(xué)字符識(shí)別技術(shù)_第2頁(yè)
光學(xué)字符識(shí)別技術(shù)_第3頁(yè)
光學(xué)字符識(shí)別技術(shù)_第4頁(yè)
光學(xué)字符識(shí)別技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于光學(xué)字符識(shí)別技術(shù)第一頁(yè),共十一頁(yè),2022年,8月28日一.文字識(shí)別系統(tǒng)的構(gòu)成。印刷體識(shí)別的原始圖像是通過(guò)掃描儀、CCD器件或傳真機(jī)等獲得的二維灰度或二值圖像,其識(shí)別過(guò)程如下圖:第二頁(yè),共十一頁(yè),2022年,8月28日第三頁(yè),共十一頁(yè),2022年,8月28日預(yù)處理包括對(duì)原始圖像的去噪聲、傾斜校正等。圖像二值化等版式分析:對(duì)文本圖像進(jìn)行總結(jié)分析,標(biāo)示文本的段落,圖表,表格區(qū)域;對(duì)文本區(qū)域進(jìn)行識(shí)別處理,對(duì)表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理,對(duì)圖像區(qū)域進(jìn)行簡(jiǎn)單的壓縮或存儲(chǔ)。字符切割:先將文本圖像切割為行(列),再?gòu)淖址麍D像中分離出單個(gè)字符。當(dāng)圖像質(zhì)量很差時(shí),不易進(jìn)行簡(jiǎn)單的分割,常與識(shí)別過(guò)程相結(jié)合。隨著單字識(shí)別率的增高,切割錯(cuò)誤在所有錯(cuò)誤中所占的比重不斷上升,增樣實(shí)現(xiàn)字符的正確分割成了一個(gè)需認(rèn)真解決的問(wèn)題。特征提?。簭膯蝹€(gè)字符中提取統(tǒng)計(jì)特征或結(jié)構(gòu)特征,是整個(gè)識(shí)別中最重要的步驟,特征提取的好壞,直接決定識(shí)別的性能在特征提取前,常進(jìn)行歸一化,細(xì)化化處理。單字識(shí)別:從學(xué)習(xí)得到的特征庫(kù)中找到與待識(shí)別字符相似度高的字符。為了提高識(shí)別速度,常采用樹(shù)分類器。后處理:對(duì)單字識(shí)別的結(jié)果,利用語(yǔ)義、詞頻、語(yǔ)義等先驗(yàn)知識(shí)進(jìn)行識(shí)別結(jié)果的確認(rèn)或糾錯(cuò)。第四頁(yè),共十一頁(yè),2022年,8月28日二.文字識(shí)別技術(shù)OCR識(shí)別技術(shù)可分為印刷體識(shí)別技術(shù)和手寫(xiě)體識(shí)別技術(shù),而后者由分為聯(lián)機(jī)手寫(xiě)識(shí)別和脫機(jī)手寫(xiě)識(shí)別技術(shù)。從識(shí)別難度上講,多印刷體識(shí)別技術(shù)難于單印刷體識(shí)別,手寫(xiě)字體識(shí)別難于印刷體識(shí)別,而脫機(jī)識(shí)別難于聯(lián)機(jī)識(shí)別。第五頁(yè),共十一頁(yè),2022年,8月28日識(shí)別器是系統(tǒng)的核心:用于文字識(shí)別的方法有統(tǒng)計(jì)模式識(shí)別,結(jié)構(gòu)模式識(shí)別和人工神經(jīng)網(wǎng)絡(luò)等方法。第六頁(yè),共十一頁(yè),2022年,8月28日在OCR系統(tǒng)中,是一個(gè)典型的圖像處理系統(tǒng),從圖像的獲取,預(yù)處理,到文本的切割,看將其視為一個(gè)輸入圖像輸出圖像的一般意義上的圖像處理,二特征的提取到輸出文本可認(rèn)為是一個(gè)圖像分析的過(guò)程,是一種更廣義上的圖像處理。第七頁(yè),共十一頁(yè),2022年,8月28日在進(jìn)行印刷體漢字識(shí)別時(shí),首先將印在紙上的漢字,經(jīng)過(guò)電掃描產(chǎn)生模擬信號(hào),再經(jīng)過(guò)模電轉(zhuǎn)換將其轉(zhuǎn)變?yōu)榛叶葓D像輸入計(jì)算機(jī)。紙張的薄厚、潔白度、光潔度、油墨深淺、印刷質(zhì)量,產(chǎn)生的污點(diǎn)、飛白、斷筆,交連等干擾。輸入設(shè)備光學(xué)畸變、量化等過(guò)程也要引入的噪聲。所以在當(dāng)個(gè)漢字識(shí)別之前要對(duì)這副圖像進(jìn)行預(yù)處理。第八頁(yè),共十一頁(yè),2022年,8月28日在圖像版面校正中,需將有傾斜的輸入校正,主要使用圖像的旋轉(zhuǎn),幾何操作。漢字圖像的預(yù)處理一般包括:二值化、行、字切分、平滑、去噪聲、細(xì)化或提取輪廓等。第九頁(yè),共十一頁(yè),2022年,8月28日縱上所述,OCR系統(tǒng)中使用的基本圖像處理原理和方法如下:圖像獲取的基本原理,圖像的表示存儲(chǔ);圖像的旋轉(zhuǎn);圖像去噪聲、平滑,即圖像的增強(qiáng)和復(fù)原;圖像分割;圖像的模式識(shí)別分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論