銀行票據(jù)自動(dòng)處理五_第1頁
銀行票據(jù)自動(dòng)處理五_第2頁
銀行票據(jù)自動(dòng)處理五_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

銀行票據(jù)自動(dòng)處理五

1ocr子系統(tǒng)orc技術(shù)是光學(xué)文本識別的縮寫。它通過掃描和其他光學(xué)輸入方法將不同的發(fā)票、報(bào)紙、書籍、手稿和其他印刷品的文本轉(zhuǎn)換為圖像信息,然后使用文字識別技術(shù)將圖像信息轉(zhuǎn)換為計(jì)算機(jī)輸入技術(shù)。由于其應(yīng)用前景廣泛,在應(yīng)用領(lǐng)域有著重要的意義。隨著經(jīng)濟(jì)的迅猛發(fā)展,金融系統(tǒng)每天都要處理成千上萬的銀行票據(jù)。在自動(dòng)化程度越來越高的今天,實(shí)現(xiàn)銀行票據(jù)自動(dòng)處理也成為必然趨勢。OCR子系統(tǒng)是銀行票據(jù)自動(dòng)處理系統(tǒng)中的核心。它需要完成的工作有:憑證票面要素如大寫金額、小寫金額、日期、帳號等的識別,并進(jìn)行稽核;檢查大小寫金額一致性及簽發(fā)日期的有效性等。2日期后處理算法的研究首先,作為銀行的一個(gè)應(yīng)用領(lǐng)域,涉及到的都是和支票、數(shù)據(jù)之類的一些票據(jù),所要識別的都是和經(jīng)濟(jì)掛鉤的一些數(shù)據(jù),因此對識別結(jié)果的精度要求很高。拿系統(tǒng)指標(biāo)來衡量,誤識率的要求相當(dāng)嚴(yán)格,理論上要求誤識率趨近于0,這就為識別系統(tǒng)的后處理提出了較高的要求,即要求有過硬的手段對識別結(jié)果進(jìn)行判別并具有一定的糾錯(cuò)能力。根據(jù)這個(gè)特點(diǎn),研究開發(fā)了日期后處理算法,并開始了對可信度的研究。其次,由于識別要素僅局限于票據(jù)上的金額、日期、帳號,因此識別字符集小就成為此識別系統(tǒng)另一項(xiàng)比較重要的特點(diǎn):漢字識別僅僅局限于數(shù)字的大寫漢字零、壹、貳、叁、肆、伍、陸、柒、捌、玖、拾和金額的單位諸如萬、億等共22個(gè)漢字。識別對象少了,識別速度無疑提高不少。同時(shí),針對不同漢字對識別算法進(jìn)行細(xì)化的想法也比較容易付諸實(shí)踐,而不用擔(dān)心程序的運(yùn)行速度問題。第三,銀行票據(jù)種類繁多,其版式、底紋色彩等識別要素都不盡相同,因此對預(yù)處理部分的二值化、切割等技術(shù)提出了較高的要求。由于二值化和切割是整個(gè)識別系統(tǒng)的最前期工作,因此預(yù)處理算法的好壞,將直接影響整個(gè)系統(tǒng)的性能。因此選擇合適的切割與二值化的程序至關(guān)重要。3銀行費(fèi)用oc處理參照文獻(xiàn),OCR在銀行票據(jù)識別中主要包括以下幾個(gè)部分。3.1值化編碼編碼本部分可進(jìn)一步細(xì)分為要素定位、二值化、切割、文字歸整幾個(gè)部分。由清分機(jī)或者高速掃描儀掃入的原始票據(jù)經(jīng)過本部分的處理,其識別要素如金額、日期按照單個(gè)漢字分別被存儲(chǔ)為漢字點(diǎn)陣,其中手寫體大寫漢字、印刷體大寫漢字以及印刷體小寫數(shù)字,被存儲(chǔ)為64*64的點(diǎn)陣,而手寫的小寫數(shù)字被存儲(chǔ)為96*80的點(diǎn)陣,然后對此漢字點(diǎn)陣進(jìn)行字符識別處理。由于某些種類的票據(jù)中,即便為同一張票據(jù),其各要素的背景噪聲都不相同,所以對各不同要素區(qū)域采用了不同的二值化方法。在切割完成之后,各要素已經(jīng)成為單獨(dú)的字符點(diǎn)陣,文字歸整則是針對單個(gè)字符點(diǎn)陣進(jìn)行。票據(jù)上的金額、日期、帳號等都分別要經(jīng)過上面的流程處理。3.2系統(tǒng)的別要素識別按照識別系統(tǒng)所要識別的字符種類來分,本系統(tǒng)需識別的文字有:印刷體漢字、印刷體數(shù)字、手寫體漢字、手寫體數(shù)字。按照識別要素,系統(tǒng)包含日期識別、金額識別、帳號識別、磁碼識別幾個(gè)不同模塊。本系統(tǒng)對漢字識別采用了模板匹配方法,對數(shù)字識別采用了人工神經(jīng)網(wǎng)絡(luò)方法。模板匹配的基本原理是抽取未知文字的特征與事先存儲(chǔ)好的標(biāo)準(zhǔn)的文字特征進(jìn)行匹配,在一定的距離或相似度測度下,找出與未知文字的特征匹配得最好的標(biāo)準(zhǔn)特征,將該標(biāo)準(zhǔn)特征所代表的文字作為未知文字的識別結(jié)果。3.3在訓(xùn)練樣本中的應(yīng)用訓(xùn)練是識別的基礎(chǔ),標(biāo)準(zhǔn)特征的好壞直接影響到識別結(jié)果,選取具有代表性的樣本作為訓(xùn)練樣本。訓(xùn)練前先將樣本按一定的順序存放起來,訓(xùn)練樣本也是64*64的點(diǎn)陣。與識別部分的特征抽取相對應(yīng),訓(xùn)練部分的特征抽取也是在對文字圖像進(jìn)行規(guī)整和分割基礎(chǔ)之上進(jìn)行的。抽取的標(biāo)準(zhǔn)特征是每個(gè)漢字不同的樣本的特征值的平均值,還抽取了每個(gè)漢字的標(biāo)準(zhǔn)方差,方差記錄了每個(gè)字的離散度。標(biāo)準(zhǔn)特征和標(biāo)準(zhǔn)方差在識別過程中都有很重要的作用。3.4編碼算法的比較首先,改進(jìn)漢字識別算法,必須充分考慮即將要開發(fā)的識別算法所要面對的識別對象與原有算法所面對的識別對象之間的區(qū)別。原算法是面對變形較大、筆劃比較稠密的手寫漢字,而所開發(fā)的算法面對的是字形比較固定、筆劃比較稀疏的小寫數(shù)字,相對來講,識別對象簡單了很多。而且識別字符集也小了不少,由原來的3755個(gè)漢字變?yōu)楹唵蔚氖畟€(gè)數(shù)字,1,2,3,4,5,6,7,8,9,0,不過其中相似字仍然存在,如5和6,3和8;其次是識別要求上的變化,識別率由原來的手寫漢字的識別率要求基本達(dá)到100%。3.5日期識別的提高由于支票上面印章對日期區(qū)域的污染,造成此區(qū)域二值化與切割的困難,從而致使日期識別的識別率不盡如人意。從系統(tǒng)的開發(fā)之初,日期識別就是識別系統(tǒng)性能提高的瓶頸所在。在提高預(yù)處理算法性能的同時(shí),開發(fā)合適的日期后處理算法無疑是提高系統(tǒng)性能的一個(gè)捷徑。日期部分的識別字符集只包含下列十一個(gè)大寫漢字:零、壹、貳、叁、肆、伍、陸、柒、捌、玖、拾,小字符集的特點(diǎn)加上日期語法規(guī)則的限制,使得日期部分的排列組合的種類少了很多,還使后處理算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論