版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 基于matlab的票據(jù)自動報賬系統(tǒng)設(shè)計與實現(xiàn) 趙懿琨 馬劼聰 陳仰麗 余曉佳 黃國偉【摘 要】 目前,國內(nèi)會計師仍采用人工方式進行票據(jù)數(shù)據(jù)錄入,完成賬目的處理,錯誤率高且效率低,針對該問題,本系統(tǒng)開發(fā)出一款對發(fā)票實現(xiàn)自動化信息識別并報賬的軟件,實現(xiàn)從數(shù)據(jù)采集到報賬完成一體的自動化服務(wù)。本系統(tǒng)在matlab軟件上運行,結(jié)合光學識別ocr引擎tesseract軟件實現(xiàn)功能,基礎(chǔ)功能包括:票據(jù)圖像的無線收發(fā)、票據(jù)圖像信息提取處理與識別,自動生成財務(wù)報表等功能。此外,為了提高系統(tǒng)的可靠性,增加了如多段關(guān)鍵信息截取、圖像的傾斜校正、數(shù)學形態(tài)學處理等技
2、術(shù)?!娟P(guān)鍵詞】 自動化;tesseract;ocr;matlababstract at present, domestic accountants still use manual way to input bill data and complete the account processing. the error rate is high and the efficiency is low. aiming at this problem, this system develops a software to realize automatic information identifica
3、tion and account reporting for invoices, which realizes the automation service from data collection to account reporting. the system runs on matlab software and combines with tesseract software of optical recognition 0c engine to realize the functions. the basic functions include: wireless receipt a
4、nd dispatch of bills image, information extraction and recognition of bills image, automatic generation of financial statements and other functions. in addition, in order to improve the reliability of the system, such as multi-segment key information interception, image tilt correction, mathematical
5、 morphology processing and other technologies are added.keywords automation; tesseract ; ocr; matlab1 系統(tǒng)整體概述本軟件主要在pc 及其兼容機上運行,使用windows 7以上操作系統(tǒng)。成功安裝軟件并配置相應(yīng)的系統(tǒng)環(huán)境后,在matlab上運行,利用ftp傳輸協(xié)議接收票據(jù)圖像,根據(jù)用戶需要制作不同票據(jù)圖像模板,自動批量準確提取相關(guān)區(qū)域圖像,對圖像進行預(yù)處理后,結(jié)合光學識別引擎tesseract軟件,對圖像中的字符信息進行識別,并將結(jié)果制成匯總表格,根據(jù)小企業(yè)會計準則和手工報賬標準生成財務(wù)報表。票
6、據(jù)自動報賬系統(tǒng)軟件利用matlab進行編程,核心部分包括票據(jù)圖像的無線收發(fā)、信息提取處理與識別,自動生成財務(wù)報表等功能。票據(jù)圖像信息提取處理與識別部分包括票據(jù)圖像自動化分類、圖像的傾斜校正、關(guān)鍵信息的截取、圖像二值化和數(shù)學形態(tài)學處理以及對票據(jù)信息的ocr識別,并儲存在txt文件中;自動報賬部分用于完成最后的報賬任務(wù),遵循小企業(yè)會計準則的做賬原則,按一定規(guī)律進行報賬,同時提供導出功能便于輸出紙質(zhì)報表和核查財務(wù)數(shù)據(jù)。項目整體系統(tǒng)框圖如圖1所示。2 系統(tǒng)實現(xiàn)部分2.1 票據(jù)圖像的無線收發(fā)2.1.1 圖像輸入讀取 在filezilla軟件的服務(wù)器端開放“download”及“upload”接收、傳送圖
7、像??梢允褂胕mread,dir函數(shù)檢測指定目錄下圖像的張數(shù),設(shè)置for循環(huán)函數(shù)自動讀取完目錄下所有圖像。在此過程中,需要檢測圖像是否正向讀取,若不可取,則反饋給圖像輸入模塊,若可取,則進行下一步操作。在這個過程中,當圖像不被讀取反饋回去時,下一步操作中將出現(xiàn)圖像空缺,在下一級讀取圖像時,添加判別出錯算法。2.1.2 圖像初級處理 基于無線接收到的圖像可直接根據(jù)matlab處理匹配的命名方式進行批量命名和文件建立,需要考慮圖像是否可用,接收到的圖像基于以下三種處理方式進行觸及處理:(1)正反面(顛倒):根據(jù)對發(fā)票右上角的“二維碼”進行定位判斷,可通過canny算子提取“二維碼”邊緣,計算統(tǒng)計得
8、出灰度值的平均值,可連接起被分隔開的區(qū)域,判斷該區(qū)域是否存在對應(yīng)寬度信息,以此判斷圖像是正面或顛倒,如果判定結(jié)果為顛倒,可以通過imrotate語句將圖像旋轉(zhuǎn)180度保存以便下一步處理。(2)里外面:如果發(fā)票的上下方位都檢測不到“二維碼”區(qū)域,則表明該圖像放置反了,可以反饋回硬件系統(tǒng),提醒翻轉(zhuǎn)。(3)拍攝模糊:當將圖像進行二值化、中值濾波后,發(fā)現(xiàn)無法清晰讀取所提取的“二維碼”,則該圖像拍攝模糊,反饋給硬件系統(tǒng),提醒硬件重拍。2.1.3 圖像識別反饋 以帶有“二維碼”的增值稅票據(jù)圖像為例,將左上角的“二維碼”識別結(jié)果作為判定票據(jù)放置是否正確的依據(jù),利用閾值分割提取出“二維碼”所在區(qū)域,通過掃描得
9、到“二維碼”的邊角坐標。調(diào)用matlab中“width”函數(shù)對100張票據(jù)“二維碼”所在區(qū)域的測算得到“二維碼”區(qū)域平均寬度值為385像素,定義識別到圖像中黑色邊角寬度像素區(qū)間位于375400時,票據(jù)圖像放置正確,圖像質(zhì)量合格,儲存進“upload”文件夾,當識別到像素區(qū)間不符合要求時,將該票據(jù)圖像儲存進“待反饋文件夾”。將不合格的票據(jù)圖像序號通過filezilla無線傳輸發(fā)送到上一級的票據(jù)圖像輸入模塊。將“upload”文件夾圖像的序號儲存成txt文檔,通過filezilla平臺反饋回上一級。2.2 票據(jù)圖像信息提取處理與識別2.2.1 票據(jù)圖像信息提取處理 無線接收票據(jù)圖像后,軟件利用ma
10、tlab批量處理票據(jù),首先截取有效票據(jù)區(qū)域,然后截取票據(jù)中有效數(shù)據(jù)區(qū)域;接著逐漸增加角度調(diào)整函數(shù),自動調(diào)整圖片,不同票據(jù)用同一算法實現(xiàn);再對截取部分進行灰度化,腐蝕膨脹處理,以便于識別。2.2.2 識別 本設(shè)計通過第三方j(luò)tessboxeditor工具訓練字庫,字符識別過程中ocr也在進行自適應(yīng)學習,不斷拓展字庫,識別更多的字符,從而提高識別率。通過tesseract平臺上的jtessboxeditor工具來處理修正字庫,通過不斷識別更新字庫,積累字庫的信息。2.3 自動生成財務(wù)報表這一步分為四個模塊,分別是數(shù)據(jù)導入模塊、數(shù)據(jù)識別模塊、數(shù)據(jù)判斷模塊和表格生成模塊。總工作流程:如圖2所示,首先導
11、入存放ocr識別結(jié)果的txt文本,將這些信息匯總成表格,然后在匯總表的基礎(chǔ)上,加入會計科目等類別,對收集到的信息進行分類處理,完善匯總表格成為會計信息總表,最后在會計信息總表上提取數(shù)據(jù),經(jīng)過統(tǒng)計歸類,按實際需求,編制財務(wù)表格。數(shù)據(jù)導入模塊設(shè)計:在本模塊中,txt文件分為七類,對應(yīng)發(fā)票上的七類有效信息。因為ocr識別對字符和數(shù)字的編碼方式不同,七類txt文件中會出現(xiàn)兩種編碼格式,一種是ansi,另一種是utf-8。針對不同的編碼格式,matlab在將txt文件里的內(nèi)容導入到匯總表格時,需要運行不同的處理語句,確保txt文件里的內(nèi)容能被正確導入。數(shù)據(jù)識別模塊設(shè)計:本模塊的功能是在匯總表上處理錯誤的
12、數(shù)據(jù),完成對匯總表的自動修正。完成數(shù)據(jù)的導入后,因為ocr識別可能存在錯誤,所以數(shù)據(jù)識別模塊的工作就是識別并且定位匯總表格上錯誤的數(shù)據(jù)。基于本設(shè)計對于報賬系統(tǒng)自動化的目標,在構(gòu)想處理方案時,希望做到的是發(fā)現(xiàn)錯誤并且能夠自動改正錯誤。因此也引入了相似度算法,對可能出現(xiàn)的一些錯誤實現(xiàn)自動糾正,或者是為使用者手動糾正提供參考。數(shù)據(jù)判斷模塊:在匯總表的基礎(chǔ)上,通過對表上數(shù)據(jù)的分析判斷得到借貸關(guān)系和會計科目。判斷會計科目時額外需要關(guān)系數(shù)據(jù)庫的輔助。得到這兩項信息后,即完成了由匯總表到會計信息總表的過程。表格生成模塊設(shè)計:在本設(shè)計中,輸出的財務(wù)表格有三種,分別是資產(chǎn)負債表、科目余額表和利潤表。在會計信息總
13、表的基礎(chǔ)上,對表格上的金額依照會計科目和借貸關(guān)系進行統(tǒng)計和歸類,將統(tǒng)計歸類后的信息分別輸出到三種財務(wù)表格的相應(yīng)模板上,完成財務(wù)表格的編制。如果在以上模塊中識別出錯誤并無法修正時,則需要人工參與修正。3 系統(tǒng)測試部分3.1 識別部分測試結(jié)果漢字89%、符號98%、字母98%、數(shù)字96%,通過測試結(jié)果分析可以看出,數(shù)字的識別準確率已比較高,但文字識別準確率還有待提高,ocr識別字庫需要不斷訓練積累,需要一定的時間,需要不斷擴充識別字庫來滿足需求。二維碼測試結(jié)果:發(fā)票二維碼內(nèi)的信息都是符號和數(shù)字,符號和數(shù)字識別率已到達96%。識別速度達到ocr識別每張圖片2.1s,二維碼識別每張圖片1.95s3.2 票據(jù)提取部分測試結(jié)果經(jīng)過測試發(fā)現(xiàn)并解決問題,測得本設(shè)計圖像處理平均時間為396秒4 總結(jié)本課題通過使用matlab軟件與tesseract開源ocr引擎進行設(shè)計研究,對會計人員沒有完整的自動化發(fā)票單據(jù)報賬軟件這一問題做出嘗試,通過對ocr引擎的熟悉與訓練,通過使用matlab軟件進行程序的開發(fā),實現(xiàn)了從發(fā)票單據(jù)的圖片輸入、輸入圖片處理、有效數(shù)據(jù)的截取、數(shù)據(jù)的錄入到通過程序進行自動報賬,這樣一系列完整的功能,證明了全流程的自動化報賬軟件實現(xiàn)是非常有前景的。參考文獻:1 安然.基于ocr技術(shù)的原始憑證電子化管理系統(tǒng)的設(shè)計與 實現(xiàn)d.吉林:吉林大學,2016.2 陳東霞.淺談高校財務(wù)預(yù)約報賬系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療系統(tǒng)調(diào)動申請書(10篇)
- 網(wǎng)頁設(shè)計教育改革-洞察分析
- 線粒體膜應(yīng)激與細胞存活-洞察分析
- 學術(shù)合作風險防范-洞察分析
- 虛擬現(xiàn)實在飛行員培訓中的應(yīng)用-洞察分析
- 有機肥料應(yīng)用研究-第1篇-洞察分析
- 網(wǎng)絡(luò)借貸欺詐防范-洞察分析
- 新型推進技術(shù)-洞察分析
- 虛擬城市的文學表達-洞察分析
- 勤儉節(jié)約傳承美德廣播稿范文(5篇)
- 2025年三支一扶考試基本能力測驗試題及解答參考
- 2024版食源性疾病培訓完整課件
- 【MOOC】信號與系統(tǒng)-南京郵電大學 中國大學慕課MOOC答案
- 10萬噸級泊位工程施工組織設(shè)計
- 《Python程序設(shè)計》課件-2:變量和數(shù)據(jù)類型
- 糖尿病相關(guān)論文開題報告
- 《住院患者身體約束的護理》團體標準解讀課件
- 10000中國普通人名大全
- 戴煒棟英語語言學概論Chapter 1
- 2020年廣東省中考數(shù)學試卷
- 醫(yī)學英語構(gòu)詞法講座
評論
0/150
提交評論