




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能智能字符識別技術(shù)規(guī)范中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會發(fā)布 12規(guī)范性引用文件 3術(shù)語和定義、縮略語 13.1術(shù)語和定義 1 24智能字符識別系統(tǒng)框架 25功能要求 3 35.2圖像預(yù)處理 35.3文本檢測 35.4文本識別 45.5信息提取 46性能要求 46.1文本檢測性能要求 46.2文本識別性能要求 67測試方法 77.1測試流程 7.2確定系統(tǒng)質(zhì)量目標(biāo) 87.3構(gòu)建測試數(shù)據(jù)集 87.4搭建測試環(huán)境 97.5選擇測試指標(biāo) 97.6執(zhí)行測試步驟 97.7評價測試結(jié)果 9本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定本文件由中國電子技術(shù)標(biāo)準(zhǔn)化研究院提出。本文件由中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會歸口。本文件起草單位:中國電子技術(shù)標(biāo)準(zhǔn)化研究院、騰訊云計算(北京)有限責(zé)任公司、華為技術(shù)有限公司、深圳云天勵飛技術(shù)股份有限公司、四川云從天府人工智能科技有限公司、西安深信科創(chuàng)信息技術(shù)有限公司、美的集團(tuán)(上海)有限公司、阿里云計算有限公司、北京百度網(wǎng)訊科技有限公司、浙江大華技術(shù)股份有限公司、北京曠視科技有限公司、杭州??低晹?shù)字技術(shù)股份有限公司、華為云計算技術(shù)有限公司、上海計算機(jī)軟件技術(shù)開發(fā)中心、上海依圖網(wǎng)絡(luò)科技有限公司、上海商湯智能科技有限公司、深圳市矽赫科技有限公司、馬上消費金融股份有限公司、北京九章云極科技有限公司、西北工業(yè)大學(xué)、上海人工智能研究院有限公司。本文件主要起草人:董建、馬珊珊、劉海濤、楊曉光、劉皓、張小寶、徐洋、楊雨澤、王小葉、王彭、鄭文先、代翔、李軍、李繼偉、田???、胡蓉、脫立恒、郭嘉、姚聰、楊志博、章成全、楊燁華、李笑如、陳媛媛、熊劍平、程淼、梅敬青、付英波、程戰(zhàn)戰(zhàn)、鈕毅、謝澤澄、符海芳、郝陽陽、陳敏剛、馬澤宇、趙春昊、梁鼎、武煥、洪鵬達(dá)、洪寶璇、李云峰、劉志強(qiáng)、方磊、毛玉婷、王鵬、王冀、宋海濤、王資凱。1人工智能智能字符識別技術(shù)規(guī)范本文件確立了智能字符識別技術(shù)參考框架,規(guī)定了功能要求和性能要求,描述了對應(yīng)的測試方法。本文件適用于智能字符識別產(chǎn)品和服務(wù)的設(shè)計、開發(fā)、應(yīng)用和測試評價。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.12—2000信息技術(shù)詞匯第12部分:外圍設(shè)備3術(shù)語和定義、縮略語3.1術(shù)語和定義GB/T5271.12—2000界定的以及下列術(shù)語和定義適用于本文件。光學(xué)字符識別opticalcharacterrecognition一種字符識別,它使用光學(xué)手段鑒別圖形字符。一種基于深度學(xué)習(xí)的光學(xué)字符識別技術(shù)。對印刷文字、手寫文字、表格、公式符號以及文檔結(jié)構(gòu)要素進(jìn)行識別和編碼。對圖像上字符(串)、文本行(列)位置進(jìn)行定位的過程。對圖像上字符(串)、文本行位置進(jìn)行識別的過程。2對圖像上識別出的文本,進(jìn)行排序、合并、自然語言處理等操作,使其轉(zhuǎn)換為結(jié)構(gòu)化信息的過程。下列縮略語適用于本文件。AI:人工智能(artificialintelligence)BMP位圖(bitmap)GIF:圖像互換格式(graphicsinterchangeformat)ICR:智能字符識別(intelligentcharacterrecognition)JPEG:聯(lián)合圖像專家組(jointphotographicexpertsgroup)OCR:光學(xué)字符識別(opticalcharacterrecognition)PNG:便攜式網(wǎng)絡(luò)圖形(portablenetworkgraphics)PDF:可攜式文件格式(portabledocumentformat)TIFF:標(biāo)簽圖像文件格式(tagimagefileformat)4智能字符識別系統(tǒng)框架基于人工智能技術(shù)的字符識別系統(tǒng)框架見圖1。文本輸出圖像輸入圖1智能字符識別系統(tǒng)框架ICR將給定圖像中的點或像素字符轉(zhuǎn)換為數(shù)字編碼信息,包括圖像獲取、圖像預(yù)處理、文本檢測、文本識別、信息提取五個模塊。a)圖像獲取模塊負(fù)責(zé)圖像、視頻截圖中圖像的讀取;b)圖像預(yù)處理模塊負(fù)責(zé)對從圖像獲取模塊接收到的圖像原始數(shù)據(jù),將其轉(zhuǎn)換成滿足文本檢測、文本識別等輸入要求的圖像,其中包括質(zhì)量增強(qiáng)、版面分析和質(zhì)量篩選等功能;c)文本檢測模塊負(fù)責(zé)對于給定圖像(包括原始圖像、圖像中間樣本等)進(jìn)行字符和文本行檢測;3d)文本識別模塊負(fù)責(zé)對于給定文本圖像,可包括原始圖像、圖像中間樣本、文本檢測出的圖像區(qū)域等,進(jìn)行字、詞和文本行的內(nèi)容識別;e)信息提取模塊依據(jù)版面分析、自然語言處理等手段將基于文本檢測和文本識別結(jié)果,轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),以及識別結(jié)果的矯正。5功能要求圖像采集功能應(yīng)符合以下要求:a)支持對包含但不限于JPEG、GIF、PNG、TIFF、BMP、PDF等常見的圖片格式進(jìn)行讀取。圖辨率支持范圍應(yīng)該包含128×128dpi~4096×4096dpi;b)支持對包括但不限于自然場景卡證、票據(jù)、文檔、表單等常見文本場景文字的檢測和識別。5.2圖像預(yù)處理對獲取到的圖像進(jìn)行預(yù)先處理,使圖像便于后續(xù)的檢測和識別符合以下要求:、a)增強(qiáng)圖像質(zhì)量,應(yīng)對圖像進(jìn)行幾何變換、畸變校正、修剪、數(shù)據(jù)格式轉(zhuǎn)換等操作;采用濾波、超分辨率等技術(shù)手段,在不破壞圖像邊緣、輪廓等原有細(xì)節(jié)的條件下對噪聲進(jìn)行抑制;b)版面分析,應(yīng)根據(jù)適用場景有效的檢測并區(qū)分出文字段落區(qū)域、圖片區(qū)域、表格、圖表、公式、圖章、二維碼等不同類別的元素;c)質(zhì)量篩選,宜對圖像成像質(zhì)量及圖像完整性進(jìn)行評價和判別,過濾無法正常識別的低質(zhì)量和完整度不足的圖像,如帶有反光、暗光、防偽標(biāo)識等干擾、以及關(guān)鍵角點缺失等完整度不足的圖5.3文本檢測在原始圖像或圖像中間樣本識別從預(yù)定義范圍的字符符合以下要求:a)應(yīng)支持設(shè)置待檢測字符類型范圍,如:Unicode字符集;b)應(yīng)檢測出預(yù)先定義范圍內(nèi)的字符類型,包含但不限于:中文簡體、中文繁體以及英語、阿拉伯語、俄語等西文;宜支持藏語、蒙語、維語等少數(shù)民族語言,數(shù)字、特殊符號及其組合等;c)應(yīng)在檢測結(jié)果中包含字符在圖像中的位置信息;d)宜支持對所檢測圖像中的最小、最大字符大小的設(shè)置,如:8px~256px。5.3.2文本行檢測對原始圖像或圖像中間樣本進(jìn)行文本行檢測符合以下要求:a)應(yīng)定位出圖像中文字塊的位置,位置信息支持水平矩形、旋轉(zhuǎn)矩形、不規(guī)則四邊形以及多輪廓點等形式;b)應(yīng)根據(jù)位置信息將含有文本行的區(qū)域,通過算法,如:仿射、最小外接矩形等歸一化算法,處理成規(guī)則的圖像數(shù)據(jù);c)應(yīng)支持對所需檢測圖像分辨率的設(shè)置,如:128×128dpi~4096×4096dpi;d)宜支持不同語言種類的檢測,如對中文、英文、混合語種的檢測;支持印刷體和手寫體的混合模式、不同字體類型大小、不同角度傾斜、不同程度遮擋物等情況的文字區(qū)域檢測。45.4文本識別對圖片中的文本行檢測區(qū)域進(jìn)行定位后,對檢測區(qū)域內(nèi)文本內(nèi)容進(jìn)行識別,應(yīng)符合以下要求:a)對印刷文字和手寫文字的識別;b)對字符、字母、混合語種中的文字內(nèi)容進(jìn)行識別;c)對數(shù)字、數(shù)學(xué)公式以及特殊符號的識別;d)英文識別的最小尺寸為16x16px,中文識別的最小尺寸為32x32px;e)對方向有旋轉(zhuǎn)的文字,支持文字與水平軸<±15°夾角偏轉(zhuǎn);f)支持對如中、日、韓文等有比較多豎排文字呈現(xiàn)的文字識別。5.5信息提取信息提取是基于文本檢測和文本識別結(jié)果,將嵌入其中的結(jié)構(gòu)化信息或非結(jié)構(gòu)化信息自動提取轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),應(yīng)符合以下要求:a)可對文本中的特定詞匯進(jìn)行糾錯;b)可根據(jù)特定的語言上下文的關(guān)系,對識別結(jié)果進(jìn)行校正。對于需要校正的字段,應(yīng)支持定義校正規(guī)則,并依據(jù)校正規(guī)則進(jìn)行處理,如日期、地址、金額類等;c)可支持對文本版式結(jié)構(gòu)的還原,包括但不限于標(biāo)題、章節(jié)、段落、圖表、腳注、頁眉、頁腳等版本格式;d)可支持識別表格區(qū)域行列信息,并對表格區(qū)域結(jié)構(gòu)單元信息進(jìn)行恢復(fù)還原。6性能要求6.1文本檢測性能要求交并比是用來評價文本目標(biāo)框和文本預(yù)測框之間的重合度。計算公式如式1,Bp——預(yù)測的矩形框區(qū)域;Bgt——標(biāo)注的矩形框區(qū)域。6.1.2精確率(PR)精確度包括字符精確度、單詞精確度和字段精確度。其中:a)字符精確率:適合中文ICR評測,字符包括單個文字以及標(biāo)點符號;b)單詞精確率:適合英文ICR評測,單詞以空格分隔;c)字段精確率:適合卡證類、發(fā)票類、車牌ICR評測,能提取到結(jié)構(gòu)化的字段信息。精確率用于衡量正確檢測出的字符(串)框數(shù)量占所有檢測出的字符(串)框數(shù)量的比例。計算方法見公式2:正確檢測是指預(yù)測框與目標(biāo)框的IoU不小于0.5。5PR——精確率;C——正確檢測出的字符(串)框數(shù)量;M——檢測出的字符(串)框總數(shù)量。6.1.3召回率(RR)召回率包括字符召回率、單詞召回率和字段召回率。召回率用于衡量正確檢測出的字符(串)框數(shù)量占圖像上真實存在的字符(串)框數(shù)量的比例。計算方法見公式3:C——正確識別的字符(串)框數(shù)量;N——圖像上應(yīng)該被正確識別的字符(串)框總數(shù)量。FScore為精確率和召回率的調(diào)和平均,平衡因子(權(quán)重)取1。計算方法見公式4:FScore——精確率和召回率的調(diào)和平均;β——平衡因子,β=1時,精確率和召回率權(quán)重相同;PR——精確率;6.1.5AP測度AP測度為在不同IoU閾值情況下,不同召回率下的平均精確率。以召回率RR為橫軸,精確率PR為縱軸,可以得到不同IoU閾值下的精確率-召回率曲線。通常,IoU閾值較低時,精度低,召回高,IoU閾值較高時,精度高,召回低,這樣可以得到一條類似雙曲線的函數(shù)。之后對該曲線進(jìn)行平滑處理,即該曲線上的每一個點,精確率的值取該點右側(cè)最大的精確率的值。繪制出平滑后的精確率-召回率曲線后,取橫軸0-1的10等分點的精確率的值,計算其平均值作為最終AP測度的值,它的計算公式見公式5:AP不同召回率下的平均精確率;PRth——平滑后的精確率。6.1.6不同場景下文本檢測性能要求6電子/掃描、拍照、自然街景、網(wǎng)絡(luò)、多語音等場景下的文本檢測性能要求應(yīng)符合表1的要求。表1文本行檢測要求召回率電子/掃描拍照自然街景網(wǎng)絡(luò)多語言6.2文本識別性能要求6.2.1精確率(PR)精確率用于衡量正確識別出的字符(串)數(shù)量占所有檢測出的字符(串)數(shù)量的比例。計算方法見公式6:C——正確識別的字符(串)數(shù)量;M——識別的字符(串)總數(shù)量。6.2.2編輯距離編輯距離表示一個字符串修改為和另外一個字符串一致,總共需要修改的字符數(shù)。編輯距離越大表示兩字符串之間的差異越大。編輯距離包括全圖編輯距離、最小編輯距離和平均編輯距離。歸一化編輯距離可以衡量兩個字符串之間的相似性,在編輯距離的基礎(chǔ)上加入歸一化操作可規(guī)避字符串長度帶來的指標(biāo)差異。計算方法見公式7:s;——預(yù)測的文本內(nèi)容;S,——真實文本內(nèi)容;7max(s,s;)——s,和$,的最大長度;D(s,s,)——s,與S,的編輯距離,描述了兩個字符串的相似度,定義為從一個字符串變換到另一例如,有一個字符串a(chǎn)='love',b='lolpe'.那么計算a和b的編輯距離,就是要算出從a變化到b需a)love->lolve(插入1)b)lolve->lolpe(用v替換成p)6.2.3詞錯誤率詞錯誤率(WordErrorRate,WER)是EDITDIS(label,pred)——表示標(biāo)簽label與預(yù)測6.2.4不同場景下文本識別性能要求表2文本行識別要求印刷文字中文8搭建測試環(huán)境選擇測試指標(biāo)評價測試結(jié)果c)確定系統(tǒng)質(zhì)量目標(biāo):根據(jù)系統(tǒng)的應(yīng)用場景和風(fēng)險,確定1)確定系統(tǒng)功能有效性、性能、兼容性、維護(hù)性、可移植性、訓(xùn)練數(shù)據(jù)集的質(zhì)量、對抗樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年證券從業(yè)資格證的邏輯推理考題解析試題及答案
- 項目管理團(tuán)隊?wèi)?yīng)急管理技巧試題及答案
- 項目管理中的團(tuán)隊激勵與建設(shè)試題及答案
- 綜合素質(zhì)提升的行政管理師試題及答案
- 項目管理專業(yè)資格考試趨勢試題及答案
- 知識點全面復(fù)習(xí)計劃幫助特許金融分析師考試試題及答案
- 金融課題申報書
- 項目管理課程的評估與反饋試題及答案
- 廣西代寫課題申報書
- 2025年證券從業(yè)資格證考試大步走試題及答案
- FZ/T 54098-2017聚乳酸牽伸絲
- Oracle-EBS生產(chǎn)制造解決方案
- 植物生理學(xué)第十三章植物的逆境生理課件
- 宮頸癌護(hù)理查房
- 施工單位人員退場制度
- 漢譯巴利三藏相應(yīng)部3-蘊篇
- 建筑外窗抗風(fēng)壓性能計算書
- 年產(chǎn)萬噸酒精發(fā)酵車間設(shè)計
- 生物化學(xué)與分子生物學(xué)人衛(wèi)版教材全集
- 照片里的故事
- 土木工程畢業(yè)設(shè)計框架結(jié)構(gòu)教學(xué)樓計算書
評論
0/150
提交評論