基于FPGA異構(gòu)加速的OCR識(shí)別技術(shù)解析_第1頁(yè)
基于FPGA異構(gòu)加速的OCR識(shí)別技術(shù)解析_第2頁(yè)
基于FPGA異構(gòu)加速的OCR識(shí)別技術(shù)解析_第3頁(yè)
基于FPGA異構(gòu)加速的OCR識(shí)別技術(shù)解析_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于FPGA異構(gòu)加速的OCR識(shí)別技術(shù)解析OCR在通用文字識(shí)別等場(chǎng)景下有廣泛應(yīng)用,基于FPGA異構(gòu)加速的OCR識(shí)別相比CPU/GPU實(shí)現(xiàn)具有延時(shí)小、成本低的優(yōu)勢(shì)。我們?cè)O(shè)計(jì)了多FPGA芯片協(xié)同的異構(gòu)加速架構(gòu),能快速適配業(yè)務(wù)OCR模型變化,檢測(cè)識(shí)別整體性能為GPUP4130%,處理延時(shí)僅為P4的1/10,CPU的1/30。1.文字識(shí)別技術(shù)-OCROCR技術(shù),通俗來(lái)講就是從圖像中檢測(cè)并識(shí)別字符的一種方法,在證通用文字識(shí)別、書(shū)籍電子化、自動(dòng)信息采集、證照類(lèi)識(shí)別等應(yīng)用場(chǎng)景中得到了廣泛應(yīng)用。通用場(chǎng)景的OCR因此通用場(chǎng)景下的OCR技術(shù)一直都是人工智能領(lǐng)域挑戰(zhàn)性極強(qiáng)的研究領(lǐng)域,不需要針對(duì)特殊場(chǎng)景進(jìn)行定制,可以識(shí)別任意場(chǎng)景圖片中的文字。通用OCR技術(shù)包含兩大關(guān)鍵技術(shù):文本檢測(cè)和文字識(shí)別。檢測(cè)模型的作用簡(jiǎn)單來(lái)說(shuō)就是確定圖片中哪里有字,并把有字的區(qū)域框出來(lái)。文字識(shí)別是將文本檢測(cè)box作為輸入,識(shí)別出其中的字符。近年來(lái)深度學(xué)習(xí)逐漸被應(yīng)用到音頻、視頻以及自然語(yǔ)言理解等時(shí)序數(shù)據(jù)建模的領(lǐng)域。通過(guò)深度學(xué)習(xí)的端到端學(xué)習(xí)提升SequenceLearning的效果已經(jīng)成為當(dāng)前研究的熱點(diǎn)?;舅悸肥荂NN與RNN結(jié)合:CNN被用于提取有表征能力的圖像特征,將RNN的序列化特性引入到文本檢測(cè),增加了文本檢測(cè)候選區(qū)域的上下文信息,可以有效地提升文本檢測(cè)任務(wù)的性能。CNN+RNN的混合網(wǎng)絡(luò)將文本串識(shí)別領(lǐng)域的效果推到了一個(gè)新的高度。

1:CRNN網(wǎng)絡(luò)結(jié)構(gòu)*上圖引用自《AnEnd-to-EndTrainableNeuralNetworkforImage-basedSequenceRecognitionandItsApplicationtoSceneTextRecognition》。我們以目前應(yīng)用十分廣泛的CRNN模型為例,它是DCNN和RNN的組合,可以直接從序列標(biāo)簽學(xué)習(xí),不需要詳細(xì)的標(biāo)注;比標(biāo)準(zhǔn)DCNN模型包含的參數(shù)要少很多。同時(shí)CRNN在圖像特征和識(shí)別內(nèi)容序列之間嚴(yán)格保序,擅長(zhǎng)識(shí)別字分割比較困難的文字序列。架構(gòu)包括三部分:

1)卷積層,從輸入圖像中提取特征序列,將圖像進(jìn)行空間上的保序壓縮,相當(dāng)于沿水平方向形成若干切片,每個(gè)切片對(duì)應(yīng)一個(gè)特征向量;2)循環(huán)層,預(yù)測(cè)每一幀的標(biāo)簽分布;采用雙層雙向的LSTM,進(jìn)一步學(xué)習(xí)上下文特征,據(jù)此得到切片對(duì)應(yīng)的字符類(lèi)別。3)Transcription層,利用CTC和前向后向算法求解最優(yōu)的label序列。2.OCR加速架構(gòu)依賴(lài)于FPGA的可編程性、高性能以及高通信帶寬,我們?cè)O(shè)計(jì)了一個(gè)多FPGA芯片協(xié)同的異構(gòu)加速架構(gòu)。單一芯片針對(duì)一種類(lèi)型的模型進(jìn)行深度定制優(yōu)化,不同芯片之間通過(guò)負(fù)載均衡以及流水化來(lái)完成整個(gè)混合模型的加速過(guò)程。

圖2:OCR加速硬件架構(gòu)FPGA0配置為通用的CNN加速架構(gòu)FPGA1配置為通用的LSTM加速架構(gòu)對(duì)于計(jì)算量較小的FC使用CPU進(jìn)行計(jì)算,保持模型靈活性FPGA與服務(wù)器CPU通過(guò)PCIeGen3進(jìn)行數(shù)據(jù)通信,負(fù)載均衡由CPU進(jìn)行控制FPGA間通過(guò)AURORA輕量級(jí)協(xié)議進(jìn)行數(shù)據(jù)交換,數(shù)據(jù)交換延時(shí)ns級(jí),類(lèi)似不同板卡間內(nèi)存共享平臺(tái)后續(xù)升級(jí)可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論