HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)_第1頁(yè)
HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)_第2頁(yè)
HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)_第3頁(yè)
HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)_第4頁(yè)
HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

TH-OCR2009文通數(shù)據(jù)錄入工廠(chǎng)ChenJZ@HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第1頁(yè)!產(chǎn)品概述隨著信息社會(huì)的發(fā)展,科技的進(jìn)步,目前,我國(guó)的信息產(chǎn)業(yè),面臨著電子出版、Internet網(wǎng)上出版、建立數(shù)字圖書(shū)館的新型發(fā)展。我國(guó)現(xiàn)有常見(jiàn)報(bào)刊3000余種,各類(lèi)雜志4500余種,報(bào)刊、雜志的電子出版已經(jīng)成為媒體潮流和競(jìng)爭(zhēng)的熱點(diǎn)。百科全書(shū)、地方志以及建筑、金融、醫(yī)藥、法律等各行各業(yè)的檔案資料、行業(yè)信息也都有待于數(shù)字化和電子出版;數(shù)字圖書(shū)館建設(shè)也成為國(guó)家關(guān)注的重點(diǎn)項(xiàng)目。如何以低成本、快速度、高質(zhì)量地將我國(guó)浩如煙海,取之不竭的文檔資料和行業(yè)信息數(shù)字化,是“TH-OCR2009文通數(shù)據(jù)錄入工廠(chǎng)”能夠解決的問(wèn)題。TH-OCR2009文通數(shù)據(jù)錄入工廠(chǎng)是在國(guó)家863計(jì)劃、國(guó)家自然科學(xué)基金長(zhǎng)期支持下,清華大學(xué)電子工程系智能圖文信息處理研究室長(zhǎng)期漢字識(shí)別研究工作的基礎(chǔ)上,在八六三計(jì)劃863-306-ZD03-02-1重點(diǎn)課題和國(guó)家自然科學(xué)基金項(xiàng)目69682003的支持下開(kāi)發(fā)完成的。清華大學(xué)電子工程系的漢字識(shí)別技術(shù)一直處于國(guó)內(nèi)外領(lǐng)先地位,是海量數(shù)據(jù)電子化首選,圖書(shū)館數(shù)據(jù)電子化必備,可以全方位實(shí)現(xiàn)與大型報(bào)社以及數(shù)據(jù)加工企業(yè)的立體鏈結(jié)與無(wú)縫合作。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第2頁(yè)!軟件功能識(shí)別核心TH-OCR2009文通數(shù)據(jù)錄入工廠(chǎng)內(nèi)置文通科技最新研發(fā)的高性能文字識(shí)別引擎,中文漢字識(shí)別率達(dá)99.8%以上。英文、日文、韓文的識(shí)別率居世界領(lǐng)先水平。Unicode編碼采用UNICODE國(guó)際編碼標(biāo)準(zhǔn)。系統(tǒng)可在一個(gè)統(tǒng)一的平臺(tái)下,同時(shí)處理包括中文、日文、韓文、英文在內(nèi)的多種文字的識(shí)別和校對(duì)修改。XML技術(shù)系統(tǒng)基于開(kāi)放式的XML數(shù)據(jù)結(jié)構(gòu),可以對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充和再定義。支持第三方開(kāi)發(fā)廠(chǎng)商方便地進(jìn)行文檔數(shù)據(jù)的轉(zhuǎn)換、遷移和再利用。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第3頁(yè)!增量識(shí)別增量識(shí)別功能允許用戶(hù)只識(shí)別手工編輯修改過(guò)的或新增加的區(qū)域,而保留其他已經(jīng)完成校對(duì)的文字區(qū)域,為用戶(hù)使用提供最大的靈活性與方便性。自學(xué)習(xí)針對(duì)古籍、科研等特殊領(lǐng)域文檔中經(jīng)常出現(xiàn)的特殊文字,即使不在國(guó)家標(biāo)準(zhǔn)范圍以?xún)?nèi)或者TH-OCR字庫(kù)中并沒(méi)有支持,用戶(hù)也可通過(guò)自學(xué)習(xí)功能,將這些文字的圖像學(xué)習(xí)進(jìn)入系統(tǒng),使得調(diào)整后的核心可以支持這些文字的識(shí)別。雙層PDF批量制作將指定的圖像或者文件內(nèi)的圖像批量轉(zhuǎn)化為雙層可檢索PDF。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第4頁(yè)!步驟一:導(dǎo)入圖像TH-OCR2009可以通過(guò)直接連接掃描儀來(lái)得到掃描文件,也可以直接從本地或者網(wǎng)絡(luò)文件夾中導(dǎo)入已存在的圖像文件。TH-OCR2009可以創(chuàng)建一個(gè)工程,然后在工程中創(chuàng)建文件夾或者直接導(dǎo)入頁(yè),可以對(duì)整個(gè)工程和工程內(nèi)的文件夾進(jìn)行批量處理、識(shí)別以及導(dǎo)出掃描圖像導(dǎo)入已存在的圖像HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第5頁(yè)!圖像處理實(shí)例反轉(zhuǎn)圖像傾斜校正裁剪刪除區(qū)域HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第6頁(yè)!自動(dòng)調(diào)整區(qū)域邊界對(duì)黑白二值的圖像,TH-OCR2009可以自動(dòng)進(jìn)行區(qū)域調(diào)整,使區(qū)域自動(dòng)適應(yīng)到區(qū)域的邊界。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第7頁(yè)!遺漏檢查對(duì)于版面較多和比較復(fù)雜的頁(yè)面,例如報(bào)紙,進(jìn)行版面分析時(shí),可能會(huì)有遺漏。通過(guò)遺漏檢查則可以很清楚的看清那些版面是沒(méi)有做過(guò)版面分析的。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第8頁(yè)!增量識(shí)別增量識(shí)別可以大大提高識(shí)別效率。增量識(shí)別可以?xún)H對(duì)版面分析中新增加的活著區(qū)域?qū)傩灶?lèi)型有變化的區(qū)域進(jìn)行識(shí)別,而保留其他未改動(dòng)的區(qū)域的識(shí)別結(jié)果,這樣可以很好的提高識(shí)別效率,增量識(shí)別后對(duì)區(qū)域?qū)傩詻](méi)有改動(dòng)的區(qū)域內(nèi)的文字不會(huì)有絲毫影響。整頁(yè)識(shí)別增量識(shí)別修改區(qū)域HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第9頁(yè)!集字校對(duì)器橫向校對(duì)是逐字逐句的對(duì)原始圖像和識(shí)別結(jié)果進(jìn)行校對(duì),這種方法既費(fèi)時(shí)費(fèi)力,又容易疏忽而漏掉錯(cuò)誤,僅僅使用該方法能夠把錯(cuò)誤率降低到千分之一左右。為了解決橫向校對(duì)速度慢,效率低這一系列難題,TH-OCR2009提供了集字校對(duì):查錯(cuò)率高,集字校對(duì)編輯器把識(shí)別結(jié)果相同的文字對(duì)應(yīng)的圖像顯示在一起。由于少數(shù)錯(cuò)誤的字與大量正確的字有差別,可以比較容易地發(fā)現(xiàn)錯(cuò)字,不易漏掉錯(cuò)誤。集字校對(duì)編輯器重新組織文字順序,不會(huì)使校對(duì)人員陷入到識(shí)別文字的故事情節(jié)中。校對(duì)效率高,不易疲勞。把集字校對(duì)的結(jié)果與傳統(tǒng)方法校對(duì)的結(jié)果進(jìn)行比較、綜合,就能得到最高的查錯(cuò)和糾錯(cuò)效果,得到盡可能低的錯(cuò)誤率和最好的最終結(jié)果。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第10頁(yè)!識(shí)別結(jié)果經(jīng)修改編輯后,可根據(jù)需要將文檔存為RTF、PDF或直接保存為T(mén)XT格式。導(dǎo)出為PDF格式導(dǎo)出為RTF格式導(dǎo)出為T(mén)XT格式步驟六:識(shí)別結(jié)果輸出HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第11頁(yè)!導(dǎo)出為PDF由于PDF文件是一種跨平臺(tái)的通用文件格式,能夠保存任何源文檔的所有字體、格式、顏色和圖形,閱讀方便,具有高效的瀏覽性。廣泛應(yīng)用于各種行業(yè)。利用PDF的特性,可以將原始圖片不加修改的放入PDF文件中,再將識(shí)別結(jié)果的文字以透明字體的形式置于其在原始圖像上的位置。當(dāng)用戶(hù)瀏覽PDF文檔的時(shí)候,看到的是原始的圖像,這樣可以避免在瀏覽時(shí),識(shí)別錯(cuò)誤帶來(lái)的影響。但是其中的文字是可以被檢索、選中、復(fù)制、再利用的。TH-OCR2009可以將文件根據(jù)需要導(dǎo)出為四種類(lèi)型的PDF格式,并且新增了PDF書(shū)簽功能,可以直接將書(shū)簽導(dǎo)入到PDF中。純圖像PDF文本PDF雙層PDFHOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第12頁(yè)!ImageToPDFImageToPDF可以實(shí)現(xiàn)圖像文件到PDF文件的自動(dòng)轉(zhuǎn)換,生成的PDF文件能夠?qū)崿F(xiàn)全文檢索,可以復(fù)制粘貼,也可以對(duì)某個(gè)指定目錄進(jìn)行長(zhǎng)期監(jiān)視,真正實(shí)現(xiàn)無(wú)人操作。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第13頁(yè)!典型應(yīng)用圖書(shū)館

中國(guó)國(guó)家圖書(shū)館清華大學(xué)圖書(shū)館上海交大圖書(shū)館天津南開(kāi)大學(xué)圖書(shū)館

在數(shù)字圖書(shū)館領(lǐng)域擁有上百家用戶(hù)電力行業(yè)

國(guó)電信息中心各省市電力設(shè)計(jì)院各省市電力科學(xué)院

在電力標(biāo)準(zhǔn)數(shù)字化項(xiàng)目中廣泛應(yīng)用出版社

商務(wù)印書(shū)館中華書(shū)局

在古籍識(shí)別技術(shù)領(lǐng)域得到了客戶(hù)的首肯報(bào)杜

大連日?qǐng)?bào)社深圳特區(qū)報(bào)南方周末

在生產(chǎn)流程化管理系統(tǒng)已成為報(bào)業(yè)信息化的首選要素政府機(jī)關(guān)

中央辦公廳國(guó)家安全部九局水利部國(guó)家質(zhì)量技術(shù)監(jiān)督局

網(wǎng)絡(luò)了最多的政府機(jī)關(guān)用戶(hù)HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第14頁(yè)!版面還原強(qiáng)大的版面還原技術(shù),可將識(shí)別后的報(bào)刊、雜志、圖書(shū)等多種形式的文檔,通過(guò)還原字體、字號(hào)、版面位置、字體顏色等信息以原版原式呈現(xiàn)在讀者面前,最終生成優(yōu)質(zhì)的全息PDF文檔。集字校對(duì)集字校對(duì)是TH-OCR2009文通數(shù)據(jù)錄入工廠(chǎng)特有的文字校對(duì)技術(shù),該技術(shù)打破了傳統(tǒng)校對(duì)工具圖像與識(shí)別結(jié)果文本比對(duì)顯示的模式,將多篇文檔中所有識(shí)別結(jié)果相同的字符圖像集中呈現(xiàn)在一個(gè)視圖中,給校對(duì)人員強(qiáng)烈的視覺(jué)沖擊,讓錯(cuò)字自動(dòng)“跳”入校對(duì)人員的眼中,避免了校對(duì)人員因陷入文檔的上下文語(yǔ)境而產(chǎn)生視覺(jué)疲勞,引起的校對(duì)準(zhǔn)確率下降。同時(shí),由于常用漢字集中在3000-4000個(gè)左右,面對(duì)海量文字的校對(duì)時(shí),不會(huì)因文字量的上升帶來(lái)相應(yīng)的校對(duì)量的上升,仍只需校對(duì)這幾千個(gè)不同的漢字,明顯提高工作效率。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第15頁(yè)!全新簡(jiǎn)捷的界面頁(yè)面視圖區(qū)文本視圖區(qū)縮略圖和列表欄圖像視圖區(qū)索引欄工具欄HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第16頁(yè)!步驟二:圖像處理TH-OCR2009提供了簡(jiǎn)單的圖像處理功能,可以滿(mǎn)足基本的圖像處理需求旋轉(zhuǎn)圖像,可以將掃描得到的圖像或者導(dǎo)入進(jìn)來(lái)的圖像進(jìn)行旋轉(zhuǎn)來(lái)得到正確的圖像閱讀方向刪除區(qū)域,對(duì)不需要的區(qū)域可以該功能將區(qū)域抹白裁剪圖像,如果只需要保留圖像的某一區(qū)域,可以使用裁剪功能反轉(zhuǎn)圖像,對(duì)一些黑底白字的圖像,可以使用該功能使其反轉(zhuǎn)變成白底黑字的圖像傾斜校正,對(duì)掃描時(shí)因放置不當(dāng)而造成的圖像傾斜可以進(jìn)行自動(dòng)或者是手動(dòng)傾斜校正,通過(guò)增強(qiáng)圖像質(zhì)量,提高識(shí)別率HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第17頁(yè)!TH-OCR2009可以對(duì)如雜志、書(shū)本、報(bào)刊等進(jìn)行自動(dòng)版面分析。TH-OCR2009將版面分為橫排文本、豎排文本、圖像、表格四種類(lèi)型,正確的版面分析可以提高識(shí)別效果。用戶(hù)也可以根據(jù)需求,進(jìn)行手動(dòng)版面分析。步驟三:版面分析豎排文本圖像表格橫排文本HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第18頁(yè)!刪除被覆蓋的區(qū)域該功能可以在進(jìn)行新區(qū)域劃分的時(shí)候,自動(dòng)將新區(qū)域所覆蓋的區(qū)域刪除。HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第19頁(yè)!步驟四:識(shí)別TH-OCR2009可以進(jìn)行簡(jiǎn)繁日韓英五種語(yǔ)言的文字識(shí)別:簡(jiǎn)體多體繁體多體簡(jiǎn)體全字集繁體全字集手寫(xiě)體純英文日文韓文HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第20頁(yè)!步驟五:校對(duì)橫向校對(duì)在識(shí)別結(jié)果區(qū)域中,通過(guò)人工逐字逐句比較識(shí)別結(jié)果與原始圖像,找到錯(cuò)誤的地方并修改。浮動(dòng)跟蹤條可以提高橫向校對(duì)的速度,它是將識(shí)別的原始圖像塊跟蹤顯示在識(shí)別結(jié)果上,使識(shí)別結(jié)果與原始圖像一一對(duì)應(yīng)的顯示,直觀(guān)、方便、快捷HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第21頁(yè)!簡(jiǎn)潔方便的縱校界面識(shí)別結(jié)果與原始圖像塊對(duì)照區(qū):第一個(gè)方格為識(shí)別結(jié)果,其后的方格為原始圖像塊識(shí)別結(jié)果列表區(qū):顯示當(dāng)前校對(duì)圖像的識(shí)別結(jié)果文字列表原始圖像區(qū)直接輸入的結(jié)果字符,可以跳到該字符HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第22頁(yè)!導(dǎo)出為RTF在導(dǎo)出識(shí)別結(jié)果為RTF時(shí),可以選擇在結(jié)果文件中保留圖像和還原版面。不輸出圖像,取消精確還原版面輸出圖像,精確還原版面HOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),您現(xiàn)在瀏覽的是第23頁(yè)!雙層PDF的特點(diǎn)PDF中的文字層用于查詢(xún)、檢索、利用,圖像層用于瀏覽,提供給用戶(hù)多種應(yīng)用方式。圖像部分壓縮存儲(chǔ)。對(duì)黑白圖像采用G4壓縮,對(duì)彩色、灰度圖像采用JPEG壓縮。文字部分所占空間極小。整個(gè)文件與壓縮過(guò)的圖像文件大小相差無(wú)幾。識(shí)別圖像文本層圖像層雙層PDFHOCR2009文通數(shù)據(jù)錄入工廠(chǎng)共26頁(yè),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論