版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、abbyyfinereader使用指南 (2012-09-19 18:36:31)轉(zhuǎn)載標(biāo)簽:掃描校對書籍ocr分享雜談分類:他山之石首先,什么是 ocr 技術(shù)?ocr (optical character recognition,光學(xué)字符識別)傳統(tǒng)上是指,電子設(shè)備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。本文所述 ocr,特指將 pdf 文檔,拆分為一幅幅圖像文件,用 ocr 技術(shù)通過相應(yīng)軟件,將圖片中文字轉(zhuǎn)換成文本,便于下一步操作(例如導(dǎo)入書苑的 epubb
2、uilder 制作軟件)。傳說中一步到位的 pdf 轉(zhuǎn)換成 epub ,并不在本文的討論范疇內(nèi)。一、準(zhǔn)備工作:1.準(zhǔn)備 pdf 源文件,并將 pdf 按頁拆分成圖像文件。方法有很多,不一一贅述了,如圖例1;2.準(zhǔn)備 ocr 軟件,本人用的是abbyy finereader 10,如圖例2;二、初始工作:1.新建 finereader 文檔,如圖例3;2.點擊上欄“打開”圖標(biāo),打開圖像,打開后,軟件處理圖像添加進文檔,如圖例4、5;提示:在新建的 finereader 文檔中,添加若干圖像文件,可以合理安排工作量,例如:按章節(jié)分派,每個文檔就是一個章節(jié)的圖像文件;平均分派,每個文檔取一個固定值的
3、圖像文件,便于均衡校對的工作量。3.保存 finereader 文檔,如圖例6;提示:建立并保存 finereader 文檔后,下次可以打開未完成的文檔,繼續(xù)校對工作。三、設(shè)置工作:1.將輸出設(shè)置為“另存為txt”,如圖例7;提示:個人認為無格式的txt文檔便于后期編輯,具體喜好因人而宜。2.點擊“選項”圖標(biāo),設(shè)置“文檔語言”,這個很重要,如圖例8;提示:簡體中文書籍,繁體書籍,英文書籍請按相應(yīng)語言設(shè)置,也可按右側(cè)“編輯語言”,設(shè)置你要的語言,不要添加過多選項,否則將影響準(zhǔn)確率。如圖例9。3.在“選項”內(nèi)選“查看”標(biāo)簽,設(shè)置軟件顯示待校對文字的字體,如圖例10;提示:我選“楷體”,并不是說我喜
4、歡這個字體,而是因為,很多生僻字在楷體字庫下顯示不出,例如“事”和“亊”,識別為“亊”,在宋體下能顯示,楷體不顯示,便于糾錯。四、校對工作:1.打開 finereader 文檔(類似一個專輯),調(diào)出一組圖像文件;2.一般情況打開左右兩欄,左側(cè)原圖,右側(cè)待校對文字;3.調(diào)整好兩欄顯示大?。?.打開右上角“顯示不可打印字符”按鈕,便于將不規(guī)則字符去除;如圖例115.遇到書源不好的pdf,字跡比較模糊,也可調(diào)整為上下倆欄(共4欄),識別校對,如圖例12;6.軟件會將可能錯誤的字符以背景顏色顯示出來,便于校對更正,更正時可以手動輸入,也可以鼠標(biāo)移動待修改字,右鍵以顯示待選字符,再選擇正確字符。如圖例13;7.將此檔校對完畢,保存輸出,如圖例14;8.其他一些情況,如中英文混編的書籍,更復(fù)雜一些。建議分別選擇識別區(qū)域,分別識別,如圖例15。9.ocr 技術(shù)的擴展應(yīng)用,一份小女的卷子,手機拍下,分別識別校對。五、總結(jié):有書友提出不必拆分為圖片,直接進行轉(zhuǎn)換,甚至有的軟件號稱可以直接 pdf 轉(zhuǎn) epub。當(dāng)然那也是可以的,同樣的 ocr 軟件輸出質(zhì)量應(yīng)該是相差無幾的。但是本人是完美主義者,做事的理念是:“不喜歡難看的東西,更不喜歡錯誤的東西”。所以多做了一些前期工作,喜歡以圖片、文字對照的方式邊讀邊校對。作完一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合法的小型工程合同
- 2025京亞葡萄批發(fā)合同
- 2025房屋抵押合同書
- 2025年度個人商鋪買賣合同規(guī)范范本
- 2025企業(yè)管理資料范本電梯(自動扶梯)維修保養(yǎng)合同書
- 2025【合同范本】施工建筑合同范本
- 2025年度專業(yè)心理咨詢師個人勞務(wù)合同范本
- 二零二五年度電商知識產(chǎn)權(quán)保護與維權(quán)合同8篇
- 二零二五年度餐飲企業(yè)食品安全風(fēng)險評估與風(fēng)險防范合同3篇
- 2024版公司整體轉(zhuǎn)讓合同范本
- 退休人員出國探親申請書
- 傷殘撫恤管理辦法實施細則
- 高中物理競賽真題分類匯編 4 光學(xué) (學(xué)生版+解析版50題)
- 西方經(jīng)濟學(xué)-高鴻業(yè)-筆記
- 幼兒園美術(shù)教育研究策略國內(nèi)外
- 高中英語選擇性必修一單詞表
- 物業(yè)公司介紹
- 2024屆河南省五市高三第一次聯(lián)考英語試題及答案
- 【永輝超市公司員工招聘問題及優(yōu)化(12000字論文)】
- 孕婦學(xué)校品管圈課件
- 《愿望的實現(xiàn)》交流ppt課件2
評論
0/150
提交評論