


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、如何將繁體豎排掃描版 pdf 電子圖書轉化為可編輯的文本文件2010年8月5日4:01一、背景酷暑難熬,心情煩躁,讀書是最好的“清涼飲料”。最近,閑暇時間正在讀春秋左傳。我讀的版本 為李夢生撰、上海古籍出版社出版的左傳譯注。在讀的過程中,總是感覺有的地方?jīng)]有注釋, 只能看譯文幫助理解。于是,就想找其它的版本作參考。該書“前言”中提到:“特別需要說明的 是,楊伯峻先生的春秋左傳注一書,對我的幫助尤大?!彼?,就在網(wǎng)上下載了此書(修訂 本)的電子文檔。楊伯峻先生的春秋左傳注一書是春秋左傳的經(jīng)典必讀之書。遺憾的是,此書為繁體豎排,注釋 插在正文中,并且沒有譯文。此書對于大陸讀者來說,可能很不習慣。能
2、不能將此書重新排版,采 用更適合大陸讀者閱讀習慣的格式,重新出版呢?這或許是我的一個夢想,因為楊伯峻先生已經(jīng)去 世,而且全書有 1800多頁。我一時沖動居然想實現(xiàn)這個夢想。我在網(wǎng)上下載的版本是掃描圖像制成的pdf 格式,要想重新排版,需要可以編輯的文檔。我在網(wǎng)上還沒有找到此書可編輯的版本。所以,我就試著自己將這本書 的掃描版本轉化為可編輯的版本。二、方法 我在網(wǎng)上看了一些相關的資料,借鑒了別人的一些經(jīng)驗,通過反復試驗,終于找到了將繁體豎排掃 描圖像的pdf電子圖書轉化為可編輯文本的方法。1、將掃描版Pdf圖書轉化為圖像文件由于掃描后制成pdf格式的圖書,內(nèi)部的每頁都是一個圖像,所以必須把其中的
3、圖像文件提取出 來,米用OCRS別的方法,才能轉化為可編輯的文本格式。轉化為圖像文件,有兩種方法:(1 直接由Adobe Acrobat導出圖像文件。我采用的是Adobe Acrobat Pro 9。選擇“文件一導出一圖像一TIFF功能即可從掃描圖像的pdf文中 提取出多個掃描文檔(每頁一個)。這種方法非常簡單適用,推薦使用。之所以要轉化成TIFF格式的圖像文件,是因為有介紹說 TIFF格式的圖像文件,OCR勺識別率高。(2)用 Microsoft Office Document Image Writer 打印生成 pdf文檔的圖像文件。Microsoft Office Document Im
4、age Writer是Office中帶的一個工具。如果在安裝 Office時沒有安裝,對 于2003和2007版本的Office,只須重新安裝一遍即可。在需要安裝的內(nèi)容中,在“工具”中選擇后 安裝即可。我使用的是 Office 2010,在安裝內(nèi)容選項中沒有找到這個工具。不知道是版本問題,還 是2010版本本身就沒有這個工具。我用 Office 2007安裝了此工具,使用正常。因為這就是一個虛擬 打印機,所以可以采用以前版本的。安裝時,只選擇此工具,其它內(nèi)容全部不選。這樣安裝后,可 以保證Office 2010的正常使用。Microsoft Office Document Image Writ
5、er 安裝正常后,在 Adobe Acrobat Pro 9中打印時,選擇此打印機 即可將pdf格式的圖書轉化為一個TIFF文檔。2、對提取到的圖像文件進行處理。此項工作的主要目的是,提高 OCR識別率,減少校對編輯時間。如果掃描文件的質(zhì)量很高,可以不 進行此項工作。進行此項工作 我之所以要進行此項工作,并不是因為掃描文件的質(zhì)量不高,而是因為本書為繁體豎排,而且專有 名詞下面都帶了下劃線。就是這些下劃線影響了識別率。我在沒進行圖像處理前進行識別,識別出 來的文本錯誤很多,需要花費很長時間來進行校對。去掉下劃線后,識別率顯著提高?;藭r間去 掉下劃線,節(jié)約了校對時間,但是效率卻大幅提高了。我采用
6、的圖像處理軟件為 PhotoFiltre Studio X 10.2.1。這個軟件能夠滿足對掃描文件的處理。我最初 采用的是Windows自帶的“畫筆”軟件,但是存盤后,發(fā)現(xiàn)分辨率降低了,以致識別率極低。所以 我最后才選定PhotoFiltre Studio X這個軟件。使用其中的選擇工具,把下劃線和所有污點去掉。3、OCF識別經(jīng)過比較,我選定了“漢王文本王 文豪7600”(專業(yè)版)這個軟件。這個軟件對于繁體豎排的掃 描文件識別率很高(去掉掃描文件中的下劃線后),而且校對功能很方便。這是我沒有想到的,說 明漢王的技術確實不錯,不愧為“漢王”。最好一頁一頁地識別。打開需要識別的掃描文件,( 1)
7、在工具欄中選擇選項“豎排”、“簡繁” 等配置項;( 2)選擇工具欄中的“版面分析”分析掃描文件的版面。可以將不需要識別的版面去 掉。版面會影響識別后的排版格式。(3)選擇工具欄中的“識別”進行 OCR識別。(4)校對。在 校對窗口中校對文本。( 5)文本輸出。可以將識別后的文本輸出到 Word 2003,輸出到2010可能有 些問題。所以我直接將文本復制到 Word 2010中,在其中重新編輯排版。4、繁體字的輸入對于繁體書,在OCF識別后的校對過程中,需要輸入繁體字,特別一些生僻的繁體字。對于大陸讀 者來講,輸入和處理繁體字非常令人頭痛。( 1)繁體字庫。要處理繁體字,最好還是裝一些繁體字庫
8、。我裝的有: PMingLiU -Fixed.ttf 、方 正蘭亭字庫5.0繁體和UniFonts.exe,這些字庫在網(wǎng)上搜索下載安裝即可,安裝到 Windows的Fonts 目錄下。 UniFonts.exe 字庫是為了采用海峰五筆而安裝的。( 2)繁體字的輸入 網(wǎng)上介紹了很多種輸入繁體字的方法,采用哪種方法取決于你所熟悉的輸入法?,F(xiàn)在,很多輸入 法,輸入簡體可以自動轉換輸出繁體。因為我采用的是五筆,所以采用了萬能五筆和海峰五筆。萬能五筆對于一般的繁體字輸入是沒有問題的,但是對于生僻一點的繁體字就無法輸入了。為此, 我發(fā)現(xiàn)了可以支持大字庫 Uni code編碼的海峰五筆,可以解決繁體生僻字的
9、輸入問題。但是對于此 書中的個別生僻繁體字,仍然無法輸入。( 3)生僻繁體字的輸入生僻繁體字的輸入讓我傷透了腦筋,總算有了比較好的解決方法。采用海峰五筆可以解決絕大多數(shù)繁體字的輸入。 對于海峰五筆無法輸入或不會拆字的生僻字,我采用的是Word中的插入字符的方法。先在Word中寫一個相似的字(部首相同),選擇這個字,選擇“插入一符號”,即可找 到與這個字相似的漢字,在其中查找,找到后插入。在一個字庫中找不到,就只能在另外的繁體字 庫中查找了,相當費時間,不過沒辦法,這是最后一招了。最麻煩的是字庫中沒有的生僻繁體字,就只能采用造字或其它方法了。三、效果經(jīng)過一段時間的摸索,上述方法解決了將繁體豎排掃描版pdf圖書轉化為可編輯的文本文件。目前,我已成功將楊伯峻先生的春秋左傳注一書的“前言”部分(近60頁, 3萬多字)轉化為可前,我已成功將楊伯峻先生的春秋左傳注一書的“前言”部分(近60頁, 3萬多字)轉化為可編
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 5歲小孩常見病與護理
- 投行法律培訓
- 端午邀約活動課件
- 護理新生培訓
- 早產(chǎn)的病因及護理
- 名著導讀艾青詩選
- 礦業(yè)采礦培訓課件
- 新時代教育評價改革總體方案
- 腫瘤并發(fā)癥感染
- 銀行風險案例培訓
- 2024年河南焦作中考生物試題及答案1
- 醫(yī)院培訓課件:《導管相關靜脈血栓形成專家共識》
- 帆船理論培訓課程設計
- 《有機化學》課程說課
- 2024直驅(qū)透平有機朗肯循環(huán)低溫余熱發(fā)電機組技術規(guī)范
- 銀行案防工作專題會上發(fā)言材料范文
- 原紙購銷授權書
- 閱讀社團備課
- 2023-2024學年四川省德陽市七年級(下)期末數(shù)學試卷(含解析)
- 2024年中華人民共和國企業(yè)所得稅年度納稅申報表(帶公式)20240301更新
- FZ∕T 54007-2019 錦綸6彈力絲行業(yè)標準
評論
0/150
提交評論