版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
衢州市圖書館數(shù)字化加工技術(shù)方案一、工程概述6000冊(cè)32K16K30〔具體頁數(shù)依據(jù)實(shí)際狀況確定OCR識(shí)別,并經(jīng)過人工校對(duì),依據(jù)元掃描圖像在網(wǎng)絡(luò)平臺(tái)的公布、呈現(xiàn)和應(yīng)用。二、工程目標(biāo)衢州市圖書館文獻(xiàn)資料數(shù)字加工工程的建設(shè)就是運(yùn)用高速進(jìn)展的計(jì)算機(jī)、網(wǎng)資料的可讀性、可視性、可重復(fù)利用性、牢靠性。本工程的目標(biāo)是:衢州市圖書館的地方文獻(xiàn)紙本資源數(shù)字化,及存儲(chǔ)應(yīng)用。三、工程內(nèi)容及要求地方文獻(xiàn)數(shù)字化加工數(shù)字化加工要求*1、加工完成后對(duì)每冊(cè)文獻(xiàn)都要提交掃描圖像〔TIFFJPG格式〕文件、OCR識(shí)別后的文本文檔〔TXT格式、多頁封裝的PDF圖像格式文件、為了數(shù)據(jù)裝載入庫,對(duì)每冊(cè)文獻(xiàn)生成的一個(gè)XML文件,以及為一個(gè)批次加工的全部中文元數(shù)據(jù)。2、依據(jù)原文獻(xiàn)名目所示的最小組織構(gòu)造進(jìn)展著錄標(biāo)引〔假設(shè)書籍沒知名目導(dǎo)航頁,由招標(biāo)方自行編制名目后再錄入,建立書籍名目導(dǎo)航。3、依據(jù)標(biāo)準(zhǔn)要求加工中文元數(shù)據(jù)〔參考國家圖書館元數(shù)據(jù)有關(guān)標(biāo)準(zhǔn)。4、OCR后文本文檔要求準(zhǔn)確反映原文的段落信息,文字識(shí)別過失率要求不大于百分之五。5TIFF格式〔CCITT4壓縮,原件大小,600DP掃描,JPG格式保存,原件彩色的即承受彩色掃描,JPG格式保存。PDF圖像文件整理加工中需要實(shí)施的內(nèi)容1、整理、掃描加工、OCR識(shí)別和人工校對(duì)、著錄、元數(shù)據(jù)加工。2、數(shù)據(jù)裝載入公布效勞軟件平臺(tái),并實(shí)現(xiàn)相關(guān)檢索、查詢、公布等效勞。工期要求6個(gè)月內(nèi)完成。加工資源的交付與驗(yàn)收1、本工程涉及的文獻(xiàn)不得帶離甲方場地,所以掃描工序的實(shí)施需在甲方場或缺損。2、加工單位要保證加工資源不喪失、不損壞、不受潮、不污損等。加工資源需經(jīng)折裝時(shí)必需獲得甲方書面同意。3、加工資源假設(shè)有喪失、損壞,乙方要負(fù)責(zé)購置賠償同版本的加工資源。4、元數(shù)據(jù)、OCR校對(duì)、著錄、圖像后期處理等工作,可在加工單位自己的場地進(jìn)展。加工資源的版權(quán)其他第三方,違反者擔(dān)當(dāng)相應(yīng)的法律責(zé)任。其他加工單位提交的加工數(shù)據(jù),甲方在驗(yàn)收后,對(duì)未到達(dá)質(zhì)量要求的,加工單位費(fèi)返工修改。地方文獻(xiàn)數(shù)據(jù)庫效勞平臺(tái)產(chǎn)品功能模塊序號(hào)產(chǎn)品名稱系統(tǒng)模塊數(shù)量單位備注全文檢索數(shù)據(jù)庫效勞系統(tǒng)1套1特色數(shù)據(jù)庫平臺(tái)全文檢索門戶1套信息采編及關(guān)心標(biāo)引系統(tǒng)1套信息采編審系統(tǒng)1套系統(tǒng)功能要求〔一〕體系構(gòu)造分布式體系架構(gòu),支持跨效勞器、跨平臺(tái)分布式內(nèi)容治理,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫聯(lián)合檢索;系統(tǒng)支持全部主流的操作系統(tǒng)、應(yīng)用效勞器及Web效勞器。J2EE.NET64T〔二〕內(nèi)容治理字詞混合索引。、實(shí)現(xiàn)了自動(dòng)分類、自動(dòng)聚類、自動(dòng)摘要、文本相像性比較等功能。系統(tǒng)支持多種數(shù)據(jù)類型〔日期、數(shù)值、文本〕的治理。系統(tǒng)實(shí)現(xiàn)對(duì)文本、各類電子文檔和圖像、音頻、視頻等多媒體供給強(qiáng)大的治理治理與檢索的全文數(shù)據(jù)庫系統(tǒng)。系統(tǒng)具有強(qiáng)大數(shù)據(jù)庫治理及維護(hù)功能,如數(shù)據(jù)庫定義、建立、備份、恢復(fù)、優(yōu)化重組、規(guī)律刪除、物理刪除、增量備份、記錄查重等功能。系統(tǒng)支持外部掃描的電子文擋、網(wǎng)頁與網(wǎng)頁自動(dòng)提取內(nèi)容等數(shù)據(jù)的治理。支持字段的唯一性特征,可以依據(jù)字段內(nèi)容自動(dòng)去重。〔三〕用戶治理系統(tǒng)內(nèi)置獨(dú)立于操作系統(tǒng)的用戶權(quán)限治理、用戶操作審計(jì)、統(tǒng)計(jì)與分析等功統(tǒng)計(jì)與分析。系統(tǒng)供給多級(jí)用戶治理體系,可以實(shí)現(xiàn)靈敏的用戶-數(shù)據(jù)庫授權(quán)機(jī)制,數(shù)據(jù)庫治理、數(shù)據(jù)維護(hù)、系統(tǒng)治理、檢索各種權(quán)限分開,可以按需安排。系統(tǒng)具備用戶分組治理、數(shù)據(jù)庫轉(zhuǎn)讓等共性化用戶治理功能。〔四〕全文檢索1、信息公布所見即所得地公布信息。2、智能檢索系統(tǒng)支持中英文及其他語種的多語種混合檢索,支持多種數(shù)據(jù)類型的數(shù)據(jù)檢索。支持外部特征字段檢索時(shí)的詞、拼音、筆畫等簡便的輸入幫助功能。系統(tǒng)允許使用任意字、詞、片段、語句進(jìn)展全匹配檢索。系統(tǒng)供給多種檢索手段:各種規(guī)律運(yùn)算符〔規(guī)律或、與、非〕組合檢索、二〔模糊檢索系統(tǒng)支持相關(guān)性詞表擴(kuò)展檢索功能,提高檢索效率;系統(tǒng)內(nèi)置同義與近義詞表,詞表可維護(hù),便利用戶修改。系統(tǒng)實(shí)現(xiàn)對(duì)文本、各類電子文檔和圖像、音頻、視頻等多媒體供給強(qiáng)大的關(guān)聯(lián)檢索功能?!泊?000個(gè)〕的檢索效率。100%查全率。系統(tǒng)供給分類字段,支持分類掃瞄和檢索。3、數(shù)據(jù)庫關(guān)聯(lián)檢索聯(lián)。4、關(guān)系數(shù)據(jù)庫檢索系統(tǒng)具有與RDBMS(Sybase、Oracle,SQLServerDB2)無縫連接,供給全文檢索引擎功能,從而實(shí)現(xiàn)對(duì)關(guān)系數(shù)據(jù)庫中記錄高效的全文檢索〔CGDataPipe協(xié)作實(shí)現(xiàn)。5、共性化效勞訂閱檢索:用戶提交檢索條件,系統(tǒng)依據(jù)用戶的定制條件,自動(dòng)定時(shí)發(fā)送檢索結(jié)果到用戶郵箱中〔CGPUSH供給。支持檢索結(jié)果的多種定制手段,用戶依據(jù)喜好,可以定制文獻(xiàn)顯示的字體大小、顏色、顯示字段、文獻(xiàn)排列等。用戶可以在系統(tǒng)授權(quán)地狀況下,在線修改文獻(xiàn)內(nèi)容、提交文獻(xiàn)等操作?!参濉承畔⒉删幖瓣P(guān)心標(biāo)引系統(tǒng)文獻(xiàn)資料加到信息庫之前要經(jīng)過預(yù)處理。文獻(xiàn)的預(yù)處理包括轉(zhuǎn)碼、整理和標(biāo)因此,文獻(xiàn)預(yù)處理常常成為信息庫建設(shè)的瓶頸。1、關(guān)心文獻(xiàn)整理①便利的字段分類幫助選取與選值功能,供給日期選值幫助。②供給多篇文獻(xiàn)的字段置值功能,多篇文獻(xiàn)查找與替換功能。③供給分篇與多篇合并功能。④供給界面格式調(diào)整功能。⑤供給多媒體信息文件的標(biāo)引與掃瞄功能。⑥供給查錯(cuò)功能。⑦供給按字段內(nèi)容排序與復(fù)原功能。2、版面大樣文件轉(zhuǎn)換與關(guān)心標(biāo)引①版面轉(zhuǎn)換后的文獻(xiàn)直接進(jìn)入編輯器界面。②供給在版面中直接用鼠標(biāo)分篇與多段〔篇〕合并功能。③供給版面多篇轉(zhuǎn)換、全部轉(zhuǎn)換和選塊轉(zhuǎn)換功能。④供給版面直接鼠標(biāo)拖動(dòng)圖片實(shí)現(xiàn)圖片標(biāo)引。3、查錯(cuò)信息系統(tǒng)向用戶供給的產(chǎn)品是信息。信息的準(zhǔn)確性是系統(tǒng)是否有生命力的關(guān)檢查工程包括:文獻(xiàn)有否遺漏內(nèi)容〔如標(biāo)題;文內(nèi)是否有非法碼〔如半個(gè)漢字等;時(shí)間是否有效;數(shù)據(jù)類型是否正確等。檢查完畢將列出錯(cuò)誤清單,光標(biāo)自動(dòng)定位到錯(cuò)誤位置?!擦嘲踩盐障到y(tǒng)供給系統(tǒng)、數(shù)據(jù)庫、記錄及字段級(jí)安全把握手段;用戶使用信息資源的授權(quán)機(jī)制、數(shù)據(jù)庫中文獻(xiàn)密級(jí)把握、用戶文獻(xiàn)存取數(shù)量把握;IP、打印等功能,有效地防止用戶越權(quán)操作與防抵賴。系統(tǒng)供給數(shù)據(jù)庫文件加密、索引加密、庫構(gòu)造文件加密等安全機(jī)制?!财摺抽_發(fā)接口系統(tǒng)供給標(biāo)準(zhǔn)的二次開發(fā)接口,可以開發(fā)運(yùn)行UINX、WindowsNT、和WEB環(huán)C++治理與檢索接口〔WindowsUnix下的通用開發(fā)工具。Javabeans類庫應(yīng)用程序開發(fā)接口(J2EE環(huán)境下的開發(fā)工具)。C#類庫應(yīng)用程序開發(fā)接口〔支持.NET平臺(tái)下的開發(fā)工具。系統(tǒng)性能要求體系構(gòu)造體系構(gòu)造支持各種主流操作系統(tǒng)和主流開發(fā)平臺(tái)供給分布式檢索多線程設(shè)計(jì),充分發(fā)揮SMP機(jī)器的優(yōu)勢,支持大量并發(fā)用戶訪問*64T樣的字段概念,支持文檔的外部特征與正文內(nèi)容的各種規(guī)律組合檢索準(zhǔn)確計(jì)算,準(zhǔn)確報(bào)告檢索記錄數(shù)客戶端支持以下三種字符集:GB2312/GBK/GB18030編。便利了多語言檢索應(yīng)用程序的開發(fā)100%及智能檢索擴(kuò)展檢索:同義詞和近義詞自動(dòng)擴(kuò)展檢索、全半角自動(dòng)擴(kuò)展檢索、簡繁體自動(dòng)擴(kuò)展檢索智能檢索支持同義詞、近義詞典的維護(hù)數(shù)據(jù)治理
系統(tǒng)自動(dòng)建索引:數(shù)據(jù)增刪改時(shí)快速同步更索引,無〔增刪改后馬上能夠檢索出來*支持Text、HTML、XML、RTFMSOFFICE文檔〔Word/Execl/PowerpoitPDF文件自動(dòng)建立索引制類型〕支持多媒體數(shù)據(jù)的存儲(chǔ)治理高效的數(shù)據(jù)和索引壓縮檢索功能
支持中、英文混合檢索戶治理開放性
構(gòu)化數(shù)據(jù)的統(tǒng)一檢索,供給字段和全文的聯(lián)合查詢部特征與正文內(nèi)容的各種規(guī)律組合檢索、位置檢索、二次檢索〔漸進(jìn)檢索、歷史檢索等支持“缺省字段規(guī)律優(yōu)先”的運(yùn)算方式同時(shí)對(duì)多庫檢索結(jié)果可以進(jìn)展混排且可以指定各參與字段的權(quán)重支持命中詞的反顯具有系統(tǒng)級(jí)、數(shù)據(jù)庫級(jí)、記錄級(jí)和字段級(jí)四級(jí)安全把握機(jī)制加密和壓縮傳輸機(jī)備份率完善的日志治理數(shù)據(jù)庫檢索頻度統(tǒng)計(jì)、檢索詞頻統(tǒng)計(jì)和用戶檢索統(tǒng)計(jì)功能系統(tǒng)供給多種權(quán)限級(jí)別的用戶治理支持按用戶角色進(jìn)展用戶授權(quán)治理*支持主流開發(fā)平臺(tái),供給C++、CAPI、JavaAPI和.NETAPI二次開發(fā)接口Windows、Linux、Solaris、AIX、HP-UX數(shù)據(jù)加載和索 引速度用戶組數(shù)/用 上用戶組/用戶戶數(shù)
要求支持字符集□ 簡體中文(GB2312/GBK/GB18030)繁體中文(BIG5)純英文(ENGLISH)售后效勞 *1年軟件免費(fèi)升級(jí)效勞,并出具原廠商證明;數(shù)據(jù)存儲(chǔ)平臺(tái)簡述:本次選購的效勞器和存儲(chǔ)設(shè)備,專項(xiàng)用于本次館藏古籍文獻(xiàn)特色資源庫的配置要求:2U2INTELXE0NE5506CPU2.134M8GB(4*2)內(nèi)存,1333MHZsinglerankRIMMs;2146GSAS硬盤,RAID1配置;內(nèi)置SATADVD;雙冗余電源;配置通用機(jī)架
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2許可使用合同:知名品牌形象使用權(quán)2024年許可協(xié)議
- 2024紗窗安全性能檢測與按報(bào)告結(jié)果付款協(xié)議3篇
- 二零二五年度物業(yè)管理裝修設(shè)計(jì)合同2篇
- 情感溝通技巧助力孩子成長
- 提升小學(xué)生硬筆書法興趣的策略
- 教師領(lǐng)導(dǎo)力如何助力小學(xué)教育的長遠(yuǎn)發(fā)展
- 專用汽車起重機(jī)租賃協(xié)議:2024年限定版B版
- 情感教育在孩子自信心培養(yǎng)中的重要性
- 2025保證借款合同范文
- 業(yè)務(wù)員和公司簽協(xié)議書
- 高一期末家長會(huì)課件
- 文化藝術(shù)中心行業(yè)技術(shù)創(chuàng)新及應(yīng)用
- 2024年航空職業(yè)技能鑒定考試-航空乘務(wù)員危險(xiǎn)品歷年考試高頻考點(diǎn)試題附帶答案
- 精神病院設(shè)置可行性方案
- 2024版全文:中國2型糖尿病預(yù)防及治療指南
- 《工程地質(zhì)勘察 》課件
- 小兒腸梗阻護(hù)理查房
- 小學(xué)音樂《編花籃》
- 污水處理站管理制度及操作規(guī)程
- 廣東省(廣州市)職業(yè)技能鑒定申請(qǐng)表-模板
- 漳州市醫(yī)療保險(xiǎn)參保人員門診特殊病種申請(qǐng)表
評(píng)論
0/150
提交評(píng)論