試論計算機技術在古典文獻研究中的若干問題_第1頁
試論計算機技術在古典文獻研究中的若干問題_第2頁
試論計算機技術在古典文獻研究中的若干問題_第3頁
試論計算機技術在古典文獻研究中的若干問題_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、試論計算機技術在古典文獻研究中的若干問題    試論計算機技術在古典文獻研究中的若干問題         內(nèi)容提要:計算機技術在古典文獻整理與研究中的貢獻是極大的,職稱論文發(fā)表但目前存在著缺乏統(tǒng)一領導與規(guī)劃;開發(fā)商嗜利忘義;熱門文獻數(shù)據(jù)重復,冷門文獻數(shù)據(jù)罕見;技術關卡重重,難以互相兼容;功能單調(diào),難以真正為科研服務;學術圈地,使人心有余而力難用等問題。解決這一問題的關鍵在于建立公共古典文獻數(shù)據(jù)庫和開發(fā)個性化文獻檢索服務系統(tǒng)兩個方面。具體說來是加強總體規(guī)劃,建立公共古典文獻數(shù)據(jù)

2、庫;數(shù)據(jù)庫內(nèi)容與文獻檢索服務系統(tǒng)分離;加速確定字庫方案;徹底解決古典文獻版權問題;建立公平的交易平臺和發(fā)展新興學科,培養(yǎng)專業(yè)人才。關鍵詞:古典文獻數(shù)據(jù)庫公共古典文獻數(shù)據(jù)庫文獻檢索服務系統(tǒng)計算機技術的飛速發(fā)展,為古典文獻研究的現(xiàn)代化提供了堅實的基礎,其貢獻是有目共睹的。然而,計算機技術在古典文獻研究中的運用仍然存在著極為嚴重的缺陷也是不容回避的。筆者近幾年來主持并直接參加設計“e書庫”數(shù)據(jù)庫的過程中,感到有必要將自己的一些想法提供給正在設計有關軟件的計算機專業(yè)人員、愿意使用該類軟件的專家學者們參考。一、我國古典文獻數(shù)據(jù)庫建設的歷程自古以來,歷代學者對古典文獻整理與研究一直沿襲手工操作的方式,然而

3、自上世紀80年代后,計算機技術開始涉入到古典文獻研究中,對傳統(tǒng)的古典文獻整理與研究方法(自然也對一切需要使用古典文獻資料的專業(yè)研究)起到了極大沖擊。首先簡單回顧一下計算機技術在古典文獻研究領域內(nèi)發(fā)展的歷程。上世紀80年代初,我國一些圖書館、大專院校及科研機構陸續(xù)開始大規(guī)模地利用計算機設計并建立數(shù)據(jù)庫。大致說來有兩類數(shù)據(jù)庫,一類是書目數(shù)據(jù)庫,一類是文獻數(shù)據(jù)庫。南京圖書館于90年代初率先建立書目數(shù)據(jù)庫,對讀者檢索有關書目起到了極大的幫助。之后,各地圖書館紛紛效尤,類似的書目數(shù)據(jù)庫很快就普及了。雖說至今各地圖書館的書目數(shù)據(jù)庫的檢索方式,仍存在機讀編碼格式不統(tǒng)一的問題,然而書目數(shù)據(jù)庫提供的方便快捷的查

4、詢功能,對讀者來說無疑是一件大好事,具體到學術研究來說,至少為研究者提供了一個比較方便的查找有關古典文獻的實用工具。在建立書目數(shù)據(jù)庫的同時,一些大專院校與科研機構開始研發(fā)各自的文獻數(shù)據(jù)庫。從數(shù)據(jù)制作格式來說,大致可以區(qū)分為兩類,一類是圖像格式,即將按原著內(nèi)容掃描成PDF圖像文本,另一類是元數(shù)據(jù)格式,即錄入文獻文本內(nèi)容(或掃描并轉(zhuǎn)化為電子文本)導入數(shù)據(jù)庫,并轉(zhuǎn)換成可閱讀與檢索的數(shù)據(jù)庫機讀格式。一般說來,無論是PDF格式還是元數(shù)據(jù)格式,它們數(shù)據(jù)庫容量都較大,也提供了較為原始的檢索方式,為學術研究提供了不小的幫助。從上述兩類制作格式的數(shù)據(jù)庫來說,PDF圖像文本可以直接閱讀圖像文字,但總體說來不太適應

5、古典文獻整理與研究的需要。而元數(shù)據(jù)格式較為精致,初步具備了較為方便的常用的功能,可以檢索、作卡片等等。古典文獻數(shù)據(jù)庫從收錄的文獻內(nèi)容來說,大致可以分為兩類:一類是類目數(shù)據(jù)庫,即按“類”收錄有關圖籍,如經(jīng)學類、史學類、文學類以及甲骨文、金文或出土文獻資料、石刻資料等等,另一類是綜合數(shù)據(jù)庫,如四庫全書、四部叢刊、國學寶典之類數(shù)據(jù)庫。大陸最早的古典文獻數(shù)據(jù)庫是河南大學的宋人筆記檢索系統(tǒng)南宋主要歷史文獻,建立于1987年。之后,各種數(shù)據(jù)庫紛紛涌現(xiàn),比較重要的有南京大學、河南大學、蘇州大學聯(lián)合研制的計算機甲骨文信息處理系統(tǒng)、中國社會科學院全唐詩、先秦魏晉南北朝詩、全上古三代秦漢三國六朝文、十三經(jīng)、全唐文

6、、諸子集成等數(shù)據(jù)庫、北京大學全宋詩數(shù)據(jù)庫、南京師范大學全唐五代宋詞數(shù)據(jù)庫、四川大學宋會要輯稿數(shù)據(jù)庫(與海外合作)等等。港臺古籍數(shù)字化起步較早,均采用繁體字形式。1984年臺灣中央研究院歷史語言研究所開始研發(fā)漢籍全文資料庫,香港中文大學則有漢及以前全部傳世文獻、魏晉南北朝全部傳世文獻、竹簡帛書出土文獻數(shù)據(jù)庫等等。其中竹簡帛書出土文獻收錄馬王堆漢墓帛書、武威漢簡、睡虎地秦墓?jié)h簡、銀雀山漢簡、居延漢簡釋文合校及其它散見簡牘共140多萬字的竹簡帛書出土文獻,價值頗高。    值得注意的是,這些數(shù)據(jù)庫主要是提供給本單位研究人員使用的,當然也有部分數(shù)據(jù)庫對外開放,為

7、其他研究者提供一定幫助。雖然這些數(shù)據(jù)庫有種種限制,但它們無疑為古典文獻的研究(當然包括其它專業(yè)的學術研究)提供了方便。之后,隨著網(wǎng)絡技術的發(fā)展,各科研機構、大專院校、各地方的圖書館、以及其它數(shù)以百計的網(wǎng)站向用戶提供收費或不收費的古籍文獻檢索服務,甚至還提供古籍文獻的下載服務。顯然,這些工作的開展,為學術研究的現(xiàn)代化提供了極為有力的支持。至今為止,據(jù)筆者所查索到的除科研機構、大專院校、各地圖書館數(shù)據(jù)庫之外,提供各種文獻下載的中文網(wǎng)站至少在200個以上,其中就有不少古籍文獻下載的網(wǎng)站。這些古典文獻數(shù)據(jù)庫或有關網(wǎng)站的建立,確實為古典文獻整理與研究乃至其它學術研究提供了極有價值的幫助。二、目前存在的問

8、題當然,我們也應該清醒地看到,在古典文獻數(shù)據(jù)庫大量涌現(xiàn)的同時,一些潛在的問題與數(shù)據(jù)庫本身的缺陷嚴重地制約著古典文獻數(shù)據(jù)庫的正常發(fā)展。從古典文獻數(shù)據(jù)庫技術發(fā)展角度來說,筆者認為大致經(jīng)過三個發(fā)展階段。第一階段是PDF圖像文本數(shù)據(jù)庫,其數(shù)據(jù)來源主要是以掃描方式獲得,形成PDF圖像文本。這種圖像文本優(yōu)點是直觀,與原書分毫不差,但它的缺點是功能極其單一,僅可供瀏覽圖像和簡單地檢索書目。雖然第一階段的數(shù)據(jù)庫功能極少,但畢竟能方便而直觀地閱讀文獻了,因此引起了學者們廣泛的興趣。必須指出的是,由于功能太少,這類數(shù)據(jù)庫難以進一步發(fā)展。第二階段是元數(shù)據(jù)數(shù)據(jù)庫,以香港迪志公司投資、書同文數(shù)字化技術有限公司設計、上海

9、人民出版社出版的四庫全書、書同文數(shù)字化技術有限公司設計、萬方數(shù)據(jù)電子出版社的四部叢刊、尹小林國學寶典、南開大學永川公司的二十四史,以及大陸、港臺等大專院?;蚩蒲袡C構制作的較大型的數(shù)據(jù)庫為代表。它們的優(yōu)點是具有較多的基本功能,如檢索、卡片、打印等功能,有些還附加了日歷查詢、字典、音樂背景等附加功能。然而,它們都不允許對數(shù)據(jù)庫內(nèi)的文本錯誤進行修訂、沒有圖表處理能力、不提供功能升級服務(某些軟件提供所謂新版本,實際上只是增加一些文獻文本,并未真正提升軟件服務功能)。而且由于各自為政,開發(fā)者大都采取自定義方法來自造非常用的生僻詞,因此各種數(shù)據(jù)庫之間字庫不能相互兼容。這一階段的古典文獻數(shù)據(jù)庫也有吸收第一

10、階段數(shù)據(jù)庫有圖像的優(yōu)點,如上述提及的四庫全書就附有圖像,以利研究者核對文字。該階段絕大多數(shù)數(shù)據(jù)庫注意到版權問題,但仍有一些數(shù)據(jù)庫在版權上出現(xiàn)較大問題,乃至引起法律糾紛。計算機技術廣泛地涉入文科研究領域,各種古典文獻數(shù)據(jù)庫紛紛建立,當然給古典文獻整理與研究的現(xiàn)代化提供了極其有利的幫助,然而,在筆者看來,目前計算機技術在這一領域中的運用形成紛亂無序的“戰(zhàn)國時代”,有許多亟待解決的問題,否則將會影響或說削弱計算機技術在古典文獻研究(乃至其它學術研究)中巨大作用。對此弊病,筆者擬作一概述,企望引起有關部門、數(shù)據(jù)庫開發(fā)者及使用者的重視,以期真正使計算機技術對古典文獻整理與研究起到更大的促進作用。大致說來

11、,主要問題有以下幾個方面:其一,缺乏整體領導與規(guī)劃,國家投資與收益不對稱。當然,首先應該看到,國家有關部門已經(jīng)著手做了一些規(guī)劃,也實施建立一些比較大的古典文獻數(shù)據(jù)庫,如2002年10月,國家科技圖書文獻中心受科技部的委托,牽頭聯(lián)合中國科技信息研究所、國家圖書館、上海圖書館、中科院圖書館、北京大學圖書館等單位,啟動了我國數(shù)字圖書館標準規(guī)范建設項目。這一項目的目的就是力圖建立我國比較統(tǒng)一和規(guī)范的數(shù)字圖書館標準,自然也會對建立古典文獻數(shù)據(jù)庫有較大的借鑒與參考的價值。又如北京大學中國基本古籍庫、上海圖書館古籍影像光盤制作及檢索系統(tǒng)等等,也由國家有關部門投入大量資金,而且已經(jīng)啟動并完成了部分內(nèi)容。不過也

12、應該強調(diào),由于國家沒有制定出一個比較符合國內(nèi)數(shù)據(jù)庫發(fā)展狀況的真正有價值的規(guī)范體系,因此這些項目的承擔者仍是各自為政,數(shù)據(jù)庫之間并不能兼容,不可能形成技術“合力”。再從所取得的社會效益或說實際使用價值來看,也不盡人意。因為至今為止建立的各種數(shù)據(jù)庫仍人為地設置許多障礙,無法使它們實現(xiàn)較大的使用價值。數(shù)據(jù)庫由國家投資,收益自然應該歸國家,或者成為不收費的公益數(shù)據(jù)庫,但目前收益既不歸國家,又未能成為公益數(shù)據(jù)庫,這不能不說是個極大的遺憾。實際上,數(shù)據(jù)庫制作者無償利用國家投資進行了開發(fā),制作完成后卻獲得相當豐厚的收益,使人感到有“國家投資,個別單位圖利”的印象。筆者不反對交納一定使用費用,但收費單位一定應

13、該說明收費后去向,絕不允許產(chǎn)生國家投資而由個別單位乃至某些個人得利的情況。    其二,開發(fā)商嗜利忘義,數(shù)據(jù)庫錯誤嚴重。除上述由國家投資開發(fā)的古典文獻數(shù)據(jù)庫外,還有一些有一定技術實力的軟件開發(fā)商加入到古典文獻數(shù)據(jù)庫的開發(fā)中來了。比較而言,各科研機構、大專院校及各地圖書館建立的古典文獻數(shù)據(jù)庫質(zhì)量較高,而開發(fā)商則很少關注數(shù)據(jù)庫中的文獻質(zhì)量。我們承認確有少量開發(fā)商制作的數(shù)據(jù)庫質(zhì)量較高,如迪志公司開發(fā)的四庫全書之類,然而象四庫全書這樣的數(shù)據(jù)庫確實鳳毛麟角,難以尋覓。我們發(fā)現(xiàn),甚至有些開發(fā)商僅僅是把文本進行文字掃描導入,疏于校對,因此文本錯誤百出,難以卒讀。由于利

14、益驅(qū)使,絕大多數(shù)開發(fā)商都以“獨自開發(fā)”為己任,數(shù)據(jù)庫設計相互保密,互不兼容,使用戶深感不便。這些問題已嚴重地影響到古典文獻數(shù)據(jù)庫的正常發(fā)展了。其三,熱門文獻數(shù)據(jù)重復,冷門文獻數(shù)據(jù)罕見。雖說目前數(shù)據(jù)庫品種繁多,但由于考慮到使用者對文獻內(nèi)容的需求,因此許多開發(fā)者熱衷于開發(fā)那些熱門數(shù)據(jù),而一些比較冷門的文獻則鮮有人問津。實際上,冷門的文獻并非是沒有學術價值的文獻,只是使用人較少而已。因而,目前不但數(shù)據(jù)庫中文獻內(nèi)容重復現(xiàn)象極為普遍,甚至同名同姓的數(shù)據(jù)庫也有不少,如四庫全書就出現(xiàn)了武漢大學版、上海人民出版社版等數(shù)種不同版本。且不說那些數(shù)量繁多、質(zhì)量也不甚高的數(shù)據(jù)庫浪費了多少人力物力,其實也使用戶陷入無可

15、適從、欲舍不能的境地。用戶往往為了某些少量文獻內(nèi)容不得不購買和安裝整個數(shù)據(jù)庫操作系統(tǒng),而且這些龐大的數(shù)據(jù)庫大量占據(jù)硬盤空間,導致計算機運行速度大為減慢。而那些允許網(wǎng)上檢索的文獻數(shù)據(jù)庫又往往容量極大,上網(wǎng)檢索者多,導致“交通阻塞”!其四,技術關卡重重,難以互相兼容。各開發(fā)者既鑒于不同開發(fā)目的與技術條件,又為防止他人解密,因此在開發(fā)過程中在數(shù)據(jù)庫某些程序中人為設置技術障礙,以保障自己利益不受損害。自然,開發(fā)者需要投入大量人力物力,保障本身利益不受損害是無可非議的。然而也由于人為地設置了障礙,卻使各種文獻數(shù)據(jù)庫之間不能兼容,無法形成合力,先進的技術反而成為技術壁壘。實際上,這一情況大大浪費了寶貴的人

16、力資源與財力,對古典文獻的開發(fā)與利用有百害而無一利。另外,由于技術壁壘,在古典文獻數(shù)據(jù)庫的文字方面更導致許多問題。我國古籍常用漢字大約為萬余個,這還不包括超過2萬個異體字及數(shù)千甲骨文、金文等古文字。然而我國目前在計算機上采納的國標字庫(GB)和擴展字庫(GBK),兩者相加也只有27000余字,這與我國古籍常用漢字數(shù)量相比,實在差距太大。因此,如此小的字庫與需求相比確實是捉襟見肘。為了彌補這一缺陷,一些軟件設計者就采取在自定義區(qū)自造字(乃至占據(jù)字庫中擴展的位置)、有些也用圖片方式來填字。而這些自造字、圖片字,拷貝到WORD文本之后,由于內(nèi)碼位置的差異就變成其它字了,從而導致文本錯誤。其五,功能單

17、調(diào),難以真正為科研服務。建立較早的古典文獻數(shù)據(jù)庫功能比較單調(diào),只能做些簡單檢索、拷貝,沒有更為先進的功能,不能適應學術研究的需要。后來的一些古典文獻數(shù)據(jù)庫也存在類似問題,例如四庫全書的檢索功能,雖說可以采用添加“作者”、“書名”等限定條件,但檢索結果只是羅列一排出處,無法直觀地了解檢索到的具體內(nèi)容。而且四庫全書也沒有提供更多的功能給用戶,因此這一巨大的工程仍遠遠不能滿足用戶的需求。況且這一數(shù)據(jù)庫目前已經(jīng)“定型”,不再繼續(xù)開發(fā),使用戶對此深感遺憾。而其它古典文獻數(shù)據(jù)庫設計者的思維大多仍停留在“文本之爭”當中,重復著原來設計思想的錯誤,沒有更多地開發(fā)為科研服務的有效功能,因此在筆者看來,這一做法顯然不可能真正擺脫古典文獻數(shù)據(jù)庫目前面臨著的困境。其六,學術圈地,使人心有余而力難用。解放后,一些國家級出版社化費了極大的精力,組織專家點校了不少重要古籍,為學術研究的發(fā)展作出了極大貢獻。然而時至計算機時代的來臨,卻出現(xiàn)了“版權”的問題。一些制作者忽視了國家

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論