版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
圖書館網(wǎng)絡(luò)文獻(xiàn)的保存與保護(hù)研究
網(wǎng)絡(luò)文獻(xiàn)(又稱網(wǎng)絡(luò)信息資源)作為一種新興的文獻(xiàn),逐漸被世界各國(guó)的圖書館確定為收集和保存網(wǎng)絡(luò)文件的對(duì)象。國(guó)家圖書館于2003年開(kāi)始嘗試保存網(wǎng)絡(luò)文件。網(wǎng)絡(luò)文獻(xiàn)作為數(shù)字信息資源的一種存在形式,它的管理與傳統(tǒng)文獻(xiàn)管理有什么異同,在業(yè)務(wù)流程中將會(huì)出現(xiàn)何種問(wèn)題?本文就WICP項(xiàng)目實(shí)施過(guò)程中發(fā)現(xiàn)的一些技術(shù)問(wèn)題和制度問(wèn)題逐一進(jìn)行分析。這些問(wèn)題包括文獻(xiàn)采集、文獻(xiàn)組織與服務(wù)、館藏管理與長(zhǎng)期保存等問(wèn)題。1文獻(xiàn)收集1.1采集對(duì)象的版權(quán)關(guān)系著作權(quán)問(wèn)題已經(jīng)成為關(guān)系圖書館這一社會(huì)公益事業(yè)發(fā)展的一個(gè)大問(wèn)題。毋庸置疑,圖書館的館藏發(fā)展和服務(wù)工作應(yīng)該在包括著作權(quán)法在內(nèi)的法律框架范圍內(nèi)開(kāi)展,這就要求圖書館在面對(duì)和處理網(wǎng)絡(luò)文獻(xiàn)這一新型文獻(xiàn)時(shí)必須處理好著作權(quán)的相關(guān)事宜。著作權(quán)處理是在著作權(quán)人明確的前提下進(jìn)行的。WICP項(xiàng)目在實(shí)施信息采集時(shí)確定了對(duì)象網(wǎng)站的域名和目錄后,擬對(duì)這些信息進(jìn)行版權(quán)處理,但是通過(guò)實(shí)際調(diào)研發(fā)現(xiàn)采集對(duì)象的版權(quán)關(guān)系非常復(fù)雜,即使在同一個(gè)html文件內(nèi),圖像和文本的著作權(quán)也有分別隸屬于不同著作權(quán)人的情況,可以發(fā)現(xiàn)網(wǎng)絡(luò)信息涉及更多的利益主體。另外由于網(wǎng)絡(luò)信息更新頻繁,URL變更等采集對(duì)象的重要屬性變化后合同內(nèi)容也必須變更,這無(wú)形之中加大了版權(quán)處理的成本。很多情況下網(wǎng)絡(luò)信息的著作權(quán)人是無(wú)法明確的,有些甚至是匿名的,這給著作權(quán)處理帶來(lái)了更深的難題?!吨腥A人民共和國(guó)著作權(quán)法》第一條明確規(guī)定“鼓勵(lì)有益于社會(huì)主義精神文明、物質(zhì)文明建設(shè)的作品的創(chuàng)作和傳播,促進(jìn)社會(huì)主義文化和科學(xué)事業(yè)的發(fā)展與繁榮”,然而作為社會(huì)主義文明成果一部分的網(wǎng)絡(luò)文獻(xiàn)正在消失,如何平衡保護(hù)著作權(quán)人的利益和保護(hù)網(wǎng)絡(luò)文獻(xiàn)本身這個(gè)關(guān)系,是一個(gè)值得深入探討的問(wèn)題。基于目前的法律環(huán)境等因素,本試驗(yàn)項(xiàng)目采取了變通的做法,在本項(xiàng)目主頁(yè)(/)上發(fā)布了版權(quán)聲明,同時(shí)國(guó)家圖書館對(duì)正在制定中的《中國(guó)圖書館法》提出了修改意見(jiàn),為了使有價(jià)值的網(wǎng)絡(luò)信息資源免于丟失,建議該法保障國(guó)家圖書館對(duì)網(wǎng)絡(luò)文獻(xiàn)收集和保存的權(quán)利。1.2數(shù)字遺產(chǎn)的資料分享方面,應(yīng)將網(wǎng)絡(luò)文獻(xiàn)納入法定繳送的法律規(guī)范聯(lián)合國(guó)教科文組織2003年8月19日發(fā)表的《保存數(shù)字化遺產(chǎn)憲章草案》第八條中提出為了保護(hù)數(shù)字化遺產(chǎn),各會(huì)員國(guó)須有必要的法律框架,僅依靠市場(chǎng)的力量是不行的。同時(shí)建議會(huì)員國(guó)制定的國(guó)家遺產(chǎn)保存政策應(yīng)該保證圖書館等公共文獻(xiàn)保存機(jī)構(gòu)可以在繳送法制或其他法律強(qiáng)制力的作用下獲得數(shù)字化遺產(chǎn)。著作權(quán)及相關(guān)權(quán)利的法律應(yīng)保障這些機(jī)構(gòu)合法地開(kāi)展數(shù)字化遺產(chǎn)的保存工作。目前有些國(guó)家已經(jīng)修改了出版物繳送方面的相關(guān)法律,將網(wǎng)絡(luò)文獻(xiàn)定為法定繳送對(duì)象。如1997年6月丹麥修改繳送制度,明確規(guī)定網(wǎng)絡(luò)上的靜態(tài)作品(StaticWork)屬于正式的繳送對(duì)象;2002年5月瑞典制定了《皇家圖書館數(shù)字文化遺產(chǎn)計(jì)劃的個(gè)人信息處理相關(guān)法令(2002年第287號(hào))》,規(guī)定皇家圖書館有獲得網(wǎng)絡(luò)文獻(xiàn)的權(quán)利。另外日本、法國(guó)、澳大利亞、芬蘭等國(guó)家正在積極進(jìn)行法律準(zhǔn)備,計(jì)劃將網(wǎng)絡(luò)文獻(xiàn)作為法定繳送對(duì)象。我國(guó)還沒(méi)有一部系統(tǒng)的新聞出版法,國(guó)家圖書館接受各類圖書文獻(xiàn)資料繳送的權(quán)利是由國(guó)務(wù)院和新聞出版總署頒布的相關(guān)法律和法規(guī)規(guī)定的。我國(guó)文化部起草的《中國(guó)圖書館法(征求意見(jiàn)稿)》對(duì)網(wǎng)絡(luò)文獻(xiàn)等數(shù)字化信息的繳送問(wèn)題有了比較明確的規(guī)定?!峨娮映霭嫖锕芾頃盒幸?guī)定》對(duì)于電子出版物的定義不包括網(wǎng)絡(luò)文獻(xiàn),而《互聯(lián)網(wǎng)出版管理暫行規(guī)定》并沒(méi)有規(guī)定互聯(lián)網(wǎng)出版機(jī)構(gòu)向國(guó)家圖書館的繳送義務(wù)。因此可以說(shuō),現(xiàn)在還沒(méi)有一部法律和法規(guī)涉及網(wǎng)絡(luò)文獻(xiàn)的繳送問(wèn)題。國(guó)家圖書館正在進(jìn)行的WICP項(xiàng)目是在沒(méi)有解決相關(guān)版權(quán)問(wèn)題的基礎(chǔ)上開(kāi)展的實(shí)驗(yàn)項(xiàng)目。1.3總括性采集原則對(duì)于網(wǎng)絡(luò)文獻(xiàn)的采集有兩種方式,一種是總括性采集,一種是選擇性采集。圖書館對(duì)于傳統(tǒng)文獻(xiàn)的收藏一般都采取選擇性的方針,按照文獻(xiàn)的類型、語(yǔ)言、載體形式、出版地等文獻(xiàn)的自然屬性和文獻(xiàn)內(nèi)容價(jià)值來(lái)選擇文獻(xiàn)是否入藏,但是這些選擇的依據(jù)并不足夠充分和有效,因?yàn)閳D書館人今天的任何選擇都不能完全保證符合明天的讀者的需求,因此對(duì)于網(wǎng)絡(luò)信息的采集,有些國(guó)家便采取了總括性采集的原則,更有像美國(guó)InternetArchive這樣收集全球網(wǎng)絡(luò)信息資源的機(jī)構(gòu)。網(wǎng)絡(luò)文獻(xiàn)的選擇方針應(yīng)該與紙質(zhì)出版物的采選方針不同,需要考慮網(wǎng)絡(luò)信息存在消失的風(fēng)險(xiǎn)這一重要的問(wèn)題,需要考慮一些技術(shù)問(wèn)題,比如CGI等因素會(huì)導(dǎo)致某些網(wǎng)頁(yè)無(wú)法被采集?!秶?guó)家圖書館文獻(xiàn)采選條例》第四十四條規(guī)定了網(wǎng)絡(luò)文獻(xiàn)選擇性采選的原則,本試驗(yàn)項(xiàng)目確定的采集對(duì)象是公共信息、學(xué)術(shù)信息和政府信息,但是把網(wǎng)絡(luò)文獻(xiàn)的組織管理作為圖書館常規(guī)業(yè)務(wù)這一系統(tǒng)的觀點(diǎn)來(lái)看,總括性采集的原則更加有利于將來(lái)的讀者服務(wù),更加有利于降低成本。1.4不在網(wǎng)絡(luò)信息采集時(shí)存在統(tǒng)籌規(guī)范問(wèn)題作為采集對(duì)象的網(wǎng)絡(luò)文獻(xiàn)的發(fā)掘不是一件容易的事情。目前WICP使用商業(yè)搜索引擎和網(wǎng)絡(luò)鏈接通過(guò)人工檢索來(lái)發(fā)現(xiàn)采集對(duì)象,因此時(shí)效性和效率相對(duì)低下。美國(guó)和丹麥等國(guó)家開(kāi)展的基于事件的專題性網(wǎng)絡(luò)信息采集項(xiàng)目,據(jù)悉他們?cè)陂_(kāi)展信息采集時(shí)也無(wú)法獲得關(guān)于某事件的最新的URL。原因在于,搜索引擎無(wú)法實(shí)時(shí)地捕獲新開(kāi)通的網(wǎng)站和網(wǎng)頁(yè),其檢索服務(wù)總是滯后幾周的時(shí)間。有人提出,基于信息發(fā)行(出版)者或其他第三者的通知推薦制度是解決搜索引擎不能實(shí)時(shí)檢索問(wèn)題的輔助措施。比如在丹麥就規(guī)定了出版發(fā)行者必須向國(guó)家圖書館通報(bào)發(fā)布信息,但是其結(jié)果并不奏效。筆者認(rèn)為通知推薦制只能作為對(duì)象發(fā)掘的一種輔助手段。2組織與服務(wù)2.1有相對(duì)單位的單位信息單元(Granularity)即對(duì)網(wǎng)絡(luò)文獻(xiàn)實(shí)施采集、組織、保存等業(yè)務(wù)處理的單位。由于網(wǎng)絡(luò)文獻(xiàn)很難人為地界定多少信息量是一個(gè)單位,所以不存在一個(gè)絕對(duì)的信息單元。信息單元是一個(gè)相對(duì)概念,在具體實(shí)施業(yè)務(wù)過(guò)程中,還將面臨信息采集的單元、信息組織的單元、長(zhǎng)期保存的單元等問(wèn)題。2.1.1網(wǎng)站單元網(wǎng)絡(luò)采取選擇性收集(SelectiveApproach)原則的項(xiàng)目,比如美國(guó)國(guó)會(huì)圖書館的MINERVA項(xiàng)目按網(wǎng)站(Website)單元進(jìn)行網(wǎng)絡(luò)信息采集。然而,何謂一個(gè)網(wǎng)站并不是一個(gè)十分明確的概念。網(wǎng)站和“域名”不是同一個(gè)概念,某些大型網(wǎng)絡(luò)信息發(fā)行者的域名下存在多個(gè)網(wǎng)站,另外還有多個(gè)域名構(gòu)成一個(gè)網(wǎng)站的情況。因此,網(wǎng)站單元可以理解為同一域名下的所有信息,或者理解為某起始URL下的全部信息。采取總括性采集(BulkApproach)原則的項(xiàng)目大多采取“國(guó)家”為一個(gè)信息單元進(jìn)行網(wǎng)絡(luò)信息的采集。但是在網(wǎng)絡(luò)上界定一個(gè)國(guó)家是非常困難的,按照域名、語(yǔ)言、服務(wù)器位置、管理者的物理地址,這些網(wǎng)站屬性都僅僅是一個(gè)參照系,都不足以確定網(wǎng)絡(luò)上的“國(guó)家”這一概念。WICP項(xiàng)目是分兩種信息單元進(jìn)行網(wǎng)絡(luò)文獻(xiàn)采集的。我們把一個(gè)域名下的全部網(wǎng)頁(yè)認(rèn)為是一個(gè)網(wǎng)站單元,把一個(gè)HTML文件內(nèi)的全部文字和圖片信息認(rèn)為是一個(gè)網(wǎng)頁(yè)單元,這兩種信息單元進(jìn)行采集的數(shù)據(jù)分別形成鏡像存檔和專題存檔。2.1.2有利于提高服務(wù)的檢索能力組織網(wǎng)絡(luò)文獻(xiàn)時(shí)的信息單元和采集網(wǎng)絡(luò)文獻(xiàn)時(shí)的信息單元應(yīng)該區(qū)分對(duì)待。信息采集可以按照“網(wǎng)站”和“國(guó)家”的單元來(lái)進(jìn)行,而網(wǎng)絡(luò)信息組織如果按照“網(wǎng)站”和“國(guó)家”單元來(lái)進(jìn)行就不足以滿足服務(wù)的需求。學(xué)術(shù)研究等檢索需求要求在進(jìn)行網(wǎng)絡(luò)文獻(xiàn)的組織管理時(shí)越是采用較小的信息單元就越有利于存檔信息的管理和服務(wù),比如要對(duì)每一篇論文、每一個(gè)網(wǎng)頁(yè)甚至每一個(gè)圖片進(jìn)行編目和標(biāo)引。WICP的專題存檔對(duì)每一個(gè)HTML文件進(jìn)行自動(dòng)編目和標(biāo)引,可以實(shí)現(xiàn)全文檢索。鏡像存檔只對(duì)存檔網(wǎng)站進(jìn)行人工編目,沒(méi)有對(duì)網(wǎng)站內(nèi)的全部網(wǎng)頁(yè)進(jìn)行編目和標(biāo)引。2.1.3保存元數(shù)據(jù)的報(bào)告數(shù)字信息的長(zhǎng)期保存涉及數(shù)據(jù)格式,硬件環(huán)境、軟件環(huán)境等問(wèn)題,因此需要一種全新的文獻(xiàn)保存和保護(hù)的觀念和方法。2002年6月美國(guó)OCLC(0nlineComputerLibraryCenter)和RLG(ResearchLibrariesGroup)共同發(fā)表了一個(gè)保存元數(shù)據(jù)方面的報(bào)告《AMetadataFrameworktoSupportthePreservationofDigitalObjects》,該報(bào)告并沒(méi)有對(duì)元數(shù)據(jù)處理的信息單元給出明確的答案,而是將該問(wèn)題作為下一階段的研究任務(wù)。目前國(guó)家圖書館還沒(méi)有開(kāi)展網(wǎng)絡(luò)文獻(xiàn)長(zhǎng)期保存方面的試驗(yàn),網(wǎng)絡(luò)文獻(xiàn)的保存單元也在研究和探討過(guò)程之中。2.2網(wǎng)絡(luò)機(jī)器人的改良和升級(jí)需要和網(wǎng)頁(yè)頁(yè)面發(fā)展名和使用機(jī)器人性能是網(wǎng)絡(luò)信息采集的一個(gè)關(guān)鍵因素。WICP使用Wget進(jìn)行網(wǎng)絡(luò)信息的采集,在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)在某些情況下Wget無(wú)法進(jìn)行網(wǎng)絡(luò)鏈接的解析,比如script,pdf文件內(nèi)的鏈接,html文件存在語(yǔ)法錯(cuò)誤,文件沒(méi)有擴(kuò)展名,包含中文的URL等情況。正如丹麥人亨利克森先生指出的那樣,對(duì)網(wǎng)絡(luò)機(jī)器人的性能要求和對(duì)網(wǎng)絡(luò)瀏覽器的要求是一樣的,因此網(wǎng)絡(luò)機(jī)器人的改良和升級(jí)需要和網(wǎng)頁(yè)瀏覽器同步進(jìn)行。對(duì)于一個(gè)實(shí)時(shí)更新的網(wǎng)站,收集其全部“版本”將是不可能的事情,收集到的信息必將是缺乏時(shí)間連續(xù)性的“切片”,因此需要進(jìn)行二次采集。二次采集策略的制定,即采用什么樣的頻率進(jìn)行二次采集較為合理,這需要平衡兩次采集之間損失的信息的質(zhì)和量,與高頻率采集所付出的成本的權(quán)重關(guān)系。2.3德國(guó)圖書館將接受激發(fā)營(yíng)造一種豐富的電子資料采集從網(wǎng)絡(luò)信息生產(chǎn)的趨勢(shì)看,越是價(jià)值高規(guī)模大的信息往往越存在于數(shù)據(jù)庫(kù)中,而現(xiàn)在大部分的網(wǎng)絡(luò)機(jī)器人都無(wú)法對(duì)Flash和Script等動(dòng)態(tài)網(wǎng)頁(yè)和數(shù)據(jù)庫(kù)中的深層網(wǎng)頁(yè)進(jìn)行采集。為了解決深層網(wǎng)頁(yè)的采集這一問(wèn)題,很多國(guó)家的國(guó)家圖書館開(kāi)始采用制度和技術(shù)手段保障深層網(wǎng)絡(luò)信息的采集和保存。荷蘭皇家圖書館和ElsevierScience公司已經(jīng)簽署協(xié)議,接受了該公司繳送的1500種超過(guò)7TB的電子期刊。2002年8月在格拉斯加舉行的國(guó)際圖聯(lián)大會(huì)上這一合作作為出版商和圖書館合作開(kāi)展數(shù)字信息保存的實(shí)質(zhì)性案例被廣為宣傳,這可以說(shuō)是首例國(guó)家圖書館接受繳送的深層網(wǎng)絡(luò)信息并進(jìn)行長(zhǎng)久保存的項(xiàng)目。德國(guó)圖書館計(jì)劃采用“Push”和“Pull”兩種方式進(jìn)行網(wǎng)絡(luò)信息的采集。對(duì)于靜態(tài)網(wǎng)頁(yè)等的淺層網(wǎng)頁(yè)通過(guò)HarvestingSystem進(jìn)行采集,對(duì)于數(shù)據(jù)庫(kù)中的深層網(wǎng)頁(yè)將開(kāi)通聯(lián)機(jī)登記系統(tǒng)接受繳送。丹麥皇家圖書館正在研究一項(xiàng)稱作filming的技術(shù),將通過(guò)該技術(shù)實(shí)施對(duì)電子商務(wù)和在線服務(wù)等網(wǎng)絡(luò)信息的收集。法國(guó)國(guó)家圖書館開(kāi)展了小規(guī)模深層網(wǎng)頁(yè)自動(dòng)采集的實(shí)驗(yàn)。芬蘭國(guó)家圖書館開(kāi)始著手修改繳送法,計(jì)劃將深層網(wǎng)頁(yè)納入繳送對(duì)象。國(guó)家圖書館已經(jīng)開(kāi)始了深層網(wǎng)頁(yè)的試驗(yàn)性采集,通過(guò)模擬檢索等方法進(jìn)行了專題內(nèi)容的采集試驗(yàn)并初步獲得了成功,同時(shí)就網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的繳送問(wèn)題同相關(guān)生產(chǎn)商家進(jìn)行了接洽。2.4流通方式的并存。在網(wǎng)絡(luò)圖書館是向廣大讀者無(wú)償提供有償出版物(圖書、期刊、報(bào)紙、音像資料等)借閱服務(wù)的場(chǎng)所。從市場(chǎng)的觀點(diǎn)來(lái)看,各類出版物的流通存在兩種途徑,即通過(guò)書店的有償流通和通過(guò)圖書館的無(wú)償流通。從市場(chǎng)經(jīng)濟(jì)的原理來(lái)看,出版物是非常特殊的社會(huì)財(cái)產(chǎn),圖書館屬于社會(huì)公益性的事業(yè),其服務(wù)范圍僅局限于館內(nèi),這一特點(diǎn)決定了這兩種流通方式可以并存。隨著互聯(lián)網(wǎng)的發(fā)展,信息在全球范圍內(nèi)的流通變得非常容易和可能,圖書館服務(wù)范圍的拓展和出版物流通市場(chǎng)的競(jìng)爭(zhēng)關(guān)系初顯端倪。WICP項(xiàng)目目前只收集免費(fèi)的網(wǎng)絡(luò)文獻(xiàn),如果將來(lái)實(shí)施對(duì)有償信息的采集和保存,就必須平衡圖書館的服務(wù)和出版商的商業(yè)利益的關(guān)系。2.5網(wǎng)絡(luò)信息長(zhǎng)期保存元數(shù)據(jù)在海量的對(duì)象信息中發(fā)現(xiàn)并獲得目標(biāo)信息,元數(shù)據(jù)的作用不可忽視。DublinCore作為網(wǎng)絡(luò)文獻(xiàn)描述和組織管理的標(biāo)準(zhǔn)已被圖書館界廣為接受和運(yùn)用,它包括15項(xiàng)元素(elements)和限制屬性(qualifiers),但是DC元數(shù)據(jù)的產(chǎn)生是為了實(shí)施對(duì)存在于網(wǎng)絡(luò)上的信息進(jìn)行組織和管理,并不是對(duì)存在于本地的網(wǎng)絡(luò)信息存檔的管理而制定的。網(wǎng)絡(luò)信息存檔不僅僅是網(wǎng)絡(luò)信息的鏈接,而是在不同的時(shí)間將存在于網(wǎng)絡(luò)上的信息采集形成網(wǎng)絡(luò)的時(shí)間切片保存到本地系統(tǒng),這些信息是按照時(shí)間列表來(lái)管理的。這就需要一套數(shù)字信息長(zhǎng)期保存的元數(shù)據(jù),應(yīng)該包括內(nèi)容信息、存檔描述信息、封裝信息、內(nèi)容描述信息。目前網(wǎng)絡(luò)信息存檔的眾多研究項(xiàng)目已提出若干元數(shù)據(jù)格式,據(jù)筆者調(diào)查,現(xiàn)在還沒(méi)有一套標(biāo)準(zhǔn)的網(wǎng)絡(luò)信息長(zhǎng)期保存的元數(shù)據(jù)體系。國(guó)家圖書館正在制定本館的元數(shù)據(jù)方案,WICP項(xiàng)目將跟蹤元數(shù)據(jù)技術(shù)的發(fā)展動(dòng)態(tài),開(kāi)發(fā)一套符合國(guó)家標(biāo)準(zhǔn)的元數(shù)據(jù)體系。2.6對(duì)象標(biāo)識(shí)的標(biāo)準(zhǔn)要實(shí)現(xiàn)存檔信息的長(zhǎng)久且穩(wěn)定的訪問(wèn)就要有一套可靠的信息標(biāo)識(shí)體系,唯一標(biāo)識(shí)符的作用就在于此。像國(guó)際標(biāo)準(zhǔn)連續(xù)出版物號(hào)碼ISSN那樣,它可以用來(lái)長(zhǎng)久定位某一信息,它可以保證網(wǎng)絡(luò)信息存檔中的信息可以被穩(wěn)定地引用或參照。目前存在URN(UniversalResourceName)和DOI(DigitalObjectIdentifier)等多種的數(shù)字對(duì)象標(biāo)識(shí)的標(biāo)準(zhǔn)。WICP項(xiàng)目采用的對(duì)象信息標(biāo)識(shí)為/collection/書目ID/信息單元ID/原始URL,從根本上說(shuō)這僅僅表示一個(gè)采集到的信息單元的定位,并不是一個(gè)可靠的永久標(biāo)識(shí)符。北歐各國(guó)的網(wǎng)絡(luò)存檔項(xiàng)目多采用MD5等函數(shù)發(fā)散數(shù)值作為存檔信息的標(biāo)識(shí)符,而澳大利亞的PANDORA項(xiàng)目采用的標(biāo)識(shí)體系為:collectionID/系統(tǒng)標(biāo)識(shí)符/收集日期/原始URI/版本號(hào)。2.7文明檢索和全文檢索。我國(guó)現(xiàn)代網(wǎng)絡(luò)信息的主要分為5所示網(wǎng)絡(luò)信息保存的根本目的是提供服務(wù),那么海量的網(wǎng)絡(luò)存檔信息通過(guò)何種接口提供檢索和服務(wù)就是一個(gè)需要解決的問(wèn)題。總的來(lái)說(shuō),網(wǎng)絡(luò)存檔信息的服務(wù)分為三種方式,即主題型,URL型,全文檢索型。主題目錄型:WARP和PANDORA均采用選擇性采集的方針,這些網(wǎng)絡(luò)存檔都是人工進(jìn)行主題分類,提供讀者瀏覽。這種方法的最大缺點(diǎn)就是如果讀者不熟悉主題的知識(shí)就無(wú)法找到所需信息。URL型:美國(guó)InternetArchive和北京大學(xué)WebInfomall采用的服務(wù)方式。當(dāng)讀者指定所要查找信息的URL后就會(huì)檢索到一個(gè)時(shí)間列表,可以瀏覽歷史網(wǎng)頁(yè)信息。但是如果讀者無(wú)法知道要找網(wǎng)頁(yè)的URL,就無(wú)法檢索目標(biāo)網(wǎng)頁(yè)。這種方式的致命缺點(diǎn)就是不能通過(guò)關(guān)鍵詞和主題詞檢索存檔的信息。全文檢索型:網(wǎng)絡(luò)存檔信息的全文檢索與普通的全文檢索不同,不僅僅要實(shí)現(xiàn)對(duì)“空間”的檢索,還要實(shí)現(xiàn)對(duì)“時(shí)間”的檢索。NordicWebArchivingProject已經(jīng)開(kāi)發(fā)了系統(tǒng)內(nèi)專用的瀏覽器,可以實(shí)現(xiàn)歷史網(wǎng)絡(luò)信息的穿梭。InternetArchive正在研究全文檢索服務(wù),2003年開(kāi)通了部分存檔信息的全文檢索。PANDORA項(xiàng)目由于存檔信息數(shù)量較少已經(jīng)實(shí)現(xiàn)了存檔信息的全文檢索。WICP項(xiàng)目的“鏡像存檔”屬于主題目錄型,“專題存檔”屬于全文檢索型。3存儲(chǔ)、維護(hù)和長(zhǎng)期保存3.1圖書館館藏文獻(xiàn)資料法律性質(zhì)的規(guī)范有些國(guó)家的圖書館法或相關(guān)法律規(guī)定了圖書館館藏文獻(xiàn)資料的性質(zhì),而我國(guó)尚無(wú)一部法律來(lái)界定和規(guī)范國(guó)家圖書館館藏文獻(xiàn)資料的性質(zhì)。網(wǎng)絡(luò)文獻(xiàn)是否屬于圖書館館藏文獻(xiàn)?對(duì)于非實(shí)體的網(wǎng)絡(luò)文獻(xiàn)的定性將是比較困難的。網(wǎng)絡(luò)文獻(xiàn)的性質(zhì)是否屬于國(guó)家財(cái)產(chǎn),其使用和服務(wù)應(yīng)該遵循什么樣的法律規(guī)定都是一個(gè)值得思考的問(wèn)題。3.2存儲(chǔ)數(shù)據(jù)的共享對(duì)于收集到的數(shù)據(jù)如何進(jìn)行數(shù)據(jù)壓縮?如何處理索引數(shù)據(jù)?如何保證存檔數(shù)據(jù)的整體性?如何選擇數(shù)據(jù)的保存載體?如何管理長(zhǎng)久保存用數(shù)據(jù)(保存本)和服務(wù)用數(shù)據(jù)(流通本)?這些都是需要考慮的問(wèn)題。各國(guó)項(xiàng)目管理數(shù)據(jù)所采取的措施不盡相同,這將給未來(lái)圖書館間的合作,比如數(shù)據(jù)交換,帶來(lái)不可避免的麻煩,因此需要聯(lián)合制定一個(gè)存檔數(shù)據(jù)管理的標(biāo)準(zhǔn)。目前由于WICP項(xiàng)目的數(shù)據(jù)總量較小,還沒(méi)有開(kāi)展系統(tǒng)的數(shù)據(jù)管理的研究和實(shí)踐。3.3信息保存和網(wǎng)絡(luò)文獻(xiàn)的內(nèi)在性與搜索引擎以檢索為目的的信息搜集不同,以存檔為目的的采集必須對(duì)采集到的信息進(jìn)行質(zhì)量管理。由于網(wǎng)絡(luò)通訊和網(wǎng)絡(luò)服務(wù)器等方面的問(wèn)題,很難實(shí)現(xiàn)完整的采集。對(duì)于海量的網(wǎng)絡(luò)文獻(xiàn),如果采用人工校對(duì)的方法進(jìn)行質(zhì)量管理幾乎是不可能的事。因此存檔信息的質(zhì)量管理應(yīng)該盡量地通過(guò)計(jì)算機(jī)程序自動(dòng)實(shí)現(xiàn)。美國(guó)的電子期刊保存機(jī)構(gòu)LOCKSS采用稱作“LCAP”的程序進(jìn)行存檔信息的質(zhì)量管理。LCAP是一個(gè)獨(dú)立的門戶,可以比較來(lái)自不同成員館的保存數(shù)據(jù),并且對(duì)有問(wèn)題的數(shù)據(jù)進(jìn)行自動(dòng)修復(fù)。質(zhì)量管理還必需考慮成本問(wèn)題。數(shù)字對(duì)象的全息保存和僅僅保存對(duì)象信息本身相比,其成本存在天壤之別。網(wǎng)絡(luò)文獻(xiàn)的價(jià)值是否可以匹敵其保存成本,這是涉及到網(wǎng)絡(luò)信息保存根本意義的問(wèn)題。國(guó)際上一般認(rèn)為,圖書館的紙質(zhì)館藏文獻(xiàn)具有法律的佐證效力,因?yàn)閳D書館沒(méi)有對(duì)所存文獻(xiàn)的內(nèi)容和形式進(jìn)行人為的修改和改變。國(guó)家圖書館在進(jìn)行網(wǎng)絡(luò)文獻(xiàn)的保存時(shí),也不應(yīng)修改或改變其內(nèi)容和形式,應(yīng)該保障其原始面貌和真實(shí)性。事實(shí)上,網(wǎng)絡(luò)文獻(xiàn)較之傳統(tǒng)文獻(xiàn)更容易被人為地有意無(wú)意地變更。如何保證網(wǎng)絡(luò)文獻(xiàn)的原本性就是一個(gè)復(fù)雜的技術(shù)問(wèn)題。電子商務(wù)領(lǐng)域已經(jīng)對(duì)網(wǎng)絡(luò)信息的原本性進(jìn)行了大量研究和實(shí)踐,一些認(rèn)證技術(shù)和加密技術(shù)得到發(fā)展和運(yùn)用。芬蘭和瑞典的網(wǎng)絡(luò)信息存擋項(xiàng)目大都采用MD5等方法保障存檔信息的原本性。WICP在這方面還沒(méi)有采取任何措施。3.4采用高效的網(wǎng)絡(luò)帶寬,確保數(shù)據(jù)安全網(wǎng)絡(luò)信息存檔需要對(duì)采集到的網(wǎng)絡(luò)信息不加任何更改地進(jìn)行收藏,這就需要大量的磁盤空間來(lái)存儲(chǔ)數(shù)據(jù)。根據(jù)CNNIC(中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心)2003年7月9日發(fā)布的統(tǒng)計(jì)數(shù)據(jù)顯示,全國(guó)網(wǎng)頁(yè)總量在2.87TB,因?yàn)榫W(wǎng)絡(luò)信息存檔需要二次采集,所以總括采集至少需要10TB的存儲(chǔ)空間。為了保證數(shù)據(jù)安全,還需要進(jìn)行數(shù)據(jù)備份,又將增加一倍的存儲(chǔ)空間。為了實(shí)施高效的網(wǎng)絡(luò)文獻(xiàn)采
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年08月交通銀行四川省分行社會(huì)招聘筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月中國(guó)工商銀行四川省分行社會(huì)招考200名工作人員筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月浙江浙江民泰商業(yè)銀行臺(tái)州管理部招考(819)筆試歷年參考題庫(kù)附帶答案詳解
- 2024年08月江西贛州銀行吉安分行社會(huì)招考(82)筆試歷年參考題庫(kù)附帶答案詳解
- 2025至2031年中國(guó)晶管三相全波整流器行業(yè)投資前景及策略咨詢研究報(bào)告
- 河南警察學(xué)院《美術(shù)欣賞與創(chuàng)作》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025至2031年中國(guó)維生素C粉行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)碳鋼管材行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)玻璃導(dǎo)槽行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024至2030年高頻開(kāi)關(guān)型直流電源項(xiàng)目投資價(jià)值分析報(bào)告
- DB11-T1835-2021 給水排水管道工程施工技術(shù)規(guī)程高清最新版
- 解剖篇2-1內(nèi)臟系統(tǒng)消化呼吸生理學(xué)
- 《小學(xué)生錯(cuò)別字原因及對(duì)策研究(論文)》
- 公司組織架構(gòu)圖(可編輯模版)
- 北師大版七年級(jí)數(shù)學(xué)上冊(cè)教案(全冊(cè)完整版)教學(xué)設(shè)計(jì)含教學(xué)反思
- 智慧水庫(kù)平臺(tái)建設(shè)方案
- 浙江省公務(wù)員考試面試真題答案及解析精選
- 系統(tǒng)性紅斑狼瘡-第九版內(nèi)科學(xué)
- 全統(tǒng)定額工程量計(jì)算規(guī)則1994
- 糧食平房倉(cāng)設(shè)計(jì)規(guī)范
- 通用個(gè)人全年工資表模板
評(píng)論
0/150
提交評(píng)論