中山圖書館數(shù)字式中文全文文獻通用格式課件_第1頁
中山圖書館數(shù)字式中文全文文獻通用格式課件_第2頁
中山圖書館數(shù)字式中文全文文獻通用格式課件_第3頁
中山圖書館數(shù)字式中文全文文獻通用格式課件_第4頁
中山圖書館數(shù)字式中文全文文獻通用格式課件_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、國內(nèi)外元數(shù)據(jù)研究與應用的現(xiàn)狀和發(fā)展趨勢劉煒上海圖書館元數(shù)據(jù)加工與應用技術研討班 2004 上海第1頁,共40頁。目錄元數(shù)據(jù)一般概念國外元數(shù)據(jù)研究與應用的歷史與現(xiàn)狀國內(nèi)元數(shù)據(jù)研究與應用的歷史與現(xiàn)狀趨勢與問題關于DC-2004元數(shù)據(jù)加工與應用技術研討班 2004 上海第2頁,共40頁。元數(shù)據(jù)一般概念定義來源作用分類模型思考:元數(shù)據(jù)概念早已有之,為什么現(xiàn)在會非常熱門?固然MARC是一種元數(shù)據(jù)格式,但是它與“現(xiàn)代”元數(shù)據(jù)究竟又什么大的區(qū)別?元數(shù)據(jù)加工與應用技術研討班 2004 上海第3頁,共40頁。元數(shù)據(jù)定義“meta”來自古希臘語,意思是更高層次或更基本的概念關于數(shù)據(jù)的數(shù)據(jù)(data about d

2、ata)關于數(shù)據(jù)的結構化數(shù)據(jù)(structured data about data)用于描述數(shù)據(jù)的內(nèi)容(what)、覆蓋范圍(where, when)、質(zhì)量、管理方式、數(shù)據(jù)的所有者(who)、數(shù)據(jù)的提供方式(how)等信息的數(shù)據(jù),是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁資源的信息 (Information about a resource)編目信息 (Cataloguing information)管理、控制信息(Administrative information)是一組獨立的關于資源的說明(metadata is a set of independent assertions about a resou

3、rce )定義和描述其它數(shù)據(jù)的數(shù)據(jù)(data that defines and describes other data (ISO/IEC 11179-3:2003(E))Metadata在臺灣被譯作“元資料”、“詮釋資料”、“后設資料”、“文后資料”、“超資料”等多種名稱。 元數(shù)據(jù)加工與應用技術研討班 2004 上海第4頁,共40頁。來源計算機/數(shù)據(jù)庫領域網(wǎng)絡信息標注/檢索進一步發(fā)展:機器對于語義的理解和處理(語義萬維網(wǎng))元數(shù)據(jù)加工與應用技術研討班 2004 上海第5頁,共40頁。元數(shù)據(jù)的作用元數(shù)據(jù)的主要功能是定位(location)、尋找或發(fā)掘(discovery)、存檔(document

4、ation)、評價(evaluation)與選擇(selection)等五大功能*;其他作用:鏈接與交互關系的體現(xiàn)(linkage and interactive relationship management)、整合XML、RDF與Z39.50不同協(xié)議的應用等;描述、檢索、選擇、定位、管理、評估與交互等功能*。*來自于歐洲DESIRE(Development of a European Service for Information on Research and Education)計劃的元數(shù)據(jù)分析報告*北大數(shù)字圖書館研究所的研究報告元數(shù)據(jù)加工與應用技術研討班 2004 上海第6頁,共40

5、頁。不要迷信元數(shù)據(jù)任何“元數(shù)據(jù)”都代替不了數(shù)據(jù)本身一個元數(shù)據(jù)的記錄總是一個“信息容器” 的附屬品不管這個信息容器的內(nèi)容在結構上被分解為多小,多深不管有多少個主題特征被放到一條數(shù)據(jù)上在當前的元數(shù)據(jù)標準中,有關主題內(nèi)容的元數(shù)據(jù)元素總是十分有限這需要Ontology來補充頻度、統(tǒng)計以及其它純抽象數(shù)學因子作為元數(shù)據(jù)有時可能取得非常好的查詢效果元數(shù)據(jù)加工與應用技術研討班 2004 上海第7頁,共40頁。元數(shù)據(jù)的分類元數(shù)據(jù)類型定義描述型元數(shù)據(jù)內(nèi)容描述描述資源對象內(nèi)容或外觀信息。結構描述描述資源對象各組件的結構信息。管理型元數(shù)據(jù)技術描述資源對象的技術要求的元數(shù)據(jù)信息。權限描述資源對象的權限管理與合法取用的元

6、數(shù)據(jù)信息。來源描述資源對象的產(chǎn)生、發(fā)展與環(huán)境等方面的元數(shù)據(jù)信息。一般管理用來管理信息資源的元數(shù)據(jù)信息。根據(jù)元數(shù)據(jù)中的元素所描述、揭示的語義來劃分的:元數(shù)據(jù)加工與應用技術研討班 2004 上海第8頁,共40頁。元數(shù)據(jù)分類元數(shù)據(jù)加工與應用技術研討班 2004 上海第9頁,共40頁。描述性元數(shù)據(jù)的分類描述能力低高元數(shù)據(jù)加工與應用技術研討班 2004 上海第10頁,共40頁。元數(shù)據(jù)模型RDF數(shù)據(jù)模型(及Warwick框架)(趙亮21日下午介紹)OAIS參考模型(王松林21日上午介紹)FRBR功能/生命周期模型DCMI抽象模型(DCMI元數(shù)據(jù)方案抽象模型)(22日下午介紹)數(shù)字圖書館體系結構模型元數(shù)據(jù)加

7、工與應用技術研討班 2004 上海第11頁,共40頁。元數(shù)據(jù)模型:三位一體在語義、結構和句法三方面分別達成一致語義通過屬性元素(部分通過編碼/置標方式)表達結構語義的抽象載體,通過框架/容器來表達,要求做到人類與機器均可讀句法/語法具體的置標/編碼方案(如XML/METS/ MODS/RDF/XMLS/RDFS/OWL等),傳達語義和結構元數(shù)據(jù)加工與應用技術研討班 2004 上海第12頁,共40頁。FRBR模型Functional Requirements for Bibliographic Records元數(shù)據(jù)加工與應用技術研討班 2004 上海第13頁,共40頁。元數(shù)據(jù)生命周期元數(shù)據(jù)加工與

8、應用技術研討班 2004 上海第14頁,共40頁。數(shù)字圖書館體系結構模型資源創(chuàng)建者數(shù)字對象數(shù)據(jù)句柄倉儲RAP(倉儲存取協(xié)議)句柄服務器創(chuàng)建包含由句柄系統(tǒng)創(chuàng)建包含在被存取句柄注冊于元數(shù)據(jù)加工與應用技術研討班 2004 上海第15頁,共40頁。元數(shù)據(jù)與數(shù)字圖書館元數(shù)據(jù)決定了數(shù)字圖書館的體系結構,主要解決兩個問題:定義數(shù)字圖書館中數(shù)字對象的信息結構定義由數(shù)字對象構成的資源庫的組織結構數(shù)字對象是數(shù)字圖書館中存儲信息的基本邏輯單位,它進一步?jīng)Q定著的信息組織處理和利用方式、資源庫的組織結構,提供了統(tǒng)一的互操作。元數(shù)據(jù)方案是數(shù)字圖書館建設的重要組成部分,體現(xiàn)在數(shù)字圖書館開發(fā)的各個環(huán)節(jié)中存儲檢索發(fā)布管理元數(shù)據(jù)

9、加工與應用技術研討班 2004 上海第16頁,共40頁。國外情況概況項目情況標準化情況研究與應用特點值得借鑒之處元數(shù)據(jù)加工與應用技術研討班 2004 上海第17頁,共40頁。元數(shù)據(jù)標準舉例按元數(shù)據(jù)應用的學科領域,則可以進行如下劃分 :傳統(tǒng)圖書期刊,如:MARC等。 網(wǎng)絡資源,如Dublin Core、IAFA/WHOIS+ Templates、LDIF(LDAP Data Interchange Format)、SOIF(Summary Object Interchange Format)、URCs(Uniform Resource Characteristics/Citations)等。 政

10、府信息,如:GILS(Government Information Locator Service,政府信息定位服務)、DC-Gov(DC-Government Application Profile,DC政府應用綱要)等。 科技文獻,如:ibTEX、EELS(The Engineering Electronic Library,工程電子圖書館元數(shù)據(jù))、EEVL(The Edinburgh Engineering Virtual Library,愛丁堡虛擬電子圖書館元數(shù)據(jù))、RFC1807等28。 人文及社會科學資源,如:TEI Header、ICPSR SGML Codebook Initi

11、ative等29。 教育資源:IEEE LOM(Learn Object Medle,學習對象模型)、GEM(GEM Element List,GEM元數(shù)據(jù))、DC-Ed(DC-Education元數(shù)據(jù))等。博物館藏品或特藏,如:CDWA(Categories for the Description of Works of Art,藝術作品描述目錄)、CIMI(Computer Interchange of Museum Information)CIMI、 VRA Core(Visual Resources Association Core,可視資源核心類目)、REACH元素集等。 保存型元數(shù)

12、據(jù)方案:CEDARS、NLA、NEDLIB地理空間資源,如:FGDC/CSDGM等 手稿檔案保存類,如:EAD等網(wǎng)絡多媒體及版權管理:INDECS元數(shù)據(jù)加工與應用技術研討班 2004 上海第18頁,共40頁。簡介1.DC(都柏林核心元數(shù)據(jù))2.CDWA(藝術作品描述目錄)3.VAR Core(可視資源委員會核心元數(shù)據(jù))4.CDF(頻道定義格式)5.ROADS元數(shù)據(jù)(主題信息服務的資源組織和發(fā)現(xiàn))6.IEEE LOM(IEEE學習對象元數(shù)據(jù))7.BibTex(科技文獻書目資源格式)8.GEM(教育資源網(wǎng)關)9.CIMI(博物館信息計算機交換標準框架)10.REACH元數(shù)據(jù)格式11.EAD(編碼文

13、檔描述)12.ONIX(在線信息交換)13.EELS(工程電子化圖書館)14.EEVL(愛丁堡工程虛擬圖書館)15.FGDC(聯(lián)邦地理數(shù)據(jù)委員會)16.GILS(政府信息定位服務)17.MARC(機讀目錄格式)18.MOA2(美國的創(chuàng)建II)19.MCF(元內(nèi)容框架)20.PICA+(荷蘭圖書館自動化中心)21.PICS(網(wǎng)絡內(nèi)容選擇平臺)22.TEI Header(文本編碼先導計劃)23.SOIF(概略對象交換格式)24.IAFA/WHIOS+Templates(因特網(wǎng)匿名FTP文件庫版式)25.ICPSR SGML Codebook(政治和社會研究方面的校際聯(lián)盟)26.LDAP DIF(輕

14、便型目錄獲取協(xié)議)27.RFC 1807(書目記錄格式)28.URCs(統(tǒng)一資源特征)29.SGML(通用標準標記語言)30.Warwick Framework(Warwick框架)31.Web Collections(網(wǎng)站集合)32.XML(可擴展標記語言)RDF(資源描述框架) 元數(shù)據(jù)加工與應用技術研討班 2004 上海第19頁,共40頁。IFLA推薦方案應包含的核心元素 主題 Subject 日期 Date 使用條件 Conditions of use 出版者 Publisher 資源名 Name assigned to the resource 語種/表達方式 Language/mod

15、e of expression 資源標識符 Resource identifier 資源類型 Resource type (i.e., what the resource is, rather than what it is about) 作者/創(chuàng)建者 Author/creator 版本 Version見:Guidance on the Structure, Content, and Application of Metadata Records for Digital Resources and Collections: Report of the IFLA Cataloguing Sect

16、ion Working Group on the Use of Metadata Schemas (2003 Oct 27)元數(shù)據(jù)加工與應用技術研討班 2004 上海第20頁,共40頁。國內(nèi)情況概況歷史項目與研究應用情況趨勢與展望值得關注的課題圖書館員的角色元數(shù)據(jù)加工與應用技術研討班 2004 上海第21頁,共40頁。國內(nèi)元數(shù)據(jù)研究與應用概況國內(nèi)的研究與應用:數(shù)字化項目的需要,例如國家圖書館、中山圖書館等;數(shù)字圖書館開發(fā)與建設的需要,如有關數(shù)字圖書館項目、國家863項目等;國外元數(shù)據(jù)跟蹤研究和應用的成果近來新呈現(xiàn)的特點注重體系化的研究,通過對系統(tǒng)架構的研究,建立信息系統(tǒng)模型(生命周期模型、數(shù)據(jù)

17、流模型、應用相關模型等)。注重具體應用環(huán)境和實現(xiàn)的研究。注重標準體系的建立(一整套標準規(guī)范和可操作的文檔)。元數(shù)據(jù)加工與應用技術研討班 2004 上海第22頁,共40頁。歷史1997年“試驗型數(shù)字圖書館”項目OCLC的引介、推動國圖及中山圖書館元數(shù)據(jù)方案北大元數(shù)據(jù)方法論上海圖書館“第一屆國際元數(shù)據(jù)研討會”上圖的元數(shù)據(jù)跟蹤及應用元數(shù)據(jù)加工與應用技術研討班 2004 上海第23頁,共40頁。國內(nèi)元數(shù)據(jù)項目與應用研究情況國家圖書館中文元數(shù)據(jù)方案北京大學圖書館(拓片和敦煌古卷)清華大學(建筑)中科院文獻情報中心我國數(shù)字圖書館標準與規(guī)范建設項目(CDLS)中山圖書館“數(shù)字式中文全文文獻通用格式”中國可持

18、續(xù)發(fā)展信息共享示范系統(tǒng)*教育信息源數(shù)據(jù)標準*上海圖書館應用研究情況*參見:/sdinfo/download.asp*參見:/ 全國信息技術標準化技術委員會教育技術分技術委員會發(fā)布的有關教育信息元數(shù)據(jù)標準元數(shù)據(jù)加工與應用技術研討班 2004 上海第24頁,共40頁。國家圖書館國家圖書館(NLCN)于1991年3月成立了文獻數(shù)字化中心,主要從事國家圖書館內(nèi)部文獻的加工生產(chǎn),2000年10月劃入中國數(shù)字圖書館有限責任公司范圍,承擔中國數(shù)字圖書館工程中的資源建設任務,現(xiàn)已經(jīng)為中國數(shù)字圖書館提供中文圖書20萬冊,7000萬頁、縮微膠片200萬拍、金石拓片6000張等數(shù)字資源 。另有:甲骨影像及拓片資源庫

19、;西夏文獻數(shù)字資源庫;中文拓片資源庫;國際敦煌項目(敦煌及其他遺址出的十萬余件寫卷,可以在互聯(lián)網(wǎng)上免費獲得高清晰度的數(shù)碼圖像,與之相聯(lián)的有書目,地圖,照片,遺址圖等其他有關歷史,現(xiàn)狀等信息,使學者,學生,平常老百姓能由此深入了解公元一千年絲綢之路上的社會生活狀況 )。2002年12月,“國家圖書館二期工程暨國家數(shù)字圖書館工程”項目立項申請書通過國務院批準,程總投資123,500萬元;基于OAIS參考模型的保存性元數(shù)據(jù)方案“中文元數(shù)據(jù)方案 ”元數(shù)據(jù)加工與應用技術研討班 2004 上海第25頁,共40頁。中文元數(shù)據(jù)方案1名稱Title2主題Subject3版本Edition4內(nèi)容摘要Abstrac

20、t5內(nèi)容類型Content Type6語種Language7內(nèi)容覆蓋范圍Coverage8內(nèi)容創(chuàng)建者Creator9其它責任者Contributor10內(nèi)容創(chuàng)建日期Date of Creation11出版Publisher12版權所有者Copyright Holder13資源標識符Identifier14關聯(lián)資源Related Objects15數(shù)字資源制作者Digital Publisher Name16數(shù)字資源制日期Digital Publisher Date17數(shù)字資源制作地Digital Publisher Place18權限聲明Rights Warning19公開對象Actors20

21、操作許可Actions21原始技術環(huán)境Original Technical Environments22加工處理歷史Ingest Process History23維護歷史Administration History24認證指示符Authentication Indicator25基本抽象格式描述UAF-Description元數(shù)據(jù)加工與應用技術研討班 2004 上海第26頁,共40頁。中國高校系統(tǒng):以北京大學為代表基于專門數(shù)字對象的元數(shù)據(jù)標準古籍元數(shù)據(jù)標準(第4版)拓片元數(shù)據(jù)標準(第6版)輿圖元數(shù)據(jù)標準(第1版)學位論文元數(shù)據(jù)標準(第2版)人物元數(shù)據(jù)標準(第1版)電子圖書元數(shù)據(jù)標準(教學參考

22、書)(第1版)網(wǎng)絡資源元數(shù)據(jù)標準(第1版)其它參見示例元數(shù)據(jù)加工與應用技術研討班 2004 上海第27頁,共40頁。元數(shù)據(jù)加工與應用技術研討班 2004 上海第28頁,共40頁。中國科學院文獻情報中心國家科學數(shù)字圖書館預研項目后續(xù)項目:“科技基礎性工作專項資金重點項目我國數(shù)字圖書館標準規(guī)范建設”元數(shù)據(jù)加工與應用技術研討班 2004 上海第29頁,共40頁。完整的框架體系Works/ObjectsCollections of Works/ObjectsDatabases of discriptionsDigital ObjectsCollections ofDigital ObjectsIden

23、tification/NamingMetadata DescriptionsRetrieval MechanismsLocation ResolutionStorage and ArchivingFormattingOrganizing Mechanisms格式化識別與命名元數(shù)據(jù)描述組織機制檢索機制地址解析長期保存注:本頁內(nèi)容來自張曉林教授有關元數(shù)據(jù)的演示稿元數(shù)據(jù)加工與應用技術研討班 2004 上海第30頁,共40頁?;谏芷诘脑獢?shù)據(jù)開發(fā)應用框架互操作機制檢索機制長期保存應用領域應用目標內(nèi)容結構句法結構語義結構編碼語言制作機制組織與存儲元數(shù)據(jù)加工與應用技術研討班 2004 上海第31頁,共

24、40頁?;啬夸浿袊沙掷m(xù)發(fā)展信息共享示范系統(tǒng)元數(shù)據(jù)加工與應用技術研討班 2004 上海第32頁,共40頁?;A教育教學資源元數(shù)據(jù)規(guī)范編入教育信息化技術標準CELTS-42 ;與IEEE LOM和IMS相一致;與DC聯(lián)系密切(以DC為核心)體系完整,元數(shù)據(jù)方面已包括三個規(guī)范:CELTS-3.1(CD1.6)學習對象元數(shù)據(jù)2002-09-05CELTS-3.3(CD1.6)學習對象元數(shù)據(jù)實踐指南2003-01-07CELTS-3.4(WD1.0)學習對象元數(shù)據(jù)測試規(guī)范2003-01-07建立了運作機制和認證體系參見示例元數(shù)據(jù)加工與應用技術研討班 2004 上海第33頁,共40頁。上海圖書館上海圖書

25、館于1997年啟動了古籍數(shù)字化項目(數(shù)字化數(shù)量共計3223種一、二級藏品130萬頁)。 ,1998年開始進行歷史文獻和特色館藏的搶救性整理和數(shù)字化工作。1999年是上海圖書館進行大規(guī)模數(shù)字化的一年,這一年一共進行了7個數(shù)字化項目。上海數(shù)字圖書館是一個綜合了七個資源庫的網(wǎng)上圖書館,擁有數(shù)據(jù)近200GB,主要是掃描的影像數(shù)據(jù)。系統(tǒng)采用IBM Digital Library version 2.4作為主要開發(fā)工具應用平臺。元數(shù)據(jù)方案采用以DCMES作為核心集、多種元數(shù)據(jù)方案并存的“元數(shù)據(jù)應用綱要”形式,以基于XML的RDF為基礎的編碼方式封裝在一起,保證了原始素材內(nèi)容管理中元數(shù)據(jù)的完整性與互操作能力。 目前正在修改完善一整套元數(shù)據(jù)規(guī)范、方案和方法。上圖德元數(shù)據(jù)規(guī)范和方法正在應用于上海圖書館正在建設的古籍數(shù)字圖書館、拓片資源的數(shù)字化、家譜數(shù)字圖書館、名人手稿數(shù)字圖書館等。元數(shù)據(jù)加工與應用技術研討班 2004 上海第34頁,共40頁。上圖元數(shù)據(jù)方案設計流程建立模型詳細列出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論