關(guān)聯(lián)數(shù)據(jù)概念技術(shù)及應(yīng)用展望_第1頁
關(guān)聯(lián)數(shù)據(jù)概念技術(shù)及應(yīng)用展望_第2頁
關(guān)聯(lián)數(shù)據(jù)概念技術(shù)及應(yīng)用展望_第3頁
關(guān)聯(lián)數(shù)據(jù)概念技術(shù)及應(yīng)用展望_第4頁
關(guān)聯(lián)數(shù)據(jù)概念技術(shù)及應(yīng)用展望_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望劉煒2012-10-22 17:01:08來源:大學(xué)圖書館學(xué)報(京)2011年2期【英文標(biāo)題】 On Linked Data: Concept, Technology and Implementation【作者簡介】劉煒,上海圖書館(上海200031)。【內(nèi)容提要】概述了關(guān)聯(lián)數(shù)據(jù)概念的提出、基本內(nèi)涵、技術(shù)實現(xiàn)和當(dāng)前國內(nèi) 外的研究應(yīng)用狀況,對其在圖書館行業(yè)的應(yīng)用作了簡要介紹,點評了國內(nèi)該領(lǐng)域 的研究開發(fā)情況,重點闡述了對于圖書館在Web上發(fā)布書目數(shù)據(jù)和規(guī)范數(shù)據(jù)的重 要意義,認(rèn)為關(guān)聯(lián)數(shù)據(jù)與網(wǎng)絡(luò)時代的圖書情報工作關(guān)系密切,是互聯(lián)網(wǎng)發(fā)展到語 義網(wǎng)時代,對網(wǎng)上資源和數(shù)字對象

2、進(jìn)行“編目和“規(guī)范控制”的基礎(chǔ)性技術(shù), 是數(shù)字圖書館進(jìn)行信息資源發(fā)布和服務(wù)的核心技術(shù)之一。最后作者呼吁我國圖書 情報界重視這一技術(shù),及早投入一定的資源和人力進(jìn)行研究開發(fā)和應(yīng)用推廣,使 圖書館大量的權(quán)威數(shù)據(jù)在互聯(lián)網(wǎng)上占據(jù)一席之地。The paper outlined the initiation of linked data, introduced its concept, implementation and current status of applications at home and abroad, and put emphasis on its deployment in libr

3、ary and information area. It also foresaw the impact on the library information services through the Web, and reviewed the related research and development in China. It concluded that, with the help of linked data, it will be brought back the authority control to the Web at a certain level as biblio

4、graphical data and authority files in legacy library system transformed and uploaded onto the Web. Chinese librarianship has the responsibilities to catch up with the new achievement of the development of linked data technology.【關(guān)鍵詞】關(guān)聯(lián)數(shù)據(jù)/規(guī)范控制/語義網(wǎng)Linked data/Authority control/Semantic web引言:一個有序的知識世界

5、哲學(xué)家波普爾的心中存在一個超然世外、遺世獨立的知識世界,負(fù)載卻不依 賴于具體的物質(zhì)世界,依靠卻不附屬于個體的精神世界。這個世界總體上依賴于 信息網(wǎng)絡(luò)和各類載體而存在,具體上卻不依附于任何個體的硬件設(shè)施;理解或解 讀這個世界需要人類大腦的參與,但它卻有其自身的發(fā)展規(guī)律。遺憾的是在波普 爾1994年去世前,這個世界還沒有像現(xiàn)在這么具體、形象和幾乎就要實現(xiàn)。這 就是語義網(wǎng)的世界。試想,如果每一本書都有一個獨立的網(wǎng)址,每一個作者都有一條可以公開訪 問的記錄,每個刊物、出版社,每個主題詞、每個分類號每個“知識點”, 在網(wǎng)絡(luò)中都有一個唯一標(biāo)識,所有這些“資源”之間的關(guān)系都能從其標(biāo)識所指引 的地址里找到詳盡

6、的說明;甚至萬事萬物,不論是自然的、社會的或精神的,都 有一個標(biāo)識符,都建立起豐富的關(guān)聯(lián),計算機(jī)能夠自動通過網(wǎng)絡(luò)推理和挖掘知識, 那將是一個多么有序的知識世界!1什么是關(guān)聯(lián)數(shù)據(jù)?“關(guān)聯(lián)數(shù)據(jù)”所提出的技術(shù)架構(gòu),為實現(xiàn)這個有序的知識世界帶來了曙光。關(guān)聯(lián)數(shù)據(jù)是國際互聯(lián)網(wǎng)協(xié)會(W3C)推薦的一種規(guī)范,用來發(fā)布和連接各類數(shù) 據(jù)、信息和知識,它希望在現(xiàn)有的萬維網(wǎng)基礎(chǔ)上,建立一個映射所有自然、社會 和精神世界的數(shù)據(jù)網(wǎng)絡(luò),通過對大千世界萬事萬物及其相互之間關(guān)系進(jìn)行機(jī)器可 讀的描述,使互聯(lián)網(wǎng)進(jìn)化為一個富含語義的、互聯(lián)互通的知識海洋,從而使任何 人都能夠借助整個互聯(lián)網(wǎng)的計算設(shè)施和運算能力,在更大范圍內(nèi),準(zhǔn)確、高效

7、、 可靠地查找、分享、利用這些相互關(guān)聯(lián)的信息和知識。從技術(shù)上看,關(guān)聯(lián)數(shù)據(jù)是在萬維網(wǎng)上發(fā)布任何“資源”的一種方式。語義萬 維網(wǎng)將資源定義為“任何有URI標(biāo)識的東西”,分為信息資源和非信息資源兩類, 信息資源用以表達(dá)任何信息,通常以某種編碼的文件形式而存在;非信息資源用 以指代大千世界中的各類實體對象,可以是自然界、人類社會以及人類意識所創(chuàng) 造的精神世界(概念、觀念、抽象實體等)的所有對象。關(guān)聯(lián)數(shù)據(jù)通過HTTP URI方式表示和存取“資源”。如果這個資源是信息資 源,則可以直接通過傳統(tǒng)的Web方式獲??;如果是非信息資源,則鏈接到一個以 RDF/XML編碼的、用以指代該“非信息資源”的數(shù)據(jù)文件,而不

8、是其他任何格式 的文檔。這個RDF/XML編碼的文件包含了關(guān)于這個“非信息資源”的元數(shù)據(jù)描述 和與其他相關(guān)實體對象的關(guān)聯(lián)關(guān)系描述。對象之間的關(guān)聯(lián)關(guān)系通??梢杂帽倔w語 言來編碼,許多領(lǐng)域應(yīng)用的知識體系都有規(guī)范的、可重用的本體,可用來建立實 體對象之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)數(shù)據(jù)的URI除了能夠在萬維網(wǎng)范圍內(nèi)唯一標(biāo)識資源對象之外,還能起到 定位的作用,從而能夠用以“關(guān)聯(lián)”數(shù)據(jù)。具體的關(guān)聯(lián)是依靠RDF文件中的大量 資源鏈接來實現(xiàn)的,這些鏈接不僅決定了數(shù)據(jù)的語義,也通過“屬性”而關(guān)聯(lián)到 其所能鏈接到的、大量的相關(guān)資源實體。這些“屬性”本身也是資源,也應(yīng)該有唯一標(biāo)識符URI加以定義和描述,我們通常所稱的“元數(shù)據(jù)

9、方案”就是這類屬性 的集合,規(guī)定了所需進(jìn)行描述的語義及其相互關(guān)系,其本身就可以看成是描述某 些特定對象的本體。關(guān)聯(lián)數(shù)據(jù)的發(fā)明人蒂姆伯納斯李(Tim Berners-Lee)為關(guān)聯(lián)數(shù)據(jù)總結(jié)了 四個原則,很好地概括了上述關(guān)聯(lián)數(shù)據(jù)的諸多特性:使用URI作為任何事物的標(biāo)識名稱,不僅是標(biāo)識文檔;使用HTTP URI,使任何人都可以參引(dereference)這一全局唯一的 名稱;當(dāng)有人訪問名稱時,以RDF形式提供有用的信息;盡可能提供鏈接,指向其他的URI,以使人們發(fā)現(xiàn)更多的相關(guān)信息。其中第三和第四點要求RDF文件包含有用信息以及盡可能多的URI,這就要 求關(guān)聯(lián)數(shù)據(jù)的RDF文件盡可能不使用“空白節(jié)點(

10、blank nodes)”和少使用普通 “文字(literal)”。在這里,“空白節(jié)點”是沒有全局ID的本地資源(沒有定 義命名域的URI,如ISBN,DOI),“文字”指一個字串值(可以有類型以及語言 屬性),由于這兩種描述方式都不能用來指代“資源”,因此過多地使用“空白 節(jié)點”和“文字”不能起到數(shù)據(jù)(即資源)關(guān)聯(lián)的作用,實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的目的??傊?,可以認(rèn)為關(guān)聯(lián)數(shù)據(jù)是一組最佳實踐的集合,它采用RDF數(shù)據(jù)模型,利 用URI(統(tǒng)一資源標(biāo)識符)命名數(shù)據(jù)實體,來發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),從而 可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時它強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián) 系和有益于人機(jī)理解的語境信息。2關(guān)

11、聯(lián)數(shù)據(jù)能做什么?關(guān)聯(lián)數(shù)據(jù)可以看成是語義萬維網(wǎng)的一種簡化實現(xiàn),作為一種語義信息的編 碼、發(fā)布和利用方式,它的作用是基礎(chǔ)性的和多方面的。從目前的研究開發(fā)項目 來看,對關(guān)聯(lián)數(shù)據(jù)的應(yīng)用主要體現(xiàn)了兩個方面的作用:一、提供“可信網(wǎng)絡(luò)”的 語義要素;二、作為跨網(wǎng)域數(shù)據(jù)整合的通用API。它最終是為了用戶更準(zhǔn)確地、 從更大范圍、適時適地(just-in-time和just-incase)地獲取信息而服務(wù)的,但 最終用戶無需知道這些服務(wù)背后的技術(shù)細(xì)節(jié),因此關(guān)聯(lián)數(shù)據(jù)的“用戶”,目前還 主要是指圖書館、網(wǎng)站、信息提供商之類的機(jī)構(gòu)組織,常被稱為“信息中介”。“可信網(wǎng)絡(luò)”意為其信息資源的來源可追蹤或可通過一定算法計算其“

12、信度” 的網(wǎng)絡(luò)。關(guān)聯(lián)數(shù)據(jù)的技術(shù)架構(gòu)不僅提供了信息資源可以追蹤來源(具有URI)的 RDF語義描述,而且為各類對象實體以及所涉及的大量概念術(shù)語提供了規(guī)范控 制。例如對每個作品、表達(dá)、表現(xiàn),或作者、機(jī)構(gòu)、家庭等實體提供一個唯一的 URI參引,或?qū)γ總€主題、概念、術(shù)語、事件、分類詞或?qū)傩栽~等,提供一個唯 一的出處。這實際上就是傳統(tǒng)圖書館學(xué)中“書目控制”(又稱權(quán)威控制)的擴(kuò)展: 當(dāng)人們提及某一實體,或某一概念術(shù)語時,系統(tǒng)能夠給予自動的歸并或參照。這 種機(jī)制,就是規(guī)范控制。規(guī)范控制的結(jié)果,就是信息在一定程度上更加可信。若要進(jìn)行跨網(wǎng)域的數(shù)據(jù)整合,關(guān)聯(lián)數(shù)據(jù)把API(應(yīng)用程序接口)統(tǒng)一為HTTP 一種,只不過

13、經(jīng)過了簡單的擴(kuò)展而已(指Hash或Slash方式轉(zhuǎn)發(fā))。也就是說關(guān) 聯(lián)數(shù)據(jù)對數(shù)據(jù)訪問方式進(jìn)行了標(biāo)準(zhǔn)化,用戶或代理無需知道某具體關(guān)聯(lián)數(shù)據(jù)發(fā)布 網(wǎng)站的體系架構(gòu)、存儲方式等任何技術(shù)細(xì)節(jié),只要知道Web服務(wù)器地址,都可以 直接用SPARQL進(jìn)行訪問。據(jù)此,目前的關(guān)聯(lián)數(shù)據(jù)應(yīng)用系統(tǒng)的開發(fā),基本上也可分為兩類:“關(guān)聯(lián)數(shù)據(jù) 倉儲系統(tǒng)”和“關(guān)聯(lián)數(shù)據(jù)服務(wù)系統(tǒng)”。前者關(guān)心的是將數(shù)據(jù)發(fā)布為面向網(wǎng)絡(luò)的關(guān) 聯(lián)數(shù)據(jù)倉儲,后者關(guān)注不同倉儲的整合應(yīng)用和互操作。當(dāng)然,這兩者也不是截然 分開的,某些應(yīng)用兼而有之,是這兩者的聯(lián)合。目前把各類數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)是一個熱點,圖書館行業(yè)在這方面已成為先 鋒,不僅將本行業(yè)歷久彌新的各類概念體

14、系受控詞表發(fā)布出來(即將各類知識組 織體系發(fā)布成SKOS),越來越多的元數(shù)據(jù)方案、本體,乃至圖書館傳統(tǒng)的各類規(guī) 范檔(如書目記錄、人名、地名、機(jī)構(gòu)名等)都在探索以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布,而 且在發(fā)布過程中探索了領(lǐng)域本體(如FRBR)的應(yīng)用。下一步我們可以期待,重點 將會逐漸轉(zhuǎn)移到跨應(yīng)用的語義整合服務(wù),例如各類術(shù)語體系或元數(shù)據(jù)的映射等。當(dāng)然,關(guān)聯(lián)數(shù)據(jù)也不是萬能的,它最大的敵人就是封閉,無法對封閉系統(tǒng)中 的資源進(jìn)行整合。目前圖書館購買或租用的大量資源庫需要遠(yuǎn)程訪問才能獲得, 如果這些資源庫不提供一定的開放接口,關(guān)聯(lián)數(shù)據(jù)就無計可施,最多利用本體和 術(shù)語規(guī)范的關(guān)聯(lián)數(shù)據(jù),從服務(wù)整合的角度,提供一定的資源導(dǎo)航

15、或術(shù)語規(guī)范的支 持。總之,關(guān)聯(lián)數(shù)據(jù)相比于語義萬維網(wǎng)技術(shù)來說,其實現(xiàn)更加簡單,但背后同樣 有數(shù)學(xué)和邏輯學(xué)的支持,具有規(guī)范性和可靠性。作為一種數(shù)據(jù)發(fā)布技術(shù),由于支 持了語義描述,同時提供標(biāo)準(zhǔn)的服務(wù)接口,有效地提高了數(shù)據(jù)的可查找性和可重 用性,其影響力正在日益顯現(xiàn),潛力十分巨大,已成為影響互聯(lián)網(wǎng)基礎(chǔ)結(jié)構(gòu)的關(guān)鍵技術(shù)之一。3關(guān)聯(lián)數(shù)據(jù)是如何實現(xiàn)的?關(guān)聯(lián)數(shù)據(jù)是建立在Web技術(shù)之上的,Web技術(shù)主要涉及三個內(nèi)容:HTTP、URL 和 HTML。HTTP是服務(wù)器操作的指令,規(guī)定了遇到各種請求(如GET/PUT/POST/DELETE) 服務(wù)器如何響應(yīng),怎么處理;HTML是存儲在服務(wù)器端的網(wǎng)頁文件,將根據(jù)請求傳送

16、給瀏覽器,HTML的 標(biāo)準(zhǔn)規(guī)定了文件的結(jié)構(gòu),允許包含豐富的超文本鏈接,并能嵌套各類其他文件格 式,如果瀏覽器一端有相應(yīng)的資源或程序就能夠調(diào)用或運行。正是由于HTML, 使整個萬維網(wǎng)上布滿了相互鏈接的文件,成為一個巨大的、不斷膨脹的文件宇宙, 這就是為什么說目前的萬維網(wǎng)是文件的萬維網(wǎng)(Web of Documents)的原因。URL本來是作為在這個文件宇宙中定位具體的文件而用的,后來演變成兼 具名稱作用,從而連同URN 一起,統(tǒng)一作為URI的子類。關(guān)聯(lián)數(shù)據(jù)把上面三個技術(shù)作了進(jìn)一步的限定和擴(kuò)展,用URI同時解決命名和 定位問題。在具體實現(xiàn)URI命名和定位時,由于該名稱有永久性和易實現(xiàn)的要求, 路徑

17、作為某個資源名稱的一部分,不允許隨意發(fā)生改變,并且在不同的軟硬件平 臺和技術(shù)環(huán)境下都需要能夠正確編碼,這就需要作為關(guān)聯(lián)數(shù)據(jù)標(biāo)識的URI符合 CoolURI 規(guī)范。同時對于同一個對象,必須允許有不同的描述與表達(dá)方式,例如對于 “ HYPERLINK /about/index.php%5e%e4%b8%ad%e5%85%b3%e4%ba%8e /about/index.php中關(guān)于 kevenlw 的 FOAF描述, 既要有html文件(php可以認(rèn)為是動態(tài)生成的html文件),通過瀏覽器顯示給人 看,又要有rdf文件描述kevenlw的各種性狀屬性以便機(jī)器獲取相關(guān)元數(shù)據(jù)信息, 如 foaf 文件

18、: HYPERLINK /kevenfoaf.rdfo /kevenfoaf.rdfo 這兩個文件其實描述 的是同一個“東西”,因此不應(yīng)該有不同的ID標(biāo)識(注意:在這里是兩個不同的 URI,這是不規(guī)范的),必須在一個URI中區(qū)分這兩類數(shù)據(jù),同時讓服務(wù)器有一種 機(jī)制,能夠自動地根據(jù)請求方的不同,傳送不同格式的數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)的具體實現(xiàn)方式解釋如下:一、對于來自客戶端的對任何非信息資源的所有URI “參引”請求,均采用 HTTP協(xié)議中的“內(nèi)容協(xié)商”規(guī)則,返回其所請求的信息資源描述文件(對于非信 息資源的請求是無法返回具體實物對象的,只能以描述該對象的代碼文件代替)。 一般信息資源描述文件有兩類:即如

19、果請求來自于普通瀏覽器(頭信息中包含 text/html請求,其他MIME文件類型,如圖像文件、音視頻文件等,可歸入此 類),則返回HTML文件的網(wǎng)頁;如果請求為application/rdf+ xml,則返回負(fù) 責(zé)該對象語義描述的RDF文件。二、具體的“內(nèi)容協(xié)商”方式,通常有兩種方案達(dá)成:(1)采用HTTP協(xié)議的303指令重定向功能(如圖1所示)??蛻舳耍g覽器) 的URI請求由于不存在“東西”(非信息資源),服務(wù)器就會發(fā)送一個303 See Other 給客戶端,再由客戶端根據(jù)重定向規(guī)則發(fā)送請求,具體根據(jù)客戶端是HTML瀏覽 器還是支持RDF的瀏覽器,決定HTTP文件頭請求何種類型的文件(

20、HTML或者圖1 HTTP協(xié)議303指令重定向示意圖圖2 HTTP協(xié)議303指令重定向流程示意圖URI重定向通常采用以下慣例:ARDF)。該過程的具體流程如圖2所示:GET MuWiy URs| upijbteJriir-rrTi口 Lpwie nt wnkjMOT LRr: liynjA cup!1 .b|,sServertijraixn d : fif;-nrwT|hnp yevrpM Err國gifmc l -iui _fcrvm&nrnrFgw ooE” mnEix:!皿* -o HYPERLINK /kevenliuQD /kevenliuQD) HYPERLINK /kevenli

21、u.html /kevenliu.html HYPERLINK /kevenliu.rdf /kevenliu.rdfB HYPERLINK /resource/kevenliu(ID /resource/kevenliu(ID) HYPERLINK /page/kevenliu /page/kevenliu HYPERLINK /data/kevenliu /data/kevenliuC HYPERLINK /kevenliu /kevenliu HYPERLINK /kevenliu /kevenliu HYPERLINK /kevenliu /kevenliu(2)采用帶“#”號(has

22、h)的URI方式(如圖3所示)?!?”號前面的URI 能夠便于瀏覽器進(jìn)行解析定位,而與后面帶“#”號的片段標(biāo)識符共同用來標(biāo)識 非信息資源,該片段標(biāo)識符同時起到了類似于重定向的功能,允許支持RDF的瀏 覽器參引到信息資源文件(在這里是靜態(tài)的RDF文件)的所需位置。這種方式要求 該片段標(biāo)識符必須在RDF文件中是唯一的,且整個RDF文件不可過大,否則非常 影響查詢效率。采用“#”號方式作為URI的例子如: HYPERLINK http:/www.library.sh.en/people.rdf%23kevenliu http:/www.library.sh.en/people.rdf#kevenli

23、u HYPERLINK http:/www.library.sh.en/people.rdf%23leonzhao http:/www.library.sh.en/people.rdf#leonzhao圖3采用“#”進(jìn)行“內(nèi)容協(xié)商”定位資源描述的示意圖由于關(guān)聯(lián)數(shù)據(jù)從技術(shù)上看只是一種簡單的數(shù)據(jù)發(fā)布規(guī)范,規(guī)模較小的應(yīng)用只 需要對現(xiàn)有的Web服務(wù)器軟件進(jìn)行一定的設(shè)置,設(shè)定好資源對象的URI命名規(guī)范 (以如上所述的各種方式),并將這些資源的RDF描述以靜態(tài)文件的形式發(fā)布出 來。對于海量數(shù)據(jù)倉儲,則后臺必須有支持關(guān)聯(lián)數(shù)據(jù)規(guī)范發(fā)布方式的數(shù)據(jù)庫管理 平臺,目前開源軟件已經(jīng)有著名的內(nèi)容管理平臺Drupal全面

24、支持關(guān)聯(lián)數(shù)據(jù),Ruby on Rails據(jù)說也已開發(fā)了完整的支持模塊。另一個做法是利用關(guān)系型數(shù) 據(jù)庫系統(tǒng)的管理功能,編制映射文件,實時地將數(shù)據(jù)表、行、列、值映射為RDF 數(shù)據(jù)中的類、屬性、資源、屬性值(文本與連接)等。這種方式通常被稱為D2R 方式,即從數(shù)據(jù)庫到RDF數(shù)據(jù)轉(zhuǎn)換的方式。這樣等于在原有的Web數(shù)據(jù)庫三層應(yīng) 用架構(gòu)基礎(chǔ)上增加了語義構(gòu)建層(即生成RDF數(shù)據(jù)以供SPARQL查詢),大大簡化 了語義內(nèi)容的構(gòu)建難度,發(fā)布速度快,但也帶來了語義標(biāo)注一致性差、質(zhì)量不高 的問題。目前1。(即開放關(guān)聯(lián)數(shù)據(jù)LOD: Linked Open Data)中有很多大型數(shù) 據(jù)集都采用了這種方式發(fā)布。關(guān)于關(guān)聯(lián)數(shù)

25、據(jù)發(fā)布的詳細(xì)解釋,可以參考Chris Bizer、Richard Cyganiak 和 Tom Heath 合著的 How to Publish Linked Data on the Web 一文。4關(guān)聯(lián)數(shù)據(jù)在國外的研發(fā)應(yīng)用現(xiàn)狀2006年7月蒂姆伯納斯-李提出關(guān)聯(lián)數(shù)據(jù),由于其主要是一套應(yīng)用規(guī)范, 而不是難度很高的技術(shù)開發(fā),很快成為互聯(lián)網(wǎng)研究和應(yīng)用的一個熱點領(lǐng)域。在 2007年開放關(guān)聯(lián)數(shù)據(jù)運動的推動下,不久便出現(xiàn)一大批實驗性的應(yīng)用,表示關(guān) 聯(lián)數(shù)據(jù)應(yīng)用范圍的云圖不斷增大,關(guān)聯(lián)的開放數(shù)據(jù)呈幾何級數(shù)飛速增長,截止 2010年11月,LOD中的數(shù)據(jù)集合已有100多個,其中RDF三元組數(shù)據(jù)已達(dá)131 億。

26、其內(nèi)容也逐步擴(kuò)展,從早期的地理信息、生命科學(xué)數(shù)據(jù)、百科詞條等,發(fā)展 到目前涉及媒體、出版、政府信息、圖形圖像等,幾乎無所不包。除了關(guān)聯(lián)數(shù)據(jù)專題會議之外,2007年以來幾乎每個互聯(lián)網(wǎng)國際會議都以關(guān) 聯(lián)數(shù)據(jù)作為主題或最重要的分主題,如全球互聯(lián)網(wǎng)大會(WWW)、語義萬維網(wǎng)年會 (ISWC)、AAAI年會、DCMI國際元數(shù)據(jù)年會等。自從W3C的2007年年會(即WWW2007) 之后,關(guān)聯(lián)數(shù)據(jù)就開始作為一個專門的分會場 LDOW: Linked Data On the Web, 于每年召開。該會議已成為關(guān)聯(lián)數(shù)據(jù)領(lǐng)域最重要的會議,會上所探討的主題代表 了最新的研究和開發(fā)動向,目前已從最初的關(guān)聯(lián)數(shù)據(jù)的發(fā)布

27、和瀏覽,到關(guān)聯(lián)數(shù)據(jù) 的應(yīng)用架構(gòu)、關(guān)聯(lián)算法、Web數(shù)據(jù)融合、關(guān)聯(lián)數(shù)據(jù)的消費和關(guān)聯(lián)服務(wù)等諸多方面。關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的一個鮮明特點是邊研究邊應(yīng)用,在實踐中不斷得到檢驗和完 善。目前涌現(xiàn)出一批非常知名的應(yīng)用,如美國和英國政府的政府信息、英國廣播 公司(BBC)、紐約時報、路透社、百思買等。以下以BBC為例,簡要介紹關(guān)聯(lián)數(shù)據(jù)對于組織機(jī)構(gòu)內(nèi)部數(shù)字資產(chǎn)管理和利用 所帶來的變化。BBC是世界上最大的廣播電視公司之一,創(chuàng)立于1920年,目前有32種語言 的國際服務(wù),8個全國電視頻道,1個高清頻道,大量的地方頻道,10個國家電 臺,40多個地方電臺等,積累了難以想象的資料和素材,管理、發(fā)現(xiàn)和重用這 些資源都是巨大的挑

28、戰(zhàn),更別說開放出來給公眾使用。BBC矢志成為業(yè)界翹楚。它的網(wǎng)站bbc.co.uk開設(shè)于1994年,是同行業(yè)中 最早的網(wǎng)站,語義網(wǎng)技術(shù)使它燃起了新的希望,它希望建立先進(jìn)的語義媒體庫, 不僅利用網(wǎng)站進(jìn)行節(jié)目推廣,而且可以發(fā)布、推送、組織和存檔節(jié)目,支持知識 搜索,使其積累的大量內(nèi)容成為儲存人類記憶的腦庫。于是它利用關(guān)聯(lián)數(shù)據(jù)技術(shù), 給每個節(jié)目(每一集)都建立了自己專屬的網(wǎng)頁和靜態(tài)地址(CoolURL),每個知識 單元都有自己的結(jié)構(gòu)化描述和永久地址,而且每個網(wǎng)頁都可以由所有這些知識單 元根據(jù)模版自動生成,同時以同樣的方法建立了 455465位藝術(shù)家的信息,682473 個播出節(jié)目,7851093個音軌

29、,以及31112個Labels的完整資料。BBC還采用了 鼓勵用戶貢獻(xiàn)信息和糾錯的機(jī)制,用戶的參與使信息庫的完整性和準(zhǔn)確性不斷得 到提高。BBC認(rèn)為關(guān)聯(lián)數(shù)據(jù)技術(shù)使其網(wǎng)站和數(shù)據(jù)的可用性得到大大增強(qiáng),用戶的 體驗得到巨大提升,搜索引擎的查詢效果得到優(yōu)化,資源的可查找性、可點擊性 和可傳播性都得到很大提高?,F(xiàn)在BBC的整個網(wǎng)站同時又是一個API平臺,它采 用了 RESTful發(fā)布,與Web無縫集成,保證了鏈接的永久性和數(shù)據(jù)的開放性,并 且其系統(tǒng)的各組成部分松散耦合,互有聯(lián)系卻互不干擾,整個系統(tǒng)進(jìn)入可持續(xù)發(fā) 展的良性軌道。5圖書館行業(yè)的關(guān)聯(lián)數(shù)據(jù)應(yīng)用自從2008年瑞典國家圖書館首家以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布了

30、 LIBRIS國家書 目,并將其中的數(shù)據(jù)與DBPedia相關(guān)聯(lián)之后,到2010年,已有逾20個圖書館的 關(guān)聯(lián)數(shù)據(jù)集(11)。圖4 2010年已有的圖書館領(lǐng)域關(guān)聯(lián)數(shù)據(jù)集其中至少有以下5個國際、國家級的書目數(shù)據(jù)/規(guī)范數(shù)據(jù)開放了關(guān)聯(lián)數(shù)據(jù)服 務(wù):美國國會圖書館及其主題標(biāo)目(LCSH)(id. )德國國家圖書館的聯(lián)合權(quán)威檔(Gemeinsame Normdatei)(/gnd/)法國國家圖書館(BnF)的 RAMEAU 主題標(biāo)目(stitch.cs.vu.nl/rameau/)OCLC的杜威分類法及國際虛擬權(quán)威檔(VIAF)(/和/)匈牙利國家圖書館的目錄和敘詞表(oszkdk.oszk.hu/reso

31、urce/DRJ/404)另外DC元數(shù)據(jù)、應(yīng)用了 FRBR的RDA詞表、BIBO書目本體 (/)、SKOS知識組織編碼模式和OAI-ORE對象重用和 交換模型都可作為數(shù)據(jù)關(guān)聯(lián)的語義工具。目前這類詞表和KOS已經(jīng)如雨后春筍一般涌現(xiàn)出來。較著名的有:STW經(jīng)濟(jì)學(xué)敘詞表(zbw.eu/stw)社會科學(xué)敘詞表() GEMET 環(huán)境敘詞表(eionet.europa.eu/gemet) Agrovoc(聯(lián)合國糧農(nóng)組織敘詞表)(/)紐約時報主題標(biāo)目(/)科學(xué)出版物詞表()因為有了如此進(jìn)展,Antoine把2010年稱為圖書館關(guān)聯(lián)數(shù)據(jù)元年(12)。圖書館行業(yè)所具有的經(jīng)年累積的高質(zhì)量數(shù)據(jù),包含了大量的、值得揭

32、示和參 照復(fù)用的內(nèi)容實體,只是這些東西都隱藏在書目記錄內(nèi)部,沒有獨立標(biāo)識,也缺 乏結(jié)構(gòu)化描述,特別是其相互之間的隱含關(guān)系尤其值得揭示,但工作量浩大,必 須開發(fā)一定的規(guī)則算法,由機(jī)器進(jìn)行批處理。IFLA也注意到了關(guān)聯(lián)數(shù)據(jù)與圖書館的密切聯(lián)系,于2010年6月發(fā)布了關(guān) 聯(lián)數(shù)據(jù)與圖書館的專題報告1,由德國國家圖書館的J an Hannemann和JUrgen Kett執(zhí)筆。文章介紹了德國國家圖書館在應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)方面的進(jìn)展,包括 三個具體的實例:德國作家Bertolt Brecht的規(guī)范數(shù)據(jù)、國際圖聯(lián)(IFLA)海牙 總部的機(jī)構(gòu)規(guī)范數(shù)據(jù)和主題“ FUhrungskraft”(英語:“Executiv

33、e”)的標(biāo)目, 探討了關(guān)聯(lián)數(shù)據(jù)對于圖書館的意義和應(yīng)用前景,對于全球圖書館如何互通互聯(lián)數(shù) 據(jù)、并在此基礎(chǔ)上探索新的服務(wù)內(nèi)容和方式,進(jìn)行了全面深入的思考。由于圖書館行業(yè)有著獨特的“規(guī)范控制”經(jīng)驗和長期積累的數(shù)據(jù)優(yōu)勢,萬維 網(wǎng)協(xié)會W3C專門成立了 “圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組(Library Linked DataIncubator Group) ”(13),由 DCMI 的元老 Thomas Baker 領(lǐng)銜,匯集語義網(wǎng)、特 別是關(guān)聯(lián)數(shù)據(jù)方面的高于,集思廣益,充分挖掘現(xiàn)有圖書館領(lǐng)域的相關(guān)專業(yè)知識, 如元數(shù)據(jù)模型、元數(shù)據(jù)模式、標(biāo)準(zhǔn)和協(xié)議等,重新定義需求、編制指南、開發(fā)新 的標(biāo)準(zhǔn),鼓勵圖書館界將它們的各類

34、數(shù)據(jù)和規(guī)范檔以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián) 網(wǎng)上,提高圖書館數(shù)據(jù)在萬維網(wǎng)上的互操作性,使圖書館行業(yè)成為萬維網(wǎng)上最重 要的語義數(shù)據(jù)提供者,并探索和尋求與其他相關(guān)領(lǐng)域的數(shù)據(jù)和應(yīng)用進(jìn)行協(xié)同的可 能性。孵化小組目前已完成了約50多個用例(Use Cases)的收集和編寫(14),內(nèi)容 涉及書目數(shù)據(jù)、規(guī)范控制、詞表發(fā)布、檔案和異構(gòu)數(shù)據(jù)、參考引文、數(shù)字對象、 資源集合、社會性應(yīng)用等各個方面,還在不斷增加,涵蓋非常廣泛,幾乎包括了 圖書館行業(yè)數(shù)據(jù)可能想到的所有方面。盡管已經(jīng)取得了不小的進(jìn)展,圖書館界應(yīng)用關(guān)聯(lián)數(shù)據(jù)的困難也十分明顯,主 要表現(xiàn)在以下4個方面:一是缺乏可資利用的、公認(rèn)的術(shù)語詞表,各類KOS、本 體尚未

35、經(jīng)過嚴(yán)格的編碼應(yīng)用檢驗,而且目前也不夠用、不統(tǒng)一;二是缺乏成熟的 方法和可以立即上手的工具;三是數(shù)據(jù)的版權(quán)屬性不明朗,有時可能有法律風(fēng)險; 四是做這個事情還是缺乏經(jīng)驗,需求掌握也不是很充分,為什么做?有什么用? 能不能達(dá)到預(yù)期目的?還都是未知數(shù)。6國內(nèi)的研究與應(yīng)用國內(nèi)最早引介關(guān)聯(lián)數(shù)據(jù),應(yīng)該是2008年12月在上海召開的“數(shù)字環(huán)境下圖 書館前沿問題研討班”上,劉煒?biāo)鞯摹罢Z義互操作與關(guān)聯(lián)數(shù)據(jù)”介紹(15),當(dāng) 時是為了宣傳次年在韓國召開的DC-2009國際元數(shù)據(jù)會議主題,希望國內(nèi)同行關(guān)注這一新的技術(shù)動向。美國著名圖書情報學(xué)家曾蕾教授在同一個會上所作的題為“術(shù)語注冊和網(wǎng)絡(luò)服務(wù)系統(tǒng)當(dāng)前技術(shù)和應(yīng)用”

36、(16)的報告,更為詳細(xì)地介紹了關(guān) 聯(lián)數(shù)據(jù)技術(shù)及其應(yīng)用現(xiàn)狀。隨后曾蕾教授前往中國國家圖書館和中國人民大學(xué)圖 書館,又作了兩場同題報告,傳播了正在國外興起的“關(guān)聯(lián)數(shù)據(jù)”研究和應(yīng)用。關(guān)聯(lián)數(shù)據(jù)與元數(shù)據(jù)具有天然的聯(lián)系,從某種程度上可以說關(guān)聯(lián)數(shù)據(jù)是元數(shù)據(jù) 語義表達(dá)和實現(xiàn)其功能需求的最佳方式,就像業(yè)界普遍認(rèn)為RDF是當(dāng)然的“元數(shù) 據(jù)格式”一樣,RDF作為一種數(shù)據(jù)表達(dá)方式(三元組),其在Web上開放發(fā)布的最 簡單便捷的形式,就是“關(guān)聯(lián)數(shù)據(jù)”的一整套被稱為“最佳實踐”的規(guī)范。盡管 這些說法可能不是非常嚴(yán)格準(zhǔn)確,但還是從某種程度上揭示了這些概念之間的關(guān) 系。DCMI的國際元數(shù)據(jù)年會從2008年柏林會議就有大量的

37、關(guān)聯(lián)數(shù)據(jù)討論,這時 已經(jīng)經(jīng)歷了國外2007年關(guān)聯(lián)數(shù)據(jù)的持續(xù)升溫。在美國雪城大學(xué)秦健教授的推薦 下,劉煒為現(xiàn)代圖書情報技術(shù)組織了一個DC-2008年會會議錄中有關(guān)語義網(wǎng) 應(yīng)用的翻譯文章專輯,其中有兩篇涉及關(guān)聯(lián)數(shù)據(jù),分別介紹了瑞典國家圖書館以 關(guān)聯(lián)數(shù)據(jù)形式發(fā)布書目數(shù)據(jù)2,以及美國國會圖書館主題標(biāo)目的關(guān)聯(lián)數(shù)據(jù)應(yīng)用 3。這兩個應(yīng)用可以說是圖書館行業(yè)在這一領(lǐng)域應(yīng)用的先驅(qū)和樣板。由武漢華中科技大學(xué)主辦的2009年“數(shù)字環(huán)境下圖書館前沿問題研討班” (17)又一次涉及了關(guān)聯(lián)數(shù)據(jù)主題。這次會議上由于有曾蕾教授的強(qiáng)烈推薦,引起 了大家對關(guān)聯(lián)數(shù)據(jù)的高度重視和強(qiáng)烈興趣,開始認(rèn)識到這是代表發(fā)展方向的一個 技術(shù)領(lǐng)域,將

38、對未來的網(wǎng)絡(luò)信息資源組織和應(yīng)用產(chǎn)生重大影響。這次會議上曾蕾 和劉煒分別作了 “關(guān)聯(lián)的圖書館數(shù)據(jù)”(18)和“關(guān)聯(lián)數(shù)據(jù):意義及其實現(xiàn)”(19) 的報告。2010年8月上海市圖書館學(xué)會在普陀區(qū)圖書館召開了一年一度的“圖書館 前沿技術(shù)論壇”,主題定為“關(guān)聯(lián)數(shù)據(jù)與書目數(shù)據(jù)的未來”(20),參加會議交流 的除了上海市在該領(lǐng)域從事研究開發(fā)的一些專業(yè)人員之外,遠(yuǎn)在大洋彼岸的曾蕾 教授也通過遠(yuǎn)程會議系統(tǒng)為會議作了第一個報告,會議特別邀請了新西蘭奧克蘭 大學(xué)圖書館的資深技術(shù)專家林海青先生、中國科技信息研究所的白海燕女士和嘉 興學(xué)院的黃田青先生,一共進(jìn)行了 8場專題報告(21),最后還進(jìn)行了討論和互動, 全國各地

39、約有近20位對關(guān)聯(lián)數(shù)據(jù)感興趣或正在從事研究的同行也參與了網(wǎng)絡(luò)直 播和交流。上海圖書館學(xué)會學(xué)術(shù)委員會主任范并思教授在開幕致辭和閉幕總結(jié)中 對這次會議給予了高度評價。從國內(nèi)見諸專業(yè)刊物的文章來看,關(guān)聯(lián)數(shù)據(jù)的研究尚不普及。除了上面提到 的兩篇翻譯文章之外,總共只有不超過10篇論文,其中有兩篇是綜述文章,黃 永文的綜述4主要側(cè)重圖書館應(yīng)用的角度,沈志宏、張曉林的綜述5則從技術(shù) 發(fā)展所提供的可能性角度,介紹得更為全面系統(tǒng)。其他文章也都較為詳盡地介紹了關(guān)聯(lián)數(shù)據(jù)技術(shù)的內(nèi)容和發(fā)展67以及國 外有關(guān)項目的應(yīng)用開發(fā)情況8,白海燕910和范煒、鄒慶的論文11涉及了 項目開發(fā)和技術(shù)實現(xiàn)。這些論文的作者單位也反映出國內(nèi)

40、對關(guān)聯(lián)數(shù)據(jù)感興趣的機(jī) 構(gòu)集中在中國科技信息研究所、中科院文獻(xiàn)情報中心等少數(shù)幾家。另外已經(jīng)有兩 篇學(xué)位論文涉及了這一主題1213。中國科技信息研究所是國內(nèi)較早跟蹤關(guān)聯(lián)數(shù)據(jù)技術(shù),并積極探索其應(yīng)用可能 性的單位,曾經(jīng)有多個項目與此有關(guān),最早的項目可以追溯到2008年在國家科 技圖書文獻(xiàn)中心立項的“NSTL聯(lián)合目錄的分層組織與關(guān)聯(lián)構(gòu)建”,該項目主要 探討了 FRBR在NSTL應(yīng)用的可能性,提出了 NSTL書目本體,并在DC-2009上發(fā) 表了一篇短文(掛圖Poster)。后來該所又立項了 “基于關(guān)聯(lián)數(shù)據(jù)的信息組織深 度序化”,并成功申請2010年度國家社科基金項目“圖書館資源組織語義化研 究”,全面研

41、究了關(guān)聯(lián)數(shù)據(jù)的實現(xiàn)技術(shù),并進(jìn)行了基本開發(fā)試驗。目前基于上述 成果又開展了資源整合和服務(wù)整合的研究開發(fā),分別立項了 “基于關(guān)聯(lián)數(shù)據(jù)的服 務(wù)融合與資源擴(kuò)展”和“基于DOI的科研資源整合研究”等項目,該所在十二五 規(guī)劃中也打算基于關(guān)聯(lián)數(shù)據(jù)技術(shù),全面調(diào)研關(guān)聯(lián)數(shù)據(jù)在NSTL服務(wù)系統(tǒng)中的應(yīng)用 場景,探討利用該技術(shù)進(jìn)行知識組織系統(tǒng)的構(gòu)建、知識關(guān)系抽取、海量文獻(xiàn)自動 標(biāo)引、檢索結(jié)果的擴(kuò)展、異類資源整合檢索、多維分面信息資源的組織與檢索、 數(shù)據(jù)融合與混搭等前沿領(lǐng)域應(yīng)用的可能性。7問題與展望關(guān)聯(lián)數(shù)據(jù)是一項與圖書情報工作密切相關(guān)的技術(shù),是互聯(lián)網(wǎng)發(fā)展到語義網(wǎng)時 代、提供對任何網(wǎng)上資源和數(shù)字對象進(jìn)行“編目”和“規(guī)范控制

42、”的基礎(chǔ)性技術(shù), 是數(shù)字圖書館進(jìn)行信息資源發(fā)布和服務(wù)的核心技術(shù)之一。可能囿于技術(shù)障礙,我 國圖書情報界還沒有充分認(rèn)識到這一點,甚至還沒有引起一些大型的、肩負(fù)指引 行業(yè)發(fā)展方向的機(jī)構(gòu)的充分重視,未能投入足夠的人力和資源進(jìn)行跟蹤研究和開 發(fā)試驗。目前僅有的一些研究由于缺乏必要的交流而很難達(dá)成一致理解,甚至無 法避免謬誤和彎路。關(guān)聯(lián)數(shù)據(jù)從技術(shù)上看是非常簡單的,但要應(yīng)用得好,必須要 有領(lǐng)域?qū)<?、?nèi)容管理專家和網(wǎng)絡(luò)應(yīng)用開發(fā)人員共同參與,仔細(xì)調(diào)研需求,同時 需要對于標(biāo)準(zhǔn)規(guī)范有深刻的理解,在模型和架構(gòu)方面達(dá)成一致,即使可以邊摸索 實踐邊服務(wù)推廣,也需要有一個基本的研究團(tuán)隊和交流環(huán)境,這些是制約目前國 內(nèi)關(guān)聯(lián)

43、數(shù)據(jù)研發(fā)和應(yīng)用的主要問題。希望通過本文的回顧、總結(jié)和呼吁,能夠使 大家認(rèn)識到關(guān)聯(lián)數(shù)據(jù)的價值、內(nèi)涵和意義,并引起一些相關(guān)機(jī)構(gòu)和專家的重視。注釋:注:這里的“參引-(dereference),意指“為了獲取引用資源的相關(guān)信 息,在萬維網(wǎng)上查找URI的過程”。下同F(xiàn)OAF是個人信息描述的一種RDF格式,參見: HYPERLINK /%e3%80%82 /。示意圖來自BBC關(guān)聯(lián)數(shù)據(jù)項目報告,原圖地址: HYPERLINK http:/www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/slash30 http:/www.bbc.co.uk/bl

44、ogs/radiolabs/s5/linked-data/ui/images/slash30 3conneg.png原圖來自參考文獻(xiàn)14,地址: HYPERLINK http:/www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/deref-on http:/www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/deref-on t-uri-rdf.png示意圖來自BBC關(guān)聯(lián)數(shù)據(jù)項目報告,原圖地址: HYPERLINK http:/www.bbc.co.uk/blogs/radiola

45、bs/s5/linkeddata/ui/images/hashconn http:/www.bbc.co.uk/blogs/radiolabs/s5/linkeddata/ui/images/hashconn eg.png參見:/參見:/參見:/參見:Chris Bizer, Richard Cyganiak, Tom Heath. How to Publish Linked Data on the Web.2011-01-18. HYPERLINK http:/www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ http:/www4.wiwiss.fu-berlin.de/bizer/pub

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論