




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
關聯(lián)數(shù)據(jù)互聯(lián)技術研究綜述
1相關數(shù)據(jù)的概念和應用1.1關聯(lián)數(shù)據(jù)的含義t.berrys-le在2006年提出了“關聯(lián)數(shù)據(jù)”的概念,并在關聯(lián)數(shù)據(jù)的內(nèi)容上制定了“四種基本原則”。使用uri來識別事物(使用uri可以使用名稱來識別事物)。使用httpuri可使用該標記(使用httpuri可以使用此標記)。如果有人訪問此標記,他們會提供有用的信息(使用列表中的特定信息和應用程序信息)。盡量提供相關信息,讓人們找到更多的東西(需要額外的聯(lián)系信息和其他聯(lián)系信息)。從技術角度來講,關聯(lián)數(shù)據(jù)可以理解成一組最佳實踐的集合,它采用RDF(resourcedescriptionframework)數(shù)據(jù)模型,利用URI(統(tǒng)一資源標識符)命名數(shù)據(jù)實體,來發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時強調(diào)數(shù)據(jù)的相互關聯(lián)、相互聯(lián)系以及有益于人機理解的語境信息。Wikipedia認為,關聯(lián)數(shù)據(jù)用來指代一組采用URI和RDF來實現(xiàn)語義網(wǎng)上的數(shù)據(jù)、信息及知識的公開、共享與聯(lián)結(jié)的最佳實踐。2007年5月,W3C的關聯(lián)開放數(shù)據(jù)(linkingopendata,LOD)運動正式啟動,該運動提倡將Web上的開放數(shù)據(jù)源以RDF的方式發(fā)布出來,同時生成數(shù)據(jù)源之間的RDF鏈接,以供關聯(lián)數(shù)據(jù)瀏覽器、搜索引擎以及更高級的應用程序使用。很快關聯(lián)數(shù)據(jù)概念就流傳開來,現(xiàn)在已成為互聯(lián)網(wǎng)的熱門研究領域,從2008年起在年度互聯(lián)網(wǎng)大會(WWWConference)上都舉行關于LinkedDataontheWeb(LDOW)的專門會議。另外在ISWC(InternationalSemanticwebConference)、DIST(DataIntegrationthroughSemanticTechnology)大會上也經(jīng)常召開專門的會議。2012年4月在法國里昂召開的WWW2012大會上,就包含了LDOW2012工作組會議,討論的話題涉及關聯(lián)數(shù)據(jù)的自動關聯(lián)、分布式異構(gòu)性以及互操作。在LOD項目啟動后短短的三年中,越來越多的數(shù)據(jù)擁有者將他們的數(shù)據(jù)以關聯(lián)數(shù)據(jù)的形式發(fā)布到Web上。截至2011年9月,LOD已收錄295個數(shù)據(jù)集(見圖1)。按數(shù)據(jù)涉及的主題領域可分為:多媒體(如BBC、CNET、ThomsonReuters);文獻出版物(如DBLP、CiteSeer、EPrints、SWC);生命科學(如UniPort、PubMed、CAS、Bio2RDF);地理數(shù)據(jù)(如GeoNames、LinkedGeoData);社交網(wǎng)絡(如Flickr、FaceBook)以及跨領域的數(shù)據(jù)(如DBPedia、Freebase、YAGO、UMBEL、OpenCyc)。1.2lod數(shù)據(jù)集的互聯(lián)互通從關聯(lián)數(shù)據(jù)“四項基本原則”可以看出,關聯(lián)數(shù)據(jù)的四大基本要素為:URI、HTTPURI、RDF以及RDF鏈接(RDFlink)。RDF鏈接在Web數(shù)據(jù)的發(fā)現(xiàn)中發(fā)揮了重要的作用。根據(jù)梅特卡夫定律(Metcalfe’slaw):網(wǎng)絡結(jié)點之間的連接越多,網(wǎng)絡的價值則會越大,因此這些關聯(lián)本身就能產(chǎn)生價值。作為關聯(lián)數(shù)據(jù)的實踐項目,W3C的關聯(lián)開放數(shù)據(jù)運動也強調(diào)了RDF鏈接的重要作用:RDF鏈接可以讓用戶通過語義網(wǎng)瀏覽器(semanticWebbrowser)從一個數(shù)據(jù)源中的某個數(shù)據(jù)項導航到另外一個數(shù)據(jù)源中相關的數(shù)據(jù)項中。RDF鏈接同時也可以為語義網(wǎng)搜索引擎所使用,從而為抓取到的數(shù)據(jù)提供完善的檢索和查詢功能。另外,由于查詢結(jié)果是結(jié)構(gòu)化的數(shù)據(jù)而非指向HTML頁面的鏈接,它們能夠被其他的應用程序使用。然而,從2011年9月LOD收錄的情況來看,295個數(shù)據(jù)集中包含了310億條RDF三元組(RDFtriples),其中包含有5億條RDF鏈接(一個RDF鏈接本身就是一個RDF三元組)。表1顯示出LOD數(shù)據(jù)集在不同領域中的分布情況。從表1中可以看出,RDF鏈接在RDF三元組中所占的比重還不到1.6%,這種弱關聯(lián)性遠遠不足以支持高級的知識關聯(lián)發(fā)現(xiàn)。在以上背景下,關聯(lián)數(shù)據(jù)的互聯(lián)(interlinking),即建立跨數(shù)據(jù)集的數(shù)據(jù)關聯(lián),其方法和技術的研究成為近年來熱點話題。在LDOW2010(WWW2010WorkshoponLinkedDataontheWeb)會上,數(shù)據(jù)互聯(lián)成為會議的一大專題(其他的專題包括關聯(lián)數(shù)據(jù)發(fā)布、基礎設施與架構(gòu)、關聯(lián)數(shù)據(jù)應用等)。另外,由COLD2010(InternationalWorkshoponConsumingLinkedData)發(fā)布的幾大開放問題中,居于首位的就是關聯(lián)數(shù)據(jù)的互聯(lián)算法(interlinkingalgorithm),其次是溯源與信任、數(shù)據(jù)集動力學、用戶界面、分布式查詢、評估(見圖2)。此外,在LDOW2012會議的16個報告中,有三篇文獻都涉及到關聯(lián)發(fā)現(xiàn)的話題,分別介紹有聲電臺檔案的自動互聯(lián)、智能城市數(shù)據(jù)的互聯(lián)、基于互聯(lián)視角的數(shù)據(jù)網(wǎng)絡的交互技術、基于VOID對互聯(lián)數(shù)據(jù)集的查詢等。在COLD2011會議中,A.Schultz等推出了一款集成化關聯(lián)發(fā)現(xiàn)與集成框架LDIF(LinkedDataIntegrationFramework)。在WWW2012會議上,A.Schultz又介紹了LDIF的新版本。與國際上關聯(lián)數(shù)據(jù)的研究進展相比,從見諸專業(yè)刊物的文章來看,關聯(lián)數(shù)據(jù)在國內(nèi)的研究尚不普及,并且僅局限于圖書館情報領域,還未引起計算機領域、數(shù)據(jù)庫領域的廣泛重視。基于此背景,本文以關聯(lián)數(shù)據(jù)互聯(lián)技術為研究對象,分別從應用實例、方法、框架三個方面闡述其研究現(xiàn)狀。2跨數(shù)據(jù)集的數(shù)據(jù)互聯(lián)作為全球第一個關聯(lián)數(shù)據(jù)化的聯(lián)合目錄,瑞典聯(lián)合目錄(LIBRIS,http://libris.kb.se)可以作為圖書館屆關聯(lián)數(shù)據(jù)互聯(lián)的示范應用。LIBRIS自2008年起,發(fā)布了來自于170余個成員館的600萬條以上書目記錄與25萬條規(guī)范文檔記錄的RDF記錄,此外還發(fā)布了規(guī)范記錄與書目記錄以及規(guī)范記錄之間的關聯(lián),甚至包含國會圖書館主題詞表數(shù)據(jù)的關聯(lián),見圖3(圖片來源:http://blog.libris.kb.se/semweb/)。此前,在DC-2008年會上,P.Miller的Keynotes探討了圖書館界在語義Web中可以承擔的角色,并專門介紹了美國國會圖書館將其主題表(LCSH)以SKOS編碼的項目()。從LIBRIS到LCSH.info,是一個典型的跨數(shù)據(jù)集的數(shù)據(jù)互聯(lián)應用。在媒體領域,LinkedMDB是一個比較實際的跨數(shù)據(jù)集數(shù)據(jù)互聯(lián)的應用實例,LinkedMDB實現(xiàn)了與其他LOD數(shù)據(jù)集的互聯(lián),包括DBpedia/YAGO、Geonames、FlickrWrapper、RDFBookMashup、Musicbrainz、R等。這種關聯(lián)效果見圖4。LinkedMDB包含實體233103項,指向其他LOD數(shù)據(jù)的關聯(lián)數(shù)為162199項,關聯(lián)數(shù)目統(tǒng)計見表2。在生命科學領域,數(shù)據(jù)互聯(lián)的應用較多。如:DiseasomeMap應用整合了不同生命科學的數(shù)據(jù)源,以關聯(lián)數(shù)據(jù)的形式發(fā)布了4300個紊亂和疾病的基因,并構(gòu)建了一個紊亂基因關系網(wǎng)絡。LinkedLifeData整合了UniPort、PubMed、EntrezGene等20余個數(shù)據(jù)源,并據(jù)此提供了關聯(lián)式的檢索和瀏覽服務。印第安納大學的DongXiao和DingYing等開發(fā)了Chem2Bio2RDFDashboard,該系統(tǒng)集成了化學、生物、藥物領域的關聯(lián)數(shù)據(jù),用以發(fā)現(xiàn)兩個實體或概念之間的路徑。美國馬里蘭大學和委內(nèi)瑞拉西蒙玻利瓦爾大學的M.E.Vidal和L.Raschid等共同開發(fā)了BioNav框架,用以發(fā)現(xiàn)藥物和疾病之間的關系。3關聯(lián)數(shù)據(jù)的生成在關聯(lián)數(shù)據(jù)互聯(lián)方法和算法方面,有一部分研究關注于如何在關聯(lián)開放數(shù)據(jù)環(huán)境下通過一些自動和半自動的方法來創(chuàng)建數(shù)據(jù)之間的關聯(lián)。白海燕等將關聯(lián)數(shù)據(jù)之間的關聯(lián)構(gòu)建概括為映射關聯(lián)(owl:sameAs)和非映射關聯(lián),并以書目數(shù)據(jù)關系為例介紹基于規(guī)則的關聯(lián)構(gòu)建方法。作為關聯(lián)數(shù)據(jù)發(fā)布的權(quán)威教程,C.Bizer等提出,關聯(lián)的創(chuàng)建可以采用兩種算法:基于模式(pattern)的算法以及基于屬性的復雜算法。3.1關于冷血克氏圖書的特性該算法比較簡單,適用于擁有唯一標識符的資源對象,如DBPedia包含有《哈利·波特與混血王子》圖書的RDF描述,并記錄該圖書的ISBN編號為0747581088,同時由于RDFBookMashup采用了形如htt3.2建立地理位置映射該算法適用于沒有唯一標識符的資源對象,如針對某個地理位置,可以采取涉及該位置的文章標題、經(jīng)緯度、國家、行政區(qū)劃、人口等屬性信息,建立Dbpedia與Geonames之間的地理位置的映射。Y.Raimond等結(jié)合音樂數(shù)據(jù)集,介紹了自動創(chuàng)建關聯(lián)的兩種途徑:基于實體的文本映射(又分為簡單文本查找、擴展文本查找)及基于RDF圖形相似度計算的映射。3.2.1增強資源要素限定該方法又分成簡單文本查找和擴展文本查找方法。簡單文本查找可通過遍歷式匹配或者SPARQLWHERE語句來實現(xiàn),擴展文本查找則借用分類、分面、類型特征、屬性特征等進一步對資源進行限定。作為例子,以下代碼表示通過SPARQL語句查詢LIBRIS的規(guī)范文檔數(shù)據(jù)集,來獲取關于WilliamGibson的規(guī)范記錄:3.2.2異構(gòu)模式下的關聯(lián)創(chuàng)建技術RDF圖形相似度計算相對比較復雜,以圖5為例,計算RDF圖形的相似度可以分解成如下三個步驟:·標注RDF圖形中所有的結(jié)點,如表3所示:·計算每個結(jié)點的相似度,計算結(jié)果如表4所示:·根據(jù)結(jié)點的相似度,計算圖的相似度,如表5所示:鄧蘭蘭等針對同構(gòu)和異構(gòu)模式下的關聯(lián)關系創(chuàng)建技術作了詳細的綜述。同構(gòu)模式下的關聯(lián)創(chuàng)建方法包括單一方法(屬性值相似度算法、圖形相似度算法等)、組合方法(基本算法聚合、分類模型等),異構(gòu)模式下的關聯(lián)創(chuàng)建的主要策略則是先建立異構(gòu)數(shù)據(jù)之間的模式映射,然后再運用同構(gòu)方法來創(chuàng)建實例之間的關聯(lián)。此外,A.Nikolov等人介紹了一種通過聚類算法推導出模式級別關聯(lián)的方法。M.Rowe介紹了如何生成Facebook與Twitter和M之間的鏈接??梢钥闯?以上方法最終會涉及到屬性文本的相似度算法。目前針對屬性相似度計算的研究比較成熟:字符串相似度如jaro、jaroWinkler、qGram、概念距離、levenshtein距離、Jaccard、Dice等算法。此外,還有基于TF-IDF及向量空間模型的文檔相似度算法、字符串集合相似度算法等。4關于相關性的研究4.1基于相似度算法的語義連接發(fā)現(xiàn)框架由于數(shù)據(jù)集互聯(lián)的過程極其復雜,人們開始研究適用于關聯(lián)數(shù)據(jù)互聯(lián)的框架,從而實現(xiàn)關聯(lián)發(fā)現(xiàn)、關聯(lián)集成任務的自動化和流程化。首先值得一提的是基于規(guī)則的關聯(lián)發(fā)現(xiàn)框架SILK,SILK允許用戶制定SILK-LSL(SILKLinkSpecificationLanguage)規(guī)則文件,并藉此自動生成出不同數(shù)據(jù)集之間的實例級的鏈接。SILK不僅能夠生成數(shù)據(jù)之間的owl:sameAs關聯(lián),也可以生成其他類型的關聯(lián),如:DBPedia電影與LinkedMDB導演之間的dbpedia:director關聯(lián)。原理上,SILK主要通過給定的兩個數(shù)據(jù)集中數(shù)據(jù)的屬性相似度來計算它們之間的關聯(lián)關系。SILK-LSL支持的相似度算法包括Jaro距離、Jaro-Winkler、Levenshtein算法、q-grams文本相似性計算、文本等價性、數(shù)值距離、日期距離等算法。最新版本的SILK推出了SILKworkbench,允許用戶通過圖形化的界面在線完成SILK-LSL配置的定義,并啟動關聯(lián)發(fā)現(xiàn)的任務。SILKworkbench中的LinkageRuleEditor(關聯(lián)規(guī)則編輯器)如圖6所示:類似地,O.Hassanzadeh等提出了一款完全針對關系型數(shù)據(jù)的語義連接發(fā)現(xiàn)框架LinQuer(LinkageQueryWriter),并且同時提出了一套聲明式語言LinQL。A.C.N.Ngomo等根據(jù)三角形不等式,提出了兩種高效的近似距離計算方法,并集成多種比對算法構(gòu)建了關聯(lián)框架LIMES(LinkDiscoveryFrameworkforMetricSpaces)。RDF-AI是另外一款基于用戶配置的RDF數(shù)據(jù)集的融合和互聯(lián)框架。RDF-AI接受兩個RDF數(shù)據(jù)集作為輸入,產(chǎn)生由兩個數(shù)據(jù)集融合形成的新數(shù)據(jù)集,或者產(chǎn)生它們比對的結(jié)果數(shù)據(jù)集。如圖7所示,RDF-AI的架構(gòu)包括5個相對獨立的模塊:預處理、匹配、融合、互聯(lián)、后處理。RDF-AI提供了靈活的配置接口,允許用戶定義融合任務的輸入和輸出。通過對AKTEprints數(shù)據(jù)集中的314條記錄和Rexa數(shù)據(jù)集中的2103條記錄進行關聯(lián),證明通過采取合適的預處理,RDF-AI關聯(lián)的正確率高達95.9%,這比KnoFuss針對同樣的數(shù)據(jù)集得到的正確率(92%)還要理想。數(shù)據(jù)互聯(lián)往往不是一個孤立的過程,它通常會伴隨著數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)融合等任務。基于該思路,LDIF為用戶提供了一個關聯(lián)數(shù)據(jù)集成處理框架,該框架有效集成了如LDSpider、R2R、SILK、Sieve由于中文處理的特殊要求和資源語義化現(xiàn)狀的限制,上述通用的發(fā)現(xiàn)框架和算法無法在國內(nèi)的項目中直接應用,但它們對關聯(lián)開放數(shù)據(jù)環(huán)境下中文語種的資源間的關聯(lián)發(fā)現(xiàn)研究無疑有著極大的借鑒意義。如陶俊等重點研究了RDF映射語言R2R,并基于R2R提出了面向LOD的關聯(lián)系統(tǒng)VocaR。4.2對比結(jié)果及分析值得一提的是,S.Wolger等針對目前流行的一些關聯(lián)發(fā)現(xiàn)工具和框架進行了綜述與對比,調(diào)研對象涉及RDF-AI、SILK、Knofuss、LinQuer、InterlinkingDistributedSocialGraphs、GuessWhat、PoolParty、GrappleUserModelingFramework(GUMPF)、CaMiCatzee、ExpLOD、GNAT這11個工具或系統(tǒng),重點針對自動化程度、人工參與、適用領域、匹配方法、采用本體、輸入形式、輸出形式、后處理、數(shù)據(jù)訪問方式這9個方面進行了比較,本文予以摘錄并整理,形成表6。可以看出,各種關聯(lián)發(fā)現(xiàn)框架都實現(xiàn)了自動、半自動的發(fā)現(xiàn)方式,在進行RDF資源匹配的時候也分別采取了不同的匹配方法。作為補充,本文從支持理論、任務覆蓋面、可配置性以及任務流水線這4個方面針對SILK、RDF-AI、LinQuer、LIMES、LDIF等5類流行的框架做出了二次比較(見表7)。基于以上對比,本文認為,目前流行的這些框架尚存在著如下不足:·支持的任務類型單一。就目前的調(diào)研情況來看,大部分關聯(lián)發(fā)現(xiàn)框架僅關注其中某些任務,如:SILK、RDF-AI以及LIMES,都只是關注于如何實現(xiàn)資源比對(matching),關注于其中的比對規(guī)則的表達以及比對算法的優(yōu)化策略?!と狈α魉€機制,不支持多次、多路關聯(lián)發(fā)現(xiàn)過程的串接。以根據(jù)科研人員發(fā)現(xiàn)科學數(shù)據(jù)和科技文獻的關聯(lián)路徑為例,它需要分解成建立“人員——機構(gòu)”、“文獻——人員”、“數(shù)據(jù)——人員”等多個任務,這些任務之間如何銜接?關聯(lián)數(shù)據(jù)集成框架LDIF顯然注意到了這一點,將LDSpider、R2R、SILK、Sieve等多個工具引入框架,但由于它沒有采用統(tǒng)一的描述理論和配置語言,多個過程之間還存在著明顯的隔斷,用戶仍需要熟悉不同的軟件工具,并分別編寫遵循不同語法的任務腳本?!と狈θ值囊?guī)劃和控制能力。在一個完整的關聯(lián)數(shù)據(jù)網(wǎng)絡中,發(fā)現(xiàn)兩個資源之間的關聯(lián),從時間上往往需要歷經(jīng)很長的計算過程,從空間上往往需要涉及到多類資源結(jié)點,甚至覆蓋至整個關聯(lián)數(shù)據(jù)網(wǎng)絡。因此,關聯(lián)發(fā)現(xiàn)往往需要提前進行多步、多路發(fā)現(xiàn)路徑的規(guī)劃,而目前的框架明顯缺乏全局規(guī)劃(手動或者自動的)的能力。另外對運行過程中發(fā)生的耗時、失敗等情況,目前的框架也缺乏有效的控制能力。5關聯(lián)數(shù)據(jù)的互聯(lián)方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人挖機租賃合同范本
- 借款合同范例房產(chǎn)
- 倉儲合同范本標
- 三基護理考試模擬題+答案
- 電子技術及實訓練習題+答案
- 上半年房地產(chǎn)銷售工作總結(jié)
- 中醫(yī)康復治療技術試題庫+參考答案
- 制作書本合同范本
- 中醫(yī)診所勞務合同范本
- 一本好書讓我改變自己超越自己演講稿
- 合同 水電押金條款
- 開題報告:重大突發(fā)事件中大學生志愿服務行為的認知機制及引導策略研究
- 高效農(nóng)業(yè)種植自動化解決方案
- 2023年工程質(zhì)量監(jiān)督人員考試真題模擬匯編(共957題)
- 2025中考英語作文19個熱點話題及范文
- 基于人工智能的農(nóng)產(chǎn)品追溯系統(tǒng)解決方案
- 鐵路典型事故案例分析
- 米伊林《十萬個為什么》導讀課課件
- 五年(2020-2024)高考歷史真題分類匯編(山東)專題12 世界殖民體系的形成、瓦解與亞非拉民族民主運動(原卷版)
- 《中外城市建設史》考試復習題庫(附答案)
- 《S品牌管理有限公司銷售人員績效考核問題及優(yōu)化建議(定量論文)》11000字
評論
0/150
提交評論