




已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
口 東南大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。 盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過 的研究成果,也不包含為獲得東南大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我 一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。 研究生簽名:么隆畢日期:玉墜j 2 耳l 東南大學(xué)學(xué)位論文使用授權(quán)聲明 東南大學(xué)、中國科學(xué)技術(shù)信息研究所、國家圖書館有權(quán)保留本人所送交學(xué)位論文的復(fù)印 件和電子文檔,可以采用影印、縮印或其他復(fù)制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì) 論文的內(nèi)容相一致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱,可以公布( 包括 以電子信息形式刊登) 論文的全部內(nèi)容或中、英文摘要等部分內(nèi)容。論文的公布( 包括以電 子信息形式刊登) 授權(quán)東南大學(xué)研究生院辦理???研究生簽名 導(dǎo)師簽鼉汐日期:刪 摘要 摘要 為了實(shí)現(xiàn)不同組織和應(yīng)用程序之間的數(shù)據(jù)集成和共享,萬維網(wǎng)聯(lián)盟( w 3 c ) 提出了語 義w e b 的設(shè)想。隨著語義w e b 的發(fā)展,很多領(lǐng)域都出現(xiàn)了被人們普遍認(rèn)可的本體,比如社 交領(lǐng)域的f o a f 本體。因此在數(shù)據(jù)發(fā)布時,人們能夠使用共同的統(tǒng)一資源標(biāo)識符( u ) 來 標(biāo)識本體中的概念和屬性。然而,在實(shí)例數(shù)據(jù)層,由于語義w e b 的分布式特性,不同的數(shù) 據(jù)源使用不同的u r i 來標(biāo)識相同的現(xiàn)實(shí)世界對象的情況大量存在。這種不同的u r i 但指稱 著相同對象的現(xiàn)象稱為對象共指,導(dǎo)致了語義w e b 數(shù)據(jù)分散不容易集成。為了構(gòu)建更好的 數(shù)據(jù)網(wǎng)絡(luò)和實(shí)現(xiàn)數(shù)據(jù)源之間的互操作性,迫切需要有效的方法來識別出這些共指的u r i 。 目前,在鏈接數(shù)據(jù)( l i n k e dd a t a ) 的驅(qū)動下,針對對象共指的研究已經(jīng)引起了語義w e b 社區(qū)的廣泛關(guān)注。本文針對語義w e b 環(huán)境下的對象共指問題,從兩個不同的角度提出了兩 種共指u r i 的識別方法:面向?qū)嵗龜?shù)據(jù)集的共指識別方法和大規(guī)模的語義w e b 共指識別方 法。前者從包含實(shí)例對象的數(shù)據(jù)集出發(fā),綜合利用對象本身的信息和對象之間的語義關(guān)系, 即首先根據(jù)實(shí)例對象的文本信息計(jì)算初始相似度,然后再利用實(shí)例之間的語義關(guān)系構(gòu)建候選 實(shí)例對的依賴關(guān)系圖,進(jìn)而對初始相似度進(jìn)行精化,最終識別出數(shù)據(jù)集中的共指u r i 。后者 則是從整個語義w e b 的角度出發(fā),充分利用語義w e b 數(shù)據(jù)的特征,通過分析具有特定性質(zhì) 的語義屬性導(dǎo)出u r i 之間的語義等價(jià)關(guān)系,然后通過迭代的方式識別出語義w e b 中大規(guī)模 的共指u r i 的集合。 基于以上的方法,本文設(shè)計(jì)與實(shí)現(xiàn)了一個共指u r i 識別的在線系統(tǒng)o b j e c t c o r e f o 此外, 設(shè)計(jì)相關(guān)實(shí)驗(yàn)對識別方法的效果進(jìn)行評估,結(jié)果表明本文提出的識別方法在實(shí)驗(yàn)中是行之有 效的。 關(guān)鍵詞:語義w e b ,對象共指,共指識別,u r i 別名,實(shí)例匹配,數(shù)據(jù)集成 a b s t r a c t a b s t r a c t w i 廿lt h ea i mo fa c t u a l i z i n gd a t ai n t e g r a t i o na n ds h a r i n ga c r o s sd i f f e r e n to r g a n i z a t i o n sa n d a p p l i c a t i o n s t h es e m a n t i cw e bh a sb e e nr a i s e db yt h ew o r l dw i d ew e bc o n s o r t i u m ( w 3 c ) w i t h t h ed e v e l o p m e n to ft h es e m a n t i cw e b ,an u m b e ro fd o m i n a n to n t o l o g i e sh a v ee m e r g e df o r s p e c i f i cd o m a i n s ,s u c ha st h ef r i e n do faf r i e n d ( f o a f ) o n t o l o g yf o rs o c i a lc o m m u n i t y t h e r e f o r e i ti sc a p a b l eo fu s i n gc o m m o nu n i f i e dr e s o u r c ei d e n t i f i e r ( u r i ) f o rt h eo n t o l o g y c l a s s e sa n dp r o p e r t i e sw h i l ep u b l i s h i n gd a t a o nt h ei n s t a n c ed a t a1 e v e l h o w e v e r d u et ot h e d e c e n t r a l i z e dn a t u r eo ft h es e m a n t i cw e b i tf r e q u e n t l yh a p p e n st h a td i f f e r e n tu 砌sf r o mv a r i o u s s o u r c e sa r er e f e r r e dt ot h es a m er e a lw o r l de n t i t i e s t h eo b j e c t si d e n t i f i e db ym u l t i p l eu r i so ft h e s a m ee n t i t ya r en a m e da sc o r e f e r e n c i n go b j e c t s w h i c hl e a dt od a t af r a g m e n t a t i o na n dc a n tb e e a s i l yi n t e g r a t e d i no r d e rt ob u i l db e t t e rd a t aw e ba n da c h i e v ei n t e r o p e r a b i l i t yb e t w e e nd a t a s o u r c e s ,i ti sr a t h e ru r g e n tt or e c o g n i z et h e s ec o r e f e r e n c i n go b j e c t s t od a t e ,d r i v e nb yt h el i n k e dd a t ai n i t i a t i v e ,s t u d i e so no b j e c tc o r e f e r e n c eh a v ea t t r a c t e d c o n s i d e r a b l ea t t e n t i o nf r o mt h es e m a n t i cw e bc o m m u n i t y i nt h i sp a p e rw ep r e s e n tt w od i f f e r e n t a p p r o a c h e sa g a i n s tt h i sp r o b l e m ,i n c l u d i n ga na p p r o a c ho fo b j e c tc o r e f e r e n c er e c o g n i t i o nf o r i n s t a n c ed a t a s e t sa n da na p p r o a c ho fl a r g es c a l eo b j e c tc o r e f e r e n e er e c o g n i t i o no nt h es e m a n t i c w e b t h ef o r m e ri sc o n c e m e da b o u tt h ed a t a s e t sc o m p o s e do fi n s t a n c eo b i e c t s a n di sb a s e do n t h eu t i l i z a t i o no fb o t ht h ea t t r i b u t e sa n dt h es e m a n t i cr e l a t i o n sb e t w e e nt h eo b j e c t st or e c o g n i z et h e c o r e f e r e n c i n go b i e c t sc o n t a i n e di nt h ed a t a s e t s s p e c i f i c a l l y i tf i r s tc o m p u t e st h ei n i t i a ls i m i l a r i t y b a s e do nt h et e x t u a li n f o r m a t i o no ft h eo b j e c t s a n dt h e nad e p e n d e n c eg r a p ho fc a n d i d a t eo b j e c t p a i r sw a sc o n s t r u c t e db a s e do nt h es e m a n t i cr e l a t i o n sb e t w e e n0 b j e c t st or e f i n e t h es i m i l a r i t y i t e r a t i v e l y t h el a t t e ri sc o n c e r n e da b o u to b j e c tc o r e f e r e n c eo nt h ew h o l es e m a n t i cw e b i tt a k e s f u l la d v a n t a g eo ft h ec h a r a c t e r i s t i c so fd a t ao nt h es e m a n t i cw e b s p e c i f i c a l l y w ee x p l o i t p r o p e r t i e sw i t hs t a n d a r ds e m a n t i c st od e r i v et h ee q u i v a l e n c er e l a t i o n sb e t w e e no b j e c t sa n dt h u s i t e r a t i v e l yr e c o g n i z et h el a r g es c a l eo b j e c tc o r e f e r e n c ec o l l e c t i o n s b a s e do nt h ea b o v ea p p r o a c h e s ,w eh a v ed e s i g n e da n di m p l e m e n t e da no n l i n es y s t e mc a l l e d o b j e c t c o r e f , w h i c hi su s e dt op e r f o r mo b j e c tc o r e f e r e n c er e c o g n i t i o nf o rt h es e m a n t i cw e b f i n a l l y ,w ed e m o n s t r a t et h ef e a s i b i l i t yo fo u ra p p r o a c hv i ae x p e r i m e n t a lr e s u l t s k e yw o r d s :s e m a n t i cw e b ,o b j e c tc o r e f e r e n c e ,c o r e f e r e n c er e c o g n i t i o n , u r ia l i a s e s ,i n s t a n c e m a t c h i n g , d a t ai n t e g r a t i o n i l 目錄 目錄 摘要i a b s t r a c t i i 目勇匙i i i 第一章緒論1 1 1 研究背景l(fā) 1 2 問題描述。2 1 3 研究內(nèi)容。4 1 4 論文組織結(jié)構(gòu)。4 第二章相關(guān)工作。5 2 1 本體及本體匹配5 2 2 實(shí)例匹配及對象共指6 2 2 1 實(shí)例匹配7 2 2 2 對象共指7 2 3 記錄鏈接及記錄去重8 第三章一種面向?qū)嵗龜?shù)據(jù)集的共指識別方法。l o 3 1 概述。1 0 3 2 利用對象間語義關(guān)系的共指識別方法11 3 2 1 基于文本的相似度計(jì)算1 2 3 2 2 基于語義關(guān)系構(gòu)建依賴圖。1 3 3 2 3 基于語義關(guān)系的相似度計(jì)算1 4 3 2 4 結(jié)果生成1 5 3 3 小結(jié)一1 5 第四章一種大規(guī)模的語義w e b 共指識別方法1 6 4 1 概述l6 4 2 基本思想16 4 3 利用特定性質(zhì)語義屬性的共指識別方法1 7 4 3 1 共指u r i 迭代識別算法17 4 3 2 利用i f p 的識別過程1 9 4 3 - 3 利用o w l :s a m e a s 的識別過程。2 0 4 4 ,j 、結(jié):1 1 第五章o b j e c t c o r e f 的設(shè)計(jì)與實(shí)現(xiàn)2 2 5 1 概述。2 2 5 2 概要設(shè)計(jì)2 2 5 2 1 系統(tǒng)體系結(jié)構(gòu)2 2 5 2 2 功能模塊2 3 5 3 具體實(shí)現(xiàn)2 4 5 3 1 查詢處理模塊的實(shí)現(xiàn)2 4 5 3 2 結(jié)果生成模塊的實(shí)現(xiàn)2 5 5 4 小結(jié)一2 7 第六章實(shí)驗(yàn)結(jié)果與分析2 8 6 1 評估方法與測試用例2 8 6 1 1 評估方法2 8 i 第七章總結(jié)與展望。3 5 7 1 工作總結(jié)。3 5 7 2 展望3 5 致謝3 7 參考文獻(xiàn)。3 8 i v 第一章緒論 1 1 研究背景 第一章緒論 在過去的二十年時間里,萬維網(wǎng)( w o r l dw i d ew e b ,簡稱w e b ) 的出現(xiàn)和蓬勃發(fā)展改 變了人們的生活方式,人們利用w e b 來瀏覽新聞、觀看電視節(jié)目、購物和訂機(jī)票,傳統(tǒng)的 節(jié)日活動也越來越多地受到w e b 的影響。萬維網(wǎng)是建立在i n t e m e t 上的信息系統(tǒng),它允許用 戶在一臺計(jì)算機(jī)上訪問另一臺計(jì)算機(jī)的信息,包括文字、圖片、聲音、軟件等,這些信息被 稱作“資源”。因此我們可以把w e b 看成一個豐富的資源倉庫,并且通過一個全局的u r l 來標(biāo)識其中的資源,使得人們可以通過超鏈接來訪問資源。 w e b 提供的資源信息相當(dāng)豐富,幾乎涵蓋所有的知識領(lǐng)域,但是w e b 上資源的龐雜和 分散化,使得人們面對如此巨大的信息量而不知所措,帶來了很多方面的問題。比如說,在 信息檢索方面,海量的信息一方面為人們找到自己所需信息提供可能,另一方面也為準(zhǔn)確找 到所需信息提出了挑戰(zhàn),因?yàn)闀霈F(xiàn)大量冗余甚至無關(guān)的信息。目前通用的查詢策略是將用 戶發(fā)出的查詢分解為若干關(guān)鍵字,根據(jù)關(guān)鍵字計(jì)算w e b 上文檔和用戶的查詢請求的匹配程 度,從而返回若干匹配的文檔。然而簡單的匹配不能解決同名異義和異名同義問題,導(dǎo)致的 查詢的結(jié)果往往不盡人意。如果機(jī)器能夠理解用戶的查詢和文檔的內(nèi)容,并且w e b 上的資 源互相聯(lián)結(jié)成一個巨大的數(shù)據(jù)庫,機(jī)器就可以方便的按照用戶的需求自動處理和集成網(wǎng)上可 用的信息,從而更好的滿足用戶的需求。 此外,目前我們所使用的萬維網(wǎng),實(shí)際上是一個存儲和共享圖像、文本等資源的媒介, 機(jī)器所能看到的只是一堆文字或圖像,對其內(nèi)容無法進(jìn)行識別。因此,萬維網(wǎng)中的信息,如 果要讓機(jī)器進(jìn)行自動處理的話,就必須首先將這些原始信息加工成計(jì)算機(jī)可以理解的形式, 而這一過程是相當(dāng)麻煩的事情。 在這樣的背景下,萬維網(wǎng)的創(chuàng)始人t i mb e m e r s l e e 早在9 0 年代末就提出了語義w e b ( s e m a n t i cw e b ) 的概念【l 】,并將語義w e b 看作是下一代萬維網(wǎng)發(fā)展的方向。語義w e b 的 目標(biāo)是為w e b 的信息提供形式化的含義,以實(shí)現(xiàn)信息在語義層的互操作,便于計(jì)算機(jī)和人 的協(xié)同工作。為了實(shí)現(xiàn)這個目標(biāo),語義w e b 使用共同的模型和語言將數(shù)據(jù)和現(xiàn)實(shí)生活中對 象對應(yīng),并將不同數(shù)據(jù)的數(shù)據(jù)源整合。這樣,整個w e b 就成為一個結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)闹R庫,它 就可以為有邏輯內(nèi)涵的w e b 內(nèi)容提供語義結(jié)構(gòu)和相應(yīng)的信息訪問和集成機(jī)制,從而為構(gòu)建 一個能夠按需集成各種信息、完成特定任務(wù)的信息管理系統(tǒng)奠定基礎(chǔ)。 語義w e b 涉及的三大關(guān)鍵技術(shù)包括:x m l 吲、r d f l 3 1 和o n t o l o g y 。x m l ( e x t e n s i b l e m a r k e dl a n g u a g e ,即可擴(kuò)展標(biāo)記語言) 可以讓信息提供者根據(jù)需要,自行定義標(biāo)記及屬性名, 從而使x m l 文件的結(jié)構(gòu)可以復(fù)雜到任意程度。它具有良好的數(shù)據(jù)存儲格式和擴(kuò)展性、高度 結(jié)構(gòu)化以及便于網(wǎng)絡(luò)傳輸?shù)葍?yōu)點(diǎn),再加上其特有的n s 機(jī)制及x m ls c h e m a 所支持的多種數(shù) 據(jù)類型與校驗(yàn)機(jī)制,使其成為語義w e b 的關(guān)鍵技術(shù)之一。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 資源描述框架,是w 3 c 組織推薦使用的用來描 述資源及其之間關(guān)系的語言規(guī)范,具有簡單、易擴(kuò)展、開放性、易交換和易綜合等特點(diǎn)。 r d f 的基本構(gòu)造為陳述或聲明( s t a t e m e n t ) ,表述形式為( 資源,資源所具有的屬性,屬性 值) ( 即s u b j e c t - - p r e d i c a t e - - - o b j e c t ) 的三元組。r d f 所表達(dá)的是一個數(shù)據(jù)模型,簡言之就是 陳述一個事物( 資源) ,這個事物具有什么屬性,這些屬性應(yīng)該有什么樣的屬性值,其中使 用u 】u 州( 統(tǒng)一資源標(biāo)識符) 來對事物( 資源) 進(jìn)行標(biāo)識。值得注意的是r d f 只定義了資源 的描述方式,卻沒有定義用哪些數(shù)據(jù)來描述資源。r d f 由多個部分組成,比如r d fd a t a 東南大學(xué)碩士學(xué)位論文 m o d e l 、r d fs c h e m a l 5 1 和r d fs y n t a x 。 本體( o n t o l o g y ) 原本是哲學(xué)的一個概念,在近幾十年里,受到信息領(lǐng)域的廣泛關(guān)注, 并在人工智能、數(shù)據(jù)庫理論、語義w e b 等研究領(lǐng)域中扮演重要的角色。目前對本體的理解 還沒有形成統(tǒng)一的定義,但是一個被廣泛認(rèn)可的定義認(rèn)為本體是“共享概念模型的明確的形 式化規(guī)范說明”。一個本體往往就是一個正式的詞匯表,用于定義某一領(lǐng)域或多個領(lǐng)域內(nèi)的 專業(yè)詞匯和它們之間的聯(lián)系,這一系列概念為交流提供一個統(tǒng)一的認(rèn)識。出于對語義分析進(jìn) 一步細(xì)化的需要,科學(xué)家規(guī)定了本體描述語言,如o w l ( w e bo n t o l o g yl a n g u a g e ,即w e b 本體語言) ,并開發(fā)了許多特定領(lǐng)域的本體,比如:用來描述人以及人與人關(guān)系的本體 f o a f 6 1 ,用來描述在線社區(qū)的本體s i o c ,以及用來描述分類系統(tǒng)和百科全書的本體s k o s 等等,正是由于這些本體的廣泛應(yīng)用,使得知識的搜索、積累與共享的效率大大提高,以及 真正意義上的知識共享與重用成為可能。 近十多年來,隨著語義w e b 的蓬勃發(fā)展,特別是l i n k i n go p e nd a t a l ( 簡稱l o d ) 項(xiàng) 目的開展,越來越多的機(jī)構(gòu)在網(wǎng)絡(luò)上發(fā)布了大量的r d f 數(shù)據(jù),比如維基百科的r d f 版本 d b p e d i a ,描述地理位置信息的g e o n a m e s ,描述論文出版物信息的d b l p 等。這些r d f 數(shù) 據(jù)集通過鏈接將數(shù)據(jù)相互關(guān)聯(lián)起來,使得人們可以在不同的數(shù)據(jù)源的數(shù)據(jù)之間進(jìn)行瀏覽和導(dǎo) 航。這些大規(guī)模的數(shù)據(jù)不僅豐富了語義w e b 的內(nèi)容,與此同時如何有效的管理和利用這些 與日劇增的數(shù)據(jù)也已經(jīng)引起了人們的研究興趣。w 3 c 組織對語義w e b 的定位是“s e m a n t i c w e bi saw e bo f d a t a ,l ,可見語義w e b 本身就是關(guān)于數(shù)據(jù)的w e b 。結(jié)合近年來的語義w e b 的研究現(xiàn)狀可以看出,過去是以本體為中心展開研究,目前則進(jìn)入到以數(shù)據(jù)為中心的研究新 階段,人們越來越多的關(guān)注如何能夠有效的利用海量的語義w e b 數(shù)據(jù),給生產(chǎn)實(shí)踐帶來切 實(shí)的推動作用,從而推動語義w e b 更進(jìn)一步的發(fā)展。 盡管目前語義w e b 原理及相關(guān)技術(shù)在許多應(yīng)用領(lǐng)域取得了階段性的成功,但是它距離 真正的實(shí)際應(yīng)用仍然有一個很長的過程,其中一個重要的原因就是目前語義w e b 數(shù)據(jù)的質(zhì) 量還沒有達(dá)到較高的水平,限制了語義w e b 的發(fā)展,比如:濫用標(biāo)識符造成的u r i 別名現(xiàn) 象,導(dǎo)致了語義w e b 數(shù)據(jù)太過分散且缺乏鏈接,給數(shù)據(jù)集成和數(shù)據(jù)挖掘等相關(guān)應(yīng)用造成了 很大的困難。這一點(diǎn)從l i n k i n g o p e n d a t a 項(xiàng)目對語義w e b 數(shù)據(jù)進(jìn)行分析的結(jié)果可以看出: 在總規(guī)模超過2 0 億條三元組的r d f 數(shù)據(jù)中,表達(dá)數(shù)據(jù)間鏈接的三元組僅僅只有三百萬條瞄j , 數(shù)據(jù)之間缺乏鏈接給瀏覽、集成等應(yīng)用帶來了負(fù)面的影響。海量的語義w e b 數(shù)據(jù),一方面 可以成為構(gòu)建語義w e b 應(yīng)用程序的重要數(shù)據(jù)來源,使得這些應(yīng)用程序有足夠的真實(shí)數(shù)據(jù)來 實(shí)現(xiàn)更加智能的服務(wù),另一方面如何有效的管理和利用數(shù)據(jù)也給語義w e b 研究提出的很多 新的挑戰(zhàn)。本文所關(guān)注的對象共指問題就是其中之一,這一問題的解決必定能夠提高語義 w e b 數(shù)據(jù)的質(zhì)量以及對數(shù)據(jù)集成、信息共享等領(lǐng)域產(chǎn)生積極的影響。 1 2 問題描述 本節(jié)首先提出對象共指這一問題,其次針對這一問題分析其形成的原因,接著闡述解決 這一問題的意義,最后指出語義w e b 對象的共指識別所面臨的困難。 隨著語義w e b 的蓬勃發(fā)展,出現(xiàn)了大量的語義數(shù)據(jù),大致可以分為概念層數(shù)據(jù)和實(shí)例 層數(shù)據(jù)兩部分,其中各種本體中所定義的類( c l a s s ) 和屬性( p r o p e r t y ) 以及它們之間的關(guān) 系就屬于概念層數(shù)據(jù),而利用概念層所定義的類和屬性來描述某個具體資源的數(shù)據(jù)則屬于實(shí) 例層數(shù)據(jù),比如:f o a f 本體中定義了人這樣一個類,同時還定義了人的姓名、電子郵件、 1 h t t p :e s w w 3 o r g t o p i e s w e o l g t a s k f o r c e s c o m m u n i t y p r o j e e t s l i n k i n g o p e n d a t a 2 第一章緒論 主頁等屬性,這些屬于概念層數(shù)據(jù);利用該類和屬性可以描述某個具體的人的信息,則屬于 實(shí)例層數(shù)據(jù),被描述的人稱為類的實(shí)例( i n s t a n c e 或i n d i v i d u a l ) 。由于實(shí)例反映的是現(xiàn)實(shí)世 界中的對象的信息,是對象信息的載體,并且通過u r i 來對實(shí)例進(jìn)行標(biāo)識,因此語義w e b 對象的共指識別本質(zhì)上就是共指u r i 的識別。 為了幫助用戶在數(shù)據(jù)的海洋中找到自己所需要的數(shù)據(jù),語義w e b 數(shù)據(jù)搜索引擎相繼問 世滿足了用戶的需求。下面以搜索引擎f a l c o n s 2 為例,通過f a l c o n s 提供的對象級別r d f 數(shù) 據(jù)的搜索功能,用戶通過關(guān)鍵字就可以找到自己所關(guān)心的實(shí)例對象,并且瀏覽對象的相關(guān)信 息??梢哉f,語義w e b 數(shù)據(jù)搜索引擎幫助用戶找到了數(shù)據(jù)瀏覽的入1 2 1 ,由于語義w e b 的數(shù) 據(jù)是通過有類型的鏈接關(guān)聯(lián)起來的,用戶可以沿著自己關(guān)心的鏈接進(jìn)一步的瀏覽數(shù)據(jù)。 由于網(wǎng)絡(luò)的分布式特性帶來了信息的分散性,不同的數(shù)據(jù)源在描述數(shù)據(jù)時無法達(dá)成共 識,它們可能以不同的方式來描述相同現(xiàn)實(shí)世界的對象,例如它們可以描述了相同對象不同 側(cè)面的信息,并且使用不同的u r i 來標(biāo)識對象。盡管把這些描述相同對象的不同側(cè)面的信 息集成起來將顯得很有意義,但由于對象缺乏全局唯一的u r i ,導(dǎo)致了信息無法輕易集成。 這種來自不同數(shù)據(jù)源的不同的u r i 卻指稱相同現(xiàn)實(shí)世界對象的現(xiàn)象稱為對象共指。這 種現(xiàn)象相當(dāng)普遍,舉例來說:在f a l c o n s 系統(tǒng)中,通過搜索關(guān)鍵字 t i mb e m e r sl e e ”來查詢 語義w e b 之父t i mb e m e r sl e e 先生的相關(guān)信息,共返回了8 2 條搜索結(jié)果,通過人工觀察發(fā) 現(xiàn),這些來自不同數(shù)據(jù)源的對象描述的都是t i mb e m e r sl e e 先生,而且它們的描述信息存 在著很大的重復(fù)性,然而因?yàn)閷ο蟮膗 r i 不同,搜索引擎無法對共指對象進(jìn)行區(qū)分,導(dǎo)致 搜索結(jié)果包含了大量的重復(fù)信息,降低了用戶的滿意度。 對象共指問題的形成原因主要包括以下三個方面: 首先,從理論角度來看,語義w e b 的一個核心的思想就是資源通過u r i 來標(biāo)識,并且 以u r i 為基礎(chǔ)來實(shí)現(xiàn)跨應(yīng)用程序、跨數(shù)據(jù)源的數(shù)據(jù)集成,這也是語義w e b 較之于萬維網(wǎng)的 優(yōu)點(diǎn)之一,即可以很自然通過u r i 將描述某個資源的數(shù)據(jù)來集成起來,盡管這些數(shù)據(jù)可能 分布于不同的數(shù)據(jù)源中。從這里可以看出,資源具有全局統(tǒng)一的u r i 在數(shù)據(jù)集成的過程中 起到了至關(guān)重要的作用。對于某個資源來說,如果不同的數(shù)據(jù)源之間沒有使用共同的u r i , 那么就無法輕易的集成該資源的相關(guān)數(shù)據(jù)。然而,在語義w e b 的體系結(jié)構(gòu)中,沒有相關(guān)的 協(xié)議和標(biāo)準(zhǔn)來確保數(shù)據(jù)提供者能夠重用已有的u r i 來標(biāo)識某個已經(jīng)在其他應(yīng)用程序或者數(shù) 據(jù)源中描述過的資源,因此引發(fā)了大量的共指u r i 的出現(xiàn)。 其次,從實(shí)踐角度來看,語義w e b 是一個分布式的多數(shù)據(jù)源系統(tǒng),不同數(shù)據(jù)源可以獨(dú) 立的為自己描述的資源或者事物選取標(biāo)識符,那么從全局來看,就造成了資源或者事物缺乏 全局唯一的標(biāo)識符,在不同的數(shù)據(jù)源之間不同的標(biāo)識符不一定代表不同的資源或事物。此外, 語義w e b 的數(shù)據(jù)并不都是原生的,很多是從關(guān)系數(shù)據(jù)庫中轉(zhuǎn)換而來的,比如:d b p e d i a 。在 數(shù)據(jù)的轉(zhuǎn)換過程中,往往是根據(jù)某種特定的規(guī)則來確定資源的標(biāo)識符,比如:采用表格名加 編號來標(biāo)識,完全沒有考慮重用現(xiàn)有資源的u r i ,因此轉(zhuǎn)換后的數(shù)據(jù)包含了很多共指u r i , 導(dǎo)致無法很好的和現(xiàn)有的數(shù)據(jù)集成起來。 最后,雖然缺乏全局唯一的標(biāo)識符對于任何類型的資源都存在,包括概念層的類和屬性, 但是實(shí)例層的對象的情況則更加嚴(yán)重,因?yàn)槭紫雀拍顚拥谋倔w數(shù)量相當(dāng)較少,經(jīng)過優(yōu)勝劣汰 的篩選,目前保留下來的本體已被人們廣泛認(rèn)可,使得人們能夠使用一致的u r i 來標(biāo)識本 體中的類和屬性,然而發(fā)現(xiàn)不同數(shù)據(jù)源之間實(shí)例層的對象的等價(jià)關(guān)系卻很困難。 對象共指導(dǎo)致了數(shù)據(jù)之間的聯(lián)系丟失,數(shù)據(jù)無法很好的集成到一起,進(jìn)而無法提供高質(zhì) 量、高可靠的數(shù)據(jù)服務(wù),因此識別出這些共指的u r i ,提出有效的方法來解決資源或者事物 無法全局統(tǒng)一標(biāo)識的問題,必定會對那些以數(shù)據(jù)為中心的應(yīng)用,包括數(shù)據(jù)集成、數(shù)據(jù)挖掘、 2 h t t p :i w s s e u e d u o n s e r v i c e s f a l c o n s 3 東南大學(xué)碩士學(xué)位論文 語義搜索、語義查詢等帶來很大的促進(jìn)作用。 語義w 曲對象的共指識別面臨很多困難和挑戰(zhàn),主要來自以下三個方面: 首先,共指u r i 的識別方法應(yīng)該是自動化或者半自動化的,識別過程要盡可能多的減 少人工參與,并且識別的結(jié)果要具有較高的準(zhǔn)確度。 其次,語義w e b 包含了海量對象數(shù)據(jù),共指u r i 的識別方法必然要具有很強(qiáng)的可伸縮 性,同時還需要考慮到語義w e b 的數(shù)據(jù)規(guī)模正以很快的速度增長這一挑戰(zhàn)。 最后,語義w e b 數(shù)據(jù)是由大量的研究人員和研究機(jī)構(gòu)創(chuàng)建的,其數(shù)據(jù)的質(zhì)量和完整性 無法保證,共指u r i 的識別算法必須要足夠健壯,能夠處理這些可能存在問題的數(shù)據(jù)。 1 3 研究內(nèi)容 本文首先調(diào)查和研究對象共指這一問題,全面了解研究現(xiàn)狀,理解該問題的本質(zhì)和研究 難點(diǎn)。然后圍繞共指u r i 識別這一問題,從兩個不同的角度提出了以下兩種識別方法: 第一,提出了一種面向?qū)嵗龜?shù)據(jù)集的共指識別方法,即在給定一組實(shí)例數(shù)據(jù)集作為輸入 數(shù)據(jù)的情況下,通過綜合利用實(shí)例本身的信息和實(shí)例間的語義關(guān)系來計(jì)算實(shí)例之間的相似 度,進(jìn)而識別出數(shù)據(jù)集中的共指u r i 的方法。 第二,提出了一種大規(guī)模的語義w e b 共指識別方法,即從整個語義w 曲的角度出發(fā), 以搜索引擎抓取的數(shù)據(jù)集為基礎(chǔ),通過分析具有特定性質(zhì)的語義屬性來識別出語義w 曲中 的共指u r i 。 在實(shí)驗(yàn)評估方面,通過選取來自真實(shí)世界的數(shù)據(jù)集,設(shè)計(jì)相關(guān)的實(shí)驗(yàn)來對共指u r i 的 識別方法進(jìn)行評估。 另外,本文還設(shè)計(jì)和實(shí)現(xiàn)了一個共指u r i 識別的應(yīng)用系統(tǒng),將共指u r i 識別作為一種 服務(wù)提供給用戶或應(yīng)用程序,使得共指信息可以得到更好的重用。 1 4 論文組織結(jié)構(gòu) 全文共分七章,各章節(jié)內(nèi)容如下: 第一章,首先介紹了論文的研究背景,包括語義w e b 的興起以及目前的研究與發(fā)展, 接著指出了對象共指的問題以及識別的必要性,最后闡述了本文的研究內(nèi)容。 第二章,介紹了相關(guān)工作,包括語義w e b 研究領(lǐng)域的一些相關(guān)工作,以及其他領(lǐng)域相 關(guān)工作的調(diào)研; 第三章,闡述了一種面向?qū)嵗龜?shù)據(jù)集的共指識別方法,該方法適用于給定的實(shí)例數(shù)據(jù)集 并且數(shù)據(jù)集規(guī)模適中的情景; 第四章,闡述了一種大規(guī)模的語義w e b 共指識別方法,該方法以大規(guī)模的數(shù)據(jù)分析為 基礎(chǔ),通過分析具有特定性質(zhì)的語義屬性來識別出語義w e b 中的共指u ; 第五章,闡述了共指u r i 識別的在線系統(tǒng)o b j e c t c o r e f 的設(shè)計(jì)和實(shí)現(xiàn); 第六章,給出了相關(guān)的實(shí)驗(yàn)結(jié)果,并對實(shí)驗(yàn)結(jié)果進(jìn)行分析: 最后一章對本文的研究工作做出總結(jié),并展望下一步的研究工作。 4 第二章相關(guān)工作 第二章相關(guān)工作 本章主要介紹與本文研究內(nèi)容相關(guān)的一些工作,包括已有的一些針對語義w e b 對象共 指問題的解決途徑,以及關(guān)于語義w e b 概念層本體匹配的相關(guān)方法和傳統(tǒng)的關(guān)系數(shù)據(jù)庫領(lǐng) 域中關(guān)于重復(fù)記錄刪除的方法,并且分析了這些工作的優(yōu)點(diǎn)和不足之處,闡述了這些工作和 本文研究內(nèi)容的關(guān)系。 2 1本體及本體匹配 1 9 9 3 年,斯坦福大學(xué)的g r u b e r 給出本體的一個最為流行的定義,即“本體是概念模型 的明確的規(guī)范說明”1 9 1 。b o r s t 在此基礎(chǔ)上,給出了本體的另外一個定義“本體是共享概念 模型的形式化規(guī)范說明”【1 0 j 。s t u d e r 等對上述兩個定義進(jìn)行了深入的研究,認(rèn)為“本體是共 享概念模型的明確的形式化規(guī)范說明”。這包含四層含義:概念模型( c o n c e p t u a l i z a t i o n ) 、 明確( e x p l i c i t ) 、形式化( f o r m a l ) 、共享( s h a r e ) 1 1 j ?!案拍钅P汀笔侵竿ㄟ^抽象出客觀 世界中的一些現(xiàn)象的相關(guān)概念而得到的模型。概念模型所表現(xiàn)的含義獨(dú)立于具體的環(huán)境狀 態(tài);“明確”是指所使用的概念以及這些概念的約束都有精確無二義的定義;“形式化”是 指本體是計(jì)算機(jī)可讀的,能夠被計(jì)算機(jī)處理;“共享”是指本體中體現(xiàn)的是共同認(rèn)可的知識, 反映相關(guān)領(lǐng)域中公認(rèn)的概念集,而不是某個團(tuán)體或個人的認(rèn)識。本體的目的是捕獲相關(guān)領(lǐng)域 的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形 式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義。 隨著語義w e b 的發(fā)展,出現(xiàn)了一系列基于w e b 的本體表示語言,如s h o e 、x o l 、 r d f ( s ) 、o i l 、d a m l + o i l 、o w l 1 2 j 等,這些為本體在語義w 曲研究領(lǐng)域的發(fā)展注入了活 力。萬維網(wǎng)聯(lián)盟w 3 c 先后推薦了r d f ( s ) 、o w l 作為本體描述的語言標(biāo)準(zhǔn)。r d f ( s ) 是r d f 和r d fs c h e m a ( 簡稱r d f s ) 的合稱。r d f 定義了簡單的模型,可以表示任意類型的數(shù)據(jù), r d f s 為數(shù)據(jù)定義了模式。o i l 以r d f ( s ) 為起點(diǎn),用豐富的本體建模原語對r d f ( s ) 進(jìn)行擴(kuò) 充。d a m l 擴(kuò)展了r d f ,增加了更多更復(fù)雜的類、屬性定義。之后d a m l 和o i l 合作,推 出了o i l + d a m l 語言,成為w 3 c 研究語義w e b 中本體語言的起點(diǎn)。o w l 就是在d a m l + o i l 基礎(chǔ)上發(fā)展起來的,目的是提供更多的原語以支持更加豐富的語義表達(dá)和推理。 由于w e b 具有分散性的特點(diǎn),經(jīng)常在相交甚至相同領(lǐng)域中存在描述同一些概念的不同 本體。不同本體的存在阻礙了知識的共享和重用。這種本體間的匹配( o n t o l o g ym a t c h i n g ) 【13 】被認(rèn)為是解決這種語義異構(gòu)性的一種有效途徑。本體匹配的過程就是發(fā)現(xiàn)本體間映射關(guān) 系的過程。對于使用不同但相關(guān)本體的w e b 應(yīng)用程序而言,本體匹配提供了它們之間的互 操作性。這種互操作性使得應(yīng)用程序之間可以實(shí)現(xiàn):信息集成、數(shù)據(jù)遷移、分布式查詢處理 與查詢回答等功能。 為了讓本體發(fā)揮最大的作用,就需要讓本體得到充分的共享。為了使得開發(fā)本體時盡可 能的節(jié)省人力,就需要使得開發(fā)的本體能夠被重用。因此,本體的匹配工作是本體研究的難 點(diǎn)和關(guān)鍵問題,眾多文獻(xiàn)表明:只有實(shí)現(xiàn)本體的匹配,本體的知識庫才會得到廣泛應(yīng)用。 當(dāng)前很多高校及研究機(jī)構(gòu)對本體匹配均有研究,開發(fā)了不少算法和工具如p r o m p t b 4 i 、 o o m 【u 】、s i m i l a r i t yf l o o d i n g l l 6 l 、g l u e l l 7 j 、以及我們實(shí)驗(yàn)室的f a l c o n a o t l 8 l ,從不同角度 對概念的相似度進(jìn)行度量。本體匹配的目標(biāo)是構(gòu)建本體間的映射關(guān)系,它是完成本體的發(fā)現(xiàn)、 聯(lián)合、學(xué)習(xí)以及最終獲取知識等服務(wù)的基礎(chǔ)。 通常匹配過程中需要考慮的信息包含以下幾個方面:基于語言學(xué)上的相似性的匹配方 5 東南大學(xué)碩士學(xué)位論文 法、基于結(jié)構(gòu)上的相似性的匹配方法以及在有較多實(shí)例數(shù)據(jù)的情況下,考慮基于實(shí)例的匹配 方法和技術(shù)。 基于語言學(xué)相似性的匹配方法是一種采用自然語言處理技術(shù)進(jìn)行匹配的方法,它通過計(jì) 算本體中元素之間的名字、標(biāo)簽以及注釋的相似性作為元素之間是否匹配的依據(jù)。目前使用 的比較多的方法是基于字符串處理的方法和基于詞典的方法。基于字符串處理的方法主要有 編輯距離、單詞前后綴的相似性等等。而基于詞典的方法主要有采用現(xiàn)成的詞典( 比如: w o r d n e t 3 ) 識別出詞匯間是否屬于近義詞、是否存在上下位關(guān)系等等。目前幾乎所有的匹配 工具都會采用自然語言處理的相關(guān)技術(shù),或者單獨(dú)使用其中的一種技術(shù)或綜合多種技術(shù)。例 如:在上面提到的本體匹配工具中f a l c o n - a o 就集成了基于語言學(xué)的匹配方法。該方法通過 領(lǐng)域?qū)ο笤诒倔w中的用法來揭示它們可能的含義,從而計(jì)算匹配結(jié)果。具體來說,就是通過 抽取本體中對象以及它鄰居對象的描述信息來構(gòu)建虛擬文檔,然后通過向量空間模型方法計(jì) 算虛擬文檔之間的相似度,從而得到對象之間的相似度。 基于結(jié)構(gòu)相似性的匹配方法就是利用本體結(jié)構(gòu)作為圖模型所表達(dá)的信息來進(jìn)行匹配,這 種方法都表達(dá)了這樣一個思想,即如果一組元素的鄰居元素匹配程度越高,那么這組元素匹 配的幾率就越大,反之亦然。在上面提到的本體匹配算法中,s i m i l a r i t yf l o o d i n g 就是這類 方法的典型代表。需要指出的是,該方法是一個面向一般圖模型的匹配,不僅適用于本體間 的匹配,也適用于其他圖模型的匹配場合。其主要思想是根據(jù)圖中相鄰概念節(jié)點(diǎn)之間的相似 傳遞性來計(jì)算相似度,也就是說如果兩個概念節(jié)點(diǎn)的鄰居節(jié)點(diǎn)是相似的,那么這兩個概念節(jié) 點(diǎn)在迭代計(jì)算的過程中也趨向于相似,即節(jié)點(diǎn)相似性的傳播。 基于實(shí)例的匹配方法一般情況下屬于綜合多種學(xué)習(xí)策略的機(jī)器學(xué)習(xí)方法,通過實(shí)例的學(xué) 習(xí)尋找概念元素之間的映射關(guān)系。目前基于實(shí)例的匹配方法和工具還比較少,其中比較著名 的有g(shù) l u e 。它是美國w a s h i n g t o n 大學(xué)開發(fā)的一個本體匹配工具,其主要思想是采用概念 之間的聯(lián)合概率分布來度量概念間的相似度,并且通過機(jī)器學(xué)習(xí)的方法來估計(jì)這種概率分布 情況。該方法使用了多種機(jī)器學(xué)習(xí)的策略,每種策略針對特定的實(shí)例信息或者本體所包含的 結(jié)構(gòu)信息進(jìn)行學(xué)習(xí)。 本體匹配是尋找概念層元素之間映射關(guān)系的過程,主要關(guān)注的是本體概念層的異構(gòu)問 題,通過匹配使得異構(gòu)的相交本體實(shí)現(xiàn)概念層的互操作。然而這些方法大多都不具有很好的 可伸縮性,在匹配概念層的時候可能能夠勝任,但是面對大量的r d f 實(shí)例數(shù)據(jù)卻顯得有些 無能為力。即便如此,由于共指u r i 的識別是尋找u r i 的之間的映射關(guān)系,兩者目標(biāo)都是 尋找映射關(guān)系,因此本體匹配相關(guān)的方法對共指u r i 的識別具有很大的借鑒意義。 2 2實(shí)例匹配及對象共指 語義w e b 的數(shù)據(jù)大致可以分為概念層數(shù)據(jù)和實(shí)例層數(shù)據(jù),鑒于尋找概念層數(shù)據(jù)之間的 映射關(guān)系的過程稱為本體匹配,尋找實(shí)例之間映射關(guān)系的過程也常被稱為實(shí)例匹配。另外我 們知道,實(shí)例匹配就是要識別出那些描述相同現(xiàn)實(shí)世界對象的匹配實(shí)例,也就是說實(shí)例匹配 和共指u r i 的識別的目標(biāo)本質(zhì)上是一致的,只是實(shí)例匹配通常傾向于處理局部的數(shù)據(jù)集, 而共指u r i 的識別則含義更加廣泛,并且更加側(cè)重于從語義w e b 的全局出發(fā)來解決對象共 指的問題。 3 h t t p :w o r d n e :t p r i n c e t o n e d u 6 第二章相關(guān)工作 2 2 1 實(shí)例匹配 在語義w e b 中,實(shí)例匹配是尋找實(shí)例之間的映射關(guān)系的過程,如果某對實(shí)例描述了相 同現(xiàn)實(shí)世界對象,那么這對實(shí)例就是匹配的。匹配的過程通常是從給定一組實(shí)例對象數(shù)據(jù)集 開始,通過某種策略計(jì)算實(shí)例之間的相似度,然后根據(jù)算出的相似度從中提取出匹配結(jié)果。 目前,已有的實(shí)例匹配的工作基本上關(guān)注的都是成對的、局部的、與領(lǐng)域相關(guān)的數(shù)據(jù)集之間 的匹配,比如【1 9 】?!緇 川中作者提出了一種面向語義w e b 音樂數(shù)據(jù)的匹配方法,通過使用數(shù)據(jù)集本 身所配備的查詢接口來進(jìn)行數(shù)據(jù)層的鏈接。該方法首先假設(shè)目標(biāo)數(shù)據(jù)集中能夠和源數(shù)據(jù)集的某個 實(shí)例匹配的實(shí)例最多只有一個,其主要思想是這樣的:對某個待匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司禮儀提升活動方案
- 公司端午節(jié)文體活動方案
- 公司文匯活動方案
- 公司留深過年活動方案
- 公司活動設(shè)計(jì)策劃方案
- 公司組織公益活動方案
- 公司組織建設(shè)活動方案
- 公司百人活動策劃方案
- 公司搞運(yùn)動會活動方案
- 公司福利娛樂活動方案
- 地質(zhì)災(zāi)害危險(xiǎn)性評估合同模板
- 公司廉政紀(jì)律管理制度
- 保密知識競賽試題及答案
- 電大:試述辛亥革命的歷史意義和局限性是什么?參考答案
- T/CQAGS 3201-2023重慶好糧油壓榨菜籽油
- 2025-2030鋁材行業(yè)市場深度調(diào)研及發(fā)展策略研究報(bào)告
- 2025新譯林版英語八上單詞默寫單(先鳥版)
- 自建門面租房協(xié)議書
- GA/T 2183-2024法庭科學(xué)足跡檢驗(yàn)實(shí)驗(yàn)室建設(shè)規(guī)范
- 2025年-四川省安全員-A證考試題庫附答案
- 工程預(yù)算審核報(bào)告回復(fù)函
評論
0/150
提交評論