擴展知識圖譜上的實體關(guān)系檢索_第1頁
擴展知識圖譜上的實體關(guān)系檢索_第2頁
擴展知識圖譜上的實體關(guān)系檢索_第3頁
擴展知識圖譜上的實體關(guān)系檢索_第4頁
擴展知識圖譜上的實體關(guān)系檢索_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、擴展知識圖譜上的實體關(guān)系檢索摘要:現(xiàn)有文本數(shù)據(jù)集上的實體搜索和自然語言查詢方法無法處理需要將分散在不同文檔中的信息碎片鏈接起來以滿足有復雜實體關(guān)系的查詢,而知識庫上的查詢雖然可以表示實體間的復雜關(guān)系,但由于知識庫的異構(gòu)性和不完全性,通常查全率較低。針對這些問題,提出使用文本數(shù)據(jù)集對知識庫進行擴展,并設(shè)計相應(yīng)的含文本短語的三元組模式查詢以支持對知識庫和文本數(shù)據(jù)的統(tǒng)一查詢。在此基礎(chǔ)上,設(shè)計并實現(xiàn)了查詢放松機制和對結(jié)果元組的評分模型,并給出了高效的查詢處理方法。使用YAGO、ClueWeb09和其上的FACC1數(shù)據(jù)集,在三個不同的查詢測試集上與兩個典型相關(guān)工作作了比較。實驗結(jié)果顯示,擴展知識圖譜上使

2、用查詢放松規(guī)則的實體關(guān)系檢索系統(tǒng)的檢索效果大大超出了其他系統(tǒng),具體地在三個查詢測試集上,其平均正確率均值比其他系統(tǒng)分別提升了27%、37%和64%以上。中國論文網(wǎng) /8/view-7316903.htm關(guān)鍵詞:知識圖譜;實體關(guān)系檢索;實體搜索;三元組模式查詢;查詢放松中圖分類號:TP391.3 文獻標志碼:A -最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-0引言近年來,隨著從文本中提取結(jié)構(gòu)化數(shù)據(jù)的信息抽取技術(shù)1日益成熟,大規(guī)模知識庫的構(gòu)建得到了迅猛發(fā)展,產(chǎn)生了許多形形色色的知識庫,如DBpedia、Freebase、YAGO、Wikidata、NELL、Probase、Goog

3、le KG和Microsoft Satori等2。這些機器可讀的知識大多被表示成三元組形式的資源描述框架數(shù)據(jù),描述實體、實體分類以及實體和實體之間的各種關(guān)系等,被廣泛應(yīng)用在文本分析、自然語言理解、機器閱讀、語義搜索、自然語言問答等各類智能型的應(yīng)用中。例如,Google、百度、Bing等搜索引擎正積極構(gòu)建大型知識圖譜,并利用知識圖譜改善其搜索效果,如生成結(jié)構(gòu)化的結(jié)果摘要、實體推薦、實體搜索和自然語言問答等。在知識圖譜上進行自然語言問答的通常做法是先將自然語言問題理解成確切的結(jié)構(gòu)化查詢,如SPARQL查詢,然后再在知識庫上執(zhí)行該查詢而獲得確切答案。例如,如果要找出所有影片和它們的插曲,而知識庫中又

4、有music_in_film這樣一個song類型實體和movie類型實體之間的關(guān)系,則可以將此信息需求理解成以下SPARQL查詢:程序前-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-程序后然后在知識庫上執(zhí)行該查詢就可以得到所有影片和它們的插曲。理解成確切的SPARQL查詢的方法查準率高,但查全率卻較低。這主要是由于知識庫的異構(gòu)性和不完全性造成的。1)異構(gòu)性:同一語義在自然語言中有多種表達方式,在知識圖譜上同樣可以有許多不同的存在方式。例如,有些電影和它們的插曲之間的關(guān)系可能不是用一個直接的music_in_film關(guān)系表示的,而是存在一個has_soundtrack關(guān)系連接電影

5、和其電影原聲帶,以及一個contains_song關(guān)系連接電影原聲帶和其中的樂曲等。2)不完全性:知識庫中的信息是不完全的。規(guī)模再大的知識庫也有缺失信息,如有些影片和其插曲的信息在知識庫中不存在。造成信息缺失的原因有很多種,如信息抽取的精度沒達到閾值等。針對知識庫的異構(gòu)性和不完全性所帶來的問題,本文提出使用文本數(shù)據(jù)來補充知識庫的信息,并實現(xiàn)二者的統(tǒng)一查詢。不同于一般的實體檢索返回實體列表,本文主要考慮的是實體間具有較復雜關(guān)聯(lián)關(guān)系的實體關(guān)系查詢,返回的結(jié)果是實體元組列表。具體地,問題定義如下:給定一個知識庫和文本數(shù)據(jù)集,如何查詢才能有效滿足用戶提出的復雜信息需求。 -最新精選范文分享-謝謝觀看-

6、最新精選范文公文分享-歡迎觀看-本文的主要工作:1)提出擴展的知識圖譜的數(shù)據(jù)模型,將文本數(shù)據(jù)和知識圖譜融合在一起;2)相應(yīng)地提出了三元組模式查詢,它是對SPARQL查詢模型的擴展,結(jié)合了模糊匹配和文本檢索等功能,可以更有效地對擴展的知識圖譜進行查詢;3)提出了對查詢結(jié)果,即實體元組,進行評分和排序的模型,并給出了各種查詢放松的策略和高效的查詢執(zhí)行算法;4)設(shè)計實驗和已有的一些典型相關(guān)工作進行了全面的比較,實驗結(jié)果證實本文的方法對復雜查詢具有很好的檢索效果,優(yōu)于當前最好的相關(guān)工作。1數(shù)據(jù)模型和查詢語言1.1擴展的知識圖譜在RDF數(shù)據(jù)表示的知識圖譜中有兩類數(shù)據(jù)對象:1)用URI唯一標識的資源,包括

7、所有實體、類和謂詞/屬性等;2)各種類型的數(shù)值,如數(shù)字、字符串、日期等。這里分別用R表示知識圖譜中所有資源的集合,L表示所有數(shù)值的集合。定義1知識圖譜。一個知識圖譜KG是一個三元組的集合:KG?。三元組的三部分通常分別被稱為主語、謂詞和賓語。如果主語和賓語都是用URI標識的實體,則謂詞表示的是兩實體之間的關(guān)系,如has_soundtrack、-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-contains_song等;如果賓語是數(shù)值,則謂詞表示的是主語實體的某種屬性,如birth_date等。表1給出了一個知識庫的部分示例。為了簡單起見,表中顯示的是實體和關(guān)系的名稱而不是它們的U

8、RI。規(guī)模再大的知識庫也不可能包含所有的信息,總有一些實體、類別、屬性或它們之間的關(guān)系沒有被知識庫所捕獲。為了解決知識庫的不完全性問題,本文提出使用文檔集對原知識庫進行擴展。具體地,首先,可以使用實體鏈接方法將文檔中的實體出現(xiàn)鏈接到已有知識庫中的實體上,從而從文檔集中抽取出更多的實體間的關(guān)系,當然這些事實可能已經(jīng)存在于知識庫中,但很多并沒有被知識庫包含,因而可以補充知識庫中的信息。其次,可以使用開放信息抽取技術(shù)1從文本中抽取出由兩個名詞短語和它們之間的動詞、名詞或介詞短語構(gòu)成的三元組,其中首尾兩個名詞短語分別是主語和賓語,連接它們的動詞、名詞或介詞短語是三元組的謂詞部分。這樣的三元組不同于知識

9、庫中的三元組,因為沒有URI,三部分都是字符串表示的短語。再使用命名實體消歧技術(shù)3將主語和賓語上的名詞短語對應(yīng)到知識庫中的實體,找不到對應(yīng)實體的名詞短語就保留其字符串的表示形式。這樣就會得到如表2所示的一些三元組,它們不同于知識-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-庫中的三元組在于三元組的主、謂、賓三部分均可以是任意的字符串表示的短語。表1和表2的內(nèi)容合在一起就構(gòu)成了擴展的知識庫。所有記號的集合記作C,那么擴展的知識圖譜可以定義為一個由所有記號構(gòu)成的三元組的多重集。 定義2擴展的知識圖譜。一個擴展的知識圖譜XKG是一個三元組的多重集合:XKGCCC。注意擴展的知識圖譜被

10、定義為多重集,即允許相同的三元組事實重復出現(xiàn)多次,這通常是由于此事實出現(xiàn)在不同的文檔或數(shù)據(jù)源中從而被多次抽取。保留這種冗余可用于三元組事實的排序,具體見第3章。1.2三元組模式查詢本文使用類似SPARQL的三元組模式查詢語言從一個擴展的知識圖譜中更有效地獲取信息。本節(jié)給出該查詢語言的定義。V表示所有變量的集合,每個變量可被一個變量名唯一標識,所有的變量名都以“,”開頭。定義3三元組模式及其匹配。一個三元組模式q是來自集合的一個三元組。三元組模式q的一個匹配是知識庫中的一個三元組t,其中: q的非變量部分和t對應(yīng)的部分相匹配,而t中對應(yīng)于q的變量部分的內(nèi)容稱為對該變量的一個綁定。-最新精選范文分

11、享-謝謝觀看-最新精選范文公文分享-歡迎觀看-例如,,x usedIn KillBill 和 ,x “appears in”“Kill Bill Vol 1”是兩個三元組模式,其中第一個三元組模式的主語、謂詞和賓語部分分別是變量、關(guān)系和實體,而第二個三元組模式的三部分分別是變量、動詞短語和名詞短語。 q與t對應(yīng)部分的記號相匹配有兩種情況:1)精確匹配,即二者完全相等;2)部分匹配,即q中的記號是t中記號的部分,如“British”是“best British singer”的部分匹配。定義4查詢。一個三元組模式查詢Q=q1,q2,qn是一個包含n個三元組模式的集合。查詢Q的輸出變量集合,記為P

12、,是Q中出現(xiàn)的所有變量集合的子集。定義5查詢結(jié)果。三元組模式查詢Q的一個結(jié)果a是Q中所有變量的綁定所構(gòu)成的元組。查詢結(jié)果a在Q中每個三元組模式qi上的匹配是ti,記a=ti。如果P不包含Q中的所有變量,則最終輸出結(jié)果為a在P上的投影,記為aP。查詢示例1找出英國歌手演唱的插曲和電影。三元組模式查詢可以表達如下:程序前5.1實驗設(shè)置5.1.1數(shù)據(jù)集本文實驗使用的知識庫是Yago2,其中的實體-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-來自Wikipedia。Yago2共包含48106個三元組。另外,F(xiàn)ACC1數(shù)據(jù)集被用來構(gòu)造擴展的知識庫。ClueWeb09是Lemur研究團隊在

13、2009年1月到2月之間爬取的約10億個Web網(wǎng)頁集合,其中大約有500106個英文網(wǎng)頁。FACC1數(shù)據(jù)集是對ClueWeb09中所有英文網(wǎng)頁上出現(xiàn)的Freebase實體作了標注,大概估測的標注精度和覆蓋率分別是80%,85%和70%,85%。由于Freebase中的實體可以對應(yīng)于Wikipedia的實體,繼而對應(yīng)于Yago2中的實體,所以FACC1數(shù)據(jù)集可以很容易地轉(zhuǎn)化為用Yago2來標注的網(wǎng)頁集合。本文使用一種簡單卻非常有效的抽取方法從上面介紹的數(shù)據(jù)集中獲得一些由自然語言短語構(gòu)成的三元組集合。具體地,在標注的頁面上獲得所有出現(xiàn)在同一句子中并且中間間隔不超過50個字符的實體對,分別作為三元組

14、的主語和賓語,而它們之間的字符串短語作為三元組的謂詞。這樣從FACC1數(shù)據(jù)集上共獲得了392106個三元組,其中有65106個不同的三元組,可看出信息的冗余度還是很大的,而這冗余度可以被用來對三元組進行評分。這些用簡易方法抽取出的三元組加上原來的知識庫Yago2共同構(gòu)成了下面實驗中所使用的擴展知識庫XKG。據(jù)估測,這樣生成-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-的XKG的精度大概是70%,80%。另外,本文使用第2章中所描述的謂詞改寫的抽取方法從XKG中挖掘出大約172106個謂詞與其轉(zhuǎn)述或逆轉(zhuǎn)述對,類似表3中所示,每一對謂詞有一個計算出來的改寫權(quán)重。5.1.2查詢集因為

15、現(xiàn)有的查詢集大多是沒有關(guān)系條件或最多只有一個關(guān)系條件的實體查詢,所以本項目在實驗中設(shè)計生成了一組包含多個實體間關(guān)系的復雜查詢,例如“找出所有由獲圖靈獎的人發(fā)明的編程語言?!边@里涉及了三個實體,“圖靈獎”“人”和“編程語言”,它們之間有兩個關(guān)系相連,“人”獲得“圖靈獎”,并且“人”發(fā)明了“編程語言”。這些復雜查詢是通過從XKG中采樣出2,4個相互關(guān)聯(lián)的實體而構(gòu)建生成的。例如,采樣出ALGOL、JohnBackus和TuringAward三個相互關(guān)聯(lián)的實體,即可以生成上面的那條復雜查詢。下面介紹具體的實體采樣步驟。首先,XKG中的知識被分成不同領(lǐng)域,每次采樣都在同一領(lǐng)域中進行。本文考慮的采樣領(lǐng)域有

16、電影、音樂、書籍、體育、計算機和軍事沖突等,每一領(lǐng)域包含一些特定類型的實體。例如,電影領(lǐng)域包括actor、 show、 director、 award和producer等類型的實體。在每個領(lǐng)域中,先基于領(lǐng)域-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-中每個實體出現(xiàn)的先驗概率選擇一個中心實體。然后,選擇領(lǐng)域中與中心實體聯(lián)系最緊密的20個實體,實體間聯(lián)系的緊密程度用Milne和Witten在文獻9提出的基于Wikipedia鏈接的度量值來衡量。接下來,在這20個候選實體中,按照一定概率依次選擇下一個中心實體,直到選夠2,4個實體為止。選擇下一個中心實體的概率值正比于每個候選實體與

17、當前中心實體在XKG中連接的三元組事實數(shù)目。得到這樣相互關(guān)聯(lián)的2,4個實體之后,人工地去構(gòu)建一個涉及所有這些實體,并且返回第一個中心實體作為答案的自然語言查詢。通過采樣生成的復雜查詢測試集記為COMPLEX。另外,本文也在現(xiàn)有的一些公認的查詢測試集上進行了實驗。首先是Balog和Neumayer從各個查詢測試集匯總而成的包含485個實體查詢的測試集10,記為ESQ。從中來自SemSearch ES和INEX LD的測試查詢被去除,因為它們和本文實驗的測試內(nèi)容不相吻合。首先,來自SemSearch ES的大多查詢僅僅是要查找實體的名字描述,而不涉及任何關(guān)系,例如查詢“YMCA Tampa”“no

18、kia e73”等;其次,來自INEX LD的測試查詢是關(guān)鍵詞查詢,其語義模糊且標準答案集有很多噪聲。去除SemSearch ES和INEX LD之后,ESQ集合還剩255個測試查詢,又從中去除了37個-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-含有聚集操作的查詢,因為實驗中的所有系統(tǒng)都沒有考慮帶聚集操作的查詢。最后,ESQ包含218個測試查詢。不同于COMPLEX中的查詢,ESQ中的查詢是返回單個實體的查詢,而不是返回實體元組。這些查詢通常被表示為實體類型或?qū)嶓w類型加上一個實體關(guān)系的限制條件。 本文使用的第三個測試查詢集,記為ERQ11,包含28個查詢。ERQ中的22個查詢

19、和ESQ中的查詢類似,也是返回單個實體的查詢;另外6個查詢較復雜,返回實體對。5.1.3對比系統(tǒng)實驗將本文提出的系統(tǒng)和兩個典型的相關(guān)工作進行了比較。第一個系統(tǒng)記為ES,是基于Balog等13提出的方法。在此方法中,每個實體被表示為一個結(jié)構(gòu)化文檔,其中每個域?qū)?yīng)于該實體所屬于的實體類型或該實體在Wikipedia中的描述文本。本文實驗中使用的是論文中的Model 4,因為該模型在本文的測試數(shù)據(jù)集上效果最好。因為文獻13方法面向?qū)嶓w搜索,返回的都是單個實體而不能是實體元組,所以對于測試查詢集中一些返回實體元組的查詢,本文為ES系統(tǒng)專門修改成返回單個實體的查詢,然后相應(yīng)地衡量結(jié)果相關(guān)度。在本文實驗中

20、采用了該方法的強制類型-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-符合策略,即答案的實體類型必須符合查詢要求的實體類型。本文也實驗了沒有類型符合約束的版本,但檢索效果比有強制類型符合約束的差。另外,本文還嘗試將實體在XKG中出現(xiàn)的三元組內(nèi)容納入到該實體的結(jié)構(gòu)化文檔表示中,但獲得了更差的檢索效果。第二個系統(tǒng)記為ERS,是Li等12給出的在有實體標注的文本集上進行實體關(guān)系查詢的方法。在此方法中,實體和實體間關(guān)系的查詢條件都被表示為一組關(guān)鍵詞,評分模型主要依賴于查詢條件中的關(guān)鍵詞和實體變量或?qū)嶓w變量對在文本集上綁定之間的距離鄰近度。在原論文中,ERS只在Wikipedia文檔集的子

21、集上且限定在10種類型的實體上進行了實驗。在本文的實驗中,為了能公平比較,對所有系統(tǒng)使用相同的數(shù)據(jù)集和查詢集,即前兩節(jié)所述的XKG和三個測試查詢集。本文提出的系統(tǒng)記為XKGERS。本文開發(fā)實驗了兩個版本:一個是沒有使用查詢放松的XKGERS;另一個是應(yīng)用了查詢放松規(guī)則的系統(tǒng),記為XKGERS+relax。由于三個比較的系統(tǒng)使用不同類型的查詢語言,所以查詢測試集中每個用自然語言描述的信息需求被手動地將其翻譯成每個系統(tǒng)要求的查詢格式。例-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-如,“找出所有由獲圖靈獎的人發(fā)明的編程語言。”被翻譯成每個系統(tǒng)所接受的查詢?nèi)缦?程序前XKGERS:S

22、ELECT ,x ,y WHERE ,xtypeprogramming_language .,ytypeperson .,x”invented by”,y .,yhasWonPrizeTuringAwardERS:SELECT ,x ,yFROMprogramming_language,x,person,yWHERE,x:“won”, “turing award”AND,x, ,y:“invented by”ES:category: text:程序后5.2實驗結(jié)果與分析表4,6分別給出了在三個測試查詢集ESQ、ERQ和COMPLEX上的實驗結(jié)果。類似于其他同類工作,本文采用標準的P5、NDCG

23、、平均正確率均值和召回率來衡量查詢系統(tǒng)的有效性。返回空結(jié)果列表的查詢,其所有衡量指標為被設(shè)為0。-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-ESQ測試查詢集為每個查詢給出了相關(guān)結(jié)果;而ERQ和COMPLEX測試查詢集沒有給出相關(guān)結(jié)果,所以本文使用眾包機制來獲取每個測試查詢的相關(guān)結(jié)果,即每個查詢與一個結(jié)果的相關(guān)度分別由三個不同的人作出判定,然后取多數(shù)判定結(jié)果為最終結(jié)果。不同判定者之間判定一致性的Kappa系數(shù)為0.837,說明大家的結(jié)論還是非常一致的。在所有測試查詢集上使用的是二值相關(guān)度,即只有相關(guān)和不相關(guān)兩種情況。對于大多數(shù)查詢而言,很難獲得其所有的相關(guān)結(jié)果,例如“peopl

24、e born in Spain”等。因而,類似于信息檢索系統(tǒng)評測通常采用的池化方法,所有系統(tǒng)返回的相關(guān)結(jié)果被合在一起作為相關(guān)結(jié)果的全集,從而可以計算NDCG和召回率等衡量指標了。從表4可看出,對于單個實體的查詢,即ESQ測試查詢集中的查詢,本文的系統(tǒng)XKGERS+relax在各個指標上均超過了其他系統(tǒng),但是沒有應(yīng)用查詢放松的XKGERS卻不如另外兩個對比系統(tǒng)。主要原因是用戶表達查詢的方式和知識庫中知識的表達方式之間存在很大的差異。例如,查詢“Italian Nobel winners”,在XKGERS系統(tǒng)中被翻譯成含知識庫中的hasWonPrize謂詞的三元組模式。這看上去是合理的,但事實上,

25、知識庫中只給出了特定諾貝爾獎的獲得者,-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-如謂詞NobelPrizeInLiterature。在應(yīng)用了查詢放松規(guī)則的XKGERS+relax系統(tǒng)中,hasWonPrize謂詞被放松為它的一個逆轉(zhuǎn)述謂詞“winer”-1,這使得系統(tǒng)可以返回諸如這樣的從文本中抽取出的三元組,從而得到正確的答案。同時在表4中還可以看到ES和ERS系統(tǒng)的效果非常接近。這是因為對大多數(shù)單個實體查詢,ERS查詢退化成了ES查詢,即用一個類型約束和一組關(guān)鍵詞來描述目標實體,只是具體的評分模型不同而已。另外值得注意的是對一些單個實體查詢來說,基于關(guān)鍵詞的檢索方法就可以

26、得到令人滿意的結(jié)果了,例如查詢“Formula one races in Europe”“Ratt albums”等。如果讓用戶把它們表示成結(jié)構(gòu)化的三元組模式查詢反而是件困難的事。 ERQ測試查詢集共有28個查詢,其實驗結(jié)果如表5所示。其中22個查詢類似于ESQ中的查詢,也是關(guān)于單個實體的查詢,不包含實體間的關(guān)系;剩下的6個查詢是實體關(guān)系查詢,涉及到多個實體,需要返回實體元組,如查詢“Films starring Robert de Niro, and their directors”和“Novels and their Academy Award winning film adaptatio

27、ns”等。當查詢條件中的信息恰巧正確地包含在一個文檔中時,ES和ERS系統(tǒng)可以返回正確答案。但對于一些看似簡單卻-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-需要精準地理解實體間關(guān)系的實體關(guān)系查詢,由于ES和ERS系統(tǒng)只是用和關(guān)鍵詞的鄰近度來判定關(guān)系,往往會返回錯誤結(jié)果。例如,ES和ERS系統(tǒng)對查詢“football players who were FIFA Player of the Year”返回的答案中包含DavidBeckham和ThierryHenry,但他們僅是被提名該獎項,并未實際獲得此獎項;而XKGERS系統(tǒng)由于可以正確確立實體間的關(guān)系,所以可以返回該查詢的正

28、確答案。表6給出的是在COMPLEX測試查詢集上的實驗結(jié)果。要正確回答這些查詢常常需要集成從多個源獲得的知識,并能正確確立查詢中實體間的關(guān)系??梢钥吹?,對這類查詢,XKGERS+relax的表現(xiàn)遠遠超過了其他系統(tǒng)。下面一個具體的查詢示例可用來解釋其中可能的原因。例如,給定查詢“Spouses of actors whograduated from an Ivy League university”,翻譯成的三元組模式查詢?yōu)?程序前SELECT ,x ,y ,z WHERE ,x type person .,y type actor .,z type university . -最新精選范文分享

29、-謝謝觀看-最新精選范文公文分享-歡迎觀看-,x marriedTo ,y .,y graduatedFrom ,z .,z “member of”IvyLeague程序后假設(shè)擴展的知識庫XKG中存放著如下一些三元組:程序前ChristopherReevegraduatedFromJuilliardSchoolChristopherReeve“went to”CornellUniversity程序后另外,預(yù)先挖掘出的一些查詢放松規(guī)則如下:程序前: 0.06程序后可看出,該查詢需要的所有信息極少會被包含在同一個文檔中,所以 ES系統(tǒng)很難返回相關(guān)答案。知識庫雖然能夠解決這種需要鏈接不同信息片段的多

30、步查詢,但是知識庫的信息是非常不完全的,例如graduatedFrom關(guān)系在此知識庫中就沒有覆蓋所有可能的實體對。而本文提出的擴展知識庫用從文本中挖掘出的文本短語三元組補充原知識庫,并使用查詢放-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-松規(guī)則匹配語義相近的謂詞,例如graduatedFrom可以被放松為“went to”。這樣就可以返回相關(guān)答案:雖然ERS系統(tǒng)也可以回答帶有關(guān)系的查詢,但它使用實體和關(guān)系短語在文本中出現(xiàn)的鄰近距離來確立實體間的關(guān)系,所以會造成很多錯誤,例如文本中出現(xiàn)了“private and public universities including Ivy

31、League members, MIT, Vanderbilt University, Swartmore College, Cal Berkeley ”,ERS系統(tǒng)會據(jù)此確立Swartmore College屬于常春藤盟校的關(guān)系,而這是錯誤的。綜上所述,XKGERS+relax的實驗效果大大超出了所有其他比較系統(tǒng),尤其是在COMPLEX測試查詢集上。最后,分析一下XKGERS+relax系統(tǒng)的局限性。該系統(tǒng)在一些查詢上失敗的原因主要有兩大類:錯誤的事實知識和由查詢放松造成的語義漂移。錯誤的知識主要來源于實體標注中的錯誤和本文使用的過于簡單的三元組事實抽取機制。一般情況下,這些錯誤的知識的出現(xiàn)

32、頻率較小,因而與三元組模式匹配的得分較低,通常不會被返回。但對于一些正確答案很少的查詢可能會造成問題。系統(tǒng)的另一類錯誤來源于由查-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-詢放松造成的語義漂移。同樣,受這類錯誤影響最大的是那些正確答案數(shù)小于5的查詢。6結(jié)語針對現(xiàn)有的實體檢索和知識圖譜上的查詢系統(tǒng)的不足,本文著重研究了如何利用帶實體標注的文本集擴展知識庫來進行復雜的實體關(guān)系查詢的方法。首先不同于現(xiàn)有的實體檢索系統(tǒng),本文著重研究帶復雜關(guān)系的查詢,返回的是實體元組的列表而不僅是單個實體的列表;其次不同于已有的知識圖譜上的查詢系統(tǒng),本文提出使用帶實體標注的文本集來擴充原有的知識庫,從

33、而在一定程度上克服知識庫固有的不完全問題,并能彌合一部分知識表示和自然語言表示之間的距離。相應(yīng)地,本文提出了查詢放松機制和評分模型以及高效的topk查詢處理方法;最后,本文用實驗驗證了該方法的有效性。在此基礎(chǔ)上,本項目進一步的研究工作包括實驗更復雜、更精確的事實抽取方法,研究更完善和詳盡的查詢放松機制,設(shè)計更合理有效的評分模型,研究該方法的應(yīng)用實例。有關(guān)應(yīng)用實例,此方法會為記者或一些內(nèi)容分析員提供有效的幫助,他們常常要通過分析大量的文本數(shù)據(jù)來獲取、發(fā)掘或驗證相關(guān)實體間的一些復雜關(guān)系。 參考文獻: -最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-1MAUSAM第一作者就只有一個詞,

34、 SCHMITZM, SODERLAND S, et al. Open language learning for information extraction C/ Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA, USA:Association for Computational Linguistics, 2012:523-534.2

35、HOVY E H, NAVIGLI R, PONZETTO S P.Collaboratively built semistructured content and artificial intelligence: the story so far J. Artificial Intelligence,2013, 194: 2-27.3HOFFART J. Robust disambiguation of named entities in text C/ Proceedings of the 2011 Conference on Empirical Methods in Natural La

36、nguage Processing. Stroudsburg, PA, USA: Association forComputational Linguistics, 2011: 782-792.4GABRILOVICH E, MARKOVITCH C.-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-Computing semantic relatedness using Wikipediabased explicit semantic analysis C/ Proceedings of the 20th International Joint Conference on Art

37、ificial Intelligence. San Francisco: Morgan Kaufmann Publishers, 2007:1606-1611.5GALARRAGA L A, TEIOUDI C, HOSE K,et al. AMIE: association rule mining under incomplete evidence in ontological knowledge bases C/ WWW 2013: Proceedings of 22nd International World Wide Web. New York: ACM, 2013: 413-422.

38、6ZHAI C, LAFFERTY J. A study of smoothingmethods for language models applied to Ad Hoc information retrieval C/ Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2001: 334-342.7FAGIN R, LOTEM A, NAOR M. Optimalaggre

39、gation algorithms for middleware J. Journal of Computer and System Sciences, 2003,6:14-656.-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-8ILYAS I F, BESKALES G, SOLIMAN M A. Asurvey of topk query processing techniques in relational database systems J. ACM Computing Surveys, 2008,40: Article No. 11.9THEOBALD M, SCH

40、ENKEL R, WEIKUM G.Efficient and selftuning incremental query expansion for topk query processing C/ Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005: 242-249.10MILNE D, WITTEN I H. Learning to link with Wikipedia C/ Proceedings of the 17th ACM Conference on Information and Kn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論