neo4j構(gòu)建知識(shí)圖譜_第1頁
neo4j構(gòu)建知識(shí)圖譜_第2頁
neo4j構(gòu)建知識(shí)圖譜_第3頁
neo4j構(gòu)建知識(shí)圖譜_第4頁
neo4j構(gòu)建知識(shí)圖譜_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余10頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、知識(shí)圖譜篇互聯(lián)網(wǎng)、大數(shù)據(jù)的背景下,谷歌、百度、搜狗等搜索引擎紛紛基于該背景,創(chuàng)建自己的知識(shí)圖譜KnowledgeGraph(谷歌)、知心(百度)和知立方(搜狗),主要用于改進(jìn)搜索質(zhì)量。1、什么是知識(shí)圖譜一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。其中節(jié)點(diǎn)即實(shí)體,由一個(gè)全局唯一的ID標(biāo)示,關(guān)系(也稱屬性)用于連接兩個(gè)節(jié)點(diǎn)。通俗地講,知識(shí)圖譜就是把所有不同種類的信息(HeterogeneousInformation)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從關(guān)系”的角度去分析問題的能力。知識(shí)圖譜本質(zhì)上是語義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。其結(jié)點(diǎn)代表實(shí)體(entity)或者概

2、念(concept),邊代表實(shí)體/概念之間的各種語義關(guān)系。搜索引擎中使用知識(shí)圖譜,知識(shí)圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。知識(shí)圖譜(KnowledgeGraph)的構(gòu)建使信息檢索變成了實(shí)體的檢索(EntitySearch)。以下就是一個(gè)neo4j圖數(shù)據(jù)庫,由頂點(diǎn)-邊組成,常用于微博好友關(guān)系分析、城市規(guī)劃、社交、推薦等應(yīng)用。2、知識(shí)卡片知識(shí)卡片旨在為用戶提供更多與搜索內(nèi)容相關(guān)的信息,例如,當(dāng)在搜索引擎中輸入姚明”作為關(guān)鍵詞時(shí),我們發(fā)現(xiàn)搜索結(jié)果頁面的右側(cè)原先用于置放廣告的地方被知識(shí)卡片所取代。下側(cè)即使與關(guān)鍵詞匹配的文檔列表。3、知識(shí)圖譜的作用知識(shí)圖譜最早由谷歌

3、提出,主要用于優(yōu)化現(xiàn)有的搜索引擎,例如搜索姚明,除了姚明本身的信息,還可關(guān)聯(lián)出姚明的女兒、姚明的妻子等與搜索關(guān)鍵字相關(guān)的信息。也就是說搜索引擎的知識(shí)圖譜越龐大,與某關(guān)鍵字相關(guān)的信息越多,再通過分析搜索者的特指,計(jì)算出最可能想要看到的信息,通過知識(shí)圖譜可大大提高搜索的質(zhì)量和廣度。所以這也可理解為何谷歌百度等搜索引擎大頭都為之傾心,創(chuàng)建自己符合自己用戶搜索習(xí)慣的知識(shí)圖譜。據(jù)不完全統(tǒng)計(jì),Google知識(shí)圖譜到目前為止包含了5億個(gè)實(shí)體和35億條事實(shí)(形如實(shí)體-屬性-值,和實(shí)體-關(guān)系-實(shí)體)4、知識(shí)圖譜上的挖掘通過大數(shù)據(jù)抽取和集成已經(jīng)可以創(chuàng)建知識(shí)圖譜,為進(jìn)一步增加知識(shí)圖譜的知識(shí)覆蓋率,還需要進(jìn)一步對知識(shí)

4、圖譜進(jìn)行挖掘。常見的挖掘技術(shù):推理:通過規(guī)則引擎,針對實(shí)體屬性或關(guān)系進(jìn)行挖掘,用于發(fā)現(xiàn)未知的隱含關(guān)系實(shí)體重要性排序:當(dāng)查詢多個(gè)關(guān)鍵字時(shí),搜索引擎將選擇與查詢更相關(guān)的實(shí)體來展示。常見的pageRank算法計(jì)算知識(shí)圖譜中實(shí)體的重要性。三元組:就把對于客觀世界的字符串描述,轉(zhuǎn)化成了結(jié)構(gòu)化的語義描述(Vs)學(xué)生(s)0b)書(b)讀過(s,b),(每個(gè)學(xué)生都讀過一本書)RDFS推理示例軍購Etfype人工壽至心機(jī)皆E由"MPam+_人工壽輪心卻dkfuhvlii、前科技會(huì)1邛1I孫配足(冷陛東林推小才人又如此德iJCtjpi'5、知識(shí)圖譜技術(shù)架構(gòu)知識(shí)圖譜的架構(gòu),包括知識(shí)圖譜自身的邏輯

5、結(jié)構(gòu)以及構(gòu)建知識(shí)圖譜所采用的技術(shù)(體系)結(jié)構(gòu)。知識(shí)圖譜的邏輯結(jié)構(gòu)分為兩個(gè)層次:數(shù)據(jù)層和模式層。在知識(shí)圖譜的數(shù)據(jù)層,知識(shí)以事實(shí)(fact)為單位存儲(chǔ)在圖數(shù)據(jù)庫。如果以實(shí)體-關(guān)系-實(shí)體或者實(shí)體-屬性-值三元組作為事實(shí)的基本表達(dá)方式,則存儲(chǔ)在圖數(shù)據(jù)庫中的所有數(shù)據(jù)將構(gòu)成龐大的實(shí)體關(guān)系網(wǎng)絡(luò),形成知識(shí)的圖譜。模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,在模式層存儲(chǔ)的是經(jīng)過提煉的知識(shí),通常采用本體庫來管理知識(shí)圖譜的模式層,借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實(shí)體、關(guān)系以及實(shí)體的類型和屬性等對象之間的聯(lián)系。本體庫在知識(shí)圖譜中的地位相當(dāng)于知識(shí)庫的模具,擁有本體庫的知識(shí)庫冗余知識(shí)較少。OrajihConsi

6、niifm/lSpdaitFrucciDMqAcqui?ihonInfoKma1削那FAcQuiiiticnPrwt皿力工知識(shí)圖譜的構(gòu)建過程是從原始數(shù)據(jù)出發(fā),采用一系列自動(dòng)或半自動(dòng)的技術(shù)手段,從原始數(shù)據(jù)中提取出知識(shí)要素(即事實(shí)),并將其存入知識(shí)庫的數(shù)據(jù)層和模式層的過程。這是一個(gè)迭代更新的過程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代包含三個(gè)階段:信息抽取、知識(shí)融合以及知識(shí)加工。知識(shí)圖譜有自頂向下和自底向上2種構(gòu)建方式。所謂自頂向下構(gòu)建是借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識(shí)庫中;所謂自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度

7、較高的新模式,經(jīng)人工審核之后,加入到知識(shí)庫中。目前知識(shí)圖譜大多采用自底向上的方式構(gòu)建,本文也主要介紹自底向上的知識(shí)圖譜構(gòu)建技術(shù),按照知識(shí)獲取的過程分為3個(gè)層次:信息抽取、知識(shí)融合以及知識(shí)加工。6、知識(shí)圖譜構(gòu)建技術(shù)采用自底向上的方式構(gòu)建知識(shí)圖譜的過程是一個(gè)迭代更新的過程,每一輪更新包括3個(gè)步驟:信息抽取,即從各種類型的數(shù)據(jù)源中提取出實(shí)體(概念)、屬性以及實(shí)體撿的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá);知識(shí)融合,在獲得新知識(shí)后,需要對其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對應(yīng)于多個(gè)不同的實(shí)體等;知識(shí)加工,對于經(jīng)過融合的新知識(shí),需要經(jīng)過質(zhì)量評估之后(部分需要人工

8、參與甄別),才能將合格的部分加入到知識(shí)庫中,以確保知識(shí)庫的質(zhì)量,新增數(shù)據(jù)之后,可以進(jìn)行知識(shí)推理、拓展現(xiàn)有知識(shí)、得到新知識(shí)。信息抽取信息抽取是知識(shí)圖譜構(gòu)建的第一步,其中的關(guān)鍵問題是如何從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選知識(shí)單元。信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)。涉及的關(guān)鍵技術(shù)包括:命名實(shí)體識(shí)別、關(guān)系抽取和屬性抽取。命名實(shí)體識(shí)別(實(shí)體抽?。┟麑?shí)體識(shí)別(namedentityrecognition,NER)也稱實(shí)體抽取,是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。實(shí)體抽取的質(zhì)量(準(zhǔn)確率和召回率)對后續(xù)的知識(shí)獲取效率和質(zhì)量影響極大,因此是信息抽取中

9、最為基礎(chǔ)和關(guān)鍵的部分。2012年Ling等人歸納出112種實(shí)體類別,并基于條件隨機(jī)場CRF進(jìn)行實(shí)體邊界識(shí)別,最后采用自適應(yīng)感知機(jī)算法實(shí)現(xiàn)了對實(shí)體的自動(dòng)分類,取得了不錯(cuò)的效果。但是隨著互聯(lián)網(wǎng)中內(nèi)容的動(dòng)態(tài)變化,采用人工預(yù)定義實(shí)體分類體系的方式已經(jīng)很難適應(yīng)時(shí)代的需求,因此提出了面向開放域的實(shí)體識(shí)別和分類研究。在面向開放域的實(shí)體識(shí)別和分類研究中,不需要(也不可能)為每個(gè)領(lǐng)域或者每個(gè)實(shí)體類別建立單獨(dú)的語料庫作為訓(xùn)練集。因此,該領(lǐng)域面臨的主要挑戰(zhàn)是如何從給定的少量實(shí)體實(shí)例中自動(dòng)發(fā)現(xiàn)具有區(qū)分力的模型。一種思路是根據(jù)已知的實(shí)體實(shí)例進(jìn)行特征建模,利用該模型處理海量數(shù)據(jù)集得到新的命名實(shí)體列表,然后針對新實(shí)體建模,

10、迭代地生成實(shí)體標(biāo)注語料庫。另一種思路是利用搜索引擎的服務(wù)器日志,事先并不給出實(shí)體分類等信息,而是基于實(shí)體的語義特征從搜索日志中識(shí)別出命名實(shí)體,然后采用聚類算法對識(shí)別出的實(shí)體對象進(jìn)行聚類。關(guān)系抽取文本語料經(jīng)過實(shí)體抽取,得到的是一系列離散的命名實(shí)體,為了得到語義信息,還需要從相關(guān)的語料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)關(guān)系將實(shí)體(概念)聯(lián)系起來,才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu),研究關(guān)系抽取技術(shù)的目的,就是解決如何從文本語料中抽取實(shí)體間的關(guān)系這一基本問題。早期的關(guān)系抽取研究方法主要是通過人工構(gòu)造語法和語義規(guī)則。隨后,出現(xiàn)了大量基于特征向量或者核函數(shù)的有監(jiān)督學(xué)習(xí)方法,關(guān)系抽取的準(zhǔn)確性也不斷提高。但以上研究

11、成果的共同特點(diǎn)是需要預(yù)先定義實(shí)體關(guān)系類型,如雇傭關(guān)系、整體部分關(guān)系以及位置關(guān)系等。與之相對的,Banko等人提出了面向開放域的信息抽取方法框架(openinformationextraction,OIE),并發(fā)布了基于自監(jiān)督(self-supervised)學(xué)習(xí)方式的開放信息抽取原型系統(tǒng)(TextRunner),該系統(tǒng)采用少量人工標(biāo)記數(shù)據(jù)作為訓(xùn)練集,據(jù)此得到一個(gè)實(shí)體關(guān)系分類模型,再依據(jù)該模型對開放數(shù)據(jù)進(jìn)行分類,依據(jù)分類結(jié)果訓(xùn)練樸素貝葉斯模型來識(shí)別實(shí)體-關(guān)系-實(shí)體三元組,經(jīng)過大規(guī)模真實(shí)數(shù)據(jù)測試,取得了顯著優(yōu)于同時(shí)期其他方法的結(jié)果。TextRunner系統(tǒng)中錯(cuò)誤的部分主要是一些無意義或者不和邏輯的

12、實(shí)體關(guān)系三元組,據(jù)此引入語法限制條件和字典約束,采用先識(shí)別關(guān)系指示詞,然后再對實(shí)體進(jìn)行識(shí)別的策略,有效提高了關(guān)系識(shí)別準(zhǔn)確率。屬性抽取屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息。例如針對某個(gè)公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國籍、教育背景等信息。屬性抽取技術(shù)能夠從多種數(shù)據(jù)來源中匯集這些信息,實(shí)現(xiàn)對實(shí)體屬性的完整勾畫。由于可以將實(shí)體的屬性視為實(shí)體與屬性值之間的一種名詞性關(guān)系,因此也可以將屬性抽取問題視為關(guān)系抽取問題。百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是當(dāng)前實(shí)體屬性抽取研究的主要數(shù)據(jù)來源。但是還有大量的實(shí)體屬性數(shù)據(jù)隱藏在非結(jié)構(gòu)化的公開數(shù)據(jù)中。一種解決方案是基于百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)

13、據(jù),通過自動(dòng)抽取生成訓(xùn)練語料,用于訓(xùn)練實(shí)體屬性標(biāo)注模型,然后將其應(yīng)用于對非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽??;另一種方案是采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性與屬性值之間的關(guān)系模式,據(jù)此實(shí)現(xiàn)對屬性名和屬性值在文本中的定位。這種方法的基本假設(shè)是屬性名和屬性值之間在位置上有關(guān)聯(lián)關(guān)系,事實(shí)上在真實(shí)語言環(huán)境中,許多實(shí)體屬性值附近都存在一些用于限制和界定該屬性值含義的關(guān)鍵詞(屬性名),在自然語言處理技術(shù)中將這類屬性稱為有名屬性,因此可以利用這些關(guān)鍵字來定位有名屬性的屬性值。知識(shí)融合通過信息抽取,實(shí)現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體、關(guān)系以及實(shí)體屬性信息的目標(biāo),然而,這些結(jié)果中可能包含大量的冗余和錯(cuò)誤信息

14、,數(shù)據(jù)之間的關(guān)系也是扁平化的,缺乏層次性和邏輯性,因此有必要對其進(jìn)行清理和整合。知識(shí)融合包含2部分內(nèi)容:實(shí)體鏈接和知識(shí)合并。實(shí)體鏈接實(shí)體鏈接(entitylinking)是指對于從文本中抽取得到的實(shí)體對象,將其鏈接到知識(shí)庫中對應(yīng)的正確實(shí)體對象的操作。其基本思想是:首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫中選出一組候選實(shí)體對象,然后通過相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對象。實(shí)體鏈接的一般流程是:1從文本中通過實(shí)體抽取得到實(shí)體指稱項(xiàng)進(jìn)行實(shí)體消歧和共指消解,判斷知識(shí)庫中的同名實(shí)體與之是否代表不同的含義,以及知識(shí)庫中是否存在其他命名實(shí)體與之表示相同的含義2在確認(rèn)知識(shí)庫中對應(yīng)正確實(shí)體對象之后,將該實(shí)體指稱鏈

15、接到知識(shí)庫中對應(yīng)實(shí)體。實(shí)體消歧是專門用于解決同名實(shí)體產(chǎn)生歧義問題的技術(shù)。通過實(shí)體消歧,就可以根據(jù)當(dāng)前的語境,準(zhǔn)確建立實(shí)體鏈接,實(shí)體消歧主要采用聚類法。其實(shí)也可以看做基于上下文的分類問題,類似于詞性消歧和詞義消歧。共指消解技術(shù)主要用于解決多個(gè)指稱對應(yīng)同一實(shí)體對象的問題。在一次會(huì)話中,多個(gè)指稱可能指向的是同一實(shí)體對象。利用共指消解技術(shù),可以將這些指稱項(xiàng)關(guān)聯(lián)(合并)到正確的實(shí)體對象,由于該問題在信息檢索和自然語言處理等領(lǐng)域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對象對齊、實(shí)體匹配和實(shí)體同義。共指消解問題的早期研究成果主要來自自然語言處理領(lǐng)域,近年來統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)

16、者越來越多的參與到這項(xiàng)工作中。基于自然語言處理的共指消解是以句法分析為基礎(chǔ)的,代表方法是Hobbs算法和向心理論(centeringtheory)。Hobbs算法是最早的代詞消解算法之一,主要思路是基于句法分析樹進(jìn)行搜索,因此適用于實(shí)體與代詞出現(xiàn)在同一句子中的場景,有一定的局限性。向心理論的基本思想是:將表達(dá)模式(utterance)視為語篇(discourse)的基本組成單元,通過識(shí)別表達(dá)式中的實(shí)體,可以獲得當(dāng)前和后續(xù)語篇中的關(guān)注中心(實(shí)體),根據(jù)語義的局部連貫性和顯著性,就可以在語篇中跟蹤受關(guān)注的實(shí)體。隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法被引入該領(lǐng)域,共指消解技術(shù)進(jìn)入了快速發(fā)展階段,McCarthy等人首

17、次將C4.5決策樹算法也被應(yīng)用于解決共指消解問題。除了將共指消解問題視為分類問題之外,還可以將其作為聚類問題來求解。聚類法的基本思想是以實(shí)體指稱項(xiàng)為中心,通過實(shí)體聚類實(shí)現(xiàn)指稱項(xiàng)與實(shí)體對象的匹配。其關(guān)鍵問題是如何定義實(shí)體間的相似性測度。Turney基于點(diǎn)互信息來求解實(shí)體所在文檔的相似度,能夠有效的實(shí)現(xiàn)共指消解?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的共指消解方法通常受限于2個(gè)問題:訓(xùn)練數(shù)據(jù)的(特征)稀疏性和難以在不同的概念上下文中建立實(shí)體關(guān)聯(lián)。為解決該問題,Pantel等人基于Harris提出的分布相似性模型,提出了一個(gè)新的實(shí)體相似性測度模型,稱為術(shù)語相似度(termsimilarity),借助該模型可以從全局語料中

18、得到所有術(shù)語間的統(tǒng)計(jì)意義上的相似性,據(jù)此可以完成實(shí)體合并,達(dá)到共指消解的目的。知識(shí)合并在構(gòu)建知識(shí)圖譜時(shí),可以從第三方知識(shí)庫產(chǎn)品或已有結(jié)構(gòu)化數(shù)據(jù)獲取知識(shí)輸入。常見的知識(shí)合并需求有兩個(gè),一個(gè)是合并外部知識(shí)庫,另一個(gè)是合并關(guān)系數(shù)據(jù)庫。將外部知識(shí)庫融合到本地知識(shí)庫需要處理兩個(gè)層面的問題:1數(shù)據(jù)層的融合,包括實(shí)體的指稱、屬性、關(guān)系以及所屬類別等,主要的問題是如何避免實(shí)例以及關(guān)系的沖突問題,造成不必要的冗余;2通過模式層的融合,將新得到的本體融入已有的本體庫中。然后是合并關(guān)系數(shù)據(jù)庫,在知識(shí)圖譜構(gòu)建過程中,一個(gè)重要的高質(zhì)量知識(shí)來源是企業(yè)或者機(jī)構(gòu)自己的關(guān)系數(shù)據(jù)庫。為了將這些結(jié)構(gòu)化的歷史數(shù)據(jù)融入到知識(shí)圖譜中,可

19、以采用資源描述框架(RDF)作為數(shù)據(jù)模型。業(yè)界和學(xué)術(shù)界將這一數(shù)據(jù)轉(zhuǎn)換過程形象地稱為RDB2RDF,其實(shí)質(zhì)就是將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)換成RDF的三元組數(shù)據(jù)。知識(shí)加工通過信息抽取,可以從原始語料中提取出實(shí)體、關(guān)系與屬性等知識(shí)要素,再經(jīng)過知識(shí)融合,可以消除實(shí)體指稱項(xiàng)與實(shí)體對象之間的歧義,得到一系列基本的事實(shí)表達(dá)。然而事實(shí)本身并不等于知識(shí),要想最終獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)歷知識(shí)加工的過程。知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評估。本體構(gòu)建本體(ontology)是對概念進(jìn)行建模的規(guī)范,是描述客觀世界的抽象模型,以形式化的方式對概念及其之間的聯(lián)系給出明確定義。本體最大的特點(diǎn)在于

20、它是共享的,本體反映的知識(shí)是一種明確定義的共識(shí)。本體是同一領(lǐng)域內(nèi)的不同主體之間進(jìn)行交流的語義基礎(chǔ)。本體是樹狀結(jié)構(gòu),相鄰層次的節(jié)點(diǎn)(概念)之間有嚴(yán)格的IsA關(guān)系。在知識(shí)圖譜中,本體位于模式層,用于描述概念層次體系,是知識(shí)庫中知識(shí)的概念模板。本體可以采用人工編輯的方式手動(dòng)構(gòu)建(借助本體編輯軟件),也可以以數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)化方式構(gòu)建本體,其包含3個(gè)階段:實(shí)體并列關(guān)系相似度計(jì)算、實(shí)體上下位關(guān)系抽取以及本體的生成。實(shí)體并列關(guān)系相似度適用于考察任意給定的兩個(gè)實(shí)體在多大程度上屬于同一概念分類的指標(biāo)測度,相似度越高,表明這2個(gè)實(shí)體越有可能屬于同一語義類別。所謂并列關(guān)系,是相對于縱向的概念隸屬關(guān)系而言的。實(shí)體上下

21、位關(guān)系抽取是用于確定概念之間的隸屬(IsA)關(guān)系,這種關(guān)系也稱為上下位關(guān)系。本體生成階段的主要任務(wù)是對各層次得到的概念進(jìn)行聚類,并對其進(jìn)行語義類的標(biāo)定(為該類的中的實(shí)體指定1個(gè)或多個(gè)公共上位詞)。當(dāng)前主流的實(shí)體并列關(guān)系相似度計(jì)算方法有兩種:模式匹配法和分布相似度。其中,模式匹配法采用預(yù)先定義實(shí)體對模式的方法,通過模式匹配取得給定關(guān)鍵字組合在同一語料單位中共同出現(xiàn)的頻率,據(jù)此計(jì)算實(shí)體對之間的相似度。分布相似度方法的前提假設(shè)是:在相似的上下文管徑中頻繁出現(xiàn)的實(shí)體之間具有語義上的相似性。實(shí)體上下位關(guān)系抽取是該領(lǐng)域的研究重點(diǎn),主要的研究方法是基于語法模式(如Hearst模式)抽取IsA實(shí)體對。也有方法

22、利用概率模型判定IsA關(guān)系和區(qū)分上下位詞,通常會(huì)借助百科類網(wǎng)站提供的概念分類知識(shí)來幫助訓(xùn)練模型,以提高算法精度。知識(shí)推理知識(shí)推理是指從知識(shí)庫中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā),進(jìn)行計(jì)算機(jī)推理,建立實(shí)體間的新關(guān)聯(lián),從而拓展和豐富知識(shí)網(wǎng)絡(luò)。知識(shí)推理是知識(shí)圖譜構(gòu)建的重要手段和關(guān)鍵環(huán)節(jié),通過知識(shí)推理,能夠從現(xiàn)有知識(shí)中發(fā)現(xiàn)新的知識(shí)。知識(shí)推理的對象也并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值,本體的概念層次關(guān)系等。知識(shí)的推理方法可以分為2大類:基于邏輯的推理和基于圖的推理。基于邏輯的推理主要包括一階邏輯謂詞、描述邏輯以及基于規(guī)則的推理。一階謂詞邏輯建立在命題的基礎(chǔ)上,在一階謂詞邏輯中,命題被分解為個(gè)體(indiv

23、iduals)和謂詞(predication)2部分。個(gè)體是指可獨(dú)立存在的客體,可以是一個(gè)具體的事物,也可以是一個(gè)抽象的概念。謂詞是用來刻畫個(gè)體性質(zhì)及事物關(guān)系的詞。比如(A,friend,B)就是表達(dá)個(gè)體A和B關(guān)系的謂詞。對于復(fù)雜的實(shí)體關(guān)系,可以采用描述邏輯進(jìn)行推理。描述邏輯(descriptionlogic)是一種基于對象的知識(shí)表示的形式化工具,是一階謂詞邏輯的子集,它是本體語言推理的重要設(shè)計(jì)基礎(chǔ)?;谝?guī)則的推理可以利用專門的規(guī)則語言,如SWRL(semanticWebrulelanguage)?;趫D的推理方法主要基于神經(jīng)網(wǎng)絡(luò)模型或PathRanking算法。PathRanking算法的基

24、本思想是將知識(shí)圖譜視為圖(以實(shí)體為節(jié)點(diǎn),以關(guān)系或?qū)傩詾檫?,從源節(jié)點(diǎn)開始,在圖上執(zhí)行隨機(jī)游走,如果能夠通過一個(gè)路徑到達(dá)目標(biāo)節(jié)點(diǎn),則推測源和目的節(jié)點(diǎn)可能存在關(guān)系。質(zhì)量評估質(zhì)量評估也是知識(shí)庫構(gòu)建技術(shù)的重要組成部分。其意義在于:可以對知識(shí)的可信度進(jìn)行量化,通過舍棄置信度較低的知識(shí),可以保障知識(shí)庫的質(zhì)量。7、知識(shí)圖譜的應(yīng)用通過知識(shí)圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式。目前的知識(shí)圖譜技術(shù)主要用于智能語義搜索、移動(dòng)個(gè)人助理(Siri)以及深度問答系統(tǒng)(Watson),支撐這些應(yīng)用的核心技術(shù)正是知識(shí)圖譜技術(shù)。在智能語義搜索中,當(dāng)用戶發(fā)

25、起查詢時(shí),搜索引擎會(huì)借助知識(shí)圖譜的幫助對用戶查詢的關(guān)鍵詞進(jìn)行解析和推理,進(jìn)而將其映射到知識(shí)圖譜中的一個(gè)或一組概念之上,然后根據(jù)知識(shí)圖譜的概念層次結(jié)構(gòu),向用戶返回圖形化的知識(shí)結(jié)構(gòu),這就是我們在谷歌和百度的搜索結(jié)果中看到的知識(shí)卡片。在深度問答應(yīng)用中,系統(tǒng)同樣會(huì)首先在知識(shí)圖譜的幫助下對用戶使用自然語言提出的問題進(jìn)行語義分析和語法分析,進(jìn)而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句,然后在知識(shí)圖譜中查詢答案。比如,如果用戶提問:如何判斷是否感染了埃博拉病毒?,則該查詢有可能被等價(jià)變換為埃博拉病毒的癥狀有哪些?,然后再進(jìn)行推理變換,最終形成等價(jià)的三元組查詢語句,如(埃博拉,癥狀,?)和(埃博拉,征兆,?)等。如果由

26、于知識(shí)庫不完善而無法通過推理解答用戶的問題,深度問答系統(tǒng)還可以利用搜索引擎向用戶反饋搜索結(jié)果,同時(shí)根據(jù)搜。語義網(wǎng)絡(luò)是一張數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò),語義網(wǎng)絡(luò)技術(shù)向用戶提供的是一個(gè)查詢環(huán)境,其核心要義是以圖形的方式向用戶返回經(jīng)過加工和推理的知識(shí)。而知識(shí)圖譜技術(shù)則是實(shí)現(xiàn)智能化語義檢索的基礎(chǔ)和橋梁。Neo4jNeo4j是一個(gè)世界領(lǐng)先的開源圖形數(shù)據(jù)庫。它是由Neo技術(shù)使用Java語言完全開發(fā)的。從Neo4j版本2.1.3,它支持大量的節(jié)點(diǎn),關(guān)系和屬性來開發(fā)和支持企業(yè)應(yīng)用程序。Neo4j是:?一個(gè)開源?無Schema?沒有SQL?圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫是以圖形結(jié)構(gòu)的形式存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)庫。它以節(jié)點(diǎn),關(guān)系和屬性的形式存儲(chǔ)

27、應(yīng)用程序的數(shù)據(jù)。正如RDBMS(RelationalDatabaseManagementSystem)以表的行,列”的形式存儲(chǔ)數(shù)據(jù),GDBMS(GraphDatabaseManagementSystem)以圖形”的形式存儲(chǔ)數(shù)據(jù)。簡單地說,我們可以說圖數(shù)據(jù)庫主要用于存儲(chǔ)更多的連接數(shù)據(jù)。包含大量的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化的連接數(shù)據(jù)。有很多的連接數(shù)據(jù),它是非常容易存儲(chǔ)和檢索。如果我們在RDBMS數(shù)據(jù)庫中存儲(chǔ)這種更多連接的數(shù)據(jù),那么檢索或遍歷是非常困難和緩慢的。如果我們使用RDBMS數(shù)據(jù)庫來存儲(chǔ)更多連接的數(shù)據(jù),那么它們不能提供用于遍歷大量數(shù)據(jù)的適當(dāng)性能。在這些情況下,GraphDatabase提高了

28、應(yīng)用程序性能。Neo4j的特點(diǎn)?SQL就像簡單的查詢語言Neo4jCQL?它遵循屬性圖數(shù)據(jù)模型?它通過使用ApacheLucence支持索引?它支持UNIQUE約束?它它包含一個(gè)用于執(zhí)行CQL命令的UI:Neo4j數(shù)據(jù)瀏覽器?它支持完整的ACID(原子性,一致性,隔離性和持久性)規(guī)則?它采用原生圖形庫與本地GPE(圖形處理引擎)?它支持查詢的數(shù)據(jù)導(dǎo)出到JSON和XLS格式?它提供了RESTAPI,可以被任何編程語言(如Java,Spring,Scala等)訪問?它提供了可以通過任何UIMVC框架(如NodeJS)訪問的Java腳本?它支持兩種JavaAPI:CypherAPI和NativeJa

29、vaAPI來開發(fā)Java應(yīng)用程序Neo4j的優(yōu)點(diǎn)?它很容易表示連接的數(shù)據(jù)?檢索/遍歷/導(dǎo)航更多的連接數(shù)據(jù)是非常容易和快速的?它非常容易地表示半結(jié)構(gòu)化數(shù)據(jù)?Neo4jCQL查詢語言命令是人性化的可讀格式,非常容易學(xué)習(xí)?它使用簡單而強(qiáng)大的數(shù)據(jù)模型?它不需要復(fù)雜的連接來檢索連接的/相關(guān)的數(shù)據(jù),因?yàn)樗苋菀讬z索它的相鄰節(jié)點(diǎn)或關(guān)系細(xì)節(jié)沒有連接或索引Neo4j的缺點(diǎn)或限制?AS的Neo4j2.1.3最新版本,它具有支持節(jié)點(diǎn)數(shù),關(guān)系和屬性的限制。?它不支持Sharding。Neo4j-圖形理論基礎(chǔ)圖形是一組節(jié)點(diǎn)和連接這些節(jié)點(diǎn)的關(guān)系。圖形以屬性的形式將數(shù)據(jù)存儲(chǔ)在節(jié)點(diǎn)和關(guān)系中。屬性是用于表示數(shù)據(jù)的鍵值對。在圖形

30、理論中,我們可以表示一個(gè)帶有圓的節(jié)點(diǎn),節(jié)點(diǎn)之間的關(guān)系用一個(gè)箭頭標(biāo)記表示圖形數(shù)據(jù)庫數(shù)據(jù)模型的主要構(gòu)建塊是:?節(jié)點(diǎn)標(biāo)簽?關(guān)系數(shù)據(jù)瀏覽器?屬性SimpteGraph我們使用圓圈表示節(jié)點(diǎn)。使用箭頭的關(guān)系。關(guān)系是有方向性的。我們可以用Properties(鍵值對)來表示Node的數(shù)據(jù)。在這個(gè)例子中,我們在Node的Circle中表示了每個(gè)Node的Id屬性。節(jié)點(diǎn)是圖表的基本單位。它包含具有鍵值對的屬性,如下所示empno:11234(ename:"NecT1salary:35000deptno:10EmployeeNode這里NodeName="Employee”,它包含一組屬性作為

31、鍵值對,屬性是用于描述圖節(jié)點(diǎn)和關(guān)系的鍵值對。關(guān)系是圖形數(shù)據(jù)庫的另一個(gè)主要構(gòu)建塊。它連接兩個(gè)節(jié)點(diǎn),如下所示EmpNodeWorks-ForDeptNode每個(gè)關(guān)系包含一個(gè)起始節(jié)點(diǎn)和一個(gè)結(jié)束節(jié)點(diǎn),關(guān)系也可以包含屬性作為鍵值對。這里的“WORKS_FOR關(guān)系有一個(gè)屬性作為鍵值對ID=123,它代表了這種關(guān)系的一個(gè)ID。標(biāo)簽將一個(gè)公共名稱與一組節(jié)點(diǎn)或關(guān)系相關(guān)聯(lián)。節(jié)點(diǎn)或關(guān)系可以包含一個(gè)或多個(gè)標(biāo)簽。我們可以為現(xiàn)有節(jié)點(diǎn)或關(guān)系創(chuàng)建新標(biāo)簽,也可以從現(xiàn)有節(jié)點(diǎn)或關(guān)系中刪除現(xiàn)有標(biāo)簽。一旦我們安裝Neo4j,我們可以訪問Neo4j數(shù)據(jù)瀏覽器使用以下URLhttp:/localhost:7474/browser/,構(gòu)建完

32、成后可以導(dǎo)出四種格式文件,svg、png、json、csv。Neo4jCQLCQL代表Cypher查詢語言。像Oracle數(shù)據(jù)庫具有查詢語言SQL,Neo4j具有CQL作為查詢語言。?它是Neo4j圖形數(shù)據(jù)庫的查詢語言。?它是一種聲明性模式匹配語言?它遵循SQL語法。?它的語法是非常簡單且人性化、可讀的格式。?Neo4jCQL已命令來執(zhí)行數(shù)據(jù)庫操作。?Neo4jCQL支持多個(gè)子句像在哪里,順序等,以非常簡單的方式編寫非常復(fù)雜的查詢。?NNeo4jCQL支持一些功能,如字符串,Aggregation.In加入他們,它還支持一些關(guān)系功能。Neo4jCQL命令S.N叫CQL金令償用法1.eeAre&

33、#169;尾創(chuàng)建節(jié)點(diǎn),關(guān)浜用房性2.MffTCH悔家將美書點(diǎn),關(guān)去和碇:鼓據(jù)3.RETURN返國亞問祎詢站早科HEREra提哄條件1檢索數(shù)據(jù)5.DELETE般除節(jié)點(diǎn)和關(guān)系6.REMOVE刪除節(jié)點(diǎn)礫系的息性兀ORPERBf14排序排序檜祭&展8.SET用港加剪更好標(biāo)卷Neo4jCQL函數(shù)S.Nat0例表功求用法1.SB”字將串它廠因不使用與ti»勺中而3.丸Ajgfegtion聚6鋤二用于對80腿更閡亍的.3.Rela-onshp關(guān)森他們用于社盟無餐的1叼節(jié).如startrtodfejtndnode.Neo4jCQL數(shù)據(jù)類型這些數(shù)據(jù)類型與Java語言類似。它們用于定義節(jié)點(diǎn)或關(guān)系的屬性SxNOxCQL曲據(jù)類里用法Wol*r1用于由布布爾文辛:tru4,他以明2.byta由于齊不白但整特.3.short用于烝F1書位整數(shù).4.Mt用于去予32位葬用.5,Iorig汨干再示64戶隼撲,6>floAt1用于再示32位存點(diǎn)救.?.戊HjR牌用于#f64位浮點(diǎn)詡.8.char用于志亍1E佗字看.丸2葉不于表示字符甌.CREATE用于創(chuàng)建節(jié)點(diǎn):$CREATE(<node-name>:<label-name>)如:CREATE(emp:Employeeid:123,name:"Lokesh",sal:35000,de

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論