中國知識圖譜行業(yè)發(fā)展現(xiàn)狀及展望_第1頁
中國知識圖譜行業(yè)發(fā)展現(xiàn)狀及展望_第2頁
中國知識圖譜行業(yè)發(fā)展現(xiàn)狀及展望_第3頁
中國知識圖譜行業(yè)發(fā)展現(xiàn)狀及展望_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中國知識圖譜行業(yè)發(fā)展現(xiàn)狀及展望一、知識圖譜的定義及分類知識圖譜本質(zhì)上是一種把世界實體和實體關(guān)系進行相互關(guān)聯(lián)的語義網(wǎng)絡(luò),其中的節(jié)點表示實體,邊則代表實體之間的各種語義關(guān)系。在學(xué)術(shù)論文中,則根據(jù)應(yīng)用場景和技術(shù)背景等,對于知識圖譜提出了很多不同的定義??傮w來看,雖然知識圖譜沒有統(tǒng)一的定義,但是公認的知識圖譜的概念應(yīng)該包括如下幾個基本要素:知識節(jié)點(從實際對象抽象而來)、邊(節(jié)點間的關(guān)系,由實際關(guān)系抽象而來)和對象的數(shù)量(節(jié)點和邊的數(shù)量要足夠大)。知識圖譜可以從不同的角度可以將其分為不同的類型,比如從構(gòu)建方法、構(gòu)建技術(shù)、使用方式等。目前比較常用的分類方法是從應(yīng)用目標(biāo)出發(fā),將其分為通用知識圖譜和垂直知識圖譜。通用知識圖譜不面向特定的領(lǐng)域,強調(diào)的是知識的廣度,包含了大量的常識性知識;而垂直知識圖譜則面向特定領(lǐng)域,強調(diào)的是知識的深度,包含的某個領(lǐng)域的特色知識。二、知識圖譜的架構(gòu)1、邏輯架構(gòu)知識圖譜的邏輯結(jié)構(gòu)可以分為模式層和數(shù)據(jù)層兩部分。模式層在數(shù)據(jù)層之上,存儲的是經(jīng)過提煉的知識,通常采用本體等技術(shù)來管理。模式層借助本體庫對公理、規(guī)則和約束條件的支持能力來規(guī)范實體、關(guān)系以及實體類型和屬性等對象之間的聯(lián)系。數(shù)據(jù)層則主要由一系列的事實組成,知識則是以事實為單位進存儲。在知識圖譜的數(shù)據(jù)層,知識可以用事實為單位進行存儲,也可以采用“實體-關(guān)系-實體”或者“實體-屬性-性值”的三元組作為存儲方式。2、技術(shù)架構(gòu)知識圖譜的構(gòu)建方式可以分為自頂向下和自底向上兩種。自頂向下的構(gòu)建方式從結(jié)構(gòu)化資源出發(fā),通過從資源中抽取本體和模式信息,不斷地加入到知識庫中;自底向上的構(gòu)建方法則是從公開的資源中采取技術(shù)手段獲取資源,并對資源進行人工審核后再加入知識庫中。對于通用知識圖譜的構(gòu)建來講,因為具有大量百科類網(wǎng)址資源的存在,為其提供了高質(zhì)量的數(shù)據(jù)源,可以首先建立起良好的體系架構(gòu),然后從數(shù)據(jù)源中抽取所需的數(shù)據(jù),將其填充到合理的位置中即可。目前通用的知識圖譜都非常依賴這種方法,也非常依賴高質(zhì)量的數(shù)據(jù)源。而自底向上的構(gòu)建方法首先面對的可能是大量的結(jié)構(gòu)不良甚至是無結(jié)構(gòu)的數(shù)據(jù),這在實際處理中是非常困難的。后來隨著知識抽取技術(shù)的發(fā)展,自底向上的構(gòu)建方式才逐漸流行起來。但是由于垂直領(lǐng)域知識具有更為嚴(yán)格的層次結(jié)構(gòu)和表達形式,傳統(tǒng)的自頂向下或者自底向上方式都不適合直接用來構(gòu)建知識圖譜。阮彤等人提出了基于數(shù)據(jù)驅(qū)動的增量式知識圖譜構(gòu)建方法。該方法通過自頂向下的方式構(gòu)建知識圖譜的模式圖,采用自底向上的方式構(gòu)建數(shù)據(jù)圖,即保證了知識的層次性,又為數(shù)據(jù)抽取的質(zhì)量提供了保障。三、知識圖譜的關(guān)鍵技術(shù)無論圖譜的構(gòu)建模式如何(自頂向下或者自底向上),其中的關(guān)鍵技術(shù)都是相同的。從下圖中可以看出,知識抽取、知識融合、知識推理和知識應(yīng)用等都是知識圖譜體系中的關(guān)鍵技術(shù)。需要指出的是,垂直領(lǐng)域知識圖譜是源于通用知識圖譜且根植于特定行業(yè),所以其構(gòu)建中的關(guān)鍵技術(shù)與通用知識圖譜相對比,既具有類似性也具有獨特的特點。四、國內(nèi)垂直領(lǐng)域知識圖譜現(xiàn)狀知識圖譜作為一種基礎(chǔ)性資源,在促進國民經(jīng)濟各個行業(yè)的知識化方面具有重要的意義。國內(nèi)目前對于知識圖譜的應(yīng)用種類繁多,在電商平臺、企業(yè)信息、科技情報、創(chuàng)業(yè)投資、農(nóng)林科技、醫(yī)療衛(wèi)生、工業(yè)應(yīng)用、影音娛樂等不同領(lǐng)域均有應(yīng)用。國內(nèi)企業(yè)界對于知識圖譜的研究目前非?;钴S,特別是一些大型的互聯(lián)網(wǎng)企業(yè),對于知識圖譜的需求是非常強烈的。例如百度的知識圖譜自從2014年上線開始,業(yè)務(wù)規(guī)模三年間增長了大約160倍;搜狗借助基于知識圖譜的AI技術(shù),使得其移動端的搜索流量取得了快速增長;騰訊則利用自己的數(shù)據(jù)優(yōu)勢構(gòu)建了自己的社交知識圖譜,服務(wù)于眾多的產(chǎn)品;基于知識圖譜的個性化推薦系統(tǒng)則為阿里的營收增長起到了至關(guān)重要的作用。相比較于與BAT(百度、騰訊、阿里巴巴)這類大公司而言,垂直知識領(lǐng)域則是國內(nèi)創(chuàng)業(yè)公司的首選。為了彌補自己的專業(yè)領(lǐng)域數(shù)據(jù)不足等劣勢,國內(nèi)的創(chuàng)業(yè)公司往往選擇和相關(guān)領(lǐng)域的企業(yè)合作,以垂直領(lǐng)域作為市場切入點,以行業(yè)數(shù)據(jù)和知識圖譜相關(guān)技術(shù)(如自然語言處理,大數(shù)據(jù)等)作為壁壘來保證企業(yè)的成長。各類企業(yè)的積極參與,使得國內(nèi)業(yè)界的知識圖譜可以形成一個良性的閉環(huán)發(fā)展模式,進一步促進了知識圖譜本身的發(fā)展。五、基于CiteSpace軟件的研究相比較而言,更多的研究人員將CiteSpace作為一個工具,對不同領(lǐng)域的問題進行了多視角的分析探討。經(jīng)過統(tǒng)計分析,目前管理科學(xué)領(lǐng)域,如圖書情報學(xué)、管理科學(xué)與工程、公共管理與工商管理等,占據(jù)了應(yīng)用領(lǐng)域的大部分,其余的則分布在人文社科等領(lǐng)域。但是隨著該工具的應(yīng)用的普及,在自然科學(xué)領(lǐng)域的應(yīng)用也在迅速發(fā)展。從應(yīng)用方式上看,主要表現(xiàn)選擇特定領(lǐng)域,采用CNKI或者WebofScience的數(shù)據(jù)庫,搜集數(shù)據(jù),然后對該領(lǐng)域進行分析。六、知識圖譜行業(yè)發(fā)展展望國民經(jīng)濟的各個垂直領(lǐng)域?qū)τ谥R圖譜的需求是非常強烈的,知識圖譜可以應(yīng)用的范圍也是非常廣闊的,因此建設(shè)垂直領(lǐng)域知識圖譜對于經(jīng)濟社會發(fā)展是非常有必要的。目前在垂直領(lǐng)域,知識圖譜應(yīng)用的范圍還是較窄的,集中在一些可以迅速見到效益的領(lǐng)域(如電商、搜索等),且應(yīng)用的深度不夠,多是集中在圖譜的構(gòu)建上,還未在行業(yè)中真正形成使用和建設(shè)的良性循環(huán)。在未來,知識圖譜應(yīng)該作為和國家標(biāo)準(zhǔn)一樣的基礎(chǔ)知識資

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論