從應(yīng)用的角度看知識(shí)圖譜的價(jià)值和挑戰(zhàn)-胡國(guó)平(1)_第1頁(yè)
從應(yīng)用的角度看知識(shí)圖譜的價(jià)值和挑戰(zhàn)-胡國(guó)平(1)_第2頁(yè)
從應(yīng)用的角度看知識(shí)圖譜的價(jià)值和挑戰(zhàn)-胡國(guó)平(1)_第3頁(yè)
從應(yīng)用的角度看知識(shí)圖譜的價(jià)值和挑戰(zhàn)-胡國(guó)平(1)_第4頁(yè)
從應(yīng)用的角度看知識(shí)圖譜的價(jià)值和挑戰(zhàn)-胡國(guó)平(1)_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2022-3-51從應(yīng)用角度來(lái)看知識(shí)圖譜的價(jià)值和挑戰(zhàn)科大訊飛研究院 胡國(guó)平2014年10月17日 武漢2第二屆全國(guó)中文知識(shí)圖譜研討會(huì) 本次知識(shí)圖譜研討會(huì) 著重探討中文知識(shí)圖譜的構(gòu)建的資源、技術(shù)、方案、策略以及待研究問(wèn)題和挑戰(zhàn) 促進(jìn)研究單位之間以及研究界和產(chǎn)業(yè)界之間的學(xué)術(shù)交流 探索今后大規(guī)模中文知識(shí)圖譜構(gòu)建的研討與合作機(jī)制3訊飛研究院簡(jiǎn)介 科大訊飛公司(中文信息領(lǐng)域的三個(gè)上市公司之一)下設(shè)的專門從事語(yǔ)音及語(yǔ)言核心技術(shù)研究的部門 指導(dǎo)思想:用正確的方法,做有用的研究4訊飛發(fā)展史上“有用的研究”語(yǔ)音合成引擎廠商語(yǔ)音評(píng)測(cè)教育學(xué)習(xí)語(yǔ)音識(shí)別運(yùn)營(yíng)商&安全語(yǔ)音交互移動(dòng)互聯(lián)5交流內(nèi)容從應(yīng)用角度來(lái)看知識(shí)圖

2、譜的價(jià)值和挑戰(zhàn)6什么是知識(shí)圖譜(Knowledge Graph)? 知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,一般用三元組表示 知識(shí)圖譜亦可被看作是一張巨大的圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成中國(guó)國(guó)家美國(guó)日本英國(guó)北京9,634,057平方公里13.5404億2069.3萬(wàn)北緯3856東經(jīng)116203.1525億華盛頓9,629,091平方公里 北緯3853西經(jīng)7702178平方公里16410平方公里1.26億377835平方公里東京2188平方公里東經(jīng)14050北緯3544面積人口首都緯度經(jīng)度面積人口7知識(shí)圖譜構(gòu)建后臺(tái)的技術(shù)族WebWeb字典字典, , 術(shù)語(yǔ)表術(shù)語(yǔ)表,

3、, 百科百科, ,書本書本知識(shí)獲取+已有知識(shí)庫(kù)知識(shí)融合知識(shí)驗(yàn)證知識(shí)圖譜知識(shí)圖譜8現(xiàn)有的大規(guī)模知識(shí)名稱規(guī)模Yago1千萬(wàn)實(shí)體,35萬(wàn)類別,1.8億事實(shí),100種屬性,100語(yǔ)言Dbpedia4千萬(wàn)實(shí)體,250類別,5億事實(shí),6000種屬性,F(xiàn)reebase2千5百萬(wàn)實(shí)體,2000主題,1億事實(shí),4000種屬性谷歌知識(shí)圖譜5億實(shí)體名字,35億條事實(shí)NELL3百萬(wàn)實(shí)體名字,300類別500屬性,100萬(wàn)事實(shí)1千5百萬(wàn)學(xué)習(xí)規(guī)則9中文知識(shí)庫(kù) 傳統(tǒng)的語(yǔ)言類知識(shí)庫(kù),基于人工編寫方式,構(gòu)建了一系列的中小規(guī)模中文知識(shí)庫(kù) 知網(wǎng)(HowNet)董振東 和 董強(qiáng),1999 同義詞詞林梅家駒等,1996 概念層次網(wǎng)絡(luò)(

4、HNC)黃曾陽(yáng),1997 大規(guī)模事實(shí)類知識(shí)庫(kù),針對(duì)自身業(yè)務(wù)需要建立 百度知心,優(yōu)化搜索 搜狗知立方,優(yōu)化搜索 阿里巴巴知識(shí)庫(kù)(商品知識(shí)庫(kù) ) 10訊飛的一些初步嘗試11音樂(lè)領(lǐng)域任務(wù)定義:想聽(tīng)什么,想問(wèn)什么,直接說(shuō)放一首王力宏的歌(王力宏_歌手)我想聽(tīng)江南style神曲(江南style_歌曲)來(lái)一首他一定很愛(ài)你,阿杜的(阿杜_(tái)歌手_他一定很愛(ài)你_歌曲)來(lái)首兒歌(兒歌_標(biāo)簽)我想聽(tīng)一首歌吻吻的幸福 (穩(wěn)穩(wěn)的幸福_歌曲 , 需容錯(cuò))播放周杰倫的新歌 (周杰倫_歌手,歌曲屬性為“新”)周董和費(fèi)玉清合作的那首歌(周杰倫_歌手& 費(fèi)玉清_歌手)周杰倫和哪些臺(tái)灣女歌手合作過(guò)(知識(shí)問(wèn)答)神話是孫楠和誰(shuí)

5、合唱的(知識(shí)問(wèn)答)語(yǔ)音識(shí)別的突破,大大激發(fā)了語(yǔ)音理解的需求12歌手 6萬(wàn)歌曲 260萬(wàn)專輯 44萬(wàn)標(biāo)簽 2000類系統(tǒng)實(shí)現(xiàn)下載融合語(yǔ)義理解曲庫(kù)查詢語(yǔ)音識(shí)別基于互聯(lián)網(wǎng)的音樂(lè)曲庫(kù)構(gòu)建 + 基于人工規(guī)則的語(yǔ)義理解結(jié)果 生成13基于互聯(lián)網(wǎng)的音樂(lè)曲庫(kù)構(gòu)建 遇到了一系列的問(wèn)題 同一個(gè)歌曲有多個(gè)歌手演唱過(guò)的版本,甚至多個(gè)完全不同的歌曲,網(wǎng)上信息比較混亂同庾澄慶版另一首歌同庾澄慶版,但是沒(méi)有人聲,何真真是演奏者14基于互聯(lián)網(wǎng)的音樂(lè)曲庫(kù)構(gòu)建 遇到了一系列的問(wèn)題 同一個(gè)歌曲有多個(gè)歌手演唱過(guò)的版本,甚至多個(gè)完全不同的歌曲,網(wǎng)上信息比較亂 歌曲的標(biāo)簽體系比較亂,需要融合 “藍(lán)調(diào)”“布魯斯”(對(duì)應(yīng)的英文都是Blues)

6、 “慢搖”“R&B”“HIP&HOP” “戲曲”“京劇”“昆曲”“黃梅戲”(相互平行) “純音樂(lè)”“鋼琴曲”“古箏”“薩克斯” 歌曲名、歌手名很隨意 我想給我的朋友點(diǎn)首我愛(ài)你中國(guó)這首歌15音樂(lè)曲庫(kù)重構(gòu) 音樂(lè)曲庫(kù)重構(gòu) 以事件本體為依據(jù)重構(gòu)音樂(lè)本體庫(kù),替換三元組方案16音樂(lè)曲庫(kù)重構(gòu)細(xì)化細(xì)化新增17基于人工規(guī)則的語(yǔ)義理解神話是孫楠和誰(shuí)合唱的?文法解析知識(shí)庫(kù)查詢SPARQL查詢語(yǔ)句生成答案生成孫楠和韓紅合唱了神話韓紅歌手 6萬(wàn)歌曲 260萬(wàn)專輯 44萬(wàn)標(biāo)簽 2000類param:singer孫楠#param:song神話#predicate:chorusWith神話是孫楠和誰(shuí)合唱的查詢

7、神話這首歌曲的演唱者,演唱者要包括孫楠,輸出還包括的另外一個(gè)演唱者文法規(guī)則模板18基于曲庫(kù)資源的理解和糾錯(cuò)識(shí)別結(jié)果:我是你的安東尼演唱的文法規(guī)則: 歌曲名歌手名演唱的容錯(cuò)結(jié)果:倪安東(歌手名)我是你的(歌曲名) 識(shí)別結(jié)果:汪峰的北京青年文法規(guī)則:歌手名的歌曲名容錯(cuò)結(jié)果:汪峰(歌手名)北京北京(歌曲名) 19訊飛的一些初步嘗試 音樂(lè)領(lǐng)域 10086客服領(lǐng)域20智能客服領(lǐng)域智能客服:改變傳統(tǒng)的按鍵式自助服務(wù),用戶使用自然語(yǔ)音與系統(tǒng)交互,實(shí)現(xiàn)菜單扁平化,提升用戶滿意度,減輕人工服務(wù)壓力,降低運(yùn)營(yíng)成本。10086智能客服1.幫我查詢?cè)捹M(fèi)。2.辦理彩鈴業(yè)務(wù)。3.開(kāi)通5元30M套餐。4.我要交100元話費(fèi)

8、1.怎樣退訂國(guó)內(nèi)移動(dòng)數(shù)據(jù)5元?2.辦兩城一家后給省內(nèi)打電話,是怎么收費(fèi)的?3.怎么辦理10元100M流量包?4.我要到新加坡去旅游,需要辦什么手續(xù)?業(yè)務(wù)辦理類:業(yè)務(wù)咨詢類:21總體思路結(jié)構(gòu)化知識(shí)庫(kù)移動(dòng)作業(yè)手冊(cè)22原始文檔知識(shí)庫(kù)安徽移動(dòng)Web版知識(shí)庫(kù)23人工參與的本體知識(shí)庫(kù)構(gòu)建領(lǐng)域?qū)<椅臋n知識(shí)庫(kù)本體概念設(shè)計(jì)ontology標(biāo)注模板人工標(biāo)注標(biāo)注結(jié)果實(shí)例化本體知識(shí)庫(kù)24知識(shí)庫(kù)結(jié)構(gòu)個(gè)人業(yè)務(wù)描述框架25知識(shí)庫(kù)結(jié)構(gòu)個(gè)人信息描述框架26知識(shí)庫(kù)結(jié)構(gòu)主套餐描述框架27知識(shí)庫(kù)結(jié)構(gòu)當(dāng)前規(guī)模:106屬性,100業(yè)務(wù),3102個(gè)三元組完整知識(shí)庫(kù)結(jié)構(gòu)28基于本體庫(kù)的咨詢問(wèn)答服務(wù)基于槽信息抽取的問(wèn)題理解基于SparQL答案

9、生成語(yǔ)義框架表示咨詢類問(wèn)題問(wèn)題:怎么辦理10元100M流量包?答案答案:對(duì)不起,沒(méi)有找到10元100M的流量套餐,但是有以下套餐:10元70M;5元30M;50元500M.Select ?money ?amount ?open_way ?busi has_name“流量”. ?busi contain_pack ?pack. ?pack has_money ?money.?pack has_amount ?amount. ?pack has_open_way ?open_way問(wèn)題焦點(diǎn) 開(kāi)通方式問(wèn)題類型 怎么操作 開(kāi)通業(yè)務(wù) 流量金額 10元數(shù)量 100M 詞匯級(jí)句子級(jí)29基于本體庫(kù)的咨詢問(wèn)答服

10、務(wù)基于槽信息抽取的問(wèn)題理解基于SparQL答案生成語(yǔ)義框架表示咨詢類問(wèn)題問(wèn)句:辦兩城一家后給省內(nèi)打電話,是怎么收費(fèi)的?答案答案:開(kāi)通后省內(nèi)定點(diǎn)市打電話每分鐘0.29元Select ?money ?amount ?open_way ?busi has_name“兩城一家” .問(wèn)題焦點(diǎn) 開(kāi)通方式問(wèn)題類型 怎么操作 開(kāi)通業(yè)務(wù) 流量金額 10元數(shù)量 100M 詞匯級(jí)句子級(jí)業(yè)務(wù)名稱:兩城一家省內(nèi)套餐關(guān)鍵動(dòng)詞:是、撥打、收費(fèi)參 數(shù):地區(qū)-省內(nèi)關(guān)鍵名詞:兩城一家、電話問(wèn)題類型:how問(wèn)題焦點(diǎn):資費(fèi)30題目(改編自2012年海南省高考文綜地理試卷)7月1日下列城市白晝最長(zhǎng)的是?A. 悉尼 B. 上海 C. 雅

11、加達(dá) D. 莫斯科題目理解知識(shí)庫(kù)檢索邏輯推理7月1日左右,北半球晝長(zhǎng)夜短緯度越高晝?cè)介L(zhǎng)悉尼南緯33度55 分上海北緯31度11分雅加達(dá)南緯6度10分莫斯科北緯55度45分莫斯科北緯度最高莫斯科白晝最長(zhǎng),選D常識(shí)知識(shí)獲取考察四個(gè)城市,按daytime(city, 7月1日)排序,取最大值的一個(gè)答案863類人答題任務(wù)難度分析類人答題系統(tǒng)的研發(fā)需要多種知識(shí)庫(kù)的支撐!31交流內(nèi)容從應(yīng)用角度來(lái)看知識(shí)圖譜的價(jià)值和挑戰(zhàn)32人工智能的三個(gè)階段計(jì)算智能感知智能認(rèn)知智能能存會(huì)算能聽(tīng)會(huì)說(shuō)、能看會(huì)認(rèn)能理解會(huì)思考33一、知識(shí)圖譜研發(fā)需區(qū)分并針對(duì)應(yīng)用應(yīng)用場(chǎng)景搜索:展示及優(yōu)化搜索結(jié)果音樂(lè):難在構(gòu)建曲庫(kù)客服:對(duì)自動(dòng)客服的幫助有限和NLP一樣,不同應(yīng)用場(chǎng)景,對(duì)知識(shí)圖譜的需求點(diǎn)和難點(diǎn)差別很大潛在應(yīng)用價(jià)值的發(fā)現(xiàn),能拉動(dòng)知識(shí)圖譜的研究水平和投入的提升答題:需要各種常識(shí)和學(xué)科知識(shí)庫(kù)34二、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論