![基于知識(shí)的智能問答技術(shù).doc_第1頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/14/c5dc7696-9c39-474e-8a33-42938a4b0edd/c5dc7696-9c39-474e-8a33-42938a4b0edd1.gif)
![基于知識(shí)的智能問答技術(shù).doc_第2頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/14/c5dc7696-9c39-474e-8a33-42938a4b0edd/c5dc7696-9c39-474e-8a33-42938a4b0edd2.gif)
![基于知識(shí)的智能問答技術(shù).doc_第3頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/14/c5dc7696-9c39-474e-8a33-42938a4b0edd/c5dc7696-9c39-474e-8a33-42938a4b0edd3.gif)
![基于知識(shí)的智能問答技術(shù).doc_第4頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/14/c5dc7696-9c39-474e-8a33-42938a4b0edd/c5dc7696-9c39-474e-8a33-42938a4b0edd4.gif)
![基于知識(shí)的智能問答技術(shù).doc_第5頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/14/c5dc7696-9c39-474e-8a33-42938a4b0edd/c5dc7696-9c39-474e-8a33-42938a4b0edd5.gif)
免費(fèi)預(yù)覽已結(jié)束,剩余4頁(yè)可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
題目:基于知識(shí)的智能問答技術(shù)(PDF)作者:許坤,馮巖松(北京大學(xué))作者簡(jiǎn)介:許坤,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所博士生,研究方向?yàn)榛谥R(shí)庫(kù)的智能問答技術(shù),已連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫(kù)的知識(shí)問答評(píng)測(cè)QALD-4, 5, 6中獲得第一名。馮巖松,北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究所講師。2011年畢業(yè)于英國(guó)愛丁堡大學(xué),獲得信息科學(xué)博士學(xué)位。主要研究方向包括自然語(yǔ)言處理、信息抽取、智能問答以及機(jī)器學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用;研究小組已連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫(kù)的知識(shí)問答評(píng)測(cè)QALD中獲得第一名;相關(guān)工作已發(fā)表在TPAMI、ACL、EMNLP等主流期刊與會(huì)議上。作為項(xiàng)目負(fù)責(zé)人或課題骨干已承擔(dān)多項(xiàng)國(guó)家自然科學(xué)基金及科技部863計(jì)劃項(xiàng)目。分別在 2014 和 2015 年獲得 IBM Faculty Award。引言近年來,信息抽取技術(shù)的快速發(fā)展使得快速構(gòu)建大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化知識(shí)庫(kù)成為可能。一大批結(jié)構(gòu)化知識(shí)庫(kù)如雨后春筍般涌現(xiàn)出來,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微軟ProBase、搜狗知立方及百度等企業(yè)內(nèi)部的知識(shí)圖譜等。同時(shí),這些大規(guī)模知識(shí)庫(kù)也被應(yīng)用于關(guān)聯(lián)檢索、個(gè)性化推薦、知識(shí)問答等任務(wù)中。相比于傳統(tǒng)基于文本檢索的問答系統(tǒng),利用知識(shí)庫(kù)回答自然語(yǔ)言問題可以為用戶提供更精確、簡(jiǎn)潔的答案,因此一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前基于知識(shí)庫(kù)的問答技術(shù)可以大致分為兩類。第一類基于語(yǔ)義解析的方法。這類方法通過學(xué)習(xí)相關(guān)語(yǔ)法將自然語(yǔ)言轉(zhuǎn)問題轉(zhuǎn)換成可以用來描述語(yǔ)義的形式化語(yǔ)言,如邏輯表達(dá)式等。構(gòu)建這樣的語(yǔ)義解析器需要大量的標(biāo)注數(shù)據(jù),例如,自然語(yǔ)言問題及其對(duì)應(yīng)的語(yǔ)義描述形式。然而,針對(duì)Freebase這樣大規(guī)模的結(jié)構(gòu)化知識(shí)庫(kù),在實(shí)際中很難收集到足夠多的高質(zhì)量訓(xùn)練數(shù)據(jù)。另外,語(yǔ)義描述形式與知識(shí)庫(kù)的結(jié)構(gòu)之間的不匹配也是這類方法普遍遇到的一個(gè)問題,例如,在Freebase中并沒有“爸爸”或“媽媽”這樣的謂詞關(guān)系,只有“父母”,因此,如果想表示 “A 是 B的母親”這樣的關(guān)系,則需明確表示為“” 并且 “”。 另一類知識(shí)問答技術(shù)是傳統(tǒng)的基于信息檢索的方法。這類方法不會(huì)將自然語(yǔ)言問題完全轉(zhuǎn)換成形式化的語(yǔ)義描述,而是首先利用實(shí)體鏈接技術(shù)從知識(shí)庫(kù)中收集候選答案集合,然后構(gòu)建排序模型對(duì)候選答案進(jìn)行排序。因?yàn)椴恍枰暾亟馕鲎匀徽Z(yǔ)言問題的語(yǔ)義結(jié)構(gòu),因此,這類方法構(gòu)造訓(xùn)練數(shù)據(jù)的過程相對(duì)簡(jiǎn)單,只需收集問題答案對(duì)即可。實(shí)驗(yàn)表明,基于檢索的方法對(duì)語(yǔ)義簡(jiǎn)單的自然語(yǔ)言問題比較有效,但是難以處理語(yǔ)義結(jié)構(gòu)復(fù)雜的問題,尤其是包含多個(gè)實(shí)體和關(guān)系的自然語(yǔ)言問題。例如,對(duì)于自然語(yǔ)言問題“What mountain is the highest in North America?”,檢索類的方法由于缺乏對(duì)highest的正確解析,通常會(huì)將所有坐落在北美的山脈返回給用戶。事實(shí)上,為了得到正確的答案,問答系統(tǒng)還需要根據(jù)山脈高度對(duì)候選答案進(jìn)行排序,并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規(guī)則對(duì)答案進(jìn)行篩選,費(fèi)時(shí)費(fèi)力。此外,由于自然語(yǔ)言描述的多樣性,人們也無法事先窮舉所有這樣的規(guī)則。 然而事實(shí)上,F(xiàn)reebase這樣的結(jié)構(gòu)化知識(shí)庫(kù)希望存儲(chǔ)關(guān)于真實(shí)世界的知識(shí)條目,而像維基百科頁(yè)面這樣的文本百科資源則存儲(chǔ)支持這些事實(shí)的文本描述。例如,在維基百科頁(yè)面中,我們可以找到一段與候選答案有關(guān)的文本Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。很明顯可以看出,這段文本描述可以幫助我們提升 Denali 或者 Mount McKinley 作為正確答案的置信度,并過濾掉候選集中的錯(cuò)誤答案。正是受到這個(gè)發(fā)現(xiàn)的啟發(fā),我們提出同時(shí)利用結(jié)構(gòu)化知識(shí)庫(kù)與可信的文本百科資源,如維基百科頁(yè)面,來回答知識(shí)類自然語(yǔ)言問題?;诙喾N知識(shí)資源的問答技術(shù)框架圖1:針對(duì)問題who did shaq first play for的流程圖以樣例問題 who did shaq first play for的處理流程為例,圖1展示了融合多種知識(shí)資源的問答框架。該問答系統(tǒng)框架主要包含基于結(jié)構(gòu)化知識(shí)庫(kù)Freebase的問題求解和基于非結(jié)構(gòu)化知識(shí)資源Wikipedia文本的淺層推理。 基于結(jié)構(gòu)化知識(shí)庫(kù)的問題求解基于結(jié)構(gòu)化知識(shí)資源的問題求解部分只需給出候選答案集合即可,因此既可采用基于語(yǔ)義解析的方法,也可以直接采用基于檢索的方法來實(shí)現(xiàn)。這里我們采用的是基于檢索的方案,主要包括實(shí)體鏈接,關(guān)系抽取,以及這兩部分的聯(lián)合消解三大部分。1) 實(shí)體鏈接實(shí)體鏈接在知識(shí)類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實(shí)體候選,以前面的問題為例,我們可以利用POS序列NN識(shí)別出實(shí)體shaq。對(duì)于識(shí)別出來的實(shí)體候選,我們使用實(shí)體鏈接工具S-MART獲取可以潛在鏈接到Freebase的5個(gè)候選實(shí)體。具體而言,對(duì)給定的實(shí)體候選,S-MART首先根據(jù)字符串相似度從Freebase中獲取一些候選實(shí)體,然后利用統(tǒng)計(jì)模型根據(jù)知識(shí)庫(kù)實(shí)體與實(shí)體候選之間的共現(xiàn)頻率計(jì)算出一個(gè)得分并排序,最終給出實(shí)體鏈接結(jié)果。2) 關(guān)系抽取關(guān)系抽取用于識(shí)別問句中的實(shí)體與答案(疑問詞)之間的語(yǔ)義關(guān)系。我們使用多通道卷積神經(jīng)網(wǎng)絡(luò)來確定自然語(yǔ)言問題中實(shí)體與答案之間存在的關(guān)系。具體地講,我們使用兩個(gè)通道,一個(gè)通道捕捉句法信息,另一個(gè)通道捕捉上下文信息。每個(gè)通道的卷積層接受一個(gè)長(zhǎng)度不固定的輸入,但是返回一個(gè)固定長(zhǎng)度的向量(我們使用最大采樣法)。這些固定長(zhǎng)度的向量被拼接在一起形成最后softmax分類器的輸入,該分類器的輸出向量維度等于關(guān)系類別的總數(shù),每一維的值等于映射到對(duì)應(yīng)知識(shí)庫(kù)謂詞的置信度。3) 實(shí)體和關(guān)系的聯(lián)合消歧通常情況下的實(shí)體鏈接與實(shí)體關(guān)系抽取都是獨(dú)立預(yù)測(cè)的,因而不可避免的會(huì)存在流水線框架下常見的錯(cuò)誤傳遞現(xiàn)象。因此,我們提出了一種聯(lián)合優(yōu)化模型從實(shí)體鏈接和關(guān)系抽取的候選結(jié)果中選擇一個(gè)全局最優(yōu)的“實(shí)體-關(guān)系”配置。這個(gè)挑選全局最優(yōu)配置的過程本質(zhì)上可以被視作一個(gè)排序問題,即,“合理”的實(shí)體-關(guān)系配置在知識(shí)庫(kù)中應(yīng)更常見,應(yīng)該有更高的得分。我們主要依賴從知識(shí)庫(kù)中抽取的三類特征,即實(shí)體特征、關(guān)系特征和答案的特別特征。 基于Wikipedia文本描述的淺層推理基于結(jié)構(gòu)化知識(shí)庫(kù)求解的候選答案集,我們從維基百科文本資源中收集候選答案的支持文本,并訓(xùn)練答案過濾器對(duì)候選答案集進(jìn)行篩選,以得到更準(zhǔn)確的答案。1) 數(shù)據(jù)預(yù)處理具體地講,我們首先從維基百科中找出描述自然語(yǔ)言問題中實(shí)體的頁(yè)面。我們抽取維基百科頁(yè)面的內(nèi)容,并利用Wikifier識(shí)別句子中的維基百科實(shí)體,再利用Freebae API將這些實(shí)體映射到Freebase中的實(shí)體。最后在頁(yè)面中尋找包含候選答案的句子當(dāng)做支持文本。2) 答案過濾模型 我們將淺層推理的過程抽象為一個(gè)面向候選答案的二分類任務(wù)。在實(shí)驗(yàn)中,我們使用LibSVM來訓(xùn)練該二分類器。該分類器主要使用的特征是詞級(jí)別配對(duì)特征,其中第一個(gè)部分來自給定的問題,而第二個(gè)部分來自維基百科中的支持文本。更形式化地,給定一個(gè)問題q = 和一個(gè)作為支持文本的句子s = ,其中記q和s中的單詞分別為qi和sj。對(duì)每個(gè)問題與支持文本對(duì)(q,s),我們可以生成詞級(jí)別配對(duì)特征集合(qi,sj),這些詞對(duì)出現(xiàn)的次數(shù)作為特征用來訓(xùn)練分類器。需要指出的是,這里僅嘗試了最簡(jiǎn)單的二分類方式,主要目的是檢驗(yàn)附加文本資源的作用;而使用線性優(yōu)化、或神經(jīng)網(wǎng)絡(luò)等更精巧的融合方式可能會(huì)帶來更明顯的準(zhǔn)確率提升。實(shí)驗(yàn)我們使用WebQuestions數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。該數(shù)據(jù)集一共包含5810個(gè)自然語(yǔ)言問題以及答案。其中訓(xùn)練集包含3778個(gè)問題(65%),測(cè)試集包含2032個(gè)問題(35%)。我們使用答案的平均F1值來評(píng)測(cè)本框架。表1給出了不同方法在WebQuestions數(shù)據(jù)集上的結(jié)果。方法平均F1(Bast et al. 2015)49.4(Berant et al. 2015)49.7(Reddy et al. 2016)50.3(Yih et al.2015)52.5本研究工作Structured44.1Structured + Joint47.1Structured + Unstructured47.0Structured + Joint + Unstructured53.3表1基于關(guān)系抽取問答技術(shù)在WebQuestions數(shù)據(jù)集上的結(jié)果 為了確定所提出框架中不同模塊的重要性,我們?cè)敿?xì)比較了以下幾種模型變種的結(jié)果。Structured 該方法只包含基于結(jié)構(gòu)化知識(shí)庫(kù)Freebase的問題求解。具體地講,我們首先進(jìn)行實(shí)體鏈接,將自然語(yǔ)言問題中包含的實(shí)體名詞映射到Freebase中的實(shí)體,其中得分最高的實(shí)體被當(dāng)做結(jié)果。然后我們進(jìn)行關(guān)系抽取并從候選關(guān)系中選擇與實(shí)體最匹配的關(guān)系當(dāng)做最終的實(shí)體-關(guān)系配置。最后,我們使用這個(gè)實(shí)體-關(guān)系配置來預(yù)測(cè)問題的答案。Structured + Joint 與上面的方法略有不同,這個(gè)方法使用聯(lián)合消歧的方法去選擇全局最優(yōu)的實(shí)體-關(guān)系組合,并進(jìn)行基于結(jié)構(gòu)化知識(shí)庫(kù)的問題解答。Structured + Unstructured 這個(gè)方法里,我們使用流水線的實(shí)體鏈接和關(guān)系抽取結(jié)果進(jìn)行基于結(jié)構(gòu)化知識(shí)庫(kù)的問題求解,進(jìn)而,利用基于維基百科的淺層推理來篩選答案。Structured + Joint + Unstructured 這是我們所提出的融合多種知識(shí)資源的完整的問答框架。我們首先在結(jié)構(gòu)化知識(shí)庫(kù)Freebase上進(jìn)行問題求解,即,進(jìn)行實(shí)體鏈接和關(guān)系抽取的聯(lián)合優(yōu)化,并在Freebase上獲得候選答案集合;在此基礎(chǔ)上進(jìn)行基于文本的淺層推理,即,從維基百科中抽取答案支持文本,并對(duì)候選答案進(jìn)行篩選,獲得最終答案。從表1中的結(jié)果,我們可以發(fā)現(xiàn)實(shí)體鏈接和關(guān)系抽取的聯(lián)合推理結(jié)果會(huì)優(yōu)于流水線方法,整體效果提高了3%,并且比大部分語(yǔ)義解析的方法要好。另一方面,與(Yih et al. 2015)利用人工編寫規(guī)則的工作相比,融合結(jié)構(gòu)化知識(shí)庫(kù)與文本知識(shí)資源的方法在問答準(zhǔn)確率上整體提高了0.8%,這進(jìn)一步說明了恰當(dāng)?shù)氖褂梅墙Y(jié)構(gòu)化的文本知識(shí)資源可以在很大程度上代替人工編寫規(guī)則來輔助回答自然語(yǔ)言問題。本文提出的融合不同知識(shí)資源的問題解答框架具有較好的可擴(kuò)展性,無論在結(jié)構(gòu)化知識(shí)庫(kù)求解部分,還是多種資源的融合利用方面都可進(jìn)一步改進(jìn),以更大限度的發(fā)揮不同資源之間的互補(bǔ)作用,提高知識(shí)類問題的解答精度。參考文獻(xiàn) Hannah Bast, Elmar Haussmann. More Accurate Question Answering on Freebase. CIKM. 2015, 1431-1440 Jonathan Berant, Percy Liang. Imitation Learning of Agenda-based Semantic ParsersJ. Transactions of the Association for Computational Linguistics. 2015, 3:545558 Siva Reddy, Oscar Tckstrm, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata. Transforming Dependency Structures to Logical Forms for Semantic ParsingJ. Transactions of the Association for Computational Linguistics. 2016, 4: 127-140 Kun Xu; Siva Reddy; Yansong Feng; Songfang Huang; Dongyan Zhao Question Answering on Freebase via Relation Extraction and Textual Evidence. ACL 2016, Kun Xu; Yansong Feng; Songfang Huang; Dongyan Zhao, Hybrid Question Answering over Knowledge Base and Free Text, COLING 2016 Yi Yang; Ming-Wei Chang, S-MART: Novel Tree-based Struc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 陳倉(cāng)區(qū)小學(xué)數(shù)學(xué)試卷
- 礦井防雷檢測(cè)基礎(chǔ)施工方案
- 奇偶層層鋁模施工方案
- 經(jīng)濟(jì)學(xué)研究挑戰(zhàn)與突破
- 2023年關(guān)于消防通知四篇
- 湘教版數(shù)學(xué)八年級(jí)上冊(cè)2.5《全等三角形的判定(ASA)》聽評(píng)課記錄
- 2025年專業(yè)級(jí)腳手架租賃與定期檢查合同范本
- 2025年度海洋生物資源運(yùn)輸保險(xiǎn)協(xié)議(2025年度)
- 部編人教版歷史九年級(jí)上冊(cè)第20課《第一次工業(yè)革命》聽課評(píng)課記錄
- 人教版數(shù)學(xué)七年級(jí)下冊(cè)第56課時(shí)《9.3一元一次不等式組(一)》聽評(píng)課記錄
- 烤煙生產(chǎn)沿革
- GB 1886.227-2016食品安全國(guó)家標(biāo)準(zhǔn)食品添加劑嗎啉脂肪酸鹽果蠟
- 毛澤東思想課件-第七章 毛澤東思想的活的靈魂
- 公共關(guān)系效果的評(píng)估課件
- 建筑施工安全員理論考核試題與答案
- 高速公路用地勘測(cè)定界及放線定樁技術(shù)標(biāo)書
- 建筑工程節(jié)后復(fù)工自查表
- 華萊士標(biāo)準(zhǔn)化體系
- 快捷smt全自動(dòng)物料倉(cāng)儲(chǔ)方案
- keysight眼圖和抖動(dòng)噪聲基礎(chǔ)知識(shí)與測(cè)量方法
- 鍋爐補(bǔ)給水陰陽(yáng)混床操作步序表
評(píng)論
0/150
提交評(píng)論