




免費(fèi)預(yù)覽已結(jié)束,剩余4頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
題目:基于知識的智能問答技術(shù)(PDF)作者:許坤,馮巖松(北京大學(xué))作者簡介:許坤,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所博士生,研究方向?yàn)榛谥R庫的智能問答技術(shù),已連續(xù)三年在面向結(jié)構(gòu)化知識庫的知識問答評測QALD-4, 5, 6中獲得第一名。馮巖松,北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究所講師。2011年畢業(yè)于英國愛丁堡大學(xué),獲得信息科學(xué)博士學(xué)位。主要研究方向包括自然語言處理、信息抽取、智能問答以及機(jī)器學(xué)習(xí)在自然語言處理中的應(yīng)用;研究小組已連續(xù)三年在面向結(jié)構(gòu)化知識庫的知識問答評測QALD中獲得第一名;相關(guān)工作已發(fā)表在TPAMI、ACL、EMNLP等主流期刊與會(huì)議上。作為項(xiàng)目負(fù)責(zé)人或課題骨干已承擔(dān)多項(xiàng)國家自然科學(xué)基金及科技部863計(jì)劃項(xiàng)目。分別在 2014 和 2015 年獲得 IBM Faculty Award。引言近年來,信息抽取技術(shù)的快速發(fā)展使得快速構(gòu)建大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化知識庫成為可能。一大批結(jié)構(gòu)化知識庫如雨后春筍般涌現(xiàn)出來,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微軟ProBase、搜狗知立方及百度等企業(yè)內(nèi)部的知識圖譜等。同時(shí),這些大規(guī)模知識庫也被應(yīng)用于關(guān)聯(lián)檢索、個(gè)性化推薦、知識問答等任務(wù)中。相比于傳統(tǒng)基于文本檢索的問答系統(tǒng),利用知識庫回答自然語言問題可以為用戶提供更精確、簡潔的答案,因此一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前基于知識庫的問答技術(shù)可以大致分為兩類。第一類基于語義解析的方法。這類方法通過學(xué)習(xí)相關(guān)語法將自然語言轉(zhuǎn)問題轉(zhuǎn)換成可以用來描述語義的形式化語言,如邏輯表達(dá)式等。構(gòu)建這樣的語義解析器需要大量的標(biāo)注數(shù)據(jù),例如,自然語言問題及其對應(yīng)的語義描述形式。然而,針對Freebase這樣大規(guī)模的結(jié)構(gòu)化知識庫,在實(shí)際中很難收集到足夠多的高質(zhì)量訓(xùn)練數(shù)據(jù)。另外,語義描述形式與知識庫的結(jié)構(gòu)之間的不匹配也是這類方法普遍遇到的一個(gè)問題,例如,在Freebase中并沒有“爸爸”或“媽媽”這樣的謂詞關(guān)系,只有“父母”,因此,如果想表示 “A 是 B的母親”這樣的關(guān)系,則需明確表示為“” 并且 “”。 另一類知識問答技術(shù)是傳統(tǒng)的基于信息檢索的方法。這類方法不會(huì)將自然語言問題完全轉(zhuǎn)換成形式化的語義描述,而是首先利用實(shí)體鏈接技術(shù)從知識庫中收集候選答案集合,然后構(gòu)建排序模型對候選答案進(jìn)行排序。因?yàn)椴恍枰暾亟馕鲎匀徽Z言問題的語義結(jié)構(gòu),因此,這類方法構(gòu)造訓(xùn)練數(shù)據(jù)的過程相對簡單,只需收集問題答案對即可。實(shí)驗(yàn)表明,基于檢索的方法對語義簡單的自然語言問題比較有效,但是難以處理語義結(jié)構(gòu)復(fù)雜的問題,尤其是包含多個(gè)實(shí)體和關(guān)系的自然語言問題。例如,對于自然語言問題“What mountain is the highest in North America?”,檢索類的方法由于缺乏對highest的正確解析,通常會(huì)將所有坐落在北美的山脈返回給用戶。事實(shí)上,為了得到正確的答案,問答系統(tǒng)還需要根據(jù)山脈高度對候選答案進(jìn)行排序,并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規(guī)則對答案進(jìn)行篩選,費(fèi)時(shí)費(fèi)力。此外,由于自然語言描述的多樣性,人們也無法事先窮舉所有這樣的規(guī)則。 然而事實(shí)上,F(xiàn)reebase這樣的結(jié)構(gòu)化知識庫希望存儲(chǔ)關(guān)于真實(shí)世界的知識條目,而像維基百科頁面這樣的文本百科資源則存儲(chǔ)支持這些事實(shí)的文本描述。例如,在維基百科頁面中,我們可以找到一段與候選答案有關(guān)的文本Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。很明顯可以看出,這段文本描述可以幫助我們提升 Denali 或者 Mount McKinley 作為正確答案的置信度,并過濾掉候選集中的錯(cuò)誤答案。正是受到這個(gè)發(fā)現(xiàn)的啟發(fā),我們提出同時(shí)利用結(jié)構(gòu)化知識庫與可信的文本百科資源,如維基百科頁面,來回答知識類自然語言問題?;诙喾N知識資源的問答技術(shù)框架圖1:針對問題who did shaq first play for的流程圖以樣例問題 who did shaq first play for的處理流程為例,圖1展示了融合多種知識資源的問答框架。該問答系統(tǒng)框架主要包含基于結(jié)構(gòu)化知識庫Freebase的問題求解和基于非結(jié)構(gòu)化知識資源Wikipedia文本的淺層推理。 基于結(jié)構(gòu)化知識庫的問題求解基于結(jié)構(gòu)化知識資源的問題求解部分只需給出候選答案集合即可,因此既可采用基于語義解析的方法,也可以直接采用基于檢索的方法來實(shí)現(xiàn)。這里我們采用的是基于檢索的方案,主要包括實(shí)體鏈接,關(guān)系抽取,以及這兩部分的聯(lián)合消解三大部分。1) 實(shí)體鏈接實(shí)體鏈接在知識類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實(shí)體候選,以前面的問題為例,我們可以利用POS序列NN識別出實(shí)體shaq。對于識別出來的實(shí)體候選,我們使用實(shí)體鏈接工具S-MART獲取可以潛在鏈接到Freebase的5個(gè)候選實(shí)體。具體而言,對給定的實(shí)體候選,S-MART首先根據(jù)字符串相似度從Freebase中獲取一些候選實(shí)體,然后利用統(tǒng)計(jì)模型根據(jù)知識庫實(shí)體與實(shí)體候選之間的共現(xiàn)頻率計(jì)算出一個(gè)得分并排序,最終給出實(shí)體鏈接結(jié)果。2) 關(guān)系抽取關(guān)系抽取用于識別問句中的實(shí)體與答案(疑問詞)之間的語義關(guān)系。我們使用多通道卷積神經(jīng)網(wǎng)絡(luò)來確定自然語言問題中實(shí)體與答案之間存在的關(guān)系。具體地講,我們使用兩個(gè)通道,一個(gè)通道捕捉句法信息,另一個(gè)通道捕捉上下文信息。每個(gè)通道的卷積層接受一個(gè)長度不固定的輸入,但是返回一個(gè)固定長度的向量(我們使用最大采樣法)。這些固定長度的向量被拼接在一起形成最后softmax分類器的輸入,該分類器的輸出向量維度等于關(guān)系類別的總數(shù),每一維的值等于映射到對應(yīng)知識庫謂詞的置信度。3) 實(shí)體和關(guān)系的聯(lián)合消歧通常情況下的實(shí)體鏈接與實(shí)體關(guān)系抽取都是獨(dú)立預(yù)測的,因而不可避免的會(huì)存在流水線框架下常見的錯(cuò)誤傳遞現(xiàn)象。因此,我們提出了一種聯(lián)合優(yōu)化模型從實(shí)體鏈接和關(guān)系抽取的候選結(jié)果中選擇一個(gè)全局最優(yōu)的“實(shí)體-關(guān)系”配置。這個(gè)挑選全局最優(yōu)配置的過程本質(zhì)上可以被視作一個(gè)排序問題,即,“合理”的實(shí)體-關(guān)系配置在知識庫中應(yīng)更常見,應(yīng)該有更高的得分。我們主要依賴從知識庫中抽取的三類特征,即實(shí)體特征、關(guān)系特征和答案的特別特征。 基于Wikipedia文本描述的淺層推理基于結(jié)構(gòu)化知識庫求解的候選答案集,我們從維基百科文本資源中收集候選答案的支持文本,并訓(xùn)練答案過濾器對候選答案集進(jìn)行篩選,以得到更準(zhǔn)確的答案。1) 數(shù)據(jù)預(yù)處理具體地講,我們首先從維基百科中找出描述自然語言問題中實(shí)體的頁面。我們抽取維基百科頁面的內(nèi)容,并利用Wikifier識別句子中的維基百科實(shí)體,再利用Freebae API將這些實(shí)體映射到Freebase中的實(shí)體。最后在頁面中尋找包含候選答案的句子當(dāng)做支持文本。2) 答案過濾模型 我們將淺層推理的過程抽象為一個(gè)面向候選答案的二分類任務(wù)。在實(shí)驗(yàn)中,我們使用LibSVM來訓(xùn)練該二分類器。該分類器主要使用的特征是詞級別配對特征,其中第一個(gè)部分來自給定的問題,而第二個(gè)部分來自維基百科中的支持文本。更形式化地,給定一個(gè)問題q = 和一個(gè)作為支持文本的句子s = ,其中記q和s中的單詞分別為qi和sj。對每個(gè)問題與支持文本對(q,s),我們可以生成詞級別配對特征集合(qi,sj),這些詞對出現(xiàn)的次數(shù)作為特征用來訓(xùn)練分類器。需要指出的是,這里僅嘗試了最簡單的二分類方式,主要目的是檢驗(yàn)附加文本資源的作用;而使用線性優(yōu)化、或神經(jīng)網(wǎng)絡(luò)等更精巧的融合方式可能會(huì)帶來更明顯的準(zhǔn)確率提升。實(shí)驗(yàn)我們使用WebQuestions數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。該數(shù)據(jù)集一共包含5810個(gè)自然語言問題以及答案。其中訓(xùn)練集包含3778個(gè)問題(65%),測試集包含2032個(gè)問題(35%)。我們使用答案的平均F1值來評測本框架。表1給出了不同方法在WebQuestions數(shù)據(jù)集上的結(jié)果。方法平均F1(Bast et al. 2015)49.4(Berant et al. 2015)49.7(Reddy et al. 2016)50.3(Yih et al.2015)52.5本研究工作Structured44.1Structured + Joint47.1Structured + Unstructured47.0Structured + Joint + Unstructured53.3表1基于關(guān)系抽取問答技術(shù)在WebQuestions數(shù)據(jù)集上的結(jié)果 為了確定所提出框架中不同模塊的重要性,我們詳細(xì)比較了以下幾種模型變種的結(jié)果。Structured 該方法只包含基于結(jié)構(gòu)化知識庫Freebase的問題求解。具體地講,我們首先進(jìn)行實(shí)體鏈接,將自然語言問題中包含的實(shí)體名詞映射到Freebase中的實(shí)體,其中得分最高的實(shí)體被當(dāng)做結(jié)果。然后我們進(jìn)行關(guān)系抽取并從候選關(guān)系中選擇與實(shí)體最匹配的關(guān)系當(dāng)做最終的實(shí)體-關(guān)系配置。最后,我們使用這個(gè)實(shí)體-關(guān)系配置來預(yù)測問題的答案。Structured + Joint 與上面的方法略有不同,這個(gè)方法使用聯(lián)合消歧的方法去選擇全局最優(yōu)的實(shí)體-關(guān)系組合,并進(jìn)行基于結(jié)構(gòu)化知識庫的問題解答。Structured + Unstructured 這個(gè)方法里,我們使用流水線的實(shí)體鏈接和關(guān)系抽取結(jié)果進(jìn)行基于結(jié)構(gòu)化知識庫的問題求解,進(jìn)而,利用基于維基百科的淺層推理來篩選答案。Structured + Joint + Unstructured 這是我們所提出的融合多種知識資源的完整的問答框架。我們首先在結(jié)構(gòu)化知識庫Freebase上進(jìn)行問題求解,即,進(jìn)行實(shí)體鏈接和關(guān)系抽取的聯(lián)合優(yōu)化,并在Freebase上獲得候選答案集合;在此基礎(chǔ)上進(jìn)行基于文本的淺層推理,即,從維基百科中抽取答案支持文本,并對候選答案進(jìn)行篩選,獲得最終答案。從表1中的結(jié)果,我們可以發(fā)現(xiàn)實(shí)體鏈接和關(guān)系抽取的聯(lián)合推理結(jié)果會(huì)優(yōu)于流水線方法,整體效果提高了3%,并且比大部分語義解析的方法要好。另一方面,與(Yih et al. 2015)利用人工編寫規(guī)則的工作相比,融合結(jié)構(gòu)化知識庫與文本知識資源的方法在問答準(zhǔn)確率上整體提高了0.8%,這進(jìn)一步說明了恰當(dāng)?shù)氖褂梅墙Y(jié)構(gòu)化的文本知識資源可以在很大程度上代替人工編寫規(guī)則來輔助回答自然語言問題。本文提出的融合不同知識資源的問題解答框架具有較好的可擴(kuò)展性,無論在結(jié)構(gòu)化知識庫求解部分,還是多種資源的融合利用方面都可進(jìn)一步改進(jìn),以更大限度的發(fā)揮不同資源之間的互補(bǔ)作用,提高知識類問題的解答精度。參考文獻(xiàn) Hannah Bast, Elmar Haussmann. More Accurate Question Answering on Freebase. CIKM. 2015, 1431-1440 Jonathan Berant, Percy Liang. Imitation Learning of Agenda-based Semantic ParsersJ. Transactions of the Association for Computational Linguistics. 2015, 3:545558 Siva Reddy, Oscar Tckstrm, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata. Transforming Dependency Structures to Logical Forms for Semantic ParsingJ. Transactions of the Association for Computational Linguistics. 2016, 4: 127-140 Kun Xu; Siva Reddy; Yansong Feng; Songfang Huang; Dongyan Zhao Question Answering on Freebase via Relation Extraction and Textual Evidence. ACL 2016, Kun Xu; Yansong Feng; Songfang Huang; Dongyan Zhao, Hybrid Question Answering over Knowledge Base and Free Text, COLING 2016 Yi Yang; Ming-Wei Chang, S-MART: Novel Tree-based Struc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 宜賓職業(yè)技術(shù)學(xué)院《公共危機(jī)管理概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 長豐縣2025屆數(shù)學(xué)五年級第二學(xué)期期末監(jiān)測試題含答案
- 淮南職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)遺傳學(xué)A》2023-2024學(xué)年第二學(xué)期期末試卷
- 太湖創(chuàng)意職業(yè)技術(shù)學(xué)院《項(xiàng)目評估》2023-2024學(xué)年第一學(xué)期期末試卷
- 南通理工學(xué)院《Hadoop技術(shù)與應(yīng)用實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湛江市年模擬物理試題(三)
- 棗強(qiáng)中學(xué)高二上學(xué)期期末考試?yán)頂?shù)試題
- 建材市場銷售技巧培訓(xùn)
- 2025裝修合同范本3
- 精神病人衛(wèi)生護(hù)理課件
- 一、中國經(jīng)典話劇藝術(shù)賞析(引言)
- 22G101基礎(chǔ)平法識圖與鋼筋計(jì)算
- 2024年專升本考試-專升本考試(機(jī)械設(shè)計(jì)基礎(chǔ))筆試歷年真題薈萃含答案
- 對中標(biāo)候選人的異議書
- 2024年北京市自來水集團(tuán)長辛店分公司招聘筆試參考題庫含答案解析
- 四年級英語 Lesson 14 Are You Short or Tall 全省一等獎(jiǎng)
- 粉塵涉爆企業(yè)安全生產(chǎn)風(fēng)險(xiǎn)監(jiān)測預(yù)警系統(tǒng)技術(shù)指導(dǎo)
- 遵義會(huì)議精神宣講
- 慢性阻塞性肺疾病的常見病例分析
- CJJ-181-2012(精華部分)城鎮(zhèn)排水管道檢測與評估技術(shù)規(guī)程
- 【基于UASB+SBR的組合處理工藝的制藥廠廢水處理工藝設(shè)計(jì)12000字】
評論
0/150
提交評論