中國自然語言處理白皮書_第1頁
中國自然語言處理白皮書_第2頁
中國自然語言處理白皮書_第3頁
中國自然語言處理白皮書_第4頁
中國自然語言處理白皮書_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、中國自然語言處理白皮書中國自然語言處理白皮書中國人工智能學(xué)會二一五年十一月18中國人工智能系列白皮書編委會主任:李德毅執(zhí)行主任:王國胤副 主 任:楊放春譚鐵牛黃河燕焦李成馬少平劉宏蔣昌俊任福繼楊強委員:陳杰董振江杜軍平桂衛(wèi)華韓力群何清黃心漢賈英民李斌劉民劉成林劉增良魯華祥馬華東馬世龍苗奪謙樸松昊喬俊飛任友群孫富春孫長銀王軒王飛躍王捍貧王萬森王衛(wèi)寧王小捷王亞杰王志良吳朝暉吳曉蓓夏桂華嚴(yán)新平楊春燕余凱余有成張學(xué)工趙春江周志華祝烈煌莊越挺中國自然語言處理白皮書編寫組任福繼王小捷黃河燕孫茂松靳光謹(jǐn)周國棟王明文蔡東風(fēng)何婷婷黃萱菁常寶寶王曉龍黃德根胡海青于 浩朱靖波古麗拉·阿東別克昝紅英吳 華

2、晉耀紅 王厚峰 張玉潔 張桂平 譚詠梅 張克亮 全昌勤 孫 曉 陳清財 王榮波 衛(wèi)志華 鐘茂生 徐睿峰 邱錫鵬 沈李斌 張仰森 李 蕾 袁彩霞目 錄第1章 引言1第2章 漢語切分22.1漢語切分的性能22.2漢語切分的問題52.3小結(jié)6第3章 人機對話83.1 人機對話系統(tǒng)83.2 對話管理技術(shù)103.3 小結(jié)13第4章 總結(jié)14第5章 參考文獻17第1章 引言近年來,隨著自然語言處理技術(shù)的迅速發(fā)展,出現(xiàn)了一批基于自然語言處理技術(shù)的應(yīng)用系統(tǒng),這些系統(tǒng)引起了大眾的熱議。例如,IBM的Watson在電視問答節(jié)目中戰(zhàn)勝人類冠軍,蘋果公司的Siri個人助理被大眾廣為測試,谷歌、微軟、百度等公司紛紛發(fā)布

3、個人智能助理,科大訊飛牽頭研發(fā)高考機器人。這些應(yīng)用的出現(xiàn)使自然語言處理一時成為熱點話題,人們對這些應(yīng)用乃至應(yīng)用背后的技術(shù)進行了各種各樣的評論。有的充滿期待,希望未來自然語言處理技術(shù)能產(chǎn)生越來越多有價值的應(yīng)用系統(tǒng);也有的表示擔(dān)心,擔(dān)心技術(shù)的發(fā)展會對人們自身的工作機會造成沖擊。那么,自然語言處理當(dāng)前的技術(shù)和應(yīng)用狀況究竟如何,已經(jīng)取得了什么進展、未來的發(fā)展會如何?人們的什么期待可能變成現(xiàn)實,什么擔(dān)心其實還沒有必要呢?本白皮書力圖對這兩個問題作出部分回應(yīng)。本白皮書首先對目前研究人員在自然語言處理技術(shù)及應(yīng)用方面主要做了什么、做得怎么樣進行一些介紹。但是,本白皮書并不準(zhǔn)備也不可能做成一個自然語言處理領(lǐng)域的

4、全面技術(shù)綜述,而只是分別選擇自然語言處理領(lǐng)域的一個典型技術(shù)和一個典型應(yīng)用進行介紹和分析。之后,就如何認(rèn)識當(dāng)前以及未來的自然語言處理技術(shù)和系統(tǒng)給出我們的觀點。白皮書力求不用太多的專業(yè)術(shù)語,而是以較為淺顯的語言進行闡述。全書的內(nèi)容安排如下:在第二章是漢語切分技術(shù)的發(fā)展介紹和現(xiàn)狀分析,第三章是人機對話系統(tǒng)的發(fā)展介紹和現(xiàn)狀分析,第四章是總結(jié),給出我們的觀點。第2章 漢語切分自然語言處理領(lǐng)域有許多重要的基礎(chǔ)技術(shù),這些技術(shù)對自然語言處理應(yīng)用系統(tǒng)的性能具有重大的影響,漢語切分就是其中之一。不同于英語,漢語是以字串的形式出現(xiàn),詞與詞之間沒有空格,自動識別字串中的詞即為漢語切分。至少在當(dāng)前,漢語切分是漢語信息處

5、理的基礎(chǔ),大多數(shù)其他漢語信息處理技術(shù)和應(yīng)用都會在漢語切分的基礎(chǔ)上進行。本章在第一節(jié)基于漢語切分的評測結(jié)果概要介紹當(dāng)前漢語切分技術(shù)的總體性能,在第二節(jié)通過實例具體介紹其中的主要難點問題,最后是小結(jié)。2.1漢語切分的性能漢語切分是漢語語言信息處理技術(shù)中開展得最早的研究主題之一。不僅僅是在國內(nèi)、在國際上也有很多學(xué)者加入到這個主題的研究中。國際上最有影響的計算語言學(xué)聯(lián)合會ACL (Association of Computational Linguistics)下設(shè)的特殊興趣小組SIGHAN(Special Interest Group of HAN)從2003年開始組織漢語切分技術(shù)的國際評測,一直持

6、續(xù)到現(xiàn)在。從該系列評測的結(jié)果我們可以大致了解當(dāng)前漢語切分技術(shù)的現(xiàn)狀。表2-1到2-3列出了SIGHAN漢語切分技術(shù)評測的部分結(jié)果數(shù)據(jù)1-4。由于沒有一個評測數(shù)據(jù)在各屆評測中都一直被使用,而不同評測數(shù)據(jù)之間的結(jié)果難以直接比較。因此,這些表是按不同評測數(shù)據(jù)分別列出的。表中列出的都是歷年參加評測的所有系統(tǒng)中取得的最好成績。性能指標(biāo)一般包括準(zhǔn)確率P(Precision)、召回率R(Recall)、F測度(F-measure)、詞典內(nèi)詞的召回率Rin以及未登錄詞的召回率Roov。這些指標(biāo)從不同側(cè)面反映技術(shù)的性能,所有指標(biāo)都是值越高越好。表2-1 2003和2005年北京大學(xué)評測數(shù)據(jù)上的最好成績PRFRi

7、nRoov2003 0.9560.9630.9590.9750.7992005 0.9690.9680.9690.9760.838表2-2 2005和2006年微軟亞洲研究院評測數(shù)據(jù)上的最好成績PRFRinRoov2005 0.9650.980.9720.990.592006 0.9780.980.9790.9850.839表2-3 2003、2005和2006年香港城市大學(xué)評測數(shù)據(jù)上的最好成績PRFRinRoov2003 0.9560.9630.9590.9750.7992005 0.9560.9670.9620.980.80620060.9770.9780.9770.9840.840表2-

8、4 2010年SIGHAN評測中系統(tǒng)A在各領(lǐng)域的成績領(lǐng)域PRFRinRoov文學(xué)0.9530.9580.9550.9810.655計算機0.9290.9480.9290.9860.735醫(yī)藥0.920.9510.9350.9860.67財經(jīng)0.950.9640.9570.9830.7632010年SIGHAN漢語切分技術(shù)評測的評測數(shù)據(jù)來自四個領(lǐng)域:文學(xué)、計算機、醫(yī)藥和財經(jīng)。表2-4列出了該年某個參賽系統(tǒng)A的成績5。系統(tǒng)A在文學(xué)領(lǐng)域的數(shù)據(jù)上取得了所有參賽隊伍中的最佳成績,但是該系統(tǒng)在其他三個領(lǐng)域的成績均非最佳,在計算機領(lǐng)域取得最好成績的是另一個系統(tǒng),性能為P=0.95,R=0.95,F(xiàn)=0.95

9、。也就是說沒有一個隊在所有不同領(lǐng)域都取得最好成績。2012年的SIGHAN漢語切分技術(shù)評測的評測數(shù)據(jù)來自微博6。性能最好的系統(tǒng)取得了P=0.946、R=0.9496和F=0.9478的成績。但是,整句完全切分正確的比例只有44.88%。2014年的SIGHAN漢語切分技術(shù)評測的評測數(shù)據(jù)采用的是多領(lǐng)域混合數(shù)據(jù)7。性能最好的系統(tǒng)取得了P=0.9681、R=0.9779和F=0.9730的成績。上述性能的取得多采用基于字的序列標(biāo)注模型,如條件隨機場CRF(Conditional Random Field)。2014年之后,出現(xiàn)了一些基于深層神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)技術(shù)

10、的漢語切分模型8910。不過,從目前的情況來看,基于DNN的技術(shù)與之前的技術(shù)相比,尚未取得很顯著的性能提高。例如,在NLPCC2015數(shù)據(jù)集上的評測結(jié)果如表2-5所示10??梢钥吹?,基于DNN模型的漢語切分技術(shù)的性能與之前的CRF模型相比有所提高,但與DNN在圖像、語音信息處理上取得的重大進展相比,還是比較小的。表2-5 CRF模型與DNN模型在NLPCC2015數(shù)據(jù)集上的性能比較模型PRFFDNLP(CRF)94.193.994.0GRNN(一種DNN模型)94.794.894.82.2漢語切分的問題上面一節(jié)給出了一些漢語切分技術(shù)的宏觀結(jié)果數(shù)據(jù),本節(jié)介紹一些在進行漢語切分時具體會遇到的問題。

11、目前已知的漢語切分難點問題主要存在于兩個方面:切分歧義和未登錄詞。切分歧義主要分為兩類:交集歧義和組合歧義。在簡單情況下,交集歧義是指連續(xù)出現(xiàn)的三個字中,中間的字既可以和前面的字組成詞,也可以和后面的字組成詞,如(s1)和(s2)中的三個字“地面積”。城區(qū)地面積水已消除。 (s1)我國多數(shù)濕地面積無明顯變化。 (s2)在(s1)中,“地面積”三個字中間的“面”字與前面的“地”組成一個詞“地面”;而在(s2)中,“面”字與后面的“積”組成一個詞“面積”。中間的字和前后哪個字組合成詞,需要依據(jù)上下文來確定。組合歧義是指連續(xù)出現(xiàn)的兩個字可能是兩個詞,也可能是一個詞,如(s3)和(s4)中的“把手”。

12、馴獸師把手伸進鱷魚嘴里。 (s3)為您找到最新的門把手報價。 (s4)在(s3)中,“把手”兩個字是兩個詞;而在(s4)中,“把手”兩個字組成一個詞。同樣,這兩個字究竟是一個詞還是兩個詞,需要依據(jù)上下文才能確定。目前,對于上述兩類歧義問題,研究人員已經(jīng)提出了諸多解決辦法。大部分有效的解決方法都是基于統(tǒng)計技術(shù)的,雖然有的技術(shù)已經(jīng)獲得很好的性能,但是,迄今為止,還并不存在一種能保證在任何情況下都取得正確結(jié)果的技術(shù)。未登錄詞指的是未在詞典中出現(xiàn)過的詞。比如,隨著新事物的不斷出現(xiàn),產(chǎn)生了“博客”、“微博”、“滬港通”等等原來并不存在的新詞;也由于人們在語言上的不斷創(chuàng)造,出現(xiàn)了“給力”、“喜大普奔”、“

13、人艱不拆”等網(wǎng)絡(luò)流行語。為處理這類問題出現(xiàn)了諸多的新詞發(fā)現(xiàn)技術(shù)。更大量的未登錄詞來源于各種專有名詞(通常稱為命名實體),如人名(包括中國人名、外國人名、網(wǎng)名等等)、地名、組織機構(gòu)名、商品名、書名、電影名等等。這些未登錄詞在不斷產(chǎn)生,且在使用中也可能伴隨切分歧義,導(dǎo)致切分任務(wù)變得更為復(fù)雜。例如:“他沉浸在世博園滿眼的綠色中”中,出現(xiàn)了“世博園”這個新的專用名詞,而且該詞的第一個字“世”與前一個字“在”可以組成一個詞“在世”,最后一個字“園”與后一個字“滿”也可以組成一個詞“園滿”。為處理這類問題出現(xiàn)了諸多的命名實體識別技術(shù)。相比切分歧義,未登錄詞是當(dāng)前切分技術(shù)中面臨的更主要、更困難的挑戰(zhàn)。2.3

14、小結(jié)從上述介紹至少可以得到如下幾點結(jié)論:1漢語切分的性能在穩(wěn)步提高。隨著研究人員不斷地研究各種語言現(xiàn)象,探索新的機器學(xué)習(xí)技術(shù)和新的特征,對漢語切分中的一些基本的難點問題,如交集歧義、組合歧義等,得到了比較清楚的認(rèn)識,有一些較好的解決辦法。2新語言現(xiàn)象的出現(xiàn)導(dǎo)致切分性能的下降。微博等社交媒體上產(chǎn)生的大量新詞語、新命名實體以及新語言組織方式,對已有技術(shù)產(chǎn)生了較大的沖擊。隨著社交媒體的日益廣泛使用,新語言現(xiàn)象出現(xiàn)的范圍也越來越廣,不斷給漢語切分任務(wù)帶來新的挑戰(zhàn)。3跨領(lǐng)域、跨風(fēng)格文本帶來的漢語切分困難。同一切分系統(tǒng)如何能在較小訓(xùn)練代價下對跨領(lǐng)域、跨風(fēng)格文本上均取得較穩(wěn)定的性能還是一個尚需要進一步探索解

15、決的問題。4最后幾個百分點的困難。機器自動切分的結(jié)果的確在不斷逼近人類的切分結(jié)果。但是,可以看到,越到后面,性能提高的代價越大,迄今為止,似乎還沒有看到能跨越最后幾個百分點的技術(shù)方向。第3章 人機對話人類自然語言的主要功能之一是交際,雙人或多人的對話是最常見的語言使用場合,因此,人機對話是自然語言處理技術(shù)最為典型的應(yīng)用之一。圖靈早年提出的測試機器是否具有智能的圖靈測試正是以人與機器進行對話為判定依據(jù)的。近年來,隨著智能設(shè)備深入人們的日常生活和工作中,各大公司紛紛推出具有一定人機對話能力的個人助理,使得人機對話應(yīng)用一度成為熱點話題。本章在第一節(jié)介紹人機對話系統(tǒng)的概況,在第二節(jié)介紹作為其核心技術(shù)之

16、一的對話管理技術(shù),最后是小結(jié)。3.1 人機對話系統(tǒng)目前的人機對話系統(tǒng)大致可以分為兩大類:一類是面向特定任務(wù)的;另一類是開放性的,系統(tǒng)沒有特定的任務(wù)要求。面向特定任務(wù)的人機對話系統(tǒng)通過與用戶進行對話來獲取特定信息,從而完成特定任務(wù)。例如,在早期MIT計算機科學(xué)實驗室研制的用于機票預(yù)定的對話系統(tǒng)ATIS (Air Traffic Information System)中,機器需要在與用戶的對話過程中獲取用戶的機票預(yù)定信息,如出發(fā)地、出發(fā)日期、航班號等;在最近北京郵電大學(xué)智能科學(xué)與技術(shù)中心研制的會議室預(yù)定系統(tǒng)MRBS(Meeting Room Booking System)中,機器通過與用戶對話獲取

17、用戶要預(yù)定的會議室的時間、大小、人數(shù)、價格等信息。目前,僅從對話系統(tǒng)獲取任務(wù)相關(guān)信息的角度來看,針對特定任務(wù)的對話系統(tǒng)可以到達(dá)較好的性能。圖3-1是ATIS系統(tǒng)的一個工作記錄片斷。圖3-2是MRBS系統(tǒng)的一個工作記錄片斷??梢钥吹?,系統(tǒng)都能在對話中逐步獲取相關(guān)的任務(wù)信息。User: I'd like to fly from Philadelphia to San Francisco.ATIS: What data will you be travelling on?User: Next Tuesday.ATIS: These are the flights from Philadelp

18、hia to San Francisco on Tuesday January 16.User: Do any stop in Dallas?ATIS: I'm sorry I got stuck just before the word stop in.User: IS there a flight which stops in Dallas?ATIS: This is the with-stop flight from Philadelphia to San Francisco stopping in Dallas on Tuesday January 16.圖3-1 ATIS人機

19、對話系統(tǒng)的對話片段User:我想在北京找一個300人的會議室MRBS:有300人在北京開的會議,對嗎?User:恩,對的MRBS:還有其他需求嗎?User:下周三開會MRBS:日期初步定在下周三,要開多長時間呢?User:還是下周五吧,開兩天。MRBS:是下周五開,開兩天,您預(yù)算多少呢?圖3-2 MRBS人機對話系統(tǒng)的對話片段而開放性的人機對話系統(tǒng)沒有在對話過程中獲取特定任務(wù)信息的要求,更多的是對用戶輸入進行響應(yīng),自由交互,具有某種聊天的性質(zhì),因此也常稱為聊天系統(tǒng)。早期的ELIZA系統(tǒng)、最近的Siri、小黃雞等都屬于此類系統(tǒng)。這類系統(tǒng)可以對用戶的各種話語進行響應(yīng),包括回答關(guān)于天氣狀況的問題(此

20、時類似于問答系統(tǒng))、進行沒有目標(biāo)限定的閑聊等等。Siri、小黃雞系統(tǒng)都曾經(jīng)成為熱點話題,有很多用戶測試的記錄。從已有的記錄來看,完全開放的聊天系統(tǒng)需要面對的任務(wù)是非常具有挑戰(zhàn)性的,目前的系統(tǒng)還難以達(dá)到人們的預(yù)期。人機對話系統(tǒng)的基本結(jié)構(gòu)如圖3-3所示。其中包括三個主要的部分。語言理解、對話管理和語言生成。語言理解部分理解用戶的語言輸入,語言生成部分產(chǎn)生系統(tǒng)的語言輸出,這兩部分在自然語言處理的許多其他應(yīng)用中都是不可缺少的,也同樣直接影響對話系統(tǒng)的性能。但是對于人機對話系統(tǒng)而言,最為獨特的是對話管理部分。是否有對話管理可用于區(qū)分對話系統(tǒng)和問答系統(tǒng)。下一節(jié)介紹對話管理技術(shù)。圖3-3 人機對話系統(tǒng)的基本

21、結(jié)構(gòu)3.2 對話管理技術(shù)對話管理從語言理解部分獲取輸入信息,維護對話過程中的系統(tǒng)內(nèi)部狀態(tài),并基于狀態(tài)生成對話策略,為產(chǎn)生對話言語提供依據(jù)。好的對話管理需要自然地控制對話流程,帶來良好的用戶體驗。在簡單的對話系統(tǒng)中,如不限定領(lǐng)域的聊天系統(tǒng)ELIZA,系統(tǒng)不維護任何內(nèi)部狀態(tài),也沒有顯式的對話管理模塊,系統(tǒng)只是檢測當(dāng)前的外部輸入,并依據(jù)一些轉(zhuǎn)換規(guī)則對輸入進行轉(zhuǎn)換產(chǎn)生輸出。例如,可以設(shè)計形如I am à You are的規(guī)則,當(dāng)檢測到用戶輸入為 I am John時,用規(guī)則進行替換,生成輸出You are John。這種系統(tǒng)一般不能用于完成特定的信息獲取任務(wù)。研究人員迄今已經(jīng)探索不少對話管理

22、技術(shù),包括基于有限狀態(tài)自動機的方法、基于語義框架的方法、基于代理的方法和基于統(tǒng)計的方法等?;谟邢逘顟B(tài)自動機的方法適用于結(jié)構(gòu)化較好的任務(wù)。其對話進程是預(yù)先設(shè)定好的,用戶只能按預(yù)定的順序回答系統(tǒng)的提問,以提供任務(wù)信息。這種對話管理技術(shù)不能處理語言理解的不確定性,靈活性較差,用戶體驗不好。基于語義框架的方法允許用戶以較為靈活的方式進行對話。系統(tǒng)能根據(jù)當(dāng)前語義框架的狀態(tài)來提出下一個問題,也可以處理一些語言理解部分的不確定性輸入,但是系統(tǒng)的控制算法通常較復(fù)雜?;诖淼姆椒▽υ捊3蓛蓚€代理通過協(xié)作來完成任務(wù)。代理具有推理能力,可以進行錯誤檢測和糾正,可以實現(xiàn)混合主導(dǎo)型對話。但是這種系統(tǒng)需要大量專家

23、知識來構(gòu)建邏輯推理系統(tǒng),構(gòu)建成本高。基于統(tǒng)計的方法,主要指的是基于馬爾可夫決策過程MDP(Markov Decision Process)的方法。MDP需要狀態(tài)完全可觀測,而在狀態(tài)不完全可觀測時,可以采用部分可觀測馬爾可夫決策過程POMDP(Partially observable Markov decision process)。POMDP模型將人機對話建模成一個在不確定狀態(tài)序列下取得最大長期回報的決策問題。因此,它具有建模語音識別和語義理解中存在的不確定性的能力,也可以建模系統(tǒng)產(chǎn)生的對話語言給對話帶來的長期影響。POMDP模型從數(shù)據(jù)中學(xué)習(xí)模型參數(shù),進行策略求解,其求解算法的復(fù)雜性較高。目前

24、,簡單的應(yīng)用系統(tǒng)多采用基于有限狀態(tài)自動機的方法,而基于POMDP的方法得到更多的研究關(guān)注。雖然有上述多種對話管理技術(shù),但是由于對話系統(tǒng)的復(fù)雜性,對話管理不僅要通過對話獲取任務(wù)信息,還要有效地引導(dǎo)整個對話過程,為用戶帶來好的用戶體驗。同時,考慮到對話還處于語音識別和語言理解技術(shù)目前仍不完美的條件下,因此,對話管理需要處理的難點問題還比較多,以下僅列出其中幾個。輪次交替問題:對話的一個典型特點是存在對話雙方或多方的交替發(fā)言,交替形式也多種多樣。比如,雙發(fā)對話時可能一方輪流說一句,也可能出現(xiàn)某方連續(xù)說幾句的情況。因此,在口語對話時,很重要的一個問題就是要決定機器在何時開始說話。簡單的基于物理信號,如

25、設(shè)置靜默等待時間等方式,在很多預(yù)訂信息服務(wù)中是不可行的。因為,在這些服務(wù)中,用戶經(jīng)常需要進行現(xiàn)場考慮。如果設(shè)置的等待時間過短,用戶可能還正在考慮,并沒有完成表述;而等待時間過長,用戶會覺得對話不流暢,用戶體驗不好。而基于內(nèi)容的輪次交替還依賴語音識別和語言理解的性能。主題轉(zhuǎn)換問題:即使在面向特定任務(wù)的對話中,一次完整的對話也很可能需要涉及多個不同的主題。例如,在預(yù)訂會議室的對話中,雙方至少需要涉及到會議召開的時間、地點、人數(shù)、預(yù)算等若干不同主題的內(nèi)容。對話管理需要能隨著對話的進行完成各個主題中相應(yīng)信息的獲取任務(wù)。在對話時,無論不同主題間是否存在依賴關(guān)系,對話都需要在不同的主題間跨越。因此,在對話

26、時,決定何時從一個主題轉(zhuǎn)換到另一個的主題,是用戶管理需要完成的一個重要任務(wù)。進而,友好的人機交互在允許機器主導(dǎo)主題轉(zhuǎn)換的同時,也應(yīng)該允許用戶自主進行主題轉(zhuǎn)換,而此時,對話管理需要依據(jù)其狀態(tài)決定是否跟隨進行主題的轉(zhuǎn)換。任務(wù)變化問題:目前的任務(wù)型對話管理大多是針對特定(類型)任務(wù)的,構(gòu)建對話管理模型時需要對任務(wù)需求進行明確的定義,以使任務(wù)中可能涉及的主題在規(guī)定的范圍中變化。但是,現(xiàn)實世界的任務(wù)有無窮多種(類型),如何使一個對話管理模型能快速適應(yīng)新的任務(wù)(類型),是一個需要進一步探索的問題,這個問題與漢語切分中語料領(lǐng)域和風(fēng)格發(fā)生變化時如何保持系統(tǒng)性能穩(wěn)定類似。3.3 小結(jié)從上面的介紹可以看到,面向特

27、定任務(wù)的人機對話系統(tǒng)在任務(wù)明確定義時可以較好地完成獲取信息的任務(wù)。但是,對話過程的管理還有很多需要提高的,尤其在語音識別和語義理解還存在不確定性的條件下。因此,目前情況下,希望得到在大范圍內(nèi)具有人-人對話體驗的人-機對話系統(tǒng)還是不太現(xiàn)實的。第4章 總結(jié)前面兩章分別介紹了漢語切分技術(shù)和人機對話系統(tǒng)的現(xiàn)狀,并進行了一些分析,本書不打算也不可能逐一對各種技術(shù)和應(yīng)用都進行單獨的分析??傮w而言,自然語言處理的研究和應(yīng)用在各個方面都處于持續(xù)發(fā)展中,這種發(fā)展的趨勢在近幾年尤為有力。因為自然語言處理領(lǐng)域在近幾年出現(xiàn)了一個非常好的發(fā)展時期。具體表現(xiàn)在如下幾個方面。由于來自互聯(lián)網(wǎng)產(chǎn)業(yè)和傳統(tǒng)產(chǎn)業(yè)信息化的各種應(yīng)用需求

28、的推動,更多的研究人員和更多的經(jīng)費支持進入了該領(lǐng)域,有力地促進了自然語言處理技術(shù)和應(yīng)用的發(fā)展。語言數(shù)據(jù)的不斷增長、可用的語言資源的持續(xù)增加、語言資源加工能力的穩(wěn)步提高,為研究人員提供了發(fā)展更多語言處理技術(shù)、開發(fā)更多應(yīng)用、進行更豐富評測的平臺。機器學(xué)習(xí)技術(shù),尤其是近年來深度學(xué)習(xí)技術(shù)的飛速發(fā)展,刺激了對新的自然語言處理技術(shù)的探索。同時,來自其他相近學(xué)科背景、來自工業(yè)界的人員的不斷加入,也為自然語言處理技術(shù)的發(fā)展帶來了一些新思路。計算和存儲設(shè)備的飛速發(fā)展,提供了越來越強大的計算和存儲能力,使得研究人員有可能構(gòu)建更為復(fù)雜精巧的計算模型,處理更為大規(guī)模的真實語言數(shù)據(jù)。在這些有利條件的支持下,我們相信自然

29、語言處理技術(shù)在未來會繼續(xù)取得更多地成果,相信自然語言處理技術(shù)是值得大家期待的技術(shù)、能產(chǎn)生不斷滿足大家期待的新應(yīng)用。但是,另一方面,我們也希望大家在看到自然語言處理技術(shù)的進展時有一個清醒的認(rèn)識。以下以語義分析為例闡述這點。語義分析是當(dāng)前自然語言處理研究的一個核心。研究人員在詞匯、句子和篇章等多個層次都開展了語義研究。以詞匯語義計算為例,詞義消歧是其中的一個重要的主題。例如,“打”至少有十幾個不同的義項。表4-1列出了幾個示例。詞義消歧的任務(wù)就是為給定上下文的“打”選擇合適的義項。例如,在句子“打他的人打車走了”這句話中為兩個“打”選擇正確的義項。義項解釋例句1毆打打人、打架2攻打打敵人、打仗3編

30、織打毛衣4攪拌打蛋5標(biāo)記打標(biāo)簽表4-1 “打”的幾個義項示例在已有的英語詞義消歧國際評測中,如果義項是粗粒度的(例如,上述“打”的第1個和第2個義項合并為一個,不加區(qū)分),那么平均性能可以達(dá)到90%以上。大家如果據(jù)此數(shù)據(jù)認(rèn)為詞義消歧技術(shù)已經(jīng)比較成熟了,那么就可能會誤解為何還有那么多的研究人員持續(xù)開展詞義消歧任務(wù)的研究,就可能會誤解為何有些任務(wù)中還不把詞義消歧技術(shù)加入進去提高系統(tǒng)性能。而實際上,如果義項不是粗粒度的,而是細(xì)顆粒度的(比如上述“打”的第1個和第2個義項是需要區(qū)分的),那么在已有的英語詞義消歧國際評測中取得的平均性能不超過70%!基于這個數(shù)據(jù),大家應(yīng)該就不會認(rèn)為詞義消歧技術(shù)已經(jīng)成熟了

31、,而是還有很長的路要走。進一步,如果我們按人的標(biāo)準(zhǔn)來評價計算機程序的消歧性能,要求計算機程序在消歧的同時能解釋各個義項間的微妙差別,能解釋這種義項選擇背后發(fā)生了什么。那么,其性能會更差。因此,大家在關(guān)注自然語言處理技術(shù)進展的時候一定需要對技術(shù)任務(wù)有更多的理解,否則,很有可能產(chǎn)生不同程度的誤解?;诖耍覀兿MM一步指出的是:自然語言處理技術(shù)雖然在不斷發(fā)展中,但是,在未來很長一段時間中,它還只能作為一種技術(shù)工具在有限深度上對語言進行處理,還不可能完全達(dá)到人類理解自然語言的水平。因此,當(dāng)前我們對于自然語言處理技術(shù)和應(yīng)用的合適態(tài)度可能是:既不要期待它能很快就像人一樣地去完成各種自然語言處理和理解的任

32、務(wù),也不用害怕它會完全取代人的工作。第5章 參考文獻1 Richard Sproat,Thomas Emerson. The First International Chinese Word Segmentation Bakeoff. In Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. 2003.2 Thomas Emerson. The Second International Chinese Word Segmentation Bakeoff. In Proceedings of the

33、Fourth SIGHAN Workshop on Chinese Language Processing. 2005.3 Gina-Anne Levow. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition. In Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. 2006.4 Guangjin Jin, Xiao Chen. The

34、Fourth International Chinese Language Processing Bakeoff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging. In Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing. 2008. 5 Hongmei Zhao, Qun Liu. The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff. In Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2010.6 Huiming Duan, Zhifang Sui, Ye Tian, Wenjie Li. The CIPS-SIGHAN CLP 2012 Chinese Word Segmentation on MicroBlog Corpora Bakeo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論