




已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2019/7/11,1,自然語言理解,主 講 :付 宏 杰 單 位 :信息工程學院,使用教材: 人 工 智 能 基 礎 高 濟 朱淼良 何欽銘 高 等 教 育 出 版 社,第五章 自然語言理解,2019/7/11,2,第五章:自然語言理解,基本概念 當我們從事任何一項研究的時候,總要關注兩方面的問題:一是是什么,為什么?二是做什么,怎么做?這恰恰是科學與技術緊密相關的兩個方面。 自然語言處理既是一項技術,又是一門科學。,2019/7/11,3,5.1 基本概念,信息的主要載體語言 語言的兩種形式文字和聲音 文字和聲音作為語言的兩個不同形式的載體,所承載的信息占整個信息組成的70以上(文字:70,圖象:20;其它:10) q 如何讓計算機實現(xiàn)人們希望實現(xiàn)的語言處理功能? q如何讓計算機真正實現(xiàn)海量的語言信息的自動處理和有效利用?,2019/7/11,4,5.1 基本概念,q 語言學(linguistics) 是指對語言的科學研究。作為一門純理論的學科, 語言學在近期獲得了快速發(fā)展,尤其從上個世紀60年 代起,已經(jīng)成為一門知曉度很高的廣泛教授的學科。 包括:歷時語言學(diachronic linguistics)(或 稱歷史語言學(historical linguistics)和共時語言學(synchronic linguistics)、描述語言學(descriptivelinguistics)、對比語言學(contrastive linguistics)、結構語言學(structural linguistics)等等。,2019/7/11,5,5.1 基本概念,q 語音學(phonetics) 研究人類發(fā)音特點,特別是語音發(fā)音特點,并提出各種語音描述、分類和轉寫方法的科學。 包括: (1)發(fā)音語音學(articulatory phonetics),研究 發(fā)音器官如何產(chǎn)生語音;(2)聲學語音學(acoustic phonetics),研究口耳之間傳遞語音的物理屬性;(3) 聽覺語音學(auditory phonetics), 研究人通過耳、聽覺 神經(jīng)和大腦對語音的知覺反應。,2019/7/11,6,5.1 基本概念,根據(jù)不同的研究方法,語音學又分為: (a)一般語音學(general phonetics): 對語音發(fā)音、聲學或知覺的一般研究。 與語言學的分析目的沒有什么關系。 (b)實驗語音學(experimental phonetics): 對具體語言語音特點的研究。 語言學研究的一部分,有人甚至認為是語言學不可或缺的基礎。,2019/7/11,7,5.1 基本概念,問題: 語音學究竟是一門獨立的學科還是應視為語言學的一個分支呢? 復數(shù)的語言科學(linguistic sciences) 語言學和其它學科的交叉產(chǎn)生了許多語言學的新分支,包括純理論的和應用性的,如人類語言學(anthropologicallinguistics)、計算語言學(computational linguistics)、生物語言學(biolinguistics)、心理語言學(psycholinguistics)、教育語言學(educational linguistics)和社會語言學(sociolinguistics)等等。,2019/7/11,8,5.1 基本概念,q計算語言學(Computational Linguistics) 計算語言學是利用電子數(shù)字計算機進行的語言分析。雖然許多其它類型的語言分析也可以運用計算機,計算分析最常用于處理基本的語言數(shù)據(jù)例如建立語音、詞、詞元素的搭配以及統(tǒng)計它們的頻率。 大不列顛百科全書,2019/7/11,9,5.1 基本概念,q計算語言學(Computational Linguistics) 是語言學的一個研究分支,用計算技術和概念來闡述語言學和語音學問題。已開發(fā)的領域包括自然語言處理(natural language processing, NLP),言語合成,言語識別,自動翻譯,編制語詞索引,語法的檢測,以及許多需要統(tǒng)計分析和領域(如文本考釋)。 現(xiàn)代語言學詞典戴維.克里斯特爾,1997,2019/7/11,10,5.1 基本概念,q自然語言處理 或稱自然語言理解(natural language understanding, NLU),人工智能研究的重要內容之一。自然語言處理(natural language processing,NLP)就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術。 -馮志偉自然語言的計算機處理,2019/7/11,11,5.1 基本概念,近幾年來,自然語言處理研究得到了前所未有的重視和長足的進展,并逐漸發(fā)展成為一門相對獨立的學科而倍受關注,而且自然語言處理技術不斷與語音識別(speech recognition)、語音合(speech synthesis)等語音技術相互滲透和結合形成新的研究分支,因此,很多人在談到“計算語言學”、“自然語言處理”或“自然語言理解”這些術語時,往往默認為同一個概念。甚至有些專著中干脆直接這樣解釋:計算語言學也稱自然語言處理或自然語言理解劉穎,2002。,2019/7/11,12,5.2 關于“理解”標準,q 如何判斷計算機系統(tǒng)的智能? 計算機系統(tǒng)的表現(xiàn)(act)如何? 反應(react)如何? 相互作用(interact )如何? 與有意識個體(人)比較如何? 圖靈(Turing)設計的“模仿游戲”,即圖靈實驗(Turing test),2019/7/11,13,5.3 自然語言理解研究的內容,q 按照應用目標劃分 v 機器翻譯(Machine translation, MT):實現(xiàn)一種語言到另一種語言的自動翻譯。 應用:文獻翻譯、網(wǎng)頁翻譯和輔助瀏覽等。 實用系統(tǒng):Systran ()36種語言對,20個專門領域。,2019/7/11,14,5.3 自然語言理解研究的內容,機器翻譯現(xiàn)狀和對機器翻譯的認識 機器翻譯研究在過去的五十多年曲折發(fā)展經(jīng)歷中,無論是它給人們帶來的希望還是失望我們都必須客觀地看到,機器翻譯作為一個科學問題在被學術界不斷深入研究的同時,企業(yè)家們已經(jīng)從市場上獲得了相應的利潤。 在機器翻譯研究中實現(xiàn)人機共生(man-machine symbiosis),人機互助比追求完全自動的高質量的翻譯(Full Automatic High Quality Translation, FAHQT) 更現(xiàn)實、更切合實際Hutchins, 1995 我們需要的是計算機幫助人類完成某些翻譯工作,而不是完全替代人,人與機器翻譯系統(tǒng)之間應該是互補的關系,而不是相互競爭Hutchins, 2001,2019/7/11,15,5.3 自然語言理解研究的內容,用機器翻譯的個別例子來批評甚至詆毀機器翻譯研究是不適當?shù)摹?例1: The spirit is willing, but the flesh is weak. (心有余,而力不足。) 精神是愿意的, 但骨肉是微弱的。(Systran) English- Russian-English: The wine is good, but the meat is spoiled. (酒是好的,肉是餿的。),2019/7/11,16,5.3 自然語言理解研究的內容,例2: Out of sight, out of mind. 眼不見,心不煩。) 出于視域, 在頭腦外面。(Systran) From English to Russian: 又瞎又瘋。,2019/7/11,17,5.3 自然語言理解研究的內容,v信息檢索(Information retrieval):信息檢索也稱情報檢索,就是利用計算機系統(tǒng)從大量文檔中找到符合用戶需要的相關信息。 面向多語言的信息檢索叫做跨語言信息檢索(Cross-language / Trans-lingual information retrieval)。 代表系統(tǒng):Google: 百度:/ 目前已有300多億個網(wǎng)頁,每天幾百萬增加,獲得的信息只有1被有效利用。,2019/7/11,18,5.3 自然語言理解研究的內容,v自動文摘(Automatic summarization / Automaticabstracting):將原文檔的主要內容或某方面的信息自動提取出來,并形成原文檔的摘要或縮寫。 應用:電子圖書管理、情報獲取等 v文檔分類(Document categorization):文檔分類也叫文本自動分(Textcategorizationclassification) 或信息分類(Information categorization / classification),其目的就是利用計算機系統(tǒng)對大量的文檔按照一定的分類標準(例如,根據(jù)主題或內容劃分等)實現(xiàn)自動歸類。 應用:圖書管理、內容管理、信息監(jiān)控等,2019/7/11,19,5.3 自然語言理解研究的內容,v問答系統(tǒng)(Question-answering system):通過計算機系統(tǒng)對人提出的問題的理解,利用自動推理等手段,在有關知識資源中自動求解答案并做出相應的回答。問答技術有時與語音技術和多模態(tài)輸入/輸出技術,以及人機交互技術等相結合,構成人機對話系統(tǒng)(man-computer dialogue system)。 應用:人機對話系統(tǒng)、信息檢索等,2019/7/11,20,5.3 自然語言理解研究的內容,信息過濾(Information filtering):通過計算機系統(tǒng)自動識別和過濾那些滿足特定條件的文檔信息 應用:網(wǎng)絡有害信息過濾、信息安全等 語言教學(Language teaching):借助計算機輔助教學工具,進行語言教學、操練和輔導等。 應用:語言學習等,2019/7/11,21,5.3 自然語言理解研究的內容,v 文字識別(Character recognition):通過計算機系統(tǒng)對印刷體或手寫體等文字進行自動識別,將其轉換成計算機可以處理的電子文本。 應用:文字輸入、識別等 文字編輯和自動校對(Automatic proofreading):對文字拼寫、用詞、甚至語法、文檔格式等進行自動檢查、校對和編排。 應用:排版、印刷和書籍編撰等,2019/7/11,22,5.3 自然語言理解研究的內容,v語音識別(speech recognition):將輸入計算機的語音信號識別轉換成書面語表示。語音識別也稱自動語音識別(automatic speech recognition, ASR)。 應用:文字錄入、人機通訊、語音翻譯等等。 困難:大量存在的同音詞、近音詞、集外詞、口音等等。 例如:輸入:美歐貿易摩擦升級 識別結果:美歐貿易摩擦生機,2019/7/11,23,5.3 自然語言理解研究的內容, 極端情況下的同音字(詞)現(xiàn)象 施氏食獅史(趙元任) 石室詩士施氏,嗜獅,誓食十獅。氏時時適市視獅,十時,適十獅適市,是時,適施氏適市,施氏視是十獅,拭矢試,使是十獅逝世,適石室,石室濕,氏使侍拭石室,石室拭,始食是十獅尸,始識是十獅尸,實十石獅尸,試釋是事。,2019/7/11,24,5.3 自然語言理解研究的內容,文語轉換(text-to-speech):將書面文本自動轉換成對應的語音表征。 應用:朗讀系統(tǒng)、人機語音接口等等。 說話人識別/認同/驗證(speaker recognition/identification/ verification):對一言語樣品做聲學分析,依此推斷(確定或驗證)說話人的身份。 應用:信息安全、防偽等等。,2019/7/11,25,5.4 自然語言理解研究的基本問題,q形態(tài)學(Morphology) 問題:研究詞是如何由意義的基本單位詞素(morphemes)構成的。 詞素(morphemes)詞(word)? 詞根、前綴、后綴、詞尾 例: 人,蜈蚣 老虎老 虎; 圖書館 圖 書 館 re + ex + port reexport,2019/7/11,26,5.4 自然語言理解研究的基本問題,q語義學(Semantics) 問題:研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義。 這句話說了什么? (1) 蘋果不吃了。 (2) 這個人真牛。 (3) 這個人眼下沒些什么,那個人嘴不太好。,2019/7/11,27,5.4 自然語言理解研究的基本問題,q語用學(Pragmatics) 問題:研究在不同上下文中的語句的應用,以及上下文對語句理解所產(chǎn)生的影響。從狹隘的語言學觀點看,語用學處理的是語言結構中有形式體現(xiàn)的那些語境。相反,語用學最寬泛的定義是研究語義學未能涵蓋的那些意義。 為什么要說這句話? (1)火,火! (2)A: 看看魚怎么樣了? B: 我剛才翻了一下。,2019/7/11,28,2019/7/11,29,5.5 自然語言理解面臨的困難,v 語義歧義 他說:“她這個人真有意思(funny)”。她說:“他 這個人怪有意思的(funny)”。于是人們以為他們有了 意思(wish),并讓他向她意思意思(express)。他火了: “我根本沒有那個意思(thought)”!她也生氣了:“你 們這么說是什么意思(intention)”?事后有人說:“真 有意思(funny)”。也有人說:“真沒意思(nonsense)”。 生活報1994. 11. 13. 第六版,2019/7/11,30,q自然語言中存在未知的語言現(xiàn)象,v 新的詞匯 例如: “非典”、專業(yè)術語、外來語、人名等 v 新的含義 例如:窗口、奔騰、農(nóng)民等 v 新的用法和語句結構等 尤其在口語中或部分網(wǎng)絡語言中,不斷出現(xiàn)一些“非規(guī)范的”新的語句結構。,2019/7/11,31,5.6 不同語言的差異,q 不同的語系 孤立語(分析語):形態(tài)變化少,語法關系靠詞序和虛詞表示,如漢語。 曲折語:用詞的形態(tài)變化表示語法關系,如英語。 黏著語:詞內有專門表示語法意義的附加成分,詞根或詞干與附加成分的結合不緊密,如日語。,2019/7/11,32,5.6 不同語言的差異,q 不同的語言單位 漢語:漢字(單音節(jié)、無空格) 英語:英語(多音節(jié)、有空格) 日語:字和詞(多音節(jié)、無空格),2019/7/11,33,5.6 不同語言的差異,q 不同的語法 v 例如: (1) 二樓1三號房間2桌子3上有一本書。 (2) There is a book on the desk3 in Room 32 at the 2nd floor1. q 語義的差異,2019/7/11,34,5.7 自然語言理解研究的基本方法,理性主義與經(jīng)驗主義方法的哲學分野之一:對語言知識來源的不同認識 理性主義認為:人的很大一部分語言知識是與生俱來的,由遺傳決定的。 Chomsky 的內在語言官能(innate language faculty)理論被廣泛接受。 人工編匯初始語言知識 推理系統(tǒng) 自然語言處理系統(tǒng)。,2019/7/11,35,5.7 自然語言理解研究的基本方法,經(jīng)驗主義認為:人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想(association)與通用化(generalization)的操作而得到的。 大量的語言數(shù)據(jù)中獲得語言的知識結構。,2019/7/11,36,5.7 自然語言理解研究的基本方法,q 理性主義與經(jīng)驗主義方法的哲學分野之二:研究對象的差異 理性主義方法:研究人的語言知識結構(語言能力,language competence),實際的語言數(shù)據(jù)(語言行為,language performance)只提供了這種內在知識的間接證據(jù)。 經(jīng)驗主義方法:直接研究這些實際的語言數(shù)據(jù)。,2019/7/11,37,5.7 自然語言理解研究的基本方法,q 理性主義與經(jīng)驗主義方法的哲學分野之三:運用不同的理論 理性主義:通常基于Chomsky 的語言原則principles),通過語言所必須遵守的一系列原則來描述語言。 經(jīng)驗主義:通常是基于Shannon 的信息論。,2019/7/11,38,5.7 自然語言理解研究的基本方法,理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認識,而這些語句和語言現(xiàn)象在實際的應用中并不常見。 經(jīng)驗主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實際使用的普通語句的統(tǒng)計。,2019/7/11,39,5.7 自然語言理解研究的基本方法,q 理性主義方法與經(jīng)驗主義方法的融合 符號智能 計算智能 理性主義研究方法 符號處理系統(tǒng) 經(jīng)驗主義研究方法 基于語言數(shù)據(jù)的計算方法 理性主義與經(jīng)驗主義的合謀 融合方法,2019/7/11,40,5.8 自然語言理解的發(fā)展和研究現(xiàn)狀,q自然語言理解的發(fā)展 萌芽期:1946年世界上第一臺計算機出現(xiàn),自然語言理解的研究起始于機器翻譯。 發(fā)展期:自1966年美國自動語言處理咨詢委員會(ALPAC) 提出ALPAC報告。研究重點轉寫其它分支:人機接口、對話系統(tǒng)、信息檢索等?;痉椒ǎ夯谝?guī)則分析方法。 繁榮期:自20世紀80年代末期以后,基于語料庫的統(tǒng)計方法引入自然語言處理。,2019/7/11,41,5.8 自然語言理解的發(fā)展和研究現(xiàn)狀,q基本研究現(xiàn)狀 v實用或半實用的技術已經(jīng)得到廣泛運用 文字處理器 文字輸入 網(wǎng)絡搜索引擎 輔助翻譯、電子詞典 語音合成 ,2019/7/11,42,5.8 自然語言理解的發(fā)展和研究現(xiàn)狀,v許多技術離真正實用的目標還有相當?shù)木嚯x,若干理論問題有待于進一步深入研究 現(xiàn)有模型和方法的改進 期待新的理論方法 v許多新的研究方向不斷出現(xiàn) 網(wǎng)絡內容管理、信息監(jiān)控、有害信息過濾等 語音文摘生成,2019/7/11,43,5.9 參考文獻,q專著 1 甕富良,計算語言學導論,中國社會科學出版社,1998。 2 馮志偉,自然語言的計算機處理,上海外語教育出版社,1996。 3 姚天順,自然語言理解一種讓機器懂得人類語言的研究,清華大學、廣西科技出版社,2002(第二版)。 4 趙鐵軍,機器翻譯原理,哈爾濱工業(yè)大學出版社,2000。,2019/7/11,44,5.9 參考文獻,5 James Allen, Natural Language Understanding. TheBenjamin/Cummings Publishing Compan
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)園區(qū)規(guī)劃與可持續(xù)發(fā)展研究
- 工業(yè)廢水處理技術與設備發(fā)展研究
- 工業(yè)大數(shù)據(jù)分析與挖掘技術
- 工業(yè)安全防范系統(tǒng)建設與優(yōu)化
- 工業(yè)物聯(lián)網(wǎng)與智能化工廠的建設
- 工業(yè)生產(chǎn)中機器視覺檢測技術的應用
- 工業(yè)綠色轉型與技術革新
- 工業(yè)設備故障診斷的機器學習方案
- 工業(yè)設計中的智能化技術應用
- 工業(yè)自動化中的電力安全防護措施
- MOOC 思辨式英文寫作-南開大學 中國大學慕課答案
- 公司治理視角下的康美藥業(yè)財務舞弊案例研究
- 污水處理設備供貨方案
- 國家開放大學《民法學(1)》案例練習參考答案
- (大學生心理健康教育)第七章宿舍人際關系
- 2023年馬克思主義原理考試知識點匯總
- 華僑大學2013-電磁場與電磁波試卷
- 北京市消防條例培訓課件
- 建行反洗錢應急預案
- 路燈養(yǎng)護投標方案(技術方案)
- 國家開放大學電大本科《管理英語4》期末試題題庫及答案(試卷號:1389)
評論
0/150
提交評論