![自然語言理解-緒論-PPT課件_第1頁](http://file4.renrendoc.com/view/df0ff6da48f94484899abe11de2c2477/df0ff6da48f94484899abe11de2c24771.gif)
![自然語言理解-緒論-PPT課件_第2頁](http://file4.renrendoc.com/view/df0ff6da48f94484899abe11de2c2477/df0ff6da48f94484899abe11de2c24772.gif)
![自然語言理解-緒論-PPT課件_第3頁](http://file4.renrendoc.com/view/df0ff6da48f94484899abe11de2c2477/df0ff6da48f94484899abe11de2c24773.gif)
![自然語言理解-緒論-PPT課件_第4頁](http://file4.renrendoc.com/view/df0ff6da48f94484899abe11de2c2477/df0ff6da48f94484899abe11de2c24774.gif)
![自然語言理解-緒論-PPT課件_第5頁](http://file4.renrendoc.com/view/df0ff6da48f94484899abe11de2c2477/df0ff6da48f94484899abe11de2c24775.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、自然語言理解上海交通大學計算機系陳玉泉聯(lián)系方式陳玉泉:34204406閔行電院3-525參考文獻俞士汶主編(2019)計算語言學概論,商務印書館劉穎(2019)計算語言學,清華大學出版社James Allen(2019), Natural Language Understanding The Benjamin / Cummings Publishing Company, Inc.翁富良、王野翊(2019)計算語言學導論, 中國社會科學出版社Christopher D. Manning and Hinrich Schutze(2019), Foundations of Statistical N
2、atural Language Processing, The MIT Press, Cambridge, Massachusetts參考文獻劉開瑛、郭炳炎(1991)自然語言處理,科學出版社馮志偉(1991)數學與語言,湖南教育出版社馮志偉(2019)自然語言機器翻譯新論,語文出版社2019年版。姚天順等(2019)自然語言理解一種讓機器懂得人類語言的研究,清華大學出版社、廣西科學技術出版社馮志偉(2019)自然語言的計算機處理,上海外語教育出版社俞士汶等(2019)現代漢語語法信息詞典詳解,清華大學出版社、廣西科學技術出版社陳小荷(2000)現代漢語自動分析,北京語言文化大學出版社網絡資源
3、ACL主頁:NLP新聞組:comp.ai.nat-langLDC:中文自然語言處理開放平臺:計算所自然語言處理研究組:mtgroup.ict.ac北京大學計算語言學研究所:中國語言文字網:linguitics_links.html期刊計算語言學外文期刊名.doc中文期刊: 語言文字學 語言文字應用 中國語文 中文信息學報 當代語言學 現代外語 課程說明上課:1-8周,4學時/周,32學時考核:開卷考試 致謝本課程講義(包括后續(xù)各節(jié))直接引用了下面幾位同行的課程講義中的部分內容,在此深表感謝!劉群: 計算語言學詹衛(wèi)東: 計算語言學概論白碩: 計算語言學劉穎: 計算語言學馮志偉:機器翻譯研究的歷史
4、和現狀 依存語法在機器翻譯中的應用第一章概論問題驅動的學習要了解一門學科,首先要知道這門學科所要解決的問題。只有了解了一門學科所要解決的問題,才能真正理解一門學科的內在邏輯,才能不僅知其然,而且知其所以然。在學習一門學科之前,不妨拋開這門學科的所有知識,直接面對這門學科所面對的最基本的問題,想一想如果要你來解決這個問題,你會用什么辦法。然后在學習的過程中,不斷地用你學到的知識來印證你所要解決的問題,才能深刻地理解你所學到的知識,真正做到融會貫通。問題之一:自動翻譯 自動翻譯問題 人類最古老的問題之一:圣經上巴比倫塔的傳說計算機發(fā)明以來,幾乎是人類首先想到的計算機的應用之一困難比人們想像的大得多
5、,至今沒有找到理想的解決辦法是推動計算語言學研究的永恒動力是計算語言學的終極目標自動翻譯研究,幾乎觸及到計算語言學研究的所有方方面面問題之一:自動翻譯(續(xù)) 一個經典的例子(早期的英俄翻譯系統(tǒng)):源文:The spirit is willing , but the flesh is weak.正確的譯文:心有余而力不足機器的譯文:酒是好的,但肉是餿的又一個經典的例子(一個笑話)源文:How are you?正確的譯文:你好嗎?逐字翻譯的譯文:怎么是你?源文:How old are you?正確的譯文:你多大了?逐字翻譯的譯文:怎么老是你?問題之一:自動翻譯(續(xù)二) 演示Light英漢機器翻譯系
6、統(tǒng)TransEasy漢英機器翻譯系統(tǒng)目前的水平:LogMedia:https:/logomedia/WordLingo:worldlingo/看世界: readworld金橋譯港:netat/問題之二:自動問答 圖靈測試用于判斷“機器是否具有智能”一個封閉的小屋屋外一個人屋內依次進入一個人和一臺計算機屋外的人并不知道屋內的是人還是計算機屋外的人向屋內的人和計算機提出各種問題屋外的人根據回答來判斷屋內是人還是計算機如果判斷不出來,那么可以認為計算機具有了智能交談 甲:聽說吳媽打贏了阿Q。乙:不錯,阿Q確實被吳媽打敗了。甲:這個結果有些出人意料。乙:阿Q是大意失荊州,怪不得別人。 A. M. Tu
7、ring 我們可以期待,總有一天機器會同人在所有的智能領域里競爭起來。但是,如何開始呢?這是一個很難決定的問題。許多人以為可以把下棋之類的極為抽象的活動作為最好的出發(fā)點,不過,還有一種辦法也應加以考慮,就是為機器配備具有智能的、可用錢買到的意識器官,然后,教這種機器理解并且說英語。這個過程可以仿效通常小孩子學話的方式進行。我不能確定到底哪個出發(fā)點更好,但應該都值得一試。A. M. Turing, Computing Machinery and Intelligence, Mind Vol.59, 1950.阿蘭. 圖靈(英國數學家)計算裝置與智能 關于語言,可以問些什么? 人用來交際的“語言”
8、具有什么樣的性質?這些性質又是如何影響交際過程的?人用來交際的“語言”跟機器可以“理解”的語言有什么樣的關系?人是如何運用“語言”進行交際的?人運用語言進行交際的過程是否可以描述為一個機械的過程?什么叫做“理解”一種語言?其它問題音字轉換:語音識別、拼音輸入自動文摘:自動給出一篇或多篇文章的摘要信息檢索:在海量的信息準確找到你所需要的信息信息過濾:從信息流中篩選出你所感興趣的信息信息抽?。簭暮A康男畔⒅谐槿〕瞿闼枰模ńY構化)信息定義 計算語言學(Computational Linguistics)指的是這樣一門學科,它通過建立形式化的數學模型,來分析、處理自然語言,并在計算機上用程序來實現
9、分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的。 NLP/NLU/CIP計算語言學(Computational Linguistics ) 廣義的計算語言學幾乎包括了與計算機(或計算機科學)和語言學相關的所有方面;狹義的計算語言學一般等同于自然語言理解(NLU),也就是通過建立形式化的計算模型來分析、理解和處理語言。 中文信息處理( Chinese Information Processing , CIP):又稱漢語信息處理,是漢語的自然語言處理(NLP)。計算語言學是三個學科的交叉領域常規(guī)統(tǒng)計方法:其中A:統(tǒng)計語言學, B:機器學習,C:人工神經元網絡 非常規(guī)方法: 其
10、中D:模型論,情景理論E:非單調邏輯,模糊邏輯,博弈論語義,似然推理計算語言學與語言學 語言學 計算機科學 教學對象 人 機器理解依據 人類活動說話環(huán)境 形式描述情景知識最基本語言條件 語感語料、加工平臺例句判斷的基本假設 單說分解過程中任意出現:“合法合情合理” 計算語言學的研究手段 計算語言學的研究手段是計算計算的基礎是馮諾依曼結構的計算機計算的表現形式是算法算法:一組有窮的操作規(guī)則確定性:每一個步驟的結果都是確定的可行性:每一個步驟可在有限時間內完成輸入:有輸入輸出:有輸出有窮性:可在有限步驟內停止算法和程序的聯(lián)系與區(qū)別 計算語言學的研究對象 計算語言學的研究對象是自然語言自然語言與形式
11、語言的本質區(qū)別:歧義性自然語言是一種符號系統(tǒng)語言符號的特點(索緒爾)任意性:語言符號的選擇是任意的線條性:語言符號的排列是線性的語言、思維與客觀世界 思維自然語言 客觀世界語言的層面 語言研究的層面語音語法(包括詞匯層和句法層)語法研究要回答的問題是:一句話為什么可以這么說而不能那么說?語義語義研究要回答的問題是:這句話說了什么?語用語用研究要回答的問題是:為什么要說這句話? 語言的層面(續(xù)) 語言各層面之間的關系語言層面的劃分反映了語言在不同層次上的規(guī)律性語言的各個層面是互相交織密不可分的,語言層面的劃分只是為了研究方便,對任何一個層面的研究都不能忽略其他層面所起的作用語言在不同層面的歧義性
12、 .語音層面:多音字,同音詞施氏食獅史(趙元任)石室詩士施氏,嗜獅,誓食十獅。氏時時適市視獅,十時,適十獅適市,是時,適施氏適市,施氏視是十獅,拭矢試,使是十獅逝世,適石室,石室濕,氏使侍拭石室,石室拭,始食是十獅尸,始識是十獅尸,實十石獅尸,試釋是事。 語言在不同層面的歧義性(續(xù)) 語法層面詞法歧義詞性兼類:工作(動名兼類),在(動副兼類)詞語切分歧義:乒乓球拍賣完了,魚在長江中游句法歧義結構歧義:張三和李四的朋友組合關系歧義:觀賞魚語言在不同層面的歧義性(續(xù)二) .語義層面一詞多義:后門,人大,I can can the can in the can.結構語義歧義:吃飯,吃食堂,吃大碗.語
13、境層面雞蛋!他去修車了。漢語的特點 語言的分類漢語:孤立語(分析語)英語:屈折語日語:粘著語基本單位漢語:漢字(單音節(jié),不用空格分隔)英語:詞(多音節(jié),用空格分隔)詞語形態(tài)變化漢語:弱(重疊、離合)英語:強(屈折) 漢語的特點(續(xù)) 語言的層次劃分漢語:不明顯:字與詞、詞與語、語與句、句與段,都沒有明確的界限英語:明顯:詞、短語、子句、句子、段落之間界限分明詞類與句法功能的對應漢語:多對多英語:一對一 計算語言學的研究對象 從計算的角度來研究語言的性質將語言作為計算對象來研究相應的算法 從計算角度研究語言 所謂從計算的角度來看語言的性質,就是要求將人們對語言的結構規(guī)律的認識以精確的、形式化的、
14、可計算的方式呈現出來,而不是像其他語言學研究那樣,在表述語言的結構規(guī)律時一般采用非形式化的表達形式。 例子.張三趕跑了李四.張三把李四趕跑了.李四被張三趕跑了.吳媽以前很喜歡阿Q的理論.* 吳媽把阿Q的理論以前很喜歡.* 阿Q的理論被吳媽以前很喜歡語法規(guī)律 漢語中的一個基本句型是:P0: X 動詞YP0可以變換為“把”字句或“被”字句P1: X+把+Y+動詞P2: Y+被+X+動詞有些時候P0可以變換為P1,P2;有些時候P0不可以變換為P1,P2;將語言作為計算對象 所謂將語言作為計算對象來研究相應的算法,是研究如何以機械的、規(guī)定了嚴格操作步驟的程序來處理語言對象(主要是自然語言對象,當然也
15、可以是形式語言對象),包括一個語言片斷(比如詞組、句子或篇章)中大小語言單位的識別,該語言片斷的結構和意義的分析(自然語言理解),以及如何生成一個語言片斷來表達確定的意思(自然語言生成),等等 過程 S1:研究者以特定的方式對自然語言(NL0)的規(guī)律進行抽象,以計算機能夠處理的形式來表述關于自然語言的規(guī)律得到語言知識K;S2:針對特定的語言知識表示形式,研制適合的分析和處理算法;S3:根據算法編制計算機可執(zhí)行的自然語言處理程序P。這樣的程序加上語言知識,加上計算機硬件系統(tǒng),共同構成一個自然語言處理系統(tǒng)(NLPs);S4:用這樣一個自然語言處理系統(tǒng)對自然語言NL0進行分析處理,根據反饋的結果調整原來的設計,改進NLPs。 計算語言學的應用領域 機器翻譯(Machine Translation)文本分類(Text Classification)信息檢索(Information Retrieval)信息提?。↖nformation Extraction)語音合成(Speech Synthesis)語音識別(Speech Recognition)人機接口(Human-Machine Interface) 計算語言學研究的基本方法 理性主義研究方法 基于規(guī)則
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年檔節(jié)柜項目可行性研究報告
- 2025年方條磁鋼項目可行性研究報告
- 2025至2031年中國太陽能交通燈行業(yè)投資前景及策略咨詢研究報告
- 2025年吸塵器滾輪地刷項目可行性研究報告
- 2025年包裝熱收縮膜項目可行性研究報告
- 2025年五色石子項目可行性研究報告
- 2025至2030年鱈魚保鮮劑項目投資價值分析報告
- 2025至2030年中國送布輪數據監(jiān)測研究報告
- 2025至2030年草藝品手把項目投資價值分析報告
- 2025至2030年電動伺服閥項目投資價值分析報告
- 罕見病診治與病例管理制度
- 幼兒園開學前教職工安全培訓
- 口腔接診流程
- 東風汽車網上測評答案
- 企業(yè)員工信息安全意識培訓
- 2025-2030年中國智能安防行業(yè)發(fā)展狀況及前景規(guī)劃研究報告
- 2025屆高考化學 二輪復習 專題五 離子共存(含解析)
- 能源管理軟件招標模板高效節(jié)能
- 2024年臨床醫(yī)師定期考核必考復習題庫及答案(150題)
- 2024年中國智能電磁爐市場調查研究報告
- 廣東省汕頭市潮陽區(qū)2024-2025學年高一數學上學期期末教學質量監(jiān)測試卷
評論
0/150
提交評論