人工智能翻譯的發(fā)展.ppt_第1頁
人工智能翻譯的發(fā)展.ppt_第2頁
人工智能翻譯的發(fā)展.ppt_第3頁
人工智能翻譯的發(fā)展.ppt_第4頁
人工智能翻譯的發(fā)展.ppt_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

人工智能翻譯 付文青 14S101053 HIT 目錄 機器翻譯概述 1 機器翻譯的原理及方法 2 理解語言 機器翻譯的根本瓶頸 3 機器翻譯 機器翻譯的定義 機器翻譯 MachineTranslation 是使用電子計算機把一種自然語言 源語言 SourceLanguage 翻譯成另外一種自然語言 目標語言 TargetLanguage 的一種學科 這門新學科同時也是一門新技術 它涉及到語言學 計算機科學 數(shù)學等許多部門 是非常典型的多邊緣交叉學科 在語言學中 機器翻譯是計算語言學的研究領域 在計算機科學中 機器翻譯是人工智能的研究領域 在數(shù)學中 機器翻譯是數(shù)理邏輯和形式化方法的研究領域 機器翻譯的方法 按轉換層面劃分 直接翻譯方法 句法轉換方法 語義轉換方法 中間語言方法按知識表示形式劃分 基于規(guī)則的方法 基于實例的方法 統(tǒng)計的方法 基于句法的統(tǒng)計機器翻譯方法 基于統(tǒng)計的翻譯方法是IBM的學者提出 可以歸納為三個重要部分 分別為語言模型的建模 翻譯模型的建模以及解碼三個子部分 語言模型的建模問題是統(tǒng)計估計中的一個經(jīng)典問題 即根據(jù)當前詞預測下一個詞 它是語音識別或光學字符識別的基礎 同時也被用來進行拼寫糾錯 手寫體識別以及統(tǒng)計機器翻譯 基于句法的統(tǒng)計機器翻譯方法 基于短語的統(tǒng)計翻譯方法的問題 泛化能力差 中國大使館 美國大使館 月球大使館 產(chǎn)生的句子不符合語法 短語的簡單組合 沒有句法結構 無法表示不連續(xù)的短語搭配的翻譯 召開了一次關于 的會議holdameetingon 無法進行長距離的語序調(diào)整 解決辦法 引入句法結構 基于句法的統(tǒng)計機器翻譯方法 形式上基于句法的模型 不使用任何語言學知識 所有句法結構直接從未標注的語料庫中自動學習得到語言學上基于句法的模型 使用語言學知識 語言通常要從句法樹庫訓練得到 樹到串模型 只在源語言端使用語言知識 串到樹模型 只在目標語言端使用語言知識 樹到樹模型 在源語言端和目標語言端都使用語言知識 基于句法的統(tǒng)計機器翻譯方法 基于樹到串對齊模板的翻譯模型 基于樹到串對齊模板 簡稱TAT 的統(tǒng)計翻譯模型是一種在源語言進行句法分析的基于語言學句法結構的統(tǒng)計翻譯模型 樹到串對齊模板既可以生成終結符也可以生成非終結符既可以執(zhí)行局部重排序也可以執(zhí)行全局重排序 從經(jīng)過詞語對齊和源語言句法分析的雙語語料庫上自底向上自動抽取TAT 基于句法的統(tǒng)計機器翻譯方法 解碼解碼問題最重要的是如何設計合適的搜索策略來獲得最佳翻譯效果 以及如何解決空間爆炸問題 為盡可能在有限的時間內(nèi)找到最優(yōu)解 必須采用啟發(fā)式算法 最常用的有柱搜索算法 A 算法以及堆棧搜索算法 基于句法的統(tǒng)計機器翻譯方法 解碼 自底向上 柱搜索 BeamSearch 對于每一棵子樹 找到所有與其根節(jié)點匹配的TAT 計算其候選譯文 Candidate 候選譯文 Candidate 的數(shù)據(jù)結構 TAT序列 部分翻譯結果 累積的特征值 累積的概率值 基于句法的統(tǒng)計機器翻譯方法 柱搜索算法采用寬度優(yōu)先的方式構建搜索樹 在搜索樹的每層采用啟發(fā)式函數(shù)對擴展的狀態(tài)進行評分 通過剪枝選取N個最優(yōu)的狀態(tài)進行擴展 基于句法的統(tǒng)計機器翻譯方法 剪枝策略 假設合并 漢語詞位置相同 最后兩個英語詞相同 上一次翻譯的漢語短語的最后一個詞的位置相同 柱狀圖剪枝若假設棧中假設的數(shù)目超過設定的最大值 將假設棧中評分低的剪去 閾值剪枝設置棧中假設的最低概率值 當新假設小于閾值的時候進行剪枝 基于句法的統(tǒng)計機器翻譯方法 機器翻譯的瓶頸 之前進行的機器翻譯的有益的探索中 凡是取得了結果的研究 大都努力避開理解語言這一過程 因為這一過程本身涉及到了AI的終極目標 機器的智能化 然而 這又是一個無法回避的問題 不能理解語言就不可能進行真正意義上的翻譯 機器翻譯的瓶頸 burning PassionissweetLovemakesweakYousaidyoucherishedfreedomsoYourefusetoletitgo 原文譯文 強烈的感情是甜蜜的而愛使我們脆弱你說你珍惜你的自由所以你拒絕丟失它 機器譯文 激情是甜的愛使弱你說你珍惜的自由 以便你不讓它去 機器翻譯的瓶頸 上文已經(jīng)進行過論述過 要實現(xiàn)真正的機器翻譯 必須依賴于機器智能的實現(xiàn) 而這在短期內(nèi)是不可能實現(xiàn)的 那么如何能在可以預見的未來實現(xiàn)初步的機器翻譯呢 機器翻譯分為四個層次 詞匯 語法 語義 語用 前三個階段現(xiàn)在都已經(jīng)各有發(fā)展 但是語用的機器實現(xiàn)卻一直停滯不前 因為語用知識包羅萬象 在不同的語言 不同的背景中 不同的文章中語用知識千差萬別 在不同的對話中上下文背景可能截然不同 面對這樣的現(xiàn)狀 我們唯有面向翻譯對象本身 才可能獲得有效的信息 我認為有一種可能的途徑解決語用問題 機器翻譯的瓶頸 對語句結構進行明確的分類 形成一系列 句型公式 直到每一類中都可以只通過變換相同類型的單詞就可以實現(xiàn)句意的轉化 通過分類 將每個句子的翻譯都遞歸變化到單詞的翻譯 并同時對詞語進行分類 先按照詞義進行種類分類 得到每個詞語的具體分類庫 這個過程類似于自然界對生物的分類 界 門 綱 目 科 屬 種 再根據(jù)詞匯可充當?shù)木渥映煞?依賴于句型公式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論