人工智能翻譯的發(fā)展_第1頁(yè)
人工智能翻譯的發(fā)展_第2頁(yè)
人工智能翻譯的發(fā)展_第3頁(yè)
人工智能翻譯的發(fā)展_第4頁(yè)
人工智能翻譯的發(fā)展_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、人工智能翻譯付文青14S101053 HIT目錄機(jī)器翻譯概述1機(jī)器翻譯的原理及方法2理解語(yǔ)言,機(jī)器翻譯的根本瓶頸3機(jī)器翻譯機(jī)器翻譯的定義機(jī)器翻譯(Machine Translation),是使用電子計(jì)算機(jī)把一種自然語(yǔ)言(源語(yǔ)言,Source Language)翻譯成另外一種自然語(yǔ)言(目標(biāo)語(yǔ)言,Target Language)的一種學(xué)科。這門新學(xué)科同時(shí)也是一門新技術(shù),它涉及到語(yǔ)言學(xué),計(jì)算機(jī)科學(xué),數(shù)學(xué)等許多部門,是非常典型的多邊緣交叉學(xué)科。 在語(yǔ)言學(xué)中,機(jī)器翻譯是計(jì)算語(yǔ)言學(xué)的研究領(lǐng)域 在計(jì)算機(jī)科學(xué)中,機(jī)器翻譯是人工智能的研究領(lǐng)域 在數(shù)學(xué)中,機(jī)器翻譯是數(shù)理邏輯和形式化方法的研究領(lǐng)域機(jī)器翻譯的方法按轉(zhuǎn)

2、換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 統(tǒng)計(jì)的方法基于句法的統(tǒng)計(jì)機(jī)器翻譯方法基于統(tǒng)計(jì)的翻譯方法是IBM的學(xué)者提出,可以歸納為三個(gè)重要部分,分別為語(yǔ)言模型的建模、翻譯模型的建模以及解碼三個(gè)子部分。語(yǔ)言模型的建模問(wèn)題是統(tǒng)計(jì)估計(jì)中的一個(gè)經(jīng)典問(wèn)題,即根據(jù)當(dāng)前詞預(yù)測(cè)下一個(gè)詞。它是語(yǔ)音識(shí)別或光學(xué)字符識(shí)別的基礎(chǔ),同時(shí)也被用來(lái)進(jìn)行拼寫(xiě)糾錯(cuò)、手寫(xiě)體識(shí)別以及統(tǒng)計(jì)機(jī)器翻譯?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯方法基于短語(yǔ)的統(tǒng)計(jì)翻譯方法的問(wèn)題泛化能力差 中國(guó)大使館、美國(guó)大使館 月球大使館?產(chǎn)生的句子不符合語(yǔ)法 短語(yǔ)的簡(jiǎn)單組合,沒(méi)有句法結(jié)構(gòu)無(wú)法表示不連續(xù)的

3、短語(yǔ)搭配的翻譯 召開(kāi)了一次關(guān)于的會(huì)議 hold a meeting on 無(wú)法進(jìn)行長(zhǎng)距離的語(yǔ)序調(diào)整解決辦法:引入句法結(jié)構(gòu)!基于句法的統(tǒng)計(jì)機(jī)器翻譯方法形式上基于句法的模型 不使用任何語(yǔ)言學(xué)知識(shí) 所有句法結(jié)構(gòu)直接從未標(biāo)注的語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)得到語(yǔ)言學(xué)上基于句法的模型 使用語(yǔ)言學(xué)知識(shí) 語(yǔ)言通常要從句法樹(shù)庫(kù)訓(xùn)練得到 樹(shù)到串模型:只在源語(yǔ)言端使用語(yǔ)言知識(shí) 串到樹(shù)模型:只在目標(biāo)語(yǔ)言端使用語(yǔ)言知識(shí) 樹(shù)到樹(shù)模型:在源語(yǔ)言端和目標(biāo)語(yǔ)言端都使用語(yǔ)言知識(shí)基于句法的統(tǒng)計(jì)機(jī)器翻譯方法基于樹(shù)到串對(duì)齊模板的翻譯模型 基于樹(shù)到串對(duì)齊模板(簡(jiǎn)稱 TAT )的統(tǒng)計(jì)翻譯模型是一種在源語(yǔ)言進(jìn)行句法分析的基于語(yǔ)言學(xué)句法結(jié)構(gòu)的統(tǒng)計(jì)翻譯模型

4、 樹(shù)到串對(duì)齊模板既可以生成終結(jié)符也可以生成非終結(jié)符既可以執(zhí)行局部重排序也可以執(zhí)行全局重排序 從經(jīng)過(guò)詞語(yǔ)對(duì)齊和源語(yǔ)言句法分析的雙語(yǔ)語(yǔ)料庫(kù)上自底向上自動(dòng)抽取 TAT 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法解碼解碼問(wèn)題最重要的是如何設(shè)計(jì)合適的搜索策略來(lái)獲得最佳翻譯效果,以及如何解決空間爆炸問(wèn)題,為盡可能在有限的時(shí)間內(nèi)找到最優(yōu)解,必須采用啟發(fā)式算法。最常用的有柱搜索算法、A*算法以及堆棧搜索算法?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯方法解碼自底向上柱搜索( Beam Search )對(duì)于每一棵子樹(shù),找到所有與其根節(jié)點(diǎn)匹配的 TAT ,計(jì)算其候選譯文( Candidate )候選譯文( Candidate )的數(shù)據(jù)結(jié)構(gòu): TAT

5、 序列 部分翻譯結(jié)果 累積的特征值 累積的概率值基于句法的統(tǒng)計(jì)機(jī)器翻譯方法柱搜索算法采用寬度優(yōu)先的方式構(gòu)建搜索樹(shù),在搜索樹(shù)的每層采用啟發(fā)式函數(shù)對(duì)擴(kuò)展的狀態(tài)進(jìn)行評(píng)分,通過(guò)剪枝選取N個(gè)最優(yōu)的狀態(tài)進(jìn)行擴(kuò)展基于句法的統(tǒng)計(jì)機(jī)器翻譯方法剪枝策略*假設(shè)合并 漢語(yǔ)詞位置相同 最后兩個(gè)英語(yǔ)詞相同 上一次翻譯的漢語(yǔ)短語(yǔ)的最后一個(gè)詞的位置相同*柱狀圖剪枝 若假設(shè)棧中假設(shè)的數(shù)目超過(guò)設(shè)定的最大值,將假設(shè)棧中評(píng)分低的剪去*閾值剪枝 設(shè)置棧中假設(shè)的最低概率值,當(dāng)新假設(shè)小于閾值的時(shí)候進(jìn)行剪枝 基于句法的統(tǒng)計(jì)機(jī)器翻譯方法機(jī)器翻譯的瓶頸之前進(jìn)行的機(jī)器翻譯的有益的探索中,凡是取得了結(jié)果的研究,大都努力避開(kāi)理解語(yǔ)言這一過(guò)程。因?yàn)檫@一

6、過(guò)程本身涉及到了AI的終極目標(biāo),機(jī)器的智能化。然而,這又是一個(gè)無(wú)法回避的問(wèn)題,不能理解語(yǔ)言就不可能進(jìn)行真正意義上的翻譯。機(jī)器翻譯的瓶頸burningPassion is sweetLove makes weakYou said you cherished freedom soYou refuse to let it go原文譯文:強(qiáng)烈的感情是甜蜜的而愛(ài)使我們脆弱你說(shuō)你珍惜你的自由所以你拒絕丟失它機(jī)器譯文:激情是甜的 愛(ài)使弱 你說(shuō)你珍惜的自由,以便 你不讓它去機(jī)器翻譯的瓶頸上文已經(jīng)進(jìn)行過(guò)論述過(guò),要實(shí)現(xiàn)真正的機(jī)器翻譯,必須依賴于機(jī)器智能的實(shí)現(xiàn),而這在短期內(nèi)是不可能實(shí)現(xiàn)的,那么如何能在可以預(yù)見(jiàn)的未來(lái)

7、實(shí)現(xiàn)初步的機(jī)器翻譯呢?機(jī)器翻譯分為四個(gè)層次:“詞匯,語(yǔ)法,語(yǔ)義,語(yǔ)用。”前三個(gè)階段現(xiàn)在都已經(jīng)各有發(fā)展,但是語(yǔ)用的機(jī)器實(shí)現(xiàn)卻一直停滯不前,因?yàn)檎Z(yǔ)用知識(shí)包羅萬(wàn)象,在不同的語(yǔ)言,不同的背景中,不同的文章中語(yǔ)用知識(shí)千差萬(wàn)別,在不同的對(duì)話中上下文背景可能截然不同,面對(duì)這樣的現(xiàn)狀,我們唯有面向翻譯對(duì)象本身,才可能獲得有效的信息,我認(rèn)為有一種可能的途徑解決語(yǔ)用問(wèn)題:機(jī)器翻譯的瓶頸對(duì)語(yǔ)句結(jié)構(gòu)進(jìn)行明確的分類,形成一系列“句型公式”,直到每一類中都可以只通過(guò)變換相同類型的單詞就可以實(shí)現(xiàn)句意的轉(zhuǎn)化,通過(guò)分類,將每個(gè)句子的翻譯都遞歸變化到單詞的翻譯。 并同時(shí)對(duì)詞語(yǔ)進(jìn)行分類,先按照詞義進(jìn)行種類分類,得到每個(gè)詞語(yǔ)的具體分類庫(kù),這個(gè)過(guò)程類似于自然界對(duì)生物的分類,界-門-綱-目-科-屬-種,再根據(jù)詞匯可充當(dāng)?shù)木渥映煞郑ㄒ蕾囉诰湫凸降男?/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論