已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀
機(jī)器翻譯原理與方法講義(02)機(jī)器翻譯方法概述.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
機(jī)器翻譯原理與方法 第二講 機(jī)器翻譯方法概述 中國科學(xué)院計(jì)算技術(shù)研究所2008 2009年度秋季課程 劉群 中國科學(xué)院計(jì)算技術(shù)研究所 liuqun 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述2 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法直接翻譯方法 句法轉(zhuǎn)換方法句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法語義轉(zhuǎn)換方法 中間語言方法中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述3 按轉(zhuǎn)換層面劃分的機(jī)器翻譯方法 源語言目標(biāo)語言 中間語言 直接翻譯 句法轉(zhuǎn)換 語義轉(zhuǎn)換 形態(tài)分析 形態(tài)生成 句法分析 句法生成 語義分析語義生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述4 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述5 直接翻譯方法 通過詞語翻譯 插入 刪除和局部的詞序調(diào)整來 實(shí)現(xiàn)翻譯 不進(jìn)行深層次的句法和語義的分析 但可以采用一些統(tǒng)計(jì)方法對詞語和詞類序列進(jìn)行 分析 早期機(jī)器翻譯系統(tǒng)常用的方法 近期IBM提出的 統(tǒng)計(jì)機(jī)器翻譯模型也可以認(rèn)為是采用了這一范式 著名的機(jī)器翻譯系統(tǒng)Systran早期也是采用這種方 法 后來逐步引入了一些句法和語義分析 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述6 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述7 轉(zhuǎn)換方法 1 整個(gè)翻譯過程分為 分析 轉(zhuǎn)換 生成 三個(gè) 階段 分析 源語言句子 源語言深層結(jié)構(gòu) 相關(guān)分析 分析時(shí)考慮目標(biāo)語言的特點(diǎn) 獨(dú)立分析 分析過程與目標(biāo)語言無關(guān) 轉(zhuǎn)換 源語言深層結(jié)構(gòu) 目標(biāo)語言深層結(jié)構(gòu) 生成 目標(biāo)語言深層結(jié)構(gòu) 目標(biāo)語言句子 相關(guān)生成 生成時(shí)考慮源語言的特點(diǎn) 獨(dú)立生成 生成過程與源語言無關(guān) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述8 轉(zhuǎn)換方法 2 理想的轉(zhuǎn)換方法應(yīng)該做到獨(dú)立分析和獨(dú)立生 成 這樣在進(jìn)行多語言機(jī)器翻譯的時(shí)候可以大 大減少分析和生成的工作量 轉(zhuǎn)換方法根據(jù)深層結(jié)構(gòu)所處的層面可分為 句法層轉(zhuǎn)換 深層結(jié)構(gòu)主要是句法信息 語義層轉(zhuǎn)換 深層結(jié)構(gòu)主要是語義信息 分析深度的權(quán)衡 分析的層次越深 歧義排除就越充分 分析的層次越深 錯(cuò)誤率也越高 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述9 轉(zhuǎn)換方法 3 形態(tài)生成 源文結(jié)構(gòu) 源文詞串 源文句子 譯文結(jié)構(gòu)結(jié)構(gòu)轉(zhuǎn)換 結(jié)構(gòu)分析 基于轉(zhuǎn)換方法的翻譯流程 結(jié)構(gòu)生成 形態(tài)分析 譯文詞串 譯文句子 詞語轉(zhuǎn)換 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述10 句法層面的轉(zhuǎn)換方法 1 她把一束花放在桌上 She put a bunch of flowers on the table 她 r 把 p q v n 一 m d 束 q 花 n v a 放 v 在 p d v 桌 n 上 f v w 她 r 把 p 一 m d 束 q 花 n 放 v 在 p v 桌 n 上 f v w 切分 標(biāo)注 標(biāo)注排歧 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述11 句法層面的轉(zhuǎn)換方法 2 句法分析 她 r 把 p 一 m d 束 q 花 n 放 v 在 p v 桌 n 上 f v w 她 zj dj vp vp pp 放 ps 上桌在 pp pnp mpn 一束花把 n 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述12 句法層面的轉(zhuǎn)換方法 3 R 她 NP np SS zj CS dj VP vp VP vp NP pp PP pp V 放 pPP sp P 上 N 桌 pNP np NP mp P NP np T 一 N 束 of N 花W 她 zj dj vp vp pp 放 ps 上桌在 pp pnp mpn 一束花把 n 句法結(jié)構(gòu)轉(zhuǎn)換 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述13 句法層面的轉(zhuǎn)換方法 4 N 她 NP np SS zj CS dj VP vp VP vp NP pp PP pp V 放 pPP sp P 上 N 桌 pNP np NP mp P NP np T 一 N 束 of N 花W N 她 NP np SS zj CS dj VP vp VP vp V 放W NP pp pNP np NP mp P NP np T 一 N 束 of N 花 PP pp pPP sp P 上 N 桌 句法結(jié)構(gòu)生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述14 句法層面的轉(zhuǎn)換方法 5 She puts a bunch of flowers on table N 她 NP np SS zj CS dj VP vp VP vp W V 放 NP pp pNP np NP mp P NP np T 一 N 束ofN 花 PP pp p PP sp P 上N 桌 詞語 轉(zhuǎn)換 與 詞語 生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述15 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述16 中間語言方法 1 利用一種中間語言 interlingua 作為翻譯的中介 表示形式 整個(gè)翻譯的過程分為 分析 和 生成 兩個(gè)階段 分析 源語言 中間語言 生成 中間語言 目標(biāo)語言 分析過程只與源語言有關(guān) 與目標(biāo)語言無關(guān) 生成過程只與目標(biāo)語言有關(guān) 與源語言無關(guān) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述17 中間語言方法 2 中間語言方法的優(yōu)點(diǎn)在于進(jìn)行多語種 翻譯的時(shí)候 只需要對每種語言分別 開發(fā)一個(gè)分析模塊和一個(gè)生成模塊 模塊總數(shù)為2 n 相比之下 如果采用 轉(zhuǎn)換方法就需要對每兩種語言之間都 開發(fā)一個(gè)轉(zhuǎn)換模塊 模塊總數(shù)為n n 1 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述18 中間語言方法 3 語言1語言2 語言4語言3 中間 語言 中間語言方法 語言1語言2 語言4語言3 轉(zhuǎn)換方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述19 中間語言方法 4 中間語言的類型 自然語言 如英語 漢語 人工語言 如世界語 某種知識(shí)表示形式 如語義網(wǎng)絡(luò) 以某種知識(shí)表示形式作為中間語言的機(jī)器 翻譯方法有時(shí)也稱為基于知識(shí)的機(jī)器翻譯 方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述20 中間語言方法 5 Makoto Nagao Kyoto University said when the pivot language i e interlingua is used the results of the analytic stage must be in a form which can be utilized by all of the different languages into which translation is to take place This level of subtlety is a practical impossibility Machine Translation Oxford 1989 Patel Schneider METAL system said METAL employs a modified transfer approach rather than an interlingua If a meta language an interlingua were to be used for translation purposes it would need to incorporate all possible features of many languages That would not only be an endless task but probably a fruitless one as well Such a system would soon become unmanageable and perhaps collapse under its own weight A four valued semantics for terminological reasoning Artificial Intelligence 38 1989 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述21 中間語言方法 6 基于中間語言方法一般都用于多語言的機(jī)器翻譯 系統(tǒng)中 從實(shí)踐看 基于中間語言的機(jī)器翻譯系統(tǒng)還沒有 比較成功的先例 如日本主持的亞洲五國語言機(jī) 器翻譯系統(tǒng) 總體上是失敗的 在CSTAR多國語語音機(jī)器翻譯系統(tǒng)中 曾經(jīng)采用 了一種中間語言方法 其中間語言是一種語義表 示形式 由于語音翻譯都限制在非常狹窄的領(lǐng)域 中 如機(jī)票預(yù)定 語義描述可以做到非常精 確 因此采用中間語言方法有一定的合理性 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述22 中間語言示例 語義網(wǎng)絡(luò) 英語 He bought a book on physics 漢語 他買了一本關(guān)于物理學(xué)的書 one physics book buy he 施事受事 數(shù)量 領(lǐng)域 說明 這里 后面表示的是概念 而不是英語詞 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述23 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述24 按知識(shí)表示劃分的機(jī)器翻譯方法 基于規(guī)則的機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法 基于翻譯記憶的機(jī)器翻譯方法 基于模板 模式 的機(jī)器翻譯方法 基于統(tǒng)計(jì)的機(jī)器翻譯方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述25 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述26 基于規(guī)則的方法 1 采用規(guī)則作為知識(shí)表示形式 重疊詞規(guī)則 切分規(guī)則 標(biāo)注規(guī)則 句法分析規(guī)則 語義分析規(guī)則 結(jié)構(gòu)轉(zhuǎn)換規(guī)則 產(chǎn)生譯文句法語義結(jié)構(gòu) 詞語轉(zhuǎn)換規(guī)則 譯詞選擇 結(jié)構(gòu)生成規(guī)則 譯文結(jié)構(gòu)調(diào)整 詞語生成規(guī)則 譯文詞形生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述27 基于規(guī)則的方法 2 優(yōu)點(diǎn) 直觀 能夠直接表達(dá)語言學(xué)家的知識(shí) 規(guī)則的顆粒度具有很大的可伸縮性 大顆粒度的規(guī)則具有很強(qiáng)的概括能力 小顆粒度的規(guī)則具有精細(xì)的描述能力 便于處理復(fù)雜的結(jié)構(gòu)和進(jìn)行深層次的理解 如 解決長距離依賴問題 系統(tǒng)適應(yīng)性強(qiáng) 不依賴于具體的訓(xùn)練語料 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述28 基于規(guī)則的方法 3 缺點(diǎn) 規(guī)則主觀因素重 有時(shí)與客觀事實(shí)有一定差距 規(guī)則的覆蓋性差 特別是細(xì)顆粒度的規(guī)則很難 總結(jié)得比較全面 規(guī)則之間的沖突沒有好的解決辦法 翹翹板現(xiàn) 象 規(guī)則一般只局限于某一個(gè)具體的系統(tǒng) 規(guī)則庫 開發(fā)成本太高 規(guī)則庫的調(diào)試極其枯燥乏味 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述29 基于規(guī)則的方法 譯詞選擇 開 v v 主體 是 主體 語義類 植物 V 客體 是 客體 漢字 燈 機(jī) 器 V V D 客體 是 客體 語義類 交通工具 V OTHERWISE V 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述30 基于規(guī)則的方法 結(jié)構(gòu)轉(zhuǎn)換 mp7 mp r mp 內(nèi)部結(jié)構(gòu) 組合定中 mp 定語 內(nèi)部結(jié)構(gòu) 單詞 mp 定語 yx 一 mp 量詞子類 集體 種 類 容量 時(shí)量 度量 成形 NP T r NP mp T TNNUM NP NNUM 這一年 mp 定語 內(nèi)部結(jié)構(gòu) 單詞 mp 定語 yx 一 mp 量詞子類 個(gè)體 T T r M 這一個(gè) 哪一個(gè) r yx 這 那 IF mp 定語 內(nèi)部結(jié)構(gòu) 單詞 mp 定語 yx 一 FALSE NP T r M mp T TNNUM PLUR NNUM PLUR 這兩張 NP T r NP mp T TNNUM PLUR NNUM PLUR r yx 這 那 IF mp 定語 內(nèi)部結(jié)構(gòu) 單詞 mp 定語 yx 一 FALSE NP T r M mp NNUM M NNUM NP T r NP mp T TNSUB NP NSUBC 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述31 基于規(guī)則的方法 結(jié)構(gòu)生成 NPMP1 NP T NP T N NP T T NP NP N N this a kind this kind NPATN1 NP AP A NP T N P T T NP NP AP AP A A N N red this book this red book 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述32 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述33 基于語料庫的機(jī)器翻譯方法 機(jī)器翻譯的實(shí)例方法和統(tǒng)計(jì)方法都是基于語料 庫的機(jī)器翻譯方法 優(yōu)點(diǎn) 使用語料庫作為翻譯知識(shí)來源 無需人工編寫規(guī) 則 系統(tǒng)開發(fā)成本低 速度快 從語料庫中學(xué)習(xí)到的知識(shí)比較客觀 從語料庫中學(xué)習(xí)到的知識(shí)覆蓋性比較好 缺點(diǎn) 系統(tǒng)性能依賴于語料庫 數(shù)據(jù)稀疏問題嚴(yán)重 語料庫中不容易獲得大顆粒度的高概括性知識(shí) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述34 基于實(shí)例的機(jī)器翻譯 1 長尾真 Makoto Nagao 在1984年發(fā)表了 采用類比原則進(jìn)行日 英機(jī)器翻 譯的一個(gè)框架 一文 探討日本人初學(xué)英語時(shí)翻譯句子的基本過程 長尾 真認(rèn)為 初學(xué)英語的日本人總是記住一些最基本的英語句子以及一些相對 應(yīng)的日語句子 他們要對比不同的英語句子和相對應(yīng)的日語句子 并由此 推論出句子的結(jié)構(gòu) 參照這個(gè)學(xué)習(xí)過程 在機(jī)器翻譯中 如果我們給出一 些英語句子的實(shí)例以及相對應(yīng)的日語句子 機(jī)器翻譯系統(tǒng)來識(shí)別和比較這 些實(shí)例及其譯文的相似之處和相差之處 從而挑選出正確的譯文 長尾真指出 人類并不通過做深層的語言學(xué)分析來進(jìn)行翻譯 人類的翻譯 過程是 首先把輸入的句子正確地分解為一些短語碎片 接著把這些短語 碎片翻譯成其它語言的短語碎片 最后再把這些短語碎片構(gòu)成完整的句 子 每個(gè)短語碎片的翻譯是通過類比的原則來實(shí)現(xiàn)的 因此 我們應(yīng)該在計(jì)算機(jī)中存儲(chǔ)一些實(shí)例 并建立由給定的句子找尋類似 例句的機(jī)制 這是一種由實(shí)例引導(dǎo)推理的機(jī)器翻譯方法 也就是基于實(shí)例 的機(jī)器翻譯 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述35 基于實(shí)例的機(jī)器翻譯 2 在基于實(shí)例的機(jī)器翻譯系統(tǒng)中 系統(tǒng)的主要知識(shí)源是雙語 對照的翻譯實(shí)例庫 實(shí)例庫主要有兩個(gè)字段 一個(gè)字段保 存源語言句子 另一個(gè)字段保存與之對應(yīng)的譯文 每輸入 一個(gè)源語言的句子時(shí) 系統(tǒng)把這個(gè)句子同實(shí)例庫中的源語 言句子字段進(jìn)行比較 找出與這個(gè)句子最為相似的句子 并模擬與這個(gè)句子相對應(yīng)的譯文 最后輸出譯文 基于實(shí)例的機(jī)器翻譯系統(tǒng)中 翻譯知識(shí)以實(shí)例和義類詞典 的形式來表示 易于增加或刪除 系統(tǒng)的維護(hù)簡單易行 如果利用了較大的翻譯實(shí)例庫并進(jìn)行精確的對比 有可能 產(chǎn)生高質(zhì)量譯文 而且避免了基于規(guī)則的那些傳統(tǒng)的機(jī)器 翻譯方法必須進(jìn)行深層語言學(xué)分析的難點(diǎn) 在翻譯策略上 是很有吸引力的 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述36 基于實(shí)例的機(jī)器翻譯 3 優(yōu)點(diǎn) 直接使用對齊的語料庫作為知識(shí)表示形式 知 識(shí)庫的擴(kuò)充非常簡單 不需要進(jìn)行深層次的語言分析 也可以產(chǎn)生高 質(zhì)量的譯文 缺點(diǎn) 覆蓋率低 實(shí)用的系統(tǒng)需要的語料庫規(guī)模極大 百萬句對以上 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述37 基于實(shí)例的機(jī)器翻譯系統(tǒng)結(jié)構(gòu) 組合變換式 源語言文本 目標(biāo)語言文本 對齊的雙語語料庫 比較應(yīng)用 目標(biāo)語言實(shí)例源語言實(shí)例對齊 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述38 基于實(shí)例的機(jī)器翻譯 舉例 要翻譯句子 E1 He bought a book on physics 在語料庫中查到相似英語句子及其漢語譯文是 E2 He wrote a book on history C2 他寫了一本關(guān)于歷史的書 比較 E1 和 E2 兩個(gè)句子 我們得到變換式 T1 replace wrote bought and replace history physics 將這個(gè)變換式中的單詞都換成漢語就變成 T2 replace 寫 買 and replace 歷史 物理 將 T2 作用于 C2 C1 他買了一本關(guān)于物理學(xué)的書 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述39 基于實(shí)例的機(jī)器翻譯 需要研究的問題 正確地進(jìn)行雙語自動(dòng)對齊 alignment 在實(shí)例庫中要能準(zhǔn)確地由源語言例句找到 相應(yīng)的目標(biāo)語言例句 在基于實(shí)例的機(jī)器翻譯系統(tǒng)的具體實(shí)現(xiàn)中 不僅要求句子 一級(jí)的對齊 而且還要求詞匯一級(jí)甚至短語一級(jí)的對齊 建立有效的實(shí)例匹配檢索機(jī)制 很多研究者認(rèn)為 基于實(shí)例的機(jī)器翻譯的潛力在 于充分利用短語一級(jí)的實(shí)例碎片 也就是在短語一級(jí)進(jìn)行對齊 但是 利用的實(shí) 例碎片越小 碎片的邊界越難于確定 歧義情況越多 從而導(dǎo)致翻譯質(zhì)量的下 降 為此 要建立一套相似度準(zhǔn)則 similarity metric 以便確定兩個(gè)句子或者短 語碎片是否相似 根據(jù)檢索到的實(shí)例生成與源語言句子相對應(yīng)的譯文 由于基于實(shí)例的機(jī)器翻譯對 源語言的分析比較粗 生成譯文時(shí)往往缺乏必要的信息 為了提高譯文生成的質(zhì) 量 可以考慮把基于實(shí)例的機(jī)器翻譯與傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法結(jié)合起 來 對源語言也進(jìn)行一定深度的分析 開展淺層句法分析 shallow parsing 的研究 淺層句法分析以建立語段 chunk 之 間的依附關(guān)系為目標(biāo) 進(jìn)行語段的識(shí)別 分析語段之間的依附關(guān)系 由于分析的 語言單位的顆粒度比較大 歧義就比較少 有利于提高雙語對齊的準(zhǔn)確度 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述40 實(shí)例庫的匹配 1 實(shí)例匹配的目的是將輸入句子分解成語料庫中實(shí) 例片斷的組合 這是基于實(shí)例的機(jī)器翻譯的關(guān)鍵 問題之一 實(shí)例匹配的各種方法有很大的差異 還沒有那種做法顯示出明顯的優(yōu)勢 實(shí)例庫匹配的效率問題 由于實(shí)例庫規(guī)模較大 通常需要建立倒排索引 實(shí)例庫匹配的其他問題 實(shí)例片斷的分解 實(shí)例片斷的組合 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述41 實(shí)例庫的匹配 2 實(shí)例片斷的分解 實(shí)例庫中的句子往往太長 直接匹配成功率太 低 為了提高實(shí)例的重用性 需要將實(shí)例庫中 的句子分解為片斷 幾種通常的做法 按標(biāo)點(diǎn)符號(hào)分解 任意分解 通過組塊分析進(jìn)行分解 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述42 實(shí)例庫的匹配 3 實(shí)例片斷的組合 一個(gè)被翻譯的句子 往往可以通過各種不同的 實(shí)例片斷進(jìn)行組合 如何選擇一個(gè)最好的組 合 簡單的做法 最大匹配 最大概率法 選擇概率乘積最大的片斷組合 有點(diǎn)像漢語詞語切分問題 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述43 片斷譯文的選擇 由于語料庫中一個(gè)片斷可能有多種翻譯方 法 因此存在片斷譯文的選擇問題 常用的方法 根據(jù)片斷上下文進(jìn)行排歧 根據(jù)譯文的語言模型選擇概率最大的譯文片斷 組合 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述44 基于實(shí)例的機(jī)器翻譯系統(tǒng) MBT1和MBT2系統(tǒng) 由日本京都大學(xué)長尾真和佐藤研制 該系統(tǒng)的翻譯過 程分為分解 decomposition 轉(zhuǎn)換 transfer 合成 composition 三 步 在分解階段 系統(tǒng)根據(jù)提交的源語言詞匯依存樹檢索實(shí)例庫 并利 用檢索到的實(shí)例碎片來表示該源語言句子的依存樹 形成源匹配表達(dá) 式 在轉(zhuǎn)換階段 系統(tǒng)利用實(shí)例庫中的對齊信息將源匹配表達(dá)式轉(zhuǎn)換成 目標(biāo)匹配表達(dá)式 在合成階段 將目標(biāo)匹配表達(dá)式展開成為目標(biāo)語言詞 匯依存樹 輸出譯文 PANGLOSS系統(tǒng) 由美國卡內(nèi)基 梅隆大學(xué)研制 這是一個(gè)多引擎機(jī)器翻譯 系統(tǒng) Multi engine Machine Translation 這個(gè)系統(tǒng)的主要引擎是基 于知識(shí)的機(jī)器翻譯系統(tǒng) 基于實(shí)例的機(jī)器翻譯系統(tǒng)只是它的一個(gè)引擎 為整個(gè)多引擎機(jī)器系統(tǒng)提供候選結(jié)果 ETOC和EBMT系統(tǒng) 由日本口語翻譯通信研究實(shí)驗(yàn)室 ATR研制 ETOC系統(tǒng) 能夠檢索出與給定的源語言句子相似的實(shí)例 EBMT系統(tǒng)能夠利用實(shí)例庫 來消解歧義 這兩個(gè)基于實(shí)例的機(jī)器翻譯系統(tǒng)還不完整 我國清華大學(xué)計(jì)算機(jī)系的基于實(shí)例的日漢機(jī)器翻譯系統(tǒng) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述45 翻譯記憶方法 1 翻譯記憶方法 Translation Memory 是基于實(shí)例 方法的特例 也可以把基于實(shí)例的方法理解為廣義的翻譯記憶 方法 翻譯記憶的基本思想 把已經(jīng)翻譯過的句子保存起來 翻譯新句子時(shí) 直接到語料庫中去查找 如果發(fā)現(xiàn)相同的句子 直接輸出譯文 否則交給人去翻譯 但可以提供相似的句子的參考譯文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述46 翻譯記憶方法 2 翻譯記憶方法主要被應(yīng)用于計(jì)算機(jī)輔助翻 譯 CAT 軟件中 翻譯記憶方法的優(yōu)缺點(diǎn) 翻譯質(zhì)量有保證 隨著使用時(shí)間的增加匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯 例如公司的產(chǎn)品說 明書的新版本翻譯 與語言無關(guān) 適用于各種語言對 缺點(diǎn)是匹配成功率不高 特別是剛開始使用時(shí) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述47 翻譯記憶方法 3 計(jì)算機(jī)輔助翻譯 CAT 軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號(hào)稱占有國際CAT市場的70 Microsoft Siemens SAP等國際大公司和一些著名的國際組織都是 其用戶 雅信CAT 適合中國人的習(xí)慣 產(chǎn)品已比較成熟 國際組織 LISA Localisation Industry Standards Association 面向用戶 專業(yè)翻譯人員 數(shù)據(jù)交換 LISA制定了TMX Translation Memory eXchange 標(biāo)準(zhǔn) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述48 翻譯記憶方法 4 完整的計(jì)算機(jī)輔助翻譯軟件除了包括翻譯記憶功 能以外 還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語庫管理功能 語料庫的句子對齊 歷史資料的重復(fù)利用 項(xiàng)目管理 翻譯任務(wù)的分解與合并 翻譯工作量的估計(jì) 數(shù)據(jù)共享和數(shù)據(jù)交換 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述49 翻譯記憶方法 5 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述50 基于模板 模式 的機(jī)器翻譯方法 1 基于模板 Template 或者模式 Pattern 的機(jī)器翻譯 方法通常也被看做基于實(shí)例的機(jī)器翻譯方法的一種延伸 所謂 翻譯模板 或者 翻譯模式 可以認(rèn)為是一種顆粒度介 于 翻譯規(guī)則 和 翻譯實(shí)例 之間的翻譯知識(shí)表示形式 翻譯規(guī)則 顆粒度大 匹配可能性大 但過于抽象 容易出錯(cuò) 翻譯實(shí)例 顆粒度小 不易出錯(cuò) 但過于具體 匹配可能性小 翻譯模板 模式 介于二者之間 是一種比較合適的知識(shí)表示 形式 一般而言 單語模板 或模式 是一個(gè)常量和變量組成 的字符串 翻譯模板 或模式 是兩個(gè)對應(yīng)的單語模板 或模式 兩個(gè)模板之間的變量存在意義對應(yīng)關(guān)系 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述51 基于模板 模式 的機(jī)器翻譯方法 2 模板舉例 這個(gè) X 比 Y 更 Z The X is more Z than Y 模板方法的主要問題 對模板中變量的約束 模板抽取 模板的沖突消解 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述52 模板的自動(dòng)提取 利用一對實(shí)例進(jìn)行泛化 Jaime G Carbonell Ralf D Brown Generalized Example Based Machine Translation http www lti cs cmu edu Research GEBMT 利用兩對實(shí)例進(jìn)行比較 H Altay Guvenir Ilyas Cicekli Learning Translation Templates from Examples Information Systems 1998 張健 基于實(shí)例的機(jī)器翻譯的泛化方法研究 中科院 計(jì)算所碩士論文 2001 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述53 通過泛化實(shí)例得到翻譯模板 已有實(shí)例 Karl Marx was born in Trier Germany in May 5 1818 卡爾 馬克思于1818年5月5日出生在德國特里爾城 泛化 was born in in 于出生在 對齊 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述54 通過比較實(shí)例得到翻譯模板 已有兩對翻譯實(shí)例 我給瑪麗一支筆 I gave Mary a pen 我給湯姆一本書 I gave Tom a book 雙側(cè)單語句子分別比較 得到 我 給 X 一 Y Z I give W a U 查找變量的對應(yīng)關(guān)系 X W Y Z U 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述55 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語義轉(zhuǎn)換方法 中間語言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述56 統(tǒng)計(jì)機(jī)器翻譯 統(tǒng)計(jì)機(jī)器翻譯概述 歷史回顧 一些重要事件回放 一種新的研究范式 統(tǒng)計(jì)機(jī)器翻譯論文發(fā)表數(shù)量的增長 近年來國際機(jī)器翻譯評測的最好成績 統(tǒng)計(jì)機(jī)器翻譯目前的水平 統(tǒng)計(jì)機(jī)器翻譯的優(yōu)缺點(diǎn) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述57 統(tǒng)計(jì)機(jī)器翻譯概述 統(tǒng)計(jì)機(jī)器翻譯也是基于語料庫的機(jī)器翻譯方法 不需要人工撰寫規(guī)則 而是從語料庫中獲取翻譯 知識(shí) 這一點(diǎn)與基于實(shí)例的方法相同 為翻譯建立統(tǒng)計(jì)模型 把翻譯理解為搜索問題 即從所有可能的譯文中選擇概率最大的譯文 基 于實(shí)例的機(jī)器翻譯無需建立統(tǒng)計(jì)模型 與基于實(shí)例的方法的區(qū)別在于 基于實(shí)例的機(jī)器 翻譯中 語言知識(shí)表現(xiàn)為實(shí)例本身 而統(tǒng)計(jì)機(jī)器 翻譯中 翻譯知識(shí)表現(xiàn)為模型參數(shù) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述58 歷史回顧 一些重要事件回放 1 1990年代初IBM首次開展統(tǒng)計(jì)機(jī)器翻譯研究 1999年JHU夏季研討班重復(fù)了IBM的工作并推出 了開放源代碼的工具 2001年IBM提出了機(jī)器翻譯自動(dòng)評測方法BLEU 2002年NIST開始舉行每年一度的機(jī)器翻譯評測 2002年第一個(gè)采用統(tǒng)計(jì)機(jī)器翻譯方法的商業(yè)公司 Language Weaver成立 2002年Franz Josef Och提出統(tǒng)計(jì)機(jī)器翻譯的對數(shù) 線性模型 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述59 歷史回顧 一些重要事件回放 2 2003年Franz Josef Och提出對數(shù)線性模型的最小錯(cuò)誤率 訓(xùn)練方法 2004年P(guān)hilipp Koehn推出Pharaoh 法老 標(biāo)志著基于短 語的統(tǒng)計(jì)翻譯方法趨于成熟 2005年David Chiang提出層次短語模型并代表UMD在 NIST評測中取得好成績 2005年Google在NIST評測中大獲全勝 隨后Google推出 基于統(tǒng)計(jì)方法的在線翻譯工具 其阿拉伯語 英語的翻譯 達(dá)到了用戶完全可接受的水平 2006年NIST評測中USC ISI的樹到串句法模型第一次超過 Google 僅在漢英受限翻譯項(xiàng)目中 2007年Google推出采用統(tǒng)計(jì)機(jī)器翻譯技術(shù)的跨語言檢索 網(wǎng)站 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述60 統(tǒng)計(jì)機(jī)器翻譯 一種新的研究范式 統(tǒng)計(jì)機(jī)器翻譯的成功在于采用了一種新的研究范 式 paradigm 這種研究范式已在語音識(shí)別等領(lǐng)域中被證明是一 種成功的翻譯 但在機(jī)器翻譯中是首次使用 這種范式的特點(diǎn) 公開的大規(guī)模的訓(xùn)練數(shù)據(jù) 周期性的公開評測和研討 開放源碼的工具 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述61 近年來統(tǒng)計(jì)機(jī)器翻譯論文發(fā)表數(shù)量 引自 Franz Josef Och Statistical Machine Translation Foundations and Recent Advances Tutorials on MT Summit X September 13 15 2005 Phuket Thailand 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述62 近年來國際NIST評測最好成績 0 0 1 0 2 0 3 0 4 0 5 0 6 漢語 英語阿拉伯語 英語 BLEU4 2002 2003 2004 2005 2006 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述63 Results on NIST 2006 Evaluation Large Data Track NIST Subset 0 0 05 0 1 0 15 0 2 0 25 0 3 0 35 0 0 05 0 1 0 15 0 2 0 25 0 3 0 35 isiisi googlegoogle lwlw rwthrwth ictict edinburghedinburgh bbnbbn nrcnrc itcirstitcirst umd jhuumd jhu nttntt nictnict cmucmu msrmsr qmulqmul hkusthkust upcupc upennupenn 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述64 統(tǒng)計(jì)機(jī)器翻譯目前的水平 以Google Translator為例 實(shí)地考察一下 統(tǒng)計(jì)機(jī)器翻譯的水平 阿拉伯語 英語 漢語 英語 英語 漢語 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述65 Google Translator 阿拉伯語 英語 半島電視臺(tái) 網(wǎng)站新聞 阿拉伯語原文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述66 Google Translator 阿拉伯語 英語 Google 的 英文譯文 半島電視臺(tái) 網(wǎng)站新聞 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述67 Google Translator 阿拉伯語 英語 Receives American President George Bush at the White House next week the spiritual leader of Buddhists in Tibet the Dalai Lama in a step likely to upset China And Bush will meet with the Dalai Lama in the framework of special away from the media as White House spokesman Gordon Jondro as it did in the past Bush will attend the next day in Washington a ceremony which officially imitate Congress Dalai Lama Congressional Gold Medal the highest decoration that can be granted by Congress The granting of the medal ceremony will be the first time that Bush is displayed publicly with the Dalai Lama who has previously visited the White House but always in informal meetings China replied angrily when the American Congress decided to grant the Dalai Lama medal and denounced the resolution saying that interference in their internal affairs 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述68 Google Translator 漢語 英語 新浪新聞 中文原文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述69 Google Translator 漢語 英語 新浪新聞 Google 的 英文譯文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述70 Google Translator 漢語 英語 土耳其歷屆政府均對此予以否認(rèn) 認(rèn)為這是奧斯曼帝國崩潰過程中出現(xiàn) 的非正常死亡 Turkey successive governments have denied this believing that this is the collapse of the Ottoman Empire appeared in the process of unnatural deaths 語序混亂 土耳其認(rèn)為 那些人死于當(dāng)時(shí)的內(nèi)戰(zhàn)和社會(huì)動(dòng)蕩 而且這一數(shù)字被夸大 了 Turkey believes that those who died at that time of
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能硬件庫存質(zhì)押擔(dān)保協(xié)議3篇
- 專業(yè)化危險(xiǎn)品運(yùn)輸安全承諾協(xié)議模板版
- 2024建筑模板購銷合同范本
- 2025年度LED廣告車租賃與旅游景觀點(diǎn)亮工程合同3篇
- 2024暑期兼職項(xiàng)目人力資源派遣合同3篇
- 2025版高標(biāo)準(zhǔn)承包魚塘養(yǎng)殖基地管理合同3篇
- 2024智能音響控制系統(tǒng)設(shè)計(jì)與施工合同
- 2024某城市地鐵線路擴(kuò)建工程勘察設(shè)計(jì)合同
- ‘卓爾系’產(chǎn)品2024年度庫存管理與合作合同
- 2024版房地產(chǎn)全程策劃合同
- 中小學(xué)人工智能教育方案
- 湖北省襄陽市襄城區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末學(xué)業(yè)水平診斷英語試題
- 營銷組織方案
- 初中英語閱讀理解專項(xiàng)練習(xí)26篇(含答案)
- LS/T 1234-2023植物油儲(chǔ)存品質(zhì)判定規(guī)則
- 部編版五年級(jí)語文上冊期末 小古文閱讀 試卷附答案
- 煙花爆竹火災(zāi)事故的處置措施
- 收費(fèi)站春運(yùn)保通保暢工作方案
- 江蘇南京鼓樓區(qū)2023-2024九年級(jí)上學(xué)期期末語文試卷及答案
- 醫(yī)療試劑服務(wù)方案
- 倉儲(chǔ)部經(jīng)理工作計(jì)劃
評論
0/150
提交評論