




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、機(jī)器翻譯IIMachine Translation II,張宇 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 ,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,2,大綱,基于翻譯記憶的機(jī)器翻譯方法 基于模板(模式)的機(jī)器翻譯方法 雙語(yǔ)語(yǔ)料庫(kù)對(duì)齊技術(shù) 句子對(duì)齊 詞語(yǔ)對(duì)齊 機(jī)器翻譯的評(píng)價(jià),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,3,翻譯記憶方法1,翻譯記憶方法(Translation Memory)是基于實(shí)例方法的特例; 也可以把基于實(shí)例的方法理解為廣義的翻譯記憶方法; 翻譯記憶的基本思想: 把已經(jīng)翻譯過(guò)的句子保存起來(lái) 翻譯新句子時(shí),直接到語(yǔ)料庫(kù)中去查找 如果發(fā)現(xiàn)相同的句
2、子,直接輸出譯文 否則交給人去翻譯,但可以提供相似的句子的參考譯文,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,4,翻譯記憶方法2,翻譯記憶方法主要被應(yīng)用于計(jì)算機(jī)輔助翻譯(CAT)軟件中 翻譯記憶方法的優(yōu)缺點(diǎn) 翻譯質(zhì)量有保證 隨著使用時(shí)間匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯,例如公司的產(chǎn)品說(shuō)明書的新版本翻譯 與語(yǔ)言無(wú)關(guān),適用于各種語(yǔ)言對(duì) 缺點(diǎn)是匹配成功率不高,特別是剛開(kāi)始使用時(shí),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,5,翻譯記憶方法3,計(jì)算機(jī)輔助翻譯(CAT)軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號(hào)稱占有國(guó)際CAT市場(chǎng)的70% Mic
3、rosoft、Siemens、SAP等國(guó)際大公司和一些著名的國(guó)際組織都是其用戶 雅信CAT 適合中國(guó)人的習(xí)慣 產(chǎn)品已比較成熟 國(guó)際組織: LISA(Localisation Industry Standards Association) 面向用戶:專業(yè)翻譯人員 數(shù)據(jù)交換:LISA制定了TMX(Translation Memory eXchange)標(biāo)準(zhǔn)。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,6,翻譯記憶方法4,完整的計(jì)算機(jī)輔助翻譯軟件除了包括翻譯記憶功能以外,還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語(yǔ)庫(kù)管理功能 語(yǔ)料庫(kù)的句子對(duì)齊(歷史資料的重復(fù)利用) 項(xiàng)目管理
4、: 翻譯任務(wù)的分解與合并 翻譯工作量的估計(jì) 數(shù)據(jù)共享和數(shù)據(jù)交換,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,7,翻譯記憶方法5,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,8,基于模板(模式)的機(jī)器翻譯方法1,基于模板(Template)或者模式(Pattern)的機(jī)器翻譯方法通常也被看做基于實(shí)例的機(jī)器翻譯方法的一種延伸 所謂“翻譯模板”或者“翻譯模式”可以認(rèn)為是一種顆粒度介于“翻譯規(guī)則”和“翻譯實(shí)例”之間的翻譯知識(shí)表示形式 翻譯規(guī)則:顆粒度大,匹配可能性大,但過(guò)于抽象,容易出錯(cuò) 翻譯實(shí)例:顆粒度小,不易出錯(cuò),但過(guò)于具體,匹配可能性小 翻譯模板(模式):介于
5、二者之間,是一種比較合適的知識(shí)表示形式 一般而言,單語(yǔ)模板(或模式)是一個(gè)常量和變量組成的字符串,翻譯模板(或模式)是兩個(gè)對(duì)應(yīng)的單語(yǔ)模板(或模式),兩個(gè)模板之間的變量存在意義對(duì)應(yīng)關(guān)系,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,9,基于模板(模式)的機(jī)器翻譯方法2,模板舉例: 這個(gè)X 比Y 更Z。 The X is more Z than Y. 模板方法的主要問(wèn)題 對(duì)模板中變量的約束 模板抽取 模板的沖突消解,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,10,Pattern-Based CFG for MT 1,Koichi Takeda, Pattern-
6、Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144- 151, June 1996 給出了翻譯模式的一種形式化定義,并給出了相應(yīng)的翻譯算法以及算法復(fù)雜性的理論證明,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,11,Pattern-Based CFG for MT 2,每個(gè)翻譯模板由一個(gè)源語(yǔ)言上下文無(wú)關(guān)規(guī)則和一個(gè)目標(biāo)語(yǔ)言上下文無(wú)關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對(duì)這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成; 中心詞約束:對(duì)于上下文無(wú)關(guān)語(yǔ)法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非終
7、結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過(guò)使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞; 鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子結(jié)點(diǎn)通過(guò)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符互為翻譯。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,12,Pattern-Based CFG for MT 3,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,13,Pattern-Based CFG for MT 3,翻譯的過(guò)程分為三步: 使用源語(yǔ)言CFG骨架分析輸入句子s 應(yīng)用源語(yǔ)言到目標(biāo)語(yǔ)言的CFG骨
8、架的鏈接約束,生成一個(gè)譯文CFG推導(dǎo)序列 根據(jù)譯文CFG推導(dǎo)序列產(chǎn)生譯文 模板排序的啟發(fā)式原則: 對(duì)于源文CFG骨架相同的模板,有中心詞約束的模板優(yōu)先于沒(méi)有中心詞約束的模板; 對(duì)于同一跨度上的兩個(gè)結(jié)點(diǎn),比較其對(duì)應(yīng)的模板的源文CFG骨架,非終結(jié)符少的模板優(yōu)先于非終結(jié)符多的模板; 中心詞約束被滿足的結(jié)點(diǎn)優(yōu)先于中心詞約束不被滿足的結(jié)點(diǎn); 對(duì)于一個(gè)輸入串而言,分析步驟越短(推導(dǎo)序列越短)越優(yōu)先。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,14,Pattern-Based CFG for MT 4,模板庫(kù)的獲?。杭僭O(shè)T是一組翻譯模板,B是雙語(yǔ)語(yǔ)料庫(kù),是一對(duì)互為翻譯的句子 如果T能夠翻
9、譯句子s為t,那么do nothing; 如果T將s譯為t(不等于t),那么: 如果T中存在的推導(dǎo)Q,但這個(gè)推導(dǎo)不是最優(yōu)解,那么給Q中的模板進(jìn)行實(shí)例化; 如果不存在這種推導(dǎo),那么加入適當(dāng)?shù)哪0?,使得推?dǎo)成立; 如果根本無(wú)法翻譯s(分析失?。?,那么將直接加入到模板庫(kù)中。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,15,模板的自動(dòng)提取,利用一對(duì)實(shí)例進(jìn)行泛化 Jaime G. Carbonell, Ralf D. Brown, Generalized Example-Based Machine Translation /Resear
10、ch/GEBMT/ 利用兩對(duì)實(shí)例進(jìn)行比較 H. Altay Guvenir, Ilyas Cicekli, Learning Translation Templates from Examples Information Systems, 1998 張健,基于實(shí)例的機(jī)器翻譯的泛化方法研究,中科院計(jì)算所碩士論文,2001,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,16,通過(guò)泛化實(shí)例得到翻譯模板,已有實(shí)例: Karl Marx was born in Trier, Germany in May 5, 1818. 卡爾馬克思于1818年5月5日出生在德國(guó)特里爾城。 泛化: was
11、 born in in 于出生在 對(duì)齊 ,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,17,通過(guò)比較實(shí)例得到翻譯模板,已有兩對(duì)翻譯實(shí)例: 我給瑪麗一支筆 I gave Mary a pen. 我給湯姆一本書 I gave Tom a book. 雙側(cè)單語(yǔ)句子分別比較,得到: 我給#X 一#Y #Z I give #W a #U. 查找變量的對(duì)應(yīng)關(guān)系: #X #W #Y #Z #U,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,18,實(shí)例庫(kù)的匹配1,實(shí)例匹配的目的是將輸入句子分解成語(yǔ)料庫(kù)中實(shí)例片斷的組合,這是基于實(shí)例的機(jī)器翻譯的關(guān)鍵問(wèn)題之一,實(shí)例匹配的各種方法有
12、很大的差異,還沒(méi)有那種做法顯示出明顯的優(yōu)勢(shì); 實(shí)例庫(kù)匹配的效率問(wèn)題:由于實(shí)例庫(kù)規(guī)模較大,通常需要建立倒排索引; 實(shí)例庫(kù)匹配的其他問(wèn)題: 實(shí)例片斷的分解: 實(shí)例片斷的組合:,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,19,實(shí)例庫(kù)的匹配2,實(shí)例片斷的分解 實(shí)例庫(kù)中的句子往往太長(zhǎng),直接匹配成功率太低,為了提高實(shí)例的重用性,需要將實(shí)例庫(kù)中的句子分解為片斷 幾種通常的做法: 按標(biāo)點(diǎn)符號(hào)分解 任意分解 通過(guò)組塊分析進(jìn)行分解,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,20,實(shí)例庫(kù)的匹配3,實(shí)例片斷的組合 一個(gè)被翻譯的句子,往往可以通過(guò)各種不同的實(shí)例片斷進(jìn)行組合,如何選
13、擇一個(gè)最好的組合? 簡(jiǎn)單的做法: 最大匹配 最大概率法:選擇概率乘積最大的片斷組合 有點(diǎn)像漢語(yǔ)詞語(yǔ)切分問(wèn)題,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,21,片斷譯文的選擇,由于語(yǔ)料庫(kù)中一個(gè)片斷可能有多種翻譯方法,因此存在片斷譯文的選擇問(wèn)題; 常用的方法: 根據(jù)片斷上下文進(jìn)行排歧; 根據(jù)譯文的語(yǔ)言模型選擇概率最大的譯文片斷組合,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,22,實(shí)例庫(kù)的對(duì)齊,實(shí)例庫(kù)又稱雙語(yǔ)語(yǔ)料庫(kù)(Bilingual Corpus)或平行語(yǔ)料庫(kù)(Parallel Corpus) 雙語(yǔ)語(yǔ)料庫(kù)對(duì)齊的級(jí)別 篇章對(duì)齊 段落對(duì)齊 句子對(duì)齊 詞語(yǔ)對(duì)齊 短語(yǔ)
14、塊對(duì)齊 句法結(jié)構(gòu)對(duì)齊 基于實(shí)例的機(jī)器翻譯中實(shí)例庫(kù)必須至少做到句子級(jí)別的對(duì)齊,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,23,不同對(duì)齊級(jí)別的差異,段落對(duì)齊和句子對(duì)齊 要求保持順序(允許局部順序的調(diào)整) 只有一個(gè)層次 詞語(yǔ)對(duì)齊和短語(yǔ)塊對(duì)齊 不要求保持順序 只有一個(gè)層次 句法結(jié)構(gòu)對(duì)齊 不要求保持順序 多層次對(duì)齊,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,24,句子對(duì)齊1,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,25,句子對(duì)齊2,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,26,基于長(zhǎng)度的句子對(duì)齊1,基本思想:源語(yǔ)言和目標(biāo)
15、語(yǔ)言的句子長(zhǎng)度存在一定的比例關(guān)系 用兩個(gè)因素來(lái)估計(jì)一個(gè)句珠的概率 源語(yǔ)言和目標(biāo)語(yǔ)言中句子的長(zhǎng)度 源語(yǔ)言和目標(biāo)語(yǔ)言中的句子數(shù)(對(duì)齊模式),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,27,基于長(zhǎng)度的句子對(duì)齊2,根據(jù)統(tǒng)計(jì),隨機(jī)變量X=lTi/lSi服從正態(tài)分布,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,28,基于長(zhǎng)度的句子對(duì)齊3,設(shè)通過(guò)語(yǔ)料庫(kù)統(tǒng)計(jì)得到X的期望為c,方差為v2,那么隨機(jī)變量將服從0,1正態(tài)分布: 根據(jù)正態(tài)分布公式可以計(jì)算出(直接查表):,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,29,基于長(zhǎng)度的句子對(duì)齊4,對(duì)齊模式的概率P(m
16、S,mT)可以通過(guò)對(duì)語(yǔ)料庫(kù)的統(tǒng)計(jì)得到。 下面是Gale & Church根據(jù)UBS語(yǔ)料庫(kù)的統(tǒng)計(jì)結(jié)果:,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,30,基于長(zhǎng)度的句子對(duì)齊5,最優(yōu)路徑的搜索:采用動(dòng)態(tài)規(guī)劃算法 定義P(i,j)=P(s1si,t1tj) 最優(yōu)對(duì)齊為P(m,n)所對(duì)應(yīng)的路徑,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,31,基于長(zhǎng)度的句子對(duì)齊6,優(yōu)點(diǎn) 不依賴于具體的語(yǔ)言; 速度快; 效果好 缺點(diǎn) 由于沒(méi)有考慮詞語(yǔ)信息,有時(shí)會(huì)產(chǎn)生一些明顯的錯(cuò)誤 討論 長(zhǎng)度計(jì)算可以采用詞數(shù)或者字節(jié)數(shù),沒(méi)有明顯的優(yōu)劣之分,2020年9月27日10時(shí)35分,語(yǔ)言信息處理
17、-機(jī)器翻譯II,32,基于詞的句子對(duì)齊1,基本思想:互為翻譯的句子對(duì)中,含有互為翻譯的詞語(yǔ)對(duì)的概率,大大高于隨機(jī)的句子對(duì) 用兩個(gè)因素來(lái)估計(jì)一個(gè)句珠的概率 源語(yǔ)言和目標(biāo)語(yǔ)言中互譯詞語(yǔ)的個(gè)數(shù) 源語(yǔ)言和目標(biāo)語(yǔ)言中的句子數(shù)(對(duì)齊模式),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,33,基于詞的句子對(duì)齊2,優(yōu)點(diǎn) 可以充分利用詞語(yǔ)互譯信息,提高正確率 缺點(diǎn) 單獨(dú)使用時(shí),正確率有時(shí)低于基于長(zhǎng)度的方法(取決于詞典的規(guī)模質(zhì)量等) 時(shí)空開(kāi)銷大 討論 對(duì)于同源的語(yǔ)言(英語(yǔ)和法語(yǔ),漢語(yǔ)和日語(yǔ))可以利用詞語(yǔ)同源信息而不使用詞典,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,34,句子對(duì)
18、齊小結(jié),句子對(duì)齊的語(yǔ)料庫(kù)是基于語(yǔ)料庫(kù)的機(jī)器翻譯的基礎(chǔ); 綜合采用基于長(zhǎng)度的方法和基于詞匯的方法可以取得較好的效果; 句子對(duì)齊可以取得很高的正確率,已經(jīng)達(dá)到實(shí)用水平。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,35,詞語(yǔ)對(duì)齊1,特點(diǎn): 保序性不再滿足 對(duì)齊模式復(fù)雜:一對(duì)多、多對(duì)一、多對(duì)多都非常普遍,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,36,詞語(yǔ)對(duì)齊2,困難: 翻譯歧義:一個(gè)詞出現(xiàn)兩個(gè)以上的譯詞 雙語(yǔ)詞典覆蓋率有限:非常普遍的現(xiàn)象 位置歧義:出現(xiàn)兩個(gè)以上相同的詞 漢語(yǔ)詞語(yǔ)切分問(wèn)題 虛詞問(wèn)題:虛詞的翻譯非常靈活,或沒(méi)有對(duì)譯詞 意譯問(wèn)題:根本找不到對(duì)譯的詞
19、,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,37,詞語(yǔ)對(duì)齊3,一般而言,一個(gè)單詞對(duì)齊的模型可以表述為兩個(gè)模型的乘積: 詞語(yǔ)相似度模型(word similarity model) 位置扭曲模型(word distortion model) 用公式表示如下:,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,38,詞語(yǔ)相似度模型1,翻譯概率:IBM Model 1 T-Score: Nc:語(yǔ)料庫(kù)中單詞c出現(xiàn)的詞數(shù) Ne:語(yǔ)料庫(kù)中單詞e出現(xiàn)的詞數(shù) Nec:語(yǔ)料庫(kù)中單詞e和單詞c互譯的詞數(shù),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,39,詞語(yǔ)相似度
20、模型2,戴斯系數(shù)(dice coefficient) 設(shè)S1和S2分別是兩個(gè)集合,則這兩個(gè)集合的戴斯系數(shù)可以通過(guò)如下公式計(jì)算 把漢語(yǔ)詞理解為漢字的集合,戴斯系數(shù)就是兩個(gè)詞中相同的漢字占兩個(gè)詞漢字總數(shù)的比例??紤]到漢字表意性,這種方法在計(jì)算漢語(yǔ)詞相似度時(shí)有較好的效果 計(jì)算漢語(yǔ)詞c和英語(yǔ)詞e的相似度: 先用英語(yǔ)詞e查英漢詞典,得到所有的漢語(yǔ)對(duì)譯詞; 計(jì)算所有對(duì)譯詞和c的戴斯系數(shù),取其中的最大值。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,40,詞語(yǔ)相似度模型3,互信息(mutual information) 通過(guò)兩個(gè)事件X和Y各自出現(xiàn)的概率為p(X)和p(Y),他們聯(lián)合出現(xiàn)的概
21、率為p(X,Y),這兩個(gè)事件之間共同的互信息量定義為: 當(dāng)兩個(gè)事件相互獨(dú)立時(shí),互信息量為0; 當(dāng)兩個(gè)事件傾向于同時(shí)出現(xiàn)時(shí),互信息量為正; 當(dāng)兩個(gè)事件傾向于互相排斥時(shí),互信息量為負(fù); 利用互信息作詞語(yǔ)相似度計(jì)算效果較差。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,41,詞語(yǔ)相似度模型4,2方法:利用聯(lián)立表(contingency table) 2方法的效果比較好,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,42,詞語(yǔ)相似度模型5,對(duì)數(shù)似然比( Log Likelihood Ratio,LLR ) 對(duì)數(shù)似然比在使用中比較有效,在訓(xùn)練語(yǔ)料庫(kù)規(guī)模較小時(shí)尤為明顯,2
22、020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,43,詞語(yǔ)相似度模型6,概念相似度 利用某種形式的義類詞典(Thesaurus),計(jì)算兩個(gè)詞語(yǔ)對(duì)應(yīng)的概念之間的相似度 其中d是概念p1、p2之間的距離,一般用概念層次體系中兩個(gè)結(jié)點(diǎn)之間的距離來(lái)計(jì)算是一個(gè)可條件的參數(shù),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,44,詞語(yǔ)相似度模型7,同義詞詞林的概念層次體系 虛線用于標(biāo)識(shí)某上層結(jié)點(diǎn)到下層結(jié)點(diǎn)的路徑,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,45,位置扭曲模型1,絕對(duì)扭曲模型:IBM Model 2 l:源語(yǔ)言句子長(zhǎng)度 m:目標(biāo)語(yǔ)言句子長(zhǎng)度 i:源語(yǔ)
23、言詞語(yǔ)位置 j:目標(biāo)語(yǔ)言詞語(yǔ)位置,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,46,位置扭曲模型2,相對(duì)偏移模型,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,47,位置扭曲模型3,基于HMM的扭曲模型 將每個(gè)對(duì)齊看作狀態(tài),對(duì)齊位置之間的轉(zhuǎn)移是狀態(tài)的轉(zhuǎn)移,該對(duì)齊處的單詞對(duì)作為輸出。這樣就可以將對(duì)齊問(wèn)題映射到HMM上,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,48,詞語(yǔ)對(duì)齊小結(jié),詞語(yǔ)對(duì)齊比句子對(duì)齊困難得多; 詞語(yǔ)對(duì)齊主要使用一個(gè)詞語(yǔ)相似度模型和一個(gè)位置扭曲模型; 詞語(yǔ)對(duì)齊的副產(chǎn)品:雙語(yǔ)詞典抽取 貪心算法:每次抽取可能性最高的詞對(duì); 詞語(yǔ)抽取和
24、詞語(yǔ)對(duì)齊反復(fù)迭代 可以抽取多詞單元(n元組),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,49,機(jī)器翻譯評(píng)價(jià)1,最早的機(jī)器翻譯評(píng)價(jià):ALPAC報(bào)告 機(jī)器翻譯評(píng)價(jià)的常用指標(biāo) 忠實(shí)度(Adequacy):譯文在多大程度上傳遞了源文的內(nèi)容; 流利度(Fluency):譯文是否符合目標(biāo)語(yǔ)言的語(yǔ)法和表達(dá)習(xí)慣; 信息度(Informative):用戶可以從譯文中獲得信息的程度(通過(guò)選擇題評(píng)分) 絕對(duì)評(píng)價(jià)和相對(duì)評(píng)價(jià),2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,50,機(jī)器翻譯評(píng)價(jià)2,人工評(píng)價(jià) 準(zhǔn)確 成本極高 不能反復(fù)使用 自動(dòng)評(píng)價(jià) 準(zhǔn)確率低 成本低 可以反復(fù)使用,2020年
25、9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,51,機(jī)器翻譯評(píng)價(jià)3,機(jī)器翻譯的評(píng)價(jià)一直是機(jī)器翻譯研究領(lǐng)域中一個(gè)備受關(guān)注的問(wèn)題; 機(jī)器翻譯的自動(dòng)評(píng)價(jià)越來(lái)越引起重視 “評(píng)測(cè)驅(qū)動(dòng)”成為自然語(yǔ)言處理研究的一個(gè)主要?jiǎng)恿?大規(guī)模語(yǔ)料庫(kù)的出現(xiàn)、各種機(jī)器翻譯算法的提出,使得開(kāi)發(fā)過(guò)程中頻繁的評(píng)測(cè)成為必需 開(kāi)發(fā)過(guò)程中頻繁的評(píng)測(cè)只能通過(guò)采用自動(dòng)評(píng)測(cè)方法,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,52,機(jī)器翻譯的自動(dòng)評(píng)測(cè),完全匹配方法 與參考譯文完全相同的譯文才被認(rèn)為是正確的 顯然該標(biāo)準(zhǔn)過(guò)于嚴(yán)格,不適用 編輯距離方法 基于測(cè)試點(diǎn)的方法 基于N元語(yǔ)法的方法,2020年9月27日10時(shí)35分,語(yǔ)
26、言信息處理-機(jī)器翻譯II,53,基于編輯距離的機(jī)器翻譯評(píng)測(cè)1,編輯距離定義: 從候選譯文到參考譯文,所需要進(jìn)行的插入、刪除、替換操作的次數(shù) 舉例說(shuō)明: 源文:She is a star with the theatre company. 機(jī)器譯文:她是與劇院公司的一顆星。 參考譯文:她是劇團(tuán)的明星。 編輯距離:6 插入:與 公司 一顆 替換:劇團(tuán)劇院 明星星,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,54,基于編輯距離的機(jī)器翻譯評(píng)測(cè)2,單詞錯(cuò)誤率:編輯距離除以參考譯文中單詞數(shù) 這個(gè)指標(biāo)是從語(yǔ)音識(shí)別中借鑒過(guò)來(lái)的。 由于語(yǔ)音識(shí)別的結(jié)果語(yǔ)序是不可變的,而機(jī)器翻譯的結(jié)果語(yǔ)序是可變的
27、,顯然這個(gè)指標(biāo)存在一定的缺陷。 與位置無(wú)關(guān)的單詞錯(cuò)誤率:計(jì)算編輯距離時(shí),不考慮插入、刪除、替換操作的順序 也就是說(shuō),候選譯文與參考譯文相比,多出或不夠的詞進(jìn)行刪除或插入操作,其余不同的詞進(jìn)行替換操作。 這個(gè)指標(biāo)與單詞錯(cuò)誤率相比,允許語(yǔ)序的變化,不過(guò)又過(guò)于靈活。,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,55,基于測(cè)試點(diǎn)的機(jī)器翻譯評(píng)測(cè)1,俞士汶等,機(jī)器翻譯譯文質(zhì)量自動(dòng)評(píng)估系統(tǒng),中國(guó)中文信息學(xué)會(huì)1991年論文集,pp. 314319 基本思想 對(duì)于每一個(gè)句子,孤立測(cè)試點(diǎn),簡(jiǎn)化測(cè)試目標(biāo)(模擬人類標(biāo)準(zhǔn)化考試的辦法) 對(duì)于每一個(gè)句子,采用一種TDL語(yǔ)言描述的BNF去與譯文匹配,匹配成
28、功則正確,否則錯(cuò)誤 大批量出題,全面評(píng)價(jià)機(jī)器翻譯譯文質(zhì)量,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,56,基于測(cè)試點(diǎn)的機(jī)器翻譯評(píng)測(cè)2,測(cè)試點(diǎn)分組: 單詞、詞組、詞法、語(yǔ)法(初、中、高級(jí)) 測(cè)試點(diǎn)示例: 源文:I am a student. 測(cè)試:譯文中出現(xiàn)“學(xué)生/大學(xué)生”為正確 源文:I bought a table with three dollars. 測(cè)試:“買”出現(xiàn)在“美元”之后為正確 源文:I bought a table with three legs. 測(cè)試:“買”出現(xiàn)在“腿”之前為正確,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,57,基于
29、測(cè)試點(diǎn)的機(jī)器翻譯評(píng)測(cè)3,優(yōu)點(diǎn): 全自動(dòng) 實(shí)驗(yàn)證明,評(píng)價(jià)結(jié)果是可信的 可以按照人類專家的要求進(jìn)行單項(xiàng)評(píng)測(cè) 缺點(diǎn) 題庫(kù)的構(gòu)造需要具有專門知識(shí)的專家,并且成本較高,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,58,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)1,Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W0109-022) September 17, 200
30、1 基本思想 用譯文中出現(xiàn)的N元組和參考譯文中出現(xiàn)的N元組相比,計(jì)算匹配的N元組個(gè)數(shù)與候選譯文的N元組總個(gè)數(shù)的比例 允許一個(gè)源文有多個(gè)參考譯文,綜合評(píng)分,2020年9月27日10時(shí)35分,語(yǔ)言信息處理-機(jī)器翻譯II,59,基于N元語(yǔ)法的機(jī)器翻譯評(píng)測(cè)2,源文:黨指揮槍是我黨的行動(dòng)指南。 候選譯文: It is a guide to action which ensures that the military always obeys the command of the party It is to insure the troops forever hearing the activity guidebook that party direct 參考譯文: It is a guid
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 郴州應(yīng)急搶險(xiǎn)管理辦法
- 簽證索賠管理辦法心得
- 贛州戶外燒烤管理辦法
- 鄂州員工寢室管理辦法
- 孕婦學(xué)校培訓(xùn)課件
- 格塞爾培訓(xùn)課件
- 學(xué)習(xí)項(xiàng)目小組培訓(xùn)課件
- 肝癌手術(shù)護(hù)理課件
- 肝癌中醫(yī)課件
- 高新一小學(xué)數(shù)學(xué)試卷
- 中小學(xué)辦學(xué)思想凝練的主要路徑
- 2025年法律職業(yè)資格考試民法專項(xiàng)練習(xí)卷:公司法真題匯編
- 2025-2030鋁材行業(yè)市場(chǎng)深度調(diào)研及發(fā)展策略研究報(bào)告
- 危險(xiǎn)性較大的分部分項(xiàng)工程專項(xiàng)施工方案嚴(yán)重缺陷清單(試行)2025解讀
- 湖南長(zhǎng)沙市青竹湖湘一外國(guó)語(yǔ)學(xué)校2025屆七下生物期末經(jīng)典模擬試題含解析
- 鼠標(biāo)操作測(cè)試題及答案
- 2023年福建省松溪縣事業(yè)單位公開(kāi)招聘輔警35名筆試題帶答案
- 浙江國(guó)企招聘2025紹興市鏡湖開(kāi)發(fā)集團(tuán)有限公司下屬國(guó)企招聘11人筆試參考題庫(kù)附帶答案詳解
- 廣東2025年中考模擬數(shù)學(xué)試卷試題及答案詳解
- 山東省濟(jì)南市歷城區(qū)圖片版2025年六年級(jí)下學(xué)期調(diào)研數(shù)學(xué)試卷含解析
- 4-11-01-01 國(guó)家職業(yè)標(biāo)準(zhǔn)供電服務(wù)員 (2025年版)
評(píng)論
0/150
提交評(píng)論