機(jī)器翻譯原理_第1頁
機(jī)器翻譯原理_第2頁
機(jī)器翻譯原理_第3頁
機(jī)器翻譯原理_第4頁
機(jī)器翻譯原理_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器翻譯原理第1頁,共64頁,2023年,2月20日,星期五主要內(nèi)容概述為什么要自動(dòng)地獲取知識(shí)(Why?)獲取什么知識(shí)(What?)如何獲取知識(shí)(How?)

雙語語料庫(kù)對(duì)齊加工句子對(duì)齊詞匯對(duì)齊結(jié)構(gòu)對(duì)齊翻譯知識(shí)的獲取直接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究第2頁,共64頁,2023年,2月20日,星期五為什么要自動(dòng)獲取知識(shí)(Why?)

機(jī)器翻譯的發(fā)展現(xiàn)狀

Internet的發(fā)展進(jìn)一步促進(jìn)了對(duì)機(jī)器翻譯技術(shù)的需求現(xiàn)有的機(jī)器翻譯系統(tǒng)不能令人滿意“滿篇英文難不住,滿篇中文看不懂”“MT,不是machinetranslation,而是madtranslation”

存在的主要問題

傳統(tǒng)的機(jī)器翻譯:手工編寫規(guī)則知識(shí)獲取瓶頸

解決的途徑從語料庫(kù)中自動(dòng)獲取機(jī)器翻譯所需要的各種知識(shí)

第3頁,共64頁,2023年,2月20日,星期五什么是知識(shí)?

Bacon:“知識(shí)就是力量”

Feigenbaum:“知識(shí)與信息不一樣.知識(shí)是信息經(jīng)過加工整理、解釋、挑選和改造而形成的”董振冬:知識(shí)是一個(gè)系統(tǒng),是一個(gè)包含著各種概念與概念之間的關(guān)系,以及概念的屬性與屬性之間的關(guān)系的系統(tǒng)。第4頁,共64頁,2023年,2月20日,星期五獲取什么知識(shí)(What?)

單語

詞匯:分詞、詞性標(biāo)注

語法(結(jié)構(gòu)):詞性標(biāo)注、句法分析

語義:詞義排歧、聚類分析雙語

翻譯知識(shí)

詞典知識(shí)

結(jié)構(gòu)轉(zhuǎn)換知識(shí)

譯文選擇知識(shí)

……第5頁,共64頁,2023年,2月20日,星期五如何獲取知識(shí)(How?)

知識(shí)獲取的主要方法

手工獲取知識(shí)

智能人機(jī)交互

統(tǒng)計(jì)方法(HMM,PCFG……)

機(jī)器學(xué)習(xí)方法決策樹歸納學(xué)習(xí)基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)方法(EricBrill)

基于實(shí)例的方法

……第6頁,共64頁,2023年,2月20日,星期五翻譯知識(shí)獲取

知識(shí)獲取過程:

數(shù)據(jù)預(yù)處理知識(shí)挖掘知識(shí)評(píng)價(jià)雙語語料庫(kù)對(duì)齊加工

翻譯知識(shí)自動(dòng)獲取

第7頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)及其對(duì)齊技術(shù)(1)

語料庫(kù)

語料庫(kù)(Corpora)是按照一定的原則組織在一起的真實(shí)的自

然語言數(shù)據(jù)(包括書面語和口語)的集合,主要用于研究自

然語言的規(guī)律,特別是統(tǒng)計(jì)語言學(xué)模型的訓(xùn)練以及相關(guān)系

統(tǒng)的評(píng)價(jià)和評(píng)測(cè)

語料庫(kù)語言學(xué)

語料庫(kù)語言學(xué)是以語料庫(kù)為基本知識(shí)源來研究自然語言規(guī)

律的學(xué)科,主要研究?jī)?nèi)容包括語料庫(kù)加工的理論、方法和

工具以及基于語料庫(kù)的知識(shí)獲取。

單語語料庫(kù)(MonolingualCorpus)和多語語料庫(kù)(MultilingualCorpora)

第8頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)及其對(duì)齊技術(shù)(2)

雙語語料庫(kù)的建設(shè)

雙語語料庫(kù)(BilingualCorpora,ParallelCorpora)

國(guó)外:

加拿大的議會(huì)會(huì)議錄(CanadianHansards),(英法)英國(guó)Brighton大學(xué)語言中心雙語語料庫(kù)INTERSECT,(英法書面語)

英國(guó)Birmingham大學(xué)的LINGUA多語語料庫(kù)項(xiàng)目,英、法、希臘語加拿大的BCD(BilingualCanadianDictionary)詞典編纂項(xiàng)目瑞典Uppsala大學(xué)語言學(xué)系建立的Scania多語語料庫(kù)

……

國(guó)內(nèi):

建立了一些單語語料,尚無大規(guī)模漢外雙語庫(kù)的報(bào)道目前國(guó)內(nèi)基于漢外雙語語料庫(kù)的研究大都處于實(shí)驗(yàn)和摸索階段香港科技大學(xué)的英漢雙語語料庫(kù)HKUST

哈工大-微軟聯(lián)合實(shí)驗(yàn)室:6萬句對(duì)

第9頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)及其對(duì)齊技術(shù)(3)

雙語語料庫(kù)的對(duì)齊技術(shù)對(duì)齊:從互譯的不同語言文本中找出互譯片斷的過程語料庫(kù)的加工深度決定語料庫(kù)所能提供的知識(shí)的粒度雙語語料庫(kù)對(duì)齊可分為段落、句子、短語、單詞不同級(jí)別句子對(duì)齊詞對(duì)齊短語(結(jié)構(gòu))對(duì)齊

第10頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):句子對(duì)齊(1)基于長(zhǎng)度的句子對(duì)齊方法源語言文本的長(zhǎng)度與譯文長(zhǎng)度有很強(qiáng)的相關(guān)性基于詞數(shù)長(zhǎng)度的對(duì)齊(Brown)基于字符數(shù)的長(zhǎng)度對(duì)齊方法(GaleChurch)這些算法都把句子對(duì)齊看作是句子長(zhǎng)的函數(shù);不需要額外的詞典信息;但是容易造成錯(cuò)誤的蔓延?;谠~匯的句子對(duì)齊方法Simard等人提出了在長(zhǎng)度標(biāo)準(zhǔn)上加上同源概念(Cognate)來提高算法的性能Kay和Roscheisen提出了另一種基于語匯的對(duì)齊算法,在該算法中選擇句子對(duì)齊的標(biāo)準(zhǔn)是其中詞匯對(duì)齊的數(shù)量。第11頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):句子對(duì)齊(2)Debili和Sammouda實(shí)現(xiàn)了Simard的思想,并采用雙語典為指導(dǎo),以縮小搜索空間Church利用雙語文本中字母的對(duì)應(yīng)信息,在1993年設(shè)計(jì)了一種字符對(duì)齊算法長(zhǎng)度方法與詞匯方法相結(jié)合(Wu、Utsuro)不少學(xué)者認(rèn)為句子對(duì)齊已經(jīng)達(dá)到可以實(shí)用(~98%)第12頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):詞匯對(duì)齊(1)詞匯對(duì)齊是指在源文和對(duì)應(yīng)的譯文中找到詞匯級(jí)的對(duì)譯關(guān)系大家都叫他毛伯伯。

EverybodycallshimUncleMao.由于詞匯對(duì)齊比句子對(duì)齊提供了更細(xì)粒度的對(duì)譯信息,因此可以為自然語言處理提供更大程度的支持第13頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):詞匯對(duì)齊(2)詞匯對(duì)齊的困難

詞匯對(duì)齊不滿足次序性假設(shè)詞匯對(duì)齊的模式十分復(fù)雜(1:1,1:m,m:1,m:m)

她改變角度去寫他的報(bào)告以遷就她的聽眾.Sheanglesherreportstosuitthepeoplesheisspeakingto.詞匯對(duì)齊匹配關(guān)系難以斷定(詞典,長(zhǎng)度)

采用這種新裝置…

Theadoptionofthisnewdevice…..漢語的特點(diǎn)及英語和漢語間的固有差異漢語分詞問題;慣用搭配、成語、諺語第14頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)的對(duì)齊技術(shù):詞匯對(duì)齊(3)基于統(tǒng)計(jì)的詞匯對(duì)齊方法主要思想:對(duì)大規(guī)模雙語語料庫(kù)進(jìn)行統(tǒng)計(jì),獲得對(duì)譯詞的翻譯概率

Brown(1,778,620),Gale(897,077),Dagan…

基于統(tǒng)計(jì)機(jī)器翻譯模型的詞匯對(duì)齊(Brown)

其中的翻譯模型通過詞匯對(duì)齊模型來實(shí)現(xiàn);通過EM算法迭代訓(xùn)練詞匯翻譯概率;問題:參數(shù)空間巨大;局部最優(yōu)基于同現(xiàn)的詞匯對(duì)應(yīng)抽取(Gale&Church)

同現(xiàn)測(cè)度函數(shù):聯(lián)列表,互信息,Dice系數(shù),對(duì)數(shù)似然比第15頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)的對(duì)齊技術(shù):詞匯對(duì)齊(4)基于詞典的詞匯對(duì)齊方法詞典包含雙語的對(duì)譯信息,因此是進(jìn)行詞對(duì)齊的重要資源日本學(xué)者TakehitoUtsuro應(yīng)用基于雙語詞典的改進(jìn)算法對(duì)日英雙語文本(439句日語423句英文)進(jìn)行了試驗(yàn):將詞典中已經(jīng)給出的詞對(duì)共現(xiàn)刪除,而后對(duì)剩下的詞計(jì)算共現(xiàn)信息。采用含有50,000個(gè)詞條的日英詞典,試驗(yàn)表明提高了日英術(shù)語詞典的抽取效果Ker,Wang等引入語義詞典提高了對(duì)齊的召回率其他基于語言學(xué)比較(Huang),利用Chunk分析(Sun)第16頁,共64頁,2023年,2月20日,星期五英漢雙語語料庫(kù)詞對(duì)齊實(shí)驗(yàn)

現(xiàn)有方法存在的問題統(tǒng)計(jì)方法:語料庫(kù)規(guī)模小,統(tǒng)計(jì)數(shù)據(jù)不足詞典方法:詞典譯文覆蓋率較低,對(duì)齊的召回率低改進(jìn)統(tǒng)計(jì)方法:在小規(guī)模語料庫(kù)提高統(tǒng)計(jì)學(xué)習(xí)質(zhì)量詞典方法:引入基于詞典的模糊匹配

使用語義詞典,引入基于語義類的對(duì)齊統(tǒng)計(jì)、詞典和語言學(xué)知識(shí)相結(jié)合

第17頁,共64頁,2023年,2月20日,星期五基于詞典的詞對(duì)齊(1)完全基于詞典的詞對(duì)齊實(shí)驗(yàn)(DA)

正確率:96.16%召回率:55.37%

第18頁,共64頁,2023年,2月20日,星期五基于詞典的詞對(duì)齊(2)詞典模糊匹配

Heabandonedhimselftogrief.

他不勝悲傷。(悲痛,傷心事,憂傷)

漢語詞c1和c2的模糊匹配相似度:英語詞e和漢語詞c的模糊匹配相似度:

基于模糊匹配的詞對(duì)齊(DSimA)

h1>0.5正確率:94.47%召回率:68.49%h1>0.7正確率:96.13%召回率:58.92%

第19頁,共64頁,2023年,2月20日,星期五基于詞典的詞對(duì)齊(3)語義相似度(CSimA)

同義詞詞林定義語義相似度:

基于語義相似度的詞對(duì)齊(CSimA):h0.5正確率:61.25%召回率:36.94%h1正確率:83.55%召回率:38.86%

DA+DSimA+CSimA

正確率:91.16%召回率:72.92%第20頁,共64頁,2023年,2月20日,星期五基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)生成N-gram候選翻譯單元多詞對(duì)應(yīng)問題:harddisk/硬盤;profile/配置文件…..漢語分詞問題:驅(qū)動(dòng)器:驅(qū)動(dòng)-器;單擊:單-擊N-gram的抽取:停用詞將句子分段

Theprojectmanagermayusethee-mailsystemtoviewandreplytomessagefromworkgroupmember.生成的N-gram候選:projectproject-managerusee-maile-mail-systemviewreplymessageworkgroupworkgroup-member第21頁,共64頁,2023年,2月20日,星期五基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)翻譯概率的計(jì)算模型對(duì)于任意一對(duì)源語詞Ws和目標(biāo)語詞Wt,設(shè):a=freq(Ws,Wt)b=freq(Ws)-freq(Ws,Wt)c=freq(Wt)-freq(Ws,Wt)d=N–a–b-c

聯(lián)列表法:

hg(Ws,Wt)=(ad-bc)2/(a+b)(a+c)(b+d)(b+c)

Dice系數(shù)(DiceCoefficient):Dice(Ws,Wt)=2freq(Ws,Wt)/[freq(Ws)+freq(Wt)]第22頁,共64頁,2023年,2月20日,星期五基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)翻譯概率的計(jì)算模型互信息方法(MutualInformation):

MI(Ws,Wt)=log2(freq(Ws,Wt)/freq(Ws)*freq(Wt))

對(duì)數(shù)似然比(LogLikelihoodRatio,LLR):LLR(Ws,Wt)=2[logL(p1,a,a+b)+logL(p2,c,c+d)-logL(p,a,a+b)-logL(p,c,c+d))其中,logL(p,k,n)=klog(p)+(n-k)log(1-p),p1=a/(a+b),p2=c/(c+d),p=(a+c)/(a+b+c+d)

詞典加權(quán)同現(xiàn)測(cè)度:

Wscore

(Ws,Wt)=log2(2+DSim(Ws,Wt))*Score(Ws,Wt)第23頁,共64頁,2023年,2月20日,星期五基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲取(4)基于迭代的翻譯詞表自動(dòng)抽取算法

間接相關(guān)問題:

貪心假設(shè)迭代的抽取算法第24頁,共64頁,2023年,2月20日,星期五基于統(tǒng)計(jì)的翻譯詞表自動(dòng)獲?。?)實(shí)驗(yàn)及結(jié)論

N-gram模型有利于提取多詞單元對(duì)應(yīng),并且能夠有效地發(fā)現(xiàn)新詞、術(shù)語及翻譯;

Click—單擊;e-mail—電子郵件;

networkdiagram—網(wǎng)絡(luò)圖;eventviewer—事件查看器……

迭代算法大大提高了統(tǒng)計(jì)的正確率;

詞典加權(quán)同現(xiàn)測(cè)度能夠提高統(tǒng)計(jì)質(zhì)量在小規(guī)模訓(xùn)練語料條件下,LogLikelihoodRatio的統(tǒng)計(jì)特性較好第25頁,共64頁,2023年,2月20日,星期五基于混合策略的詞對(duì)齊(1)對(duì)齊評(píng)價(jià)函數(shù):

EF(e,c)=T(e,c)*D(e,c)

其中:T(e,c)為翻譯概率,

D(e,c)為位置形變概率,通過計(jì)算位置相對(duì)形變距離得到。位置相對(duì)形變距離是指一個(gè)可能的對(duì)齊相對(duì)于最近的確定對(duì)齊的距離。用貪心算法實(shí)現(xiàn)對(duì)齊過程和對(duì)齊歧義消除過程第26頁,共64頁,2023年,2月20日,星期五基于混合策略的詞對(duì)齊(2)利用語言學(xué)知識(shí)改善詞匯對(duì)齊結(jié)果利用詞性對(duì)譯關(guān)系實(shí)現(xiàn)詞匯對(duì)齊后處理短語擴(kuò)展利用詞形變化特點(diǎn),增加詞匯對(duì)齊匹配規(guī)則如:n/v+”者”/”家”

translationof(n/v)+“-er”/“-or”/“-ist”/“-ian”;

可以得到諸如“賽跑+者runner”、“征服+者

conqueror”等多詞單元對(duì)應(yīng)。

數(shù)詞的對(duì)齊專有名詞的對(duì)齊第27頁,共64頁,2023年,2月20日,星期五實(shí)驗(yàn)結(jié)果及分析(1)實(shí)驗(yàn)用語料庫(kù):語料庫(kù)1:通用語料庫(kù)(60,000句對(duì))語料庫(kù)2:計(jì)算機(jī)語料庫(kù)(14,390句對(duì))第28頁,共64頁,2023年,2月20日,星期五實(shí)驗(yàn)結(jié)果及分析(2)第29頁,共64頁,2023年,2月20日,星期五實(shí)驗(yàn)結(jié)果及分析(3)錯(cuò)誤分析:資源不足,短語匹配,語言表達(dá)差異第30頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(1)結(jié)構(gòu)對(duì)齊:短語結(jié)構(gòu),依存結(jié)構(gòu),組塊結(jié)構(gòu)結(jié)構(gòu)對(duì)齊的主要方法

Parse-Parse-Match方法單語分析+詞匯對(duì)齊+啟發(fā)式算法kaji,RalphGrishman,Yuji,AdamMeyer、Hideo…雙語同步分析WuDekai,WangWei結(jié)構(gòu)對(duì)齊的難點(diǎn)難以獲得合適的、可靠的單語分析結(jié)果:如漢語不同語言的語法分析結(jié)果可能不匹配

雙語的結(jié)構(gòu)匹配的狀態(tài)空間搜索問題第31頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(2)雙語分析模型(WuDekai):反向轉(zhuǎn)換文法(inversiontransductionGrammars,ITG)

產(chǎn)生式有兩個(gè)方向

是一個(gè)雙語體系用詞翻譯概率連接雙語用概率選擇雙語分析結(jié)果

),,,,(21SRWWNITG=第32頁,共64頁,2023年,2月20日,星期五雙語語料庫(kù)對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(3)[[[Thegame]BNP[[willstart]BVP[onWednesday]PP]VP]S.]S[[比賽[星期三開始]]。][[[The/egame/比賽]BNP<[will/estart/開始]VBP[on/eWednesday/星期三]PP>VP]S./。]SSBNPSVPPP./。The/egame/比賽will/estart/開始o(jì)n/eWednesday/星期三BVP第33頁,共64頁,2023年,2月20日,星期五難以確定合適的雙語語法一個(gè)實(shí)用的雙語模型是反向劃界語法問題:雙語語料庫(kù)對(duì)齊技術(shù):結(jié)構(gòu)對(duì)齊(4)第34頁,共64頁,2023年,2月20日,星期五引入英語的句法分析得到的雙語分析第35頁,共64頁,2023年,2月20日,星期五單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(1)

“parsing-parsing-match”方法的缺點(diǎn)

難以獲得合適的、可靠的單語分析結(jié)果,如漢語不同語言的語法分析結(jié)果可能不匹配

改進(jìn)方法只使用英語的分析結(jié)果與雙語語言模型相結(jié)合第36頁,共64頁,2023年,2月20日,星期五單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(2)

定義代價(jià)函數(shù)Fe(s,t)三種匹配情況She/1[is/2[a/3lovely/4girl/5]]./6]

越界分析:(1,2),(1,3),(2,3),(2,5)…

定界分析:(1,6),(2,5),(3,5)

界內(nèi)分析:(3,4),(4,5)修正后的局部最優(yōu)函數(shù)用動(dòng)態(tài)規(guī)劃算法(DP)求解最優(yōu)雙語分析樹第37頁,共64頁,2023年,2月20日,星期五單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(3)

實(shí)驗(yàn):1000句對(duì)評(píng)價(jià):語法準(zhǔn)則

Thestudentwillgetapen.

這學(xué)生將得到一支鋼筆。

合語法:“Thestudent<-->這學(xué)生”,“willget<-->將得到”,“apen<-->一支鋼筆”不合語法:“studentwill<-->學(xué)生將”,“geta<-->得到一支”共有3889個(gè)標(biāo)準(zhǔn)對(duì)齊Experiment

noP

EPEP+CBEP+CP正確率(%)

68.82

85.50

90.56

88.87

第38頁,共64頁,2023年,2月20日,星期五單語句法分析指導(dǎo)的雙語結(jié)構(gòu)對(duì)齊(4)

1.[<Mr./先生Chen/陳>BNP[is/是<[the/erepresentative/代表]BNP<of/的[our/我們company/公司]BNP>PP>NP]VP./。]S2.[Spring/春天[is/是<[the/efirst/第一e/個(gè)season/季節(jié)]BNP<in/里[a/一year/年]BNP>PP>X]VP./。]S3.[[The/ewindow/窗子]BNP[is/e<[e/更narrower/狹窄][than/比[the/edoor/門]BNP]PP>ADJP]VP./。]S4.[<[The/epoliceman/警察]BNP[who/e[reported/報(bào)告[the/這e/一accident/事故]BNP]VPe/的]SBAR>NP[thinks/認(rèn)為[it/那[was/是[Tom/湯姆's/的fault/錯(cuò)]BNP]VP]S]VP./。]S5.[[The/eBeijing/北京zoo/動(dòng)物園]BNP[is/是<[the/elargest/最大e/的zoo/動(dòng)物園]BNP[I/我[e/所have/eever/evisited/參觀e/過e/的]VBP]S>NP]VP./。]S第39頁,共64頁,2023年,2月20日,星期五翻譯知識(shí)獲取

雙語語料庫(kù)及其對(duì)齊技術(shù)

直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究

第40頁,共64頁,2023年,2月20日,星期五直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究(1)

基于統(tǒng)計(jì)的機(jī)器翻譯(Statistics-basedMT,SBMT) e’=argmaxP(e|c)=argmaxP(e)P(c|e)/P(c)=argmaxP(e)P(c|e)P(e):語言模型P(c|e):翻譯模型IBM的Brown等人實(shí)現(xiàn)了完全基于統(tǒng)計(jì)方法的機(jī)器翻譯系統(tǒng)

以大規(guī)模雙語語料庫(kù)為基礎(chǔ)(3百萬句對(duì))

建立統(tǒng)計(jì)的翻譯模型

概率統(tǒng)計(jì)是分析和生成過程中的唯一方法沒有正確和不正確的翻譯這樣的概念,只有可能性大小的譯文

不涉及任何語言學(xué)內(nèi)容

48%的正確率

第41頁,共64頁,2023年,2月20日,星期五直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究(2)

基于統(tǒng)計(jì)的機(jī)器翻譯:Brown的5各翻譯模型模型1:對(duì)齊概率僅依賴于其中每個(gè)雙語詞對(duì)的概率;模型2:對(duì)齊概率不僅依賴于每個(gè)雙語詞對(duì)的概率,還依賴于每個(gè)詞對(duì)出現(xiàn)位置之間的概率;模型3:計(jì)算了和每個(gè)源語詞相關(guān)的單詞數(shù)量;模型4和模型5:同時(shí)計(jì)算了這些詞的數(shù)量和這些詞本身。這些模型在訓(xùn)練中都使用了統(tǒng)計(jì)逼近的方法。第42頁,共64頁,2023年,2月20日,星期五直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究(3)

基于統(tǒng)計(jì)的機(jī)器翻譯:盡管IBM的工作是一種新的方法,可是一些學(xué)者也對(duì)這種“純粹的”統(tǒng)計(jì)方法提出了異議。他們認(rèn)為必須引入高層語言模型;并且認(rèn)為這種方法不一定能很好地作用于另一對(duì)語言(IBM工作的對(duì)象是英語和法語),也不能產(chǎn)生高質(zhì)量的MT,除非所有基于知識(shí)的MT觀點(diǎn)全錯(cuò)。實(shí)際上IBM的研究者也承認(rèn)這種方法不能解決語言中的遠(yuǎn)程依賴問題CMUWangYeYi基于結(jié)構(gòu)對(duì)齊的統(tǒng)計(jì)機(jī)器翻譯增加語言知識(shí)的統(tǒng)計(jì)機(jī)器翻譯第43頁,共64頁,2023年,2月20日,星期五直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究(4)

基于實(shí)例的機(jī)器翻譯(Example-based,EBMT)日本京都大學(xué)的長(zhǎng)尾真(Nagao)教授在1984年提出

原理:將源語言使用類比的方法與翻譯實(shí)例相比較,而采取相近的實(shí)例片段,重新生成譯文。根本觀點(diǎn):認(rèn)為翻譯過程通常是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達(dá)或其相似的表達(dá)在以前是如何翻譯的。把翻譯實(shí)例作為它的主要翻譯知識(shí)源,而把句子片斷的適當(dāng)劃分和從詞匯到句子各級(jí)相似度的計(jì)算作為翻譯中的主要問題。PanglossEBMT(CMU)第44頁,共64頁,2023年,2月20日,星期五直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究(5)

基于實(shí)例的機(jī)器翻譯(Example-based,EBMT)第45頁,共64頁,2023年,2月20日,星期五直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究(6)

基于統(tǒng)計(jì)的機(jī)器翻譯解決了知識(shí)獲取的難題,但是由于完全排除了語言學(xué)知識(shí),翻譯結(jié)果并不理想。

基于實(shí)例的方法確實(shí)為機(jī)器翻譯研究提供了一個(gè)嶄新的思路。但是如果直接在大規(guī)模的實(shí)例庫(kù)中進(jìn)行各級(jí)的相似度計(jì)算和查找,處理的時(shí)間和空間復(fù)雜度都很高,并且可能會(huì)引起組合爆炸問題間接的基于實(shí)例的方法

首先從雙語語料庫(kù)中獲得各級(jí)翻譯知識(shí)

然后再利用這些獲得的知識(shí)進(jìn)行翻譯第46頁,共64頁,2023年,2月20日,星期五雙語知識(shí)獲取

雙語語料庫(kù)及其對(duì)齊技術(shù)

直接利用雙語語料庫(kù)進(jìn)行機(jī)器翻譯的研究間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究

第47頁,共64頁,2023年,2月20日,星期五間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究(1)

雙語語料庫(kù)學(xué)習(xí)翻譯知識(shí)源語言目標(biāo)語言翻譯間接基于實(shí)例的機(jī)器翻譯第48頁,共64頁,2023年,2月20日,星期五間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究(2)

自動(dòng)獲取的翻譯知識(shí)可以分為兩個(gè)層次

詞串級(jí)翻譯:即獲得詞匯或短語的直接譯文

翻譯模板:知識(shí)表達(dá)式中可以含有變量,一般為短語級(jí)翻譯模板,也可以是句子級(jí)的翻譯模板,

利用雙語語料庫(kù)詞對(duì)齊或短語對(duì)齊的結(jié)果可以直接獲得詞串級(jí)的譯文(詞典編撰)

從雙語語料庫(kù)中自動(dòng)獲取翻譯模板

通過類比學(xué)習(xí)獲得翻譯模板

通過雙語結(jié)構(gòu)匹配獲得翻譯模板

第49頁,共64頁,2023年,2月20日,星期五間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究(3)

通過類比學(xué)習(xí)獲得翻譯模板思想:比較語料庫(kù)中兩個(gè)翻譯實(shí)例的相同和不同部分,把其中的某部分加以概括,用變量置換即得到一個(gè)翻譯模板

Iliketodrinkcoffee我喜歡喝咖啡

Iliketodrinkmilk我喜歡喝牛奶

模板:

IliketodrinkX1我喜歡喝X2

ifX1X2coffee咖啡milk牛奶

優(yōu)點(diǎn):不需要語法知識(shí),甚至可以不使用詞典,僅僅通過兩個(gè)翻譯句對(duì)的類比來獲得翻譯模板。缺點(diǎn):模板的概括性和對(duì)結(jié)構(gòu)的把握程度很差,如果沒有非常大規(guī)模而且存在大量相似句子的雙語語料庫(kù)很難有一個(gè)理想的結(jié)果。

第50頁,共64頁,2023年,2月20日,星期五間接利用雙語語料庫(kù)獲取翻譯知識(shí)的研究(4)

通過雙語結(jié)構(gòu)匹配獲得翻譯模板優(yōu)點(diǎn):可以獲得各個(gè)層次的翻譯模板,即模板中的變量可以是某種短語類型,獲得的模板具有較強(qiáng)的概括性和靈活性。

缺點(diǎn):

難以獲得合適的、可靠的單語分析結(jié)果:如漢語

不同語言的語法分析結(jié)果可能不匹配

雙語的結(jié)構(gòu)匹配本身也是一個(gè)復(fù)雜的問題。其他方法

IBM東京研究實(shí)驗(yàn)室機(jī)器翻譯系統(tǒng)SimTran通過翻譯中出現(xiàn)的錯(cuò)誤來改善已有的轉(zhuǎn)換規(guī)則

TonyVeale等使用了基于標(biāo)記的句子分割法把句子分割成片斷,然后再以片斷為單位進(jìn)行雙語匹配和翻譯模板的獲取第51頁,共64頁,2023年,2月20日,星期五翻譯模板的獲取及翻譯實(shí)驗(yàn)(1)

工作總體流程:第52頁,共64頁,2023年,2月20日,星期五翻譯模板的獲取及翻譯實(shí)驗(yàn)(2)

獲取了兩種類型翻譯模板

結(jié)構(gòu)轉(zhuǎn)換模板:非葉結(jié)點(diǎn)

譯文選擇模板:葉子結(jié)點(diǎn)短語,名詞,動(dòng)詞,代詞,形容詞,副詞作為變量

S[He/他/PRPVP<VP[play/拉/VBPaccordion/手風(fēng)琴/NN]PP[in/在/INBNP[the/e/ARTafternoon/下午/NN]]>./。]

結(jié)構(gòu)轉(zhuǎn)換模板:

#S:1:C=PRP:+2:VP+3:W=.->T(1)+T(2)+。

#VP:1:VP+2:PP->T(2)+T(1);#VP:1:C=VBP+2:C=NN->T(1)+T(2);#PP:1:W=in+2:BNP->在+T(2)#PP:1:W=the+2:C=NN->T(2)

譯文選擇模板:

#play:-1:C=PRP+0:C=VBP+1:W=accordion->拉第53頁,共64頁,2023年,2月20日,星期五第54頁,共64頁,2023年,2月20日,星期五共獲得2889個(gè)模板,包括1806個(gè)結(jié)構(gòu)轉(zhuǎn)換模板和1083個(gè)譯文選擇模板翻譯過程是一個(gè)遞歸的模板匹配過程通過評(píng)價(jià)翻譯結(jié)果來評(píng)價(jià)獲得的模板兩種評(píng)價(jià)方法

自動(dòng)評(píng)價(jià)

手工評(píng)價(jià)

翻譯模板的獲取及翻譯實(shí)驗(yàn)(3)第55頁,共64頁,2023年,2月20日,星期五翻譯模板的獲取及翻譯實(shí)驗(yàn)(4)自動(dòng)評(píng)價(jià)[Adam98]:

翻譯結(jié)果與語料中的譯文相近程度

“ABCDE”和源譯文“ABCFE”相比評(píng)價(jià)值為2/10

得到評(píng)價(jià)值0.09.好于Adam的結(jié)果0.29

局限性:“他們居住在非洲。”與“他們生活在非洲。”相比得分0.25,

“空氣這里很好”與“這里空氣很好”得分為0手工評(píng)價(jià)[97年“863”機(jī)器翻譯評(píng)價(jià)標(biāo)準(zhǔn)]

ABCDEAveragescoreLTBS64%23%8%3%2%88.8KBS46%42%11%1%086.6第56頁,共64頁,2023年,2月20日,星期五翻譯實(shí)例及評(píng)價(jià)結(jié)果Iwillnotbeabletogotothemoviestomorrow.我明天不能去看電影。

AThesingerwasaccompaniedatthepianobyherpupil.演唱者由她的學(xué)生用鋼琴伴奏。

AHeishavinghisbreakfast.他正在吃他的早飯.BTheairhereisverygood這里空氣是很好

BTheystartedatnight.在晚上他們開始.CThestudenthasapen.這學(xué)生長(zhǎng)一支鋼筆。

DYoudon'tlikehim,andIdon'teither.你做也喜歡他,我做不也不喜歡

E第57頁,共64頁,2023年,2月20日,星期五翻譯模板的獲取及翻譯實(shí)驗(yàn)(5)與統(tǒng)計(jì)的機(jī)器翻譯方法相比,模板比統(tǒng)計(jì)概率更易于理解與純基于實(shí)例的方法相比,模板比短語、句子實(shí)例具有更強(qiáng)的概括能力所有模板都是自動(dòng)提取的,大大節(jié)省了人力可移植性好獲得的模板可以集成到已有的規(guī)則系統(tǒng)的規(guī)則庫(kù)中第58頁,共64頁,2023年,2月20日,星期五存在的問題和今后工作存在的問題詞對(duì)齊和結(jié)構(gòu)對(duì)齊錯(cuò)誤累積,精度不高模板的表示和組織模板歧義消解對(duì)獲取知識(shí)的評(píng)價(jià)今后工作擴(kuò)大訓(xùn)練語料的規(guī)模,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行進(jìn)一步分析和討論綜合運(yùn)用統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法,對(duì)翻譯模板獲取方法進(jìn)行改進(jìn)和完善;在模板中引入語義特征來提高模板的概括能力。通過語料庫(kù)的統(tǒng)計(jì)為獲得的模板添加自信概率,使用統(tǒng)計(jì)和語言學(xué)知識(shí)相結(jié)合的方法解決模板沖突問題

第59頁,共64頁,2023年,2月20日,星期五利用雙語語料庫(kù)獲取翻譯知識(shí)的研究

利用雙語語料庫(kù)獲取翻譯知識(shí)的研究得到普遍重視美國(guó),英國(guó),加拿大,日本,韓國(guó)…

現(xiàn)有的方法上存在許多不盡人意的地方

國(guó)內(nèi):

近年來開始重視雙語語料庫(kù)對(duì)機(jī)器翻譯的價(jià)值

在雙語對(duì)齊方面做了一些工作

清華大學(xué),中科院計(jì)算所、自動(dòng)化所,哈工大

在利用雙語語料庫(kù)獲取翻譯知識(shí)方面還缺乏系統(tǒng)的研究

任重道遠(yuǎn)…第60頁,共64頁,2023年,2月20日,星期五主要參考文獻(xiàn)(1)[1]P.F.Brown,J.C.Lai.etc.“AligningSentencesinParallelCorpora.”ACL-1991:169-176[2]P.F.Brown.ect.“TheMathematicsofStatisticalMachineTranslation:ParameterEstimation”ComputationalLinguistics,Vol.19,No.2,1993[3]K.W.Church.“Char-align:aProgramforAligningParallelTextsattheCharacterLevel.”ACL-1993:1-8[4]SueJ.KerandJasonS.Chang.“AClass-basedApproachtoWordAlignment.”ComputationalLinguistics23(2):313-343,1997[5]Jin-XiaHuang,Key-SunChoi“Chinese-KoreanWordAlignmentBasedonLinguisticComparison”.ACL-2000[6]RalfD.Brown"AutomatedDictionaryExtractionfor``Knowledge-Free''Example-BasedTranslation".TMI-1997:111-118[7]HideoWatanabe,SadaoKurohashi,andEijiAramaki.“FindingStructuralCorrespondencesfromBilingualParsedCorpusforCorpus-basedTranslaton”.COLING-2000.[8]IlyasCicekliandHalilAltayGuvenir.“LearningTranslationTemplatesformBilingualTranslationExamples”.AppliedIntelligence,Vol.15,No.1,2001,P57-76.[9]HusseinAlmuallim,YasuhitoAkiba,TakefumiYamazaki.“AToolfortheAcquisitionofJapanese-EnglishMachineTranslationRulesUsingInductiveLearningTechniques.”Proc.oftheConferenceonArtificialIntelligenceforApplications1994.第61頁,共64頁,2023年,2月20日,星期五[10]RalphGrishman,andJohnSterling.“GeneralizingAutomaticallyGeneratedSelectionalPatterns”.COLING-1994.[11]HalilAltayGuvenirandIlyasCilekli“LearningTranslationTemplatesfromExamples”.InformationSystemsVol.23,No.6,P353-363,1998.[12]HiroyuliKaji,YuukoKida,andYasutsuguMorimoto.“LearningTranslationTemplatesfromBilingualTexts.”COLING-1992:672-678[13]K.

LariandS.

J.Young.“Theestimationofstochasticcontext-freegrammarsusingtheInside-Outsidealgorithm.”ComputerSpeechandLanguage,4:35-56,1990.[14]ChristosMalavazos,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論