Machinetranslation分析_第1頁
Machinetranslation分析_第2頁
Machinetranslation分析_第3頁
Machinetranslation分析_第4頁
Machinetranslation分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Machine Translation黃宗文16721539CONTENTSPART ONE 基本概念PART TWO 發(fā)展歷史PART THREE 翻譯方法PART FOUR 總結(jié)展望基本概念機(jī)器翻譯 (machine translation, MT) 是利用計(jì)算機(jī)把一種語言(源語言, source language) 翻譯成另一種語言(目標(biāo)語言, target language) 的一門學(xué)科和技術(shù)?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望Machine Translation機(jī)器翻譯MT, the abbreviation of machine translation, is a sub-fiel

2、d of computational linguistics that investigates the use of software to translate text or speech from one natural language to another.機(jī)器翻譯的縮寫是計(jì)算語言學(xué)的一個(gè)子領(lǐng)域,它研究軟件將文本或語言從一種自然語言翻譯成另一種自然語言的用法?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望Machine Translation機(jī)器翻譯機(jī)器翻譯的研究是建立在語言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合與計(jì)算機(jī)進(jìn)行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式

3、化和代碼化,計(jì)算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計(jì)。發(fā)展歷史機(jī)器翻譯的發(fā)展經(jīng)歷了興起、低落和重新興盛的曲折歷程。在昌盛的時(shí)候,人們?yōu)檠芯砍晒木始姵屎蛻?yīng)用的成功而歡呼,即使在低潮時(shí),人們也在不斷的反思,為重新發(fā)展積蓄力量?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望1954美國喬治敦大學(xué)在IBM公司協(xié)同下,用IBM-701計(jì)算機(jī)首次完成了英俄機(jī)器翻譯實(shí)驗(yàn),拉開了機(jī)器翻譯的序幕。1956中國把機(jī)器翻譯列入了全國科學(xué)工作發(fā)展規(guī)劃,課題名稱是“機(jī)器翻譯、自然語言翻譯規(guī)則的建設(shè)和自然語言的數(shù)學(xué)理論”。開創(chuàng)期從20世紀(jì)50年代開始到20世紀(jì)60年代前半期,美國和前蘇聯(lián)兩個(gè)超級大國處于軍事、政

4、治、經(jīng)濟(jì)目的,均對機(jī)器翻譯項(xiàng)目提供了大量的資金支持,而歐洲國家由于地緣政治和經(jīng)濟(jì)的需要也對機(jī)器翻譯研究給予了相當(dāng)大的重視,機(jī)器翻譯一時(shí)出現(xiàn)熱潮?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望1964ALPAC報(bào)告1966機(jī)器翻譯進(jìn)入蕭條期。文革1979語言自動處理咨詢委員會成立1964年,為了對機(jī)器翻譯的研究進(jìn)展作出評價(jià),美國科學(xué)院成立了語言自動處理咨詢委員會(簡稱ALPAC委員會),開始了為期兩年的綜合調(diào)查分析和測試。1966年11月,該委員會公布了一個(gè)題為語言與機(jī)器的報(bào)告該報(bào)告全面否定了機(jī)器翻譯的可行性,并建議停止對機(jī)器翻譯項(xiàng)目的資金支持。受挫期進(jìn)入70年代后,隨著科學(xué)技術(shù)的發(fā)展和各國科技情報(bào)交流的日趨

5、頻繁,國與國之間的語言障礙顯得更為嚴(yán)重,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,迫切的需要計(jì)算機(jī)來從事翻譯工作。同時(shí),計(jì)算機(jī)科學(xué)、語言學(xué)研究的發(fā)展,特別是計(jì)算機(jī)硬件技術(shù)的大幅度提高以及人工智能在自然語言處理上的應(yīng)用,從技術(shù)層面推動了機(jī)器翻譯研究的復(fù)蘇?;謴?fù)期EURPOTRA系統(tǒng)出現(xiàn)基本概念發(fā)展歷史翻譯方法總結(jié)展望201690年代Internet普遍應(yīng)用機(jī)器翻譯迅猛發(fā)展,商用機(jī)器翻譯軟件翻入實(shí)用化階段。新時(shí)期隨著Internet的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長的翻譯需求,人們對于機(jī)器翻譯的需求空前增長,機(jī)器翻譯迎來了一個(gè)

6、新的發(fā)展機(jī)遇。國際性的關(guān)于機(jī)器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,例如“譯星” 、 “雅信” 、 “通譯” 、 “華建”等。在市場需求的推動下,商用機(jī)器翻譯系統(tǒng)邁入了實(shí)用化階段,走進(jìn)了市場,來到了用戶面前。翻譯方法機(jī)器翻譯的處理對象是自然語言,而人類對于語言認(rèn)知的過程還未研究清楚,因此,要實(shí)現(xiàn)理想、高質(zhì)量的機(jī)器翻譯至少目前還有較大的距離?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望在機(jī)器翻譯領(lǐng)域,機(jī)器翻譯方法可以看成是兩大類共四種方法,兩大類是:基于規(guī)則一類;基于語料庫一類。顯而易見,基于規(guī)則一類包括了基于轉(zhuǎn)換的機(jī)器翻譯方法和基于中間語言的機(jī)器翻譯方法;基于語

7、料庫一類包括了基于統(tǒng)計(jì)的機(jī)器翻譯方法和基于實(shí)例的機(jī)器翻譯方法。基本概念發(fā)展歷史翻譯方法總結(jié)展望基于實(shí)例的機(jī)器翻譯基于實(shí)例的翻譯方法不經(jīng)過深層分析,僅僅通過已有的經(jīng)驗(yàn)知識,通過類比原理進(jìn)行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標(biāo)語言短語,最后把這些短語合并成長句。基于中間語言的機(jī)器翻譯基于中間語言的翻譯方法是對源語言進(jìn)行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標(biāo)語言。所謂中間語言就是自然語言的計(jì)算機(jī)表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨(dú)立于各種自然語言,同時(shí)又能表示各種自然語言的人工語言?;诮y(tǒng)計(jì)

8、的機(jī)器翻譯基于統(tǒng)計(jì)的機(jī)器翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸過程,用一種信道模型對機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語言句子到目標(biāo)語言句子的翻譯是一個(gè)概率問題,任何一個(gè)目標(biāo)語言句子都有可能是任何一個(gè)源語言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子?;谵D(zhuǎn)換的機(jī)器翻譯基于轉(zhuǎn)換的翻譯方法就是自動實(shí)現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個(gè)源語言句子經(jīng)過不同的中間表達(dá)形式,最終達(dá)到目標(biāo)語言句子的表示。其目的是盡可能地加深對源語言的理解,生成盡可能恰當(dāng)?shù)哪繕?biāo)語言形式?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望基于統(tǒng)計(jì)的機(jī)器翻譯基于統(tǒng)計(jì)的機(jī)器翻譯方法主要分為三類:第

9、一類是基于詞的方法,第二類是基于短語的方法,第三類是基于句法的方法?;诰浞ǖ哪P褪亲顝?fù)雜的、也是翻譯質(zhì)量最好的?;诮y(tǒng)計(jì)的機(jī)器翻譯方法可以簡單的這樣看:將原始的某個(gè)句子按詞折開,然后全部單詞存儲;翻譯則是取出,按概率統(tǒng)計(jì)的方法重組句子,這樣的句子就是統(tǒng)計(jì)方法的翻譯結(jié)果。 為了提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的準(zhǔn)確性,普遍應(yīng)用海量語料庫訓(xùn)練出大規(guī)模語言模型和翻譯模型。而模型的不斷增大,給統(tǒng)計(jì)機(jī)器翻譯帶來了突出的計(jì)算性能問題,是的現(xiàn)有的單機(jī)串行化翻譯處理難以在較快時(shí)間內(nèi)完成計(jì)算。基本概念發(fā)展歷史翻譯方法總結(jié)展望基于內(nèi)存分布的層次短語機(jī)器翻譯并行化算法基本概念發(fā)展歷史翻譯方法總結(jié)展望這種工作方式基于MapRe

10、duce秉性框架實(shí)現(xiàn),由MapReduce框架將文章分割為句子組,每個(gè)map端負(fù)責(zé)處理一個(gè)句子組,map端將會調(diào)用解碼器完成翻譯任務(wù),最后reduce端匯總結(jié)果。這個(gè)并行框架充分利用了集群的大容量分布式內(nèi)存,大幅提高了并發(fā)度,而且可以在需要時(shí)增加集群節(jié)點(diǎn)以擴(kuò)充系統(tǒng),因而具有很強(qiáng)的系統(tǒng)擴(kuò)展性,很好地克服了單機(jī)解碼器系統(tǒng)難以擴(kuò)展的缺陷。采用分布式內(nèi)存數(shù)據(jù)庫存儲數(shù)據(jù)后,由于每個(gè)節(jié)點(diǎn)存儲的數(shù)據(jù)量變?。榭倲?shù)據(jù)量的N分之一),且各節(jié)點(diǎn)可以同時(shí)進(jìn)行檢索,因此查表速度能夠變快。基本概念發(fā)展歷史翻譯方法總結(jié)展望33.285.186.412.211.111.221.231.271.530246810121414

11、8164080Translation Time per Sentence/sThreads在單線程情況下,待機(jī)解碼器平均翻譯每個(gè)句子需要3s;我們的并行化解碼器平均每句消耗約1.1s,解碼速度是單機(jī)的2.7倍。在其他各個(gè)并發(fā)度級別下,并行化解碼器平均每句的性能也都同樣保持了領(lǐng)先。計(jì)算性能對比基本概念發(fā)展歷史翻譯方法總結(jié)展望2633720569351268978267.5134.869.733.505001000150020002500300014816408010-3*Translation job Time Cost/sThreads隨著線程數(shù)量增加,單機(jī)解碼器性能下降較快,在80線程時(shí)已經(jīng)

12、無法工作;并行化解碼器在80個(gè)線程時(shí)仍保持較好的性能。擴(kuò)展性對比sparkMapReduce大數(shù)據(jù)處理后起之秀spark得益于其在迭代計(jì)算機(jī)和內(nèi)存計(jì)算上的優(yōu)勢,可以自動調(diào)度復(fù)雜的計(jì)算任務(wù),避免中間結(jié)果的磁盤讀寫和資源申請過程,非常適合數(shù)據(jù)挖掘算法。Mapreduce為大數(shù)據(jù)挖掘提供了有力的支持,但是復(fù)雜的挖掘算法往往需要多個(gè)mapreduce所也才能完成,多個(gè)作業(yè)之間存在著冗余的磁盤讀寫開銷和多次自愿申請過程,使得基于mapreduce的算法實(shí)現(xiàn)存在嚴(yán)重的性能問題。基本概念發(fā)展歷史翻譯方法總結(jié)展望總結(jié)展望機(jī)器翻譯技術(shù)在經(jīng)濟(jì)發(fā)展和社會生活中日趨重要, 對加速和擴(kuò)展世界范圍內(nèi)的信息傳播具有深遠(yuǎn)意義

13、. 機(jī)器翻譯是一個(gè)真正的科學(xué)與技術(shù)相結(jié)合的多學(xué)科產(chǎn)物. 機(jī)器翻譯的研究必將推動這些學(xué)科的迅速發(fā)展?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望人工翻譯機(jī)器翻譯1、一句一句處理,并不參考上下文;2、對源語言的分析只是求解句法關(guān)系,完全不是意義上的理解譯文轉(zhuǎn)換是基于源語言的句法結(jié)構(gòu)的,受源語言的句法結(jié)構(gòu)的束縛;3、翻譯只是句法結(jié)構(gòu)和詞匯的機(jī)械對應(yīng)。1、先通讀全文,前后照應(yīng);2、譯文基于對源語言的理解,不受源語言的句法結(jié)構(gòu)的束縛;3、人工翻譯是一個(gè)在創(chuàng)造的過程。基本概念發(fā)展歷史翻譯方法總結(jié)展望明月明月幾時(shí)有,把酒問青幾時(shí)有,把酒問青天天MT: When the moon is, wine ask blue sk

14、y .HT: When will the moon be clear and bright? With a cup of wine in my hand, I ask the blue sky.滿地滿地黃花堆積,憔悴損,黃花堆積,憔悴損,而今有誰堪摘?而今有誰堪摘?MT: Everywhere yellow flower accumulation gaunt who can pick the loss now ?HT: The ground is covered with yellow flowers faded and fallen in showers. Who will pick the

15、m up now?別狗咬呂洞賓,不識別狗咬呂洞賓,不識好人心。好人心。MT: The dog bite lv dongbin does not know good hearts. HT: Dont bite the hand that feeds you.MT的限制:人名翻譯 、習(xí)語翻譯、文學(xué)作品翻譯、成語典故翻譯機(jī)器翻譯還不成熟(in state-of-the-art),需要的是人與系統(tǒng)的配合,而不是有意為難,輔助機(jī)器翻譯可以大大減輕人的負(fù)擔(dān)。我們我們需要的是計(jì)算機(jī)幫需要的是計(jì)算機(jī)幫助人類完成某些翻譯工助人類完成某些翻譯工作,而不是完全替代人,作,而不是完全替代人,人與機(jī)器翻譯系統(tǒng)之間人與機(jī)器翻譯系統(tǒng)之間應(yīng)該是互補(bǔ)的關(guān)系,而應(yīng)該是互補(bǔ)的關(guān)系,而不是相互競爭。不是相互競爭。目前目前機(jī)器翻譯的價(jià)值不機(jī)器翻譯的價(jià)值不在于它可以取代翻譯專在于它可以取代翻譯專家,而在于它可在一個(gè)家,而在于它可在一個(gè)完整翻譯過程的部分環(huán)完整翻譯過程的部分環(huán)節(jié)中有所貢獻(xiàn)節(jié)中有所貢獻(xiàn)。雖然雖然機(jī)器翻譯的可理解性和忠實(shí)度機(jī)器翻譯的可理解性和忠實(shí)度還不夠理想還不夠理想 , ,但倘若數(shù)學(xué)、計(jì)算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論