版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、Machine Translation黃宗文16721539CONTENTSPART ONE 基本概念PART TWO 發(fā)展歷史PART THREE 翻譯方法PART FOUR 總結(jié)展望基本概念機器翻譯 (machine translation, MT) 是利用計算機把一種語言(源語言, source language) 翻譯成另一種語言(目標(biāo)語言, target language) 的一門學(xué)科和技術(shù)?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望Machine Translation機器翻譯MT, the abbreviation of machine translation, is a sub-fiel
2、d of computational linguistics that investigates the use of software to translate text or speech from one natural language to another.機器翻譯的縮寫是計算語言學(xué)的一個子領(lǐng)域,它研究軟件將文本或語言從一種自然語言翻譯成另一種自然語言的用法?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望Machine Translation機器翻譯機器翻譯的研究是建立在語言學(xué)、數(shù)學(xué)和計算機科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合與計算機進行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式
3、化和代碼化,計算機科學(xué)家給機器翻譯提供軟件手段和硬件設(shè)備,并進行程序設(shè)計。發(fā)展歷史機器翻譯的發(fā)展經(jīng)歷了興起、低落和重新興盛的曲折歷程。在昌盛的時候,人們?yōu)檠芯砍晒木始姵屎蛻?yīng)用的成功而歡呼,即使在低潮時,人們也在不斷的反思,為重新發(fā)展積蓄力量?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望1954美國喬治敦大學(xué)在IBM公司協(xié)同下,用IBM-701計算機首次完成了英俄機器翻譯實驗,拉開了機器翻譯的序幕。1956中國把機器翻譯列入了全國科學(xué)工作發(fā)展規(guī)劃,課題名稱是“機器翻譯、自然語言翻譯規(guī)則的建設(shè)和自然語言的數(shù)學(xué)理論”。開創(chuàng)期從20世紀(jì)50年代開始到20世紀(jì)60年代前半期,美國和前蘇聯(lián)兩個超級大國處于軍事、政
4、治、經(jīng)濟目的,均對機器翻譯項目提供了大量的資金支持,而歐洲國家由于地緣政治和經(jīng)濟的需要也對機器翻譯研究給予了相當(dāng)大的重視,機器翻譯一時出現(xiàn)熱潮?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望1964ALPAC報告1966機器翻譯進入蕭條期。文革1979語言自動處理咨詢委員會成立1964年,為了對機器翻譯的研究進展作出評價,美國科學(xué)院成立了語言自動處理咨詢委員會(簡稱ALPAC委員會),開始了為期兩年的綜合調(diào)查分析和測試。1966年11月,該委員會公布了一個題為語言與機器的報告該報告全面否定了機器翻譯的可行性,并建議停止對機器翻譯項目的資金支持。受挫期進入70年代后,隨著科學(xué)技術(shù)的發(fā)展和各國科技情報交流的日趨
5、頻繁,國與國之間的語言障礙顯得更為嚴(yán)重,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠遠不能滿足需求,迫切的需要計算機來從事翻譯工作。同時,計算機科學(xué)、語言學(xué)研究的發(fā)展,特別是計算機硬件技術(shù)的大幅度提高以及人工智能在自然語言處理上的應(yīng)用,從技術(shù)層面推動了機器翻譯研究的復(fù)蘇?;謴?fù)期EURPOTRA系統(tǒng)出現(xiàn)基本概念發(fā)展歷史翻譯方法總結(jié)展望201690年代Internet普遍應(yīng)用機器翻譯迅猛發(fā)展,商用機器翻譯軟件翻入實用化階段。新時期隨著Internet的普遍應(yīng)用,世界經(jīng)濟一體化進程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠遠不能滿足迅猛增長的翻譯需求,人們對于機器翻譯的需求空前增長,機器翻譯迎來了一個
6、新的發(fā)展機遇。國際性的關(guān)于機器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了一系列機器翻譯軟件,例如“譯星” 、 “雅信” 、 “通譯” 、 “華建”等。在市場需求的推動下,商用機器翻譯系統(tǒng)邁入了實用化階段,走進了市場,來到了用戶面前。翻譯方法機器翻譯的處理對象是自然語言,而人類對于語言認(rèn)知的過程還未研究清楚,因此,要實現(xiàn)理想、高質(zhì)量的機器翻譯至少目前還有較大的距離?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望在機器翻譯領(lǐng)域,機器翻譯方法可以看成是兩大類共四種方法,兩大類是:基于規(guī)則一類;基于語料庫一類。顯而易見,基于規(guī)則一類包括了基于轉(zhuǎn)換的機器翻譯方法和基于中間語言的機器翻譯方法;基于語
7、料庫一類包括了基于統(tǒng)計的機器翻譯方法和基于實例的機器翻譯方法?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望基于實例的機器翻譯基于實例的翻譯方法不經(jīng)過深層分析,僅僅通過已有的經(jīng)驗知識,通過類比原理進行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標(biāo)語言短語,最后把這些短語合并成長句?;谥虚g語言的機器翻譯基于中間語言的翻譯方法是對源語言進行分析以后產(chǎn)生一種稱為中間語言的表示形式,然后直接由這種中間語言的表示形式生成目標(biāo)語言。所謂中間語言就是自然語言的計算機表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨立于各種自然語言,同時又能表示各種自然語言的人工語言?;诮y(tǒng)計
8、的機器翻譯基于統(tǒng)計的機器翻譯方法把機器翻譯看成是一個信息傳輸過程,用一種信道模型對機器翻譯進行解釋。這種思想認(rèn)為,源語言句子到目標(biāo)語言句子的翻譯是一個概率問題,任何一個目標(biāo)語言句子都有可能是任何一個源語言句子的譯文,只是概率不同,機器翻譯的任務(wù)就是找到概率最大的句子?;谵D(zhuǎn)換的機器翻譯基于轉(zhuǎn)換的翻譯方法就是自動實現(xiàn)源語言到目標(biāo)語言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個源語言句子經(jīng)過不同的中間表達形式,最終達到目標(biāo)語言句子的表示。其目的是盡可能地加深對源語言的理解,生成盡可能恰當(dāng)?shù)哪繕?biāo)語言形式?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望基于統(tǒng)計的機器翻譯基于統(tǒng)計的機器翻譯方法主要分為三類:第
9、一類是基于詞的方法,第二類是基于短語的方法,第三類是基于句法的方法?;诰浞ǖ哪P褪亲顝?fù)雜的、也是翻譯質(zhì)量最好的?;诮y(tǒng)計的機器翻譯方法可以簡單的這樣看:將原始的某個句子按詞折開,然后全部單詞存儲;翻譯則是取出,按概率統(tǒng)計的方法重組句子,這樣的句子就是統(tǒng)計方法的翻譯結(jié)果。 為了提高統(tǒng)計機器翻譯系統(tǒng)的準(zhǔn)確性,普遍應(yīng)用海量語料庫訓(xùn)練出大規(guī)模語言模型和翻譯模型。而模型的不斷增大,給統(tǒng)計機器翻譯帶來了突出的計算性能問題,是的現(xiàn)有的單機串行化翻譯處理難以在較快時間內(nèi)完成計算。基本概念發(fā)展歷史翻譯方法總結(jié)展望基于內(nèi)存分布的層次短語機器翻譯并行化算法基本概念發(fā)展歷史翻譯方法總結(jié)展望這種工作方式基于MapRe
10、duce秉性框架實現(xiàn),由MapReduce框架將文章分割為句子組,每個map端負(fù)責(zé)處理一個句子組,map端將會調(diào)用解碼器完成翻譯任務(wù),最后reduce端匯總結(jié)果。這個并行框架充分利用了集群的大容量分布式內(nèi)存,大幅提高了并發(fā)度,而且可以在需要時增加集群節(jié)點以擴充系統(tǒng),因而具有很強的系統(tǒng)擴展性,很好地克服了單機解碼器系統(tǒng)難以擴展的缺陷。采用分布式內(nèi)存數(shù)據(jù)庫存儲數(shù)據(jù)后,由于每個節(jié)點存儲的數(shù)據(jù)量變?。榭倲?shù)據(jù)量的N分之一),且各節(jié)點可以同時進行檢索,因此查表速度能夠變快?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望33.285.186.412.211.111.221.231.271.530246810121414
11、8164080Translation Time per Sentence/sThreads在單線程情況下,待機解碼器平均翻譯每個句子需要3s;我們的并行化解碼器平均每句消耗約1.1s,解碼速度是單機的2.7倍。在其他各個并發(fā)度級別下,并行化解碼器平均每句的性能也都同樣保持了領(lǐng)先。計算性能對比基本概念發(fā)展歷史翻譯方法總結(jié)展望2633720569351268978267.5134.869.733.505001000150020002500300014816408010-3*Translation job Time Cost/sThreads隨著線程數(shù)量增加,單機解碼器性能下降較快,在80線程時已經(jīng)
12、無法工作;并行化解碼器在80個線程時仍保持較好的性能。擴展性對比sparkMapReduce大數(shù)據(jù)處理后起之秀spark得益于其在迭代計算機和內(nèi)存計算上的優(yōu)勢,可以自動調(diào)度復(fù)雜的計算任務(wù),避免中間結(jié)果的磁盤讀寫和資源申請過程,非常適合數(shù)據(jù)挖掘算法。Mapreduce為大數(shù)據(jù)挖掘提供了有力的支持,但是復(fù)雜的挖掘算法往往需要多個mapreduce所也才能完成,多個作業(yè)之間存在著冗余的磁盤讀寫開銷和多次自愿申請過程,使得基于mapreduce的算法實現(xiàn)存在嚴(yán)重的性能問題?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望總結(jié)展望機器翻譯技術(shù)在經(jīng)濟發(fā)展和社會生活中日趨重要, 對加速和擴展世界范圍內(nèi)的信息傳播具有深遠意義
13、. 機器翻譯是一個真正的科學(xué)與技術(shù)相結(jié)合的多學(xué)科產(chǎn)物. 機器翻譯的研究必將推動這些學(xué)科的迅速發(fā)展?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望人工翻譯機器翻譯1、一句一句處理,并不參考上下文;2、對源語言的分析只是求解句法關(guān)系,完全不是意義上的理解譯文轉(zhuǎn)換是基于源語言的句法結(jié)構(gòu)的,受源語言的句法結(jié)構(gòu)的束縛;3、翻譯只是句法結(jié)構(gòu)和詞匯的機械對應(yīng)。1、先通讀全文,前后照應(yīng);2、譯文基于對源語言的理解,不受源語言的句法結(jié)構(gòu)的束縛;3、人工翻譯是一個在創(chuàng)造的過程?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望明月明月幾時有,把酒問青幾時有,把酒問青天天MT: When the moon is, wine ask blue sk
14、y .HT: When will the moon be clear and bright? With a cup of wine in my hand, I ask the blue sky.滿地滿地黃花堆積,憔悴損,黃花堆積,憔悴損,而今有誰堪摘?而今有誰堪摘?MT: Everywhere yellow flower accumulation gaunt who can pick the loss now ?HT: The ground is covered with yellow flowers faded and fallen in showers. Who will pick the
15、m up now?別狗咬呂洞賓,不識別狗咬呂洞賓,不識好人心。好人心。MT: The dog bite lv dongbin does not know good hearts. HT: Dont bite the hand that feeds you.MT的限制:人名翻譯 、習(xí)語翻譯、文學(xué)作品翻譯、成語典故翻譯機器翻譯還不成熟(in state-of-the-art),需要的是人與系統(tǒng)的配合,而不是有意為難,輔助機器翻譯可以大大減輕人的負(fù)擔(dān)。我們我們需要的是計算機幫需要的是計算機幫助人類完成某些翻譯工助人類完成某些翻譯工作,而不是完全替代人,作,而不是完全替代人,人與機器翻譯系統(tǒng)之間人與機器翻譯系統(tǒng)之間應(yīng)該是互補的關(guān)系,而應(yīng)該是互補的關(guān)系,而不是相互競爭。不是相互競爭。目前目前機器翻譯的價值不機器翻譯的價值不在于它可以取代翻譯專在于它可以取代翻譯專家,而在于它可在一個家,而在于它可在一個完整翻譯過程的部分環(huán)完整翻譯過程的部分環(huán)節(jié)中有所貢獻節(jié)中有所貢獻。雖然雖然機器翻譯的可理解性和忠實度機器翻譯的可理解性和忠實度還不夠理想還不夠理想 , ,但倘若數(shù)學(xué)、計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑行業(yè)材料購銷協(xié)議書
- 紅酒采購合同實例
- 物流運輸海外發(fā)展框架
- 給排水工程招投標(biāo)評估報告
- 寧波住宅交易契約范本
- 招標(biāo)文件附件解析詳解
- 家校共管小學(xué)生放學(xué)安全家長信
- 廢紙購銷協(xié)議樣本
- 靈活擴展能力外包服務(wù)合同
- 碎石購銷合同格式范例
- 導(dǎo)醫(yī)接待與患者情緒管理
- 化工行業(yè)基礎(chǔ)知識培訓(xùn)課件
- 斜拉橋施工技術(shù)
- 《影視行業(yè)無形資產(chǎn)評估的案例分析-以華誼兄弟為例》12000字
- 新課標(biāo)下小學(xué)美術(shù)課程設(shè)計
- 國開電大操作系統(tǒng)-Linux系統(tǒng)使用-實驗報告
- 電氣技術(shù)協(xié)議
- 香煙過濾嘴問題論文
- 第五單元整體教學(xué)課件-七年級語文上冊
- 中學(xué)生主題班會課題:科學(xué)素養(yǎng)與創(chuàng)新能力培養(yǎng)
- 余華讀書分享名著導(dǎo)讀《文城》
評論
0/150
提交評論