自然語言理解課程設(shè)計_第1頁
自然語言理解課程設(shè)計_第2頁
自然語言理解課程設(shè)計_第3頁
自然語言理解課程設(shè)計_第4頁
自然語言理解課程設(shè)計_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

自然語言理解

課程設(shè)計報告機器翻譯系統(tǒng)的分析一、課題分析機器翻譯(machinetranslation),又稱為自動翻譯,是利用計算機把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程,一般指自然語言之間句子和全文的翻譯。它是自然語言處理(NaturalLanguageProcessing)的一個分支,與計算語言學(xué)(ComputationalLinguistics)、自然語言理解(NaturalLanguageUnderstanding)之間存在著密不可分的關(guān)系。機器翻譯的研究是建立在語言學(xué)、數(shù)學(xué)和計算機科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合于計算機進行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式化和代碼化,計算機科學(xué)家給機器翻譯提供軟件手段和硬件設(shè)備,并進行程序設(shè)計。缺少上述任何一方面,機器翻譯就不能實現(xiàn),機器翻譯效果的好壞,也完全取決于這3個方面的共同努力。整個機器翻譯的過程可以分為原文分析、原文譯文轉(zhuǎn)換和譯文生成3個階段。在具體的機器翻譯系統(tǒng)中,根據(jù)不同方案的目的和要求,可以將原文譯文轉(zhuǎn)換階段與原文分析階段結(jié)合在一起,而把譯文生成階段獨立起來,建立相關(guān)分析獨立生成系統(tǒng)。在這樣的系統(tǒng)中,原語分析時要考慮譯語的特點,而在譯語生成時則不考慮原語的特點。在搞多種語言對一種語言的翻譯時,宜于采用這樣的相關(guān)分析獨立生成系統(tǒng)。也可以把原文分析階段獨立起來,把原文譯文轉(zhuǎn)換階段同譯文生成階段結(jié)合起來,建立獨立分析相關(guān)生成系統(tǒng)。在這樣的系統(tǒng)中,原語分析時不考慮譯語的特點,而在譯語生成時要考慮原語的特點,在搞一種語言對多種語言的翻譯時,宜于采用這樣的獨立分析相關(guān)生成系統(tǒng)。還可以把原文分析、原文譯文轉(zhuǎn)換與譯文生成分別獨立開來,建立獨立分析獨立生成系統(tǒng)。在這樣的系統(tǒng)中,分析原語時不考慮譯語的特點,生成譯語時也不考慮原語的特點,原語譯語的差異通過原文譯文轉(zhuǎn)換來解決。在搞多種語言對多種語言的翻譯時,宜于采用這樣的獨立分析獨立生成系統(tǒng)。二、內(nèi)外研究進展二、內(nèi)外研究進展近年來,自然語言處理的研究已經(jīng)成為熱點,而機器翻譯作為自然語言研究領(lǐng)域的一個重要分支,同時也是人工智能領(lǐng)域的一個課題,同樣為大家所關(guān)注。機器翻譯的研究歷史可以追溯到20世紀(jì)三四十年代。20世紀(jì)30年代初,法國科學(xué)家G.B.阿爾楚尼提出了用機器來進行翻譯的想法。1933年,蘇聯(lián)發(fā)明家n.n.特羅揚斯基設(shè)計了把一種語言翻譯成另一種語言的機器,并在同年9月5日登記了他的發(fā)明;但是,由于30年代技術(shù)水平還很低,他的翻譯機沒有制成。1946年,第一臺現(xiàn)代電子計算機ENIAC誕生,隨后不久,信息論的先驅(qū)、美國科學(xué)家W.Weaver和英國工程師A.D.Booth在討論電子計算機的應(yīng)用范圍時,于1947年提出了利用計算機進行語言自動翻譯的想法。1949年,W.Weaver發(fā)表《翻譯備忘錄》,正式提出機器翻譯的思想。走過六十年的風(fēng)風(fēng)雨雨,機器翻譯經(jīng)歷了一條曲折而漫長的發(fā)展道路,學(xué)術(shù)界一般將其劃分為如下四個階段:(1) 開創(chuàng)期(1947-1964)1954年,美國喬治敦大學(xué)(GeorgetownUniversity)在IBM公司協(xié)同下,用IBM-701計算機首次完成了英俄機器翻譯試驗,向公眾和科學(xué)界展示了機器翻譯的可行性,從而拉開了機器翻譯研究的序幕。中國開始這項研究也并不晚,早在1956年,國家就把這項研究列入了全國科學(xué)工作發(fā)展規(guī)劃,課題名稱是“機器翻譯、自然語言翻譯規(guī)則的建設(shè)和自然語言的數(shù)學(xué)理論”。1957年,中國科學(xué)院語言研究所與計算技術(shù)研究所合作開展俄漢機器翻譯試驗,翻譯了9種不同類型的較為復(fù)雜的句子。從20世紀(jì)50年代開始到20世紀(jì)60年代前半期,機器翻譯研究呈不斷上升的趨勢。美國和前蘇聯(lián)兩個超級大國出于軍事、政治、經(jīng)濟目的,均對機器翻譯項目提供了大量的資金支持,而歐洲國家由于地緣政治和經(jīng)濟的需要也對機器翻譯研究給予了相當(dāng)大的重視,機器翻譯一時出現(xiàn)熱潮。(2) 受挫期(1964-1975)1964年,為了對機器翻譯的研究進展作出評價,美國科學(xué)院成立了語言自動處理咨詢委員會(AutomaticLanguageProcessingAdvisoryCommittee,簡稱ALPAC委員會),開始了為期兩年的綜合調(diào)查分析和測試。1966年11月,該委員會公布了一個題為《語言與機器》的報告(簡稱ALPAC報告),該報告全面否定了機器翻譯的可行性,并建議停止對機器翻譯項目的資金支持。這一報告的發(fā)表給了正在蓬勃發(fā)展的機器翻譯當(dāng)頭一棒,機器翻譯研究陷入了近乎停滯的僵局。(3) 恢復(fù)期(1975-1989)進入70年代后,隨著科學(xué)技術(shù)的發(fā)展和各國科技情報交流的日趨頻繁,國與國之間的語言障礙顯得更為嚴(yán)重,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,迫切地需要計算機來從事翻譯工作。同時,計算機科學(xué)、語言學(xué)研究的發(fā)展,特別是計算機硬件技術(shù)的大幅度提高以及人工智能在自然語言處理上的應(yīng)用,從技術(shù)層面推動了機器翻譯研究的復(fù)蘇,機器翻譯項目又開始發(fā)展起來,各種實用的以及實驗的系統(tǒng)被先后推出,例如Weinder系統(tǒng)、EURPOTRA多國語翻譯系統(tǒng)、TAUM-METEO系統(tǒng)等。而我國在“十年浩劫”結(jié)束后也重新振作起來,機器翻譯研究被再次提上日程。“784”工程給予了機器翻譯研究足夠的重視,80年代中期以后,我國的機器翻譯研究發(fā)展進一步加快,首先研制成功了KY-1和MT/EC863兩個英漢機譯系統(tǒng),表明我國在機器翻譯技術(shù)方面取得了長足的進步。(4) 新時期(1990至今)隨著Internet的普遍應(yīng)用,世界經(jīng)濟一體化進程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長的翻譯需求,人們對于機器翻譯的需求空前增長,機器翻譯迎來了一個新的發(fā)展機遇。國際性的

關(guān)于機器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了一系列機器翻譯軟件,例如“譯星”、“雅信”、“通譯”、“華建”等。在市場需求的推動下,商用機器翻譯系統(tǒng)邁入了實用化階段,走進了市場,來到了用戶面前。隨著語言學(xué)理論的發(fā)展、計算機技術(shù)的進步以及統(tǒng)計學(xué)和機器學(xué)習(xí)方法在自然語言處理領(lǐng)域中的廣泛應(yīng)用,人們對機器翻譯本身的應(yīng)用背景、目標(biāo)等也有了更加準(zhǔn)確的認(rèn)識,機器翻譯在此背景下取得了長足的發(fā)展,基于統(tǒng)計、基于實例等新的機器翻譯方法也都是在這一時期出現(xiàn),一些機器翻譯系統(tǒng)也從實驗室走向了市場。在中國,機器翻譯的研究從50年代開始,多家大學(xué)和研究機構(gòu)先后開發(fā)出俄漢、英漢、漢英、日漢、漢日等機器翻譯系統(tǒng),同時在漢語的自然語言理解方面做了大量的研究。在看到機器翻譯研究取得進展的同時,我們也知道,由于對語言規(guī)律本身認(rèn)識仍然不足,以及計算機對語言理解的局限性,再加上不同語言之間存在著語法結(jié)構(gòu)、構(gòu)造方式、語言習(xí)慣、社會背景等等的不同,機器翻譯的效果與大家所期待的仍有非常大的差距。三、翻譯系統(tǒng)主要技術(shù)要點及性能比較分析(一)典型的機器翻譯方法和技術(shù)機器翻譯是建立在語言學(xué)、數(shù)學(xué)、信息學(xué)、計算機科學(xué)等學(xué)科基礎(chǔ)上的多邊緣學(xué)科(它的發(fā)展是建立在語言學(xué)、數(shù)學(xué)、計算機科學(xué)的發(fā)展基礎(chǔ)之上)現(xiàn)代理論語言學(xué)的發(fā)展、計算機科學(xué)的進步以及概率統(tǒng)計學(xué)的引入,對機器翻譯的理論和方法都產(chǎn)生了深刻的影響。Weaver機器翻譯思想的提出,開始了機器翻譯的研究熱潮。Chomsky在50年代后期提出的短語結(jié)構(gòu)語法,給出了“從規(guī)則生成句子”的原則。由于短語結(jié)構(gòu)語法采用單一標(biāo)記的短語結(jié)構(gòu)來描述句子的構(gòu)成,描述粒度過粗,因此存在約束能力弱、生成能力過強問題,人們逐漸意識到僅依靠單一的短語結(jié)構(gòu)信息,不能充分判別短語類型和確認(rèn)短語邊界,于是,復(fù)雜特征集和詞匯主義被引入自然語言語法系統(tǒng),廣義短語結(jié)構(gòu)語法、詞匯功能語法、中心語驅(qū)動的短語結(jié)構(gòu)語法等語言學(xué)理論也相應(yīng)的產(chǎn)生。在這個發(fā)展過程中,基于規(guī)則方法一直是機器翻譯研究的主流。在基于規(guī)則的方法中,語言規(guī)則的產(chǎn)生需要大量的人力,而且大量的語言規(guī)則之間往往存在著不可避免的沖突。另外,規(guī)則方法在保證規(guī)則的完備性和適應(yīng)性方面也存在著不足。而此時,統(tǒng)計學(xué)方'法在自然語言處理的語音識別領(lǐng)域取得了比較好的效果,于是,基于統(tǒng)計的機器翻譯應(yīng)運而生。隨著雙語語料的大量增加、計算機性能的提高,基于實例的機器翻譯方法被提出,并由此泛化產(chǎn)生了基于模板的機器翻譯方法。下面我們分別介紹幾種典型的機器翻譯方法。

1、基于規(guī)則的機器翻譯方法(Rule-BasedMachineTranslation)從Chomsky提出轉(zhuǎn)換生成文法之后,基于規(guī)則的方法一直是機器翻譯研究的主流,Chomsky認(rèn)為一種語言無限的句子可以由有限的規(guī)則推導(dǎo)出來。早期的機器翻譯系統(tǒng),從體系結(jié)構(gòu)上可以分為直譯式、轉(zhuǎn)換式和中間語言式,它們的不同之處在于對源語言分析的深度,它們的相同點是都需要大規(guī)模的雙語詞典、大量的源語言推導(dǎo)規(guī)則、語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則。其中,轉(zhuǎn)換式的基于規(guī)則方法對源語言分析得比較深,它涉及到詞匯結(jié)構(gòu)分析、語法分析、語義分析,并完成詞匯、語法、語義三層結(jié)構(gòu)從源語言到目標(biāo)語言的轉(zhuǎn)換,而且轉(zhuǎn)換式的方法又充分考慮了源語言和目標(biāo)語言之間的特征聯(lián)系,它比中間語言方法更容易獲得高質(zhì)量的翻譯結(jié)果。因此,轉(zhuǎn)換式的方法更多地被應(yīng)用在早期的機器翻譯系統(tǒng)中,整個翻譯過程被分為:源語言分析部分,轉(zhuǎn)換部分和目標(biāo)語生成部分。而早期的系統(tǒng),如德國西門子的METAL系統(tǒng)、美國的SYSTRAN系統(tǒng)、日本日立公司的ATHENE系統(tǒng)以、及中國中軟公司的HY-1漢英系統(tǒng),都是基于轉(zhuǎn)換的機器翻譯系統(tǒng)?;谝?guī)則的機器翻譯的優(yōu)點在于:規(guī)則可以很準(zhǔn)確的描述出一種語言的語法構(gòu)成,并且可以很直觀的表示出來。機器可以按照一組規(guī)則來理解它面對的自然語言,這組規(guī)則包含了不同語言層次的規(guī)則,包括用以對源語言進行描述的源語言分析規(guī)則、用以對源語言/目標(biāo)語言之間的轉(zhuǎn)換規(guī)則以及用于生成目標(biāo)語的生成規(guī)則。由此可見,基于規(guī)則的機器翻譯的核心問題是構(gòu)造完備的或適應(yīng)性較強的規(guī)則系統(tǒng)。但是,規(guī)則庫的建立需要花費大量的人力和物力,即使如此,規(guī)則的完備性仍然不能得到保證,規(guī)則庫很難覆蓋所有的語言現(xiàn)象。隨著規(guī)則數(shù)量的增加,規(guī)則之間的沖突很難避免;很難用系統(tǒng)化的規(guī)則分類體系、恰當(dāng)?shù)囊?guī)則粒度去刻畫語言特征。而且早期的規(guī)則系統(tǒng)采用的都是確定性規(guī)則,艮即非此即彼的規(guī)則,系統(tǒng)的適應(yīng)性很差?;谏鲜鰡栴},如何自動地獲取語言規(guī)則、如何更好的表示規(guī)則以及如何更好地增強系統(tǒng)的適應(yīng)能力成為研究人員關(guān)注的焦點。隨著大量語料庫的產(chǎn)生,統(tǒng)計方法為我們提供了很好的從己有的語言資源中自動得到我們所需要的語言信息的工具。復(fù)雜特征集和合一運算的提出也使得我們能以更細(xì)的粒度、更加準(zhǔn)確的知識表示形式來描述規(guī)則,而詞匯化的信息也更多的來自于標(biāo)注語料庫。針對確定性規(guī)則降低了系統(tǒng)的魯棒性的弱點,概率上下文無關(guān)文法從全局最優(yōu)的角度考慮,產(chǎn)生最優(yōu)的翻譯結(jié)果,為機器翻譯系統(tǒng)的實用化奠定了基礎(chǔ)。隨著這些方法的引入,傳統(tǒng)的基于規(guī)則的機器翻譯方法研究逐步發(fā)展成為對以規(guī)則為基礎(chǔ)、語料庫方法為輔助的高性能機器翻譯方法的研究。2.基于統(tǒng)計的機器翻譯方法(Statistical-BasedMachinetranslation)除了在某些特定的受限領(lǐng)域,基于規(guī)則的機器翻譯,取得了比較好的效果(如Isabelle1987所做的天氣預(yù)報翻譯)之外,在大部分的實驗中,基于規(guī)則的機器翻譯遠(yuǎn)遠(yuǎn)沒有達(dá)到人們的要求。而隨著語料庫語言學(xué)的發(fā)展和統(tǒng)計學(xué)、信

息論在自然語言處理領(lǐng)域的應(yīng)用,人們嘗試著用統(tǒng)計的方法進行機器翻譯的研究。對于機器翻譯來說,基于統(tǒng)計的方法可以從兩個層面上來理解,一種是指某些概率統(tǒng)計的方法在具體的機器翻譯過程中的應(yīng)用,比如用概率統(tǒng)計的方法解決詞性標(biāo)注的問題、詞義消歧的問題等。另一種較狹義的理解是指純粹的基于統(tǒng)計的機器翻譯,翻譯所需的所有知識都來源于語料庫本身。IBM的Brown在1990年首先將最初應(yīng)用于語音識別領(lǐng)域的統(tǒng)計模型用于法英機器翻譯?;舅枷胧牵河眯诺滥P桶褭C器翻譯看作一種解碼的過程?;诮y(tǒng)計的機器翻譯也可以用下面這個公式來說明:best-translationT=argmaxTluency(T)faithfulness(T,S)其中,T表示目標(biāo)語言句,S表示源語言句。fluency(T)相當(dāng)于語言模型,它反映目標(biāo)語言句子的質(zhì)量,faithfulness(T,S)相當(dāng)于翻譯模型,表示從源語言到目標(biāo)語言的翻譯質(zhì)量。從上面的公式可以看出,翻譯的過程其實也是一個尋求最優(yōu)翻譯結(jié)果的過程。因此,基于統(tǒng)計的機器翻譯的關(guān)鍵首先是定義最適合的語言概率模型和翻譯概率模型,其次,需要從已經(jīng)存在的語言資源中,對語言模型和參數(shù)模型的概率參數(shù)進行估計。早期的語言模型基本上采用二元、三元模型,語言模型的參數(shù)估計需要大量的單語語料庫,二元模型參數(shù)通過兩個詞的搭配頻率來計算,三元模型參數(shù)則通過計算相鄰三元詞的出現(xiàn)頻率進行估計。近年來,基于統(tǒng)計的機器翻譯翻譯采用基于語法的語言模型,利用樹庫訓(xùn)練語言模型參數(shù)。翻譯模型需要計算源語和目標(biāo)語對之間的轉(zhuǎn)換概率,因此翻譯模型參數(shù)估計需要大量對齊的雙語語料庫。Brown詳細(xì)介紹了五種翻譯模型,并且用EM算法對雙語語料進行訓(xùn)練,估計翻譯模型參數(shù),盡管統(tǒng)計機器翻譯在語音識別領(lǐng)域取得了一定的成功,但是它需要大量的雙語語料庫,而且存在著數(shù)據(jù)稀疏問題。因此,如何構(gòu)建大規(guī)模的對齊雙語語料庫,以及找到比較好的平滑算法進行準(zhǔn)確的參數(shù)估計,成了基于統(tǒng)計機器翻譯系統(tǒng)實現(xiàn)中的關(guān)鍵問題。除此之外,要找到最優(yōu)的譯文,也需要好的搜索算法。模型和翻譯模型,而最初的統(tǒng)計模型很少考慮語言的特征信息,對一些特定語言所特有的語言特征分析得不夠。例如,在英語的詞匯形態(tài)分析中,對單詞“see”和“saw”,原型和過去型完全按照不同的詞匯進行參數(shù)估計,這就造成了對語言模型和翻譯模型構(gòu)建的不準(zhǔn)確性°IBM[7]將一些淺層的詞匯信息結(jié)合到統(tǒng)計模型當(dāng)中去,F(xiàn)ranzJosef在ACL’02上發(fā)表的文章介紹的基于最大熵的統(tǒng)計機器翻譯方法中,訓(xùn)練模型中也充分考慮了源語言和目標(biāo)語言的語言特征。語言特征的引入,提高了基于統(tǒng)計的機器翻譯的性能,同時也對語料庫的標(biāo)注提出了更高的要求,這從某種意義上說也是基于規(guī)則的機器翻譯方法和基于統(tǒng)計機器翻譯方法的融合,或者說是統(tǒng)計方法在處理語言學(xué)問題上的延伸,體現(xiàn)了下面我們要介紹的基于混合策略的機器翻譯方法研究的必要性。

3.基于實例的機器翻譯方法(Example-BasedMachineTranslation)基于實例的機器翻譯思想最早由Nagao⑵提出,其基本思想是,在已有的源語言實例句庫中,待翻譯句子按照類比原理匹配出最相似的實例句,取出實例句對應(yīng)的目標(biāo)語句子,進行適當(dāng)?shù)母脑?,最終得出待翻譯句子所相應(yīng)的目標(biāo)語句子。整個翻譯過程實際上是一個匹配過程。它的特點是不需要對源語言進行任何的分析,僅僅是通過類比進行翻譯。從翻譯過程來看,句子一級對齊的雙語語料庫是基于實例的機器翻譯系統(tǒng)的知識源,在基于實例的機器翻譯系統(tǒng)中,雙語對齊語料庫被稱為翻譯記憶庫(TranslationMemory)o對于基于實例的系統(tǒng),首先,待翻譯句子需要從翻譯記憶庫中找出最相似的源語言句子,一般根據(jù)詞典或者語言的本體知識(Ontology),根據(jù)句子中詞匯或者詞類之間的語義距離來計算句子的相似度,F(xiàn)ederica在2002年的一篇文章概述了基于實例機器翻譯相似度的計算方法以及句子匹配算法。基于實例的機器翻譯系統(tǒng)的翻譯質(zhì)量取決于翻譯記憶庫的規(guī)模和覆蓋率。因此如何構(gòu)建大規(guī)模翻譯記憶庫成為基于實例的機器翻譯研究的關(guān)鍵問題。對于雙語語料對齊研究,Gale等描述了基于長度和基于偏移量的語料庫的句子和段落對齊方法,Kay提出了基于詞匯特征的句子對齊方法?,F(xiàn)階段,由于缺少大規(guī)模的雙語對齊語料庫,基于實例的機器翻譯方法匹配率并不是很高,而基于實例的機器翻譯如果匹配成功,可以獲得高質(zhì)量的譯文,因此基于實例的機器翻譯一般和基于規(guī)則的機器翻譯結(jié)合使用,Satoshi就提出了基于規(guī)則和基于實例相結(jié)合的機器翻譯方法,產(chǎn)生了比較好的翻譯結(jié)果。對于匹配命中率過低的問題,我們試著做到短語級的雙語對齊,以提高匹配命中率,通過短語結(jié)構(gòu)的局部匹配,組合相應(yīng)的目標(biāo)語句子框架,完成句子的翻譯,這種方法進而泛化為基于模板(Template-based)的機器翻譯,通過大規(guī)模的雙語語料,自動抽取翻譯模板,翻譯過程匹配模板庫。這種方法增加了匹配的命中率,模板庫規(guī)模比實例庫要小,因此也提高了系統(tǒng)的效率。而模板的自動獲取仍然是翻譯的關(guān)鍵。基于實例的機器翻譯方法依然面臨著很多的問題,對于相似度計算,如果計算詞類或者短語級的相似度,則需要首先對我們的翻譯記憶庫本身進行標(biāo)注。而且很難定義一個相似度標(biāo)準(zhǔn)選出最合適的相似句,此外隨著翻譯記憶庫規(guī)模的擴大,需要一個高速的查詢匹配算法,同時需要在增加翻譯記憶庫的規(guī)模、提高匹配率的同時,保證翻譯記憶庫的冗余度。在機器翻譯研究的過程中,各種機器翻譯方法層出不窮,其它的還有基于模式的機器翻譯、基于神經(jīng)網(wǎng)絡(luò)的機器翻譯、基于對話的機器翻譯、基于原則的機器翻譯等等,現(xiàn)有的各種機器翻譯方法在現(xiàn)階段的機器翻譯研究中被廣泛采用,它們之間已經(jīng)沒有嚴(yán)格的界限。基于規(guī)則的機器翻譯方法結(jié)合語料庫的方法,大量使用統(tǒng)計方法獲取語言信息,而基于統(tǒng)計的機器翻譯和基于實例的機器翻譯更是相互滲透,基這兩種方法統(tǒng)稱為基于語料庫的方法,因為它們同樣依靠雙語語料庫。

(二)國際國內(nèi)的較為成熟的機器翻譯系統(tǒng)Google的在線翻譯已為人熟知,其背后的技術(shù)即為基于統(tǒng)計的機器翻譯方法,基本運行原理是通過搜索大量的雙語網(wǎng)頁內(nèi)容,將其作為語料庫,然后由計算機自動選取最為常見的詞與詞的對應(yīng)關(guān)系,最后給出翻譯結(jié)果。不可否認(rèn),Google采用的技術(shù)是先進的,但它還是經(jīng)常鬧出各種“翻譯笑話”。其原因在于:基于統(tǒng)計的方法需要大規(guī)模雙語語料,翻譯模型、語言模型參數(shù)的準(zhǔn)確性直接依賴于語料的多少,而翻譯質(zhì)量的高低主要取決于概率模型的好壞和語料庫的覆蓋能力?;诮y(tǒng)計的方法雖然不需要依賴大量知識,直接靠統(tǒng)計結(jié)果進行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此通用領(lǐng)域的機器翻譯系統(tǒng)很少以統(tǒng)計方法為主。下面對幾個常見的翻譯系統(tǒng)做個比較支持的語言數(shù)量誰最多網(wǎng)站翻譯系統(tǒng)支持的語種越多,該網(wǎng)站擁有的不同國家的用戶數(shù)量就越多,同時也會給廣大用戶提供更多的方便。下面我們來看一下這幾個網(wǎng)站的翻譯系統(tǒng)所支持的語種數(shù)量Google支持11語種25類直譯 Google涵蓋了漢語(簡體、繁體漢語統(tǒng)稱為漢語)、英語、法語、德語、俄語、日語、韓語、葡萄牙語、西班牙語、意大利語和阿拉伯語11個語種共計25個類型的直譯選項。Yahoo支持12語種40類直譯Yahoo在線翻譯提供涵蓋了漢語、英語、法語、德語、俄語、日語、韓語、葡萄牙語、西班牙語、意大利語、荷蘭語和希臘語12個語種共計40個類型的直譯選項。愛詞霸支持3語種6類直譯金山“愛詞霸”提供了簡(繁)體中文與英文的互譯,日文翻譯為簡(繁)體中文3種語言的常見翻譯類別。兩個復(fù)選框搭配組合最多實現(xiàn)6個類型的直譯(圖3)。金橋翻譯支持13語種40類直譯金橋翻譯在文本翻譯方面涵蓋了漢語、英語、法語、德語、俄語、日語、韓語、葡萄牙語、西班牙語、意大利語、荷蘭語、希臘語和阿拉伯語13個語種共計40個類型的直譯選項。翻譯的質(zhì)量誰最好基于我國外語的學(xué)習(xí)情況,英文是眾多朋友最為熟悉、最有代表性外語語種,對英文翻譯的需求也最為廣泛,因此,我們以英文和中文間的翻譯作為本次評測的對象。1).對單個單詞的翻譯情況。英語單詞往往包含很多不同的意思。如果不能全面了解單詞包含的意思,可能影響一個句子甚至一段話的含義。因此,翻譯的正確程度,以及單詞的擴展介紹和固定搭配用法舉例等解釋,也是衡量翻譯網(wǎng)站翻譯質(zhì)量的一個重要方面。我們以單詞“drive”為例子,分別系下列網(wǎng)站進行測試。Google不支持中文解釋。Google中的詞典功能很不完善,它甚至不能夠用中文來解釋這個單詞的含義,雖然在搜索出的結(jié)果里面增加了 “相關(guān)詞組(relatedphrases)”和“相關(guān)語言(relatedlanguages)”的搜索。但是只支持英語、法語、德語、意大利語、韓語、俄語和西班牙語的單詞解釋,讓中國用戶完全無法使用。Yahoo功能完善解釋全面。Yahoo的字典功能包含了英漢字典、英英字典、例句、網(wǎng)絡(luò)解釋四個部分,并且在每個部分里面,都盡可能的列出了該詞語的語義。在“英漢字典”里面列出了該詞語的名詞(n.)、及物動詞(vt.)、不及物動詞(vi.)三種詞性,并且在每個詞性里面都詳細(xì)分條例舉了該詞語的意思,而且在每個意思的下方都附加了相關(guān)例句。音標(biāo)、同義詞/反義詞、詞性變化、相關(guān)詞組、相似單詞、英英字典、例句、網(wǎng)絡(luò)解釋等一應(yīng)俱全。愛詞霸解釋簡明扼要。金山愛詞霸秉承了其收錄多部詞典的優(yōu)勢,分成4個大詞典對詞語分別作出解釋,比如“現(xiàn)代漢英綜合大詞典”就包含了基本解釋、同義詞、例句(實際上是詞組)三個部分。簡明扼要,符合國人的使用習(xí)慣。金橋翻譯解釋趨向?qū)I(yè)。金橋翻譯調(diào)用金橋翻譯中心推出的的谷詞()專業(yè)翻譯詞典網(wǎng)站。詞典搜索結(jié)果包括了各條含義、更多例句、相關(guān)詞、變化形等內(nèi)容。同時可以實現(xiàn)“專業(yè)解釋”和“簡單解釋”的搜索效果??偟膶@幾個翻譯系統(tǒng)進行比較。1?google優(yōu)點:支持的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論