![人工智能課件.part3_第1頁(yè)](http://file4.renrendoc.com/view/06465064265c48bf8dd748babe47ff63/06465064265c48bf8dd748babe47ff631.gif)
![人工智能課件.part3_第2頁(yè)](http://file4.renrendoc.com/view/06465064265c48bf8dd748babe47ff63/06465064265c48bf8dd748babe47ff632.gif)
![人工智能課件.part3_第3頁(yè)](http://file4.renrendoc.com/view/06465064265c48bf8dd748babe47ff63/06465064265c48bf8dd748babe47ff633.gif)
![人工智能課件.part3_第4頁(yè)](http://file4.renrendoc.com/view/06465064265c48bf8dd748babe47ff63/06465064265c48bf8dd748babe47ff634.gif)
![人工智能課件.part3_第5頁(yè)](http://file4.renrendoc.com/view/06465064265c48bf8dd748babe47ff63/06465064265c48bf8dd748babe47ff635.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 第 3 章 機(jī)器翻譯方法 機(jī)器翻譯的處理對(duì)象是自然語(yǔ)言,而人類(lèi)對(duì)于語(yǔ)言認(rèn)知的過(guò)程還未研究清楚,因此,要實(shí)現(xiàn)理想、高質(zhì)量的機(jī)器翻譯至少目前還有較大的距離。 機(jī)器翻譯是21世紀(jì)要解決的科技難題之一,主要困難是自然語(yǔ)言在各個(gè)層次上的歧義性 。 解決歧義問(wèn)題很難從根本上突破,它將涉及到處理的難度和翻譯的速度,翻譯的復(fù)雜性,因此,尋求簡(jiǎn)單的翻譯方法是一個(gè)重要課題,它可以降低歧義處理難度,增加解決這一科技難題的希望。1 自然語(yǔ)言的機(jī)器翻譯目前一般以句子為翻譯單位。句子又分為句、短語(yǔ)、詞三個(gè)層次。分析階段一般分為詞法分析、句法分析、語(yǔ)義分析、語(yǔ)境分析、語(yǔ)用分析等,其中以詞法分析和句法分析為主。 面對(duì)這么多
2、而復(fù)雜的分析模塊(機(jī)器翻譯中,每一種分析組成一個(gè)軟件模塊),面對(duì)這么龐大的軟件系統(tǒng),研究者必須有清晰的思維、正確的切入點(diǎn),才可能把翻譯軟件設(shè)計(jì)得好一些,再好一些?;谶@樣的認(rèn)識(shí),本章將首先討論現(xiàn)有的機(jī)器翻譯方法,并把重點(diǎn)放在基于實(shí)例的機(jī)器翻譯上。23 . 1 機(jī)器翻譯的四種實(shí)現(xiàn)方法3 . 1 . 1 基于分析和轉(zhuǎn)換的機(jī)器翻譯方法 人作翻譯時(shí),把一個(gè)源語(yǔ)言句子譯成目標(biāo)語(yǔ)言句子,涉及到四個(gè)基本操作:目標(biāo)語(yǔ)言單詞的檢索、調(diào)序、刪詞、增詞;機(jī)器翻譯系統(tǒng)的操作過(guò)程也不例外,有檢索、分析、轉(zhuǎn)換和生成的主要四個(gè)階段。這被稱(chēng)為基于分析和轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)。也被認(rèn)為是模擬人類(lèi)翻譯活動(dòng)最恰當(dāng)?shù)臋C(jī)制。 基于分析和轉(zhuǎn)
3、換的機(jī)器翻譯方法就是自動(dòng)實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個(gè)源語(yǔ)言句子經(jīng)過(guò)不同的中間表達(dá)形式,最終達(dá)到目標(biāo)語(yǔ)言句子的表示。其目的是盡可能地加深對(duì)源語(yǔ)言的理解,生成盡可能恰當(dāng)?shù)哪繕?biāo)語(yǔ)言形式。這種方法比較全面地體現(xiàn)了語(yǔ)言學(xué)知識(shí)在機(jī)器翻譯中的應(yīng)用,是了解機(jī)器翻譯實(shí)現(xiàn)過(guò)程的非常合適的模式。3 在“機(jī)器翻譯的常規(guī)步驟”實(shí)際上已經(jīng)慨略的介紹了這一方法的全過(guò)程,這里再補(bǔ)充闡述一些內(nèi)容: 句子經(jīng)過(guò)分析階段之后,進(jìn)入轉(zhuǎn)換和生成階段。這兩者一般聯(lián)系得比較緊密,有時(shí)無(wú)法嚴(yán)格區(qū)分,因?yàn)檗D(zhuǎn)換到目標(biāo)語(yǔ)言也就是要生成目標(biāo)語(yǔ)言的詞匯、短語(yǔ)、句子??梢园丫渥咏Y(jié)構(gòu)的轉(zhuǎn)換也就是源語(yǔ)言的句法樹(shù)轉(zhuǎn)換
4、長(zhǎng)合適的目標(biāo)語(yǔ)言對(duì)應(yīng)形式當(dāng)作轉(zhuǎn)換,而后續(xù)的許多處理都當(dāng)作生成階段的處理步驟看待。4 實(shí)質(zhì)上,機(jī)器翻譯方法對(duì)語(yǔ)言的處理就是在兩種語(yǔ)言之間搭一座橋,實(shí)現(xiàn)一種語(yǔ)言到另一種語(yǔ)言意義等價(jià)的轉(zhuǎn)換。它并非象自然語(yǔ)言理解那樣只是對(duì)一種語(yǔ)言的操作,只需作針對(duì)一種語(yǔ)言的分析。作為一個(gè)機(jī)器翻譯系統(tǒng),它既要考慮源語(yǔ)言的語(yǔ)法和語(yǔ)義規(guī)律,也要考慮目標(biāo)語(yǔ)言的這方面規(guī)律,忽略了任何一方都是不行的。也就是說(shuō),對(duì)于雙語(yǔ)互譯規(guī)律的發(fā)現(xiàn)和應(yīng)用才是機(jī)器翻譯最本質(zhì)的特征。所以,在詞、短語(yǔ)和句子這三個(gè)層次上尋找源語(yǔ)言的目標(biāo)語(yǔ)言翻譯的等價(jià)物是機(jī)器翻譯中轉(zhuǎn)換與生成的任務(wù)。5 通常,機(jī)器翻譯的研究中將轉(zhuǎn)換看做整個(gè)翻譯過(guò)程中的一個(gè)階段。然而,在語(yǔ)
5、義結(jié)構(gòu)上進(jìn)行轉(zhuǎn)換卻是一種好的方式。語(yǔ)義結(jié)構(gòu)可以是跨語(yǔ)言的,有能力同時(shí)應(yīng)用于分析和生成。另一方面,當(dāng)機(jī)器翻譯系統(tǒng)的翻譯語(yǔ)言對(duì)擴(kuò)展時(shí),還可以應(yīng)用于多種不同的語(yǔ)言。但要注意,大規(guī)模的自然語(yǔ)言語(yǔ)義描述相當(dāng)復(fù)雜,因而在機(jī)器翻譯系統(tǒng)中的應(yīng)用往往會(huì)受到限制,難以采用這樣的語(yǔ)義表示作為轉(zhuǎn)換的基本結(jié)構(gòu)。6 一般情況下,分析以句法為主、語(yǔ)義為輔,正確的句法結(jié)構(gòu)轉(zhuǎn)換加正確的詞匯譯文可以從源語(yǔ)言向目標(biāo)語(yǔ)言傳遞完整的正確信息。因此,以句法結(jié)構(gòu)轉(zhuǎn)換附加上一定的語(yǔ)義信息,能夠構(gòu)成轉(zhuǎn)換的基本層次。不足之處是:因?yàn)榫浞ǚ治龅慕Y(jié)果是面向源語(yǔ)言的,而要生成合適的目標(biāo)語(yǔ)言譯文,轉(zhuǎn)換部分常常引入許多目標(biāo)語(yǔ)言方面的約束,使得轉(zhuǎn)換規(guī)則變得
6、復(fù)雜了。7 就標(biāo)準(zhǔn)的機(jī)器翻譯系統(tǒng)來(lái)說(shuō),句子和短語(yǔ)層次的結(jié)構(gòu)轉(zhuǎn)換是機(jī)器翻譯轉(zhuǎn)換部分的研究重點(diǎn)。通常使用轉(zhuǎn)換規(guī)則,就可以實(shí)現(xiàn)源語(yǔ)言句法結(jié)構(gòu)到目標(biāo)語(yǔ)言句法結(jié)構(gòu)的轉(zhuǎn)換。這方面一般采用產(chǎn)生式方式的轉(zhuǎn)換規(guī)則形式:S:S1+S2+SiT1+T2+Tj :T 上式理解為:S是SL(源語(yǔ)言)的某個(gè)待翻譯單位(句子、短語(yǔ)等等),S1Si是S中的下一級(jí)組成單位;對(duì)于S,如果滿(mǎn)足條件,則TL(目標(biāo)語(yǔ)言)中有T1Tj譯文構(gòu)成了相應(yīng)的等價(jià)物T。8 這樣的方法有兩個(gè)特點(diǎn):一是面向源語(yǔ)言分析,因?yàn)樵凑Z(yǔ)言中的一個(gè)句子已經(jīng)由句法、語(yǔ)義分析等階段分析完畢,生成了關(guān)于源語(yǔ)言句子的某種中間表示,轉(zhuǎn)換以這種源語(yǔ)言中間表示作為輸入;二是直
7、接轉(zhuǎn)換,即對(duì)于S表示,直接給出譯文形式,一般不需要在目標(biāo)語(yǔ)言?xún)?nèi)再作進(jìn)一步轉(zhuǎn)換,T1Tj可以直接包括目標(biāo)語(yǔ)言的詞匯,也可以是對(duì)應(yīng)于S1Si的譯文組塊。9 上述方法稱(chēng)為基于句法的轉(zhuǎn)換方法,因?yàn)?S1+S2+Si一般來(lái)說(shuō)就是源語(yǔ)言的的句法結(jié)構(gòu)表示;也可以稱(chēng)為直接轉(zhuǎn)換方法,因?yàn)閷?duì)于每個(gè)源語(yǔ)言的翻譯組塊,都馬上給出一個(gè)目標(biāo)語(yǔ)言組塊與之對(duì)應(yīng)。應(yīng)該說(shuō),這種轉(zhuǎn)換方法符合人的直覺(jué)認(rèn)識(shí),也能夠?qū)崿F(xiàn)。103 . 1 . 2 基于中間語(yǔ)言的翻譯方法 基于中間語(yǔ)言的翻譯方法是對(duì)源語(yǔ)言進(jìn)行分析以后產(chǎn)生一種稱(chēng)為中間語(yǔ)言的表示形式,然后直接由這種中間語(yǔ)言的表示形式生成目標(biāo)語(yǔ)言。所謂中間語(yǔ)言就是自然語(yǔ)言的計(jì)算機(jī)表示形式的系統(tǒng)化
8、,它試圖創(chuàng)造出一種獨(dú)立于各種自然語(yǔ)言,同時(shí)又能表示各種自然語(yǔ)言的人工語(yǔ)言。11 基于中間語(yǔ)言的機(jī)器翻譯方法主要有兩個(gè)優(yōu)點(diǎn)。首先,獨(dú)立的中間表示形式為多語(yǔ)種之間的互譯的實(shí)現(xiàn)提供了一種經(jīng)濟(jì)有效的途徑。假設(shè)要對(duì)N種語(yǔ)言進(jìn)行互譯,則有N(N-1)個(gè)語(yǔ)言對(duì)。不同方向的翻譯是不同的語(yǔ)言對(duì)。此時(shí)如果采用基于轉(zhuǎn)換的方法,因?yàn)榘岩环N語(yǔ)言翻譯成另一種語(yǔ)言都需要一個(gè)不同的轉(zhuǎn)換機(jī)制(或模塊),所以N(N-1)個(gè)語(yǔ)言對(duì)共需要N(N-1)個(gè)獨(dú)立的轉(zhuǎn)換機(jī)制。而采用中間語(yǔ)言的方法,由于對(duì)每一種語(yǔ)言只需實(shí)現(xiàn)將該種語(yǔ)言翻譯成中間語(yǔ)言和把中間語(yǔ)言翻譯成該種語(yǔ)言的目標(biāo)語(yǔ)言這樣兩個(gè)模塊,所以總共只需要2N個(gè)模塊。其次,中間語(yǔ)言不僅是對(duì)
9、基于中間語(yǔ)言的機(jī)器翻譯方法這一特定目的有意義,同時(shí),作為一種通用的自然語(yǔ)言表示,也值得深入研究。12 基于中間語(yǔ)言的機(jī)器翻譯方法的優(yōu)勢(shì)是無(wú)需一種語(yǔ)言到另一種語(yǔ)言的一一轉(zhuǎn)換,對(duì)于多語(yǔ)種的翻譯系統(tǒng)可以節(jié)約大量的轉(zhuǎn)換知識(shí)的手工獲取工作量。假如有N種語(yǔ)對(duì)需要相互翻譯,只要有2N個(gè)分析和生成模塊就夠了。其中一半是源語(yǔ)言分析模塊,輸入為原文,輸出以IL表示;另一半是目標(biāo)語(yǔ)言生成模塊,輸入為IL表示,輸出為目標(biāo)語(yǔ)言譯文。13 中間語(yǔ)言通常用語(yǔ)義概念表示,這些概念符號(hào)采用英語(yǔ)單詞符號(hào)或其它自行定義的符號(hào)來(lái)表示。大規(guī)模的IL需要大量的概念表示,需要生成對(duì)應(yīng)的概念詞典。如果用語(yǔ)義概念來(lái)描寫(xiě)一個(gè)句子,則構(gòu)成復(fù)雜的語(yǔ)
10、義網(wǎng)絡(luò)。 對(duì)于多語(yǔ)種的機(jī)器翻譯來(lái)說(shuō),使用中間語(yǔ)言作為相互翻譯的中介是可取的。在理想狀態(tài)下,中間語(yǔ)言應(yīng)該沒(méi)有或極少有歧義,結(jié)構(gòu)嚴(yán)謹(jǐn),詞匯單義,便于計(jì)算機(jī)處理。有了中間語(yǔ)言,一切源語(yǔ)言分析的結(jié)果和目標(biāo)語(yǔ)言生成的開(kāi)端都由它來(lái)表示。14 中間語(yǔ)言的最大好處在于為多語(yǔ)對(duì)譯系統(tǒng)創(chuàng)造了良好的環(huán)境,使多語(yǔ)種機(jī)器翻譯的語(yǔ)言轉(zhuǎn)換關(guān)系由網(wǎng)狀關(guān)系轉(zhuǎn)化為簡(jiǎn)單的星狀關(guān)系,即由N2 個(gè)(量級(jí))翻譯對(duì)簡(jiǎn)為2N個(gè)翻譯對(duì)。這樣,大大地減少了機(jī)譯的重復(fù)度,從而極大地節(jié)約了人力物力。假設(shè)有5種語(yǔ)言之間需要相互對(duì)譯,如果不采用中間語(yǔ)言,則需要設(shè)計(jì)C252=(54/2) 2 = 20個(gè)不同的翻譯模塊(轉(zhuǎn)換模塊)。即每?jī)煞N語(yǔ)言間都要進(jìn)行雙
11、向翻譯,有一對(duì)轉(zhuǎn)換模塊。但是如果采用中間語(yǔ)言,通過(guò)它所起的中介作用,則只需設(shè)計(jì)5對(duì)(10個(gè))翻譯模塊就可以實(shí)現(xiàn)這五種語(yǔ)言之間的任意兩者之間的翻譯了。如果對(duì)譯的語(yǔ)言數(shù)進(jìn)一步增加,這個(gè)優(yōu)點(diǎn)更為突出。15 然而,中間語(yǔ)言的機(jī)器翻譯方法也常遭到懷疑。因?yàn)槭欠衲軌驑?gòu)造出表示各種不同的自然語(yǔ)言語(yǔ)法、語(yǔ)義的中間語(yǔ)言至少目前還是未知數(shù)。此外,中間語(yǔ)言能不能把各種語(yǔ)言的所有特征保留下來(lái),又能很好生成對(duì)應(yīng)的各種語(yǔ)言也是問(wèn)題。所以,構(gòu)造中間語(yǔ)言是一個(gè)巨大、復(fù)雜的工程,還包含許多理論研究,迄今為止的探索還沒(méi)有好的答案。163 . 1 . 3 基于統(tǒng)計(jì)的機(jī)器翻譯方法 基于統(tǒng)計(jì)的機(jī)器翻譯方法,一般不要任何語(yǔ)言學(xué)知識(shí),它的
12、基本原理是實(shí)現(xiàn)源語(yǔ)言詞匯到目標(biāo)語(yǔ)言詞匯的映射。其思路受到語(yǔ)音識(shí)別研究的啟發(fā),因而應(yīng)用了類(lèi)似的方法來(lái)實(shí)現(xiàn)。研究者用大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù)作為基礎(chǔ),對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言詞匯的對(duì)應(yīng)關(guān)系進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)規(guī)律輸出譯文。這種方法沒(méi)有使用語(yǔ)言知識(shí),主要特征是概率統(tǒng)計(jì)與隨機(jī)過(guò)程的方法成為了分析和生成過(guò)程的唯一方法。它的主要內(nèi)容是雙語(yǔ)句對(duì)的對(duì)齊,通過(guò)詞匯同現(xiàn)的可能性來(lái)計(jì)算一種語(yǔ)言的一個(gè)詞映射到另一種語(yǔ)言的一個(gè)詞(或兩個(gè)、零個(gè)詞)的概率。應(yīng)該說(shuō),基于統(tǒng)計(jì)的機(jī)器翻譯方法的出現(xiàn)改變了機(jī)器翻譯研究的面貌,從而開(kāi)始了機(jī)器翻譯研究的新階段。不過(guò),有些學(xué)者也對(duì)純統(tǒng)計(jì)方法提出了異議,認(rèn)為必須引入高層語(yǔ)法、語(yǔ)義模型,顯然這是正確的。
13、否則,基于統(tǒng)計(jì)的機(jī)器翻譯方法不可能產(chǎn)生高質(zhì)量。17 統(tǒng)計(jì)方法最先在語(yǔ)音識(shí)別領(lǐng)域取得了成功。由于當(dāng)前計(jì)算機(jī)在運(yùn)算速度和存儲(chǔ)容量方面都有巨大的提高,可以獲取大量的機(jī)讀語(yǔ)料庫(kù),因此在機(jī)器翻譯中應(yīng)用統(tǒng)計(jì)方法的條件已經(jīng)成熟。 機(jī)器翻譯的噪聲通道模型可以視作最早的機(jī)器翻譯思想的某中復(fù)活,其思路可以這樣理解: 假設(shè)說(shuō)話(huà)者已經(jīng)用目標(biāo)語(yǔ)想好了一句話(huà)T,但是說(shuō)出的卻是源語(yǔ)言句子S。這樣一個(gè)過(guò)程可以看成為編碼過(guò)程。而統(tǒng)計(jì)的機(jī)器翻譯就是要從S回推T,可以看成解碼過(guò)程。這樣,統(tǒng)計(jì)的機(jī)器翻譯任務(wù)分為兩個(gè)部分:一是建模,即建立翻譯的計(jì)算方法以及從雙語(yǔ)語(yǔ)料庫(kù)中估計(jì)模型的參數(shù);二是解碼,即尋求一種高效搜索算法取有關(guān)概率計(jì)算的最
14、大值。 18 在概率計(jì)算的前后,轉(zhuǎn)換是進(jìn)行有關(guān)預(yù)處理和后處理,例如句子當(dāng)中的日期、時(shí)間、數(shù)字、人名等應(yīng)該用適當(dāng)?shù)念?lèi)別標(biāo)志加以替換,以便更好地進(jìn)行計(jì)算,計(jì)算后再換回來(lái)。因?yàn)檫@類(lèi)詞不屬于一般的詞匯,單詞本身在語(yǔ)料庫(kù)中的出現(xiàn)缺乏代表性。 建模就是設(shè)計(jì)各個(gè)模型的計(jì)算公式。因?yàn)橹苯佑?jì)算某個(gè)句子出現(xiàn)的概率是比較困難的,語(yǔ)料庫(kù)不可能足夠大到包含所有句子,必須進(jìn)行合理的、適當(dāng)?shù)暮?jiǎn)化。這是統(tǒng)計(jì)方法的特點(diǎn),所得到的結(jié)果是近似值,但是因?yàn)楦怕时旧砭筒皇蔷_的,所以這些近似完全可以接受。19 總之,基于統(tǒng)計(jì)的機(jī)器翻譯方法可以簡(jiǎn)單的這樣看:將原始的某個(gè)句子按詞折開(kāi),然后全部單詞存儲(chǔ);翻譯則是取出詞,按概率統(tǒng)計(jì)的方法重組
15、句子,這樣的句子就是統(tǒng)計(jì)方法的翻譯結(jié)果。 當(dāng)然,我們還是認(rèn)為應(yīng)該加強(qiáng)統(tǒng)計(jì)方法與語(yǔ)法分析、語(yǔ)義分析相結(jié)合的研究。203 . 1 . 4 基于實(shí)例的機(jī)器翻譯方法 建立機(jī)器翻譯系統(tǒng)需要大量的知識(shí)。在基于轉(zhuǎn)換和基于中間語(yǔ)言的機(jī)器翻譯方法中,知識(shí)按一定規(guī)則譯成代碼,這既耗時(shí)花費(fèi)也大。此外,知識(shí)獲取瓶頸阻礙了機(jī)器翻譯的快速發(fā)展,這是早期機(jī)器翻譯面臨的重大難題。 為克服這一困難,除了上節(jié)介紹的統(tǒng)計(jì)方法外,日本機(jī)器翻譯專(zhuān)家Nagao在80年代提出了一種新方法,用已經(jīng)存在的翻譯實(shí)例(雙語(yǔ)文本)作為知識(shí)源,這種方法稱(chēng)為基于類(lèi)比的翻譯,后來(lái)普遍稱(chēng)為基于實(shí)例的翻譯?;趯?shí)例的思想已被廣泛的采用,既用于機(jī)器翻譯的設(shè)計(jì),
16、也用于機(jī)器翻譯不同處理階段的實(shí)現(xiàn)中。用不斷積累的已經(jīng)譯好的文本作為機(jī)器翻譯的樣本的思想,也是具有吸引力的。21 基于實(shí)例的機(jī)器翻譯方法通過(guò)結(jié)構(gòu)化的翻譯例子直接把源語(yǔ)言的短語(yǔ)和句子與目標(biāo)語(yǔ)言的短語(yǔ)和句子對(duì)應(yīng)起來(lái)。方法的不同使得處理步驟或多或少,但都必須實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換,其映射關(guān)系或者是詞到詞,或者是短語(yǔ)或句子到與之相應(yīng)的等價(jià)物,或者是一棵句法樹(shù)到另一棵句法樹(shù)。 基于實(shí)例的機(jī)器翻譯(EBMT)的實(shí)現(xiàn)過(guò)程簡(jiǎn)單概述如下:給定源語(yǔ)言輸入句子S,在雙語(yǔ)語(yǔ)料庫(kù)C中匹配查找一個(gè)最相近的句子S , 則S的譯文T就被接受為S的譯文。22 翻譯的過(guò)程一般就是查找和復(fù)現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語(yǔ)言表達(dá)
17、或相似的表達(dá)在以前是如何翻譯的,把以前的翻譯實(shí)例作為主要知識(shí)源。 基于實(shí)例的機(jī)器翻譯方法的基本思想: (1)把翻譯實(shí)例存入翻譯數(shù)據(jù)庫(kù)。例如,存入漢語(yǔ)和英語(yǔ)句子對(duì); (2)對(duì)輸入的句子,在翻譯數(shù)據(jù)庫(kù)中檢索類(lèi)似的翻譯例句; (3)調(diào)整實(shí)例后生成譯文。23 基于實(shí)例的機(jī)器翻譯方法可以按如下步驟實(shí)現(xiàn): (1)對(duì)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行句子級(jí)對(duì)齊; (2)在語(yǔ)料庫(kù)的源語(yǔ)言一邊進(jìn)行句子分塊,稱(chēng)為組塊。然后檢索輸入組塊的最佳匹配侯選,稱(chēng)為源語(yǔ)言?xún)?nèi)部匹配; (3)在源語(yǔ)言最佳匹配后選的組塊中檢索對(duì)應(yīng)目標(biāo)語(yǔ)言組塊,稱(chēng)為雙語(yǔ)匹配; (4)對(duì)組塊級(jí)檢索結(jié)果進(jìn)行組合,以獲得整個(gè)源語(yǔ)言文本的翻譯結(jié)果。 24 源語(yǔ)言的內(nèi)部匹配就是
18、在語(yǔ)料庫(kù)中查找一個(gè)與待譯句子最相似的句子。對(duì)于任意給定的一個(gè)句子,很難在語(yǔ)料庫(kù)中找到與之完全匹配的句子,所以對(duì)輸入文本在語(yǔ)料庫(kù)源語(yǔ)言一邊的匹配查找采用了松弛匹配技術(shù)。松弛匹配就是部分匹配,不同的部分匹配被賦予不同的分值,以反映輸入串和語(yǔ)料庫(kù)中某些句子串的接近程度。整個(gè)輸入組塊與語(yǔ)料庫(kù)組塊匹配的分值由一定的公式計(jì)算出來(lái)。最后,待翻譯文本中所有被匹配的每個(gè)輸入組塊都在語(yǔ)料庫(kù)中檢索出若干個(gè)最相近的組塊,組塊可以是一個(gè)句子、或者是一個(gè)從句、或者是一個(gè)短語(yǔ),按照匹配分?jǐn)?shù)從大到小排列。25 源語(yǔ)言?xún)?nèi)部匹配的輸出成為輸入,即把前面從語(yǔ)料庫(kù)中查到的組塊、所在的句子和對(duì)應(yīng)譯文等構(gòu)成當(dāng)前處理步驟的輸入。因?yàn)槊總€(gè)輸
19、入組塊可能在語(yǔ)料庫(kù)中匹配若干組塊,所以每個(gè)組塊有待進(jìn)一步處理,即在雙語(yǔ)匹配處理過(guò)程中又分為若干子過(guò)程,包括通過(guò)查詞典獲取詞組譯文;建立詞匯級(jí)雙語(yǔ)對(duì)照表;通過(guò)評(píng)分機(jī)制求出最佳翻譯句等等。 基于實(shí)例的機(jī)器翻譯方法的輸出結(jié)果帶有相應(yīng)的分?jǐn)?shù),這些分值來(lái)自不同的標(biāo)準(zhǔn),相差可能很大。因此必須采用合適的函數(shù)(方式)對(duì)所有分?jǐn)?shù)進(jìn)行統(tǒng)一(歸一化),然后這些分值才有可比性。26 基于實(shí)例的機(jī)器翻譯方法的其它優(yōu)點(diǎn): (1)可以通過(guò)索引和并行處理提高處理速度; (2)可以采用最佳匹配推理; (3)可以較好地利用翻譯專(zhuān)家的專(zhuān)業(yè)知識(shí)(通過(guò)翻譯實(shí)例); (4)一個(gè)基于實(shí)例的機(jī)器翻譯系統(tǒng)的知識(shí)可以移植、共享。27 基于實(shí)例的
20、機(jī)器翻譯方法的基本結(jié)構(gòu): 實(shí)例庫(kù) 輸入句子 檢 索 同義詞詞典 調(diào)整 檢索到的實(shí)例 輸出28 (1)翻譯實(shí)例庫(kù) 翻譯實(shí)例庫(kù)就是翻譯句子集,是系統(tǒng)的主要知識(shí)源。翻譯實(shí)例句子有多種形式,如沒(méi)有處理的雙語(yǔ)句對(duì),不同領(lǐng)域翻譯例句的組合,已經(jīng)具有分析句法樹(shù)的例句對(duì)。 (2)同義詞詞典 同義詞詞典應(yīng)該包括詞義的層次結(jié)構(gòu),以便計(jì)算句子間的相似度。 (3) 檢索 檢索模塊從實(shí)例庫(kù)中檢索與輸入句子最相似的例句。標(biāo)準(zhǔn)做法是:首先定義樣本和新句間相似度;然后計(jì)算每個(gè)相似例句的相似度;然后再選最優(yōu)者。 (4)調(diào)整 調(diào)整模塊的任務(wù)是調(diào)整輸入新句的檢索實(shí)例,產(chǎn)生翻譯結(jié)果。檢索出來(lái)的例句和新句應(yīng)十分相似,但并非完全相同。因
21、此需要一種調(diào)整它們不同之處的方法。293 . 1 . 5 機(jī)器翻譯方法的小結(jié) 在機(jī)器翻譯領(lǐng)域,機(jī)器翻譯方法可以看成是兩大類(lèi)共四種方法,兩大類(lèi)是:基于規(guī)則一類(lèi);基于語(yǔ)料庫(kù)一類(lèi)。顯而易見(jiàn),基于規(guī)則一類(lèi)包括了基于轉(zhuǎn)換的機(jī)器翻譯方法和基于中間語(yǔ)言的機(jī)器翻譯方法;基于語(yǔ)料庫(kù)一類(lèi)包括了基于統(tǒng)計(jì)的機(jī)器翻譯方法和基于實(shí)例的機(jī)器翻譯方法。30 基于規(guī)則的一類(lèi)方法的一個(gè)基本假設(shè)就是認(rèn)為翻譯過(guò)程是一個(gè)需要對(duì)源語(yǔ)言的分析和進(jìn)行源語(yǔ)言意義的表示,然后再生成等價(jià)的目標(biāo)語(yǔ)言的過(guò)程?;谝?guī)則的一類(lèi)機(jī)器翻譯方法的基本特點(diǎn)可以概括為層次性和模塊性。層次性指機(jī)器翻譯采取由詞到句的不同層次的分析過(guò)程,建立一種中間表示,然后完成由句到
22、詞的不同層次的轉(zhuǎn)換生成過(guò)程。這樣就達(dá)到了語(yǔ)言學(xué)處理過(guò)程和機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)的模塊化相輔助,源語(yǔ)言和目標(biāo)語(yǔ)言模塊的描述分開(kāi)?;谝?guī)則的一類(lèi)機(jī)器翻譯方法經(jīng)過(guò)多年的發(fā)展,有許多不同的實(shí)現(xiàn)方式,但基本思路與上述相同。 基于規(guī)則的一類(lèi)方法在機(jī)器翻譯界一直占有主導(dǎo)地位,直到今天仍然發(fā)揮著重要作用,現(xiàn)在有影響的機(jī)器翻譯系統(tǒng)也都是基于規(guī)則的。31 基于規(guī)則的一類(lèi)方法在機(jī)器翻譯的發(fā)展中確實(shí)起了非常重要的作用,但是,隨著研究的深入,研究者們發(fā)現(xiàn)人工確定的有限規(guī)則難以正確翻譯大規(guī)模的現(xiàn)實(shí)語(yǔ)句。因此,人們不斷地尋找新的方法,從而產(chǎn)生了基于語(yǔ)料庫(kù)的一類(lèi)方法。所謂語(yǔ)料庫(kù),就是把各類(lèi)在現(xiàn)實(shí)當(dāng)中使用的真實(shí)文本收集在一起,并不對(duì)
23、原來(lái)的語(yǔ)句進(jìn)行修飾潤(rùn)色,這樣構(gòu)成的集合稱(chēng)為語(yǔ)料庫(kù)。顯然,機(jī)器翻譯只有對(duì)語(yǔ)料庫(kù)中真實(shí)句子進(jìn)行翻譯研究,才有可能建立起滿(mǎn)足現(xiàn)實(shí)要求的機(jī)器翻譯系統(tǒng)。早期的語(yǔ)料庫(kù)主要是為自然語(yǔ)言研究提供眾多的實(shí)例,如用于詞頻統(tǒng)計(jì),以后逐漸發(fā)展為對(duì)其進(jìn)行大規(guī)模的語(yǔ)法信息標(biāo)注,如詞性標(biāo)注、句法符號(hào)標(biāo)注等。這樣,對(duì)語(yǔ)料庫(kù)進(jìn)行收集、整理、加工的研究誕生了一門(mén)新的語(yǔ)言學(xué)分支,就稱(chēng)為語(yǔ)料庫(kù)語(yǔ)言學(xué)。32 為機(jī)器翻譯服務(wù)的語(yǔ)料庫(kù)應(yīng)該是源語(yǔ)言和目標(biāo)語(yǔ)言雙語(yǔ)對(duì)照的雙語(yǔ)語(yǔ)料庫(kù),或者是多種自然語(yǔ)言對(duì)照的語(yǔ)料庫(kù)。在研究中,一方面可以直接使用語(yǔ)料庫(kù)進(jìn)行機(jī)器翻譯中的分析、轉(zhuǎn)換和生成,另一方面可以間接使用語(yǔ)料庫(kù),將其作為獲取翻譯知識(shí)和統(tǒng)計(jì)知識(shí)的依據(jù)
24、。 十多年來(lái),對(duì)機(jī)器翻譯的多方面研究使許多人認(rèn)為,好的機(jī)器翻譯系統(tǒng)應(yīng)采用混合方法,因?yàn)榫湍壳扒闆r看,無(wú)論采用何種方法實(shí)現(xiàn)的機(jī)器翻譯系統(tǒng),都沒(méi)有混合方法質(zhì)量好。333 . 2 基于實(shí)例的機(jī)器翻譯改進(jìn)方法 3 . 2 . 1 完全實(shí)例的翻譯完全實(shí)例的翻譯就是對(duì)待翻譯的源語(yǔ)句通過(guò)翻譯實(shí)例數(shù)據(jù)庫(kù)檢索出要翻譯的目標(biāo)語(yǔ)句,翻譯的操作就是檢索。 這種方法用已經(jīng)存在的翻譯實(shí)例(雙語(yǔ)文本)作為知識(shí)源。 工作之初,選擇了一些常用的雙語(yǔ)翻譯實(shí)例輸入,構(gòu)造成一個(gè)特別的模塊(翻譯實(shí)例數(shù)據(jù)庫(kù))。34例如:在漢譯英翻譯實(shí)例數(shù)據(jù)庫(kù)中有(1)源 語(yǔ) 句 水的熱容量比沙大 目標(biāo)語(yǔ)句 Water has a greater hea
25、t capacity than sand.(2)源 語(yǔ) 句 太陽(yáng)離我們比其它任何恒星都更近一些 目標(biāo)語(yǔ)句 The sun is closer to us than any of the other stars.(3)源 語(yǔ) 句 對(duì)于生物來(lái)說(shuō),沒(méi)有什么東西比太陽(yáng)更重要了。 目標(biāo)語(yǔ)句 There is nothing more important to life than the sun. 35 之后,不斷積累已經(jīng)譯好的文本作為機(jī)器翻譯的樣本。當(dāng)然,如果所要翻譯的語(yǔ)言是由有限個(gè)常用句子構(gòu)成,這種處理方法的實(shí)用性會(huì)大一些;但是,每一種自然語(yǔ)言都是由無(wú)限多個(gè)句子構(gòu)成,計(jì)算機(jī)永遠(yuǎn)不可能完全存儲(chǔ),因此這種
26、處理方法的實(shí)用性很小。 雖然我們對(duì)完全實(shí)例的翻譯并不寄于厚望,但我們的翻譯系統(tǒng)仍然建立了這一模塊,收集的是一些成熟的、常用的雙語(yǔ)翻譯實(shí)例。 這樣做的理由是, 完全實(shí)例的翻譯處理方法省略了自動(dòng)分詞、詞義消歧、句法分析、語(yǔ)義分析、譯文轉(zhuǎn)換等許多步驟。對(duì)具體待翻譯的多個(gè)源語(yǔ)句來(lái)說(shuō),這種翻譯(檢索)即使部分成功,目的也達(dá)到了,因?yàn)樗淖g文是高質(zhì)量的,與人工翻譯一致;不成功,再采取二、三種處理方法。 當(dāng)然,要這樣做,還應(yīng)該采用高效的映射式檢索算法,才能保證機(jī)譯速度. 363 . 2 . 2 實(shí)例句型轉(zhuǎn)換的翻譯 完全實(shí)例的翻譯譯文是高質(zhì)量的,與人工翻譯一致,但它的成功率很低,而且并不與翻譯實(shí)例數(shù)據(jù)庫(kù)的雙語(yǔ)
27、實(shí)例句數(shù)量成正比。 如果把完全實(shí)例擴(kuò)充為句型間的轉(zhuǎn)換翻譯,將提高翻譯的成功率。 句型轉(zhuǎn)換的翻譯是把源語(yǔ)句的單詞和句型結(jié)構(gòu)映射到譯文相對(duì)應(yīng)的單詞和句型結(jié)構(gòu)。 雙語(yǔ)對(duì)譯的核心是句型結(jié)構(gòu)的表達(dá)式相同,所以我們建立了雙語(yǔ)句型結(jié)構(gòu)表達(dá)式集合模塊。 實(shí)例句型轉(zhuǎn)換的翻譯主要有兩種:37 第一種 句型轉(zhuǎn)換順序相同的翻譯 例 如漢譯英中, (1)“他們學(xué)習(xí)英語(yǔ)”和“我們研究漢語(yǔ)”句型完全相同,句型表達(dá)式只需建立一個(gè):rvn;對(duì)應(yīng)英文的語(yǔ)序也完全系相同:rvn;譯文是:They study English. We research Chinese. (2)“他是一個(gè)學(xué)生”和“我是一個(gè)教師”句型完全相同,句型表達(dá)式
28、只需建立一個(gè):rvmqn;對(duì)應(yīng)英文的語(yǔ)序也完全系相同:rvmqn;譯文是:He is a student. I am a teacher. (3)“他有許多英語(yǔ)書(shū)”和“我有許多科技書(shū)”句型完全相同,句型表達(dá)式只需建立一個(gè):rvdn(1)n(2);對(duì)應(yīng)英文的語(yǔ)序也完全系相同:rvdn(1)n(2);譯文是:He had many English books. I had many science books. 這樣的句型翻譯,只要自動(dòng)分詞正確,無(wú)語(yǔ)義問(wèn)題,譯文的質(zhì)量就可以保證. 并且,再多的相同句型也只需一個(gè)句型表達(dá)式,這無(wú)疑在完全實(shí)例的翻譯的基礎(chǔ)上大大進(jìn)了一步.38 第二種 句型轉(zhuǎn)換順序不相同
29、的翻譯 例 如漢譯英中, (1)“我們是新中國(guó)的學(xué)生”,句型表達(dá)式為:rvan(1)pn(2);其譯文是“We are studends of New China”,調(diào)序生成譯文表達(dá)式是:rvn(2)pan(1). (2)“我們?cè)诖髮W(xué)學(xué)過(guò)英語(yǔ)”,句型表達(dá)式為:rpn(1)vn(2);其譯文是“We studied English in university”,調(diào)序生成譯文表達(dá)式是:rvn(2)pn(1). (3)“去年他們?cè)O(shè)計(jì)過(guò)一臺(tái)新機(jī)器”,句型表達(dá)式為:a(1)n(1)rvmqa(2)n(2);其譯文是“They designed a new machine last year”,調(diào)序生成譯
30、文表達(dá)式是:rvmqa(2)n(2)a(1)n(1).39 實(shí)例句型轉(zhuǎn)換的翻譯雖然在完全實(shí)例的翻譯的基礎(chǔ)上大大進(jìn)了一步,但是自動(dòng)分詞、詞義消歧、語(yǔ)義分析、譯文轉(zhuǎn)換等步驟不能省略。 例如,“The fish was bought by the cook”和“The fish was bought by the river”這兩句的譯文是“魚(yú)是廚師買(mǎi)的”和“魚(yú)是從河邊買(mǎi)的”,這種語(yǔ)義的不同只可能靠語(yǔ)義分析予以解決。403. 2 . 3 實(shí)例近似翻譯 在 完全實(shí)例的翻譯模塊和實(shí)例句型轉(zhuǎn)換的翻譯模塊不能完成翻譯的情況下,系統(tǒng)將啟動(dòng)近似翻譯模塊。 實(shí)例近似翻譯的實(shí)質(zhì)是句型表達(dá)式的近似檢索(匹配),即檢索
31、與輸入句子最相似的例句,定義樣本和新句間相似度;然后計(jì)算每個(gè)相似例句的相似度,再選最優(yōu)者。 相似度的計(jì)算有許多計(jì)算方法,基本上可分為相似程度計(jì)算和距離程度計(jì)算兩類(lèi)。計(jì)算的依據(jù)則各不相同,可以按照單詞本身是否相同來(lái)計(jì)算,可以按照單詞所具有的詞類(lèi)、語(yǔ)義類(lèi)是否相同來(lái)計(jì)算,還可以按照形態(tài)變化、語(yǔ)義上下位關(guān)系等來(lái)計(jì)算。41 (1)按照相似程度計(jì)算,則分值越大越好(一般在01之間); (2)按照距離程度計(jì)算,則分值越小越好,此時(shí)的分值是罰分。 相似度的計(jì)算按照距離程度計(jì)算,分值越小越好,此時(shí)的分值是罰分。系統(tǒng)選擇分值最小的句型表達(dá)式做句型轉(zhuǎn)換的翻譯。.423 . 3 基于實(shí)例的機(jī)器翻譯方法實(shí)踐3. 3 .
32、 1 完全實(shí)例的機(jī)器翻譯實(shí)踐 在3 . 2 . 1中已經(jīng)論述過(guò), 完全實(shí)例的翻譯就是對(duì)待翻譯的源語(yǔ)句通過(guò)翻譯實(shí)例數(shù)據(jù)庫(kù)檢索出要翻譯的目標(biāo)語(yǔ)句,實(shí)踐的主要工作就是建立翻譯實(shí)例數(shù)據(jù)庫(kù),另一項(xiàng)工作就是翻譯的操作檢索算法。433. 3 . 2 實(shí)例句型轉(zhuǎn)換的翻譯實(shí)踐 完全實(shí)例的翻譯譯文是高質(zhì)量的,但在浩瀚語(yǔ)海語(yǔ)句中,我們能收集在翻譯實(shí)例數(shù)據(jù)庫(kù)的雙語(yǔ)實(shí)例句數(shù)量是有限的,甚至可以說(shuō)是非常少的。 如果把完全實(shí)例擴(kuò)充為句型間的轉(zhuǎn)換翻譯,那么能翻譯的句子就要多得多。 句型轉(zhuǎn)換的翻譯是把源語(yǔ)句的單詞和句型結(jié)構(gòu)映射到譯文相對(duì)應(yīng)的單詞和句型結(jié)構(gòu),對(duì)譯的核心是句型結(jié)構(gòu)的表達(dá)式相同。44 下面我們介紹的是最初用于學(xué)生實(shí)驗(yàn)
33、的句型轉(zhuǎn)換的翻譯的一部分:3. 3 . 2 . 1 算法與程序設(shè)計(jì) 設(shè)計(jì)的核心部分如下: (1) 詞典:用一維數(shù)組存儲(chǔ),kz數(shù)組存儲(chǔ)漢語(yǔ)詞組; yy數(shù)組存儲(chǔ)英語(yǔ)單詞; dz數(shù)組存儲(chǔ)詞性標(biāo)注, 例如, 動(dòng)詞為v, 代詞為r, 名詞為n, 形容詞為a, 介詞為p, 數(shù)詞為m, 量詞q,時(shí)間詞t,方位詞f,副詞d,連詞c,語(yǔ)氣詞y,嘆詞e等等。 下面是一些標(biāo)注例子: 計(jì)算機(jī)/ n ,左/ f ,學(xué)習(xí)/v ,得/u ,三/m ,支/q ,教師/n ,中國(guó)/n ,她們/ r ,建立/v ,著/ u ,是/v ,二/m , 千/ m , 公斤/q , 嗎/y ,指出/v ,繼承/v ,描述/v ,對(duì)/p
34、,規(guī)則/n ,有/ v ,好處/n , 從/p , 人工智能/ n , 揭示/v ,創(chuàng)立/v ,我們/r , 急/a ,急忙/d ,忙/a , 觀察/v ,海量/n 。 45 (2)漢語(yǔ)句子鍵盤(pán)輸入接收(text1.text) (3)漢語(yǔ)句子自動(dòng)分詞算法與暫不能翻譯處理: 1: 求輸入的漢語(yǔ)句子字符長(zhǎng)度, x=len(text1.text) 2: 確定漢語(yǔ)句子詞組最長(zhǎng)字符數(shù)和最短字符數(shù)(例如最長(zhǎng)3, 最短1, 這有可能是巳知的, 不用程序確定) 3: 自動(dòng)分詞, mid(text1.text, b, t), 先按最長(zhǎng)詞切分, t=3。( 初值i=1, b=1) 4: 檢索漢語(yǔ)詞組kz詞典, 找
35、到了轉(zhuǎn)6, 未找到轉(zhuǎn)5 5: t=t-1, t不等于0轉(zhuǎn)3, t=0轉(zhuǎn)7 6: 如果成功完成全句分詞, 轉(zhuǎn)(4)進(jìn)行句法分析; 否則i=i+1, t1=i(記錄一句分了幾個(gè)詞), b=b+t(另置分詞起點(diǎn)), 重新繼續(xù)分詞轉(zhuǎn)3 7: 顯示此句暫時(shí)不能翻譯, 退出 46 (4) 句法分析: 1: 求出詞性標(biāo)注組合, i=1 to t1 zs=zs+dz(i) next i; 例如, 漢語(yǔ)句子-我們是新中國(guó)的學(xué)生, 分出的單詞及對(duì)應(yīng)的詞性標(biāo)注為: kz(1)=我們, dz(1)=r; kz(2)=是, dz(2)=v; kz(3)=新, dz(3)=a; kz(4)=中國(guó), dz(4)=n; kz
36、(5)=的, dz(5)=u; kz(6)=學(xué)生, dz(6)=n。此例求出的zs=rvanun 2: 據(jù)zs分析此句是否是已定義的句型(正確的句型), 是轉(zhuǎn)3, 不是轉(zhuǎn) 顯示此句暫時(shí)不能翻譯處 47 (5) 譯文語(yǔ) 序調(diào)整: 仍以“我們是新中國(guó)的學(xué)生”為例, 原來(lái)譯文的順序是yy(1)=We , yy(2)=are, yy(3)=New, yy(4)=Chinal, yy(5)=of , yy(6)=students。調(diào)整后的順序是: yy(1)yy(2)yy(6)yy(5)yy(3)yy(4) (6) 譯文輸出: 上例中即輸出 yy(1)yy(2)yy(6)yy(5)yy(3)yy(4)
37、48 3 . 3 . 2 . 2 進(jìn)一步討論 實(shí)例句型轉(zhuǎn)換的翻譯的難點(diǎn)集中在單詞處理方面和語(yǔ)法、語(yǔ)義方面, 主要有: 單詞處理方面 (1) 英文單詞復(fù)數(shù)、大小寫(xiě)、是動(dòng)詞人稱(chēng)變化,過(guò)去式、過(guò)去分詞,現(xiàn)在進(jìn)行時(shí),冠詞the在沒(méi)有實(shí)際詞義時(shí)的加入等。 (2) 詞典除了主詞典外, 還應(yīng)有下列輔助詞典: 1 縮略詞詞典 如英文的底am; 當(dāng)自動(dòng)切分句子遇到帶的詞時(shí), 通過(guò)檢索縮略詞詞典, 找出對(duì)應(yīng)詞組。49 2 省略詞詞典 如英文的its; theyve等。當(dāng)自動(dòng)切分句子遇到帶的詞時(shí), 通過(guò)檢索省略詞詞典時(shí), 找出相對(duì)應(yīng)詞組。 3 特殊詞典 如英語(yǔ)的介詞、副詞、連詞等, 用法非常靈活, 在不同語(yǔ)言條件下
38、, 由于其前后搭配成 份不同, 其藏漢譯文和藏漢生成的詞序都很不一樣, 極易產(chǎn)生歧義, 而且這類(lèi)詞出現(xiàn)的頻率極高。對(duì)這些結(jié)構(gòu)詞進(jìn)行特殊處理, 對(duì)提高譯文的處理質(zhì)量是十分重要的。 4 專(zhuān)業(yè)詞典 為使翻譯能根據(jù)不同專(zhuān)業(yè)有更準(zhǔn)確的譯文, 還應(yīng)建立專(zhuān)業(yè)詞典。 (3) 分詞的歧義 難點(diǎn)是歧義切分, 主要解決兩類(lèi)。一類(lèi)是交集型歧義切分字段,一類(lèi)是多義組合型歧義切分字段。 50 語(yǔ)法、語(yǔ)義方面 (1) 語(yǔ)法分析 將要解決的難題很多。諸如“小孩玩游戲”是對(duì)的,但“游戲玩小孩”顯然錯(cuò)誤,而程序句法分析則是對(duì)的。這只有靠語(yǔ)法分析的主賓關(guān)系予以解決。 (8) 語(yǔ)義分折這一研究正在努力,涉及的方面佷多。諸如“白天鵝游過(guò)來(lái)了”;“在日本保留和尚使用的古典樂(lè)器很多”這樣的語(yǔ)句只能靠語(yǔ)義分析解決。此外,單詞一對(duì)多也有待語(yǔ)義分析選擇。 此外, 為了加快處理速度,可將原文中一些無(wú)需翻譯的圖表、公式、 符號(hào)標(biāo)記出來(lái)。為了降低翻譯的難度, 可以在原文的句子中加進(jìn)一些符號(hào)以排除歧義或者補(bǔ)上一些省略了的成分, 這項(xiàng)工作通常由只懂原文的人根據(jù)系統(tǒng)的要求去做。 總之,隨著研究的深入,需要解決的難點(diǎn)很多;而語(yǔ)法、語(yǔ)義方面的 深入研究,還有待進(jìn)一步的工作,這也是機(jī)器翻譯一個(gè)最難點(diǎn)。 513 . 3 . 3 實(shí)例近似翻譯實(shí)踐 在 完全實(shí)例的翻譯模塊和實(shí)例句型轉(zhuǎn)換的翻譯模塊不能完成
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 11 白樺 說(shuō)課稿-2023-2024學(xué)年語(yǔ)文四年級(jí)下冊(cè)統(tǒng)編版
- 二零二五年度特色教育項(xiàng)目副校長(zhǎng)長(zhǎng)期工作合同4篇
- 6 圖形與幾何(說(shuō)課稿)-2024-2025學(xué)年一年級(jí)上冊(cè)數(shù)學(xué)北師大版2024
- 2025至2030年中國(guó)肝之寶數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)熊果甙數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年手挽鐵夾鏡項(xiàng)目投資價(jià)值分析報(bào)告
- 2024春九年級(jí)語(yǔ)文下冊(cè) 第1單元 3短詩(shī)五首 斷章說(shuō)課稿 新人教版
- 2025至2030年三輪手推式帶桶噴霧機(jī)項(xiàng)目投資價(jià)值分析報(bào)告
- 6《將相和》(說(shuō)課稿)-2024-2025學(xué)年統(tǒng)編版語(yǔ)文五年級(jí)上冊(cè)
- 2025年跆拳道計(jì)時(shí)記分牌項(xiàng)目可行性研究報(bào)告
- 音樂(lè)教學(xué)集訓(xùn)課程設(shè)計(jì)
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期期末 地理試題(含答案)
- 肺切除手術(shù)的術(shù)前評(píng)估課件
- 2022-2023學(xué)年廣東省佛山市順德區(qū)高三(下)模擬英語(yǔ)試卷
- 節(jié)后復(fù)工培訓(xùn)內(nèi)容五篇
- GB/T 33322-2016橡膠增塑劑芳香基礦物油
- GA 1051-2013槍支彈藥專(zhuān)用保險(xiǎn)柜
- 某水毀公路維修工程施工方案
- 建設(shè)工程監(jiān)理合同示范文本GF-2018-0202
- 2022質(zhì)檢年終工作總結(jié)5篇
- 江蘇省中等職業(yè)學(xué)校學(xué)業(yè)水平考試商務(wù)營(yíng)銷(xiāo)類(lèi)(營(yíng)銷(xiāo)方向)技能考試測(cè)試題
評(píng)論
0/150
提交評(píng)論