語塊理論視角下英漢商務(wù)信訪平行語料庫的構(gòu)建_第1頁
語塊理論視角下英漢商務(wù)信訪平行語料庫的構(gòu)建_第2頁
語塊理論視角下英漢商務(wù)信訪平行語料庫的構(gòu)建_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語塊理論視角下英漢商務(wù)信訪平行語料庫的構(gòu)建

由于國內(nèi)外的大多數(shù)商業(yè)交流都是以電子郵件的形式進(jìn)行的,因此商業(yè)電子郵件的翻譯已成為一種越來越普遍的翻譯形式。面對海量的商務(wù)信函文件,依靠傳統(tǒng)的人工翻譯已不能滿足時代需要。機(jī)器翻譯作為突破語言障礙的重要技術(shù)手段,對加速和擴(kuò)展世界范圍內(nèi)的信息傳播具有深遠(yuǎn)意義,在經(jīng)濟(jì)發(fā)展和社會生活中日趨重要,成為當(dāng)前研究的熱點(diǎn)之一。1平行語料庫的構(gòu)建商務(wù)信函是一種比較正式的公務(wù)文書,其一般目的是建立和保持良好的商務(wù)關(guān)系、獲得或發(fā)布商務(wù)信息、達(dá)成合作和交易等。(張新紅,李明,2003)我們構(gòu)建的商務(wù)信函平行語料庫的語料收集范圍為商務(wù)業(yè)務(wù)信函,分為建立業(yè)務(wù)關(guān)系函、產(chǎn)品推銷函、資信查詢函、詢盤函、發(fā)盤還盤函、訂購函、裝運(yùn)通知函、支付結(jié)算函、索賠函、保險(xiǎn)函等,這些信函涉及商務(wù)活動的全過程。在語料庫語言學(xué)理論的指導(dǎo)下,我們通過初步建立一個100萬詞次的英漢雙語商務(wù)信函平行語料庫(包括兩個子庫:英漢商務(wù)信函平行語料庫,漢英商務(wù)信函平行語料庫)。該庫為動態(tài)的、開放的,可以自動獲取服務(wù)于機(jī)器翻譯的知識資源。2語塊的提取法語塊提取是近年來語料庫語言學(xué)和機(jī)器翻譯研究領(lǐng)域的重點(diǎn)課題。濮建忠教授(2003)把語塊(chunks)定義為:“語塊(詞塊)是以詞形或詞為基本單位,由連續(xù)或非連續(xù)的兩個或多個詞形或詞組合而成的,允許抽象度高于詞的單位出現(xiàn)的,有一定使用頻率、結(jié)構(gòu)相對完整、能表達(dá)一定意義的,有心理現(xiàn)實(shí)性的語言形式,以整體形式儲存在大腦中,并可作為預(yù)制組塊供人們提取使用的多詞單位。”商務(wù)信函中的語言大多是具有一定的言語程式或行話,如:Enclosedpleasefind…(隨函附寄……,請查收),cashondelivery(貨到付款),等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構(gòu)成。確定一個多詞單位是否為語塊,可以從語塊的三個重要特征加以界定和區(qū)分,即語塊共現(xiàn)的頻率性、語塊儲存和提取的整體性、語塊可記憶的韻律性。我們在語塊理論的指導(dǎo)下,從結(jié)構(gòu)和功能上明確英漢商務(wù)信函中的語塊特征,從而確定提取的具體對象。商務(wù)信函語塊可分為4種情況:(1)多詞詞匯,如:buycheapandselldear,firmoffer,等。(2)習(xí)慣搭配,如:…foryourreference,anoffersubjectto…,等。(3)慣用表達(dá)式,如:Asrequested,…,Enclosedpleasefind…,等。(4)句型框架,如:Welookforwardtohearingfromyou…,等。為了進(jìn)行商務(wù)信函平行語料庫中的語塊提取,我們提出了一套特有的提取方法——商務(wù)信函語塊提取法(如圖1所示)。商務(wù)信函平行語料庫中的語塊提取是基于實(shí)例的商務(wù)信函機(jī)器翻譯的重要方法,為進(jìn)一步對大規(guī)模各種專業(yè)的雙語語料利用計(jì)算機(jī)自動提取語塊提出思路和設(shè)想。3結(jié)構(gòu)的不含區(qū)域分布的對比,引起語義不知所云。產(chǎn)生一個重要的單在商務(wù)信函機(jī)器翻譯研究的探索實(shí)踐中,我們逐漸認(rèn)識到,單純使用一種方法難以處理自然語言中各種復(fù)雜現(xiàn)象。所以,我們提出了在統(tǒng)計(jì)機(jī)器翻譯基礎(chǔ)上引入特定語法結(jié)構(gòu)的一種方法——并列結(jié)構(gòu)的英漢翻譯轉(zhuǎn)換方法?;谏虅?wù)信函平行語料庫,通過句法分析研究并列結(jié)構(gòu)的形式化構(gòu)成,連接詞(若含)的前后管轄范圍,內(nèi)部嵌套情況以及并列結(jié)構(gòu)前后臨界搭配的情況,并制定可行句法轉(zhuǎn)換規(guī)則。并列結(jié)構(gòu)是最普遍的一種復(fù)雜結(jié)構(gòu),它推動了句子復(fù)雜化和簡單化的雙向活動,但目前的算法對并列結(jié)構(gòu)的處理錯誤比較嚴(yán)重。英語有許多復(fù)雜的句子,它們往往有許多嵌套或者不嵌套的并列結(jié)構(gòu),翻譯系統(tǒng)如果將并列的轄域和層次關(guān)系以及前后界限分析錯誤,就會嚴(yán)重影響翻譯的結(jié)果。例如,帶有連接詞“and”的并列結(jié)構(gòu)通,過Google翻譯系統(tǒng)的測試,得到如下譯文:譯文:大家都明白,中國拖鞋在您的市場很受歡迎的高品質(zhì)及他們的產(chǎn)品和服務(wù)競爭力的價格。分析:該譯句第一個and的后半部分轄域判斷過長,造成錯誤??梢钥闯鼋y(tǒng)計(jì)機(jī)器翻譯對并列結(jié)構(gòu)等復(fù)雜結(jié)構(gòu)的處理并不理想。即便是在局部翻譯處理正確的情況下,結(jié)構(gòu)翻譯錯誤往往會造成整體譯文不知所云。我們的研究方法:(1)參照北大雙語語料庫加工標(biāo)注規(guī)范,利用雙語對齊軟件以及人工校正達(dá)到商務(wù)信函平行語料庫的句子級對齊。(2)通過基于統(tǒng)計(jì)學(xué)手段尋找測試語料中的并列結(jié)構(gòu),確定相當(dāng)數(shù)目的測試集,并按照當(dāng)代語言學(xué)理論以及形式化理論對其分類。(3)將各類測試集送入Google統(tǒng)計(jì)翻譯系統(tǒng)進(jìn)行翻譯,得出譯文,分析錯誤原因,進(jìn)行錯誤歸類。(4)將各類測試集送入基于統(tǒng)計(jì)的句法分析系統(tǒng),分析結(jié)果,制定規(guī)則。經(jīng)過StandardParser(經(jīng)典統(tǒng)計(jì)句法分析器)的分析,例句的分析結(jié)果如下:通過基于統(tǒng)計(jì)的句法分析器進(jìn)行分析,例句中的并列結(jié)構(gòu)分析完全正確。4構(gòu)建商務(wù)信訪平行語料庫綜上所述,平行語料庫在商務(wù)信函機(jī)器翻譯中的應(yīng)用研究具有多方面的意義。(1)它是國家科技支撐子課題—HNC機(jī)器翻譯引擎轉(zhuǎn)換處理研究的組成部分,為研制HNC經(jīng)貿(mào)機(jī)器翻譯系統(tǒng)創(chuàng)造必需的條件。(2)它構(gòu)建的商務(wù)信函平行語料庫為英漢雙語商務(wù)信函學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到輔助作用。(3)它構(gòu)建的商務(wù)信函平行語料庫中的語塊提取方法,為進(jìn)一步對大規(guī)模各種專業(yè)的雙語語料利用計(jì)算機(jī)自動提取語塊提出思路和設(shè)想。(4)語塊提取與并列結(jié)構(gòu)處理為英漢統(tǒng)計(jì)機(jī)器翻譯和機(jī)器輔助翻譯的譯準(zhǔn)率提高起到重要作用。原文:Weallunderstandtha

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論