




已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1,融入句型信息的漢英雙向調(diào)序模型,張家俊、宗成慶 中科院自動化所 2008.11.28,2,背景,自從IBM翻譯模型的提取,特別是基于短語的翻譯模型提出后,調(diào)序模型始終是統(tǒng)計機(jī)器翻譯的關(guān)鍵問題,是研究的熱點(diǎn) 從基于距離的扭曲模型、詞匯化的調(diào)序模型到層次化的短語翻譯模型、最大熵調(diào)序模型,都非常有效地提高了翻譯質(zhì)量,3,想法,這些模型沒有充分利用語言所固有的語法信息,在不需要調(diào)序的地方浪費(fèi)了大量的計算時間 這些模型沒有充分利用句子的先驗(yàn)知識,譬如句型,因?yàn)椴煌木湫途哂胁煌恼{(diào)序策略,4,句型在調(diào)序中的作用,幾個例子:,5,句型調(diào)序分析,特殊疑問句中至少有一固定的短語(我們稱為特殊疑問短語)在翻譯成英語時通常出現(xiàn)在句首; 一般疑問句在翻譯時有特定的例如can, do, is等引導(dǎo)詞; 在非疑問句中,有很大比例的句子中出現(xiàn)介詞短語、時間地點(diǎn)短語,這些短語在漢語中出現(xiàn)在動詞前,而在翻譯時一般出現(xiàn)在動詞的后面,6,口語語料分析,我們分析277k 中英對齊句對發(fā)現(xiàn),大約 17.2% 是特殊疑問句, 約 25.5% 為一般疑問句,其余為非疑問句。 可見在口語翻譯中,基于句型的調(diào)序是非常有意義且具有研究價值的,7,基于句型調(diào)序的翻譯框架(漢英),C1:特殊疑問句,C2:一般疑問句,C3:非疑問句,8,基于句型調(diào)序的翻譯框架(英漢),C1、C2和C3的意義同上圖,“逆”表示與上圖的算法相似但調(diào)序方向相反,9,模型與算法,句型的分類算法:SVM-based 前向調(diào)序模型、逆前向調(diào)序模型 后向調(diào)序算法、逆后向調(diào)序模型,10,句型分類算法,SVM的優(yōu)勢,分類準(zhǔn)確,幾乎不受標(biāo)點(diǎn)的影響 (我們知道標(biāo)點(diǎn)是句型關(guān)鍵性的特征) 實(shí)驗(yàn): 語料:三類句型分別問1000句,80%作為訓(xùn)練,20%作為測試 實(shí)驗(yàn)結(jié)果:,11,前向調(diào)序模型,適用句型:特殊疑問句 調(diào)序?qū)ο螅禾厥庖蓡柖陶Z 調(diào)序的兩個關(guān)鍵問題: 特殊疑問短語的識別 正確的調(diào)序位置,12,調(diào)序的兩個關(guān)鍵問題,特殊疑問短語的識別 我們在語法上給特殊疑問短語一個定義:包含特殊疑問詞的完整的語法成分。 特殊疑問詞是利用互信息得到的一個閉集:什么、哪、多(多長、多久)、怎、誰、幾、為什么、何 在漢語中,從語法層面看來,特殊疑問短語可能會是任何一類語法成分,從語法層無法識別 我們采用chunking的淺層句法分析來識別特殊疑問短語,13,調(diào)序的兩個關(guān)鍵問題,正確的調(diào)序位置 分析翻譯實(shí)例我們發(fā)現(xiàn),調(diào)序的位置分為3類:句首、子句首、特定模板短語(從對齊語料習(xí)得)后 分別舉例: 這個 味道 怎么樣 ?=怎么樣 這個 味道 ? 請問 , 去 海灘 怎么 走 ? =請問 , 怎么 走 去 海灘 ? 你 認(rèn)為 到 那 要 多長 時間 ?=你 認(rèn)為 要 多 長 時間 到 那 ?,14,逆前向調(diào)序模型,適用句型和處理對象與前向模型一樣 面向英漢翻譯任務(wù) 對翻譯結(jié)果的修正 同樣面臨調(diào)序的兩個關(guān)鍵問題: 特殊疑問短語的識別 正確的調(diào)序位置,15,調(diào)序的兩個關(guān)鍵問題,特殊疑問短語的識別同前向模型 調(diào)序的目標(biāo)位置: 特殊疑問句的結(jié)構(gòu) 調(diào)序規(guī)則,16,調(diào)序的兩個關(guān)鍵問題,特殊疑問句的兩種結(jié)構(gòu) 作為強(qiáng)調(diào)部分出現(xiàn)在句末 作為動詞短語的修飾成分出現(xiàn)在動詞短語的前面 調(diào)序規(guī)則 若SQP為動詞短語,則將其調(diào)至包含該SQP的子句末尾 若SQP不是動詞短語,而且中有動詞短語,則保持其位置不變;否則將其調(diào)至包含該SQP的子句末尾,17,后向調(diào)序模型,針對句型:所有句型 調(diào)序?qū)ο螅涸诜g中最有可能調(diào)序的短語=介詞短語、時間地點(diǎn)短語 調(diào)序的兩個關(guān)鍵問題 介詞短語、時間地點(diǎn)短語與動詞短語的識別 調(diào)序策略,18,調(diào)序的兩個關(guān)鍵問題,介詞短語、時間地點(diǎn)短語與動詞短語的識別 采用chunking淺層句法分析 虛擬動詞短語(VVP)的定義:由于識別錯誤等原因,有時在介詞短語、時間地點(diǎn)短語后沒有識別出動詞短語。為加強(qiáng)該模型的適應(yīng)性,我們定義自此介詞或時間地點(diǎn)短語后到子句的結(jié)束為偽動詞短語,并賦予其動詞短語的功能。 例:請 在 這里 簽名 。“簽名”被識別為NP,在我們的模型中,它就是VVP,19,調(diào)序的兩個關(guān)鍵問題,調(diào)序策略:利用最大熵模型決定識別出的介詞或時間地點(diǎn)短語是否需調(diào)序到緊跟著它們的動詞短語后。 調(diào)序規(guī)則:,20,逆后向調(diào)序模型,面向英漢翻譯任務(wù) 介詞短語、時間地點(diǎn)短語等的識別方法同后向模型 調(diào)序方向相反,21,逆后向調(diào)序模型,調(diào)序規(guī)則,22,實(shí)驗(yàn)設(shè)計與結(jié)果,baseline: 利用我們實(shí)驗(yàn)室實(shí)現(xiàn)的基于短語的統(tǒng)計機(jī)器翻譯系統(tǒng) 利用單調(diào)的解碼策略,23,實(shí)驗(yàn)設(shè)計與結(jié)果,語料說明: 表1:漢英翻譯相關(guān)語料 表2:英漢翻譯相關(guān)語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)年第一學(xué)期幼兒教學(xué)工作總結(jié)模版
- 創(chuàng)先爭優(yōu)個人學(xué)習(xí)心得體會模版
- 新生兒單純皰疹病毒感染的臨床護(hù)理
- 社保委托代表協(xié)議
- 重力教學(xué)設(shè)計
- 上學(xué)期八年級語文教學(xué)工作總結(jié)模版
- 某精密模具有限公司品質(zhì)管理系統(tǒng)
- 貓咪輸液護(hù)理常規(guī)
- 部編本大小多少教學(xué)設(shè)計
- 7S管理培訓(xùn)體系精要
- 2022北京東城六年級畢業(yè)考英語試題含答案
- 部編版三年級語文下冊口語交際:勸告 課件
- 《藥物分析與檢驗(yàn)技術(shù)》課件-異煙肼中游離肼的檢查方法
- 手術(shù)室的健康教育
- 海水的淡化技術(shù)及應(yīng)用
- 食堂餐飲服務(wù)方案
- 中職學(xué)校設(shè)計說明
- 醫(yī)保政策下物價培訓(xùn)課件
- 加油站安全風(fēng)險分級管控和隱患排查治理雙重預(yù)防機(jī)制運(yùn)行手冊
- 攻博計劃書模版
- 2024年《大學(xué)語文》期末考試復(fù)習(xí)題庫(含答案)
評論
0/150
提交評論