版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、數(shù)字時代情報學開展展望筆談-跨語言檢索技術(shù):策略與方法隨著經(jīng)濟全球化、網(wǎng)絡化的開展,跨語言檢索簡稱LIR已成為全球知識存取和共享的一個關(guān)鍵因素。國外情報學領域已將LIR視為研究熱點之一,近年來舉行了很多有關(guān)該主題的專題會議。TRE文本檢索會議1997年起也將其納入評價工程中。國內(nèi)的研究相對較少,且主要集中在漢語外語主要是英語機器翻譯系統(tǒng)的研究開發(fā)方面。一、跨語言檢索的涵義和作用LIR是這樣一類技術(shù),它允許用戶以他們熟悉的語言構(gòu)造檢索提問式,然后使用該提問式檢索以系統(tǒng)支持的任一種語言寫成的文獻。它可用于回溯檢索、定題效勞系統(tǒng)以及自適應過濾系統(tǒng)中。跨語言檢索對于可以閱讀多種語言的用戶,特別是不能有
2、效地用非母語表達其信息需求的用戶,具有非常重要的價值。對于只能閱讀一種語言的用戶,LIR系統(tǒng)也可能很有用。有的LIR系統(tǒng)可以對檢索出的文獻進展翻譯。雖然系統(tǒng)顯示給用戶的結(jié)果可能只是一種粗略的翻譯,但也足以向用戶提供文章的要點以及幫助用戶作出相關(guān)性判斷。此外,即使LIR系統(tǒng)不對文獻進展翻譯,用戶也可能通過使用該系統(tǒng)找到假設干篇參考文獻中包含了以該用戶的母語寫成的文章的論文,這無疑會為該用戶提供很有價值的線索??傊钪匾氖荓IR系統(tǒng)可以檢索出多種語言的相關(guān)文獻資源,以及可以指導用戶作出搜集與否的判斷。但是,基于受控詞表的LIR系統(tǒng)存在以下缺陷:(1)必須使用受控詞標引文獻,通常由人工完成,本錢
3、很高,從而限制了系統(tǒng)的規(guī)模;(2)受控詞表更新速度較慢,往往不能及時反映新出現(xiàn)的主題和術(shù)語;(3)非專家用戶往往不熟悉多語種敘詞表的用法此缺陷局部是由早期的用戶界面友好性差造成的。解決的方法之一是將敘詞表導航功能嵌入檢索引擎中,IT的Rihardarus對這種方法進展了研究。這些問題鼓勵著有關(guān)研究人員研究開發(fā)其它的LIR方法。二、現(xiàn)代LIR系統(tǒng)模型和匹配策略與其他檢索系統(tǒng)類似,一個LIR系統(tǒng)中,文獻以字符編碼文本、印刷頁或錄音等多種形式存在,而且每種形式又有假設干種表示方式。文獻預處理的目的之一是針對每種語言的文獻,將其各種可能的表示簡化為一種一致的字符編碼文本表示。為此,需要事先識別出一篇文
4、獻的語種。一篇文獻的形式、語種以及編碼方案確定之后,接下來需要識別文獻的標引特征,對文獻進展手工標引或自動標引。為了與所用檢索系統(tǒng)的理解才能相匹配,用戶在構(gòu)造提問式時必須調(diào)整其需求信息。檢索系統(tǒng)常通過提供提問專指性工具和提問式求精技術(shù)如相關(guān)反應來支持這一過程。除構(gòu)造提問式之外,選擇、檢查和傳遞也屬于系統(tǒng)用戶界面模塊需要考慮和具備的功能。ustafaA.Yussef為LIR系統(tǒng)用戶界面設計提出了一些有益的建議。匹配模塊負責將提問式即用戶需求表示與標引信息即文獻表示進展匹配,以識別出那些最有可能滿足用戶需求的文獻。它是LIR系統(tǒng)的核心局部。在匹配過程中,跨越語言障礙的策略主要有四種,即:同源匹配、
5、提問式翻譯、文獻翻譯和語間轉(zhuǎn)換技術(shù)。1.同源匹配策略。同源匹配根據(jù)兩種語言的語詞拼寫形式或讀音相似度來判斷其中一種語言語詞的意義,不進展任何翻譯。例如,康奈爾大學的Bukley等人開發(fā)了一個英語法語匹配程序,它將英語單詞視為可能拼錯的法語單詞,以此來實現(xiàn)英語提問式與法語文獻的匹配。同源匹配可以單獨使用,而多數(shù)情況下是與其它策略結(jié)合使用。2.提問式翻譯策略。提問式翻譯將用戶輸入的提問詞翻譯為系統(tǒng)支持的每種語言,然后將多種語言的提問式提交給匹配模塊。它是目前最為常用的策略。其優(yōu)點是可以在線快速執(zhí)行,主要缺點是提問式通常很短,語境信息很少,難以消除歧義。每個提問詞被其所有可能的譯法所替代,翻譯模糊性
6、問題嚴重,故控制翻譯的模糊性是設計有效的提問式翻譯技術(shù)的一個關(guān)鍵問題。一種方法是只翻譯短語,因為短語翻譯通常表現(xiàn)出較少的模糊性。研究說明,短語識別策略可以大幅度進步檢索效率。微軟研究院的JianfengGa等人介紹了一種使用統(tǒng)計模型識別名詞性短語以進步提問式翻譯質(zhì)量的方法。另一種方法是,通過用戶的介入利用交互式用戶界面也可以有效地控制翻譯的模糊性。Davis和gden開發(fā)的QUILT系統(tǒng)可以將英語提問詞的西班牙語翻譯顯示給用戶,具有西班牙語知識的用戶可以對翻譯進展識別和判斷。arkDavis開發(fā)了一個交互式搜索引擎ARTRS,通過選擇性用戶界面,用戶可選擇將英語、法語、德語或意大利語的提問詞翻
7、譯為系統(tǒng)支持的其它語言,然后對候選翻譯進展選擇,修改提問式并發(fā)送給某個特定語言的檢索模塊。Yaabana等人提出了一種更為復雜的方法,將每個提問詞的候選翻譯連同每個候選翻譯到提問式語言的回翻都顯示給用戶,這樣,即使是不能閱讀候選翻譯的用戶也可以迅速閱讀回翻結(jié)果,并選擇出適宜的候選翻譯。3.文獻翻譯策略。文獻翻譯與提問式翻譯相對立將所有的文獻或文獻表示轉(zhuǎn)換為系統(tǒng)支持的語言。其主要優(yōu)點是:(1)由于具有完好的文獻語境,故可以進步翻譯質(zhì)量;(2)可以離線執(zhí)行。缺點是速度很慢,且需要將文獻庫中的文獻翻譯為系統(tǒng)支持的每一種語言,這使得文獻庫的規(guī)模不可能很大。相對于提問式翻譯策略,采用文獻翻譯策略的LIR
8、系統(tǒng)要少得多?!皻W共體遠程通信和信息處理技術(shù)(EUTeleatis)方案下的Tenty-ne工程組開發(fā)的Tenty-ne系統(tǒng)使用的主要跨語言方法就采用了文獻翻譯策略,并以提問式翻譯作為輔助。4.語間轉(zhuǎn)換技術(shù)。語間轉(zhuǎn)換是將提問式和文獻都翻譯為同一種獨立于原語言的表示方式。其典型代表是基于多語種詞表的LIR技術(shù)。它將文獻和提問式都翻譯為受控詞表中的語詞。NIS-Textise實驗室的“概念中間語文獻檢索(neptualInterlinguaDuentRetrieval)工程小組開發(fā)的INDR系統(tǒng)使用了較為獨特的語間轉(zhuǎn)換技術(shù)來實現(xiàn)LIR。該系統(tǒng)以rdNet的同義詞群“synsets為根底,通過將幾種
9、語言的同義詞都鏈接到表示對應概念的“synset號上,建立了一個名為“概念中間語的概念表示知識庫。這樣,系統(tǒng)就可以將文獻標引詞和提問詞都轉(zhuǎn)換為“synset號,從而跨越了語言障礙。全自動語間轉(zhuǎn)換技術(shù)例如潛語義標引和廣義向量空間模型也在研究探究中。轉(zhuǎn)貼于論文聯(lián)盟.ll.三、面向自由文本的LIR進入90年代,研究人員開場研究面向自由文本的LIR技術(shù)。與基于受控詞表的LIR不同,它直接使用出如今文獻中的詞。Landauer和Littan最早研究了基于自由文本的LIR,并利用一種擴展了的自動技術(shù)來降低詞匯差異對檢索效果的影響。Radan和Fluhr在1991年提出一種使用了人工編碼的翻譯知識,通過提問
10、式翻譯策略實現(xiàn)LIR的技術(shù)。盡管此后又獲得了很多進展,但上述兩項研究所確定的兩種主要方法基于語料庫的方法和基于知識的方法,仍然占主導地位?;谥R的方法所使用的翻譯知識來自人工編碼的翻譯知識,而基于語料庫的方法使用的是來自語料庫的翻譯知識,這兩種方法并不是互相排擠的。目前,面向自由文本的LIR研究的趨勢是綜合使用兩種方式,以實現(xiàn)檢索效率最大化。Tenty-ne系統(tǒng)就是一個綜合利用了多種翻譯知識的系統(tǒng),它可以支持荷蘭語、法語、英語和德語,在基于詞典進展提問式翻譯的同時,使用了基于語料庫的歧義消解方法。按照所使用的翻譯知識源,基于知識的LIR方法可分為基于普通機讀詞典的方法、基于機器翻譯詞典的方法
11、以及基于本體的方法。1.基于普通機讀詞典的方法。機讀詞典特別是機讀雙語種詞典是目前最常用的跨語言翻譯知識源,被廣泛用于支持提問式翻譯策略?;谠~典的LIR的根本思想是通過查閱詞典,將提問式中的每個詞翻譯為適宜的目的語言詞匯。有兩個因素限制著這種方法的性能:(1)很多詞并不是只有一種翻譯,不同的翻譯通常具有不同的意義。例如,日本信息和通信系統(tǒng)實驗室開發(fā)的一個基于日語英語雙語詞典的搜索引擎TITAN,目前遇到的最大困擾就是一詞多譯或翻譯的模糊性問題。有的系統(tǒng)將基于詞典的方法與其它方法結(jié)合起來使用,在一定程度上實現(xiàn)了對翻譯模糊性的有效控制。(2)詞典的范圍是有限的,可能缺乏正確解釋提問式所必須的一些
12、詞,尤其是缺乏技術(shù)或研究方面的術(shù)語。隨著專為提問式翻譯設計的詞典的開發(fā),第二個因素對基于詞典的LIR的負面影響有可能降低,但是不可能完全消除,這是因為語言的使用是一項創(chuàng)造性的活動,詞匯的產(chǎn)生同將它納入標準的參考工具如詞典之間總會存在滯后現(xiàn)象。2.基于機器翻譯詞典的方法。將機器翻譯詞典應用于LIR的最直接的方法是利用機器翻譯系統(tǒng)來翻譯提問式或者文獻集合。與普通詞典不同,機器翻譯詞典中包含有自然語言自動分析、翻譯以及生成所需要的信息,故機器翻譯系統(tǒng)可以利用上下文的句法和語義特征來改良翻譯質(zhì)量。其中一個例子是美國南加州大學信息科學研究所的hin-YeLin和EduardHvy開發(fā)的“多語種摘錄和翻譯
13、系統(tǒng)簡稱uST。目前,該系統(tǒng)允許用戶使用英文提問式檢索印尼語、西班牙語、阿拉伯語以及日語的eb資源。然而,機器翻譯系統(tǒng)遇到了一個難題:用戶使用常規(guī)的信息檢索系統(tǒng)例如eb搜索引擎時輸入的提問式通常很短,提供的上下文很少,缺乏以消除語詞的歧義。而機器翻譯系統(tǒng)一般是為每個詞選擇一個首選的翻譯,這種單項性選擇可能會對檢索效率產(chǎn)生負面影響。因此,在較短的提問式的翻譯方面,機器翻譯系統(tǒng)相對于基于詞典的方法的優(yōu)點并不確定。而對于較長的提問式特別是以完好的句子或段落描繪的提問式來說,機器翻譯系統(tǒng)通??梢援a(chǎn)生較好的翻譯結(jié)果。3.基于本體的方法?;谥R的方法還可以利用一種更為復雜精致的知識構(gòu)造本體。本體是一種通
14、過指明概念之間的關(guān)系將知識編碼的構(gòu)造。美國普林斯頓的rdNet工程小組創(chuàng)立的rdNet就是其中的一個例子。前面提到的INDR系統(tǒng)就使用了rdNet來進展LIR。在歐洲,EurrdNet工程小組開發(fā)了一個與“rdNet類似的多語種本體,已經(jīng)含有荷蘭語、英語、意大利語及西班牙語四個局部。它們通過一個語間索引鏈接起來,并正方案擴展到其它歐洲語言。實現(xiàn)基于知識的LIR方法的重要障礙是要為大型的應用系統(tǒng)手工構(gòu)建詞典或者復雜的多語種敘詞表,這通常是不實在際的?;谡Z料庫的方法利用現(xiàn)有的大型文獻集合,對其進展自動分析,進而抽取出構(gòu)建自動翻譯技術(shù)所需的信息。已提出的方案有:Littan等人的跨語言潛語義標引(
15、L-LSI)方法、U的arbnell等人的采用廣義向量空間模型的方法、Ballesters和rft的基于未對齊的語料庫并使用偽相關(guān)反應技術(shù)實現(xiàn)LIR的方法以及ETH的研究人員開發(fā)的一種使用“相似度敘詞表來進展提問式翻譯的LIR方法等。這些方法的一個共同特征是都使用了語料庫資源來訓練LIR機制或者建立用于檢索的信息構(gòu)造。所用的語料庫有三種類型:平行語料庫、可比擬的語料庫或者未對齊的語料庫。1.平行語料庫。平行語料庫是由假設干包含一篇文獻及其對應的一種或幾種語種的譯文的集合所構(gòu)成的,庫內(nèi)含有很多翻譯知識。這些知識可以以以下的方式利用:(1)可從對齊的語料庫中自動衍生出雙語種或多語種詞典,特別是專業(yè)
16、性的平行語料庫對于推斷短語的翻譯或者至少對于識別短語極為有用;(2)系統(tǒng)輸入新文獻之前,將平行語料庫中的文獻存儲在雙語種或多語種向量空間中,并對它們進展?jié)撜Z義標引,從而可以獲得一個雙語種或多語種語義空間。通過將系統(tǒng)新輸入的文獻映射到該空間,可以使得系統(tǒng)實現(xiàn)跨語言潛語義標引??缯Z言潛語義標引所需的語料庫只需在文獻一級對齊;(3)將平行語料庫與基于知識的LIR方法結(jié)合使用,可以有效地控制基于知識的方法所面臨的一詞多譯問題?;谄叫姓Z料庫的LIR面臨著這樣三個問題:(1)如何獲得適宜的文獻集合以構(gòu)成合適特定LIR系統(tǒng)的語料庫,這也是任何一種基于語料庫的方法都面臨的一個問題;(2)文獻譯文的創(chuàng)立本錢很
17、高,這是一個更為嚴峻的問題;(3)基于平行語料庫開發(fā)的技術(shù)原那么上可應用于不相關(guān)的應用系統(tǒng)中,但實驗說明,在將基于一個系統(tǒng)開發(fā)的技術(shù)應用于不相關(guān)的其它系統(tǒng)時,檢索效率會銳減。平行語料庫不僅可以在文獻一級對齊,而且可以在句子一級甚至語詞一級實現(xiàn)對齊。Davis使用了一個句子一級對齊的平行語料庫來擴大基于詞典的翻譯。馬里蘭大學的Drr和ard開發(fā)了一種基于語詞一級對齊的技術(shù),該技術(shù)在集成基于詞典的技術(shù)和基于語料庫的技術(shù)方面表現(xiàn)出一定潛力。2.可比擬的語料庫??杀葦M的語料庫通常是由多種語言寫成的具有相似主題的文獻所構(gòu)成,其中的文獻按照所闡述的主題進展對齊。它只能在文獻一級實現(xiàn)對齊,但獲得它要容易的多
18、,因為它不需要包含文獻譯文??杀葦M的語料庫同樣可用于消解語詞歧義以及潛語義標引。目前,對基于可比擬的語料庫的方法研究相對較少,可能是因為可比擬的語料庫要求基于文獻所闡述主題之間的相似度進展對齊,而現(xiàn)有的自動和半自動基于相似度的對齊技術(shù)都不具備良好的通用性。3.未對齊的語料庫。它不需要將語料庫中的文獻以任何方式對齊,而是利用偽相關(guān)反應技術(shù)來改良提問式翻譯質(zhì)量,使之與集合中的文獻更相似。Ballesters和rft對這種方法做了介紹。四、結(jié)論LIR研究始于使用受控詞表的試驗,開展到今天,面向自由文本的方法成為主流技術(shù)。自由文本方法按照使用的翻譯資源可分為:基于機讀詞典、機器翻譯系統(tǒng)、本體或者基于語料庫的方法。任何方法所采用的跨語言匹配策略都離不開以下四種:同源匹配、提問式翻譯、文獻翻譯或者將提問式和文獻都翻譯為同一種獨立于語言的表示的語間轉(zhuǎn)換技術(shù)。值得一提的是,為了改良LIR方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農(nóng)行業(yè)培訓教程與作業(yè)指導書
- 2025年中國立體車庫減速電機行業(yè)發(fā)展前景及投資戰(zhàn)略咨詢報告
- 農(nóng)村網(wǎng)店轉(zhuǎn)讓合同范本
- 公司經(jīng)紀合同范本
- 農(nóng)村電力合同范例
- 出版教輔材料合同范本
- sm公司合同范例
- 養(yǎng)獵養(yǎng)殖合同范例
- 2025年度建筑工程項目環(huán)保驗收合同
- 醫(yī)療管理聘用合同范例
- 2025年1月浙江省高考政治試卷(含答案)
- 教體局校車安全管理培訓
- 湖北省十堰市城區(qū)2024-2025學年九年級上學期期末質(zhì)量檢測綜合物理試題(含答案)
- 行車起重作業(yè)風險分析及管控措施
- 健康體檢中心患者身份登記制度
- 《災害的概述》課件
- 國產(chǎn)氟塑料流體控制件生產(chǎn)企業(yè)
- 空氣能安裝合同
- 初二上冊的數(shù)學試卷
- 2025年上半年重慶三峽融資擔保集團股份限公司招聘6人高頻重點提升(共500題)附帶答案詳解
- 四大名繡課件-高一上學期中華傳統(tǒng)文化主題班會
評論
0/150
提交評論