第7章 跨語言信息檢索技術(shù)_第1頁
第7章 跨語言信息檢索技術(shù)_第2頁
第7章 跨語言信息檢索技術(shù)_第3頁
第7章 跨語言信息檢索技術(shù)_第4頁
第7章 跨語言信息檢索技術(shù)_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第7章 跨語言信息檢索技術(shù)作者:于振紅學號:1308305020目錄7.1 跨語言信息檢索技術(shù)概論跨語言信息檢索技術(shù)概論7.2 跨語言信息檢索技術(shù)的研究發(fā)展跨語言信息檢索技術(shù)的研究發(fā)展7.3 跨語言信息檢索技術(shù)的基本框架跨語言信息檢索技術(shù)的基本框架7.4 跨語言信息檢索技術(shù)及其分類跨語言信息檢索技術(shù)及其分類 7.4.1 同源匹配技術(shù) 7.4.2 查詢翻譯技術(shù) 7.4.3 中間語言翻譯方法 7.4.4 文獻翻譯 7.4.5 不翻譯技術(shù) 7.4.6 基于媒體對象的跨語言信息檢索7.5 跨語言信息檢索的主要研究熱點跨語言信息檢索的主要研究熱點 7.5.1跨語言信息檢索中的翻譯歧義研究 7.5.2跨語

2、言信息檢索中的翻譯資源構(gòu)建研究 7.5.3跨語言信息檢索中的專有名詞識別與音譯研究 7.5.4跨語言信息檢索中的翻譯技術(shù)研究 7.5.5跨語言信息檢索中的系統(tǒng)評價研究 7.5.6有關(guān)中英文跨語言信息檢索的研究7.1 跨語言信息檢索技術(shù)概述 跨語言信息檢索(Cross Language Information Retrieval,CLIR)就是通過一種語言提問來檢索出用另一種語言呈現(xiàn)的信息,是一種跨越語言界限進行信息檢索的活動。跨語言信息檢索技術(shù)計算機科學情報學語言學管理學管理學心理學 國際上跨語言信息檢索研究領(lǐng)域每年定期會召開一些國際會議,這些會議從不同方面反映了當今跨語言信息檢索的研究熱點和

3、發(fā)展趨勢。國際上的研究:TREC1CLEF2NTCIR3ACM SIGIR4國際上召開的一些會議文本檢索會議跨語言評價論壇日本國家信息檢索測試會議美國計算機協(xié)會信息檢索特殊興趣小組會議(1) 檢索詞與檢索到的信息內(nèi)容分屬于不同的語言。檢索詞與檢索到的信息內(nèi)容分屬于不同的語言。(2) 檢索詞的歧義和多義性。檢索詞的歧義和多義性。(3) 查詢詞的切分。查詢詞的切分。(4) 信息內(nèi)容的多語言性。信息內(nèi)容的多語言性。(5) 輸出結(jié)果的排序組織。輸出結(jié)果的排序組織。(6) 對多語言資源的依賴。對多語言資源的依賴。跨語言信息檢索技術(shù)需要處理的主要問題:7.2跨語言信息檢索技術(shù)的研究發(fā)展 根據(jù)研究對象的時間

4、歷程和階段性成果的差異,跨語言信息檢索技術(shù)主要分為三個主要發(fā)展階段:萌芽階段發(fā)展階段大型商用階段接上頁萌芽階段萌芽階段基于國際聯(lián)機系統(tǒng)的跨語言檢索研究基于國際聯(lián)機系統(tǒng)的跨語言檢索研究發(fā)展階段發(fā)展階段基于互聯(lián)網(wǎng)的跨語言信息檢索實驗系統(tǒng)基于互聯(lián)網(wǎng)的跨語言信息檢索實驗系統(tǒng)研究研究大型商用大型商用階段階段跨語言搜索引擎技術(shù)的飛速發(fā)展跨語言搜索引擎技術(shù)的飛速發(fā)展7.3 跨語言信息檢索技術(shù)的基本框架7.4跨語言信息檢索技術(shù)及其分類7.4.1 同源匹配技術(shù)同源匹配技術(shù) 同源匹配技術(shù)根據(jù)兩種語言的語詞拼寫形式或讀音相似度來判斷其中一種語言語詞的意義,不進行任何翻譯。 同源匹配可以單獨使用。而多數(shù)情況下是與其他

5、策略結(jié)合使用,比如在中英文跨語言信息檢索中可以用于外來語的音譯或反向音譯。7.4.2 查詢翻譯技術(shù)查詢翻譯技術(shù)1. 查詢翻譯技術(shù)分類語境信息很少提問時通常很短難以消除歧義查詢翻譯技術(shù)在線快速執(zhí)行優(yōu)點缺點1)翻譯模糊性控制 每個提問詞被其所有可能的一發(fā)譯法所替代,翻譯模糊性問題嚴重,故控制翻譯的模糊性是設(shè)計有效的提問式翻譯技術(shù)的一個關(guān)鍵問題。 方法方法一一只翻譯短語,因為短語翻譯通常只翻譯短語,因為短語翻譯通常表現(xiàn)出較少的模糊性。表現(xiàn)出較少的模糊性。方法二通過用戶的介入(利用交互式用戶界面)也可以有效控制翻譯的模糊性。2)查詢翻譯技術(shù)分類 受控詞匯檢索是指文檔集通過手工使用預先選擇好的詞匯進行索

6、引,用戶也是從相同的受控詞匯中選擇詞匯構(gòu)建查詢條件,然后對文檔進行檢索。自由文本查詢翻譯受控詞匯查詢翻譯查詢翻譯 文檔的索引是通過概念識別器的匹配實現(xiàn)的。受控詞匯跨語言檢索系統(tǒng)中包含兩個過程:將文檔與查詢條件都用受控詞匯來表示。對文檔的標識其實是對文檔的翻譯過程,而對查詢條件用受控詞匯來構(gòu)建其實是對查詢條件翻譯的過程。2)查詢翻譯技術(shù)分類第一點第一點用受控詞匯表中的檢索詞來標識每一篇文檔用受控詞匯表中的檢索詞來標識每一篇文檔通常是手工完成的,其使用范圍受到很大的通常是手工完成的,其使用范圍受到很大的局限。局限。第二點培訓用戶學會有效地使用受控詞匯來構(gòu)建查詢條件是一件非常困難的工作。受控詞匯檢索

7、的不足之處2)查詢翻譯技術(shù)分類 跨語言信息自由文本檢索的四個基本方法基于機器翻譯的方法基于知識的方法基于語料庫的方法混合方法2.查詢翻譯技術(shù)1)基于知識的查詢翻譯方法 基于知識的查詢方法主要利用人類專家總結(jié)的知識,例如機讀字典、主題詞表、百科全書等完成對查詢式的翻譯。 (1)基于機讀字典的查詢翻譯?;谧值涞牟樵兎g方法是最常用的查詢翻譯方法之一,是指從機讀雙語字典中抽取查詢中每個詞或者詞組的合適的翻譯進行替換的方法。常用的從字典中選擇詞語的方法主要有:全部選擇、選擇前n個、選擇最合適的n個。(1)基于機讀字典的查詢翻譯此種方法的主要問題:字典的覆蓋度問題屈折語的處理詞組的識別和翻譯歧義問題(

8、2)基于多語主題詞表、本體的查詢翻譯方法 最早應用在查詢翻譯中的方法就是基于多語主題詞表的方法。 本體中飽含比主題詞表更詳細的概念定義,更廣泛的關(guān)系描述,以及公理實例等,可以更好地反映出獨立于語言的更為本質(zhì)的東西,并用于對查詢式進行語義層次的理解,精確地翻譯結(jié)果,從而獲得更優(yōu)的檢索結(jié)果。2)基于機器翻譯的查詢翻譯方法 利用機器翻譯系統(tǒng)進行查詢翻譯的優(yōu)勢就在于可以利用機器翻譯系統(tǒng)的詞法、句法、語義分析得到更為準確的翻譯結(jié)果。但是將機器翻譯系統(tǒng)應用在查詢翻譯中并沒有取得很好的效果,主要原因看右表:原因一原因一機器翻譯系統(tǒng)的翻譯質(zhì)量不高機器翻譯系統(tǒng)的翻譯質(zhì)量不高原因二查詢式長度通常很短,甚至只是一個

9、詞從而影響了機器翻譯的效果。原因三多數(shù)商用的機器翻譯系統(tǒng)只返回一個最優(yōu)翻譯結(jié)果,不提供可供選擇的翻譯列表。3)基于語料庫的查詢翻譯方法基于平行語料庫的方法基于平行語料庫的方法平行語料庫依據(jù)對其程度又可分為篇章對齊、段落對平行語料庫依據(jù)對其程度又可分為篇章對齊、段落對齊、句子對齊和詞對齊,一般來說對齊的粒度越小,齊、句子對齊和詞對齊,一般來說對齊的粒度越小,對齊的精度越高,查詢翻譯效果就越好。對齊的精度越高,查詢翻譯效果就越好?;诳杀日Z料庫的方法基于可比語料庫的方法使用可比語料庫最著名的方法就是相似性敘詞表。有使用可比語料庫最著名的方法就是相似性敘詞表。有學者利用一個瑞典語新聞語料庫和英語新聞

10、語料庫,學者利用一個瑞典語新聞語料庫和英語新聞語料庫,構(gòu)建雙語可比語料庫,從中提取出雙語的相似性主題構(gòu)建雙語可比語料庫,從中提取出雙語的相似性主題詞表信息并且用于查詢翻譯中。試驗結(jié)果顯示此種方詞表信息并且用于查詢翻譯中。試驗結(jié)果顯示此種方法所獲得的檢索性能是單語言信息檢索性能的一半左法所獲得的檢索性能是單語言信息檢索性能的一半左右。右。平行語料庫依據(jù)對齊程度的分類: 一般來說對齊的粒度越小,對齊的精度越高,查詢翻譯效果就越好。篇章對齊句子對齊詞對齊段落對齊平行語料庫的分平行語料庫的分類類 平行語料庫在查詢翻譯中的主要應用是構(gòu)建雙語對照詞典主要包括兩步:利用詞頻矩陣計算一種語言的詞語出現(xiàn)時另一種

11、語言的詞出現(xiàn)的條件概率,建立翻譯詞典計算詞貢獻矩陣,矩陣的每個元素是對齊單元中源語言詞和目標語言詞共現(xiàn)的次數(shù)。第一步第二步 使用可比語料庫最著名的方法就是相似性敘詞表。有學者利用一個瑞典語新聞語料庫和英語新聞語料庫,構(gòu)建雙語可比語料庫,從中提取出雙語的相似性主題詞表信息并且用于查詢翻譯中。相似性敘詞表單語言信息檢索4)混合方法 混合方法是綜合利用上面各種技術(shù)的優(yōu)缺點以期望獲得更佳的檢索效果。此種方法中應用最廣泛的資源組合是將雙語字典和一些單語資源,例如單語體本W(wǎng)ordNet、單語語料庫等結(jié)合,利用字典進行翻譯知識的抽取,利用單語資源進行翻譯消歧。機讀字典統(tǒng)計字典機器翻譯系統(tǒng)單語言檢索三者單獨作

12、用均能夠達到單語言檢索的90%三種資源結(jié)合三種資源混合使用取得了最佳的檢索效果機讀字典統(tǒng)計字典單語言檢索三者結(jié)合作使用檢索能力能夠達到單語言檢索的98%機器翻譯系統(tǒng)3.查詢翻譯過程中的基本問題查詢翻譯過程查詢式查詢翻譯翻譯資源分解三個要素包涵源語言和目標語言,源語言和目標語言的轉(zhuǎn)換過程以及在此轉(zhuǎn)換過程中所使用的翻譯資源。依據(jù)這三個要素,查詢翻譯過程中所遇到的基本問題也分為三個方面:第一方面第一方面查詢式的詞法分析查詢式的詞法分析第二方面查詢式翻譯時的歧義問題第三方面翻譯工具存在問題1).查詢式的詞法分析 世界上的語言有近3000種,每種語言都有其自身的特點,可根據(jù)其特點對查詢式進行預處理。例如

13、,像英語、法語等西語,可以對其進行詞法分析,實現(xiàn)詞根還原。 對于漢語、日語等沒有明晰分隔符的語言來說,要對查詢式進行翻譯就必須要確定翻譯單位,或者說是與翻譯資源匹配的單位。 目前來說在查詢翻譯過程中最最常使用的翻譯單位還是詞,分詞的效果對查詢翻譯有很大的影響。2)查詢式翻譯時的歧義問題 跨語言信息檢索涉及到兩種語言之間的相互轉(zhuǎn)換,在此過程中主要會出現(xiàn)的問題是歧義問題。在自然語言中一詞多義和一義多詞的現(xiàn)象很普遍。對于機器來說,要理解詞義是很困難的,尤其是理解只包含少量語境信息的查詢詞的意思??缯Z言信息檢索中德的歧義來自源語言和目標語言兩個方面,在處理上的難度很大。現(xiàn)有的主要消歧方法包括:方法一方

14、法一方法二方法二方法三方法三方法四方法四方法五方法五詞性標注技術(shù)短語和習慣用語的識別與翻譯詞法分析詞的共現(xiàn)統(tǒng)計技術(shù)相關(guān)反饋技術(shù) 在自然語言中很多短語、習慣用語等通常有固定的語義,其意義很多都不等于其中詞的語義的簡單組合。因此當把其按照單個詞進行翻譯時失掉其本來的語義信息。 JIanfeng Gao 等設(shè)計了三個統(tǒng)計模型:如有圖 模型一模型一共現(xiàn)模型(共現(xiàn)模型(Co-occurence Model)模型二名詞短語翻譯模型(Noun Phrase Translation Model)模型三依存翻譯模型(Dependency Translation Model) 其中后兩種模型分別可以識別名詞短語和

15、依存三元組(Dependency Triples),例如動賓短語(Verb-Object),所有的三種方法都能起到很好的翻譯消歧效果。模型一模型一共現(xiàn)模型(共現(xiàn)模型(Co-occurence Model)模型二名詞短語翻譯模型(Noun Phrase Translation Model)模型三依存翻譯模型(Dependency Translation Model)3)翻譯工具存在的問題對查詢翻譯的影響翻譯資源的獲取問題覆蓋度問題準確度問題 在查詢翻譯過程中經(jīng)常使用的翻譯資源包括機讀字典、主題詞表、本體、語料庫等。這些翻譯資源對于查詢翻譯的影響包括翻譯資源的獲取問題、覆蓋度問題、準確度問題等方面

16、。4.查詢翻譯的未來發(fā)展方向 查詢翻譯的未來發(fā)展方向可以概括為以下三點:(1)多種查詢翻譯方法的結(jié)合詞典提供較廣且較淺的覆蓋度,而語料庫提供較窄且較深的覆蓋度,本體、主題詞表則豐富的概念層次和語義關(guān)系,如能將多種查詢翻譯策略相結(jié)合,充分利用各層次知識,可以提高查詢翻譯的效果。(2)語義層次進行查詢式翻譯現(xiàn)在比較流行的、相對成熟的查詢翻譯方法總體來說還是字符級的匹配,只有從語義層次上理解查詢式,才能獲得更優(yōu)的查詢翻譯結(jié)果,因此越來越多得學者開始使用本體這樣包含語義信息的資源進行查詢翻譯。(3)語種的多樣性現(xiàn)在跨語言信息檢索主要集中于雙語言信息檢索,尤其是英語和另外一種語言的檢索。盡管互聯(lián)網(wǎng)上英語

17、仍然是最大的語種,但是漢語、拉丁語等比例也很大,實現(xiàn)這些語種之間的跨語言檢索的意義也是非常大的。7.4.3 中間語言翻譯方法 在跨語言信息檢索中,解決語言障礙的基本方法是兩種語言之間的翻譯,然而所有的翻譯方法都離不開機器翻譯、雙語翻譯、語料庫等作為翻譯的語言基礎(chǔ)。但是,在跨語言信息檢索中可能會碰到這樣的情形:兩種語言直接翻譯的資源不存在。為此研究人員提出了一種利用中間語言或中樞語言進行翻譯的方法:將源語言翻譯成中間語言,然后再將中間語言翻譯成目標語言。7.4.4 文獻翻譯 文獻翻譯與查詢翻譯正好相反,是指先將多語言的原始信息集合轉(zhuǎn)換成與查詢相同的語言,再進行單語言信息檢索。(2)可以離線執(zhí)行文

18、獻翻譯的優(yōu)點(1)提高翻譯質(zhì)量優(yōu)點速度太慢,且可能會使原始信息庫的規(guī)模很大缺點7.4.5 不翻譯技術(shù) 目前不通過翻譯進行跨語言信息檢索的技術(shù)有潛在語義索引(Latent Semantic Indexing,LSI)和廣義向量空間模型等方法。 LSI是由Deerwester等人于1990年在單語言信息檢索中提出的。同年,Landauer和Litman提出了跨語言潛在語義索引(Cross-Language Latent Semantic Indexing,CLSI)的信息檢索技術(shù)。潛在語義索引與廣義向量空間模型的對比潛在語義索引潛在語義索引它的基本思想是首先通過將有代表性的文檔與其對應的翻它的基本

19、思想是首先通過將有代表性的文檔與其對應的翻譯文檔聯(lián)系起來形成訓練文檔集,然后利用奇異值分解技譯文檔聯(lián)系起來形成訓練文檔集,然后利用奇異值分解技術(shù)(術(shù)(Singular Value Decomposition,SVD)對雙語檢索詞)對雙語檢索詞文檔關(guān)聯(lián)矩陣進行奇異值分解,獲得雙語文檔集的特征文檔關(guān)聯(lián)矩陣進行奇異值分解,獲得雙語文檔集的特征信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語種的信息以及檢索詞用法上的映射關(guān)系,即構(gòu)造出不同語種的潛在語義空間,最后根據(jù)平行文檔中語詞的用法特征檢索潛在語義空間,最后根據(jù)平行文檔中語詞的用法特征檢索出另一種語種的相關(guān)信息。出另一種語種的相關(guān)信息。廣義向量空間模

20、型廣義向量空間模型基本思想是根據(jù)雙語訓練文檔集分別建立源語與目標語的基本思想是根據(jù)雙語訓練文檔集分別建立源語與目標語的“檢索詞檢索詞文檔關(guān)聯(lián)文檔關(guān)聯(lián)”矩陣,在計算查詢條件和文檔的相矩陣,在計算查詢條件和文檔的相似度時,考慮將經(jīng)典的向量空間模型與兩個關(guān)聯(lián)矩陣相結(jié)似度時,考慮將經(jīng)典的向量空間模型與兩個關(guān)聯(lián)矩陣相結(jié)合,在源語言與目標語言之間實現(xiàn)映射關(guān)系。合,在源語言與目標語言之間實現(xiàn)映射關(guān)系。7.4.6 基于媒體對象的跨語言信息檢索分類 根據(jù)檢索的媒體對象類型,跨語言信息檢索可以分為跨語言文本信息檢索(Cross-Language Document Retrieval),跨語言圖像信息檢索(Cros

21、s-Language Image Retrieval)和跨語言語音信息檢索(Cross-Language Spoken Document Retrieval)。 根據(jù)檢索的媒體對象類型, 跨語言信息檢索的分類比較:(1)跨語言文本信)跨語言文本信息檢索息檢索跨語言文本信息檢索是目前研究最多的??缯Z言文本信息檢索是目前研究最多的。TREC和和NTCIR主主要是對文本信息檢索進行測評和研究。對于要是對文本信息檢索進行測評和研究。對于TREC,跨語言,跨語言信息檢索只是中心議題之一,語言以英語為主,并搭配一信息檢索只是中心議題之一,語言以英語為主,并搭配一些戰(zhàn)略語言。些戰(zhàn)略語言。NTCIR主要側(cè)重于

22、亞洲語言的跨語言信息檢主要側(cè)重于亞洲語言的跨語言信息檢索問題的研究。索問題的研究。(2)跨語言圖像信)跨語言圖像信息檢索息檢索目前研究較少。目前研究較少。CLEF于于2003年舉行的會議上對跨語言圖像年舉行的會議上對跨語言圖像信息檢索進行了首次測評,并成為信息檢索進行了首次測評,并成為CLEF的正式測試項目。的正式測試項目。2004年和年和2005年的年的Image CLEF 主要分為主要分為3個字任務:雙語個字任務:雙語Ad Hoc檢索、交互檢索(檢索、交互檢索(Interactive Retrical)、醫(yī)學圖像)、醫(yī)學圖像檢索(檢索(Medical Image Retrieval)。測試

23、和評比的目的就是)。測試和評比的目的就是要促進基于文本和基于內(nèi)容的跨語言圖像信息檢索方法。要促進基于文本和基于內(nèi)容的跨語言圖像信息檢索方法。(3)跨語言語音信)跨語言語音信息檢索息檢索內(nèi)容包括文獻信息檢索技術(shù)、跨語言翻譯技術(shù)和自動語音內(nèi)容包括文獻信息檢索技術(shù)、跨語言翻譯技術(shù)和自動語音識別技術(shù)(識別技術(shù)(Automatic Speech Recognition,ASR)。)。7.5 跨語言信息檢索的主要研究熱點7.5.1 跨語言信息檢索中的翻譯歧義研究 翻譯的歧義性是跨語言信息檢索的關(guān)鍵問題,對檢索效率有重要影響,這也是國外學者廣泛關(guān)注的研究領(lǐng)域,所依賴的語言資源主要有詞典、主題詞表、本體、語料

24、庫等。 幾種消歧研究的方法及效果:方法名稱及簡介方法名稱及簡介方法起到的效果方法起到的效果方法一Davis嘗試依詞性進行消歧平均準確率提高了37%,達到單語言檢索的67.3%。方法二Chen等人以共現(xiàn)模型分析翻譯消歧,以虛擬語境模型分析目標多義。在TREC-6的評測中,與僅處理翻譯歧義相比,檢索效率提高了10.11%。方法三Akira等人以Web文獻為語料,利用詞匯間的共現(xiàn)信息實現(xiàn)了同樣的檢索效率。在其試驗中檢索的平均準確率達到了手工翻譯的97%。方法四Myung-Gil Jang等人利用從目標文獻中獲得的互信息統(tǒng)計進行消歧。在這里互信息不僅用于選擇翻譯詞匯而且對翻譯后的查詢詞賦以權(quán)重,檢索效

25、率分別達到單語檢索的85%和手工消歧的96%。7.5.2 跨語言信息檢索中的翻譯資源構(gòu)建研究 翻譯資源的優(yōu)劣對于跨語言信息檢索的性能有著重要的影響,所以在跨語言信息檢所研究中,國外學者對于翻譯資源的構(gòu)建以及相互之間的比較進行了深入的研究。在跨語言信息檢索中,常用的翻譯資源有機器翻譯系統(tǒng)、雙語詞典、本體和語料庫等。7.5.3跨語言信息檢索中的專有名詞識別與音譯研究 由于翻譯詞典的覆蓋度,未登錄詞一直是機器翻譯和跨語言信息檢索的重要問題,專有名詞的翻譯更是挑戰(zhàn)。Chen等人,Kinght和Graehl,Wan和Verspoor都相繼提出機器音譯的方法來處理這個問題。幾種音譯的研究方法簡述方法簡述取

26、得效果取得效果研究一Yan Qu等人提出了由英語到日語片假名的音譯方法,利用英語語音詞典和概率規(guī)則來獲取候選語音,并通過日語單語語料庫自動確認最終將英語-日語音譯詞成對添加到雙語詞典。檢索的平均準確率提高了2.5%64.8%。研究二Nasreen提出一種統(tǒng)計模型進行英語-阿拉伯語間的音譯。無論是對專有名詞音譯還是對所有未登錄詞音譯都證明是有效的。研究三S.Y.Jung等人采用隱馬爾可夫模型(HMM)進行英語到漢語的音譯。召回率達到了87.5%。研究四Paola等人將專有名詞的音譯用于跨語言聲音文件的檢索。效果也是顯著的。7.5.4 跨語言信息檢索中的翻譯技術(shù)研究 跨語言信息檢索涉及查詢語種和檢

27、索語種兩個基本的概念。查詢語種是用戶查詢請求所屬語種,檢索語種是檢索目標對象所屬語種。如何能夠在這兩者之間建立溝通可以從以下3個方面展開:跨語言信息檢索中的翻譯技術(shù)Brown等人提出了一種基于機器翻譯的方法1Nie、BBN等也相繼提出了概率論翻譯模型2Kwok、Hedlund等著重研究了翻譯過程中的字典查找模型TEXT3Ballesteros和微軟的研究人員在自己的工作中都使用到了基于共現(xiàn)的統(tǒng)計方法TEXT47.5.5 跨語言信息檢索中的系統(tǒng)評價研究 跨語言信息檢索系統(tǒng)的評價基本上采用了與一般信息檢索系統(tǒng)評價相同的方法和步驟。然而,在跨語言信息檢索的評價試驗中,需要對檢索提問進行翻譯,并比較跨

28、語言信息檢索系統(tǒng)與單語言信息檢索系統(tǒng)的性能,這是評價跨語言信息檢索系統(tǒng)的一個重要指標。 跨語言信息檢索評價測試至少兩種語言以上的測試文檔集合。包含與文檔不同語言的檢索問題集合。檢索問題的正確答案集合。 跨語言信息檢索系統(tǒng)評價需要覆蓋多種語言的評價測試集??缯Z言信息檢索評價測試集通常包含3個部分。1.跨語言信息檢索評價模型 跨語言信息檢索評價通常改變測試主題,以比較相同系統(tǒng)下單語言信息檢索和跨語言信息檢索的檢索性能。一般跨語言信息檢索系統(tǒng)的評價模型如圖所示。2.跨語言信息檢索效率評價指標 由于用戶查詢條件中所固有的模糊性,信息檢索系統(tǒng)檢索出來的文檔集不一定全是用戶所期待的,因此有必要對這些文檔集

29、根據(jù)其與用戶查詢條件的相關(guān)性進行排序,并以此來判定信息檢索系統(tǒng)檢索出的文檔集滿足用戶查詢條件的程度。其中最重要的評價指標是查全率和查準率。(1)查全率 查全率是評價跨語言信息檢索效率的一個重要指標,查全率是指在檢索系統(tǒng)中的相關(guān)信息總體中盡可能查詢輸出的相關(guān)信息量所占的比率??偭繖z索系統(tǒng)中的相關(guān)文獻檢出的相關(guān)文獻量查全率 (2)查準率 查準率是評價跨語言信息檢索效率的另一個重要指標,查全率是指檢出的文獻中相關(guān)文獻的準確程度。檢出的文獻總量檢出的相關(guān)文獻量查準率 3.跨語言信息檢索的經(jīng)典測試與評價平臺 除了理論和技術(shù)外,評估也是跨語言信息檢索系統(tǒng)發(fā)展過程的重要一環(huán)。目前跨語言信息檢索主要有3個測試平臺:TREC、NTCIR、CLEF。(1)TREC通過大型測試文檔集的建立,測試項目,測試通過大型測試文檔集的建立,測試項目,測試程序,評估準則的制定,程序,評估準則的制定,TREC為不同的檢索系為不同的檢索系統(tǒng)和檢索技術(shù)提供了一個標準的評比環(huán)境,并統(tǒng)和檢索技術(shù)提供了一個標準的評比環(huán)境,并舉辦論壇供參與者討論和分享結(jié)果。舉辦論壇供參與者討論和分享結(jié)果。TREC的出的出現(xiàn),開創(chuàng)了檢索評價研究的一個新的里程碑?,F(xiàn),開創(chuàng)了檢索評價研究的一個新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論