句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探_第1頁
句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探_第2頁
句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探_第3頁
句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探_第4頁
句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探資料僅供參考文件編號:2022年4月句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探版本號:A修改號:1頁次:1.0審核:批準(zhǔn):發(fā)布日期:TFIDF方法在英語句子相似度計算中的應(yīng)用初探摘要:介紹了一種中文自然語言處理中句子相似度的計算方法—基于向量空間模型的tfidf方法,并將該方法引入到了英語句子相似度的計算中來。對于含有同義詞的句子,在計算句子相似度之前,先使用wordnet2.1查詢句子中關(guān)鍵詞的同義詞集進行消歧,再利用tfidf方法進行相似度的計算。計算結(jié)果表明,消歧后再計算能得到更好的效果。關(guān)鍵詞:tfidf;相似度計算;wordnet中圖分類號:tp18文獻標(biāo)識碼:a文章編號:1009-3044(2012)17-4127-02studyofenglishsentencesimilarityconputingintfidfmethodyangqian-qian,xudong(collegeofphysicsandelectronics,shandongnormaluniversity,jinan250000,china)keywords:tfidf;similaritycalculating;wordnet在機器翻譯中基于實例的方法非常普遍,翻譯結(jié)果也相對準(zhǔn)確。在基于實例的英-漢機器翻譯中,要想找到與目標(biāo)句相匹配的源語言句子就要用到句子相似度的計算。在基于實例的機器翻譯中句子相似度的計算非常關(guān)鍵,直接關(guān)系到目標(biāo)句和語料庫中源句子的匹配程度。在漢語句子相似度的計算中經(jīng)常采用的是基于向量模型的tfidf方法,這是一種基于統(tǒng)計的方法,利用句子的詞的詞頻詞性等信息進行相關(guān)計算。我們將tfidf方法引入到英語句子相似度的計算中來,但是直接利用tfidf方法計算英語句子的相似度并不理想。這種方法沒有對語義進行分析,在計算過程中若有同義不同形的詞,相似度的結(jié)果就會受到影響,導(dǎo)致翻譯匹配結(jié)果不準(zhǔn)確。該文先采用wordnet2.1查詢目標(biāo)句子和源語言句子中關(guān)鍵詞的同義詞集,進行簡單的同義詞消岐后,再利用tfidf方法計算英語句子之間的相似度。1英語句子相似度的計算方法要計算英語句子的相似度,對于含有同義詞的句子首先要用wordnet查詢句子中關(guān)鍵詞的同義詞集,進行消歧后,再利用tfidf方法計算英語句子間的相似度。下面分別介紹一下wordnet的特點和基于向量空間模型的tfidf方法。1.1wordnet的特點wordnet是在princeton大學(xué)認(rèn)知科學(xué)實驗室的ler教授指導(dǎo)下開發(fā)的實際工作始于1985年。wordnet是一個在線的詞匯參照系統(tǒng),它的獨特之處在于它是依據(jù)詞義而不是依據(jù)詞形來組織詞匯信息。wordnet使用同義詞集合(synset)代表概念(concept),詞匯關(guān)系在詞語之間體現(xiàn),語義關(guān)系在概念之間體現(xiàn)。wordnet構(gòu)造的核心是如何表示詞匯概念節(jié)點,及在這些概念節(jié)點之間建立起各種語義關(guān)系。wordnet將英語詞匯組織為一個同義詞集合,每個集合表明一個詞匯概念,同時力圖在概念間建立不同的指針,表達上下位、同義、反義等不同的語義關(guān)系。經(jīng)過這樣的過程,原來抽象的概念被形式化了,變得具體且可以通過詞匯意義加以操作,概念之間還可以建立多種語義關(guān)系的聯(lián)系和推理。wordnet中詞匯概念的語義關(guān)系主要包括:上下位、同義、反義、整體和部分、蘊含、屬性、致使等。該文查詢詞語用的是wordnet2.1版本。version2.1主要包括名詞、動詞、形容詞和副詞四類實詞,虛詞并不予考察。我們主要利用的wordnet中的同義詞集,若句子中的某個關(guān)鍵詞屬于另一關(guān)鍵詞的同義詞,我們將其看作相同的詞,為下一步tfidf方法計算句子相似度做準(zhǔn)備。例如“scene”與“scenery”兩個詞,通過wordnet2.1查詢知“scenery”位于“scene”的同義詞集中,我們就將其看作相同詞;類似地,“potato”與“l(fā)oveapple”也是同義詞,也作為相同的詞。1.2基于向量空間模型的tfidf方法在信息檢索領(lǐng)域中,基于向量空間模型的tfidf方法被廣泛地用來計算漢語文本之間的相似度。這里,我們將tfidf方法引入tfidf方法綜合考慮了不同的詞在句子中的出現(xiàn)頻率(tf值)和這個詞在整個語料庫中對不同句子的分辨能力(idf值)。這種方法不需要任何對文本內(nèi)容的深層理解,是信息檢索領(lǐng)域常用的方法,當(dāng)句子中次數(shù)較多時能產(chǎn)生較好的效果。但是不管英語句子還是漢語句子,往往需要考慮詞本身的語義信息,ifidf在計算漢語句子相似度時沒有考慮到語義信息。例如,“西紅柿是什幺顏色”和“番茄是什幺顏色”采用tfidf方法計算相似度為0,但這兩個句子表達的意思應(yīng)該是完全相同的,因為“西紅柿”和“番茄”在語義上是完全等價即兩個詞為同義詞。

正是tfidf方法中融合進了wordnet的同義詞集消岐部分,語義上完全相同但相似度卻為0的情況得以改進。下面是通過對一些英語句子進行相似度的計算來對比一下加入wordnet查詢后的好處。2試驗結(jié)果下面的兩組數(shù)據(jù)是英語句子相似度值,一組是直接采用tfidf方法進行計算的結(jié)果,一組是采用wordnet進行查詢并簡單分析后再利用tfidf方法進行計算的結(jié)果。1)wordcannotdescribethebeautyofthescence.2)thebeautyofthescenerybeggarsdescription.3)thescenceissobeautifulthatittranscendmypowerofdescription.目標(biāo)句為:wordcannotdescribethespectacleofthenature.表1相似度計算結(jié)果的比較3結(jié)束語將tfidf方法用于英語句子之間相似度的計算,不需要對句子進行分詞。tfidf方法考慮了詞在上下文中的統(tǒng)計特性,不需要任何對文本內(nèi)容的深層理解,相對來說計算較為簡單,對于不需要考慮語義信息且詞匯量較大的英語句子來說能獲得較準(zhǔn)確的結(jié)果。先采用wordnet進行簡單的關(guān)鍵詞語同義消岐,然后利用tfidf方法進行計算可以在一定程度上提高英語句子相似度的準(zhǔn)確性。尤其是對于同義詞較多的句子中,效果將更為明顯。參考文獻:[1]張剛,劉挺,鄭實福,等.開放域中文問答系統(tǒng)的研究與實現(xiàn)[c].中國中文信息學(xué)會二十周年學(xué)術(shù)會議,2001.[2]burker,hammond,i.questionansweringfromfrequently-askedquestionfiles:experienceswiththefaqfindersystem[r].univ.ofchicago,dept.ofcomputersciencetechnicalreporttr-97-05,1997.[3]李偉.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論