版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探資料僅供參考文件編號:2022年4月句子大全之TFIDF方法在英語句子相似度計算中的應(yīng)用初探版本號:A修改號:1頁次:1.0審核:批準(zhǔn):發(fā)布日期:TFIDF方法在英語句子相似度計算中的應(yīng)用初探摘要:介紹了一種中文自然語言處理中句子相似度的計算方法—基于向量空間模型的tfidf方法,并將該方法引入到了英語句子相似度的計算中來。對于含有同義詞的句子,在計算句子相似度之前,先使用wordnet2.1查詢句子中關(guān)鍵詞的同義詞集進行消歧,再利用tfidf方法進行相似度的計算。計算結(jié)果表明,消歧后再計算能得到更好的效果。關(guān)鍵詞:tfidf;相似度計算;wordnet中圖分類號:tp18文獻標(biāo)識碼:a文章編號:1009-3044(2012)17-4127-02studyofenglishsentencesimilarityconputingintfidfmethodyangqian-qian,xudong(collegeofphysicsandelectronics,shandongnormaluniversity,jinan250000,china)keywords:tfidf;similaritycalculating;wordnet在機器翻譯中基于實例的方法非常普遍,翻譯結(jié)果也相對準(zhǔn)確。在基于實例的英-漢機器翻譯中,要想找到與目標(biāo)句相匹配的源語言句子就要用到句子相似度的計算。在基于實例的機器翻譯中句子相似度的計算非常關(guān)鍵,直接關(guān)系到目標(biāo)句和語料庫中源句子的匹配程度。在漢語句子相似度的計算中經(jīng)常采用的是基于向量模型的tfidf方法,這是一種基于統(tǒng)計的方法,利用句子的詞的詞頻詞性等信息進行相關(guān)計算。我們將tfidf方法引入到英語句子相似度的計算中來,但是直接利用tfidf方法計算英語句子的相似度并不理想。這種方法沒有對語義進行分析,在計算過程中若有同義不同形的詞,相似度的結(jié)果就會受到影響,導(dǎo)致翻譯匹配結(jié)果不準(zhǔn)確。該文先采用wordnet2.1查詢目標(biāo)句子和源語言句子中關(guān)鍵詞的同義詞集,進行簡單的同義詞消岐后,再利用tfidf方法計算英語句子之間的相似度。1英語句子相似度的計算方法要計算英語句子的相似度,對于含有同義詞的句子首先要用wordnet查詢句子中關(guān)鍵詞的同義詞集,進行消歧后,再利用tfidf方法計算英語句子間的相似度。下面分別介紹一下wordnet的特點和基于向量空間模型的tfidf方法。1.1wordnet的特點wordnet是在princeton大學(xué)認(rèn)知科學(xué)實驗室的ler教授指導(dǎo)下開發(fā)的實際工作始于1985年。wordnet是一個在線的詞匯參照系統(tǒng),它的獨特之處在于它是依據(jù)詞義而不是依據(jù)詞形來組織詞匯信息。wordnet使用同義詞集合(synset)代表概念(concept),詞匯關(guān)系在詞語之間體現(xiàn),語義關(guān)系在概念之間體現(xiàn)。wordnet構(gòu)造的核心是如何表示詞匯概念節(jié)點,及在這些概念節(jié)點之間建立起各種語義關(guān)系。wordnet將英語詞匯組織為一個同義詞集合,每個集合表明一個詞匯概念,同時力圖在概念間建立不同的指針,表達上下位、同義、反義等不同的語義關(guān)系。經(jīng)過這樣的過程,原來抽象的概念被形式化了,變得具體且可以通過詞匯意義加以操作,概念之間還可以建立多種語義關(guān)系的聯(lián)系和推理。wordnet中詞匯概念的語義關(guān)系主要包括:上下位、同義、反義、整體和部分、蘊含、屬性、致使等。該文查詢詞語用的是wordnet2.1版本。version2.1主要包括名詞、動詞、形容詞和副詞四類實詞,虛詞并不予考察。我們主要利用的wordnet中的同義詞集,若句子中的某個關(guān)鍵詞屬于另一關(guān)鍵詞的同義詞,我們將其看作相同的詞,為下一步tfidf方法計算句子相似度做準(zhǔn)備。例如“scene”與“scenery”兩個詞,通過wordnet2.1查詢知“scenery”位于“scene”的同義詞集中,我們就將其看作相同詞;類似地,“potato”與“l(fā)oveapple”也是同義詞,也作為相同的詞。1.2基于向量空間模型的tfidf方法在信息檢索領(lǐng)域中,基于向量空間模型的tfidf方法被廣泛地用來計算漢語文本之間的相似度。這里,我們將tfidf方法引入tfidf方法綜合考慮了不同的詞在句子中的出現(xiàn)頻率(tf值)和這個詞在整個語料庫中對不同句子的分辨能力(idf值)。這種方法不需要任何對文本內(nèi)容的深層理解,是信息檢索領(lǐng)域常用的方法,當(dāng)句子中次數(shù)較多時能產(chǎn)生較好的效果。但是不管英語句子還是漢語句子,往往需要考慮詞本身的語義信息,ifidf在計算漢語句子相似度時沒有考慮到語義信息。例如,“西紅柿是什幺顏色”和“番茄是什幺顏色”采用tfidf方法計算相似度為0,但這兩個句子表達的意思應(yīng)該是完全相同的,因為“西紅柿”和“番茄”在語義上是完全等價即兩個詞為同義詞。
正是tfidf方法中融合進了wordnet的同義詞集消岐部分,語義上完全相同但相似度卻為0的情況得以改進。下面是通過對一些英語句子進行相似度的計算來對比一下加入wordnet查詢后的好處。2試驗結(jié)果下面的兩組數(shù)據(jù)是英語句子相似度值,一組是直接采用tfidf方法進行計算的結(jié)果,一組是采用wordnet進行查詢并簡單分析后再利用tfidf方法進行計算的結(jié)果。1)wordcannotdescribethebeautyofthescence.2)thebeautyofthescenerybeggarsdescription.3)thescenceissobeautifulthatittranscendmypowerofdescription.目標(biāo)句為:wordcannotdescribethespectacleofthenature.表1相似度計算結(jié)果的比較3結(jié)束語將tfidf方法用于英語句子之間相似度的計算,不需要對句子進行分詞。tfidf方法考慮了詞在上下文中的統(tǒng)計特性,不需要任何對文本內(nèi)容的深層理解,相對來說計算較為簡單,對于不需要考慮語義信息且詞匯量較大的英語句子來說能獲得較準(zhǔn)確的結(jié)果。先采用wordnet進行簡單的關(guān)鍵詞語同義消岐,然后利用tfidf方法進行計算可以在一定程度上提高英語句子相似度的準(zhǔn)確性。尤其是對于同義詞較多的句子中,效果將更為明顯。參考文獻:[1]張剛,劉挺,鄭實福,等.開放域中文問答系統(tǒng)的研究與實現(xiàn)[c].中國中文信息學(xué)會二十周年學(xué)術(shù)會議,2001.[2]burker,hammond,i.questionansweringfromfrequently-askedquestionfiles:experienceswiththefaqfindersystem[r].univ.ofchicago,dept.ofcomputersciencetechnicalreporttr-97-05,1997.[3]李偉.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工安全與環(huán)境保護
- 二零二五年度鋼結(jié)構(gòu)建筑室內(nèi)裝修材料供應(yīng)合同3篇
- 人教版三年級上冊語文30一次成功實驗課件
- 2024年海南衛(wèi)生健康職業(yè)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 2024年海南體育職業(yè)技術(shù)學(xué)院高職單招數(shù)學(xué)歷年參考題庫含答案解析
- 2024年浙江電力職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 2024年浙江汽車職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 幼兒園午托服務(wù)項目方案
- 2024年浙江農(nóng)業(yè)商貿(mào)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 2024年河南藝術(shù)職業(yè)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 華為管理學(xué)習(xí)心得體會
- 2025年首都機場地服公司招聘筆試參考題庫含答案解析
- 《廉政講堂格言》課件
- 2021年發(fā)電廠(含新能源場站)涉網(wǎng)電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全檢查表
- 審計服務(wù)采購招標(biāo)文件
- 2024年03月中國農(nóng)業(yè)發(fā)展銀行內(nèi)蒙古分行校園招考擬招錄人員筆試歷年參考題庫附帶答案詳解
- 空置房檢查培訓(xùn)
- 浙江省紹興市越城區(qū)2023-2024學(xué)年四年級上學(xué)期數(shù)學(xué)期末考試試卷
- 廣東省廣州市海珠區(qū)2023-2024學(xué)年九年級上學(xué)期期末英語試題(答案)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實踐指導(dǎo)材料之8:“5領(lǐng)導(dǎo)作用-5.2創(chuàng)新方針”(雷澤佳編制-2025B0)
- 2023年新疆廣播電視臺招聘事業(yè)單位工作人員筆試真題
評論
0/150
提交評論