


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、向量空間模型的信息檢索技術(shù) 摘要: 向量空間模型是一種以查詢Q和文檔集合D1,D2,Dn為處理對象的算法,通過這種算法計(jì)算出這個(gè)查詢的相似度SC(Q,Di)以及每篇文檔Di(1in)。為了能夠?qū)崿F(xiàn)對信息檢索中的文本分類策略,采用了空間模型算法,做了實(shí)驗(yàn)文檔測試,獲得了各自的權(quán)重文檔搜索結(jié)果,得到在檢索過程中,向量空間模型根據(jù)文檔之間的相似度,計(jì)算哪個(gè)文檔最符合用戶輸入的關(guān)鍵字的結(jié)論,具有信息檢索中文本相似度根據(jù)權(quán)值大小分類顯示的特點(diǎn)。 Abstract: Vector space model is a Q query and document co
2、llection of D1,D2,Dn., as the processing object algorithm, this algorithm to calculate the similarity of the query SC(Q,Di) and each document D(1in).In order to realize the text classification in information retrieval,the space model algorithm is adopted in this paper. The weight document search res
3、ults were obtained by means of the documentation testing in the lab,In a retrieval process,the vector space model is used according to the similarity between documents to calculate which one conforms to user S input key words.It has the characteristics of text similarity display according to the wei
4、ght classification in the information retrieva1. 關(guān)鍵詞: 空間向量模型;查詢;信息檢索;文檔相關(guān)性 Key words: space vector model;query;information retrieval;document dependence 中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2013)13-0208-02 0 引言 向量空間模型是一種以查詢Q和文檔集合D,D,D為處理對象的算法,通過這種算法計(jì)算出這個(gè)查詢的相似度SC(Q,D)以及每篇文檔D(1in)。在文檔和查詢擁有的共同的此項(xiàng)更多的時(shí)候,那么文檔
5、和查詢就更加相關(guān)。但是,通常一個(gè)概念是能夠用很多不同的詞項(xiàng)來表達(dá)的,這是因?yàn)檎Z言文字具有著自身的不確定性。另外,語言的環(huán)境對term也有著比較大的影響,語言環(huán)境不同,盡管是相同的term也可能造成表達(dá)含義的不同,有的時(shí)候詞性不同,那么它表達(dá)的含義也就不一樣。而檢索算法就能夠通過一些措施來解決語言表達(dá)中不確定性的問題。 下面介紹幾種常用的檢索模型: 向量空間模型:向量空間模型是能夠計(jì)算兩個(gè)向量之間的相似度的,那么如果將查詢和文檔都用詞項(xiàng)空間中的向量來表示的話,那么就可以通過這種方法計(jì)算出二者的相似度。 概率模型:每個(gè)詞項(xiàng)在文檔中出現(xiàn)的概率,需要基于文檔集中的前提下,通過詞項(xiàng)在相關(guān)文檔中出現(xiàn)的可能
6、性來計(jì)算的。要推斷文檔或者查詢問的相關(guān)性,需要通過貝葉斯網(wǎng)絡(luò)。而在文檔中能夠做出文檔相關(guān)性推斷的那些依據(jù)正是基于文檔的證據(jù)。文檔查詢的相似度也就成為了推理的可信度。 1 空間模型的理論概念 最為接近查詢的內(nèi)容的文檔就是相關(guān)的文檔,在這個(gè)過程中,需要運(yùn)用文檔內(nèi)的詞項(xiàng)來衡量。向量空間模型的基本理念如圖1。 這個(gè)模型的主要工作有兩個(gè)方面:一方面是通過向量的構(gòu)建,來表示詞項(xiàng),這里的詞項(xiàng)來自于文檔;另一方面是通過向量的構(gòu)建,來表示查詢的詞項(xiàng)。任意文檔向量和查詢向量要是相似的話,那么就只有一種的可能,就是文檔向量和查詢向量的指向在大體上是一樣的。 2 向量空間模型的算法 2.1 計(jì)算權(quán)重 在一篇文檔中,影
7、響詞語的重要性的因素有兩個(gè)。 一個(gè)是term frequency(tf):也就是說term在這個(gè)文檔中出現(xiàn)的次數(shù),這個(gè)數(shù)值越高說明這個(gè)詞在整個(gè)文檔中越重要。 另外一個(gè)是document frequency(df):就是指的包含term的文檔的總數(shù),這個(gè)數(shù)值越大就說明這個(gè)詞語越不 重要。 對于每一篇文檔向量,都有n個(gè)分量,并且對于整個(gè)文檔集中每個(gè)不同的詞項(xiàng),都包含一個(gè)詞條。向量中的每個(gè)分量為整個(gè)文檔集中計(jì)算出來的每個(gè)詞項(xiàng)的權(quán)重。在每篇文檔中,詞項(xiàng)權(quán)重基于詞項(xiàng)在整個(gè)文檔集中出現(xiàn)的頻率情況以及詞項(xiàng)在某一個(gè)特定文檔中出現(xiàn)的頻率自動賦值。詞項(xiàng)在一篇文檔中出現(xiàn)的頻率越高,則權(quán)重越大;相反,如果詞項(xiàng)在所有文
8、檔中出現(xiàn)的頻率越高,則權(quán)重越小。 僅當(dāng)詞項(xiàng)在文檔中出現(xiàn)時(shí),文檔向量中詞項(xiàng)的權(quán)重才為非零值。對于一個(gè)包含許多小文檔的大文檔集,文檔向量可能會包含大量的零元素。 2.2 判斷term之間的關(guān)系從而得到文檔相關(guān)性 可以把文檔看成一系列詞,每個(gè)詞都有一個(gè)權(quán)重,不同的詞根據(jù)實(shí)際文檔中的權(quán)重來影響文檔相關(guān)性的打分計(jì)算。所有文檔中總的詞的權(quán)重看做一個(gè)向量。 所有搜索出的文檔向量及查詢向量放到一個(gè)N維空間中,每個(gè)詞是一維。兩個(gè)向量之間的夾角越小,相關(guān)性越大。所以計(jì)算夾角的余弦值作為相關(guān)性的打分,夾角越小,余弦值越大,打分越高,相關(guān)性越大,如圖2所示。 相關(guān)性評價(jià)公式如下: score(q,d)= 3 引入實(shí)例
9、測試 可以簡單測試如下,查詢語句有11個(gè)Term,有4篇文檔搜索出來,其中各自的權(quán)重(Term Weight)見表1。 SC(Q,D2)=(0.954×0.477)+(0.176)2/ ·0.825 由表1可得出結(jié)果,D2文檔的相關(guān)性最高,最先返回,其次是文檔D1,D3,最后D4。 4 結(jié)論 這篇論文對向量空間模型算法進(jìn)行了介紹。文章的語義是使用各種詞語來表達(dá)的,詞語是具有不確定性的,這是這個(gè)模型所依據(jù)的一個(gè)思想。主要把任意一個(gè)文檔中的詞語當(dāng)做一個(gè)向量的話,通過文檔與查詢之間的比較,就有可能會得出他們的相似度。目前這個(gè)模型主要應(yīng)用在信息檢索的域。 參考文獻(xiàn): 1何飛.基于向量空間模型的文檔聚類算法研究J.湖南城市學(xué)院學(xué)報(bào),2011(5):114-116. 2唐菁.Web文本挖掘系統(tǒng)及聚類算法的研究J.電信建設(shè),2004(2):24-28. 3邱宇紅.向量空間模型在醫(yī)學(xué)文獻(xiàn)相關(guān)性研究中的應(yīng)用 D.沈陽:中國醫(yī)科大學(xué),2006. 4張?jiān)?,趙仲孟,沈鈞毅.一種基于向量空間模型的個(gè)性化搜索引擎研究J.微電子學(xué)與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 美甲合作合同協(xié)議書
- 雇傭提成合同協(xié)議書范本
- 試題分析與對比ACCESS試題及答案
- 班組勞務(wù)合同協(xié)議書建筑
- 財(cái)務(wù)決策與邏輯鏈條試題及答案
- 計(jì)算機(jī)二級Delphi考試規(guī)劃與復(fù)習(xí)中的正確心態(tài)試題及答案
- 2025年VFP考試成功經(jīng)驗(yàn)賞析試題及答案
- 2025年C語言考綱深入分析試題及答案
- 瑜伽館承接合同協(xié)議書
- 材料采購終止合同協(xié)議書
- 高壓均質(zhì)及熱處理改性鷹嘴豆蛋白對減磷豬肉糜凝膠特性的影響機(jī)制
- 人效提升方案
- 2025春-新版一年級語文下冊生字表(200個(gè))
- 期末易錯(cuò)題型創(chuàng)新改編練習(xí)(專項(xiàng)練習(xí))六年級下冊數(shù)學(xué)人教版
- 《橋梁工程概況介紹》課件
- 2025年四川成都道德與法制中考試卷(無)
- 2024年不動產(chǎn)登記代理人《地籍調(diào)查》考試題庫大全(含真題、典型題)
- 中醫(yī)基礎(chǔ)學(xué)題庫(附答案)
- 大學(xué)美育知到智慧樹章節(jié)測試課后答案2024年秋長春工業(yè)大學(xué)
- 2024年秋《MySQL數(shù)據(jù)庫應(yīng)用》形考 實(shí)驗(yàn)訓(xùn)練1 在MySQL中創(chuàng)建數(shù)據(jù)庫和表答案
- 《數(shù)據(jù)資產(chǎn)會計(jì)》 課件 第五章 數(shù)據(jù)資產(chǎn)的價(jià)值評估
評論
0/150
提交評論