第二章 檢索模型_第1頁
第二章 檢索模型_第2頁
第二章 檢索模型_第3頁
第二章 檢索模型_第4頁
第二章 檢索模型_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

教學(xué)目的和要求:了解幾種基本的檢索模型第二章檢索模型主要內(nèi)容:一布爾檢索模型二Fuzzysets模糊集合模型三向量空間檢索模型四概率檢索模型信息檢索的基本原理信息集合和需求集合的匹配和和選擇。(1)信息集合

文獻d,標(biāo)引詞k,權(quán)重w(2)需求集合潛在真實需求(realinformationneed)意識到的需求(perceptioninformationneed)表達出來的需求(request)系統(tǒng)能夠接受理解的需求(query)(3)匹配(函數(shù))信息檢索的原理2.1.1概念及原理布爾(Boolean)。布爾檢索模型采用布爾代數(shù)的方法,用布爾表達式表示用戶提問,通過對文獻表示與提問式的邏輯比較來檢索文獻。由于集合的定義是非常直觀,布爾模型提供了一個信息檢索系統(tǒng)和用戶容易掌握的框架。因而得到了廣泛的應(yīng)用。2.1布爾檢索模型(1)每個文獻用一組標(biāo)引詞表示例如,對于某一特定文獻i,可表示為:Di=(T1,T2,T3,…Tm)對于系統(tǒng)索引詞集合的每個索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或者不出現(xiàn),布爾模型的基本原理(2)提問式用3種布爾邏輯算符連接而成。邏輯與:and邏輯或:or邏輯非:not布爾模型的基本原理CatCatORDogCatANDDog(CatAND

Dog)(CatANDDog)OR

Collar(CatANDDog)OR

(CollarANDLeash)(CatORDog)AND(CollarORLeash)布爾提問式BooleanQueries(CatORDog)AND(CollarORLeash)下面6篇文獻那篇是命中文獻123456Cat x x Dog x x Collar x x Leash x x 標(biāo)引詞集合和提問式的匹配優(yōu)點:用戶可以按照自己習(xí)慣的思維方式用普通語言進行提問;將復(fù)雜的檢索過程簡單化,能夠?qū)z索提問按其概念組面的邏輯關(guān)系描述出來,從而變成計算機執(zhí)行的邏輯運算。自1967年被文獻檢索系統(tǒng)采用后,逐漸在信息檢索系統(tǒng)中得到廣泛的世紀(jì)應(yīng)用。2.1布爾檢索模型缺點難以構(gòu)造合適的檢索式;容易造成零輸出或輸出過量;不能區(qū)分各組配單元的重要程度;不能按照用戶定義的重要性排序輸出。2.1布爾檢索模型對每一個標(biāo)引詞,都存在一個模糊的文獻集合與之相關(guān)。同時,對某一給定的標(biāo)引詞,用某種隸屬函數(shù)去表示每一文獻與該詞相關(guān)的程度,在0-1之間取值。有關(guān)標(biāo)引詞的模糊集和是在標(biāo)引過程建立的。標(biāo)引員不是簡單的把標(biāo)引詞賦予文獻,還要指出標(biāo)引詞與文獻的相關(guān)程度。當(dāng)全部文獻標(biāo)引完畢后,實際上就已經(jīng)為每個標(biāo)引詞定義了一種隸屬函數(shù),指明了每一文獻與每個標(biāo)引詞的相關(guān)程度。2.2模糊集合模型提問可以用布爾表達式表示,并指定所需文獻對每個標(biāo)引詞的隸屬度。檢索過程中,模糊集合的運算根據(jù)扎德所定義的規(guī)則來進行,即將提問式“AANDB”轉(zhuǎn)換為“Wand—Min(a,b)”,“AORB”轉(zhuǎn)換為“Wor=Max(a,b)”。其中a和b分別為詞A和詞B的權(quán)值.Wand和Wor分別為上述兩個提問式的權(quán)值。“NOTA”或“NOTB”的權(quán)值則定義為1-a或1一b。最后,將檢索結(jié)果按文獻的權(quán)值排序輸出。2.2模糊集合模型最早從事模糊集合模型研究的有C.V.內(nèi)戈伊塔(Negoita)、V.塔哈尼(Tahani)和T·拉德基(Radecki)等人。內(nèi)戈伊塔1973年就嘗試用模糊邏輯來解釋情報檢索原理。塔哈尼1976年提出了他的模型。由于系統(tǒng)中標(biāo)引詞集合的容量可能很大,檢索過程要處理的項很多。為了節(jié)省處理時間,提高響應(yīng)速度,拉德基等人提出為提問中每個詞選定一個閾值A(chǔ)(o≤A≤1),將小于A的項去掉,以簡化運算過程。2.2模糊集合模型假設(shè)有兩篇文獻和兩個檢索詞D1={(t1,0.5),(t2,0.3)}D2={(t1,0.9),(t2,0.1)}第一篇文獻和第一個檢索詞的相關(guān)度為0.5,和第二個詞的相關(guān)度為0.3如果要查找t1ort2,那么v(D1)=max(0.5,0.3)=0.5,v(D2)=max(0.9,0.1)=0.9D2會排在d1的前面。如果要查找t1andt2,v(D1)=mix(0.5,0.3)=0.3,v(D2)=mix(0.9,0.1)=0.1D1={(圖書館,.8),(自動化,.4)}D2={(圖書館,.5),(自動化,.6)}提問式=圖書館AND自動化V(D1)=MIN(.8,.4)=.4V(D2)=MIN(.5,.6)=.5D2isrankedbeforeD1intheresultset.請思考這種方式的優(yōu)缺點1)它與傳統(tǒng)的布爾檢索關(guān)系非常密切,保留了布爾檢索功能,且更靈活。所有能支持布爾檢索的理論,對它也同樣適用。能滿足那些既想利用布爾檢索的長處又想避免其二值相關(guān)性測度的局限性的人的需要。(2)文獻可按用戶定義的重要程度排序輸出。

2.2.2模糊集合模型的主要優(yōu)點(1)由于它建立在布爾檢索的框架內(nèi),故它也帶有傳統(tǒng)布爾模型的某些缺陷。(2)模糊集合的運算規(guī)則導(dǎo)致其排序能力不能全面反映標(biāo)引詞的重要程度。例如,AandBD1:(A,0.8)(B,0.1),D2:(A,0.2)(B,0.1),哪篇文獻會排到前面?(3)定義隸屬函數(shù),也是一個很棘手的問題?大家思考隸屬函數(shù)可以從哪些方面著手2.2.3模糊集合模型的主要缺點又稱為代數(shù)模型,是檢索系統(tǒng)所有數(shù)學(xué)模型中最有創(chuàng)造性、最能揭示文獻之間的關(guān)系。20世紀(jì)70年代中期由杰拉爾德.索頓提出了檢索系統(tǒng)的代數(shù)模型,定義了文獻向量、提問向量、文獻提問相關(guān)系數(shù)以及屬性-文獻相關(guān)矩陣、屬性相關(guān)矩陣、文獻相關(guān)矩陣等概念。

2.3向量模型2.3.1向量模型的描述1)文檔D(Document):也稱文獻向量,泛指文檔或文檔中的一個片段(如文檔中的標(biāo)題、摘要、正文等)。2)特征項t(Term):也稱為屬性向量,指出現(xiàn)在文檔中能夠代表文檔性質(zhì)的基本語言單位(如字、詞等),也就是通常所指的檢索詞。3)文獻向量的表示:這樣一個文檔D就可以表示為D(t1,t2,…,tn),其中n就代表了檢索字的數(shù)量。2.3.1向量模型的描述4)特征項權(quán)重Wk(TermWeight):指特征項tn能夠代表文檔D能力的大小,體現(xiàn)了特征項在文檔中的重要程度。這樣文檔D的向量可以表示為D(wn1,wn2,…,wnm),其中w1,w2,…,wm分別代表文檔D特征項t1,t2,…,tn的特征項權(quán)重。自動標(biāo)引中的詞語加權(quán)方案(1)絕對詞頻法根據(jù)每個詞在特定文檔(集合)中的出現(xiàn)頻次來確定該詞重要程度的一種方法,最早有盧恩提出?;驹斫o定一個由N篇文檔組成的文檔集合,計算出每篇文檔中每個不同的詞的出現(xiàn)次數(shù)。把每個不同的詞在N篇文檔的出現(xiàn)次數(shù)相加,得到詞K的集合頻率。按集合頻率遞減順序排列這些詞,并確定高頻詞和低頻詞的閾值。挑選剩下的中頻詞作為標(biāo)引詞,并按照他們在相應(yīng)文檔的出現(xiàn)頻次確定權(quán)重。缺點是什么?(2)逆文檔頻率法英文InverseDocumentFrequency,基于以下假設(shè):某詞的重要性與它在特定文檔中的出現(xiàn)次數(shù)成正比,與含有該詞的文檔數(shù)成反比。詞頻加逆文檔詞頻確定權(quán)值的方法得到了廣泛的應(yīng)用。2.3.1向量模型的描述根據(jù)TF-IDF公式,文檔集中包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越??;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說明它區(qū)分文檔內(nèi)容屬性的能力越強,其權(quán)值越大。2.3.1向量模型的描述5)提問向量:用屬性向量表示特定提問式:Q=(q1,q2,…qm),其中qj(j=1,2,…,m),表示提問中含有集合A中屬性的程度,規(guī)定Q包含屬性aj,則qj=1,否則qj=0。2.3.1向量模型的描述6)相似度S(Similarity):指兩個文檔內(nèi)容相關(guān)程度的大小,當(dāng)文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內(nèi)積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高。2.3.1向量模型的描述圖2-1文檔相似度表示舉例:計算相似度1.00.80.60.40.20.80.60.40.201.0D1QTermBDi=(di1,wdi1;di2,wdi2;…;dit,wdit)Q=(qi1,wqi1;qi2,wqi2;…;qit,wqit)Q=(0.4,0.8)D1=(0.8,0.3)D2=(0.2,0.7)2.3.2向量模型的特點1)優(yōu)點:更深刻和準(zhǔn)確地描述出文獻之間的關(guān)系;檢索基于聚類文檔,即通過計算文獻之間的相關(guān)系數(shù),使屬性相似的文獻盡量聚集在一起,提高了檢索效率;采用部分匹配策略及排序輸出原理,提高了檢索的靈活性;通過相應(yīng)反饋技術(shù)自動修正提問向量,改進檢索結(jié)果。2)向量模型的不足:每篇文獻主題詞數(shù)量一致,反映不了文獻信息量的差異;提問向量和文獻向量一致,不符合用戶檢索習(xí)慣;計算相關(guān)系數(shù)工作量大,且標(biāo)引詞的權(quán)值難以確定;標(biāo)引詞兩兩正交的假設(shè)過于僵硬等。由于向量模型要求條件高,目前使用的并不多。2.3.2向量模型的特點2.4概率模型2.4.1概念及原理利用概率論的原理,通過賦予標(biāo)引詞概率值來表示這些詞在相關(guān)文獻集合或無關(guān)文獻集合中的出現(xiàn)概率,然后計算某一給定文獻與某給定提問相關(guān)的概率。最后系統(tǒng)據(jù)此做出檢索決策。概率標(biāo)引理論的基礎(chǔ)是對標(biāo)引詞加權(quán)并利用權(quán)值來計算文獻的相關(guān)值,即滿足給定提問的概率值。發(fā)展出三種模型

模型1Maron(馬龍)andKuhns(庫恩)1960年提出概率標(biāo)引理論:給定某一文獻D,對某一標(biāo)引詞來說,標(biāo)引員要做這樣的判斷,如果某一個類型用戶B判定D為相關(guān),且在提問式中只用一個詞,那他選擇該詞的概率有多大。

模型2Robertson&SparckJones基本思想:標(biāo)引階段不對標(biāo)引詞進行加權(quán),而是在檢索階段才導(dǎo)入概率檢索機制。檢索作業(yè)重復(fù)若干次,每重復(fù)一次,用戶就對檢出文獻進行相關(guān)性判斷,然后利用這種反饋信息,根據(jù)每個詞在相關(guān)文獻集合和無關(guān)文獻集合中的分布情況來計算他們的相關(guān)概率。模型3同時做出兩種預(yù)測,標(biāo)引員選詞標(biāo)引時要預(yù)測文獻對具有不同特性的用戶的相關(guān)概率,用戶選詞檢索時也要預(yù)測某詞對具有不同特性的文獻的相關(guān)概率2.4概率模型概率檢索模型有多種形式,常見的為第二概率檢索模型,首先設(shè)定標(biāo)引詞的概率值,一般是對檢索作業(yè)重復(fù)若干次,每一次檢索用戶對檢出文檔進行相關(guān)性判斷。再利用這種反饋信息,根據(jù)每個詞在相關(guān)文檔集合和無關(guān)文檔集合的分布情況來計算它們的相關(guān)概率,將詞的權(quán)值設(shè)計為:2.4概率模型其中P,P′分別表示某詞在相關(guān)文檔集和無關(guān)文檔集中出現(xiàn)的概率。某一文檔的權(quán)值則是它所含的標(biāo)引詞權(quán)值之和,于是,文檔d與用戶查詢Q相關(guān)概率可定義為:

2.4概率模型其中pw和pw’分別為w在相關(guān)文檔和無關(guān)文檔中的概率。上式中右邊和式是對所有出現(xiàn)在文檔d和查詢Q中的詞w求和,即w∈d∩Q.概率模型有嚴格的數(shù)學(xué)理論基礎(chǔ),采用了相關(guān)反饋原理克服不確定性推理的缺點,它的缺點是參數(shù)估計的難度比較大,文件和查詢的表達也比較困難。2.4概率模型2.4.2特點

(1)概率檢索模型的主要優(yōu)點是:①它顯然注意到檢索決策是容易出錯的,故采用了一種理論上更為嚴密的方式來進行決策。②它容易與加權(quán)方法結(jié)合起來,為人們提供了一種理論基礎(chǔ)。③它不涉及布爾算符的使用,回避了構(gòu)造布爾提問式的困難。④文獻可按用戶的期望值來排序輸出。⑤吸收了相關(guān)反饋原理,可開發(fā)出理論上更為堅實的方法。2.4概率模型(2)它的主要缺陷是:①布爾關(guān)系消失了(至少在早期的模型中是如此),“AANDB”和“AORB”被視為等同。②增加了存儲和計算資源的開銷。。③參數(shù)估計難度大。為此,人們提出了各種參數(shù)估計技術(shù),如最大閾值估計法、相關(guān)反饋原理、最大熵原理等。2.5瀏覽模型瀏覽是一種交互檢索行為,用戶先瀏覽系統(tǒng)文獻,然后決定最終檢索結(jié)果。對于大多數(shù)檢索系統(tǒng),用戶在檢索時都會表現(xiàn)出瀏覽行為,而不在乎系統(tǒng)的結(jié)構(gòu)如何。2.5.1含義基于瀏覽的檢索要求用戶處于結(jié)構(gòu)化數(shù)據(jù)庫中,用戶在對信息理解吸收的基礎(chǔ)上對數(shù)據(jù)庫進行瀏覽。有效的瀏覽系統(tǒng)數(shù)據(jù)庫應(yīng)具備幾個條件:能使用戶把特定的信息需求定位在數(shù)據(jù)庫感興趣的文獻集合中。能使用戶在做進一步檢索時意識到用合適的方法進行查找。能確保用戶快速有效地瀏覽數(shù)據(jù)庫。2.5瀏覽模型2.5.2對靜態(tài)數(shù)據(jù)庫的瀏覽瀏覽靜態(tài)數(shù)據(jù)庫時,要確保數(shù)據(jù)庫結(jié)構(gòu)使用戶易于理解且能提供有效的屬性特征幫助用戶瀏覽。比如按概念等級或文獻登錄日期等組織信息。目前比較常用鄰近網(wǎng)絡(luò)相似度的方法,即在數(shù)據(jù)庫中瀏覽時,先從一個款目開始,然后查找與其相似的其他所有款目,然后瀏覽最符合要求的信息。2.5瀏覽模型2.5瀏覽模型清華同方出品的“中國期刊網(wǎng)”,提供了按相似瀏覽的功能。這種結(jié)構(gòu)的數(shù)據(jù)庫為用戶提供空間角度瀏覽信息。同傳統(tǒng)等級式系統(tǒng)把檢索活動僅限于在特定區(qū)域相比,該系統(tǒng)允許用戶進行多方位瀏覽。瀏覽系統(tǒng)要求包含有豐富的交互式詞匯及聯(lián)想詞匯以幫助用戶獲取信息。鄰近網(wǎng)絡(luò)模型通過對數(shù)據(jù)庫中各款目創(chuàng)建網(wǎng)絡(luò)相關(guān)及創(chuàng)建不同網(wǎng)絡(luò)間相似度來達到豐富交互式詞匯及聯(lián)想詞匯的目的。收集的數(shù)據(jù)有兩種形式舉例:音像磁帶數(shù)據(jù)庫中有著者款目、出版商款目和出版年代款目。其他任何能描述文獻對象特征的都能成為一條款目。所有特征款目積聚起來就能構(gòu)成鄰近相關(guān)網(wǎng)絡(luò)。同時每個款目集能形成獨立的鄰近相關(guān)網(wǎng)絡(luò)。豐富的相關(guān)網(wǎng)絡(luò)集合能提供結(jié)構(gòu)化瀏覽。適當(dāng)?shù)木W(wǎng)絡(luò)集設(shè)計和相似度度量方法的設(shè)計是瀏覽模型研究的重點。鄰近相關(guān)網(wǎng)絡(luò)檢索策略彌補了簡單檢索策略的不足。比如,如果用戶同時找到兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論