版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第2章 檢索系統(tǒng)第1節(jié) 數(shù)學模型第2節(jié) 檢索系統(tǒng)的類型第3節(jié) 檢索系統(tǒng)的構成第4節(jié) 國內(nèi)外主要的檢索系統(tǒng)第1節(jié) 數(shù)學模型在現(xiàn)實生活中,社會成員的信息需求千差萬別,獲取信息的方式與途徑也各式各樣。但是,如果仔細分析基于不同信息檢索設施或系統(tǒng)的檢索處理過程,其基本原理卻是相同的。我們可以把信息檢索的基本原理概括為一句話:檢索系統(tǒng)對用戶信息需求(集合)與系統(tǒng)存儲的信息資源(集合)所進行的某種匹配與選擇。如何進一步嚴密地表述和論證這一原理?這離不開數(shù)學工具,即需要建立信息檢索的數(shù)學模型。第1節(jié) 數(shù)學模型一、什么是數(shù)學模型二、檢索系統(tǒng)的形式化表示三、常用的數(shù)學模型數(shù)學模型,是指為了某種特定目的,通過對現(xiàn)
2、實世界的某一特定對象做出一些必要的簡化與假設,運用適當?shù)臄?shù)學工具得到的一種數(shù)學結構。數(shù)學模型具有保留本質、抑制細節(jié)的功能,它或者能解釋特定現(xiàn)象的狀態(tài)和性質,或者能預測它的未來狀況,或者能提供對處理對象的最優(yōu)決策或控制。信息檢索中的數(shù)學模型,就是運用數(shù)學的語言和工具,對信息檢索系統(tǒng)中的信息及其處理過程加以抽象和編碼,表述為某種數(shù)學公式,再經(jīng)過演繹、推理、解釋和檢驗,反過來指導信息檢索服務與實踐。(賴茂生,計算機情報檢索)第1節(jié) 數(shù)學模型一、什么是數(shù)學模型二、檢索系統(tǒng)的形式化表示三、常用的數(shù)學模型一般來說,一個信息檢索系統(tǒng)可以形式化表示為如下的四元組形式,即: System=(D,Q,F,R(dj
3、,q)其中:D:表示檢索系統(tǒng)的信息資源集合;Q:表示檢索系統(tǒng)的用戶信息需求集合;F:表示檢索系統(tǒng)的信息資源與信息需求的匹配處理框架;R(dj,q):匹配計算函數(shù)。1信息資源集合(D)檢索系統(tǒng)中一般存儲著大量的(有時甚至是海量的)經(jīng)過搜集與篩選的信息資源,為了便于用戶的查詢與訪問,通常對這些資源進行某種組織化處理。用集合論的觀點,可以把D表示為: D=d1,d2, ,dN(N0)如果以文本信息為例,這里,D集合是由N篇文檔所組成的,D的每一個元素dj(j=1,2,N)表示一篇文檔??紤]到檢索匹配所要求的快速與便利,每篇原始文檔信息在檢索系統(tǒng)中存儲時,一般還要生成文檔的某種邏輯視圖(logic v
4、iew of document)。對于文本信息而言,文檔邏輯視圖通常是從文檔中抽取出的能表達文檔內(nèi)容的特征項(如索引詞)所構成,它是文檔的一種形式化表示。為簡單起見,也可以把D看作是全體文檔邏輯視圖的一個集合體。1信息資源集合(D)全文文本是文檔的一個最完全的邏輯視圖,而由人類專家標引、提供的一個由少量索引詞構成的集合,則是一種最簡潔的文檔邏輯視圖,二者之間還存在許多不同的、中間狀態(tài)的邏輯視圖形式。文檔邏輯視圖的生成可以通過施加不同的文本操作(或轉換)來實現(xiàn)。例如:剔除停用詞、識別并使用名詞與名詞性詞組、進行詞干加工等等。下圖描述了英文檢索系統(tǒng)可能采用到的常見文本操作及其產(chǎn)生的不同文檔邏輯視圖
5、的情況。DocumentAccents,Spacing,EtcStopwordsNounGroupsStemmingAutomaticor manualIndexingStructureRecognition結構全文索引詞文本+結構文本文檔邏輯視圖:從全文文本到索引詞集合假設一個信息檢索系統(tǒng)存在t個索引詞,任一索引詞用ki表示,則全體索引詞的集合K可以表示為:K=k1,k2,ki, ,kt 進一步地,對于系統(tǒng)中的任一文檔dj,我們用wij來表示索引詞ki在文檔dj中的重要性,或稱為“權值”(weight)。一個索引詞權值的大小,定量地表示了該索引詞描述或揭示某文檔語義內(nèi)容的能力與價值。很顯然,
6、 wij 0,特別地,當ki不在文檔dj中出現(xiàn)時, wij =0。借用wij的定義,我們可以用一個由索引詞權值構成的向量來表示D集合中的一篇文檔,形式如下:dj =(w1j,w2j,wij)這種文檔的形式化表示將為后面對各種數(shù)學模型的理解奠定一個必要的基礎。文檔邏輯視圖是原始文檔的一個“替身”(Surrogate)。在信息檢索系統(tǒng)中,采用不同形式的文檔視圖表示,不僅會直接影響到檢索系統(tǒng)的檢索性能,也會影響到檢索系統(tǒng)的計算代價與計算復雜性。2用戶信息需求集合(Q)用戶信息需求的產(chǎn)生是信息檢索與信息檢索系統(tǒng)存在的基礎,而滿足用戶的信息需求,則是建立信息檢索系統(tǒng)的出發(fā)點,也是信息檢索系統(tǒng)發(fā)揮效用的歸
7、宿。從理論上講,用戶的信息需求有: 潛在真實需求(Real Information Need,簡稱RIN) 意識到或感知到的需求(Perception Information Need,簡稱PIN) 表達出的需求(Request) 提問(Query)RINPIN Request QueryPerceptionExpressionFormalization用戶信息需求的不同狀態(tài)Berrypicking行為模型 (Bates, 1989)2用戶信息需求集合(Q)這里,我們把用戶信息需求集合(Q)簡化為用戶的提問集合,并表示為: Q=q1,q2,qm集合中的每一個qi(i=1,2,m)表示一個具體的
8、用戶提問。在某一檢索系統(tǒng)中,使用自然語言表達的信息需求一般也要采用與文檔類似的形式化表示方法加以表述,以形成滿足系統(tǒng)檢索語言語法要求的提問式。這里,提問式可以理解為用戶信息需求的一種邏輯視圖表示。3信息資源與信息需求的匹配處理框架(F)信息檢索的根本任務是信息集合(D)與需求集合(Q)之間基于某種相似度規(guī)則的匹配處理。匹配處理框架(F)正是尋求在二者之間建立一種溝通與聯(lián)系機制,提供對文檔視圖、提問式以及它們之間關系進行模型化處理的框架與規(guī)則。不同的檢索模型,匹配處理的數(shù)學基礎及采用的匹配規(guī)則是不一樣的。例如,對布爾模型而言,匹配規(guī)則為二值相關性判斷(binary relevance judge
9、ment),匹配運算主要基于集合論的集合基本運算;對向量空間模型而言,匹配規(guī)則采用多值相關性判斷(n-ary relevance judgement),匹配處理建立在多維向量空間理論和標準的向量線性代數(shù)操作基礎之上;而概率模型則依賴集合論、概率運算和Bayes法則來完成檢索的匹配處理,其匹配規(guī)則也是多值性的相關性判斷。4匹配計算函數(shù)(R(dj,q))匹配函數(shù)R(dj,q) 是一個排序函數(shù),用于計算任一文檔dj (djD)與任一提問q(qQ)形成的文檔提問對(dj,q)之間的相似度大小,即為其相關度賦予一個排序值。一般R(dj,q)的函數(shù)值為一實數(shù),其取值區(qū)間為0,1。從數(shù)學上來講,匹配函數(shù)的選
10、取,要求能夠具備以下特點: 計算方法簡單,計算量小; 函數(shù)值在取值區(qū)間均勻分布; 針對某一提問所獲取的相關文檔集合,能夠實現(xiàn)合理的排序輸出。 目前,在信息檢索的研究和實踐活動中,已提出很多有效的匹配函數(shù)及其計算方法,其中絕大多數(shù)為基于多值相關性判斷標準的匹配函數(shù)。第1節(jié) 數(shù)學模型一、什么是數(shù)學模型二、檢索系統(tǒng)的形式化表示三、常用的數(shù)學模型檢索型數(shù)學模型(Retrieval)瀏覽型數(shù)學模型(Browsing)基于內(nèi)容的數(shù)學模型基于結構的數(shù)學模型(結構化模型)平面(Flat)結構導航(Structure Guided)超文本(Hypertext)集合論模型布爾模型非重疊鏈表(Non-Overlap
11、ping Lists)鄰近節(jié)點(Proximal Nodes)模糊集合模型擴展布爾模型代數(shù)論模型向量空間模型廣義向量空間模型潛在語義索引神經(jīng)網(wǎng)絡概率論模型(經(jīng)典)概率模型推理網(wǎng)絡信念網(wǎng)絡集合論檢索模型布爾模型布爾模型是一種簡單的檢索模型,它建立在經(jīng)典集合論和布爾代數(shù)的基礎上。鑒于集合論中的“集合”概念的直觀性以及布爾表達式所具有的準確語義,布爾模型非常容易被用戶理解和接受。布爾模型采用布爾代數(shù)的方法,用布爾表達式表示用戶提問,通過對文獻標識與提問式的邏輯比較來檢索文獻。在傳統(tǒng)的布爾模型中,每一篇文獻用一組標引詞表示。例如,對于某一特定文獻i,可表示為: Di=(T1, T2, T3, , Tm
12、) 每個提問則表示為標引詞的布爾組配。例如,對于特定提問Qj,可表示為: Qj=(T1 AND T2) OR (T3 AND NOT T4) 系統(tǒng)對提問的響應是輸出一個包含有該提問式的組配元且符合組配條件的文獻集合。例如,對上述提問Qj來說,系統(tǒng)的響應必須是這樣一組文獻:它們都含有標引詞T1 和T2,或者含有標引詞T3,但不含有標引詞T4。布爾檢索示例集合論檢索模型布爾模型布爾模型是最早提出的一個信息檢索模型。1957年,巴希列爾(Y Bar-Hille)就對布爾邏輯應用于計算機信息檢索的可能性進行了探討;20世紀60年代末期,布爾檢索模型正式被大型文獻檢索系統(tǒng)所采用;70年代時逐漸成為各種商
13、業(yè)性聯(lián)機檢索服務系統(tǒng)的標準檢索模式。目前,基于布爾檢索框架的各類檢索系統(tǒng)仍具有頑強的生命力,并在信息服務領域占據(jù)重要地位。該模型具有簡單、易理解、易實現(xiàn)以及能處理結構化提問等優(yōu)點,故在信息檢索系統(tǒng)中得到了廣泛的實際應用。不過,由于它采取準確匹配策略,太僵硬,不考慮那些大體能滿足提問需要的文獻,所以常常使檢索結果不能令人滿意。傳統(tǒng)布爾檢索模型的具體缺陷表現(xiàn)在以下五個方面:集合論檢索模型布爾模型(1)布爾檢索式的非友善性,即構造一個好的檢索式是 不容易的。尤其是對復雜的檢索課題,提問式既不易構造也不易理解。(2)易造成零輸出或輸出過量。檢索輸出完全依賴于布爾提問式與倒排檔中文獻的匹配情況,輸出量較
14、難控制。(3)無差別的組配元,不能區(qū)分各組配元的重要程度。(4)匹配標準有些不合理的地方。例如,在響應A AND B AND AND Z檢索式時,系統(tǒng)把只含有其中一個提問詞的文獻看作與那些根本不含有其中任何一個提問詞的文獻一樣差,同樣加以排除。另一方面,在響應A OR B OR OR Z檢索式時,系統(tǒng)卻不能把含有所有這些提問詞的文獻看作比那些只含有其中一個提問詞的文獻更好一些。(5)檢索結果不能按照任何用戶定義的重要性排序輸出。代數(shù)論檢索模型向量空間模型鑒于布爾模型的缺陷,20世紀60年代末期,信息處理專家、美國著名學者,被稱為現(xiàn)代搜索技術之父的薩爾頓(G. Salton)在其開發(fā)的試驗性檢索
15、系統(tǒng)SMART(System for Mechanical Analysis and Retrieval of Texts)中最早提出并采用線性代數(shù)的理論和方法構建出一種新型的檢索模型,這就是后來廣為人知的向量空間模型(Vector Space Model,簡稱VSM)。向量空間模型文檔D和查詢Q都可用向量表示;檢索過程就是計算文檔向量與提問向量之間的相似度;可以根據(jù)相似度值的不同,對檢索結果進行排序;可以根據(jù)檢索結果,進一步做相關檢索(Relevance feedback)。代數(shù)論檢索模型向量空間模型在向量空間模型中,檢索系統(tǒng)中的每一篇文獻和每個提問均用向量來表示,例如: Di=(T1, T
16、2, T3, , Tm) Qj=(T1, T2, T3, , Tm) 式中, Di為文獻集合中的第 i篇文獻; Qj為提問集合中第j個提問; Tk表示文獻向量或提問向量中的第k個分量,即文獻表示或提問式中所含有的第k個標引詞或檢索詞。從文本到向量空間(vector space)文檔的向量表示示例假定有三個項目(索引詞):“糖尿病”,“運動”,“高血壓”假定以項目(索引詞)在文本中的出現(xiàn)次數(shù)為項目的權值糖尿病T1運動T2高血壓T3d1235d2372q002計算向量之間的相似程度向量間相似程度的不同度量方法(幾十種)Inner product (內(nèi)積)Dice coefficient(dice系
17、數(shù))Cosine coefficient(余弦)Jaccard coefficient(雅各比)在上面的例子中,如何度量q 跟 d1 相似還是跟 d2 相似?夾角余弦:相似程度的最常用的度量方法夾角余弦計算示例代數(shù)論檢索模型向量空間模型采用這種向量檢索模型的典型系統(tǒng)就是G薩爾頓(Salton)等人20世紀60年代中期開始研制的實驗性系統(tǒng)SMART。與采用布爾模型的普通檢索系統(tǒng)相比,該系統(tǒng)有以下幾個特色:(1)采用自動標引技術為文獻提供標引詞。(2)文獻和提問在系統(tǒng)中被看作是m維向量空間中的多維詞空間,即表示為m維空間中的一個特定位置,其中m為標引作業(yè)中使用的不同標引詞的數(shù)量。(3)假定某一給定
18、向量中所包含的每個詞都相互獨立(即具有正交性),且全部詞均具有同等的重要性(除非是因給每個詞加權所引起的差別)。代數(shù)論檢索模型向量空間模型(4)檢索不以標準的倒排檔技術為基礎,而是基于聚類文檔,即通過計算文獻之間的相似度,使屬性相似的文獻計量聚攏在一起,以提高檢索效率。(5)采用部分匹配策略和排序輸出原理,提高了檢索的靈活性。(6)通過相關反饋技術自動修正提問向量,改進檢索結果。缺點:(1)相似度計算的工作量巨大;(2)文獻向量中各分量的值(標引詞權值)較難確定;(3)對標引詞兩兩正交的假設太僵硬等。概率論檢索模型經(jīng)典概率檢索模型概率模型(probabilistic model)基于概率排序原
19、理,即文獻應該根據(jù)它們與提問的相關概率來排序輸出。所有檢索系統(tǒng)都是通過處理它們所能獲得的、決定哪些文獻應被檢出的信息來響應提問的。在實踐中,人們認識到:現(xiàn)有的任何一種檢索機制都不理想,一些不相關的文獻常常被不適當?shù)貦z出,而另一些更符合需要的文獻卻可能漏檢了。概率檢索理論清楚地認識到這種不確定性,即給定文獻與給定提問之間存在某種相關概率。概率檢索模型就是利用概率論的原理,通過賦予標引詞某種概率值來表示這些詞在相關文獻集合或無關文獻集合中的出現(xiàn)概率,然后計算某一給定文獻與某給定提問相關的概率,最后系統(tǒng)據(jù)此做出檢索決策。它基本上是一種基于Bayes決策理論的自適應模型。與前兩種模型不同的是,它的提問
20、式不是直接由用戶編寫的,而是由系統(tǒng)通過某種歸納式學習過程(相關反饋)來構造一個決策函數(shù)去表示提問。概率論檢索模型經(jīng)典概率檢索模型最早提出排序輸出思想的是M.E.馬龍(Maron)和J.L.庫恩斯(Kuhns)。他們在1960年提出概率標引理論(probabilistic theory of indexing),標引作業(yè)描述為:給定某一特定文獻d,對某個標引詞來說,標引員的任務是作出這樣的預測:如果某一類型用戶B判定d為相關且在他的提問中只用一個檢索詞,則他可能選用該詞的概率有多大。也就是說,標引員要估計的是:對使用該標引詞檢索文獻的給定用戶類型來說,某一給定文獻的相關概率或權值。標引詞加權和利
21、用這種權值來計算文獻的“相關性”(滿足給定提問的概率)的方法就是概率標引理論的基礎。他們的目標是根據(jù)文獻與給定提問的相關值來對文獻進行排序。概率論檢索模型經(jīng)典概率檢索模型他們首先定義一組事件: Di:獲得的第i篇文獻并發(fā)現(xiàn)它是相關的。 Ij :要求獲得以第j個詞為標引詞的某一主題領域的文獻。A:來自圖書館的情報 P(A, Di) P(A, Di, Ij )P(A, Ij , Di)= P(A, Ij )公式中左端表示當某用戶要求獲得有關Ij的情報時,文獻Di,滿足其需要的概率;右端的P(A, Di)是文獻Di的一個先驗概率,通過圖書館的統(tǒng)計數(shù)據(jù)獲得; P(A, Di, Ij )表示當某用戶需要獲得Di所含的情報時,他用Ij做檢索詞的概率;而對于給定的提問Ij來說,P(A, Ij )是一個常數(shù)。概率論檢索模型經(jīng)典概率檢索模型概率模型的主要優(yōu)點是:(1)針對檢索決策容易出錯的問題,采用一種理論上更為嚴密的方式來進行決策。(2)容易與加權方法結合起來,為人們提供了一種理論基礎。(3)不涉及布爾算符的使用,回避了構造布爾提問式的困難。(4)文獻可按用戶的期望值來排序輸出。(5)吸收了相關反饋原理,可開發(fā)出理論上更為堅實的方法。缺點是:(1)布
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 采購戰(zhàn)略合同的智能化發(fā)展3篇
- 采購合同框架的設計與實踐3篇
- 采購意向合同書3篇
- 采購合同預付款的融資風險管理3篇
- 采購框架協(xié)議年度合同3篇
- 采購合同與采購計劃的協(xié)同制定3篇
- 采購合同管理中的合同管理策略3篇
- 采購法務與合同的簽訂流程3篇
- 2024年版投資對賭合同范本細則版B版
- 2024年度地磚鋪設與戶外照明設施合同3篇
- 勘察設計工作內(nèi)容
- 懸掛燈籠施工方案
- 某自來水公司自然災害應急預案樣本(2篇)
- 無人機職業(yè)生涯規(guī)劃
- 2024年食品安全法知識培訓考試題庫含答案(基礎題)
- DL∕T 516-2017 電力調度自動化運行管理規(guī)程
- 仁愛英語九年級上作文范文
- [爆笑小品校園劇本7人]爆笑小品校園劇本
- 第五章 逆向選擇
- 高速鐵路電氣化系統(tǒng)概論PPT優(yōu)秀課件
- 農(nóng)村祠堂上梁說辭
評論
0/150
提交評論