




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、信息檢索系統(tǒng)的形式化表示信息檢索系統(tǒng)的形式化表示D, Q, F, R( di, q )D 文檔集合的機內(nèi)表示文檔集合的機內(nèi)表示lD=d1, d2 , , dml為了滿足檢索匹配所要求的快速與便利,文檔為了滿足檢索匹配所要求的快速與便利,文檔di通常由通常由從文檔中抽取的能夠表達(dá)文檔內(nèi)容的特征項(如索引從文檔中抽取的能夠表達(dá)文檔內(nèi)容的特征項(如索引項項/檢索詞檢索詞/關(guān)鍵詞)來表示關(guān)鍵詞)來表示l設(shè)設(shè)K=k1, k2 , , kn 為系統(tǒng)索引項集合為系統(tǒng)索引項集合則則di =i1,i2 , ,in (ij0)ij索引詞索引詞kj在文檔在文檔di中的重要性(權(quán)值中的重要性(權(quán)值weight)信息檢
2、索系統(tǒng)的形式化表示信息檢索系統(tǒng)的形式化表示Q用戶查詢的機內(nèi)表示用戶查詢的機內(nèi)表示l用戶需求的各種狀態(tài)用戶需求的各種狀態(tài) 潛在的真實需求(潛在的真實需求(Real Information Need,RIN) 意識到或感知到的需求(意識到或感知到的需求(Perception Information Need,PIN ) 表達(dá)出的需求(表達(dá)出的需求(Request)l用戶查詢(用戶查詢(Query) 用戶查詢一般采用與文檔類似的形式化表示用戶查詢一般采用與文檔類似的形式化表示F 文檔與查詢查詢之間的匹配框架文檔與查詢查詢之間的匹配框架R(di, q)R(di, q)文檔與用戶查詢之間相關(guān)度計算函數(shù)文
3、檔與用戶查詢之間相關(guān)度計算函數(shù)R(di, q)R(di, q)結(jié)構(gòu)化文本模型結(jié)構(gòu)化文本模型集合論模型集合論模型文文本本檢檢索索模模型型非重疊鏈表模型非重疊鏈表模型鄰近節(jié)點模型鄰近節(jié)點模型布爾模型布爾模型向量模型向量模型概率模型概率模型瀏覽模型瀏覽模型超文本模型超文本模型基于本體的模型基于本體的模型經(jīng)典模型經(jīng)典模型超文本模型超文本模型知識檢索模型知識檢索模型擴展布爾模型擴展布爾模型模糊集合模型模糊集合模型廣義向量模型廣義向量模型潛語義標(biāo)引模型潛語義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型語言模型語言模型代數(shù)模型代數(shù)模型概率模型概率模型信息檢索模型的類型
4、信息檢索模型的類型最早的最早的IR模型模型l1957年,年,YBar-Hille就對布爾邏輯應(yīng)用于計算就對布爾邏輯應(yīng)用于計算機信息檢索的可能性進(jìn)行了探討機信息檢索的可能性進(jìn)行了探討目前仍然應(yīng)用于商業(yè)系統(tǒng)中目前仍然應(yīng)用于商業(yè)系統(tǒng)中典型系統(tǒng):典型系統(tǒng):Lucene不相關(guān)和查詢,表示文獻(xiàn),此時相關(guān)和查詢,表示文獻(xiàn),此時QDQQQDQQQDSimjijij01),(無法體現(xiàn)文檔之間的細(xì)微差別無法體現(xiàn)文檔之間的細(xì)微差別相關(guān)度的大小只有兩個值,模型這種相關(guān)度的大小只有兩個值,模型這種“非此即彼非此即彼”的二值判斷標(biāo)準(zhǔn)無法區(qū)分文檔相關(guān)度大小的細(xì)微差的二值判斷標(biāo)準(zhǔn)無法區(qū)分文檔相關(guān)度大小的細(xì)微差別別向量空間模型
5、(向量空間模型(Vector Space Model,VSM)是由是由GSalton等人在等人在1958年提出的年提出的代表系統(tǒng)代表系統(tǒng)lSMART( System for the Manipulation and Retrieval of Text)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術(shù)研究的基礎(chǔ)技術(shù)研究的基礎(chǔ)文檔文檔提問提問關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量匹配匹配檢索到文獻(xiàn)檢索到文獻(xiàn)ld1 :土豆的美容功效:土豆的美容功效ld2 :土豆的栽培:土豆的栽培l(xiāng)d3:土豆的后期加工:土豆的后期加工lK=土豆、美容、栽培、加工土
6、豆、美容、栽培、加工體系結(jié)構(gòu)體系結(jié)構(gòu)總線總線計算機計算機數(shù)據(jù)庫數(shù)據(jù)庫.XML計算機科學(xué)計算機科學(xué)文檔集文檔集文檔集中的索引項文檔集中的索引項這些索引項是不相關(guān)的這些索引項是不相關(guān)的 (或者說是正交的或者說是正交的) ,形成一個向量空間,形成一個向量空間vector space文檔向量空間的表示文檔向量空間的表示:文檔文檔D1(W11,W21,Wn1)查詢查詢Q(W1q,W2q,Wnq)文檔文檔D2(W12,W22,Wn2)特征項特征項1特征項特征項2特征項特征項3文檔向量空間模型:文檔向量空間模型:文檔和文檔之間的相似度文檔和文檔之間的相似度Sim可以表示如下:可以表示如下:nknkjkikn
7、kjkikjiDWDWDWDWDDSim11221) )()()()(cos),(titiiqijtiiqijjWWWWQDSim11221) )(cos),(文檔和查詢之間的相似度文檔和查詢之間的相似度Sim可以表示如可以表示如下:下:文檔文檔D1=2K1+3K2+5K3查詢查詢Q=0K1+0K2+2K3文檔文檔D2=3K1+7K2+K3特征項特征項1特征項特征項2特征項特征項313. 0591)2()173 (210703),(81. 0385)2()532(250302),(2222222221QDSimQDSim文檔中關(guān)鍵詞的權(quán)重文檔中關(guān)鍵詞的權(quán)重兩方面因素兩方面因素l詞表達(dá)文檔內(nèi)容的
8、能力詞表達(dá)文檔內(nèi)容的能力 tfij關(guān)鍵詞的詞頻(關(guān)鍵詞關(guān)鍵詞的詞頻(關(guān)鍵詞tj在文檔在文檔di中的頻率)中的頻率)l詞區(qū)分其所在文檔與其它文檔的能力詞區(qū)分其所在文檔與其它文檔的能力 dfj 關(guān)鍵詞的文檔頻率(包含關(guān)鍵詞關(guān)鍵詞的文檔頻率(包含關(guān)鍵詞tj的文檔數(shù)量)的文檔數(shù)量)ltf-idf(詞頻(詞頻-逆文檔頻率)公式逆文檔頻率)公式Idf計算示例計算示例相似度計算相似度計算相似度是一個函數(shù),它給出兩個向量之間相似度是一個函數(shù),它給出兩個向量之間的相似程度,查詢式和文檔都是向量,各的相似程度,查詢式和文檔都是向量,各類相似度存在于:類相似度存在于:l兩個文檔之間(文本分類,聚類)兩個文檔之間(文
9、本分類,聚類)l兩個查詢式之間(常問問題集)兩個查詢式之間(常問問題集)l一個查詢式和一個文檔之間(檢索)一個查詢式和一個文檔之間(檢索)人們曾提出大量的相似度計算方法,因為人們曾提出大量的相似度計算方法,因為最佳的相似度計算方法并不存在。最佳的相似度計算方法并不存在。tk1內(nèi)積的特點內(nèi)積的特點內(nèi)積值沒有界限內(nèi)積值沒有界限l不象概率值,不象概率值,要在要在(0,1)之間之間對長文檔有利對長文檔有利l內(nèi)積用于衡量有多少詞項匹配成功,而不計算內(nèi)積用于衡量有多少詞項匹配成功,而不計算有多少詞項匹配失敗有多少詞項匹配失敗l長文檔包含大量獨立詞項,每個詞項均多次出長文檔包含大量獨立詞項,每個詞項均多次出
10、現(xiàn),因此一般而言,和查詢式中的詞項匹配成現(xiàn),因此一般而言,和查詢式中的詞項匹配成功的可能性就會比短文檔大。功的可能性就會比短文檔大。余弦向量度量法余弦向量度量法用向量夾角的余弦值表示向量的相似度用向量夾角的余弦值表示向量的相似度夾角余弦值越大,相似度越高夾角余弦值越大,相似度越高其實質(zhì)是利用向量長度對內(nèi)積進(jìn)行歸一化其實質(zhì)是利用向量長度對內(nèi)積進(jìn)行歸一化2t3t1t2D1D2Q1Jaccard 系數(shù)法系數(shù)法二值化的相似度度量二值化的相似度度量實際上,這些詞項是相互關(guān)聯(lián)的實際上,這些詞項是相互關(guān)聯(lián)的l當(dāng)你在一個文檔中看到當(dāng)你在一個文檔中看到“計算機計算機”, 非常有可能同時看到非常有可能同時看到“科
11、學(xué)科學(xué)”l當(dāng)你在一個文檔中看到當(dāng)你在一個文檔中看到“計算機計算機”,有中等的可能性同時看到有中等的可能性同時看到“商務(wù)商務(wù)”l當(dāng)你在一個文檔中看到當(dāng)你在一個文檔中看到“商務(wù)商務(wù)”,只有很少的機會同時看到,只有很少的機會同時看到“科學(xué)科學(xué)”擴展布爾模型擴展布爾模型擴展布爾模型擴展布爾模型布爾過濾布爾過濾排序排序布爾查詢式布爾查詢式向量空間模型向量空間模型查詢式查詢式文檔文檔結(jié)果結(jié)果如果忽略布爾關(guān)系的話,向量空間查詢式和布爾如果忽略布爾關(guān)系的話,向量空間查詢式和布爾查詢式是相同的查詢式是相同的(0,0)B(1,0)A(0,1)C(1,1)D(x,y) 在傳統(tǒng)布爾模型中,在傳統(tǒng)布爾模型中,(0,1)
12、、(1,0)、(1,1)幾個點幾個點的相關(guān)度都是的相關(guān)度都是1,擴展模型中將它們加以區(qū)分,擴展模型中將它們加以區(qū)分,體現(xiàn)為體現(xiàn)為“所有詞都出現(xiàn)比只出現(xiàn)幾個詞更有價所有詞都出現(xiàn)比只出現(xiàn)幾個詞更有價值值” 一個文檔在一個文檔在(1,1)處獲得最高的權(quán)重處獲得最高的權(quán)重,此時意,此時意味著文檔包含了全部兩個查詢詞,并且查味著文檔包含了全部兩個查詢詞,并且查詢詞在文檔中的權(quán)重也是最高的詢詞在文檔中的權(quán)重也是最高的 函數(shù)函數(shù)sim()度量了從原點出發(fā)的文檔向量度量了從原點出發(fā)的文檔向量長度,長度,距離越大,相似性越大。距離越大,相似性越大。(1,1)wx,jwy,j(1,0)(0,1)(0,0)最期望的
13、點dx y在傳統(tǒng)布爾模型中,在傳統(tǒng)布爾模型中,(0,1)、(1,0)、(0,0)幾個點的相關(guān)度都幾個點的相關(guān)度都是是0,擴展模型中將它們加以區(qū),擴展模型中將它們加以區(qū)分,體現(xiàn)為分,體現(xiàn)為“出現(xiàn)幾個詞總比出現(xiàn)幾個詞總比一詞都不出現(xiàn)更有價值一詞都不出現(xiàn)更有價值” 函數(shù)函數(shù)sim()度量了點度量了點(wx, wy) 到點到點(1, 1)的距離。距離越小,的距離。距離越小,相似性越大。相似性越大。(1,1)wx,jwy,j(1,0)(0,1)(0,0)估計估計R的特征的特征進(jìn)行檢索進(jìn)行檢索用戶判斷用戶判斷RR)()|()()|()|()|(),(RPRDPRPRDPDRPDRPQDSimjjjjj)|
14、()|(),(RDPRDPQDSimjjj)|()|()|()|(),(0)(1)(0)(1)(RKPRKPRKPRKPQDSimiDgiDgiDgiDgjjijijiji)|()|(1log)|(1)|(log),(1RKPRKPRKPRKPWWQDSimiiiitiijiqjNnRKPRKPiii)|(5 . 0)|()|(RKPi)|(RKPiVNVnRKPVVRKPiiiii)|()|(15 . 0)|(15 . 0)|(VNVnRKPVVRKPiiiii1)|(1)|(VNNnVnRKPVNnVRKPiiiiiii概率模型小結(jié)概率模型小結(jié)優(yōu)點優(yōu)點l有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)l采用相關(guān)反饋原理,可以開發(fā)出理論上更為堅實的系統(tǒng)采用相關(guān)反饋原理,可以開發(fā)出理論上更為堅實的系統(tǒng)l文檔可以按照他們相關(guān)概率遞減的順序來排序文檔可以按照他們相關(guān)概率遞減的順序來排序缺點缺點l開始時需要猜想把文檔分為相關(guān)和不相關(guān)的兩個集合
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深圳市二手房裝修工程施工合同
- 跨國(非獨占)品牌授權(quán)合作合同專業(yè)版
- 勞動合同判例解析:合同糾紛與法律適用
- 實習(xí)生實習(xí)與就業(yè)合同書
- 反擔(dān)保責(zé)任合同模板
- 購銷合同的反擔(dān)保書
- 全球商標(biāo)使用權(quán)轉(zhuǎn)讓合同
- 實習(xí)人員合同范本
- 終止建筑工程合同協(xié)議書
- 企業(yè)學(xué)徒工用工合同范本
- 開學(xué)安全第一課主題班會課件
- 一年級珍惜糧食主題班會學(xué)習(xí)教案
- 新版《醫(yī)療器械經(jīng)營質(zhì)量管理規(guī)范》(2024)培訓(xùn)試題及答案
- 2025年人教版數(shù)學(xué)五年級下冊教學(xué)計劃(含進(jìn)度表)
- 海岸動力學(xué)英文課件Coastal Hydrodynamics-復(fù)習(xí)
- 碳足跡研究-洞察分析
- 硬質(zhì)巖層組合切割開挖技術(shù)
- 2024解析:第二章聲現(xiàn)象-講核心(解析版)
- 2024年考研管理類綜合能力(199)真題及解析完整版
- 2025年初級社會工作者綜合能力全國考試題庫(含答案)
- 2024解析:第十章 浮力綜合應(yīng)用-講核心(解析版)
評論
0/150
提交評論