2 信息檢索基礎(chǔ)理論_第1頁(yè)
2 信息檢索基礎(chǔ)理論_第2頁(yè)
2 信息檢索基礎(chǔ)理論_第3頁(yè)
2 信息檢索基礎(chǔ)理論_第4頁(yè)
2 信息檢索基礎(chǔ)理論_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2信息檢索基礎(chǔ)理論2.1信息檢索的基本原理■通過(guò)對(duì)大量的、分散無(wú)序的文獻(xiàn)信息進(jìn)行搜集、加工、組織、存儲(chǔ),建立各種各樣的檢索系統(tǒng),并通過(guò)一定的方法和手段,使存儲(chǔ)與檢索這兩個(gè)過(guò)程所采用的特征標(biāo)識(shí)達(dá)到一致,以便有效地獲得和利用信息源?!龃鎯?chǔ)是為了檢索,檢索又必須先進(jìn)行存儲(chǔ)。信息存儲(chǔ)與檢索■一是信息存儲(chǔ),即把大量分散的無(wú)序的信息集中起來(lái),經(jīng)過(guò)加工,使之有序化、系統(tǒng)化,成為有功能的檢索工具或檢索系統(tǒng)?!龆切畔z索,是指通過(guò)一定的方法和手段,使信息存儲(chǔ)與檢索兩個(gè)過(guò)程所采用的特征和標(biāo)識(shí)達(dá)到一致,以便有效地獲取和利用文獻(xiàn)...手工檢索與計(jì)算機(jī)化檢索的對(duì)比手工計(jì)算機(jī)信息集合文字型檢索工具機(jī)讀數(shù)據(jù)庫(kù)需求集合文字型檢索課題形式化表示的提問(wèn)式匹配選擇眼看、主翻、腦子判斷計(jì)算機(jī)程序信息檢索的基本原理:信息集合一一匹配選擇一—需求集合1、需求集合需求集合涉及人類生存所必需的一切東西,其中包括信息需求。■信息需求的結(jié)構(gòu)與規(guī)律。⑴信息需求是一種運(yùn)動(dòng)狀態(tài),并表現(xiàn)為三個(gè)層次結(jié)構(gòu)。⑵信息需求的心理行為規(guī)律包括Mooers定律、Zipf最少省力法則、馬太效應(yīng)和羅賓漢效應(yīng)。⑶學(xué)生信息需求特征?!鲂畔⑿枨蟮淖R(shí)別與表達(dá)?!鲂畔⑿枨蟮奶幚砼c加工。即采用特定的檢索語(yǔ)言將信息需求表示出來(lái),換言之,將檢索問(wèn)題或課題進(jìn)行處理,抽取出主題內(nèi)容或其他特征。經(jīng)過(guò)這樣處理的信息需求稱之為Query。用戶的信息需求是發(fā)展變化的,并且受著時(shí)、空的限制。這說(shuō)明,用戶信息需求的狀態(tài)是一種“運(yùn)動(dòng)狀態(tài)”,科亨(Kochen)曾經(jīng)將用戶的信息需求狀態(tài)劃分為如下圖所示的三個(gè)層次。人類的社會(huì)信息(情報(bào))需求1.生活中的需求表現(xiàn)物質(zhì)生活的信息需求精神、文化生活的信息需求(3)個(gè)人安全的信息需求勞動(dòng)和其他社會(huì)工作的信息需求社會(huì)交往與互助的信息需求適應(yīng)社會(huì)的信息需求增長(zhǎng)知識(shí)的信息需求創(chuàng)造活動(dòng)的信息需求(9)實(shí)現(xiàn)某種生活目標(biāo)的信息需求(10)產(chǎn)生某種興趣的信息需求職業(yè)工作中的需求表現(xiàn)(1)有關(guān)職業(yè)工作環(huán)境方面的信息需求(2)有關(guān)職業(yè)工作業(yè)務(wù)素質(zhì)方面的信息需求(3)有關(guān)職業(yè)工作物質(zhì)條件方面的信息需求(4)有關(guān)職業(yè)工作社會(huì)關(guān)系方面的信息需求(5)有關(guān)職業(yè)工作業(yè)務(wù)環(huán)節(jié)的信息需求(6)有關(guān)職業(yè)工作目標(biāo)方面的信息需求生理需求安全需求社交需求尊敬需求實(shí)現(xiàn)需求信息需求咱然信息需求、社會(huì)信息需求)活動(dòng)(7)有關(guān)職業(yè)工作技能與知識(shí)方面的信息需求社會(huì)化中的需求表現(xiàn)(1)關(guān)于基本生活和勞動(dòng)技能方面的信息(2)關(guān)于社會(huì)生活目的、社會(huì)觀與價(jià)值觀的信息(3)關(guān)于社會(huì)的自然環(huán)境信息(4)關(guān)于認(rèn)識(shí)社會(huì)地位與職業(yè)的信息(5)關(guān)于社會(huì)行為規(guī)范、紀(jì)律、法制等方面的信息(6)關(guān)于所有與之交往的社會(huì)其他成員的信息2、信息集合信息集合是指有關(guān)某一領(lǐng)域的文獻(xiàn)或數(shù)據(jù)的集合?!鲂畔⒓系膹?fù)雜性?!鲂畔⒓系男蚧!鯝ccesspointe每件信息都包含有其內(nèi)部和外部的特征即信息的屬性,這些特征可以用來(lái)作為檢索的出發(fā)點(diǎn)和匹配的依據(jù)。我們稱之為檢索點(diǎn)。3、匹配與選擇匹配與選擇是一種機(jī)制,它負(fù)責(zé)把需求集合與信息集合進(jìn)行相似性比較,然后根據(jù)一定的標(biāo)準(zhǔn)選出符合需要的信息。■采用布爾模型,一個(gè)文檔通過(guò)一個(gè)關(guān)鍵詞條的集合來(lái)表示,這些詞條來(lái)自一個(gè)詞典。在查詢與文檔的匹配過(guò)程中,主要看該文檔中的詞條是否滿足查詢的條件?!霾捎孟蛄磕P?,計(jì)量文檔向量與查詢?cè)~串之間的相似度?!霾捎酶怕收撃P?,將文檔按照與查詢的概率相關(guān)性的大小進(jìn)行排序,排在最前面的文檔是最有可能被獲取的文檔?!龃送?,還可以采用神經(jīng)網(wǎng)絡(luò)模型、基于命題邏輯模型、聚類模型、基于規(guī)則模型、模糊模型和語(yǔ)義模型等,來(lái)深入研究查詢與文檔之間的匹配過(guò)程。信息檢索的本質(zhì)是信息用戶的需求和信息集合的比較與選擇,即匹配(match)的過(guò)程?!鲇脩舾鶕?jù)檢索需求,對(duì)一定的信息集合采用一定的技術(shù)手段,根據(jù)一定的線索與準(zhǔn)則找出相關(guān)的信息。計(jì)算機(jī)信息檢索原理示意圖IR系統(tǒng)組成:用戶接口(輸入查詢、返回結(jié)果及反饋),用戶兩種任務(wù):retrieval或browsing,IR兩種模式:pull(用戶主動(dòng)發(fā)起請(qǐng)求,在相對(duì)穩(wěn)定之?dāng)?shù)據(jù)集合上)和push(用戶自定義興趣、系統(tǒng)發(fā)出流動(dòng)數(shù)據(jù)給用戶),文本處理(預(yù)處理查詢和文本),查詢處理(對(duì)文本處理之后的查詢進(jìn)一步處理得到查詢的內(nèi)部表示),文本標(biāo)引(Indexing得到TextRepresentation),搜索、排序、LogicalView2.2信息檢索的相關(guān)性問(wèn)題■定義:檢索結(jié)果與用戶需求一致性程度■影響因素:?用戶信息需求的表達(dá)?相關(guān)度判斷的算法?用戶的主觀判斷■手檢相關(guān)性、機(jī)檢相關(guān)性■“相關(guān)性"(relevance),是指信息檢索系統(tǒng)針對(duì)用戶的查詢(query)從文檔集中檢出的文檔與查詢之間的一種匹配關(guān)系。?現(xiàn)代信息檢索以自然語(yǔ)言文本為對(duì)象,從嚴(yán)格意義上講,文檔與查詢之間不再是數(shù)據(jù)庫(kù)檢索中的那種簡(jiǎn)單的匹配關(guān)系。但“匹配”這一術(shù)語(yǔ)一直在使用,這里也接受這種說(shuō)法。手檢相關(guān)性■依賴于用戶智能?知識(shí)結(jié)構(gòu)、項(xiàng)目進(jìn)展階段、用戶心理、認(rèn)知行為、認(rèn)知能力■提高手檢相關(guān)性的方法:?分析概念及學(xué)科屬性;對(duì)檢索工具的了解?調(diào)整檢索策略機(jī)檢相關(guān)性■系統(tǒng)相關(guān)性?(1)詞頻方法(2)位置方法(3)引用率方法(4)點(diǎn)擊率方法(5)分類或聚類■用戶相關(guān)性搜索引擎三大定律第一定律相關(guān)性定律情報(bào)檢索、信息檢索或全文檢索的相關(guān)性都是基于詞頻統(tǒng)計(jì)的。當(dāng)用戶輸入檢索詞時(shí),搜索引擎去找那些檢索詞在文章(網(wǎng)頁(yè))中出現(xiàn)頻率較高的,位置較重要的,再加上一些對(duì)檢索詞本身常用程度的加權(quán),最后排出一個(gè)結(jié)果來(lái)(檢索結(jié)果頁(yè)面)。第二定律人氣質(zhì)量定律解決了技術(shù)問(wèn)題。科學(xué)引文索引機(jī)制的思路移植到網(wǎng)上就是誰(shuí)的網(wǎng)頁(yè)被鏈接次數(shù)多,那個(gè)網(wǎng)頁(yè)就被認(rèn)為是質(zhì)量高,人氣旺的。再加上相應(yīng)的鏈接文字分析,就可以用在搜索結(jié)果的排序上了。根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,并不完全依賴于詞頻統(tǒng)計(jì),而是更多地依賴于超鏈分析。這條定律也成為李彥宏申請(qǐng)的美國(guó)專利。第三定律自信心定律根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,除了詞頻統(tǒng)計(jì)和超鏈分析之外,更注重的是競(jìng)價(jià)拍賣。誰(shuí)對(duì)自己的網(wǎng)站有信心,誰(shuí)就排在前面。有信心的表現(xiàn)就是愿意為這個(gè)排名付錢?;谠~頻統(tǒng)計(jì)的相關(guān)性■當(dāng)用戶輸入檢索詞時(shí),搜索引擎去找那些檢索詞在文章(網(wǎng)頁(yè))中出現(xiàn)頻率較高的,位置較重要的,再加上一些對(duì)檢索詞本身常用程度的加權(quán),最后排出一個(gè)結(jié)果來(lái)(檢索結(jié)果頁(yè)面)?!鲈缙诘乃阉饕娼Y(jié)果排序都是基于詞頻統(tǒng)計(jì)的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網(wǎng)絡(luò)時(shí)代之前學(xué)術(shù)界的研究成果,工業(yè)界的主要精力放在處理大訪問(wèn)量和大數(shù)據(jù)量上,對(duì)相關(guān)性排序沒有突破?!鲈~頻統(tǒng)計(jì)其實(shí)根本沒有利用任何跟網(wǎng)絡(luò)有關(guān)的特性,是前網(wǎng)絡(luò)時(shí)代的技術(shù)。然而,網(wǎng)絡(luò)時(shí)代的主要文獻(xiàn)是以網(wǎng)頁(yè)的形式存在的,而幾乎每個(gè)人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容,詞頻相同的兩個(gè)網(wǎng)頁(yè),質(zhì)量相差可以很遠(yuǎn),可是按照搜索引擎的第一定律,對(duì)這兩個(gè)網(wǎng)頁(yè)的排序應(yīng)該是一樣的。為了能夠派在某些檢索結(jié)果的前幾位,許多網(wǎng)頁(yè)內(nèi)容的制作者絞盡腦汁,在其頁(yè)面上堆砌關(guān)鍵詞,搜索引擎對(duì)此防不勝防,苦不堪言。這種情況到了1996年開始有了改變。(2)位置方法■根據(jù)關(guān)鍵詞在文中出現(xiàn)的位置來(lái)判定文件的相關(guān)性。認(rèn)為關(guān)鍵詞出現(xiàn)得越靠前,文件的相關(guān)程度就越高。(3)引用率方法■科學(xué)引文分析■超鏈分析百度GooglePangRank算法■科學(xué)引文索引的機(jī)制,說(shuō)白了就是誰(shuí)的論文被引用次數(shù)多,誰(shuí)就被認(rèn)為是權(quán)威,論文就是好論文。這個(gè)思路移植到網(wǎng)上就是誰(shuí)的網(wǎng)頁(yè)被鏈接次數(shù)多,那個(gè)網(wǎng)頁(yè)就被認(rèn)為是質(zhì)量高,人氣旺。再加上相應(yīng)的鏈接文字分析,就可以用在搜索結(jié)果的排序上了。這就引出了搜索引擎的第二定律:人氣質(zhì)量定律。根據(jù)這一定律,搜索結(jié)果的相關(guān)性排序,并不完全依賴于詞頻統(tǒng)計(jì),而是更多地依賴于超鏈分析。■但是,令一些專家更加頭疼的是,網(wǎng)頁(yè)評(píng)級(jí)算法使那些原本合法的、并且非常符合用戶檢索需求的網(wǎng)頁(yè),因?yàn)楹苌俦黄渌W(wǎng)頁(yè)鏈接而被深深地埋在成千上萬(wàn)的搜索結(jié)果中。對(duì)于一個(gè)特定用戶來(lái)說(shuō),某一個(gè)網(wǎng)頁(yè)跟他的檢索需求的相關(guān)度其實(shí)并不取決于這個(gè)網(wǎng)頁(yè)是否流行。.“Google的搜索技術(shù)更多地是把注意力集中在Web的架構(gòu)上,這樣不利于挖掘網(wǎng)頁(yè)深層次的價(jià)值,而含有特定主題的'簇'的概念則非常相似于生物界的'群落',”Teoma的副總裁PaulGardi說(shuō)。在Teoma引擎向用戶給出搜索結(jié)果之前,它會(huì)確定下來(lái)一系列與關(guān)鍵詞相關(guān)的“群落”,并找到這個(gè)“群落”內(nèi)的權(quán)威站點(diǎn),然后根據(jù)這些權(quán)威站點(diǎn)對(duì)網(wǎng)頁(yè)的引用頻率確定每個(gè)頁(yè)面的相關(guān)程度。AskJeeves就是因?yàn)榉艞壛嗽瓉?lái)的搜索技術(shù)提供者轉(zhuǎn)而采用Teoma引擎,而使其檢索量在2002年和2003年每年都增加了30%?!鯳EB中各頁(yè)面之間的鏈接關(guān)系是一項(xiàng)可以利用的重要信息。基于這種信息的技術(shù)被稱為鏈接分析技術(shù)。絕大部分鏈接分析算法都有共同的出發(fā)點(diǎn):更多地被其他頁(yè)面鏈接的頁(yè)面是質(zhì)量更好的頁(yè)面,并且從更重要的頁(yè)面出發(fā)的鏈接有更大的權(quán)重。這個(gè)循環(huán)定義可以通過(guò)迭代算法巧妙打破。最著名的鏈接分析算法是Stanford大學(xué)提出并應(yīng)用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法。.HITS是IBMAlmaden研究中心開發(fā)的另一種鏈接分析算法。它認(rèn)為每個(gè)WEB頁(yè)面都有被指向、作為權(quán)威(Authority)和指向其他頁(yè)面作為資源中心(Hub)的兩方面屬性,其取值分別用A(p)和H(p)表示。A(p)值為所有指向p的頁(yè)面q的中心權(quán)重H(q)之和,同樣,頁(yè)面p的中心權(quán)重H(p)值是所有p所指向的頁(yè)面q的權(quán)威權(quán)重A(q)之和,如下式:A(p)=£H(qi)(其中qi是所有鏈接到p的頁(yè)面)H(p)=£A(qi)(其中qi是所有頁(yè)面p所鏈接到的頁(yè)面)■鏈接分析方法常常和基于內(nèi)容的檢索方法相結(jié)合。盡管很多基于較小的數(shù)據(jù)規(guī)模(數(shù)十G)網(wǎng)頁(yè)數(shù)據(jù)的實(shí)驗(yàn)并不能證明鏈接分析算法能夠提高檢索的性能。但是,很多人都相信,鏈接分析方法能夠反映WEB社會(huì)的一些最自然的屬性,應(yīng)該能夠在大規(guī)模真實(shí)環(huán)境下提高檢索結(jié)果。Google的使用成功也增強(qiáng)了大家的信心砝碼。PageRank定義的是在WEB中頁(yè)面的訪問(wèn)概率。訪問(wèn)概率越大的頁(yè)面的PageRank值也越大。具體的計(jì)算公式是:Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+Pr(t2)/C(t2)+...+Pr(tn)/C(tn))即,每個(gè)頁(yè)面的PageRank(Pr)是無(wú)意中直接瀏覽到的概率和從上一頁(yè)中繼續(xù)訪問(wèn)的概率總和。其中,T是節(jié)點(diǎn)(頁(yè)面)總數(shù),C(t)是從頁(yè)面t指出的超鏈接總數(shù),d稱為阻尼因子(dampingfactor),一般取值為0.85。概率Pr(t)反映了節(jié)點(diǎn)t的重要程度。(4)點(diǎn)擊率方法“鼠標(biāo)投票”代表:DirectHit(5)分類和聚類

■分類:將一篇文章/文本自動(dòng)的識(shí)別出來(lái),按照先驗(yàn)的類別進(jìn)行匹配,確定?!鼍垲悾簩⒁唤M的文章/文本/信息進(jìn)行相識(shí)性的比較,將比較相識(shí)的文章/文本/信息歸為同一組的技術(shù)?!瞿:垲悾簺]有先驗(yàn)的聚類因子,完全按照算法來(lái)進(jìn)行識(shí)別和類大小,類的多少,類的誤差等都是不確定因素。分類和聚類為什么出錯(cuò)?關(guān)鍵在于一個(gè)模糊上。因?yàn)闄C(jī)器不像人擁有極強(qiáng)的認(rèn)知能力,利用機(jī)器進(jìn)行新聞分類和聚類所采用的做法通常都是我們說(shuō)的模式識(shí)別,或者更精確的說(shuō)其實(shí)是一種模糊特征識(shí)別。公車?;不能聯(lián)想:自相關(guān)性判斷方法的缺點(diǎn)分析標(biāo)引停留在字符層次:蘋果:水果?公司?;不能區(qū)分同形異義詞行車單車腳踏車…公車?;不能聯(lián)想:自■基于內(nèi)容的理解■聯(lián)想功能及語(yǔ)義處理■相關(guān)反饋技術(shù)■提供信息導(dǎo)引功能2.3信息檢索的效果評(píng)價(jià)■評(píng)價(jià)指標(biāo)體系:查全率、查準(zhǔn)率、漏檢率、誤檢率■查全率(檢全率)檢全率=二檢出相關(guān)文獻(xiàn)"x100%

系統(tǒng)中相關(guān)文獻(xiàn)總量■查全率(檢全率)查準(zhǔn)率(檢準(zhǔn)率)檢準(zhǔn)率=查準(zhǔn)率(檢準(zhǔn)率)檢準(zhǔn)率=檢出相關(guān)文獻(xiàn)量

檢出文獻(xiàn)總量x100%淮好壺淀"為漏檢相關(guān)文獻(xiàn)量漏檢率漏檢率=X100%系統(tǒng)中相關(guān)文獻(xiàn)總量I口松玄誤檢文獻(xiàn)量誤檢率誤檢率=檢出文獻(xiàn)總量x100%影響檢索效果的主要因素■存儲(chǔ)檢索■信息系統(tǒng)組織結(jié)構(gòu)、檢索系統(tǒng)功能問(wèn)題■檢索策略、檢索方法問(wèn)題提高檢索效果的措施■熟悉各種信息檢索系統(tǒng)特征■認(rèn)真分析課題需求■靈活掌握檢索方法和提高制定檢索策略的能力網(wǎng)絡(luò)信息資源檢索效果評(píng)價(jià)■索引數(shù)據(jù)庫(kù)■信息組織管理評(píng)價(jià)指標(biāo)■信息檢索功能評(píng)價(jià)指標(biāo)■檢索結(jié)果評(píng)價(jià)指標(biāo)■檢索界面的評(píng)價(jià)指標(biāo)2.4信息檢索系統(tǒng)和工具類型:手工檢索系統(tǒng)、穿孔卡片檢索系統(tǒng)、縮微檢索系統(tǒng)、光盤檢索系統(tǒng)、計(jì)算機(jī)信息檢索系統(tǒng)、網(wǎng)絡(luò)信息檢索系統(tǒng)印刷型檢索工具的類型和結(jié)構(gòu)■文獻(xiàn)檢索工具:目錄、題錄、索引、文摘■事實(shí)和數(shù)據(jù)檢索工具2.4計(jì)算機(jī)檢索系統(tǒng)的結(jié)構(gòu)及工作原理■聯(lián)機(jī)■光盤■網(wǎng)絡(luò)■物理結(jié)構(gòu)■邏輯結(jié)構(gòu):信息選擇與采集子系統(tǒng)、標(biāo)引處理子系統(tǒng)、建庫(kù)子系統(tǒng)、詞表管理子系統(tǒng)、用戶接口子系統(tǒng)、提問(wèn)處理|檢索匹配子系統(tǒng)(1)信息選擇與采集子系統(tǒng)?要求:快速、經(jīng)濟(jì)、廣泛、連續(xù)?功能:信息選擇與采集子系統(tǒng)將決定信息檢索系統(tǒng)中數(shù)據(jù)庫(kù)的類型及收錄范圍,是信息檢索與利用的起點(diǎn)。?工作方式對(duì)通常的計(jì)算機(jī)化檢索系統(tǒng)來(lái)說(shuō),信息選擇與采集主要由人工完成,但對(duì)于網(wǎng)絡(luò)信息檢索系統(tǒng)來(lái)說(shuō),則主要通過(guò)網(wǎng)絡(luò)搜索機(jī)器人Robot自動(dòng)進(jìn)行,并且可以定期更新。(2)標(biāo)引處理子系統(tǒng)?功能標(biāo)引(indexing)是指對(duì)文獻(xiàn)主題特征進(jìn)行分析并使之顯性化,以便為存儲(chǔ)和檢索這兩個(gè)環(huán)節(jié)提供某種連接的文獻(xiàn)加工操作。標(biāo)引處理子系統(tǒng)將決定著數(shù)據(jù)庫(kù)的標(biāo)引深度(或網(wǎng)羅度)和檢索點(diǎn),并直接影響到系統(tǒng)的檢索方式和檢索功能。?標(biāo)引處理的類型——人工賦詞標(biāo)引—機(jī)器標(biāo)引——無(wú)標(biāo)引(或全標(biāo)引)?標(biāo)引要求不漏標(biāo)一全面不錯(cuò)標(biāo)一準(zhǔn)確不濫標(biāo)一簡(jiǎn)練(3)建庫(kù)子系統(tǒng)主要作業(yè)內(nèi)容包括:?數(shù)據(jù)錄入?錯(cuò)誤檢查與處理?數(shù)據(jù)格式轉(zhuǎn)換在程序控制下自動(dòng)完成。例如,支持聯(lián)機(jī)檢索的數(shù)據(jù)庫(kù)一般要在主文檔基礎(chǔ)上再產(chǎn)生出主文檔索引、倒排文檔和詞典文檔。?文檔更新維護(hù)由程序控制,定期進(jìn)行更新或上載數(shù)據(jù)。倒排文件(InvertedFile)每個(gè)文檔都可以用一系列關(guān)鍵詞來(lái)表示,從檢索目的來(lái)說(shuō),這些關(guān)鍵詞描述了文檔的內(nèi)容。只要找到文檔,便可以找到文檔中的關(guān)鍵詞。反過(guò)來(lái),如果按關(guān)鍵詞建立到文檔的索引,便可以根據(jù)關(guān)鍵詞快速地檢索到相關(guān)文檔。具體地,關(guān)鍵詞被存儲(chǔ)在索引文件(indexfile)中(比如,按字母順序存儲(chǔ)),對(duì)于每個(gè)關(guān)鍵詞,都有一個(gè)指針鏈表,該表中的每個(gè)指針指向與該關(guān)鍵詞相關(guān)的某個(gè)文檔,所有指針鏈表構(gòu)成置入文件(postingfile)。這種倒排文件的方法幾乎被當(dāng)前所有的商用IR系統(tǒng)所采用[61]。詞表管理子系統(tǒng)在文本信息檢索系統(tǒng),各種詞表系統(tǒng)(如主題詞表、后控詞表等)通常作為一個(gè)重要成分而存在,詞表中的詞匯可以在用戶檢索信息時(shí)實(shí)現(xiàn)對(duì)檢索效果的有效控制。詞匯管理子系統(tǒng)有時(shí)也可獨(dú)立存在。?功能:管理維護(hù)系統(tǒng)中已有詞表的結(jié)構(gòu)、詞匯,使它與標(biāo)引、建庫(kù)、檢索等多個(gè)子系統(tǒng)相連接;支持用戶的各種詞匯查詢操作;輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品等。?類型:主題詞表(Thesaurus)(受控詞匯檢索系統(tǒng))后控詞表(post-controlledvocabulary)(自然語(yǔ)言檢索系統(tǒng))用戶接口子系統(tǒng)?功能:用于人機(jī)交互,承擔(dān)用戶與系統(tǒng)之間的通訊任務(wù)。?界面風(fēng)格(5種)命令/指令語(yǔ)言(commandlanguage)菜單選擇(menuselection)表格填充(formfill-in)直接操縱(directmanipulation)自然語(yǔ)言(naturallanguage)?接口技術(shù)(2種):字符用戶界面(CUICharacterUserInterface)圖形用戶界面(GUIGraphicUserInterface)WIMP(Window、Icon、Menu、Pointingdevice)提問(wèn)處理/檢索匹配子系統(tǒng)(技術(shù)核心)?功能:負(fù)責(zé)處理用戶輸入的檢索詞或提問(wèn)式,并將它們與數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行匹配運(yùn)算,然后把運(yùn)算結(jié)果返回給用戶。?主要操作流程:—接收用戶提問(wèn)提問(wèn)校驗(yàn)對(duì)提問(wèn)式進(jìn)行語(yǔ)法、格式、用詞等的檢查。提問(wèn)加工對(duì)源提問(wèn)式進(jìn)行解釋性或編譯性的加工,以便機(jī)器處理。常用的加工方法有:表展開法,逆波蘭法,準(zhǔn)波蘭法,范式法等。——檢索匹配將提問(wèn)式與數(shù)據(jù)庫(kù)記錄進(jìn)行匹配(精確匹配或局部匹配)。聯(lián)機(jī)檢索系統(tǒng)的工作原理■聯(lián)機(jī)數(shù)據(jù)庫(kù)?存取號(hào)基本索引字段輔助索引字段■文檔組織?順排文檔倒排文檔■檢索流程網(wǎng)絡(luò)檢索系統(tǒng)的結(jié)構(gòu)及工作原理一般結(jié)構(gòu):自動(dòng)索引程序、數(shù)據(jù)庫(kù)、檢索代理軟件2.5信息檢索模型模型信息檢索系統(tǒng)的形式化表示布爾檢索模型向量空間模型概率檢索模型其他信息檢索模型信息檢索的基本原理系統(tǒng)對(duì)信息集合與需求集合的匹配與選擇數(shù)學(xué)工具數(shù)學(xué)模型什么是模型?■模型是采用數(shù)學(xué)工具,對(duì)現(xiàn)實(shí)世界某種事物或某種運(yùn)動(dòng)的抽象描述■面對(duì)相同的輸入,模型的輸出應(yīng)該能夠無(wú)限地逼近現(xiàn)實(shí)世界的輸出,例如:天氣的預(yù)測(cè)模型■模型和實(shí)現(xiàn)的區(qū)別:一個(gè)模型可以用多種方法實(shí)現(xiàn)例如,布爾模型可以倒排文檔(invertedfile)實(shí)現(xiàn),也可以用B-tree實(shí)現(xiàn)。信息檢索的數(shù)學(xué)模型:運(yùn)用數(shù)學(xué)的語(yǔ)言和工具,對(duì)IR中的信息及其處理過(guò)程加以翻譯和抽象,表達(dá)為某種數(shù)學(xué)公式。信息檢索模型決定于:■從什么樣的視角去看待查詢式和文檔■基于什么樣的理論去看待查詢式和文檔的關(guān)系■如何計(jì)算查詢式和文檔之間的相似度信息檢索系統(tǒng)的形式化表示通常,可以把一個(gè)信息檢索系統(tǒng)形式化地描述為一個(gè)四元組:System=(D,T,Q,p)其中:D={d1,d2,d3……dn},表示系統(tǒng)中經(jīng)過(guò)標(biāo)引的或直接采集的文獻(xiàn)集合;n為數(shù)據(jù)庫(kù)容量(n30)°T={t1,t2,t3……tm},表示系統(tǒng)所有可能存在的可檢項(xiàng)的集合;Q={q,q,q〔……q^},表示所有提問(wèn)的集合;123kp:QXD-R,p稱為映射函數(shù)或匹配函數(shù),QXD是提問(wèn)集合Q與文獻(xiàn)集合D的笛卡爾乘積,R為函數(shù)值的集合。信息檢索經(jīng)典模型1布爾模型(1950s末)布爾邏輯+集合論?擴(kuò)展布爾模型(統(tǒng)一模型)(1980s初)2向量空間模型(VSMVectorSpaceModel)?模糊模型3概率模型(1980s末)1布爾模型■基于特征項(xiàng)的嚴(yán)格匹配模型。首先建立一個(gè)二值變量的集合,如果文本中出現(xiàn)了對(duì)應(yīng)的特征項(xiàng),則變量取'True”,否則取"False”。查詢由特征項(xiàng)和邏輯運(yùn)算符(“AND”、“OR”、“NOT”)組成。文本查詢的匹配規(guī)則遵循布爾運(yùn)算的法則。在六、七十年代的許多商用檢索系統(tǒng)DIALOG、STAIRS、MEDLARS就是基于布爾模型。■Knowledgeandmanagementnotcomputer.文檔表示-一個(gè)文檔被表示為關(guān)鍵詞的集合.查詢式表示-查詢式(Queries)被表示為關(guān)鍵詞的布爾組合,用“與或非”連接起來(lái),并用括弧指示優(yōu)先次序.匹配-一個(gè)文檔當(dāng)且僅當(dāng)它能夠滿足布爾查詢式時(shí),才將其檢索出來(lái).不同的系統(tǒng)可以使用:?不同的去除停用詞(stopwordremoval)策略和stemming策略-索引中不同類型的輔助信息?不同的實(shí)現(xiàn)方法布爾模型的特點(diǎn).優(yōu)點(diǎn):簡(jiǎn)單、易于理解,能處理結(jié)構(gòu)化提問(wèn),易于表示同義關(guān)系(如:電腦OR計(jì)算機(jī))和詞組(數(shù)據(jù)AND挖掘AND系統(tǒng));速度快。.缺點(diǎn):不能表示特征項(xiàng)對(duì)文本的重要性(詞加權(quán));缺乏定量分析(檢索結(jié)果評(píng)價(jià))和靈活性以及不能表述模糊匹配。.例如:信息檢索and(智能or反饋).ClassicalBoolean的最大缺點(diǎn):只有0和1,沒有ranking。要么返回大量結(jié)果,要么沒有結(jié)果。布爾模型被認(rèn)為是功能最弱的方式,其主要問(wèn)題在于不支持部分匹配,而完全匹配會(huì)導(dǎo)致太多或者太少的結(jié)果文檔被返回.ClassicalBoolean另一缺點(diǎn):太僵化,在OR方式中,包含很多查詢?cè)~的文檔和包含少數(shù)詞的文檔是等同的;在AND方式中,即使缺少一個(gè)詞,結(jié)果也是FALSE,等于一個(gè)詞也沒有.非常剛性:“與”意味著全部;“或”意味著任何一個(gè)?如果“我想要n個(gè)詞中m個(gè)詞同時(shí)出現(xiàn)的文檔”,怎么表示??不可能企望用戶自己規(guī)定m值?系統(tǒng)可以從m=n開始,然后逐漸減少m,但很麻煩.很難表示用戶復(fù)雜的需求.很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回.很難對(duì)輸出進(jìn)行排序不考慮索引詞的權(quán)重,所有文檔都以相同的方式和查詢相匹配.很難進(jìn)行自動(dòng)的相關(guān)反饋如果一篇文檔被用戶確認(rèn)為相關(guān)或者不相關(guān),怎樣相應(yīng)地修改查詢式呢?擴(kuò)展布爾模型extendedboolean■加權(quán)布爾檢索.以布爾算符的一種近似解釋系統(tǒng)為基礎(chǔ).在各種擴(kuò)展中,p-norm模型的運(yùn)行結(jié)果是最符合實(shí)際的P-norm模型P-norm模型:參數(shù)討論.P=infinity時(shí),等同于classicalboolean模型.P較低時(shí)(如在[2,5]內(nèi)),and方式中一個(gè)權(quán)值低的詞會(huì)使總體值大大降低,or方式中一個(gè)權(quán)值高的值會(huì)使總體值大大提高

.P=1時(shí),變成vectorspacemodel,and和or方式實(shí)際上相同,公式變?yōu)閏osinesimilarity。.P-norm可以得到更大的靈活性。用戶可以指定某個(gè)子表達(dá)式的P值,例如一個(gè)較大的值表示對(duì)它要求比較嚴(yán)格。.P-norm是對(duì)boolean模型和vector模型的一個(gè)理論上的高度概括。擴(kuò)展布爾模型的應(yīng)用情況.在商用系統(tǒng)Topic中支持?jǐn)U展布爾模型■擴(kuò)展布爾模型可以取得比傳統(tǒng)布爾模型和向量空間模型更好的結(jié)果.使用這種模型的代價(jià)是需要更多的知識(shí)2向量空間模型(VSM)■向量空間模型(VectorSpaceModel)由Salton等人于20世紀(jì)60年代末提出,是一種簡(jiǎn)便、高效的文本表示模型,其理論基礎(chǔ)是代數(shù)學(xué)。G.Salton等人領(lǐng)導(dǎo)和研制的試驗(yàn)性系統(tǒng)SMART。.SMART是由CornellUniversity的GerardSalton開發(fā)的,是最早的文本檢索系統(tǒng)之一。.它具有以下特點(diǎn):(1)自動(dòng)建立索引;(2)自動(dòng)生成聚類層次計(jì)算聚類中心;(3)進(jìn)行查詢/文檔相似度計(jì)算并且根據(jù)文檔與查詢的相似程度對(duì)文檔排序;(4)將文檔以基于詞匯的向量空間表示;(5)根據(jù)用戶反饋?zhàn)詣?dòng)提高對(duì)查詢的處理。.與布爾模型不同,向量空間模型把用戶的查詢要求和數(shù)據(jù)庫(kù)文檔信息表示成由檢索項(xiàng)構(gòu)成的向量空間中的點(diǎn)(向量),而通過(guò)計(jì)算向量之間的距離來(lái)判定文檔和查詢之間的相似程度(例如,用它們之間夾角的余弦作為相似性度量)。然后,根據(jù)相似程度排列查詢結(jié)果。/Term3在向量空間模型中,首先要建立文本和用戶查詢的向量,然后進(jìn)行查詢向量和文本向量的相似性計(jì)算。并可以在.匹配結(jié)果的基礎(chǔ)上進(jìn)行相關(guān)反饋,優(yōu)化用戶的查詢。向量空間模型的關(guān)鍵在于特征向量的選取徵、征向量的權(quán)值兩個(gè)部分。相似度是一個(gè)函數(shù),它給出兩個(gè)向量之間的相似程度查詢式和文檔都是向量,各類相似度存在于:?兩個(gè)文檔之間?兩個(gè)查詢式之間?一個(gè)查詢式和一個(gè)文檔之間人們?cè)岢龃罅康南嗨贫扔?jì)算方法,因?yàn)樽罴训南嗨贫扔?jì)算方法并不存在。通過(guò)計(jì)算查詢式和文檔之間的相似度,可以:-可以根據(jù)預(yù)定的重要程度對(duì)檢索出來(lái)的文檔進(jìn)行排序-通過(guò)強(qiáng)制設(shè)定某個(gè)閾值,控制被檢索出來(lái)的文檔的數(shù)量-檢索結(jié)果可以被用于相關(guān)反饋中,以便對(duì)原始的查詢式進(jìn)行修正。(例如:將文檔向量和查詢式向量進(jìn)行結(jié)合)■用向量空間模型計(jì)算向量距離時(shí),一般采用向量的夾角余弦來(lái)表示,兩個(gè)文檔之間相同的詞越多且這些詞的權(quán)重越高,則其距離越近?!鲇?jì)算權(quán)重的目的是要正確突出每個(gè)索引項(xiàng)在文章中的重要程度.一般來(lái)講,某個(gè)詞在某文本中經(jīng)常出現(xiàn)且在其他文本中不常出現(xiàn),就說(shuō)明該詞對(duì)該文本或該類文本更具有代表性,應(yīng)具有更高的權(quán)重。另一方面,如果一個(gè)索引項(xiàng)在很多文檔中都出現(xiàn),那么這個(gè)索引項(xiàng)則不能很好地代表某一類文檔,其權(quán)重應(yīng)較小。向量空間模型及其基本原理(1)文獻(xiàn)向量和文獻(xiàn)矩陣的構(gòu)造(2)提問(wèn)向量的構(gòu)造(3)提問(wèn)與文獻(xiàn)的匹配函數(shù)(4)相似度閾值的確定對(duì)向量空間模型的評(píng)價(jià)與分析?優(yōu)越性(相對(duì)于布爾模型)—VSM只是提供了一個(gè)理論框架,具有廣泛的適應(yīng)性;——采用部分匹配策略;—檢索不是以倒排檔技術(shù)為基礎(chǔ),而是基于聚類文檔;—檢索結(jié)果可以采用排序輸出方式。將文本和查詢簡(jiǎn)化為特征項(xiàng)及權(quán)值集合的向量表示,從而把檢索操作變成向量空間上的向量運(yùn)算。向量的權(quán)重可以通過(guò)簡(jiǎn)單的統(tǒng)計(jì)來(lái)完成,即通過(guò)定量的分析對(duì)查詢和文本進(jìn)行匹配。.該模型的權(quán)重計(jì)算方法能夠提高系統(tǒng)的檢索性能;.模型中使用的部分匹配方法能檢索出與用戶的查詢輸入條件“近似”的文檔;.在模型中用余弦方法進(jìn)行距離度量,因此可以根據(jù)檢索出的結(jié)果與查詢條件的相關(guān)程度對(duì)結(jié)果進(jìn)行排序。對(duì)向量空間模型的評(píng)價(jià)與分析(續(xù))?缺陷與不足—相似度計(jì)算量巨大;—對(duì)可檢項(xiàng)兩兩正交的假設(shè)不切合實(shí)際。.這一模型的基本假設(shè)是特征項(xiàng)之間無(wú)關(guān)(索引項(xiàng)是不相關(guān)的un-correlated(或者說(shuō)是正交的orthogonal),形成一個(gè)向量空間(vectorspace),但很明顯在自然語(yǔ)言中,詞或短語(yǔ)之間存在著十分密切的聯(lián)系,所以這一假設(shè)對(duì)計(jì)算結(jié)果的可靠性造成一定的影響。例如,計(jì)算機(jī)科學(xué)文檔集.實(shí)際上,這些詞項(xiàng)是相互關(guān)聯(lián)的當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)”,非常有可能同時(shí)看到“科學(xué)”當(dāng)你在一個(gè)文檔中看到“計(jì)算機(jī)”,有中等的可能性同時(shí)看到“商務(wù)”當(dāng)你在一個(gè)文檔中看到“商務(wù)”,只有很少的機(jī)會(huì)同時(shí)看到“科學(xué)”在該模型中有一個(gè)假定:所有的索引項(xiàng)之間是相互獨(dú)立的。在權(quán)重計(jì)算公式中就沒有考慮索引項(xiàng)之間的相互關(guān)系,但人們發(fā)現(xiàn),在實(shí)踐中,這些檢索項(xiàng)的相互依賴性對(duì)系統(tǒng)的性能將造成影響。因?yàn)樵谀承┪臋n中,很多索引項(xiàng)都是相互依賴的,如果將它們不加選擇地應(yīng)用于語(yǔ)料庫(kù)所有的文檔中,必將損害系統(tǒng)的性能。向量空間模型在文本信息處理中的應(yīng)用:向量空間模型對(duì)信息檢索具有非常重要的理論貢獻(xiàn)。自1960s末至今,VSM獲得了廣泛的應(yīng)用,并一直主導(dǎo)著文本信息處理領(lǐng)域的研究。VSM的價(jià)值在于將非結(jié)構(gòu)化的文本信息表示為向量,這使得隨后的各種數(shù)學(xué)處理成為可能。目前,VSM在以下文本信息處理分支領(lǐng)域均有重要應(yīng)用,并取得了良好的效果:?文本檢索(TextRetrieval)?文本分類(TextCategorization/Classification)?文本挖掘(TextMining)?文本過(guò)濾(TextFiltering)?文本可視化(TextVisualization)向量空間模型的發(fā)展:LatentSemanticIndexing(LSI).中心思想:解決一詞多義和同義詞問(wèn)題,盡力挖掘語(yǔ)義信息。■用concept(orfeature)代替term.輸入:term-by-documentmatrix.輸出:T:concept-by-termmatrixD:concept-by-documentmatrixS:elementsassignweightstoconcepts■實(shí)質(zhì)上起到了查詢擴(kuò)展的作用概率模型■信息檢索系統(tǒng)與其他類型信息系統(tǒng)的主要區(qū)別在于信息檢索系統(tǒng)內(nèi)在的不確定性。對(duì)一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)來(lái)說(shuō),要查詢的信息總是(至少對(duì)標(biāo)準(zhǔn)的應(yīng)用來(lái)說(shuō))能被精確地映射到系統(tǒng)的查詢格式上,而且數(shù)據(jù)庫(kù)中的哪些元素能夠構(gòu)成答案也能被精確定義?!龆畔z索系統(tǒng)中的情況顯然不同,所需要查詢的信息既不能被精確地表示,也沒有一個(gè)清晰的過(guò)程來(lái)判別一個(gè)數(shù)據(jù)對(duì)象是否就是所需要的。處理非確定性最成功的方法就是概率模型(ProbabilisticModel)0目前研究者已經(jīng)提出了很多不同的概率檢索模型,不過(guò)所有概率模型都存在著一般性的問(wèn)題,即參數(shù)估計(jì)、查詢擴(kuò)展和文檔、查詢的表示等。概率模型.主要針對(duì)信息檢索中相關(guān)性判斷的不確定性以及查詢信息表示的模糊性。它主要是基于概率排序原則:對(duì)于給定的用戶查詢Q,對(duì)所有的文本D計(jì)算概率P(R|D,Q)并從大到小進(jìn)行排序。其中R表示文本D與查詢Q的相關(guān)性。文本D可以表示為D=(d1,d2,.「dN),N為特征個(gè)數(shù),di=1表示特征項(xiàng)i在文本中出現(xiàn);di=0表示特征項(xiàng)i在文本中不出現(xiàn)(文本的布爾表示)。貝葉斯定理.貝葉斯定理是計(jì)算概率的一種方法,即認(rèn)為一個(gè)事件會(huì)不會(huì)發(fā)生取決于該事件在先驗(yàn)分布中已經(jīng)發(fā)生過(guò)的次數(shù)。.貝葉斯定理指出,對(duì)于事件X和Y,已知Y的概率時(shí)X發(fā)生的概率(用p{X|Y}表示)等于已知X的概率時(shí)Y發(fā)生的概率(用p{Y|X}表示)乘以X的概率(p{X})再除以Y的概率(p{Y})。.如果一枚硬幣被連續(xù)拋100次,每次都是正面朝上,那么,拋第101次時(shí),正面朝上的概率是多少?傳統(tǒng)統(tǒng)計(jì)學(xué)觀點(diǎn)的推論是:50%。.而貝葉斯概率論則認(rèn)為:100次連續(xù)正面朝上,證明該硬幣不均衡或兩面均為正面,所以拋第101次時(shí)正面朝上的概率會(huì)大大高于50%。貝葉斯定理的公式表述:.p{X|Y}=p{X}Xp{Y|X}/p{Y}這個(gè)原理的大致意思:某件事情發(fā)生的概率大致可以由它過(guò)去發(fā)生的頻率近似地估計(jì)出來(lái)?;蜓芯?、過(guò)濾電子郵件iThomasBayes,一位偉大的數(shù)學(xué)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論