![信息檢索理論基礎(chǔ)課件_第1頁](http://file4.renrendoc.com/view/afe0105b714da40fd47387619f2659a1/afe0105b714da40fd47387619f2659a11.gif)
![信息檢索理論基礎(chǔ)課件_第2頁](http://file4.renrendoc.com/view/afe0105b714da40fd47387619f2659a1/afe0105b714da40fd47387619f2659a12.gif)
![信息檢索理論基礎(chǔ)課件_第3頁](http://file4.renrendoc.com/view/afe0105b714da40fd47387619f2659a1/afe0105b714da40fd47387619f2659a13.gif)
![信息檢索理論基礎(chǔ)課件_第4頁](http://file4.renrendoc.com/view/afe0105b714da40fd47387619f2659a1/afe0105b714da40fd47387619f2659a14.gif)
![信息檢索理論基礎(chǔ)課件_第5頁](http://file4.renrendoc.com/view/afe0105b714da40fd47387619f2659a1/afe0105b714da40fd47387619f2659a15.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章 信息檢索理論基礎(chǔ)主要知識(shí)點(diǎn)(一)信息檢索原理(二)信息檢索技術(shù)簡(jiǎn)介(三)信息檢索系統(tǒng)(四)信息檢索語言(五)信息檢索評(píng)價(jià)(六)信息檢索與數(shù)字圖書館
信息檢索原理--信息檢索及其發(fā)展(1)信息檢索(InformationRetrieval)是“一種時(shí)間性的通訊形式”,“在時(shí)間上從一個(gè)時(shí)刻通往一個(gè)較晚的時(shí)刻,而在空間上可能還在同一地點(diǎn)”。這一看法,揭示了信息存儲(chǔ)與獲取兩個(gè)環(huán)節(jié)是一種延時(shí)行的通訊形式。(2)信息檢索的基本原理,是對(duì)信息集合與需求集合的匹配和選擇。信息集合是有關(guān)某一領(lǐng)域的文獻(xiàn)或數(shù)據(jù)的集合體,它是一種公共知識(shí)結(jié)構(gòu),可能可以彌補(bǔ)該用戶的知識(shí)結(jié)構(gòu)缺陷。而匹配與選擇則是一種機(jī)制,它負(fù)責(zé)把需求集合和信息集合進(jìn)行比較,然后根據(jù)一定的標(biāo)準(zhǔn)選出符合需求的信息。(3)在社會(huì)科學(xué)化的進(jìn)程中,信息檢索經(jīng)歷了從手工檢索到機(jī)械檢索再到計(jì)算機(jī)化檢索的發(fā)展過程。(1)信息檢索的模型的含義:信息檢索的模型就是運(yùn)用數(shù)學(xué)的語言和工具,對(duì)信息檢索系統(tǒng)中的信息及其處理過程加以翻譯和抽象,表述為某種數(shù)學(xué)公式,再經(jīng)過演繹、推斷、解釋和實(shí)際檢驗(yàn),反過來指導(dǎo)信息檢索實(shí)踐。(2)布爾邏輯模型:它是由Y.Bar-Hillel在1957年首先提出的,他提出了將布爾邏輯應(yīng)用于計(jì)算機(jī)檢索的可能性,10年后,正式被大型文獻(xiàn)檢索系統(tǒng)所采用,并逐漸成為各種大型聯(lián)機(jī)檢索系統(tǒng)、甚至是網(wǎng)絡(luò)搜索引擎的典型、標(biāo)準(zhǔn)檢索模式。布爾檢索模型采用布爾代數(shù)和集合論的方法,用布爾表達(dá)式表示用戶提問,通過對(duì)文獻(xiàn)標(biāo)識(shí)與提問式的邏輯運(yùn)算來檢索文獻(xiàn)。信息檢索原理--信息檢索模型簡(jiǎn)介信息檢索原理--信息檢索模型簡(jiǎn)介在傳統(tǒng)的布爾模型中,每一文獻(xiàn)用一組標(biāo)引詞表示。如,表達(dá)式Di=(T1,T2,T3,…,Tm),為文獻(xiàn)i,式中T1,T2,T3,…,Tm表示文獻(xiàn)i中的所有標(biāo)引詞集合。每個(gè)提問式Q除表示用戶需求中的標(biāo)引詞組合外,還有各標(biāo)引詞的布爾組配。系統(tǒng)在對(duì)提問進(jìn)行處理時(shí),輸出一個(gè)包含有該提問式的組配元(標(biāo)引詞)且符合組配條件(邏輯運(yùn)算符)的文獻(xiàn)集合。布爾檢索模型因其簡(jiǎn)單、易理解、易實(shí)現(xiàn)、能處理結(jié)構(gòu)化提問等優(yōu)點(diǎn),在信息檢索系統(tǒng)中得到了廣泛的實(shí)際應(yīng)用。傳統(tǒng)布爾檢索模型的具體缺陷主要表現(xiàn)在以下五方面:
①布爾檢索式的非友善性,即構(gòu)造一個(gè)好的檢索式是不容易的。
②易造成零輸出或輸出過量。
③無差別的組配元,不能區(qū)分各組配元的重要程度;
④匹配標(biāo)準(zhǔn)存在某些不合理的地方。對(duì)于文獻(xiàn)中標(biāo)引詞的數(shù)量沒有評(píng)判,都一視同仁;
⑤檢索結(jié)果不能按照重要性排序輸出。
(3)向量空間檢索模型:向量檢索是以向量的方式確定檢索內(nèi)容的方法,系統(tǒng)中的每一篇文獻(xiàn)和每個(gè)提問均用等長(zhǎng)的向量表示。如:文獻(xiàn)集合中的第i篇文獻(xiàn)用Di=(T1,T2,T3,…,Tm)表示,其中T1,T2,T3,…,Tm為系統(tǒng)中所有標(biāo)引詞集合;提問集合中的第j個(gè)提問用Qj=(T1,T2,T3,…,Tm)表示;Tk表示文獻(xiàn)向量或提問向量中的第k個(gè)分量,即文獻(xiàn)表示或提問式中所含的第k個(gè)標(biāo)引詞或檢索詞。傳統(tǒng)的向量空間模型將Tk取值為“0”或“1”,現(xiàn)在大多在[0,1]區(qū)間取值。這樣,就可以構(gòu)成一個(gè)向量空間,把信息檢索中文獻(xiàn)與提問的匹配處理過程轉(zhuǎn)化為向量空間中文獻(xiàn)向量與提問向量的相似度計(jì)算問題。某一文獻(xiàn)與某一提問的相關(guān)程度通過計(jì)算該向量對(duì)之間的相似度來測(cè)定。這種方法自然引入了檢索的柔性和模糊性,從理論上使檢索更為合理。信息檢索原理--信息檢索模型簡(jiǎn)介信息檢索原理--信息檢索模型簡(jiǎn)介與采用布爾模型的普通檢索系統(tǒng)相比,該系統(tǒng)有以下幾個(gè)特色:
①采用自動(dòng)標(biāo)引技術(shù)為文獻(xiàn)提供標(biāo)引詞;
②改變了布爾檢索非“1”即“0”的簡(jiǎn)單判斷,標(biāo)引詞和文獻(xiàn)的相關(guān)程度可在[0,1]閉區(qū)間中取值;
③由于以其相似的程度作為檢索的標(biāo)準(zhǔn),可從量的角度判斷文獻(xiàn)命中與否,從而使檢索更趨于合理;
④檢索結(jié)果可按與提問的相關(guān)度排序輸出,便于用戶通過相關(guān)反饋技術(shù)修正提問,控制檢索量;
⑤布爾模型的邏輯關(guān)系依然可以使用,保留了直觀性和方便性。向量模型也存在著某些明顯的缺陷。如檢索過程轉(zhuǎn)化為向量的計(jì)算方法,不能反映出文獻(xiàn)之間的復(fù)雜關(guān)系;由于對(duì)任何一個(gè)提問都需要計(jì)算全部文獻(xiàn)庫中的每一篇文獻(xiàn),因此計(jì)算量大、算法復(fù)雜性較高;由于標(biāo)引加權(quán)和檢索加權(quán)是分離的,因此隨意性較大,難以保證質(zhì)量。信息檢索原理--信息檢索模型簡(jiǎn)介(4)概率檢索模型:它是基于概率排序原理,即文獻(xiàn)根據(jù)它們與提問的相關(guān)概率來排序輸出。有證據(jù)表示,在一定條件下,它可以產(chǎn)生優(yōu)良的排序結(jié)果。事實(shí)上,對(duì)于某個(gè)特定的檢索提問,文獻(xiàn)集合中的某一文獻(xiàn)是否符合用戶的信息需求(即是否是相關(guān)文獻(xiàn))可以看成是一個(gè)隨機(jī)事件,每篇文獻(xiàn)是相關(guān)文獻(xiàn)的概率各不相同,綜合信息需求的概率和文獻(xiàn)與標(biāo)引的相關(guān)概率,才能更為合理地劃分檢索結(jié)果。概率檢索模型正是基于這一思想建立起來的。其主要優(yōu)點(diǎn)是:
①采用了理論上更為嚴(yán)密的方式來進(jìn)行決策;
②容易與加權(quán)方法結(jié)合起來使用,為人們提供了一種理論基礎(chǔ);
③不設(shè)計(jì)布爾邏輯運(yùn)算符,回避了構(gòu)造布爾提問式的困難;
④文獻(xiàn)可按用戶的期望值輸出排序;
⑤吸收了相關(guān)反饋原理,可開發(fā)出理論上更為合理的方法。但是,它也有明顯的不足,如增加了存儲(chǔ)和計(jì)算資源的開銷;參數(shù)估計(jì)問題也增加了該模型使用時(shí)的難度。
信息檢索原理--信息檢索模型簡(jiǎn)介(5)擴(kuò)展布爾邏輯檢索模型:擴(kuò)展布爾模型是以對(duì)布爾算符的一種近似解釋系統(tǒng)為基礎(chǔ),在此模型中,能以一種比傳統(tǒng)布爾模型限制更小的形式來處理布爾提問式。特別當(dāng)某一給定文獻(xiàn)中出現(xiàn)較多提問詞時(shí),它的值就大于含提問詞較少的文獻(xiàn)。這種擴(kuò)展布爾檢索模型具有以下優(yōu)點(diǎn):
①它適應(yīng)常規(guī)布爾檢索中的標(biāo)準(zhǔn)提問式結(jié)構(gòu),且通過計(jì)算提問-文獻(xiàn)的相似度,可以避免潛在的無意義解釋;
②許可在文獻(xiàn)表示和提問式中加入詞權(quán)值;
③可以按相似度的來排列輸出文獻(xiàn),因而在響應(yīng)某一給定提問時(shí),可以控制要檢索的文獻(xiàn)數(shù)量;
④便于區(qū)分強(qiáng)制性短語和嚴(yán)格的同義解釋與試探性短語和較不嚴(yán)格的同義關(guān)系。信息檢索原理--信息檢索模型簡(jiǎn)介(6)相關(guān)反饋模型:用戶在使用信息系統(tǒng)時(shí),需要將自己的信息需求按照系統(tǒng)所使用的概念和表達(dá)方式輸入到系統(tǒng)中,由于用戶表達(dá)問題的方式各有不同,在將信息需求表達(dá)為提問式時(shí)會(huì)與原意有一定的出入,這樣,就難以保證檢索到的文獻(xiàn)能非常好地滿足用戶的需求。因此,一般的信息檢索系統(tǒng)中都需要有一種反饋裝置,使用戶可以通過反饋修改自己的提問式,從而達(dá)到較完滿的檢索目的。(7)信息檢索模型的發(fā)展趨勢(shì):20世紀(jì)70年代末,人們又重新著手對(duì)傳統(tǒng)的布爾模型進(jìn)行研究,并對(duì)改進(jìn)布爾檢索做了大量的工作。如用截詞檢索以改進(jìn)提問式中對(duì)同義詞列舉不全造成的漏檢現(xiàn)象,用概念加權(quán)檢索以彌補(bǔ)傳統(tǒng)布爾檢索中不能揭示概念與檢索主題相關(guān)程度的缺陷。因此,在今后信息檢索的理論研究中,布爾檢索的研究仍將占據(jù)十分顯著的地位。目前,商用信息檢索系統(tǒng)主要以布爾模糊邏輯加向量空間模型為主,輔以部分自然語言處理。自然語言處理,特別是自然語言理解在信息檢索中應(yīng)用,將大大提高信息檢索的精度和相關(guān)性。文本檢索中常用布爾模型,向量空間、相關(guān)反饋模型常被用在多媒體檢索、搜索引擎、自動(dòng)分類、智能檢索、數(shù)據(jù)挖掘等技術(shù)中。
第一章 信息檢索理論基礎(chǔ)主要知識(shí)點(diǎn)(一)信息檢索原理
(二)信息檢索技術(shù)簡(jiǎn)介
(三)信息檢索系統(tǒng)(四)信息檢索語言(五)信息檢索評(píng)價(jià)(六)信息檢索與數(shù)字圖書館
信息檢索技術(shù)簡(jiǎn)介—信息檢索常用技術(shù)簡(jiǎn)介(1)布爾檢索技術(shù):它是利用布爾邏輯算符進(jìn)行檢索詞或代碼的邏輯組配,是現(xiàn)代信息檢索中最常使用的一種方法。(2)截詞檢索技術(shù):它也是一種常用的檢索技術(shù),尤其在西文檢索中使用更廣泛。它可以一次性地解決詞干相同的詞、英美不同拼法的詞的檢索。(3)限制檢索技術(shù):在信息檢索系統(tǒng)中,為縮小命中文獻(xiàn)的數(shù)量,常將檢索范圍限定在某個(gè)字段、或某個(gè)范圍中。(4)位置檢索技術(shù):位置檢索可以反映出兩個(gè)檢索詞在文獻(xiàn)中的鄰近關(guān)系。這種檢索技術(shù)常用在全文檢索中,可以彌補(bǔ)布爾檢索的不足。信息檢索技術(shù)簡(jiǎn)介--信息檢索常用技術(shù)簡(jiǎn)介(5)加權(quán)檢索技術(shù):加權(quán)檢索的側(cè)重點(diǎn)并不是在于是否檢索到某篇文獻(xiàn),而是對(duì)檢索出的文獻(xiàn)與需求的相關(guān)度作評(píng)判。(6)多媒體檢索技術(shù):基于內(nèi)容的多媒體信息檢索是指根據(jù)媒體和媒體對(duì)象的內(nèi)容及上下文聯(lián)系在大規(guī)模多媒體數(shù)據(jù)庫中進(jìn)行檢索。它的研究目標(biāo)是提供在沒有人類參與的情況下能自動(dòng)識(shí)別或理解聲音、圖像、視頻重要特征的算法。它色括基于內(nèi)容的聲頻檢索和基于內(nèi)容的圖像信息檢索二類?;趦?nèi)容的多媒體檢索技術(shù)的日益成熟不僅將創(chuàng)造出巨大的社會(huì)價(jià)值,而且將改變?nèi)藗兊纳罘绞?。?)超文本檢索:超文本是一種信息的組織方法,它把不定長(zhǎng)的基本信息單元存放在結(jié)點(diǎn)上,這些基本信息單元可以是單個(gè)字、句子、章節(jié)、文獻(xiàn),甚至是圖像、音樂或錄像,結(jié)點(diǎn)以鏈路方式鏈接,鏈路可以分為層次鏈、交叉引用鏈、索引鏈等,構(gòu)成網(wǎng)狀層次結(jié)構(gòu)。超文本的特點(diǎn)是以聯(lián)想式的、非線性的,鏈路的網(wǎng)狀層次關(guān)系,允許用戶在閱讀過程中從其認(rèn)為有意義的地方入口,直接快速地檢索到所需要的目標(biāo)信息。信息檢索技術(shù)簡(jiǎn)介--信息檢索當(dāng)代技術(shù)簡(jiǎn)介(1)并行檢索技術(shù):并行檢索為實(shí)現(xiàn)大容量文本信息的存儲(chǔ)與快速檢索提供了一條有效的途徑,它一改以往利用順序?qū)崿F(xiàn)計(jì)算機(jī)信息檢索的狀況,這就使在檢索系統(tǒng)的信息規(guī)模較大時(shí),也能滿足用戶的檢索響應(yīng)要求。目前的大型搜索引擎中一般都采用并行檢索技術(shù),以提高檢索的響應(yīng)速度。(2)分布式檢索技術(shù):分布式信息檢索允許檢索請(qǐng)求在分布在不同地點(diǎn)、不同結(jié)構(gòu)的系統(tǒng)平臺(tái)上運(yùn)作。主要原理是由檢索代理程序?qū)z索任務(wù)同時(shí)提交給網(wǎng)絡(luò)上的多個(gè)主機(jī),由位于這些主機(jī)上的檢索程序分別獨(dú)立檢索并將檢索結(jié)果返回到檢索代理程序,并經(jīng)整理后顯示給用戶。(3)基于知識(shí)的智能檢索技術(shù):全文檢索的效果需要進(jìn)一步提高,其適應(yīng)不同應(yīng)用的能力還需要改進(jìn),其核心是發(fā)展知識(shí)檢索。智能檢索常被理解為,如檢索“華人”,可把包含“中華人民共和國(guó)”的內(nèi)容不被檢索出來,檢索“電腦”,可以把包含“計(jì)算機(jī)”的內(nèi)容檢索出來,這些只是智能檢索的初級(jí)階段。未來的智能化知識(shí)檢索更應(yīng)該注重文本挖掘的功能。(4)知識(shí)挖掘技術(shù):主要指文本挖掘技術(shù)的發(fā)展,目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。知識(shí)挖掘包括摘要、分類(聚類)和相似性檢索等方面。
信息檢索技術(shù)簡(jiǎn)介--信息檢索當(dāng)代技術(shù)簡(jiǎn)介(5)異構(gòu)信息整合檢索和全息檢索技術(shù):在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,需要信息檢索系統(tǒng)能夠檢索和整合不同來源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn)。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實(shí)踐來講,發(fā)展到異構(gòu)信息整合檢索的層面,但這還有待于突破。(6)自然語言檢索技術(shù):自然語言檢索應(yīng)是信息檢索的發(fā)展趨勢(shì),但只有自然語言與人工跨語言信息檢索將用一種自然語言書寫的信息需求通過機(jī)器翻譯自動(dòng)轉(zhuǎn)換成另一種可為系統(tǒng)接受的語言。即可以用一種語言去檢索其他語言的資源語言相結(jié)合,才能更好地發(fā)揮自然語言檢索的優(yōu)勢(shì)。(7)跨語言信息檢索技術(shù):跨語言信息檢索將用一種自然語言書寫的信息需求通過機(jī)器翻譯自動(dòng)轉(zhuǎn)換成另一種可為系統(tǒng)接受的語言。即可以用一種語言去檢索其他語言的資源。信息檢索技術(shù)簡(jiǎn)介--信息檢索當(dāng)代技術(shù)簡(jiǎn)介(8)問答系統(tǒng)技術(shù):?jiǎn)栴}回答輸入的查詢是問題,要求從給定語料庫中返回文本。問題回答系統(tǒng)可由三個(gè)模塊組成:?jiǎn)栴}分析、候選窗口查找和答案抽取。。(9)概念空間技術(shù):概念空間技術(shù)是為迎合信息檢索的智能化而設(shè)計(jì)的,主要針對(duì)網(wǎng)絡(luò)信息資源。與詞表不同的是,概念空間直接從目標(biāo)文檔構(gòu)建而來,通過對(duì)目標(biāo)文檔進(jìn)行概念選取、概念聚類而形成,是一個(gè)概念網(wǎng)絡(luò)。概念空間實(shí)際上是一個(gè)智能化索引,每個(gè)索引項(xiàng)(概念)通過一層或多層的概念與原文檔建立聯(lián)系。當(dāng)用戶用自然語言檢索時(shí),系統(tǒng)會(huì)自動(dòng)地在概念語義空間聯(lián)想搜尋相似性最高的概念,并根據(jù)相似性遞減規(guī)律列出檢索結(jié)果。(10)信息融合技術(shù)技術(shù):信息融合技術(shù)是一種綜合利用多種信息資源,以獲得對(duì)某一事物更客觀、更本質(zhì)認(rèn)識(shí)的信息處理技術(shù)。信息融合技術(shù)應(yīng)用于信息檢索系統(tǒng)中,通過對(duì)各種信息源中信息的集成(連接)、集成(連接)之后對(duì)信息的取舍和集合的劃分,可以合理地組織查詢結(jié)果,使信息檢索系統(tǒng)能提供更好的服務(wù)功能。第一章 信息檢索理論基礎(chǔ)主要知識(shí)點(diǎn)(一)信息檢索原理(二)信息檢索技術(shù)簡(jiǎn)介(三)信息檢索系統(tǒng)
(四)信息檢索語言(五)信息檢索評(píng)價(jià)(六)信息檢索與數(shù)字圖書館
信息檢索系統(tǒng)
1、信息檢索系統(tǒng)的組成:一個(gè)完整的信息檢索系統(tǒng),通常由以下幾個(gè)功能模塊組成:信息源選擇與采集子系統(tǒng)、標(biāo)引子系統(tǒng)、建庫子系統(tǒng)、詞表管理子系統(tǒng)、用戶接口子系統(tǒng)、提問處理子系統(tǒng)。(參閱教材圖1.4)
2、信息選擇子系統(tǒng):本功能模塊的任務(wù)是:根據(jù)系統(tǒng)的目標(biāo)和服務(wù)對(duì)象的需要,確定數(shù)據(jù)收集范圍,并廣泛地、定期地采集各種信息源,為系統(tǒng)提供充足而適用的數(shù)據(jù)。目前,本模塊的工作主要由系統(tǒng)工作人員承擔(dān),計(jì)算機(jī)只起輔助作用。
3、標(biāo)引子系統(tǒng):標(biāo)引,就是根據(jù)系統(tǒng)的規(guī)則和程序,對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,然后賦予每篇文獻(xiàn)以一定數(shù)量的內(nèi)容標(biāo)識(shí)(如分類號(hào)、主題詞、關(guān)鍵詞等),作為存儲(chǔ)與檢索的依據(jù)。標(biāo)引作業(yè)通常與文獻(xiàn)編目和文摘工作一起進(jìn)行,然后把標(biāo)引結(jié)果和其他描述事項(xiàng)(如著者、著者單位、文獻(xiàn)出處等)填入工作單,由錄入員輸入到計(jì)算機(jī)中。
4、建庫子系統(tǒng):本模塊的功能是建立和維護(hù)可直接用于檢索的數(shù)據(jù)庫,包括系統(tǒng)所用的各索引文檔。其工作流程主要包括數(shù)據(jù)錄入、錯(cuò)誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成并定期更新各種文檔。信息檢索系統(tǒng)
5、詞表管理子系統(tǒng):詞表管理子系統(tǒng)管理維護(hù)系統(tǒng)中已有的主題詞表,使它與標(biāo)引、建庫等子系統(tǒng)相連接,支持用戶查詢操作,并從提問、對(duì)話或其它文本中采集新的詞匯信息,以及輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品。
6、用戶接口子系統(tǒng):它的全稱是“系統(tǒng)-用戶接口”,簡(jiǎn)稱用戶接口,是面向系統(tǒng)用戶的人-機(jī)接口程序。它承擔(dān)用戶與系統(tǒng)之間的交流功能,是信息系統(tǒng)中不可缺少的模塊。
7、提問處理子系統(tǒng):提問處理子系統(tǒng)專門負(fù)責(zé)處理用戶輸入的提問式,將提問式中的檢索元和算符區(qū)分,并轉(zhuǎn)換成系統(tǒng)內(nèi)部的可接受的命令方式。在對(duì)提問進(jìn)行轉(zhuǎn)換后,與數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)進(jìn)行比較運(yùn)算,然后把運(yùn)算結(jié)果輸出給用戶。第一章 信息檢索理論基礎(chǔ)主要知識(shí)點(diǎn)(一)信息檢索原理(二)信息檢索技術(shù)簡(jiǎn)介(三)信息檢索系統(tǒng)(四)信息檢索語言(五)信息檢索評(píng)價(jià)(六)信息檢索與數(shù)字圖書館
信息檢索語言
1、信息檢索語言及其在信息檢索中的作用:信息檢索語言是根據(jù)信息檢索的需要而創(chuàng)制的人工語言,又稱信息語言、檢索語言、標(biāo)引語言、標(biāo)識(shí)系統(tǒng)等等。信息檢索語言是溝通訊息存儲(chǔ)和檢索兩個(gè)過程中標(biāo)引人員和檢索人員的。因此,它在信息檢索過程中所起的作用是極為重要的。
2、信息檢索語言的基礎(chǔ):概念邏輯和知識(shí)分類是信息檢索語言的基礎(chǔ)。概念邏輯是一種科學(xué)思維方法,它能揭示事物的本質(zhì)屬性及各種事物之間的聯(lián)系與區(qū)別,概念則是事物本質(zhì)屬性的概括。
3、信息檢索語言的分類:信息檢索語言按其構(gòu)成原理,可分為分類語言、主題檢索語言和代碼檢索語言三大類型。分類檢索語言用分類號(hào)表達(dá)各種概念,將各種概念按學(xué)科性質(zhì)進(jìn)行和系統(tǒng)排列。它集中體現(xiàn)學(xué)科的系統(tǒng)性,反映事物的從屬、派生關(guān)系,由上至下,從總體到局部層層展開,是一種等級(jí)體系。主題檢索語言用語詞來表達(dá)各種概念,將各種概念忽略其相關(guān)關(guān)系按字順排列。由主題詞匯構(gòu)成,表達(dá)的概念較準(zhǔn)確,主題詞表中通過參照系統(tǒng)反映詞匯之間的關(guān)系,具有較好的靈活性和專指性。代碼檢索語言一般針對(duì)事物的某一方面特征用某種代碼系統(tǒng)來加以標(biāo)引和排列。信息檢索語言
4、信息檢索語言基本方法:信息檢索語言使用的標(biāo)識(shí)可分為號(hào)碼標(biāo)識(shí)、語詞標(biāo)識(shí)和代碼標(biāo)識(shí)三類。這三類標(biāo)識(shí)形成信息檢索語言的三個(gè)語系,即分類檢索語言(分類法系統(tǒng))、主題檢索語言(主題法系統(tǒng))和代碼檢索語言(代碼系統(tǒng))。標(biāo)識(shí)中需要做規(guī)范化處理,使其符合唯一性、規(guī)律性、定型性、通用性、準(zhǔn)確性、及正確性的要求,這也是提高標(biāo)識(shí)質(zhì)量的重要措施。
5、自然語言在信息檢索中的應(yīng)用:自然語言在信息檢索中大體分為無標(biāo)引方式、自動(dòng)標(biāo)引方式、和人工標(biāo)引方式三種。無標(biāo)引方式包括文本關(guān)鍵詞匹配檢索、單字檢索。自動(dòng)標(biāo)引方式包括:自動(dòng)抽詞標(biāo)引、自動(dòng)賦詞標(biāo)引、自動(dòng)賦分類號(hào)、自動(dòng)聚類、人機(jī)結(jié)合抽詞標(biāo)引。人工標(biāo)引方式包括:自由標(biāo)引、自由詞補(bǔ)充標(biāo)引。上述各種自然語言在信息檢索中應(yīng)用的方式,都可借助于后控制詞表來彌補(bǔ)其缺點(diǎn)。自然語言與信息檢索語言各有優(yōu)缺點(diǎn)。自然語言由于適用于現(xiàn)代的網(wǎng)絡(luò)信息檢索,無需標(biāo)引,文獻(xiàn)處理成本較低,檢索時(shí)無需對(duì)照詞表選詞,因此越來越受到某些領(lǐng)域?qū)<业馁澩6畔z索語言由于其比較嚴(yán)謹(jǐn)、適應(yīng)范圍廣、檢索效率高,而受到信息界人士的認(rèn)可。
第一章 信息檢索理論基礎(chǔ)主要知識(shí)點(diǎn)(一)信息檢索原理(二)信息檢索技術(shù)簡(jiǎn)介(三)信息檢索系統(tǒng)(四)信息檢索語言
(五)信息檢索評(píng)價(jià)
(六)信息檢索與數(shù)字圖書館
信息檢索評(píng)價(jià)—檢索系統(tǒng)評(píng)價(jià)(1)信息源評(píng)價(jià):數(shù)據(jù)庫規(guī)模、收錄范圍、信息源質(zhì)量控制等指標(biāo)可反映信息源的質(zhì)量。(2)信息組織管理:主要指信息標(biāo)引的方法、組織方式、及更新周期。(3)系統(tǒng)功能評(píng)價(jià):取決于系統(tǒng)所能提供的檢索途徑、檢索方式、和檢索方法。(4)輸出結(jié)果評(píng)價(jià):主要包括信息檢索系統(tǒng)對(duì)用戶提問的響應(yīng)時(shí)間、命中記錄的排序功能和輸出顯示形式。(5)用戶接口:“用戶友好”是信息檢索系統(tǒng)用戶接口的建設(shè)宗旨,它決定了用戶是否喜歡使用該系統(tǒng)。(6)系統(tǒng)技術(shù)支持:系統(tǒng)技術(shù)支持主要指系統(tǒng)及其軟、硬件平臺(tái)的通用性、兼容性、先進(jìn)性、可靠性和穩(wěn)定性。系統(tǒng)的性能價(jià)格比也是評(píng)價(jià)系統(tǒng)技術(shù)經(jīng)濟(jì)性能的指標(biāo)。信息檢索評(píng)價(jià)--檢索效果評(píng)價(jià)(1)查全率:定義為:檢出的相關(guān)信息數(shù)查全率=—————————————×100%信息庫中相關(guān)信息總數(shù)(2)查準(zhǔn)率:定義為:檢出的相關(guān)信息數(shù)查準(zhǔn)率=———————————————×100%檢出的信息總數(shù)(3)誤檢率:定義為:檢出的非相關(guān)信息數(shù)誤檢率=————————————×100%檢出的信息總數(shù)(4)漏檢率:定義為:未檢出的相關(guān)信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中子、電子及Γ輻照裝置合作協(xié)議書
- 2025年機(jī)載設(shè)備綜合測(cè)試臺(tái)合作協(xié)議書
- 2025年石材翻新護(hù)理用品合作協(xié)議書
- 建筑力學(xué)期末考試B卷試題及答案
- 2025年個(gè)人貨物運(yùn)輸協(xié)議模板(2篇)
- 2025年個(gè)人房屋設(shè)計(jì)裝修合同(4篇)
- 2025年五年級(jí)體育教師工作總結(jié)(5篇)
- 2025年儀器銷售合同標(biāo)準(zhǔn)版本(4篇)
- 2025年五年級(jí)語文備課組長(zhǎng)工作總結(jié)范文(二篇)
- 2025年二手車車輛轉(zhuǎn)讓合同簡(jiǎn)單版(2篇)
- DB43-T 2142-2021學(xué)校食堂建設(shè)與食品安全管理規(guī)范
- 宏觀利率篇:債券市場(chǎng)研究分析框架
- 橋梁頂升移位改造技術(shù)規(guī)范
- 六年級(jí)語文(上冊(cè))選擇題集錦
- 介紹人提成方案
- 天津在津居住情況承諾書
- PHOTOSHOP教案 學(xué)習(xí)資料
- 初中數(shù)學(xué)教學(xué)“教-學(xué)-評(píng)”一體化研究
- 2012年安徽高考理綜試卷及答案-文檔
- 《游戲界面設(shè)計(jì)專題實(shí)踐》課件-知識(shí)點(diǎn)5:圖標(biāo)繪制準(zhǔn)備與繪制步驟
- 自動(dòng)扶梯安裝過程記錄
評(píng)論
0/150
提交評(píng)論