信息檢索筆記_第1頁
信息檢索筆記_第2頁
信息檢索筆記_第3頁
信息檢索筆記_第4頁
信息檢索筆記_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第一章信息資源的概述一.傳統(tǒng)信息資源的概述1.概念與特征2.類型:(1)一類文獻:原始文獻(2)二類文獻:對一類文獻的加工整理,報道揭示一類文獻,提供的是一類文獻的線索和地址(書目,索引,文獻)(3)三類文獻:來源于一類文獻,有豐富的權威的資料,可以解決各種問題。如:百科全書,字典,詞典,手冊,年鑒,名錄二.數(shù)字信息資源1.與傳統(tǒng)信息資源相比具有的特征:(1)以多媒體為內(nèi)容特征(2)內(nèi)容復雜多樣(3)更新速度快,時效性強(4)利用不受時空限制(5)具備檢索系統(tǒng)(6)具備全方位的動態(tài)的信息服務功能2.數(shù)字信息資源的類型:(1)按性質(zhì)和功能劃分:a)一次文獻:原始文獻b)二次文獻:參考數(shù)據(jù)庫,搜素引擎,網(wǎng)資,導航等。c)三次文獻:元搜素引擎(關于搜素引擎的搜素引擎)(2)按載體劃分:光盤,網(wǎng)絡數(shù)據(jù)庫,聯(lián)機檢索系統(tǒng)(三)主要數(shù)字信息資源參考型數(shù)據(jù)庫:包含各種數(shù)據(jù)信息的來源和屬性的數(shù)據(jù)庫。包括:書目數(shù)據(jù)庫,索引數(shù)據(jù)庫,文獻數(shù)據(jù)庫全文數(shù)據(jù)庫:收錄有原始文獻全文的數(shù)據(jù)庫事實數(shù)據(jù)庫;直接提供原始文獻的數(shù)據(jù)庫,分為數(shù)值數(shù)據(jù)庫,指南數(shù)據(jù)庫,術語數(shù)據(jù)庫4.電子圖書5電子報紙6.搜索引擎分類指南7.網(wǎng)絡學術資源學科導航:對各類信息資源進行篩選整理之后,按學科屬性對其進行分類、組織。第二章信息檢索概述一.信息檢索:信息檢索就是利用一定的檢索工具,運用一定的檢索技術和方法查找信息的過程。二.信息檢索的原理1.利用計算機進行信息檢索的前提和基礎是信息的組織和貯存。沒有貯存就沒有檢索對象。2.排方法將其組織起來,形成有序的具有可檢性特征的數(shù)據(jù)庫。3.計算機進行信息檢索的原理就是指用戶和檢索人員將能夠表達其信息需求的檢索式提交給檢索系統(tǒng),檢索系統(tǒng)即自動將檢索式與系統(tǒng)中的信息進行匹配,凡是信息特征標識和邏輯組配關系與用戶檢索式一致的,既未命中內(nèi)容。這種“匹配”實際上就是一種字符串的類比運算。三.信息檢索語言(也即標識)1.檢索語言的概念與作用(1)檢索語言是信息存儲與檢索過程中用于描述信息特征和表達用戶信息提問的一種專門語言。它是人與檢索系統(tǒng)對話的基礎。信息信息內(nèi)容抽取主題概念標識檢索系統(tǒng)標識存儲信息信息需求檢索(2)標引即對信息內(nèi)容進行分析,并運用一定的語言和方法,根據(jù)信息內(nèi)容的學科屬性和其他特征賦予其標識,并以此作為信息組織、存儲、檢索依據(jù)的過程。(3)標引過程:主題分析——標引——標引結果記錄狹義的對文章的標引:從上圖可知,信息檢索語言的作用:對文獻的外部特征和內(nèi)容進行多維描述,提供多種檢索過程,以便用戶從不同角度進行檢索。2.檢索語言的類型:分類檢索語言人工語言主題檢索語言代碼檢索語言a)分類檢索語言:將各種概念按學科類型進行系統(tǒng)排列,并用分類號表示。b)選取依據(jù)為出現(xiàn)頻率、標引頻率、查找頻率。標題詞語言主題檢索語言單元詞語言敘詞語言敘詞:經(jīng)過詞匯控制后,在信息組織中顯示文獻主題,在信息檢索中構造檢索提問式的一種檢索詞匯。它以語詞的概念組配而不是字面組配為特征。又稱為描述詞、敘述詞、主題詞。敘詞法就是以敘詞為標識符號,標引和檢索信息的方法,可用復合詞來表達主題概念,檢索式是由多個敘詞組成復合邏輯的組配,形成多種組合方式。自然語言檢索詞:是從信息內(nèi)容中直接抽取的,主要依賴計算機自動抽詞完成。其中標識詞包括:關鍵詞、題名,作者,全文、引文、摘要。限制性自然語言:對自然語言進行限制,只保留其中的重要詞。3.索引(也即標引)檢索語言就是索引語言,索引是信息標引的過程;索引是表明文獻特征的信息。(1)概念:索引就是對信息組織的過程。它包括分析信息內(nèi)容和用索引語言或檢索語言對信息內(nèi)容進行描述。部分索引結構舉例:索引標目出處項Informationretrizeval(內(nèi)容分析檢索)p4,p10,p18音樂檢索與利用(題名索引)新華文摘李四—情報學報,(585-89(1118架,189位(定位位置檢索)(2)索引的類型:a.b.按對象劃分:機構索引、姓名索引、圖書索引、論文索引、專利索引、報刊索引按標目所使用的提示符號劃分:語言檢索、代碼檢索、圖形檢索、數(shù)據(jù)檢索自動索引:自動索引就是指計算機在沒有人工干預的前提下,根據(jù)一定的自動分析算法對信息內(nèi)容進行分析與描述。索引的目的:a.b.c.通過主題詞確定文件地址分析文件的分布狀態(tài)決定文件和查詢之間的關系最終目的:進行信息檢索自動索引的作用:避免不一致性,節(jié)約檢索時間(這里的一致性指用戶輸入檢索系統(tǒng)的檢索式與檢索系統(tǒng)中對信息特征進行描述的標識詞相匹配)自動索引的過程:a.b.c.輸入全文通過空格、標點來分析分解全文,作為結果把有用和無用的詞放入詞庫把有用詞(最能表達文章主題的詞)和無用詞分開給有用詞賦予權重(相關性)d.如何把有用詞和無用詞分開,找出最能表達文章主題的標識詞,從而有效進行檢索:停用詞表法:停用詞:通用的表達語法關系、以及其他的相關詞,當他們離開上下文后就不再具有任何的語停用詞表:由在信息處理過程中可以被忽視或者過濾的詞組成。停用詞的缺陷:a.b.無法識別索引詞的重要性,無法給實義詞賦予權值;無法對短語做出索引,過濾掉某些虛詞之后短語就不再具有原來的含義,或者整個短語都會被過濾掉,無法有效進行檢索。原始詞頻法:一個詞在文章中出現(xiàn)的頻率越高,它越能夠表達文章的主題思想。因此,出現(xiàn)頻率越高的詞就會被留下來作為索引。反之,低頻詞就會被去除。通常在原始詞頻法中有一個底線,如果一個詞出現(xiàn)的次數(shù)超出或者等于這個底線,那么它就會被選出來作為索引詞底線發(fā)生變化,索引詞也發(fā)生變化原始詞頻法的缺陷:未考慮到文章的長短,底線的設定無法適應任何文章。標準詞頻法:詞頻一個詞在文章中出現(xiàn)的次數(shù)一篇文獻中包含的所有詞的數(shù)量≤≤1,f即頻率k即關鍵詞:關鍵詞在一個句子中并不是獨立的,該方法為考慮到一個詞在整個數(shù)據(jù)庫中的影響力其作為鑒別詞的鑒別力就越強,精度就越大。反向詞頻法:的頻率,N指數(shù)據(jù)庫中包含文件的個數(shù),指數(shù)據(jù)庫中包含關鍵詞k的文件的數(shù)量。在信息檢索領域,log一般默認為以2為底,此處用log是為了弱化k對權重的影響,因為影響權重的因素還有其他的。反向詞頻法一種計算詞在文章中權重的方法。反向就是指詞k在數(shù)據(jù)庫中出現(xiàn)的頻率越低,鑒別能力就越。其他影響權重的因素:a.b.c.詞在文章中的位置,如:標題、摘要、結論斜體字句子形式:提出了……,討論了……,顯示了……用and和or等連接起來的詞通常具有相同的含義。d.自動摘要:非全文摘取,摘取關鍵句子,刪除無用的句子頻率,N指一個文件中句子的數(shù)量,K的句子的個數(shù)。通過將一個句子中所包含的各個詞的權值相加得出一個句子的權重根據(jù)各個句子權重的大小按降序?qū)⑽募兴芯渥舆M行排序選出具有最高權重的句子將所選出的句子整理成文摘四.信息組織的結構1.從信息檢索的視角來看,數(shù)據(jù)組織的兩個重要方面是:他所描述的概念和關系,以及它是如何支持檢索運行的。2.數(shù)據(jù)庫的構成:文檔——記錄——字段(1)文檔是由若干條記錄構成的信息集合。文檔是書目數(shù)據(jù)庫和檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。(2)根據(jù)數(shù)據(jù)庫的內(nèi)部形式,一個數(shù)據(jù)庫最少包含一個順排文檔和一個倒排文檔(其實是一個索引順排文檔:1)概念:按文獻記錄的輸入順序(文獻序號)排列的文檔。順排文檔相當于印刷型檢索工具的正文部分。在順排文檔中,記錄按順序一個接一個存放,一個序號代表一條記錄,存取號越大對應的記錄就越新。由于順排文檔存取的是最完整的信息,所以通常又把它成為主文檔。這種貯存方法決定了,在對信息進行檢索時,需要對記錄按順序一一進行掃描,存取的記錄越多,檢索的速度越慢。2)優(yōu)點:易于存儲、操作和貯存3)缺點:a.b.c.很難更新和插入一個新的記錄,需要移動大量的數(shù)據(jù)信息。隨機存取一篇文獻太難。不能表達文獻中復雜的多層次的關系。倒排文檔1)它類似于C語言中的指針,指向的是地址)2)對于信息檢索而言,這就意味著每給出一個關鍵詞就能迅速找出包含關鍵詞的文件地址。3)倒排文檔要求文件地址按文件編號順序編排。4)倒排文檔是把順排文檔中的標引詞抽出,按字母順序依次排列5)倒排文檔中的倒排是相對于順排文檔而言的。其實在計算機處理器中,倒排文檔也是按順排文檔的存取方式存取的。二者的區(qū)別在于:順排文檔是以完整的記錄作為處理和檢索單元,而倒排文檔則是以字段作為處理和檢索單元。倒排文檔相對于印刷檢索系統(tǒng)中的輔助索引。6同的字段組成一個混排文檔。倒排文檔(表一)Numberofposting(輸入輸記錄PostingoffileAddress(命中文獻的記錄地址1233324561001456communitydevelopment2檢索時倒排文檔對應的順排文檔(表二)Address(在順排文檔中的地址)Rewordnumber(在順排文檔中的記12331456324561001、8725……4、5、67……community(注:該表相當于關系型數(shù)據(jù)庫中表關鍵詞即主鍵不同的兩表的對應關系)五.信息檢索工具1.概念:指具有檢索性、資料性功能的所有文獻資料、數(shù)據(jù)庫和信息檢索系統(tǒng)。檢索性:具備完備的檢索系統(tǒng),是有序建立的索引。資料性:必須具有權威性、可靠性。2.類型:()按功能劃分:線性型,資料型,綜合型線性型:提供的是信息的出處、來源和地址,如:書目,索引,文摘。資料性:有豐富的資料,如:工具書綜合型:電子版的,如:電子數(shù)據(jù)庫、大型聯(lián)機系統(tǒng)等(2)從檢索手段、方式上劃分:手工檢索工具和計算機檢索工具五.信息檢索的步驟與方法(一)步驟:1.課題分析2選擇相關檢索工具3.構選檢索式4.調(diào)整檢索策略5.評價檢索結果(二)信息檢索的方法1.瀏覽2.簡單檢索(用于信息量比較小、檢索手段缺乏的時候)3.復雜檢索(高級、專家、指南檢索)4.自然語言檢索5.指令檢索:又稱命令檢索,它是由檢索者自行輸入檢索指令,系統(tǒng)即按該指令進行相應的運行,查出所需結果)6.二次檢索六.信息檢索方法功能技術(一)布爾檢索法布爾檢索法就是指利用布爾運算符連接各個檢索詞,然后由計算機進行相應的邏輯運算,以找出信息的方法。布爾運算符Boolean布爾邏輯)【1】【2】【3】【4】【5】AND邏輯與——它要求用其連接的兩個檢索詞必須出現(xiàn)在檢索到的文件中OR邏輯或——它要求用其連接的兩個檢索詞必須有一個出現(xiàn)在檢索文件中NOT邏輯非——它要求用其連接的兩個檢索詞中,其后面的詞不能出現(xiàn)在檢索到的文件中復合使用布爾邏輯運算符的優(yōu)先使用級別圓括號中的檢索式優(yōu)先執(zhí)行()>not>and>or在同意級別中按從左到右的順序進行操作【6】規(guī)則:not(AandB)==notAornotBNot(AorB)==notAandnotB布爾邏輯的局限性:1)2)3)4)5)6)關鍵詞的重要性不能按權重體現(xiàn)出來查詢到的文件不能按查詢相關度進行排序用戶必須嚴格遵循算法并且必須理解每個運算的含義“非”運算對檢索查詢結果影響很大布爾邏輯和布爾查詢并不完全相同缺乏有效反饋信息來支持用戶調(diào)整檢索、查詢(二)詞位檢索法(課本)利用位置運算符號連接各個檢索詞,讓計算機進行相應的位置邏輯運算,從而查找出所需信息的檢索方法。其中,位置連接運算符是用于規(guī)定檢索詞在文獻記錄中的位置關系的符號。在實際檢索中,利用位置連接運算符可有效提高查全率和查準率常用運算符:課本()A(not——查詢檢索詞B不能直接跟在A后的文獻A(not——查詢檢索詞B能在A后,但AB兩詞之間的間隔詞大于n的文獻A(not——查詢檢索詞B不出現(xiàn)在檢索詞A附近的文獻(三)字段檢索法(課本)(四)截詞檢索法(課本)(五)加權檢索所謂加權檢索即是賦予特定的檢索詞以特定的權值,以查找所需信息的方法?,F(xiàn)在常用的,用“+”表示某個檢索詞必須出現(xiàn)在檢索結果中,-表示某個檢索詞一定不出現(xiàn)在檢索結果中。在于判定檢索詞或字符串在滿足檢索邏輯后對文獻命中與否的影響程度。加權檢索的基本方法:1.在每個提問檢索詞后面給定一個權值2.3.設定一個各個檢索詞權值相加后得到的閾值作為命中記錄的條件。中內(nèi)容。(六)概念檢索——與語義、字面有關(概念檢索是對模糊檢索的進一步深入和明確)檢索出于這個檢索詞同屬一類概念的詞匯的結果。檢索原理:1.2.3.計算機概念描述元素都統(tǒng)一對概念意義進行分類對所有標識編制索引,形成相應的倒排文檔文件索引文件,便可得到檢索結果。概念檢索包含兩個方面:同義檢索,相關概念聯(lián)想檢索(七)模糊檢索觀點一:系統(tǒng)允許被檢索信息和檢索提問式之間存在差異觀點二:實質(zhì)上是檢索系統(tǒng)自動進行的同義詞檢索,同義詞又系統(tǒng)的管理界面配置。(八)區(qū)分大小寫檢索:指系統(tǒng)對用戶檢索時包含的大小寫處理方式。不同的系統(tǒng)其處理方式不同。(九)限制檢索:指在檢索時,利用一些限制來縮小檢索面和檢索結果。常見的限定都是用文獻的外部特征:包括出版時間,出版語種,文獻類型,文獻出處。七.信息檢索的類型(一)傳統(tǒng)載體信息檢索。例如:字典、詞典(二)聯(lián)機數(shù)據(jù)庫檢索1.概念:是指用戶利用計算機終端設備通過通信線路或網(wǎng)絡,在聯(lián)機檢索中心的數(shù)據(jù)庫進行檢索并獲取信息的過程。2)數(shù)據(jù)量大(3)檢索功能強(2)數(shù)據(jù)跟新快(4)安全性能好(6)檢索界面單一(5)檢索費用高3.構成:終端設備、聯(lián)機信息檢索中心、數(shù)據(jù)通信網(wǎng)絡具體解釋見課本P125)(三)光盤數(shù)據(jù)庫特點:數(shù)據(jù)含量有限,數(shù)據(jù)跟新速度慢檢索功能強檢索環(huán)境寬松用戶界面比較友好,較為直觀。第三章網(wǎng)絡信息檢索一.信息網(wǎng)絡檢索工具的構成搜索器,檢索器,索引器,用戶檢索界面網(wǎng)站上的目錄或輸入恰當?shù)年P鍵詞或短語的方式進行。1.根據(jù)事先設定好的主題范圍從一個服務器爬到另一個服務器,來獲取相關信息及網(wǎng)頁。Crawlingtheweb:最常用的算法是從一組urls(統(tǒng)一資源定位器)開始查詢,然后按照廣度優(yōu)先或者深度優(yōu)先的方法從其中分析出它的urls。robots深度優(yōu)先:使用這種方法,robots首先跟蹤頁面中的第一個連接點并以此類推,知道其再也沒有可再往下鏈接的點為止,或者達到一個認為連接的點為止?!?】【2】【3】【4】【5】最開始的urls應該是很普遍的不同的crawler應該避免多次訪問相同的頁面用國家代碼來區(qū)分網(wǎng)站,分別用不同的robot來指向不同的網(wǎng)站提及索引的每個網(wǎng)站的日期有些搜索引擎是按照網(wǎng)頁的更新頻率去定期訪問該網(wǎng)頁的。2.3.4.索引器檢索器:分析布爾檢索請求,將檢索詞和索引詞在索引庫中進行匹配,對檢索結果進行排序復雜界面還提供多種檢索限制以及各種信息瀏覽功能。二.網(wǎng)絡信息檢索工具的類型布爾檢索截詞檢索詞位檢索字段檢索短語~概念~模糊~區(qū)分大小寫~網(wǎng)路信息檢索工具的布爾檢索布爾檢索法是網(wǎng)絡中使用最廣泛的一種檢索方法。幾乎所有的檢索工具都具備,但在實現(xiàn)方式上各有不同,可以分為以下類型:1.按嚴格意義上的布爾檢索法操作,可分為3種:(1)(2)用戶必須親自在搜索框中輸入檢索詞和運算符用戶只需在搜索框附近的菜單中點擊選擇使用運算符2.3.支持部分布爾檢索功能用其他符號代替布爾運算符與and4.與圓括號結合使用網(wǎng)絡信息檢索工具的詞位檢索法功能與notor與“缺省值”.使用near指令利用雙引號進行短語檢索限定短語默認檢索?將用戶輸入的兩個詞自動視為一個詞組進行檢索網(wǎng)絡檢索工具的截詞檢索其實現(xiàn)方式有兩種類型1.2.利用通配符,代表了詞干后可能的一切詞形單純利用詞干或菜單選項網(wǎng)絡檢索工具的字段檢索功能1.2.3.主題字段限定非主題字段限定其他限定四.網(wǎng)路信息檢索工具的檢索方法1.瀏覽、目錄檢索2.簡單檢索3.高級檢索五.元搜索引擎1.概念:它是一種網(wǎng)絡服務器,它能將查詢請求同時發(fā)送給多個搜索引擎、網(wǎng)絡指南以及其他數(shù)據(jù)庫,然后將答案集中整理。2結構用戶——元搜素引擎——網(wǎng)絡——各個獨立搜索引擎4.5.優(yōu)點類型(1)all-in-on類型(集中羅列,單獨檢索類)特點:檢索界面不統(tǒng)一一次只能使用一個檢索工具對各個獨立檢索工具的界面復制可能是部分的或者全面的直接用所選的檢索工具的顯示格式呈現(xiàn)給用戶(2)并行檢索,結果綜合類?即以唯一確定的檢索界面,實現(xiàn)對多個獨立型檢索工具索引庫的檢索,并將檢索結果以統(tǒng)一格式顯示的搜索引擎?特點:統(tǒng)一的檢索界面檢索指令轉換統(tǒng)一檢索結果集的組織與轉換第四章聯(lián)機系統(tǒng)數(shù)據(jù)庫檢索一.聯(lián)機數(shù)據(jù)庫結構課本P125-126)二.聯(lián)機系統(tǒng)的利用——檢索步驟()三.Dialog系統(tǒng)檢索1.dialog系統(tǒng)的連入方法1)2)3)專線聯(lián)入利用telnet利用www瀏覽器聯(lián)入2.檢索指令(課本——)1)2)3)4)5)6)Begincommand選擇文檔指令Selectcommand檢詞指令Typecommand打印指令Displaycommand顯示指令Currentcommand當前指令Expendcommand擴詞指令3.基本索引字段4.輔助索引字段5.范疇查詢Eg:SPD=20010115:20080131從2001年一月15號到2008年一月31號的記錄的集合6.數(shù)值查詢,>=,<=,>,<Eg:S:SA>=100000銷售額大于等于100000的公司縮寫:KTHOUSANDMILLIONBILLIONMBTTRILLIONPERCENT%7.聯(lián)機詞表:toviewanonlinethesauris,entertheexpendcommand8.特殊指令Sort:對最后檢索結果進行排序Eg:sort將s1中的所有文獻按作者和標題排序9.一攬子檢索:允許用戶用一個檢索式同時在多個數(shù)據(jù)庫中進行檢索,同元搜索引擎相似Eg:begin516,531打開第516和531個文檔Beginscitechnot77打開自然類數(shù)據(jù)庫不包括第77個文檔Setdetailon使用該指令讓系統(tǒng)分別展示所檢索的每一個數(shù)據(jù)庫中所看到的文獻個數(shù)Removeduplicaterecord去掉重復指令Commandformat:RDSnFROM文件10.dialindexFill411,dialindexisacentralindexformostofthedialogdatabase.indialindexyoucancomparethenumberofrecordsretrievedbyyourstrategyamongagroupofdatabases.?sf——:用于顯示包含主題詞的數(shù)據(jù)個數(shù)?save——:臨時文件存儲指令?rankfiles把獲得的文檔按包含的文獻數(shù)量排序第五章綜合型信息檢索工具及其利用一.全國報刊索引數(shù)據(jù)庫二.中國人民大學書報資源中心復印報刊資料索引總匯三.Calis(chinaacademiclibraryandinformation)高等教育文獻資源保障系統(tǒng)四.Oclc聯(lián)機計算機圖書館中心(具體功能及使用規(guī)則見數(shù)據(jù)庫網(wǎng)站)五.萬方數(shù)據(jù)資源系統(tǒng)六.Cnki工程數(shù)據(jù)庫(一)概述:中國基礎設施工程,chinanationalknowledgeinformation是以實現(xiàn)全社會知識信息資源共享為目的的國家信息化重點工程。(二)檢索工程:可以進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論