




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章信息資源的概述傳統(tǒng)信息資源的概述概念與特征類型:一類文獻:原始文獻二類文獻:對一類文獻的加工整理,報道揭示一類文獻,提供的是一類文獻的線索和地址(書目,索引,文獻)三類文獻:來源于一類文獻,有豐富的權威的資料,可以解決各種問題。如:百科全書,字典,詞典,手冊,年鑒,名錄數字信息資源與傳統(tǒng)信息資源相比具有的特征:以多媒體為內容特征內容復雜多樣更新速度快,時效性強利用不受時空限制具備檢索系統(tǒng)具備全方位的動態(tài)的信息服務功能數字信息資源的類型:按性質和功能劃分:一次文獻:原始文獻二次文獻:參考數據庫,搜素引擎,網資,導航等。三次文獻:元搜素引擎(關于搜素引擎的搜素引擎)按載體劃分:光盤,網絡數據
2、庫,聯機檢索系統(tǒng)(三)主要數字信息資源.參考型數據庫:包含各種數據信息的來源和屬性的數據庫。包括:書目數據庫,索引數據庫,文獻數據庫.全文數據庫:收錄有原始文獻全文的數據庫.事實數據庫;直接提供原始文獻的數據庫,分為數值數據庫,指南數據庫,術語數據庫.電子圖書5電子報紙.搜索引擎/分類指南.網絡學術資源學科導航:對各類信息資源進行篩選整理之后,按學科屬性對其進行分類、組織。第二章信息檢索概述一信息檢索:信息檢索就是利用一定的檢索工具,運用一定的檢索技術和方法查找信息的過程。二信息檢索的原理.利用計算機進行信息檢索的前提和基礎是信息的組織和貯存。沒有貯存就沒有檢索對象。.信息的組織與貯存就是數據
3、庫的建立過程。在這一過程中,系統(tǒng)對收集到的信息進行概念分析(即找出能夠表達主題的關鍵詞),然后賦予其特征標識(這一過程也叫對信息內容進行標引),并按特定的編排方法將其組織起來,形成有序的具有可檢性特征的數據庫。.計算機進行信息檢索的原理就是指用戶和檢索人員將能夠表達其信息需求的檢索式提交給檢索系統(tǒng),檢索系統(tǒng)即自動將檢索式與系統(tǒng)中的信息進行匹配,凡是信息特征標識和邏輯組配關系與用戶檢索式一致的,既未命中內容。這種“匹配”實際上就是一種字符串的類比運算。三信息檢索語言(也即標識)1.檢索語言的概念與作用(1)檢索語言是信息存儲與檢索過程中用于描述信息特征和表達用戶信息(3)標引過程:主題分析標引標
4、引結果記錄狹義的對文章的標引:從上圖可知,信息檢索語言的作用:對文獻的外部特征和內容進行多維描述,提供多種檢索過程,以便用戶從不同角度進行檢索。.檢索語言的類型:分類檢索語言人工語言主題檢索語言代碼檢索語言分類檢索語言:將各種概念按學科類型進行系統(tǒng)排列,并用分類號表示。主題檢索語言:用于描述、存儲、檢索信息主題的受控詞(規(guī)法化的詞),按字母順序排列。其選取依據為出現頻率、標引頻率、查找頻率。標題詞語言主題檢索語言單元詞語言敘詞語言敘詞:經過詞匯控制后,在信息組織中顯示文獻主題,在信息檢索中構造檢索提問式的一種檢索詞匯。它以語詞的概念組配而不是字面組配為特征。又稱為描述詞、敘述詞、主題詞。敘詞法
5、就是以敘詞為標識符號,標引和檢索信息的方法,可用復合詞來表達主題概念,檢索式是由多個敘詞組成復合邏輯的組配,形成多種組合方式。自然語言檢索詞:是從信息內容中直接抽取的,主要依賴計算機自動抽詞完成。其中標識詞包括:關鍵詞、題名,作者,全文、引文、摘要。限制性自然語言:對自然語言進行限制,只保留其中的重要詞。.索引(也即標引)檢索語言就是索引語言,索引是信息標引的過程;索引是表明文獻特征的信息。(1)概念:索引就是對信息組織的過程。它包括分析信息內容和用索引語言或檢索語言對信息內容進行描述。部分索引結構舉例:索引標目出處項Informationretrizevalp4,p10,p18(內容分析檢索
6、)音樂檢索與利用/李四情報學報,2008(5),85-89(題名索引)新華文摘2008(1),118架,189位(定位位置檢索)索引的類型:按對象劃分:機構索引、姓名索引、圖書索引、論文索引、專利索引、報刊索引按標目所使用的提示符號劃分:語言檢索、代碼檢索、圖形檢索、數據檢索自動索引:自動索引就是指計算機在沒有人工干預的前提下,根據一定的自動分析算法對信息內容進行分析與描述。索引的目的:通過主題詞確定文件地址分析文件的分布狀態(tài)決定文件和查詢之間的關系最終目的:進行信息檢索自動索引的作用:避免不一致性,節(jié)約檢索時間(這里的一致性指用戶輸入檢索系統(tǒng)的檢索式與檢索系統(tǒng)中對信息特征進行描述的標識詞相匹
7、配)自動索引的過程:輸入全文通過空格、標點來分析分解全文,作為結果把有用和無用的詞放入詞庫把有用詞(最能表達文章主題的詞)和無用詞分開給有用詞賦予權重(相關性)如何把有用詞和無用詞分開,找出最能表達文章主題的標識詞,從而有效進行檢索:停用詞表法:停用詞:通用的表達語法關系、以及其他的相關詞,當他們離開上下文后就不再具有任何的語義。(停用詞是相對的,在某些特定環(huán)境下也是有用的)停用詞表:由在信息處理過程中可以被忽視或者過濾的詞組成。停用詞的缺陷:無法識別索引詞的重要性,無法給實義詞賦予權值;無法對短語做出索引,過濾掉某些虛詞之后短語就不再具有原來的含義,或者整個短語都會被過濾掉,無法有效進行檢索
8、。原始詞頻法:一個詞在文章中出現的頻率越高,它越能夠表達文章的主題思想。因此,出現頻率越高的詞就會被留下來作為索引。反之,低頻詞就會被去除。通常在原始詞頻法中有一個底線,如果一個詞出現的次數超出或者等于這個底線,那么它就會被選出來作為索引詞底線發(fā)生變化,索引詞也發(fā)生變化原始詞頻法的缺陷:未考慮到文章的長短,底線的設定無法適應任何文章。標準詞頻法:(詞頻=一個詞在文章中出現的次數/一篇文獻中包含的所有詞的數量)0WWl,f即頻率k即關鍵詞:關鍵詞在一個句子中并不是獨立的,該方法為考慮到一個詞在整個數據庫中的影響力其作為鑒別詞的鑒別力就越強,精度就越大。反向詞頻法:的頻率,N指數據庫中包含文件的個
9、數,指數據庫中包含關鍵詞k的文件的數量。在信息檢索領域,log一般默認為以2為底,此處用log是為了弱化k對權重的影響,因為影響權重的因素還有其他的。反向詞頻法一種計算詞在文章中權重的方法。反向就是指詞k在數據庫中出現的頻率越低,鑒別能力就越。其他影響權重的因素:詞在文章中的位置,如:標題、摘要、結論斜體字句子形式:提出了,討論了,顯示了d.用and和or等連接起來的詞通常具有相同的含義。自動摘要:非全文摘取,摘取關鍵句子,刪除無用的句子頻率,N指一個文件中句子的數量,K的句子的個數。通過將一個句子中所包含的各個詞的權值相加得出一個句子的權重根據各個句子權重的大小按降序將文件中所有句子進行排序
10、選出具有最高權重的句子將所選出的句子整理成文摘四.信息組織的結構.從信息檢索的視角來看,數據組織的兩個重要方面是:他所描述的概念和關系,以及它是如何支持檢索運行的。.數據庫的構成:文檔一記錄一字段(1)文檔是由若干條記錄構成的信息集合。文檔是書目數據庫和檢索系統(tǒng)中數據組織的基本形式。(2)根據數據庫的內部形式,一個數據庫最少包含一個順排文檔和一個倒排文檔(其實是一個索引數據庫,它可以使用戶在順排文檔中快速有效實現檢索)。順排文檔:概念:按文獻記錄的輸入順序(文獻序號)排列的文檔。順排文檔相當于印刷型檢索工具的正文部分。在順排文檔中,記錄按順序一個接一個存放,一個序號代表一條記錄,存取號越大對應
11、的記錄就越新。由于順排文檔存取的是最完整的信息,所以通常又把它成為主文檔。這種貯存方法決定了,在對信息進行檢索時,需要對記錄按順序一一進行掃描,存取的記錄越多,檢索的速度越慢。優(yōu)點:易于存儲、操作和貯存缺點:很難更新和插入一個新的記錄,需要移動大量的數據信息。隨機存取一篇文獻太難。不能表達文獻中復雜的多層次的關系。倒排文檔概念:它是一種指南結構,在倒排文檔中每款關鍵詞都與包含該關鍵詞的文件地址相連。(所以,它類似于C語言中的指針,指向的是地址)對于信息檢索而言,這就意味著每給出一個關鍵詞就能迅速找出包含關鍵詞的文件地址。倒排文檔要求文件地址按文件編號順序編排。倒排文檔是把順排文檔中的標引詞抽出
12、,按字母順序依次排列倒排文檔中的倒排是相對于順排文檔而言的。其實在計算機處理器中,倒排文檔也是按順排文檔的存取方式存取的。二者的區(qū)別在于:順排文檔是以完整的記錄作為處理和檢索單元,而倒排文檔則是以字段作為處理和檢索單元。倒排文檔相對于印刷檢索系統(tǒng)中的輔助索引。6)可以按不同的字段分別組織不同的倒排文檔(如:按主題詞、作者)也可以把不同的字段組成一個混排文檔。倒排文檔(表一)標識詞輸入輸記錄的數量命中文獻的記錄地址檢索時倒排文檔對應的順排文檔(表二)標識詞(在順排文檔中的地址)在順排文檔中的記錄號81317456(注:該表相當于關系型數據庫中表關鍵詞即主鍵不同的兩表的對應關系)五信息檢索工具.概
13、念:指具有檢索性、資料性功能的所有文獻資料、數據庫和信息檢索系統(tǒng)。檢索性:具備完備的檢索系統(tǒng),是有序建立的索引。資料性:必須具有權威性、可靠性。注:具備檢索性但不具備資料性的可以是檢索工具(例如:搜索引擎),但反之就不是檢索工具。.類型:(1)按功能劃分:線性型,資料型,綜合型線性型:提供的是信息的出處、來源和地址,如:書目,索引,文摘。資料性:有豐富的資料,如:工具書綜合型:電子版的,如:電子數據庫、大型聯機系統(tǒng)等(2)從檢索手段、方式上劃分:手工檢索工具和計算機檢索工具五信息檢索的步驟與方法(一)步驟:1.課題分析2選擇相關檢索工具.構選檢索式.調整檢索策略.評價檢索結果(二)信息檢索的方
14、法.瀏覽.簡單檢索(用于信息量比較小、檢索手段缺乏的時候).復雜檢索(高級、專家、指南檢索).自然語言檢索.指令檢索:又稱命令檢索,它是由檢索者自行輸入檢索指令,系統(tǒng)即按該指令進行相應的運行,查出所需結果).二次檢索六信息檢索方法/功能/技術(一)布爾檢索法布爾檢索法就是指利用布爾運算符連接各個檢索詞,然后由計算機進行相應的邏輯運算,以找出信息的方法。布爾運算符Booleanlogic(布爾邏輯)【1】AND邏輯與它要求用其連接的兩個檢索詞必須出現在檢索到的文件中【2】OR邏輯或它要求用其連接的兩個檢索詞必須有一個出現在檢索文件中【3】NOT邏輯非它要求用其連接的兩個檢索詞中,其后面的詞不能出
15、現在檢索到的文件中【4】復合使用【5】布爾邏輯運算符的優(yōu)先使用級別圓括號中的檢索式優(yōu)先執(zhí)行()notandor在同意級別中按從左到右的順序進行操作【6】規(guī)則:not(AandB)=notAornotBNot(AorB)=notAandnotB布爾邏輯的局限性:關鍵詞的重要性不能按權重體現出來查詢到的文件不能按查詢相關度進行排序用戶必須嚴格遵循算法并且必須理解每個運算的含義“非”運算對檢索查詢結果影響很大布爾邏輯和布爾查詢并不完全相同缺乏有效反饋信息來支持用戶調整檢索、查詢(二)詞位檢索法(課本P109)利用位置運算符號連接各個檢索詞,讓計算機進行相應的位置邏輯運算,從而查找出所需信息的檢索方法
16、。其中,位置連接運算符是用于規(guī)定檢索詞在文獻記錄中的位置關系的符號。在實際檢索中,利用位置連接運算符可有效提高查全率和查準率常用運算符:課本(P109)A(notW)B查詢檢索詞B不能直接跟在A后的文獻A(notnW)B查詢檢索詞B能在A后,但AB兩詞之間的間隔詞大于n的文獻A(notN)B查詢檢索詞B不出現在檢索詞A附近的文獻(三)字段檢索法(課本P110)(四)截詞檢索法(課本P110)(五)加權檢索所謂加權檢索即是賦予特定的檢索詞以特定的權值,以查找所需信息的方法。現在常用的,用“可表示某個檢索詞必須出現在檢索結果中,-表示某個檢索詞一定不出現在檢索結果中。加權檢索側重點不在于判斷檢索詞
17、后字符串在不在數據庫中、與別的檢索詞或字符串是什么關系,而在于判定檢索詞或字符串在滿足檢索邏輯后對文獻命中與否的影響程度。加權檢索的基本方法:在每個提問檢索詞后面給定一個權值設定一個各個檢索詞權值相加后得到的閾值作為命中記錄的條件。檢索時先查找這些檢索詞在數據庫記錄是否存在,然后計算存在的權值,權值之和達到閾值的即為命中內容。(六)概念檢索一一與語義、字面有關(概念檢索是對模糊檢索的進一步深入和明確)所謂概念檢索,是指用戶輸入一個檢索詞后,檢索工具不僅能檢索出包含這個檢索詞匯的結果,還能檢索出于這個檢索詞同屬一類概念的詞匯的結果。檢索原理:計算機概念描述元素都統(tǒng)一對概念意義進行分類對所有標識編
18、制索引,形成相應的倒排文檔文件當用戶鍵入一個檢索請求時,也同樣對其進行概念意義分類標注,并將其作為檢索入口,查找標識符索引文件,便可得到檢索結果。概念檢索包含兩個方面:同義檢索,相關概念聯想檢索(七)模糊檢索觀點一:系統(tǒng)允許被檢索信息和檢索提問式之間存在差異觀點二:實質上是檢索系統(tǒng)自動進行的同義詞檢索,同義詞又系統(tǒng)的管理界面配置。(八)區(qū)分大小寫檢索:指系統(tǒng)對用戶檢索時包含的大小寫處理方式。不同的系統(tǒng)其處理方式不同。(九)限制檢索:指在檢索時,利用一些限制來縮小檢索面和檢索結果。常見的限定都是用文獻的外部特征:包括出版時間,出版語種,文獻類型,文獻出處。七信息檢索的類型(一)傳統(tǒng)載體信息檢索。
19、例如:字典、詞典(二)聯機數據庫檢索.概念:是指用戶利用計算機終端設備通過通信線路或網絡,在聯機檢索中心的數據庫進行檢索并獲取信息的過程。(2)數據跟新快(4)安全性能好(6)檢索界面單一2特點:(1)數據量大(3)檢索功能強(5)檢索費用高3構成:終端設備、聯機信息檢索中心、數據通信網絡(具體解釋見課本P125)(三)光盤數據庫特點:1.數據含量有限,數據跟新速度慢.檢索功能強.檢索環(huán)境寬松.用戶界面比較友好,較為直觀。第三章網絡信息檢索一.信息網絡檢索工具的構成搜索器,檢索器,索引器,用戶檢索界面搜索引擎是一種設計出來用于人們搜索萬維網網站中的信息的計算機軟件。查詢方法是通過選擇瀏覽網站上
20、的目錄或輸入恰當的關鍵詞或短語的方式進行。搜索器:它是軟件程序,專門用于智能查詢萬維網上的信息及網頁,其方式是該軟件按照超鏈接方式、根據事先設定好的主題范圍從一個服務器爬到另一個服務器,來獲取相關信息及網頁。Crawlingtheweb:最常用的算法是從一組urls(統(tǒng)一資源定位器)開始查詢,然后按照廣度優(yōu)先或者深度優(yōu)先的方法從其中分析出它的urls。廣度優(yōu)先:這種方法即是讓robots查看與當前網頁相連接的所有網頁,這種方法能找到與主題相關的網站。深度優(yōu)先:使用這種方法,robots首先跟蹤頁面中的第一個連接點并以此類推,知道其再也沒有可再往下鏈接的點為止,或者達到一個認為連接的點為止。【1
21、】最開始的urls應該是很普遍的【2】不同的crawler應該避免多次訪問相同的頁面【3】用國家代碼來區(qū)分網站,分別用不同的robot來指向不同的網站【4】提及索引的每個網站的日期【5】有些搜索引擎是按照網頁的更新頻率去定期訪問該網頁的。索引器檢索器:分析布爾檢索請求,將檢索詞和索引詞在索引庫中進行匹配,對檢索結果進行排序用戶檢索界面:用戶檢索界面器分為簡單和復雜兩種。檢索界面只提供用戶輸入檢索式的文本搜索框,復雜界面還提供多種檢索限制以及各種信息瀏覽功能。二網絡信息檢索工具的類型布爾檢索截詞檢索詞位檢索字段檢索短語概念模糊區(qū)分大小寫網路信息檢索工具的布爾檢索布爾檢索法是網絡中使用最廣泛的一種
22、檢索方法。幾乎所有的檢索工具都具備,但在實現方式上各有不同,可以分為以下類型:按嚴格意義上的布爾檢索法操作,可分為3種:用戶必須親自在搜索框中輸入檢索詞和運算符用戶只需在搜索框附近的菜單中點擊選擇使用運算符支持部分布爾檢索功能用其他符號代替布爾運算符+與and-與notor與“缺省值”與圓括號結合使用網絡信息檢索工具的詞位檢索法功能使用near指令利用雙引號進行短語檢索限定短語默認檢索將用戶輸入的兩個詞自動視為一個詞組進行檢索網絡檢索工具的截詞檢索其實現方式有兩種類型利用通配符*,*代表了詞干后可能的一切詞形單純利用詞干或菜單選項網絡檢索工具的字段檢索功能主題字段限定非主題字段限定其他限定四網
23、路信息檢索工具的檢索方法.瀏覽、目錄檢索.簡單檢索.高級檢索五元搜索引擎1.概念:它是一種網絡服務器,它能將查詢請求同時發(fā)送給多個搜索引擎、網絡指南以及其他數據庫,然后將答案集中整理。2結構用戶元搜素引擎網絡各個獨立搜索引擎優(yōu)點類型all-in-on類型(集中羅列,單獨檢索類)特點:檢索界面不統(tǒng)一一次只能使用一個檢索工具對各個獨立檢索工具的界面復制可能是部分的或者全面的直接用所選的檢索工具的顯示格式呈現給用戶并行檢索,結果綜合類即以唯一確定的檢索界面,實現對多個獨立型檢索工具索引庫的檢索,并將檢索結果以統(tǒng)一格式顯示的搜索引擎特點:統(tǒng)一的檢索界面檢索指令轉換統(tǒng)一檢索結果集的組織與轉換第四章聯機系
24、統(tǒng)數據庫檢索一.聯機數據庫結構(課本P125-126)二.聯機系統(tǒng)的利用檢索步驟(P127-128)三.Dialog系統(tǒng)檢索l.dialog系統(tǒng)的連入方法1)專線聯入2)利用telnet3)利用www瀏覽器聯入2.檢索指令(課本P134136)Begincommand選擇文檔指令Selectcommand檢詞指令Typecommand打印指令Displaycommand顯示指令Currentcommand當前指令Expendcommand擴詞指令.基本索引字段.輔助索引字段.范疇查詢Eg:SPD=20010115:20080131從2001年一月15號到2008年一月31號的記錄的集合.數值查
25、詢=,=,=100000銷售額大于等于100000的公司縮寫:KTHOUSANDMMILLIONBBILLIONTTRILLION%PERCENT.聯機詞表:toviewanonlinethesauris,entertheexpendcommand.特殊指令Sortcommand:對最后檢索結果進行排序Eg:sorts1/all/au,at將si中的所有文獻按作者和標題排序.一攬子檢索:允許用戶用一個檢索式同時在多個數據庫中進行檢索,同元搜索引擎相似Eg:begin516,531打開第516和531個文檔Beginscitechnot77打開自然類數據庫不包括第77個文檔Setdetailon
26、使用該指令讓系統(tǒng)分別展示所檢索的每一個數據庫中所看到的文獻個數Removeduplicaterecord去掉重復指令Commandformat:RDSnFROM文件10.dialindexFill411,dialindexisacentralindexformostofthedialogdatabase.indialindexyoucancomparethenumberofrecordsretrievedbyyourstrategyamongagroupofdatabases.?sf:用于顯示包含主題詞的數據個數?savetemp:臨時文件存儲指令?rankfiles把獲得的文檔按包含的文獻數量排序第五章綜合型信息檢索工具及其利用一.全國報刊索引數據庫二.中國人民大學書報資源中心復印報刊資料索引總匯三.Calis(chinaacademiclibraryandinformationsystem)高等教育文獻資源保障系統(tǒng)四.Oclc聯機計算機圖書館中心(具體功能及使用規(guī)則見數據庫網站)五萬方數據資源系統(tǒng)六.Cnki工程數據庫(一)概述:中國基礎設施工程,chinanationalknowledgeinformationstructure.是以實現全社會知識信息資源共享為目的的國家信息化重點工程。(二)檢索工程:可以進行跨庫檢索(三)cnki數據庫檢索.初級檢索.高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人轉租店鋪合同范本
- 兼職合同范例簡易范例
- 休閑農莊出租合同范本
- 叉車維修度合同范本
- 麗水塔吊拆裝合同范本
- 個人簡單授權委托書怎么寫
- 工業(yè)鍋爐司爐考試模擬題(含答案)
- 電工技術及實訓考試題(含參考答案)
- 上半年工質量監(jiān)督工作總結
- iso認證合同范本
- 自身免疫性多內分泌腺體綜合征
- 2023版?zhèn)€人征信模板簡版(可編輯-帶水印)
- IEC-60068-系列標準完整版
- 中醫(yī)師承跟師筆記
- 鳳飛羌舞演藝中心及演出項目可行性研究報告
- 工程電磁場教案
- C#經典教材(打印版)
- 02職業(yè)生涯目標的分解和組合
- 全國2016年10月自考00043經濟法概論(財經類)試題及答案
- 施工和檢維修管理制度
- 建設工程檔案預驗收申請表
評論
0/150
提交評論