信息檢索:第三章 信息檢索實踐基礎(chǔ)_第1頁
信息檢索:第三章 信息檢索實踐基礎(chǔ)_第2頁
信息檢索:第三章 信息檢索實踐基礎(chǔ)_第3頁
信息檢索:第三章 信息檢索實踐基礎(chǔ)_第4頁
信息檢索:第三章 信息檢索實踐基礎(chǔ)_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章 信息存儲與檢索實踐基礎(chǔ),第一節(jié) 信息存儲過程 第二節(jié) 信息檢索的類型 第三節(jié) 信息檢索的策略與方法 第四節(jié) 信息檢索效果的評價 第五節(jié) 信息檢索技術(shù) 第六節(jié) 科技查新工作,第一節(jié) 信息存儲環(huán)節(jié),一、信息的搜集與選擇(以CNKI為例) 二、信息的著錄加工 三、信息的標引加工 四、信息的結(jié)構(gòu)編排,一、信息的搜集與選擇,1、確定收集的原則 收集的學(xué)科范圍(如 機械、物理、化學(xué)) 主題范圍(如機床、刀具) 覆蓋面 信息種類 語種 時間跨度 收集的數(shù)量 摘儲率 2、收集的途徑 3、選擇所需信息,二、信息的著錄加工,1、著錄目的 目的是把一篇文獻變成一條著錄,能體現(xiàn)該文獻的外表特征和內(nèi)容特征。 外

2、部特征指文獻上顯而易見的,一般情況下不反映文獻實質(zhì)意義的那些特征,如書名、人名、各種符號標識(專利號、標準號、文獻號)、機構(gòu)名等。 內(nèi)容特征指表征文獻實質(zhì)意義的特征,如主題詞(敘詞、單元詞、關(guān)鍵詞)、分類號、化學(xué)符號等。,2、著錄內(nèi)容 外表特征:篇名、作者、工作單位、號碼、文種 出處:發(fā)表的刊物名稱、刊號、卷期、頁數(shù) 內(nèi)容特征:摘要 3、著錄格式,圖書,館 藏 號:4418391 文摘類型:R ISBN號:92-828-556-S 語種:Ger 中圖類號:TD94 文獻題名:NMRSpekeropie zur stofflichen Charakter is ierung von Braunk

3、ohlen bei der hydrierenden Veredlung 作者:Michel,D 團體作者:European Commission 國別:BE 縮稱:CEC 出版日期:1999 頁:164S,Libraries-UniversityofOxford,Title:Chineseculture Further information:Mary Colson. Author:Colson, Mary. Publisher Details:London : Raintree Publication Date:2013 Format:48 p. : ill. (chiefly col.)

4、, col. map, ports. (some col.) ; 25 cm. Language:English Identifier:ISBN: 9781406241730 (hbk.) : ;ISBN: 1406241733 (hbk.) : Subjects:China - Civilization - Juvenile literature;China - Social life and customs - Juvenile literature Related Titles:Series: Global cultures Aleph System Number:019475547 T

5、ype:Book Miscellaneous Notes:General Note:Formerly CIP.Bibliography Note:Includes bibliographical references, filmography and index.Target Audience Note:Key Stage 2. Link to this record:http:/solo.bodleian.ox.ac.uk/primo_library/libweb/action/dlDisplay.do?vid=OXVU1&docId=oxfaleph019475547,期刊,記錄標識:98

6、07001 記錄來源:JX 文獻類型:刊 文獻題名:機械零件組成編碼頻率分析及設(shè)計規(guī)范化通用標準化 作者:鮑子強 作者單位:長沙重型機器廠 母體文獻:礦山機械 卷期頁碼:1997,No.12,p.3942 出版單位:洛陽礦山機械研究所 分 類 號:97*TD-3*12 主 題 詞:標準化,成組技術(shù),機械零件,設(shè)計 文摘:(略),專利,發(fā)明名稱:蓖麻脫皮篩選機 范疇:B07B 1/20 范疇分類:27F 33A 13A 國別: 省市:12 申 請 人:劉國喜 通訊地址:(300011)天津市河西區(qū)三水南里126幢 發(fā) 明 人:劉國喜 代 理 人:閆俊芬 代理機構(gòu):12100 天津市專利事務(wù)所專利

7、代理服務(wù)部 代理機構(gòu)地址:(300051)天津市和平區(qū)成都道116號 法律狀態(tài):授權(quán) 說明書頁數(shù):003 附圖頁數(shù):02 權(quán) 項 數(shù):003 文摘:(略),會議文獻,論文題名:從更寬闊的視野觀察與思考冶金反應(yīng)工程學(xué)問題 作者:曲英:北京科技大學(xué),李士琦:北京科技大學(xué) 會議名稱:第七屆全國冶金反應(yīng)工程學(xué)術(shù)會議 會議屆次:7 會議時間:19980515 會議地點:沈陽 會議主辦者:東北大學(xué) 母體文獻:東北大學(xué)學(xué)報(自然科學(xué)版)(第19卷增刊) 出 版 地:沈陽 出版單位:東北大學(xué)學(xué)報編輯部 出版時間:19980500 頁碼:13 館 藏 號:H043339 分 類 號:TF01,N94 關(guān) 鍵 詞

8、:反映工程,冶金,系統(tǒng)工程,可持續(xù)發(fā)展 文摘:(略),標準文獻,標 準 號:GB/T 1990.2-98 發(fā)布日期:1998-11-13 標準狀態(tài):ST 實施日期:1999-05-01 起草單位:中國標準化與信息分類編碼研究所 標準名稱:質(zhì)量管理和質(zhì)量保證標準 第2部分:GB/T 19001、 GB/T 19002和 GB/T 19003實施通用指南 正文語種:漢語 英文名稱:Quality management and quality assurance standards-part 2:Generic guidelines for the application of GB/T 19001

9、、 GB/T 19002 and GB/T 19003 稽 核 項:0 中國標準分類號:A00,標準文獻(續(xù)),采用關(guān)系:ISO 9000-2-97.IDT 主 題 詞:質(zhì)量管理,質(zhì)量保證,質(zhì)量 英文主題詞:QUALITY ASSURANCEQUALITY MANAGEMENTQUALITY 國別:中國 申 請 號:98249276 公 告 號: 申 請 日:19981209 公 告 日: 審定公告日:19991110 授 權(quán) 日: 授權(quán)公告日:19991110,學(xué)位論文,論文題目:自控式同步電機機端電壓位置監(jiān)測器數(shù)字控制 作者:劉波 授予學(xué)位:碩士 導(dǎo)師姓名:李永東 授予學(xué)位單位:清華大學(xué)

10、分類號:TM762.3 館 藏 號:Y248534 論文頁數(shù):97 出版時間:1999.3 主 題 詞:自控式同步電機機端電壓位置監(jiān)測器數(shù)字控制 文摘:(略),科技報告,TITLE:Human factors in aviation maintenance,phase 4 Document ID:19950021275 N (95N27696) File Series:NASA Technical Reports Report Number:DOT/FAA/AM-95/14 Sales Agency&Price:CASI Hardcopy A09 CASI Microfiche A02 Aut

11、hors:Shepherd,William T.(Federal Aviation Administration) Published:May 01,1995 Corporate Source:Federal Aviation Administration(Washington,DC,United States) Galaxy Scientific Corp.(Atlanta,GA,United states) Pages:176 Contract Number:DTFA01-94-C-01013 NASA Subject Category:MAN/SYSTEM TECHNOLOGY AND

12、LIFE SUPPORT,三、信息的標引加工,1、定義 把文獻的主要內(nèi)容用非常簡明的標識(即標志)表示出來。 標識可以是號碼(分類號),也可以是科技名詞或詞組(主題詞),也可以是其它的。,2、作用 1)相同內(nèi)容的文獻集中在一起,不同內(nèi)容的區(qū)分開來 2)形成有序的序列,即按一定規(guī)律排列,把存儲進檢索工具的著錄按照一定的規(guī)律排列起來,形成有序的排檢系統(tǒng),這樣可以提供檢索途徑。,3、 標引加工的類型 分類法標引 用分類號作為標識 主題法標引 用代表文獻主題內(nèi)容的實質(zhì)性的詞匯作為標識,四、信息的結(jié)構(gòu)編排,一般有三種排列方式 1、一條著錄給一個順序編碼,號碼是唯一的,按號碼順序排列。 號碼可以表示存儲地

13、址,但通過號碼文獻的邏輯內(nèi)容體現(xiàn)不出來 2、分類編排,按分類號的順序 3、按主題詞的字母順序,第二節(jié) 信息檢索的類型,1、按信息檢索手段可分為手工檢索、機械化檢索、計算機檢索 手工檢索,是歷史最悠久的一種信息檢索方式,手工檢索是利用手翻、眼看、筆錄等手段,利用檢索工具查找所需特定信息的過程。 機械化檢索,利用某種機械裝置來查找文獻的方式,計算機檢索,又稱自動化檢索,是利用計算機、光盤等現(xiàn)代技術(shù)設(shè)備處理、檢索所需信息的檢索方式。,手工檢索與計算機檢索分析,手工檢索的許多原理和規(guī)律都滲透在計算機檢索中。但是由于查找的直接執(zhí)行者不同,所以計算機檢索的組配和手工檢索的組配存在一定的差別。,手工檢索過程

14、,手工檢索過程中,直接執(zhí)行查找任務(wù)的是人,在查找過程中,人的思維一直起著主導(dǎo)作用,檢索者可以在檢索過程中結(jié)合檢索的結(jié)果不斷明確自己的信息需求和不斷修改自己的檢索提問。在檢索過程中,檢索提問標識與檢索系統(tǒng)中文獻特征標識的組配完全可以做到內(nèi)容、概念和形式上的一致,而無須嚴格的字面的組配。因此,所得到的信息一般能符合檢索者的信息需求。,例如:檢索課題“燃料電池的組堆技術(shù)”,從課題的字面意義上講應(yīng)選取“燃料電池”和“組堆”作為關(guān)鍵詞進行檢索。 在手檢過程中我們可以邊檢索邊分析檢索結(jié)果,結(jié)果發(fā)現(xiàn)燃料電池的組堆技術(shù)主要應(yīng)處理好氣路控制、電路、水汽循環(huán)系統(tǒng)和密封技術(shù)等幾個問題,于是改變查找目標,注重查找密封

15、問題、電路問題等幾個重要問題的解決方案。,計算機檢索過程,在計算機信息檢索過程中,計算機不具備人腦的思維能力,因此,檢索提問標識一經(jīng)輸入檢索系統(tǒng),便無法結(jié)合系統(tǒng)檢索的具體情況不斷明確用戶的信息需求和修改用戶的檢索提問標識。同時,在計算機信息檢索系統(tǒng)中,檢索提問與文獻特征標識的組配完全是一種字面組配,即計算機將兩種“標識”完全作為“字符串”來進行類比運算。因此必須要求檢索提問標識在形式上與文獻特征標識保持完全一致才能“匹配”。這種字面上的組配,使檢索出的文獻記錄只在字面上與檢索提問標識保持一致,而在內(nèi)容上或概念上就不一定符合用戶的信息需求。,例如:檢索課題“非線性光學(xué)材料的制備”,以非線性光學(xué)材

16、料作為檢索詞,可是結(jié)果中包含非線性光學(xué)材料制備光學(xué)元器件,顯然此文章與檢索課題無關(guān),但是計算機不會自動屏蔽掉無關(guān)結(jié)果。因此在進行機檢時一定要深入分析主題,找出與課題相關(guān)的概念和屬性,以防誤檢和漏檢。,在這個知識爆炸的時代,如此多的信息我們不可能都采用手工檢索,90的人都選用了計算機進行信息檢索。用手工(針對某一個課題)檢索一年的CA,大約需要一天的時間,而用計算機進行檢索可能在一刻鐘之內(nèi)便可完成。當然計算機不可能完全具有人工智能,需要人工去瀏覽結(jié)果,不斷改進檢索策略才能完成整個任務(wù)。,2、按檢索的信息的學(xué)科范圍,信息檢索可分為社科信息檢索和科技信息檢索 社科信息檢索是檢索社會科學(xué)領(lǐng)域的信息,

17、科技信息檢索是檢索科學(xué)技術(shù)領(lǐng)域的信息。,兩者的檢索原理相同,只是檢索內(nèi)容的不同。由于社會科學(xué)和科學(xué)技術(shù)學(xué)科性質(zhì)不同,決定了兩者在文獻分布范圍、文獻的時效性等方面存在著較大差別。 兩大學(xué)科門類在民族性與國際性等特性上不同。,3、按照檢索的信息類型,信息檢索可以分為數(shù)據(jù)檢索、事實檢索、書目檢索和全文檢索 數(shù)據(jù)檢索(Data Retrieval),又稱數(shù)值檢索,是以具有數(shù)量性質(zhì)、并以數(shù)值形式表示的數(shù)據(jù)為檢索內(nèi)容的信息檢索。 事實檢索(Fact Retrieval),又稱事項檢索,是以從文獻中抽取的事項為檢索內(nèi)容的信息檢索。 書目檢索(Catalog Retrieval),以文獻線索為檢索對象的信息檢

18、索。 全文檢索(Document Retrieval,F(xiàn)ull-text Retrieval),以文獻所含的全部信息作為檢索內(nèi)容的文獻檢索。,第三節(jié) 信息檢索的策略與方法,1、信息檢索途徑 檢索途徑(Approach),或稱為檢索點(Access Point),是進行檢索的路線和出發(fā)點。,1.1 作者(Author)檢索途徑,或稱為著者途徑,是從文獻的作者姓名出發(fā)來檢索其文獻。 注意外國著者姓名的倒置和取舍規(guī)則、不同語種之間著者姓名的字譯系統(tǒng)。,1.2 題名(Title)途徑 題名是表達、象征、隱喻文獻內(nèi)容及特征的詞或短語,是文獻的標題或名稱,包括書名、刊名、篇名等。許多檢索系統(tǒng)是依文獻題名編

19、制的,如圖書館的書名目錄、刊名目錄及篇名索引。 注意簡稱縮寫、與著者相同的字譯問題。,1.3 分類(Classified)途徑 在檢索系統(tǒng)采用分類語言表達文獻信息內(nèi)容并依此組織文獻信息的基礎(chǔ)上,檢索者用分類語言的標識(分類號)表達待查課題進行檢索,就是從分類途徑檢索。這是一種常用的檢索途徑。,1.4 主題(Subject)途徑 利用檢索系統(tǒng)中用于表達文獻內(nèi)容的主題標識(標題、敘詞、關(guān)鍵詞)進行檢索。其關(guān)鍵就是選準能夠表達檢索課題、并且正好是檢索系統(tǒng)所采用的主題標識形式。主題途徑也是一種常用的檢索途徑。,1.5 序號(Number)途徑 文獻序號對于識別一定的文獻,具有明確、簡短、唯一的特點。

20、在對圖書和期刊檢索時常用到兩個號碼:國際標準書號ISBN(International Standard Book Number)及國際標準刊號ISSN(International Standard Serial Number),1.6代碼(Code/Coden)途徑 利用事物的某種代碼編成的索引,如分子式索引、環(huán)系索引等,可以從特定代碼順序進行檢索。,1.7 引文(Cited)途徑 文獻所附參考文獻或引用文獻,是文獻的外表特征之一。 利用引文而編制的索引系統(tǒng),稱為引文索引系統(tǒng),它提供從被引論文去檢索引用論文的一種途徑,稱為引文途徑。最早出現(xiàn)的美國科學(xué)引文索引是提供這種途徑的典型。,1.8 文獻

21、信息所包含的專門項目途徑 從文獻信息所包含的或有關(guān)的名詞術(shù)語、地名、人名、機構(gòu)名、商品名、生物屬名、年代等的特定順序進行檢索,可以解決某些特定問題。,2信息檢索的策略,2.1 廣義檢索策略 是指在分析課題的基礎(chǔ)上,選擇檢索系統(tǒng)、檢索文檔、檢索途徑,確定檢索詞及其相互間的邏輯關(guān)系,直到檢索出結(jié)果的一系列科學(xué)措施。,2.2 狹義檢索策略 是指就一個問題檢索一個或多個數(shù)據(jù)庫所輸入的全部檢索式的集合,是為滿足檢索需求所制定的一系列檢索式。也即檢索提問式的編寫。,例如:對“微藻生長因子”這一課題來說,檢索策略可編為: (algae+algal+microalgal) * growth()factor?

22、? 實檢后調(diào)整(考慮提高檢準率)、優(yōu)化(低頻詞和關(guān)鍵詞前置)為: (microalgal+algae+algal)(s)growth()factor? ? (microalgal+algae+algal)(3n)growth()factor? ?,3、構(gòu)成檢索提問式的基本要素,3.1 布爾邏輯檢索(Boolean logic) 利用布爾邏輯算符進行檢索詞或代碼的邏輯組配,是現(xiàn)代信息檢索系統(tǒng)中最常用的一種方法。常用的布爾邏輯算符有三種,分別是 邏輯“與” A AND B(A*B) 邏輯“或” A OR B(A+B) 邏輯“非” A NOT B(A-B) AND OR NOT,用這些邏輯算符將檢索

23、詞組配構(gòu)成檢索提問式,計算機將根據(jù)提問式與系統(tǒng)中的記錄進行匹配,當兩者相符時則命中,并自動輸出該文獻記錄。,【實例】 以“計算機”和“信息檢索” 解釋三種邏輯算符的含義,“計算機”AND“信息檢索”,表示查找文獻內(nèi)容中既含有“計算機”又含有“信息檢索”詞的文獻。 “計算機”O(jiān)R“信息檢索”,表示查找文獻內(nèi)容中含有“計算機”或含有“信息檢索”以及兩詞都包含的文獻。 “計算機”NOT“文獻檢索”,表示查找文獻內(nèi)容中含有“計算機”而不含有“信息檢索”的那部分文獻。,檢索中邏輯算符使用是最頻繁的,對邏輯算符使用的技巧決定檢索結(jié)果的滿意程度。用布爾邏輯表達檢索要求,除要掌握檢索課題的相關(guān)因素外,還應(yīng)在布

24、爾算符對檢索結(jié)果的影響方面引起注意。另外,對同一個布爾邏輯提問式來說,不同的運算次序會有不同的檢索結(jié)果。布爾算符使用正確但不能達到應(yīng)有檢索效果的事情有很多。,3.2 字段限制檢索 組成數(shù)據(jù)庫的最小單位稱為記錄。 一篇完整記錄中的每一個著錄事項稱為字段。 一篇記錄中主要用來表達文獻內(nèi)容特征的字段稱為基本索引字段(basic index fields),如篇名字段 、敘詞字段、自由詞字段。 表達文獻外部特征的字段稱為輔助索引字段(additional index fields),包括著者字段、文獻類型字段、語種字段等。,3.3 截詞檢索 截詞檢索就是用截斷的詞的一個局部進行的檢索,并認為凡滿足這個

25、詞局部中的所有字符(串)的文獻,都為命中的文獻。 在檢索標識中保留相同部分,用相應(yīng)的截詞符代替可變化部分。按截斷的位置來分,截詞可有后截斷、前截斷、中截斷三種類型。,截詞檢索也是一種常用的檢索技術(shù),是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛應(yīng)用。 截斷技術(shù)可以作為擴大檢索范圍的手段,具有方便用戶、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。,不同的系統(tǒng)所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截詞符可代表多個字符)。 3.3.1 詞尾的有限截詞 3.3.2 詞尾的無限截詞 3.3.3 中間截詞,【實例分析】 以無限截詞舉

26、例說明,后截斷,前方一致。如:comput?表示computer,computers,computing等。 前截斷,后方一致。如:?computer表示minicomputer,microcomputers等。 中截斷,中間一致。如?comput?表示minicomputer,microcomputers等。,3.4 關(guān)系算符檢索 數(shù)據(jù)庫的輔助索引中,有些是數(shù)值型字段,可使用關(guān)系算符來限定范圍,如: :包含范圍(由低到高的數(shù)字) PY=2000: 2005 大于 PY2000 小于 PY2000,3.5 短語檢索 3.6 括號檢索,4、信息檢索方法,信息檢索方法有四種,即直接檢索法、間接檢索

27、法、追溯法、循環(huán)法。,4.1 直接檢索法 又稱直查法,是指不利用檢索工具或檢索系統(tǒng),通過直接瀏覽或查閱原始文獻,來獲取所需信息的一種檢索方法。 可以作為數(shù)據(jù)庫更新時差等情況下的補充,4.2 間接檢索法 又稱常用法,是指借助于檢索工具或檢索系統(tǒng)獲取所需信息的一種檢索方法。它又分為順查法、例查法和抽查法。,順查:課題起始年代為起點,由遠而近,查全、查準率較高,但費時、費力 倒查:由近及遠,查準率較高,查到前面一定時間不查了,所以漏查率較順查高,但省事 抽查:針對學(xué)科發(fā)展最快,文獻發(fā)表最多的年代查,省時,但必須熟悉學(xué)科發(fā)展特點,4.3 追溯檢索法 簡稱追溯法,又稱擴展法、追蹤法,是指不利用檢索工具,

28、而是利用文獻后面所列的參考文獻,逐一追查原文(被引用文獻),然后再從這些原文后所列的參考文獻目錄逐一擴大文獻信息范圍,一環(huán)扣一環(huán)地追查下去的方法。,4.4 循環(huán)檢索法 簡稱循環(huán)法、又稱分段法、綜合法。實際上是上述間接法和循環(huán)法兩種方法的綜合使用。兩者相互配合,可以取長補短,取得更好的檢索結(jié)果。,選擇檢索方法的原則,要看檢索條件 檢索工具缺乏而原始文獻收藏豐富宜用追溯法,有成套檢索工具則宜用常用法,其查全率、查準率都比追溯法高。,要看檢索要求 要求收集某一課題的系統(tǒng)資料,要求全面,不能有重大遺漏,最好用順查法 要解決某一課題的關(guān)鍵性技術(shù),不要求全面,只要能解決這個關(guān)鍵問題就行,要快,針對性強,要

29、準,宜用倒查法,迅速查得最新資料,要看檢索學(xué)科的特點 古老學(xué)科,開始年代很早,只好用倒查法;新興學(xué)科,起始年代不遠,可用順查法;波浪發(fā)展的學(xué)科,可選擇發(fā)展高峰,用循環(huán)法,5、信息檢索步驟,信息檢索是一項實踐性和經(jīng)驗性很強的工作,對于不同的課題,可能采取不同的檢索方法和程序。檢索程序與檢索的具體要求有密切關(guān)系,大致可分為以下幾個步驟: 5.1 分析檢索課題 5.2 制定檢索策略 5.3 試驗性檢索和修改檢索策略 5.4 正式檢索 5.5 整理、說明檢索結(jié)果,按要求給予答復(fù),或者進一步提供原文。,6、信息檢索的具體環(huán)節(jié),分析主題內(nèi)容、明確檢索需要 提出檢索提問 用檢索語言標引檢索提問 提問標識與系

30、統(tǒng)中存儲的標識進行匹配比較 閱讀著錄 符合要求的輸出 檢索原始文獻(文獻線索檢索的情況下),匹配指概念的邏輯關(guān)系的匹配 1)概念邏輯的方法 2)概念的外延 3)概念的內(nèi)涵 4)概念的外延關(guān)系 相容關(guān)系:同一關(guān)系 從屬關(guān)系 交叉關(guān)系 不相容關(guān)系,第四節(jié) 信息檢索效果的評價,一、信息檢索效果的評價指標 檢索結(jié)果有效性評價的核心問題是建立一套切實可行的評價指標。目前主要以查全率和查準率作為評價標準。,1、查全率和查準率,被檢出的文獻: 有關(guān)文獻 a 無關(guān)文獻 b 未被檢出的文獻:有關(guān)文獻 c 無關(guān)文獻 d 查全率R 查準率P ,2、漏檢率和誤檢率,漏檢率 O 誤檢率N 查全率和漏檢率是互補的,查準率

31、和誤檢率是互補的,3、檢索效率的基本特性,查全率 . 查準率 . 從 式得 R(ac)=a Rc=a(1-R) 即: . ,同樣從 可得: 從 和得: 由 可得: 式中b,c 為系數(shù), 為變量P,R的二元方程,如圖所示: P高則R底;R高則P底 要取得較好的檢索效果應(yīng)兼顧二者,一般,查全率為:6070 查準率為:4050,R,P,0,信息用戶對信息檢索相關(guān)性判斷的因素分析/南京農(nóng)業(yè)大學(xué)信息管理系本科生研究課題,二、 影響信息檢索效率的因素,影響檢索效果的因素很多,與檢索系統(tǒng)性能及檢索過程有關(guān)的各因素都有關(guān)系。 1、檢索系統(tǒng)的質(zhì)量(數(shù)據(jù)庫)和所用的檢索語言 2、檢索人員的知識和技能 文獻檢索知識

32、 知識 外語知識 學(xué)科專業(yè)知識,檢索技能的高低表現(xiàn)在: 1)了解和熟悉有關(guān)專業(yè)領(lǐng)域的各類檢索工具,具備選擇檢索工具的能力 2)準確分析信息需求 3)準確表達信息需求 4)善于利用各種檢索途徑 5)善于辨識信息來源 6)善于調(diào)節(jié)查全率和查準率,三、提高查全率的措施,1、控制同義詞、近義詞 眾多同義詞中只能有一個詞作為正式主題詞。 眾多的近義詞中,選擇一個詞代替其它詞,把這個詞的定義放寬,這樣相關(guān)的內(nèi)容、接近的文獻都集中到一個主題詞下面,這樣查全率提高,但準確率下降了。,2、詞的關(guān)聯(lián)法,利用上位詞進行標引與檢索,提高查全率 3、字形控制法,利用截詞手段使同一詞根的詞組合在一起便于檢索,提高查全率

33、4、利用倒置排列把同一類物體集中在一起,四、提高查準率的措施,1、用下位概念詞 2、采用概念組配法,把兩個或兩個以上的概念組配在一起,表達內(nèi)涵深的主題內(nèi)容,即提高專指度 3、加權(quán)法,第五節(jié) 信息檢索技術(shù),一、傳統(tǒng)檢索技術(shù)與網(wǎng)上檢索技術(shù)的比較 目前,以文獻單元描述體結(jié)構(gòu)為基礎(chǔ)、手工檢索方式為主導(dǎo)的傳統(tǒng)文獻檢索已發(fā)展到以信息單元組織結(jié)構(gòu)為基礎(chǔ)、網(wǎng)上瀏覽式信息查詢方式的信息檢索,計算機信息檢索呈現(xiàn)聯(lián)機檢索、光盤檢索以及網(wǎng)絡(luò)檢索多元并存的格局,面對用戶群體、互相競爭、互相融合,謀求個性化基礎(chǔ)上的共同發(fā)展。,信息檢索技術(shù)發(fā)展了幾十年,除了MARC格式、倒排文檔等基礎(chǔ)知識外,1929年,波蘭著名的邏輯學(xué)家

34、.盧卡西維茲研究出聯(lián)機檢索系統(tǒng)的逆波蘭算法;1968年,日本科技情報中心的菊池敏典研究出介紹脫機批處理檢索信息的菊池敏典算法,這兩種算法都屬于傳統(tǒng)的布爾邏輯檢索模型,都基于文本信息,特別是二次文獻信息的檢索。,隨著計算機技術(shù)的不斷進步和信息量成倍的增加,人們對檢索技術(shù)的要求也越來越高,尤其是網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的出現(xiàn),信息檢索技術(shù)的軟硬件環(huán)境極大提高,信息檢索技術(shù)從傳統(tǒng)的線性檢索向超文本支持的非線性檢索發(fā)展,傳統(tǒng)布爾邏輯檢索模型已不在信息檢索中占統(tǒng)治地位,文本信息也只是各類型信息中的一種,即使在文本信息檢索模型中,概率推理模型和空間向量模型也正在占據(jù)越來越重要的地位。如下表所示,傳統(tǒng)檢索技術(shù)和

35、網(wǎng)上檢索技術(shù)無論是在檢索策略還是在檢索手段上都發(fā)生了本質(zhì)的變化。,傳統(tǒng)檢索技術(shù)和網(wǎng)上檢索技術(shù)比較,二、信息檢索技術(shù)的發(fā)展趨勢,未來信息檢索主要在網(wǎng)上進行,網(wǎng)絡(luò)信息檢索的發(fā)展要依賴于信息新技術(shù)的支撐,如信息推送技術(shù)、超媒體技術(shù)、動態(tài)鏈技術(shù)、知識發(fā)現(xiàn)技術(shù)、信息可視化技術(shù)等廣泛的研究和應(yīng)用。,網(wǎng)上未來的信息組織方式是面向?qū)ο蟮某襟w數(shù)據(jù)模型,它要實現(xiàn)節(jié)點和鏈的擴充與重新組合的動態(tài)機制,將信息的內(nèi)容與組織結(jié)構(gòu)分離,既能實現(xiàn)物理數(shù)據(jù)的相對獨立性,又能保證節(jié)點和鏈的靈活組配與調(diào)整,這就要求超媒體技術(shù)向縱深方向發(fā)展,在傳統(tǒng)的檢索技術(shù)基礎(chǔ)上,結(jié)合應(yīng)用新型信息檢索技術(shù),實現(xiàn)線性與非線性、靜態(tài)與動態(tài)結(jié)合。隨著人工

36、智能、認知科學(xué)、多媒體、計算機技術(shù)與網(wǎng)絡(luò)技術(shù)等學(xué)科的發(fā)展,超媒體技術(shù)將逐漸適應(yīng)人腦的思維方式,實現(xiàn)智能、高效、快速而靈活的信息檢索,達到隨心所欲的查找、迅速定位的水平。,動態(tài)鏈技術(shù)是指對數(shù)據(jù)庫中的數(shù)據(jù)建立一個超文本結(jié)構(gòu),附加在數(shù)據(jù)庫上,然后與超媒體系統(tǒng)相連接,相關(guān)的數(shù)據(jù)動態(tài)的連接起來,檢索時,按照聯(lián)想的方式,從一個站點跳到另一個站點。因為在數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)上增加了一層專為超媒體系統(tǒng)設(shè)計的鏈服務(wù),它的不斷完善,使人們查詢、檢索更為方便。,數(shù)據(jù)挖掘技術(shù)在Internet檢索中應(yīng)用廣泛,給信息檢索領(lǐng)域帶來沖擊,它指使用復(fù)雜的統(tǒng)計分析和模型技術(shù)從大量的數(shù)據(jù)或信息中抽取或識別出未知的、有趣或有用的最終可

37、理解的知識模式。,數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的核心技術(shù),知識發(fā)現(xiàn)技術(shù)(KDD)指利用數(shù)據(jù)庫技術(shù)對數(shù)據(jù)進行前端處理,利用機器學(xué)習(xí)方法從處理后的數(shù)據(jù)中提取有用的知識(指精確抽取大量數(shù)據(jù)中隱含的、預(yù)先未知和潛在的有用信息),即從大量數(shù)據(jù)中發(fā)現(xiàn)有用知識的高級處理過程。 知識發(fā)現(xiàn)技術(shù)的逐漸成熟,將有利于人們充分利用信息資源。,Internet信息檢索向智能化方向發(fā)展,智能檢索是基于自然語言的檢索形式,機器根據(jù)用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索。智能信息檢索是人工智能技術(shù)與檢索技術(shù)的高度融合。,Internet上的人工智能產(chǎn)品越來越多,如智能搜索引擎(Intellignt Search Engine)、智能瀏覽器(Intellignt Browser)、學(xué)習(xí)智能體(Learning Agent)、知識共享智能體(Knowledge-Sharing Agent)等已經(jīng)走出實驗室進入市場。,現(xiàn)有智能檢索技術(shù)的重點是讓用戶獲得信息源方面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論