




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第2章信息檢索基本原理
黃波2009年9月四川.成都第1頁,共55頁。檢索可分為文獻檢索(documentsretrieval)和信息檢索(informationretrieval)。文獻檢索是指查找或提供用戶所需要的各類型相關(guān)的印刷型資料、縮微資料、聲像資料和數(shù)據(jù)庫文獻的過程;信息檢索則是指查找所需事實、數(shù)據(jù)、圖象、理論等未知知識的過程,或者說,通過分析、綜合等信息加工后,獲取隱含在文獻中的知識的過程。第2頁,共55頁。2.1信息檢索的基本概念2.2數(shù)字信息檢索工具
2.3計算機信息檢索技術(shù)2.4信息檢索的基本步驟第3頁,共55頁。2.1信息檢索概述2.1.1信息檢索的含義與實質(zhì)2.1.2信息檢索的類型和特點第4頁,共55頁。2.1.1信息檢索的含義與實質(zhì)信息檢索是指從任何方式組成的信息集合中,查找特定用戶在特定時間和條件下所需信息的方法與過程。因此,完整的信息檢索應(yīng)包括以下兩個方面:1.信息的標(biāo)引和存儲過程2.信息的檢索過程
第5頁,共55頁。2.1.1信息檢索的含義與實質(zhì)廣義地講,信息檢索包含信息儲存和信息查找兩個過程。狹義地講,信息檢索僅僅指信息查找的過程,即解決特定的信息需求和滿足信息用戶的需要。信息檢索是指從一定結(jié)構(gòu)的信息儲存集合中,查找出用戶所需的特定信息的方法與過程。第6頁,共55頁。2.1.1信息檢索的含義與實質(zhì)其實質(zhì)將描述特定用戶所需信息的提問特征,與信息存儲的檢索標(biāo)識進行異同的比較,從中找出與提問特征一致或基本一致的信息。第7頁,共55頁。文獻檢索一般查找方法文獻之間的引證和被引證關(guān)系揭示了文獻之間存在的某種內(nèi)在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻后所附的參考文獻、相關(guān)書目、推薦文章和引文注釋查找相關(guān)文獻的方法。這些材料指明了與用戶需求最密切的文獻線索,往往包含了相似的觀點、思路、方法,具有啟發(fā)意義。循著這些線索去查找,不僅利用了前人的勞動成果,省卻了很多時間和精力,而且可能在原來的基礎(chǔ)上有新的發(fā)現(xiàn)。第8頁,共55頁。文獻檢索一般查找方法越查越新:這種查法主要依靠專門的引文索引,如《科學(xué)引文索引》(ScienceCitationIndex)、《社會科學(xué)引文索引》(SocialSciencesCitationIndex)。越查越舊:追溯歷史。第9頁,共55頁。文獻檢索一般查找方法常規(guī)法可分為順查法、逆查法和抽查法。順查法是以課題研究的起始年代為出發(fā)點,利用選定的檢索工具如書目、索引、文摘由遠(yuǎn)及近地逐年查找;逆查法則相反,是由近及遠(yuǎn)地查找,起點是從最近發(fā)表的文獻開始,直到設(shè)定終止的年代或查到所需資料為止。查全率比引文法高。兩種方法適用于研究范圍廣、研究歷史較悠久、課題較大的咨詢。也可用于解答那些無法準(zhǔn)確確定答案在什么時間范圍內(nèi)的咨詢。第10頁,共55頁。文獻檢索一般查找方法抽查法是基于這樣一個規(guī)律來查文獻的,即任何一門學(xué)科的專題研究興旺時期發(fā)表的文獻量大,各種學(xué)術(shù)觀點較為集中,如果針對課題研究處于興旺時期的若干年查找,則付出較少的時間可獲得較為滿意的檢索結(jié)果。交替法就是把引文法和常規(guī)法結(jié)合起來查找文獻的方法:即先利用常規(guī)檢索工具找出一批有用文獻,然后利用這些文獻所附的引文進行追溯查找,由此獲得更多文獻。第11頁,共55頁。檢索步驟:分析問題→選擇檢索工具→從檢索工具中查找所需信息→獲取原文(查找原文數(shù)據(jù)庫除外)。分析問題的步驟是:問題的分類→分析“已知”和“欲知”信息→分析需求的主題內(nèi)容→確定文獻類型和時間范圍;第12頁,共55頁。2.1.2信息檢索的類型和特點提問特征是指從欲檢索課題中選擇出能代表信息需求的概面以及涉及到的主題詞或關(guān)鍵詞等。結(jié)論:利用信息的檢索系統(tǒng),查找特指相關(guān)信息的過程。第13頁,共55頁。2.1.2信息檢索的類型和特點一般說,所有文獻的特征可分兩大類:外表特征(題名、著者、序號等);內(nèi)容特征(分類、主題、關(guān)鍵詞)。所以文獻檢索的入口途徑也分成兩個方面。第14頁,共55頁。一些基本概念字段:字段是文獻著錄的基本單元,反映文獻外部特征和內(nèi)容特征的每一個項目,如題名字段、著者字段、刊名字段、文摘字段、主題詞字段、關(guān)鍵詞字段等。第15頁,共55頁。一些基本概念元數(shù)據(jù):是一種在電子資源中使用的著錄數(shù)據(jù)。與傳統(tǒng)文獻中的著錄款目性質(zhì)相同,不同之處在于傳統(tǒng)文獻的著錄是相對完整的、靜止的信息內(nèi)容進行處理。元數(shù)據(jù)著錄的對象,不僅包括圖書、期刊、磁帶、錄像帶、縮微品、論文、科技報告,還包括各種形式的網(wǎng)絡(luò)信息資源等。著錄的數(shù)據(jù)既書目信息、文摘、索引、綜述等,也包括文檔名、URL等信息源數(shù)據(jù)。第16頁,共55頁。一些基本概念記錄:是對某一實體屬性進行描述的信息單元。每個信息單元由諸如著者、標(biāo)題、出版日期等若干個數(shù)據(jù)元組成。在書目數(shù)據(jù)庫中,被描述的實體是某一特定的文獻,這類記錄通常被稱作文獻記錄。第17頁,共55頁。數(shù)字信息檢索類型文獻信息檢索數(shù)據(jù)信息檢索事實信息檢索。第18頁,共55頁。數(shù)字信息檢索類型(1)文獻信息檢索文獻信息檢索(DocumentInformationRetrieval)是將存儲于數(shù)據(jù)庫中關(guān)于某一主題文獻的線索查找出來的檢索。它通常通過目錄、索引、文摘等二次文獻信息為工具,以原始文獻的出處為檢索目的,可以向用戶提供有關(guān)原文獻的信息。文獻信息檢索是利用檢索工具查出相關(guān)文獻的過程。檢索系統(tǒng)不直接解答用戶提出的問題,而是提供與之相關(guān)的文獻名稱及出處,供用戶篩選使用。例:查找2007年關(guān)于“文獻信息檢索”的所有專著。第19頁,共55頁。數(shù)字信息檢索類型(2)數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索(DataInformationRetrieval)是將經(jīng)過選擇、整理、鑒定的數(shù)值數(shù)據(jù)存入數(shù)據(jù)庫中,根據(jù)需要查出可回答某一問題的數(shù)據(jù)的檢索。數(shù)據(jù)信息檢索的對象是數(shù)值性數(shù)據(jù),即具有數(shù)量性質(zhì)并以數(shù)值形式表示的量化信息。這些數(shù)值型數(shù)據(jù)各種各樣,包括物理性能數(shù)據(jù)、化學(xué)物質(zhì)數(shù)據(jù)、環(huán)境監(jiān)測數(shù)據(jù)、各種統(tǒng)計數(shù)據(jù)、自然資源數(shù)據(jù)、經(jīng)濟和社會數(shù)據(jù)等。數(shù)據(jù)檢索不僅能查出數(shù)據(jù),而且能提供一定的運算、推導(dǎo)能力。用戶可通過使用經(jīng)過選擇、整理、鑒定的數(shù)值數(shù)據(jù)庫檢索獲得一些量化信息,從而為定量分析提供依據(jù)。例:2007年我國的國民生產(chǎn)總值是多少?第20頁,共55頁。數(shù)字信息檢索類型(3)事實信息檢索事實信息檢索(FactInformationRetrieval)是將存儲于數(shù)據(jù)庫中的關(guān)于某一事件發(fā)生的時間、地點、經(jīng)過等信息查找出來的檢索。它既包含數(shù)值數(shù)據(jù)的檢索、運算、推導(dǎo),也包括事實、概念等的檢索、比較、邏輯判斷。事實信息檢索的對象是已經(jīng)存在的各種事實的有關(guān)資料,它是數(shù)值信息和系統(tǒng)數(shù)據(jù)信息的混合。一般先從系統(tǒng)中檢索出所需信息后,再加以邏輯推理才能給出結(jié)論。例如MIS數(shù)據(jù)庫中包含大量公司管理中有關(guān)人員、工資、銷售統(tǒng)計預(yù)測、產(chǎn)品規(guī)模等信息,這類信息主要是用于管理決策的。事實信息檢索比數(shù)值數(shù)據(jù)信息檢索復(fù)雜。例:美國《化學(xué)文摘》的概況第21頁,共55頁。數(shù)字信息檢索基本原理數(shù)字信息檢索基本原理,是將用戶的檢索提問詞與數(shù)據(jù)庫文獻記錄中的標(biāo)引詞進行比對,當(dāng)提問詞與標(biāo)引詞匹配一致時,即為命中,檢索成功。由此可見,能否準(zhǔn)確地檢索出用戶所需的信息,關(guān)鍵在于能否準(zhǔn)確地選擇檢索詞。這里所謂的“準(zhǔn)確”,是指用戶所選用的檢索詞必須與數(shù)據(jù)庫中標(biāo)引文獻記錄所用的標(biāo)引詞相一致。檢索語言就是為溝通文獻標(biāo)引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標(biāo)引人員與檢索人員雙方思路的渠道,是用于文獻標(biāo)引和檢索提問的約定語言。第22頁,共55頁。檢索語言在標(biāo)引和檢索過程中的作用見下圖:第23頁,共55頁。數(shù)字信息檢索基本原理分類檢索語言:用分類號來表達各種概念,以學(xué)科體系為基礎(chǔ),將各種概念按學(xué)科性質(zhì)進行分類和系統(tǒng)排列?!吨袌D法》第24頁,共55頁。數(shù)字信息檢索基本原理《中國圖書館分類法》:分五大部22大類。
A馬克思主義、列寧主義、毛澤東思想、鄧小平理論
B哲學(xué)、宗教
C社會科學(xué)總論
D-K社會科學(xué)各學(xué)科
N自然科學(xué)總論
O-X自然科學(xué)各學(xué)科
Z綜合性圖書第25頁,共55頁。數(shù)字信息檢索基本原理主題語言所使用的語詞統(tǒng)稱為主題詞,主題詞來自自然語言,多半經(jīng)過規(guī)范化處理,形成主題詞表,作為標(biāo)引與檢索的依據(jù)。關(guān)鍵詞語言是直接選用文獻中的自然語言作基本詞匯,并將那些能夠揭示文獻題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進行標(biāo)引的一種檢索語言。所謂關(guān)鍵詞是指那些出現(xiàn)在文獻的標(biāo)題(篇名、章節(jié)名)以至摘要、正文中,對表征文獻主題內(nèi)容具有實質(zhì)意義的語詞,亦即對揭示和描述文獻主題內(nèi)容來說是重要的、帶關(guān)鍵性的(可作為檢索“入口”的)那些詞語。第26頁,共55頁。2.1.2信息檢索的類型和特點1.書目信息檢索2.全文信息檢索3.數(shù)據(jù)信息檢索4.事實信息檢索
5.
小結(jié)第27頁,共55頁。書目信息檢索以標(biāo)題、作者、原文來源、摘要及收藏地點為檢索對象,是一種相關(guān)性檢索。特點:檢索結(jié)果不直接解答課題用戶提出的技術(shù)問題,只提供與之相關(guān)的線索。一般以目錄、索引、文摘數(shù)據(jù)庫為檢索工具。
例如:查找有關(guān)“聚苯硫醚的合成與應(yīng)用”方面的國內(nèi)外信息有那些?
檢索工具:
中文科技期刊數(shù)據(jù)庫、萬方數(shù)據(jù)資源系統(tǒng)、EI、CAonCD等。
第28頁,共55頁。全文信息檢索以論文或?qū)@f明書的全文為檢索對象,也屬相關(guān)性檢索的范疇。特點:是在書目信息檢索基礎(chǔ)上更深層次的內(nèi)容檢索。例如:檢索由王華東等撰寫,發(fā)表在《高分子材料科學(xué)與工程》2003年第3期“高性能結(jié)構(gòu)材料聚苯硫醚砜”一文檢索工具:中文科技期刊數(shù)據(jù)庫等第29頁,共55頁。數(shù)據(jù)信息檢索以具有數(shù)量性質(zhì)并以數(shù)值形式表示的數(shù)據(jù)為檢索對象,是一種確定性檢索。檢索的結(jié)果是經(jīng)過測試和評價過的各種數(shù)據(jù),可用于比較分析和定量分析。它一般以數(shù)據(jù)大全、手冊、年鑒等為檢索工具。例如:2003年申請中國發(fā)明專利和獲得授權(quán)發(fā)明專利最多的國家有哪些?檢索工具:中國統(tǒng)計年鑒第30頁,共55頁。事實信息檢索
以事項為檢索對象,檢索結(jié)果是有關(guān)某一事物的具體答案,也是一種確定性檢索。一般利用字詞典、年鑒、百科全書、手冊等為檢索工具。第31頁,共55頁。示例:
問題:世界上是誰在什么年代、用什么方法首先合成了聚苯硫醚?
檢索工具:工程塑料手冊(材料卷)第32頁,共55頁。小結(jié):書目信息和全文信息檢索是利用各種目錄、題錄、文摘和全文數(shù)據(jù)庫獲取有關(guān)信息的線索或全文。第33頁,共55頁。將向同學(xué)們推薦實現(xiàn)書目和全文信息檢索數(shù)據(jù)庫有:國內(nèi)數(shù)據(jù)庫中文期刊數(shù)據(jù)庫:中國期刊全文數(shù)據(jù)庫萬方數(shù)據(jù)庫:中國專利數(shù)據(jù)庫:中國國家知識產(chǎn)權(quán)局專利數(shù)據(jù)庫:第34頁,共55頁。國外數(shù)據(jù)庫Eivillage2ISIWebofScienceCambridgeScientificAbstractsProQuestDigitalDissertationsElsevierScience美國專利文獻數(shù)據(jù)庫:加拿大專利數(shù)據(jù)庫:歐洲專利數(shù)據(jù)庫:日本專利數(shù)據(jù)庫:第35頁,共55頁。數(shù)據(jù)和事實檢索是利用各種參考工具書獲取有關(guān)的確定性數(shù)據(jù)或事實信息。例如:各種百科全書、年鑒、手冊等。第36頁,共55頁。2.2信息檢索方法
2.2.1信息需求分析
2.2.2制定檢索策略
2.2.3實施檢索策略第37頁,共55頁。2.2.1信息需求分析信息需求是人們在客觀或主觀上就課題所需信息的要求,是人們檢索信息的基本出發(fā)點,也是評價檢索效果的依據(jù)。它主要包括兩個方面:1.明確檢索的目的和要求
2.對主題進行分析第38頁,共55頁。示例課題名稱:難降解制藥廢水處理
一、檢索目的和要求:目的:科技立項要求:國內(nèi)有無
1.難降解制藥廢水處理的研究報道;2.已采用的技術(shù)有哪些?第39頁,共55頁。二、主題分析第一概面:制藥第二概面:廢水處理—生物法、電化學(xué)法、化學(xué)氧化、溶劑萃取、光催化等第三概面:難降解—鹵代烴類、酚類、醇類、芳香族等
第40頁,共55頁。示例高性能聚芳硫醚(PAS)樹脂的合成本課題涉及的提問特征有兩個主要的概面第一概面聚芳硫醚涉及的主題詞或關(guān)鍵詞有:1.聚芳硫醚2.聚苯硫醚3.聚芳硫醚砜4.聚苯硫醚砜5.聚芳硫醚酮6.聚苯硫醚酮7.聚芳硫醚酰胺8.聚苯硫醚酰胺等第二概面合成涉及的主題詞或關(guān)鍵詞有:9.合成10.制備11.生產(chǎn)等第41頁,共55頁。2.3信息檢索技術(shù)及其應(yīng)用信息檢索技術(shù)是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機數(shù)據(jù)庫、光盤數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫檢索有關(guān)信息而采用的相關(guān)技術(shù),常用的有布爾、詞位、截詞和限制技術(shù)。第42頁,共55頁。2.3.1布爾檢索常用的有:(1)邏輯與(2)邏輯或(3)邏輯非第43頁,共55頁。邏輯與1.含義:是一種具有概念交叉或概念限定關(guān)系的組配。2.算符:“*”或“AND”或“并且”等。3.特點:增強專指度,提高查準(zhǔn)率。4.舉例:聚甲醛AND增韌,表示兩個概念應(yīng)同時包含在一條記錄中。第44頁,共55頁。邏輯或1.含義:是一種具有概念相同、概念相關(guān)或概念并列關(guān)系的組配。2.算符:“
+”
或“
OR”或“或者”等。3.特點:擴大檢索范圍,提高查全率。4.舉例:廢水OR污水,表示這兩個相關(guān)概念分別在一條記錄中出現(xiàn)或同時在一條記錄中出現(xiàn)。第45頁,共55頁。邏輯非1.含義:是一種具有概念排除關(guān)系的組配。2.算符:“
-”
或“
NOT”或“不包含”等。3.特點:提高查準(zhǔn)率,影響查全率。4.舉例:制藥廢水NOT放射廢水,表示檢索出的記錄中要排除含有“放射廢水”的記錄。第46頁,共55頁。2.3.2詞位檢索1.含義:具有限定檢索詞詞間位置關(guān)系的組配功能,可彌補布爾邏輯組配只是定性規(guī)定檢索詞的范圍,2.算符:(W)與(nW)用于Dialog聯(lián)機和光盤系統(tǒng),相鄰兩詞詞序不能顛倒;
SAME用于ISIWebofScience
系統(tǒng)中,相鄰兩詞在同一句子中,詞序任意。3.特點:達到提高檢準(zhǔn)率的效果。4.舉例:gas(w)chromatograph;airSAMEpollution第47頁,共55頁。2.3.3截詞檢索1.含義:是指在檢索詞的合適位置進行截斷,然后使用截詞符進行處理,可節(jié)省輸入的字符,又可達到較高的查全率。較常用的是后截詞和中截詞。按所截斷的字符數(shù)分,有無限截詞和有限截詞兩種。2.算符:?、*、$等。3.特點:預(yù)防漏檢提高查全率4.舉例:building??、building?、building*、building$第48頁,共55頁。限制檢索1.含義:使用截詞檢索,僅簡化了布爾檢索中的邏輯或功能,并沒有改善布爾檢索的性質(zhì)。使用詞位檢索,只能限制檢索詞之間的相對位置,不能完全確定檢索詞在數(shù)據(jù)庫中出現(xiàn)的字段位置,需要使用限制檢索縮小查找的范圍。常用的限制檢索有:字段、文獻類型、語種以及年代等限制。2.字段限制常用的符號符號:標(biāo)題(TI)、文摘(AB)、作者(AU)、刊名(JN)等。3.特點:限制查找的范圍,滿足課題對查全、查準(zhǔn)的要求。第49頁,共55頁。信息檢索方法及技術(shù)應(yīng)用實例檢索課題:高層建筑結(jié)構(gòu)優(yōu)化設(shè)計1.信息需求分析(1)明確檢索目的與要求
1)檢索目的:碩士學(xué)位論文開題查新
2)檢索要求:國內(nèi)外關(guān)于高層建筑結(jié)構(gòu)優(yōu)化設(shè)計方面的相關(guān)信息
3)確定檢索類型:屬書目及全文信息檢索(2)主題分析第一概面:高層建筑第二概面
:
結(jié)構(gòu)設(shè)計第三概面
:優(yōu)化設(shè)計第50頁,共55頁。2.制定檢索策略
(1)選擇檢索詞根據(jù)主題分析確定的主題范圍,選擇檢索詞如下:
高層建筑tallbuilding*
高層建筑highrisebuilding*高層建筑highrisebuilding*
結(jié)構(gòu)設(shè)計structuraldesign
優(yōu)化設(shè)計optimization第51頁,共55頁。2.編寫檢索提問式檢索式1高層建筑and結(jié)構(gòu)設(shè)計檢索式2高層建筑and結(jié)構(gòu)設(shè)計and優(yōu)化檢索式3(tallbuilding*orhighrisebuilding*orhighrisebuilding*)andstructuraldesign檢索式4building*and(tallor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 協(xié)議采購供貨合同范本
- 二年級口算題目練習(xí)冊100道
- ktv管理公司合同范本
- 鄉(xiāng)村振興項目合同范本
- 會議會展合同范本
- 2025湖北省建筑安全員C證考試(專職安全員)題庫及答案
- 電子競技賽事運營成本控制分析
- 華為外包合同范本
- 廠房開發(fā)合同范本
- op合伙合同范本
- 2023年全國各省高考詩歌鑒賞真題匯總及解析
- 四年級上冊音樂《楊柳青》課件PPT
- 安徽省廬陽區(qū)小升初語文試卷含答案
- 全國2017年4月自考00043經(jīng)濟法概論(財經(jīng)類)試題及答案
- 東鄉(xiāng)族學(xué)習(xí)課件
- 蘇教版六年級數(shù)學(xué)下冊《解決問題的策略2》優(yōu)質(zhì)教案
- GB/T 9846-2015普通膠合板
- GB/T 32348.1-2015工業(yè)和商業(yè)用電阻式伴熱系統(tǒng)第1部分:通用和試驗要求
- 英國文學(xué)8.2講解Sonnet18
- GB/T 13470-1992通風(fēng)機系統(tǒng)經(jīng)濟運行
- 公民個人信息安全的刑法保護論文
評論
0/150
提交評論