第四章計(jì)算機(jī)信息檢索_第1頁
第四章計(jì)算機(jī)信息檢索_第2頁
第四章計(jì)算機(jī)信息檢索_第3頁
第四章計(jì)算機(jī)信息檢索_第4頁
第四章計(jì)算機(jī)信息檢索_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第四章計(jì)算機(jī)信息檢索

隨著計(jì)算機(jī)和因特網(wǎng)的普及利用,人類開發(fā)利用信息資源的環(huán)境

發(fā)生了前所未有的變化,新信息、新知識爆炸式的增長,形成了人們

對信息的多方式、多學(xué)科、多媒介的不同方位的需求,以往傳統(tǒng)的信

息檢索模式面臨著非常嚴(yán)峻的挑戰(zhàn)。計(jì)算機(jī)技術(shù)和信息檢索技術(shù)的結(jié)

合,使信息檢索更加網(wǎng)絡(luò)化和智能化,比傳統(tǒng)的信息檢索更方便、更

快捷、也更全面。依賴計(jì)算機(jī)和電信技術(shù)的服務(wù)來進(jìn)行信息傳遞的計(jì)

算機(jī)信息檢索系統(tǒng)已經(jīng)成為信息時代的一個重要標(biāo)志。當(dāng)今社會,傳

統(tǒng)的手工檢索方式已經(jīng)不能滿足人們對信息的搜集和需求U因此,計(jì)

算機(jī)信息檢索成為信息檢索的發(fā)展方向和重要手段。人們可以在家里

或者辦公室等任何有網(wǎng)絡(luò)的地方查找所需的文獻(xiàn)信息資料,了解學(xué)科

專業(yè)領(lǐng)域的最前沿動態(tài)和發(fā)展方向,查看最新的資訊信息。

計(jì)算機(jī)信息檢索已經(jīng)成為信息時代大學(xué)生必須掌握的一種技能,

也是大學(xué)生適應(yīng)社會發(fā)展,實(shí)現(xiàn)終生學(xué)習(xí)的前提條件。

第一節(jié)計(jì)算機(jī)信息檢索基礎(chǔ)

計(jì)算機(jī)信息檢索的實(shí)質(zhì)就是由計(jì)算機(jī)將輸入的檢索策略與系統(tǒng)

中存儲的文獻(xiàn)特征標(biāo)識以及邏輯組配關(guān)系進(jìn)行匹配、類比的過程,需

要人、機(jī)協(xié)同作用來完成。

一、計(jì)算機(jī)信息檢索發(fā)展概述

計(jì)?算機(jī)信息檢索的發(fā)展,與計(jì)算機(jī)技術(shù)、數(shù)字化技術(shù)、存儲技術(shù)、

網(wǎng)絡(luò)通信技術(shù)的發(fā)展緊密聯(lián)系在一起。自20世紀(jì)50年代計(jì)算機(jī)開始

應(yīng)用于信息檢索,迄今已經(jīng)經(jīng)歷了四個發(fā)展階段。

(一)脫機(jī)檢索階段(20世紀(jì)50年代中期到60年代中期)

脫機(jī)檢索是利用單臺計(jì)算機(jī)的輸入輸出裝置進(jìn)行檢索的系統(tǒng),用

磁帶作為存儲介質(zhì),并且為連續(xù)的順序檢索方式,適合大批量的定題

信息檢索。脫機(jī)檢索由專職檢索人員統(tǒng)一處理,用戶不必直接使用計(jì)

算機(jī),只需將檢索提問單交給專職檢索人員。

自1946年2月世界上第一臺電子計(jì)算機(jī)問世以來,人們一直設(shè)

想利用計(jì)算機(jī)查找文獻(xiàn)。進(jìn)入50年代后,在計(jì)算機(jī)應(yīng)用領(lǐng)域“穿孔

卡片”和“穿孔紙帶”數(shù)據(jù)錄入技術(shù)及設(shè)備相繼出現(xiàn),以它們作為存

貯文摘、檢索詞和查詢提問式的媒介,使得計(jì)算機(jī)開始在文獻(xiàn)檢索領(lǐng)

域中得到了應(yīng)用。1954年,美國海軍兵器中心首先采用1BM-701型

計(jì)算機(jī)建立了世界上第一個科技文獻(xiàn)檢索系統(tǒng),實(shí)現(xiàn)了單元詞組配檢

索,檢索邏輯只采用“邏輯與”,檢索結(jié)果只是文獻(xiàn)號,1958年,

美國通用電器公司將其加以改進(jìn),輸出結(jié)果增加了題名、作者和文獻(xiàn)

摘要等項(xiàng)目。1964年,美國化學(xué)文摘服務(wù)社建立了文獻(xiàn)處理自動化

系統(tǒng),使編制文摘的大部分工作實(shí)現(xiàn)了計(jì)算機(jī)化,以后又實(shí)現(xiàn)了計(jì)算

機(jī)檢索。同年,美國國立醫(yī)學(xué)圖書館建立了計(jì)算機(jī)數(shù)據(jù)庫,即醫(yī)學(xué)文

獻(xiàn)分析與檢索系統(tǒng),不僅可以進(jìn)行邏輯“或”、“與”、“非”等運(yùn)

算,而且還可以從多種途徑檢索文獻(xiàn)。

這一階段脫機(jī)檢索的方式特點(diǎn)是,不對一個檢索提問立即作出回

答,而是集中大批提問后進(jìn)行處理,且進(jìn)行處理的時間較長,人機(jī)不

能對話,因此,檢索效率往往不夠理想。但是,脫機(jī)檢索中的定題服

務(wù)對于科技人員卻非常有用,定題服務(wù)能根據(jù)用戶的要求,先把用戶

的提問登記入檔,存入計(jì)算機(jī)中形成一個提問檔,每當(dāng)新的數(shù)據(jù)進(jìn)入

數(shù)據(jù)庫時,就對這批數(shù)據(jù)進(jìn)行處理,將符合用戶提問的最新文獻(xiàn)提交

給用戶,可使用戶隨時了解課題的進(jìn)展情況。

(二)聯(lián)機(jī)檢索階段(20世紀(jì)60年代中期到20世紀(jì)70年代中

期)

聯(lián)機(jī)檢索是指用戶利用計(jì)算機(jī)終端設(shè)備通過通信線路,從大型商

業(yè)數(shù)據(jù)庫中檢索出所需文獻(xiàn)信息的過程。具有檢索范圍廣、速度快和

檢索功能強(qiáng)等特點(diǎn)。聯(lián)機(jī)檢索系統(tǒng)是一臺主機(jī)帶多個終端的計(jì)算機(jī)信

息檢索系統(tǒng),它具有分時操作能力,能夠使許多相互獨(dú)立的終端同時

進(jìn)行檢索。這種檢索是用戶使用計(jì)算機(jī)終端設(shè)備通過通訊線路,直接

與主機(jī)對話,用戶可輸入提問表達(dá)式并馬上得到答案。在聯(lián)機(jī)檢索過

程中,用戶可一面與計(jì)算機(jī)對話,一面修改提問式,直到得到滿意答

案。

此階段是從60年代中期到70年代初。由于計(jì)算機(jī)分時技術(shù)的

發(fā)展,通信技術(shù)的改進(jìn),以及計(jì)算機(jī)網(wǎng)絡(luò)的初步形成和檢索軟件包

的建立,用戶可以通過檢索終端設(shè)備與檢索系統(tǒng)中心計(jì)算機(jī)進(jìn)行人

機(jī)對話,從而實(shí)現(xiàn)對遠(yuǎn)距離之外的數(shù)據(jù)庫進(jìn)行檢索的目的,即實(shí)現(xiàn)

了聯(lián)機(jī)信息檢索。這個時期,由于計(jì)算機(jī)處理功能的加強(qiáng),數(shù)據(jù)存

貯容量的擴(kuò)大和磁盤機(jī)的應(yīng)用,為建立大型的文獻(xiàn)數(shù)據(jù)庫創(chuàng)造了條

件。例如美國的DIALOG系統(tǒng)(DIALOG對話系統(tǒng))、ORBIT系統(tǒng)(書

目情報(bào)分析聯(lián)機(jī)檢索系統(tǒng))、BRS系統(tǒng)(存貯和信息檢索系統(tǒng))、歐

洲的ESA-1RS系統(tǒng)(歐洲航天局信息檢索系統(tǒng))等都是在此時期開

始研制并逐步發(fā)展起來的,并且均在國內(nèi)或組織范圍內(nèi)得到實(shí)際應(yīng)

用??梢哉f,聯(lián)機(jī)檢索是科技信息工作、計(jì)算機(jī)、通訊技術(shù)三結(jié)合

的產(chǎn)物,它標(biāo)志著70年代計(jì)算機(jī)檢索的水平。

(三)光盤檢索階段(20世紀(jì)70年代中期到20世紀(jì)80年代末)

光盤檢索指應(yīng)用計(jì)算機(jī)及激光技術(shù)在光盤上存取信息的方式,提

供廉價方便的信息檢索途徑,分單機(jī)方式和光盤網(wǎng)絡(luò)方式。用戶使用

帶有光盤驅(qū)動器的計(jì)算機(jī)檢索光盤上所存儲的信息。許多常用的聯(lián)機(jī)

數(shù)據(jù)庫有相應(yīng)的光盤產(chǎn)品。

光盤數(shù)據(jù)庫檢索階段真正發(fā)展是在20世紀(jì)70年代,它是單機(jī)信

息檢索系統(tǒng)的一種,解決了單機(jī)檢索系統(tǒng)數(shù)據(jù)庫存儲量少的問題。也

是目前應(yīng)用比較廣泛的一種檢索方式,在信息檢索領(lǐng)域應(yīng)用的光盤主

要還是只讀光盤。

(四)網(wǎng)絡(luò)化檢索階段(20世紀(jì)90年代初至今)

網(wǎng)絡(luò)檢索是指通過各種Internet網(wǎng)絡(luò)搜索引擎進(jìn)行文獻(xiàn)檢索的

過程。網(wǎng)絡(luò)化信息檢索系統(tǒng)同聯(lián)機(jī)檢索系統(tǒng)的主機(jī)和用戶終端的主從

關(guān)系不同,客戶和服務(wù)器是同等關(guān)系,只要遵守共同協(xié)議,一個服務(wù)

器可被多個客戶訪問,一個客戶也可以訪問多個服務(wù)器。Internet

就是該系統(tǒng)的典型。

此階段由于電話網(wǎng)、電傳網(wǎng)、公共數(shù)據(jù)通信網(wǎng)都可為情報(bào)檢索傳

輸數(shù)據(jù)。特別是衛(wèi)星通信技術(shù)的應(yīng)用,使通信網(wǎng)絡(luò)更加現(xiàn)代化,也使

信息檢索系統(tǒng)更加國際化,信息用戶可借助國際通訊網(wǎng)絡(luò)直接與檢索

系統(tǒng)聯(lián)機(jī),從而實(shí)現(xiàn)不受地域限制的國際聯(lián)機(jī)信息檢索。尤其是世界

各大檢索系統(tǒng)紛紛進(jìn)入各種通信網(wǎng)絡(luò),每個系統(tǒng)的計(jì)算機(jī)成為網(wǎng)絡(luò)上

的節(jié)點(diǎn),每個節(jié)點(diǎn)聯(lián)接多個檢索終端,各節(jié)點(diǎn)之間以通信線路彼此相

連,網(wǎng)絡(luò)上的任何一個終端都可聯(lián)機(jī)檢索所有數(shù)據(jù)庫的數(shù)據(jù)。這種聯(lián)

機(jī)信息系統(tǒng)網(wǎng)絡(luò)的實(shí)現(xiàn),使人們可以在很短的時間內(nèi)查遍世界各國的

信息資料,使信息資源共享成為可能。

可以說,聯(lián)機(jī)網(wǎng)絡(luò)和檢索終端幾乎遍及世界所有國家和地區(qū),使

得國際聯(lián)機(jī)信息檢索的發(fā)展達(dá)到了相當(dāng)高的水平,開展商業(yè)性國際聯(lián)

機(jī)檢索服務(wù)的大機(jī)構(gòu)已達(dá)200余家,像美國的DIALOG信息公司已成

為全世界最為著名的聯(lián)機(jī)檢索服務(wù)機(jī)構(gòu)。計(jì)算機(jī)信息檢索的實(shí)現(xiàn),大

大方便和加速了信息資源的交流和利用,并對社會經(jīng)濟(jì)的發(fā)展和人們

的科研方式產(chǎn)生了深刻的影響,從而也極大地促進(jìn)了科技的進(jìn)步。

二、國際著名聯(lián)機(jī)檢索系統(tǒng)介紹

隨著信息時代的發(fā)展,網(wǎng)絡(luò)聯(lián)機(jī)檢索系統(tǒng)成為信息檢索的主要工

具。國際聯(lián)機(jī)檢索是用戶利用檢索系統(tǒng)的終端設(shè)備,通過國際通訊網(wǎng)

絡(luò)與國際聯(lián)機(jī)檢索系統(tǒng)的中央機(jī)連接,從檢索系統(tǒng)的數(shù)據(jù)庫中查找所

需的文獻(xiàn)信息。國際聯(lián)機(jī)檢索系統(tǒng)主要由檢索終端(Terminal)、通訊

系統(tǒng)(CommunicationSystem)、聯(lián)機(jī)檢索中心(Centerfor

InternationalOnlineRetrievalSystem)三大部分構(gòu)成。常用的檢

索終端是配有通訊軟件的微機(jī)。檢索的過程和結(jié)果由屏幕顯示或打印

輸出。

(一)美國DIALOG系統(tǒng)

DIALOG系統(tǒng)是目前世界上最早和最強(qiáng)大的綜合性國際聯(lián)機(jī)檢索

系統(tǒng),也是目前運(yùn)作最成功的聯(lián)機(jī)商業(yè)數(shù)據(jù)庫系統(tǒng)之一,它擁有80

多個國家約10萬多個終端用戶,主機(jī)系統(tǒng)位于美國加利福尼亞州的

PALOALTO市。DIALOG擁有近600個聯(lián)機(jī)數(shù)據(jù)庫,其內(nèi)容涉及40多

個語種和占世界發(fā)行總量的60%的6萬多種期刊。DIALOG是世界最著

名的商用聯(lián)機(jī)數(shù)據(jù)庫系統(tǒng)之一,它的服務(wù)是收費(fèi)服務(wù)。

DIALOG學(xué)科覆蓋面廣,兒乎涉及全部學(xué)科范圍包括綜合性科學(xué)、

自然科學(xué)、應(yīng)用科學(xué)和工藝學(xué),社會科學(xué)和人文科學(xué),時事報(bào)道和商

業(yè)經(jīng)濟(jì)等。其數(shù)據(jù)來源于各種不同的圖書、報(bào)紙、雜志期刊、技術(shù)報(bào)

告、會議論文、專著、專利、標(biāo)準(zhǔn)、報(bào)表、目錄、手冊等上的信息。

其數(shù)據(jù)形式包括:文獻(xiàn)的題錄和文摘;數(shù)值型統(tǒng)計(jì)表、商業(yè)財(cái)政數(shù)據(jù)

等;名錄字典型-手冊、指南、名錄等;全文型論文、報(bào)告、新聞報(bào)

道的全文等。

DIALOG的近600個數(shù)據(jù)庫中,有許多極具代表性的和常用的數(shù)

據(jù)庫,著名的數(shù)據(jù)庫如CA(化學(xué)文摘)、INSPEC(英國科學(xué)文摘)、

MEDLINE(醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫)、MATHSCI(數(shù)學(xué)文獻(xiàn)數(shù)據(jù)庫)、BA(生

物學(xué)文摘)、NTIS(美國政府報(bào)告)等都加入到DIALOG系統(tǒng)中;還

有著名的幾大檢索數(shù)據(jù)庫,如SCI(科學(xué)引文索引)、EI(工程索引)、

ISTP(科技會議錄索引)、SSCI(社會科學(xué)引文索引)、AHCI(藝術(shù)

與人文科學(xué)引文索引)等也都可從DIALOG系統(tǒng)中檢索;再有世界著

名的DERWENT專利數(shù)據(jù)庫以及美國專利、歐洲專利、日本專利等數(shù)據(jù)

庫也都可在DIALOG中查詢。DIALOG更有一些全文數(shù)據(jù)庫,如IAC的

計(jì)算機(jī)全文庫、《紐約時報(bào)》和《華盛頓郵報(bào)》等的全文庫等。

(二)法國QUESTEL-ORBIT系統(tǒng)

QUESTEL-ORBIT系統(tǒng)是法國著名的聯(lián)機(jī)檢索系統(tǒng)。最初由

QUESTEL公司經(jīng)營,1994年QUESTEL系統(tǒng)與美國著名的ORBIT(Online

RetrievalofBibliographicInformationTime-shared)系統(tǒng)合并,

后改名為QUESTEL-ORBIT。兩大系統(tǒng)合并之前,QUESTEL系統(tǒng)已經(jīng)是

世界上較大的聯(lián)機(jī)檢索系統(tǒng),擁有40多個數(shù)據(jù)庫,文獻(xiàn)量達(dá)2000多

萬篇,涉及自然科學(xué)和社會科學(xué)的各個領(lǐng)域和專業(yè)。

ORBIT系統(tǒng)是美國系統(tǒng)發(fā)展公司與美國國防部共同開發(fā)的世界上

第二大檢索系統(tǒng),1965年在美國實(shí)現(xiàn)聯(lián)機(jī)檢索,1974年發(fā)展成為國

際聯(lián)機(jī)檢索系統(tǒng)。ORBIT提供的檢索服務(wù)涉及科學(xué)、技術(shù)、專利、化

學(xué)、能源、市場、公司、財(cái)政等多個方面,擁有200多個數(shù)據(jù)庫,2000

多臺終端,3.5萬用戶。該系統(tǒng)主要服務(wù)用戶是化學(xué)、環(huán)境科學(xué)、安

全科學(xué)、化工與專利文獻(xiàn),它是世界上檢索專利、商標(biāo)最好的聯(lián)機(jī)檢

索系統(tǒng)之一,而且全天24小時提供服務(wù)。

合并后的QUESTEL-ORBIT系統(tǒng),融合了兩大系統(tǒng)的數(shù)據(jù)庫資源。

該系統(tǒng)成為世界上最具權(quán)威性的知識產(chǎn)權(quán)信息供應(yīng)商,是世界上唯一

能提供英語和法語雙語服務(wù)的信息服務(wù)公司,也是世界第四大電信公

司一一法國電信集團(tuán)的子公司。該系統(tǒng)目前擁有250個數(shù)據(jù)庫,上億

篇文獻(xiàn),占世界機(jī)存文獻(xiàn)的25%該系統(tǒng)在專利、商標(biāo)、化學(xué)、科學(xué)

技術(shù)、商業(yè)和新聞等的聯(lián)機(jī)服務(wù),被公認(rèn)為世界領(lǐng)先的聯(lián)機(jī)檢索系統(tǒng)。

(三)歐洲IESATRS系統(tǒng)

ESA-IRS系統(tǒng)(EuropeSpaceAgencyInformationRetrieval

System)是歐洲最大的聯(lián)機(jī)情報(bào)檢索系統(tǒng),由歐洲航天局情報(bào)檢索服

務(wù)中心負(fù)責(zé)運(yùn)營??偛吭O(shè)在意大利羅馬附近的弗拉斯卡蒂系統(tǒng)于1973

年建成,開始只用NASA文檔進(jìn)行服務(wù),以后幾經(jīng)更新和擴(kuò)大,發(fā)展

迅速。由于創(chuàng)建時間較晚,吸收了其他系統(tǒng)的優(yōu)點(diǎn),所以它的檢索功

能很強(qiáng),對話簡單,操作方便。該系統(tǒng)擁有數(shù)據(jù)庫120多個,多數(shù)為

文獻(xiàn)數(shù)據(jù)庫。內(nèi)容涉及航空航天、宇宙學(xué)、天文學(xué)、天體物理、環(huán)境

與污染、自然科學(xué)、工程技術(shù)、醫(yī)學(xué)、商業(yè)等領(lǐng)域。該系統(tǒng)有近半數(shù)

的數(shù)據(jù)庫與DIALOG系統(tǒng)的重復(fù),但對歐洲的文獻(xiàn)收錄較全,可彌補(bǔ)

DIALOG系統(tǒng)之不足。

ESA-IRS擁有的數(shù)據(jù)庫中,雖有近半數(shù)與DIALOG系統(tǒng)相重復(fù),

14%與ORBIT重復(fù),10%與BRS重復(fù),25%與DATA-STAR重復(fù),但也有

自己所獨(dú)有的數(shù)據(jù)庫,如PROCE-DATA(原材料價格數(shù)據(jù)庫)、DATALINE

(金融數(shù)據(jù)庫)、報(bào)道英國制造業(yè)情況的INDUSTRIALMARKET

LOCATIONS(工業(yè)市場信息)、介紹經(jīng)濟(jì)和開發(fā)方面情況的INFOMATBIS

(商業(yè)信息)、提供歐洲國家公司財(cái)政信息的NEWSLINE/NEXTLINE(公

司金融文檔)等,與這些系統(tǒng)的數(shù)據(jù)庫可以相互補(bǔ)充。

(四)STN系統(tǒng)

STN系統(tǒng)創(chuàng)建于1983年,提供完全的科技信息領(lǐng)域的在線服務(wù)。

它是由美國化學(xué)文摘社CAS、德國卡爾斯魯厄?qū)I(yè)信息中心

FIZ-Karlsruha和日本科技情報(bào)中心JICST共同合作經(jīng)營的跨國網(wǎng)絡(luò)

數(shù)據(jù)公司,是世界著名的國際聯(lián)機(jī)檢索系統(tǒng)之一。該系統(tǒng)目前有200

多個(還在不斷增加)數(shù)據(jù)庫,涉及化學(xué)、工程、生命科學(xué)、生物技

術(shù)、專利、數(shù)學(xué)、物理、商業(yè)等各基礎(chǔ)學(xué)科領(lǐng)域和綜合技術(shù)應(yīng)用領(lǐng)域,

每個數(shù)據(jù)庫都是本專業(yè)領(lǐng)域內(nèi)的權(quán)威數(shù)據(jù)庫。例如,美國石油文獻(xiàn)及

專利AP利IT/APIPAT、生物學(xué)文摘BI0SIS、化學(xué)文摘CA、英聯(lián)邦農(nóng)

業(yè)文摘CAB、食品科技文獻(xiàn)FSTA.國際建筑數(shù)據(jù)庫ICONDA,英國科

學(xué)文摘INSPEC、日本科技速報(bào)JICST、美國醫(yī)學(xué)文摘MEDLINE、金屬

文摘MEDTADEX、科學(xué)引文索引SCI、世界專利索引DERWENT等等。

STN系統(tǒng)的在線用戶通過因特網(wǎng)就可以隨時隨地進(jìn)行200多個科

技領(lǐng)域數(shù)據(jù)庫的在線查詢,靈活方便。用戶可以按照自己的興趣選擇

需要的數(shù)據(jù)庫或查詢本專業(yè)領(lǐng)域的熱門專題,還可以通過文章題目、

作者名、關(guān)鍵詞、專利發(fā)明人、公司名等來查詢所關(guān)注的信息。例如,

用戶可以通過化學(xué)物質(zhì)名稱、分子式、甚至化學(xué)物質(zhì)結(jié)構(gòu)來查詢或鑒

定新物質(zhì),而且因?yàn)镾TN是世界上第一個實(shí)現(xiàn)圖形檢索的系統(tǒng),只需

下載STN的圖形軟件就可以輕松繪出所有的化學(xué)圖形。當(dāng)用戶檢索到

感興趣的文獻(xiàn),還可以通過FIZAutoDoc/Chemport訂購原始文獻(xiàn)。

如果原始文獻(xiàn)是電子出版物,可以直接鏈接其編輯部的網(wǎng)站,免費(fèi)獲

取原文,否則STN系統(tǒng)會選擇恰當(dāng)?shù)奈墨I(xiàn)供應(yīng)商,由供應(yīng)商為用戶寄

發(fā)所需出版物。STN系統(tǒng)打破國際聯(lián)機(jī)檢索中獨(dú)家經(jīng)營的常規(guī),采用

分布式主機(jī)形式,主機(jī)分別位于德國的卡爾斯魯厄、美國的哥倫布、

日本的東京,目前擁有二百多個數(shù)據(jù)庫。

三、計(jì)算機(jī)信息檢索原理與檢索技術(shù)

(一)計(jì)算機(jī)信息檢索原理

計(jì)算機(jī)信息檢索系統(tǒng)包括硬件和軟件兩大部分。硬件一般包括計(jì)

算機(jī)的輸入設(shè)備、運(yùn)算器、存儲器、控制器及輸出設(shè)備五個部分C在

聯(lián)機(jī)檢索系統(tǒng)中,還包括通訊線路、調(diào)制解調(diào)器以及控制裝置。軟件

主要有系統(tǒng)軟件和應(yīng)用軟件,是控制計(jì)算機(jī)完成各種作業(yè)的一系列指

令。隨著網(wǎng)絡(luò)環(huán)境的完善和發(fā)展,計(jì)算機(jī)信息系統(tǒng)重點(diǎn)由以下五部分

組成:檢索終端、通信網(wǎng)絡(luò)、中心計(jì)算機(jī)、數(shù)據(jù)庫和信息檢索軟件及

其他外部設(shè)備。

計(jì)算機(jī)檢索過程就是字符串匹配和邏輯運(yùn)算的過程。若兩者一致

或部分一致,并符合給定的邏輯運(yùn)算條件即為命中,然后將命中的結(jié)

果輸出給用戶?;境绦蚩杀硎緸椋河脩籼釂杅匹配運(yùn)算f數(shù)據(jù)庫f

命中結(jié)果。計(jì)算機(jī)檢索的基本步驟為:分析檢索課題,確定檢索單元;

選擇數(shù)據(jù)庫;編寫提問單元并轉(zhuǎn)換為用戶泥問檔,計(jì)算機(jī)自動檢索,

輸出檢索結(jié)果,評價檢索結(jié)果。計(jì)算機(jī)檢索實(shí)質(zhì)上就是匹配運(yùn)算,與

人工檢索的原理基本相同。用戶根據(jù)需要把要檢索的問題變成計(jì)算機(jī)

可識別的檢索式,指示計(jì)算機(jī)對數(shù)據(jù)庫中的各個文檔進(jìn)行查詢,挑選

出與要求相匹配的文獻(xiàn)資料。

(二)計(jì)算機(jī)信息檢索技術(shù)

計(jì)算機(jī)信息檢索技術(shù)是用戶信息需求和文獻(xiàn)信息集合之間的匹

配比較技術(shù)。由于信息檢索提問式是用戶需求和信息集合之間匹配的

依據(jù),所以計(jì)算機(jī)檢索技術(shù)的實(shí)質(zhì)是信息檢索提問式的構(gòu)造技術(shù)。計(jì)

算機(jī)信息基本的檢索技術(shù)包括布爾邏輯檢索、截詞檢索、詞位限定檢

索、限制檢索。

1布爾邏輯檢索

布爾邏輯組配檢索是現(xiàn)行計(jì)算機(jī)檢索的基本技術(shù),它利用布爾邏

輯運(yùn)算符表示兩個檢索詞之間的邏輯關(guān)系,常用的布爾邏輯運(yùn)算符

有:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)。檢索詞通過這

些邏輯運(yùn)算符組配成檢索提問式,計(jì)算機(jī)根據(jù)輸入的檢索提問式與系

統(tǒng)中的數(shù)據(jù)進(jìn)行匹配,當(dāng)兩者相符時則結(jié)果命中,自動輸出搜索的文

獻(xiàn)信息。對A、B兩個檢索詞來說,其邏輯與、邏輯或、邏輯非的含

義用圖表示如下。

⑴邏輯與(AND/*)

邏輯與用于交叉概念或限定關(guān)系的組配,實(shí)現(xiàn)檢索詞概念范圍的

交集,可以縮小檢索范圍,提高檢索結(jié)果的精確率。用“AND”或“*”

表示。檢索提問式為:AANDB(或者A*B)。該檢索式是指檢出的

信息中必須同時含有“A”和兩個檢索詞。從分析課題,構(gòu)建邏

輯檢索式的角度而言,該邏輯運(yùn)算符也是提高檢索效率的重要途徑之

一,尤其適用于高級檢索。

AandBAorBAnotB

⑵邏輯或(0R/+)

邏輯或用十組配具有同義或同族概念的檢索詞。用“OR”或“+”

表示。檢索提問式為:AORB(或A+B)o該檢索式表示讓系統(tǒng)查

找含有檢索詞A、B之一,或同時包括檢索詞A和檢索詞B的信息。

其基本作用是擴(kuò)大檢索范圍,增加命中的文獻(xiàn)量,提高文獻(xiàn)的查全率。

⑶邏輯非(NOT/—)

邏輯非用于連接排除關(guān)系的檢索詞,即排除不需要的和影響檢索

結(jié)果的概念。用“NOT”或“一”號表示。檢索提問式為:ANOTB(或

A-B)o該檢索式表示檢索含有檢索詞A而不含檢索詞B的信息,即

將包含檢索詞B的信息集合排除掉。其作用是縮小檢索范圍,但并不

一定能提高文獻(xiàn)命中的準(zhǔn)確性,一般只起到減少文獻(xiàn)輸出量的作用。

檢索中邏輯算符使用是最頻繁的,邏輯算符使用的技巧決定檢索

結(jié)果的滿意程度。用布爾邏輯表達(dá)檢索要求,除要掌握檢索課題的相

關(guān)因素外,還應(yīng)在布爾算符對檢索結(jié)果的影響方面引起注意。另外,

對同一個布爾邏輯提問式來說,不同的運(yùn)算次序會有不同的檢索結(jié)

果。

2截詞檢索

截詞檢索是預(yù)防漏檢提高查全率的一種常用檢索技術(shù),大多數(shù)系

統(tǒng)都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進(jìn)行截?cái)啵?/p>

然后使用截詞符進(jìn)行處理,這樣既可節(jié)省輸入的字符數(shù)目,又可達(dá)到

較高的查全率。尤其在西文檢索系統(tǒng)中,使用截詞符處理自由詞,對

提高查全率的效果非常顯著。

截詞檢索就是用截?cái)嗟脑~的一個局部進(jìn)行的檢索,并認(rèn)為凡滿足

這個詞局部中的所有字符(串)的文獻(xiàn),都為命中的文獻(xiàn)。不同的系

統(tǒng)所用的截詞符也不同,常用的有?、*等。按截?cái)嗟奈恢脕矸?,截詞

可有后截?cái)唷⑶敖財(cái)?、中截?cái)嗳N類型。按所截?cái)嗟淖址麛?shù)目來分,

分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截

詞符可代表多個字符)。需要說明的是并不是所有的搜索引擎都支持

這種技術(shù)。舉例說明:

⑴后截?cái)啵辞胺揭恢拢喝鐧z索式為comput?則檢索結(jié)果會輸

出computer,computers,computing等。

⑵前截?cái)?即后方一致):如檢索式為?comput6r則檢索結(jié)果會

輸出minicomputer,microcomputer等。

⑶中截?cái)?即中間一致):如檢索式?comput?則檢索結(jié)果會輸

出minicomputer,microcomputers等。

3詞位限定檢索

詞位限定檢索技術(shù)用于確定兩個檢索詞之間的位置關(guān)系,大部分

通用檢索系統(tǒng)均提供該功能。不同的檢索系統(tǒng)有不同的詞位限定算

符。詞位限定可以是相鄰若干詞,或者在同一句中等。例如DIALOG

系統(tǒng)所用的位置算符如下:

⑴A(nW)BA、B兩詞相隔n詞且前后次序不變符合檢出要求

⑵A(nN)BA、B兩詞相隔n詞且前后次序不限符合檢出要求

⑶A(s)BA、B兩詞只要在同一字段中就符合檢出要求

4限制檢索

限制檢索泛指檢索系統(tǒng)中提供的縮小或約束檢索結(jié)果的檢索方

法。限制檢索的方式很多,其中最主要的限制檢索技術(shù)是通過限制檢

索詞在命中結(jié)果記錄中出現(xiàn)的位置(主要指記錄的不同字段位置)來

實(shí)現(xiàn)的,這種限制檢索被稱為字段檢索。在檢索系統(tǒng)中對檢索詞出現(xiàn)

的字段做一些限制,其作用是使檢索出的文獻(xiàn)信息達(dá)到一定專指度。

對于文獻(xiàn)型數(shù)據(jù)庫檢索服務(wù)系統(tǒng)來說,數(shù)據(jù)庫的一條文獻(xiàn)記錄通

常設(shè)置有幾十個不同字段。這些字段一般可以分為兩大類:表達(dá)文獻(xiàn)

內(nèi)容特征的主題字段和表達(dá)文獻(xiàn)外部特征的非主題字段。主題字段包

括有:標(biāo)題、主題詞、關(guān)鍵詞、文摘、分類號等;非主題字段包括有:

作者、作者工作單位、文獻(xiàn)類型、出版者等。通過對字段條件的限

定,實(shí)現(xiàn)特定的檢索。

四、實(shí)訓(xùn)案例

實(shí)訓(xùn)案例一查找“APEC藍(lán)”的相關(guān)資料,總結(jié)此次事件中治理

空氣污染的有效措施有哪些,寫出具體檢索步驟。

步驟1利用360導(dǎo)航的綜合搜索欄,直接輸入關(guān)鍵詞:APEC藍(lán)

(圖4.1),點(diǎn)擊“好搜一下”,搜索結(jié)果如圖4.2所示。

步驟2點(diǎn)擊第一個搜索結(jié)果“APEC藍(lán)好搜百科”查看其網(wǎng)頁內(nèi)

容。

步驟3點(diǎn)擊其他搜索結(jié)果,將你認(rèn)為有參考價值的網(wǎng)頁進(jìn)行保

存。

步驟4通過分類導(dǎo)航功能,如“新聞”、“網(wǎng)頁”、“圖片”、

“視頻”、“貼吧”等,查看其他分類信息。圖4.3為點(diǎn)擊“圖片

后搜索的結(jié)果。

0口????0.?f網(wǎng)"玨0?改中“Ci”—%M塞,“電問〉田"a?1Elr??a??。0以?/BMT*

/XXQoraXxQfllB1555XQaiMH?5>x圄,TjSflmxM|3?

?X0S-

iMi大笏

GM/"凰"I”

步驟5對相關(guān)內(nèi)容進(jìn)行總結(jié)(具體內(nèi)容不再列出)。

實(shí)訓(xùn)案例二利用百度的高級搜索,檢索excel制圖技巧方面的

網(wǎng)頁,學(xué)習(xí)使用布爾邏輯檢索技術(shù)。

1、邏輯與

步驟1在百度的簡單搜索欄中,輸入:excel制圖技巧,不含空

格,查到相關(guān)結(jié)果約2,800,000個,如圖4.4。

oQB?■于"SA?上用武金,?收中「C1”—TT?3II??R2^MUWSftSRVl1砧S|?>El中“M

/?)9?.0-^£±±89?X$-in9X

*!16R*iAt.n?Mt

h飛L』?,”使用?—??MBW011814?1?4?”一??晨?初13Q14

W'W*ve1KBIWf299Jr*a5flHB?,?分

H.Q?*?

=■1三F(9ys?*?COWVMI'2012-1200?-UH錚M

忖xdtQiw中好MIU的修馮首ft及始

wvG-“-?S"|ktfK父■更HKK,wJfM.c?*“rAr>技巧|1X?依”*

201401<0>-Wt>??c?*WMBrAnM>5pp!t?Mllt201401

EZicif201gl8??±fi?版工皿

口&ce制購小技巧上度文j1

U“TB,MIW.?Ml6MnLfTN>—普a..F?mW7.”NO

?>MM4USLPM?X?UM>?K*S?,3F

EoiiusMaN201*0(*10?V*■84%HW

?,9XE“*yMdie卓份X5JT

E??*?猶?&±%B?±TaRB?◎Qtoo*

方開翰。?**????*??..??????-?????*?..->won>56e?-*ia*<r??

xvv?11asr*?rm?>~?5"i—,13*Pfi

■:bttd^oom?:,?,.:?;上

oe?0f?a?.&??,問3t。。冰"ci”—d.lu3n?CR>MUr團(tuán)H團(tuán)宇f16■■哈M中“Mb^r??@???M?,VIM9

圖"816#&B?Jfr.w!ffi..卻w圄1?庫mffi-(?????QB?fi■:"Q一22和《C圖:x翻….

Bai部百度“c

***■aaaTtw?M““gw唱]IWLFI

eavsTraaxwM

?aaTttft-tfliui

不??^TX■得

amtmvsF?)?B

KMi?¥Vir*rRvrvfii4|twmv

*臺??麗1“@xMBofO9??<Pr<o

Y?MI?irtRdv"IlWIPUNUl#-

X?iM?rJtxwR?0PR?flr?4N>OPWWWHL*

H.”H<*?WYKR44MD:“id??

?

E?ew?W?萬B?11T*:??,,:QKXm

「〃開Usi*,0f??0aM??*ow*?->>aom-?sB<??

步驟2點(diǎn)擊網(wǎng)頁的右上角“設(shè)置”菜單的“高級搜索”,進(jìn)入

到百度的高級搜索界面,如圖4.5所示。

結(jié)論:在百度的簡單搜索欄直接輸入不含有空格的關(guān)鍵詞,相當(dāng)

于在百度的高級搜索的“包含以下全部的關(guān)鍵詞”一欄輸入。

步驟3在高級搜索欄的“包含以下全部的關(guān)鍵詞”一欄輸入:

excel制圖技巧(空格隔開),如圖4.6,點(diǎn)擊“百度一下”,搜

索結(jié)果為486,000個,如圖4.7所示。

0口??■£?玨中「CI”一eis?n■■“電溝二?”困角團(tuán)呻3497*中MM

.:T9?xSMM圖BmxHgaowx

Bai0f百度??

aav.Tt?r>?M

包含KTF"X?X??

不?iTX,用

rtuvB^aB

KM幺EW*

*臺?IMSOO

Y?MI?叵EK.文傳?

X?iM?@mnnfW!Owrw42OPWW??.*

RMJ:“id??

結(jié)論:關(guān)鍵詞間用空格隔開,相當(dāng)于邏輯“與”,可以大大縮小

椅索范圍。

2、邏輯“或”

步驟1在高級搜索界面的“包含以下任意一個關(guān)鍵詞”一欄,

輸入“excel制圖技巧”(如圖4.8),點(diǎn)擊“百度一下”,如圖

所示4.9。

0—?■fvwta?①?0?收中6CI”U.U$?■■3II?CR3/MUwffiftSRtl。循一3?stm中XMr??w*??ifo

i-??-??)IMIM!.,aQ?

Bai&BIS(wcei|WBittX5)

空刀」5度亙的

,■.恰■饅xs.。11一方厘抬)的)接11?M-itffms

、A?ittfX5nn4tti.M.12WB.f*“為文

?汕?萬■afA0ttK?又巧短用?(ttn)S9

yi\Ao&xfut>

-2-刈―?

大事HR的《E“"福偽是4?tt>BW15>tttn.i|U??mAnr??1??H

8己E,e?京爭他q3?£*便^”?)密4旬從咱拿11鹿*力〉[M

?>*?ws”4..Hjtatec3?

EtEMCa實(shí)用■行妝藥,??王0代慰”公宜紫?包下桿上B

?■七fl12160wxmium■TIMI4不痔:EMItFl

■K?五1個9

t.MUa^com?>W??刈W23??力度。?

E,£g-*—E,上畿整女色E,/技巧培訓(xùn)匕厘下札日匚中om勇01人5t

4<01MAtlRX!W1R24B■?二72282

30QB■學(xué)玄8,xn?w“的,”Bmrxa慢杼RJ??IHXWE?<?C01

Bm斤整兒5?74

om—?公?A?rr?8A*習(xí)大■<rmE?(?a)icatt^MS

club?>c^hQf??rat^f20150123.UStfi?■BSCdMV34117

技巧互動—D日余火火?U1

ttJS?5。/方痛表及二址用JK¥Fdmi,g.1:6rf—冷士

僅S0S方4/tUMcJM城網(wǎng).曼中■,It*中|B15573

?ocrthf?@s±K7U1B±T*Re?◎Qu>?

結(jié)論:顯示“百度為您找到相關(guān)結(jié)果約41,900,000個”,相當(dāng)

于在簡單搜索界面輸入“(excel|制圖|技巧)”,表示邏輯或。

3、邏輯“非”

步驟1在高級搜索界面“包含以下全部的關(guān)鍵詞”欄中,輸入

“excel制圖技巧”,在“不包括以下關(guān)鍵詞”欄中,輸入“手機(jī)制

圖”,如圖4.10所示,點(diǎn)擊“百度一下”得到相關(guān)結(jié)果約290,000

個,如圖4.IK

如安,1

KVTliuefl

/<?.?-3c±J<圖…-圖“???7,丁X

Ei

Ml.rw.-rj

M^TQPtZOXW

?5?除[g*

2E0*

?Ot?左?<i中夏?Onwa'Fi*

mwMVMxn*

?O位OciramLf

RW:“小?■

E?€E±±Ta,B?◎Quxa

0棺?■不?o?貳中弓ci”一?!5?n?■“電司困具4am-g4irm中XM,「???*??及,1M9

,S8僅,YFt」xfS-^MBlttJ5.fiM-i?',XBB?7??W?gx圄,-7iwa-工-%?

Bai&SIS制用位巧<手H*圖)

門上8/冏、匹95_苴?小??X?R

?????IHf4625U

依*分享E?c3MBHHS五比費(fèi),站KE“1t工及用t甲S■克京怡3*夕00£“一

mt?t”535寅1MTE—角何方<£B-123只/*回

sgmc??lN201MB07.V,?臣I”ftdCMUE0

MX。和中整陽工臬的技乃西If及K

文?慨?X?>MrdM?*c?H>ftfirAnt*n|i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論