版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、YCF正版可修改PPT(本科)信息檢索與利用NO6教學(xué)課件信息檢索與利用第6章 計(jì)算機(jī)與互聯(lián)網(wǎng)信息檢索計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)搜 索 引 擎計(jì)算機(jī)信息檢索技術(shù)6.4電子信息資源6.5百度和谷歌6.6計(jì)算機(jī)檢索過程與基本功能6.7網(wǎng)絡(luò)信息檢索策略與技巧了解計(jì)算機(jī)信息檢索的發(fā)展過程及網(wǎng)絡(luò)基礎(chǔ)知識(shí)。了解搜索引擎有關(guān)知識(shí)。了解計(jì)算機(jī)信息檢索技術(shù)。掌握百度和谷歌的使用方法。了解計(jì)算機(jī)檢索過程與基本功能。掌握網(wǎng)絡(luò)信息檢索策略和技巧。第6章 計(jì)算機(jī)與互聯(lián)網(wǎng)信息檢索6.1 計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí) 計(jì)算機(jī)信息檢索的發(fā)展過程6.1.1 (1) 20世紀(jì)50年代末至6
2、0年代末,國(guó)外研制和建立了許多信息檢索系統(tǒng),并取得了一定的進(jìn)展。其工作方式是傳統(tǒng)的批處理檢索方式。這一階段數(shù)據(jù)的存取與通信能力比較差。 (2) 20世紀(jì)70年代初至80年代末,產(chǎn)生并發(fā)展了聯(lián)機(jī)情報(bào)檢索系統(tǒng)。其中,美國(guó)國(guó)家醫(yī)藥圖書館中心建立的在線計(jì)算機(jī)圖書館中心OCLC、SDC公司建立的System Development Company及Lockheed Corporation的Dialog系統(tǒng)都是在線商用數(shù)據(jù)庫查詢系統(tǒng)。這一階段的特點(diǎn)是聯(lián)機(jī)數(shù)據(jù)庫集中管理,具有完備的數(shù)據(jù)庫聯(lián)機(jī)檢索功能,但其數(shù)據(jù)庫通信能力較差。 (3) 20世紀(jì)90年代以來,系統(tǒng)大多采用分布式的網(wǎng)絡(luò)化管理,其信息資源的主要特點(diǎn)
3、是:數(shù)字形式表達(dá)、多媒體和多載體、內(nèi)容覆蓋社會(huì)各領(lǐng)域、分布無序、難于規(guī)范化和結(jié)構(gòu)化、內(nèi)容特征抽取復(fù)雜、用戶界面要求較高等。這些特點(diǎn)導(dǎo)致了信息處理從傳統(tǒng)模式向新型模式的轉(zhuǎn)變,如體系結(jié)構(gòu)從終端主機(jī)方式到客戶服務(wù)器結(jié)構(gòu)方式;網(wǎng)絡(luò)環(huán)境從局域網(wǎng)到廣域網(wǎng)等開放網(wǎng);應(yīng)用接口從封閉界面到WWW和Z39.50等;信息結(jié)構(gòu)從結(jié)構(gòu)化到非結(jié)構(gòu)化;系統(tǒng)功能從單純信息檢索到綜合信息管理和服務(wù)等。其中較著名的系統(tǒng)有Altavista、Yahoo、Web Crawler等。6.1 計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)Internet1) 網(wǎng)絡(luò)基礎(chǔ)知識(shí)6.1.2 Internet(因特網(wǎng))是一個(gè)以TCP/IP網(wǎng)絡(luò)協(xié)議連接各個(gè)
4、國(guó)家、各個(gè)地區(qū)、各個(gè)機(jī)構(gòu)的計(jì)算機(jī)網(wǎng)絡(luò)的數(shù)據(jù)通信網(wǎng),它將數(shù)萬個(gè)計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)千萬個(gè)主機(jī)互聯(lián)在一起,覆蓋全球。從信息資源的角度講,Internet是一個(gè)集各部門、各領(lǐng)域的信息資源為一體的,供網(wǎng)絡(luò)用戶共享的信息資源網(wǎng)。6.1 計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)WWW2) WWW(萬維網(wǎng))是近年來在Internet上廣泛使用的網(wǎng)絡(luò)信息查詢系統(tǒng),是一個(gè)相互連接在一起,通過Web瀏覽器來訪問的超文本文檔系統(tǒng)。瀏覽器中看到的網(wǎng)頁,可能包含文本、圖像及其他的多媒體,通過文檔之間的超鏈接,可以從一個(gè)網(wǎng)頁瀏覽到其他網(wǎng)頁,它采用Client/Server(客戶/服務(wù)器)結(jié)構(gòu)。Server一般建在Windows
5、NT或UNIX等操作系統(tǒng)上,提供瀏覽器瀏覽所需的資源。其中在Windows系統(tǒng)上運(yùn)行的WWW瀏覽器主要有IE、360瀏覽器、火狐瀏覽器、搜狗瀏覽器等。6.1 計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)HTML3) HTML(超文本標(biāo)識(shí)語言)是為WWW建立超文本文件的語言。普通文本文件和印刷型文獻(xiàn)的內(nèi)容以線性排列,知識(shí)點(diǎn)之間固有的網(wǎng)狀聯(lián)系無法予以體現(xiàn)。在超文本文件中,文本中的某些內(nèi)容通過鏈接項(xiàng)(由高亮度、下畫線或編號(hào)等進(jìn)行標(biāo)示的一些詞和其他文本或文件)連接起來,即超文本文件是指含有多個(gè)指向其他文本、圖像、聲音或動(dòng)畫文件的指針,使它們連接在一起的文件,由此實(shí)現(xiàn)在Internet上的漫游。6.1 計(jì)算機(jī)
6、信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)網(wǎng)站和網(wǎng)頁4) 網(wǎng)頁是用HTML等語言寫成的文本文件,而網(wǎng)站則是有獨(dú)立的域名,由若干相關(guān)的網(wǎng)頁組成的一個(gè)站點(diǎn)。一般情況下,一個(gè)網(wǎng)站都有一個(gè)被稱為主頁的頁面,起著引導(dǎo)訪問者瀏覽網(wǎng)站的作用,或者說是用戶通過超鏈接訪問其他web頁或服務(wù)器的起始點(diǎn)。6.1 計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)WWW瀏覽器5) 瀏覽器是WWW用來瀏覽網(wǎng)站和頁面信息的客戶程序。要獲取WWW服務(wù),用戶必須使用合適的瀏覽軟件。通過瀏覽器,用戶可以十分方便地在Internet上獲取所需要的信息。目前最為普遍的瀏覽器有微軟公司開發(fā)的Internet Explorer。6.1 計(jì)算機(jī)信息檢索的發(fā)展
7、過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)互聯(lián)網(wǎng)協(xié)議地址、域名和URL6) 互聯(lián)網(wǎng)協(xié)議(簡(jiǎn)稱IP)地址是互聯(lián)網(wǎng)信息定位必需的地址,一般為4段數(shù)字,中間用圓點(diǎn)隔開,如1。每臺(tái)上網(wǎng)計(jì)算機(jī)都有一個(gè)唯一的IP地址,它的作用類似于上網(wǎng)計(jì)算機(jī)在信息高速公路上的門牌號(hào)碼。6.1 計(jì)算機(jī)信息檢索的發(fā)展過程和網(wǎng)絡(luò)基礎(chǔ)知識(shí)6.2 搜 索 引 擎 搜 索 引 擎6.2.1 搜索引擎也稱為蜘蛛或者爬蟲,這是因?yàn)樗鼈儠?huì)派出一個(gè)機(jī)器人到各個(gè)網(wǎng)站上去搜索特定的內(nèi)容。它們將找回來的內(nèi)容編成索引,方便用戶在用關(guān)鍵字檢索時(shí),能夠快速查到相應(yīng)結(jié)果,并呈現(xiàn)在用戶面前。 搜索引擎是一種利用網(wǎng)絡(luò)自動(dòng)搜索技術(shù)采集、索引Internet上的
8、各種信息資源,并為用戶提供檢索服務(wù)的工具,其功能包括信息采集、信息加工、信息檢索;或者說搜索引擎是提供給用戶進(jìn)行關(guān)鍵詞、詞組或自然語言檢索的工具。簡(jiǎn)言之,搜索引擎就是一種在 Internet上查找信息的工具。用戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中進(jìn)行檢索,并將檢索結(jié)果反饋給用戶。搜索引擎一般都有固定的顯示格式,內(nèi)容詳簡(jiǎn)程度不一,常常帶有URL、題名、標(biāo)題、關(guān)鍵詞、摘要、超鏈接文件大小、檢索結(jié)果總數(shù)、相關(guān)度估計(jì)、評(píng)論等,如圖6-1所示。圖6-1 百度搜索引擎頁面(示例)6.2 搜 索 引 擎 搜索引擎的檢索方法6.2.2搜索引擎的常用檢索方法1)(1) 簡(jiǎn)單搜索 簡(jiǎn)單搜索是指輸入一個(gè)單詞(
9、關(guān)鍵詞),提交搜索引擎檢索并反饋結(jié)果。它也稱為單詞搜索。這是最基本的檢索方法。6.2 搜 索 引 擎(2) 詞組搜索 詞組搜索是指輸入兩個(gè)單詞以上的同組(短語),提交搜索引擎檢索并反饋結(jié)果。它也稱為短語搜索?,F(xiàn)有搜索引擎一般都約定把詞組或短語放在引號(hào)(“”)內(nèi)。如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法是將它們用雙引號(hào)括起來,這樣得到的結(jié)果最精確。這就稱為使用雙引號(hào)進(jìn)行精確查找。一般來說,在網(wǎng)頁搜索引擎中,用詞組搜索來縮小范圍從而找到搜索結(jié)果是最好的辦法。6.2 搜 索 引 擎(3) 高級(jí)搜索 高級(jí)搜索是指用布爾邏輯組配方式檢索或在高級(jí)搜索界面將檢索策略輸入檢索框中進(jìn)行檢索。常用的邏輯算符為A
10、ND(與)、OR(或)、NOT(非)。恰當(dāng)應(yīng)用這些邏輯運(yùn)算,可以使搜索結(jié)果非常精確,而且可以用括號(hào)將搜索詞組合起來,如(火星)OR金星AND探測(cè)NOT(行星探測(cè))。6.2 搜 索 引 擎搜索引擎的其他檢索方法2)(1) 語句搜索 語句搜索是指輸入任意自然語言文句,提交搜索引擎檢索并反饋結(jié)果,這種方式也稱為任意檢索,實(shí)際上就是自然語言檢索。并非所有的搜索引擎都支持這樣的檢索,而且不同搜索引擎對(duì)語句中詞與詞之間的關(guān)系處理方式不同。6.2 搜 索 引 擎(2) 目錄搜索 目錄搜索是指按搜索引擎提供的分類目錄逐級(jí)檢索。用戶一般不需要輸入檢索詞,而是按照檢索系統(tǒng)所給的幾種分類項(xiàng)目,選擇類別進(jìn)行搜索。它也
11、稱為分類搜索6.2 搜 索 引 擎 搜索引擎的檢索方法6.2.3獨(dú)立搜索引擎1)(1) 國(guó)外搜索引擎Google雅虎Ask eeves Excite6.2 搜 索 引 擎(2) 中文搜索引擎搜狗 百度360搜索天網(wǎng)中搜6.2 搜 索 引 擎元搜索引擎2) 元搜索引擎又稱為多元搜索引擎、集成搜索引擎、集合型搜索引擎,是指在一個(gè)統(tǒng)一的檢索界面下,可選擇多個(gè)搜索引擎同時(shí)進(jìn)行查詢。元搜索引擎把用戶輸入的關(guān)鍵詞以特定的格式發(fā)送至多個(gè)獨(dú)立搜索引擎,將多個(gè)獨(dú)立搜索引擎返回的結(jié)果按一定次序和格式再返回到用戶。6.2 搜 索 引 擎目錄式搜索引擎3) 目錄式搜索引擎一般又稱為網(wǎng)絡(luò)目錄、分類式搜索引擎、主題指南等
12、,它是將所搜集的網(wǎng)絡(luò)信息按一定的分類方法進(jìn)行加工整理,建立以分類查詢和分類導(dǎo)航為主,并集成關(guān)鍵詞檢索方法的搜索引擎,如Yahoo()。6.2 搜 索 引 擎其他搜索引擎4)FTP搜索引擎 Blog(博客)搜索引擎 答案搜索引擎和咨詢服務(wù)系統(tǒng)BT搜索引擎(1)(2)(4)(3)6.2 搜 索 引 擎6.3 計(jì)算機(jī)信息檢索技術(shù) 全文檢索技術(shù)6.3.1 全文檢索(full-text retrieval)是指以文本信息作為檢索對(duì)象建立全文數(shù)據(jù)庫,除了具有布爾邏輯檢索功能外,還具有文本檢索功能,并允許用戶以自然語言檢索,直接獲得原文中的有關(guān)章節(jié)和段句。 在信息檢索領(lǐng)域,全文檢索一直是一個(gè)比較復(fù)雜的問題。
13、與普通數(shù)據(jù)庫檢索所涉及的結(jié)構(gòu)化數(shù)據(jù)查詢不同,全文檢索不僅要查詢結(jié)構(gòu)化數(shù)據(jù),而且還要查詢非結(jié)構(gòu)化數(shù)據(jù),這就必然會(huì)涉及自然語言的理解、分詞、切詞技術(shù)以及人工智能技術(shù)等。 全文檢索技術(shù)的出現(xiàn)促使了信息領(lǐng)域的一場(chǎng)革命。與標(biāo)引檢索相比,全文檢索提供了全新的、強(qiáng)大的檢索功能,可以直接根據(jù)文獻(xiàn)資料的內(nèi)容進(jìn)行檢索,支持多角度、多側(cè)面地綜合利用信息資源;全文檢索技術(shù)是發(fā)現(xiàn)信息、分析和過濾信息、信息代理、信息安全控制等應(yīng)用的主要技術(shù)基礎(chǔ)。以全文檢索為核心技術(shù)的搜索引擎已經(jīng)成為網(wǎng)絡(luò)時(shí)代的主流技術(shù)之一。6.3 計(jì)算機(jī)信息檢索技術(shù) 多媒體信息檢索技術(shù)6.3.3 超文本信息檢索系統(tǒng)是以超文本網(wǎng)絡(luò)為基礎(chǔ)的文獻(xiàn)檢索系統(tǒng)。正文
14、信息是以節(jié)點(diǎn)而不是以字符串作為信息的基本單元,節(jié)點(diǎn)間通過鏈進(jìn)行連接。在檢索文獻(xiàn)時(shí),節(jié)點(diǎn)間的多種鏈接關(guān)系可以動(dòng)態(tài)地選擇性激發(fā),從而可根據(jù)思維聯(lián)想或新信息的需要,通過鏈從一個(gè)節(jié)點(diǎn)跳到另一個(gè)節(jié)點(diǎn),由此形成隨著人們思維和需要的流動(dòng)而構(gòu)成的數(shù)據(jù)鏈,體現(xiàn)出一種完全不同于過去順序檢索方式的聯(lián)想式檢索。6.3 計(jì)算機(jī)信息檢索技術(shù) 檢索多媒體信息早期的方法是基于文本描述(對(duì)多媒體信息添加文本說明),現(xiàn)在主要研究基于內(nèi)容的多媒體檢索技術(shù)。基于內(nèi)容的檢索是指根據(jù)媒體和媒體對(duì)象的內(nèi)容語義及上下文聯(lián)系進(jìn)行檢索,它利用圖像處理、模式識(shí)別、計(jì)算機(jī)視覺、圖像理解等學(xué)科中的一些方法作為部分基礎(chǔ)技術(shù),首先進(jìn)行特征抽取,再計(jì)算其相
15、似性。 對(duì)多媒體內(nèi)容的分析、自動(dòng)摘要、索引和查詢方法的研究已取得較大的進(jìn)步。為解決多媒體數(shù)據(jù)的檢索問題,除了可以分別利用基于關(guān)鍵字和基于內(nèi)容等檢索方法各自的優(yōu)勢(shì)外,還可以通過相關(guān)反饋技術(shù)、語義傳播技術(shù)以及交互學(xué)習(xí)技術(shù)把這兩種方法有機(jī)地結(jié)合起來,從而大幅提高檢索系統(tǒng)的檢索效率。6.3 計(jì)算機(jī)信息檢索技術(shù) 多媒體信息檢索技術(shù)6.3.3 多媒體信息檢索是對(duì)圖像、文本、聲音、動(dòng)畫等多媒體信息進(jìn)行識(shí)別和獲取所需信息的過程。多媒體信息檢索與傳統(tǒng)信息檢索相比,具有信息類型復(fù)雜、交互、同步、實(shí)時(shí)、界面友好、操作簡(jiǎn)單等特性。多媒體信息檢索系統(tǒng)并不是簡(jiǎn)單地對(duì)多種媒體進(jìn)行檢索,它必須既能對(duì)以文本信息為代表的離散媒體
16、進(jìn)行檢索,也能對(duì)以圖像、聲音等為代表的連續(xù)媒體的內(nèi)容進(jìn)行檢索。6.3 計(jì)算機(jī)信息檢索技術(shù) 基于內(nèi)容的檢索技術(shù)6.3.4 基于內(nèi)容的檢索(簡(jiǎn)稱CBR)是隨著多媒體技術(shù)的發(fā)展而出現(xiàn)的多媒體數(shù)據(jù)庫查詢與檢索技術(shù)?;趦?nèi)容的檢索是指根據(jù)媒體對(duì)象的語義、特征進(jìn)行檢索,如圖像中的顏色、紋理、形狀,視頻中的鏡頭、場(chǎng)景、鏡頭的運(yùn)動(dòng),聲音中的音調(diào)、響度、音色等?;趦?nèi)容的檢索是一項(xiàng)實(shí)用性強(qiáng)的高技術(shù),能廣泛用于遙感圖像處理和空間探測(cè)、醫(yī)療圖像、建筑工程圖、天氣預(yù)報(bào)、公安、藝術(shù)館藏資料管理等許多領(lǐng)域。尤其隨著Internet的發(fā)展,視頻、音頻、圖形、圖像將成為網(wǎng)上的主要資源,基于內(nèi)容的檢索技術(shù)則是不可缺少的檢索手段
17、。6.3 計(jì)算機(jī)信息檢索技術(shù)6.4 電子信息資源 搜索引擎的檢索方法6.4.1機(jī)編文獻(xiàn)目錄數(shù)據(jù)庫信息階段1) 電子信息資源的真正起源是美國(guó)國(guó)立醫(yī)學(xué)圖書館在20世紀(jì)60年代中期用電子計(jì)算機(jī)建立的MEDLARS系統(tǒng),用于醫(yī)學(xué)文獻(xiàn)的檢索。隨后,美國(guó)其他一些機(jī)構(gòu)也相繼使用電子計(jì)算機(jī)編輯文摘期刊,從而客觀上編制成了機(jī)器可讀的書目文檔,稱為文獻(xiàn)目錄型數(shù)據(jù)庫。這種文獻(xiàn)目錄型數(shù)據(jù)庫由于使用計(jì)算機(jī)來編輯、檢索文獻(xiàn)信息,因此可以將機(jī)編文獻(xiàn)目錄型數(shù)據(jù)庫的研制視為電子信息資源形成的開端。機(jī)編文獻(xiàn)目錄數(shù)據(jù)庫信息階段2) 國(guó)際聯(lián)機(jī)檢索就是用戶使用終端設(shè)備,遠(yuǎn)距離地從國(guó)際聯(lián)機(jī)檢索中心迅速而準(zhǔn)確地獲取電子文獻(xiàn)信息,使知識(shí)信息
18、得到廣泛而有效的傳播和利用,其實(shí)質(zhì)是數(shù)據(jù)庫和通信的結(jié)合。6.4 電子信息資源光盤信息階段3) 由于光盤在存儲(chǔ)電子信息資源方面具有記錄密度高、容量大、成本低、體積小、壽命長(zhǎng)、可實(shí)現(xiàn)隨機(jī)存取和檢索費(fèi)用低廉等優(yōu)點(diǎn),因此,光盤被廣泛用于存儲(chǔ)、檢索電子信息資源,并產(chǎn)生了一批生產(chǎn)系列光盤的公司,如美國(guó)UMI公司和銀盤公司等。光盤記載的電子信息資源并不局限于文獻(xiàn)信息,還包括各種軟件,但可用于檢索的仍以文獻(xiàn)信息為主。6.4 電子信息資源網(wǎng)絡(luò)信息階段4) Internet是網(wǎng)絡(luò)的網(wǎng)絡(luò),是網(wǎng)絡(luò)通過互聯(lián)而形成的全球網(wǎng),已延伸到地球上幾乎每個(gè)國(guó)家。在Internet上的所有主機(jī)都采用TCP/IP連接和通信,網(wǎng)上各種計(jì)
19、算機(jī)都以該協(xié)議規(guī)定的方式進(jìn)行數(shù)據(jù)交換,使Internet信息資源主要包括電子報(bào)刊、電子新聞、電子報(bào)告、電子論壇、會(huì)議資料、各種軟件資料、圖像文件、聲音文件和電子游戲等實(shí)現(xiàn)共享。總之,Internet是目前世界上資料最多、門類最全、規(guī)模最大的信息庫,是人們獲取信息的重要來源。6.4 電子信息資源 電子信息資源的類型和特點(diǎn)6.4.2電子信息資源的類型1)(1) 按信息的載體分類聯(lián)機(jī)網(wǎng)絡(luò)信息資源單獨(dú)發(fā)行的信息資源,以光盤出版物為主。6.4 電子信息資源(2) 按信息的媒體形式分類文本信息資源超文本信息資源多媒體信息資源超媒體信息資源6.4 電子信息資源電子信息資源的特點(diǎn)2) (3) (2) (4)
20、(1)信息存儲(chǔ)形式為文本超文本多媒體超媒體。以現(xiàn)代信息技術(shù)為記錄手段,是一種數(shù)字化的信息資源。內(nèi)容豐富。存儲(chǔ)介質(zhì)發(fā)生轉(zhuǎn)換。6.4 電子信息資源 (7) (6) (8) (5)數(shù)據(jù)結(jié)構(gòu)具有通用性、開放性和標(biāo)準(zhǔn)化的特點(diǎn)。便于各種媒介信息的一體化。交互式性能增強(qiáng)。 具有高度的整合性。6.4 電子信息資源6.5 百度和谷歌 百度6.5.1百度簡(jiǎn)介1) 百度于2000年1月創(chuàng)立于北京中關(guān)村,是全球最大的中文搜索引擎之一。 百度是中文搜索引擎中的后起之秀,其目標(biāo)是成為全球最大的中文搜索引擎,目前的數(shù)據(jù)庫中收錄的中文頁面已經(jīng)過億,而且還在以每天數(shù)十萬的速度增加。 百度提供相關(guān)搜索和網(wǎng)頁快照等功能,高級(jí)搜索中
21、還可以按地區(qū)(中國(guó)的省、市、自治區(qū))進(jìn)行相關(guān)搜索,以限定網(wǎng)站(site:)、限定地址(url:)、限定在網(wǎng)頁標(biāo)題(intitle:)搜索。 百度搜索幫助中心可以幫助用戶解決許多問題。百度幫助中心包括新手指南、百度產(chǎn)品、搜索特色、搜索技巧等。 百度搜索中比較常用的有網(wǎng)頁搜索、新聞搜索、圖片搜索、博客搜索、視頻搜索、文檔搜索等。在百度的“知道”里可以尋求某一問題的答案。工具書有萬年歷、成語詞典、漢語字典、百科詞典等。百度首頁如圖所示。6.5 百度和谷歌網(wǎng)頁搜索特色功能2)(1) 百度快照 如果無法打開某個(gè)搜索結(jié)果,或者打開速度特別慢,該怎么辦?“百度快照”能幫助解決問題。每個(gè)被收錄的網(wǎng)頁,在百度上
22、都存有一個(gè)純文本的備份,稱為“百度快照”。百度速度較快,可以通過“快照”快速瀏覽頁面內(nèi)容。不過,百度只保留文本內(nèi)容,所以對(duì)于圖片、音樂等非文本信息,快照頁面還是直接從原網(wǎng)頁調(diào)用。如果無法連接原網(wǎng)頁,那么快照上的圖片等非文本內(nèi)容就無法顯示。6.5 百度和谷歌(2) 相關(guān)搜索 有時(shí)候搜索結(jié)果不佳是因?yàn)檫x擇的查詢?cè)~不妥,可以通過參考別人是怎么搜索的來獲得一些啟發(fā)。百度的“相關(guān)搜索”,就是和想要的搜索很相似的一系列查詢?cè)~。百度相關(guān)搜索排列在搜索結(jié)果頁的下方,按搜索熱門度排序。6.5 百度和谷歌(3) 專業(yè)文檔搜索 很多有價(jià)值的資料在互聯(lián)網(wǎng)上并非是普通的網(wǎng)頁,而是以Word、PowerPoint、PDF
23、等格式存在。百度支持對(duì)Office文檔(包括Word、Excel、PowerPoint)、Adobe PDF文檔、RTF文檔的全文搜索。要搜索這類文檔,需要在普通的查詢?cè)~后面加一個(gè)“filetype:文檔類型”限定?!癴iletype:”后可以跟以下文件格式:doc、xls、ppt、pdf、rtf、all。其中,all表示搜索所有這些文件類型。6.5 百度和谷歌(4) 高級(jí)搜索語法把搜索范圍限定在url鏈接中inurl。把搜索范圍限定在特定站點(diǎn)中site。精確匹配雙引號(hào)和書名號(hào)。要求搜索結(jié)果中不含特定查詢?cè)~。 把搜索范圍限定在網(wǎng) 頁標(biāo)題中intitle。6.5 百度和谷歌 谷歌6.5.2谷歌簡(jiǎn)
24、介1) 谷歌是當(dāng)今最流行的搜索引擎,自1999年創(chuàng)立以來,很快超過了其他的搜索引擎,業(yè)界排名第一,據(jù)目前的統(tǒng)計(jì)表明,谷歌占據(jù)了搜索市場(chǎng)的80。同時(shí),谷歌也為其他搜索站點(diǎn)提供服務(wù),其中包括著名的Yahoo和網(wǎng)易。6.5 百度和谷歌 谷歌擁有巨大的檢索數(shù)據(jù)庫,支持包括中文簡(jiǎn)體和中文繁體在內(nèi)的43種語言,并能根據(jù)用戶的瀏覽器設(shè)定自動(dòng)使用本地語言界面;谷歌的搜索速度極快,其專利網(wǎng)頁級(jí)別技術(shù)PageRank能夠提供準(zhǔn)確率極高的搜索結(jié)果;智能化的“手氣不錯(cuò)”功能,可盡可能提供最符合要求的網(wǎng)站;“網(wǎng)頁快照”能從谷歌服務(wù)器里直接取出緩存的網(wǎng)頁,使被查網(wǎng)站在出現(xiàn)故障時(shí),用戶仍能獲得一部分資料;谷歌可直接搜索圖片
25、、新聞組及多種二進(jìn)制文件。6.5 百度和谷歌 谷歌支持布爾邏輯“與”“或”“非”運(yùn)算,支持“+”“”“( )”符號(hào)操作,支持詞組精確檢索。谷歌最大的檢索特性還在于提供了豐富的字段檢索功能,而且為不同資源類型提供了不同字段的限定檢索功能。 谷歌的高級(jí)檢索功能包括限定網(wǎng)站檢索(包括某網(wǎng)站或排除某網(wǎng)站)、限定語言檢索、檢索鏈接指向某個(gè)網(wǎng)頁的所有頁面、相關(guān)網(wǎng)頁檢索等。 G網(wǎng)站只支持簡(jiǎn)體中文界面。如果要使用其他語言的界面,可訪問。谷歌的搜索服務(wù)包括網(wǎng)頁搜索、圖片搜索、資訊搜索、地圖搜索、博客搜索、視頻搜索、大學(xué)搜索、圖書搜索、學(xué)術(shù)搜索、網(wǎng)站導(dǎo)航等。6.5 百度和谷歌 在使用偏好界面(見圖6-3)中可根據(jù)
26、個(gè)人的情況選擇界面語言、搜索語言、結(jié)果數(shù)量、結(jié)果視窗、簡(jiǎn)繁轉(zhuǎn)換、查詢建議等,此界面實(shí)際上提供了一種個(gè)性化的設(shè)置。圖6-3 谷歌使用偏好界面6.5 百度和谷歌 在語言工具界面(見圖6-4)中可以設(shè)置搜索用某一特定語言編寫的網(wǎng)頁或搜索某一特定國(guó)家的網(wǎng)頁,還可翻譯文字和網(wǎng)頁以及在字典里查找字詞。圖6-4 谷歌語言工具界面6.5 百度和谷歌檢索方法2)(1) 簡(jiǎn)單搜索 簡(jiǎn)單搜索是谷歌的基本搜索,檢索簡(jiǎn)潔且方便,僅需輸入檢索內(nèi)容并按回車鍵,或者單擊“Google搜索”按鈕,即可得到相關(guān)資料。簡(jiǎn)單搜索界面如圖6-5所示。圖6-5 谷歌簡(jiǎn)單搜索界面6.5 百度和谷歌(2) 詞組搜索 谷歌搜索引擎使用英文雙引
27、號(hào)。在谷歌中,可以通過添加英文雙引號(hào)來搜索短語。 為提供最準(zhǔn)確的資料,谷歌不使用“詞干法”,也不支持“通配符”(*)搜索。也就是說,谷歌只搜索與輸入的關(guān)鍵詞完全一樣的字詞。 谷歌搜索也不區(qū)分英文字母大小寫,所有的字母均當(dāng)成小寫處理。 谷歌運(yùn)用智能型漢字簡(jiǎn)繁自動(dòng)轉(zhuǎn)換系統(tǒng),進(jìn)行中文檢索時(shí)可找到更多相關(guān)信息。6.5 百度和谷歌(3) 高級(jí)搜索 可以將檢索策略輸入谷歌主頁面的檢索框中進(jìn)行檢索,也可以進(jìn)入高級(jí)檢索界面(見圖6-6)后,將檢索策略輸入檢索框中。圖6-6 谷歌高級(jí)搜索界面6.5 百度和谷歌谷歌的特殊功能3)(1) 信息挖掘 如果要查找網(wǎng)絡(luò)上的PDF、DOC、PPT、XLS、RTF、SWF等類
28、型的文件,只需在檢索詞后加上PDF、DOC、PPT、XLS、RTF、SWF等信息,谷歌會(huì)自動(dòng)到服務(wù)器,甚至數(shù)據(jù)庫中搜索這些文件,體現(xiàn)了新穎的信息挖掘功能。6.5 百度和谷歌 谷歌可以支持13種非HTML文件的搜索。除了PDF文檔,谷歌現(xiàn)在還可以搜索 Microsoft Office(DOC、PPT、X1S、RTF)、Shockwave Flash(SWF)、PostScript(PS)和其他類型文檔。新的文檔類型只要與用戶的搜索相關(guān),就會(huì)自動(dòng)顯示在搜索結(jié)果中。 谷歌也提供用戶不同類型文件的“HTML版”,方便用戶在即使沒有安裝相應(yīng)應(yīng)用程序的情況下,也能閱讀各種類型文件的內(nèi)容。6.5 百度和谷歌
29、(2) 手氣不錯(cuò) 單擊“手氣不錯(cuò)”按鈕會(huì)自動(dòng)進(jìn)入谷歌查詢到的第一個(gè)網(wǎng)頁,完全看不到其他的搜索結(jié)果。使用“手氣不錯(cuò)”進(jìn)行搜索表示用于搜索網(wǎng)頁的時(shí)間較少而用于檢查網(wǎng)頁的時(shí)間較多。6.5 百度和谷歌(3) 網(wǎng)頁快照 谷歌在訪問網(wǎng)站時(shí),會(huì)將看過的網(wǎng)頁復(fù)制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時(shí)使用。單擊“網(wǎng)頁快照”時(shí),可看到谷歌將該網(wǎng)頁編入索引時(shí)的頁面。谷歌依據(jù)這些快照來分析網(wǎng)頁是否符合用戶的要求。6.5 百度和谷歌(4) 類似網(wǎng)頁 單擊“類似網(wǎng)頁”時(shí),谷歌偵察兵便開始尋找與這一網(wǎng)頁相關(guān)的網(wǎng)頁。 谷歌偵察兵可以“一兵多用”。如果對(duì)某一網(wǎng)站的內(nèi)容很感興趣,但又嫌資料不夠時(shí),谷歌偵察兵會(huì)找到其他有類似資料的
30、網(wǎng)站;如果要尋找產(chǎn)品信息,谷歌偵察兵會(huì)提供相關(guān)信息,供用戶比較,讓用戶盡可能貨比三家;如果用戶在某一領(lǐng)域做學(xué)問,谷歌偵察兵會(huì)成為助手,幫助快速找到大量資料。6.5 百度和谷歌(5) 相關(guān)搜索 谷歌能夠提供與原搜索相關(guān)的搜索詞。這些相關(guān)的搜索詞是根據(jù)過去谷歌所有用戶的搜索習(xí)慣和谷歌提供的計(jì)算兩個(gè)搜索詞之間相關(guān)度的獨(dú)家技術(shù)而產(chǎn)生的。這些相關(guān)的搜索詞一般比原搜索詞更常用,并且更可能產(chǎn)生相關(guān)的結(jié)果。點(diǎn)擊提供的相關(guān)搜索詞就會(huì)自動(dòng)進(jìn)入這個(gè)詞的結(jié)果頁。谷歌相關(guān)搜索將幫助用戶更快地找到更有價(jià)值的結(jié)果。6.5 百度和谷歌(6) 按鏈接搜索 有一些詞后面加上冒號(hào)對(duì)谷歌有特殊的含義。其中的一個(gè)詞是“l(fā)ink:”。查
31、詢“l(fā)ink:”顯示所有指向該網(wǎng)址的網(wǎng)頁。例如,“l(fā)ink:wwwgooglecom”將找出所有指向谷歌主頁的網(wǎng)頁。不能將“l(fā)ink:”搜索與普通關(guān)鍵詞搜索結(jié)合使用。6.5 百度和谷歌(7) 指定網(wǎng)域 有一些詞后面加上冒號(hào)對(duì)谷歌有特殊的含義。其中的一個(gè)詞是“site:”。要在某個(gè)特定的域或站點(diǎn)中搜索,可以在谷歌搜索框中輸入“site:xxxxxcom”。6.5 百度和谷歌(8) 定義 要查看字詞或詞組的定義,輸入“define”,接著輸入一個(gè)空格,然后輸入需要其定義的詞。如果谷歌在網(wǎng)絡(luò)上找到了該字詞或詞組的定義,則會(huì)檢索該信息并在搜索結(jié)果的頂部顯示它們。6.5 百度和谷歌6.6 計(jì)算機(jī)檢索過程
32、與基本功能 檢索策略的構(gòu)造與執(zhí)行過程6.6.1 所謂檢索策略,即為達(dá)到檢索目標(biāo)而確定或采取的途徑、程序、方法和步驟。光盤檢索策略由邏輯提問式表達(dá)。邏輯提問式由布爾代數(shù)的邏輯算符號(hào)與檢索詞、位置符號(hào)和截詞符號(hào)等合理組配而成。在檢索過程中,檢索策略還須根據(jù)檢索效果的評(píng)價(jià)來修正。因此,一個(gè)完整的檢索策略應(yīng)是一個(gè)動(dòng)態(tài)的執(zhí)行過程,如圖6-7所示。圖6-7 檢索策略的構(gòu)造與執(zhí)行過程示意圖6.6 計(jì)算機(jī)檢索過程與基本功能 機(jī)檢基本功能6.6.2布爾邏輯1)(1)(2)(3)“與”邏輯乘?!盎颉边壿嫼汀!胺恰边壿嫴?。6.6 計(jì)算機(jī)檢索過程與基本功能位置邏輯2)(L)“Link”。(C)“Citation”。(
33、F)“Feild”。(nw)“n words”。(W)“With”。(1)(5)(4)(3)(2)6.6 計(jì)算機(jī)檢索過程與基本功能截詞與屏3)(1) 截詞 無限截詞。無限截詞是在檢索詞的詞干后加一個(gè)“?”,表示不限制詞尾部可變化的字符位數(shù)。 有限截詞。有限截詞在檢索詞的詞干后加一個(gè)或一個(gè)以上的(最多不超過4個(gè))“?”,然后空一格,再加一個(gè)“?”。前面的14個(gè)“?”表示限定所截字符的位數(shù),最后一個(gè)“?”表示截詞停止的符號(hào)。6.6 計(jì)算機(jī)檢索過程與基本功能(2) 屏蔽 屏蔽檢索是在檢索詞的一串字符中插入一個(gè)或多個(gè)“?”(屏蔽符號(hào)),表示在問號(hào)的相應(yīng)位置上可置換數(shù)目相當(dāng)?shù)淖址?。?duì)一些單、復(fù)數(shù)變化異常
34、或英、美拼法不同的詞,采用屏蔽法可減少輸入步驟,提高檢索效率。6.6 計(jì)算機(jī)檢索過程與基本功能字段檢索4) 字段檢索是限定檢索詞在數(shù)據(jù)庫內(nèi)查找區(qū)域的一種檢索技巧。數(shù)據(jù)庫中的字段是指數(shù)據(jù)庫文獻(xiàn)記錄中包含某一專門信息的部分。例如,作者字段就全部由作者的姓和名組成,見表6-1。6.6 計(jì)算機(jī)檢索過程與基本功能6.6 計(jì)算機(jī)檢索過程與基本功能檢索項(xiàng)5) 索提問式由檢索項(xiàng)和邏輯運(yùn)算符構(gòu)成。檢索項(xiàng)主要有語詞性檢索項(xiàng)和非語詞性檢索項(xiàng)兩種形式,語詞性檢索項(xiàng)是各種數(shù)據(jù)庫中必不可少的基本檢索項(xiàng),常用的語詞性檢索項(xiàng)分為受控詞和非受控詞兩大類,它們均顯示在不同數(shù)據(jù)庫的不同字段里。 語詞性檢索項(xiàng)主要包括主題詞、單元詞、
35、關(guān)鍵詞、標(biāo)題詞、敘詞、自由詞等。 非語詞性檢索項(xiàng)主要包括分類號(hào)、專利號(hào)、年代號(hào)、登記號(hào)、期刊代碼等。6.6 計(jì)算機(jī)檢索過程與基本功能6.7 網(wǎng)絡(luò)信息檢索策略與技巧 分析檢索的主題6.7.1 要確切了解所要查詢的目的和要求、確定需要的信息類型(全文、摘要、名錄等,文本、圖像、聲音)、查詢方式(瀏覽、分類檢索、關(guān)鍵詞檢索)、查詢范圍(所有網(wǎng)頁、標(biāo)題、新聞組文章、FTP、軟件、中文、外文)、查詢時(shí)間(所有年份、最近幾年、最近幾周、最近幾天、當(dāng)天)等。 選擇合適的檢索工具6.7.2 各種搜索引擎在查詢范圍、檢索功能等方面各有千秋,不同目的的檢索應(yīng)選擇不同的搜索引擎。選擇合適的檢索工具主要從工具的類型、
36、收錄范圍、檢索問題的類型、檢索具體要求等方面綜合考慮。 如果渴望有一個(gè)比較完美的搜索引擎,不妨使用Ask Jeeves(),這是一個(gè)能提供回答問題的確切網(wǎng)頁的搜索引擎。6.7 網(wǎng)絡(luò)信息檢索策略與技巧 對(duì)搜索引擎的了解與選擇,可以借助于各搜索引擎主頁的介紹與聯(lián)機(jī)幫助(about us、help、搜索建議等),或利用搜索引擎的集合與評(píng)價(jià)站點(diǎn)。 最重要的評(píng)價(jià)和介紹搜索引擎的英文站點(diǎn)是搜索引擎跟蹤()。 搜索引擎匯總(search engine collection)的網(wǎng)站還有,和。6.7 網(wǎng)絡(luò)信息檢索策略與技巧 抽取適當(dāng)?shù)年P(guān)鍵詞6.7.3 (3) (2) (4) (5) (6) (1)使用名詞或物體
37、做關(guān)鍵詞。使用截詞檢索。通過OR連接同義詞、近義詞、相關(guān)詞或同一術(shù)語的不同表達(dá)方式。檢索式中使用23個(gè)關(guān)鍵詞。對(duì)專有名詞?!皩?duì)固定短語,用“”引起進(jìn)行短語檢索。 (7)用括號(hào)將各個(gè)概念分開。6.7 網(wǎng)絡(luò)信息檢索策略與技巧 正確構(gòu)造檢索式6.7.4 構(gòu)造檢索式時(shí),要充分利用檢索工具支持的檢索運(yùn)算(網(wǎng)上一流的搜索引擎幾乎都支持布爾邏輯檢索)、允許使用的檢索標(biāo)識(shí)、各種限定,這是進(jìn)行有效檢索的基礎(chǔ)。 許多搜索引擎都提供簡(jiǎn)單查詢和高級(jí)查詢,建議使用后者,如組合使用布爾邏輯運(yùn)算符AND(+)、NOT()、雙引號(hào)、使用日期與語種限定等,可使檢索結(jié)果控制在一定范圍內(nèi)。OR可能是用處最小的,因?yàn)樗鼨z索出的信息太
38、多,有許多網(wǎng)上服務(wù)器甚至不對(duì)帶有這種運(yùn)算符的請(qǐng)求進(jìn)行加工,但當(dāng)檢索術(shù)語有兩種或兩種以上的表達(dá)方式時(shí),一般可用OR。充分利用進(jìn)階檢索,即某些工具提供的refine、search within these results等功能,在前一次檢索產(chǎn)生結(jié)果的基礎(chǔ)上做進(jìn)一步的檢索。6.7 網(wǎng)絡(luò)信息檢索策略與技巧 及時(shí)調(diào)整檢索策略6.7.5擴(kuò)大檢索范圍1)利用某些搜索引擎的自動(dòng)擴(kuò)檢功能進(jìn)行相關(guān)檢索。 使用多個(gè)搜索引擎。 使用截?cái)嗉夹g(shù)。使用同義詞、近義詞或相關(guān)詞。使用元搜索引擎。(5)(4)(3)(2)(1)6.7 網(wǎng)絡(luò)信息檢索策略與技巧縮小檢索范圍2)(1) 使用邏輯“與”。 使用邏輯“非”。(2)(3) 位置算符。固定詞組檢索(短語檢索)。(4)(5) 使用縮寫與全稱。利用某些搜索引擎的進(jìn)階檢索功能限制查詢范圍。(6)6.7 網(wǎng)絡(luò)信息檢索策略與技巧 及時(shí)調(diào)整檢索策略6.7.6直接進(jìn)入相關(guān)站點(diǎn)1) 檢索不一定每次都要從搜索引擎入手,可以利用平時(shí)積累的有用網(wǎng)址
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度茶葉批發(fā)市場(chǎng)租賃合同范本4篇
- 2025年專利使用合同解除協(xié)議
- 2025年售后維修和解協(xié)議
- 2025版錨具原材料供應(yīng)協(xié)議3篇
- 下發(fā)合同范本的通知
- 2025年度征收搬遷項(xiàng)目拆遷房屋買賣管理協(xié)議4篇
- 個(gè)人房屋改造裝修合同范本(2024版)
- 二零二五年度高檔住宅區(qū)社區(qū)物業(yè)服務(wù)培訓(xùn)與委托管理服務(wù)合同3篇
- 堅(jiān)持的中考滿分作文(錦集5篇)
- 二零二四年度2024物業(yè)管理臨時(shí)管理規(guī)約與住宅小區(qū)綠化養(yǎng)護(hù)協(xié)議6篇
- 三年級(jí)上冊(cè)科學(xué)說課課件-1.5 水能溶解多少物質(zhì)|教科版
- GB/T 7588.2-2020電梯制造與安裝安全規(guī)范第2部分:電梯部件的設(shè)計(jì)原則、計(jì)算和檢驗(yàn)
- GB/T 14600-2009電子工業(yè)用氣體氧化亞氮
- 小學(xué)道德與法治學(xué)科高級(jí)(一級(jí))教師職稱考試試題(有答案)
- 申請(qǐng)使用物業(yè)專項(xiàng)維修資金征求業(yè)主意見表
- 河北省承德市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- 實(shí)用性閱讀與交流任務(wù)群設(shè)計(jì)思路與教學(xué)建議
- 應(yīng)急柜檢查表
- 通風(fēng)設(shè)施標(biāo)準(zhǔn)
- 酒店市場(chǎng)營(yíng)銷教案
- 房屋買賣合同簡(jiǎn)單范本 房屋買賣合同簡(jiǎn)易范本
評(píng)論
0/150
提交評(píng)論