因特網(wǎng)信息檢索_第1頁
因特網(wǎng)信息檢索_第2頁
因特網(wǎng)信息檢索_第3頁
因特網(wǎng)信息檢索_第4頁
因特網(wǎng)信息檢索_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

因特網(wǎng)信息檢索第一頁,共四十二頁,編輯于2023年,星期五本課內(nèi)容一、網(wǎng)絡(luò)信息資源概述二、網(wǎng)絡(luò)信息檢索三、網(wǎng)絡(luò)信息檢索策略與技巧四、網(wǎng)絡(luò)信息檢索的發(fā)展趨勢第二頁,共四十二頁,編輯于2023年,星期五常用術(shù)語(一)超文本(Hypertext)是用超鏈結(jié)的方法,將各種不同空間的文字信息組織在一起的網(wǎng)狀文本,這種文本與文本之間的鏈接關(guān)系就稱為超鏈接。

超文本的格式有很多,目前最常使用的是超文本標(biāo)記語言(HyperTextMarkupLanguage,HTML)及富文本格式(RichTextFormat,RTF)。超媒體(HyperMedia),是超文本利用引用鏈接其他不同類型(內(nèi)含聲音、圖片、動畫)的文件,這些具有多媒體操作的超文本和多媒體在信息瀏覽環(huán)境下的結(jié)合,它是超級媒體的簡稱。意指多媒體超文本(MultimediaHypertext),即以多媒體的方式呈現(xiàn)相關(guān)文件信息。瀏覽器(Browser)是Web頁瀏覽的客戶應(yīng)用程序,是一種在窗口環(huán)境下瀏覽互聯(lián)網(wǎng)資源并獲得信息的多媒體工具。有了瀏覽器,用戶才能夠在因特網(wǎng)的大海中航行。第三頁,共四十二頁,編輯于2023年,星期五常用術(shù)語(二)(TCP/IP協(xié)議)TCP(TransportControlProtocol)指傳輸控制協(xié)議,IP(InternetProtocol)指網(wǎng)際協(xié)議?;ヂ?lián)網(wǎng)連接了世界上不同國家與地區(qū)無數(shù)不同硬件、不同操作系統(tǒng)與不同軟件的計(jì)算機(jī),數(shù)據(jù)在傳輸過程中很容易丟失或傳錯(cuò)。為了保證這些計(jì)算機(jī)之間能夠暢通無阻地交換信息,INTERNET采用統(tǒng)一的通信協(xié)議——TCP/IP協(xié)議,它能保證數(shù)據(jù)迅速可靠傳輸。TCP/IP協(xié)議實(shí)際是一個(gè)協(xié)議集合。我們最常見的協(xié)議有http(超文本傳輸協(xié)議):WWW客戶機(jī)和服務(wù)器用于在網(wǎng)上傳輸、響應(yīng)用戶請求的協(xié)議。第四頁,共四十二頁,編輯于2023年,星期五常用術(shù)語(三)網(wǎng)絡(luò)地址與域名(IP地址和DN)IP地址:互聯(lián)網(wǎng)上連接了無數(shù)的計(jì)算機(jī)(主機(jī)),用戶如何找到一個(gè)特定的主機(jī)呢?人們根據(jù)IP協(xié)議給每一個(gè)主機(jī)分配一個(gè)編碼,這個(gè)編碼稱為IP地址。它可用四組由圓點(diǎn)分割的數(shù)字表示。如,我校圖書館網(wǎng)站的IP地址:1

域名(Domainname):IP地址難于記憶,也可以用域名來表示主機(jī)。DNS:域名服務(wù)器(DomainNameServer)。第五頁,共四十二頁,編輯于2023年,星期五常用術(shù)語(四)URL:統(tǒng)一資源定位符(UniformResourceLocator)

WWW是WorldWideWeb(環(huán)球信息網(wǎng))的縮寫,也可以簡稱為Web,中文名字為“萬維網(wǎng)”。SMTP:簡單郵件傳輸協(xié)議(SimpleMailTransferProtocol)

SMTP是一種提供可靠且有效電子郵件傳輸?shù)膮f(xié)議。SMTP是建模在FTP文件傳輸服務(wù)上的一種郵件服務(wù),主要用于傳輸系統(tǒng)之間的郵件信息并提供來信有關(guān)的通知。NNTP:網(wǎng)絡(luò)新聞傳輸協(xié)議(NetworkNewsTransferProtocolOverview)第六頁,共四十二頁,編輯于2023年,星期五一、網(wǎng)絡(luò)信息資源概述(一)、網(wǎng)絡(luò)信息資源的定義通過計(jì)算機(jī)網(wǎng)絡(luò)可以利用的各種信息資源的總和。即以數(shù)字化形式記錄的,以多媒體形式表達(dá)的,分布式存儲在網(wǎng)絡(luò)計(jì)算機(jī)的磁介質(zhì)、光介質(zhì)以及各類通信介質(zhì)上,并通過計(jì)算機(jī)通信方式進(jìn)行傳遞的信息內(nèi)容的集合。(載體、表達(dá)形式、組織結(jié)構(gòu)、傳播手段)第七頁,共四十二頁,編輯于2023年,星期五一、網(wǎng)絡(luò)信息資源概述(二)、網(wǎng)絡(luò)信息資源的特點(diǎn)

1、信息量大、傳播廣泛

2、信息類型多樣、內(nèi)容豐富

3、信息時(shí)效性強(qiáng)、變化頻繁

4、信息分散無序、但關(guān)聯(lián)程度高

5、信息缺乏管理、良莠不齊第八頁,共四十二頁,編輯于2023年,星期五一、網(wǎng)絡(luò)信息資源概述(三)、網(wǎng)絡(luò)信息資源的類型1、按采用的網(wǎng)絡(luò)傳輸協(xié)議劃分(1)WWW信息資源也稱Web信息資源,采用超文本傳輸協(xié)議(HyperTextTransferProtocol,HTTP)在WWW客戶端和服務(wù)器端之間傳輸,建立在超文本、超媒體等技術(shù)的基礎(chǔ)上,集文本、圖像、圖形、聲音等為一體,以網(wǎng)頁的形式存在Internet上。(2)Telnet信息資源是指在遠(yuǎn)程登錄協(xié)議Telnet(TelecommunicationNetworkProtocol)的支持下,用戶計(jì)算機(jī)經(jīng)由Internet與遠(yuǎn)程計(jì)算機(jī)連接,并在權(quán)限允許的范圍內(nèi)檢索和使用遠(yuǎn)程計(jì)算機(jī)的各種硬件、軟件資源。Telnet方式是實(shí)現(xiàn)與遠(yuǎn)程計(jì)算機(jī)連接的最快方式。(Dialog、OCLC、OPAC)第九頁,共四十二頁,編輯于2023年,星期五一、網(wǎng)絡(luò)信息資源概述(3)FTP信息資源FTP信息資源是借助于文件傳輸協(xié)議(FileTransferProtocol,F(xiàn)TP),以文件方式在聯(lián)網(wǎng)計(jì)算機(jī)之間傳輸?shù)男畔①Y源。FTP協(xié)議的主要功能是實(shí)現(xiàn)文件從一個(gè)系統(tǒng)到另一個(gè)系統(tǒng)的完整拷貝,資源類型廣泛。(4)用戶服務(wù)組信息資源網(wǎng)上各種各樣的用戶服務(wù)組是Internet上最受歡迎的信息交流形式,包括新聞組(UsenetNewsgroup)、電子郵件組(Listserv)、郵件列表(MailingList)、專題討論組(DiscussionGroup)等。用戶服務(wù)組資源是一種最豐富、自由、最具開放性的資源,其信息交流的廣泛性、直接性是其他任何類型的信息資源都無法比擬的。(論壇、郵件交流)第十頁,共四十二頁,編輯于2023年,星期五一、網(wǎng)絡(luò)信息資源概述2、按信息資源組織形式劃分(1)文件方式(2)超文本/超媒體方式超文本/超媒體方式是一種新型的信息組織方式,不僅注重所要管理的信息本身,而且更加注重信息之間關(guān)系的建立與表示,是將網(wǎng)絡(luò)信息按照相互關(guān)系非線性存儲在節(jié)點(diǎn)(Node)上,節(jié)點(diǎn)間以鏈路(Link)相連,形成一個(gè)可任意連接的、有層次的、復(fù)雜的網(wǎng)狀結(jié)構(gòu)。超文本是以線性和靜態(tài)的文本信息的文本為處理對象,超媒體是超文本與多媒體技術(shù)的結(jié)合,將文字、圖表、聲音、圖像、視頻等多媒體信息以超文本方式組織。(3)數(shù)據(jù)庫方式(4)網(wǎng)站集網(wǎng)絡(luò)信息提供、網(wǎng)絡(luò)信息組織、網(wǎng)絡(luò)信息服務(wù)于一體,一般綜合了文件方式、超文本/超媒體方式和數(shù)據(jù)庫方式來組織信息和提供信息的檢索。第十一頁,共四十二頁,編輯于2023年,星期五一、網(wǎng)絡(luò)信息資源概述3、按網(wǎng)絡(luò)信息資源的內(nèi)容劃分(1)網(wǎng)絡(luò)數(shù)據(jù)庫(聯(lián)機(jī)、光盤數(shù)據(jù)庫)(2)網(wǎng)絡(luò)出版物(電子圖書、電子期刊等)(3)社會信息(政策、新聞、娛樂信息等)(4)軟件資源(各種應(yīng)用程序)(5)其他類型的信息(論壇、電子公告、網(wǎng)絡(luò)日志)第十二頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(一)、網(wǎng)絡(luò)信息檢索的定義狹義:是指網(wǎng)絡(luò)信息的查找,即以Internet為檢索平臺和媒介,利用相應(yīng)的網(wǎng)絡(luò)檢索工具或檢索系統(tǒng),運(yùn)用一定的網(wǎng)絡(luò)檢索技術(shù)與策略,從有序的網(wǎng)絡(luò)信息集合中查出所需信息的過程。廣義:包括網(wǎng)絡(luò)信息整序和網(wǎng)絡(luò)信息查找。網(wǎng)絡(luò)信息整序是將與Internet相連的信息按一定的規(guī)則進(jìn)行搜集、分析和標(biāo)引,并以數(shù)據(jù)庫方式、主題樹方式或者其他方式組織、排序和存儲。第十三頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(二)、網(wǎng)絡(luò)信息檢索的特點(diǎn)1、檢索范圍涵蓋整個(gè)Internet2、傳統(tǒng)檢索方法與全新網(wǎng)絡(luò)檢索技術(shù)相結(jié)合3、用戶界面友好且操作方便4、用戶透明度高5、信息檢索效率不高第十四頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(三)、網(wǎng)絡(luò)信息檢索的一般方法1、瀏覽方式(1)隨意瀏覽(2)分類體系瀏覽2、查詢方式:通過輸入檢索條件,從大量的信息集合中檢索信息的方式。第十五頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(四)、網(wǎng)絡(luò)信息檢索技術(shù)1、全文檢索技術(shù)

全文檢索(Full

Text

Retrieval)技術(shù),就是以信息資料的內(nèi)容,如文字、聲音、圖像等為主要處理對象,而不是其外在特征來實(shí)現(xiàn)信息檢索的技術(shù),出現(xiàn)于20世紀(jì)50年代末。第十六頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(四)、網(wǎng)絡(luò)信息檢索技術(shù)2、多媒體信息檢索技術(shù)

(1)基于內(nèi)容的圖像檢索技術(shù)(2)基于內(nèi)容的視頻檢索技術(shù)(3)基于內(nèi)容的音頻檢索技術(shù)第十七頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(四)、網(wǎng)絡(luò)信息檢索技術(shù)3、智能檢索技術(shù)

采用人工智能計(jì)算機(jī)技術(shù)進(jìn)行信息檢索的技術(shù)

(1)機(jī)器學(xué)習(xí)技術(shù)(2)知識發(fā)現(xiàn)技術(shù)(3)自然語言理解技術(shù)(4)智能代理技術(shù)第十八頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(四)、網(wǎng)絡(luò)信息檢索技術(shù)4、數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(DataMining)技術(shù)也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術(shù),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息,提取知識一般可表示為概念、規(guī)則、規(guī)律、模式等形式。

(1)Web內(nèi)容挖掘(從文檔內(nèi)容或其描述中抽取知識)(2)Web結(jié)構(gòu)挖掘(從組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識)(3)Web使用記錄挖掘(從Web訪問記錄中挖掘)

第十九頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(四)、網(wǎng)絡(luò)信息檢索技術(shù)5、自動標(biāo)引和分類技術(shù)

自動標(biāo)引技術(shù)是指由計(jì)算機(jī)代替人工完成文本的內(nèi)容分析,并賦予詞語標(biāo)識的技術(shù),可分為抽詞標(biāo)引和賦詞標(biāo)引兩種。抽詞標(biāo)引:主要指利用原文本信息中的自然語言直接標(biāo)引,不加任何處理。第二十頁,共四十二頁,編輯于2023年,星期五賦詞標(biāo)引:是指使用已建詞表中的主題詞(或敘詞)替代文本信息中的關(guān)鍵詞來表達(dá)文本主題內(nèi)容概念的標(biāo)引過程。即使用受控語詞進(jìn)行標(biāo)引,這是一種受控語言標(biāo)引。目前網(wǎng)上采用的是詞頻加權(quán)統(tǒng)計(jì)法(標(biāo)引詞=主題詞+權(quán)值)自動分類技術(shù):利用計(jì)算機(jī)信息技術(shù)按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記,它主要用于實(shí)現(xiàn)信息特征的聚類和歸類,即將具有相同或相近特征的信息對象集中在一起。而將不同特征者盡可能歸于不同的類別中,從而實(shí)現(xiàn)快速檢索。(外文本預(yù)處理、、文本表示和特征提取)第二十一頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(五)、網(wǎng)絡(luò)信息檢索工具的類型1、WWW信息資源檢索工具(1)網(wǎng)絡(luò)資源指南(2)搜索引擎(3)信息門戶(4)搜索軟件第二十二頁,共四十二頁,編輯于2023年,星期五二、網(wǎng)絡(luò)信息檢索(五)、網(wǎng)絡(luò)信息檢索工具的類型2、非WWW信息資源的檢索工具(1)FTP信息資源的檢索工具(2)Telnet信息資源的檢索工具(3)用戶服務(wù)組信息資源的檢索工具第二十三頁,共四十二頁,編輯于2023年,星期五三、網(wǎng)絡(luò)信息檢索策略和技巧(一)、網(wǎng)絡(luò)信息檢索策略1、分析檢索課題(1)明確檢索目的(2)明確課題的檢索范圍(3)確定檢索項(xiàng)2、選擇檢索工具(1)明確不同類型網(wǎng)絡(luò)信息檢索工具的適用范圍(2)了解主要檢索工具的特點(diǎn)和功能(3)重視檢索工具的分類瀏覽功能在學(xué)術(shù)信息檢索中的應(yīng)用(4)注意多種網(wǎng)絡(luò)檢索工具的組合使用3、實(shí)施檢索(1)了解檢索工具的檢索規(guī)則(2)確定檢索詞(3)構(gòu)造檢索式(4)選擇和處理檢索結(jié)果第二十四頁,共四十二頁,編輯于2023年,星期五三、網(wǎng)絡(luò)信息檢索策略和技巧(二)、網(wǎng)絡(luò)信息檢索技巧1、提高檢索效率的措施(1)提高查全率

少用邏輯“與”、多用邏輯“或”、降低檢索詞的專指度等(2)提高查準(zhǔn)率

2、提高檢索速度的措施(1)建立收藏夾分類體系(2)采用緩存措施(3)設(shè)置啟動頁面(4)減少信息媒體的裝載第二十五頁,共四十二頁,編輯于2023年,星期五四、網(wǎng)絡(luò)信息檢索的發(fā)展趨勢1、網(wǎng)絡(luò)信息檢索的智能化因特網(wǎng)的飛速發(fā)展,對檢索工具的智能化程度提出了更高的要求。智能化程度高的檢索工具在競爭中將明顯地處于有利的地位。目前,除了新興的自動標(biāo)引、自動文獻(xiàn)、自動跟蹤、自動漫游等智能化檢索技術(shù)正在逐步走向完善外,網(wǎng)絡(luò)專家們又推出了智能瀏覽器、學(xué)習(xí)智能體、知識共享智能體等最新的網(wǎng)絡(luò)信息高度智能化檢索技術(shù)2、網(wǎng)絡(luò)信息檢索的個(gè)性化(1)收錄內(nèi)容特色化(2)個(gè)性化檢索設(shè)置(3)個(gè)性化檢索界面(4)個(gè)性化信息推送第二十六頁,共四十二頁,編輯于2023年,星期五四、網(wǎng)絡(luò)信息檢索的發(fā)展趨勢3、網(wǎng)絡(luò)信息檢索的可視化由于圖像表達(dá)方式的生動、形象、準(zhǔn)確和多維揭示等特點(diǎn),人們便將一些抽象、不可見的概念、關(guān)系等用圖像形式來表達(dá),將其可視化??梢暬瘷z索就是把文獻(xiàn)信息、用戶提問、各類檢索模型以及利用檢索模型進(jìn)行檢索的過程,展示在一個(gè)可視化空間中,并向用戶提供信息檢索服務(wù)。4、網(wǎng)絡(luò)信息檢索的多樣化(1)網(wǎng)上檢索信息的多樣化(2)網(wǎng)絡(luò)檢索工具的多樣化第二十七頁,共四十二頁,編輯于2023年,星期五四、網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(3)檢索功能的多樣化

針對網(wǎng)絡(luò)信息分布無序、難以規(guī)范化和結(jié)構(gòu)化、內(nèi)容特征抽取復(fù)雜等特點(diǎn),網(wǎng)絡(luò)信息檢索工具的功能也將進(jìn)一步向多樣化方向發(fā)展。檢索功能的多樣化具體體現(xiàn)在以下幾個(gè)方面:

一是檢索角度的多樣化。目前網(wǎng)絡(luò)信息檢索工具提供的檢索點(diǎn)主要有文件名、文件標(biāo)題、作者、網(wǎng)址名、日期等可檢字段。從這些角度還不足以充分滿足網(wǎng)絡(luò)信息檢索的需要,目前,專家們正嘗試著從信息的表現(xiàn)形式(如圖表、圖形、聲音、影像等)、內(nèi)容性質(zhì)(如理論、實(shí)驗(yàn)、產(chǎn)品綜述、方法、新技術(shù)的應(yīng)用等)、數(shù)字符號(如溫度、頻率、化學(xué)符號等)等角度進(jìn)行網(wǎng)絡(luò)信息檢索。

二是檢索途徑的多樣化。既可以滿足一般用戶的瀏覽檢索,又可以滿足專業(yè)用戶的專指檢索。

三是檢索手段的多樣化。作為一個(gè)整體,網(wǎng)絡(luò)信息檢索工具具有的檢索手段主要有:布爾檢索、詞語檢索、截詞檢索、字段檢索、概念檢索、鄰近度檢察、區(qū)分大小寫等。當(dāng)前,檢索工具普遍支持的是布爾檢索和截詞檢索。

四是檢索結(jié)果輸出形式的多樣化。為了滿足用戶的不同需要,檢索結(jié)果趨向多樣化的輸出形式,它可以按照詳簡程度、相關(guān)程度、詞語順序等多種形式排列,也可以在返回的結(jié)果中進(jìn)行二次檢索,還可合并返回結(jié)果、刪除重復(fù)的鏈接等。

第二十八頁,共四十二頁,編輯于2023年,星期五四、網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(4)

系統(tǒng)維護(hù)的動態(tài)化

網(wǎng)上信息資源具有很強(qiáng)的動態(tài)性特征,其產(chǎn)生、更新、消失往往不易預(yù)測,這就要求網(wǎng)絡(luò)信息檢索工具系統(tǒng)本身也要有很強(qiáng)的動態(tài)性。

每個(gè)網(wǎng)絡(luò)檢索工具都是由索引及檢索機(jī)制兩個(gè)基本部分構(gòu)成的。索引的更新頻率決定了檢索結(jié)果的時(shí)效性。目前,大多數(shù)索引為每周更新一次,也有每月甚至更長時(shí)間更新一次的。為了提高檢索結(jié)果的時(shí)效性,現(xiàn)在很多檢索工具都在準(zhǔn)備進(jìn)一步加快索引的更新頻率,以便盡可能縮小檢索工具信息庫與網(wǎng)上信息的時(shí)差,用最短的搜索周期將已經(jīng)發(fā)生變化的網(wǎng)頁信息加以標(biāo)引,追加到數(shù)據(jù)庫中,并及時(shí)剔除已成死鏈的鏈接。另外,為了適應(yīng)網(wǎng)上信息的快速變化,一些專家正在研究如何更及時(shí)地將檢索工具構(gòu)建的知識組織體系和術(shù)語系統(tǒng)進(jìn)行動態(tài)性的更新維護(hù)。第二十九頁,共四十二頁,編輯于2023年,星期五第三十頁,共四十二頁,編輯于2023年,星期五搜索引擎

有人說,會搜索才叫會上網(wǎng),搜索引擎在我們?nèi)粘I钪械牡匚灰咽桥e足輕重。

你也許是個(gè)剛買了“貓”興沖沖地要上網(wǎng)沖浪,也許已經(jīng)在互聯(lián)網(wǎng)上蟄伏了好幾年,無論怎樣,要想在浩如煙海的互聯(lián)網(wǎng)信息中找到自己所需的信息,都需要一點(diǎn)點(diǎn)技巧。

第三十一頁,共四十二頁,編輯于2023年,星期五本課內(nèi)容一、搜索引擎及其發(fā)展歷史二、搜索引擎的原理三、搜索引擎的種類四、搜索引擎的用法五、常用搜索引擎指南第三十二頁,共四十二頁,編輯于2023年,星期五一、搜索引擎及其發(fā)展歷史一、什么是搜索引擎

搜索引擎(SearchEngines)是一個(gè)對互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠?。搜索引擎的主要任?wù)是搜索其他網(wǎng)站上的信息,并將這些信息進(jìn)行分類并建立索引,然后把索引的內(nèi)容放到數(shù)據(jù)庫中,當(dāng)用戶向搜索引擎提交搜索請求的時(shí)候,搜索引擎會從數(shù)據(jù)庫中找出匹配的資料反饋給用戶,用戶再根據(jù)這些信息訪問相應(yīng)的網(wǎng)站,從而找到自己需要的資料。第三十三頁,共四十二頁,編輯于2023年,星期五二、搜索引擎發(fā)展史

1990年以前,沒有任何人能搜索互聯(lián)網(wǎng)。

1990年至今:Yahoo、Google、北大天網(wǎng)、Baidu北大天網(wǎng)是國家"九五"重點(diǎn)科技攻關(guān)項(xiàng)目"中文編碼和分布式中英文信息發(fā)現(xiàn)"的研究成果,由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組,由國家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金資助開發(fā),收錄網(wǎng)頁約6000萬,利用教育網(wǎng)優(yōu)勢,有強(qiáng)大的ftp搜索功能。

Baidu2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布B搜索引擎Beta版(此前Baidu只為其它門戶網(wǎng)站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發(fā)布Baidu搜索引擎。Baidu雖然只提供中文搜索,但目前收錄中文網(wǎng)頁超過9000萬,可能是最大的的中文數(shù)據(jù)庫。Baidu搜索引擎的其它特色包括:網(wǎng)頁快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯(cuò)別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計(jì)劃(BlitzenProject)開始后,技術(shù)升級明顯加快。第三十四頁,共四十二頁,編輯于2023年,星期五二、搜索引擎的原理搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。

真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。第三十五頁,共四十二頁,編輯于2023年,星期五現(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時(shí)候,即使某個(gè)網(wǎng)頁A中并沒有某個(gè)詞比如“信息與計(jì)算”,但如果有別的網(wǎng)頁B用鏈接“信息與計(jì)算”指向這個(gè)網(wǎng)頁A,那么用戶搜索“信息與計(jì)算”時(shí)也能找到網(wǎng)頁A。而且,如果有越多網(wǎng)頁(C、D、E、F……)用名為“信息與計(jì)算”的鏈接指向這個(gè)網(wǎng)頁A,或者給出這個(gè)鏈接的源網(wǎng)頁(B、C、D、E、F……)越優(yōu)秀,那么網(wǎng)頁A在用戶搜索“信息與計(jì)算”時(shí)也會被認(rèn)為更相關(guān),排序也會越靠前。第三十六頁,共四十二頁,編輯于2023年,星期五

搜索引擎的原理,可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁

利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。

建立索引數(shù)據(jù)庫

由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

在索引數(shù)據(jù)庫中搜索排序

當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。第三十七頁,共四十二頁,編輯于2023年,星期五搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁互聯(lián)網(wǎng)雖然只有一個(gè),但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不相同,排序算法也各不相同?;ヂ?lián)網(wǎng)上有大量的內(nèi)容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論