計(jì)算機(jī)檢索教案_第1頁(yè)
計(jì)算機(jī)檢索教案_第2頁(yè)
計(jì)算機(jī)檢索教案_第3頁(yè)
計(jì)算機(jī)檢索教案_第4頁(yè)
計(jì)算機(jī)檢索教案_第5頁(yè)
已閱讀5頁(yè),還剩128頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

InformationRetrieval信息檢索第一章計(jì)算機(jī)信息檢索概述

計(jì)算機(jī)檢索是伴隨著計(jì)算機(jī)科學(xué)和情報(bào)學(xué)的發(fā)展而發(fā)展的。情報(bào)學(xué)是一門發(fā)展中的交叉學(xué)科,吸收融合了其他學(xué)科,例如:認(rèn)知學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)、信息論、控制論、行為科學(xué)等。自動(dòng)采集數(shù)據(jù)、自動(dòng)分類整理、自動(dòng)信息群聚類、自動(dòng)網(wǎng)頁(yè)鏈接、自動(dòng)全文內(nèi)容概括、自然語(yǔ)言理解、多媒體信息檢索、概念檢索、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、信息過(guò)濾等已經(jīng)將情報(bào)學(xué)推上了數(shù)字化、網(wǎng)絡(luò)化、智能化的舞臺(tái)。1.1信息檢索的起源和發(fā)展信息的含義《暮春懷古人》-夢(mèng)斷美人沉信息,目穿長(zhǎng)路依樓臺(tái)?!都倪h(yuǎn)》-塞外音書無(wú)信息,道旁車馬起塵埃。美國(guó)數(shù)學(xué)家克勞德·香農(nóng)——”信息是用來(lái)消除不確定性的東西”控制論的創(chuàng)始人維納——”信息是人們?cè)谶m應(yīng)外部世界并使這種適應(yīng)反作用于外部世界的過(guò)程中,同外部世界進(jìn)行互相交換的內(nèi)容的名稱?!?/p>

1.1信息檢索的起源和發(fā)展信息的特征客觀性——信息的存在可以被人感知、獲取、傳遞和利用。時(shí)效性——信息會(huì)隨事物存在方式和運(yùn)動(dòng)狀態(tài)的改變而改變。載體性——信息必須依附一定的載體。傳遞性——信息從信息源出發(fā)經(jīng)過(guò)載體的傳遞被接收或處理和利用??伤苄浴藗兛梢詫?duì)信息進(jìn)行綜合處理、分析和加工。共享性——同一信息可同時(shí)或不同時(shí)被多用戶使用。1.1信息檢索的起源和發(fā)展信息的級(jí)別述評(píng)綜述詞典年鑒手冊(cè)百科全書知識(shí)的產(chǎn)生記錄檔案學(xué)位論文標(biāo)準(zhǔn)科技報(bào)告專利說(shuō)明書會(huì)議論文期刊論文專著一次信息二次信息文摘索引目錄三次信息傳播信息的利用1.1信息檢索的起源和發(fā)展信息檢索的概念信息檢索(InformationRetrieval)是指信息用戶為處理解決各種問(wèn)題而查找、識(shí)別、獲取相關(guān)的事實(shí)、數(shù)據(jù)、文獻(xiàn)的活動(dòng)和過(guò)程。(信息的存儲(chǔ)和組織、信息的檢索、信息的展示)信息檢索的研究是伴隨著科學(xué)技術(shù)的發(fā)展和信息數(shù)量劇增而興起的研究領(lǐng)域。(1)文獻(xiàn)檢索——20世紀(jì)中葉以前,信息存儲(chǔ)和傳播主要以紙質(zhì)介質(zhì)為載體,信息檢索活動(dòng)也圍繞著文獻(xiàn)的獲取和控制展開(kāi)。(2)隨著科技的發(fā)展,計(jì)算機(jī)的應(yīng)用,信息檢索經(jīng)歷了從手工檢索到機(jī)械檢索再到計(jì)算機(jī)檢索的過(guò)程。1.1信息檢索的起源和發(fā)展信息檢索的類型——依據(jù)信息存儲(chǔ)和檢索方式和技術(shù)來(lái)劃分手工檢索——用手工方式來(lái)處理和查找文獻(xiàn),如作者、文摘、索引、目錄、參考文獻(xiàn)、關(guān)鍵字等。脫機(jī)批處理檢索——是指定期由專職檢索人員把用戶課題匯總,批量處理提問(wèn)要求并把結(jié)果提供給用戶。(50年代中后期)聯(lián)機(jī)檢索——用戶使用終端設(shè)備,通過(guò)通信線路與中央計(jì)算機(jī)連接,直接與計(jì)算機(jī)對(duì)話進(jìn)行檢索,結(jié)果由終端輸出。(70年代)光盤檢索——光盤信息存儲(chǔ)密度高,容量大,讀取速度快。光盤檢索系統(tǒng)費(fèi)用大大低于聯(lián)機(jī)檢索。(80年代)網(wǎng)絡(luò)化聯(lián)機(jī)檢索——國(guó)際互聯(lián)網(wǎng)的出現(xiàn)。(90年代)1.1信息檢索的起源和發(fā)展信息檢索的類型——依據(jù)檢索內(nèi)容來(lái)劃分文獻(xiàn)信息檢索——凡是利用目錄、文獻(xiàn)或索引等二次信息來(lái)查找某一課題、著作等屬于此類。數(shù)據(jù)信息檢索——利用參考書、數(shù)據(jù)庫(kù)等檢索工具檢索包含在文獻(xiàn)中的數(shù)據(jù)、參數(shù)、公式等稱為數(shù)據(jù)檢索。事實(shí)信息檢索——利用百科全書等檢索工具從事實(shí)信息系統(tǒng)中查找特定事實(shí)的過(guò)程稱為事實(shí)信息檢索。1.1信息檢索的起源和發(fā)展應(yīng)用系統(tǒng)1956~1963年美國(guó)武裝部隊(duì)技術(shù)情報(bào)局的ASTIA系統(tǒng);1962年美國(guó)航空航天局的NASA系統(tǒng);1964年美國(guó)國(guó)家醫(yī)學(xué)圖書館創(chuàng)建的醫(yī)學(xué)文獻(xiàn)分析與檢索系統(tǒng)MEDLARS;化學(xué)文摘等。70~80年代DIALOG系統(tǒng)、RECON系統(tǒng)等。CyFr系統(tǒng)。CyFr系統(tǒng)是Schank、Kolodner和DeJong于1981年根據(jù)概念信息檢索理論建立的系統(tǒng),用于處理與美國(guó)前國(guó)務(wù)卿范斯(Vance)有關(guān)的新聞。Researcher系統(tǒng)。由Lebowitz于1983年在哥倫比亞大學(xué)研制,用于閱讀和理解用自然語(yǔ)言形式輸入的專利文獻(xiàn)摘要。目前已建立的基于超文本的信息檢索系統(tǒng),如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek、Google等著名的網(wǎng)絡(luò)檢索系統(tǒng)。1.1信息檢索的起源和發(fā)展信息檢索(InformationRetrieval)是針對(duì)信息項(xiàng)進(jìn)行表示、存儲(chǔ)、組織和存取。對(duì)信息項(xiàng)的表示和組織應(yīng)該為用戶提供其感興趣信息的方便存取。數(shù)據(jù)檢索(DataRetrieval)檢索滿足給定查詢的數(shù)據(jù)。數(shù)據(jù)檢索語(yǔ)言目的在于檢索出所有明確滿足給定條件的對(duì)象。信息檢索處理的通常是自然語(yǔ)言文本,而人們總不能使自然語(yǔ)言文本很好的結(jié)構(gòu)化,而且自然語(yǔ)言文本有可能會(huì)有語(yǔ)義上的歧義。數(shù)據(jù)檢索系統(tǒng)(如關(guān)系型數(shù)據(jù)庫(kù))處理的是那些已經(jīng)定義好結(jié)構(gòu)和語(yǔ)義的數(shù)據(jù)。Selectcount(*)fromtable_1whereage>=30;1.1信息檢索的起源和發(fā)展為了有效的滿足用戶信息需求,IR系統(tǒng)必須以某種方式“解釋”集合中信息項(xiàng)的內(nèi)容,并根據(jù)與用戶查詢的相似度對(duì)它們進(jìn)行排序。這種對(duì)文獻(xiàn)(信息)內(nèi)容的“解釋”包括從文獻(xiàn)文本(信息)中提取語(yǔ)法和語(yǔ)義信息并將這些信息用于匹配用戶的信息需求。難點(diǎn)在于:如何提取這些信息,和如何運(yùn)用它來(lái)確定相關(guān)性。相關(guān)性(Relevance)的概念就成為信息檢索的核心。1.2信息檢索的過(guò)程用戶界面文本操作查詢操作檢索排序標(biāo)引索引數(shù)據(jù)庫(kù)管理模塊文本數(shù)據(jù)庫(kù)文本文本邏輯視圖倒排文檔邏輯視圖用戶反饋查詢檢出文獻(xiàn)排序文獻(xiàn)信息檢索的過(guò)程用戶需求1.3信息檢索技術(shù)的研究?jī)?nèi)容1、檢索模型的研究。(不再是僅僅以布爾模型、概率模型為理論基礎(chǔ),而是逐漸引入遺傳算法、并行算法、粗糙集理論等構(gòu)建智能檢索模型)2、信息處理技術(shù)與組織研究。自動(dòng)分類(自動(dòng)歸類、自動(dòng)聚類、類號(hào)自動(dòng)轉(zhuǎn)換)自動(dòng)文摘和查詢的擴(kuò)展和精化3、信息檢索技術(shù)與方法研究。檢索算法的研究全文檢索、超文本檢索、多媒體檢索智能檢索、多語(yǔ)種檢索、分布式檢索4、信息可視化技術(shù)。1.4檢索技術(shù)的未來(lái)以人工智能為代表的信息檢索自動(dòng)化趨勢(shì)。人工參與檢索工具的信息組織是檢索工具的發(fā)展趨勢(shì)。多媒體信息檢索技術(shù)的成熟與發(fā)展(圖像:顏色相似性、紋理相似性、形狀相似性、目標(biāo)和目標(biāo)關(guān)系相似性)。多語(yǔ)種檢索的支持。個(gè)人化的檢索工具和專業(yè)化的檢索工具。1.4檢索技術(shù)的未來(lái)1.4檢索技術(shù)的未來(lái)1.4檢索技術(shù)的未來(lái)1.4檢索技術(shù)的未來(lái)1.4檢索技術(shù)的未來(lái)1.4檢索技術(shù)的未來(lái)第二章

WEB信息檢索系統(tǒng)

WEB資源現(xiàn)已成為Internet上最主要的信息資源,它影響著人們的學(xué)習(xí)、工作、生活等方方面面。面對(duì)這樣一個(gè)巨大的信息寶庫(kù),如何快捷的從中獲取信息,發(fā)揮它的最大作用,這是信息工作者和相關(guān)領(lǐng)域研究者面臨的重要研究課題。如何把分布在世界各地的、無(wú)序的、各式各樣的WEB資源信息有序化,使之便于提取。因此,要求人們必須能對(duì)WEB信息進(jìn)行及時(shí)的采集、高效的處理、科學(xué)的組織,并提供對(duì)其進(jìn)行快速有效查詢的檢索工具。2.1Web技術(shù)發(fā)展概述

目前Internet能夠找到的網(wǎng)頁(yè)已多達(dá)數(shù)百億,并且仍以每幾個(gè)月翻一番的速度增長(zhǎng)。網(wǎng)頁(yè)數(shù)全國(guó)網(wǎng)頁(yè)總數(shù)157,091,220個(gè)其中:靜態(tài)網(wǎng)頁(yè)數(shù)104,593,217個(gè)

動(dòng)態(tài)網(wǎng)頁(yè)數(shù)52,498,003個(gè)靜動(dòng)態(tài)網(wǎng)頁(yè)數(shù)比例1.99:1平均每個(gè)網(wǎng)站的網(wǎng)頁(yè)數(shù)423個(gè)網(wǎng)頁(yè)字節(jié)數(shù)全國(guó)網(wǎng)頁(yè)總字節(jié)數(shù)2,877,754,095KB每個(gè)網(wǎng)頁(yè)平均字節(jié)數(shù)18.319KB平均每個(gè)網(wǎng)站的網(wǎng)頁(yè)字節(jié)數(shù)7744.2KB2.1Web技術(shù)發(fā)展概述

互聯(lián)網(wǎng)用戶:21億:全球互聯(lián)網(wǎng)用戶總數(shù)9.222億:亞洲互聯(lián)網(wǎng)用戶數(shù)量4.762億:歐洲互聯(lián)網(wǎng)用戶數(shù)量2.711億:北美互聯(lián)網(wǎng)用戶數(shù)量2.159億:拉丁美洲和加勒比海地區(qū)互聯(lián)網(wǎng)用戶數(shù)量1.186億:非洲互聯(lián)網(wǎng)用戶數(shù)量6860萬(wàn):中東地區(qū)互聯(lián)網(wǎng)用戶數(shù)量2130萬(wàn):大洋洲/澳大利亞互聯(lián)網(wǎng)用戶數(shù)量45%:25歲以下互聯(lián)網(wǎng)用戶的比例4.85億:中國(guó)互聯(lián)網(wǎng)用戶數(shù)量,這超過(guò)了世界上其它任何一個(gè)國(guó)家36.3%:中國(guó)互聯(lián)網(wǎng)普及率5.91億:全球固定線路寬帶連接數(shù)量2.1Web技術(shù)發(fā)展概述

社交媒體:8億多::截至2011年底,F(xiàn)acebook用戶數(shù)量2億:2011年Facebook新增用戶數(shù)量3.5億:通過(guò)手機(jī)登錄Facebook的用戶數(shù)量2.25億:Twitter賬戶數(shù)量1億:2011年活躍Twitter用戶數(shù)量1810萬(wàn):LadyGaga的關(guān)注者數(shù)量,這是Twitter上最受歡迎的用戶2.5億:每天發(fā)送的Twitter消息數(shù)量(2011年10月)2.1Web技術(shù)發(fā)展概述

電子郵件:314.6億:全球電子郵件賬戶數(shù)量27.6%:微軟Outlook是最流行的電子郵件客戶端19%:經(jīng)過(guò)垃圾郵件過(guò)濾之后企業(yè)郵箱收件箱收到的垃圾郵件比例112封:平均每位企業(yè)客戶每天收發(fā)的電子郵件數(shù)量71%:全球垃圾郵件的比例(2011年11月)3.6億:Hotmail用戶總數(shù)(全球最大的電子郵件服務(wù))44.25美元:2011年每投入1美元的電子郵件營(yíng)銷預(yù)計(jì)可獲得的回報(bào)40年:自1971年首封電子郵件發(fā)出之后的時(shí)間0.39%:惡意電子郵件比例(2011年11月)網(wǎng)站:5.55億:網(wǎng)站數(shù)量(2011年12月)3億:2011年新增網(wǎng)站數(shù)量2.1Web技術(shù)發(fā)展概述

不同地區(qū)的互聯(lián)網(wǎng)用戶比例,2011年3月亞洲:44%歐洲:23%北美:13%拉丁美洲和加勒比海地區(qū):10%非洲:6%中東:3%大洋洲/澳大利亞:1%2.1Web技術(shù)發(fā)展概述

不同地區(qū)的互聯(lián)網(wǎng)普及率,2011年3月非洲:11%亞洲:24%中東:31.7%拉丁美洲和加勒比海地區(qū):36.2%歐洲:58.3%大洋洲/澳大利亞:60.1%北美:78.3%2.1Web技術(shù)發(fā)展概述

全球桌面瀏覽器市場(chǎng)份額,2011年12月IE:39%Chrome:28%火狐:25%Safari:6%2.1Web技術(shù)發(fā)展概述

非結(jié)構(gòu)化——由腳本語(yǔ)言構(gòu)成。

動(dòng)態(tài)性——Internet每個(gè)月變化的信息量占總信息量的40%。復(fù)雜性——Internet是完全開(kāi)放的,數(shù)以億計(jì)的網(wǎng)絡(luò)使用者都可能成為信息提供者,形成一個(gè)無(wú)序而復(fù)雜的信息源。WEB信息的基本特點(diǎn)2.1Web技術(shù)發(fā)展概述

Htm/36.80%html16.35%shtml5.36%/3.99%asp2.93%php1.08%txt0.34%nsf0.17%xml0.15%jsp0.11%cgi0.08%pl0.03%其它32.61%2.1Web技術(shù)發(fā)展概述

Web信息的表現(xiàn)方式和查詢方式

通過(guò)統(tǒng)一資源定位器能夠獲取WEB信息,但其前提是知道存放信息的服務(wù)器的具體地址,而在龐雜的網(wǎng)絡(luò)中尋找IP地址的開(kāi)銷太大了。借助于Internet特有的信息檢索工具。隨著Web逐漸成為Internet信息組織與利用的主流形式,針對(duì)Web資源的搜索引擎工具成為主要的檢索工具。2.1Web技術(shù)發(fā)展概述

網(wǎng)絡(luò)信息檢索工具發(fā)展概述

目前在Internet上運(yùn)行的網(wǎng)絡(luò)檢索工具可分為三大類:交互式信息提供服務(wù)(InteractiveInformationDeliveryServices);名錄服務(wù)(DirectoryServices);索引服務(wù)(IndexingServices)。2.2Web信息檢索工具

網(wǎng)絡(luò)信息檢索工具發(fā)展概述

2.2Web信息檢索工具

目前在互聯(lián)網(wǎng)運(yùn)行的交互式信息服務(wù)軟件主要基于WWW和Gopher,名錄服務(wù)軟件主要基于WHOIS、NETFIND和X.500,索引服務(wù)軟件主要基于Archie、Veronica、Jughead和WAIS。交互式信息檢索工具一般為用戶提供友好的交互操作界面,并具備交互瀏覽信息的功能,信息在網(wǎng)絡(luò)上的存放方式以及如何取得信息,對(duì)使用者都是透明的。菜單式查詢系統(tǒng)Gopher是Internet上較早出現(xiàn)的一種交互信息查詢工具。WWW系統(tǒng)是近年來(lái)發(fā)展的最重要的一種交互信息查詢工具,也是迄今用戶最多和使用最為方便的工具。2.2Web信息檢索工具

菜單式查詢系統(tǒng)(Gopher)

Gopher是一種按“菜單”形式組織的分布式文檔查詢系統(tǒng),1991年在美國(guó)Minnesota大學(xué)發(fā)展起來(lái)。開(kāi)始用于校園網(wǎng),后來(lái)推廣到Internet。Gopher為用戶查詢信息提供一個(gè)多級(jí)的菜單界面,只需按照菜單指示的路徑就能獲取想要的信息,使用非常方便。發(fā)一封E-mail信件給某一最靠近你的Gophermail服務(wù)器,服務(wù)器響應(yīng)你的信件,郵寄給你一封包含它的主菜單或某一gopher服務(wù)器的主菜單;你處理該信件,把需要的菜單項(xiàng)打上標(biāo)志,然后返回給Gopher服務(wù)器。2.2Web信息檢索工具

廣域信息服務(wù)系統(tǒng)(WAIS)

WAIS(WideAreaInformationSystem)以各種文本數(shù)據(jù)文件為檢索對(duì)象(信息源),融匯了Archie、newsgroup等的信文件在內(nèi)的各類信息。目前,Internet上已建立了幾千個(gè)提供檢索服務(wù)的WAIS服務(wù)器,成為整個(gè)Internet網(wǎng)絡(luò)文本式信息資源的檢索工具。用WAIS檢索信息可分兩步進(jìn)行:第一步,先從信息源(文件題目)列表選擇檢索對(duì)象;第二步,在選定范圍內(nèi)通過(guò)文件的關(guān)鍵詞查找文件。2.2Web信息檢索工具

網(wǎng)絡(luò)文件搜索系統(tǒng)(Archie)

Archie可以使用戶能夠查詢信息資源的存放地址,以便能夠從特定場(chǎng)所的服務(wù)器中獲取各種感興趣的或者有用的信息。Archie服務(wù)器其實(shí)是一個(gè)存放了所有匿名FTP服務(wù)器地址和相關(guān)信息的數(shù)據(jù)庫(kù),它能幫助你找到有關(guān)FTP的地址或文件的信息,因而使用電子郵件來(lái)查詢地址是十分方便的。

archie@

archie@

archie@

archie@archie.doc.ic.ac.uk

archie@archie.au

archie@archie.funet.fi

archie@archie.luth.se2.2Web信息檢索工具

搜索引擎系統(tǒng)(SEARCHENGINE)搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計(jì)算機(jī)程序通過(guò)掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的倒排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個(gè)檢索詞在一篇文章中出現(xiàn)的概率,對(duì)包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果?;ヂ?lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還有“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的數(shù)據(jù)搜集系統(tǒng)。2.2Web信息檢索工具

2.3Web搜索引擎的類型和特點(diǎn)

搜索引擎系統(tǒng)(SEARCHENGINE)從最初的主題指南發(fā)展到獨(dú)立型搜索引擎、混合式搜索引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引擎功能不斷改進(jìn)、性能日趨完善、更趨向智能化的檢索特征。2.3Web搜索引擎的類型和特點(diǎn)

1、主題指南(目錄式搜索引擎)目錄式搜索引擎是搜索引擎的最初表現(xiàn)形式。是人工式或半自動(dòng)式建立的、結(jié)構(gòu)化的互聯(lián)網(wǎng)網(wǎng)址主題類目和子類目,按照字母、時(shí)間、地點(diǎn)、主題等順序進(jìn)行排列,使用戶通過(guò)瀏覽網(wǎng)絡(luò)站點(diǎn)列表,檢索有關(guān)信息。主題指南由人工編制和維護(hù),因此在信息的收集、編排、HTML編碼以及信息注解等方面花費(fèi)大量的人力和時(shí)間。它強(qiáng)調(diào)的是瀏覽功能,優(yōu)點(diǎn)是采用人工干預(yù)提高了主題指南返回結(jié)果的相關(guān)性;缺點(diǎn)是很難檢索到較深的信息,難于控制主題等級(jí)類目的質(zhì)量,信息更新速度相對(duì)較慢,收錄信息數(shù)量相對(duì)不足。2.3Web搜索引擎的類型和特點(diǎn)

1、主題指南(目錄式搜索引擎)用戶進(jìn)行籠統(tǒng)或較籠統(tǒng)的主題瀏覽和檢索。當(dāng)用戶尚未形成很精確的檢索概念時(shí),采用主題指南作為檢索起始點(diǎn)非常有效。除綜合性主題指南之外,為了適應(yīng)網(wǎng)上各種類型信息的發(fā)展變化,又出現(xiàn)了某些專業(yè)的主題指南,它由某一領(lǐng)域的專家編制和維護(hù),在信息準(zhǔn)確性和易于理解方面比綜合性主題指南要好。2.3Web搜索引擎的類型和特點(diǎn)

2、機(jī)器人搜索引擎由一個(gè)稱為蜘蛛、機(jī)器人、爬行者或蠕蟲的程序以某種策略自動(dòng)的在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入索引庫(kù),并將查詢結(jié)果返回用戶。WEB信息資源信息采集模塊信息標(biāo)引模塊索引數(shù)據(jù)庫(kù)信息檢索模塊用戶系統(tǒng)2.3Web搜索引擎的類型和特點(diǎn)

2、機(jī)器人搜索引擎在WEB搜索引擎中,信息采集Robot的效率會(huì)直接影響搜索引擎的更新周期和數(shù)據(jù)的及時(shí)性。信息采集Robot是一種軟件程序,它從一個(gè)或一組URL出發(fā),訪問(wèn)該URL并進(jìn)行索引,同時(shí)紀(jì)錄該URL所指向的HTML文件中的URL。

為了使標(biāo)引關(guān)鍵詞和摘要更好的反映網(wǎng)頁(yè)內(nèi)容,保障用戶檢索的查準(zhǔn)率,Html語(yǔ)言提供了Metakeyword標(biāo)記和Metadescription標(biāo)記來(lái)幫助網(wǎng)頁(yè)編制者們專門提供關(guān)鍵詞和整個(gè)站點(diǎn)的描述摘要。2.3Web搜索引擎的類型和特點(diǎn)

2、機(jī)器人搜索引擎

Robot在信息采集的過(guò)程中,具體包括3個(gè)模塊:文件訪問(wèn)模塊、路徑選擇模塊、訪問(wèn)控制模塊。文檔訪問(wèn)模塊訪問(wèn)控制模塊路徑選擇模塊2.3Web搜索引擎的類型和特點(diǎn)

3、混合式搜索引擎隨著搜索引擎技術(shù)的不斷發(fā)展,機(jī)器人搜索引擎多與主題指南合二為一,演化為兼具有分類瀏覽和關(guān)鍵詞檢索功能的混合式搜索引擎?;旌鲜剿阉饕媸悄壳罢紦?jù)搜索引擎主導(dǎo)地位的一種搜索引擎,具有分類瀏覽和關(guān)鍵詞檢索功能。2.3Web搜索引擎的類型和特點(diǎn)

4、元搜索引擎元搜索引擎(又稱集成搜索引擎,MegaSearchEngine,MultipleSearchEnginge)是一種集成化搜索引擎,它是多個(gè)獨(dú)立型搜索引擎的集合體。與獨(dú)立搜索引擎的區(qū)別在于,元搜索引擎沒(méi)有自己獨(dú)立的數(shù)據(jù)庫(kù),通過(guò)一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的甚至是同時(shí)利用多個(gè)搜索引擎實(shí)現(xiàn)檢索操作。2.3Web搜索引擎的類型和特點(diǎn)

5、分布式搜索引擎分布式搜索引擎是基于搜索機(jī)器人的搜索引擎。其基本思想是:根據(jù)地域、主題、IP地址或其他的劃分標(biāo)準(zhǔn),將全網(wǎng)劃分成若干自治域,在每個(gè)自治區(qū)內(nèi)分設(shè)檢索服務(wù)器。由于分布式搜索引擎將索引數(shù)據(jù)庫(kù)劃分到幾個(gè)分散的數(shù)據(jù)庫(kù)中,每個(gè)數(shù)據(jù)庫(kù)變小了,但所有搜索引擎覆蓋的范圍則變大了,且很少有信息重復(fù)。而作為分布式系統(tǒng)特性之一的可擴(kuò)充性也是分布式搜索引擎的優(yōu)點(diǎn)之一。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

2011年,谷歌仍然盤踞核心搜索引擎榜首,占到總搜索量的65.9%,占據(jù)了近2/3的市場(chǎng)份額。但2011年最引人注意的還是微軟必應(yīng)。12月份,必應(yīng)首次趕超雅虎,位居榜單第二的位置。2011年,必應(yīng)持續(xù)穩(wěn)定發(fā)展。截至年底,必應(yīng)所占市場(chǎng)份額達(dá)到15.1%,與去年同期相比,增長(zhǎng)了3.1%。12月,雅虎以14.5%的搜索量位列第三。AskNetwork及美國(guó)在線(AOL)分列第四、第五,搜索量所占份額分別為2.9%和1.6%。第三章

常用中英文搜索引擎及檢索策略

根據(jù)艾瑞咨詢統(tǒng)計(jì)數(shù)據(jù)顯示,2012年第二季度中國(guó)搜索引擎市場(chǎng)規(guī)模68.7億元。從市場(chǎng)競(jìng)爭(zhēng)格局來(lái)看,2012年第二季度百度在中國(guó)搜索引擎市場(chǎng)中的絕對(duì)優(yōu)勢(shì)地位得到進(jìn)一步增強(qiáng),市場(chǎng)份額由77.6%擴(kuò)張到79.4%;搜狗保持增長(zhǎng)態(tài)勢(shì),由從2.6%上升到2.9%;谷歌中國(guó)市場(chǎng)持續(xù)被壓縮,由17.9%降至16.2%;此外,搜搜占比由1.5%微降至1.4%,其它企業(yè)占比下降至0.2%。3.1常用中文搜索引擎1.搜狐

搜狐(http:///)提供分類目錄網(wǎng)站檢索,搜集范圍以中國(guó)為主,收錄較豐富,還加入了部分英文網(wǎng)站,分類較科學(xué),類目縝密。它也是第一個(gè)針對(duì)國(guó)內(nèi)中文網(wǎng)頁(yè)的搜索引擎,此外它還包括新聞信息、多媒體文件下載、網(wǎng)上調(diào)查、免費(fèi)電子郵件等其他服務(wù)。搜狐的分類庫(kù)組織的更象一個(gè)精心組織的導(dǎo)航庫(kù),對(duì)于一個(gè)想在網(wǎng)上瀏覽的新手來(lái)手有一定參考價(jià)值。

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎2.新浪新浪(http:///)提供分類目錄、網(wǎng)站檢索以及全文檢索,搜集范圍遍及全球中文網(wǎng)站,收錄非常豐富;分類規(guī)范,層次合理;全文檢索為AltaVista、IPO提供支持;但復(fù)雜條件查詢較弱;可提供熱門關(guān)鍵詞查詢等新方式。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎3.網(wǎng)易網(wǎng)易(/)提供較豐富的分類目錄、網(wǎng)站檢索及FTP檢索,范圍以中國(guó)為主收錄富,目錄較嚴(yán)密;提供新聞等其他服務(wù),網(wǎng)易主站另有“網(wǎng)站導(dǎo)航”欄目,分類列舉推薦網(wǎng)站。它的搜索引擎也是頗有特色,它先將用戶的檢索式在自己的分類庫(kù)中進(jìn)行查詢,如果沒(méi)有檢索出結(jié)果,系統(tǒng)將自動(dòng)將提問(wèn)式轉(zhuǎn)向全文數(shù)據(jù)庫(kù)進(jìn)行檢索。如果在分類庫(kù)中檢索出結(jié)果,用戶對(duì)檢索結(jié)果不滿意,可以直接按檢索結(jié)果頁(yè)面底部的全文檢索按鈕,繼續(xù)在全文庫(kù)中進(jìn)行檢索,這對(duì)于一個(gè)非專業(yè)用戶來(lái)說(shuō)是非常實(shí)用的一種檢索策略。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎4.百度百度(http:///),2000年1月創(chuàng)立于北京中關(guān)村,是全球最大的中文搜索引擎。擁有目前世界上最大的中文信息庫(kù)--超過(guò)10億的中文網(wǎng)頁(yè)數(shù)據(jù)庫(kù),這些網(wǎng)頁(yè)的數(shù)量每天正以千萬(wàn)級(jí)的速度在增長(zhǎng)。百度采用了基于內(nèi)容和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評(píng)價(jià),能夠客觀分析網(wǎng)頁(yè)所包含的信息,從而最大限度保證了檢索結(jié)果相關(guān)性。百度搜索支持二次檢索(又稱漸進(jìn)檢索或逼進(jìn)檢索)也是其相當(dāng)重要的特點(diǎn)??稍谏洗螜z索結(jié)果中繼續(xù)檢索,逐步縮小查找范圍,直至達(dá)到最小、最準(zhǔn)確的結(jié)果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內(nèi)容。第三章

常用中英文搜索引擎及檢索策略

3.1常用中文搜索引擎5.雅虎中國(guó)雅虎(http:///),1994年4月,斯坦福大學(xué)兩位博士生楊致遠(yuǎn)和DavidFilo共同創(chuàng)辦了雅虎,通過(guò)著名的雅虎目錄為用戶提供導(dǎo)航服務(wù)。雅虎目錄有近100萬(wàn)個(gè)分類頁(yè)面,14個(gè)國(guó)家和地區(qū)當(dāng)?shù)卣Z(yǔ)言的專門目錄,包括英語(yǔ)、漢語(yǔ)、丹麥語(yǔ)、法語(yǔ)、德語(yǔ)、日語(yǔ)、韓文、西班牙語(yǔ)等。從1996年到2004年,雅虎先后選用AltaVista、Inktomi等第三方的搜索引擎作為自己網(wǎng)頁(yè)搜索的后臺(tái)服務(wù)提供商。雅虎先后收購(gòu)了Inktomi和Overture等著名的搜索引擎公司,重新整合打造出YST搜索技術(shù)平臺(tái)。2004年3月,雅虎開(kāi)始推出獨(dú)立的搜索服務(wù),迅速成長(zhǎng)為全球第二大搜索引擎。涵蓋全球120多億網(wǎng)頁(yè)(其中雅虎中國(guó)為12億)的強(qiáng)大數(shù)據(jù)庫(kù),擁有數(shù)十項(xiàng)技術(shù)專利、精準(zhǔn)運(yùn)算能力,支持38種語(yǔ)言,近10,000臺(tái)服務(wù)器。3.1常用中文搜索引擎6.谷歌(中國(guó))谷歌(/),創(chuàng)建于1998年9月,創(chuàng)始人為L(zhǎng)arryPage和SergeyBrin。Google是萬(wàn)維網(wǎng)上最大的搜索引擎,用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。Google不僅能搜索出包含所有關(guān)鍵詞的結(jié)果,并且還對(duì)網(wǎng)頁(yè)關(guān)鍵詞的接近度進(jìn)行分析。與大多數(shù)其它搜索引擎的又一區(qū)別是:Google按照關(guān)鍵詞的接近度確定搜索結(jié)果的先后次序,優(yōu)先考慮關(guān)鍵詞較為接近的結(jié)果,這樣可以為您節(jié)省時(shí)間,而無(wú)須在無(wú)關(guān)的結(jié)果中徘徊。Google最擅長(zhǎng)于為常見(jiàn)查詢找出最準(zhǔn)確的搜索結(jié)果。3.1常用中文搜索引擎6.谷歌(中國(guó))谷歌的特殊功能:Google已經(jīng)可以支持13種非HTML文件的搜索。除了PDF文檔,Google現(xiàn)在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。Google在訪問(wèn)網(wǎng)站時(shí),會(huì)將看過(guò)的網(wǎng)頁(yè)復(fù)制一份網(wǎng)頁(yè)快照,以備在找不到原來(lái)的網(wǎng)頁(yè)時(shí)使用。單擊“類似網(wǎng)頁(yè)”時(shí),Google偵察兵便開(kāi)始尋找與這一網(wǎng)頁(yè)相關(guān)的網(wǎng)頁(yè)。3.1常用中文搜索引擎6.谷歌(中國(guó))谷歌的特殊功能:按鏈接搜索:查詢link:顯示所有指向該網(wǎng)址的網(wǎng)頁(yè)。例如,“l(fā)ink:”將找出所有指向Google主頁(yè)的網(wǎng)頁(yè)。不能將link:搜索與普通關(guān)鍵詞搜索結(jié)合使用。指定網(wǎng)域:“site:”。要在某個(gè)特定的域或站點(diǎn)中進(jìn)行搜索,可以在Google搜索框中輸入“site:”。例如:新聞site:Google的錯(cuò)別字改正軟件系統(tǒng)會(huì)對(duì)輸入的關(guān)鍵詞進(jìn)行自動(dòng)掃描,檢查有沒(méi)有錯(cuò)別字。中英文字典、天氣查詢、股票查詢、郵編區(qū)號(hào)、手機(jī)電話號(hào)碼歸屬地等。第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

第三章

常用中英文搜索引擎及檢索策略

搜搜是騰訊旗下的搜索網(wǎng)站,是騰訊主要的業(yè)務(wù)單元之一。網(wǎng)站于2006年3月正式發(fā)布并開(kāi)始運(yùn)營(yíng)。搜搜目前已成為中國(guó)網(wǎng)民首選的三大搜索引擎之一,主要為網(wǎng)民提供實(shí)用便捷的搜索服務(wù),同時(shí)承擔(dān)騰訊全部搜索業(yè)務(wù),是騰訊整體在線生活戰(zhàn)略中重要的組成部分之一。搜搜目前主要包括網(wǎng)頁(yè)搜索、綜合搜索、圖片搜索、音樂(lè)搜索、論壇搜索、搜吧等16項(xiàng)產(chǎn)品。用戶既可以使用網(wǎng)頁(yè)、音樂(lè)、圖片等搜索功能尋找海量的內(nèi)容信息,也可以通過(guò)搜吧、論壇等產(chǎn)品表達(dá)和交流思想。搜搜旗下的問(wèn)問(wèn)產(chǎn)品將為用戶提供更廣闊的信息及知識(shí)分享平臺(tái)。2009年9月3日,搜搜搜索結(jié)果頁(yè)面已經(jīng)去掉“以下結(jié)果由Google提供”字樣,很可能表明,搜搜已改用自主研發(fā)的搜索引擎技術(shù)。而之前,一直是由Google提供技術(shù)支持。

3.2常用英文搜索引擎1.AltaVista(http:///)

AltaVista是屬于全文搜索引擎。提供常規(guī)搜索、高級(jí)搜索和主題搜索,主題包括圖象(Images)、MP3/Audio&Video等。允許以25種不同的語(yǔ)言進(jìn)行搜索,并提供英、法、德、意、葡萄牙、西班牙語(yǔ)雙向翻譯。

AltaVista是搜索引擎的元老,誕生于DEC研發(fā)中心。它也是Yahoo!最早的搜索引擎技術(shù)的提供者。

AltaVista在更新頻率上不是很快,其中文搜索的技術(shù)已經(jīng)有兩三年沒(méi)有改進(jìn)過(guò),檢索內(nèi)容更新頻率大約是一個(gè)月一次。音頻、視頻與圖像占用空間很大,要做好這方面的服務(wù),需要占用相當(dāng)大的存儲(chǔ)空間,而AltaVista在這方面做得相當(dāng)不錯(cuò),可以說(shuō)處于世界領(lǐng)先的地位。3.2常用英文搜索引擎3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎2.Excite

Excite數(shù)據(jù)庫(kù)中存有2.5億張網(wǎng)頁(yè)及媒體文件,并且檢索Usenet新聞。此外還提供總數(shù)達(dá)15萬(wàn)種的主題分類查詢(實(shí)際上是定制的關(guān)鍵詞搜索)。提供常規(guī)及高級(jí)搜索。操作界面提供了11種語(yǔ)言供選擇,此外還可以在國(guó)別列表中選定某個(gè)國(guó)家或地區(qū),以及限定域名后綴(如“cn”等)進(jìn)行一定區(qū)域范圍的搜索。Excite提供了很好的概念延伸查詢,能列出比輸入的關(guān)鍵詞更具體的相關(guān)領(lǐng)域供用戶選擇查詢。

Excite是斯坦福大學(xué)的六位計(jì)算機(jī)系的本科生創(chuàng)辦的。一開(kāi)始提出的概念搜索(ConceptSearch),即用同義詞推斷來(lái)增加搜索的結(jié)果很快就宣告失敗。因?yàn)榛ヂ?lián)網(wǎng)的信息不是太少了而是太多了,搜索的目的是在茫茫的信息海洋中找到所需要的精確的信息。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎3.Infoseek

()(http:///)

Infoseek不是以數(shù)據(jù)庫(kù)大而見(jiàn)長(zhǎng)的,而是以檢索的相關(guān)程度高而知名。Infoseek購(gòu)買了馬薩諸塞大學(xué)的搜索軟件產(chǎn)品,而馬薩諸塞大學(xué)的信息檢索是全美高校數(shù)一數(shù)二的,所以Infoseek一開(kāi)始的起點(diǎn)就很高。但他們很快就發(fā)現(xiàn),互聯(lián)網(wǎng)數(shù)據(jù)量太大了,當(dāng)初設(shè)計(jì)的規(guī)模太小,只好重新編寫程序。于是Infoseek請(qǐng)了一位華人工程師WilliamChang設(shè)計(jì)了第一代Infoseek搜索引擎Ultraseek,其特點(diǎn)也是速度快,同時(shí)檢索結(jié)果的相關(guān)程度也很高。

1999年,Infoseek被Disney所購(gòu)買,發(fā)展方向與定位都做了調(diào)整。Disney將其做為入門網(wǎng)站Go.COM的搜索引擎,在技術(shù)上的革新比較少,處于維持現(xiàn)狀的水平,主要是做娛樂(lè)方面的索引。1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎3.2常用英文搜索引擎4.Inktomi()

Inktomi是加州大學(xué)伯克利分校EricBrewer的教授最先開(kāi)始研究的,這位教授是并行處理研究的專家。EricBrewer希望用這個(gè)搜索引擎產(chǎn)品來(lái)證明他的并行算法是十分出色的,后來(lái)他將自己的技術(shù)賣給了Hotbot,作為后臺(tái)技術(shù)的提供商。EricBrewer完成Inktomi的時(shí)候,這個(gè)市場(chǎng)競(jìng)爭(zhēng)已經(jīng)相當(dāng)激烈,再想做門戶已經(jīng)不可能了。所以他決定只做背后技術(shù)的提供商,而這卻正中Yahoo!的下懷,Yahoo!以前使用的是Altavista的技術(shù),但Altavista本身也是門戶,與Yahoo!處于競(jìng)爭(zhēng)關(guān)系,而Inktomi與Yahoo!沒(méi)有利益沖突關(guān)系,便很快成了其后臺(tái)技術(shù)的提供商。3.2常用英文搜索引擎5.LookSmart也是主要的目錄索引之一,向包括MSN、AltaVista、Excite等在內(nèi)的其他搜索引擎提供搜索內(nèi)容。與ODP一樣,其注冊(cè)網(wǎng)站在合作伙伴搜索結(jié)果中排位往往也靠前。LookSmart在網(wǎng)站結(jié)構(gòu)和內(nèi)容上與其他目錄索引大同小異,其目錄中的網(wǎng)站排列也是根據(jù)字母順序。它使用Inktomi的數(shù)據(jù)庫(kù)提供二級(jí)網(wǎng)頁(yè)搜索。1.谷歌3.2常用英文搜索引擎6.LYCOS(http:///)搜索引擎中的元老,是最早提供信息搜索服務(wù)的網(wǎng)站之一。Lycos整合了搜索數(shù)據(jù)庫(kù)、在線服務(wù)和其他互聯(lián)網(wǎng)工具,提供網(wǎng)站評(píng)論、圖象及包括MP3在內(nèi)的壓縮音頻文件下載鏈接等等。提供常規(guī)及高級(jí)搜索。高級(jí)搜索提供多種選擇定制搜索條件,并允許針對(duì)網(wǎng)頁(yè)標(biāo)題、地址進(jìn)行檢索。具有多語(yǔ)言搜索功能,共有25種語(yǔ)言供選擇。3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎7.HOTBOTHotBot在頁(yè)面上提供了直觀的圖形化檢索菜單功能,用戶可以通過(guò)簡(jiǎn)單的下拉菜單創(chuàng)建復(fù)雜的布爾查詢,或者按日期、地理區(qū)域和媒體類型進(jìn)行限制性搜索。在結(jié)果顯示時(shí),HotBot會(huì)列出標(biāo)題、摘要、相應(yīng)的打分、文件大小、日期和網(wǎng)址,但是其結(jié)果顯示不能任意進(jìn)行前后跳轉(zhuǎn),這對(duì)于用戶評(píng)估大的檢索結(jié)果集是相當(dāng)?shù)牟环奖恪?.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎1.谷歌3.2常用英文搜索引擎8.SearchAllinOne

MetaSearch

All-in-One方式是指元搜索引擎界面以任意順序或分類羅列多個(gè)搜索引擎,而元搜索引擎本身主要提供各類搜索引擎的介紹信息和物理連接機(jī)制。僅僅提供一個(gè)簡(jiǎn)單的界面來(lái)幫助用戶選擇和使用各種搜索引擎;對(duì)各獨(dú)立搜索引擎檢索界面的復(fù)制可能是部分的或全部的;直接利用所選搜索引擎的顯示格式呈送給用戶。3.2常用英文搜索引擎8.3.2常用英文搜索引擎在我辦公室速度太慢8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎不支持中文8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎速度比較快8.3.2常用英文搜索引擎8.3.2常用英文搜索引擎3.3搜索引擎的檢索策略1.選擇適當(dāng)?shù)牟樵冊(cè)~

A表述準(zhǔn)確——許多搜索引擎會(huì)嚴(yán)格按照您提交的查詢?cè)~去搜索,因此,查詢?cè)~表述準(zhǔn)確是獲得良好搜索結(jié)果的必要前提。

例如,要查找2004年國(guó)內(nèi)十大新聞,查詢?cè)~可以是“2004年國(guó)內(nèi)十大新聞”;但如果把查詢?cè)~換成“2004年國(guó)內(nèi)十大事件”,搜索結(jié)果就沒(méi)有能滿足需求的了。例如,要查找林心如的寫真圖片,用“林心如寫真”,但如果寫錯(cuò)了字,變成“林心茹寫真”,搜索結(jié)果質(zhì)量就差得遠(yuǎn)了。例如,想查找去長(zhǎng)城旅游的信息,“長(zhǎng)城一日游”就是比“旅游”更好的關(guān)鍵詞。3.3搜索引擎的檢索策略1.選擇適當(dāng)?shù)牟樵冊(cè)~

B查詢?cè)~的主題關(guān)聯(lián)與簡(jiǎn)練——目前的搜索引擎并不能很好的處理自然語(yǔ)言。因此,在提交搜索請(qǐng)求時(shí),您最好把自己的想法,提煉成簡(jiǎn)單的,而且與希望找到的信息內(nèi)容主題關(guān)聯(lián)的查詢?cè)~。

例如,某三年級(jí)小學(xué)生,想查一些關(guān)于時(shí)間的名人名言,他的查詢?cè)~是“小學(xué)三年級(jí)關(guān)于時(shí)間的名人名言”?!靶W(xué)三年級(jí)”和主題無(wú)關(guān),會(huì)使得搜索引擎丟掉不含“小學(xué)三年級(jí)”的信息;“關(guān)于”也是一個(gè)與名人名言沒(méi)有關(guān)系的詞;“時(shí)間的名人名言”,其中的“的”也不是一個(gè)必要的詞,會(huì)對(duì)搜索結(jié)果產(chǎn)生干擾;“名人名言”,名言通常就是名人留下來(lái)的,在名言前加上名人,是一種不必要的重復(fù)。3.3搜索引擎的檢索策略1.選擇適當(dāng)?shù)牟樵冊(cè)~——避免使用無(wú)意義的虛詞:

去掉關(guān)鍵詞中的疑問(wèn)詞、連詞、嘆詞、助詞、語(yǔ)氣詞等無(wú)意義的虛詞,有助于提高檢索質(zhì)量。比如“怎么樣給金魚換水”的檢索質(zhì)量就不如“金魚換水”。使用多個(gè)關(guān)鍵詞組合:

當(dāng)您發(fā)現(xiàn)搜索結(jié)果中存在很多無(wú)關(guān)信息的時(shí)候,您可以嘗試增加關(guān)鍵詞來(lái)過(guò)濾掉無(wú)關(guān)的結(jié)果。比如位于深圳的你搜索“同城快遞

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論