版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
網(wǎng)絡(luò)門戶搜索引擎網(wǎng)站的技術(shù)和存在問題及發(fā)展趨勢(shì)網(wǎng)絡(luò)搜索引擎在網(wǎng)絡(luò)信息資源查找中起到了重要作
用,它可以幫助人們從數(shù)以億計(jì)的網(wǎng)絡(luò)信息中找自己想要
的信息。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集。發(fā)現(xiàn)信息,
對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服
務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供的導(dǎo)航服務(wù)已
經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎點(diǎn)也被美
譽(yù)為“網(wǎng)絡(luò)門戶”。搜索引擎技術(shù)因而成為計(jì)算機(jī)工
業(yè)界和學(xué)術(shù)界爭(zhēng)相研究開發(fā)的對(duì)象搜索引擎的基本構(gòu)成和工作原理1.搜索器。搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:從一個(gè)起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo?。?。將Web空間按照域名、IP地址或國家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。索引表一般使用某種形式的倒排表(InversionList),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(InstantIndexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。3.檢索器。檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。4.用戶接口。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。(二)搜索引擎的分類1.基于目錄的搜索引擎?;谀夸浀乃阉饕鎸⑹占降男畔⒎值侥骋粋€(gè)類中,典型的基于目錄的搜索引擎有Yahoo和Magellan。目錄式搜索引擎提供由網(wǎng)頁作者呈送的因特網(wǎng)資源的鏈接集合,同時(shí)對(duì)這些資源做出評(píng)價(jià)并組織成主題目錄。它使用一定的選擇標(biāo)準(zhǔn)用于挑選所錄用的鏈接資源,不同的目錄式搜索引擎使用不同的選擇標(biāo)準(zhǔn)。它有兩種基本類型:一種是由主題專家日常建立和維護(hù)的學(xué)術(shù)性專業(yè)目錄以滿足科研人員的需要;另一方面是為普通大眾和商業(yè)服務(wù)的商業(yè)目錄。2.基于機(jī)器人的搜索引擎?;跈C(jī)器人的搜索引擎從一組已知的文檔出發(fā),通過這些文檔的超文本鏈接確定新的檢索點(diǎn),然后用索引機(jī)器人周游這些新的檢索點(diǎn),標(biāo)引這些檢索點(diǎn)上的新文檔,將這些新文檔加入到索引數(shù)據(jù)庫。以后搜索引擎可以用這個(gè)索引數(shù)據(jù)庫去回答用戶的提問。機(jī)器人搜索引擎不是靠人工發(fā)現(xiàn)和甄別信息,而是由一個(gè)被稱作“蜘蛛”的計(jì)算機(jī)程序在網(wǎng)中爬行,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在因特網(wǎng)中發(fā)現(xiàn)、加工、整理信息,并為用戶提供檢索服務(wù)。3.基于客戶的搜索引擎。基于客戶的搜索引擎用Web客戶器中的周游軟件,它們從一組已知的文檔出發(fā),檢索WWW上的文檔并傳送這些文檔,然后用文檔中的超文本鏈接找到更多的文檔,直到滿足要求?;诳蛻舻乃阉饕娌恍枰谌綑z索接口,因此可改善用戶界面,因?yàn)榛诳蛻舻乃阉魇菍?shí)時(shí)的,它可以搜索到最新的資料,但搜索速度慢,網(wǎng)絡(luò)負(fù)載和服務(wù)器負(fù)載都太大。4.元搜索引擎。元搜索引擎將用戶查找要求遞交給其它搜索引擎。它的注意力放在改進(jìn)用戶界面及用不同的方法過濾它從其它搜索引擎接收到的相關(guān)文檔,包括消除重復(fù)信息,元搜索引擎設(shè)計(jì)簡(jiǎn)單,但網(wǎng)絡(luò)的負(fù)載太大,典型的元搜索引擎有METACRAWLER等。5.分布式搜索引擎。分布式搜索引擎按區(qū)域、主題或其它標(biāo)準(zhǔn)創(chuàng)建分布式索引服務(wù)器,索引服務(wù)器之間相互可以交換中間信息,且查詢可以被重新定向。如果一個(gè)檢索服務(wù)器沒有滿足查詢請(qǐng)求的信息,它可以將查詢請(qǐng)求發(fā)送到具有相應(yīng)信息的檢索服務(wù)器。(三)搜索引擎的研究重點(diǎn)1.能充分表達(dá)用戶查詢要求的查詢語言:現(xiàn)有的搜索引擎的查詢語言甚至比較成熟的商業(yè)性的情報(bào)檢索系統(tǒng)的查詢語言還要簡(jiǎn)單。一套能充分表達(dá)用戶要求但又不增加網(wǎng)絡(luò)負(fù)載的查詢語言是搜索引擎的發(fā)展趨勢(shì)。2.索引數(shù)據(jù)庫的組織和管理:搜索引擎的索引數(shù)據(jù)庫是網(wǎng)絡(luò)信息的一個(gè)軌跡,它要隨網(wǎng)絡(luò)信息的變化而變化,因此它除了數(shù)據(jù)增加以外還需要有數(shù)據(jù)的刪除和修改功能,如何對(duì)大容量的、非結(jié)構(gòu)化的信息進(jìn)行增加、刪除、改變操作也是一個(gè)研究重點(diǎn)。3.信息的自動(dòng)加工:在傳統(tǒng)的情報(bào)檢索中,數(shù)據(jù)源基本上是人工加工。如,(NSPECCOM-PENDEX)等,且有標(biāo)準(zhǔn)的用詞,查全率和查準(zhǔn)率都比較高,而搜索引擎對(duì)網(wǎng)上收集到的信息一般是采用自動(dòng)加工,因此如何對(duì)信息進(jìn)行準(zhǔn)確的分析和標(biāo)引是搜索引擎要研究的主要問題。4.提高檢索的查準(zhǔn)率:網(wǎng)上的信息已經(jīng)相當(dāng)豐富,現(xiàn)有的搜索引擎的問題不再是能找到多少文獻(xiàn),而是找到的文獻(xiàn)太多,且很多文獻(xiàn)不一定與用戶要求非常相關(guān),因此提高查準(zhǔn)率是搜索引擎查找效率的主要體現(xiàn)。5.Web信息的發(fā)掘:如何迅速發(fā)現(xiàn)和收集網(wǎng)上新加入的信息和被刪除的信息。(四)未來搜索引擎技術(shù)發(fā)展趨勢(shì)1.搜索的模糊化趨勢(shì)2.搜索的博客化趨勢(shì)。3.搜索的重疊化趨勢(shì)。4.搜索的個(gè)人評(píng)價(jià)趨勢(shì)。5.與S
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【名師一號(hào)】2020-2021學(xué)年高中英語(外研版)必修一-雙基限時(shí)練6
- 【Ks5u發(fā)布】遼寧省葫蘆島市2021屆高三第一次模擬考試-理科綜合-掃描版含答案
- 《紅茶與健康》課件
- 【名師一號(hào)】2020-2021學(xué)年高中英語選修六-雙基限時(shí)練1
- 一年級(jí)數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)集錦
- 《凡卡課件》課件
- 【全程復(fù)習(xí)方略】2020-2021學(xué)年高中化學(xué)選修5配套作業(yè):課時(shí)提升卷(七)-第二章-第三節(jié)
- 《胃癌的藥物治療》課件
- 【師說】2022高考物理(新課標(biāo))一輪全程復(fù)習(xí)構(gòu)想檢測(cè):課時(shí)訓(xùn)練15動(dòng)能定理及其應(yīng)用
- 《《中國革命和中國共產(chǎn)黨》導(dǎo)讀》課件
- 小學(xué)生衛(wèi)生知識(shí)健康教育精課件
- 《安全評(píng)價(jià)技術(shù)》課件-蒸氣云爆炸事故后果傷害模型評(píng)價(jià)
- DL∕T 1100.1-2018 電力系統(tǒng)的時(shí)間同步系統(tǒng) 第1部分:技術(shù)規(guī)范
- CJ/T 158-2002 城市污水處理廠管道和設(shè)備色標(biāo)
- NB-T35009-2013抽水蓄能電站選點(diǎn)規(guī)劃編制規(guī)范
- 曳引驅(qū)動(dòng)電梯調(diào)試作業(yè)指導(dǎo)書
- 上海市中考英語試卷及答案
- 基礎(chǔ)會(huì)計(jì)課程思政教案設(shè)計(jì)
- 蘇教版科學(xué)小學(xué)五年級(jí)上冊(cè)期末測(cè)試卷及完整答案(奪冠系列)
- 監(jiān)控工程竣工驗(yàn)收?qǐng)?bào)告
- 經(jīng)皮肝穿刺膽道引流(PTCD)導(dǎo)管的護(hù)理要點(diǎn)
評(píng)論
0/150
提交評(píng)論