


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于搜索引擎分類及特點(diǎn)的分析
摘要:隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)的推廣應(yīng)用,搜索引擎在網(wǎng)絡(luò)用戶的生活中起著舉足輕重的作用,本文就全文搜索引擎、目錄搜索引擎和元搜索引擎做分析比較,并對(duì)目前的搜索引擎的特點(diǎn)進(jìn)行了詳細(xì)描述。搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的Spider系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每1個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每1個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。1全文搜索引擎全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。爬蟲設(shè)計(jì)是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質(zhì)量,另外在設(shè)計(jì)爬蟲時(shí)還必須考慮它對(duì)網(wǎng)絡(luò)和被訪問站點(diǎn)的影響,因?yàn)榕老x一般都運(yùn)行在速度快,帶寬高的主機(jī)上,如果它快速訪問一個(gè)速度較慢的目標(biāo)站點(diǎn),可能導(dǎo)致該站點(diǎn)出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪問站點(diǎn)的管理員能夠確定訪問內(nèi)容,Index是一個(gè)龐大的數(shù)據(jù)庫,爬蟲提取的網(wǎng)頁將被放入到Index中建立索引,不同的搜索引擎會(huì)采取不同方式來建立索引,有的對(duì)整個(gè)HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。2目錄搜索引擎目錄搜索引擎的數(shù)據(jù)庫是依靠專職人員建立的,這些人員在訪問了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)URL和描述放在這個(gè)類別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類別中。目錄的結(jié)構(gòu)為樹形結(jié)構(gòu),首頁提供了最基本的入口,用戶可以逐級(jí)地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞。由于目錄式搜索引擎只在保存了對(duì)站點(diǎn)的描述中搜索,因此站點(diǎn)本身的變化不會(huì)反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡(luò)營(yíng)銷中的應(yīng)用主要有下列特點(diǎn):通常只能收錄網(wǎng)站首頁(或者若干頻道),而不能將大量網(wǎng)頁都提交給分類目錄;網(wǎng)站一旦被收錄將在一定時(shí)期內(nèi)保持穩(wěn)定;無法通過"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名;在高質(zhì)量的分類目錄登錄,對(duì)于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價(jià)值;緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。3元搜索引擎我們可將元搜索引擎看成具有雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請(qǐng)求,元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求,搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過整理再以應(yīng)答形式傳送給實(shí)際用戶。當(dāng)然,某些元搜索引擎具有略微不同的機(jī)制。元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,將結(jié)果進(jìn)行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。它的特點(diǎn)是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時(shí),只提取出每個(gè)搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實(shí)現(xiàn)起比較簡(jiǎn)單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問少數(shù)幾個(gè)搜索引擎,并且通常不支持這些搜索引擎的高級(jí)搜索功能,在處理邏輯查詢時(shí)也常常會(huì)出現(xiàn)錯(cuò)誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點(diǎn),但它的信息準(zhǔn)確這一優(yōu)點(diǎn)使其在一定的領(lǐng)域和時(shí)間內(nèi)仍會(huì)被使用,機(jī)器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結(jié)合目錄式搜索引擎,機(jī)器人搜索引擎的優(yōu)勢(shì),以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。搜索引擎技術(shù)功能強(qiáng)大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點(diǎn)。目前的搜索引擎主要有幾個(gè)特點(diǎn):多樣化和個(gè)性化的服務(wù)。強(qiáng)大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項(xiàng)目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)樗阉飨到y(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長(zhǎng)的視頻、音頻等多媒體信息的檢索,仍然無法實(shí)現(xiàn)。參考文獻(xiàn)[1]張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報(bào),2004,(4).[2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢(shì)[J].情報(bào)雜志,2001,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年合同到期解約申請(qǐng)模板
- 2025年藥店店員合同模板
- 一年級(jí)下冊(cè)數(shù)學(xué)教案-兩位數(shù)加減整十?dāng)?shù)、一位數(shù)的口算 (20)-西師大版
- 分?jǐn)?shù)的初步認(rèn)識(shí)(一)練習(xí)十一(教案)2024-2025學(xué)年數(shù)學(xué)三年級(jí)上冊(cè) 蘇教版
- 2024年人工種植牙項(xiàng)目投資申請(qǐng)報(bào)告代可行性研究報(bào)告
- 2025年杭州科技職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫1套
- 2025屆黑龍江省“六校聯(lián)盟”高三上學(xué)期聯(lián)考化學(xué)試題及答案
- 2025年度教師專業(yè)成長(zhǎng)路徑規(guī)劃聘用合同
- 2025年度養(yǎng)老產(chǎn)業(yè)簡(jiǎn)易版股份轉(zhuǎn)讓合同模板
- 2025年度文化旅游產(chǎn)業(yè)合作授權(quán)委托書
- 公共財(cái)政概論整套課件完整版電子教案課件匯總(最新)
- (5年高職)成本核算與管理教學(xué)課件匯總完整版電子教案全書課件(最新)
- 中國(guó)傳媒大學(xué)全媒體新聞編輯:案例教學(xué)-課件-全媒體新聞編輯:案例教學(xué)-第3講
- 淺圓倉滑模及倉頂板施工方案
- 統(tǒng)編版必修上冊(cè)第五《鄉(xiāng)土中國(guó)》導(dǎo)讀優(yōu)質(zhì)課件PPT
- 技能大師工作室建設(shè)PPT幻燈片課件(PPT 66頁)
- 統(tǒng)編版四年級(jí)道德與法治下冊(cè)第8課《這些東西哪里來》教學(xué)課件(含視頻)
- 市場(chǎng)營(yíng)銷課程標(biāo)準(zhǔn)
- 鋼琴基礎(chǔ)教程1教案
- 上??萍及妫瓢妫┏踔袛?shù)學(xué)八年級(jí)下冊(cè)全冊(cè)教案
- 小學(xué)音樂課后服務(wù)教學(xué)設(shè)計(jì)方案計(jì)劃
評(píng)論
0/150
提交評(píng)論