搜索引擎簡單工作原理_第1頁
搜索引擎簡單工作原理_第2頁
搜索引擎簡單工作原理_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎簡單工作原理看見網(wǎng)上很多人都在問搜索引擎的工作原理,今天稱有時間就來簡單的說一下,僅適用于初學(xué)者,大蝦請繞行! 搜索引擎的工作原理大致可以分為三個階段:爬行和抓取、預(yù)處理、排名 一、爬行和抓取 搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器,蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。為了提高爬行和抓取速度,搜索引擎都是使用多個蜘蛛并發(fā)分布爬行。蜘蛛訪問任何一個網(wǎng)站時都會先訪問網(wǎng)站根目錄下的robots.txt文件,吐過robots.txt文件禁止搜

2、索引擎抓取某些文件或者目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。所以robots.txt文件對一個網(wǎng)站來說是至關(guān)重要的。為了抓取網(wǎng)上盡量多的頁面,搜素引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣,這就是搜素引擎蜘蛛名稱的由來。 最簡單的爬行遍歷策略分為兩種:深度優(yōu)先、廣度優(yōu)先 深度優(yōu)先:蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行。 廣度優(yōu)先:蜘蛛在一個頁面上發(fā)現(xiàn)多個鏈接時,不是順著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。 通常這

3、兩種爬行策略時混合使用的。 吸引蜘蛛的方法:提高網(wǎng)站和頁面的權(quán)重,提高頁面更新度,高質(zhì)量的導(dǎo)入鏈接,與首頁點(diǎn)擊距離近 為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會建立一個地址庫,記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面和已經(jīng)被抓取的頁面。地址庫來源:人工錄入的種子網(wǎng)站,蜘蛛從抓取頁面獲得的地址庫中沒有的網(wǎng)址,站長通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址 蜘蛛爬行的時候也會進(jìn)行簡單的復(fù)制內(nèi)容檢測,如果遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行,這也是很多權(quán)重低的網(wǎng)站頁面更新的很多很快但卻沒有被收錄的原因之一。二、預(yù)處理 提取文字:搜索引擎預(yù)處理首先要做的就是從HTNL文件中去除標(biāo)簽、程序,提取出

4、可以用于排名處理的網(wǎng)頁文字內(nèi)容(還包括META標(biāo)簽中的文字、圖片替代文字、FLASH文件替代文字、鏈接錨點(diǎn)文字等)。 中文分詞:這一步在中文搜索引擎中才會用到。中文分詞一般分為兩類:字典匹配、基于統(tǒng)計。 字典匹配:將待分析的一段漢字與一個事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。 基于統(tǒng)計:分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞。去停止詞:搜索引擎在索引頁面之前會去掉一些停止詞,如:“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的

5、副詞或介詞。 消除噪聲:搜索引擎需要識別并消除噪聲,排名時不使用噪聲內(nèi)容,基本方法是根據(jù)HTML標(biāo)簽對頁面分塊,區(qū)分出頁頭、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲,對頁面消噪后剩下的才是頁面的主體內(nèi)容。 去重:同一篇文章經(jīng)常重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡則好重啊個重復(fù)性的內(nèi)容,搜索引擎希望只返回相容文章的一篇,所以在驚醒索引前還需要識別和刪除重復(fù)內(nèi)容,這個過程就成為“去重”。 正向索引:搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵字形成詞表結(jié)構(gòu)存儲進(jìn)索引庫,每個文件都對應(yīng)一個文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的組合。實際上在搜索引擎索引庫中,關(guān)鍵詞也已經(jīng)

6、轉(zhuǎn)換成為關(guān)鍵詞ID,這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。倒排索引:搜索引擎將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。 鏈接關(guān)系計算:主要體現(xiàn)就是Google的PR值,搜狗的SR值等 特殊文件處理:搜索引擎有時也會抓取除HTML文件以外的文件,如:PDF、Word、WPS、XLS、PPT、TXT文件等三、排名搜索詞處理:中文分詞,去停止詞,指令處理(及分詞后的關(guān)鍵詞邏輯關(guān)系,通常是“與”邏輯),拼寫錯誤矯正,整合搜索觸發(fā)(某些搜索詞回觸發(fā)整合搜索,如明星姓名經(jīng)常會觸發(fā)圖片和視頻內(nèi)容)。 文件匹配:搜索詞經(jīng)過處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合,文件

7、匹配階段就是找出含有所有關(guān)鍵詞的文件。 初始子集的選擇:經(jīng)過匹配后的文件經(jīng)常會有幾十萬幾百萬甚至上千萬,但搜索引擎只需要計算前1000個結(jié)果的相關(guān)性,就能滿足要求,這就依賴與頁面的相關(guān)性和頁面權(quán)重。 相關(guān)性計算:影響相關(guān)性的因素:關(guān)鍵詞常用程度,詞頻及密度,關(guān)鍵詞位置及形式(如標(biāo)題標(biāo)簽、黑體、H1等),關(guān)鍵詞距離,鏈接分析及頁面權(quán)重 排名過濾及調(diào)整:一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計算排到前面,但搜索引擎卻可能在最后把這些頁面調(diào)到后面去。 排名顯示:所有排名確定后,排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、說明標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。 搜索緩存:搜索引擎把最常見的搜索詞存入緩存,用戶搜索時直接從緩存中調(diào)用,從而不必經(jīng)過文件匹配和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論