搜索引擎簡單工作原理

上傳人：7*** IP屬地：湖北上傳時間：2022-03-17 格式：DOC 頁數(shù)：3 大?。?6.50KB 積分：15 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎簡單工作原理看見網(wǎng)上很多人都在問搜索引擎的工作原理，今天稱有時間就來簡單的說一下，僅適用于初學(xué)者，大蝦請繞行！搜索引擎的工作原理大致可以分為三個階段：爬行和抓取、預(yù)處理、排名一、爬行和抓取搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛（spider），也稱為機(jī)器人（bot）。搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器，蜘蛛程序發(fā)出頁面訪問請求后，服務(wù)器返回HTML代碼，蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。為了提高爬行和抓取速度，搜索引擎都是使用多個蜘蛛并發(fā)分布爬行。蜘蛛訪問任何一個網(wǎng)站時都會先訪問網(wǎng)站根目錄下的robots.txt文件，吐過robots.txt文件禁止搜

2、索引擎抓取某些文件或者目錄，蜘蛛將遵守協(xié)議，不抓取被禁止的網(wǎng)址。所以robots.txt文件對一個網(wǎng)站來說是至關(guān)重要的。為了抓取網(wǎng)上盡量多的頁面，搜素引擎蜘蛛會跟蹤頁面上的鏈接，從一個頁面爬行到下一個頁面，就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣，這就是搜素引擎蜘蛛名稱的由來。最簡單的爬行遍歷策略分為兩種：深度優(yōu)先、廣度優(yōu)先深度優(yōu)先：蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行，直到前面再也沒有其他鏈接，然后返回到第一個頁面，沿著另一個鏈接再一直往前爬行。廣度優(yōu)先：蜘蛛在一個頁面上發(fā)現(xiàn)多個鏈接時，不是順著一個鏈接一直向前，而是把頁面上所有第一層鏈接都爬一遍，然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。通常這

3、兩種爬行策略時混合使用的。吸引蜘蛛的方法：提高網(wǎng)站和頁面的權(quán)重，提高頁面更新度，高質(zhì)量的導(dǎo)入鏈接，與首頁點(diǎn)擊距離近為了避免重復(fù)爬行和抓取網(wǎng)址，搜索引擎會建立一個地址庫，記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面和已經(jīng)被抓取的頁面。地址庫來源：人工錄入的種子網(wǎng)站，蜘蛛從抓取頁面獲得的地址庫中沒有的網(wǎng)址，站長通過搜索引擎網(wǎng)頁提交表格提交進(jìn)來的網(wǎng)址蜘蛛爬行的時候也會進(jìn)行簡單的復(fù)制內(nèi)容檢測，如果遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時，很可能不再繼續(xù)爬行，這也是很多權(quán)重低的網(wǎng)站頁面更新的很多很快但卻沒有被收錄的原因之一。二、預(yù)處理提取文字：搜索引擎預(yù)處理首先要做的就是從HTNL文件中去除標(biāo)簽、程序，提取出

4、可以用于排名處理的網(wǎng)頁文字內(nèi)容（還包括META標(biāo)簽中的文字、圖片替代文字、FLASH文件替代文字、鏈接錨點(diǎn)文字等）。中文分詞：這一步在中文搜索引擎中才會用到。中文分詞一般分為兩類：字典匹配、基于統(tǒng)計。字典匹配：將待分析的一段漢字與一個事先造好的詞典中的詞條進(jìn)行匹配，在待分析漢字串中掃描到詞典中已有的詞條則匹配成功，或者說切分出一個單詞。基于統(tǒng)計：分析大量文字樣本，計算出字與字相鄰出現(xiàn)的統(tǒng)計概率，幾個字相鄰出現(xiàn)越多，就越可能形成一個單詞。去停止詞：搜索引擎在索引頁面之前會去掉一些停止詞，如：“的”、“地”、“得”之類的助詞，“啊”、“哈”、“呀”之類的感嘆詞，“從而”、“以”、“卻”之類的

5、副詞或介詞。消除噪聲：搜索引擎需要識別并消除噪聲，排名時不使用噪聲內(nèi)容，基本方法是根據(jù)HTML標(biāo)簽對頁面分塊，區(qū)分出頁頭、正文、頁腳、廣告等區(qū)域，在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲，對頁面消噪后剩下的才是頁面的主體內(nèi)容。去重：同一篇文章經(jīng)常重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上，搜索引擎并不喜歡則好重啊個重復(fù)性的內(nèi)容，搜索引擎希望只返回相容文章的一篇，所以在驚醒索引前還需要識別和刪除重復(fù)內(nèi)容，這個過程就成為“去重”。正向索引：搜索引擎索引程序?qū)㈨撁婕瓣P(guān)鍵字形成詞表結(jié)構(gòu)存儲進(jìn)索引庫，每個文件都對應(yīng)一個文件ID，文件內(nèi)容被表示為一串關(guān)鍵詞的組合。實際上在搜索引擎索引庫中，關(guān)鍵詞也已經(jīng)

6、轉(zhuǎn)換成為關(guān)鍵詞ID，這樣的數(shù)據(jù)結(jié)構(gòu)就稱為正向索引。倒排索引：搜索引擎將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引，把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。鏈接關(guān)系計算：主要體現(xiàn)就是Google的PR值，搜狗的SR值等特殊文件處理：搜索引擎有時也會抓取除HTML文件以外的文件，如：PDF、Word、WPS、XLS、PPT、TXT文件等三、排名搜索詞處理：中文分詞，去停止詞，指令處理（及分詞后的關(guān)鍵詞邏輯關(guān)系，通常是“與”邏輯），拼寫錯誤矯正，整合搜索觸發(fā)（某些搜索詞回觸發(fā)整合搜索，如明星姓名經(jīng)常會觸發(fā)圖片和視頻內(nèi)容）。文件匹配：搜索詞經(jīng)過處理后，搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合，文件

7、匹配階段就是找出含有所有關(guān)鍵詞的文件。初始子集的選擇：經(jīng)過匹配后的文件經(jīng)常會有幾十萬幾百萬甚至上千萬，但搜索引擎只需要計算前1000個結(jié)果的相關(guān)性，就能滿足要求，這就依賴與頁面的相關(guān)性和頁面權(quán)重。相關(guān)性計算：影響相關(guān)性的因素：關(guān)鍵詞常用程度，詞頻及密度，關(guān)鍵詞位置及形式（如標(biāo)題標(biāo)簽、黑體、H1等），關(guān)鍵詞距離，鏈接分析及頁面權(quán)重排名過濾及調(diào)整：一些有作弊嫌疑的頁面，雖然按照正常的權(quán)重和相關(guān)性計算排到前面，但搜索引擎卻可能在最后把這些頁面調(diào)到后面去。排名顯示：所有排名確定后，排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、說明標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。搜索緩存：搜索引擎把最常見的搜索詞存入緩存，用戶搜索時直接從緩存中調(diào)用，從而不必經(jīng)過文件匹配和

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎簡單工作原理

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎簡單工作原理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔