搜索引擎原理

上傳人：奇*** IP屬地：河北上傳時間：2020-09-06 格式：PPT 頁數(shù)：37 大小：1.92MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎三大要素,講師：steven 2012-1-6,讓數(shù)字營銷連接商業(yè)夢想,搜索引擎三大要素,搜索引擎的工作過程大體上可以分成三個階段,爬行和抓取,爬行和抓取是搜索引擎工作的第一步，完成數(shù)據(jù)收集的任務(wù)。什么是蜘蛛？如何跟蹤鏈接？什么樣的頁面才能吸引蛛蛛？爬行時的復(fù)制內(nèi)容檢測什么是文件存儲？,什么是蜘蛛,蜘蛛 1、是一組運行在計算機的程序，在搜索引擎中負(fù)責(zé)抓取時新的且公共可訪問的WEB網(wǎng)頁，圖片和文檔等資源，這種抓取的過程為通過下載一個網(wǎng)頁，分析其中的鏈接，繼而漫游到其他鏈接指向的網(wǎng)頁，循環(huán)往復(fù)。 2、蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行和抓取速度，都使

2、用多個蜘蛛并發(fā)分布爬行。 3、蜘蛛訪問任何一個網(wǎng)站時，都會先訪問網(wǎng)站根目錄下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目錄，蜘蛛將遵守協(xié)議，不抓取被禁止的網(wǎng)址。,主流蜘蛛列舉,Baiduspider+(+ 百度蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp China; 雅虎中國蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; 英文雅虎蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; + Google 蜘蛛 msnbot/1.1 (+

3、微軟 Bing 蜘蛛 Sogou+web+robot+(+ 搜狗蜘蛛 Sosospider+(+ 搜搜蜘蛛,蜘蛛抓取-谷歌管理員工具,跟蹤鏈接,為了抓取網(wǎng)上盡量多的頁面，搜索引擎蜘蛛會跟蹤頁面上的鏈接，從一個頁面爬到下一個頁面，就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣，這也就是搜索引擎蜘蛛這個名稱的由來。整個互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的。從理論上說，蜘蛛從任何一個頁面出發(fā)，順著鏈接都可以爬行到網(wǎng)上的所有頁面。當(dāng)然，由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復(fù)雜，蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。,爬行策略,最簡單的爬行遍歷策略分為兩種：一是深度優(yōu)先二是廣度優(yōu)先,深度優(yōu)先遍歷策略如上圖所

4、示，蜘蛛跟蹤鏈接，從 A 頁面爬行到 A1，A2，A3，A4，到 A4 頁面后，已經(jīng)沒有其他鏈接可以跟蹤就返回 A 頁面，順著頁面上的另一個鏈接，爬行到 B1，B2，B3，B4。在深度優(yōu)先策略中，蜘蛛一直爬到無法再向前，才返回爬另一條線。深度優(yōu)先策略，如封建帝位的繼承。不能深入的情況下才考慮其他分支的策略,深度優(yōu)先策略,圖：廣度優(yōu)先策略如上圖所示，蜘蛛從 A 頁面順著鏈接爬行到 A1，B1，C1 頁面，直到 A 頁面上的所有鏈接都爬行完，然后再從 A1 頁面發(fā)現(xiàn)的下一層鏈接，爬行到 A2，A3，A4.頁面廣度優(yōu)先策略，類似長幼有序的規(guī)則。,廣度優(yōu)先策略,在實際工作中，蜘蛛的帶寬資源

5、、時間都不是無限的，也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。深度優(yōu)先和廣度優(yōu)先通常是混合使用的，這樣既可以照顧到盡量多的網(wǎng)站（廣度優(yōu)先），也能照顧到一部分網(wǎng)站的內(nèi)頁（深度優(yōu)先）。,爬行策略,吸引蜘蛛,哪些頁面被認(rèn)為比較重要呢？有幾方面影響因素：,爬行時的復(fù)制內(nèi)容檢測,蜘蛛在爬行和抓取文件時會進(jìn)行一定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時，很可能不再繼續(xù)爬行。這也就是為什么有的站長在日志文件中發(fā)現(xiàn)了蜘蛛，但頁面從來沒有被真正收錄過。,文件存儲,搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一

6、樣的。每個URL都有一個獨特的文件編號。,預(yù)處理之分析系統(tǒng),一、提取文字 1. 搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序，提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。,2. 除了可見文字，搜索引擎也會提取出一些特殊的包含文字信息的代碼，如Meta標(biāo)簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。,特殊文件處理,除了HTML文件外，搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容，也不能執(zhí)行腳本和

7、程序。雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步，不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容。,分詞技術(shù),中文分詞方法基本上有兩種，一種是基于詞典匹配，另一種是基于統(tǒng)計。基于詞典匹配的方法是指，將待分析的一段漢字與一個事先造好的詞典中的詞條進(jìn)行匹配，在待分析漢字串中掃描到詞典中已有的詞條則匹配成功，或者說切分出一個單詞。基于統(tǒng)計的分詞方法指的是分析大量文字樣本，計算出字與字相鄰出現(xiàn)的統(tǒng)計概率，幾個字相鄰出現(xiàn)越多，就越可能形成一個單詞?；诮y(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速，也有利于消除歧

8、義。基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣，實際使用中的分詞系統(tǒng)都是混合使用兩種方法的，快速高效，又能識別生詞、新詞，消除歧義。,中文分詞,“2011年時尚女裝搭配”將被分詞為“2011年”和“時尚” “女裝” “搭配”四個詞。,搜索引擎優(yōu)化分詞,去停止詞,無論英文中文，頁面內(nèi)容中都會有一些出現(xiàn)頻率很高，卻對內(nèi)容沒有任何影響的詞，如“的”，“地”，“得”之類的助詞，“啊”，“哈”，“呀”之類的感嘆詞，“從而”，“以”，“卻”之類的介詞。英文常見的停止詞，如”the”、”of”。這些詞被稱為停止詞，因為它們對頁面主要意思沒什么影響。,消除噪聲,搜索引擎需要識別并消除這些噪聲，排名時不使用噪聲

9、內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對頁面分塊，區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域，在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲,對頁面主題只能起到分散作用。對頁面進(jìn)行消噪后，剩下的才是頁面主體內(nèi)容。,網(wǎng)頁去重,同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上，搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時，如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章，用戶體驗就太差了，雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇，所以在進(jìn)行索引前還需要識別和刪除重復(fù)內(nèi)容，這個過程就稱為“去重”。,PageRank計算,PR是PageRank的縮寫。Google PR理論是所有基于鏈接的

10、搜索引擎理論中最有名的。 PR用于表示頁面重要性的概念。用最簡單的話說就是，反向鏈接越多的頁面就是最越重要的頁面，因此PR值也越高. 鏈接就像民主投票一樣，A頁面鏈接到B頁面，就意味著A頁面對B頁面投了一票，使得B頁面的重要性提高。 1、認(rèn)可度越高的網(wǎng)頁越重要，即反向鏈接越多的網(wǎng)頁越重要 2、反向鏈接的源網(wǎng)頁質(zhì)量越高，被這些高質(zhì)量網(wǎng)頁的鏈接指向的網(wǎng)頁越重要 3、鏈接數(shù)越少的網(wǎng)頁越重要舉例 AB，A輸給B，認(rèn)可了B的厲害。贏得次數(shù)多，贏得對手質(zhì)量高且輸?shù)纳俚倪x手排名高是自然的。,預(yù)處理之索引系統(tǒng),正向索引頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合，同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式

11、（如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等）、位置（如頁面第一段文字等）。這樣，每一個頁面都可以記錄為一串關(guān)鍵詞集合，其中每個關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。,倒排索引,正向索引還不能直接用于排名，需把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射在倒排索引中關(guān)鍵詞是主鍵，每個關(guān)鍵詞都對應(yīng)著一系列文件，這些文件中都出現(xiàn)了這個關(guān)鍵詞。這樣當(dāng)用戶搜索某個關(guān)鍵詞時，排序程序在倒排索引中定位到這個關(guān)鍵詞，就可以馬上找出所有包含這個關(guān)鍵詞的文件。,查詢系統(tǒng)排名,一、搜索詞處理（1）中文分詞。與頁面索引時一樣，搜索詞也必須進(jìn)行中文分詞，將查詢字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。分詞原理

12、與頁面分詞相同。（2）去停止詞。和索引時一樣，搜索引擎也需要把搜索詞中的停止詞去掉，最大限度地提高排名相關(guān)性及效率。（3）指令處理。如加號、減號等，搜索引擎都需要做出識別和相應(yīng)處理（4）拼寫錯誤矯正。,文件匹配,倒排索引快速匹配文件假設(shè)用戶搜索“關(guān)鍵詞2 關(guān)鍵詞7”，排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個詞，就能找到分別含有這兩個詞的所有頁面。經(jīng)過簡單計算就能找出既包含“關(guān)鍵詞2”，也包含“關(guān)鍵詞7”的所有頁面：文件1和文件6。,相關(guān)性計算,相關(guān)性計算選出初始子集后，對子集中的頁面計算關(guān)鍵詞相關(guān)性。影響相關(guān)性的主要因素包括幾方面：關(guān)鍵詞常用程度詞頻及密度

13、關(guān)鍵詞位置及形式關(guān)鍵詞距離鏈接分析及頁面權(quán)重,相關(guān)性計算,關(guān)鍵詞常用程度越常用的詞對搜索詞的意義貢獻(xiàn)越小，越不常用的詞對意義貢獻(xiàn)越大。舉個例子，假設(shè)用戶輸入的搜索詞是“我們冥王星”?！拔覀儭边@個詞常用程度非常高，在很多頁面上會出現(xiàn)，它對“我們dki”這個搜索詞的辨識程度和意義相關(guān)度貢獻(xiàn)就很小。那些包含“dki”這個詞的頁面，對“我們dki”這個搜索詞會更為相關(guān)。,相關(guān)性計算,詞頻及密度一般認(rèn)為在沒有關(guān)鍵詞堆積的情況下，搜索詞在頁面中出現(xiàn)的次數(shù)多，密度比較高，說明頁面與搜索詞越相關(guān)。關(guān)鍵詞位置及形式像在索引部分中提到的，頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。關(guān)鍵詞出現(xiàn)在比較重

14、要位置，如標(biāo)題標(biāo)簽、黑體、H1等，說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面SEO所要解決的。,相關(guān)性計算,關(guān)鍵詞距離切分后的關(guān)鍵詞完整匹配出現(xiàn)，說明與搜索詞最相關(guān)。比如搜索“減肥方法”時，頁面上連續(xù)完整出現(xiàn)“減肥方法”四個字是最相關(guān)的。如果“減肥”和“方法”兩個詞沒有連續(xù)匹配出現(xiàn)，出現(xiàn)的距離近一些，也被搜索引擎認(rèn)為相關(guān)性稍微大一些。鏈接分析及頁面權(quán)重除了頁面本身的因素，頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性，其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接，說明頁面的相關(guān)性越強。鏈接分析還包括了鏈接源頁面本身的主題，錨文字周圍的文字等。,排名過濾及調(diào)整,計算相關(guān)性后，大

15、體排名就已經(jīng)確定了。之后搜索引擎可能還有一些過濾算法，對排名進(jìn)行輕微調(diào)整，其中最主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面，雖然按照正常的權(quán)重和相關(guān)性計算排到前面，但搜索引擎的懲罰算法卻可能在最后一步把這些頁面調(diào)到后面去。典型的例子是百度的11位，Google的負(fù)6、負(fù)30、負(fù)950等算法。,排名顯示,所有排名確定后，排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、描述標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。有時搜索引擎需要動態(tài)生成頁面摘要，而不是調(diào)用頁面本身的描述標(biāo)簽。,標(biāo)題、描述字?jǐn)?shù)限制,百度標(biāo)題顯示最多不超多30個中文字符，谷歌顯示65個英文字符，中文32個字符。超出字?jǐn)?shù)限制將無法顯示，以省略號代替百度描述顯示最多不超多77個中文字符，谷歌顯示165個英文字符，超出字?jǐn)?shù)限制將無法顯示，以省略號代替,網(wǎng)頁快照,網(wǎng)頁快照，即是“網(wǎng)頁緩存” 每個未被禁止搜索的網(wǎng)頁，在百度上都會自動生成臨時緩存頁面，稱為“百度快照”。當(dāng)您遇到網(wǎng)站服務(wù)器暫時故障或網(wǎng)絡(luò)傳輸堵塞時，可以通過“快照”快速瀏覽頁面文本內(nèi)容。百度快照只會臨時緩存網(wǎng)頁的文本內(nèi)容，所以那些圖片、音樂等非文本信息，仍是存儲于原網(wǎng)頁。當(dāng)原網(wǎng)頁

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎原理

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎原理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔