




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、搜索引擎三大要素,講師:steven 2012-1-6,讓數(shù)字營銷連接商業(yè)夢想,搜索引擎三大要素,搜索引擎的工作過程大體上可以分成三個階段,爬行和抓取,爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。 什么是蜘蛛? 如何跟蹤鏈接? 什么樣的頁面才能吸引蛛蛛? 爬行時的復(fù)制內(nèi)容檢測 什么是文件存儲?,什么是蜘蛛,蜘蛛 1、 是一組運行在計算機的程序,在搜索引擎中負(fù)責(zé)抓取時新的且公共可訪問的WEB網(wǎng)頁,圖片和文檔等資源,這種抓取的過程為通過下載一個網(wǎng)頁,分析其中的鏈接,繼而漫游到其他鏈接指向的網(wǎng)頁,循環(huán)往復(fù)。 2、蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。搜索引擎為了提高爬行 和抓取速度,都使
2、用多個蜘蛛并發(fā)分布爬行。 3、蜘蛛訪問任何一個網(wǎng)站時,都會先訪問網(wǎng)站根目錄下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。,主流蜘蛛列舉,Baiduspider+(+ 百度蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp China; 雅虎中國蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; 英文 雅虎蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; + Google 蜘蛛 msnbot/1.1 (+
3、 微軟 Bing 蜘蛛 Sogou+web+robot+(+ 搜狗蜘蛛 Sosospider+(+ 搜搜蜘蛛,蜘蛛抓取-谷歌管理員工具,跟蹤鏈接,為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個名稱的由來。 整個互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的。從理論上說,蜘蛛從任何一個頁面出發(fā),順著 鏈接都可以爬行到網(wǎng)上的所有頁面。當(dāng)然,由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復(fù)雜,蜘蛛需要采取 一定的爬行策略才能遍歷網(wǎng)上所有頁面。,爬行策略,最簡單的爬行遍歷策略分為兩種: 一是深度優(yōu)先 二是廣度優(yōu)先,深度優(yōu)先遍歷策略 如上圖所
4、示,蜘蛛跟蹤鏈接,從 A 頁面爬行到 A1,A2,A3,A4,到 A4 頁面后,已經(jīng)沒有其 他鏈接可以跟蹤就返回 A 頁面,順著頁面上的另一個鏈接,爬行到 B1,B2,B3,B4。在深度 優(yōu)先策略中,蜘蛛一直爬到無法再向前,才返回爬另一條線。 深度優(yōu)先策略,如封建帝位的繼承。不能深入的情況下才考慮其他分支的策略,深度優(yōu)先策略,圖:廣度優(yōu)先策略 如上圖所示,蜘蛛從 A 頁面順著鏈接爬行到 A1,B1,C1 頁面,直到 A 頁面上的所有鏈接都爬 行完,然后再從 A1 頁面發(fā)現(xiàn)的下一層鏈接,爬行到 A2,A3,A4.頁面 廣度優(yōu)先策略,類似長幼有序的規(guī)則。,廣度優(yōu)先策略,在實際工作中,蜘蛛的帶寬資源
5、、時間都不是無限的,也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。 深度優(yōu)先和廣度優(yōu)先通常是混合使用的,這樣既可以照顧到盡量多的網(wǎng)站(廣度優(yōu)先),也能照顧到一部分網(wǎng)站的內(nèi)頁(深度優(yōu)先)。,爬行策略,吸引蜘蛛,哪些頁面被認(rèn)為比較重要呢?有幾方面影響因素:,爬行時的復(fù)制內(nèi)容檢測,蜘蛛在爬行和抓取文件時會進(jìn)行一定程度的復(fù)制內(nèi)容檢測。遇到權(quán)重很低的網(wǎng)站上大量轉(zhuǎn)載或抄襲內(nèi)容時,很可能不再繼續(xù)爬行。 這也就是為什么有的站長在日志文件中發(fā)現(xiàn)了蜘蛛,但頁面從來沒有被真正收錄過。,文件存儲,搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一
6、樣的。每個URL都有一個獨特的文件編號。,預(yù)處理之分析系統(tǒng),一、提取文字 1. 搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。,2. 除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如Meta標(biāo)簽中 的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。,特殊文件處理,除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和
7、程序。 雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容。,分詞技術(shù),中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計。 基于詞典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。 基于統(tǒng)計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞?;诮y(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧
8、義。 基于詞典匹配和基于統(tǒng)計的分詞方法各有優(yōu)劣,實際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識別生詞、新詞,消除歧義。,中文分詞,“2011年時尚女裝搭配”將被分詞為“2011年”和“時尚” “女裝” “搭配”四個詞。,搜索引擎優(yōu)化分詞,去停止詞,無論英文中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如“的”,“地”,“得”之類的助詞,“啊”,“哈”,“呀”之類的感嘆詞,“從而”,“以”,“卻”之類的介詞。英文常見的停止詞,如”the”、”of”。這些詞被稱為停止詞,因為它們對頁面主要意思沒什么影響。,消除噪聲,搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲
9、內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲,對頁面主題只能起到分散作用。對頁面進(jìn)行消噪后,剩下的才是頁面主體內(nèi)容。,網(wǎng)頁去重,同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時,如果在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識別和刪除重復(fù)內(nèi)容,這個過程就稱為“去重”。,PageRank計算,PR是PageRank的縮寫。Google PR理論是所有基于鏈接的
10、搜索引擎理論中最有名的。 PR用于表示頁面重要性的概念。用最簡單的話說就是,反向鏈接越多的頁面就是最越重要的頁面,因此PR值也越高. 鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。 1、認(rèn)可度越高的網(wǎng)頁越重要,即反向鏈接越多的網(wǎng)頁越重要 2、反向鏈接的源網(wǎng)頁質(zhì)量越高,被這些高質(zhì)量網(wǎng)頁的鏈接指向的網(wǎng)頁越重要 3、鏈接數(shù)越少的網(wǎng)頁越重要 舉例 AB,A輸給B,認(rèn)可了B的厲害。 贏得次數(shù)多,贏得對手質(zhì)量高且輸?shù)纳俚倪x手排名高是自然的。,預(yù)處理之索引系統(tǒng),正向索引 頁面轉(zhuǎn)換為一個關(guān)鍵詞組成的集合,同時記錄每一個關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式
11、(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁面第一段文字等)。這樣,每一個頁面都可以記錄為一串關(guān)鍵詞集合,其中每個關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。,倒排索引,正向索引還不能直接用于排名,需把文件對應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射 在倒排索引中關(guān)鍵詞是主鍵,每個關(guān)鍵詞都對應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個關(guān)鍵詞。這樣當(dāng)用戶搜索某個關(guān)鍵詞時,排序程序在倒排索引中定位到這個關(guān)鍵詞,就可以馬上找出所有包含這個關(guān)鍵詞的文件。,查詢系統(tǒng)排名,一、搜索詞處理 (1)中文分詞。與頁面索引時一樣,搜索詞也必須進(jìn)行中文分詞,將查詢字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。分詞原理
12、與頁面分詞相同。 (2)去停止詞。和索引時一樣,搜索引擎也需要把搜索詞中的停止詞去掉,最大限度地提高排名相關(guān)性及效率。 (3)指令處理。如加號、減號等,搜索引擎都需要做出識別和相應(yīng)處理 (4)拼寫錯誤矯正。,文件匹配,倒排索引快速匹配文件 假設(shè)用戶搜索“關(guān)鍵詞2 關(guān)鍵詞7”,排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個詞,就能找到分別含有這兩個詞的所有頁面。經(jīng)過簡單計算就能找出既包含“關(guān)鍵詞2”,也包含“關(guān)鍵詞7”的所有頁面:文件1和文件6。,相關(guān)性計算,相關(guān)性計算 選出初始子集后,對子集中的頁面計算關(guān)鍵詞相關(guān)性。 影響相關(guān)性的主要因素包括幾方面: 關(guān)鍵詞常用程度 詞頻及密度
13、關(guān)鍵詞位置及形式 關(guān)鍵詞距離 鏈接分析及頁面權(quán)重,相關(guān)性計算,關(guān)鍵詞常用程度 越常用的詞對搜索詞的意義貢獻(xiàn)越小,越不常用的詞對意義貢獻(xiàn)越大。舉個例子,假設(shè)用戶輸入的搜索詞是“我們冥王星”?!拔覀儭边@個詞常用程度非常高,在很多頁面上會出現(xiàn),它對“我們dki”這個搜索詞的辨識程度和意義相關(guān)度貢獻(xiàn)就很小。那些包含“dki”這個詞的頁面,對“我們dki”這個搜索詞會更為相關(guān)。,相關(guān)性計算,詞頻及密度 一般認(rèn)為在沒有關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)多,密度比較高,說明頁面與搜索詞越相關(guān)。 關(guān)鍵詞位置及形式 像在索引部分中提到的,頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫中。關(guān)鍵詞出現(xiàn)在比較重
14、要位置,如標(biāo)題標(biāo)簽、黑體、H1等,說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面SEO所要解決的。,相關(guān)性計算,關(guān)鍵詞距離 切分后的關(guān)鍵詞完整匹配出現(xiàn),說明與搜索詞最相關(guān)。比如搜索“減肥方法”時,頁面上連續(xù)完整出現(xiàn)“減肥方法”四個字是最相關(guān)的。如果“減肥”和“方法”兩個詞沒有連續(xù)匹配出現(xiàn),出現(xiàn)的距離近一些,也被搜索引擎認(rèn)為相關(guān)性稍微大一些。 鏈接分析及頁面權(quán)重 除了頁面本身的因素,頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性,其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接,說明頁面的相關(guān)性越強。 鏈接分析還包括了鏈接源頁面本身的主題,錨文字周圍的文字等。,排名過濾及調(diào)整,計算相關(guān)性后,大
15、體排名就已經(jīng)確定了。之后搜索引擎可能還有一些過濾算法,對排名進(jìn)行輕微調(diào)整,其中最主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計算排到前面,但搜索引擎的懲罰算法卻可能在最后一步把這些頁面調(diào)到后面去。典型的例子是百度的11位,Google的負(fù)6、負(fù)30、負(fù)950等算法。,排名顯示,所有排名確定后,排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、描述標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。有時搜索引擎需要動態(tài)生成頁面摘要,而不是調(diào)用頁面本身的描述標(biāo)簽。,標(biāo)題、描述字?jǐn)?shù)限制,百度標(biāo)題顯示最多不超多30個中文字符,谷歌顯示65個英文字符,中文32個字符。超出字?jǐn)?shù)限制將無法顯示,以省略號代替 百度描述顯示最多不超多77個中文字符,谷歌顯示165個英文字符,超出字?jǐn)?shù)限制將無法顯示,以省略號代替,網(wǎng)頁快照,網(wǎng)頁快照,即是“網(wǎng)頁緩存” 每個未被禁止搜索的網(wǎng)頁,在百度上都會自動生成臨時緩存頁面,稱為“百度快照”。當(dāng)您遇到網(wǎng)站服務(wù)器暫時故障或網(wǎng)絡(luò)傳輸堵塞時,可以通過“快照”快速瀏覽 頁面文本內(nèi)容。百度快照只會臨時緩存網(wǎng)頁的文本內(nèi)容,所以那些圖片、音樂等非文本信息,仍是存儲于原網(wǎng)頁。當(dāng)原網(wǎng)頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 離婚財產(chǎn)合同范本模板
- 合股餐廳合同范本
- 輪胎店轉(zhuǎn)讓合同范本
- 醫(yī)美會員合同范本模板
- 紡織原料采購合同范本
- 企業(yè)向個人租房合同范本
- 危險廢物管理處理合同范本
- 單位采購空調(diào)合同范本
- 個人債權(quán)轉(zhuǎn)讓合同范本
- 裝飾設(shè)計合同范本
- 小學(xué)二年級有余數(shù)的除法口算題(共300題)
- 北京市矢量地圖-可改顏色
- 幼兒園故事繪本《賣火柴的小女孩兒》課件
- 【冠心病探究文獻(xiàn)綜述2000字】
- 幼兒園大班音樂活動《小籬笆》
- 蝴蝶蘭溫室工廠化栽培管理技術(shù)
- 高中化學(xué)競賽-中級無機化學(xué)--金屬原子簇word版本
- 銀行對賬單(共9頁)
- 企業(yè)職工流動登記表格模板(最新)
- KET核心詞匯中文加音標(biāo)_完整版
- 從聚焦課堂到關(guān)注教育教學(xué)全過程PPT課件
評論
0/150
提交評論