![搜索引擎索引收錄網(wǎng)頁原理分析_第1頁](http://file4.renrendoc.com/view/0f8099cc67f5dbda856fea266aebd485/0f8099cc67f5dbda856fea266aebd4851.gif)
![搜索引擎索引收錄網(wǎng)頁原理分析_第2頁](http://file4.renrendoc.com/view/0f8099cc67f5dbda856fea266aebd485/0f8099cc67f5dbda856fea266aebd4852.gif)
![搜索引擎索引收錄網(wǎng)頁原理分析_第3頁](http://file4.renrendoc.com/view/0f8099cc67f5dbda856fea266aebd485/0f8099cc67f5dbda856fea266aebd4853.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
搜索引擎索引收錄網(wǎng)頁原理分析
Anyway,如果在對網(wǎng)站實施SEO時將重點放在網(wǎng)頁被索引、收錄的速度與效率,當(dāng)然也無可厚非,而要想實現(xiàn)這一點,需要我們對搜索引擎如何收錄、索引網(wǎng)頁的機制有所了解。下面我們以Google為例,介紹搜索引擎收錄、索引網(wǎng)頁的過程,希望能對朋友們有后助益。——對其他搜索引擎如Yahoo!、Live搜索及百度而言,盡管可能在具體細節(jié)上存在差別,不過,基本策略應(yīng)該是類似的。1、收集待索引網(wǎng)頁的urlInternet上存在的網(wǎng)頁數(shù)量絕對是個天文數(shù)字,每天新增的網(wǎng)頁也不計其數(shù),搜索引擎需要首先找到要索引收錄的對象。具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區(qū)別存在爭議——至于是否叫這么兩個名字更是眾說紛耘,當(dāng)然,名字本身并不重要——至少到目前為止,主流的看法是,在Google的robots中,的確存在著相當(dāng)部分專門為真正的索引收錄頁頁準備“素材”的robots——在這里我們姑且仍稱之為FreshBot吧——它們的任務(wù)便是每天不停地掃描Internet,以發(fā)現(xiàn)并維護一個龐大的url列表供DeepBot使用,換言之,當(dāng)其訪問、讀取其一個網(wǎng)頁時,目的并不在于索引這個網(wǎng)頁,而是找出這個網(wǎng)頁中的所有鏈接?!?dāng)然,這樣似乎在效率上存在矛盾,有點不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網(wǎng)頁時不具備“排它性”,也即是說,位于Google不同的數(shù)據(jù)中心的多個robots可能在某個很短的時間周期,比如說一天甚至一小時,訪問同一個頁面,而DeepBot在索引、緩存頁面時則不會出現(xiàn)類似的情況,即Google會限制由某個數(shù)據(jù)中心的robots來完成這項工作的,而不會出現(xiàn)兩個數(shù)據(jù)中心同時索引網(wǎng)頁同一個版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務(wù)器訪問日志中時??梢钥吹皆醋圆煌琁P的GoogleBot在很短的時間內(nèi)多次訪問同一個網(wǎng)頁證明FreshBot的存在。因此,有時候發(fā)現(xiàn)GoogleBot頻繁訪問網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁而只是在掃描url。FreshBot記錄的信息包括網(wǎng)頁的url、TimeStamp(網(wǎng)頁創(chuàng)建或更新的時間戳),以及網(wǎng)頁的Head信息(注:這一點存在爭議,也有不少人相信FreshBot不會去讀取目標網(wǎng)頁信息的,而是將這部分工作交由DeepBot完成。不過,筆者傾向于前一種說法,因為在FreshBot向DeepBot提交的url列表中,會將網(wǎng)站設(shè)置禁止索引、收錄的頁面排除在外,以提高效率,而網(wǎng)站進行此類設(shè)置時除使用robots.txt外還有相當(dāng)部分是通過mata標簽中的“noindex”實現(xiàn)的,不讀取目標網(wǎng)頁的head似乎是無法實現(xiàn)這一點的),如果網(wǎng)頁不可訪問,比如說網(wǎng)絡(luò)中斷或服務(wù)器故障,F(xiàn)reshBot則會記下該url并擇機重試,但在該url可訪問之前,不會將其加入向DeepBot提交的url列表??偟膩碚f,F(xiàn)reshBot對服務(wù)器帶寬、資源的占用還是比較小的。最后,F(xiàn)reshBot對記錄信息按不同的優(yōu)先級進行分類,向DeepBot提交,根據(jù)優(yōu)先級不同,主要有以下幾種:A:新建網(wǎng)頁;B:舊網(wǎng)頁/新的TimeStamp,即存在更新的網(wǎng)頁;C:使用301/302重定向的網(wǎng)頁;D:復(fù)雜的動態(tài)url,如使用多個參數(shù)的動態(tài)url,Google可能需要附加的工作才能正確分析其內(nèi)容?!S著Google對動態(tài)網(wǎng)頁支持能力的提高,這一分類可能已經(jīng)取消;E:其他類型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;F:舊網(wǎng)頁/舊的TimeStamp,即未更新的網(wǎng)頁,注意,這里的時間戳不是以Google搜索結(jié)果中顯示的日期為準,而是與Google索引數(shù)據(jù)庫中的日期比對;G:錯誤的url,即訪問時返回404回應(yīng)的頁面;優(yōu)先級按由A至G的順序排列,依次降低。需要強調(diào)的是,這里所言之優(yōu)先級是相對的,比如說同樣是新建網(wǎng)頁,根據(jù)指向其的鏈接質(zhì)量、數(shù)量的不同,優(yōu)先級也有著很大的區(qū)別,具有源自相關(guān)的權(quán)威網(wǎng)站鏈接的網(wǎng)頁具有較高的優(yōu)先級。此外,這里所指的優(yōu)先級僅針對同一網(wǎng)站內(nèi)部的頁面,事實上,不同網(wǎng)站也有有著不同的優(yōu)先級,換言之,對權(quán)威網(wǎng)站中的網(wǎng)頁而言,即使其最低優(yōu)先級的404url,也可能比許多其他網(wǎng)站優(yōu)先級最高的新建網(wǎng)頁更具優(yōu)勢。2、網(wǎng)頁的索引與收錄接下來才進入真正的索引與收錄網(wǎng)頁過程。從上面的介紹可以看出,F(xiàn)reshBot提交的url列表是相當(dāng)龐大的,根據(jù)語言、網(wǎng)站位置等不同,對特定網(wǎng)站的索引工作將分配至不同的數(shù)據(jù)中心完成。整個索引過程,由于龐大的數(shù)據(jù)量,可能需要幾周甚至更長時間才能完成。正如上文所言,DeepBot會首先索引優(yōu)先級較高的網(wǎng)站/網(wǎng)頁,優(yōu)先級越高,出現(xiàn)在Google索引數(shù)據(jù)庫及至最終出現(xiàn)在Google搜索結(jié)果頁面中的速度便越快。對新建網(wǎng)頁而言,只要進入到這個階段,即使整個索引過程沒有完成,相應(yīng)的網(wǎng)頁便已具備出現(xiàn)在Google索引庫中的可能,相信許多朋友在Google中使用“site:”搜索時常??吹綐俗檠a充結(jié)果只顯示網(wǎng)頁url或只顯示網(wǎng)頁標題與url但沒有描述的頁面,此即是處于這一階段網(wǎng)頁的正常結(jié)果。當(dāng)Google真正讀取、分析、緩存了這個頁面后,其便會從補充結(jié)果中逃出而顯示正常的信息?!?dāng)然,前提是該網(wǎng)頁具有足夠的鏈接,特別是來自權(quán)威網(wǎng)站的鏈接,并且,索引庫中沒有與該網(wǎng)頁內(nèi)容相同或近似的記錄(DuplicateContent過濾)。對動態(tài)url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實仍然顯示動態(tài)url出現(xiàn)在補充結(jié)果中的幾率遠大于使用靜態(tài)url的網(wǎng)頁,往往需要更多、更有價值的鏈接才能從補充結(jié)果中逸出。而對于上文中之“F”類,即未更新的網(wǎng)頁,DeepBot會將其時間戳與Google索引數(shù)據(jù)庫中的日期比對,確認盡管可能搜索結(jié)果中相應(yīng)頁面信息未來得及更新但只要索引了最新版本即可——考慮網(wǎng)頁多次更新、修改的情況——;至于“G”類即404url,則會查找索引庫中是否存在相應(yīng)的記錄,如果有,將其刪除。3、數(shù)據(jù)中心間的同步前文我們提到過,DeepBot索引某個網(wǎng)頁時會由特定的數(shù)據(jù)中心完成,而不會出現(xiàn)多個數(shù)據(jù)中心同時讀取該網(wǎng)頁,分別獲得網(wǎng)頁最近版本的情況,這樣,在索引過程完成后,便需要一個數(shù)據(jù)同步過程,將網(wǎng)頁的最新版本在多個數(shù)據(jù)中心得到更新。這就是之前著名的GoogleDance。不過,在BigDaddy更新后,數(shù)據(jù)中心間的同步不再象那樣集中在特定的時間段,而是以一種連續(xù)的、時效性更強的方式進行。盡管不同數(shù)據(jù)中心間仍存在一定的差異,但差異已經(jīng)不大,而且,維持的時間也很短。提高搜索引擎索引收錄網(wǎng)頁的效率,根據(jù)上面的介紹,可以看出,要想讓您的網(wǎng)頁盡可能快、盡可能多地被搜索引擎收錄,至少應(yīng)從如下幾方面進行優(yōu)化:提高網(wǎng)站反相鏈接的數(shù)量與質(zhì)量,源自權(quán)威網(wǎng)站的鏈接可以讓您的網(wǎng)站/網(wǎng)頁在第一時間內(nèi)被搜索引擎“看到”。當(dāng)然,這也是老生常談了。從上面的介紹可以看出,要提高網(wǎng)頁被搜索引擎收錄的效率,首先要讓搜索引擎找到您的網(wǎng)頁,鏈接是搜索引擎找到網(wǎng)頁的唯一途徑——“唯一”一詞存在些許爭議,見下面的SiteMaps部分——從這個角度看,向搜索引擎提交網(wǎng)站之類的作法沒有必要且沒有意義,相對而言,要想讓您的網(wǎng)站被收錄,獲得外部網(wǎng)站的鏈接才是根本,同時,高質(zhì)量的鏈接也是讓網(wǎng)頁步出補充結(jié)果的關(guān)鍵因素。網(wǎng)頁設(shè)計要秉持“搜索引擎友好”的原則,從搜索引擎spider的視角設(shè)計與優(yōu)化網(wǎng)頁,確保網(wǎng)站的內(nèi)部鏈接對搜索引擎“可見”,相對于獲得外部網(wǎng)站鏈接的難度,合理規(guī)劃的內(nèi)部鏈接是提高搜索引擎索引與收錄效率更經(jīng)濟、有效的途徑——除非網(wǎng)站根本未被搜索引擎收錄。如果您的網(wǎng)站使用動態(tài)url,或者導(dǎo)航菜單使用JavaScript,那么,當(dāng)在網(wǎng)頁收錄方面遇到障礙時,應(yīng)首先從這里著手。使用SiteMaps。事實上,許多人認為Google取消了FreshBot的一個主要原因便是SiteMaps(xml)協(xié)議的廣泛應(yīng)用,認為這樣只需讀取網(wǎng)站提供的SiteMaps便可得到網(wǎng)頁更新信息,而不需FreshBot耗時費力地掃描。這種說法還是有一定道理的,雖然目前不能確定Google究竟直接使用SiteMaps作為DeepBot的索引列表還是用做FreshBot的掃描路標,但SiteMaps能夠提高網(wǎng)站索引收錄的效率則是不爭的事實。比如說,SEO探索曾做過如下的測試:兩個網(wǎng)頁,獲得的鏈接情況相同,一個加入SiteMaps而另一未加入,出現(xiàn)在SiteMaps中的網(wǎng)頁很快被收錄,而另一個頁面則在過了很長時間后才
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度合作建房項目竣工驗收合同范本
- 2025年度建筑涂料工程招投標代理與咨詢服務(wù)合同
- 2025年度智能家電研發(fā)生產(chǎn)合同協(xié)議書標準格式
- 貴州2025年貴州省市場監(jiān)管局所屬事業(yè)單位招聘39人筆試歷年參考題庫附帶答案詳解
- 蚌埠2025年安徽馬鞍山和縣中學(xué)招聘勞務(wù)派遣制教師筆試歷年參考題庫附帶答案詳解
- 牡丹江2024年黑龍江牡丹江市直事業(yè)單位集中選調(diào)15人筆試歷年參考題庫附帶答案詳解
- 淮安2024年江蘇淮安市公安局經(jīng)濟技術(shù)開發(fā)區(qū)分局招聘警務(wù)輔助人員15人筆試歷年參考題庫附帶答案詳解
- 沈陽2025年遼寧沈陽市渾南區(qū)事業(yè)單位博士招聘36人筆試歷年參考題庫附帶答案詳解
- 柳州2025年廣西柳州市事業(yè)單位招聘2077人筆試歷年參考題庫附帶答案詳解
- 昆明2025年云南昆明市晉寧區(qū)人民政府辦公室招聘編外工作人員筆試歷年參考題庫附帶答案詳解
- GB/T 26189.2-2024工作場所照明第2部分:室外作業(yè)場所的安全保障照明要求
- 新教科版一年級科學(xué)下冊第一單元《身邊的物體》全部課件(共7課時)
- 2025年中國水解聚馬來酸酐市場調(diào)查研究報告
- 高考百日誓師動員大會
- 2025年北京控股集團有限公司招聘筆試參考題庫含答案解析
- 2024年北京東城社區(qū)工作者招聘筆試真題
- 2024新人教版初中英語單詞表默寫版(七~九年級)
- 體育科學(xué)急救知識
- 復(fù)工復(fù)產(chǎn)質(zhì)量管理工作
- 2025年東方電氣集團東方鍋爐股份限公司校園招聘高頻重點提升(共500題)附帶答案詳解
- 《敏捷項目管理》課件
評論
0/150
提交評論