從IIS日志出發(fā):發(fā)現(xiàn)并解決收錄的幾個思路_第1頁
從IIS日志出發(fā):發(fā)現(xiàn)并解決收錄的幾個思路_第2頁
從IIS日志出發(fā):發(fā)現(xiàn)并解決收錄的幾個思路_第3頁
從IIS日志出發(fā):發(fā)現(xiàn)并解決收錄的幾個思路_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、從 IIS 日志出發(fā):發(fā)現(xiàn)并解決收錄的幾個思路網(wǎng)站的收錄一直是個大問題,那么如何解決網(wǎng)站存在的收錄問題,首先就需要從根源找到原因所在,那就是 IIS 日志。IIS 日志是搜索引擎爬行網(wǎng)站的一個記錄,通過它能清晰的看到蜘蛛爬行網(wǎng)頁的總時間,單頁時間,爬行深度,是否有多次重復抓取等,看到之后我們就需要對癥下藥,從而從根本上解決網(wǎng)站收錄存在的問題。好了,下邊從以下幾個方面做分析。其一、過度抓取的 URL 問題首先看下是否有過度抓取問題,這個很簡單,把 IIS 日志用 dw 打開,然后復制一個 URL 查找全部就可以了,或者使用一些高級的 IIS 日志分析工具也能直接看得到。如果存在很多URL 被蜘蛛

2、訪問了多次,那么很有可能是因為是首頁或者距離1首頁點擊次數(shù)較近的頁面,一般的調(diào)整就是需要減少這些 URL鏈接個數(shù)。過度抓取的 URL 會浪費蜘蛛爬行的整個時間。其二、是否存在重復內(nèi)容通過第一步之后,還能發(fā)現(xiàn)一個問題就是重復內(nèi)容,如果有些 URL 被蜘蛛抓取了很多次,那么有可能這是同一內(nèi)容的不同 URL,比如靜態(tài)的與動態(tài)的,比如一些 B2C 的排序頁面,這些功能性的頁面提供的內(nèi)容都沒有過多差別,但是 URL 可能不同。要使用 robots 屏蔽掉。其三、蜘蛛沒爬行過的 URL這要借助于腳本實現(xiàn),把你網(wǎng)站全部 URL 找出來,然后把蜘蛛爬行過的 URL 找出來,然后做對比,找出那些從來沒有被蜘蛛爬行過的 URL,然后分析原因,是這些 URL 沒有鏈接、目2錄過深還是 URL 參數(shù)過多的原因?確定原因之后改正,日后繼續(xù)觀察收錄情況。其四、整體內(nèi)鏈結構如何看你網(wǎng)站的整體內(nèi)鏈結構,自己點擊測試,看首頁到內(nèi)頁需要幾次點擊,如果你多次點擊才能到達一些內(nèi)頁,那么爬蟲從首頁到內(nèi)頁也就需要更多的時間。這樣自然就越浪費時間,所以調(diào)整內(nèi)鏈結構,把更多的內(nèi)容通過內(nèi)鏈讓蜘蛛更好的爬取到。其五、訪問速度如何訪問速度是受多個方面的影響,要從服務器到后臺再到前端仔細查看,是否還有優(yōu)化的余地。在保證頁面效果的前提下,減少 html 代碼的整體體積。將 js 和 css 單獨引入,html 單獨3存在,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論