網(wǎng)絡礦工采集配置高級設置教程_第1頁
網(wǎng)絡礦工采集配置高級設置教程_第2頁
網(wǎng)絡礦工采集配置高級設置教程_第3頁
網(wǎng)絡礦工采集配置高級設置教程_第4頁
網(wǎng)絡礦工采集配置高級設置教程_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、網(wǎng)絡礦工采集器采集配置高級功能教程此教程適合于中級用戶,在掌握了網(wǎng)絡礦工基礎配置之后,閱讀此教程,如果您是初學者,建議您首先閱讀網(wǎng)絡礦工入門教程。 網(wǎng)址參數(shù)網(wǎng)址參數(shù)支持三個類:遞增遞減類、字典類、外部參數(shù);遞增遞減類參數(shù):數(shù)字遞增遞減,字母遞增遞減,數(shù)字自動補零遞增遞減,舉例: 用數(shù)字參數(shù)替換頁碼,可以實現(xiàn)271頁數(shù)據(jù)的采集。字典類:網(wǎng)址參數(shù)不規(guī)律的替換,用戶可以建立自己的字典用于網(wǎng)址替換實現(xiàn)網(wǎng)址成批采集,譬如:采集百度貼吧,建立字典百度貼吧地區(qū),然后設置需要采集的貼吧信息,配置采集網(wǎng)址時進行參數(shù)設置外部參數(shù):配置時參數(shù)值不固定,在運行采集時由用戶指定輸入?yún)?shù)值。詳細可參見:。 網(wǎng)址的復制與粘

2、貼為何要提供網(wǎng)址的復制粘貼功能?在大量配置網(wǎng)址時需要,如果網(wǎng)址的導航規(guī)則不同,但又需要多個入口的地址(譬如:很多網(wǎng)站的第一頁和后續(xù)的頁面網(wǎng)址是不同的),可配置第一個網(wǎng)址的信息,復制粘貼出來,修改入口地址即可快速完成第二個網(wǎng)址的配置,在導航或多頁配置時即為有用;選中網(wǎng)址,點擊鼠標右鍵,即可復制粘貼。 參數(shù)傳遞配置網(wǎng)址在導航和多頁配置中,參數(shù)傳遞將非常有用。在部分網(wǎng)站中,導航或多頁的網(wǎng)址是通過js來實現(xiàn)跳轉(zhuǎn)的,我們可以模擬這種js操作,將需要傳遞的參數(shù)采集出來,然后將參數(shù)匹配給導航出來的網(wǎng)址,即可實現(xiàn)js跳轉(zhuǎn)操作。以采集淘寶評論數(shù)據(jù)為例,通過淘寶的商品頁進行評論數(shù)據(jù)的導航,此過程需要傳遞三個參數(shù):

3、itemid、spuid和sellerid,此三個參數(shù)可以通過產(chǎn)品頁獲取,獲取后傳遞給評論頁url,即可實現(xiàn)評論頁的采集,此下載實例可參見網(wǎng)絡礦工資源任務; 導航翻頁對于連續(xù)頁面的采集有兩種方法:1、用url中的頁碼參數(shù)進行頁面翻頁;2、采用網(wǎng)頁提供的下一頁翻頁參數(shù)進行。導航翻頁可以配置兩種翻頁規(guī)則。假如入口頁面是一個列表頁,我們可以通過頁碼參數(shù)實現(xiàn)翻頁,但也可以配置翻頁規(guī)則來實現(xiàn)翻頁。這是第一個翻頁規(guī)則。同時第一層導航頁導航出來的也是一個列表頁,此時還需翻頁,這是第二個翻頁規(guī)則。第一種翻頁規(guī)則我們稱之為:導航頁翻頁規(guī)則,第二種翻頁規(guī)則我 們稱之為:導航頁獲取的頁面翻頁規(guī)則。請仔細對應界面。有

4、關導航翻頁的實際案例分析請參見: Cookie管理通常理解下,只有在登錄采集的時候才會需要Cookie信息,但某些網(wǎng)站對于訪客也會判斷cookie信息。對于需要cookie信息方可采集的網(wǎng)站,我們可配置Cookie進行數(shù)據(jù)采集。但對于網(wǎng)路礦工有一個比較糾結(jié)的問題:在配置任務時,獲取cookie集成的方法是瀏覽器,用戶只需要用內(nèi)置的瀏覽器登錄網(wǎng)站,系統(tǒng)即可捕獲cookie信息。內(nèi)置瀏覽器在某些情況下會出現(xiàn)獲取cookie不完整。而這種不完整用戶是無法判斷的。通過嗅探器獲取的cookie可以確保完整無誤,這樣在操作的時候會非常的尷尬。所以,在此請各位用戶非常注意:如果需要cookie采集的網(wǎng)站,在

5、設置了cookie信息后,通過“采集規(guī)則分析”功能確定系統(tǒng)是否正確返回了源碼,如果沒有,請使用嗅探器進行cookie的重設。 采集規(guī)則分析先講下采集規(guī)則分析,采集規(guī)則分析是網(wǎng)絡礦工提供的一個對采集網(wǎng)址配置、采集規(guī)則配置正確性校驗的一個工具。如果采集網(wǎng)址配置正確,系統(tǒng)會自動根據(jù)采集網(wǎng)址配置的信息自動獲取需要采集的網(wǎng)址,并將此網(wǎng)址的源碼獲取,在此可判斷1)網(wǎng)址規(guī)則是否正確?2)采集的數(shù)據(jù)是否在源碼中存在?3)如果獲取錯誤,源碼中的錯誤信息是什么?譬如:需要登錄;當網(wǎng)址正確后,可以檢驗采集數(shù)據(jù)規(guī)則本身是否正確,按“F5”系統(tǒng)可進行數(shù)據(jù)匹配,匹配成功后會顯示,如果無匹配的數(shù)據(jù),表示規(guī)則失?。徽齽t分析,

6、同時這個工具也是一個正則分析器,可以用來分析正則表達式的正確性和匹配的結(jié)果。 采集數(shù)據(jù)配置注意事項1、 如果采用規(guī)則配置的方式,一定要按照網(wǎng)頁代碼的順序配置,這點很重要,系統(tǒng)匹配數(shù)據(jù)是從上至下,所以,如果順序顛倒,可能又部分數(shù)據(jù)采集不到,盡管規(guī)則配置正確;2、 如果采用可視化配置,可以不用考慮順序的問題,隨意配置即可;3、 系統(tǒng)提供了通配符,通配符實際是正則表達式,用戶也可手工輸入正則表達式的通配符,但一定要用包含,這樣系統(tǒng)可以識別這是一個正則表達式進行處理; 靜默運行方式靜默運行方式是一種不打擾運行,系統(tǒng)不會將日志信息和采集的數(shù)據(jù)進行輸出,同時系統(tǒng)也不會再彈出托盤菜單氣泡提示,所有信息都將由

7、系統(tǒng)處理,而且會把相關系統(tǒng)信息以日志的方式進行輸出。靜默運行方式是一種不打擾方式,當用戶需要采集數(shù)據(jù)而且還有其他工作同時進行時,建議采用此種方式,啟動靜默采集時,系統(tǒng)好像是一個后臺服務,始終運行,卻不干擾用戶的其他工作。 排重的處理一個采集任務可以多次運行,如果采集一個每日變化得數(shù)據(jù)時,不免會造成重復采集的情況,所以,礦工可以甚至排重庫,將已經(jīng)采集的數(shù)據(jù)記錄下來,無論再運行幾次,已經(jīng)采集的數(shù)據(jù)將不會再進行采集。這是網(wǎng)絡礦工設計排重的主要作用,但排重還可以作為另一個作用進行應用,當進行大量數(shù)據(jù)采集時,可能會由于對方網(wǎng)站的問題造成某些網(wǎng)址無法訪問,但如果隔幾分鐘再重試時,網(wǎng)站又可以恢復正常,如果出

8、現(xiàn)這樣的情況,由于網(wǎng)站的臨時錯誤會導致數(shù)據(jù)漏采,所以,此時可以用排重庫記錄。采集完成后在此采集,將只采集發(fā)生錯誤的網(wǎng)址數(shù)據(jù)了。如果需要重新采集數(shù)據(jù),清除排重庫即可。 關于數(shù)據(jù)文件的設置網(wǎng)絡礦工采集的數(shù)據(jù)默認情況下是系統(tǒng)自動保存,以xml文件形式保存到磁盤中,每次運行任務保存一個獨立的文件,哪怕是同一個任務,多次運行,也是保存多個獨立的文件,用戶可以強制一個采集任務無論幾次運行都可將數(shù)據(jù)保存到一個xml文件中,只要選中了“此任務如多次運行,是否將采集數(shù)據(jù)保存到一個文件中”,并且制定一個xml文件的名稱即可。 采集間隔延時系統(tǒng)默認情況下是多線程運行,采集完一條數(shù)據(jù)馬上進行下一條數(shù)據(jù)的采集。但對于采

9、集的目標網(wǎng)站,這樣的采集無疑會給網(wǎng)站帶來壓力,有可能會被網(wǎng)站屏蔽,所以,用戶可以設置采集的間隔,可以理解為訪問強度,即可以采集完一條數(shù)據(jù)后停止一個時間段再進行下一條數(shù)據(jù)的采集。類似搜索引擎的爬蟲壓力設置。 http header設置http header是http通訊發(fā)送的信息,對于采集的目標網(wǎng)站,有可能會驗證header信息以確認身份的合法性,所以,特定情況下需要設置header信息方可正確獲取數(shù)據(jù),此方面可以通過網(wǎng)絡礦工嗅探器來進行偵測。但通常情況下header在采集數(shù)據(jù)時是無需關注的,多用于發(fā)布數(shù)據(jù)時使用。發(fā)布數(shù)據(jù)時系統(tǒng)會對header中的信息進行驗證,尤其是user-agent信息,所以用戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論