常用爬蟲框架_第1頁
常用爬蟲框架_第2頁
常用爬蟲框架_第3頁
常用爬蟲框架_第4頁
常用爬蟲框架_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

常用爬蟲框架1、熟悉Scrapy框架架構(gòu)

2、熟悉掌握Scrapy組件

3、熟悉Scrapy流程1、Scrapy框架架構(gòu)

2、Scrapy組件

3、Scrapy流程常用爬蟲框架Scrapy是Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動(dòng)化測試。Scrapy吸引人的地方在于它是一個(gè)開源框架,任何人都可以根據(jù)需求方便的對源代碼進(jìn)行修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等Scrapy框架架構(gòu)Scrapy框架架構(gòu)圖Scrapy框架架構(gòu)Scrapy組件引擎(Engine):引擎負(fù)責(zé)控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動(dòng),并在相應(yīng)動(dòng)作發(fā)生時(shí)觸發(fā)事件。調(diào)度器(Scheduler):調(diào)度器從引擎接受request并將他們?nèi)腙?duì),以便之后引擎請求他們時(shí)提供給引擎。下載器(Downloader):下載器負(fù)責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給spider。Spiders:Spider是Scrapy用戶編寫用于分析response并提取item(即獲取到的item)或額外跟進(jìn)的URL的類。每個(gè)spider負(fù)責(zé)處理一個(gè)特定(或一些)網(wǎng)站。Scrapy組件Scrapy組件ItemPipeline:負(fù)責(zé)處理被spider提取出來的item。典型的處理有清理、驗(yàn)證及持久化(例如存取到數(shù)據(jù)庫中)下載器中間件(Downloadermiddlewares):是在引擎及下載器之間的特定鉤子(specifichook),處理Downloader傳遞給引擎的response(也包括引擎?zhèn)鬟f給下載器的Request)。Spider中間件(Spidermiddlewares):是在引擎及Spider之間的特定鉤子(specifichook),處理spider的輸入(response)和輸出(items及requests)。Scrapy組件Scrapy流程引擎打開一個(gè)網(wǎng)站,找到處理該網(wǎng)站的Spider并向該spider請求第一個(gè)要爬取的URL(s)。引擎從Spider中獲取到第一個(gè)要爬取的URL并在調(diào)度器(Scheduler)以Request調(diào)度。引擎向調(diào)度器請求下一個(gè)要爬取的URL。調(diào)度器返回下一個(gè)要爬取的URL給引擎,引擎將URL通過下載中間件轉(zhuǎn)發(fā)給下載器(Downloader)。Scrapy流程Scrapy流程一旦頁面下載完畢,下載器生成一個(gè)該頁面的Response,并將其通過下載中間件發(fā)送給引擎。引擎從下載器中接收到Response并通過Spider中間件(輸入方向)發(fā)送給Spider處理。Spider處理Response并返回爬取到的Item及(跟進(jìn)的)新的Request給引擎。引擎將(Spider返回的)爬取到的Item給ItemPipeline,將(Spid

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論