![常用爬蟲框架_第1頁](http://file4.renrendoc.com/view/c1b6b008b6bf300d22c9d750b5d77894/c1b6b008b6bf300d22c9d750b5d778941.gif)
![常用爬蟲框架_第2頁](http://file4.renrendoc.com/view/c1b6b008b6bf300d22c9d750b5d77894/c1b6b008b6bf300d22c9d750b5d778942.gif)
![常用爬蟲框架_第3頁](http://file4.renrendoc.com/view/c1b6b008b6bf300d22c9d750b5d77894/c1b6b008b6bf300d22c9d750b5d778943.gif)
![常用爬蟲框架_第4頁](http://file4.renrendoc.com/view/c1b6b008b6bf300d22c9d750b5d77894/c1b6b008b6bf300d22c9d750b5d778944.gif)
![常用爬蟲框架_第5頁](http://file4.renrendoc.com/view/c1b6b008b6bf300d22c9d750b5d77894/c1b6b008b6bf300d22c9d750b5d778945.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
常用爬蟲框架1、熟悉Scrapy框架架構(gòu)
2、熟悉掌握Scrapy組件
3、熟悉Scrapy流程1、Scrapy框架架構(gòu)
2、Scrapy組件
3、Scrapy流程常用爬蟲框架Scrapy是Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動(dòng)化測試。Scrapy吸引人的地方在于它是一個(gè)開源框架,任何人都可以根據(jù)需求方便的對源代碼進(jìn)行修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等Scrapy框架架構(gòu)Scrapy框架架構(gòu)圖Scrapy框架架構(gòu)Scrapy組件引擎(Engine):引擎負(fù)責(zé)控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動(dòng),并在相應(yīng)動(dòng)作發(fā)生時(shí)觸發(fā)事件。調(diào)度器(Scheduler):調(diào)度器從引擎接受request并將他們?nèi)腙?duì),以便之后引擎請求他們時(shí)提供給引擎。下載器(Downloader):下載器負(fù)責(zé)獲取頁面數(shù)據(jù)并提供給引擎,而后提供給spider。Spiders:Spider是Scrapy用戶編寫用于分析response并提取item(即獲取到的item)或額外跟進(jìn)的URL的類。每個(gè)spider負(fù)責(zé)處理一個(gè)特定(或一些)網(wǎng)站。Scrapy組件Scrapy組件ItemPipeline:負(fù)責(zé)處理被spider提取出來的item。典型的處理有清理、驗(yàn)證及持久化(例如存取到數(shù)據(jù)庫中)下載器中間件(Downloadermiddlewares):是在引擎及下載器之間的特定鉤子(specifichook),處理Downloader傳遞給引擎的response(也包括引擎?zhèn)鬟f給下載器的Request)。Spider中間件(Spidermiddlewares):是在引擎及Spider之間的特定鉤子(specifichook),處理spider的輸入(response)和輸出(items及requests)。Scrapy組件Scrapy流程引擎打開一個(gè)網(wǎng)站,找到處理該網(wǎng)站的Spider并向該spider請求第一個(gè)要爬取的URL(s)。引擎從Spider中獲取到第一個(gè)要爬取的URL并在調(diào)度器(Scheduler)以Request調(diào)度。引擎向調(diào)度器請求下一個(gè)要爬取的URL。調(diào)度器返回下一個(gè)要爬取的URL給引擎,引擎將URL通過下載中間件轉(zhuǎn)發(fā)給下載器(Downloader)。Scrapy流程Scrapy流程一旦頁面下載完畢,下載器生成一個(gè)該頁面的Response,并將其通過下載中間件發(fā)送給引擎。引擎從下載器中接收到Response并通過Spider中間件(輸入方向)發(fā)送給Spider處理。Spider處理Response并返回爬取到的Item及(跟進(jìn)的)新的Request給引擎。引擎將(Spider返回的)爬取到的Item給ItemPipeline,將(Spid
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 木工承包合同協(xié)議書
- 二零二五年度智能硬件知識(shí)產(chǎn)權(quán)授權(quán)與保密合同
- 健身房整裝清包合同樣本
- 風(fēng)力發(fā)電葉片運(yùn)輸合同
- 二零二五年度辦公室門套定制與建筑節(jié)能改造合同
- 港口物流居間合同委托書
- 電子設(shè)備采購合同
- 法院判決離婚協(xié)議書
- 醫(yī)療器械外包合同
- 設(shè)備維護(hù)管理作業(yè)指導(dǎo)書
- (2024年)肺栓塞的護(hù)理課件
- 小學(xué)數(shù)學(xué)三年級下冊第八單元《數(shù)學(xué)廣角-搭配(二)》大單元集體備課整體設(shè)計(jì)
- (高清版)TDT 1031.6-2011 土地復(fù)墾方案編制規(guī)程 第6部分:建設(shè)項(xiàng)目
- 2024年江蘇省高中學(xué)業(yè)水平測試生物試卷
- 露天采場危險(xiǎn)有害因素辨識(shí)
- 食品感官評價(jià)員培訓(xùn)方案
- 蘇教版一年級上、下冊勞動(dòng)與技術(shù)教案
- 柔性生產(chǎn)線技術(shù)及其影響
- 智研咨詢發(fā)布:2023年中國醫(yī)院后勤服務(wù)行業(yè)市場現(xiàn)狀、發(fā)展概況、未來前景分析報(bào)告
- 七上-動(dòng)點(diǎn)、動(dòng)角問題12道好題-解析
- 《企業(yè)所得稅法稅法》課件
評論
0/150
提交評論