《數(shù)據(jù)采集技術(shù)》課件-Settings - 配置_第1頁
《數(shù)據(jù)采集技術(shù)》課件-Settings - 配置_第2頁
《數(shù)據(jù)采集技術(shù)》課件-Settings - 配置_第3頁
《數(shù)據(jù)采集技術(shù)》課件-Settings - 配置_第4頁
《數(shù)據(jù)采集技術(shù)》課件-Settings - 配置_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Settings——配置配置文件管理爬蟲行為和功能的關(guān)鍵部分提供了各種配置選項(xiàng),可以自定義和控制爬蟲的行為配置文件管理爬蟲行為和功能的關(guān)鍵部分提供了各種配置選項(xiàng),可以自定義和控制爬蟲的行為Settings—常見配置Settings—常見配置Settings—常見配置Scrapy架構(gòu)Settings—常見配置1基礎(chǔ)配置使用Scrapy實(shí)現(xiàn)的bot名稱,也叫項(xiàng)目名稱默認(rèn)的USER_AGENT由它來構(gòu)成,也作為日志記錄的日志名SPIDER_MODULES=['項(xiàng)目名稱.spiders']NEWSPIDER_MODULE='項(xiàng)目名稱.spiders'BOT_NAMESPIDER_MODULESSettings—常見配置1基礎(chǔ)配置設(shè)置爬取網(wǎng)站時(shí)使用的默認(rèn)User-AgentUSER_AGENT='項(xiàng)目名稱(+)'設(shè)置是否遵循robots.txt中的爬蟲規(guī)則ROBOTSTXT_OBEY=FalseUSER_AGENTROBOTSTXT_OBEYSettings—常見配置1基礎(chǔ)配置設(shè)置禁用Cookies,默認(rèn)是True,啟用一般將Cookies的功能禁用COOKIES_ENABLED=FalseDEFAULT_REQUEST_HEADERS設(shè)置ScrapyHTTP請(qǐng)求使用的默認(rèn)headerSettings—常見配置2并發(fā)與延遲設(shè)置Scrapy下載器并發(fā)請(qǐng)求的最大值,默認(rèn)是16CONCURRENT_REQUESTS每個(gè)域名能夠被執(zhí)行的最大并發(fā)請(qǐng)求數(shù)目,默認(rèn)值8CONCURRENT_REQUESTS_PER_DOMAIN能夠被單個(gè)IP處理的并發(fā)請(qǐng)求數(shù),默認(rèn)值0,代表無限制CONCURRENT_REQUESTS_PER_IPSettings—常見配置2并發(fā)與延遲設(shè)置ItemPipeline同時(shí)處理每個(gè)response的item的最大值,默認(rèn)是100CONCURRENT_ITEMS設(shè)置下載器在下載同一網(wǎng)站兩個(gè)請(qǐng)求之間的間隔時(shí)間默認(rèn)值為0,同時(shí)也支持小數(shù)DOWNLOAD_DELAYSettings—常見配置2并發(fā)與延遲設(shè)置下載器的超時(shí)時(shí)間(單位:秒),默認(rèn)值是180DOWNLOAD_TIMEOUTSettings—常見配置3爬取深度、方式設(shè)置爬取網(wǎng)站最大允許的深度(depth)值。默認(rèn)值為0,表示沒有限制DEPTH_LIMIT爬取基本原則。爬取時(shí),0表示深度優(yōu)先Lifo(默認(rèn)值),后進(jìn)先出;1表示廣度優(yōu)先FiFo,先進(jìn)先出。DEPTH_PRIORITYSettings—常見配置4中間件、管道、擴(kuò)展MIDDLEWARES啟用或禁用中間件。SPIDER_MIDDLEWARES={ '項(xiàng)目名稱.middlewares.SpiderMiddleware':543,}DOWNLOADER_MIDDLEWARES={ '項(xiàng)目名稱.middlewares.DownMiddleware':543,}Settings—常見配置4中間件、管道、擴(kuò)展SPIDER_MIDDLEWARES啟用或禁用爬蟲中間件DOWNLOADER_MIDDLEWARES啟用或禁用下載器中間件,這里需要使用,否則抓取內(nèi)容無法使用Settings—常見配置4中間件、管道、擴(kuò)展EXTENSIONS配置并啟用擴(kuò)展,主要是一些狀態(tài)監(jiān)控ITEM_PIPELINES配置啟用Pipeline持久化數(shù)據(jù)字典的鍵表示pipeline的名稱,可以是任意值,不過值習(xí)慣設(shè)置在0-1000范圍內(nèi)。值越小則優(yōu)先級(jí)越高Settings—常見配置以上屬于全局配置項(xiàng)目中所有爬蟲共享很多時(shí)候會(huì)實(shí)現(xiàn)局部配置定義字典類型的custom_settings成員變量局部配置定義custom_settings={ 'DOWNLOAD_DELAY':10}啟動(dòng)時(shí)配置scrap

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論