《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy

上傳人：青*** IP屬地：福建上傳時(shí)間：2025-01-12 格式：PPTX 頁數(shù)：64 大?。?.94MB 積分：12 舉報(bào) 版權(quán)申訴

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy_第2頁

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy_第3頁

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy_第4頁

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy_第5頁

已閱讀5頁，還剩59頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》學(xué)習(xí)目標(biāo)/Target了解什么是Scrapy框架，能夠復(fù)述出Scrapy框架的優(yōu)點(diǎn)與缺點(diǎn)熟悉Scrapy框架的架構(gòu)，能夠歸納每個(gè)組件的功能與職責(zé)熟悉Scrapy框架的運(yùn)作流程，能夠歸納Scrapy框架的運(yùn)作流程掌握Scrapy框架的安裝方式，能夠獨(dú)立安裝Scrapy框架，并能解決安裝過程中出現(xiàn)的常見問題掌握Scrapy框架的基本操作，能夠靈活應(yīng)用Scrapy框架新建項(xiàng)目和制作爬蟲章節(jié)概述/Summary隨著網(wǎng)絡(luò)爬蟲的應(yīng)用越來越多，互聯(lián)網(wǎng)中涌現(xiàn)了一些網(wǎng)絡(luò)爬蟲框架，這些框架將網(wǎng)絡(luò)爬蟲的一些常用功能和業(yè)務(wù)邏輯進(jìn)行了封裝。在這些框架的基礎(chǔ)上，我們只需要按照需求添加少量代碼，就可以實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)爬蟲。Scrapy是目前比較流行的Python網(wǎng)絡(luò)爬蟲框架之一，可以幫助開發(fā)人員高效地開發(fā)網(wǎng)絡(luò)爬蟲程序。目錄/Contents9.19.29.3Scrapy框架簡(jiǎn)介Scrapy框架架構(gòu)Scrapy框架運(yùn)作流程目錄/Contents9.49.59.6Scrapy框架安裝Scrapy框架基本操作實(shí)踐項(xiàng)目：采集黑馬程序員視頻庫的視頻信息Scrapy框架簡(jiǎn)介9.1了解什么是Scrapy框架，能夠復(fù)述出Scrapy框架的優(yōu)點(diǎn)與缺點(diǎn)學(xué)習(xí)目標(biāo)9.1Scrapy框架簡(jiǎn)介Scrapy是一個(gè)純使用Python語言開發(fā)、開源的網(wǎng)絡(luò)爬蟲框架，用于抓取網(wǎng)站頁面，并從頁面中提取結(jié)構(gòu)化數(shù)據(jù)。Scrapy最初是為了頁面抓取而設(shè)計(jì)的，可以簡(jiǎn)單、快速地從網(wǎng)站頁面中提取所需的數(shù)據(jù)，如今Scrapy具備更加廣泛的用途，可以被應(yīng)用到諸如數(shù)據(jù)挖掘、數(shù)據(jù)監(jiān)測(cè)、自動(dòng)化測(cè)試等領(lǐng)域以及通用網(wǎng)絡(luò)爬蟲中。9.1Scrapy框架簡(jiǎn)介Scrapy是基于Twisted框架開發(fā)的，Twisted是一個(gè)流行的基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)引擎框架，采用了異步代碼實(shí)現(xiàn)并發(fā)功能。Twisted負(fù)責(zé)處理網(wǎng)絡(luò)通信，這樣不僅加快頁面的下載速度，而且減少手動(dòng)實(shí)現(xiàn)異步操作。9.1Scrapy框架簡(jiǎn)介Scrapy框架的功能如此強(qiáng)大，離不開其自身具備的如下幾個(gè)優(yōu)點(diǎn)。9.1Scrapy框架簡(jiǎn)介具有豐富的文檔、良好的社區(qū)以及龐大的用戶群體。Scrapy支持并發(fā)功能，可以靈活地調(diào)整并發(fā)線程的數(shù)量。采用可讀性很強(qiáng)的XPath技術(shù)解析網(wǎng)頁，解析速度更加快速。具有統(tǒng)一的中間件，可以對(duì)數(shù)據(jù)進(jìn)行過濾。支持Shell工具，方便開發(fā)人員獨(dú)立調(diào)試程序。通過管道將數(shù)據(jù)存入數(shù)據(jù)庫，靈活方便，且可以保存為多種形式。具有高度的可定制化功能，經(jīng)過簡(jiǎn)單的改造后便可以實(shí)現(xiàn)具有特定功能的網(wǎng)絡(luò)爬蟲。9.1Scrapy框架簡(jiǎn)介雖然Scrapy框架功能強(qiáng)大，但自身仍存在幾個(gè)缺點(diǎn)。自身無法實(shí)現(xiàn)分布式爬蟲。去重效果差，極易消耗內(nèi)存。無法獲取采用JavaScript技術(shù)進(jìn)行動(dòng)態(tài)渲染的頁面內(nèi)容。為了彌補(bǔ)Scrapy框架的這些缺點(diǎn)產(chǎn)生了許多框架插件進(jìn)行解決，比如，Scrapy-Redis庫解決了Scrapy框架不支持分布式爬蟲的問題，Scrapy-Splash庫解決了Scrapy框架不支持JavaScript動(dòng)態(tài)渲染的問題等。9.2Scrapy框架架構(gòu)Scrapy框架的強(qiáng)大功能離不開眾多組件的支撐，這些組件相互協(xié)作，共同完成整個(gè)采集數(shù)據(jù)的任務(wù)。Scrapy框架的架構(gòu)圖如下圖所示。ItemPipelineDownloaderMiddlewaresSpiderMiddlewaresScrapyEngineSchedulerDownloaderSpidersScrapy框架中包含的組件。9.2Scrapy框架架構(gòu)Scrapy框架中包含的組件。（1）ScrapyEngine（引擎）：負(fù)責(zé)Scheduler、Spiders、ItemPipeline、Downloader這幾個(gè)組件之間的通信，包括信號(hào)和數(shù)據(jù)的傳遞等。（2）Scheduler（調(diào)度器）：負(fù)責(zé)接收ScrapyEngine發(fā)送過來的Requests（請(qǐng)求），并按照一定的方式進(jìn)行整理排列和入隊(duì)，在ScrapyEngine需要時(shí)再次將請(qǐng)求交還給ScrapyEngine。（3）Downloader：負(fù)責(zé)下載由ScrapyEngine發(fā)送的所有Requests，并將其獲取到的Responses（響應(yīng)）交還給ScrapyEngine，由ScrapyEngine交給Spiders進(jìn)行處理。（4）Spiders：負(fù)責(zé)處理所有Responses，從Responses中解析并提取Items封裝的數(shù)據(jù)，并將需要跟進(jìn)的URL提交給ScrapyEngine，再次進(jìn)入Scheduler。9.2Scrapy框架架構(gòu)Scrapy框架中包含的組件。（5）ItemPipeline：負(fù)責(zé)處理Spiders中獲取的Items封裝的數(shù)據(jù)，并對(duì)這些數(shù)據(jù)進(jìn)行后期處理，如詳細(xì)分析、過濾、存儲(chǔ)等。（6）DownloaderMiddlewares：位于Downloader和ScrapyEngine之間，可以自定義擴(kuò)展下載功能的組件。（7）SpiderMiddlewares：位于Spiders和ScrapyEngine之間，可以自定義擴(kuò)展ScrapyEngine和Spiders中間通信的功能組件。9.2Scrapy框架架構(gòu)熟悉Scrapy框架的運(yùn)作流程，能夠歸納Scrapy框架的運(yùn)作流程學(xué)習(xí)目標(biāo)9.3Scrapy框架運(yùn)作流程Scrapy框架各組件之間的運(yùn)作流程9.3Scrapy框架運(yùn)作流程9.3Scrapy框架運(yùn)作流程（1）ScrapyEngine從Spiders中獲取初始URL。（2）ScrapyEngine將初始URL封裝成Requests交給Scheduler。（3）Scheduler將下一個(gè)Requests交給ScrapyEngine。（4）ScrapyEngine將Requests通過DownloaderMiddlewares轉(zhuǎn)交給Downloader。（5）頁面完成下載后，Downloader生成一個(gè)該頁面的Responses，并將該Responses通過DownloaderMiddlewares交給ScrapyEngine。（6）ScrapyEngine從Downloader中接收到Responses，并通過SpiderMiddlewares轉(zhuǎn)交給Spiders進(jìn)行處理。（7）Spiders處理Responses，并將處理后的Items或新的Requests（比如在前面案例中看到的“下一頁”鏈接）交給ScrapyEngine。（8）ScrapyEngine將處理后的Items交給ItemPipeline，將新的Requests交給Scheduler。重復(fù)步驟（1）～（8），直到Scheduler中沒有新的Requests為止。Scrapy框架各組件之間的運(yùn)作步驟多學(xué)一招ScrapyEngine：Hi！Spiders，你要處理哪一個(gè)網(wǎng)站？Spiders：老大要我處理。ScrapyEngine：你把第一個(gè)需要處理的URL給我吧。Spiders：給你，第一個(gè)URL是。ScrapyEngine：Hi！Scheduler，我這有一個(gè)請(qǐng)求（根據(jù)以上URL封裝的Request），你幫我排序入隊(duì)一下。Scheduler：好的，正在處理，你等一下。ScrapyEngine：Hi！Scheduler，把你處理好的請(qǐng)求給我。Scheduler：給你，這是我處理好的請(qǐng)求。ScrapyEngine：Hi！Downloader，你按照老大的Downloadermiddlewares的設(shè)置，幫我按這個(gè)請(qǐng)求下載些東西。Scrapy擬人小劇場(chǎng)從加粗一行的對(duì)白開始重復(fù)交流，直到處理完老大需要的全部信息。多學(xué)一招Downloader：好的，給你，這是下載好的東西（如果下載失敗，則這句話會(huì)換成“Sorry，這個(gè)請(qǐng)求下載失敗了”，然后ScrapyEngine會(huì)告訴Scheduler“這個(gè)請(qǐng)求下載失敗了，你記錄一下，我們待會(huì)兒再下載”）。ScrapyEngine：Hi！Spider，這是下載好的東西，并且按照老大的要求已被DownloaderMiddlewares處理過，你自己再處理一下。Spiders：Hi！ScrapyEngine，我這里有兩個(gè)結(jié)果，一個(gè)是我需要跟進(jìn)的URL，另一個(gè)是我獲取的Items。ScrapyEngine：Hi！ItemPipeline，我這兒有個(gè)Items需要你，幫助處理一下！Scheduler，這是需要跟進(jìn)的URL，你幫我處理下。ItemPipeline和Scheduler：好的，現(xiàn)在就做！Scrapy擬人小劇場(chǎng)掌握Scrapy框架的安裝方式，能夠獨(dú)立安裝Scrapy框架，并能解決安裝過程中出現(xiàn)的常見問題學(xué)習(xí)目標(biāo)9.4Scrapy框架安裝Scrapy是一個(gè)第三方框架，如果要使用該框架開發(fā)網(wǎng)絡(luò)爬蟲程序，需要先在計(jì)算機(jī)中安裝該框架。以Windows7操作系統(tǒng)為例，分別對(duì)安裝Scrapy和常見安裝問題進(jìn)行介紹。9.4Scrapy框架安裝由于Windows7系統(tǒng)默認(rèn)沒有安裝Python，所以在安裝Scrapy框架之前，需要保證Windows7系統(tǒng)下已經(jīng)安裝了Python。在命令提示符窗口中使用pip工具安裝Scrapy框架。

安裝Scrapypipinstallscrapy==2.5.09.4Scrapy框架安裝在Windows7系統(tǒng)下安裝Scrapy框架常見的兩個(gè)問題是缺少M(fèi)icrosoftVisualC++14.0組件和Twisted安裝出錯(cuò)。error:MicrosoftVisualC++14.0isrequired.Getitwith"MicrosoftVisualC++BuildTools":/visual-cpp-build-tools缺少M(fèi)icrosoftVisualC++14.0組件9.4Scrapy框架安裝

常見安裝問題

常見安裝問題缺少M(fèi)icrosoftVisualC++14.0組件若當(dāng)前電腦上缺少M(fèi)icrosoftVisualC++14.0組件，則可以單獨(dú)安裝該組件。在瀏覽器中進(jìn)入下載MicrosoftVisualC++14.0組件的頁面。完成下載后可以看到下載的安裝包。雙擊安裝包進(jìn)行安裝，在安裝過程中全部保持默認(rèn)設(shè)置即可，無須進(jìn)行任何修改。需要注意的是，我們?cè)赩isualStudio2015組件安裝完成之后需要重啟計(jì)算機(jī)。單擊下載9.4Scrapy框架安裝Twisted安裝出錯(cuò)由于Scrapy框架使用了異步網(wǎng)絡(luò)框架Twisted，所以在安裝Scrapy的過程中需要安裝Twisted。若沒有安裝Teisted，則出現(xiàn)以下信息。fatalerrorC1083:Cannotopenincludefile:'basetsd.h':Nosuchfileordirectoryerror:command'C:\\ProgramFiles(x86)\\MicrosoftVisualStudio14.0\\VC\\BIN\\x86_amd64\\cl.exe'failedwithexitstatus29.4Scrapy框架安裝

常見安裝問題Twisted安裝出錯(cuò)若未安裝Twisted，則可以單獨(dú)安裝。在瀏覽器中訪問Twisted的下載頁面。pipinstallTwisted20.3.0cp36cp36mwin32.whl在Twisted下載頁面中選擇適合自己電腦的安裝包進(jìn)行安裝。9.4Scrapy框架安裝

常見安裝問題Scrapy框架基本操作9.5使用Scrapy框架開發(fā)網(wǎng)絡(luò)爬蟲程序一般包含4個(gè)步驟，分別為新建Scrapy項(xiàng)目、明確采集目標(biāo)、制作爬蟲和永久存儲(chǔ)數(shù)據(jù)。9.5Scrapy框架基本操作掌握爬蟲項(xiàng)目創(chuàng)建的方式，能夠通過Scrapy命令創(chuàng)建爬蟲項(xiàng)目學(xué)習(xí)目標(biāo)9.5.1新建Scapy項(xiàng)目新建Scrapy項(xiàng)目便是使用Scrapy框架的第一步，主要是將前面提過的各個(gè)組件整合到一起后，方便進(jìn)行統(tǒng)一管理。新建Scrapy項(xiàng)目需要使用如下命令：9.5.1新建Scapy項(xiàng)目scrapystartproject項(xiàng)目名稱例如，使用創(chuàng)建爬蟲項(xiàng)目創(chuàng)建mySpider爬蟲項(xiàng)目。mySpider項(xiàng)目的目錄結(jié)構(gòu)如下所示。9.5.1新建Scapy項(xiàng)目mySpider/：項(xiàng)目的Python模塊，將會(huì)從這里引用代碼。mySpider/spiders/：存放爬蟲代碼的目錄。mySpider/items.py：項(xiàng)目的實(shí)體文件，用于定義項(xiàng)目的目標(biāo)實(shí)體。mySpider/middlewares.py：項(xiàng)目的中間件文件，用于定義爬蟲中間件。mySpider/pipelines.py：項(xiàng)目的管道文件，用于定義項(xiàng)目使用的管道。mySpider/settings.py：項(xiàng)目的設(shè)置文件，用于存儲(chǔ)項(xiàng)目的設(shè)置信息。scrapy.cfg：配置文件，用于存儲(chǔ)項(xiàng)目的配置信息。明確爬蟲項(xiàng)目中明確采集目標(biāo)，能夠在Scrapy中添加爬取字段學(xué)習(xí)目標(biāo)9.5.2明確采集目標(biāo)mySpider項(xiàng)目要采集的目標(biāo)數(shù)據(jù)是某培訓(xùn)公司的講師詳情頁中的講師信息，包括講師的姓名、級(jí)別和履歷。9.5.2明確采集目標(biāo)方框標(biāo)注出的講師的姓名、級(jí)別和履歷便是要采集的數(shù)據(jù)。Scrapy中提供了一個(gè)表示實(shí)體數(shù)據(jù)的基類scrapy.Item，用于封裝這些待采集的數(shù)據(jù)，在mySpider目錄下的items.py文件中MyspiderItem類中添加抓取的信息。9.5.2明確采集目標(biāo)classMyspiderItem(scrapy.Item):name=scrapy.Field()#表示講師姓名

level=scrapy.Field()#表示講師級(jí)別

resume=scrapy.Field()#表示講師履歷掌握制作Scrapy爬蟲，能夠使用Scrapy提取指定數(shù)據(jù)學(xué)習(xí)目標(biāo)9.5.3制作爬蟲9.5.3制作爬蟲制作爬蟲的流程一般可以分為3步，分別是創(chuàng)建爬蟲、抓取網(wǎng)頁數(shù)據(jù)和解析網(wǎng)頁數(shù)據(jù)。創(chuàng)建爬蟲創(chuàng)建爬蟲主要是為爬蟲起一個(gè)名稱，并規(guī)定該爬蟲的爬取域，也就是要爬取的域名范圍。scrapygenspider爬蟲名稱"爬取域"9.5.3制作爬蟲例如，在命令行窗口中切換當(dāng)前的目錄為子目錄mySpider/spiders，創(chuàng)建一個(gè)名稱為itcast、爬取域?yàn)榈呐老x。scrapygenspideritcast""創(chuàng)建爬蟲在PyCharm中打開mySpider/spiders目錄，可以看到新創(chuàng)建的itcast.py，該文件的內(nèi)容已經(jīng)自動(dòng)生成。importscrapyclassItcastSpider(scrapy.Spider):name='itcast'allowed_domains=['']start_urls=['/']defparse(self,response):passItcastSpider是自動(dòng)生成的類，它繼承自scrapy.Spider類。9.5.3制作爬蟲創(chuàng)建爬蟲ItcastSpider類中包含了3個(gè)屬性和1個(gè)方法，關(guān)于這些屬性和方法的介紹如下。9.5.3制作爬蟲name屬性：表示爬蟲的名稱。爬蟲的名稱必須是唯一的，不同的爬蟲需要有不同的名稱。allowed_domains屬性：表示爬蟲搜索的域名范圍。該屬性用于規(guī)定爬蟲只能抓取指定域名范圍內(nèi)的網(wǎng)頁，忽略不屬于該域名范圍內(nèi)的網(wǎng)頁。start_urls屬性：表示包含起始URL的元組或列表，用于指定爬蟲首次從哪個(gè)網(wǎng)頁開始抓取。parse(self,response)方法：用于解析網(wǎng)頁數(shù)據(jù)（response.body），并返回抽取的數(shù)據(jù)或者新生成的要跟進(jìn)的URL。該方法會(huì)在每個(gè)初始URL完成下載后被調(diào)用，被調(diào)用的時(shí)候傳入從該URL返回的Response對(duì)象作為唯一參數(shù)。創(chuàng)建爬蟲9.5.3制作爬蟲首先對(duì)剛剛生成的ItcastSpider類進(jìn)行修改，為爬蟲指定要抓取的初始URL，具體代碼如下。start_urls=['/channel/teacher.shtml']然后修改parse()方法，在該方法中將response中的內(nèi)容寫入到本地的teacher_info.txt文件中，具體代碼如下。defparse(self,response):withopen("teacher_info.txt","w",encoding="utf-8")asfile:file.write(response.text)創(chuàng)建爬蟲9.5.3制作爬蟲確定了初始URL之后就可以運(yùn)行爬蟲，讓爬蟲根據(jù)該URL抓取網(wǎng)頁數(shù)據(jù)了。運(yùn)行爬蟲的命令格式如下。scrapycrawl爬蟲名稱例如，在命令行窗口中切換當(dāng)前目錄為itcast.py文件所在的目錄，運(yùn)行爬蟲itcast，命令如下。scrapycrawlitcast抓取網(wǎng)頁數(shù)據(jù)9.5.3制作爬蟲抓取網(wǎng)頁數(shù)據(jù)mySpider/spiders目錄中增加了一個(gè)teacher_info.txt文件，打開該文件后可以看到抓取到的網(wǎng)頁源代碼。teacher_info.txt文件內(nèi)容如下。9.5.3制作爬蟲解析網(wǎng)頁數(shù)據(jù)在講師詳情頁選中“黃老師”后右擊，在彈出的右鍵菜單中選擇“檢查”，此時(shí)瀏覽器底部彈出開發(fā)者工具，并定位到文字“黃老師”所對(duì)應(yīng)的元素。9.5.3制作爬蟲解析網(wǎng)頁數(shù)據(jù)在爬蟲項(xiàng)目中定義解析網(wǎng)頁數(shù)據(jù)的代碼，并將解析后的數(shù)據(jù)封裝成MyspiderItem類的對(duì)象，每個(gè)對(duì)象代表著一個(gè)講師的信息。首先，在mySpider/spiders目錄的itcast.py文件中，導(dǎo)入mySpider/items.py中定義的MyspiderItem類。frommySpider.itemsimportMyspiderItem9.5.3制作爬蟲解析網(wǎng)頁數(shù)據(jù)然后，修改ItcastSpider類的parse()方法，將解析后的目標(biāo)數(shù)據(jù)封裝成一個(gè)MyspiderItem對(duì)象，并且將所有的MyspiderItem對(duì)象保存到一個(gè)列表中。defparse(self,response):items=[]#存儲(chǔ)所有講師的信息

foreachinresponse.xpath("http://div[@class='li_txt']"):

item=MyspiderItem()#創(chuàng)建MyspiderItem類的對(duì)象

name=each.xpath("h3/text()").extract()level=each.xpath("h4/text()").extract()resume=each.xpath("p/text()").extract()

item["name"]=name[0]item["level"]=level[0]item["resume"]=resume[0]items.append(item)

returnitems9.5.3制作爬蟲解析網(wǎng)頁數(shù)據(jù)最后，在命令行窗口中再次使用“scrapycrawlitcast”命令運(yùn)行爬蟲itcast，可以看到命令行窗口中打印了獲取到的講師信息。[單擊查看源碼]多學(xué)一招在PyCharm中執(zhí)行爬蟲在PyCharm中執(zhí)行爬蟲itcast具體步驟如下。（1）在PyCharm中打開mySpider項(xiàng)目，在該項(xiàng)目中添加一個(gè)文件start.py，文件中的內(nèi)容具體如下所示：fromscrapyimportcmdlinecmdline.execute("scrapycrawlitcast".split())（2）在PyCharm中運(yùn)行start.py文件，此時(shí)便可以在控制臺(tái)中看到打印的講師信息。

多學(xué)一招Scrapyshell是一個(gè)交互式終端，它可以在不啟動(dòng)爬蟲的情況下嘗試及調(diào)試爬取部分的代碼，也可以測(cè)試XPath路徑表達(dá)式或CSS表達(dá)式是否正確，避免每次修改表達(dá)式后運(yùn)行爬蟲的麻煩。ScrapyShell多學(xué)一招ScrapyShell啟用ScrapyShell啟用Scrapyshell的命令如下所示。scrapyshell<URL>#URL是待抓取URL地址多學(xué)一招啟用ScrapyShell例如，在Windows命令行窗口中輸入“scrapyshell”命令即可啟用Scrapyshell訪問百度首頁，并且終端會(huì)輸出大量提示信息。C:\Users\admin>scrapyshell2021-08-2314:54:29[scrapy.utils.log]INFO:Scrapy2.5.0started(bot:scrapybot).......(省略)2021-08-2314:54:30[scrapy.core.engine]INFO:Spideropened2021-08-2314:54:33[scrapy.core.engine]DEBUG:Crawled(200)<GET>(referer:None)表示訪問網(wǎng)頁結(jié)果為成功ScrapyShell多學(xué)一招在PyCharm中執(zhí)行爬蟲使用ScrapyShellScarpyshell可以看成是一個(gè)在Python終端（或IPython）基礎(chǔ)上添加了擴(kuò)充功能的Python控制臺(tái)程序，這些擴(kuò)充包括若干功能函數(shù)和內(nèi)置對(duì)象。（1）功能函數(shù)shelp()：打印可用對(duì)象和功能函數(shù)的幫助列表。fetch(request_or_url)：根據(jù)給定的request或URL獲取一個(gè)新的response對(duì)象，并更新原有的相關(guān)對(duì)象。view(response)：使用本機(jī)的瀏覽器打開給定的response對(duì)象。ScrapyShell多學(xué)一招使用ScrapyShell（2）內(nèi)置對(duì)象crawler：當(dāng)前Crawler對(duì)象。spider：處理URL的Spider對(duì)象。request：最近獲取到的頁面的Request對(duì)象。response：包含最近獲取到的頁面的Response對(duì)象。settings：當(dāng)前的Scrapysettings。ScrapyShell多學(xué)一招使用ScrapyShell（2）內(nèi)置對(duì)象當(dāng)Scrapyshell載入頁面后，將得到一個(gè)包含Response的本地response變量。若在終端輸入response.body，則可以看到response的請(qǐng)求數(shù)據(jù)；若在終端輸入response.headers，則可以看到response的請(qǐng)求頭；若在終端輸入response.selector，則將獲取一個(gè)response初始化的類Selector的對(duì)象（HTML及XML內(nèi)容）。此時(shí)可以通過使用response.selector.xpath()或response.selector.css()對(duì)response進(jìn)行查詢。另外，Scrapy還提供了一些快捷方式，例如response.xpath()或response.css()同樣可以生效。ScrapyShell掌握永久存儲(chǔ)數(shù)據(jù)的方式，能夠通過命令將數(shù)據(jù)保存到本地學(xué)習(xí)目標(biāo)9.5.4永久存儲(chǔ)數(shù)據(jù)永久存儲(chǔ)數(shù)據(jù)是使用Scrapy框架的最后一步操作，主要是對(duì)獲取的目標(biāo)數(shù)據(jù)進(jìn)行永久性存儲(chǔ)。Scrapy中主要有4種方式簡(jiǎn)單保存數(shù)據(jù)，這4種方式都是在運(yùn)行爬蟲的命令后面加上-o選項(xiàng)，通過該選項(xiàng)輸出指定格式的文件。9.5.4永久存儲(chǔ)數(shù)據(jù)#輸出JSON格式，默認(rèn)為Unicode編碼scrapycrawlitcast-oteachers.json#輸出JSONLines格式，默認(rèn)為Unicode編碼scrapycrawlitcast-oteacher

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》 課件-第9章 初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》課件-第9章初識(shí)網(wǎng)絡(luò)爬蟲框架Scrapy