




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第python爬蟲Scrapy框架:媒體管道原理學(xué)習(xí)分析目錄一、媒體管道1.1、媒體管道的特性媒體管道實(shí)現(xiàn)了以下特性:圖像管道具有一些額外的圖像處理功能:1.2、媒體管道的設(shè)置二、ImagesPipeline類簡介三、小案例:使用圖片管道爬取百度圖片3.1、spider文件3.2、items文件3.3、settings文件3.4、pipelines文件
一、媒體管道
1.1、媒體管道的特性
媒體管道實(shí)現(xiàn)了以下特性:
避免重新下載最近下載的媒體
指定存儲位置(文件系統(tǒng)目錄,AmazonS3bucket,谷歌云存儲bucket)
圖像管道具有一些額外的圖像處理功能:
將所有下載的圖片轉(zhuǎn)換為通用格式(JPG)和模式(RGB)
生成縮略圖
檢查圖像的寬度/高度,進(jìn)行最小尺寸過濾
1.2、媒體管道的設(shè)置
ITEM_PIPELINES={'scrapy.pipelines.images.ImagesPipeline':120}啟用
FILES_STORE='/path/to/valid/dir'文件管道存放位置
IMAGES_STORE='/path/to/valid/dir'圖片管道存放位置
FILES_URLS_FIELD='field_name_for_your_files_urls'自定義文件url字段
FILES_RESULT_FIELD='field_name_for_your_processed_files'自定義結(jié)果字段
IMAGES_URLS_FIELD='field_name_for_your_images_urls'自定義圖片url字段
IMAGES_RESULT_FIELD='field_name_for_your_processed_images'結(jié)果字段
FILES_EXPIRES=90文件過期時(shí)間默認(rèn)90天
IMAGES_EXPIRES=90圖片過期時(shí)間默認(rèn)90天
IMAGES_THUMBS={'small':(50,50),'big':(270,270)}縮略圖尺寸
IMAGES_MIN_HEIGHT=110過濾最小高度
IMAGES_MIN_WIDTH=110過濾最小寬度
MEDIA_ALLOW_REDIRECTS=True是否重定向
二、ImagesPipeline類簡介
#解析settings里的配置字段
def__init__(self,store_uri,download_func=None,settings=None)
#圖片下載
defimage_downloaded(self,response,request,info)
#圖片獲取圖片大小的過濾#縮略圖的生成
defget_images(self,response,request,info)
#轉(zhuǎn)化圖片格式
defconvert_image(self,image,size=None)
#生成媒體請求可重寫
defget_media_requests(self,item,info)
return[Request(x)forxinitem.get(self.images_urls_field,[])]#得到圖片url變成請求發(fā)給引擎
#此方法獲取文件名進(jìn)行改寫
defitem_completed(self,results,item,info)
#文件路徑
deffile_path(self,request,response=None,info=None)
#縮略圖的存儲路徑
defthumb_path(self,request,thumb_id,response=None,info=None):
三、小案例:使用圖片管道爬取百度圖片
(當(dāng)然不使用圖片管道的話也是可以爬取百度圖片的,但這還需要我們?nèi)シ治鼍W(wǎng)頁的代碼,還是有點(diǎn)麻煩,使用圖片管道就可以省去這個(gè)步驟了)
3.1、spider文件
注意:由于需要添加所有的請求頭,所以我們要重寫start_requests函數(shù)
importre
importscrapy
from..itemsimportDbimgItem
classDbSpider(scrapy.Spider):
name='db'
#allowed_domains=['']
start_urls=['/search/indextn=baiduimageipn=rct=201326592cl=2lm=-1st=-1fm=indexfr=hs=0xthttps=111110sf=1fmq=pv=ic=0nc=1z=se=1showtab=0fb=0width=height=face=0istype=2ie=utf-8word=%E7%8B%97oq=%E7%8B%97rsp=-1']
defstart_requests(self):#因?yàn)樾枰砑铀械恼埱箢^,所以我們要重寫start_requests函數(shù)
#url='/search/indextn=baiduimageipn=rct=201326592cl=2lm=-1st=-1fm=indexfr=hs=0xthttps=111110sf=1fmq=pv=ic=0nc=1z=se=1showtab=0fb=0width=height=face=0istype=2ie=utf-8word=%E7%8B%97oq=%E7%8B%97rsp=-1'
headers={
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"Accept-Encoding":"gzip,deflate,br",
"Accept-Language":"zh-CN,zh;q=0.9",
"Cache-Control":"max-age=0",
"Connection":"keep-alive",
"Cookie":"BIDUPSID=4B61D634D704A324E3C7E274BF11F280;PSTM=1624157516;BAIDUID=4B61D634D704A324C7EA5BA47BA5886E:FG=1;__yjs_duid=1_f7116f04cddf75093b9236654a2d70931624173362209;BAIDUID_BFESS=101022AEE931E08A9B9A3BA623709CFE:FG=1;BDORZ=B490B5EBF6F3CD402E515D22BCDA1598;BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm;cleanHistoryStatus=0;H_PS_PSSID=34099_33969_34222_31660_34226_33848_34113_34073_33607_34107_34134_34118_26350_22159;delPer=0;PSINO=6;BA_HECTOR=24ak842ka421210koq1gdtj070r;BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm;userFrom=;firstShowTip=1;indexPageSugList=%5B%22%E7%8B%97%22%2C%22%E7%8C%AB%E5%92%AA%22%2C%22%E5%B0%8F%E9%80%8F%E6%98%8E%22%5D;ab_sr=1.0.1_OGYwMTZiMjg5ZTNiYmUxODIxOTgyYTllZGMyMzhjODE2ZWE5OGY4YmEyZWVjOGZhOWIxM2NlM2FhZTQxMmFjODY0OWZiNzQxMjVlMWIyODVlZWFiZjY2NTQyMTZhY2NjNTM5NDNmYTFmZjgxMTlkOGYxYTUzYTIzMzA0NDE3MGNmZDhkYTBkZmJiMmJhZmFkZDNmZTM1ZmI2MWZkNzYyYQ==",
"Host":"",
"Referer":"/",
"sec-ch-ua":'"Not;ABrand";v="99","GoogleChrome";v="91","Chromium";v="91"',
"sec-ch-ua-mobile":"0",
"Sec-Fetch-Dest":"document",
"Sec-Fetch-Mode":"navigate",
"Sec-Fetch-Site":"same-origin",
"Sec-Fetch-User":"1",
"Upgrade-Insecure-Requests":"1",
"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.106Safari/537.36"
forurlinself.start_urls:
yieldscrapy.Request(url,headers=headers,callback=self.parse,dont_filter=True)
defparse(self,response):
img_urls=re.findall('"thumbURL":"(.*)"',response.text)
#print(img_urls)
item=DbimgItem()
item['image_urls']=img_urls
yielditem
3.2、items文件
importscrapy
classDbimgItem(scrapy.Item):
#definethefieldsforyouritemherelike:
#name=scrapy.Field()
image_urls=scrapy.Field()
3.3、settings文件
ROBOTSTXT_OBEY=False
#打開我們寫的管道
ITEM_PIPELINES={
#'dbimg.pipelines.DbimgPipeline':300,
'dbimg.pipelines.ImgPipe':300,
#圖片存放位置
IMAGES_STORE='D:/pythontest/爬蟲/scrapy6/dbimg/imgs'
3.4、pipelines文件
importos
fromitemadapterimportItemAdapter
fromscrapy.pipelines.imagesimportImagesPipeline
importsettings
defitem_completed(self,results,item,info):
withsuppress(KeyError):
ItemAdapter(item)[self.images_result_field]=[xforok,xinresultsifok]
returnitem
classImgPipe(ImagesPipeline):
num=0
#重寫此函數(shù)修改獲取的圖片的名字不然圖片名稱就是一串?dāng)?shù)字字母
defitem_completed(self,results,item,info):
images_path=[x['path']forok,xinresultsifok]
#print('results:',results)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 領(lǐng)養(yǎng)套路合同協(xié)議書范本
- 中國六偏磷酸鈉項(xiàng)目經(jīng)營分析報(bào)告
- 瓷磚供貨合同協(xié)議書下載
- 內(nèi)蒙古聚烯烴項(xiàng)目投資分析報(bào)告模板范文
- 家庭減肥合同協(xié)議書搞笑
- 健康摘果子課件
- 重慶智能制造裝備項(xiàng)目商業(yè)計(jì)劃書
- 苗木代銷合同協(xié)議書范本
- 廣告招牌制作安裝合同協(xié)議書
- 大家樂一百加
- 伍德密封強(qiáng)度計(jì)算
- 產(chǎn)婦可以吃蛹蟲草嗎:哺乳期婦女可以吃蛹蟲草嗎
- 《化工原理》課程思政教學(xué)案例(一等獎(jiǎng))
- 以助產(chǎn)士為主導(dǎo)的連續(xù)護(hù)理模式的發(fā)展現(xiàn)狀
- 國家統(tǒng)一法律職業(yè)資格官方題庫:刑事訴訟法-考試題庫(含答案)
- 風(fēng)電場風(fēng)機(jī)塔筒清洗項(xiàng)目四措兩案(三措兩案)
- 中國傳統(tǒng)文化(西安交通大學(xué))智慧樹知到答案章節(jié)測試2023年
- 【超星爾雅學(xué)習(xí)通】《美術(shù)鑒賞》2020章節(jié)測試題及答案
- 多發(fā)性損傷的急診
- 新高考統(tǒng)編教材必背古詩文-教材外篇目(廣東省適用)
- GB/T 7705-2008平版裝潢印刷品
評論
0/150
提交評論