




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
【移動應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島
這篇文章主要介紹“怎么利用python3爬取漫畫島”,在日常操作中,相信很多人在怎么利用python3爬取漫畫島問題上存在疑惑,在下查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么利用python3爬取漫畫島”的疑惑有所幫助!接下來,請跟著在下一起來學(xué)習(xí)吧!首先是我們想要爬取的漫畫網(wǎng)頁:/網(wǎng)頁截圖:其次是爬取下來的效果:每一回的文件夾里面是這樣的:(因?yàn)榫W(wǎng)站圖片的問題...所以就成了這個鬼樣子)1、準(zhǔn)備:需要vscode或者其他能夠編譯運(yùn)行python的軟件,推薦python版本3.X,否則有可能出現(xiàn)編譯問題。下載所需模塊:win+R進(jìn)入命令行,輸入pipinstall<模塊名>即可下載。例如:pip
install
beautifulsoup42、原理:模擬瀏覽器點(diǎn)擊->打開漫畫網(wǎng)頁鏈接->獲取網(wǎng)頁源碼->定位每一章漫畫的鏈接->模擬點(diǎn)擊->獲取圖片頁面源碼->定位圖片鏈接->下載圖片1、引入模塊(這里不再詳述)
2、模擬瀏覽器訪問網(wǎng)頁(1)、這里我們打開漫畫的目錄頁,如下:url=”/Home/ComicDetail?id=58ddb07827a7c1392c234628“,此鏈接就是目錄頁鏈接。(2)、按F12打開此網(wǎng)頁的源碼(谷歌瀏覽器),選中上方NetWork,Ctrl+R刷新。(3)、找到加載網(wǎng)頁的源碼文件,點(diǎn)擊Headers,如下圖:StatusCode表示網(wǎng)頁返回的代碼,值為200時表示訪問成功。(4)、headers中的參數(shù)為下面紅框User-Agent。response
=
requests.get(url=url,
headers=headers)
#
模擬訪問網(wǎng)頁
print(response)
#
此處應(yīng)輸出
<Response
[200]>
print(response.text)
#
輸出網(wǎng)頁源碼兩個輸出分別輸出:
輸出返回200表示訪問成功。
(節(jié)選)(5)、將html代碼存入data中,xpath定位每一章鏈接。點(diǎn)擊上方Element,點(diǎn)擊:將鼠標(biāo)移至目錄處:右邊代碼區(qū)域出現(xiàn)每一章鏈接:data
=
etree.HTML(response.text)
#
tp
=
data.xpath("http://ul[@class="read-chapter"]/li/a[@class="active"]/@href")
tp
=
data.xpath("http://*[@class="yesReader"]/@href")
zhang_list
=
tp
#
tp為鏈接列表輸出zhang_list,結(jié)果如下:(6)、獲取圖片鏈接(獲取方式同上一步)點(diǎn)進(jìn)第一章,同上一步,尋找到圖片鏈接:i=1
for
next_zhang
in
zhang_list:
#
在章節(jié)列表中循環(huán)
i=i+1
j=0
hui_url
=
r_url+next_zhang
name1
=
"第"+str(i)+"回"
file
=
"C:/Users/wangyueke/Desktop/"+keyword+"/{}/".format(name1)
#
創(chuàng)建文件夾
if
not
os.path.exists(file):
os.makedirs(file)
print("創(chuàng)建文件夾:",
file)
response
=
requests.get(url=hui_url,
headers=headers)
#
模擬訪問每一章鏈接
data
=
etree.HTML(response.text)
#
tp
=
data.xpath("http://div[@class="no-pic"]//img/@src")
tp
=
data.xpath("http://div[@class="main-content"]//ul//li//div[@class="no-pic"]//img/@src")
#
定位
ye_list
=
tp(7)、下載圖片for
k
in
ye_list:
#
在每一章的圖片鏈接列表中循環(huán)
download_url
=
tp[j]
print(download_url)
j=j+1
file_name="第"+str(j)+"頁"
response
=
requests.get(url=download_url)
#
模擬訪問圖片鏈接
with
open(file+file_name+".jpg","wb")
as
f:
f.write(response.content)"""
用于爬取非人哉漫畫
目標(biāo)網(wǎng)址:/
開始時間:2019/8/14
20:01:26
完成時間:2019/8/15
11:04:56
作者:kong_gu
"""
import
requests
import
json
import
time
import
os
from
lxml
import
etree
from
bs4
import
BeautifulSoup
def
main():
keyword="非人哉"
file
=
"E:/{}".format(keyword)
if
not
os.path.exists(file):
os.mkdir(file)
print("創(chuàng)建文件夾:",file)
r_url="/"
url
=
"/Home/ComicDetail?id=58ddb07827a7c1392c234628"
headers
=
{
#
模擬瀏覽器訪問網(wǎng)頁
"User-Agent":
"Mozilla/5.0
(Windows
NT
10.0;
Win64;
x64)
AppleWebKit/537.36
(KHTML,
like
Gecko)
Chrome/75.0.3770.142
Safari/537.36"}
response
=
requests.get(url=url,
headers=headers)
#
print(response.text)
#
輸出網(wǎng)頁源碼
data
=
etree.HTML(response.text)
#
tp
=
data.xpath("http://ul[@class="read-chapter"]/li/a[@class="active"]/@href")
tp
=
data.xpath("http://*[@class="yesReader"]/@href")
zhang_list
=
tp
i=1
for
next_zhang
in
zhang_list:
i=i+1
j=0
hui_url
=
r_url+next_zhang
name1
=
"第"+str(i)+"回"
file
=
"C:/Users/wangyueke/Desktop/"+keyword+"/{}/".format(name1)
#
這里需要自己設(shè)置路徑
if
not
os.path.exists(file):
os.makedirs(file)
print("創(chuàng)建文件夾:",
file)
response
=
requests.get(url=hui_url,
headers=headers)
data
=
etree.HTML(response.text)
#
tp
=
data.xpath("http://div[@class="no-pic"]//img/@src")
tp
=
data.xpath("http://div[@class="main-content"]//ul//li//div[@class="no-pic"]//img/@src")
ye_list
=
tp
for
k
in
ye_list:
download_url
=
tp[j]
print(download_url)
j=j+1
file_name="第"+str(j)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 60270:2025 EN-FR High-voltage test techniques – Charge-based measurement of partial discharges
- 2025至2030中國電子廢物回收和再利用服務(wù)行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國環(huán)氧大豆油丙烯酸酯低聚物行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國豬肉行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 2025至2030中國特性水泥行業(yè)發(fā)展分析及前景趨勢與投資報告
- 智慧城市服務(wù)體系下市民滿意度提升策略研究
- 在線學(xué)習(xí)環(huán)境下的學(xué)生心理支持策略研究
- 企業(yè)培訓(xùn)中的智慧學(xué)習(xí)空間設(shè)計與體驗(yàn)優(yōu)化
- 教育政策與教師權(quán)益保障
- 2025年中國乙炔碳黑數(shù)據(jù)監(jiān)測研究報告
- 讀后續(xù)寫美好品德類代表勞動價值的車籃子講義-高三英語二輪復(fù)習(xí)
- 《三國的世界》解說詞 第一集 01
- 黃石市陽新縣法院系統(tǒng)書記員招聘考試真題
- 人教版高中英語必修第二冊《Unit2Wildlifeprotection》教案及教學(xué)反思
- solidworks-2018安裝教程(最詳細(xì))
- 留疆戰(zhàn)士考試題庫
- GB/T 701-2008低碳鋼熱軋圓盤條
- GB/T 21153-2007土方機(jī)械尺寸、性能和參數(shù)的單位與測量準(zhǔn)確度
- GA/T 1556-2019道路交通執(zhí)法人體血液采集技術(shù)規(guī)范
- 復(fù)習(xí)課專題講座課件
- 提高人工氣道氣囊管理正確率品管圈匯報書模板課件
評論
0/150
提交評論