《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書(shū)Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)_第1頁(yè)
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書(shū)Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)_第2頁(yè)
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書(shū)Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)_第3頁(yè)
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書(shū)Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)_第4頁(yè)
《Python程序設(shè)計(jì)》課件-項(xiàng)目八 獲取豆瓣讀書(shū)Top250網(wǎng)站信息 使用Beautiful Soup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python程序設(shè)計(jì)與應(yīng)用使用BeautifulSoup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)書(shū)名作者出版社出版時(shí)間價(jià)格評(píng)分評(píng)價(jià)人數(shù)評(píng)論房曉東主講教師使用BeautifulSoup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)使用網(wǎng)頁(yè)解析器從網(wǎng)頁(yè)中解析提取出所需數(shù)據(jù)使用BeautifulSoup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)Python學(xué)習(xí)目標(biāo)解析網(wǎng)頁(yè)技術(shù)解析工具的性能比較Beautiful

Soup4庫(kù)bs4庫(kù)中對(duì)象的種類(lèi)Python學(xué)習(xí)目標(biāo)使用bs4解析網(wǎng)頁(yè)數(shù)據(jù)的一般流程常用的查找方法select()方法使用bs4解析豆瓣讀書(shū)Top250網(wǎng)頁(yè)數(shù)據(jù)解析網(wǎng)頁(yè)技術(shù)技術(shù)正則表達(dá)式XPathBeautifulSoupJSONPath解析網(wǎng)頁(yè)技術(shù)文本正則表達(dá)式是基于文本的特征來(lái)匹配或查找指定數(shù)據(jù),它可以處理任何格式的字符串文檔。解析網(wǎng)頁(yè)技術(shù)正則表達(dá)式HTML/XML

XPath和BeautifulSoup是基于HTML/XML文檔的層次結(jié)構(gòu)來(lái)確定到達(dá)指定節(jié)點(diǎn)的路徑,適合處理層級(jí)比較明顯的數(shù)據(jù)。解析網(wǎng)頁(yè)技術(shù)正則表達(dá)式XPathBeautifulSoupJSON解析網(wǎng)頁(yè)技術(shù)JSONPathJSONPath專(zhuān)門(mén)用于JSON文檔的數(shù)據(jù)解析。解析網(wǎng)頁(yè)技術(shù)json模塊BeautifulSoupPythonre模塊lxml模塊支持正則表達(dá)式支持XPath語(yǔ)法JSONPath語(yǔ)法BeautifulSoup4解析工具的性能比較正則表達(dá)式XPathBeautifulSoup使用BeautifulSoup4解析豆瓣讀書(shū)Top250網(wǎng)站數(shù)據(jù)實(shí)際開(kāi)發(fā)中應(yīng)該如何選擇呢?解析工具的性能比較根據(jù)具體情況選擇合適的技術(shù)爬取工具速度使用難度安裝難度re最快困難無(wú)(內(nèi)置)lxml快簡(jiǎn)單一般beautifulsoup4慢最簡(jiǎn)單簡(jiǎn)單Beautiful

Soup4庫(kù)Beautiful

Soup4庫(kù)(也稱(chēng)BeautifulSoup或bs4)是一個(gè)用于解析和處理HTML、XML頁(yè)面并提取數(shù)據(jù)的第三方庫(kù)。建立的Web頁(yè)面一般比較復(fù)雜Beautiful

Soup4庫(kù)缺點(diǎn)根據(jù)HTML和XML語(yǔ)法建立解析樹(shù),進(jìn)而高效解析其中的內(nèi)容,為用戶(hù)提供需要的數(shù)據(jù)優(yōu)勢(shì)包含大量用于頁(yè)面格式的元素直接解析非常復(fù)雜bs4庫(kù)中對(duì)象的種類(lèi)對(duì)象歸納bs4庫(kù)中對(duì)象的種類(lèi)TagNavigableStringBeautifulSoupbs4庫(kù)將復(fù)雜的HTML文檔轉(zhuǎn)換成樹(shù)形結(jié)構(gòu)。CommentHTML中的標(biāo)簽標(biāo)簽中的文本對(duì)象特殊的NavigableString對(duì)象,如果HTML標(biāo)簽中有注釋?zhuān)瑒t可過(guò)濾注釋符號(hào)并保留注釋文本整個(gè)HTML文本對(duì)象,可作為T(mén)ag對(duì)象使用bs4解析網(wǎng)頁(yè)數(shù)據(jù)的一般流程通過(guò)BeautifulSoup對(duì)象的操作方法根據(jù)DOM樹(shù)進(jìn)行各種節(jié)點(diǎn)的搜索。如可按照按節(jié)點(diǎn)名稱(chēng)、節(jié)點(diǎn)屬性值、節(jié)點(diǎn)文本進(jìn)行搜索。利用DOM樹(shù)結(jié)構(gòu)標(biāo)簽的特性,進(jìn)行節(jié)點(diǎn)信息提取。搜索節(jié)點(diǎn)節(jié)點(diǎn)信息提取使用bs4解析網(wǎng)頁(yè)數(shù)據(jù)的一般流程流程根據(jù)HTML或者文件創(chuàng)建BeautifulSoup對(duì)象。創(chuàng)建BeautifulSoup對(duì)象常用的查找方法查找方法find_all()find()常用的查找方法搜索出所有滿足要求的節(jié)點(diǎn)搜索出第一個(gè)滿足要求的節(jié)點(diǎn),只要獲得了一個(gè)節(jié)點(diǎn),就可以訪問(wèn)節(jié)點(diǎn)名稱(chēng)、屬性和文本語(yǔ)法格式:常用的查找方法參數(shù)說(shuō)明:name:表示要查找的標(biāo)簽名。attrs:表示標(biāo)簽的屬性約束,采用josn格式。recursive:表示遞歸。text:表示查找文本,**kwargs:表示其他鍵值參數(shù)。select()方法select()方法標(biāo)簽名查類(lèi)名查找id查找select()方法子標(biāo)簽查找組合查找select()方法屬性查找使用bs4解析豆瓣讀書(shū)Top250網(wǎng)頁(yè)數(shù)據(jù)課程小結(jié)解析網(wǎng)頁(yè)技術(shù)解析工具的性能比較Beautiful

Soup4庫(kù)bs4庫(kù)中對(duì)象的種類(lèi)使用bs4解析網(wǎng)頁(yè)數(shù)據(jù)的一般流程常用的查找方法select()方法使用bs4解析豆瓣讀書(shū)T

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論