《數(shù)據(jù)采集技術》課件-Beautiful Soup_第1頁
《數(shù)據(jù)采集技術》課件-Beautiful Soup_第2頁
《數(shù)據(jù)采集技術》課件-Beautiful Soup_第3頁
《數(shù)據(jù)采集技術》課件-Beautiful Soup_第4頁
《數(shù)據(jù)采集技術》課件-Beautiful Soup_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

BeautifulSoupContents知識目標掌握BeautifulSoup使用方法技能目標提高數(shù)據(jù)采集和處理能力素養(yǎng)目標培養(yǎng)良好的信息素養(yǎng)和道德意識BeautifulSoup開發(fā)BeautifulSoup4版本,簡稱為bs4bs4是一個Python庫,功能:OR中提取數(shù)據(jù)從節(jié)省大量工作時間提高開發(fā)項目效率可以通過轉(zhuǎn)換器實現(xiàn)慣用的文檔導航和查找方式bs4安裝、使用安裝bs4庫:運行命令pipinstallbs4導入bs4庫:通過語句frombs4importBeautifulSoupbs4安裝、使用運行命令pipinstallbs4安裝bs4庫:導入bs4庫:通過語句frombs4importBeautifulSoupbs4安裝、使用使用bs4的一般流程:創(chuàng)建BeautifulSoup對象:根據(jù)要解析的或

,創(chuàng)建一個BeautifulSoup對象。調(diào)用BeautifulSoup的構造函數(shù)創(chuàng)建對象bs4安裝、使用使用bs4的一般流程:搜索和遍歷文檔樹:使用BeautifulSoup提供的方法來搜索和遍歷文檔樹。使用find()或find_all()方法搜索滿足特定條件的節(jié)點并使用點操作符和CSS選擇器來訪問節(jié)點的屬性和文本。例如bs4安裝、使用使用bs4的一般流程:提取和操作數(shù)據(jù):一旦找到了所需的節(jié)點,可以訪問:節(jié)點的名稱節(jié)點的屬性節(jié)點的文本并根據(jù)需要進行進一步的數(shù)據(jù)提取和處理。bs4安裝、使用通過一個字符串或者類文件對象可以創(chuàng)建BeautifulSoup類的對象例如,根據(jù)字符串html_doc創(chuàng)建一個BeautifulSoup對象:示例:frombs4importBeautifulSoupsoup=BeautifulSoup(html_doc,'lxml')print(soup)運行結(jié)果:<html><head><title>TheDormouse'sstory</title></head><body><pclass="title"><b>TheDormouse'sstory</b></p><pclass="story">Onceuponatimetherewerethreelittlesisters;andtheirnameswere<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>and<aclass="sister"href="/wangwu"id="link3">wangwu</a>;andtheylivedatthebottomofawell.</p><pclass="story">...</p></body></html>創(chuàng)建BeautifulSoup實例時共傳入兩個參數(shù)。第一個參數(shù)表示包含被解析HTML文檔的字符串,第二個參數(shù)表示使用lxml解析器進行解析。BeautifulSoup常見的解析器BeautifulSoup支持Python標準庫中的HTML解析器以及一些第三方的解析器,常見的解析器如下表所示:解析器使用方法優(yōu)勢劣勢Python標準庫BeautifulSoup(markup,“html.parser”)Python的內(nèi)置標準庫執(zhí)行速度適中文檔容錯能力強Python2.7.3or3.2.2前的版本中文檔容錯能力差lxmlHTML解析器BeautifulSoup(markup,“l(fā)xml”)速度快文檔容錯能力強需要安裝C語言庫lxmlXML解析器BeautifulSoup(markup,[“l(fā)xml”,“xml”])BeautifulSoup(markup,“xml”)速度快唯一支持XML的解析器需要安裝C語言庫html5libBeautifulSoup(markup,“html5lib”)最好的容錯性以瀏覽器的方式解析文檔生成HTML5格式的文檔速度慢BeautifulSoup常見的解析器BeautifulSoup對象會根據(jù)當前系統(tǒng)安裝的庫自動選擇解析器,選擇順序為:lxml如果沒有指定解析器創(chuàng)建BeautifulSoup對象時:html5libPython標準庫>>通過操作方法進行解讀搜索bs4庫內(nèi)置了一些查找方法,其中常用的兩個方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個標簽節(jié)點。查找所有符合查詢條件的標簽節(jié)點,并返回一個列表。兩個方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過一些查找方法獲取文本或者標簽屬性通過操作方法進行解讀搜索為了能獲得這些有用的網(wǎng)頁信息,可以通過一些查找方法獲取文本或者標簽屬性。bs4庫內(nèi)置了一些查找方法,其中常用的兩個方法功能如下:find()方法findall()方法用于查找符合查詢條件的第一個標簽節(jié)點。查找所有符合查詢條件的標簽節(jié)點,并返回一個列表。兩個方法用到的參數(shù)是一樣的,以find_all()方法為例:find_all(self,name=None,attrs={},recursive=True,text=None,limit=None,**kwargs)通過操作方法進行解讀搜索示例1:soup.find_all('b')運行結(jié)果:[<b>TheDormouse'sstory</b>]示例2:fortaginsoup.find_all(pile("^b")):print()運行結(jié)果:bodybname參數(shù):查找所有名字為name的標簽,字符串會被自動忽略掉。具體示例如下:示例3:soup.find_all(["a","b"])運行結(jié)果:[<b>TheDormouse'sstory</b>,<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]傳入字符串傳入列表傳入正則通過操作方法進行解讀搜索示例1:soup.find_all(id='link2')運行結(jié)果:[<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>]示例2:soup.find_all(href=pile("lisi"),id='link1')運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會把該參數(shù)當作指定名稱的標簽中的屬性來搜索。傳入屬性標簽傳入多個屬性通過操作方法進行解讀搜索keyword參數(shù):若指定名字的參數(shù)不是搜索方法中內(nèi)置的參數(shù)名,則會把該參數(shù)當作指定名稱的標簽中的屬性來搜索。傳入class標簽示例3:soup.find_all("a",class_="sister")運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]通過操作方法進行解讀搜索text參數(shù):跟name參數(shù)的可選值一樣,也可以接受字符串、正則表達式和列表等。soup.find_all(text="zhangsan")運行結(jié)果:[u'zhangsan']soup.find_all(text=["zhangsan","lisi","wangwu"])運行結(jié)果:[u'lisi',u'wangwu',u'zhangsan']find_all()方法返回的是標簽的文本內(nèi)容,而不是標簽對象本身。通過操作方法進行解讀搜索limit參數(shù):限制返回結(jié)果的數(shù)量,其效果跟SQL語句中的limit關鍵字所產(chǎn)生的效果類似。soup.find_all("a",limit=2)運行結(jié)果:[<aclass="sister"href="/elsie"id="link1">lisi</a>,<aclass="sister"href="/lacie"id="link2">zhangsan</a>]一旦搜索到結(jié)果的數(shù)量達到了limit的限制時,就會停止搜索。通過操作方法進行解讀搜索recursive參數(shù):如果只想搜索當前節(jié)點的直接子節(jié)點,那么就可以使用參數(shù)recursive=False。soup.html.find_all("title")運行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運行結(jié)果:[]recursive=False通過操作方法進行解讀搜索recursive參數(shù):如果只想搜索當前節(jié)點的直接子節(jié)點,就可以使用參數(shù)recursive=False。soup.html.find_all("title")運行結(jié)果:[<title>TheDormouse'sstory</title>]soup.html.find_all("title",recursive=False)運行結(jié)果:[]通過操作方法進行解讀搜索示例1:通過標簽查找:soup.select("title")運行結(jié)果:[<title>TheDormouse'sstory</title>]示例2:通過類名查找:soup.select(".sister")運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>,<aclass="sister"href="/zhangsan"id="link2">zhangsan</a>,<aclass="sister"href="/wangwu"id="link3">wangwu</a>]select()方法,會將CSS選擇器搜索到的結(jié)果放到列表中。通過操作方法進行解讀搜索BeautifulSoup類中提供了一個select()方法,該方法會將CSS選擇器搜索到的結(jié)果放到列表中。示例3:通過id名查找:soup.select('#link1')運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>]示例4:通過組合查找:soup.select("p#link1")soup.select('head>title')運行結(jié)果:[<aclass="sister"href="/lisi"id="link1">lisi</a>][<title>TheDormouse'sstory</title>]通過操作方法進行解讀搜索以上查找方法都會返回一個列表。遍歷這個列表,可以調(diào)用get_text()方法來獲取節(jié)點的內(nèi)容。forele

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論