網(wǎng)文章正文采集方法,以微信文章采集為例_第1頁(yè)
網(wǎng)文章正文采集方法,以微信文章采集為例_第2頁(yè)
網(wǎng)文章正文采集方法,以微信文章采集為例_第3頁(yè)
網(wǎng)文章正文采集方法,以微信文章采集為例_第4頁(yè)
網(wǎng)文章正文采集方法,以微信文章采集為例_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)頁(yè)文章正文采集方法,以及微信文章采集為例當(dāng)我們想要將今日頭條上的新聞、搜狗微信上的文章正文內(nèi)容保存下來的時(shí)候,怎么辦?一篇篇復(fù)制粘貼?選擇一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集器,將會(huì)使工作簡(jiǎn)單很多。八爪魚是一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集器,可采集互聯(lián)網(wǎng)上的公開數(shù)據(jù)。用戶可以設(shè)置從哪個(gè)網(wǎng)站爬取數(shù)據(jù),爬取那些數(shù)據(jù),爬取什么范圍的數(shù)據(jù),什么時(shí)候去爬取數(shù)據(jù),爬取的數(shù)據(jù)如何保存等等。言歸正傳,本文將以搜狗微信的文章正文采集為例,講解使用八爪魚采集網(wǎng)頁(yè)文章正文的方法。文章正文采集,主要有兩大類情況:一、采集文章正文中的文本,不含圖片;二、采集文章正文中的文本和圖片URL。示例網(wǎng)站: HYPERLINK / /使用功能點(diǎn):Xp

2、ath HYPERLINK /search?query=XPath /search?query=XPath判斷條件 HYPERLINK /tutorialdetail-1/judge.html /tutorialdetail-1/judge.html分頁(yè)列表信息采集 HYPERLINK /tutorial/fylb-70.aspx?t=1 /tutorial/fylb-70.aspx?t=1AJAX滾動(dòng)教程 HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.htmlAJAX點(diǎn)擊和翻頁(yè)/tutorialdetail-

3、1/ajaxdjfy_7.html采集文章正文中的文本,不含圖片具體步驟:步驟1:創(chuàng)建采集任務(wù)1)進(jìn)入主界面,選擇“自定義模式”網(wǎng)頁(yè)文章正文采集步驟12)將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“保存網(wǎng)址”網(wǎng)頁(yè)文章正文采集步驟2 HYPERLINK /article/javascript:; 步驟2:創(chuàng)建翻頁(yè)循環(huán)在頁(yè)面右上角,打開“流程”,以展現(xiàn)出“流程設(shè)計(jì)器”和“定制當(dāng)前操作”兩個(gè)板塊。網(wǎng)頁(yè)打開后,默認(rèn)顯示“熱門”文章。下拉頁(yè)面,找到并點(diǎn)擊“加載更多內(nèi)容”按鈕,在操作提示框中,選擇“更多操作”網(wǎng)頁(yè)文章正文采集步驟3選擇“循環(huán)點(diǎn)擊單個(gè)元素”,以創(chuàng)建一個(gè)翻頁(yè)循環(huán)網(wǎng)頁(yè)文章正文采集步驟4由于

4、此網(wǎng)頁(yè)涉及Ajax技術(shù),我們需要進(jìn)行一些高級(jí)選項(xiàng)的設(shè)置。選中“點(diǎn)擊元素”步驟,打開“高級(jí)選項(xiàng)”,勾選“Ajax加載數(shù)據(jù)”,設(shè)置時(shí)間為“2秒”網(wǎng)頁(yè)文章正文采集步驟5注:AJAX即延時(shí)加載、異步更新的一種腳本技術(shù),通過在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下,對(duì)網(wǎng)頁(yè)的某部分進(jìn)行更新。具體請(qǐng)看AJAX點(diǎn)擊和翻頁(yè)教程:/tutorialdetail-1/ajaxdjfy_7.html觀察網(wǎng)頁(yè),我們發(fā)現(xiàn),通過5次點(diǎn)擊“加載更多內(nèi)容”,頁(yè)面加載到最底部,一共顯示100篇文章。因此,我們?cè)O(shè)置整個(gè)“循環(huán)翻頁(yè)”步驟執(zhí)行5次。選中“循環(huán)翻頁(yè)”步驟,打開“高級(jí)選項(xiàng)”,打開“滿足以下條件時(shí)退出

5、循環(huán)”,設(shè)置循環(huán)次數(shù)等于“5次”,點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟6步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù) HYPERLINK /article/javascript:; 移動(dòng)鼠標(biāo),選中頁(yè)面里第一條文章鏈接。系統(tǒng)會(huì)自動(dòng)識(shí)別相似鏈接,在操作提示框中,選擇“選中全部”網(wǎng)頁(yè)文章正文采集步驟7選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”網(wǎng)頁(yè)文章正文采集步驟8系統(tǒng)會(huì)自動(dòng)進(jìn)入文章詳情頁(yè)。點(diǎn)擊需要采集的字段(這里先點(diǎn)擊了文章標(biāo)題),在操作提示框中,選擇“采集該元素的文本”。文章發(fā)布時(shí)間、文章來源字段的采集方法同理網(wǎng)頁(yè)文章正文采集步驟9接下來開始采集文章正文。先點(diǎn)擊文章正文的第一段,系統(tǒng)會(huì)自動(dòng)識(shí)別頁(yè)面內(nèi)的同類元素,選擇“選中全部”網(wǎng)頁(yè)文

6、章正文采集步驟105)可以看到,所有的正文段落均被選中,變?yōu)榫G色。選擇“采集以下元素文本”網(wǎng)頁(yè)文章正文采集步驟11注意:在字段表中,可進(jìn)行字段的自定義修改網(wǎng)頁(yè)文章正文采集步驟126)經(jīng)過如上操作,正文就會(huì)被全部采集下來(默認(rèn)為每一段正文為一個(gè)單元格)。一般而言,我們希望采集的正文,合并為同一個(gè)單元格。點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”,勾選“同一字段多次提取合并為一行,即追加到同一字段,例如正文分頁(yè)合并”,再點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟13“自定義數(shù)據(jù)字段”按鈕網(wǎng)頁(yè)文章正文采集步驟14選擇“自定義數(shù)據(jù)合并方式”網(wǎng)頁(yè)文章正文采集步驟15如圖進(jìn)行勾選步驟4:修改Xpath1

7、)選中整個(gè)“循環(huán)步驟”,打開“高級(jí)選項(xiàng)”,可以看到,八爪魚默認(rèn)生成的是固定元素列表,定位的是前20篇文章的鏈接網(wǎng)頁(yè)文章正文采集步驟162)在火狐瀏覽器中打開要采集的網(wǎng)頁(yè)并觀察源碼。我們發(fā)現(xiàn),通過此條Xpath:/DIVclass=main-left/DIV3/UL/LI/DIV2/H31/A,頁(yè)面中所需的100篇文章均被定位了網(wǎng)頁(yè)文章正文采集步驟173)將修改后的Xpath,復(fù)制粘貼到八爪魚中所示位置,然后點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟18步驟5:修改流程圖結(jié)構(gòu)我們繼續(xù)觀察,通過5次點(diǎn)擊“加載更多內(nèi)容”后,此網(wǎng)頁(yè)加載出全部100篇文章。因而我們配置規(guī)則的思路是,先建立翻頁(yè)循環(huán),加載出全部10

8、0篇文章,再建立循環(huán)列表,提取數(shù)據(jù)1)選中整個(gè)“循環(huán)”步驟,將其拖出“循環(huán)翻頁(yè)”步驟。如果不進(jìn)行此項(xiàng)操作,那么將會(huì)出現(xiàn)很多重復(fù)數(shù)據(jù)網(wǎng)頁(yè)文章正文采集步驟19拖動(dòng)完成后,如下圖所示網(wǎng)頁(yè)文章正文采集步驟20步驟6:數(shù)據(jù)采集及導(dǎo)出1)點(diǎn)擊左上角的“保存”,然后點(diǎn)擊“開始采集”,選擇“啟動(dòng)本地采集”網(wǎng)頁(yè)文章正文采集步驟21采集完成后,會(huì)跳出提示,選擇“導(dǎo)出數(shù)據(jù)”,選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出網(wǎng)頁(yè)文章正文采集步驟223)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖網(wǎng)頁(yè)文章正文采集步驟23如上圖,部分文章的正文沒有采集到。那是因?yàn)?,系統(tǒng)自動(dòng)生成的文章正文的循環(huán)列表的Xpath:/id

9、=js_content/P,定位不到此篇文章的正文。將Xpath修改為:/id=js_content/P,所有的文章正文均可被定位到。再次啟動(dòng)采集,所有文章的正文內(nèi)容,均被采集到了網(wǎng)頁(yè)文章正文采集步驟24修改Xpath前網(wǎng)頁(yè)文章正文采集步驟25修改Xpath后經(jīng)過如上操作,目標(biāo)網(wǎng)址中的微信文章正文中的全部文本被采集下來。如果還需采集圖片,則需往已有的規(guī)則中,加入一個(gè)判斷條件。采集文章正文中的文本和圖片URL接一中的步驟6步驟7:增加判斷條件經(jīng)過前6個(gè)步驟,我們僅采集了微信文章里的文本內(nèi)容,并不包括文章里的圖片。如果需要采集圖片,則需往規(guī)則里加入一個(gè)判斷條件:對(duì)文章內(nèi)容列表進(jìn)行判斷,如果包含im

10、g元素(圖片),則執(zhí)行圖片采集分支;如果不包含img元素(圖片),則執(zhí)行文本采集分支。同時(shí),在八爪魚中,默認(rèn)對(duì)左側(cè)分支,設(shè)置判斷條件,滿足此判斷條件,則執(zhí)行左側(cè)分支;默認(rèn)最右側(cè)分支為“不判斷,總是執(zhí)行該分支”,即當(dāng)不滿足左側(cè)分支的判斷條件時(shí),則執(zhí)行最右側(cè)分支?;氐酱艘?guī)則,即對(duì)左側(cè)分支設(shè)置條件:如果包含img元素(圖片),則執(zhí)行左側(cè)分支;如果不滿足左側(cè)條件分支的條件(即不包含img元素),則執(zhí)行右側(cè)分支。具體操作如下:從左側(cè)工具欄,往流程中拖入一個(gè)“判斷條件”步驟(選定圖標(biāo)拖住不放,拖入箭頭所示的綠色加號(hào)位置)網(wǎng)頁(yè)文章正文采集步驟26流程圖中出現(xiàn)判斷條件。我們將“提取數(shù)據(jù)”步驟,移動(dòng)到右側(cè)分支中

11、(綠色加號(hào)處)。再點(diǎn)擊右側(cè)分支,在出現(xiàn)的結(jié)果頁(yè)面(分支條件檢測(cè)結(jié)果-檢測(cè)結(jié)果總是True)點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟27將“提取元素”步驟,拖入右側(cè)分支網(wǎng)頁(yè)文章正文采集步驟28右側(cè)分支-檢測(cè)結(jié)果總是True點(diǎn)擊左側(cè)分支,在出現(xiàn)的結(jié)果頁(yè)面(分支條件檢測(cè)結(jié)果-檢測(cè)結(jié)果總是True)點(diǎn)擊“確定”。然后對(duì)其設(shè)置判斷條件:勾選“當(dāng)前循環(huán)項(xiàng)包含元素”,輸入元素Xpath:/img(代表圖片),再點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟29點(diǎn)擊左側(cè)分支對(duì)左側(cè)分支,設(shè)置判斷條件網(wǎng)頁(yè)文章正文采集步驟304)左側(cè)分支條件設(shè)置完畢后,再進(jìn)行提取數(shù)據(jù)步驟。從左側(cè)工具欄,拖入一個(gè)“提取數(shù)據(jù)”步驟,到流程圖中的左側(cè)分支中(

12、綠色加號(hào)處),然后選中頁(yè)面內(nèi)一張圖片,在操作提示框中,選擇“采集該圖片地址”拖入新的“提取數(shù)據(jù)”步驟,到左側(cè)分支網(wǎng)頁(yè)文章正文采集步驟31采集圖片地址網(wǎng)頁(yè)文章正文采集步驟325)選中右側(cè)分支的“提取數(shù)據(jù)”步驟,點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義定位元素方式”,將紅框中的“元素匹配的Xpath”:/*id=js_content/p1/span1與“相對(duì)Xpath”:/span1,記錄下來自定義定位元素方式網(wǎng)頁(yè)文章正文采集步驟33元素匹配的Xpath、“相對(duì)Xpath”網(wǎng)頁(yè)文章正文采集步驟346)選中左側(cè)分支的“提取數(shù)據(jù)”步驟,點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義定位元素方式”,參照右側(cè)分

13、支相同位置的Xpath進(jìn)行修改:“元素匹配的Xpath”改為:/*id=js_content/p1/img1,“相對(duì)Xpath”改為:/img1,然后點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟357)選中左側(cè)分支的“提取數(shù)據(jù)”步驟,點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”,如圖進(jìn)行勾選。勾選后,多次提取的正文將追加為一個(gè)字段網(wǎng)頁(yè)文章正文采集步驟368)注意,在八爪魚中,判斷條件里各分支中的“提取數(shù)據(jù)”步驟中的字段名需相同,字段個(gè)數(shù)需一致。這里,我們將左右兩個(gè)分支中,提取的字段名均改為“正文”(判斷條件教程,請(qǐng)參考: HYPERLINK /tutorialdetail-1/judge.htm

14、l /tutorialdetail-1/judge.html)網(wǎng)頁(yè)文章正文采集步驟379)如上,整個(gè)判斷條件設(shè)置完畢。點(diǎn)擊左上角的“保存”并“開始采集”。我們發(fā)現(xiàn),在導(dǎo)出的excel表格中,圖片地址為一堆亂碼。這是為什么呢?繼續(xù)觀察網(wǎng)頁(yè)搜狗微信文章正文里的圖片,需下拉滾動(dòng),才能加載出來,加載出來后才能采集到正確的圖片地址。因而,在打開文章后,需對(duì)其進(jìn)行設(shè)置“頁(yè)面加載完成后向下滾動(dòng)”。在這里,設(shè)置滾動(dòng)次數(shù)為“30次”,每次間隔“2秒”,滾動(dòng)方式為“向下滾動(dòng)一屏”網(wǎng)頁(yè)文章正文采集步驟38微信文章正文里的圖片,需下拉滾動(dòng),才能加載出來設(shè)置“頁(yè)面加載完成后向下滾動(dòng)”網(wǎng)頁(yè)文章正文采集步驟39注意:這里的

15、滾動(dòng)次數(shù)、時(shí)間、方式的設(shè)置,會(huì)影響采集數(shù)據(jù)的速度、質(zhì)量。本文僅做參考,大家可按需設(shè)置可參考AJAX滾動(dòng)教程: HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.html10)重新啟動(dòng)采集,并導(dǎo)出數(shù)據(jù),數(shù)據(jù)導(dǎo)出后如圖所示:網(wǎng)頁(yè)文章正文采集步驟40導(dǎo)出數(shù)據(jù)網(wǎng)頁(yè)文章正文采集步驟41數(shù)據(jù)示例說明:因搜狗微信文章中的圖片,需經(jīng)過下拉滾動(dòng),方可加載出來。在采集過程中,大量時(shí)間用在等待圖片加載,因而采集速度較慢。如果沒有采集圖片的需求,直接使用文本采集,無(wú)需等待圖片加載,采集速度會(huì)快很多。相關(guān)采集教程:百度搜索結(jié)果采集新浪微博數(shù)據(jù)采集豆瓣電影短評(píng)采集八爪魚70萬(wàn)用戶選擇的網(wǎng)頁(yè)數(shù)據(jù)采集器。1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論