網(wǎng)文章正文采集方法,以微信文章采集為例

上傳人：d*** IP屬地：貴州上傳時(shí)間：2022-09-20 格式：DOCX 頁(yè)數(shù)：41 大?。?.10MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩36頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)頁(yè)文章正文采集方法，以及微信文章采集為例當(dāng)我們想要將今日頭條上的新聞、搜狗微信上的文章正文內(nèi)容保存下來的時(shí)候，怎么辦？一篇篇復(fù)制粘貼？選擇一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集器，將會(huì)使工作簡(jiǎn)單很多。八爪魚是一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集器，可采集互聯(lián)網(wǎng)上的公開數(shù)據(jù)。用戶可以設(shè)置從哪個(gè)網(wǎng)站爬取數(shù)據(jù)，爬取那些數(shù)據(jù)，爬取什么范圍的數(shù)據(jù)，什么時(shí)候去爬取數(shù)據(jù)，爬取的數(shù)據(jù)如何保存等等。言歸正傳，本文將以搜狗微信的文章正文采集為例，講解使用八爪魚采集網(wǎng)頁(yè)文章正文的方法。文章正文采集，主要有兩大類情況：一、采集文章正文中的文本，不含圖片；二、采集文章正文中的文本和圖片URL。示例網(wǎng)站： HYPERLINK / /使用功能點(diǎn)：Xp

2、ath HYPERLINK /search?query=XPath /search?query=XPath判斷條件 HYPERLINK /tutorialdetail-1/judge.html /tutorialdetail-1/judge.html分頁(yè)列表信息采集 HYPERLINK /tutorial/fylb-70.aspx?t=1 /tutorial/fylb-70.aspx?t=1AJAX滾動(dòng)教程 HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.htmlAJAX點(diǎn)擊和翻頁(yè)/tutorialdetail-

3、1/ajaxdjfy_7.html采集文章正文中的文本，不含圖片具體步驟：步驟1：創(chuàng)建采集任務(wù)1）進(jìn)入主界面，選擇“自定義模式”網(wǎng)頁(yè)文章正文采集步驟12）將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中，點(diǎn)擊“保存網(wǎng)址”網(wǎng)頁(yè)文章正文采集步驟2 HYPERLINK /article/javascript:; 步驟2：創(chuàng)建翻頁(yè)循環(huán)在頁(yè)面右上角，打開“流程”，以展現(xiàn)出“流程設(shè)計(jì)器”和“定制當(dāng)前操作”兩個(gè)板塊。網(wǎng)頁(yè)打開后，默認(rèn)顯示“熱門”文章。下拉頁(yè)面，找到并點(diǎn)擊“加載更多內(nèi)容”按鈕，在操作提示框中，選擇“更多操作”網(wǎng)頁(yè)文章正文采集步驟3選擇“循環(huán)點(diǎn)擊單個(gè)元素”，以創(chuàng)建一個(gè)翻頁(yè)循環(huán)網(wǎng)頁(yè)文章正文采集步驟4由于

4、此網(wǎng)頁(yè)涉及Ajax技術(shù)，我們需要進(jìn)行一些高級(jí)選項(xiàng)的設(shè)置。選中“點(diǎn)擊元素”步驟，打開“高級(jí)選項(xiàng)”，勾選“Ajax加載數(shù)據(jù)”，設(shè)置時(shí)間為“2秒”網(wǎng)頁(yè)文章正文采集步驟5注：AJAX即延時(shí)加載、異步更新的一種腳本技術(shù)，通過在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換，可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下，對(duì)網(wǎng)頁(yè)的某部分進(jìn)行更新。具體請(qǐng)看AJAX點(diǎn)擊和翻頁(yè)教程：/tutorialdetail-1/ajaxdjfy_7.html觀察網(wǎng)頁(yè)，我們發(fā)現(xiàn)，通過5次點(diǎn)擊“加載更多內(nèi)容”，頁(yè)面加載到最底部，一共顯示100篇文章。因此，我們?cè)O(shè)置整個(gè)“循環(huán)翻頁(yè)”步驟執(zhí)行5次。選中“循環(huán)翻頁(yè)”步驟，打開“高級(jí)選項(xiàng)”，打開“滿足以下條件時(shí)退出

5、循環(huán)”，設(shè)置循環(huán)次數(shù)等于“5次”，點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟6步驟3：創(chuàng)建列表循環(huán)并提取數(shù)據(jù) HYPERLINK /article/javascript:; 移動(dòng)鼠標(biāo)，選中頁(yè)面里第一條文章鏈接。系統(tǒng)會(huì)自動(dòng)識(shí)別相似鏈接，在操作提示框中，選擇“選中全部”網(wǎng)頁(yè)文章正文采集步驟7選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”網(wǎng)頁(yè)文章正文采集步驟8系統(tǒng)會(huì)自動(dòng)進(jìn)入文章詳情頁(yè)。點(diǎn)擊需要采集的字段（這里先點(diǎn)擊了文章標(biāo)題），在操作提示框中，選擇“采集該元素的文本”。文章發(fā)布時(shí)間、文章來源字段的采集方法同理網(wǎng)頁(yè)文章正文采集步驟9接下來開始采集文章正文。先點(diǎn)擊文章正文的第一段，系統(tǒng)會(huì)自動(dòng)識(shí)別頁(yè)面內(nèi)的同類元素，選擇“選中全部”網(wǎng)頁(yè)文

6、章正文采集步驟105）可以看到，所有的正文段落均被選中，變?yōu)榫G色。選擇“采集以下元素文本”網(wǎng)頁(yè)文章正文采集步驟11注意：在字段表中，可進(jìn)行字段的自定義修改網(wǎng)頁(yè)文章正文采集步驟126）經(jīng)過如上操作，正文就會(huì)被全部采集下來（默認(rèn)為每一段正文為一個(gè)單元格）。一般而言，我們希望采集的正文，合并為同一個(gè)單元格。點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕，選擇“自定義數(shù)據(jù)合并方式”，勾選“同一字段多次提取合并為一行，即追加到同一字段，例如正文分頁(yè)合并”，再點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟13“自定義數(shù)據(jù)字段”按鈕網(wǎng)頁(yè)文章正文采集步驟14選擇“自定義數(shù)據(jù)合并方式”網(wǎng)頁(yè)文章正文采集步驟15如圖進(jìn)行勾選步驟4：修改Xpath1

7、）選中整個(gè)“循環(huán)步驟”，打開“高級(jí)選項(xiàng)”，可以看到，八爪魚默認(rèn)生成的是固定元素列表，定位的是前20篇文章的鏈接網(wǎng)頁(yè)文章正文采集步驟162）在火狐瀏覽器中打開要采集的網(wǎng)頁(yè)并觀察源碼。我們發(fā)現(xiàn)，通過此條Xpath：/DIVclass=main-left/DIV3/UL/LI/DIV2/H31/A，頁(yè)面中所需的100篇文章均被定位了網(wǎng)頁(yè)文章正文采集步驟173）將修改后的Xpath，復(fù)制粘貼到八爪魚中所示位置，然后點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟18步驟5：修改流程圖結(jié)構(gòu)我們繼續(xù)觀察，通過5次點(diǎn)擊“加載更多內(nèi)容”后，此網(wǎng)頁(yè)加載出全部100篇文章。因而我們配置規(guī)則的思路是，先建立翻頁(yè)循環(huán)，加載出全部10

8、0篇文章，再建立循環(huán)列表，提取數(shù)據(jù)1）選中整個(gè)“循環(huán)”步驟，將其拖出“循環(huán)翻頁(yè)”步驟。如果不進(jìn)行此項(xiàng)操作，那么將會(huì)出現(xiàn)很多重復(fù)數(shù)據(jù)網(wǎng)頁(yè)文章正文采集步驟19拖動(dòng)完成后，如下圖所示網(wǎng)頁(yè)文章正文采集步驟20步驟6：數(shù)據(jù)采集及導(dǎo)出1）點(diǎn)擊左上角的“保存”，然后點(diǎn)擊“開始采集”，選擇“啟動(dòng)本地采集”網(wǎng)頁(yè)文章正文采集步驟21采集完成后，會(huì)跳出提示，選擇“導(dǎo)出數(shù)據(jù)”，選擇“合適的導(dǎo)出方式”，將采集好的數(shù)據(jù)導(dǎo)出網(wǎng)頁(yè)文章正文采集步驟223）這里我們選擇excel作為導(dǎo)出為格式，數(shù)據(jù)導(dǎo)出后如下圖網(wǎng)頁(yè)文章正文采集步驟23如上圖，部分文章的正文沒有采集到。那是因?yàn)?，系統(tǒng)自動(dòng)生成的文章正文的循環(huán)列表的Xpath：/id

9、=js_content/P，定位不到此篇文章的正文。將Xpath修改為：/id=js_content/P，所有的文章正文均可被定位到。再次啟動(dòng)采集，所有文章的正文內(nèi)容，均被采集到了網(wǎng)頁(yè)文章正文采集步驟24修改Xpath前網(wǎng)頁(yè)文章正文采集步驟25修改Xpath后經(jīng)過如上操作，目標(biāo)網(wǎng)址中的微信文章正文中的全部文本被采集下來。如果還需采集圖片，則需往已有的規(guī)則中，加入一個(gè)判斷條件。采集文章正文中的文本和圖片URL接一中的步驟6步驟7：增加判斷條件經(jīng)過前6個(gè)步驟，我們僅采集了微信文章里的文本內(nèi)容，并不包括文章里的圖片。如果需要采集圖片，則需往規(guī)則里加入一個(gè)判斷條件：對(duì)文章內(nèi)容列表進(jìn)行判斷，如果包含im

10、g元素（圖片），則執(zhí)行圖片采集分支；如果不包含img元素（圖片），則執(zhí)行文本采集分支。同時(shí)，在八爪魚中，默認(rèn)對(duì)左側(cè)分支，設(shè)置判斷條件，滿足此判斷條件，則執(zhí)行左側(cè)分支；默認(rèn)最右側(cè)分支為“不判斷，總是執(zhí)行該分支”，即當(dāng)不滿足左側(cè)分支的判斷條件時(shí)，則執(zhí)行最右側(cè)分支?；氐酱艘?guī)則，即對(duì)左側(cè)分支設(shè)置條件：如果包含img元素（圖片），則執(zhí)行左側(cè)分支；如果不滿足左側(cè)條件分支的條件（即不包含img元素），則執(zhí)行右側(cè)分支。具體操作如下：從左側(cè)工具欄，往流程中拖入一個(gè)“判斷條件”步驟（選定圖標(biāo)拖住不放，拖入箭頭所示的綠色加號(hào)位置）網(wǎng)頁(yè)文章正文采集步驟26流程圖中出現(xiàn)判斷條件。我們將“提取數(shù)據(jù)”步驟，移動(dòng)到右側(cè)分支中

11、（綠色加號(hào)處）。再點(diǎn)擊右側(cè)分支，在出現(xiàn)的結(jié)果頁(yè)面（分支條件檢測(cè)結(jié)果-檢測(cè)結(jié)果總是True）點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟27將“提取元素”步驟，拖入右側(cè)分支網(wǎng)頁(yè)文章正文采集步驟28右側(cè)分支-檢測(cè)結(jié)果總是True點(diǎn)擊左側(cè)分支，在出現(xiàn)的結(jié)果頁(yè)面（分支條件檢測(cè)結(jié)果-檢測(cè)結(jié)果總是True）點(diǎn)擊“確定”。然后對(duì)其設(shè)置判斷條件：勾選“當(dāng)前循環(huán)項(xiàng)包含元素”，輸入元素Xpath：/img（代表圖片），再點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟29點(diǎn)擊左側(cè)分支對(duì)左側(cè)分支，設(shè)置判斷條件網(wǎng)頁(yè)文章正文采集步驟304）左側(cè)分支條件設(shè)置完畢后，再進(jìn)行提取數(shù)據(jù)步驟。從左側(cè)工具欄，拖入一個(gè)“提取數(shù)據(jù)”步驟，到流程圖中的左側(cè)分支中（

12、綠色加號(hào)處），然后選中頁(yè)面內(nèi)一張圖片，在操作提示框中，選擇“采集該圖片地址”拖入新的“提取數(shù)據(jù)”步驟，到左側(cè)分支網(wǎng)頁(yè)文章正文采集步驟31采集圖片地址網(wǎng)頁(yè)文章正文采集步驟325）選中右側(cè)分支的“提取數(shù)據(jù)”步驟，點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕，選擇“自定義定位元素方式”，將紅框中的“元素匹配的Xpath”：/*id=js_content/p1/span1與“相對(duì)Xpath”：/span1，記錄下來自定義定位元素方式網(wǎng)頁(yè)文章正文采集步驟33元素匹配的Xpath、“相對(duì)Xpath”網(wǎng)頁(yè)文章正文采集步驟346）選中左側(cè)分支的“提取數(shù)據(jù)”步驟，點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕，選擇“自定義定位元素方式”，參照右側(cè)分

13、支相同位置的Xpath進(jìn)行修改：“元素匹配的Xpath”改為：/*id=js_content/p1/img1，“相對(duì)Xpath”改為：/img1，然后點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟357）選中左側(cè)分支的“提取數(shù)據(jù)”步驟，點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕，選擇“自定義數(shù)據(jù)合并方式”，如圖進(jìn)行勾選。勾選后，多次提取的正文將追加為一個(gè)字段網(wǎng)頁(yè)文章正文采集步驟368）注意，在八爪魚中，判斷條件里各分支中的“提取數(shù)據(jù)”步驟中的字段名需相同，字段個(gè)數(shù)需一致。這里，我們將左右兩個(gè)分支中，提取的字段名均改為“正文”（判斷條件教程，請(qǐng)參考： HYPERLINK /tutorialdetail-1/judge.htm

14、l /tutorialdetail-1/judge.html）網(wǎng)頁(yè)文章正文采集步驟379）如上，整個(gè)判斷條件設(shè)置完畢。點(diǎn)擊左上角的“保存”并“開始采集”。我們發(fā)現(xiàn)，在導(dǎo)出的excel表格中，圖片地址為一堆亂碼。這是為什么呢？繼續(xù)觀察網(wǎng)頁(yè)搜狗微信文章正文里的圖片，需下拉滾動(dòng)，才能加載出來，加載出來后才能采集到正確的圖片地址。因而，在打開文章后，需對(duì)其進(jìn)行設(shè)置“頁(yè)面加載完成后向下滾動(dòng)”。在這里，設(shè)置滾動(dòng)次數(shù)為“30次”，每次間隔“2秒”，滾動(dòng)方式為“向下滾動(dòng)一屏”網(wǎng)頁(yè)文章正文采集步驟38微信文章正文里的圖片，需下拉滾動(dòng)，才能加載出來設(shè)置“頁(yè)面加載完成后向下滾動(dòng)”網(wǎng)頁(yè)文章正文采集步驟39注意：這里的

15、滾動(dòng)次數(shù)、時(shí)間、方式的設(shè)置，會(huì)影響采集數(shù)據(jù)的速度、質(zhì)量。本文僅做參考，大家可按需設(shè)置可參考AJAX滾動(dòng)教程： HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.html10）重新啟動(dòng)采集，并導(dǎo)出數(shù)據(jù)，數(shù)據(jù)導(dǎo)出后如圖所示：網(wǎng)頁(yè)文章正文采集步驟40導(dǎo)出數(shù)據(jù)網(wǎng)頁(yè)文章正文采集步驟41數(shù)據(jù)示例說明：因搜狗微信文章中的圖片，需經(jīng)過下拉滾動(dòng)，方可加載出來。在采集過程中，大量時(shí)間用在等待圖片加載，因而采集速度較慢。如果沒有采集圖片的需求，直接使用文本采集，無(wú)需等待圖片加載，采集速度會(huì)快很多。相關(guān)采集教程：百度搜索結(jié)果采集新浪微博數(shù)據(jù)采集豆瓣電影短評(píng)采集八爪魚70萬(wàn)用戶選擇的網(wǎng)頁(yè)數(shù)據(jù)采集器。1、操作簡(jiǎn)單，任何人都可以用：無(wú)需技術(shù)背景，

人人文庫(kù)> 全部分類> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

網(wǎng)文章正文采集方法,以微信文章采集為例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

網(wǎng)文章正文采集方法,以微信文章采集為例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔