




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)頁(yè)文章正文采集方法,以及微信文章采集為例當(dāng)我們想要將今日頭條上的新聞、搜狗微信上的文章正文內(nèi)容保存下來的時(shí)候,怎么辦?一篇篇復(fù)制粘貼?選擇一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集器,將會(huì)使工作簡(jiǎn)單很多。八爪魚是一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集器,可采集互聯(lián)網(wǎng)上的公開數(shù)據(jù)。用戶可以設(shè)置從哪個(gè)網(wǎng)站爬取數(shù)據(jù),爬取那些數(shù)據(jù),爬取什么范圍的數(shù)據(jù),什么時(shí)候去爬取數(shù)據(jù),爬取的數(shù)據(jù)如何保存等等。言歸正傳,本文將以搜狗微信的文章正文采集為例,講解使用八爪魚采集網(wǎng)頁(yè)文章正文的方法。文章正文采集,主要有兩大類情況:一、采集文章正文中的文本,不含圖片;二、采集文章正文中的文本和圖片URL。示例網(wǎng)站: HYPERLINK / /使用功能點(diǎn):Xp
2、ath HYPERLINK /search?query=XPath /search?query=XPath判斷條件 HYPERLINK /tutorialdetail-1/judge.html /tutorialdetail-1/judge.html分頁(yè)列表信息采集 HYPERLINK /tutorial/fylb-70.aspx?t=1 /tutorial/fylb-70.aspx?t=1AJAX滾動(dòng)教程 HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.htmlAJAX點(diǎn)擊和翻頁(yè)/tutorialdetail-
3、1/ajaxdjfy_7.html采集文章正文中的文本,不含圖片具體步驟:步驟1:創(chuàng)建采集任務(wù)1)進(jìn)入主界面,選擇“自定義模式”網(wǎng)頁(yè)文章正文采集步驟12)將要采集的網(wǎng)址URL復(fù)制粘貼到網(wǎng)站輸入框中,點(diǎn)擊“保存網(wǎng)址”網(wǎng)頁(yè)文章正文采集步驟2 HYPERLINK /article/javascript:; 步驟2:創(chuàng)建翻頁(yè)循環(huán)在頁(yè)面右上角,打開“流程”,以展現(xiàn)出“流程設(shè)計(jì)器”和“定制當(dāng)前操作”兩個(gè)板塊。網(wǎng)頁(yè)打開后,默認(rèn)顯示“熱門”文章。下拉頁(yè)面,找到并點(diǎn)擊“加載更多內(nèi)容”按鈕,在操作提示框中,選擇“更多操作”網(wǎng)頁(yè)文章正文采集步驟3選擇“循環(huán)點(diǎn)擊單個(gè)元素”,以創(chuàng)建一個(gè)翻頁(yè)循環(huán)網(wǎng)頁(yè)文章正文采集步驟4由于
4、此網(wǎng)頁(yè)涉及Ajax技術(shù),我們需要進(jìn)行一些高級(jí)選項(xiàng)的設(shè)置。選中“點(diǎn)擊元素”步驟,打開“高級(jí)選項(xiàng)”,勾選“Ajax加載數(shù)據(jù)”,設(shè)置時(shí)間為“2秒”網(wǎng)頁(yè)文章正文采集步驟5注:AJAX即延時(shí)加載、異步更新的一種腳本技術(shù),通過在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,可以在不重新加載整個(gè)網(wǎng)頁(yè)的情況下,對(duì)網(wǎng)頁(yè)的某部分進(jìn)行更新。具體請(qǐng)看AJAX點(diǎn)擊和翻頁(yè)教程:/tutorialdetail-1/ajaxdjfy_7.html觀察網(wǎng)頁(yè),我們發(fā)現(xiàn),通過5次點(diǎn)擊“加載更多內(nèi)容”,頁(yè)面加載到最底部,一共顯示100篇文章。因此,我們?cè)O(shè)置整個(gè)“循環(huán)翻頁(yè)”步驟執(zhí)行5次。選中“循環(huán)翻頁(yè)”步驟,打開“高級(jí)選項(xiàng)”,打開“滿足以下條件時(shí)退出
5、循環(huán)”,設(shè)置循環(huán)次數(shù)等于“5次”,點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟6步驟3:創(chuàng)建列表循環(huán)并提取數(shù)據(jù) HYPERLINK /article/javascript:; 移動(dòng)鼠標(biāo),選中頁(yè)面里第一條文章鏈接。系統(tǒng)會(huì)自動(dòng)識(shí)別相似鏈接,在操作提示框中,選擇“選中全部”網(wǎng)頁(yè)文章正文采集步驟7選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”網(wǎng)頁(yè)文章正文采集步驟8系統(tǒng)會(huì)自動(dòng)進(jìn)入文章詳情頁(yè)。點(diǎn)擊需要采集的字段(這里先點(diǎn)擊了文章標(biāo)題),在操作提示框中,選擇“采集該元素的文本”。文章發(fā)布時(shí)間、文章來源字段的采集方法同理網(wǎng)頁(yè)文章正文采集步驟9接下來開始采集文章正文。先點(diǎn)擊文章正文的第一段,系統(tǒng)會(huì)自動(dòng)識(shí)別頁(yè)面內(nèi)的同類元素,選擇“選中全部”網(wǎng)頁(yè)文
6、章正文采集步驟105)可以看到,所有的正文段落均被選中,變?yōu)榫G色。選擇“采集以下元素文本”網(wǎng)頁(yè)文章正文采集步驟11注意:在字段表中,可進(jìn)行字段的自定義修改網(wǎng)頁(yè)文章正文采集步驟126)經(jīng)過如上操作,正文就會(huì)被全部采集下來(默認(rèn)為每一段正文為一個(gè)單元格)。一般而言,我們希望采集的正文,合并為同一個(gè)單元格。點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”,勾選“同一字段多次提取合并為一行,即追加到同一字段,例如正文分頁(yè)合并”,再點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟13“自定義數(shù)據(jù)字段”按鈕網(wǎng)頁(yè)文章正文采集步驟14選擇“自定義數(shù)據(jù)合并方式”網(wǎng)頁(yè)文章正文采集步驟15如圖進(jìn)行勾選步驟4:修改Xpath1
7、)選中整個(gè)“循環(huán)步驟”,打開“高級(jí)選項(xiàng)”,可以看到,八爪魚默認(rèn)生成的是固定元素列表,定位的是前20篇文章的鏈接網(wǎng)頁(yè)文章正文采集步驟162)在火狐瀏覽器中打開要采集的網(wǎng)頁(yè)并觀察源碼。我們發(fā)現(xiàn),通過此條Xpath:/DIVclass=main-left/DIV3/UL/LI/DIV2/H31/A,頁(yè)面中所需的100篇文章均被定位了網(wǎng)頁(yè)文章正文采集步驟173)將修改后的Xpath,復(fù)制粘貼到八爪魚中所示位置,然后點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟18步驟5:修改流程圖結(jié)構(gòu)我們繼續(xù)觀察,通過5次點(diǎn)擊“加載更多內(nèi)容”后,此網(wǎng)頁(yè)加載出全部100篇文章。因而我們配置規(guī)則的思路是,先建立翻頁(yè)循環(huán),加載出全部10
8、0篇文章,再建立循環(huán)列表,提取數(shù)據(jù)1)選中整個(gè)“循環(huán)”步驟,將其拖出“循環(huán)翻頁(yè)”步驟。如果不進(jìn)行此項(xiàng)操作,那么將會(huì)出現(xiàn)很多重復(fù)數(shù)據(jù)網(wǎng)頁(yè)文章正文采集步驟19拖動(dòng)完成后,如下圖所示網(wǎng)頁(yè)文章正文采集步驟20步驟6:數(shù)據(jù)采集及導(dǎo)出1)點(diǎn)擊左上角的“保存”,然后點(diǎn)擊“開始采集”,選擇“啟動(dòng)本地采集”網(wǎng)頁(yè)文章正文采集步驟21采集完成后,會(huì)跳出提示,選擇“導(dǎo)出數(shù)據(jù)”,選擇“合適的導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出網(wǎng)頁(yè)文章正文采集步驟223)這里我們選擇excel作為導(dǎo)出為格式,數(shù)據(jù)導(dǎo)出后如下圖網(wǎng)頁(yè)文章正文采集步驟23如上圖,部分文章的正文沒有采集到。那是因?yàn)?,系統(tǒng)自動(dòng)生成的文章正文的循環(huán)列表的Xpath:/id
9、=js_content/P,定位不到此篇文章的正文。將Xpath修改為:/id=js_content/P,所有的文章正文均可被定位到。再次啟動(dòng)采集,所有文章的正文內(nèi)容,均被采集到了網(wǎng)頁(yè)文章正文采集步驟24修改Xpath前網(wǎng)頁(yè)文章正文采集步驟25修改Xpath后經(jīng)過如上操作,目標(biāo)網(wǎng)址中的微信文章正文中的全部文本被采集下來。如果還需采集圖片,則需往已有的規(guī)則中,加入一個(gè)判斷條件。采集文章正文中的文本和圖片URL接一中的步驟6步驟7:增加判斷條件經(jīng)過前6個(gè)步驟,我們僅采集了微信文章里的文本內(nèi)容,并不包括文章里的圖片。如果需要采集圖片,則需往規(guī)則里加入一個(gè)判斷條件:對(duì)文章內(nèi)容列表進(jìn)行判斷,如果包含im
10、g元素(圖片),則執(zhí)行圖片采集分支;如果不包含img元素(圖片),則執(zhí)行文本采集分支。同時(shí),在八爪魚中,默認(rèn)對(duì)左側(cè)分支,設(shè)置判斷條件,滿足此判斷條件,則執(zhí)行左側(cè)分支;默認(rèn)最右側(cè)分支為“不判斷,總是執(zhí)行該分支”,即當(dāng)不滿足左側(cè)分支的判斷條件時(shí),則執(zhí)行最右側(cè)分支?;氐酱艘?guī)則,即對(duì)左側(cè)分支設(shè)置條件:如果包含img元素(圖片),則執(zhí)行左側(cè)分支;如果不滿足左側(cè)條件分支的條件(即不包含img元素),則執(zhí)行右側(cè)分支。具體操作如下:從左側(cè)工具欄,往流程中拖入一個(gè)“判斷條件”步驟(選定圖標(biāo)拖住不放,拖入箭頭所示的綠色加號(hào)位置)網(wǎng)頁(yè)文章正文采集步驟26流程圖中出現(xiàn)判斷條件。我們將“提取數(shù)據(jù)”步驟,移動(dòng)到右側(cè)分支中
11、(綠色加號(hào)處)。再點(diǎn)擊右側(cè)分支,在出現(xiàn)的結(jié)果頁(yè)面(分支條件檢測(cè)結(jié)果-檢測(cè)結(jié)果總是True)點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟27將“提取元素”步驟,拖入右側(cè)分支網(wǎng)頁(yè)文章正文采集步驟28右側(cè)分支-檢測(cè)結(jié)果總是True點(diǎn)擊左側(cè)分支,在出現(xiàn)的結(jié)果頁(yè)面(分支條件檢測(cè)結(jié)果-檢測(cè)結(jié)果總是True)點(diǎn)擊“確定”。然后對(duì)其設(shè)置判斷條件:勾選“當(dāng)前循環(huán)項(xiàng)包含元素”,輸入元素Xpath:/img(代表圖片),再點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟29點(diǎn)擊左側(cè)分支對(duì)左側(cè)分支,設(shè)置判斷條件網(wǎng)頁(yè)文章正文采集步驟304)左側(cè)分支條件設(shè)置完畢后,再進(jìn)行提取數(shù)據(jù)步驟。從左側(cè)工具欄,拖入一個(gè)“提取數(shù)據(jù)”步驟,到流程圖中的左側(cè)分支中(
12、綠色加號(hào)處),然后選中頁(yè)面內(nèi)一張圖片,在操作提示框中,選擇“采集該圖片地址”拖入新的“提取數(shù)據(jù)”步驟,到左側(cè)分支網(wǎng)頁(yè)文章正文采集步驟31采集圖片地址網(wǎng)頁(yè)文章正文采集步驟325)選中右側(cè)分支的“提取數(shù)據(jù)”步驟,點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義定位元素方式”,將紅框中的“元素匹配的Xpath”:/*id=js_content/p1/span1與“相對(duì)Xpath”:/span1,記錄下來自定義定位元素方式網(wǎng)頁(yè)文章正文采集步驟33元素匹配的Xpath、“相對(duì)Xpath”網(wǎng)頁(yè)文章正文采集步驟346)選中左側(cè)分支的“提取數(shù)據(jù)”步驟,點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義定位元素方式”,參照右側(cè)分
13、支相同位置的Xpath進(jìn)行修改:“元素匹配的Xpath”改為:/*id=js_content/p1/img1,“相對(duì)Xpath”改為:/img1,然后點(diǎn)擊“確定”網(wǎng)頁(yè)文章正文采集步驟357)選中左側(cè)分支的“提取數(shù)據(jù)”步驟,點(diǎn)擊“自定義數(shù)據(jù)字段”按鈕,選擇“自定義數(shù)據(jù)合并方式”,如圖進(jìn)行勾選。勾選后,多次提取的正文將追加為一個(gè)字段網(wǎng)頁(yè)文章正文采集步驟368)注意,在八爪魚中,判斷條件里各分支中的“提取數(shù)據(jù)”步驟中的字段名需相同,字段個(gè)數(shù)需一致。這里,我們將左右兩個(gè)分支中,提取的字段名均改為“正文”(判斷條件教程,請(qǐng)參考: HYPERLINK /tutorialdetail-1/judge.htm
14、l /tutorialdetail-1/judge.html)網(wǎng)頁(yè)文章正文采集步驟379)如上,整個(gè)判斷條件設(shè)置完畢。點(diǎn)擊左上角的“保存”并“開始采集”。我們發(fā)現(xiàn),在導(dǎo)出的excel表格中,圖片地址為一堆亂碼。這是為什么呢?繼續(xù)觀察網(wǎng)頁(yè)搜狗微信文章正文里的圖片,需下拉滾動(dòng),才能加載出來,加載出來后才能采集到正確的圖片地址。因而,在打開文章后,需對(duì)其進(jìn)行設(shè)置“頁(yè)面加載完成后向下滾動(dòng)”。在這里,設(shè)置滾動(dòng)次數(shù)為“30次”,每次間隔“2秒”,滾動(dòng)方式為“向下滾動(dòng)一屏”網(wǎng)頁(yè)文章正文采集步驟38微信文章正文里的圖片,需下拉滾動(dòng),才能加載出來設(shè)置“頁(yè)面加載完成后向下滾動(dòng)”網(wǎng)頁(yè)文章正文采集步驟39注意:這里的
15、滾動(dòng)次數(shù)、時(shí)間、方式的設(shè)置,會(huì)影響采集數(shù)據(jù)的速度、質(zhì)量。本文僅做參考,大家可按需設(shè)置可參考AJAX滾動(dòng)教程: HYPERLINK /tutorialdetail-1/ajgd_7.html /tutorialdetail-1/ajgd_7.html10)重新啟動(dòng)采集,并導(dǎo)出數(shù)據(jù),數(shù)據(jù)導(dǎo)出后如圖所示:網(wǎng)頁(yè)文章正文采集步驟40導(dǎo)出數(shù)據(jù)網(wǎng)頁(yè)文章正文采集步驟41數(shù)據(jù)示例說明:因搜狗微信文章中的圖片,需經(jīng)過下拉滾動(dòng),方可加載出來。在采集過程中,大量時(shí)間用在等待圖片加載,因而采集速度較慢。如果沒有采集圖片的需求,直接使用文本采集,無(wú)需等待圖片加載,采集速度會(huì)快很多。相關(guān)采集教程:百度搜索結(jié)果采集新浪微博數(shù)據(jù)采集豆瓣電影短評(píng)采集八爪魚70萬(wàn)用戶選擇的網(wǎng)頁(yè)數(shù)據(jù)采集器。1、操作簡(jiǎn)單,任何人都可以用:無(wú)需技術(shù)背景,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第15課《我們不亂扔》教學(xué)設(shè)計(jì)-2024-2025學(xué)年一年級(jí)道德與法治上冊(cè)統(tǒng)編版
- 展覽館裝修合同
- 2025年度建筑企業(yè)農(nóng)民工勞動(dòng)合同創(chuàng)新模式試點(diǎn)方案
- 2025年度五星級(jí)酒店與VIP客人個(gè)性化服務(wù)協(xié)議
- 2025年度房產(chǎn)贈(zèng)與與可持續(xù)發(fā)展合同
- 2025年度冷鏈物流貨運(yùn)損壞賠償協(xié)議書
- 二零二五年度人工智能教育平臺(tái)合作協(xié)議中的支付及費(fèi)用分?jǐn)偧?xì)則
- 2025年度帶寵物友好房屋出租協(xié)議電子版
- 2025年度廣告代理合同解除通知期限與費(fèi)用結(jié)算規(guī)范
- 2025年度報(bào)廢車買賣及報(bào)廢車輛拆解與環(huán)保設(shè)施投資合同
- 《英國(guó)飲食文化》課件
- 《SolidWorks建模實(shí)例教程》第4章 綜合應(yīng)用實(shí)例
- JCT2110-2012 室內(nèi)空氣離子濃度測(cè)試方法
- 視頻號(hào)運(yùn)營(yíng)規(guī)則
- 文印服務(wù)投標(biāo)方案(技術(shù)方案)
- 初三語(yǔ)文總復(fù)習(xí)全程計(jì)劃表
- 九年級(jí)初中語(yǔ)文閱讀理解專題訓(xùn)練及答案
- 經(jīng)濟(jì)地理學(xué)智慧樹知到課后章節(jié)答案2023年下江西師范大學(xué)
- 班規(guī)班約高一班規(guī)班約及考核細(xì)則
- 《幼兒文學(xué)》 課件全套 第1-8章 幼兒文學(xué)概述- 圖畫書
- 代用茶批生產(chǎn)記錄
評(píng)論
0/150
提交評(píng)論