《各平臺數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第1頁
《各平臺數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第2頁
《各平臺數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第3頁
《各平臺數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第4頁
《各平臺數(shù)據(jù)采集及方法》課件-銀保監(jiān)官網(wǎng)政策公告采集_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

銀保監(jiān)官網(wǎng)

政策公告采集官網(wǎng)政策公告采集采集場景進(jìn)入中國銀行保險監(jiān)督管理委員會【新聞資訊】版塊下的【監(jiān)管動態(tài)】欄目,進(jìn)入每條監(jiān)管動態(tài)詳情,采集其詳情頁信息。采集字段當(dāng)前位置、標(biāo)題、標(biāo)題鏈接、發(fā)布時間、來源、正文、當(dāng)前采集時間。采集背景官網(wǎng)政策公告采集

在首頁【輸入框】中輸入目標(biāo)網(wǎng)址,點(diǎn)擊【開始采集】,八爪魚自動打開網(wǎng)頁。步驟一打開網(wǎng)頁官網(wǎng)政策公告采集

1、建立【循環(huán)-點(diǎn)擊元素】,進(jìn)入每條監(jiān)管動態(tài)的詳情頁通過以下3步,實(shí)現(xiàn)循環(huán)點(diǎn)擊每個鏈接,進(jìn)入詳情頁:①選中頁面上第1條監(jiān)管動態(tài)鏈接(注意一定要選中鏈接)②點(diǎn)擊【循環(huán)點(diǎn)擊每個鏈接】,進(jìn)入第1條監(jiān)管動態(tài)的詳情頁

步驟二、建立【循環(huán)-點(diǎn)擊元素】,進(jìn)入每條監(jiān)管動態(tài)的詳情頁官網(wǎng)政策公告采集

2、修改【循環(huán)-點(diǎn)擊元素】Xpath為了精準(zhǔn)定位到所有的監(jiān)管動態(tài)鏈接,需修改一下【循環(huán)翻頁】的XPath。進(jìn)入【循環(huán)翻頁】設(shè)置頁面,選擇【循環(huán)方式】為【不固定元素列表】,修改XPath為://span[@class="title"]/a,然后點(diǎn)擊【應(yīng)用】保存。改完后,再次點(diǎn)擊【點(diǎn)擊元素】步驟,進(jìn)入問題詳情頁。

步驟二、建立【循環(huán)-點(diǎn)擊元素】,進(jìn)入每條監(jiān)管動態(tài)的詳情頁官網(wǎng)政策公告采集步驟三、提取詳情頁中的文本字段

進(jìn)入詳情頁后,選中頁面中的文本,然后在操作提示框中,點(diǎn)擊【采集該元素文本】。文本類字段都可以按照這樣的方式提取。示例中我們提取了當(dāng)前位置、發(fā)布時間、來源、標(biāo)題、正文等字段。。官網(wǎng)政策公告采集步驟四、編輯字段。1、編輯字段在【當(dāng)前頁面數(shù)據(jù)預(yù)覽】面板中,可刪除多余字段,修改字段名,移動字段順序等,請按需調(diào)整官網(wǎng)政策公告采集步驟四、編輯字段。2、修改字段XPath針對【正文】這個字段,默認(rèn)生成的字段XPath,無法精準(zhǔn)定位到所有監(jiān)管動態(tài)的正文內(nèi)容,需手動修改。進(jìn)入【提取列表數(shù)據(jù)】步驟設(shè)置頁面,修改正文XPath為://div[@class="Section0"]官網(wǎng)政策公告采集步驟四、編輯字段。3、格式化字段格式化數(shù)據(jù),對【當(dāng)前位置】、【發(fā)布時間】和【來源】字段進(jìn)行格式化數(shù)據(jù),去除多余內(nèi)容。具體步驟如下圖所示:官網(wǎng)政策公告采集步驟五、創(chuàng)建循環(huán)翻頁。1、創(chuàng)建循環(huán)翻頁如果只是采集一頁數(shù)據(jù),可跳過此步驟。如果需要翻頁以采集多頁數(shù)據(jù):①先點(diǎn)擊流程中的【循環(huán)列表】步驟,以回到列表頁(如果已在列表頁可直接繼續(xù)操作)②再選擇頁面中的【下一頁】按鈕,在操作提示上單擊【循環(huán)點(diǎn)擊下一頁】,創(chuàng)建【循環(huán)翻頁】。

官網(wǎng)政策公告采集步驟五、創(chuàng)建循環(huán)翻頁。2、設(shè)置執(zhí)行前等待時間①進(jìn)入【循環(huán)翻頁1】設(shè)置頁面,設(shè)置【執(zhí)行前等待】3s②進(jìn)入【點(diǎn)擊翻頁1】設(shè)置頁面,設(shè)置【執(zhí)行前等待】3s和【Ajax超時】7s官網(wǎng)政策公告采集1、單擊【采集】并【啟動本地采集】。啟動后八爪魚開始自動采集數(shù)據(jù)。步驟六、啟動采集官網(wǎng)政策公告采集2、采集完成后,選擇合適的導(dǎo)出方式導(dǎo)出數(shù)據(jù)。支持導(dǎo)出為Excel

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論