版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
項(xiàng)目10數(shù)據(jù)采集場景描述數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ),電商數(shù)據(jù)可以從多個(gè)渠道進(jìn)行獲取,如后臺(tái)的數(shù)據(jù)下載、生意參謀各模塊的數(shù)據(jù)下載、網(wǎng)頁數(shù)據(jù)采集等。學(xué)會(huì)如何在網(wǎng)頁中采集目標(biāo)數(shù)據(jù)是數(shù)據(jù)分析中不可或缺的一步。項(xiàng)目目標(biāo)通過Excel的PowerQuery采集網(wǎng)頁端的靜態(tài)和動(dòng)態(tài)數(shù)據(jù)。項(xiàng)目任務(wù)分析維度數(shù)據(jù)采集任務(wù)1:靜態(tài)數(shù)據(jù)采集(一)如何使用PowerQuery數(shù)據(jù)清洗數(shù)據(jù)保存任務(wù)2:靜態(tài)數(shù)據(jù)采集(二)獲取靜態(tài)數(shù)據(jù)的url在PowerQuery中輸入公式及M函數(shù)數(shù)據(jù)清洗數(shù)據(jù)保存任務(wù)3:動(dòng)態(tài)數(shù)據(jù)采集如何使用PowerQuery獲取動(dòng)態(tài)數(shù)據(jù)的url在PowerQuery中輸入公式及M函數(shù)數(shù)據(jù)清洗數(shù)據(jù)保存分析思路判斷方式:復(fù)制部分目標(biāo)數(shù)據(jù),進(jìn)入網(wǎng)頁源代碼頁面,利用快速查找(Ctrl+F)功能確定是否能夠定位到目標(biāo)數(shù)據(jù),定位成功則目標(biāo)數(shù)據(jù)屬于靜態(tài)數(shù)據(jù),否則為動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)采集步驟判斷目標(biāo)數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動(dòng)態(tài)數(shù)據(jù)采集目標(biāo)數(shù)據(jù)保存數(shù)據(jù)靜態(tài)數(shù)據(jù):在加載網(wǎng)頁時(shí),數(shù)據(jù)內(nèi)容就已經(jīng)存儲(chǔ)在網(wǎng)頁的源代碼中,可以直接從源代碼中提取出來。動(dòng)態(tài)數(shù)據(jù):在網(wǎng)頁加載時(shí),并不會(huì)立即顯示出來,而是需要進(jìn)行一些特定的動(dòng)作,如滑動(dòng)鼠標(biāo)滾輪、點(diǎn)擊按鈕等,才會(huì)觸發(fā)加載動(dòng)作,將數(shù)據(jù)動(dòng)態(tài)地加載到網(wǎng)頁中。數(shù)據(jù)采集步驟判斷目標(biāo)數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動(dòng)態(tài)數(shù)據(jù)采集目標(biāo)數(shù)據(jù)保存數(shù)據(jù)確定采集目標(biāo)的url:靜態(tài)數(shù)據(jù)的url與網(wǎng)址相同,而動(dòng)態(tài)數(shù)據(jù)需要找到對應(yīng)加載包中請求頭頁面下的RequestURL。明確目標(biāo)所在位置:選中目標(biāo)數(shù)據(jù),鼠標(biāo)右擊選擇“檢查”,使用開發(fā)者工具(如瀏覽器的開發(fā)者工具)定位目標(biāo)數(shù)據(jù)在網(wǎng)頁中的位置,了解數(shù)據(jù)在網(wǎng)頁中的呈現(xiàn)方式、存儲(chǔ)形式。采集目標(biāo)數(shù)據(jù):編寫代碼,向網(wǎng)頁發(fā)送請求,針對網(wǎng)頁返回的內(nèi)容并提取目標(biāo)數(shù)據(jù)。將采集到的目標(biāo)數(shù)據(jù)以文件的形式存儲(chǔ)到本地電腦當(dāng)中,也可以存儲(chǔ)至云端數(shù)據(jù)庫。項(xiàng)目10數(shù)據(jù)采集任務(wù)1靜態(tài)數(shù)據(jù)采集(一)網(wǎng)址:/team/HOU.html(1)在NBA數(shù)據(jù)網(wǎng)頁上采集休斯敦火箭隊(duì)球員最新賽季的歷史數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(一)①利用Excel從“自網(wǎng)站”中獲取數(shù)據(jù)。②選擇目標(biāo)數(shù)據(jù)“Table0”表,點(diǎn)擊“編輯”進(jìn)入PowerQuery編輯器。(1)在NBA數(shù)據(jù)網(wǎng)頁上采集休斯敦火箭隊(duì)球員最新賽季的歷史數(shù)據(jù)。③刪除第一列空列。④篩選數(shù)據(jù)。將“總計(jì)”“全隊(duì)數(shù)據(jù)”“對手?jǐn)?shù)據(jù)”的勾去掉,只選擇需要的數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(一)(1)在NBA數(shù)據(jù)網(wǎng)頁上采集休斯敦火箭隊(duì)球員最新賽季的歷史數(shù)據(jù)。⑤關(guān)閉并上載數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(一)項(xiàng)目10數(shù)據(jù)采集任務(wù)2靜態(tài)數(shù)據(jù)采集(二)靜態(tài)數(shù)據(jù)采集(二)①選中數(shù)據(jù)中任一單元格,選擇“自表格/區(qū)域”,進(jìn)入PowerQuery編輯器。(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。②添加自定義列,創(chuàng)建url。靜態(tài)數(shù)據(jù)采集(二)(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。③再次添加自定義列。公式中的M函數(shù)說明:函數(shù)1:“Web.Page”是以網(wǎng)頁的方式加載數(shù)據(jù)。函數(shù)2:“Web.Contents”是將網(wǎng)頁以二進(jìn)制文件的格式下載。{0}[Data]是打開網(wǎng)頁中的第一張表格,也就是上一個(gè)采集的“Table0”。靜態(tài)數(shù)據(jù)采集(二)靜態(tài)數(shù)據(jù)采集(二)(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。④展開table,空列可以直接取消勾選,并且取消勾選“使用原始列名作為前綴”復(fù)選框。⑤展開數(shù)據(jù)后,取消勾選“總計(jì)”“全隊(duì)數(shù)據(jù)”“對手?jǐn)?shù)據(jù)”復(fù)選框。⑥刪除不需要的列。⑦關(guān)閉并上載數(shù)據(jù)。靜態(tài)數(shù)據(jù)采集(二)(1)通過設(shè)置URL規(guī)則,一次性對多個(gè)球隊(duì)的數(shù)據(jù)進(jìn)行采集。項(xiàng)目10數(shù)據(jù)采集任務(wù)3動(dòng)態(tài)數(shù)據(jù)采集網(wǎng)址:/team/HOU.html(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。動(dòng)態(tài)數(shù)據(jù)采集①F12進(jìn)入開發(fā)者模式NetWork(網(wǎng)絡(luò))界面,選擇不同年份賽季,此時(shí)右側(cè)的NetWork窗口的左側(cè)會(huì)新增文件鏈接,單擊該新增文件,在Preview窗口可查看文件內(nèi)容。②單擊“Headers”按鈕,從“Headers”窗口可以看到請求RequestURL:/team/stat_box_team.php?team=HOU&season=2017&col=pts&order=1&isseason=1。(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。③將需要采集的球隊(duì)和年份數(shù)據(jù)作為參數(shù)導(dǎo)入采集過程。選擇“自表格/區(qū)域”選項(xiàng),將數(shù)據(jù)導(dǎo)入PowerQuery編輯器。④將年份的格式設(shè)置為文本,方便參數(shù)傳入U(xiǎn)RL中。動(dòng)態(tài)數(shù)據(jù)采集(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。⑤添加自定義列,創(chuàng)建目標(biāo)URL。動(dòng)態(tài)數(shù)據(jù)采集⑥根據(jù)url下載文件,用自定義列實(shí)現(xiàn)。M函數(shù)說明:Text.FromBinary是將二進(jìn)制文件轉(zhuǎn)成文本,其語法結(jié)構(gòu)為:Text.FromBinary(binaryasnullablebinary,optionalencodingasnullablenumber)asnullabletext。本例使用該函數(shù)是為了解決亂碼問題,第二個(gè)參數(shù)65001表示UTF8編碼。動(dòng)態(tài)數(shù)據(jù)采集(1)在NBA數(shù)據(jù)網(wǎng)頁上采集不同球隊(duì)中不同球員的賽季比賽記錄。⑦展
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《學(xué)前教育概述》課件
- 單位管理制度集合大合集【人力資源管理篇】十篇
- 單位管理制度分享匯編【員工管理篇】十篇
- 單位管理制度分享大全【人員管理篇】
- 單位管理制度范例選集【員工管理】
- 單位管理制度范例合集【人力資源管理篇】十篇
- 單位管理制度呈現(xiàn)合集【員工管理篇】
- 單位管理制度呈現(xiàn)大合集【人事管理】十篇
- 《微點(diǎn)精析》考向19 文化常識(shí) 高考語文一輪復(fù)習(xí)考點(diǎn)微專題訓(xùn)練(原卷+解析)
- 第4單元 民族團(tuán)結(jié)與祖國統(tǒng)一(B卷·能力提升練)(解析版)
- 中考數(shù)學(xué)第一輪復(fù)習(xí)
- 一汽靖燁發(fā)動(dòng)機(jī)有限公司安全文化知識(shí)手冊
- 當(dāng)前國際形勢
- 湘賀水利樞紐水電站設(shè)計(jì)
- 高壓線防護(hù)架搭設(shè)施工方案
- 四川省成都市2021-2022學(xué)年高一(上)期末調(diào)研考試物理試題Word版含解析
- 二次元作業(yè)指導(dǎo)書
- GB/T 15180-2010重交通道路石油瀝青
- 公路工程質(zhì)量與安全管理課件
- 計(jì)算機(jī)基礎(chǔ)知識(shí)整理課件
- 高一數(shù)學(xué)必修2《事件的關(guān)系和運(yùn)算》課件
評論
0/150
提交評論