大數(shù)據(jù)采集與預(yù)處理(微課版) 課件 項(xiàng)目1 初識(shí)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)采集與預(yù)處理_第1頁(yè)
大數(shù)據(jù)采集與預(yù)處理(微課版) 課件 項(xiàng)目1 初識(shí)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)采集與預(yù)處理_第2頁(yè)
大數(shù)據(jù)采集與預(yù)處理(微課版) 課件 項(xiàng)目1 初識(shí)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)采集與預(yù)處理_第3頁(yè)
大數(shù)據(jù)采集與預(yù)處理(微課版) 課件 項(xiàng)目1 初識(shí)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)采集與預(yù)處理_第4頁(yè)
大數(shù)據(jù)采集與預(yù)處理(微課版) 課件 項(xiàng)目1 初識(shí)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)采集與預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目一

初識(shí)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)采集與預(yù)處理認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理目錄Content1搭建數(shù)據(jù)采集與預(yù)處理開(kāi)發(fā)環(huán)境2數(shù)據(jù)來(lái)源較多項(xiàng)目導(dǎo)言零數(shù)據(jù)類型豐富數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理學(xué)習(xí)目標(biāo)零知識(shí)目標(biāo)了解數(shù)據(jù)采集相關(guān)知識(shí);熟悉大數(shù)據(jù)的來(lái)源;掌握大數(shù)據(jù)處理相關(guān)知識(shí);精通PyCharm的安裝步驟與掌握PyCharm的使用方法。技能目標(biāo)具備掌握大數(shù)據(jù)采集方法的能力;具備大數(shù)據(jù)預(yù)處理方法的作用能力;具備安裝和使用PyCharm的能力。技能目標(biāo)具備精益求精、堅(jiān)持不懈的精神;具備團(tuán)隊(duì)協(xié)作能力;具備靈活的思維和處理分析問(wèn)題的能力;具備責(zé)任心。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹認(rèn)識(shí)數(shù)據(jù)來(lái)源任務(wù)技能信息管理系統(tǒng)、網(wǎng)絡(luò)數(shù)據(jù)、機(jī)器和傳感器數(shù)據(jù)、科學(xué)實(shí)驗(yàn)數(shù)據(jù)、交易數(shù)據(jù)、人為數(shù)據(jù)等認(rèn)識(shí)大數(shù)據(jù)采集通過(guò)技術(shù)手段進(jìn)行數(shù)據(jù)采集。目前,常用的大數(shù)據(jù)采集方式有網(wǎng)絡(luò)爬蟲(chóng)采集、日志文件采集、商業(yè)工具采集認(rèn)識(shí)大數(shù)據(jù)預(yù)處理修整不完整、含噪聲、不一致(的數(shù)據(jù),致使采集到的數(shù)據(jù)大多是不規(guī)則、非結(jié)構(gòu)化的,易受到噪聲(錯(cuò)誤)、不完整、不一致等問(wèn)題的影響。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹1認(rèn)識(shí)數(shù)據(jù)來(lái)源維克托和肯尼斯提出大數(shù)據(jù)為巨量資料,是一種海量的、飛速增長(zhǎng)的、多樣化的信息資產(chǎn)。(1)信息管理系統(tǒng)任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(2)網(wǎng)絡(luò)數(shù)據(jù)移動(dòng)設(shè)備上的軟件幫助儲(chǔ)存和收集各種數(shù)據(jù)、互聯(lián)網(wǎng)中通過(guò)社交系統(tǒng)、社交媒體以及搜索引擎等產(chǎn)生海量數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)01郵件文檔圖片音頻視頻半結(jié)構(gòu)化數(shù)據(jù)02XMLJSON任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(3)物聯(lián)網(wǎng)數(shù)據(jù)

通過(guò)傳感器技術(shù)獲取外界的物理、化學(xué)和生物等數(shù)據(jù)信息,在互聯(lián)網(wǎng)的基礎(chǔ)上將網(wǎng)絡(luò)延伸和擴(kuò)展,使其在機(jī)器與機(jī)器之間進(jìn)行信息交換和通信。0102任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(4)科學(xué)實(shí)驗(yàn)數(shù)據(jù)實(shí)驗(yàn)數(shù)據(jù)仿真數(shù)據(jù)任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(5)交易數(shù)據(jù)儲(chǔ)蓄卡交易電子商務(wù)購(gòu)物互聯(lián)網(wǎng)交易數(shù)據(jù)電子商務(wù)購(gòu)物數(shù)據(jù)任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹2認(rèn)識(shí)大數(shù)據(jù)采集

早期,數(shù)據(jù)采集通過(guò)人工錄入、調(diào)查問(wèn)卷、電話隨訪等人工方式實(shí)現(xiàn)。目前,常用的大數(shù)據(jù)采集方式有網(wǎng)絡(luò)爬蟲(chóng)采集、日志文件采集、商業(yè)工具采集。1.網(wǎng)絡(luò)爬蟲(chóng)采集通過(guò)模擬客戶端(瀏覽器)進(jìn)行網(wǎng)絡(luò)請(qǐng)求獲取網(wǎng)頁(yè)中文本數(shù)據(jù)、圖片數(shù)據(jù)、音頻文件、視頻文件等數(shù)據(jù)。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹網(wǎng)絡(luò)爬蟲(chóng)類型通用網(wǎng)絡(luò)爬蟲(chóng)

可以在整個(gè)互聯(lián)網(wǎng)中進(jìn)行目標(biāo)資源的爬取,目標(biāo)爬取數(shù)量巨大,對(duì)爬蟲(chóng)程序的性能有較高要求。增量式網(wǎng)絡(luò)爬蟲(chóng)

用于對(duì)頁(yè)面數(shù)據(jù)會(huì)不斷變化的頁(yè)面進(jìn)行爬取操作,可以爬取網(wǎng)頁(yè)中更新的新數(shù)據(jù)。聚焦網(wǎng)絡(luò)爬蟲(chóng)可以選擇性的在目標(biāo)定位于主題相關(guān)的頁(yè)面中爬取特定信息。深層頁(yè)面爬蟲(chóng)深層網(wǎng)頁(yè)是大部分內(nèi)容不能通過(guò)靜態(tài)鏈獲取的,隱藏在搜索表單后,只有用戶提交一些關(guān)鍵詞才能獲得的Web頁(yè)面。例如,用戶注冊(cè)登錄前不可見(jiàn)的頁(yè)面即為深層頁(yè)面。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹網(wǎng)絡(luò)爬蟲(chóng)用途利用網(wǎng)絡(luò)爬蟲(chóng)獲取網(wǎng)站頁(yè)面,網(wǎng)站更新時(shí)獲取頁(yè)面信息。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)去其他平臺(tái)獲取信息實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的填充,之后即可根據(jù)業(yè)務(wù)需求對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。電商平臺(tái)中抓取同一商品的價(jià)格,之后即可提供給用戶最實(shí)惠的商品價(jià)格任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹爬蟲(chóng)的基本流程任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹Urllib

Python內(nèi)置的http網(wǎng)絡(luò)爬蟲(chóng)庫(kù),包含了諸如URL內(nèi)容抓取、HTTP請(qǐng)求發(fā)送、文件讀取等多個(gè)操作URL的相關(guān)模塊。Requests

基于Urllib使用Python語(yǔ)音編寫(xiě)的第三方http庫(kù),采用Apache2Licensed開(kāi)源協(xié)議開(kāi)發(fā)。Scrapy單擊此處輸入你的正文,文字是您思想的提煉,為了最終演示發(fā)布的良好效果BeautifulSoup

可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù)。能夠通過(guò)轉(zhuǎn)換器實(shí)現(xiàn)文檔導(dǎo)航,查找,修改文檔。Xpath

可以應(yīng)用在包括數(shù)據(jù)挖掘、信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹2.日志數(shù)據(jù)采集(1)JS埋點(diǎn)技術(shù)采集日志JS埋點(diǎn)技術(shù)通過(guò)在頁(yè)面中植入JS代碼實(shí)現(xiàn)日志數(shù)據(jù)的收集,包括用戶點(diǎn)了哪個(gè)按鈕、頁(yè)面之間的跳轉(zhuǎn)次序、停留時(shí)長(zhǎng)等。JS埋點(diǎn)可以在項(xiàng)目開(kāi)發(fā)過(guò)程中手動(dòng)植入。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(2)Flume組件采集日志可以將大批量的不同數(shù)據(jù)源的日志數(shù)據(jù)聚合、移動(dòng)到數(shù)據(jù)中心(HDFS)進(jìn)行存儲(chǔ)。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹3.商業(yè)工具采集

提供多場(chǎng)景數(shù)據(jù)計(jì)算和分析挖掘的科研基礎(chǔ)環(huán)境,充分結(jié)合行業(yè)課題的相關(guān)數(shù)據(jù),并利用大數(shù)據(jù)技術(shù)深入挖掘分析,滿足行業(yè)大數(shù)據(jù)的科研工作需求。

日志管理工具,能夠?qū)θ罩緮?shù)據(jù)進(jìn)行集中采集和準(zhǔn)時(shí)索引處理,以及簡(jiǎn)單易用的搜索方式。

簡(jiǎn)單直觀的網(wǎng)頁(yè)爬蟲(chóng)工具,無(wú)需編碼即可從許多網(wǎng)站抓取數(shù)據(jù)。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹3認(rèn)識(shí)大數(shù)據(jù)預(yù)處理目前,常用的數(shù)據(jù)預(yù)處理方式有四種,分別是數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。(1)數(shù)據(jù)清洗通過(guò)刪除有缺失數(shù)據(jù)的整行數(shù)據(jù)或刪除有過(guò)多缺失數(shù)據(jù)的變量、以業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)并人工填寫(xiě)填充缺失、利用計(jì)算(均值、中位數(shù)、眾數(shù)、隨機(jī)數(shù)等)結(jié)果進(jìn)行填充。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹3認(rèn)識(shí)大數(shù)據(jù)預(yù)處理目前,常用的數(shù)據(jù)預(yù)處理方式有四種,分別是數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。(1)數(shù)據(jù)清洗通過(guò)刪除有缺失數(shù)據(jù)的整行數(shù)據(jù)或刪除有過(guò)多缺失數(shù)據(jù)的變量、以業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)并人工填寫(xiě)填充缺失、利用計(jì)算(均值、中位數(shù)、眾數(shù)、隨機(jī)數(shù)等)結(jié)果進(jìn)行填充。①缺失值清洗任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹②格式內(nèi)容清洗問(wèn)題處理方式書(shū)寫(xiě)格式問(wèn)題內(nèi)容修改,將格式統(tǒng)一出現(xiàn)不存在字符問(wèn)題以半自動(dòng)校驗(yàn)半人工方式來(lái)找出可能存在的問(wèn)題的數(shù)據(jù),并去除或修改數(shù)據(jù)中不符合格式的字符數(shù)據(jù)與字段不匹配問(wèn)題不能直接刪除,需要了解具體問(wèn)題,再根據(jù)情況選擇清洗方法任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹③邏輯錯(cuò)誤清洗問(wèn)題處理方式重復(fù)數(shù)據(jù)刪除數(shù)值不合理選擇刪除數(shù)據(jù)或按缺失值對(duì)數(shù)據(jù)值進(jìn)行處理數(shù)據(jù)沖突先判斷字段與信息,之后在選擇刪除或修改該數(shù)據(jù)任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹④非需求數(shù)據(jù)清洗非需求數(shù)據(jù)就是在數(shù)據(jù)分析時(shí)沒(méi)有可分析的意義或不會(huì)被分析的數(shù)據(jù),在數(shù)據(jù)處理操作中,只需將其刪除即可。但需要注意的是,不要把重要字段(如學(xué)生數(shù)據(jù)中的姓名、學(xué)號(hào)等)、不確定是否需要字段(如學(xué)生數(shù)據(jù)中的身高、體重等,在成績(jī)分析時(shí)并不需要,但在學(xué)生健康情況分析中需要)等刪除。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(2)數(shù)據(jù)集成將互聯(lián)網(wǎng)中多種分布在不同位置的諸如各類XML文檔、HTML文檔、電子郵件、文本文件等結(jié)構(gòu)化、半結(jié)構(gòu)化信息等數(shù)據(jù)源中的數(shù)據(jù)綜合存儲(chǔ)在一個(gè)位置。任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(3)數(shù)據(jù)規(guī)約方式描述維規(guī)約作用于多維數(shù)組,可以將不需要的整列數(shù)據(jù)刪除實(shí)現(xiàn)數(shù)據(jù)維數(shù)的減少,提高計(jì)算效率數(shù)量規(guī)約通過(guò)在原數(shù)據(jù)中選擇替代的、較少的數(shù)據(jù)來(lái)減少數(shù)據(jù)量數(shù)據(jù)壓縮作用于存儲(chǔ)空間,在不丟失有用信息的前提下,通過(guò)縮減數(shù)據(jù)量或重新組織結(jié)構(gòu)減小數(shù)據(jù)的存儲(chǔ)空間,高其傳輸、存儲(chǔ)和處理效率任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹(4)數(shù)據(jù)轉(zhuǎn)換方式描述光滑通過(guò)回歸、分類等算法去掉數(shù)據(jù)中含有的噪聲屬性構(gòu)造在指定結(jié)構(gòu)的數(shù)據(jù)集中,添加新的屬性,助提高準(zhǔn)確率和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解規(guī)范化將數(shù)據(jù)集中的數(shù)據(jù)按一定比例進(jìn)行縮放操作,使之落入特定的區(qū)間內(nèi),常用的數(shù)據(jù)規(guī)范化方法有零-均值標(biāo)準(zhǔn)化、歸一化等任務(wù)1-1:認(rèn)識(shí)大數(shù)據(jù)采集與預(yù)處理壹2.數(shù)據(jù)預(yù)處理工具Pig使用類似于SQL的面向數(shù)據(jù)流的語(yǔ)言PigLatin,可以在Hadoop中執(zhí)行所有的數(shù)據(jù)處理操作PandasPython的一個(gè)數(shù)據(jù)處理模塊,集成了大量的庫(kù)和多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)模型,主要用于實(shí)現(xiàn)數(shù)據(jù)的處理與分析ELKELK主要用于收集集群日志,從而對(duì)日志進(jìn)行有效的處理,主要由ElasticSearch、Logstash和Kiabana三個(gè)開(kāi)源工具組成。任務(wù)1-2:搭建數(shù)據(jù)采集與預(yù)處理開(kāi)發(fā)環(huán)境貳1認(rèn)識(shí)PyCharm編碼協(xié)助;項(xiàng)目代碼導(dǎo)航;代碼分析;Python重構(gòu);支持Django;集成版本控制;圖形頁(yè)面調(diào)試器;集成的單元測(cè)試。優(yōu)勢(shì)任務(wù)1-2:搭建數(shù)據(jù)采集與預(yù)處理開(kāi)發(fā)環(huán)境貳2安裝PyCharm進(jìn)入PyCharm的官網(wǎng)Step1下載安裝包Step2打開(kāi)安裝包Step3激活軟件Step6初始化設(shè)置Step5選擇安裝位置Step4任務(wù)1-2:搭建數(shù)據(jù)采集與預(yù)處理開(kāi)發(fā)環(huán)境貳3使用PyCharm任務(wù)1-2:搭建數(shù)據(jù)采集與預(yù)處理開(kāi)發(fā)環(huán)境貳快捷鍵描述Ctrl+/行注釋/取消行注釋Ctrl+Alt+L根據(jù)模板格式對(duì)代碼格式化Ctrl+Alt+SPyCharm設(shè)置Ctrl+D復(fù)制當(dāng)前行或者所選代碼塊Ctrl+Y刪除光標(biāo)所在位置行Ctrl+F當(dāng)前文件內(nèi)快速查找代碼Ctrl+Shift+F指定文件內(nèi)尋找路徑Ctrl+R當(dāng)前文件內(nèi)代碼替代Ctrl+Shift+R指定文件內(nèi)代碼批量替代Shift+

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論