數(shù)據(jù)采集技術(shù)課件第1章 緒論_第1頁(yè)
數(shù)據(jù)采集技術(shù)課件第1章 緒論_第2頁(yè)
數(shù)據(jù)采集技術(shù)課件第1章 緒論_第3頁(yè)
數(shù)據(jù)采集技術(shù)課件第1章 緒論_第4頁(yè)
數(shù)據(jù)采集技術(shù)課件第1章 緒論_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

能力要求能通過(guò)學(xué)習(xí)本章知識(shí),對(duì)數(shù)據(jù)采集有一個(gè)整體的簡(jiǎn)單了解。對(duì)常用的網(wǎng)絡(luò)爬蟲類型、框架、方法有一定的理解,為今后的學(xué)習(xí)打下基礎(chǔ)。1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置1.1數(shù)據(jù)采集概述1.1.1什么是數(shù)據(jù)采集數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是指從傳感器和其他待測(cè)設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過(guò)程。在互聯(lián)網(wǎng)行業(yè)快速發(fā)展的今天,數(shù)據(jù)采集已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)及分布式領(lǐng)域。本書的數(shù)據(jù)采集主要討論的是如何從各種系統(tǒng)每天產(chǎn)生并存放在各類數(shù)據(jù)庫(kù)、文件系統(tǒng)的數(shù)據(jù)、服務(wù)器或互聯(lián)網(wǎng)以及移動(dòng)互聯(lián)網(wǎng)每天產(chǎn)生的日志文件中,又或者是各種圖像、音頻、視頻文件、信息等中,采集相應(yīng)的數(shù)據(jù)并匯總、入庫(kù)。數(shù)據(jù)分類新一代數(shù)據(jù)體系中,將傳統(tǒng)數(shù)據(jù)體系中沒(méi)有考慮過(guò)的新數(shù)據(jù)源進(jìn)行歸納與分類,可將其分為線上行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)兩大類,分別如。(1)線上行為數(shù)據(jù):頁(yè)面數(shù)據(jù)、交互數(shù)據(jù)、表單數(shù)據(jù)、會(huì)話數(shù)據(jù)等。(2)內(nèi)容數(shù)據(jù):應(yīng)用日志、電子文檔、機(jī)器數(shù)據(jù)、語(yǔ)音數(shù)據(jù)、社交媒體數(shù)據(jù)等。傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)采集區(qū)別隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)采集面臨著更多新的難題。大數(shù)據(jù)的數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集相比,具有以下不同的特點(diǎn)。傳統(tǒng)數(shù)據(jù)采集大數(shù)據(jù)的數(shù)據(jù)采集來(lái)源單一來(lái)源廣泛結(jié)構(gòu)單一數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)分布式數(shù)據(jù)庫(kù)1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置內(nèi)容導(dǎo)航數(shù)據(jù)采集概述數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景數(shù)據(jù)采集技術(shù)框架網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置1.1.2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景1.知識(shí)信息儲(chǔ)備客戶服務(wù)、保險(xiǎn)、汽車、維修、醫(yī)藥等行業(yè)需要儲(chǔ)備規(guī)模巨大的資料庫(kù),而龐大繁雜的解答手冊(cè)和知識(shí)系統(tǒng)會(huì)造成重復(fù)查詢,導(dǎo)致系統(tǒng)延遲和成本上升,而數(shù)據(jù)采集技術(shù)有效緩解了這類問(wèn)題。2.搜索技術(shù)搜索是大家?guī)缀跆焯於荚谑褂玫膽?yīng)用,它使用的是爬蟲技術(shù)。搜索引擎爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人)是一種按照一定的規(guī)則,自動(dòng)抓取萬(wàn)維網(wǎng)信息的程序或者腳本。搜索引擎離不開爬蟲,比如百度搜索引擎的爬蟲叫作百度蜘蛛(Baiduspider)。3.其他網(wǎng)絡(luò)爬蟲應(yīng)用(1)新聞網(wǎng)站集中閱讀(2)過(guò)濾廣告(3)精準(zhǔn)營(yíng)銷(4)網(wǎng)站用戶信息進(jìn)行分析1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置數(shù)據(jù)采集技術(shù)框架1.2.1數(shù)據(jù)采集技術(shù)架構(gòu)圖數(shù)據(jù)采集技術(shù)框架1.2.1兩種主流的數(shù)據(jù)采集架構(gòu)Flume的技術(shù)架構(gòu)中,每一個(gè)代碼都由資源、管道和下沉組成。資源負(fù)責(zé)接收輸入數(shù)據(jù),并將數(shù)據(jù)寫入管道。Flume的資源支持HTTP、JMS、RPC、NetCat、Exec、SpoolingDirectory。數(shù)據(jù)采集技術(shù)框架1.2.1Kafka技術(shù)架構(gòu)Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。它的工作原理類似于微博的訂閱,因其分布式及高吞吐率而被廣泛使用,現(xiàn)已與ClouderaHadoop、ApacheStorm、ApacheSpark集成。1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置網(wǎng)絡(luò)爬蟲概述1.1.1網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人或網(wǎng)頁(yè)追逐者)是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。它針對(duì)既定的抓取目標(biāo),有選擇地訪問(wèn)網(wǎng)頁(yè)及相關(guān)的鏈接,獲取所需要的數(shù)據(jù)資源。由于網(wǎng)絡(luò)爬蟲系統(tǒng)能為搜索引擎系統(tǒng)提供數(shù)據(jù)來(lái)源,所以很多大型的網(wǎng)絡(luò)搜索引擎系統(tǒng)都被稱為基于Web數(shù)據(jù)采集的搜索引擎系統(tǒng),甚至包括Google、百度等著名搜索引擎,由此可見網(wǎng)絡(luò)爬蟲的重要性。1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)及工作流程網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型1.2.5網(wǎng)絡(luò)爬蟲的類型網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型網(wǎng)絡(luò)爬蟲的類型主要有如下四種1.通用網(wǎng)絡(luò)爬蟲2.聚焦網(wǎng)絡(luò)爬蟲3.增量式網(wǎng)絡(luò)爬蟲4.深層網(wǎng)絡(luò)爬蟲1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置1.3Scrapy爬蟲Scrapy爬蟲介紹Scrapy的官方文檔是這樣介紹Scrapy的:Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,可以應(yīng)用在包括數(shù)據(jù)挖掘、信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中,其最初是為了頁(yè)面抓?。ǜ_切來(lái)說(shuō),網(wǎng)絡(luò)抓?。┧O(shè)計(jì)的。Scrapy是一套用Python編寫的異步爬蟲框架,基于Twisted實(shí)現(xiàn),運(yùn)行于Linux/Windows/MacOS等多種環(huán)境,具有速度快、擴(kuò)展性強(qiáng)、使用簡(jiǎn)便等特點(diǎn)。Scrapy爬蟲介紹1.2.1Kafka技術(shù)架構(gòu)Scrapy框架是一套比較成熟的Python爬蟲框架,是使用Python開發(fā)的快速、高層次的信息爬取框架,可以高效地爬取Web頁(yè)面并提取出結(jié)構(gòu)化數(shù)據(jù)。Scrapy吸引人的地方在于它是一個(gè)框架,任何人都可以根據(jù)需求就可以對(duì)它進(jìn)行修改。1數(shù)據(jù)采集概述2數(shù)據(jù)采集的典型應(yīng)用場(chǎng)景3數(shù)據(jù)采集技術(shù)框架目錄4567網(wǎng)絡(luò)爬蟲概述網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)與類型Scrapy爬蟲介紹Scrapy安裝與配置1.3.5Scrapy安裝與配置Scrapy安裝與配置Scrapy可在Windows及Linux下安裝,Scrapy框架運(yùn)行平臺(tái)及相關(guān)輔助工具可通過(guò)相關(guān)網(wǎng)站下載安裝。項(xiàng)目WindowsLinux版本W(wǎng)indows764位Centos7.0Python3.4.43.4.41.3.6Windows7下的安裝配置Scrapy安裝與配置1.安裝Python3.4.42.安裝pywin323.安裝pip4.安裝pyOpenSSL5.安裝lxml6.初次安裝Scrapy框架7.安裝Twisted8.安裝Scrapy框架9.Scrapy測(cè)驗(yàn)1.3.7Linux(CentOS)下的安裝配置Scrapy安裝與配置1.源碼編譯前準(zhǔn)備2.編譯安裝3.創(chuàng)建軟鏈接4.測(cè)試python3是否安裝成功5.安裝scrapy爬蟲6.在python3shell中驗(yàn)證scrapy7.創(chuàng)建軟scrapy鏈接8.在shell中驗(yàn)證scrapy本章小結(jié)本章介紹了數(shù)據(jù)采集的概念、數(shù)據(jù)采集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論