終于有人把網(wǎng)絡爬蟲講明白了_第1頁
終于有人把網(wǎng)絡爬蟲講明白了_第2頁
終于有人把網(wǎng)絡爬蟲講明白了_第3頁
終于有人把網(wǎng)絡爬蟲講明白了_第4頁
終于有人把網(wǎng)絡爬蟲講明白了_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、終于有人把網(wǎng)絡爬蟲講明白了導讀人們正在以前所未有的速度轉向互聯(lián)網(wǎng)哉們在互聯(lián)網(wǎng)上所做的很多行為產(chǎn) 生了大量的用戶數(shù)據(jù)”,比如微博、購買記錄等?;ヂ?lián)網(wǎng)成了海量信息的載體;互聯(lián)網(wǎng)目前是分析市場趨勢、監(jiān)視競爭對手 或者獲取銷售線索的最佳場所,數(shù)據(jù)采集以及分析能力已成為驅動業(yè)務決策的 關鍵技能。如何有效地提取并利用這些信息成了一個巨大的挑戰(zhàn),而網(wǎng)絡爬蟲是一種 很好的自動采集數(shù)據(jù)的通用手段。本文將會對爬蟲的類型、爬蟲的抓取策略以 及深入學習爬蟲所需的網(wǎng)絡基礎等相關知識進行介紹。一,爬蟲是什么網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡機器人,在FOAF社區(qū)中,更經(jīng)常地 稱為網(wǎng)頁追逐者)是一種按照一定的規(guī)則,自動抓取萬

2、維網(wǎng)信息的程序或者腳 本另夕卜一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。網(wǎng)絡爬蟲通過爬取互聯(lián)網(wǎng)上網(wǎng)站服務器的內容來工作。它是用計算機語言 編寫的程序或腳本,用于自動從Internet上獲取信息或數(shù)據(jù),掃描并抓取每個 所需頁面上的某些信息,直到處理完所有能正常打開的頁面。作為搜索引擎的重要組成部分,爬蟲首要的功能就是爬取網(wǎng)頁數(shù)據(jù)(如圖 1-1所示),目前市面流行的采集器軟件都是運用網(wǎng)絡爬蟲的原理或功能。圖1-1網(wǎng)絡爬蟲象形圖二爬蟲的意義現(xiàn)如今大數(shù)據(jù)時代已經(jīng)到來,網(wǎng)絡爬蟲技術成為這個時代不可或缺的一部 分,企業(yè)需要數(shù)據(jù)來分析用戶行為、自己產(chǎn)品的不足之處以及競爭對手的信息 等,而這一切

3、的首要條件就是數(shù)據(jù)的采集。網(wǎng)絡爬蟲的價值其實就是數(shù)據(jù)的價值,在互聯(lián)網(wǎng)社會中,數(shù)據(jù)是無價之 寶,一切皆為數(shù)據(jù),誰擁有了大量有用的數(shù)據(jù),誰就擁有了決策的主動權。網(wǎng) 絡爬蟲的應用領域很多,如搜索引擎、數(shù)據(jù)采集、廣告過濾、大數(shù)據(jù)分析等。1、抓取各大電商網(wǎng)站的商品銷量信息及用戶評價來進行分析,如圖2-1所 示。曜UE計=,直 J : _1-T * =,直 J : _1-T * *導 4 ggm擺描品鹽 M3- M-h,默 mskf51 * 上 k I 1- L L _1OZIBM Ei + J *g| Era iLflBAI E Is-.- : F l # LtMMf mm tllHLO ,HHH W4

4、 AUEM V:91T/V sn:B- rTiA史狂“必氣s ;-% .zuf/1/at D-” t - 5m”.曲:t,, * f i*illT/i/il lUM lik.吁Yrl. #, 冒air/4/21 SisSl JPLt*T*rR-*1*;|j;|. ii If j fi | . &.- I-U; T # . AHMT/fcnt * mmr?n我:*:iz zv ribeflirt-nw-f1srr-mt事n :? ? :fa-9. *Tf B* L-4 l 5ig * fl T C 9 t t 鼻4 ,志if. i* =! fl BPJk, % 的:日lFlU 嗎上 TJI K7

5、*fihL 用US 尸用,白普宅孑瀏*“V *!lirtt 忡mrsfli tiijaRHif QBtlRS#HUM。舊;】1整甘,f,!T:1Jt* lLRW4 t*T-siLTt/ii iTsiii TT f 7 r i T7TT77跪 ts itju airrmnfuh m ir:H#rff m. fih * r? f w-fcJi*7?ri-rfc1 Rnn*id. (hk.T,*lri *_ s b j ri - * _ . T .D / * 土( Hi ar u 圖2-1電商網(wǎng)站的商品銷售信息2、分析大眾點評、美團網(wǎng)等餐飲類網(wǎng)站的用戶消費、評價和發(fā)展趨勢,如圖2-2所示。圖2-2餐

6、飲類網(wǎng)站的用戶消費信息仕慝3、分析各個城市中學區(qū)房的比例,以及學區(qū)房比普通二手房價格高出多少,圖2-3所示。圖2-3圖2-3學區(qū)房的比例與價格對比以上數(shù)據(jù)是通過前嗅ForeSpider數(shù)據(jù)采集軟件爬下來的,有興趣的讀者 可以嘗試自己爬一些數(shù)據(jù)。三、爬蟲的我們通常會將網(wǎng)絡爬蟲的組成模塊分為初鏈接庫、網(wǎng)絡抓取模塊、網(wǎng)頁處 理模塊、網(wǎng)頁分析模塊、DNS模塊、待抓取鏈接隊列、網(wǎng)頁庫等,網(wǎng)絡爬蟲的 各系模塊可形成一個循壞體系,從而不斷地進行分析和抓取。爬蟲的工作原理可以很簡單地解釋為先找到目標信息網(wǎng),然后頁面抓取模世 JfWRLDN淵:析。止MT網(wǎng)頁解析 有用信息存儲圖2-4爬蟲原理圖塊,接著頁面分析模

7、塊,最后數(shù)據(jù)存儲模塊。其具體詳情如圖2-4所示。的URL世 JfWRLDN淵:析。止MT網(wǎng)頁解析 有用信息存儲圖2-4爬蟲原理圖塊,接著頁面分析模塊,最后數(shù)據(jù)存儲模塊。其具體詳情如圖2-4所示。的URL該虱RL DN3解析 網(wǎng)頁下載提政出URL并皿任務 魅列已抓取 的網(wǎng)頁 皿5 WHIURI X 刊 神 PVRLL.抓取UK1.恥列3【瀚的網(wǎng)頁M扮取新的URI 成入UEL隊列START挾取啊貝初始URIttFURL爬蟲工作基本流程:首先在互聯(lián)網(wǎng)中選出一部分網(wǎng)頁,以這些網(wǎng)頁的鏈接地址作為種子URL ;將這些種子URL放入待抓取的URL隊列中,爬蟲從待抓取的URL隊列 依次讀?。粚RL通過DNS

8、解析;把鏈接地址轉換為網(wǎng)站服務器對應的IP地址;網(wǎng)頁下載器通過網(wǎng)站服務器對網(wǎng)頁進行下載;下載的網(wǎng)頁為網(wǎng)頁文檔形式;對網(wǎng)頁文檔中的URL進行抽??;過濾掉已經(jīng)抓取的URL;對未進行抓取的URL繼續(xù)循環(huán)抓取,直至待抓取URL隊列為空。四爬蟲技術的類型-聚焦網(wǎng)絡爬蟲:是“面向特定主題需求”的一種爬蟲程序,而通用網(wǎng)絡 爬蟲則是搜索引擎抓取系統(tǒng)(Baidu、Google、Yaho。等)的重要組成 部分,主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內容 的鏡像備份。增量抓?。阂饧瘁槍δ硞€站點的數(shù)據(jù)進行抓取,當網(wǎng)站的新增數(shù)據(jù)或者 該站點的數(shù)據(jù)發(fā)生變化后,自動地抓取它新增的或者變化后的數(shù)據(jù)。Web頁面按存在方式可以分為表層網(wǎng)頁(surface Web )和深層網(wǎng)頁(deep Web,也稱 invisible Web

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論