Python網(wǎng)絡(luò)爬蟲的實踐心得

上傳人：瀚*** IP屬地：湖北上傳時間：2023-11-12 格式：DOC 頁數(shù)：7 大?。?7.50KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

Python網(wǎng)絡(luò)爬蟲的實踐心得網(wǎng)絡(luò)爬蟲(又被人們叫做網(wǎng)頁蜘蛛,有部分人也叫它網(wǎng)絡(luò)機器人,(而當(dāng)它處在FOAF社區(qū)中,人們更習(xí)慣把它叫做網(wǎng)絡(luò)追逐者),網(wǎng)絡(luò)蜘蛛是一個程序或腳本,它能自動組織并適用于符合人們需要一定的規(guī)則，從而在萬維網(wǎng)上獲取有用的信息。不為人所熟知的其它名稱是網(wǎng)絡(luò)螞蟻。隨著當(dāng)今網(wǎng)絡(luò)的快速發(fā)展,萬維網(wǎng)已經(jīng)成為了大量的信息收集點，為了使這些信息更充分高效的利用,爬蟲由此而產(chǎn)生。簡單的說爬蟲是一種自動化的程序，這個程序可以模擬人的一切行為，簡單的說就是一個不知疲倦的人，在不停地操作某一樣?xùn)|西。網(wǎng)絡(luò)爬蟲也叫做網(wǎng)絡(luò)機器人，可以代替人們自動地在互聯(lián)網(wǎng)中進行數(shù)據(jù)信息的采集與整理。在大數(shù)據(jù)時代，信息的采集是一項重要的工作，如果單純靠人力進行信息采集，不僅低效繁瑣，搜集的成本也會提高。此時，我們可以使用網(wǎng)絡(luò)爬蟲對數(shù)據(jù)信息進行自動采集，比如應(yīng)用于搜索引擎中對站點進行爬取收錄，應(yīng)用于數(shù)據(jù)分析與挖掘中對數(shù)據(jù)進行采集，應(yīng)用于金融分析中對金融數(shù)據(jù)進行采集，除此之外，還可以將網(wǎng)絡(luò)爬蟲應(yīng)用于輿情監(jiān)測與分析、目標(biāo)客戶數(shù)據(jù)的收集等各個領(lǐng)域。網(wǎng)絡(luò)爬蟲作為一種便捷的工具為人們所熟知，它的便捷性在于不用通過人工多步驟的對信息進行整合篩選，它能夠自身對所獲得的信息進行過濾，選擇出自己需要的，丟棄不符合所需人要求的信息。網(wǎng)絡(luò)爬蟲還具有高效便捷的特點，這一優(yōu)點被使用者所喜愛和熟知。網(wǎng)絡(luò)爬蟲作為溝通信息與信息獲取者的媒介和橋梁，為人們大大的提供了便利，將信息與人們緊密聯(lián)系在一起，使人們可以通過信息直接清楚地了解到事物的本身。爬蟲的解釋與了解(舉個實例).網(wǎng)絡(luò)爬蟲有諸多分類，簡單的說網(wǎng)絡(luò)爬蟲可以分為聚焦爬蟲和通用爬蟲兩種。通用網(wǎng)絡(luò)爬蟲是如何工作的呢？它是通過從捜索引擎(例如Baidu、Google等)上抓取信息。它是為了便于認(rèn)門對信息的查看從而將互聯(lián)網(wǎng)上的信息進行下載,然后形成一個與互聯(lián)網(wǎng)上的內(nèi)容相對應(yīng)的鏡像備份，放在所下載的信息庫中進行整合對比以及篩選。不同于其他的信息獲取方式,一般的搜索引擎(本地搜索引擎),主要用于一般網(wǎng)絡(luò)爬蟲有效地收集互聯(lián)網(wǎng)上的網(wǎng)頁,準(zhǔn)確地收集信息。這些網(wǎng)頁的功能是指更好的運行搜索引擎,從而提供支持其工作。它在這個過程中起著非常重要的作用。因此,搜索引擎的性能直接影響著人們得到他們需要的信息準(zhǔn)確與否，是否滿足獲取者的基本要求。在搜索的過程中,第一步要做的是,首先選擇一部分的種子URL,將所選取的URL放入等待被抓取URL隊列中;取出那些待抓取的URL,對DNS進行解析從而得到主機的IP,然后將URL所對應(yīng)的網(wǎng)頁進行下載,然后存儲在自已所下載網(wǎng)頁庫中。為了更加準(zhǔn)確地篩選出所需的信息,需要將這些URL再次放進已抓取URL隊列中。分析已經(jīng)被抓取URL隊列中的URL,分析隊列中的其他URL,然后且將URL重新放入待抓取URL的隊列,從而進入一個又一個的循環(huán)，直到得到自己所需的信息。爬蟲過程簡單可以總結(jié)概括為1.爬行的人的過程中的主要成分是首先需要確定抓取的網(wǎng)頁的URL地址。.2.然后通過搜索引擎HTTP或者HTTP的協(xié)議來獲取與之相對應(yīng)的HTML頁面。3.對HTML頁面里所有的數(shù)據(jù)進行篩選和整合:a.如果是需要的數(shù)據(jù),就篩選保存起來。b.如果不是所需的信息或者是頁面里的其他URL,那就繼續(xù)執(zhí)行循環(huán)操作。這次實訓(xùn)中我們所做的的項目是通過網(wǎng)絡(luò)爬蟲在貓眼上爬取電影信息,包括一系列的關(guān)于電影的評分信息,如主演，導(dǎo)演，評分等,換句話來說，網(wǎng)絡(luò)爬蟲是一種自動提取網(wǎng)頁的一種應(yīng)用程序。它通過下載網(wǎng)頁上的信息，并將這些信息保存到本地庫中。換句話說,爬蟲也是搜索引擎的重要組成部分。與傳統(tǒng)的爬蟲通過運行一個或多個初始網(wǎng)頁的URL進行獲取信息的方式比較來看，他們之間還存在著差異，但是它們同屬于爬蟲也有很多相同的特點。學(xué)習(xí)網(wǎng)絡(luò)爬蟲,你可以私下自定義搜索引擎,你就可以理解搜索引擎的數(shù)據(jù)收集的工作原理?？傊?我們了解到,信息發(fā)布后,就可以利用爬蟲自動地采集互聯(lián)網(wǎng)中的信息,采集回來后進行相應(yīng)的存儲或處理,當(dāng)需要檢索某些信息,只需要在收集到的信息進行搜索,也就是私人搜索引擎的實現(xiàn)。當(dāng)然,如何抓取信息,如何存儲,如何進行分詞,如何進行相關(guān)計算等,都需要進行設(shè)計。爬蟲技術(shù)主要解決信息爬行問題。在大數(shù)據(jù)時代,要分析數(shù)據(jù),我們必須首先擁有一個數(shù)據(jù)源,而學(xué)習(xí)爬蟲可以幫助我們在網(wǎng)上獲得更多的信息源,而這些數(shù)據(jù)信息可以為我們提供良好的資料,與此同時它幫助我們篩選了許多不符合我們要求的無關(guān)數(shù)據(jù)。在進行大數(shù)據(jù)信息統(tǒng)計整合分析中,可以從提供數(shù)據(jù)統(tǒng)計的某些網(wǎng)站或從某些文檔或內(nèi)部材料中獲取數(shù)據(jù)源,但獲取數(shù)據(jù)的方式有時難以滿足我們的需求。對數(shù)據(jù)的需求以及從互聯(lián)網(wǎng)上手動查找這些數(shù)據(jù)的步驟太過復(fù)雜。這個時候我們就可以換種辦法，可以自定義一個網(wǎng)絡(luò)爬蟲從Internet上自動搜索獲取我們所需要的數(shù)據(jù)內(nèi)容,并且將數(shù)據(jù)內(nèi)容作為我們的數(shù)據(jù)源進行爬行,以便進行更深入的數(shù)據(jù)分析,并且更有價值。信息。Web爬網(wǎng)程序可分為常規(guī)爬網(wǎng)程序和焦點爬網(wǎng)程序。常見的抓取工具,通用網(wǎng)絡(luò)抓取工具是搜索引擎抓取系統(tǒng)(百度,谷歌,雅虎等)的重要組成部分。主要目的是在Internet上下載網(wǎng)頁以形成Internet內(nèi)容的鏡像備份。一般搜索引擎(SearchEngine)如何工作?通用Web爬網(wǎng)程序從Internet收集Web頁面并收集信息。從本質(zhì)上講,它是一段程序代碼。任何編程語言都可以用作爬蟲,但簡單程度不同。根據(jù)定義,爬蟲是模擬用戶瀏覽和保存網(wǎng)絡(luò)數(shù)據(jù)的程序。當(dāng)然,大多數(shù)抓取工具都會抓取網(wǎng)頁(文本,圖片,媒體流)。Web爬網(wǎng)程序從Internet收集Web頁面并收集信息。這些網(wǎng)頁用于索引搜索引擎以提供支持。它確定整個發(fā)動機系統(tǒng)的內(nèi)容是否豐富以及信息是否是瞬時的,因此其性能直接影響性能。搜索引擎的效果。1.首先確定該網(wǎng)頁,你需要抓取的URL。通過HTTP/HTTP協(xié)議獲取相應(yīng)的HTML頁面。3.解壓在HTML頁面中的有用數(shù)據(jù):a。如果需要的數(shù)據(jù),將其保存。b.如果是頁面里的其他URL,那就繼續(xù)執(zhí)行第二步。首先,在初始網(wǎng)頁上的URL被選中。在抓取網(wǎng)頁的過程中,當(dāng)前網(wǎng)頁的連續(xù)篩選，統(tǒng)計，整合。以新的URL提取到這些隊列,直到所需的條件得到滿足停止操作。然而,與傳統(tǒng)的爬蟲相比,工作原理和聚焦的過程相比,爬蟲過程進行的都比較復(fù)雜。它需要依靠一定的網(wǎng)絡(luò)分析算法來捕捉和過濾網(wǎng)頁上的信息。那些與主題無關(guān)的鏈接就會被篩選掉,那些有用的鏈接和信息會被抓取出來,然后會被放進等待抓取的URL隊列中。與其他爬蟲的相同點是,它也會根據(jù)所要求的搜索條件從隊列中選擇下一步循環(huán)要篩選出的網(wǎng)頁URL,并將上述過程進行重復(fù),直到達到系統(tǒng)的特定要求時才會停止。在另一方面,由爬蟲抓取和過濾網(wǎng)頁將被系統(tǒng)存儲在本地庫,然后抓取,分析,過濾,并建立索引,這有利于在未來這種信息的查詢和檢索。對于集中處理信息,這樣的循環(huán)過程方便了接下來的操作,因為有些在最后的分析結(jié)果的過濾后的信息可以指導(dǎo)和幫助后續(xù)抓取過程，使得下次的信息獲取更加快捷便利。下次處理信息時就會更加節(jié)省人力和成本，實現(xiàn)了資源的充分利用化，更加便捷的是信息獲取人可以將信息分享給所需要的人。這也推廣了爬蟲，使爬蟲為人們所熟知，它的優(yōu)良作用使得本身得到人們的認(rèn)可。在本次實踐過程中，我們接觸到了爬蟲。簡單的說爬蟲是一種自動化的程序，這個程序可以模擬人的一切行為，簡單的說就是一個不知疲倦的人，在不停地操作某一樣?xùn)|西。網(wǎng)絡(luò)爬蟲也有另外一個名字叫做網(wǎng)絡(luò)機器人，人們之所以把它叫做網(wǎng)絡(luò)機器人，是因為它可以代替人們自動地在互聯(lián)網(wǎng)中進行所需要信息的采集篩選與整理。當(dāng)今社會處于在大數(shù)據(jù)時代，信息的采集是一項重要的工作，如果單純靠人力進行信息采集，不僅低效繁瑣，搜集的成本也會提高。此時，我們可以使用網(wǎng)絡(luò)爬蟲對數(shù)據(jù)信息進行自動采集，比如應(yīng)用于搜索引擎中對站點進行爬取收錄，應(yīng)用于數(shù)據(jù)分析與挖掘中對數(shù)據(jù)進行采集，應(yīng)用于金融分析中對金融數(shù)據(jù)進行采集，除此之外，還可以將網(wǎng)絡(luò)爬蟲應(yīng)用于輿情監(jiān)測與分析、目標(biāo)客戶數(shù)據(jù)的收集等各個領(lǐng)域。網(wǎng)絡(luò)爬蟲按照實現(xiàn)的技術(shù)和結(jié)構(gòu)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等類型。在實際的網(wǎng)絡(luò)爬蟲中，通常是這幾類爬蟲的組合體。用戶爬蟲是網(wǎng)絡(luò)爬蟲的其中一種類型。所謂用戶爬蟲，即專門用來爬取互聯(lián)網(wǎng)中用戶數(shù)據(jù)的一種爬蟲。由于互聯(lián)網(wǎng)中的用戶數(shù)據(jù)信息，相對來說是比較敏感的數(shù)據(jù)信息，所以，用戶爬蟲的利用價值也相對較高。爬蟲的出現(xiàn)，可以在一定程度上代替手工訪問網(wǎng)頁，所以，原先我們需要人工去訪問互聯(lián)網(wǎng)信息的操作，現(xiàn)在都可以用爬蟲自動化實現(xiàn)，這樣可以更高效率地利用好互聯(lián)網(wǎng)中的有效信息。學(xué)習(xí)網(wǎng)絡(luò)爬蟲,你可以私下自定義搜索引擎,你就可以理解搜索引擎的數(shù)據(jù)收集的工作原理?？傊?我們了解到,信息發(fā)布后,就可以利用爬蟲自動地采集互聯(lián)網(wǎng)中的信息,采集回來后進行相應(yīng)的存儲或處理,當(dāng)需要檢索某些信息,只需要在收集到的信息進行搜索,也就是私人搜索引擎的實現(xiàn)。當(dāng)然,如何抓取信息,如何存儲,如何進行分詞,如何進行相關(guān)計算等,都需要進行設(shè)計。爬蟲技術(shù)主要解決信息爬行問題。在大數(shù)據(jù)時代,要分析數(shù)據(jù),我們必須首先擁有一個數(shù)據(jù)源,而學(xué)習(xí)爬蟲可以幫助我們在網(wǎng)上獲得更多的信息源,而這些數(shù)據(jù)信息可以為我們提供良好的資料,與此同時它幫助我們篩選了許多不符合我們要求的無關(guān)數(shù)據(jù)。在進行大數(shù)據(jù)信息統(tǒng)計整合分析中,可以從提供數(shù)據(jù)統(tǒng)計的某些網(wǎng)站或從某些文檔或內(nèi)部材料中獲取數(shù)據(jù)源,但獲取數(shù)據(jù)的方式有時難以滿足我們的需求。對數(shù)據(jù)的需求以及從互聯(lián)網(wǎng)上手動查找這些數(shù)據(jù)的步驟太過復(fù)雜。這個時候我們就可以換種辦法，可以自定義一個網(wǎng)絡(luò)爬蟲從Internet上自動搜索獲取我們所需要的數(shù)據(jù)內(nèi)容,并且將數(shù)據(jù)內(nèi)容作為我們的數(shù)據(jù)源進行爬行,以便進行更深入的數(shù)據(jù)分析,并且更有價值。信息。Web爬網(wǎng)程序可分為常規(guī)爬網(wǎng)程序和焦點爬網(wǎng)程序。常見的抓取工具,通用網(wǎng)絡(luò)抓取工具是搜索引擎抓取系統(tǒng)(百度,谷歌,雅虎等)的重要組成部分。主要目的是在Internet上下載網(wǎng)頁以形成Internet內(nèi)容的鏡像備份。一般搜索引擎(SearchEngine)如何工作?通用Web爬網(wǎng)程序從Internet收集Web頁面并收集信息。從本質(zhì)上講,它是一段程序代碼。任何編程語言都可以用作爬蟲,但簡單程度不同。根據(jù)定義,爬蟲是模擬用戶瀏覽和保存網(wǎng)絡(luò)數(shù)據(jù)的程序。當(dāng)然,大多數(shù)抓取工具都會抓取網(wǎng)頁(文本,圖片,媒體流)。Web爬網(wǎng)程序從Internet收集Web頁面并收集信息。這些網(wǎng)頁用于索引搜索引擎以提供支持。它確定整個發(fā)動機系統(tǒng)的內(nèi)容是否豐富以及信息是否是瞬時的,因此其性能直接影響性能。搜索引擎的效果。爬行動物的過程。1.首先確定該網(wǎng)頁,你需要抓取的URL。通過HTTP/HTTP協(xié)議獲取相應(yīng)的HTML頁面。3.解壓在HTML頁面中的有用數(shù)據(jù):a。如果需要的數(shù)據(jù),將其保存。b.如果是頁面里的其他URL,那就繼續(xù)執(zhí)行第二步。然后我們就可以得到我們所需要的信息，這種方法十分便捷方便，大大節(jié)省了我們的時間，使我們在獲取所需求的信息不像以前那么繁瑣復(fù)雜。網(wǎng)絡(luò)爬蟲是我們搜索信息的不二之選，特別是在獲取大量的信息時，網(wǎng)絡(luò)爬蟲十分的好用。通過這次Python培訓(xùn),我收獲到了很多。在課堂上老師向我們耐心地講解網(wǎng)絡(luò)爬蟲的發(fā)展以及它的作用，通過課堂我們更加詳細(xì)地了解到了究竟為什么是爬蟲。在此之前，可能大部分同學(xué)都不太了解網(wǎng)絡(luò)爬蟲，但是通過兩周的學(xué)習(xí)我們逐漸更加深入地理解了爬蟲的工作原理以及作用。在學(xué)習(xí)途中我收獲的很多，不管是學(xué)習(xí)新的知識方面，還是與人相處的能力都得到了提升。一方面,我學(xué)到了很多我以前從未學(xué)過的專業(yè)知識,另一方面,我提高了自己做事的潛力。這次培訓(xùn)是對我的潛力和考驗的進一步鍛煉。從中獲得的很多知識也非常有價值且，本次實踐活動是我將書中的理論知識運用到實踐中的一個好機會。我學(xué)會并掌握了自己的專業(yè)知識,拓寬了自己的視野,并學(xué)到了以前沒學(xué)過的東西。在這次培訓(xùn)中,我不僅在其他方面發(fā)揮了自己的潛力,而且提高了我的整體素質(zhì)，并提高了獨立思考和自己動手的能力。為今后遇到問題并解決問題奠定了基礎(chǔ)。在培訓(xùn)過程中,我學(xué)到了新的知識和掌握運用知識的一些技術(shù)。其次,在培訓(xùn)項目的工作也讓我更注重團隊。從此,我明白了團隊和個人之間的密切關(guān)系,并了解合作共贏的真諦。雖然我們所學(xué)習(xí)的這些只是python語言里的一些皮毛,但是還是激發(fā)了我濃厚的學(xué)習(xí)興趣,學(xué)習(xí)python語言最重要的是學(xué)習(xí)python語言的邏輯思維能力,不管在什么時候,學(xué)習(xí)python語言都對自己有很大的幫助,就算以后不從事這方面的工作,邏輯思維能力也是自身必備的一種能力,會在我們的生活中發(fā)揮很大的作用。在校外實踐中,我們只能依靠自己所學(xué)的知識來解決問題,而我們這短短的兩周所學(xué)的python語言僅僅連皮毛也算不上,所以我們需要利用空閑的時間,去在網(wǎng)絡(luò)上搜尋關(guān)于python的教程,但是很多時候這些教程講述的并不清楚,而且很多都是不為我們所了解的,為了能把校外的實踐報告完成好,我們不僅要在互聯(lián)網(wǎng)上學(xué)習(xí)新的知識,還要尋找專攻于計算機的同學(xué)來加深一下交流。但我們的能力畢竟有限,所解決的問題也只是一些簡單問題。在這個訓(xùn)練中,我也感悟出幾點找工作的心得:我們應(yīng)不斷學(xué)習(xí),不斷提高自身對專業(yè)知識的掌握能力。在信息時代,學(xué)習(xí)是一個不斷吸收新的信息的過程。作為新時代的大學(xué)生，我們有著更好的學(xué)習(xí)條件和學(xué)習(xí)資源，我們應(yīng)該充分使用這些資源，從而用知識財富來武裝自己,使自己成為知識和能力的綜合性人才。在這次培訓(xùn)中,我也認(rèn)識到,只有通過將理論付諸實踐才可以在理論測試中體現(xiàn)理論本身的價值。我可以說,這次的爬蟲培訓(xùn)不僅讓我學(xué)到了知識,也豐富了經(jīng)驗。還幫我縮小理論和實踐之間的差距。在今后的工作中,我將繼續(xù)運用我所學(xué)的知識應(yīng)用到實際工作,將理

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 任務(wù)書類

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python網(wǎng)絡(luò)爬蟲的實踐心得

文檔簡介

溫馨提示

最新文檔

評論

Python網(wǎng)絡(luò)爬蟲的實踐心得

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔