版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
成果形式:實踐報告成果名稱:關(guān)于python網(wǎng)絡(luò)爬蟲的實現(xiàn)關(guān)于python網(wǎng)絡(luò)爬蟲的實現(xiàn)一、實踐目的1.通過課程學(xué)習(xí)知道了什么是爬蟲:爬蟲可以理解為信息處理器,我們利用這種工具從網(wǎng)絡(luò)中選取我們需要的信息數(shù)據(jù),同樣它也可以對于一些程序和網(wǎng)頁進(jìn)行自動優(yōu)化,是網(wǎng)絡(luò)的小管家。2.在學(xué)校組織的課程中學(xué)習(xí)python爬蟲的構(gòu)架組成和工作流程:1.先用URL管理器管理待爬取的url集合和已爬取的url集合;3.通過寫代碼實際操作實現(xiàn)phthon爬蟲二、實踐內(nèi)容1.項目的分析1.解釋爬蟲的含義,并舉例:1.1比如requests.get():最初始的一個簡易爬蟲就是調(diào)用python的requests模塊,使用get函數(shù),如圖所示。然后這里get函數(shù)從給出的URL獲取數(shù)據(jù),從圖中可以看出,數(shù)據(jù)顯示狀態(tài)碼200,說明平穩(wěn)落地。后面是獲取到的網(wǎng)頁。在課堂上學(xué)習(xí)這一節(jié)內(nèi)容的時候,老師很細(xì)心細(xì)致。先在ppt上進(jìn)行概念的講解和演示,然后讓我們自由操作,在操作的過程中,有不懂的問題可以進(jìn)行提問,老師再過來具體指導(dǎo)實際操作。這其實是一個很簡單的程序,老師也很用心,但很多東西如果你不自己去理解感悟的話,永遠(yuǎn)也學(xué)不會,這正如你永遠(yuǎn)無法叫醒一個裝睡的人,所以學(xué)習(xí)從來都是一件孤勇的事情。有點跑題了,老師還舉了個例子,當(dāng)一個網(wǎng)站遭受大量高頻次的點擊時,比如某流量小花突然公布戀情,或者某idol登上紅秀封面,微博和電子刊立馬就癱瘓了,那些技術(shù)人員當(dāng)年夸下“可以承受”的???,立馬就成了打臉的鐵證。這件事告訴我們要學(xué)會偽裝,不能直接要數(shù)據(jù),采取迂回戰(zhàn)術(shù),不然人家不會鳥你。2.我們要學(xué)會使用火狐瀏覽器開發(fā)者工具:論如何偽裝一個瀏覽器?我們這里使用的是火狐瀏覽器開發(fā)者工具,不要聽這么高大上,事實就是打開火狐瀏覽器按F12!top1:輸入網(wǎng)址進(jìn)入我的博客,http://zkeeer.spacetop2按F12,找到網(wǎng)絡(luò)這一欄。它會提示你重新載入,之后就按一下F5,刷新一下,就可以得償所愿了。3.接下來注意以下幾欄。then找到并點開我們需要的,也就是第一個接著右側(cè)就會出來諸如箭頭→參數(shù)、耗時、響應(yīng)等相對應(yīng)的詳細(xì)信息,然后就是一些專業(yè)的數(shù)據(jù)和處理方法了,咱也看不懂,咱也不敢問,不過學(xué)無止境,你們不要學(xué)我,不懂的就要問,也許很簡單的知識,但是你不問就永遠(yuǎn)不會知道。就好像有人問學(xué)霸怎么考的145,你問之前可能還在忐忑他會說出一大堆如何如何的學(xué)習(xí)方法和努力的重要性。但只有你問了之后,你才會知道,奧,原來只要少做一道選擇題就可以了,真是簡單呢。2.項目的設(shè)計1實戰(zhàn),首先.寫一個簡單的html網(wǎng)頁<!DOCTYPEhtml>
<htmllang="en">
<head>
<metacharset="UTF-8">
<title>數(shù)學(xué)類1701成雅琴</title>
</head>
<body>
<ahref="/xhtml/">統(tǒng)計學(xué)院</a>
<buttontype="submit">提交</button>
</body>
</html>2.接著查看網(wǎng)頁從課本上摘抄來的知識說:Python爬蟲架構(gòu)主要由五大部分,為了方便,對應(yīng)人的頭、四肢、心臟和軀干,如下:1、調(diào)度器:它就相當(dāng)于人類的大腦,主要負(fù)責(zé)調(diào)度URL管理器、下載器、解析器之間的協(xié)調(diào)工作,可以說很重要了。2、URL管理器:這其中包括待爬取和已經(jīng)爬取的URL,通過內(nèi)存、數(shù)據(jù)庫、緩存數(shù)據(jù)庫來實現(xiàn)這三種方式來防止重復(fù)和循環(huán)抓取URL。3、網(wǎng)頁下載器:相當(dāng)于一個完整帶售后的高端版轉(zhuǎn)換器,不過和電源轉(zhuǎn)換器和耳機(jī)切口轉(zhuǎn)換器不同的是,這個下載器轉(zhuǎn)換的是網(wǎng)頁,將專業(yè)轉(zhuǎn)化成可吸收的東西。4、網(wǎng)頁解析器:我們將一個網(wǎng)頁字符串進(jìn)行解析,可以按照我們的要求來提取出我們有用的信息,也可以根據(jù)DOM樹的解析方式來解析。網(wǎng)頁解析器有正則表達(dá)式、html.parser(Python自帶的)、beautifulso、lxml(第三方插件,可以解析xml和HTML),html.parser和beautifulsoup以及l(fā)xml都是以DOM樹的方式進(jìn)行解析的。5、應(yīng)用程序:就是我們選取的有用數(shù)據(jù)所組成的應(yīng)用程序,其代碼的復(fù)雜程序乃我所罕見。廢話不多說,這個圖一看便知。fromurllibimportrequest,parse
fromhttpimportcookiejar
ur1='/translate'
form_data={
}
data=parse.urlencode(form_data).encode('utf-8')
headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.170Safari/537.36'}
req=request.Request(ur1,data=data,headers=headers)
cookie=cookiejar.CookieJar()
handler=request.HTTPCookieProcessor(cookie)
opener=request.build_opener(handler)
responce=opener.open(req)
html=responce.read().decode()
print(html)3.項目的實現(xiàn)(代碼)1.輸入登錄名:n=1
whilen<4:
username=input("請輸入用戶名:")
password=input("請輸入密碼:")
ifusername=="成雅琴"andpassword=="1604970127":
print("登錄成功")
n=5
else:
ifn==3:
print("密碼錯誤")
n=5
else:
n=n+12在下列數(shù)組值后追加元素L1=[1,2,3,22,4,]
L1.append(5)
L1.append("caijing")
L1.append([1100,0011])
print(l1)結(jié)果:3計算元素22出現(xiàn)的次數(shù)li=[11,22,33,22,44,5,'alex',[1234,1234]]
c=li.count(22)
print(c)結(jié)果:F:\programdata\Anaconda3\python.exeC:/Users/微軟中國/PycharmProjects/untitled/jjj.py2Processfinishedwithexitcode04.項目使用說明天吶這段代碼居然有快一千個字,為了查重我居然給刪了???我的心情簡直跟難言了。qwertyuiooppjjgfdsssrtyhbbvcdeeegbbjiiiyrf//。。。。,,,,????(…-!tfvjko7542edfghujbbhi99ljbfdew22tghjgggdryjjbvfr4yi88753qqsxchhjio086tjjkmbvdee3uoo8y7ilkgfttryyyyggggggdeetyugimfekutr2sdcxww25u89o0lmjbgfr3322asxvhjo00975yhhgre3tyhvfrtu9ojhfde336789opkhgfdw35689onngftewsx3568okmncdwq258olnvfyytde32wsdcvghuyrrghj8ooknbfrewfvhioyrhoiyy22357iugyyrrghuiyytffguuu4rtyuikkkvfr335uioooopp0986tyhjkoooooollkhfrt55fvvh)2eredgutredtgvseruioi:resxvbjiureecgjkokitrfghjjkoo5rdgvfw214567ioplbgfew345ygfs21wxchjji99ppkbgt42wefui9o7gf443edfvji9866yujjbbgfffgggghhhvvcxdertyuiii999okjnbfrrewscvhjkiytgbnkjnnbcdrefhjt32wsfhjkkookjjj6thnmmfdrrdxchhjjfdwqsdghuiiyre22568oihfffh55422sfh6rewsgui743efhjopjvddrrtuohffree4yii99ojtyio97544fgjioookncdr5yytrrty77775rrtthbfde6uiojhfe2fdeexvhiytrffhju6532wdfvbjjo98644rfgvhuurwq1256ioolkjjbgfddddfghjj446788932236iojjbbvvfdedvjjkiuwccbjop08532eguuttgbnkluteesdcvhgrdfjklljjmnfsswqqqadgyuiiu64fghjjbfrr7iknhy67ijjjttr335&??hgdetyiojygfrr4ty753edvhjiombfdrtii7543esxcggyyhjo986432sxguuy54dvjjkookbgfrrrttyyyyggghhjhggr43edfhuijhgghuijhhhbhhyf僅以一段代碼表達(dá)我悲憤的心情,我其實就是一個普通的有拖延癥的孩子,為什么要讓我遭受如此的苦難,天吶,我真的也太慘了叭,而且為啥一個字母就是一個字,而我敲四五個拼音才一個字,這個資源分配我表示不服。不過項目內(nèi)容的設(shè)計真的很復(fù)雜就是了,不然我也不至于這樣,絕了,讓人一籌莫展。三、實踐過程 通用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)絡(luò)中搜集網(wǎng)頁,采集信息。第一步:抓取網(wǎng)頁 搜索引擎網(wǎng)絡(luò)爬蟲的基本工作流程如下:首先選取一部分種子URL;取出待選取URL,接著分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進(jìn)入下一個循環(huán)....第二步:數(shù)據(jù)存儲搜索引擎通過python爬取到的網(wǎng)頁,將數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。第三步:預(yù)處理搜索引擎將pythen抓取回來的頁面,進(jìn)行各種步驟的預(yù)處理。1、提取文字2、中文分詞3、消除噪音(比如版權(quán)聲明文字、導(dǎo)航條、廣告等……)4、索引處理5、鏈接關(guān)系計算6、特殊文件處理7、...第四步:提供檢索服務(wù),網(wǎng)站排名搜索引擎在對信息進(jìn)行組織和處理后,會為用戶提供關(guān)鍵字檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶,也可以幕后操作進(jìn)行排名購買。四、實踐體會本次實踐其實開始時是不被期待的,因為確實占用了很多暑期休息的時間,相對于枯燥的程序代碼,顯然宅在家追劇刷微博啃西瓜或者出去旅行看遍祖國的大好河山更有誘惑力。還記得剛開始我就遇到了一個問題,整個暑期實踐以編寫代碼為基礎(chǔ),但我居然連一臺電腦都沒有。其實現(xiàn)在看來問題還是可以解決的,現(xiàn)在手機(jī)功能很強(qiáng)大,而且對于用慣手機(jī)的我來說,手機(jī)也不失為一個好選擇。但是我出于多方面的長遠(yuǎn)考慮,還是精心挑選買了一臺電腦。可能是基礎(chǔ)和興趣問題吧,我給電腦貼了好看的保護(hù)膜和貼紙,像一個昂貴又精致的裝飾品,而喪失了它最主要的使用價值??梢哉f到現(xiàn)在為止,我電腦只有老師幫我安裝的一個python軟件,其他的辦公軟件比如WPS、OFFICE等等我都沒有,可能為了彰顯我電腦的尊貴,這些軟件都要付費,當(dāng)然也可以找別的安裝包之類的免費程序,但我太懶,就擱置了。所以現(xiàn)在我斥巨資購入的電腦變成了我的追劇工具,早知道這樣,我還不如買個更便宜的iPad,因為它高端的圖片處理功能,用它追劇還更爽些。雖然iPad用來辦公不太行,但是比較適合藝術(shù)編輯之類的人群。華碩的電腦可能就更適合辦公人群,但是,我又不辦公?。⌒盐蜻@一點的我真的眼淚掉下來。不過我的暑期找實習(xí)的經(jīng)歷改變了我的看法。作為一個幾乎完全的電腦小白,我找的很多實習(xí),包括最基本的文員,就打雜跑腿的,都需要掌握一些基本的電腦技能,比如PS、WPS、JAVA、PYTHON等等,說實話,我真的蠻挫敗的。就好像初中大家都玩qq,我卻不玩,覺得那個軟件好高端啊,玩那些的都好厲害啊,我估計不行。這種想法在現(xiàn)在的我來看很有些辛酸可笑,但其實我現(xiàn)在面對那些電腦程序的時候,也感覺到了和當(dāng)年一樣的無措。雖然暑期實習(xí)的門檻確實有點低,我正經(jīng)去面試的都通過了,但是出于種種原因(工資,交通)的考慮,我還是去了一家教育機(jī)構(gòu)(不需要電腦知識)實習(xí)。當(dāng)時還有一份我很心動的工作,是在金融小公司做網(wǎng)站資料的更新,說實話,挺簡單的,有一定文學(xué)基礎(chǔ)和電腦基礎(chǔ)的都可以,而且辦公環(huán)境很棒,朝九晚五,周末雙休(我最后去的那家單休,而且是八點半到下午六點),簡直是我夢寐以求,但我還是拒絕了,拒絕的原因如上。我心里還是失落的,但也更加堅定了我要學(xué)習(xí)一些電腦技能的決心,人是真的需要有一技之長的,這樣在哪兒都能立足。說起來我好像就很喜歡回憶從前,整得我好像七老八十了一樣。每次出去玩的時候也是一段難忘的回憶,當(dāng)然,難忘是因為出去玩,并不是和誰一起。本來我是想專門寫一篇游記的,但是太懶了一直沒動筆。我覺得旅途的意義可能就是這樣了,充滿期待的開始,不斷磨合的過程,以及之后時時想起的莞爾一笑。喜歡旅游因為就像是來到了一個平行世界,可以放肆玩樂,暫時拋卻現(xiàn)有的枷鎖。享受去之前充滿期待與忐忑的計劃與心情,享受每天早上起來在酒店里畫一個美美的妝然后出去玩,享受夜里回到酒店然后送到門口的外賣;也享受跟著高德找路的無奈和疲憊,享受看到景點的感慨和治愈,享受著同你共賞的良辰美景與歲月山河。時間真的很殘酷,我們的身體開始漸漸衰老,畢竟我們已經(jīng)開始脫發(fā)了。而且我的眼睛已經(jīng)有了很多細(xì)紋,皮膚也變得松弛,我都要自閉了。現(xiàn)在的我對于被叫阿姨開始習(xí)慣(忍),對于不喜歡的人和事也變得平淡(忍),可能人越長大就越學(xué)會虛與委蛇。說起來我在西安的親戚,我大一大二常去,覺得他們?nèi)撕糜譄嵝?,就像我舅舅舅媽一樣,雖然比不得他們親近,但也是一個可以信賴的存在。但最近這一年,零零總總發(fā)生了一些事,讓我覺得,人怎么可以能偽裝到這種地步,倒也不是多嚴(yán)重的事情,畢竟都是人對吧,都怕麻煩。但我覺得我如果不想麻煩的話,我就算不好意思拒絕,但我也不會裝出很真實的歡迎的樣子。現(xiàn)在想起來都有點毛毛的。說一件最近的事,我清明沒回家就想說讓我哥(就是我親戚)不是剛好回陽平關(guān)嘛,就剛好幫我把防曬和傘帶回西安。然后我媽給我說我哥還要去綿陽出差,防曬就給我?guī)Я?,傘有點大就不帶了,反正我嫂子是做禮品批發(fā)的,她那兒進(jìn)價四五十的傘市面上也賣一兩百,給我拿一把就行了。我說好嘛。結(jié)果等我過去拿的時候,我嫂子跟我說,我哥把我的傘在綿陽出差的時候整丟了,就拿他家的傘賠給我了。我當(dāng)時很疑惑也沒有說啥,回來一看傘還是舊的。我不是嫌棄那把傘舊,我只是覺得,我哥在他們家連給我一把傘都要編織一個是自己過錯的謊言,而且退一萬步講把我的傘丟了,然后給了我一把他們用慣的舊的,他們再用新的?excus
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- ppp停車 合同范例
- 辦公家具采購合同范例
- 與公司相關(guān)合同范本文檔
- 2025年度農(nóng)業(yè)種植灌溉設(shè)備租賃與維護(hù)服務(wù)合同
- 北京蓋民房合同范本
- 從黔東南苗侗民族文化的傳承現(xiàn)狀看民族文化的發(fā)展觀
- 中標(biāo)合同范本
- 專屬藝人合同范本
- 勞務(wù)分包補(bǔ)充合同范本
- 亮化出租維修合同范本
- YC/T 295-2009卷煙制造過程能力測評導(dǎo)則
- GB/T 28193-2011表面活性劑中氯乙酸(鹽)殘留量的測定
- 仁愛英語八年級閱讀理解測試題和答案
- 山東省中考物理總復(fù)習(xí) 八上 第4講 光現(xiàn)象
- DB11∕T 1875-2021 市政工程施工安全操作規(guī)程
- 心肺康復(fù)完整版本課件
- 傳統(tǒng)節(jié)日春節(jié)英文介紹課件
- 質(zhì)量獎現(xiàn)場評審問題集錦精編版
- 裝配式結(jié)構(gòu)技術(shù)課程教學(xué)大綱
- 水資源論證報告
- 中藥提取車間生產(chǎn)設(shè)備風(fēng)險評估報告講解
評論
0/150
提交評論