大學計算機課程報告Python爬蟲與可視化_第1頁
大學計算機課程報告Python爬蟲與可視化_第2頁
大學計算機課程報告Python爬蟲與可視化_第3頁
大學計算機課程報告Python爬蟲與可視化_第4頁
大學計算機課程報告Python爬蟲與可視化_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

《大學計算機》課程匯報專業(yè)班級學號姓名項目計算機基礎測驗(20分)課程匯報(80分)總分得分評閱教師年6月15日中超球隊身價歷年排名數(shù)據(jù)分析處理一、任務描述使用python編寫爬蟲程序獲取中超球隊-身價排名,內(nèi)容包含排名序號、球隊名稱、球隊身價、年份,并將獲取數(shù)據(jù)保留到txt文件中,再將txt文件數(shù)據(jù)轉(zhuǎn)入excel文件中。使用excel工具對獲取電影信息進行數(shù)據(jù)處理。使用Jannchie/Historical工具對統(tǒng)計分析結果進行動態(tài)可視化處理,利用excel工具對統(tǒng)計分析結果進行圖表可視化處理,使用baidu圖說對統(tǒng)計分析結果進行可視化處理。二、數(shù)據(jù)獲取1數(shù)據(jù)描述數(shù)據(jù)起源:500彩票網(wǎng)中超頁面球隊身價排名。數(shù)據(jù)獲?。篜ython爬蟲爬取網(wǎng)頁數(shù)據(jù)。2使用工具Python是一個高層次結合了解釋性、編譯性、互動性和面向?qū)ο竽_本語言,它擁有一個強大基本類庫和數(shù)量眾多第三方擴展。3數(shù)據(jù)獲取步驟第一步:從網(wǎng)頁上獲取HTML內(nèi)容。第二步:分析網(wǎng)頁內(nèi)容并提取有用數(shù)據(jù),采取列表存放球隊所包括表單數(shù)據(jù)第三步:將取得數(shù)據(jù)寫入Excel文件。4程序代碼1)獲取數(shù)據(jù)代碼以下importrequestsimportrequestsfrombs4importBeautifulSoupimportbs4defgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.textexcept:return""deffillUnivList(ulist,html):soup=BeautifulSoup(html,"html.parser")fortrinsoup.find('tbody').children:ifisinstance(tr,bs4.element.Tag):tds=tr('td')ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string,tds[4].string,tds[5].string,tds[6].string])num=10file=open('wz.txt','r',encoding='UTF-8')f=open('pm.txt','w',encoding='UTF-8')print("{:^10}\t{:^6}\t{:^10}\t{:^6}\t{:^10}\t{:^6}\t{:^10}\t{:^6}".format("排名","球隊名稱","球隊身價","平均身價","球員數(shù)量","平均年紀","聯(lián)賽排名","年份"))f.write("{:^10},{:^6},{:^10},{:^6},{:^10},{:^6},{:^10},{:^6}".format("排名","球隊名稱","球隊身價","平均身價","球員數(shù)量","平均年紀","聯(lián)賽排名","年份")+"\n")forlineinfile:url=line[5:]a=line[0:5]uinfo=[]html=getHTMLText(url)fillUnivList(uinfo,html)foriinrange(num):u=uinfo[i]print("{:^10}\t{:^6}\t{:^10}\t{:^6}\t{:^10}\t{:^6}\t{:^10}\t{:^6}".format(u[0],u[1],u[2][1:-1],u[3][1:-1],u[4],u[5],u[6],a))f.write("{:^10},{:^6},{:^10},{:^6},{:^10},{:^6},{:^10},{:^6}".format(u[0],u[1],u[2][1:-1],u[3][1:-1],u[4],u[5],u[6],a)+"\n")f.close()file.close()2)讀取wz.txt文件中網(wǎng)址信息圖1網(wǎng)址信息txt文件截圖3)將取得全部球隊信息由txt文件(如圖2)轉(zhuǎn)到Excel表格(如圖2)中。圖2球隊數(shù)據(jù)txt文件截圖圖3球隊數(shù)據(jù)excel文件截圖三、數(shù)據(jù)分析(文管類能夠是數(shù)據(jù)存放、檢索等等)1數(shù)據(jù)分析工具Excel是一款電子表格軟件。直觀界面、出眾計算功效和圖表工具,使Excel成為最流行個人計算機數(shù)據(jù)處理軟件。Excel具備強大數(shù)據(jù)統(tǒng)計分析處理能力,能進行多個數(shù)據(jù)統(tǒng)計計算分析功效,廣泛應用于管理、統(tǒng)計財經(jīng)、金融等眾多領域。2使用excel工具以年份以及球隊身價進行中超球隊身價排名分析最具備商業(yè)價值與潛力球隊。球隊身價排名后結果如圖4:圖4球隊身價排名排序后excel文件截圖3使用excel工具進行中超球隊數(shù)據(jù)統(tǒng)計方法步驟:篩選歷年身價排名前十隊伍以及其球隊身價,如圖5:圖5歷年球隊身價排名前十excel文件截圖篩選球隊名稱(廣州恒大淘寶、江蘇蘇寧易購),篩選所需要數(shù)據(jù)(球隊身價、年份),如圖6:圖6江蘇蘇寧易購與廣州恒大淘寶身價excel文件截圖篩選球隊名稱(江蘇蘇寧易購),篩選所需要數(shù)據(jù)(平均身價、聯(lián)賽排名、年份),如圖7:圖7江蘇蘇寧易購歷年平均身價與聯(lián)賽排名excel文件截圖4)統(tǒng)計中超身價歷年前15球隊所在地次數(shù)(總計90),如圖8:圖8中超球隊前15名所在地次數(shù)excel文件截圖四、結果可視化展示1數(shù)據(jù)可視化工具Excel能繪制圖表多達數(shù)十種,基本能夠?qū)崿F(xiàn)一維和二維圖表繪制,比較慣用圖表類型包含散點圖、條形圖、餅圖、折線圖等等。Jannchie/Historical是一個數(shù)據(jù)可視化項目,基于D3.js。能夠?qū)v史數(shù)據(jù)排名轉(zhuǎn)化為動態(tài)柱狀圖圖表。baidu圖說是baiduEcharts團體出品,一款專業(yè)大數(shù)據(jù)可視化分析平臺。2(1)使用Jannchie/Historical工具對排名前十球隊進行動態(tài)可視化展示方法步驟:將excel處理過數(shù)據(jù)表格到Jannchie/Historical工具中,運行工具。中超球隊身價-歷年身價改變動態(tài)可視化(視頻1)(2)使用excel工具對廣州恒大淘寶與江蘇蘇寧易購身價數(shù)據(jù)制作折線圖方法步驟:使用excel圖表功效制作折線圖,更改系列(廣州恒大淘寶與江蘇蘇寧易購)和橫軸數(shù)據(jù),更改圖標標題。廣州恒大淘寶與江蘇蘇寧易購身價對比折線圖如圖9所表示。圖9廣州恒大淘寶與江蘇蘇寧易購身價對比折線圖(3)使用excel工具對江蘇蘇寧易購平均身價與聯(lián)賽排名數(shù)據(jù)制作疊加柱狀圖方法步驟:使用excel圖表功效制作橫板柱狀圖,更改系列(平均身價與聯(lián)賽排名)和橫軸數(shù)據(jù),更改圖標標題,導出圖表。江蘇蘇寧易購平均身價與聯(lián)賽排名數(shù)據(jù)制作疊加柱狀圖如圖10所表示。圖10江蘇蘇寧易購平均身價與聯(lián)賽排名數(shù)據(jù)制作疊加柱狀圖(4)使用baidu圖說工具制作中超球隊身價排名前15所在地次數(shù)統(tǒng)計圖方法步驟:將excel處理好表格導入baidu圖說工具,生成地圖統(tǒng)計圖,更改標題。-中超球隊身價排名前15所在地次數(shù)統(tǒng)計圖如圖11所表示。圖11-中超球隊身價排名前15所在地次數(shù)統(tǒng)計圖五、碰到問題與處理方法問題:Python爬蟲程序中出現(xiàn)AttributeError:'NoneType'objecthasnoattribute'children'錯誤。處理方法:這種問題出現(xiàn)有多個可能,假如是wz.txt文件,則需要刪除文件中一些空白行(讀取到空白行犯錯);假如是爬取網(wǎng)址一些數(shù)據(jù)空白,能夠加入判斷語句,跳過空白數(shù)據(jù);也有可能是代碼傳遞時發(fā)生錯誤,需要更改代碼中不合理地方。問題:excel制作圖表,一些數(shù)據(jù)無法被識別,圖形中不顯示。處理方法:一些數(shù)據(jù)在處理中并非數(shù)值型,需要更改為數(shù)值才能被圖標識別。問題:Python爬蟲爬取數(shù)據(jù)轉(zhuǎn)成excel文件后數(shù)據(jù)變成亂碼,沒有正常顯示。處理方法:文字編碼方式不一樣,需要在導入時手動選擇編碼方式‘UTF-8’,之后就沒有出現(xiàn)亂碼能夠正常顯示全部數(shù)據(jù)。六、學習總結與反思經(jīng)過半個學期大學計算機課程學習,讓我領會到了Python語言魅力。作為一個解釋型、面向?qū)ο?、動態(tài)數(shù)據(jù)類型高級程序設計語言,Python與我們之前學習C++語言有顯著不一樣,愈加簡練靠近于自然語言,不過其也是基于C語言,使得我們在學習過程中相對輕松。借助Python我們學習了爬蟲以及數(shù)據(jù)可視化,在當下大數(shù)據(jù)背景下,我們了解了關于數(shù)據(jù)內(nèi)容(數(shù)據(jù)獲取、數(shù)據(jù)甄別、數(shù)據(jù)處理以及數(shù)據(jù)可視化),首先緊跟時代、不落后于社會,另首先也鞏固了編程語言,對于之后學習有著主要幫助。在這過程中,我也經(jīng)過自學接觸到了許多優(yōu)異項目,比如GitHub上Jannchie/Historical以及Deeofacelab、baidu圖說工具,這些前輩這成熟數(shù)據(jù)可視化項目對于我學習以及視野擴展都有主動意義,為我打開了當下網(wǎng)絡信息行業(yè)窗戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論