去哪兒旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第1頁(yè)
去哪兒旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第2頁(yè)
去哪兒旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第3頁(yè)
去哪兒旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第4頁(yè)
去哪兒旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言1

1.1項(xiàng)目背景1

1.2開(kāi)發(fā)環(huán)境與工具2

1.2.1Python簡(jiǎn)介2

1.2.2JupyterNotebook簡(jiǎn)介2

1.2.3Python第三方庫(kù)簡(jiǎn)介2

2需求分析3

2.1可行性需求分析3

2.2采集目標(biāo)功能分析4

2.3關(guān)鍵技術(shù)分析4

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)4

2.3.2文件存取技術(shù)5

2.3.3可視化技術(shù)5

3數(shù)據(jù)采集6

3.1采集頁(yè)面分析6

3.2字段分析8

3.3編程實(shí)現(xiàn)8

4數(shù)據(jù)清洗與處理9

4.1數(shù)據(jù)清洗10

4.2數(shù)據(jù)儲(chǔ)存11

5數(shù)據(jù)統(tǒng)計(jì)與分析12

5.1數(shù)據(jù)展示12

5.1.1依據(jù)景點(diǎn)特點(diǎn)進(jìn)行統(tǒng)計(jì)12

5.1.2依據(jù)景點(diǎn)級(jí)別進(jìn)行統(tǒng)計(jì)13

5.1.3據(jù)產(chǎn)重慶景點(diǎn)月銷(xiāo)量進(jìn)行統(tǒng)計(jì)和分析14

5.2小結(jié)14

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

6總結(jié)15

參考資料16

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

去哪兒旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析

1引言

從第二次世界大戰(zhàn)結(jié)束以來(lái)至今,網(wǎng)絡(luò)從誕生初期到現(xiàn)在的壯大經(jīng)歷的過(guò)

程就好像綠皮火車(chē)向高鐵邁進(jìn)一樣,我們現(xiàn)在的社會(huì)已經(jīng)離不開(kāi)網(wǎng)絡(luò)和計(jì)算機(jī)

了,在2008年8月的時(shí)候有一個(gè)詞被正式的賦予了概念,那就是大數(shù)據(jù)。在那

之后這個(gè)名詞開(kāi)始被許多人一直提起熟知直到現(xiàn)在火遍了全球,而現(xiàn)在大數(shù)據(jù)

得到了越來(lái)越多的人關(guān)注,現(xiàn)在不管是在哪行哪業(yè)里面都是非常熱門(mén)的話題。

而且隨著網(wǎng)絡(luò)的快速發(fā)展,現(xiàn)在的人們?cè)缫呀?jīng)不需要面對(duì)面才能進(jìn)行交流

溝通了,人們可以通過(guò)各種各樣的軟件跟自己的親人和朋友進(jìn)行交流,比如特

別常見(jiàn)的軟件有:QQ、微信。而且當(dāng)今時(shí)代科技發(fā)達(dá),信息流通密度非常大,

人們之間的交流也變得越來(lái)越密切,生活也變得越來(lái)越方便了,人們已經(jīng)不滿(mǎn)

足于普通的日常生活交際,在自己有限的時(shí)間和生活軌跡中追求更好更豐富的

生活。越來(lái)越多的人喜歡旅行,無(wú)論是自由行,跟團(tuán)行,自駕行都是人們選擇

旅游出行的方式之一。

而旅游業(yè)是目前世界上發(fā)展的最快并且是前景最好的新興產(chǎn)業(yè)之一,因?yàn)?/p>

游客的飛速增長(zhǎng)從而帶動(dòng)了社會(huì)經(jīng)濟(jì)的發(fā)展。自改革開(kāi)放以來(lái),中國(guó)旅游市場(chǎng)

規(guī)模越來(lái)越大,在社會(huì)經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)組織調(diào)整中發(fā)揮著重要的作用。

1.1項(xiàng)目背景

經(jīng)過(guò)漫長(zhǎng)的資源整合,人們最喜歡使用去哪兒進(jìn)行旅游目的地進(jìn)行搜索,

在2012年的時(shí)候就成為了最受人們旅游時(shí)喜愛(ài)用的網(wǎng)站和軟件。作為中國(guó)人成

立的公司,應(yīng)該有幾個(gè)原因俘獲人心了,第一:去哪兒網(wǎng)是全球最大的中文在

線旅游網(wǎng),基本上只要你輸入你想去的地方都會(huì)有相應(yīng)的攻略和對(duì)應(yīng)信息,響

應(yīng)率非常高。第二:在去哪兒網(wǎng)預(yù)定的價(jià)格非常的便宜,通常都是全網(wǎng)最低的

價(jià)格,這使得很多消費(fèi)者都會(huì)心動(dòng)。第三:在去哪兒網(wǎng)上有很多可選擇的方式,

它的覆蓋面非常的廣泛提供包括了“機(jī)票、酒店、會(huì)場(chǎng)、度假產(chǎn)品”等一系列

的附加產(chǎn)品,旅行者們可以根據(jù)自己的需求進(jìn)行不同的選擇。最后,去哪兒網(wǎng)

的合作伙伴與很多家航空公司和9000家旅行代理商達(dá)成深度合作,搜索預(yù)訂范

圍涵蓋68萬(wàn)條國(guó)際國(guó)內(nèi)航線、200萬(wàn)家酒店和特色民宿,以及超過(guò)120萬(wàn)條度

假線路、2萬(wàn)余個(gè)目的地門(mén)票等玩樂(lè)項(xiàng)目。去哪兒作為當(dāng)今非常熱門(mén)的旅游搜索

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

引擎,其背后的數(shù)據(jù)具有極高的探索價(jià)值。本項(xiàng)目的目的是挖掘并分析去哪兒

網(wǎng)重慶景點(diǎn)的數(shù)據(jù),并對(duì)其進(jìn)行內(nèi)容優(yōu)化,提高數(shù)據(jù)的質(zhì)量。

本項(xiàng)目通過(guò)Python數(shù)據(jù)爬蟲(chóng),爬取去哪兒網(wǎng)重慶景點(diǎn)的景點(diǎn)名稱(chēng)、景區(qū)級(jí)

別、熱度、地區(qū)、熱度、地址、特點(diǎn)、價(jià)格、月銷(xiāo)量等信息,并對(duì)其數(shù)據(jù)進(jìn)行

數(shù)據(jù)爬取、清洗處理、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)可視化。

1.2開(kāi)發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

Python是一門(mén)面向?qū)ο蟮挠?jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,Python是由來(lái)自荷蘭阿姆

斯特丹的數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的吉多·范羅蘇姆于1989年發(fā)明,是ABC

語(yǔ)言的替代品。Python主要應(yīng)用于人工智能、web應(yīng)用開(kāi)發(fā)、計(jì)算與數(shù)據(jù)分析、

網(wǎng)絡(luò)爬蟲(chóng)、自動(dòng)化運(yùn)維、科學(xué)計(jì)算、云計(jì)算、網(wǎng)絡(luò)編程、游戲開(kāi)發(fā)等多個(gè)計(jì)算

機(jī)相關(guān)領(lǐng)域。Python如今已經(jīng)成為了最受歡迎的程序設(shè)計(jì)語(yǔ)言之一。

1.2.2JupyterNotebook簡(jiǎn)介

JupyterNotebook是于2012年的時(shí)候被谷歌研究出來(lái)的交換式的筆記本,

雖然到現(xiàn)在為止它非常的年輕,但是它強(qiáng)大的功能使得它非常的優(yōu)秀受到了許

多程序員的喜愛(ài)。主要用途是數(shù)據(jù)清理和轉(zhuǎn)換,數(shù)值模擬,統(tǒng)計(jì)建模和機(jī)器學(xué)

習(xí)等等,其中對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清理是我最熟悉的操作,簡(jiǎn)單的說(shuō)就是對(duì)不需要

的數(shù)據(jù)進(jìn)行處理。

1.2.3Python第三方庫(kù)簡(jiǎn)介

requests:requests是一個(gè)連接通信的第三方庫(kù),它最大的優(yōu)點(diǎn)是程序編

寫(xiě)過(guò)程更接近URL訪問(wèn)過(guò)程。這個(gè)庫(kù)建立在Python語(yǔ)言的urllib3庫(kù)基礎(chǔ)上。

request庫(kù)支持非常的鏈接訪問(wèn)功能。主要用于編寫(xiě)爬蟲(chóng)和測(cè)試服務(wù)器響應(yīng)數(shù)據(jù)

時(shí)使用。

Beautifulsoup:Beautifulsoup是一個(gè)網(wǎng)頁(yè)解析庫(kù),簡(jiǎn)單來(lái)說(shuō)就是當(dāng)我們

把網(wǎng)頁(yè)的源代碼爬取下來(lái)后,使用Beautifulsoup來(lái)進(jìn)行對(duì)特定內(nèi)容的提取。

從HTML或XML文件中,提取數(shù)據(jù)的Python庫(kù)。

re:re又名正則表達(dá)式,是一種小型語(yǔ)言,其作用范圍為字符串,內(nèi)嵌在

Python中,通過(guò)調(diào)用re模塊實(shí)現(xiàn),其底層通過(guò)C語(yǔ)言編寫(xiě)的匹配法則進(jìn)行匹配。

re常見(jiàn)的方法有compile、match、findall、finditer、search等。在一些字

符串操作方法使用不方便的情況下,使用re模塊可以非常方便地完成一些查找

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

和替換等操作。

CSV:CSV屬于Python中的內(nèi)置模塊,它能夠從計(jì)算機(jī)內(nèi)讀取CSV格式的文

件還可以將Python中數(shù)據(jù)存入到CSV表格中。并且CSV文件是表格和數(shù)據(jù)庫(kù)中

常見(jiàn)的文件操作格式。

NumPy:NumPy是Python的一種開(kāi)源數(shù)值計(jì)算擴(kuò)展的第三方庫(kù),用于處理數(shù)

據(jù)類(lèi)型相同的多維數(shù)組,簡(jiǎn)稱(chēng)“數(shù)組”。這個(gè)庫(kù)可用來(lái)儲(chǔ)存和處理大型矩陣,比

Python語(yǔ)言提供的列表結(jié)構(gòu)要高效的多。NumPy提供了許多高級(jí)的數(shù)值編程工

具,如:矩形運(yùn)算、矢量處理、N維數(shù)據(jù)變換等。

pandas:pandas是基于NumPy擴(kuò)展的一個(gè)非常重要第三方庫(kù),它是為了解

決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。pandas提供了一批標(biāo)準(zhǔn)的數(shù)據(jù)模型和大量快速便捷

出來(lái)數(shù)據(jù)的函數(shù)和方法,提供了高效的操作大型數(shù)據(jù)集所需要的工具。

Matplotlib:Matplotlib是一個(gè)Python2D繪圖庫(kù),它可以在各種平臺(tái)上以

各種硬拷貝格式和交互式環(huán)境生成出具有出版品質(zhì)的圖形。Matplotlib可用于

Python腳本,Python和IPythonshell,Jupyter筆記本,Web應(yīng)用程序服務(wù)器

和四個(gè)圖形用戶(hù)界面工具包。

wordcloud:wordcloud是Python中的一個(gè)第三方庫(kù),稱(chēng)為詞云,可以使用

wordcloud輕松的繪制出詞云圖,詞云圖是根據(jù)使用文本中的詞頻,對(duì)內(nèi)容進(jìn)行

可視化的匯總。

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

Python是一門(mén)比較通俗易懂的編程語(yǔ)言,并且語(yǔ)法簡(jiǎn)潔清晰。Python的功

能也很強(qiáng)大,并且是免費(fèi)開(kāi)源的,可以跨平臺(tái),對(duì)Linux和Windows都是支持

的。Python具有強(qiáng)大且豐富的標(biāo)準(zhǔn)庫(kù)、第三方庫(kù)和自定義模塊。如用于數(shù)值計(jì)

算的庫(kù)NumPy等,用于數(shù)據(jù)可視化的庫(kù)Matplotlib等,用于網(wǎng)頁(yè)解析的庫(kù)

Beautifulsoup等。用于存儲(chǔ)數(shù)據(jù)的庫(kù)CSV等等。此項(xiàng)目需要使用Python編程

語(yǔ)言來(lái)獲取數(shù)據(jù),存儲(chǔ)數(shù)據(jù),清洗數(shù)據(jù),進(jìn)行數(shù)據(jù)可視化一系列的操作。因此

Python對(duì)本項(xiàng)目是具有技術(shù)可行性的。

2.項(xiàng)目可行性

通過(guò)一段旅行,人們可以親眼的看到當(dāng)?shù)鬲?dú)特的風(fēng)景和感受不一樣的風(fēng)土

人情,這是最直觀能夠感受體會(huì)到的。通過(guò)實(shí)地的旅行可以看到與自己平常生

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

活居住不一樣的方面,比如飲食習(xí)慣,東西南北都有顯著的飲食差異;不一樣

的風(fēng)俗人情,傣族人民要過(guò)潑水節(jié),蒙古人民有那達(dá)慕大會(huì),藏族人民會(huì)給自

己尊敬的人進(jìn)獻(xiàn)哈達(dá);不一樣的宗教信仰,有信本土道教,有信佛教,有信伊

斯蘭教。通過(guò)旅行能夠接觸到平常與自己完全不同的人事物,非常的開(kāi)豁自己

的見(jiàn)識(shí)。

以前放假的時(shí)候人們只想待在家里不想出門(mén),而現(xiàn)在隨著網(wǎng)絡(luò)和各種短視

頻的不斷發(fā)酵,在各個(gè)節(jié)假日來(lái)臨之際,人們都想著利用空閑的時(shí)間看看外面

的世界,通過(guò)自己的的親身體驗(yàn)來(lái)看看是否真的如網(wǎng)上所說(shuō)。現(xiàn)在只要是節(jié)假

日哪里都是人山人海。比如像一些網(wǎng)紅城市成功的出圈吸引到來(lái)自全國(guó)四面八

方的游客。那這么多的人都要出行會(huì)導(dǎo)致很難獲取到有價(jià)值的數(shù)據(jù)。

本次項(xiàng)目通過(guò)爬取去哪兒網(wǎng)重慶景點(diǎn)數(shù)據(jù)并對(duì)其進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)可視化

等操作,讓游客可以根據(jù)自己的需求快速找到更好的旅游方案。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來(lái)源于去哪兒網(wǎng),通過(guò)Python爬取重慶景點(diǎn)的相關(guān)信

息。數(shù)據(jù)清洗后共有1332條記錄,爬取完成后盡可能的檢查數(shù)據(jù)的準(zhǔn)確性,確定

爬取出來(lái)的數(shù)據(jù)無(wú)誤是屬于去哪兒重慶景點(diǎn)實(shí)時(shí)存在的信息。

分析去哪兒網(wǎng)站重慶景點(diǎn)網(wǎng)頁(yè)的信息,明確我們需要爬取的景點(diǎn)參數(shù)有景

點(diǎn)名稱(chēng)、景區(qū)級(jí)別、熱度、地區(qū)、熱度、地址、特點(diǎn)、價(jià)格、月銷(xiāo)量等數(shù)據(jù),在

對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后我們會(huì)對(duì)數(shù)據(jù)進(jìn)行分析。例如,從景區(qū)級(jí)別對(duì)其進(jìn)行分

析,查看有5A級(jí)景區(qū)、4A級(jí)景區(qū)、3A級(jí)景區(qū)和沒(méi)有級(jí)別的景區(qū)數(shù)量各占比多少。

從景區(qū)特點(diǎn)對(duì)其進(jìn)行分析,查看重慶景點(diǎn)有哪些特點(diǎn)等等。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

隨著互聯(lián)網(wǎng)的高速發(fā)展,越來(lái)越多的人都喜歡把自己覺(jué)得有用的信息發(fā)布

到網(wǎng)上作為分享或者參考。而由于分享的這些信息種類(lèi)各種各樣都被嵌入到各

式各樣的網(wǎng)站結(jié)構(gòu)及樣式當(dāng)中,雖然搜索引擎可以輔助我們尋找到信息,但是

搜索引擎搜索出來(lái)的數(shù)據(jù)量非常復(fù)制和龐大,因此我們很難得到所需要的信息。

在這種環(huán)境和需求下,網(wǎng)絡(luò)爬蟲(chóng)因此而生,它為互聯(lián)網(wǎng)數(shù)據(jù)的應(yīng)用提供了新的

方法。

網(wǎng)絡(luò)爬蟲(chóng)也被人們稱(chēng)為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,顧名思義就是像機(jī)器一樣,

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

不需要人們親自動(dòng)手。只需要編寫(xiě)相對(duì)應(yīng)的程序或者腳本就可以自動(dòng)瀏覽龐大

復(fù)雜的互聯(lián)網(wǎng),并且對(duì)想要的目標(biāo)網(wǎng)頁(yè)去進(jìn)行精準(zhǔn)的數(shù)據(jù)采集。網(wǎng)絡(luò)爬蟲(chóng)按照其

系統(tǒng)結(jié)構(gòu)和運(yùn)行原理分為:通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量式網(wǎng)絡(luò)爬蟲(chóng)、

深層網(wǎng)絡(luò)爬蟲(chóng)等。

在大數(shù)據(jù)的時(shí)代背景下,越來(lái)越多的市場(chǎng)投入大量的金錢(qián)來(lái)收集、整理和

挖掘數(shù)據(jù)。如果網(wǎng)絡(luò)爬蟲(chóng)不受任何限制,有些人就會(huì)將爬取的數(shù)據(jù)用到不正當(dāng)

的用途上,所以需要有一定的約束并且對(duì)網(wǎng)絡(luò)爬蟲(chóng)制定協(xié)議。當(dāng)我們需要通過(guò)

爬蟲(chóng)爬取網(wǎng)頁(yè)上的數(shù)據(jù)時(shí),那么久需要遵守網(wǎng)站所有者對(duì)所有爬蟲(chóng)制定的協(xié)議,

這個(gè)就是我們所熟知的robot.txt協(xié)議。由于爬蟲(chóng)爬取網(wǎng)站的數(shù)據(jù)時(shí)是模擬用

戶(hù)訪問(wèn)的行為,所以我們必須約束自己的行為,遵守網(wǎng)絡(luò)所有者制定的規(guī)定,

避免發(fā)生不必要的麻煩。

網(wǎng)站所有者并不歡迎爬蟲(chóng),當(dāng)網(wǎng)站所有者從來(lái)訪者識(shí)別出是爬蟲(chóng),網(wǎng)站所

有者往往會(huì)針對(duì)爬蟲(chóng)做出一些限制措施,這些限制措施就是我們所熟知的反爬

蟲(chóng)。

2.3.2文件存取技術(shù)

使用Python內(nèi)置CSV模塊存儲(chǔ)爬取的數(shù)據(jù),如圖2-1所示:

圖2-1Python內(nèi)置CSV模塊

2.3.3可視化技術(shù)

人們常說(shuō)人類(lèi)是視覺(jué)動(dòng)物,研究表明人類(lèi)處理圖形的速度要比處理文字的

速度快幾萬(wàn)倍。將海量的文字轉(zhuǎn)成可視化的圖形是非常有必要的,因此數(shù)據(jù)可

視化成為了數(shù)據(jù)分析的必修課。

Matplotlib和pyecharts是Python中常見(jiàn)的用于數(shù)據(jù)可視化的庫(kù),有非常

優(yōu)秀的功能極大的解決了人們對(duì)于圖形的需求,不僅可以輕松的繪制出折線圖、

直方圖、餅圖、散點(diǎn)圖等各種基礎(chǔ)圖形,而且還可以繪制出一些復(fù)雜的圖形,

如樹(shù)形圖、誤差條形圖、日歷圖、雷達(dá)圖等等。

Matplotlib可以算的上是Python數(shù)據(jù)可視化庫(kù)的泰斗,有十幾年的歷史了,

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

但依然是Python中使用最廣泛的繪圖庫(kù),設(shè)計(jì)與matlab非常相似。Pyecharts

是一個(gè)將Python與Echarts相結(jié)合的數(shù)據(jù)可視化工具,可以非常靈活的配置,

可以輕松的做出精美的圖形。

3數(shù)據(jù)采集

3.1采集頁(yè)面分析

我們首先通過(guò)谷歌瀏覽器搜索去哪兒網(wǎng)的官方網(wǎng)頁(yè),然后找到重慶景點(diǎn)頁(yè)

面觀察圖3-1,其中URL為:

/ticket/list_%E9%87%8D%E5%BA%86.html?keyword=%

E9%87%8D%E5%BA%86&page=1#from=home_remen&in_track=qunar_djmp_gnmdd_%

E9%87%8D%E5%BA%86,然后點(diǎn)擊頁(yè)面下方的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL中

的page從1變成的2。

圖3-1數(shù)據(jù)網(wǎng)址頁(yè)面

觀察圖3-2,發(fā)現(xiàn)第89頁(yè)的URL的page=89,從而得出結(jié)論第幾頁(yè)的page

就等于幾。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-2數(shù)據(jù)網(wǎng)址頁(yè)面

在頁(yè)面中右擊鼠標(biāo),單擊檢查。如圖3-3所示。

圖3-3檢查頁(yè)面

利用全局搜索工具定位所需數(shù)據(jù)位置,點(diǎn)擊開(kāi)發(fā)者工具上面的Headers字

段,發(fā)現(xiàn)這個(gè)是一個(gè)GET請(qǐng)求,如圖3-4所示。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-4請(qǐng)求頁(yè)面

3.2字段分析

找到字段所對(duì)應(yīng)的標(biāo)簽,觀察后并找出其中的規(guī)律,后進(jìn)行數(shù)據(jù)的爬取,

通過(guò)觀察后可以知道我們需要爬取的字段為景點(diǎn)名稱(chēng)、景點(diǎn)等級(jí)、景點(diǎn)地區(qū)、

景點(diǎn)熱度、景點(diǎn)地址、景點(diǎn)特點(diǎn)、景點(diǎn)價(jià)格,如圖3-5所示。

圖3-5字段分析頁(yè)面

3.3編程實(shí)現(xiàn)

導(dǎo)入所需庫(kù),如圖3-6所示。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖3-6導(dǎo)入所需庫(kù)頁(yè)面

設(shè)置請(qǐng)求頭,偽裝成瀏覽器訪問(wèn)服務(wù)器,如圖3-7所示。

圖3-7請(qǐng)求頭內(nèi)容頁(yè)面

獲取景點(diǎn)名稱(chēng)、級(jí)別、地區(qū)、熱度、地址等所需數(shù)據(jù),如圖3-8所示。

圖3-8獲取數(shù)據(jù)頁(yè)面

4數(shù)據(jù)清洗與處理

由于在爬取下來(lái)的大量數(shù)據(jù)中總會(huì)存在不完整、不規(guī)范、不準(zhǔn)確的數(shù)據(jù),

就是所謂的“臟”數(shù)據(jù)。因此我們?cè)讷@得龐大的數(shù)據(jù)集之后需要對(duì)數(shù)據(jù)進(jìn)行預(yù)

處理,也就是清洗和檢查,確定爬取下來(lái)的數(shù)據(jù)是否存在無(wú)效值和缺失值,要保

證數(shù)據(jù)的一致性,處理無(wú)效值和缺失值等,從而提高數(shù)據(jù)的質(zhì)量,這對(duì)于整個(gè)項(xiàng)

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目來(lái)說(shuō)是一項(xiàng)很重要的操作。

本次項(xiàng)目中我們需要將爬下來(lái)的數(shù)據(jù)和網(wǎng)頁(yè)原數(shù)據(jù)進(jìn)行比對(duì),并且檢查爬

取的數(shù)據(jù)中是否存在空值、缺失值、錯(cuò)值、重復(fù)值等對(duì)分析數(shù)據(jù)有影響的值,還

有就是數(shù)據(jù)的位置是否正確。根據(jù)不同的情況我們要對(duì)數(shù)據(jù)進(jìn)行不同的處理。

4.1數(shù)據(jù)清洗

通過(guò)JupyterNotebook打開(kāi)爬取下來(lái)的數(shù)據(jù),并顯示出來(lái),如圖4-1所示。

圖4-1數(shù)據(jù)清洗準(zhǔn)備頁(yè)面

經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失。有缺失值,但是缺失值情況,符合

分析需求,因此需要對(duì)缺失值進(jìn)行填充的操作,使數(shù)據(jù)完整,便于分析數(shù)據(jù),

如圖4-2所示。

圖4-2數(shù)據(jù)清洗完成界面

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4.2數(shù)據(jù)儲(chǔ)存

Python中數(shù)據(jù)儲(chǔ)存常見(jiàn)的有五種,分別是json格式存儲(chǔ)、CSV文件存儲(chǔ)、

MySQL數(shù)據(jù)庫(kù)存儲(chǔ)、Redis數(shù)據(jù)庫(kù)存儲(chǔ)、Mongdb數(shù)據(jù)庫(kù)存儲(chǔ),json格式是一種

可以對(duì)數(shù)據(jù)進(jìn)行交換的格式。CSV文件像是我們平時(shí)使用的Excel文件,存儲(chǔ)成

CSV文件的話,可以直接在系統(tǒng)磁盤(pán)中找到對(duì)應(yīng)的文件進(jìn)行瀏覽,方便查看數(shù)據(jù)。

MySQL數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)時(shí)可以直接對(duì)數(shù)據(jù)進(jìn)行操作,實(shí)現(xiàn)數(shù)據(jù)的增刪改查,是

Python中對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),用的最多的一種方式。Redis數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)時(shí)

比較方便快速。Mongdb數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)是對(duì)數(shù)據(jù)結(jié)構(gòu)的要求不高。此項(xiàng)目中的數(shù)

據(jù)量不大,因此我在本次項(xiàng)目中使用的是CSV文件存儲(chǔ)的方式,如圖4-3所示。

圖4-3數(shù)據(jù)存儲(chǔ)為CSV頁(yè)面

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)展示

5.1.1依據(jù)景點(diǎn)特點(diǎn)進(jìn)行統(tǒng)計(jì)

圖5-1景點(diǎn)特點(diǎn)詞云圖

根據(jù)爬取去哪兒網(wǎng)重慶市的景點(diǎn)特點(diǎn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),繪制而成的詞云圖,

如圖5-1所示?!皧蕵?lè)”是出現(xiàn)頻率最高的,由此可以看出,人們?cè)谠谥貞c選

擇出行的旅游景點(diǎn)時(shí),更加青睞于令人自身愉悅舒適或者令精神放松解壓的景

點(diǎn)。其次“競(jìng)技”、“戰(zhàn)場(chǎng)”、“飛行”等眾多脫離現(xiàn)實(shí)的關(guān)鍵詞也高頻出現(xiàn)。

這種特點(diǎn)不僅反映了時(shí)下流行的游戲元素也體現(xiàn)了現(xiàn)代人因謀生而奔波忙碌身

心需要得到極大放松的現(xiàn)狀。人們基于娛樂(lè)之上選擇旅游景點(diǎn)時(shí),更刺激大腦

更具吸引力的旅游景點(diǎn)備受關(guān)注。

人們的旅行和游玩方式和傳統(tǒng)的方式相比發(fā)生了巨大改變。重慶自然旅游

資源和地理區(qū)位優(yōu)勢(shì)明顯,可以根據(jù)景點(diǎn)特點(diǎn)因地制宜。重慶被人們稱(chēng)為“山

城”,這是天然戶(hù)外運(yùn)動(dòng)的場(chǎng)地土壤,建議相關(guān)政府部門(mén)借鑒張家界天門(mén)山的

開(kāi)發(fā)經(jīng)驗(yàn)加強(qiáng)重慶戶(hù)外場(chǎng)地的建設(shè)。教育部門(mén)出臺(tái)的研學(xué)指令也是另一個(gè)發(fā)展

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

建設(shè)重慶旅游景點(diǎn)的契機(jī)。把握好自身的旅游資源不失特色還能令學(xué)生寓教于

樂(lè)也是相關(guān)部門(mén)需要攻克的一個(gè)難點(diǎn)。

5.1.2依據(jù)景點(diǎn)級(jí)別進(jìn)行統(tǒng)計(jì)

圖5-2重慶景區(qū)等級(jí)占比圖

去哪兒網(wǎng)中展示的重慶可旅行的景點(diǎn)一共有1331個(gè),如圖5-2所示。不難

比較重慶市景點(diǎn)的占比率,其中沒(méi)有等級(jí)的景點(diǎn)最多,有1174個(gè)占比88.2%,

等級(jí)為3A的景點(diǎn)有25個(gè)占比1.9%,4A的景點(diǎn)有118個(gè)占比8.9%,等級(jí)為5A

的景點(diǎn)最少,有14個(gè)占比為1.1%,但從全國(guó)5A級(jí)旅游景點(diǎn)角度看重慶市僅作

為直轄市,相比之下5A的景點(diǎn)非常多。景點(diǎn)級(jí)別由低到高均覆蓋,直觀的體現(xiàn)

重慶市旅游景點(diǎn)資源的豐富多樣性,人們可以根據(jù)自身的需求進(jìn)行選擇。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.1.3據(jù)產(chǎn)重慶景點(diǎn)月銷(xiāo)量進(jìn)行統(tǒng)計(jì)和分析

圖5-3重慶景點(diǎn)月銷(xiāo)量前十圖

比較去哪兒網(wǎng)中重慶市旅游景點(diǎn)的月銷(xiāo)量數(shù)據(jù),重慶動(dòng)物園和重慶歡樂(lè)谷

景點(diǎn)月銷(xiāo)量是最高的,如圖5-3所示。

重慶市作為中國(guó)西南地區(qū)的特大城市之一,擁有千萬(wàn)級(jí)人口的數(shù)量。在對(duì)

于精神文明層次需求的同時(shí),需要一座城市能夠體現(xiàn)出與之相匹的軟實(shí)力。動(dòng)

物園,森林公園,植物園,游樂(lè)園等景點(diǎn)可以滿(mǎn)足人們?nèi)粘I钪杏瓮娴母鞣N

選擇,滿(mǎn)足人們不同層面的需求。

我們可以很明顯的看到月銷(xiāo)量排名第一的景點(diǎn)是重慶動(dòng)物園和和排名第二

的重慶歡樂(lè)谷的數(shù)據(jù)相差很大。說(shuō)明重慶動(dòng)物園作為旅游景點(diǎn)較受歡迎,這與重

慶動(dòng)物園不偏僻地理位置和方便出行抵達(dá)觀賞的特點(diǎn)密不可分。其次該動(dòng)物園

擁有稀有動(dòng)物如大熊貓,金絲猴等國(guó)家級(jí)的保護(hù)動(dòng)物,并且大熊貓還是我國(guó)的

國(guó)寶。豐富的生物多樣性和國(guó)家級(jí)保護(hù)動(dòng)物對(duì)于人的吸引也是不可忽視的因素。

家長(zhǎng)和學(xué)校推薦的首選出行地就是重慶動(dòng)物園,教育意義重大。

根據(jù)圖5-3顯示的排名來(lái)看,大多數(shù)的景點(diǎn)都集中分布在市中心,可以使

人們的出行相對(duì)方便,提高人們?nèi)粘3鲇蔚念l率。

5.2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論