2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書10(賽項賽題)_第1頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書10(賽項賽題)_第2頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書10(賽項賽題)_第3頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書10(賽項賽題)_第4頁
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書10(賽項賽題)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2021年全國職業(yè)院校技能大賽

高職組

“大數(shù)據(jù)技術(shù)與應(yīng)用”

賽項賽卷(GZ-xxxxxxx-X卷)

務(wù)

參賽隊編號:

背景描述

企業(yè)消費(fèi)服務(wù)平臺,為大中小型企業(yè)提供基于云化的消費(fèi)場景一

站式智能消費(fèi)、智能管控,幫助企業(yè)獲得更高效、簡單、美好的消費(fèi)

管理。從''費(fèi)控+支付”出發(fā),到覆蓋全場景支出的創(chuàng)新模式,讓員工

在數(shù)字化平臺上直接完成所有消費(fèi),從員工下單、到財務(wù)入賬,全流

程實現(xiàn)自動化統(tǒng)一結(jié)算、統(tǒng)一數(shù)據(jù)分析。解決傳統(tǒng)差旅系統(tǒng)面臨的場

景覆蓋不全、員工體驗差、消費(fèi)體驗割裂等情況,真正做成一套讓企

業(yè)節(jié)省支出,讓員工滿意的差旅平臺。

企業(yè)消費(fèi)服務(wù)平臺的出現(xiàn)將原來傳統(tǒng)的差旅行程放到網(wǎng)絡(luò)平臺上,

更廣泛的傳遞差旅信息,互動式的交流更方便客人的咨詢和訂購,越

來越多的人在出行的時候使用企業(yè)消費(fèi)服務(wù)平臺預(yù)訂機(jī)票、火車票、

住宿等,使得更多的商家愿意與企業(yè)消費(fèi)服務(wù)平臺建立合作,提升住

宿場所的營業(yè)額,這也為企業(yè)消費(fèi)服務(wù)平臺的發(fā)展帶來新的機(jī)遇,為

了抓住這個機(jī)會,“企業(yè)消費(fèi)服務(wù)平臺”需要從地域、訂單來源等多

種維度進(jìn)行分析,明確未來重點(diǎn)拓展合作商家的方向。公司要求多個

小組進(jìn)行分析,并提出相應(yīng)建議,你所在的小組也在其中,需要通過

數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化獲得相關(guān)論據(jù),提出未

來重點(diǎn)拓展合作住宿場所的方向。

你們作為該小組的技術(shù)人員,是這次技術(shù)方案的核心成員,請按

照下面步驟完成本次技術(shù)展示任務(wù),并提交分析報告,祝你們成功?。?!

模塊A:Hadoop平臺及組件的部署管理(15分)

環(huán)境要求:

編號主機(jī)名類型用戶密碼

1master主節(jié)點(diǎn)rootpasswd

2slavel從節(jié)點(diǎn)rootpasswd

3slave2從節(jié)點(diǎn)rootpasswd

masterOl-1主機(jī)上MySQL數(shù)據(jù)庫用戶名密碼是root/Passwordl23$

相關(guān)軟件安裝包在/chinaskills目錄下

任務(wù)一:Hadoop偽分布部署

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置

前置環(huán)境,具體部署要求如下:

1、解壓JDK安裝包到“/usr/local/src”路徑,并配置環(huán)境變量,

將命令(使用絕對路徑)及環(huán)境變量內(nèi)容復(fù)制粘貼至對應(yīng)報告

中;

2、環(huán)境中已創(chuàng)建ssh密鑰,實現(xiàn)主節(jié)點(diǎn)與從節(jié)點(diǎn)的無密碼登錄;截

取主節(jié)點(diǎn)登錄其中一個從節(jié)點(diǎn)的結(jié)果,將命令和結(jié)果復(fù)制粘貼至

對應(yīng)報告中;

3、根據(jù)要求修改每臺主機(jī)host文件,將hosts配置文件內(nèi)容復(fù)制

粘貼至對應(yīng)報告中;

4、在主節(jié)點(diǎn)修改Hadoop環(huán)境變量,并將(/etc/profile)配置文

件內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

5、根據(jù)要求修改Hadoop相關(guān)文件(hadoop-env.sh、core-

site.xmlHDFS-site.xml>mapred-site.xml,yarn-

site.xml),初始化Hadoop,并將初始化結(jié)果內(nèi)容復(fù)制粘貼至對

應(yīng)報告中;

6、啟動Hadoop,使用相關(guān)命令查看所有節(jié)點(diǎn)Hadoop進(jìn)程,并將結(jié)

果內(nèi)容復(fù)制粘貼至對應(yīng)報告中。

任務(wù)二:Hive組件部署

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要

配置前置環(huán)境,具體部署要求如下:

1、解壓Hive安裝包到“/usr/local/src”路徑,并使用相關(guān)命

令,修改解壓后文件夾名為Hive,進(jìn)入Hive文件夾,并將查看

內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

2、配置Hive環(huán)境變量,并使環(huán)境變量只對當(dāng)前用戶生效,將環(huán)境

變量內(nèi)容復(fù)制粘貼至對應(yīng)報告中;

3、新建并配置hive-site,xml文件,實現(xiàn)"Hive元存儲”的存儲

位置為MySQL數(shù)據(jù)庫,并將hive-site,xml配置文件內(nèi)容復(fù)制粘

貼至對應(yīng)報告中;

4、初始化Hive元數(shù)據(jù)(將MySQL數(shù)據(jù)庫JDBC驅(qū)動拷貝到Hive安

裝目錄的lib下),并將初始化結(jié)果內(nèi)容復(fù)制粘貼至對應(yīng)報告

中;

5、啟動Hive,檢查是否安裝成功,并將結(jié)果內(nèi)容復(fù)制粘貼至對應(yīng)

報告中。

任務(wù)三、Kafka組件部署

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要

配置前置環(huán)境,具體部署要求如下:

1、將Zookeeper配置完畢后,在各節(jié)點(diǎn)啟動Zookeeper,查看

Zookeeper狀態(tài),并將命令和Zookeeper運(yùn)行狀態(tài)結(jié)果復(fù)制粘貼

至對應(yīng)報告中;

2、修改Kafkaserver.properties文件,并將修改的內(nèi)容復(fù)制粘貼

至對應(yīng)報告中;

3、啟動Kafka,并將Kafka啟動命令和輸出結(jié)果前10行復(fù)制粘貼

至報告中。

模塊B:數(shù)據(jù)采集與處理(20分)

1、網(wǎng)站解析,利用Chrome查看網(wǎng)頁源碼,分析企業(yè)消費(fèi)平臺網(wǎng)站

網(wǎng)頁結(jié)構(gòu)。

1)打開企業(yè)消費(fèi)平臺網(wǎng)站,在網(wǎng)頁中右鍵點(diǎn)擊檢查,或者F12

快捷鍵,查看元素頁面;

2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。

2、從企業(yè)消費(fèi)平臺網(wǎng)站中爬取需要數(shù)據(jù),按照要求使用Python語

言編寫爬蟲代碼,爬取指定數(shù)據(jù)項,并對結(jié)果數(shù)據(jù)集進(jìn)行數(shù)據(jù)探

索、以及必要的數(shù)據(jù)處理操作。請將符合題目要求的代碼答案復(fù)

制粘貼至對應(yīng)報告中。

具體步驟如下:

1)創(chuàng)建爬蟲項目

2)構(gòu)建爬蟲請求

3)按要求定義相關(guān)字段

4)獲取有效數(shù)據(jù)

5)將爬取到的數(shù)據(jù)保存到指定位置

至此已從住宿場所網(wǎng)站中爬取了所需數(shù)據(jù),下一步我們要將爬取

結(jié)果進(jìn)一步進(jìn)行相關(guān)數(shù)據(jù)操作。

詳細(xì)數(shù)據(jù)描述:

1)請創(chuàng)建Scrapy項目chinaskills_accommodation(C:\

chinaskills_accommodation),從網(wǎng)站(網(wǎng)站地址在競賽平

臺模塊B中給出)中爬取頁面相關(guān)字段(包括name,seq,

業(yè)務(wù)部門,拒單率是否小于等于直銷城市均值、,是否為客

棧,房間價格,用戶點(diǎn)評數(shù),省份,酒店實住訂單,酒店實

住間夜);將抓取結(jié)果保存為json格式文件,并命名為

accommodations.jsono每條信息請以Key:Value格式單獨(dú)

保存為一行數(shù)據(jù)。

例如:

{I“nsaeme":“*義*立*士",”scecqc":“*義*立*業(yè)”,...........}1

任務(wù)中要求將“以下內(nèi)容及答案完整復(fù)制粘貼至對應(yīng)報告中。”,

粘貼到對應(yīng)報告中的內(nèi)容舉例如下:

“中國”網(wǎng)頁源碼對應(yīng)字段為:Country

“四川”網(wǎng)頁源碼對應(yīng)字段為:Province

2)爬取數(shù)據(jù)量不少于28萬條。

具體任務(wù)要求:

任務(wù)一:網(wǎng)頁源碼應(yīng)字段

使用Chrome瀏覽器,查找網(wǎng)站異步請求的數(shù)據(jù),并將以下內(nèi)容及

答案完整復(fù)制粘貼至對應(yīng)報告中。

“城市平均實住間夜”網(wǎng)頁源碼對應(yīng)字段為:

“房間數(shù)”網(wǎng)頁源碼對應(yīng)字段為:

“城市直銷拒單率”網(wǎng)頁源碼對應(yīng)字段為:

“處于商圈”網(wǎng)頁源碼對應(yīng)字段為:

任務(wù)二、自行創(chuàng)建Scrapy工程

自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“name、seq、業(yè)務(wù)部

門有效數(shù)據(jù)項包括:業(yè)務(wù)部門,房間數(shù),國家,圖片數(shù),城市,城市平均

實住間夜,城市直銷拒單率,處于商圈”頁面相關(guān)數(shù)據(jù),通過爬蟲代碼

分頁爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包含的頁數(shù)并將程序代碼

復(fù)制粘貼至對應(yīng)報告中。

任務(wù)三:在MySQL中創(chuàng)建數(shù)據(jù)庫表

根據(jù)爬取字段,在MySQL中創(chuàng)建crawl數(shù)據(jù)庫,在該數(shù)據(jù)庫中創(chuàng)

建accommodations1表(包含name,seq,業(yè)務(wù)部門,拒單率是否小于

等于直銷城市均值,是否為客棧,房間價格),創(chuàng)建accommodations2

表(包含name,seq,業(yè)務(wù)部門,用戶點(diǎn)評數(shù),省份,酒店實住訂單,

酒店實住間夜),將爬取數(shù)據(jù)寫入相應(yīng)數(shù)據(jù)表中,并分別統(tǒng)計

accommodations!表和accommodations2表的總行數(shù),將統(tǒng)計結(jié)果復(fù)

制粘貼至對應(yīng)報告中。

任務(wù)四:對數(shù)據(jù)庫表排序

爬蟲程序運(yùn)行結(jié)束后查看MySQL數(shù)據(jù)庫accommodations1表,按

seq倒序排序,返回前100行數(shù)據(jù),將命令與查看結(jié)果復(fù)制粘貼至對

應(yīng)報告中。

任務(wù)五:對數(shù)據(jù)表填充處理

請根據(jù)步驟3中accommodations!表中的數(shù)據(jù),對數(shù)據(jù)集中“房

間價格”字段的缺失值,使用平均值進(jìn)行填充。查看填充后的數(shù)據(jù)集

前5條記錄,將查看結(jié)果復(fù)制粘貼至對應(yīng)報告中。

任務(wù)六:對數(shù)據(jù)表刪除處理

請根據(jù)步驟3中accommodations2表中的數(shù)據(jù),對數(shù)據(jù)集中存在

空值的記錄進(jìn)行刪除。查看刪除后的數(shù)據(jù)集條數(shù),將查看結(jié)果復(fù)制粘

貼至對應(yīng)報告中。

accommodations2表刪除后條數(shù)為:

模塊C:數(shù)據(jù)清洗與挖掘分析(25分)

現(xiàn)已從相關(guān)網(wǎng)站及平臺獲取到原始數(shù)據(jù)集,為保障用戶隱私和行

業(yè)敏感信息,已進(jìn)行數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對某些敏感信息通過

脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在涉及

客戶安全數(shù)據(jù)或者一些商業(yè)性敏感數(shù)據(jù)的情況、不違反系統(tǒng)規(guī)則條

件下,對真實數(shù)據(jù)進(jìn)行改造并提供測試使用,如身份證號、手機(jī)號

等個人信息都需要進(jìn)行數(shù)據(jù)脫敏。

相關(guān)數(shù)據(jù)文件中已經(jīng)包含了數(shù)據(jù)采集階段從企業(yè)消費(fèi)平臺網(wǎng)站上

爬取的數(shù)據(jù)集,其中包含了來自不同城市的多家住宿場所的銷售信

息,你的小組需要通過編寫代碼或腳本完成對相關(guān)數(shù)據(jù)文件中住宿

場所銷售管理數(shù)據(jù)的清洗和整理,并完成數(shù)據(jù)計算和分析任務(wù)。綜

合利用MapReduce、Spark>Storm>分布式存儲系統(tǒng)、數(shù)據(jù)倉庫

Hive、數(shù)據(jù)推送工具等技術(shù),使用Java、Python、Scala等開發(fā)語

言,完成本階段數(shù)據(jù)清洗、處理、分析及數(shù)據(jù)挖掘等任務(wù)。通過多

個維度分析住宿場所的銷售信息,并以此評價住宿場所銷售業(yè)績、

區(qū)域的游客接納能力、接納質(zhì)量等指標(biāo)。

初始數(shù)據(jù)集來自多個網(wǎng)站及平臺系統(tǒng),且為多次采集匯總結(jié)果,

因此數(shù)據(jù)集中不可避免地存在一些臟數(shù)據(jù),即源數(shù)據(jù)不在給定的范

圍內(nèi)或?qū)τ趯嶋H業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)

中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。

請分析相關(guān)數(shù)據(jù)集,根據(jù)題目規(guī)定要求實現(xiàn)數(shù)據(jù)清洗及分析。

任務(wù)一、數(shù)據(jù)清洗

住宿場所銷售數(shù)據(jù)涉及到多個平臺及數(shù)據(jù)庫對接,個別信息由于

人為操作失誤或計算機(jī)故障等原因產(chǎn)生了數(shù)據(jù)缺失值。缺失值是一

種常見的臟數(shù)據(jù)情況,由于粗糙數(shù)據(jù)中缺少信息而造成的數(shù)據(jù)缺失

或截斷?,F(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完全的。對于缺失

值的處理,從總體上來說分為缺失值刪除和缺失值插補(bǔ)。當(dāng)缺失值

過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進(jìn)

行填補(bǔ)則將產(chǎn)生結(jié)果的人為干預(yù)。結(jié)合行業(yè)數(shù)據(jù)本身特點(diǎn)及上述考

慮,請你根據(jù)題目具體參數(shù)要求實現(xiàn)以下功能:將缺失值大于n個

的數(shù)據(jù)條目從原始數(shù)據(jù)集中剔除,并輸出剔除的條目數(shù)量。

詳細(xì)描述:

數(shù)據(jù)源文件存放于/chinaskills/accommodationdata.csv,請編

寫MapReduce程序,按照如下要求實現(xiàn)對數(shù)據(jù)的清洗,并將結(jié)果輸出

至HDFS文件系統(tǒng)中/accommodation_outputl:

1)解析該文件;

2)按照題目要求剔除缺失數(shù)據(jù)信息(n=3),并以打印語句輸出

刪除條目數(shù);

3)程序打包并在Hadoop平臺運(yùn)行,結(jié)果輸出至HDFS文件系統(tǒng)

中/accommodation_outputlo

具體任務(wù)要求:

1、將accommodationdata.csv文件上傳至HDFS新建目錄/file3_l

中;運(yùn)行代碼,刪除數(shù)據(jù)源中缺失值大于3個字段的數(shù)據(jù)記錄,

打印輸出刪除條目數(shù),將運(yùn)行結(jié)果復(fù)制粘貼至對應(yīng)報告中;

2、查看清洗后輸出的結(jié)果文件總行數(shù)(/accommodation_outputl),

將運(yùn)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。

對于數(shù)據(jù)集字段缺失情況,通??梢圆捎锰畛淠J(rèn)值、均值、

眾數(shù)、KNN填充、以及把缺失值作為新的label等方式處理。同

時,不當(dāng)?shù)奶畛淇赡軙詈罄m(xù)的分析結(jié)果出現(xiàn)導(dǎo)向性偏差,當(dāng)缺失

信息較少時可采用刪除的方式來進(jìn)行處理。下面請根據(jù)題目具體參

數(shù)要求處理關(guān)鍵字段缺失,復(fù)制粘貼至對應(yīng)報告中結(jié)果。

詳細(xì)描述:

數(shù)據(jù)源使用HDFS文件系統(tǒng)中的accommodationdata,csv,請編寫

MapReduce程序,按照如下要求實現(xiàn)對數(shù)據(jù)的清洗,并將結(jié)果輸出至

HDFS文件系統(tǒng)中/accommodation_output2:

1)解析該文件;

2)將任意關(guān)鍵字段為空的條目剔除,關(guān)鍵字段定義為{星級、評

論數(shù)、評分},并以打印語句輸出刪除條目數(shù);

3)程序打包并在Hadoop平臺運(yùn)行,結(jié)果輸出至HDFS文件系統(tǒng)

中/accommodation_output2。

具體任務(wù)要求:

3、運(yùn)行代碼,將字段{星級、評論數(shù)、評分}中任意字段為空的數(shù)據(jù)

刪除,并打印輸出刪除條目數(shù),將運(yùn)行結(jié)果復(fù)制粘貼至對應(yīng)報告

中;

4、查看清洗后輸出的結(jié)果文件(accommodation_output2)總行數(shù),

將運(yùn)行結(jié)果復(fù)制粘貼至對應(yīng)報告中。

任務(wù)二、數(shù)據(jù)挖掘分析

城市游客接納能力是城市規(guī)劃建設(shè)中的重要指標(biāo),其中城市的

住宿場所數(shù)量和房間數(shù)量是城市游客接納能力的關(guān)鍵要素。請編寫

程序或腳本根據(jù)住宿場所管理網(wǎng)站中的數(shù)據(jù)統(tǒng)計各城市的相關(guān)信

息,并寫入指定的數(shù)據(jù)庫或數(shù)據(jù)文件。

詳細(xì)描述:

請根據(jù)數(shù)據(jù)清洗的輸出數(shù)據(jù)集,編寫HQL語句統(tǒng)計各城市的酒店

出租率,以各城市酒店出租率降序排列并輸出前10條統(tǒng)計結(jié)果,同

時創(chuàng)建并寫入數(shù)據(jù)表a_4。要求輸出字段包含:省份、城市、酒店

出租率。

數(shù)據(jù)定義如下:

數(shù)據(jù)項字段名備注

省份province

城市city

酒店出租率lease要求保留6位小數(shù)

數(shù)據(jù)樣式如下:

provincecitylease

貴州貴陽0.123456

具體任務(wù)要求:

1、創(chuàng)建表table3_4

2、統(tǒng)計各城市酒店出租率,將出租率前10的數(shù)據(jù)降序排列并寫入

數(shù)據(jù)表table3_4中,將命令復(fù)制粘貼至對應(yīng)報告中。

企業(yè)消費(fèi)平臺是酒店營銷的主要途徑之一,不僅降低銷售成

本,同時也提高了顧客體驗滿意度。當(dāng)顧客通過企業(yè)消費(fèi)平臺進(jìn)行

酒店預(yù)訂時,酒店就擁有了用戶的相關(guān)數(shù)據(jù)。通過這些數(shù)據(jù),能夠

更好地收集用戶需求,從而可以提供更有針對性和個性化的服務(wù),

最終能夠產(chǎn)生更多的忠誠會員并帶來更多訂單。但企業(yè)消費(fèi)平臺銷

售也存在用戶拒單等情況,拒單原因有很多:例如,平臺信息不同

步,信息更新不及時;分銷層次過多,導(dǎo)致無法及時查證訂單;酒

店違反企業(yè)消費(fèi)規(guī)則擅自以低價讓客戶取消訂單,這種情況又叫做

“切單企業(yè)消費(fèi)平臺需要統(tǒng)計用戶訂單的分布情況,以此發(fā)現(xiàn)平

臺缺陷及用戶、商家的行為模式,企業(yè)消費(fèi)平臺據(jù)此調(diào)整營銷策

略。根據(jù)現(xiàn)有數(shù)據(jù)及給定參數(shù)完成訂單數(shù)據(jù)統(tǒng)計,并寫入指定的數(shù)

據(jù)庫或數(shù)據(jù)文件,復(fù)制粘貼至對應(yīng)報告中結(jié)果。

詳細(xì)描述:

1)請根據(jù)數(shù)據(jù)清洗的輸出數(shù)據(jù)集,編寫HQL語句統(tǒng)計各省直銷

拒單率,以直銷拒單率升序排列并輸出前10條統(tǒng)計結(jié)果,同

時創(chuàng)建并寫入數(shù)據(jù)表table3_5。要求輸出字段包含:省份、

直銷拒單率。

數(shù)據(jù)定義如下:

數(shù)據(jù)項字段名備注

省份province

直銷拒單率norate要求保留6位小數(shù)

數(shù)據(jù)樣式如下:

provincenorate

貴州0.123456

具體任務(wù)要求:

3、創(chuàng)建表table3_5,將命令復(fù)制粘貼至對應(yīng)報告中;

4、統(tǒng)計各省拒單率,將統(tǒng)計的拒單率升序排列并將前10條統(tǒng)計結(jié)

果寫入數(shù)據(jù)表table3_5中,將命令復(fù)制粘貼至對應(yīng)報告中。

模塊D:數(shù)據(jù)可視化(20分)

MySQL數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集包含了城市、省份、評分、評論數(shù)

等多項基礎(chǔ)信息字段。請使用Flask框架,結(jié)合Echarts完成下列

題目。

數(shù)據(jù)庫賬號:takeout密碼:takeout

自行創(chuàng)建代碼工程路徑為:C:\chinaskills_hotel

每個可視化圖中需要添加圖片作為背景水印。

任務(wù)一:柱狀圖呈現(xiàn)城市出租率

出租率是反映住宿場所經(jīng)營狀況的一項重要指標(biāo),它是已出租的

客房數(shù)與住宿場所可以提供租用的房間總數(shù)的百分比。住宿場所出

租率的情況可以在一定程度上反應(yīng)出該住宿場所的整體運(yùn)營的情

況,為了更好的分析指定住宿場所的入住情況,請根據(jù)相關(guān)表中數(shù)

據(jù)完成出租率分析,通過指定圖例進(jìn)行呈現(xiàn)。

詳細(xì)描述:

請以數(shù)據(jù)庫相關(guān)表作格為數(shù)據(jù)源,以柱狀圖呈現(xiàn)城市出租率。

具體任務(wù)要求:

1)提取表格相關(guān)字段,在控制臺按照“各省住宿場所出租率”降

序排列,打印輸出各省名稱及包含的住宿場所數(shù)量;

打印語句格式如下:

==1.***省=住宿場所數(shù)為***個=出租率為:***===

==2.***省=住宿場所數(shù)為***個=出租率為:***===

2)使用Flask框架,結(jié)合Echarts繪制柱狀圖。主標(biāo)題為“各省

住宿場所出租率”(字體要求:紅色、加粗、斜體),副標(biāo)題為

出租率前十的省份;縱坐標(biāo)為出租率,橫坐標(biāo)為省份名稱(按

照出租率降序排列);將可視化結(jié)果復(fù)制粘貼至對應(yīng)報告中。

任務(wù)二:折線圖呈現(xiàn)連鎖住宿場所出租率

連鎖住宿場所一般都具有全國統(tǒng)一的品牌形象識別系統(tǒng)、全國統(tǒng)

一的會員體系和營銷體系、價格相比較很有優(yōu)勢,更適合大眾化消

費(fèi)。連鎖住宿場所無論在裝修、服務(wù)還是信譽(yù)上都有較大的競爭優(yōu)

勢,所以連鎖住宿場所是出差、旅游住宿的首選。但是由于三線城

市會員流動差、高素質(zhì)管理人員相對短缺、營銷環(huán)境與消費(fèi)特點(diǎn)存

在差異等問題,一些已經(jīng)成熟住宿場所管理模式在三線城市可能并

不受用,甚至?xí)霈F(xiàn)水土不服的現(xiàn)象。請根據(jù)現(xiàn)有數(shù)據(jù)及給定參

數(shù),統(tǒng)計指定連鎖住宿場所的經(jīng)營狀況,并以指定圖例進(jìn)行呈現(xiàn)。

詳細(xì)描述:

1)數(shù)據(jù)庫中相關(guān)表格已保存了指定地區(qū)的某連鎖住宿場所銷售

信息。請根據(jù)地區(qū)劃分,統(tǒng)計題中某連鎖住宿場所的出租率(保

留6位小數(shù)),并以折線圖呈現(xiàn);

2)要求統(tǒng)計以下指定地區(qū)住宿場所相關(guān)信息,指定地區(qū)包括:東

北、華北、華東、華中、西北、西南、華南;

3)指定地區(qū)省份映射表,如表1。

表1:地區(qū)省份映射表

地區(qū)省份

華東地區(qū)山東、江蘇、安徽、浙江、江西、福建、上海

華南地區(qū)廣東、廣西、海南

華中地區(qū)湖北、湖南、河南

華北地區(qū)北京、天津、河北、山西、內(nèi)蒙古

西北地區(qū)寧夏、新疆、青海、陜西、甘肅

西南地區(qū)四川、云南、貴州、西藏、重慶

東北地區(qū)遼寧、吉林、黑龍江

具體任務(wù)要求:

1)根據(jù)表格相關(guān)字段分別統(tǒng)計某連鎖住宿場所在各地區(qū)的出租

率(保留6位小數(shù)),在控制臺按照“出租率”降序排列,打

印輸出各地區(qū)名稱以及出租率;

打印語句格式如下:

==1.***地區(qū),出租率為***===

==2.***地區(qū),出租率為***===

2)使用Flask框架,結(jié)合Echarts繪制折線圖,主標(biāo)題為“指定

地區(qū)的住宿場所出租率“(字體要求:紅色、加粗、斜體),副

標(biāo)題為“某連鎖住宿場所的出租率”,縱坐標(biāo)為出租率,橫坐

標(biāo)為地區(qū);輸出折線圖,將可視化結(jié)果復(fù)制粘貼至對應(yīng)報告中。

任務(wù)三:散點(diǎn)地圖呈現(xiàn)各城市住宿場所間夜數(shù)

住宿場所的間夜量也叫間夜數(shù),是住宿場所在某個時間段內(nèi),房

間出租率的計算單位,關(guān)于住宿場所間夜量的計算公式為間夜量=入

住房間數(shù)*入住天數(shù)。例如某住宿場所今天入住的房間數(shù)為500,則

今天的間夜量=500*1=500,而又比如某住宿場所這個月(30天)的

平均每天入住房間數(shù)為400,則這個月的間夜量=400*1*30=12000。

請根據(jù)指定表中數(shù)據(jù)統(tǒng)計住宿場所間夜數(shù)相關(guān)數(shù)據(jù),并以指定圖例

進(jìn)行呈現(xiàn)。

詳細(xì)描述:

請以數(shù)據(jù)庫相關(guān)表格中相關(guān)表作為數(shù)據(jù)源,各城市住宿場所間夜

數(shù)散點(diǎn)地圖。

具體任務(wù)要求:

1)根據(jù)表格相關(guān)字段分別統(tǒng)計各城市住宿場所間夜數(shù),打印輸出

各城市的間夜數(shù),在控制臺按照“間夜數(shù)”降序排列,打印輸

出各地區(qū)名稱以及間夜數(shù);

打印語句格式如下:

二二***市:間夜數(shù)為***二二二

二二***市:間夜數(shù)為***二二二

2)使用Flask框架,結(jié)合Echarts繪制散點(diǎn)地圖,標(biāo)題為“各城

市住宿場所間夜數(shù)”(字體要求:紅色、加粗、斜體);輸出各

城市住宿場所間夜數(shù)散點(diǎn)地圖,將可視化結(jié)果復(fù)制粘貼至對應(yīng)

報告中。

任務(wù)四:堆疊柱狀圖呈現(xiàn)直銷和分銷直銷和分銷

訂單數(shù)據(jù)是考量企業(yè)消費(fèi)平臺直銷住宿場所經(jīng)營業(yè)績的重要指

標(biāo),由于某些酒店資源無法內(nèi)部消化,也會出現(xiàn)訂單分銷至其它企

業(yè)消費(fèi)平臺的情況,此時稱為分銷。一般情況下,直銷和分銷是同

時存在的。但當(dāng)某些住宿場所或區(qū)域分銷數(shù)量過多時,則表明企業(yè)

消賽平臺經(jīng)營推廣能力不足。請根據(jù)指定表中數(shù)據(jù),以指定圖例進(jìn)

行呈現(xiàn)。

詳細(xì)描述:

根據(jù)相關(guān)負(fù)責(zé)人反饋,以下住宿場所的分銷數(shù)量占比較大:山水

時尚酒店北京梨園店,北京大寶飯店,北京普樂門白領(lǐng)公寓798精

品店,北京長得福賓館,北京中聯(lián)鑫華酒店西客站店,北京瑞祥居

賓館,北京花神假日酒店。請使用數(shù)據(jù)庫中相關(guān)數(shù)據(jù),以堆疊柱狀

圖呈現(xiàn)直銷和分銷,并輔以分銷比率折線說明平臺應(yīng)對哪些酒店加

強(qiáng)維護(hù)及推廣力度。

具體任務(wù)要求:

1)根據(jù)表格相關(guān)字段分別統(tǒng)計以上各家酒店的直銷訂單數(shù)量、分

銷訂單數(shù)量以及分銷比例,在控制臺按照“分銷比例”升序排

列,打印輸出各地區(qū)名稱以及間夜數(shù);

打印語句格式如下:

=="酒店名稱:***直銷訂單數(shù):***分銷訂單數(shù):***分銷比

例:***“==

2)使用Flask框架,結(jié)合Echarts繪制堆疊柱狀圖,并輔以分銷

比率折線,標(biāo)題為“酒店直銷,分銷訂單及比率”(字體要求:

紅色、加粗、斜體);橫坐標(biāo)為酒店名稱,縱坐標(biāo)為銷售數(shù)量和

分銷比例,將可視化結(jié)果截圖并保存。

任務(wù)五:使用sklearn庫中方法構(gòu)建線性回歸模型

企業(yè)消費(fèi)平臺為了能在更多省份擴(kuò)展業(yè)務(wù),與更多酒店建立合作

關(guān)系,為了贏得更多酒店的合作,在合作談判過程中會通過同區(qū)

域、同等級銷售情況對比,需要提供同類酒店相關(guān)經(jīng)營數(shù)據(jù)。請根

據(jù)指定表中數(shù)據(jù),以指定圖例進(jìn)行呈現(xiàn)。企業(yè)消費(fèi)平臺希望與住宿

場所A進(jìn)行線上銷售合作,需要制作一份銷售預(yù)測報告來說明酒店

將在平臺收獲的間夜預(yù)期。住宿場所A信息{廣東省、廣州市、北京

路商圈、非客棧,評論數(shù)100,房間數(shù)200}

詳細(xì)描述:

請以根據(jù)表格相關(guān)字段:是否客棧、評論數(shù)、房間數(shù)為特征變量,

構(gòu)建線性回歸模型,給出明年同期住宿場所A在本平臺總間夜數(shù)的預(yù)

期值。輸出預(yù)測模型相關(guān)指標(biāo),同時給出預(yù)期結(jié)果。

具體任務(wù)要求:

1)請使用sklearn庫中方法構(gòu)建線性回歸模型,并在控制臺輸出

住宿場所A總間夜的預(yù)測值;

打印語句格式如下:

=="住宿場所A明年同期總間夜數(shù)預(yù)期值為:***"===

2)使用Flask框架,結(jié)合Echarts繪制散點(diǎn)線性回歸圖,標(biāo)題

為“住宿場所A總間夜數(shù)預(yù)測”(字體要求:紅色、加粗、斜

體),橫坐標(biāo)為時間,縱坐標(biāo)為總間夜數(shù),將可視化結(jié)果截圖

并保存。

任務(wù)六:多線雷達(dá)圖呈現(xiàn)各省份住宿場所綜合情況

企業(yè)消費(fèi)平臺需要綜合評判一個城市住宿場所運(yùn)營情況,會涉及

到多方面住宿場所數(shù)據(jù),例如像高端住宿場所數(shù)量、訂單數(shù)量、住

客評分、評論數(shù)量、出租率、200元/晚以下快捷住宿場所數(shù)量等信

息,請根據(jù)指定表中數(shù)據(jù)統(tǒng)計相關(guān)數(shù)據(jù),并以指定圖例進(jìn)行呈現(xiàn)。

詳細(xì)描述:

請根據(jù)數(shù)據(jù)庫中相關(guān)表格,統(tǒng)計各城市住宿場所綜合運(yùn)營情況,

并以多線雷達(dá)圖表達(dá)。

具體任務(wù)要求:

1)根據(jù)數(shù)據(jù)庫中相關(guān)表格分別統(tǒng)計北京、上海、廣東、四川、海

南各地四星/五星住宿場所的數(shù)量、平均評分、評論數(shù)、各省

住宿場所出租率、直銷拒單率,在控制臺按照“省份”名稱升

序排列,打印輸出各城市住宿場所的多項運(yùn)營指標(biāo);

打印語句格式如下:

==省市:A,四星/五星住宿場所數(shù)量為:***===

==省市:A,平均評分為:***===

==省市:B,四星/五星住宿場所數(shù)量為:***===

==省市:B,平均評分為:***===

2)使用Flask框架,結(jié)合Echarts繪制多線雷達(dá)圖,標(biāo)題為各省

份住宿場所綜合情況(字體要求:紅色、加粗、斜體);輸出多

線雷達(dá)圖,將可視化結(jié)果復(fù)制粘貼至對應(yīng)報告中。

模塊E:綜合分析(20分)

假定你為企業(yè)消費(fèi)平臺的管理者,在綜合理解住宿場所業(yè)務(wù)數(shù)據(jù)

的基礎(chǔ)上,通過以上模塊A、B、C、D的相關(guān)結(jié)論,對未來拓展合作

住宿場所方向做出預(yù)測,根據(jù)題目要求進(jìn)行分析,并編寫輸出分析

報告。

根據(jù)上述任務(wù)中的結(jié)論,分析以下內(nèi)容,并編寫分析報告。從住

宿場所分布維度,結(jié)合多省份住宿場所綜合運(yùn)營情況,對企業(yè)消費(fèi)

平臺未來拓展合作住宿場所的方向提出建議。

分析報告要求:

任務(wù)一:通過數(shù)據(jù)及圖示分析原因

結(jié)合平臺相關(guān)數(shù)據(jù)文件,以各省住宿場所出租率和各城市住宿場

所間夜數(shù)的折線圖,對各省住宿場所的運(yùn)營情況進(jìn)行分析,分別以文

字描述和圖例進(jìn)行說明;

任務(wù)二:對通過圖示和計算業(yè)務(wù)分析原因

結(jié)合模塊D可視化分析對某連鎖酒店在不同地區(qū)的酒店出租率的

統(tǒng)計,說明影響酒店出租率的原因可能有哪些?對于提高該連鎖酒店

的出租率,您有哪些建議?分別以文字描述和圖例進(jìn)行說明;

任務(wù)三:對企業(yè)消費(fèi)平臺未來拓展合作建議和意見

對企業(yè)消費(fèi)平臺未來拓展合作住宿場所的方向提出建議(不少于

3條建議);

附錄:補(bǔ)充說明

一、json數(shù)據(jù)格式樣例

{"name":"南京國美家庭旅社公寓南林店","detail":{"SEQ":

"nanjing」O16","國家":"中國","省份":"江蘇","城市":"南京","處

于商圈":"鎖金村地區(qū)玄武湖地區(qū)中山陵景區(qū)","是否為客棧":0,"住宿場

所星級":"二星及其他","業(yè)務(wù)部門":"低星","剩余房間":8,"圖片數(shù)":0,

"住宿場所評分":"1","用戶點(diǎn)評數(shù)":1,"城市平均實住間夜":

"51.701686747","住宿場所總訂單":0,"住宿場所總間夜":0,"住宿場所實

住訂單":0,"住宿場所實住間夜":0,"住宿場所直銷訂單":0,"住宿場所直

銷間夜":0,"住宿場所直銷實住訂單":0,"住宿場所直銷實住間夜":0,"住宿

場所直銷拒單":0,"住宿場所直銷拒單率":null,"城市直銷拒單率":

"0.0282838180927","拒單率是否小于等于直銷城市均值":0,"最低房間價格":

"306"})

二、fastjson-1.2.41.jar常用API(java)

1、實例化

JSONObject();

2、JSON解析包

com.alibaba.fastjson.JSON;

com.alibaba.fastjson.JSONObject;

com.alibaba.fastjson.JSONArray;

com.alibaba.fastjson.JSONException;

3、常用API方法:

1)publicstaticfinalObjectparse(Stringtext);//把JSON文本

parse為JSONObject或者JSONArray

2)publicstaticfinalJSONObjectparseObject(Stringtext);//

把JSON文本parse成JSONObject

3)publicstaticfinalTparseObject(Stringtext,Classclazz);

//把JSON文本parse為JavaBean

4)publicstaticfinalJSONArrayparseArray(Stringtext);//把

JSON文本parse成JSONArray

5)publicstaticfinalListparseArray(Stringtext,Classclazz);

〃把JSON文本parse成JavaBean集合

6)publicstaticfinalStringtoJSONString(Objectobject);//將

JavaBean序列化為JSON文本

7)publicstaticfinalStringtoJSONString(Objectobject,boolean

prettyFormat);//將JavaBean序列化為帶格式的JSON文本

8)publicstaticfinalObjecttoJSON(ObjectjavaObject);將

JavaBean轉(zhuǎn)換為JSONObject或者JSONArrayo

三、fastjsonT.2.41.jar常用API[Spark(scala)l

1、json解析包

com.alibaba.fastjson.JSON

2、常用API

1)實例化:

JSON.parseObject(x)

2)默認(rèn)值:如果該key沒有值默認(rèn)為null:

jsonObject.getOrDefault(key,默認(rèn)值)

jsonObject.getOrDefault("name",

3)獲取該key的value值

jsonObject.get(json的key)

jsonObject.get(“name”)

4)判斷key是否存在

jsonObject.containsKey(key)

5)添加kv鍵值對

jsonObject.put(key,value)

四、控制臺輸出運(yùn)行日志樣例

19/060308:04:21IXFOhandlerContextHandlor:Stoppeds.ServIetContextHandler?10f<ie30aiz.null,UNAVAILABLE)

19/06/0308:01:21INFOhandlerContcxtHuiKiicr:Stoppeds.Sen*letContcxlllandlcr<33836Westatic,nuiUNAVAILABLE;

19/060308:04:21IXFOhandlerConlciilLuxilrr:Stoppeds.Serv1otCentextHand1er#533377bi?rsthreadDuop/jsan,nulI.IAAVAIIABII

197060308:0-1:21INFOhandlerContcxtHandlcr:Stoppeds.Sen,letContcxtHandlcr<J119a20u6executors11hreadDu^j,null.IXAVAlLABLEl

19/060308:04:21INFOhandlerGxitcxtlhndler:Stoppeds.ScrvletContcxtHandlcr<67389cb8executors'.ison,null.VNAVAILABLE)

⑼06,0308:01:21INFOhandierCentextflandier:Sloppeds.Scrv!ctContextlhndlcrt65aa6596executors,null,I^AVAIIABIJr

19/06/0308:04:21INFOhandlerContextHandler:Stoppeds.ScrvlctContcxUhndlcrt2c7d121c:environnent/json.null,UNAVAILABLE;

19/06.0308:04:21ISFOhandlerContext(landIer;Sloppeds.SeivIrtGMItrxillmxiIert34625ccd;,/cnvironnrnt.null.(NAVAILABIE)

19/06,0308:04:21INFOhandlerContextHiindler:Stoppeds.SenletContextliiindier#7e3f95fe-storage-rdd/json.null,UNAVAILABLE)

19,06/0308:04:21INFOhandlerContcxtHandlcr:Slurpeds.Serv1clContextHandIcr*24bdb479!/storaKc/rdd.nullUNAVAILABLE:

19/060308:04:21INFOhandlerContextlldiNller:Stoppeds.ServIetCi>ntexiH.trjdIer27b5f92;orage/jsan.null.CNAVAUJUil.E

19/06/0308:04:21INFOhandierConlextHiindlcr:Stoppeds.ServletContextlhndlcrtlddac9b5stor?Rc,null.VNAVAIUBLEf

19,060308:04:21IXFOiwndlerContextlhiKlIvr:Stoppeds.ServletC(Mitextll??ndier€42f3l56d;st8ses/p?MU/js<m,null.^AVAILABLE)

19/06/0308:04:21IMPhandlerConlexIHandIer:Stoppeds.SenletContextHiindlertld7f7be7Vstages/pool.nulI.lWA

⑼060308:04:2!INFOhandierCootexlHindIer:Sloppeds.Sen'Iet('<>nte11ILindIcr0586013d7stnges/stage,json,nulI.UNAVAILABLE)

⑼06/0308:04:21IXFOhandlerContext而ndier:Stoppeds.ServlelContextlhndler06a66a2O4st?ses/stage.null,15AVAHABLE}

19/06/0308:04:21IXFOhandlerCentextHandior:StoppedO.S.3?s.Scn,letContcxtilandlcrtllcSTbOb;/stagesjson,null.INAVAILWLE

19.Wk0308:04:21IXFOhandlerfontex(Handier:SloppedQ.&s.ServletContextHanciJcr<Me5l7l651/stages,null,INAVA1I.ABLE.)

19/06/0308:04:21IXFOhandlerCentex【Hand!er:Stoppeds.ScnIeiCa)textHiindlert2cb3d0f7:jobs,/job/json,nulI.LKAVAILABLE

19/06/0308:04:21INFOhandlerConlcxtllandlcr:Sloppeds.Sen11etContcxlIlandlcrt2c10177-1'/jobs/job,null,I'NAVAll^BU:

19/06/0308:04:2!IXFOhandlerContextILudler:Stoppeds.ServletContextILindlcr96f0ca692,jobs/json,null,mVAIUBlf1

19/06.0308:04:21IXFOhandlerContextHandhr:s.ScrvlctContcxtHandlcrtMba534bOjobs,nuH.lNAYAILABLE}

五、方差、均方根差的定義

1、方差MSE:概率論中方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的

偏離程度。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均

數(shù)之差的平方值的平均數(shù)。

2、均方根差RMSE:均方根誤差,是觀測值與真值偏差的平方和觀測次數(shù)n比值

的平方根。RMSE是計算觀測值與其真值,或者觀測值與其模擬值之間的偏

差。

六、間夜定義

間夜又稱間夜數(shù),是住宿場所在某個時間段內(nèi),房間出租率的計算單位。例

如20間房入住2晚,為40間夜數(shù)。

七、出租率計算公式

出租率=當(dāng)月發(fā)生的總間夜數(shù)/當(dāng)月所能提供的總房間數(shù)

八、線性回歸預(yù)測數(shù)據(jù)源data_accommodation_mult.csv

字段名

SEQ、省份、城市、商圈、是否為客棧、星級、房間數(shù)、評論數(shù)、平均評分?jǐn)?shù)、

城市平均間夜、住宿場所總訂單、住宿場所總間夜、住宿場所實住訂單、住宿場

所實住間夜、住宿場所直銷訂單、住宿場所直銷實住訂單、住宿場所直銷間夜、

住宿場所直銷實住間夜、城市直銷拒單、城市直銷拒單率、住宿場所企業(yè)消費(fèi)平

臺實住訂單

九、數(shù)據(jù)可視化表字段說明

表radar_lines

province省份

accommodation_num住宿場所數(shù)

avg_score平均分

comment_num評論數(shù)

lease_rate出租率

direno_rate直銷率

表platformrate

accommodationname住宿場所名稱

provice省份

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論