2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項(xiàng)賽題)_第1頁(yè)
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項(xiàng)賽題)_第2頁(yè)
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項(xiàng)賽題)_第3頁(yè)
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項(xiàng)賽題)_第4頁(yè)
2021高職 大數(shù)據(jù)技術(shù)與應(yīng)用 任務(wù)書4(賽項(xiàng)賽題)_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2021年全國(guó)職業(yè)院校技能大賽

高職組

“大數(shù)據(jù)技術(shù)與應(yīng)用”

賽項(xiàng)賽卷(GZ-xxxxxxx-X卷)

務(wù)

參賽隊(duì)編號(hào):

背景描述

據(jù)央視財(cái)經(jīng)報(bào)道,2020年我國(guó)020市場(chǎng)規(guī)模突破萬(wàn)億元,020市

場(chǎng)存在著巨大的潛力。特別是餐飲和外賣行業(yè),占據(jù)市場(chǎng)較大份額,

并且業(yè)務(wù)增長(zhǎng)迅速。截至2020年底,全國(guó)外賣總體訂單量已超過(guò)

171.2億單,同比增長(zhǎng)7.5%,全國(guó)外賣市場(chǎng)交易規(guī)模達(dá)到8352億元,

同比增長(zhǎng)14.8%o我國(guó)外賣用戶規(guī)模已接近5億人,其中80后、90

后是餐飲外賣服務(wù)的中堅(jiān)消費(fèi)力量,消費(fèi)者使用餐飲外賣服務(wù)也不再

局限于傳統(tǒng)的一日三餐,下午茶和夜宵逐漸成為消費(fèi)者的外賣新寵。

為把握這一商業(yè)機(jī)遇,ChinaSkills公司計(jì)劃進(jìn)駐外賣平臺(tái)市場(chǎng),現(xiàn)

需對(duì)大規(guī)模成熟外賣平臺(tái)進(jìn)行詳細(xì)評(píng)估調(diào)研,采集多方多維度數(shù)據(jù),

尋找行業(yè)痛點(diǎn),摸清市場(chǎng)需求,以技術(shù)為手段為投資保駕護(hù)航。

為完成該項(xiàng)工作,你所在的小組將應(yīng)用大數(shù)據(jù)技術(shù),以Python、

Java、Scala作為整個(gè)項(xiàng)目的基礎(chǔ)開發(fā)語(yǔ)言,基于大數(shù)據(jù)平臺(tái)綜合利

用MapReduce>Spark、MySQL、Scrapy、Flask、ECharts等,對(duì)數(shù)據(jù)

進(jìn)行獲取、處理、清洗、挖掘、分析、可視化呈現(xiàn),力求實(shí)現(xiàn)對(duì)公司

未來(lái)的重點(diǎn)戰(zhàn)略方向提出建議。

你們作為該小組的技術(shù)人員,請(qǐng)按照下面任務(wù)完成本次工作,并

編制綜合報(bào)告。

模塊A:環(huán)境搭建(15分)

環(huán)境說(shuō)明:

編號(hào)主機(jī)名類型用戶密碼

1master主節(jié)點(diǎn)rootpasswd

2slavel從節(jié)點(diǎn)rootpasswd

3slave2從節(jié)點(diǎn)rootpasswd

補(bǔ)充說(shuō)明:主節(jié)點(diǎn)MySQL數(shù)據(jù)庫(kù)用戶名/密碼:root/Passwordl23$

相關(guān)軟件安裝包在/chinaskills目錄下

所有模塊中應(yīng)用命令必須采用絕對(duì)路徑

任務(wù)一:Hadoop全分布部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置前置環(huán)境。

命令中要求使用絕對(duì)路徑,具體部署要求如下:

1、將/chinaskills下的JDK包解壓到/usr/local/src路徑,將完整命令復(fù)制

粘貼到對(duì)應(yīng)報(bào)告中;

2、修改/root/.bash_profile文件,設(shè)置JDK環(huán)境變量,并使環(huán)境變量只對(duì)當(dāng)

前root用戶生效將環(huán)境變量配置內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

3、從master復(fù)制上面步驟配置的JDK環(huán)境變量文件到slavel、slave2節(jié)點(diǎn),

命令和結(jié)果復(fù)制粘貼在對(duì)應(yīng)報(bào)告中;

4、配置SSH密鑰登錄,實(shí)現(xiàn)從master登錄到slavel,將登錄命令和結(jié)果復(fù)制

粘貼在對(duì)應(yīng)報(bào)告中;

5、根據(jù)要求修改Hadoop相關(guān)文件(hadoop-env.sh,core-site,xml,

hdfs-site.xml,mapred-site.xml、yarn-site,xml),并初始化Hadoop。

1)將配置文件hadoop-env.sh變更內(nèi)容復(fù)制粘貼在對(duì)應(yīng)報(bào)告中;

2)將配置文件core-site.xml變更內(nèi)容復(fù)制粘貼在對(duì)應(yīng)報(bào)告中;

3)初始化Hadoop環(huán)境,將命令及結(jié)果復(fù)制粘貼在對(duì)應(yīng)報(bào)告中;

6、查看master及slavel節(jié)點(diǎn)jps進(jìn)程,將其命令及結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告

中。

任務(wù)二:Sqoop部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體部署要求如下:

1、解壓/chinaskills路徑下的Sqoop安裝包到/usr/local/src路徑下,并使

用相關(guān)命令,修改解壓后文件夾名為sqoop,進(jìn)入sqoop文件夾,并將查看

內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

2、修改Sqoop環(huán)境變量,并使環(huán)境變量只對(duì)當(dāng)前root用戶生效;具體任務(wù)要

求:修改基于當(dāng)前用戶root的環(huán)境變量,將環(huán)境變量配置內(nèi)容復(fù)制粘貼至

對(duì)應(yīng)報(bào)告中;

3、修改并配置sqoop-env.sh文件,將命令及結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

4、測(cè)試Sqoop連接MySQL數(shù)據(jù)庫(kù)是否成功,將命令及結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告

中。具體任務(wù)要求:使用sqoop命令連接MySQL數(shù)據(jù)庫(kù),查詢MySQL中所有

數(shù)據(jù)庫(kù)名稱,將命令及結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中;

任務(wù)三:Hive部署管理

本環(huán)節(jié)需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要配置前置環(huán)

境,具體部署要求如下:

1、將指定路徑下的Hive安裝包解壓到(/usr/local/src)下,使用絕對(duì)路徑,

將命令復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

2,把解壓后的apache-hive-1.1.0-bin文件夾更名為hive;進(jìn)入hive文件夾,

并將查看命令及結(jié)果復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

3、設(shè)置Hive環(huán)境變量,并使環(huán)境變量只對(duì)當(dāng)前root用戶生效;并將環(huán)境變量

配置內(nèi)容復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

4、將Hive安裝目錄里hive-default,xml.template文件更名為hive-site,xml;

并將更改命令復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

5、通過(guò)VI編輯器配置hive-site,xml文件,將MySQL數(shù)據(jù)庫(kù)作為Hive元數(shù)據(jù)

庫(kù)。將配置文件Hive元存儲(chǔ)相關(guān)內(nèi)容復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中;

6、初始化Hive元數(shù)據(jù),將MySQL數(shù)據(jù)庫(kù)JDBC驅(qū)動(dòng)拷貝到Hive安裝目錄的lib

文件夾下;并通過(guò)schematool執(zhí)行初始化,將初始化結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)

告中;

7、啟動(dòng)Hive并保存命令輸出結(jié)果,將結(jié)果輸出復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

模塊B:數(shù)據(jù)采集與處理(20分)

項(xiàng)目背景說(shuō)明

1、查看餐飲外送統(tǒng)計(jì)平臺(tái)網(wǎng)站源碼結(jié)構(gòu)。

1)打開網(wǎng)站,在網(wǎng)頁(yè)中右鍵點(diǎn)擊檢查,或者F12快捷鍵,查看

源碼頁(yè)面;

2)檢查網(wǎng)站:瀏覽網(wǎng)站源碼查看所需內(nèi)容。

2、從餐飲外送統(tǒng)計(jì)平臺(tái)中采集需要數(shù)據(jù),按照要求使用Python語(yǔ)言

編寫代碼工程,獲取指定數(shù)據(jù)項(xiàng),并對(duì)結(jié)果數(shù)據(jù)集進(jìn)行必要的數(shù)

據(jù)處理。請(qǐng)將符合任務(wù)要求的結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

具體步驟如下:

1)創(chuàng)建工程工程項(xiàng)目:C:\food_delivery

2)構(gòu)建采集請(qǐng)求

3)按要求定義相關(guān)字段

4)獲取有效數(shù)據(jù)

5)將獲取到的數(shù)據(jù)保存到指定位置

6)對(duì)數(shù)據(jù)集進(jìn)行基礎(chǔ)的數(shù)據(jù)處理

至此已從餐飲外送統(tǒng)計(jì)平臺(tái)中獲取所需數(shù)據(jù),并完成了必要的基

礎(chǔ)的數(shù)據(jù)處理。

3、自行創(chuàng)建Scrapy工程項(xiàng)目food_delivery,路徑為C:\

food_delivery按照任務(wù)要求從餐飲外送統(tǒng)計(jì)平臺(tái)中獲取數(shù)據(jù)。

提取“商戶數(shù)據(jù)”頁(yè)面相關(guān)字段(包括平臺(tái)餐廳ID、餐廳名稱、

城市等全部有效數(shù)據(jù)項(xiàng)),保存至文件restaurant_data.json;

再提取“配送平臺(tái)灰測(cè)維度數(shù)據(jù)”頁(yè)面相關(guān)數(shù)據(jù)(包括餐廳名稱、

城市、營(yíng)業(yè)時(shí)長(zhǎng)等全部字段)保存至文件grey_test.json。

4、每條數(shù)據(jù)記錄請(qǐng)以單獨(dú)一行保存,信息存儲(chǔ)格式為key:value。

文件保存路徑為:C:\outputo

示例:

{firrest._i,dj:n*.*.*.n,irrest._namen:ir*,*,*,ir,....)],

{fIIrest,_i,dJH:IF*..*.*IF,IFrest._nameII:It*.*,*,,...)],

5、任務(wù)中要求將“以下內(nèi)容及答案完整復(fù)制粘貼至對(duì)應(yīng)報(bào)告中

粘貼到對(duì)應(yīng)報(bào)告中的內(nèi)容示例如下:

配送范圍審核相關(guān)數(shù)據(jù)頁(yè)數(shù)為:100

灰度數(shù)據(jù)對(duì)比相關(guān)數(shù)據(jù)頁(yè)數(shù)為:100

任務(wù)一:爬取指定數(shù)據(jù)頁(yè)面

自行創(chuàng)建Scrapy工程編寫爬蟲代碼,爬取“P0I數(shù)據(jù)”頁(yè)面與“灰度數(shù)據(jù)對(duì)

比”頁(yè)面相關(guān)數(shù)據(jù),通過(guò)爬蟲代碼分頁(yè)爬取,以合理的程序邏輯判斷相關(guān)數(shù)據(jù)包

含的頁(yè)數(shù)并將一下內(nèi)容及答案完整復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

示例格式:

P0I數(shù)據(jù)的頁(yè)數(shù)為:

灰度數(shù)據(jù)對(duì)比相關(guān)數(shù)據(jù)的頁(yè)數(shù)為:

任務(wù)二:爬取數(shù)據(jù)至指定文件

運(yùn)行代碼,爬取網(wǎng)頁(yè)數(shù)據(jù)至指定文件。查看文件并填寫采集到的記錄條數(shù),

并將答案復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

示例格式:

POI.json的行數(shù)為:

grey_value.json的行數(shù)為:

任務(wù)三:各商家“30天銷量’數(shù)據(jù)處理

POLjson文件中,“商家id”字段值重復(fù)的樣本,請(qǐng)以多條樣本記錄的“30

天銷量”屬性均值作為該屬性的值,并刪除多余樣本。請(qǐng)?jiān)赑yCharm控制臺(tái)打印

輸出刪除的樣本條數(shù),并將打印語(yǔ)句復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

示例格式:

===因重復(fù)樣本記錄,刪除樣本條數(shù)為***條===

任務(wù)四:數(shù)據(jù)探索

針對(duì)爬取的grey_value數(shù)據(jù),利用DataFrame.describe方法探索數(shù)據(jù)基本

情況,將數(shù)據(jù)基本情況復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

任務(wù)五:缺失值統(tǒng)計(jì)

針對(duì)缺失值較多的屬性“推單數(shù)-8日”,“有效完成率-8日”,“超時(shí)率-8日”,

請(qǐng)分別計(jì)算下列任務(wù),并將正確結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

(1)屬性”推單數(shù)-8日''空值記錄條數(shù)為:,中位數(shù)為:。

(2)屬性''有效完成率-8日”空值記錄條數(shù)為:,平均值為:。

(3)屬性“超時(shí)率-8日”空值記錄條數(shù)為:,平均值為:。

(4)請(qǐng)根據(jù)計(jì)算結(jié)果,對(duì)數(shù)據(jù)集中存在空值的字段進(jìn)行填充。查看填充后的數(shù)

據(jù)集前5條記錄,將查看結(jié)果復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

任務(wù)六:日志輸出

將Scrapy日志(日志等級(jí)設(shè)置為INFO)以時(shí)間命名輸出至路徑:C:\

food_delivery\output,并將日志內(nèi)容復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

模塊C:數(shù)據(jù)清洗、分析與挖掘(25分)

項(xiàng)目背景說(shuō)明

餐飲外賣平臺(tái)的核心價(jià)值體現(xiàn)在配送,而配送的價(jià)值則依賴于商

家與客戶的雙向選擇。外賣平臺(tái)通常會(huì)通過(guò)內(nèi)容激活消費(fèi)者和商家兩

個(gè)群體的活躍度。消費(fèi)者會(huì)參考平臺(tái)展示的內(nèi)容選擇商家,商家也會(huì)

以消費(fèi)者評(píng)價(jià)與平臺(tái)統(tǒng)計(jì)數(shù)據(jù)為依據(jù)調(diào)整策略,由此再吸引更多的用

戶下單、評(píng)論、形成正向循環(huán)。保證配送的時(shí)效與品質(zhì)是從優(yōu)化用戶

體驗(yàn)的角度,吸引更多的用戶參與,進(jìn)而帶動(dòng)商家不斷入駐。由此,

商家、消費(fèi)者、騎手在平臺(tái)上形成越來(lái)越多的真實(shí)可靠的數(shù)據(jù),幫助

消費(fèi)者更好的做出消費(fèi)決策,同時(shí)促進(jìn)商家提高服務(wù)質(zhì)量。而平臺(tái)通

過(guò)數(shù)據(jù),不斷調(diào)整優(yōu)化服務(wù),從而不斷提升這種多邊網(wǎng)絡(luò)效應(yīng)。提升

網(wǎng)絡(luò)效應(yīng)的直接結(jié)果就是用戶和商家規(guī)模大幅提升,進(jìn)而形成規(guī)模效

應(yīng)一一降低獲客成本、提高效益,并且不斷提升自己的行業(yè)壁壘。

為探索各大外賣平臺(tái)的市場(chǎng)策略與經(jīng)營(yíng)模式,現(xiàn)已從及平臺(tái)獲取

到了原始數(shù)據(jù)集,包含“id,request_id,walle_id,retailer_id,

retailer_name,retailer_address,etailer_location,city_id,

city_name,grid_id,carrier_id,team_id,applicant_id,

applicant_name,first_auditor_role,

first_auditor_candidate_ids,first_auditor_id,

first_auditor_name,second_auditor_ro1e,

second_auditor_candidate_ids,second_auditorpid,

second_auditor_name,status,max_distance_before_edit,

min_distance_before_edit,max_distance_after_edit,

min_distance_after_edit,area_before_edit,area_after_edit,

created_at,updated_at,申請(qǐng)時(shí)間,創(chuàng)建時(shí)間”等字段,為保障用

戶隱私和行業(yè)敏感信息,已經(jīng)對(duì)數(shù)據(jù)脫敏。數(shù)據(jù)脫敏是指對(duì)某些敏感

信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。

在涉及客戶安全數(shù)據(jù)或一些商業(yè)性敏感數(shù)據(jù)的情況下,對(duì)真實(shí)數(shù)據(jù)進(jìn)

行改造并提供測(cè)試使用,如身份證號(hào)、手機(jī)號(hào)等個(gè)人敏感信息都需要

進(jìn)行數(shù)據(jù)脫敏。本題已將脫敏后的數(shù)據(jù)存放于平臺(tái)對(duì)應(yīng)任務(wù)

/chinaskills目錄下。工程所需配置文件pom.xml存放于"C:\清洗

配置文件”。任務(wù)中所有命令務(wù)必使用絕對(duì)路徑。

任務(wù)一:數(shù)據(jù)清洗

子任務(wù)1

任務(wù)背景:

數(shù)據(jù)源為眾多網(wǎng)站及平臺(tái)的數(shù)據(jù)匯總,且為多次采集的結(jié)果,在整合多來(lái)源

數(shù)據(jù)時(shí)可能遇到數(shù)據(jù)沖突,或數(shù)據(jù)拼接導(dǎo)致的屬性列矛盾或冗余等情況。請(qǐng)根據(jù)

任務(wù)具體參數(shù)要求,針對(duì)原始數(shù)據(jù)集進(jìn)行清洗,并寫入指定的數(shù)據(jù)庫(kù)或數(shù)據(jù)文件,

復(fù)制并保存結(jié)果。

任務(wù)描述:

相關(guān)數(shù)據(jù)源文件存放于平臺(tái)對(duì)應(yīng)任務(wù)/chinaskills目錄下,請(qǐng)參考模塊C

中列舉的各項(xiàng)字段,按照如下要求編寫Spark程序?qū)?shù)據(jù)進(jìn)行清洗,并將結(jié)果輸

出/diliveryoutputl。

1)分析/chinaskills/中數(shù)據(jù)文件

2)查看屬性字段數(shù)量異常數(shù)據(jù)條目

3)程序打包并在Spark平臺(tái)運(yùn)行,結(jié)果輸出至HDFS文件系統(tǒng)

/diliveryoutputl

具體任務(wù)要求:

1、將相關(guān)文件上傳至HDFS新建目錄/platform_data中,編寫Spark程序,剔

除屬性列與首行屬性名稱個(gè)數(shù)不相符的數(shù)據(jù)條目,并在程序中以打印語(yǔ)句輸出異

常條數(shù)。將打印輸出結(jié)果復(fù)制并保存至對(duì)應(yīng)報(bào)告中。(復(fù)制內(nèi)容需包含打印語(yǔ)句

輸出結(jié)果的上下各5行運(yùn)行日志)。

示例格式:

===屬性列數(shù)目異常數(shù)據(jù)條數(shù)為***條===

2、程序打包并在Spark平臺(tái)運(yùn)行,將剔除異常數(shù)據(jù)后的結(jié)果數(shù)據(jù)集輸出至HDFS

文件系統(tǒng)/diliveryoutputl。并查看輸出文件前10行,將查看命令與執(zhí)行結(jié)果

復(fù)制粘貼至對(duì)應(yīng)報(bào)告中。

子任務(wù)2

任務(wù)背景:

數(shù)據(jù)的維數(shù)是指數(shù)據(jù)具有的特征數(shù)量,數(shù)據(jù)特征矩陣過(guò)大,將導(dǎo)致計(jì)算量

比較大,訓(xùn)練時(shí)間長(zhǎng)的等問(wèn)題。當(dāng)數(shù)據(jù)存在冗余屬性時(shí),對(duì)多余屬性剔除的過(guò)程,

稱為“數(shù)據(jù)降維”。降維的好處十分明顯,它不僅可以數(shù)據(jù)減少對(duì)內(nèi)存的占用,

還能夠加快學(xué)習(xí)算法的執(zhí)行與收斂。請(qǐng)根據(jù)任務(wù)具體要求,針對(duì)原始數(shù)據(jù)集中可

能存在的冗余屬性進(jìn)行排查,復(fù)制并保存結(jié)果。

任務(wù)描述:

相關(guān)數(shù)據(jù)源文件存放于平臺(tái)/chinaskills,請(qǐng)參考模塊C中列舉的各項(xiàng)字段,

判斷屬性“申請(qǐng)時(shí)間”、“創(chuàng)建時(shí)間”與“createdat"、“updated_at”是否為

重復(fù)屬性。請(qǐng)按照如下要求編寫Spark程序?qū)?shù)據(jù)進(jìn)行清洗,并將結(jié)果輸出

/diliveryoutputlo

1)分析/chinaskills/中數(shù)據(jù)文件

2)排除屬性列“申請(qǐng)時(shí)間”、“創(chuàng)建時(shí)間”與“created_at“、“updateLat”

是否為重復(fù)屬性

3)程序打包并在Spark平臺(tái)運(yùn)行

具體任務(wù)要求:

3、將相關(guān)文件上傳至HDFS新建目錄/platform_data中,查看原始數(shù)據(jù)集條數(shù),

請(qǐng)將查看命令及結(jié)果復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中。

4、如果僅考慮年、月、日數(shù)據(jù),忽略時(shí)刻信息,''申請(qǐng)時(shí)間”、“創(chuàng)建時(shí)間”與

“created_at"、"updated_at"是否為重復(fù)屬性?請(qǐng)編寫Spark程序,并在程

序中以打印語(yǔ)句輸出兩對(duì)屬性對(duì)應(yīng)相等的數(shù)據(jù)條數(shù)。將打印輸出結(jié)果以及你的結(jié)

論復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中。(復(fù)制內(nèi)容需包含打印語(yǔ)句輸出結(jié)果的上下各5行

運(yùn)行日志)。

示例格式:

===兩組屬性同時(shí)相等的數(shù)據(jù)條數(shù)為***條===

結(jié)論:"申請(qǐng)時(shí)間"、“創(chuàng)建時(shí)間"與"created_at"、“updated_at”(是/不是)

重復(fù)屬性。

如果數(shù)據(jù)相等的比例超過(guò)原始數(shù)據(jù)集的90%,則剔除屬性"created_at”與

“updated_at”,并將結(jié)果數(shù)據(jù)集保存至/diliveryoutput2。

任務(wù)二:數(shù)據(jù)挖掘分析

任務(wù)背景:

外賣的配送范圍一般由外賣平臺(tái)的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實(shí)

際情況向平臺(tái)申請(qǐng)修改配送范圍。在申請(qǐng)配送范圍修改時(shí),審核員將考慮實(shí)際道

路限制、綜合運(yùn)力成本、顧客等待時(shí)長(zhǎng)等因素,對(duì)配送范圍變更的申請(qǐng)進(jìn)行考量,

最終做出通過(guò)/拒絕/駁回的結(jié)果判定。一級(jí)審核員通常為該地區(qū)的渠道經(jīng)理,針

對(duì)運(yùn)力等綜合因素對(duì)審核記錄進(jìn)行考量;二級(jí)審核員為外賣平臺(tái)專職審核人員,

將綜合考慮配送范圍的合理性及更改后的用戶體驗(yàn)。考核員的審核具有一定的時(shí)

效要求,審核效率直接影響合作商家平臺(tái)活躍性以及商家的合作體驗(yàn)。下面請(qǐng)根

據(jù)任務(wù)具體要求,分析范圍審核相關(guān)數(shù)據(jù)。

任務(wù)描述:

請(qǐng)根據(jù)你的數(shù)據(jù)清洗4、(任務(wù)數(shù)字)的結(jié)論選擇數(shù)據(jù)源(/diliveryoutputl

或/diliveryoutput2),編寫Spark程序,按照如下要求實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析,并

將結(jié)果輸出至HDFS文件系統(tǒng)中。

1)解析數(shù)據(jù)清洗任務(wù)結(jié)果數(shù)據(jù)集

2)計(jì)算配送范圍申請(qǐng)的審核時(shí)長(zhǎng)

3)分析配送范圍變更幅度對(duì)審核結(jié)果的影響

4)程序打包并在Spark平臺(tái)運(yùn)行,結(jié)果輸出至HDFS文件系統(tǒng)

/diliveryoutput3

具體任務(wù)要求:

1、從審核申請(qǐng)到審核完成的時(shí)間差為一條審核記錄的處理時(shí)長(zhǎng),請(qǐng)編寫Spark

程序,計(jì)算全部申請(qǐng)記錄的平均處理時(shí)長(zhǎng)(單位為分鐘,忽略”秒”級(jí)數(shù)值),

并在程序中以打印語(yǔ)句輸出結(jié)果。將打印輸出結(jié)果復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中。(復(fù)

制內(nèi)容需包含打印語(yǔ)句輸出結(jié)果的上下各5行運(yùn)行日志)。

示例格式:

===平均申請(qǐng)?zhí)幚頃r(shí)長(zhǎng)為***分鐘===

2、為保證用戶體驗(yàn),申請(qǐng)的審批應(yīng)具有時(shí)效性。公司規(guī)定在當(dāng)天18:00前遞交

的范圍審核申請(qǐng),處理時(shí)間應(yīng)在12小時(shí)以內(nèi);在當(dāng)天18:00后遞交的范圍審核

申請(qǐng),應(yīng)在第二天中午12:00前審核完成。請(qǐng)根據(jù)這一標(biāo)準(zhǔn),分別統(tǒng)計(jì)全部數(shù)

據(jù)記錄中,在18:00前/后遞交的申請(qǐng)超時(shí)記錄數(shù),在并在程序中以打印語(yǔ)句輸

出結(jié)果。將打印輸出結(jié)果復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中。(復(fù)制內(nèi)容需包含打印語(yǔ)句

輸出結(jié)果的上下各5行運(yùn)行日志)。

示例格式:

===18:00前遞交申請(qǐng)的記錄中,超時(shí)記錄數(shù)為***條===

===18:00后遞交申請(qǐng)的記錄中,超時(shí)記錄數(shù)為***條===

3、申請(qǐng)前后配送范圍的最大/最小距離標(biāo)識(shí)了商家配送范圍的變更幅度,請(qǐng)統(tǒng)計(jì)

最大配送距離或最小配送距離在申請(qǐng)前后變更幅度超過(guò)以下百分比數(shù)值時(shí):40%、

50%、60%,7096、80%、90%,申請(qǐng)的通過(guò)率分別為多少(百分比數(shù)值保留小數(shù)點(diǎn)

后2位)。請(qǐng)?jiān)诔绦蛑幸源蛴≌Z(yǔ)句輸出結(jié)果,并打印輸出結(jié)果復(fù)制并粘貼至對(duì)應(yīng)

報(bào)告中。(復(fù)制內(nèi)容需包含打印語(yǔ)句輸出結(jié)果的上下各5行運(yùn)行日志)。

示例格式:

==申請(qǐng)后最大或最小配送距離超過(guò)原始距離的40%,審核通過(guò)率為***96==

==申請(qǐng)后最大或最小配送距離超過(guò)原始距離的50%,審核通過(guò)率為***%==

==申請(qǐng)后最大或最小配送距離超過(guò)原始距離的60%,審核通過(guò)率為***%==

==申請(qǐng)后最大或最小配送距離超過(guò)原始距離的70%,審核通過(guò)率為***96==

==申請(qǐng)后最大或最小配送距離超過(guò)原始距離的80%,審核通過(guò)率為***%==

==申請(qǐng)后最大或最小配送距離超過(guò)原始距離的90%,審核通過(guò)率為***%==

4、統(tǒng)計(jì)各商戶的配送范圍面積(請(qǐng)參考申請(qǐng)后配送面積),在以下4個(gè)區(qū)間內(nèi)的

商戶數(shù)及占比(百分比數(shù)值保留小數(shù)點(diǎn)后2位):0^10,000,000(平方米),

10,000,000^20,000,000(平方米),20,000,000^30,000,000(平方米),

30,000,000(平方米)以上。請(qǐng)?jiān)诔绦蛑幸源蛴≌Z(yǔ)句輸出結(jié)果,并打印輸出結(jié)果

復(fù)制并粘貼至對(duì)應(yīng)報(bào)告中。(復(fù)制內(nèi)容需包含打印語(yǔ)句輸出結(jié)果的上下各5行運(yùn)

行日志)。

示例格式:

==配送面積0~1000,0,000(平方米),商家數(shù)為****,占比***96==

==配送面積10,000,000~20,000,000(平方米),商家數(shù)為****,占比***%==

==配送面積20,000,000~30,000,000(平方米),商家數(shù)為****,占比**叔==

==配送面積30,000,000(平方米)以上,商家數(shù)為****,占比***96==

模塊D、數(shù)據(jù)可視化(20分)

MySQL數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)集包含了城市、地點(diǎn)、商家id、網(wǎng)格

id、餐品種類、標(biāo)品屬性等多項(xiàng)基礎(chǔ)信息字段。請(qǐng)使用Flask框架,

結(jié)合Echarts完成下列任務(wù)。

數(shù)據(jù)庫(kù)賬號(hào):takeout密碼:takeout

自行創(chuàng)建代碼工程路徑為:C:\food_dilivery

每個(gè)可視化圖中需要添加圖片作為背景水印。

任務(wù)一:雙柱狀圖呈現(xiàn)審核結(jié)果比例

任務(wù)背景:

外賣的配送范圍一般由外賣平臺(tái)的業(yè)務(wù)人員為商家設(shè)定,商家也可以根據(jù)實(shí)

際情況向平臺(tái)申請(qǐng)修改配送范圍。通常配送范圍并不是毫無(wú)棱角的圓形,因?yàn)檫@

種劃分并沒(méi)有因地制宜,是不合理的。最大配送距離指的是配送范圍中距離商家

最遠(yuǎn)的直線距離,最小配送距離則是配送范圍中距離商家最近的直線距離。在申

請(qǐng)配送范圍修改時(shí),審核員將考慮實(shí)際道路限制、綜合運(yùn)力成本、顧客等待時(shí)長(zhǎng)

等因素,對(duì)配送范圍變更的申請(qǐng)進(jìn)行考量,最終做出通過(guò)/拒絕/駁回的結(jié)果判定。

請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出范圍審核相關(guān)分析圖例。

任務(wù)描述:

請(qǐng)根據(jù)數(shù)據(jù)庫(kù)相關(guān)表格數(shù)據(jù),統(tǒng)計(jì)審核通過(guò)與拒絕的范圍申請(qǐng)記錄數(shù)量,并

以雙柱圖表達(dá)。

具體任務(wù)要求:

1,根據(jù)相關(guān)表格中"id,Request_id,Walle_id,Retailer_id,retailer_name,

retailer_address,etailer_location,City_id,City_name,Grid_id,

Carrier_id,Team_id,Applicant_id,Applicant_name,first_auditor_role,

first_auditor_candidate_ids,first_auditor_id,first_auditor_name,

second_auditor_role,second_auditor_candidate_ids,second_auditor_id,

second_auditor_name,status,max_distance_before_edit,

min_distance_before_edit,max_distance_after_edit,

min_distance_after_edit,area_before_edit,area_after_edit,created_at,

updated_at,申請(qǐng)時(shí)間,創(chuàng)建時(shí)間”等字段,匯總各二級(jí)審核人審批的申請(qǐng)數(shù)量,

并統(tǒng)計(jì)其中通過(guò)與拒絕的條數(shù)。在PyCharm控制臺(tái)打印輸出審核記錄數(shù)最多的

10位審核人id,審批總數(shù),以及其中通過(guò)與拒絕的條數(shù),按審批總數(shù)降序排列。

示例格式:

==1.二級(jí)審核人id:***,審批數(shù)量:***條,其中通過(guò)**條,拒絕**條

==2.二級(jí)審核人id:***,審批數(shù)量:***條,其中通過(guò)**條,拒絕**條

2、使用Flask框架,結(jié)合Echarts,完成雙柱狀圖輸出。要求柱圖標(biāo)題為“審

核通過(guò)與拒絕對(duì)比”,橫坐標(biāo)為審核人id,縱坐標(biāo)為審核記錄數(shù)。畫出審核數(shù)量

最多的10位二級(jí)審核人記錄審批情況,通過(guò)記錄數(shù)以藍(lán)色柱形表示,右側(cè)以紅

色柱形表示拒絕和駁回記錄數(shù),以審批總數(shù)降序排列。將可視化結(jié)果截圖并保存

(截圖需包含瀏覽器地址欄)。

任務(wù)二:餅圖呈現(xiàn)營(yíng)業(yè)區(qū)間商家數(shù)量

任務(wù)背景:

營(yíng)業(yè)時(shí)長(zhǎng)指商戶開市接單到閉市停業(yè)的時(shí)長(zhǎng),適當(dāng)?shù)卦黾訝I(yíng)業(yè)時(shí)長(zhǎng)有利于提

升店鋪的曝光量,同時(shí)能夠在一定程度上獲得平臺(tái)排名加權(quán)。營(yíng)業(yè)時(shí)間長(zhǎng)的店鋪

在特定時(shí)間段(大部分商家關(guān)店休息后)面對(duì)的競(jìng)爭(zhēng)壓力將減小,但增加營(yíng)業(yè)時(shí)

間將增加商家運(yùn)營(yíng)店鋪的人工成本,同時(shí)也需要考慮不同時(shí)間段內(nèi)運(yùn)力不同的情

況,例如有些區(qū)域在晚上12點(diǎn)以后無(wú)法配送。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定

要求,輸出營(yíng)業(yè)時(shí)間相關(guān)分析圖例。

任務(wù)描述:

請(qǐng)根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計(jì)平臺(tái)各商家的營(yíng)業(yè)時(shí)間占比,并餅圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營(yíng)業(yè)時(shí)長(zhǎng),餐廳狀態(tài),

是否托管,總單量,總單量增長(zhǎng)率,有效訂單量,有效訂單增長(zhǎng)率,訂單配送成

功率,超時(shí)訂單率,無(wú)效訂單率,平均預(yù)計(jì)送達(dá)時(shí)長(zhǎng),平均實(shí)際配送時(shí)長(zhǎng),當(dāng)前

配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營(yíng)”等字段,統(tǒng)計(jì)4小時(shí)以內(nèi)、

4飛小時(shí)、6-8小時(shí)、8~12小時(shí)、12小時(shí)以上,5個(gè)區(qū)間段內(nèi)平臺(tái)各商家的營(yíng)業(yè)

時(shí)間占比(區(qū)間取值為前閉后開區(qū)間)。請(qǐng)?jiān)赑yCharm控制臺(tái)以區(qū)間商家數(shù)量降

序打印輸出城市名稱,商家數(shù)量。

示例格式:

==區(qū)間”4小時(shí)以內(nèi)”,商家***個(gè)===

==區(qū)間”4~6小時(shí)”,商家***個(gè)===

2、使用Flask框架,結(jié)合Echarts,完成餅圖輸出。標(biāo)題為“各營(yíng)業(yè)區(qū)間商家

數(shù)量對(duì)比”,順時(shí)針顯示次序與打印語(yǔ)句數(shù)據(jù)一致。將可視化結(jié)果截圖并保存(截

圖需包含瀏覽器地址欄)。

任務(wù)三:柱狀圖呈現(xiàn)超時(shí)訂單率

任務(wù)背景:

網(wǎng)格化營(yíng)銷是近年來(lái)新興的一種營(yíng)銷管理模式,已被廣泛地運(yùn)用于市場(chǎng)精準(zhǔn)

營(yíng)銷。在市場(chǎng)營(yíng)銷中,采取地圖營(yíng)銷、網(wǎng)格管理、精準(zhǔn)策略等,可將客戶的心理

需求與其日常生活緊密地聯(lián)系起來(lái),巧妙運(yùn)用網(wǎng)格化管理和營(yíng)銷地圖,以此來(lái)實(shí)

現(xiàn)客戶的營(yíng)銷精準(zhǔn)度與價(jià)值提升,提高單一客戶貢獻(xiàn)值和營(yíng)銷效率。其核心旨在

幫助企業(yè)快速響應(yīng)市場(chǎng)需求,為用戶提供更加便捷的、專業(yè)化服務(wù),并使企業(yè)的

資源分配以客戶為中心,以市場(chǎng)變化為導(dǎo)向,固本強(qiáng)基、開拓市場(chǎng)、提升效益,

有助于平臺(tái)有效地制定績(jī)效戰(zhàn)略。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,輸出分

析圖例。

任務(wù)描述:

請(qǐng)根據(jù)相關(guān)表格數(shù)據(jù),參考字段同可視化2、(題號(hào)數(shù)字),統(tǒng)計(jì)平均超時(shí)訂

單率前10名的網(wǎng)格,并柱圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營(yíng)業(yè)時(shí)長(zhǎng),餐廳狀態(tài),

是否托管,總單量,總單量增長(zhǎng)率,有效訂單量,有效訂單增長(zhǎng)率,訂單配送成

功率,超時(shí)訂單率,無(wú)效訂單率,平均預(yù)計(jì)送達(dá)時(shí)長(zhǎng),平均實(shí)際配送時(shí)長(zhǎng),當(dāng)前

配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營(yíng)”等字段,統(tǒng)計(jì)平均超時(shí)訂

單率前10名的網(wǎng)格名稱及平均超時(shí)訂單率,并在PyCharm控制臺(tái)以平均超時(shí)訂

單率降序打印輸出。

示例格式:

==1.網(wǎng)格名稱:***,平均超時(shí)訂單率**%===

==2.網(wǎng)格名稱:***,平均超時(shí)訂單率**%===

2、使用Flask框架,結(jié)合Echarts,完成柱狀圖輸出。標(biāo)題為“超時(shí)訂單率排

名”,柱狀圖次序與打印語(yǔ)句數(shù)據(jù)一致。將可視化結(jié)果截圖并保存(截圖需包含

瀏覽器地址欄)。

任務(wù)四:組圖(多條形圖)呈現(xiàn)各城市外賣行業(yè)現(xiàn)狀

任務(wù)背景:

近年來(lái),我國(guó)外賣行業(yè)發(fā)展迅速,互聯(lián)網(wǎng)餐飲外賣市場(chǎng)規(guī)模逐漸擴(kuò)大,外賣

平臺(tái)已覆蓋全國(guó)所有省份。2019全年外賣交易超7274億元,截至2020年3月,

我國(guó)網(wǎng)上外賣及手機(jī)網(wǎng)上外賣用戶滲透率已達(dá)44機(jī)2020年底,全國(guó)外賣總體訂

單量已超過(guò)171.2億單。為了解外賣行業(yè)在各城市發(fā)展情況,請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,

按任務(wù)指定要求,輸出分析圖例。

任務(wù)描述:

請(qǐng)根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計(jì)各城市外賣行業(yè)發(fā)展情況,并組圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考“餐廳id,餐廳名稱,所屬城市,營(yíng)業(yè)時(shí)長(zhǎng),餐廳狀態(tài),

是否托管,總單量,總單量增長(zhǎng)率,有效訂單量,有效訂單增長(zhǎng)率,訂單配送成

功率,超時(shí)訂單率,無(wú)效訂單率,平均預(yù)計(jì)送達(dá)時(shí)長(zhǎng),平均實(shí)際配送時(shí)長(zhǎng),當(dāng)前

配送面積,面積變更值,網(wǎng)格id,網(wǎng)格名稱,戰(zhàn)營(yíng)”等字段,統(tǒng)計(jì)各城市商家

總數(shù)前10名的城市名稱、商家數(shù)量、以及該城市商家平均營(yíng)業(yè)時(shí)長(zhǎng),并在PyCharm

控制臺(tái)以商家數(shù)量降序打印輸出。

示例格式:

==1.城市:***,商家數(shù)量:***個(gè),平均營(yíng)業(yè)時(shí)長(zhǎng)平***分鐘===

==2.城市:***,商家數(shù)量:***個(gè),平均營(yíng)業(yè)時(shí)長(zhǎng)平***分鐘===

2、使用Flask框架,結(jié)合Echarts,完成組圖輸出。組圖左側(cè):縱坐標(biāo)為城市

名稱,橫坐標(biāo)為商家數(shù)量的條形圖,標(biāo)題為“各城市商家數(shù)量ToplO”;組圖右

側(cè):商家數(shù)量前10名的各城市商家平均營(yíng)業(yè)時(shí)間。圖形展示順序與1)(任務(wù)數(shù)

字編號(hào))打印語(yǔ)句一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

任務(wù)五:組圖(柱狀圖、玫瑰圖)呈現(xiàn)投訴情況

任務(wù)背景:

投訴是顧客對(duì)平臺(tái)管理和服務(wù)不滿的表達(dá)方式,也是企業(yè)有價(jià)值的信息來(lái)源,

它為企業(yè)探索更多可能。分析顧客投訴的種種因素,把顧客的不滿轉(zhuǎn)化滿意,鎖

定他們對(duì)平臺(tái)和產(chǎn)品的忠誠(chéng),已成為企業(yè)營(yíng)銷實(shí)踐的重要內(nèi)容之一。商戶業(yè)務(wù)包

是指該商戶在經(jīng)營(yíng)定位時(shí)所確定的主要消費(fèi)群體。不同城市消費(fèi)群占比不同,大

致可以分為大客戶,白領(lǐng),小客戶,高校,家庭,其它六個(gè)商業(yè)業(yè)務(wù)包。請(qǐng)根

據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計(jì)并輸出城市商戶業(yè)務(wù)包與投訴相關(guān)的分析

圖例。

任務(wù)描述:

請(qǐng)根據(jù)相關(guān)數(shù)據(jù)庫(kù)表格,統(tǒng)計(jì)不同城市的商業(yè)業(yè)務(wù)包組成,并以雙餅圖表達(dá)。

程序輸出及可視化輸出時(shí)請(qǐng)使用商戶業(yè)務(wù)包中文釋義,中文釋義對(duì)應(yīng)關(guān)系如表1

所示。

字母縮寫中文釋義

GKA大客戶

BL白領(lǐng)

SIG小客戶

GX高效

FML家庭

OTH其他

表1商戶業(yè)務(wù)包中文釋義

具體任務(wù)要求:

1、根據(jù)相關(guān)數(shù)據(jù)庫(kù)表格,參考“餐廳id,retailer_id,餐廳名稱,城市,商

戶業(yè)務(wù)包,配送范圍,客單價(jià),推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常

率,欺詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常

數(shù),整體時(shí)長(zhǎng),接單時(shí)長(zhǎng),到店時(shí)長(zhǎng),取餐時(shí)長(zhǎng),送達(dá)時(shí)長(zhǎng),商戶投訴數(shù),用戶

投訴數(shù),差評(píng)數(shù),好評(píng)數(shù),評(píng)價(jià)數(shù),最遠(yuǎn)訂單距離,該訂單整體時(shí)效,該訂單接

單時(shí)效,該訂單到店時(shí)效,該訂單取餐時(shí)效,該訂單送達(dá)時(shí)效,該訂單評(píng)價(jià)”等

字段,統(tǒng)計(jì)北京地區(qū)各商戶業(yè)務(wù)包的商家數(shù)量,同時(shí),按業(yè)務(wù)包統(tǒng)計(jì)客戶投訴數(shù),

并在PyCharm控制臺(tái)打印輸出,以商家數(shù)量降序排列。

示例格式:

==北京:1.商戶業(yè)務(wù)包:***,商家數(shù)量:***家,投訴***條記錄===

==北京:2.商戶業(yè)務(wù)包:***,商家數(shù)量:***家,投訴***條記錄===

2、使用Flask框架,結(jié)合Echarts,完成組圖輸出。組圖左側(cè):橫坐標(biāo)為商戶

業(yè)務(wù)包名稱,縱坐標(biāo)為該業(yè)務(wù)包所包含的商家數(shù)量,標(biāo)題為“北京地區(qū)各商戶業(yè)

務(wù)部商家數(shù)量”的柱形困;組圖右側(cè):各商戶業(yè)務(wù)包投訴占比的玫瑰圖,圖形各

部分顯示次序與打印語(yǔ)句數(shù)據(jù)一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽

器地址欄)。

任務(wù)六:柱狀堆疊圖呈現(xiàn)業(yè)務(wù)包評(píng)價(jià)組成

任務(wù)背景:

在外賣平臺(tái)中,用戶的評(píng)論具有雙向影響。不僅可以促進(jìn)商家根據(jù)消費(fèi)者評(píng)

價(jià)調(diào)整自己的經(jīng)營(yíng)策略,也能夠影響其他用戶的下單率。相關(guān)數(shù)據(jù)顯示,瀏覽評(píng)

價(jià)的用戶比只瀏覽門店商品的用戶下單轉(zhuǎn)化率平均高出25隊(duì)因此,商家的店鋪

評(píng)論對(duì)提高下單率是十分重要的。請(qǐng)根據(jù)相關(guān)數(shù)據(jù)集,按任務(wù)指定要求,統(tǒng)計(jì)并

輸出評(píng)價(jià)相關(guān)的分析圖例。

任務(wù)描述:

請(qǐng)根據(jù)相關(guān)表格數(shù)據(jù),統(tǒng)計(jì)各商戶業(yè)務(wù)包評(píng)價(jià)情況,并柱狀堆疊圖呈現(xiàn)。

具體任務(wù)要求:

1、根據(jù)相關(guān)表格,參考''餐廳id,retailer_id,餐廳名稱,城市,商戶業(yè)務(wù)

包,配送范圍,客單價(jià),推單數(shù),接單數(shù),有效完成單數(shù),投訴率,異常率,欺

詐單數(shù),拒單數(shù),商戶取消數(shù),客戶取消數(shù),系統(tǒng)取消數(shù),配送取消異常數(shù),整

體時(shí)長(zhǎng),接單時(shí)長(zhǎng),到店時(shí)長(zhǎng),取餐時(shí)長(zhǎng),送達(dá)時(shí)長(zhǎng),商戶投訴數(shù),用戶投訴數(shù),

差評(píng)數(shù),好評(píng)數(shù),評(píng)價(jià)數(shù),最遠(yuǎn)訂單距離,該訂單整體時(shí)效,該訂單接單時(shí)效,

該訂單到店時(shí)效,該訂單取餐時(shí)效,該訂單送達(dá)時(shí)效,該訂單評(píng)價(jià)”等字段,統(tǒng)

計(jì)各商戶業(yè)務(wù)包非好評(píng)數(shù)、好評(píng)數(shù),并在PyCharm控制臺(tái)以評(píng)價(jià)總數(shù)降序打印輸

出。

示例格式:

==1商戶業(yè)務(wù)包:***,非好評(píng)數(shù):***條,好評(píng)數(shù):***條===

==1商戶業(yè)務(wù)包:***,非好評(píng)數(shù):***條,好評(píng)數(shù):***條===

2、使用Flask框架,結(jié)合Echarts,完成柱狀堆疊圖輸出。橫坐標(biāo)為商戶業(yè)務(wù)

包名稱(中文釋義),縱坐標(biāo)為評(píng)論數(shù)量,標(biāo)題為“各業(yè)務(wù)包評(píng)價(jià)組成”,柱圖下

方為好評(píng)數(shù)(紅色),上方堆疊非好評(píng)數(shù)(黑色),展示順序與1)(任務(wù)數(shù)字編

號(hào))打印語(yǔ)句一致,將可視化結(jié)果截圖并保存(截圖需包含瀏覽器地址欄)。

模塊E:綜合分析(20分)

通過(guò)模塊B的網(wǎng)站分析及數(shù)據(jù)爬取、模塊C的數(shù)據(jù)清洗與分析及

模塊D的可視化呈現(xiàn),我們已經(jīng)清晰的了解了餐飲外賣平臺(tái)業(yè)務(wù)背景

及相關(guān)數(shù)據(jù),在綜合理解外賣業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,根據(jù)任務(wù)要求進(jìn)行

分析,并編寫分析報(bào)告。

請(qǐng)根據(jù)任務(wù)要求,分析以下內(nèi)容,并編寫分析報(bào)告。分別從商家

營(yíng)業(yè)時(shí)間、銷售單量、范圍變更等角度對(duì)外賣平臺(tái)推廣情況與銷售表

現(xiàn)進(jìn)行分析,并對(duì)平臺(tái)經(jīng)營(yíng)提出幾點(diǎn)建議。

分析報(bào)告要求:

任務(wù)一:商家營(yíng)業(yè)時(shí)長(zhǎng)分析

結(jié)合平臺(tái)相關(guān)數(shù)據(jù)文件,探索不同營(yíng)業(yè)時(shí)長(zhǎng)(區(qū)間劃分請(qǐng)使用:4小時(shí)以內(nèi)、

4?6小時(shí)、6~8小時(shí)、8~12小時(shí)、12小時(shí)以上)對(duì)商家平均總單量的影響,并結(jié)

合模塊D相關(guān)可視化結(jié)果,說(shuō)明影響總單量的因素有哪些?闡述你的結(jié)論并說(shuō)明

原因。分別以文字描述和圖例進(jìn)行說(shuō)明。

任務(wù)二:商戶業(yè)務(wù)包分析

結(jié)合模塊C數(shù)據(jù)挖掘分析中3、(任務(wù)編號(hào))的結(jié)論,請(qǐng)繪制折線圖(橫坐

標(biāo)為最大/最小配送距離變更范圍,刻度數(shù)值請(qǐng)參考數(shù)據(jù)挖掘分析中3、(任務(wù)編

號(hào))中幅度,縱坐標(biāo)為審核記錄通過(guò)率)對(duì)不同地區(qū)商戶業(yè)務(wù)包的統(tǒng)計(jì)結(jié)果,說(shuō)

明圖表有哪些差異?說(shuō)明了什么問(wèn)題?分別以文字描述和圖例進(jìn)行說(shuō)明。

任務(wù)三:平臺(tái)規(guī)劃建議

請(qǐng)結(jié)合平臺(tái)業(yè)務(wù)背景及相關(guān)分析結(jié)論,對(duì)平臺(tái)未來(lái)規(guī)劃提出建議(不少于3

條建議);

附錄:補(bǔ)充說(shuō)明

數(shù)據(jù)集中涉及字段及中文說(shuō)明:

POI:pointofinterest興趣點(diǎn)

數(shù)據(jù)表字段中文釋義:

原字段中文釋義

city_name城市

location商圈

latitude緯度

longtitude經(jīng)度

rest_type商家所屬平臺(tái)

platformA_restid商家id(A平臺(tái))

A_rst_name店鋪名稱(A平臺(tái))

A_day30_cnt30天銷量(A平臺(tái))

platform_B_restid商家id(B平臺(tái))

B_rst_name店鋪名稱(B平臺(tái))

B_day_30_cnt30天銷量(B平臺(tái))

推單數(shù)-9推單數(shù)(9日)

有效完成率-9有效完成率(9日)

超時(shí)率-9超時(shí)率(90)

推單數(shù)-8推單數(shù)(80)

有效完成率-8有效完成率(8日)

超時(shí)率-8超時(shí)率(8日)

灰度餐廳灰度餐廳

id標(biāo)識(shí)id

request_id請(qǐng)求i(1

walle_id(平臺(tái))商鋪id

retailer_id(配送系統(tǒng))商鋪id

retailer_name商鋪名稱

retailer_address商鋪地址

retailer_location位置P0I編碼

city_id城市id

city_name城市名稱

grid_id網(wǎng)格id

carrier_id渠道經(jīng)理

team_id渠道小組

applicant_id申請(qǐng)人id

applicant_name申請(qǐng)人

first_auditor_ro1e一級(jí)審批角色

first_auditor_candidate_ids候選審批人id

first_auditor_id審核人id

first_auditor_name審批人名

second_auditor_role二級(jí)審批角色

second_auditor_candidate_ids審核小組成員

second_auditorid二級(jí)審核人id

second_auditor_name二級(jí)審核人名

status申請(qǐng)狀態(tài)

max_distance_before_edit申請(qǐng)前最大配送距離

min_distance_before_edit申請(qǐng)前最小配送距離

max_distance_after_edit日請(qǐng)后最大配送距離

min_distance_after_edit申請(qǐng)后最小配送距離

area_before_edit申請(qǐng)前配送面積

area_after_edit申請(qǐng)后配送面積

created_at申請(qǐng)遞交時(shí)間

updated_at審核完成

申請(qǐng)時(shí)間申請(qǐng)時(shí)間

創(chuàng)建時(shí)間創(chuàng)建時(shí)間

餐廳id餐廳id

餐廳名稱餐廳名稱

所屬城市所屬城市

營(yíng)業(yè)時(shí)長(zhǎng)營(yíng)業(yè)時(shí)長(zhǎng)

餐廳狀態(tài)餐廳狀態(tài)

是否托管是否托管

總單量總單量

總單量增長(zhǎng)率總單量增長(zhǎng)率

有效訂單量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論