版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
單元2分析電影評論點贊數(shù)項目介紹項目一:影評數(shù)據(jù)分析與可視化本項目從某電影網(wǎng)站采集了電影《流浪地球》的部分評論數(shù)據(jù),包括城市、影評內(nèi)容、評分、評論時間、評論點贊數(shù)等,根據(jù)采集的數(shù)據(jù)對電影評論的數(shù)量、點贊數(shù)和評分三個方面進(jìn)行分析,完成數(shù)據(jù)分析可視化,給對科幻電影感興趣的觀影者、電影投資者提供一些參考。01準(zhǔn)備活動點名、復(fù)習(xí)本次課學(xué)習(xí)內(nèi)容、學(xué)習(xí)目標(biāo)介紹學(xué)習(xí)內(nèi)容任務(wù)一分析電影評論點贊數(shù)本任務(wù)從評論點贊數(shù)分布、評論點贊數(shù)對應(yīng)星級、點贊數(shù)日期三個方面來分析電影評論點贊數(shù)。通過繪制直方圖、箱形圖、散點圖和折線圖對電影評論點贊數(shù)情況進(jìn)行分布分析、對比分析,以便全面了解該電影的口碑、觀影熱度、觀眾對電影的理解等信息,為觀眾提供觀影參考。子任務(wù)1根據(jù)評論點贊數(shù)字段votes繪制直方圖,顯示評論點贊數(shù)分布情況任務(wù)分解:子任務(wù)2根據(jù)評論點贊數(shù)字段votes和評分字段scores繪制箱形圖,顯示評論點贊數(shù)星級分布情況。子任務(wù)3根據(jù)評論日期字段times和點贊數(shù)字段votes繪制散點圖和折線圖,顯示評論點贊數(shù)、評論數(shù)量隨日期變化情況學(xué)習(xí)目標(biāo)1、知識(1)復(fù)習(xí)pandas庫的基本操作、數(shù)據(jù)處理基本的選取、統(tǒng)計等函數(shù)(3)掌握matplotlib庫繪制圖形的基本方法,以及直方圖、箱型圖、散點圖繪制方法2、技能(1)能使用pandas庫讀取文本數(shù)據(jù),按照任務(wù)要求處理數(shù)據(jù)(2)能使用matplotlib子庫plotlib根據(jù)數(shù)據(jù)繪制直方圖、箱型圖、散點圖3、素養(yǎng)(1)分析問題的能力;(2)團(tuán)隊溝通能力;(3)培養(yǎng)團(tuán)隊合作意識。02發(fā)展活動任務(wù)分析、任務(wù)資訊、任務(wù)實施子任務(wù)1評論點贊數(shù)分布情況分析(直方圖)任務(wù)分析:本任務(wù)需要使用Pandas從CommentInfo.csv文件中讀取數(shù)據(jù),根據(jù)評論點贊數(shù)字段votes,使用Matplotlib繪制兩個直方圖,顯示評論點贊數(shù)分析情況。第一個直方圖要求橫軸為點贊數(shù)區(qū)間,其范圍為評論點贊數(shù)最小值至最大值之間;縱軸為評論點贊數(shù)。第二個直方圖要求橫軸為點贊數(shù)區(qū)間,范圍為0~5000,縱軸為評論點贊數(shù)。1.子圖任務(wù)資訊一個畫布上默認(rèn)有一個子圖,Matplotlib圖像組成如圖1-2-1所示。可以將Figure對象理解為畫布;Axes對象表示坐標(biāo)軸區(qū)域,可以認(rèn)為是子圖,也是真正繪圖的區(qū)域??梢詣?chuàng)建多個畫布,也可以在一個畫布上添加多個子圖。Figure對象允許劃分多個繪圖區(qū)域,每個區(qū)域都是一個Axes對象,每個Axes對象都擁有自己的坐標(biāo)系,即子圖。Figure對象與Axes對象之間的關(guān)系如圖1-2-2所示。1.子圖任務(wù)資訊(1)創(chuàng)建和添加單個子圖:subplot()函數(shù)和add_subplot()方法示例:規(guī)劃兩個子圖,并創(chuàng)建或添加兩個子圖,按照水平排列。2.直方圖任務(wù)資訊直方圖用一系列高度不等的縱向線段來表示數(shù)據(jù)分布的情況。直方圖的橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。直方圖用于概率分布,它顯示了一組數(shù)值序列在給定數(shù)值范圍內(nèi)出現(xiàn)的概率;柱狀圖則用于展示各個類別的頻數(shù)。pyplot模塊中的hist()函數(shù)用以繪制直方圖,語法格式如下2.直方圖任務(wù)資訊示例:顯示A類產(chǎn)品不同價格區(qū)間的銷售數(shù)量,通過hist()函數(shù)繪制直方圖,代碼如下以上代碼通過hist()函數(shù)繪制直方圖,直方圖顯示了8個條柱,顏色為綠色,運行結(jié)果如圖1-2-11所示任務(wù)實施步驟:步驟1:初始工作。導(dǎo)入相關(guān)包,Pandas從CommentInfo.csv文件中讀取電影評論數(shù)據(jù),設(shè)置Matplotlib繪圖常用參數(shù)值。步驟2:獲取所有評論點贊數(shù)以及最大、最小點贊數(shù)。步驟3:繪制直方圖。通過子圖繪制了兩個垂直排列的直方圖。子任務(wù)2評論點贊數(shù)對應(yīng)星級分析任務(wù)分析:在子任務(wù)1的基礎(chǔ)上分析評論點贊數(shù)大于5000的評論的星級情況。本任務(wù)需要使用Pandas從CommentInfo.csv文件中讀取數(shù)據(jù),從評論點贊數(shù)字段votes獲取大于等于5000的評論點贊數(shù)和評分?jǐn)?shù)據(jù),根據(jù)評論點贊數(shù)和評分?jǐn)?shù)據(jù),使用Matplotlib繪制箱形圖,顯示評論點贊數(shù)對應(yīng)星級分布情況。1.箱型
圖任務(wù)資訊箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用于顯示一組數(shù)據(jù)分散情況的統(tǒng)計圖,因形狀如箱子而得名。它能顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)以及上下四分位數(shù),主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。在箱形圖中,從上四分位數(shù)到下四分位數(shù)繪制一個盒子,然后用一條垂直觸須(形象地稱為“盒須”)穿過盒子的中間。上垂線延伸至上邊緣(最大值),下垂線延伸至下邊緣(最小值)。箱形圖結(jié)構(gòu)如圖1-2-12所示。圖1-2-12中標(biāo)示了每條線所表示的含義,主要包含6個數(shù)據(jù)節(jié)點。一組數(shù)據(jù)按從大到小排列,分別計算出上邊緣、上四分位數(shù)(Q3)、中位數(shù)、下四分位數(shù)(Q1)、下邊緣,以及異常值1.箱型
圖任務(wù)資訊pyplot模塊中的boxplot()函數(shù)用以繪制箱形圖,語法格式如下:示例:A產(chǎn)品2022年和2021年銷售價格情況分析,通過boxplot()函數(shù)繪制箱形圖,代碼如下以上代碼繪制了箱形圖,分別表示A產(chǎn)品2022年和2021年產(chǎn)品銷售價格分布情況,運行結(jié)果如圖1-2-13所示。任務(wù)實施步驟:步驟1:初始工作。導(dǎo)入相關(guān)包,Pandas從CommentInfo.csv文件中讀取電影評論數(shù)據(jù),設(shè)置Matplotlib繪圖常用參數(shù)值步驟2:獲取評論點贊數(shù)大于等于5000的評論評分和點贊數(shù)。步驟3:繪制箱形圖。按星級分別繪制五個箱形圖,顯示評論點贊數(shù)對應(yīng)星級的分布情況。子任務(wù)3評論點贊數(shù)、評論數(shù)量隨日期變化的情況分析任務(wù)分析:本任務(wù)需要使用Pandas從CommentInfo.csv文件中讀取數(shù)據(jù),處理times字段提取日期信息,并按日期排序,對處理后的數(shù)據(jù)使用Matplotlib繪制散點圖,再按日期統(tǒng)計發(fā)布的評論數(shù)量并繪制折線圖。散點圖和折線圖要求共橫軸,橫軸為日期,左邊縱軸為電影評論點贊數(shù),右邊縱軸為評論數(shù)量,從而顯示評論點贊數(shù)、評論數(shù)量隨日期變化的情況。1.散點圖任務(wù)資訊散點圖用于在水平軸和垂直軸上繪制數(shù)據(jù)點,用點表示變量之間的關(guān)系。它可以展現(xiàn)因變量隨自變量變化的趨勢,用于觀察變量之間的關(guān)系。pyplot模塊中的scatter()函數(shù)用于繪制散點圖。語法格式如下常用參數(shù)含義如下:x,y:長度相同的數(shù)組,也就是我們即將繪制散點圖的輸入數(shù)據(jù)。這兩個參數(shù)是必選的。s:點的大小,默認(rèn)為20,也可以是個數(shù)組,數(shù)組中的每個數(shù)據(jù)為對應(yīng)點的大小。c:點的顏色,默認(rèn)為藍(lán)色(b),也就是blue。marker:標(biāo)記樣式,默認(rèn)小圓圈(o)。alpha:透明度設(shè)置,取值于0~1,默認(rèn)為None,即不透明。linewidths:標(biāo)記邊界的寬度。edgecolors:標(biāo)記的邊框顏色或顏色序列,默認(rèn)為face,可選值有face、None1.散點圖任務(wù)資訊示例1:顯示A類產(chǎn)品2022年季度銷售情況,通過scatter()函數(shù)繪制散點圖,代碼如下以上代碼繪制了散點圖,圖有四個點,表示四個季度的銷售數(shù)量,運行結(jié)果如圖1-2-14所示示例2:顯示A類和B類產(chǎn)品2022年季度銷售情況,代碼如下以上代碼繪制了兩個散點圖,設(shè)置了點的樣式、大小和顏色,運行結(jié)果如圖1-2-15所示。任務(wù)實施步驟:步驟1:初始工作。導(dǎo)入相關(guān)包,Pandas從CommentInfo.csv文件中讀取電影評論數(shù)據(jù),設(shè)置Matplotlib繪圖常用參數(shù)值。步驟2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年行政車輛租賃合規(guī)合同樣本
- 2024年度健康養(yǎng)生產(chǎn)品銷售結(jié)算與市場拓展合同3篇
- 2024年特許經(jīng)營合同詳細(xì)條款與標(biāo)的
- 2024年版:房屋買賣違約金索賠協(xié)議
- 2024年貨車租賃合同(帶維修責(zé)任規(guī)定)
- 2024年紀(jì)錄片創(chuàng)作與制作服務(wù)合同版B版
- 2024年綠化工程苗木種植養(yǎng)護(hù)合同2篇
- 2025年度環(huán)保倉儲倉單質(zhì)押反擔(dān)保服務(wù)協(xié)議3篇
- 2024年離婚合同書:女方放棄財產(chǎn)分割版版
- 運維服務(wù)能力指標(biāo)體系
- LNG、CNG加氣站生產(chǎn)安全事故應(yīng)急救援預(yù)案
- 醫(yī)療廢物管理條例-題及答案
- 北京版一年級數(shù)學(xué)下冊《數(shù)的組成》評課稿
- 理論力學(xué)-上海交通大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 肅北縣長流水金礦 礦產(chǎn)資源開發(fā)與恢復(fù)治理方案
- SRD控制器使用說明書
- 水下攝影技巧
- 雨水暗溝施工方案實用文檔
- 醫(yī)院衛(wèi)生院安全生產(chǎn)領(lǐng)導(dǎo)責(zé)任清單
- 2023年已打印自主招生數(shù)學(xué)試題及答案
- 非計劃性拔管風(fēng)險評估表二
評論
0/150
提交評論