《數(shù)據(jù)可視化技術(shù)》 課件 02 分析電影評論點贊數(shù)_第1頁
《數(shù)據(jù)可視化技術(shù)》 課件 02 分析電影評論點贊數(shù)_第2頁
《數(shù)據(jù)可視化技術(shù)》 課件 02 分析電影評論點贊數(shù)_第3頁
《數(shù)據(jù)可視化技術(shù)》 課件 02 分析電影評論點贊數(shù)_第4頁
《數(shù)據(jù)可視化技術(shù)》 課件 02 分析電影評論點贊數(shù)_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

單元2分析電影評論點贊數(shù)項目介紹項目一:影評數(shù)據(jù)分析與可視化本項目從某電影網(wǎng)站采集了電影《流浪地球》的部分評論數(shù)據(jù),包括城市、影評內(nèi)容、評分、評論時間、評論點贊數(shù)等,根據(jù)采集的數(shù)據(jù)對電影評論的數(shù)量、點贊數(shù)和評分三個方面進(jìn)行分析,完成數(shù)據(jù)分析可視化,給對科幻電影感興趣的觀影者、電影投資者提供一些參考。01準(zhǔn)備活動點名、復(fù)習(xí)本次課學(xué)習(xí)內(nèi)容、學(xué)習(xí)目標(biāo)介紹學(xué)習(xí)內(nèi)容任務(wù)一分析電影評論點贊數(shù)本任務(wù)從評論點贊數(shù)分布、評論點贊數(shù)對應(yīng)星級、點贊數(shù)日期三個方面來分析電影評論點贊數(shù)。通過繪制直方圖、箱形圖、散點圖和折線圖對電影評論點贊數(shù)情況進(jìn)行分布分析、對比分析,以便全面了解該電影的口碑、觀影熱度、觀眾對電影的理解等信息,為觀眾提供觀影參考。子任務(wù)1根據(jù)評論點贊數(shù)字段votes繪制直方圖,顯示評論點贊數(shù)分布情況任務(wù)分解:子任務(wù)2根據(jù)評論點贊數(shù)字段votes和評分字段scores繪制箱形圖,顯示評論點贊數(shù)星級分布情況。子任務(wù)3根據(jù)評論日期字段times和點贊數(shù)字段votes繪制散點圖和折線圖,顯示評論點贊數(shù)、評論數(shù)量隨日期變化情況學(xué)習(xí)目標(biāo)1、知識(1)復(fù)習(xí)pandas庫的基本操作、數(shù)據(jù)處理基本的選取、統(tǒng)計等函數(shù)(3)掌握matplotlib庫繪制圖形的基本方法,以及直方圖、箱型圖、散點圖繪制方法2、技能(1)能使用pandas庫讀取文本數(shù)據(jù),按照任務(wù)要求處理數(shù)據(jù)(2)能使用matplotlib子庫plotlib根據(jù)數(shù)據(jù)繪制直方圖、箱型圖、散點圖3、素養(yǎng)(1)分析問題的能力;(2)團(tuán)隊溝通能力;(3)培養(yǎng)團(tuán)隊合作意識。02發(fā)展活動任務(wù)分析、任務(wù)資訊、任務(wù)實施子任務(wù)1評論點贊數(shù)分布情況分析(直方圖)任務(wù)分析:本任務(wù)需要使用Pandas從CommentInfo.csv文件中讀取數(shù)據(jù),根據(jù)評論點贊數(shù)字段votes,使用Matplotlib繪制兩個直方圖,顯示評論點贊數(shù)分析情況。第一個直方圖要求橫軸為點贊數(shù)區(qū)間,其范圍為評論點贊數(shù)最小值至最大值之間;縱軸為評論點贊數(shù)。第二個直方圖要求橫軸為點贊數(shù)區(qū)間,范圍為0~5000,縱軸為評論點贊數(shù)。1.子圖任務(wù)資訊一個畫布上默認(rèn)有一個子圖,Matplotlib圖像組成如圖1-2-1所示。可以將Figure對象理解為畫布;Axes對象表示坐標(biāo)軸區(qū)域,可以認(rèn)為是子圖,也是真正繪圖的區(qū)域??梢詣?chuàng)建多個畫布,也可以在一個畫布上添加多個子圖。Figure對象允許劃分多個繪圖區(qū)域,每個區(qū)域都是一個Axes對象,每個Axes對象都擁有自己的坐標(biāo)系,即子圖。Figure對象與Axes對象之間的關(guān)系如圖1-2-2所示。1.子圖任務(wù)資訊(1)創(chuàng)建和添加單個子圖:subplot()函數(shù)和add_subplot()方法示例:規(guī)劃兩個子圖,并創(chuàng)建或添加兩個子圖,按照水平排列。2.直方圖任務(wù)資訊直方圖用一系列高度不等的縱向線段來表示數(shù)據(jù)分布的情況。直方圖的橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。直方圖用于概率分布,它顯示了一組數(shù)值序列在給定數(shù)值范圍內(nèi)出現(xiàn)的概率;柱狀圖則用于展示各個類別的頻數(shù)。pyplot模塊中的hist()函數(shù)用以繪制直方圖,語法格式如下2.直方圖任務(wù)資訊示例:顯示A類產(chǎn)品不同價格區(qū)間的銷售數(shù)量,通過hist()函數(shù)繪制直方圖,代碼如下以上代碼通過hist()函數(shù)繪制直方圖,直方圖顯示了8個條柱,顏色為綠色,運行結(jié)果如圖1-2-11所示任務(wù)實施步驟:步驟1:初始工作。導(dǎo)入相關(guān)包,Pandas從CommentInfo.csv文件中讀取電影評論數(shù)據(jù),設(shè)置Matplotlib繪圖常用參數(shù)值。步驟2:獲取所有評論點贊數(shù)以及最大、最小點贊數(shù)。步驟3:繪制直方圖。通過子圖繪制了兩個垂直排列的直方圖。子任務(wù)2評論點贊數(shù)對應(yīng)星級分析任務(wù)分析:在子任務(wù)1的基礎(chǔ)上分析評論點贊數(shù)大于5000的評論的星級情況。本任務(wù)需要使用Pandas從CommentInfo.csv文件中讀取數(shù)據(jù),從評論點贊數(shù)字段votes獲取大于等于5000的評論點贊數(shù)和評分?jǐn)?shù)據(jù),根據(jù)評論點贊數(shù)和評分?jǐn)?shù)據(jù),使用Matplotlib繪制箱形圖,顯示評論點贊數(shù)對應(yīng)星級分布情況。1.箱型

圖任務(wù)資訊箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用于顯示一組數(shù)據(jù)分散情況的統(tǒng)計圖,因形狀如箱子而得名。它能顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)以及上下四分位數(shù),主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。在箱形圖中,從上四分位數(shù)到下四分位數(shù)繪制一個盒子,然后用一條垂直觸須(形象地稱為“盒須”)穿過盒子的中間。上垂線延伸至上邊緣(最大值),下垂線延伸至下邊緣(最小值)。箱形圖結(jié)構(gòu)如圖1-2-12所示。圖1-2-12中標(biāo)示了每條線所表示的含義,主要包含6個數(shù)據(jù)節(jié)點。一組數(shù)據(jù)按從大到小排列,分別計算出上邊緣、上四分位數(shù)(Q3)、中位數(shù)、下四分位數(shù)(Q1)、下邊緣,以及異常值1.箱型

圖任務(wù)資訊pyplot模塊中的boxplot()函數(shù)用以繪制箱形圖,語法格式如下:示例:A產(chǎn)品2022年和2021年銷售價格情況分析,通過boxplot()函數(shù)繪制箱形圖,代碼如下以上代碼繪制了箱形圖,分別表示A產(chǎn)品2022年和2021年產(chǎn)品銷售價格分布情況,運行結(jié)果如圖1-2-13所示。任務(wù)實施步驟:步驟1:初始工作。導(dǎo)入相關(guān)包,Pandas從CommentInfo.csv文件中讀取電影評論數(shù)據(jù),設(shè)置Matplotlib繪圖常用參數(shù)值步驟2:獲取評論點贊數(shù)大于等于5000的評論評分和點贊數(shù)。步驟3:繪制箱形圖。按星級分別繪制五個箱形圖,顯示評論點贊數(shù)對應(yīng)星級的分布情況。子任務(wù)3評論點贊數(shù)、評論數(shù)量隨日期變化的情況分析任務(wù)分析:本任務(wù)需要使用Pandas從CommentInfo.csv文件中讀取數(shù)據(jù),處理times字段提取日期信息,并按日期排序,對處理后的數(shù)據(jù)使用Matplotlib繪制散點圖,再按日期統(tǒng)計發(fā)布的評論數(shù)量并繪制折線圖。散點圖和折線圖要求共橫軸,橫軸為日期,左邊縱軸為電影評論點贊數(shù),右邊縱軸為評論數(shù)量,從而顯示評論點贊數(shù)、評論數(shù)量隨日期變化的情況。1.散點圖任務(wù)資訊散點圖用于在水平軸和垂直軸上繪制數(shù)據(jù)點,用點表示變量之間的關(guān)系。它可以展現(xiàn)因變量隨自變量變化的趨勢,用于觀察變量之間的關(guān)系。pyplot模塊中的scatter()函數(shù)用于繪制散點圖。語法格式如下常用參數(shù)含義如下:x,y:長度相同的數(shù)組,也就是我們即將繪制散點圖的輸入數(shù)據(jù)。這兩個參數(shù)是必選的。s:點的大小,默認(rèn)為20,也可以是個數(shù)組,數(shù)組中的每個數(shù)據(jù)為對應(yīng)點的大小。c:點的顏色,默認(rèn)為藍(lán)色(b),也就是blue。marker:標(biāo)記樣式,默認(rèn)小圓圈(o)。alpha:透明度設(shè)置,取值于0~1,默認(rèn)為None,即不透明。linewidths:標(biāo)記邊界的寬度。edgecolors:標(biāo)記的邊框顏色或顏色序列,默認(rèn)為face,可選值有face、None1.散點圖任務(wù)資訊示例1:顯示A類產(chǎn)品2022年季度銷售情況,通過scatter()函數(shù)繪制散點圖,代碼如下以上代碼繪制了散點圖,圖有四個點,表示四個季度的銷售數(shù)量,運行結(jié)果如圖1-2-14所示示例2:顯示A類和B類產(chǎn)品2022年季度銷售情況,代碼如下以上代碼繪制了兩個散點圖,設(shè)置了點的樣式、大小和顏色,運行結(jié)果如圖1-2-15所示。任務(wù)實施步驟:步驟1:初始工作。導(dǎo)入相關(guān)包,Pandas從CommentInfo.csv文件中讀取電影評論數(shù)據(jù),設(shè)置Matplotlib繪圖常用參數(shù)值。步驟2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論