




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
課程負(fù)責(zé)人:陳清華【數(shù)據(jù)挖掘應(yīng)用】課程觀影數(shù)據(jù)回歸分析票房線(xiàn)性回歸預(yù)測(cè)任務(wù)實(shí)施會(huì)熟練從CSV文件中讀取數(shù)據(jù);會(huì)使用sklearn對(duì)觀影數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;會(huì)使用sklearn實(shí)現(xiàn)一元線(xiàn)性回歸分析應(yīng)用;會(huì)對(duì)回歸模型進(jìn)行評(píng)估。能力目標(biāo)主要內(nèi)容任務(wù)工單引導(dǎo)問(wèn)題任務(wù)評(píng)價(jià)標(biāo)準(zhǔn)任務(wù)解決方案代碼解析使用一元線(xiàn)性回歸對(duì)票房進(jìn)行預(yù)測(cè)film.txt教學(xué)難點(diǎn)任務(wù)工單使用一元線(xiàn)性回歸對(duì)兩項(xiàng)數(shù)據(jù)進(jìn)行簡(jiǎn)要的相關(guān)性分析,探討是否可以通過(guò)放映天數(shù)來(lái)預(yù)測(cè)電影的票房。任務(wù)概述
任務(wù)描述:使用read_csv()從文件中讀取數(shù)據(jù)后,在數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗和篩選的基礎(chǔ)上,準(zhǔn)備好放映天數(shù)及日均票房數(shù)據(jù)。將數(shù)據(jù)放入構(gòu)建一元線(xiàn)性回歸模型進(jìn)行訓(xùn)練,最后用來(lái)預(yù)測(cè)電影日均票房。010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)查閱相關(guān)資料,明確本任務(wù)數(shù)據(jù)讀取應(yīng)該選用什么樣的工具包?(2)獲取的數(shù)據(jù)后,應(yīng)該使用什么樣的數(shù)據(jù)類(lèi)型存儲(chǔ)?每條記錄不同字段的數(shù)據(jù)類(lèi)型分別是什么?(3)如何根據(jù)已有的字段獲取其他特征,比如從“上映時(shí)間”和“閉映時(shí)間”來(lái)獲得“放映天數(shù)”?(4)線(xiàn)性回歸模型初始化時(shí),哪些參數(shù)需要設(shè)置,默認(rèn)參數(shù)值分別是什么?(5)sklearn中如何訓(xùn)練得到相應(yīng)的模型參數(shù)值?(6)如何獲取訓(xùn)練好的模型中的參數(shù)?參數(shù)的取值有何物理意義?(7)如何評(píng)估訓(xùn)練所得的模型準(zhǔn)確性?”
問(wèn)題引導(dǎo):任務(wù)概述
任務(wù)評(píng)價(jià):任務(wù)概述評(píng)價(jià)內(nèi)容評(píng)價(jià)要點(diǎn)分值分?jǐn)?shù)評(píng)定自我評(píng)價(jià)1.任務(wù)實(shí)施數(shù)據(jù)讀取與展現(xiàn)2分?jǐn)?shù)據(jù)正確顯示得2分
模型訓(xùn)練1分代碼正確且順利執(zhí)行得1分
模型展現(xiàn)3分可展現(xiàn)得1分,展現(xiàn)完整得1分,展現(xiàn)結(jié)果清晰得1分2.效果評(píng)估分析模型得準(zhǔn)確性,并得出評(píng)估結(jié)論3分能正確展現(xiàn)評(píng)估結(jié)果得1分,準(zhǔn)確率效果評(píng)估結(jié)果90%以上得2分
3.任務(wù)總結(jié)依據(jù)任務(wù)實(shí)施情況總結(jié)結(jié)論1分總結(jié)內(nèi)容切中本任務(wù)的重點(diǎn)要點(diǎn)得1分
合計(jì)10分
第1行:導(dǎo)入pandas包,并給出別名pd。第2行:讀取film.txt中的數(shù)據(jù)importpandas
aspddf=pd.read_csv('film.txt',delimiter=';')df=df[['上映時(shí)間','閉映時(shí)間','票房/萬(wàn)元']]第3行:篩選指定內(nèi)容列任務(wù)解決方案步驟一:數(shù)據(jù)讀取與整理。df=df.dropna()第4行:去除帶有空值得行任務(wù)解決方案第7行:計(jì)算電影放映天數(shù)df['放映天數(shù)']=(df['閉映時(shí)間']-df['上映時(shí)間']).dt.days+1第5、6行:將上映時(shí)間和閉映時(shí)間換為時(shí)間類(lèi)型df['上映時(shí)間']=pd.to_datetime(df['上映時(shí)間’])df['閉映時(shí)間']=pd.to_datetime(df['閉映時(shí)間'])第8行:將票房數(shù)據(jù)轉(zhuǎn)換為浮點(diǎn)型df['票房/萬(wàn)元']=df['票房/萬(wàn)元'].astype(float)第9行:計(jì)算日均票房df['日均票房/萬(wàn)元']=df['票房/萬(wàn)元']/df['放映天數(shù)']步驟一:讀取與數(shù)據(jù)整理。任務(wù)解決方案df=df.reset_index(drop=True)df.head()數(shù)據(jù)顯示第10、11行:重置索引列,不添加新的列步驟一:讀取與數(shù)據(jù)整理。第12行:導(dǎo)入linear_model包。第13、14行:設(shè)置x和y的值。from
sklearn
import
linear_modelx=df[['放映天數(shù)']]y=df[['日均票房/萬(wàn)元']]regr=linear_model.LinearRegression()任務(wù)解決方案第16行:擬合regr.fit(x,y)步驟二:使用一元線(xiàn)性回歸進(jìn)行分析第15行:初始化線(xiàn)性回歸模型任務(wù)解決方案import
matplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False第14、15、16行:導(dǎo)入繪圖包,重命名為plt;設(shè)置字體等參數(shù)。第17、18、19、20行:設(shè)置圖表標(biāo)題、軸標(biāo)簽。步驟三:可視化展現(xiàn)plt.title('放映天數(shù)與票房關(guān)系圖(一元線(xiàn)性回歸)')plt.xlabel('放映天數(shù)’)plt.ylabel('日均票房/萬(wàn)元')plt.scatter(x,y,color='black')第21行:畫(huà)出預(yù)測(cè)點(diǎn),預(yù)測(cè)點(diǎn)顏色為紅色。plt.scatter(x,regr.predict(x),color='red',linewidth=1,marker='*’)plt.legend(['原始值','預(yù)測(cè)值'],loc=
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)領(lǐng)導(dǎo)力發(fā)展中的領(lǐng)導(dǎo)力與組織愿景塑造關(guān)系研究考核試卷
- 魚(yú)類(lèi)行為與養(yǎng)殖環(huán)境適應(yīng)性育種研究考核試卷
- 數(shù)字化培訓(xùn)對(duì)團(tuán)隊(duì)決策能力的提升路徑考核試卷
- 職業(yè)暴露暴露量評(píng)估方法考核試卷
- 體育器材行業(yè)可持續(xù)發(fā)展中的競(jìng)爭(zhēng)與合作機(jī)制分析考核試卷
- 氣候條件對(duì)中草藥生長(zhǎng)周期同步性的影響考核試卷
- 美學(xué)知識(shí)點(diǎn)馬工程
- 緊急呼叫系統(tǒng)施工方案
- 《觸摸春天》讀后感6篇
- 元旦的演講稿(14篇)
- 2025至2030中國(guó)柔性直流輸電行業(yè)運(yùn)營(yíng)規(guī)劃及發(fā)展前景深度分析報(bào)告
- 安全產(chǎn)風(fēng)險(xiǎn)管理制度
- 深化國(guó)有企業(yè)改革調(diào)研提綱
- 小學(xué)騎車(chē)安全課件
- 公司個(gè)人獨(dú)資章程范本
- 《中國(guó)酒類(lèi)企業(yè)ESG披露指南》
- 2025年航空安全管理專(zhuān)業(yè)考試試卷及答案
- 2025至2030年中國(guó)玉米淀粉行業(yè)市場(chǎng)現(xiàn)狀分析及前景戰(zhàn)略研判報(bào)告
- 安徽省2025年普通高校招生志愿預(yù)填表(普通類(lèi))
- 2025高考全國(guó)一卷語(yǔ)文真題
- 詐騙諒解書(shū)和退賠協(xié)議書(shū)
評(píng)論
0/150
提交評(píng)論