版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
課程負責人:陳清華【數(shù)據(jù)挖掘應用】課程觀影數(shù)據(jù)回歸分析票房線性回歸預測任務(wù)實施會熟練從CSV文件中讀取數(shù)據(jù);會使用sklearn對觀影數(shù)據(jù)進行數(shù)據(jù)預處理;會使用sklearn實現(xiàn)一元線性回歸分析應用;會對回歸模型進行評估。能力目標主要內(nèi)容任務(wù)工單引導問題任務(wù)評價標準任務(wù)解決方案代碼解析使用一元線性回歸對票房進行預測film.txt教學難點任務(wù)工單使用一元線性回歸對兩項數(shù)據(jù)進行簡要的相關(guān)性分析,探討是否可以通過放映天數(shù)來預測電影的票房。任務(wù)概述
任務(wù)描述:使用read_csv()從文件中讀取數(shù)據(jù)后,在數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗和篩選的基礎(chǔ)上,準備好放映天數(shù)及日均票房數(shù)據(jù)。將數(shù)據(jù)放入構(gòu)建一元線性回歸模型進行訓練,最后用來預測電影日均票房。010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)查閱相關(guān)資料,明確本任務(wù)數(shù)據(jù)讀取應該選用什么樣的工具包?(2)獲取的數(shù)據(jù)后,應該使用什么樣的數(shù)據(jù)類型存儲?每條記錄不同字段的數(shù)據(jù)類型分別是什么?(3)如何根據(jù)已有的字段獲取其他特征,比如從“上映時間”和“閉映時間”來獲得“放映天數(shù)”?(4)線性回歸模型初始化時,哪些參數(shù)需要設(shè)置,默認參數(shù)值分別是什么?(5)sklearn中如何訓練得到相應的模型參數(shù)值?(6)如何獲取訓練好的模型中的參數(shù)?參數(shù)的取值有何物理意義?(7)如何評估訓練所得的模型準確性?”
問題引導:任務(wù)概述
任務(wù)評價:任務(wù)概述評價內(nèi)容評價要點分值分數(shù)評定自我評價1.任務(wù)實施數(shù)據(jù)讀取與展現(xiàn)2分數(shù)據(jù)正確顯示得2分
模型訓練1分代碼正確且順利執(zhí)行得1分
模型展現(xiàn)3分可展現(xiàn)得1分,展現(xiàn)完整得1分,展現(xiàn)結(jié)果清晰得1分2.效果評估分析模型得準確性,并得出評估結(jié)論3分能正確展現(xiàn)評估結(jié)果得1分,準確率效果評估結(jié)果90%以上得2分
3.任務(wù)總結(jié)依據(jù)任務(wù)實施情況總結(jié)結(jié)論1分總結(jié)內(nèi)容切中本任務(wù)的重點要點得1分
合計10分
第1行:導入pandas包,并給出別名pd。第2行:讀取film.txt中的數(shù)據(jù)importpandas
aspddf=pd.read_csv('film.txt',delimiter=';')df=df[['上映時間','閉映時間','票房/萬元']]第3行:篩選指定內(nèi)容列任務(wù)解決方案步驟一:數(shù)據(jù)讀取與整理。df=df.dropna()第4行:去除帶有空值得行任務(wù)解決方案第7行:計算電影放映天數(shù)df['放映天數(shù)']=(df['閉映時間']-df['上映時間']).dt.days+1第5、6行:將上映時間和閉映時間換為時間類型df['上映時間']=pd.to_datetime(df['上映時間’])df['閉映時間']=pd.to_datetime(df['閉映時間'])第8行:將票房數(shù)據(jù)轉(zhuǎn)換為浮點型df['票房/萬元']=df['票房/萬元'].astype(float)第9行:計算日均票房df['日均票房/萬元']=df['票房/萬元']/df['放映天數(shù)']步驟一:讀取與數(shù)據(jù)整理。任務(wù)解決方案df=df.reset_index(drop=True)df.head()數(shù)據(jù)顯示第10、11行:重置索引列,不添加新的列步驟一:讀取與數(shù)據(jù)整理。第12行:導入linear_model包。第13、14行:設(shè)置x和y的值。from
sklearn
import
linear_modelx=df[['放映天數(shù)']]y=df[['日均票房/萬元']]regr=linear_model.LinearRegression()任務(wù)解決方案第16行:擬合regr.fit(x,y)步驟二:使用一元線性回歸進行分析第15行:初始化線性回歸模型任務(wù)解決方案import
matplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False第14、15、16行:導入繪圖包,重命名為plt;設(shè)置字體等參數(shù)。第17、18、19、20行:設(shè)置圖表標題、軸標簽。步驟三:可視化展現(xiàn)plt.title('放映天數(shù)與票房關(guān)系圖(一元線性回歸)')plt.xlabel('放映天數(shù)’)plt.ylabel('日均票房/萬元')plt.scatter(x,y,color='black')第21行:畫出預測點,預測點顏色為紅色。plt.scatter(x,regr.predict(x),color='red',linewidth=1,marker='*’)plt.legend(['原始值','預測值'],loc=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國水果包裝袋行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國宮腔鏡數(shù)碼成像系統(tǒng)行業(yè)投資前景及策略咨詢研究報告
- 2025至2030年中國水楊酸硅烷醇C數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國制動繩數(shù)據(jù)監(jiān)測研究報告
- 二零二四萬科高品質(zhì)住宅區(qū)商品房買賣合同3篇
- 2024年首席運營官COO崗位聘任協(xié)議3篇
- 二零二四學校食堂特色菜系承包與研發(fā)合同3篇
- 2025年度企業(yè)并購重組財務(wù)盡職調(diào)查合同2篇
- 2019-2025年中國固廢污染防治市場前景預測及投資規(guī)劃研究報告
- 二零二五版礦產(chǎn)資源中介服務(wù)合同范本6篇
- 髖關(guān)節(jié)脫位-骨傷科
- 鐵路征地拆遷總結(jié)匯報
- 手術(shù)室護士的職業(yè)暴露及防護措施護理課件
- 水果店選址分析報告
- 人員測評與選拔的主要方法課件
- 智慧審計方案
- 企業(yè)信息化建設(shè)現(xiàn)狀與未來規(guī)劃匯報
- 工程開工報審表及工程開工報審表、開工報告
- 音樂協(xié)會管理制度
- 2024年水發(fā)集團有限公司招聘筆試參考題庫含答案解析
- 阿米巴落地實操方案
評論
0/150
提交評論