版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
《大數(shù)據(jù)技術(shù)綜合實訓2》教學大綱一、課程基本信息課程名稱大數(shù)據(jù)技術(shù)綜合實訓ComprehensiveActualTrainingOfBigDataTechnology課程編碼SCC320811030開課院部理學院課程團隊數(shù)據(jù)科學團隊學分3.0課內(nèi)學時3周講授0實驗0上機0實踐3周課外學時0適用專業(yè)數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)授課語言中文先修課程Python語言與實訓、大數(shù)據(jù)技術(shù)基礎實訓課程簡介(必修)《大數(shù)據(jù)技術(shù)綜合實訓》是數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)的一門必修課。通過本課程的實機操作,使學生掌握在本機與多臺機器集群執(zhí)行Spark應用程序,并運用MLlib機器學習演算法進行數(shù)據(jù)處理、訓練、建立模型、訓練驗證模型、預測結(jié)果。另外,以大數(shù)據(jù)實際案例示范使用SparkMLPipeline機器學習流程進行二元分類、多元分類、回歸分析,將機器學習的每一個步驟建立成Pipeline流程。通過對SparkMLlib機器學習算法和應用案例的研究,進一步鍛煉學生的動手能力,培養(yǎng)學生處理大數(shù)據(jù)問題的能力。TheComprehensiveTrainingofBigDataTechnologyisacompulsorycourseforthemajorofDataScienceandBigDataTechnology.Throughthereal-timeoperationofthiscourse,studentscanmasterhowtoexecuteSparkapplicationprogramwithmultiplemachineclustersontheirown,anduseMLlibmachinelearningalgorithmtoprocessdata,train,buildmodels,trainvalidationmodelsandpredictresults.Inaddition,weuseSparkMLPipelinemachinelearningprocesstocarryoutbinaryclassification,multipleclassificationandregressionanalysiswithlargedataexamples,andbuildeverystepofmachinelearningintoPipelineprocess.ThroughthestudyofSparkMLlibmachinelearningalgorithmandapplicationcases,thestudents'practicalabilityisfurthertrainedandtheirabilitytodealwithbigdataproblemsistrained.負責人大綱執(zhí)筆人審核人二、課程目標序號代號課程目標OBE畢業(yè)要求指標點任務自選1M1目標1:掌握在本機與多臺機器集群執(zhí)行Spark應用程序,系統(tǒng)掌握大數(shù)據(jù)技術(shù)的實驗方法,培養(yǎng)學生實踐實驗技能是3.22M2目標2:運用SparkMLlib和SparkMLPipeline機器學習流程進行二元分類、多元分類、回歸分析,能夠量化分析問題,具備分析和建立大數(shù)據(jù)模型的能力是3.2,4.23M3目標3:通過對SparkMLlib機器學習算法和應用案例的研究,進一步鍛煉學生的團隊協(xié)作能力,培養(yǎng)創(chuàng)新精神,訓練創(chuàng)新思維,培育創(chuàng)新創(chuàng)業(yè)實踐能力、科學研究能力和技術(shù)開發(fā)能力是7.2,8.1,8.24M4目標4:能保障課程正常秩序(政治層面、課堂保障層面,非學生能力層面)否三、課程內(nèi)容序號章節(jié)號標題課程內(nèi)容/重難點支撐課程目標課內(nèi)學時教學方式課外學時課外環(huán)節(jié)1第1章第1章Spark的介紹與安裝本章重點難點:不同模式下運行spark程序////21.11.1Spark的介紹與安裝Spark的介紹與安裝M10.25天講授、討論//31.21.2運行spark程序與SparkWebUI界面本地運行spark程序、在HadoopYARN運行spark、構(gòu)建SparkStandaloneCluster運行環(huán)境、在SparkStandalone運行spark、SparkWebUI界面M10.25天講授、討論//4實驗1實驗1:Spark的生態(tài)環(huán)境與安裝實驗Spark的生態(tài)環(huán)境與安裝實驗M10.5天實驗、上機//5第2章第2章SparkRDD本章重點難點:RDD“轉(zhuǎn)換”運算、RDD“動作”運算、Broadcast廣播變量、accumulator累加器、RDDPersistence持久化////62.12.1“轉(zhuǎn)換”運算基本RDD“轉(zhuǎn)換”運算、多個RDD“轉(zhuǎn)換”運算、RDDKey-Value基本“轉(zhuǎn)換”運算、多個RDDKey-Value“轉(zhuǎn)換”運算M10.25天講授、討論//72.22.2“動作”運算基本“動作”運算、Key-Value“動作”運算M10.25天講授、討論//82.32.3RDD相關(guān)概念Broadcast廣播變量、accumulator累加器、RDDPersistence持久化M10.25天講授、討論//92.72.4使用Spark創(chuàng)建WordCount使用Spark創(chuàng)建WordCountM10.25天講授、討論//10實驗2實驗2:SparkRDD實驗SparkRDD實驗M11天實驗、上機//11第3章第3章Spark的集成開發(fā)環(huán)境本章重點難點:PyDev和SCALA編程、不同模式下運行Spark程序/////123.13.1PyDev項目PyDev設置SparkPython鏈接庫、PyDev設置環(huán)境變量、WordCount.py程序、測試文件并上傳至HDFS目錄、在HadoopYARN-client上運行WordCount程序、在SparkStandaloneCluster上運行M10.25天講授、討論//133.23.2SCALA編程SCALA實現(xiàn)WordCount.py程序、測試文件并上傳至HDFS目錄、在HadoopYARN-client上運行WordCount程序M10.25天講授、討論//14實驗3實驗3:Spark的集成開發(fā)環(huán)境實驗Spark的集成開發(fā)環(huán)境實驗M10.5天實驗、上機//15第4章第4章SparkMLlib決策樹分類本章重點難點:SparkMLlib運行決策樹二元分類、SparkMLlib決策樹多元分類////164.14.1SparkMLlib決策樹分類SparkMLlib決策樹分類M1,M20.25天講授、討論//174.24.2“StumbleUponEvergreen”大數(shù)據(jù)問題數(shù)據(jù)搜集、數(shù)據(jù)準備、訓練模型、模型預測、模型準確率評估M1,M20.5天講授、討論//184.34.3“森林覆蓋植被”大數(shù)據(jù)問題數(shù)據(jù)搜集、數(shù)據(jù)準備、訓練模型、模型預測、模型準確率評估M1,M20.5天講授、討論//19實驗4實驗4:PythonSparkMLlib決策樹分類實訓PythonSparkMLlib決策樹分類實訓M2,M33天實驗、上機//20第5章第5章SparkMLPipeline機器學習流程分類本章重點難點:采用SparkMLPipeline實現(xiàn)隨機森林RandomForestClassier分類////215.15.1機器學習pipeline流程的組件建立機器學習pipeline流程、使用pipeline進行數(shù)據(jù)處理與訓練、使用pipelineModel進行預測、評估模型的準確率M1,M20.25天講授、討論//225.25.2使用隨機森林RandomForestClassier分類器使用隨機森林RandomForestClassier分類器M1,M20.5天講授、討論//235.35.3大數(shù)據(jù)問題SparkMLPipeline實訓對于大數(shù)據(jù)問題,可由教師和學生自行選擇M1,M20.5天講授、討論//24實驗5實驗5:SparkMLPipeline機器學習流程二元分類SCALA實現(xiàn)SparkMLPipeline機器學習流程二元分類M2,M33天實驗、上機//25第6章第6章SparkSQL、DataFrame、RDD數(shù)據(jù)統(tǒng)計與可視化本章重點難點:DataFrame、RDD數(shù)據(jù)統(tǒng)計與可視化////266.16.1RDD、DataFrame、SparkSQL數(shù)據(jù)整理與統(tǒng)計RDD、DataFrame、SparkSQL數(shù)據(jù)、顯示字段與增加計算字段、篩選數(shù)據(jù)、字段數(shù)據(jù)排序、分組統(tǒng)計數(shù)據(jù)、Join聯(lián)接數(shù)據(jù)M10.25天講授、討論//276.26.2大數(shù)據(jù)問題數(shù)據(jù)統(tǒng)計與可視化實訓對于大數(shù)據(jù)問題,可由教師和學生自行選擇M2,M30.25天講授、討論//28實驗6實驗6:數(shù)據(jù)統(tǒng)計與可視化實訓數(shù)據(jù)統(tǒng)計與可視化實訓M2,M32天實驗、上機//四、考核方式序號考核環(huán)節(jié)操作細節(jié)總評占比1實驗1.本課程3周實驗,共六次實驗。2.成績采用百分制,根據(jù)實驗完成情況評分。3.考核學生實機操作能力,使學生掌握在本機與多臺機器集群執(zhí)行Spark應用程序,并運用MLlib機器學習演算法進行數(shù)據(jù)處理、訓練、建立模型、訓練驗證模型、預測結(jié)果。60%2考勤隨機點名、刷卡點名等5%3課堂表現(xiàn)隨機檢查學生上課精神狀態(tài)、回答問題情況5%4大作業(yè)1.本課程要求利用Python語言工具建立研究對象的模型,兩到三人一組,以競賽組隊模式完成一道大數(shù)據(jù)競賽題目,并提交論文并答辯。2.根據(jù)模型建立情況、論文方案的準確性和個人在大作業(yè)的貢獻率評分。30%五、評分細則序號課程目標考核環(huán)節(jié)大致占比評分等級1M1實驗60%A-按時提交實驗報告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤。B-按時提交實驗報告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過程存在問題。D-未提交實驗報告或?qū)嶒瀳蟾娲嬖趪乐爻u現(xiàn)象。2M1大作業(yè)30%A-按時提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數(shù)據(jù)分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴重抄襲現(xiàn)象,未參加課程答辯。3M1課堂表現(xiàn)10%A-精神狀態(tài)飽滿,回答問題準確。B-精神狀態(tài)良好,問題回答較好。C-精神狀態(tài)一般,問題回答一般。D-很少參加課堂討論,精神狀態(tài)較差,回答問題有誤。4M2實驗60%A-按時提交實驗報告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤。B-按時提交實驗報告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過程存在問題。D-未提交實驗報告或?qū)嶒瀳蟾娲嬖趪乐爻u現(xiàn)象。5M2大作業(yè)40%A-按時提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數(shù)據(jù)分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴重抄襲現(xiàn)象,未參加課程答辯。6M3實驗50%A-按時提交實驗報告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤。B-按時提交實驗報告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過程存在問題。D-未提交實驗報告或?qū)嶒瀳蟾娲嬖趪乐爻u現(xiàn)象。7M3大作業(yè)50%A-按時提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無誤,課程答辯講解清楚,回答問題正確。B-按時提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問題基本正確。C-數(shù)據(jù)分析過程存在問題,課程答辯講解不清,回答問題有錯誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴重抄襲現(xiàn)象,未參加課程答辯。8M4考勤100%A-全勤。B-缺勤1次。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版三角高炮合同
- 專項公共區(qū)域裝飾裝修工程承包協(xié)議2024一
- 2025年國際合同第六號生皮國際貿(mào)易稅務籌劃合同3篇
- 二零二五年度餐飲企業(yè)員工培訓與職業(yè)發(fā)展規(guī)劃合同3篇
- 2024起重機安裝與運輸安全保障服務合同3篇
- 2025年度柴油發(fā)電機組租賃與維修保養(yǎng)合同4篇
- 2024石材荒料電子商務平臺合作協(xié)議6篇
- 個性化商標創(chuàng)作協(xié)議:2024版委托書版A版
- 2024版生鮮供應合同范本
- 2024金融居間服務的終止與解除合同
- 上海紐約大學自主招生面試試題綜合素質(zhì)答案技巧
- 辦公家具項目實施方案、供貨方案
- 2022年物流服務師職業(yè)技能競賽理論題庫(含答案)
- ?;钒踩僮饕?guī)程
- 連鎖遺傳和遺傳作圖
- DB63∕T 1885-2020 青海省城鎮(zhèn)老舊小區(qū)綜合改造技術(shù)規(guī)程
- 高邊坡施工危險源辨識及分析
- 中海地產(chǎn)設計管理程序
- 簡譜視唱15942
- 《城鎮(zhèn)燃氣設施運行、維護和搶修安全技術(shù)規(guī)程》(CJJ51-2006)
- 項目付款審核流程(visio流程圖)
評論
0/150
提交評論