《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)2》課程教學(xué)大綱_第1頁(yè)
《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)2》課程教學(xué)大綱_第2頁(yè)
《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)2》課程教學(xué)大綱_第3頁(yè)
《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)2》課程教學(xué)大綱_第4頁(yè)
《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)2》課程教學(xué)大綱_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)2》教學(xué)大綱一、課程基本信息課程名稱大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)ComprehensiveActualTrainingOfBigDataTechnology課程編碼SCC320811030開(kāi)課院部理學(xué)院課程團(tuán)隊(duì)數(shù)據(jù)科學(xué)團(tuán)隊(duì)學(xué)分3.0課內(nèi)學(xué)時(shí)3周講授0實(shí)驗(yàn)0上機(jī)0實(shí)踐3周課外學(xué)時(shí)0適用專業(yè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)授課語(yǔ)言中文先修課程Python語(yǔ)言與實(shí)訓(xùn)、大數(shù)據(jù)技術(shù)基礎(chǔ)實(shí)訓(xùn)課程簡(jiǎn)介(必修)《大數(shù)據(jù)技術(shù)綜合實(shí)訓(xùn)》是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的一門(mén)必修課。通過(guò)本課程的實(shí)機(jī)操作,使學(xué)生掌握在本機(jī)與多臺(tái)機(jī)器集群執(zhí)行Spark應(yīng)用程序,并運(yùn)用MLlib機(jī)器學(xué)習(xí)演算法進(jìn)行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗(yàn)證模型、預(yù)測(cè)結(jié)果。另外,以大數(shù)據(jù)實(shí)際案例示范使用SparkMLPipeline機(jī)器學(xué)習(xí)流程進(jìn)行二元分類、多元分類、回歸分析,將機(jī)器學(xué)習(xí)的每一個(gè)步驟建立成Pipeline流程。通過(guò)對(duì)SparkMLlib機(jī)器學(xué)習(xí)算法和應(yīng)用案例的研究,進(jìn)一步鍛煉學(xué)生的動(dòng)手能力,培養(yǎng)學(xué)生處理大數(shù)據(jù)問(wèn)題的能力。TheComprehensiveTrainingofBigDataTechnologyisacompulsorycourseforthemajorofDataScienceandBigDataTechnology.Throughthereal-timeoperationofthiscourse,studentscanmasterhowtoexecuteSparkapplicationprogramwithmultiplemachineclustersontheirown,anduseMLlibmachinelearningalgorithmtoprocessdata,train,buildmodels,trainvalidationmodelsandpredictresults.Inaddition,weuseSparkMLPipelinemachinelearningprocesstocarryoutbinaryclassification,multipleclassificationandregressionanalysiswithlargedataexamples,andbuildeverystepofmachinelearningintoPipelineprocess.ThroughthestudyofSparkMLlibmachinelearningalgorithmandapplicationcases,thestudents'practicalabilityisfurthertrainedandtheirabilitytodealwithbigdataproblemsistrained.負(fù)責(zé)人大綱執(zhí)筆人審核人二、課程目標(biāo)序號(hào)代號(hào)課程目標(biāo)OBE畢業(yè)要求指標(biāo)點(diǎn)任務(wù)自選1M1目標(biāo)1:掌握在本機(jī)與多臺(tái)機(jī)器集群執(zhí)行Spark應(yīng)用程序,系統(tǒng)掌握大數(shù)據(jù)技術(shù)的實(shí)驗(yàn)方法,培養(yǎng)學(xué)生實(shí)踐實(shí)驗(yàn)技能是3.22M2目標(biāo)2:運(yùn)用SparkMLlib和SparkMLPipeline機(jī)器學(xué)習(xí)流程進(jìn)行二元分類、多元分類、回歸分析,能夠量化分析問(wèn)題,具備分析和建立大數(shù)據(jù)模型的能力是3.2,4.23M3目標(biāo)3:通過(guò)對(duì)SparkMLlib機(jī)器學(xué)習(xí)算法和應(yīng)用案例的研究,進(jìn)一步鍛煉學(xué)生的團(tuán)隊(duì)協(xié)作能力,培養(yǎng)創(chuàng)新精神,訓(xùn)練創(chuàng)新思維,培育創(chuàng)新創(chuàng)業(yè)實(shí)踐能力、科學(xué)研究能力和技術(shù)開(kāi)發(fā)能力是7.2,8.1,8.24M4目標(biāo)4:能保障課程正常秩序(政治層面、課堂保障層面,非學(xué)生能力層面)否三、課程內(nèi)容序號(hào)章節(jié)號(hào)標(biāo)題課程內(nèi)容/重難點(diǎn)支撐課程目標(biāo)課內(nèi)學(xué)時(shí)教學(xué)方式課外學(xué)時(shí)課外環(huán)節(jié)1第1章第1章Spark的介紹與安裝本章重點(diǎn)難點(diǎn):不同模式下運(yùn)行spark程序////21.11.1Spark的介紹與安裝Spark的介紹與安裝M10.25天講授、討論//31.21.2運(yùn)行spark程序與SparkWebUI界面本地運(yùn)行spark程序、在HadoopYARN運(yùn)行spark、構(gòu)建SparkStandaloneCluster運(yùn)行環(huán)境、在SparkStandalone運(yùn)行spark、SparkWebUI界面M10.25天講授、討論//4實(shí)驗(yàn)1實(shí)驗(yàn)1:Spark的生態(tài)環(huán)境與安裝實(shí)驗(yàn)Spark的生態(tài)環(huán)境與安裝實(shí)驗(yàn)M10.5天實(shí)驗(yàn)、上機(jī)//5第2章第2章SparkRDD本章重點(diǎn)難點(diǎn):RDD“轉(zhuǎn)換”運(yùn)算、RDD“動(dòng)作”運(yùn)算、Broadcast廣播變量、accumulator累加器、RDDPersistence持久化////62.12.1“轉(zhuǎn)換”運(yùn)算基本RDD“轉(zhuǎn)換”運(yùn)算、多個(gè)RDD“轉(zhuǎn)換”運(yùn)算、RDDKey-Value基本“轉(zhuǎn)換”運(yùn)算、多個(gè)RDDKey-Value“轉(zhuǎn)換”運(yùn)算M10.25天講授、討論//72.22.2“動(dòng)作”運(yùn)算基本“動(dòng)作”運(yùn)算、Key-Value“動(dòng)作”運(yùn)算M10.25天講授、討論//82.32.3RDD相關(guān)概念Broadcast廣播變量、accumulator累加器、RDDPersistence持久化M10.25天講授、討論//92.72.4使用Spark創(chuàng)建WordCount使用Spark創(chuàng)建WordCountM10.25天講授、討論//10實(shí)驗(yàn)2實(shí)驗(yàn)2:SparkRDD實(shí)驗(yàn)SparkRDD實(shí)驗(yàn)M11天實(shí)驗(yàn)、上機(jī)//11第3章第3章Spark的集成開(kāi)發(fā)環(huán)境本章重點(diǎn)難點(diǎn):PyDev和SCALA編程、不同模式下運(yùn)行Spark程序/////123.13.1PyDev項(xiàng)目PyDev設(shè)置SparkPython鏈接庫(kù)、PyDev設(shè)置環(huán)境變量、WordCount.py程序、測(cè)試文件并上傳至HDFS目錄、在HadoopYARN-client上運(yùn)行WordCount程序、在SparkStandaloneCluster上運(yùn)行M10.25天講授、討論//133.23.2SCALA編程SCALA實(shí)現(xiàn)WordCount.py程序、測(cè)試文件并上傳至HDFS目錄、在HadoopYARN-client上運(yùn)行WordCount程序M10.25天講授、討論//14實(shí)驗(yàn)3實(shí)驗(yàn)3:Spark的集成開(kāi)發(fā)環(huán)境實(shí)驗(yàn)Spark的集成開(kāi)發(fā)環(huán)境實(shí)驗(yàn)M10.5天實(shí)驗(yàn)、上機(jī)//15第4章第4章SparkMLlib決策樹(shù)分類本章重點(diǎn)難點(diǎn):SparkMLlib運(yùn)行決策樹(shù)二元分類、SparkMLlib決策樹(shù)多元分類////164.14.1SparkMLlib決策樹(shù)分類SparkMLlib決策樹(shù)分類M1,M20.25天講授、討論//174.24.2“StumbleUponEvergreen”大數(shù)據(jù)問(wèn)題數(shù)據(jù)搜集、數(shù)據(jù)準(zhǔn)備、訓(xùn)練模型、模型預(yù)測(cè)、模型準(zhǔn)確率評(píng)估M1,M20.5天講授、討論//184.34.3“森林覆蓋植被”大數(shù)據(jù)問(wèn)題數(shù)據(jù)搜集、數(shù)據(jù)準(zhǔn)備、訓(xùn)練模型、模型預(yù)測(cè)、模型準(zhǔn)確率評(píng)估M1,M20.5天講授、討論//19實(shí)驗(yàn)4實(shí)驗(yàn)4:PythonSparkMLlib決策樹(shù)分類實(shí)訓(xùn)PythonSparkMLlib決策樹(shù)分類實(shí)訓(xùn)M2,M33天實(shí)驗(yàn)、上機(jī)//20第5章第5章SparkMLPipeline機(jī)器學(xué)習(xí)流程分類本章重點(diǎn)難點(diǎn):采用SparkMLPipeline實(shí)現(xiàn)隨機(jī)森林RandomForestClassier分類////215.15.1機(jī)器學(xué)習(xí)pipeline流程的組件建立機(jī)器學(xué)習(xí)pipeline流程、使用pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練、使用pipelineModel進(jìn)行預(yù)測(cè)、評(píng)估模型的準(zhǔn)確率M1,M20.25天講授、討論//225.25.2使用隨機(jī)森林RandomForestClassier分類器使用隨機(jī)森林RandomForestClassier分類器M1,M20.5天講授、討論//235.35.3大數(shù)據(jù)問(wèn)題SparkMLPipeline實(shí)訓(xùn)對(duì)于大數(shù)據(jù)問(wèn)題,可由教師和學(xué)生自行選擇M1,M20.5天講授、討論//24實(shí)驗(yàn)5實(shí)驗(yàn)5:SparkMLPipeline機(jī)器學(xué)習(xí)流程二元分類SCALA實(shí)現(xiàn)SparkMLPipeline機(jī)器學(xué)習(xí)流程二元分類M2,M33天實(shí)驗(yàn)、上機(jī)//25第6章第6章SparkSQL、DataFrame、RDD數(shù)據(jù)統(tǒng)計(jì)與可視化本章重點(diǎn)難點(diǎn):DataFrame、RDD數(shù)據(jù)統(tǒng)計(jì)與可視化////266.16.1RDD、DataFrame、SparkSQL數(shù)據(jù)整理與統(tǒng)計(jì)RDD、DataFrame、SparkSQL數(shù)據(jù)、顯示字段與增加計(jì)算字段、篩選數(shù)據(jù)、字段數(shù)據(jù)排序、分組統(tǒng)計(jì)數(shù)據(jù)、Join聯(lián)接數(shù)據(jù)M10.25天講授、討論//276.26.2大數(shù)據(jù)問(wèn)題數(shù)據(jù)統(tǒng)計(jì)與可視化實(shí)訓(xùn)對(duì)于大數(shù)據(jù)問(wèn)題,可由教師和學(xué)生自行選擇M2,M30.25天講授、討論//28實(shí)驗(yàn)6實(shí)驗(yàn)6:數(shù)據(jù)統(tǒng)計(jì)與可視化實(shí)訓(xùn)數(shù)據(jù)統(tǒng)計(jì)與可視化實(shí)訓(xùn)M2,M32天實(shí)驗(yàn)、上機(jī)//四、考核方式序號(hào)考核環(huán)節(jié)操作細(xì)節(jié)總評(píng)占比1實(shí)驗(yàn)1.本課程3周實(shí)驗(yàn),共六次實(shí)驗(yàn)。2.成績(jī)采用百分制,根據(jù)實(shí)驗(yàn)完成情況評(píng)分。3.考核學(xué)生實(shí)機(jī)操作能力,使學(xué)生掌握在本機(jī)與多臺(tái)機(jī)器集群執(zhí)行Spark應(yīng)用程序,并運(yùn)用MLlib機(jī)器學(xué)習(xí)演算法進(jìn)行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗(yàn)證模型、預(yù)測(cè)結(jié)果。60%2考勤隨機(jī)點(diǎn)名、刷卡點(diǎn)名等5%3課堂表現(xiàn)隨機(jī)檢查學(xué)生上課精神狀態(tài)、回答問(wèn)題情況5%4大作業(yè)1.本課程要求利用Python語(yǔ)言工具建立研究對(duì)象的模型,兩到三人一組,以競(jìng)賽組隊(duì)模式完成一道大數(shù)據(jù)競(jìng)賽題目,并提交論文并答辯。2.根據(jù)模型建立情況、論文方案的準(zhǔn)確性和個(gè)人在大作業(yè)的貢獻(xiàn)率評(píng)分。30%五、評(píng)分細(xì)則序號(hào)課程目標(biāo)考核環(huán)節(jié)大致占比評(píng)分等級(jí)1M1實(shí)驗(yàn)60%A-按時(shí)提交實(shí)驗(yàn)報(bào)告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無(wú)誤。B-按時(shí)提交實(shí)驗(yàn)報(bào)告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過(guò)程存在問(wèn)題。D-未提交實(shí)驗(yàn)報(bào)告或?qū)嶒?yàn)報(bào)告存在嚴(yán)重抄襲現(xiàn)象。2M1大作業(yè)30%A-按時(shí)提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無(wú)誤,課程答辯講解清楚,回答問(wèn)題正確。B-按時(shí)提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問(wèn)題基本正確。C-數(shù)據(jù)分析過(guò)程存在問(wèn)題,課程答辯講解不清,回答問(wèn)題有錯(cuò)誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴(yán)重抄襲現(xiàn)象,未參加課程答辯。3M1課堂表現(xiàn)10%A-精神狀態(tài)飽滿,回答問(wèn)題準(zhǔn)確。B-精神狀態(tài)良好,問(wèn)題回答較好。C-精神狀態(tài)一般,問(wèn)題回答一般。D-很少參加課堂討論,精神狀態(tài)較差,回答問(wèn)題有誤。4M2實(shí)驗(yàn)60%A-按時(shí)提交實(shí)驗(yàn)報(bào)告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無(wú)誤。B-按時(shí)提交實(shí)驗(yàn)報(bào)告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過(guò)程存在問(wèn)題。D-未提交實(shí)驗(yàn)報(bào)告或?qū)嶒?yàn)報(bào)告存在嚴(yán)重抄襲現(xiàn)象。5M2大作業(yè)40%A-按時(shí)提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無(wú)誤,課程答辯講解清楚,回答問(wèn)題正確。B-按時(shí)提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問(wèn)題基本正確。C-數(shù)據(jù)分析過(guò)程存在問(wèn)題,課程答辯講解不清,回答問(wèn)題有錯(cuò)誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴(yán)重抄襲現(xiàn)象,未參加課程答辯。6M3實(shí)驗(yàn)50%A-按時(shí)提交實(shí)驗(yàn)報(bào)告,數(shù)據(jù)分析符合規(guī)范,結(jié)論無(wú)誤。B-按時(shí)提交實(shí)驗(yàn)報(bào)告,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確。C-數(shù)據(jù)分析過(guò)程存在問(wèn)題。D-未提交實(shí)驗(yàn)報(bào)告或?qū)嶒?yàn)報(bào)告存在嚴(yán)重抄襲現(xiàn)象。7M3大作業(yè)50%A-按時(shí)提交大作業(yè)論文,數(shù)據(jù)分析符合規(guī)范,結(jié)論無(wú)誤,課程答辯講解清楚,回答問(wèn)題正確。B-按時(shí)提交大作業(yè)論文,數(shù)據(jù)分析基本規(guī)范,結(jié)論基本正確,課程答辯講解較清楚,回答問(wèn)題基本正確。C-數(shù)據(jù)分析過(guò)程存在問(wèn)題,課程答辯講解不清,回答問(wèn)題有錯(cuò)誤。D-未提交大作業(yè)論文或大作業(yè)論文存在嚴(yán)重抄襲現(xiàn)象,未參加課程答辯。8M4考勤100%A-全勤。B-缺勤1次。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論