版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章PySpark大數(shù)據(jù)分析概述教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):6學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)(1)理解大數(shù)據(jù)的核心概念,掌握大數(shù)據(jù)分析的基本流程。(2)了解大數(shù)據(jù)分析在不同應(yīng)用場景中的實(shí)際作用。(3)學(xué)習(xí)并介紹大數(shù)據(jù)技術(shù)體系的關(guān)鍵組成部分。(4)深入了解Spark大數(shù)據(jù)技術(shù)框架,包括其特點(diǎn)和運(yùn)行架構(gòu)。(5)掌握SparkRDD的概念和應(yīng)用。(6)熟悉Spark生態(tài)圈內(nèi)的各種工具和組件。(7)學(xué)習(xí)使用PySpark進(jìn)行大數(shù)據(jù)分析的方法。基本要求學(xué)習(xí)并理解大數(shù)據(jù)的概念和重要性,了解大數(shù)據(jù)分析的流程和應(yīng)用場景。學(xué)習(xí)并掌握Spark大數(shù)據(jù)技術(shù)框架的基本知識(shí)和特點(diǎn),了解Spark的運(yùn)行架構(gòu)和流程。了解開源大數(shù)據(jù)各類框架。學(xué)習(xí)并熟悉SparkRDD的概念和操作,了解Spark生態(tài)圈中的各個(gè)組件和工具。學(xué)習(xí)并學(xué)會(huì)使用PySpark進(jìn)行大數(shù)據(jù)分析,能夠應(yīng)用所學(xué)知識(shí)解決實(shí)際問題。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺悟的目的。什么是大數(shù)據(jù)?它在當(dāng)今時(shí)代的重要性是什么?大數(shù)據(jù)分析的流程包括哪些步驟?有哪些常見的應(yīng)用場景?說說開源大數(shù)據(jù)技術(shù)體系。Spark大數(shù)據(jù)技術(shù)框架有哪些特點(diǎn)?它的運(yùn)行架構(gòu)和流程是怎樣的?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。如何利用大數(shù)據(jù)分析來幫助企業(yè)做出更好的決策?請舉例說明。SparkRDD是什么?它與傳統(tǒng)的數(shù)據(jù)處理方法相比有哪些優(yōu)勢?PySpark在大數(shù)據(jù)分析中的應(yīng)用有哪些?請舉例說明。拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。除了Spark,還有哪些常用的大數(shù)據(jù)處理框架?它們之間有什么區(qū)別和優(yōu)劣?大數(shù)據(jù)技術(shù)在人工智能領(lǐng)域中有哪些應(yīng)用?請舉例說明。什么是Spark生態(tài)圈?企業(yè)如何運(yùn)用Spark構(gòu)建大數(shù)據(jù)架構(gòu)?主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)大數(shù)據(jù)的概念。大數(shù)據(jù)分析的概念。大數(shù)據(jù)分析的流程。大數(shù)據(jù)分析應(yīng)用場景。大數(shù)據(jù)技術(shù)體系。Spark技術(shù)框架簡介、特點(diǎn)、架構(gòu)及運(yùn)行流程。RDD產(chǎn)生背景、概念與特點(diǎn)、基本操作PySpark簡介及各功能子模塊。重點(diǎn)大數(shù)據(jù)分析的概念、流程與應(yīng)用場景。Spark技術(shù)框架簡介、特點(diǎn)、架構(gòu)及運(yùn)行流程。RDD概念與特點(diǎn)、基本操作。PySpark簡介及各功能子模塊。難點(diǎn)(1)Spark技術(shù)框架簡介、特點(diǎn)、架構(gòu)及運(yùn)行流程。(2)RDD概念與特點(diǎn)、基本操作。(3)PySpark簡介及各功能子模塊。教學(xué)過程設(shè)計(jì)理論教學(xué)過程大數(shù)據(jù)概念。大數(shù)據(jù)分析概念。大數(shù)據(jù)分析流程。大數(shù)據(jù)分析應(yīng)用場景。大數(shù)據(jù)分析技術(shù)體系。Spark簡介。Spark特點(diǎn)。Spark運(yùn)行架構(gòu)與流程。SparkRDD。Spark生態(tài)圈。PySpark簡介。PySpark子模塊。實(shí)驗(yàn)教學(xué)過程關(guān)于本章的RDD操作,請?jiān)趯W(xué)完第二章后自行完成。教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.第2章PySpark安裝配置教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):8學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)根據(jù)目前數(shù)據(jù)分析發(fā)展?fàn)顩r,將數(shù)據(jù)分析具象化。而后介紹數(shù)據(jù)分析的概念,流程,目的以及應(yīng)用場景。闡述使用Python進(jìn)行數(shù)據(jù)分析的優(yōu)勢。列舉說明Python數(shù)據(jù)分析重要庫的功能。緊接著闡述Anaconda簡介,實(shí)現(xiàn)在Windows和Linux兩個(gè)系統(tǒng)下Anaconda數(shù)據(jù)分析環(huán)境。最后展現(xiàn)Python數(shù)據(jù)分析工具JupyterNotebook的優(yōu)異特性及使用方法。為后學(xué)課程學(xué)習(xí)搭建數(shù)據(jù)分析環(huán)境,首先介紹在windows系統(tǒng)中搭建單機(jī)模式的數(shù)據(jù)分析環(huán)境,能夠運(yùn)行PySpark程序代碼;然后,介紹在Linux系統(tǒng)中搭建分布式模式的數(shù)據(jù)分析環(huán)境,了解Spark分布式模式的運(yùn)行機(jī)理,進(jìn)一步體會(huì)PySpark大數(shù)據(jù)處理能力。最后介紹Python中重要的數(shù)據(jù)結(jié)構(gòu)(元組、列表、字典)和函數(shù)式編程?;疽笳莆諉螜C(jī)模式和分布式模式下PySpark開發(fā)環(huán)境的搭建過程。熟悉Linux操作系統(tǒng)虛擬機(jī)的安裝過程。掌握單機(jī)模式和分布式模式下Hadoop集群配置。掌握分布式模式下Spark集群配置。掌握Python重要的數(shù)據(jù)結(jié)構(gòu)及函數(shù)編程。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺悟的目的。搭建單機(jī)模式的PySpark開發(fā)環(huán)境需要哪些組件。單機(jī)模式的PySpark開發(fā)環(huán)境有哪些優(yōu)缺點(diǎn)。搭建分布式模式的PySpark開發(fā)環(huán)境需要哪些組件。分布式模式的PySpark開發(fā)環(huán)境有哪些優(yōu)缺點(diǎn)。單機(jī)模式和分布式模式PySpark開發(fā)環(huán)境的應(yīng)用場景。探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問。或者是對引導(dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。單機(jī)模式中,安裝Hadoop組件的作用?大數(shù)據(jù)分析中數(shù)據(jù)庫與Hive的區(qū)別是什么?分布式模式中,計(jì)算機(jī)節(jié)點(diǎn)為什么要建立互信機(jī)制?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。分布式模式下,使用HDFS文件系統(tǒng)存儲(chǔ)大文件的優(yōu)勢。Spark與Hadoop進(jìn)行數(shù)據(jù)分析有哪些優(yōu)缺點(diǎn)。使用Python語言進(jìn)行數(shù)據(jù)分析的優(yōu)勢。主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)掌握單機(jī)模式和分布式模式下PySpark開發(fā)環(huán)境的搭建過程。安裝Linux操作系統(tǒng)虛擬機(jī)。開發(fā)環(huán)境中的各組件的安裝與配置。掌握Python重要的數(shù)據(jù)結(jié)構(gòu)及函數(shù)編程。重點(diǎn)搭建單機(jī)模式的PySpark開發(fā)環(huán)境。搭建分布式模式的PySpark開發(fā)環(huán)境。難點(diǎn)搭建分布式模式的PySpark開發(fā)環(huán)境。教學(xué)過程設(shè)計(jì)理論教學(xué)過程在Windows系統(tǒng)中安裝JDK。在Windows系統(tǒng)中安裝Anaconda。在Windows系統(tǒng)中安裝Hadoop。在Windows系統(tǒng)中安裝MySQL。在Windows系統(tǒng)中安裝Hive。在Windows系統(tǒng)中配置PySpark模塊。在Windows系統(tǒng)中安裝Linux虛擬機(jī)。在Linux系統(tǒng)中安裝Java。在Linux系統(tǒng)中搭建Hadoop分布式集群。在Linux系統(tǒng)中安裝MySQL數(shù)據(jù)庫。在Linux系統(tǒng)中安裝Hive數(shù)據(jù)倉庫。在Linux系統(tǒng)中搭建Spark完全分布式集群。Python中的常用數(shù)據(jù)結(jié)構(gòu)。Python函數(shù)式編程基礎(chǔ)。實(shí)驗(yàn)教學(xué)過程在Windows系統(tǒng)中安裝JDK。在Windows系統(tǒng)中安裝Anaconda。在Windows系統(tǒng)中安裝Hadoop。在Windows系統(tǒng)中安裝MySQL。在Windows系統(tǒng)中安裝Hive。在Windows系統(tǒng)中配置PySpark模塊。在Windows系統(tǒng)中安裝Linux虛擬機(jī)。在Linux系統(tǒng)中安裝Java。在Linux系統(tǒng)中搭建Hadoop分布式集群。在Linux系統(tǒng)中安裝MySQL數(shù)據(jù)庫。在Linux系統(tǒng)中安裝Hive數(shù)據(jù)倉庫。在Linux系統(tǒng)中搭建Spark完全分布式集群。教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.第3章基于PySpark的DataFrame操作教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):10學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)(1)了解SparkSQL的發(fā)展歷程和主要功能。(2)了解DataFrame概念。(3)了解pyspark.sql模塊及其核心類。(4)掌握基于PySparkSQL的DataFrame的創(chuàng)建方法。(5)掌握基于PySparkSQL的DataFrame的基礎(chǔ)操作。2.基本要求學(xué)習(xí)并理解SparkSQL的基本概念和功能。掌握DataFrame的創(chuàng)建、查詢和操作方法。學(xué)會(huì)使用pyspark.sql模塊進(jìn)行數(shù)據(jù)分析和預(yù)處理。能夠通過實(shí)例應(yīng)用所學(xué)知識(shí)解決實(shí)際問題。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺悟的目的。SparkSQL是如何集成關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫的查詢分析功能的?DataFrame在SparkSQL中扮演什么樣的角色?它有哪些優(yōu)勢?PySpark中的pyspark.sql模塊可以完成哪些任務(wù)?它的核心類有哪些?SparkSQL編程從創(chuàng)建什么對象開始?并說明如何創(chuàng)建該對象。探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。SparkSQL與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比有哪些優(yōu)勢和不足?在什么情況下應(yīng)該選擇使用DataFrame而不是RDD?為什么?如何利用PySparkSQL進(jìn)行數(shù)據(jù)預(yù)處理?請舉例說明。拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。除了SparkSQL,還有哪些其他工具或框架可以用于處理結(jié)構(gòu)化數(shù)據(jù)?它們與SparkSQL有何異同?在SparkSQL中,如何實(shí)現(xiàn)對數(shù)據(jù)進(jìn)行復(fù)雜的轉(zhuǎn)換和清洗操作?請舉例說明。在實(shí)施大數(shù)據(jù)分析項(xiàng)目時(shí),如何確定數(shù)據(jù)的存儲(chǔ)格式和處理框架?有哪些因素需要考慮?主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)SparkSQL的起源與發(fā)展歷程。SparkSQL主要功能。SparkSQL的數(shù)據(jù)抽象DataFrame。pyspark.sql模塊及其核心類。SparkSQL編程步驟。pyspark.sql創(chuàng)建SparkSession對象。pyspark.sqlDataFrame的創(chuàng)建方法。pyspark.sqlDataFrame基本操作的各類API。重點(diǎn)pyspark.sql創(chuàng)建SparkSession對象。pyspark.sqlDataFrame的創(chuàng)建方法。pyspark.sqlDataFrame基本操作的各類API。難點(diǎn)(1)pyspark.sqlDataFrame的創(chuàng)建方法。(2)pyspark.sqlDataFrame基本操作的各類API。教學(xué)過程設(shè)計(jì)理論教學(xué)過程SparkSQL的起源與發(fā)展歷程。SparkSQL主要功能。SparkSQL數(shù)據(jù)核心抽象DataFrame。pyspark.sql模塊簡介。pyspark.sql模塊核心類。創(chuàng)建DataFrame對象。DataFrame基礎(chǔ)操作(數(shù)據(jù)查看、數(shù)據(jù)處理、排序統(tǒng)計(jì)、合并、列操作等)。DataFrame輸出操作。實(shí)驗(yàn)教學(xué)過程網(wǎng)站搜索熱詞統(tǒng)計(jì)分析。大數(shù)據(jù)崗位招聘信息統(tǒng)計(jì)分析教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.第4章基于PySpark的流式數(shù)據(jù)處理教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):12學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)(1)了解SparkStreaming的基本概念、工作原理和運(yùn)行機(jī)制。(2)了解pyspark.streaming模塊主要類及核心類。(3)掌握基于PySpark的DStream創(chuàng)建、轉(zhuǎn)換、窗口和輸出操作。(4)了解StructuredStreaming基本概念及編程模型。(5)掌握StructuredStreaming基礎(chǔ)操作。(6)熟悉StructuredStreaming編程步驟。2.基本要求學(xué)習(xí)并理解SparkStreaming的基本概念、工作原理和運(yùn)行機(jī)制。掌握pyspark.streaming模塊的主要類及核心類,能熟練進(jìn)行DStream的創(chuàng)建、轉(zhuǎn)換、窗口和輸出操作。學(xué)習(xí)并理解StructuredStreaming的基本概念及編程模型,掌握其基礎(chǔ)操作和編程步驟。能夠通過實(shí)例分析,提高對SparkStreaming和StructuredStreaming的實(shí)際應(yīng)用能力。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺悟的目的。SparkStreaming的基本概念是什么?它的工作原理和運(yùn)行機(jī)制是怎樣的?pyspark.streaming模塊的主要類有哪些?它們的核心功能是什么?如何進(jìn)行DStream的創(chuàng)建、轉(zhuǎn)換、窗口和輸出操作?StructuredStreaming的基本概念是什么?它的編程模型是怎樣的?StructuredStreaming的基礎(chǔ)操作有哪些?它的編程步驟是怎樣的?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問。或者是對引導(dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。SparkStreaming與傳統(tǒng)的批處理相比有哪些優(yōu)勢和不足?在什么情況下應(yīng)該選擇使用DStream而不是DataFrame或Dataset?為什么?StructuredStreaming與SparkStreaming相比有哪些優(yōu)勢?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。除了SparkStreaming和StructuredStreaming,還有哪些其他框架可以用于處理流式數(shù)據(jù)?它們與SparkStreaming有何異同?SparkStreaming可以從哪些類型的數(shù)據(jù)源中讀取數(shù)據(jù)?請列舉幾個(gè)常見的數(shù)據(jù)來源,并簡單描述它們的特點(diǎn)。討論在什么樣的業(yè)務(wù)場景下更適合使用SparkStreaming,而在什么情況下更傾向于選擇StructuredStreaming。舉例說明兩者各自的優(yōu)勢和適用性。主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)流數(shù)據(jù)概念、流計(jì)算概念、主流的開源流式計(jì)算框架對比。SparkStreaming基本概念。SparkStreaming工作原理。SparkStreaming運(yùn)行機(jī)制。pyspark.streaming模塊核心類StreamingContext。pyspark.streaming模塊核心類DStream。DStream基本輸入源。DStream轉(zhuǎn)換操作(滑動(dòng)窗口操作、有狀態(tài)轉(zhuǎn)化操作)。DStream輸出操作。StructuredStreaming編程模型。StructuredStreaming輸入操作。StructuredStreaming轉(zhuǎn)換操作。StructuredStreaming輸出操作。StructuredStreaming窗口聚合操作。重點(diǎn)SparkStreaming工作原理。pyspark.streaming模塊核心類StreamingContext。pyspark.streaming模塊核心類DStream。DStream基本輸入源。DStream轉(zhuǎn)換操作(滑動(dòng)窗口操作、有狀態(tài)轉(zhuǎn)化操作)。StructuredStreaming編程模型。難點(diǎn)(1)DStream轉(zhuǎn)換操作(滑動(dòng)窗口操作、有狀態(tài)轉(zhuǎn)化操作)。(2)StructuredStreaming輸入操作。(3)StructuredStreaming轉(zhuǎn)換操作(4)StructuredStreaming輸出操作。(5)StructuredStreaming窗口聚合操作。教學(xué)過程設(shè)計(jì)理論教學(xué)過程流計(jì)算簡介。SparkStreaming基本概念。SparkStreaming工作原理。SparkStreaming運(yùn)行機(jī)制。pyspark.streaming模塊簡介。pyspark.streaming模塊核心類。DStream基礎(chǔ)操作。StructuredStreaming概述。StructuredStreaming編程模型。StructuredStreaming基礎(chǔ)操作。StructuredStreaming編程步驟。實(shí)驗(yàn)教學(xué)過程使用SparkStreaming實(shí)現(xiàn)菜品價(jià)格實(shí)時(shí)計(jì)算。使用SparkStreaming實(shí)時(shí)判別車輛所屬地。教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.第5章基于PySpark的機(jī)器學(xué)習(xí)庫教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):12學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,融合人工智能、概率統(tǒng)計(jì)、控制論、信息論等多門學(xué)科,研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。本課程重點(diǎn)介紹機(jī)器學(xué)習(xí)中的常見算法和理論,并通過編程練習(xí)和典型應(yīng)用實(shí)例加深理解;同時(shí)了解機(jī)器學(xué)習(xí)的一般理論,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、數(shù)據(jù)標(biāo)準(zhǔn)化、無監(jiān)督學(xué)習(xí)理論和強(qiáng)化學(xué)習(xí)理論?;疽笳莆諜C(jī)器學(xué)習(xí)的一般原理及相關(guān)概念。熟悉PySpark中的轉(zhuǎn)化器對數(shù)據(jù)的處理和轉(zhuǎn)換。掌握分類模型及使用PySpark構(gòu)建分類模型。掌握回歸模型及使用PySpark構(gòu)建回歸模型。掌握聚類模型及使用PySpark構(gòu)建聚類模型。掌握智能推薦模型及使用PySpark構(gòu)建智能推薦模型。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺悟的目的。計(jì)算機(jī)通過什么方法進(jìn)行學(xué)習(xí),獲取人類的知識(shí)或經(jīng)驗(yàn)。計(jì)算機(jī)進(jìn)行機(jī)器學(xué)習(xí)時(shí)對數(shù)據(jù)有什么要求,數(shù)據(jù)是否需要提前處理。機(jī)器學(xué)習(xí)的度量標(biāo)準(zhǔn)有哪些?機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)。探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問?;蛘呤菍σ龑?dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。機(jī)器學(xué)習(xí)中的容量、欠擬合和過擬合。機(jī)器學(xué)習(xí)前數(shù)據(jù)的預(yù)處理。機(jī)器學(xué)習(xí)不同算法的應(yīng)用場景。機(jī)器學(xué)習(xí)不同模型的性能度量標(biāo)準(zhǔn)。機(jī)器學(xué)習(xí)中的超參數(shù)與驗(yàn)證集。拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。數(shù)據(jù)降維的方法。模型的正則化。為什么傳統(tǒng)機(jī)器學(xué)習(xí)算法處理高維數(shù)據(jù)時(shí),在新樣本上泛化能力不強(qiáng)?傳統(tǒng)機(jī)器學(xué)習(xí)中實(shí)現(xiàn)泛化的機(jī)制不適合學(xué)習(xí)高維空間中的復(fù)雜函數(shù)?神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的優(yōu)勢。主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)了解機(jī)器學(xué)習(xí)的一般理論。掌握PySpark中的轉(zhuǎn)化器機(jī)制。掌握數(shù)據(jù)標(biāo)準(zhǔn)化的方法。使用PySpark構(gòu)建分類、回歸、聚類和智能推薦模型。重點(diǎn)使用PySpark構(gòu)建分類模型。使用PySpark構(gòu)建回歸模型。使用PySpark構(gòu)建聚類模型。使用PySpark構(gòu)建智能推薦模型。難點(diǎn)使用PySpark構(gòu)建智能推薦模型。教學(xué)過程設(shè)計(jì)理論教學(xué)過程介紹機(jī)器學(xué)習(xí)基本概念。介紹pyspark.ml模塊。介紹pyspark.ml模塊中的轉(zhuǎn)化器。數(shù)據(jù)加載及數(shù)據(jù)集劃分。數(shù)據(jù)降維。數(shù)據(jù)標(biāo)準(zhǔn)化。使用PySpark構(gòu)建并評估分類模型。使用PySpark構(gòu)建并評估回歸模型。使用PySpark構(gòu)建并評估聚類模型。使用PySpark構(gòu)建并評估智能推薦模型。實(shí)驗(yàn)教學(xué)過程數(shù)據(jù)加載及數(shù)據(jù)集劃分?jǐn)?shù)據(jù)降維。數(shù)據(jù)標(biāo)準(zhǔn)化使用PySpark構(gòu)建并評估分類模型。使用PySpark構(gòu)建并評估回歸模型。使用PySpark構(gòu)建并評估聚類模型。使用PySpark構(gòu)建并評估智能推薦模型教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.6章案例分析:基于PySpark的網(wǎng)絡(luò)招聘信息的職業(yè)類型劃分教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):8學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)本章基于Spark的PythonAPI,以非結(jié)構(gòu)化的網(wǎng)絡(luò)招聘信息為基礎(chǔ),從業(yè)務(wù)需求與系統(tǒng)架構(gòu)分析開始介紹,然后介紹數(shù)據(jù)探索(包括數(shù)據(jù)說明、數(shù)據(jù)讀取、重復(fù)數(shù)據(jù)與空值探索、異常數(shù)據(jù)探索),接著介紹數(shù)據(jù)預(yù)處理(包括處理空值、重復(fù)數(shù)據(jù)與異常值,分詞與停用詞過濾,詞特征向量化),再介紹模型構(gòu)建與評估,最終介紹制作詞云圖,可視化展示劃分的結(jié)果,分析每種職業(yè)類型的崗位描述和能力要求,從而為求職者提供針對性的就業(yè)指導(dǎo)。基本要求了解網(wǎng)絡(luò)招聘信息文本挖掘的步驟與流程。掌握數(shù)據(jù)探索、預(yù)處理的基本方法。熟悉TF-IDF的基本原理及其在SparkMLlib庫中的實(shí)現(xiàn)過程。了解LDA聚類算法,并掌握SparkMLlib庫的LDA聚類算法的使用方法。掌握LDA聚類模型的構(gòu)建與部署方法。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題,啟發(fā)引導(dǎo)學(xué)生去解決問題,提問,從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺悟的目的。數(shù)據(jù)探索能夠做什么?文本數(shù)據(jù)預(yù)處理的基本方法有哪些?TF-IDF算法的基本原理是什么,適用于哪些場景?LDA模型的原理是什么,其應(yīng)用場景包括哪些?探究性問題探究性問題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問的角度或者在引導(dǎo)性提問的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問題切入,進(jìn)行插入式提問。或者是對引導(dǎo)式提問中尚未涉及但在課文中又是重要的問題加以設(shè)問。網(wǎng)絡(luò)招聘信息文本挖掘的步驟與完整流程是怎樣的?Spark數(shù)據(jù)分析的能夠應(yīng)用在那些場景?SparkMLlib庫在大數(shù)據(jù)分析中有哪些應(yīng)用場景,有哪些優(yōu)缺點(diǎn)?拓展性問題拓展性問題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問題。Spark數(shù)據(jù)分析是不是萬能的?Spark語言用于做數(shù)據(jù)分析有哪些優(yōu)勢?主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)網(wǎng)絡(luò)招聘信息文本挖掘的基本步驟與流程。數(shù)據(jù)探索的基本方法。數(shù)據(jù)預(yù)處理的基本方法。TF-IDF的基本原理。LDA聚類算法的基本原理。 重點(diǎn)網(wǎng)絡(luò)招聘信息文本挖掘的基本步驟與流程。TF-IDF算法在SparkMLlib庫中的實(shí)現(xiàn)過程。SparkMLlib庫的LDA聚類算法的使用方法。難點(diǎn)網(wǎng)絡(luò)招聘信息文本挖掘的步驟與流程。LDA聚類模型的構(gòu)建與部署方法。教學(xué)過程設(shè)計(jì)理論教學(xué)過程網(wǎng)絡(luò)招聘信息文本挖掘的步驟與流程。數(shù)據(jù)探索的基本方法。數(shù)據(jù)預(yù)處理的基本方法。中文分詞與去停用詞的基本方法。TF-IDF的基本原理。LDA聚類算法的基本原理。使用WordCloud繪制詞云圖的方法。實(shí)驗(yàn)教學(xué)過程網(wǎng)絡(luò)招聘信息的數(shù)據(jù)探索。網(wǎng)絡(luò)招聘信息的數(shù)據(jù)清洗,以及中文分詞、去停用詞等預(yù)處理實(shí)現(xiàn)。TF-IDF算法在SparkMLlib庫中的實(shí)現(xiàn)過程。SparkMLlib庫的LDA聚類算法的使用方法。教材與參考資料教材戴剛,張良均.《PySpark大數(shù)據(jù)分析與應(yīng)用》[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張良均.Hadoop與大數(shù)據(jù)挖掘(第2版)[M].北京:機(jī)械工業(yè)出版社.2022.[3] 曾文權(quán),張良均.Python數(shù)據(jù)分析與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[4] 張良均,譚立云.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)[M].北京:機(jī)械工業(yè)出版社.2019.第7章案例分析基于PySpark的信用貸款風(fēng)險(xiǎn)分析教案課程名稱:PySpark大數(shù)據(jù)分析與應(yīng)用課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):8學(xué)時(shí)材料清單《PySpark大數(shù)據(jù)分析與應(yīng)用》教材。配套PPT。引導(dǎo)性提問。探究性問題。拓展性問題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)本章結(jié)合企業(yè)真實(shí)案例,培養(yǎng)學(xué)生運(yùn)用所學(xué)知識(shí)解決問題的能力,提高分析、判斷和創(chuàng)新能力。同時(shí)培養(yǎng)學(xué)生的合作精神和溝通能力。在案例教學(xué)過程中,引導(dǎo)學(xué)生根據(jù)所給的案例數(shù)據(jù)進(jìn)行分析、推理和判斷、找到解決問題的方法的策略,包括數(shù)據(jù)探索分析、數(shù)據(jù)預(yù)處理、數(shù)據(jù)特征選擇,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)劃分、預(yù)測模型選擇和訓(xùn)練、模型的驗(yàn)證。通過案例教學(xué),培養(yǎng)學(xué)生解決問題的能力;通過編程練習(xí)和應(yīng)用實(shí)例加深對機(jī)器學(xué)習(xí)理論的理解,更好地御用所學(xué)的知識(shí)和技能。基本要求掌握數(shù)據(jù)探索與數(shù)據(jù)預(yù)處理的操作過程。掌握使用PySpark編程實(shí)現(xiàn)分類模型。了解GBTs分類模型。掌握分類模型的評估。問題引導(dǎo)性提問引導(dǎo)性提問需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問題
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度土地承包經(jīng)營權(quán)流轉(zhuǎn)服務(wù)合同3篇
- 2025年度生物制藥企業(yè)原材料采購合同3篇
- 2025年牧民草場承包經(jīng)營權(quán)轉(zhuǎn)讓合同范本4篇
- 二零二五年度木制家具定制木工分包合同范本3篇
- 2025年度特種門采購安裝與維護(hù)合同4篇
- 2025年度魚塘租賃合同(含漁業(yè)設(shè)施維護(hù)及更新)4篇
- 2025年度文化產(chǎn)業(yè)園項(xiàng)目承包合同2篇
- 2025年度城市綜合體鋪面租賃運(yùn)營管理合同4篇
- 二零二五年度會(huì)議室裝修合同:環(huán)保節(jié)能材料應(yīng)用2篇
- 二零二五年度門面租賃合同糾紛處理辦法4篇
- 《健康體檢知識(shí)》課件
- 生產(chǎn)計(jì)劃主管述職報(bào)告
- 名表買賣合同協(xié)議書
- JTG-T-F20-2015公路路面基層施工技術(shù)細(xì)則
- 2024年遼寧石化職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
- 中西方校服文化差異研究
- 《子宮肉瘤》課件
- 《準(zhǔn)媽媽衣食住行》課件
- 給男友的道歉信10000字(十二篇)
- 客人在酒店受傷免責(zé)承諾書范本
- 練字本方格模板
評論
0/150
提交評論