版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
項目4基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析教案課程名稱:Spark大數(shù)據(jù)技術實務課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論32學時,實驗32學時)總學分:4.0學分本章學時:8學時材料清單《Spark大數(shù)據(jù)技術實務》教材。配套PPT。引導性提問。探究性問題。拓展性問題。教學目標與基本要求教學目標首先介紹SparkSQL的功能及運行過程,并介紹SparkSQLCLI的配置方法和SparkSQL與Shell交互;接著詳細介紹通過結構化數(shù)據(jù)文件、外部數(shù)據(jù)庫、RDD及Hive中的表4種方式創(chuàng)建DataFrame對象;最后介紹DataFrame數(shù)據(jù)的查看以及DataFrame的行列表查詢操作?;谥R介紹,根據(jù)廣告流量檢測數(shù)據(jù)創(chuàng)建DataFrame,通過DataFrame的查詢操作對廣告流量檢測數(shù)據(jù)進行基本數(shù)據(jù)查詢、缺失值分析以及特征字段進行探索分析?;诒卷椖繑?shù)據(jù)探索分析的結果,能夠更好地開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模工作?;疽罅私釹parkSQL框架的功能及運行過程。了解SparkSQL與Shell交互。掌握SparkSQL的可編程數(shù)據(jù)模型DataFrame的創(chuàng)建、查詢等操作方法。能夠配置SparkSQLCLI,提供SparkSQL與Shell交互環(huán)境。能夠通過不同數(shù)據(jù)源創(chuàng)建DataFrame。能夠實現(xiàn)DataFrame數(shù)據(jù)及行列表的查詢操作。問題引導性提問引導性提問需要教師根據(jù)教材內容和學生實際水平,提出問題,啟發(fā)引導學生去解決問題,提問,從而達到理解、掌握知識,發(fā)展各種能力和提高思想覺悟的目的。SparkSQL和HiveSQL有什么區(qū)別?什么是DataFrame?DataFrame的相關操作有哪些?探究性問題探究性問題需要教師深入鉆研教材的基礎上精心設計,提問的角度或者在引導性提問的基礎上,從重點、難點問題切入,進行插入式提問?;蛘呤菍σ龑教釂栔猩形瓷婕暗谡n文中又是重要的問題加以設問。如何實現(xiàn)SparkSQL跟Hive的交互?DataFrame行列式是什么?有些查詢操作?數(shù)據(jù)探索分析有哪些要點?拓展性問題拓展性問題需要教師深刻理解教材的意義,學生的學習動態(tài)后,根據(jù)學生學習層次,提出切實可行的關乎實際的可操作問題。亦可以提供拓展資料供學生研習探討,完成拓展性問題。Scala語言中的DataFrame和Python語言中的DataFrame有何區(qū)別?能否使用Python語言實現(xiàn)Spark分析操作?主要知識點、重點與難點主要知識點SparkSQL簡介。配置SparkSQLCLI。SparkSQL與Shell交互。通過結構化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。讀取數(shù)據(jù)創(chuàng)建DataFrame對象。簡單查詢DataFrame數(shù)據(jù)。探索分析日流量特征。探索分析IP地址的訪問次數(shù)特征。探索分析虛假流量數(shù)據(jù)特征。重點配置SparkSQLCLI。DataFrame的創(chuàng)建、數(shù)據(jù)查看、行列表查詢操作。難點DataFrame的創(chuàng)建、數(shù)據(jù)查看、行列表查詢操作。教學過程設計理論教學過程SparkSQL簡介。配置SparkSQLCLI。SparkSQL與Shell交互。通過結構化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。實踐教學過程創(chuàng)建數(shù)據(jù)庫語法格式。配置SparkSQLCLI。SparkSQL與Shell交互。通過結構化數(shù)據(jù)文件創(chuàng)建DataFrame。通過外部數(shù)據(jù)庫創(chuàng)建DataFrame。通過RDD創(chuàng)建DataFrame。通過Hive表創(chuàng)建DataFrame。查看DataFrame數(shù)據(jù)。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。讀取數(shù)據(jù)創(chuàng)建DataFrame對象。查詢數(shù)據(jù)記錄數(shù)。查詢數(shù)據(jù)缺失值。探索分析日流量特征。探索分析IP地址的訪問次數(shù)特征。探索分析虛假流量數(shù)據(jù)特征。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術與應用(第2版)(微課版)[M].北京:人民郵電出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國石油大學(北京)《籃球》2023-2024學年第一學期期末試卷
- 鄭州升達經(jīng)貿管理學院《園林景觀快題設計》2023-2024學年第一學期期末試卷
- 小學新課程標準培訓方案
- 長春工業(yè)大學《葡萄酒品嘗學》2023-2024學年第一學期期末試卷
- 生態(tài)恢復技術在退化土地上應用
- 餐飲業(yè)年度報告模板
- AI生活助手新品發(fā)布模板
- 碩士論文答辯報告
- 生醫(yī)年報展望模板
- 房地產(chǎn)交易制度政策-《房地產(chǎn)基本制度與政策》全真模擬試卷4
- 校服服務方案投標方案
- 中建幕墻工程管理指南
- 《2024-2030年中國文創(chuàng)產(chǎn)品行業(yè)競爭格局分析及投資發(fā)展研究報告》
- T-CAME 59-2023 醫(yī)院消毒供應中心建設與運行管理標準
- 電化學儲能電站安全規(guī)程
- 2024年4月自考00612日本文學選讀試題
- 無人機駕駛培訓班合作協(xié)議
- 制度-訴訟文書立卷歸檔管理辦法
- 幕墻工程施工的重點難點分析及針對措施
- 2023年浙江省紹興市中考科學真題(解析版)
- 基于物聯(lián)網(wǎng)的遠程監(jiān)控離心機系統(tǒng)
評論
0/150
提交評論