大數(shù)據(jù)技術與應用基礎-教學大綱_第1頁
大數(shù)據(jù)技術與應用基礎-教學大綱_第2頁
大數(shù)據(jù)技術與應用基礎-教學大綱_第3頁
大數(shù)據(jù)技術與應用基礎-教學大綱_第4頁
大數(shù)據(jù)技術與應用基礎-教學大綱_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)技術與應用基礎教學大綱學 時:60代 碼:適用專業(yè):制 定:審 核:批 準:一、課程的地位、性質和任務大數(shù)據(jù)技術的發(fā)展,已被列為國家重大發(fā)展戰(zhàn)略。而在過去的幾年里,無論是聚焦大數(shù)據(jù)發(fā)展 的促進大數(shù)據(jù)發(fā)展行動綱要,還是“十三五”規(guī)劃中都深刻體現(xiàn)了政府對大數(shù)據(jù)產(chǎn)業(yè)和應用 發(fā)展的重視。目前國內(nèi)大數(shù)據(jù)發(fā)展還處于加速期、轉型期,數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)的融合還處于起步階段,各行業(yè)對大數(shù)據(jù)分析和挖掘的應用還不理想。但隨著市場競爭的加劇,各行業(yè)對大數(shù)據(jù)技術研究的 熱情越來越高,在未來幾年,各領域的數(shù)據(jù)分析都將大規(guī)模應用。本課程在注重大數(shù)據(jù)時代應用環(huán)境前提下,考慮大數(shù)據(jù)處理分析需求多樣復雜的基本情況,從初學者角度

2、出發(fā),以輕量級理論、豐富的實例對比性地介紹大數(shù)據(jù)常用計算模式的各種系統(tǒng)和工具??紤]到當前大數(shù)據(jù)發(fā)展處于起步并逐步趕超先進的階段,其應用領域豐富廣泛,在教學過程中應注重掌握大數(shù)據(jù)分析的實踐操作。本課程通過豐富簡單易上手的實例,讓學生能夠切實體會和掌握各種類型工具的特點和應用。二、課程教學基本要求1. 了解大數(shù)據(jù)的發(fā)展和基本概念,理解并掌握大數(shù)據(jù)的特征及主要技術層面。2. 掌握Scrapy 環(huán)境的搭建,了解網(wǎng)絡爬蟲獲取數(shù)據(jù)的過程,熟悉爬蟲項目的創(chuàng)建。3. 深刻了解hadoop 的基礎理論,理解并掌握Hadoop 單機及集群環(huán)境的部署方法。4. 掌握 HDFS 的基本概念和HDFS 在 hadoop

3、 中的作用,理解并識記HDFS 的使用,了解HDFS 的 JAVA API 接口及數(shù)據(jù)流原理;讓學生明白Map 過程與Reduce 過程這兩個獨立部分各自的原理及合作途徑,知道如何獨立編寫滿足自己需求的MapReduce 程序。5. 理解HBase 中涉及的基本概念,掌握HBase 的簡單應用;讓學生了解數(shù)據(jù)倉庫的基礎概念,熟悉 Hive 與 HDFS、MapReduce 直接的關心。6. 熟悉 Spark 和 RDD 的基本概念,熟悉 spark 接口的使用,解決實戰(zhàn)時的步驟及思路。7. 明白Hadoop 和 Storm 之間的差別,掌握對Storm 的使用。理解Apex 的工作過程并能簡單

4、應用。8. 了解Druid 的基本概念、應用場景以及集群架構,掌握批量數(shù)據(jù)加載、流數(shù)據(jù)加載的操作。了解 Flink 的重要概念和基本架構,掌握Flink 簡單的使用實例。9. 理解Elasticsearch 的基本架構,掌握Elasticsearch 的一些入門操作。了解并基本掌握怎樣利用所學的工具對目標實例進行數(shù)據(jù)分析。三、課程的內(nèi)容1大數(shù)據(jù)概述了解大數(shù)據(jù)的產(chǎn)生和發(fā)展,識記大數(shù)據(jù)的特征、數(shù)據(jù)類型和系統(tǒng),大數(shù)據(jù)的計算模式和技術層面間的關聯(lián)。2數(shù)據(jù)獲取識記基本概念,識記各功能應怎樣用Scrapy 爬蟲實現(xiàn),了解采集目標數(shù)據(jù)項定義,領會并掌握爬蟲運行和數(shù)據(jù)存儲技術。3Hadoop 基礎領會 Had

5、oop 的主要特點,識記 Hadoop HDFS、Hadoop MapReduce、Hadoop YARN 的原理,了解其生態(tài)系統(tǒng)中重要組成的原理,熟悉Hadoop 的配置。4HDFS 基本應用熟悉 HDFS 所需的API 接口,了解數(shù)據(jù)流的工作過程,能簡單操作HDFS 的接口。 5MapReduce 應用開發(fā)了解所需的開發(fā)環(huán)境eclipse,領會 Map 過程與 Reduce 過程的工作原理,了解使用mapreduce解決實際問題時的步驟和思路,識記MapReduce 代碼的不同功能。 6分布式數(shù)據(jù)庫HBase識記 HBase 的基本概念,熟悉安裝HBase 集群的步驟,了解HBaseAPI

6、 的基本步驟。 7數(shù)據(jù)倉庫工具Hive領會 Hive 的作用,掌握Hive 接口的使用,會利用Hive 解決實戰(zhàn)問題。 8開源集群計算環(huán)境Spark了解 Spark 的基本思想,熟悉Spark 所需的環(huán)境及API 等,熟悉 Spark 實戰(zhàn)的完整工作過程,領會其所需的代碼。9流實時處理系統(tǒng)Storm識記 Storm 相關概念,掌握Storm 環(huán)境的安裝配置,了解Storm 的基本使用 10企業(yè)級、大數(shù)據(jù)流處理Apex識記 Apex 的基本概念,掌握 Apex 的環(huán)境配置過程,理解常見組件的原理和特點,會簡單的應用 Apex 解決問題。11事件流OLAP 之 Druid了解 Druid 的概念及

7、其應用場所,掌握Druid 單機環(huán)境的安裝方法和步驟,并能利用Druid 進行加載流數(shù)據(jù)處理數(shù)據(jù)查詢等。12事件數(shù)據(jù)流引擎Flink識記 Flink 的基本概念,明白Flink 的基本架構,能夠安裝Flink 的單機和集群環(huán)境。 13分布式文件搜索Elasticsearch了解 Elasticsearch 包含重要部分的基本概念,掌握Elasticsearch 重要的安裝過程,掌握簡單的操作。14實例電商數(shù)據(jù)分析能夠通過已經(jīng)學習了解過的環(huán)境和工具等,有條理有步驟的對實例進行數(shù)據(jù)挖掘、數(shù)據(jù)處理和數(shù)據(jù)分析等,進而得出相關的結論。四、課程的重點、難點1大數(shù)據(jù)概述重點:大數(shù)據(jù)的概念和特征。難點:大數(shù)據(jù)

8、的計算模式和技術層面間的關聯(lián)。2數(shù)據(jù)獲取重點:Scrapy 環(huán)境的搭建。難點:網(wǎng)絡爬蟲獲取數(shù)據(jù)的過程。3Hadoop 基礎重點:Hadoop 的基礎理論及安裝。難點:Hadoop 單機及集群環(huán)境的部署方法。4HDFS 基本應用重點:掌握HDFS 的兩種使用方法。 5MapReduce 應用開發(fā)重點:明白Map 過程與Reduce 過程的原理。難點:獨立編寫滿足自己需求的MapReduce 程序。 6分布式數(shù)據(jù)庫HBase重點:HBase 所包含的 3 個重要組件的工作方式。難點:如何通過 HBase shell 和 HBase API 訪問 HBase。7數(shù)據(jù)倉庫工具Hive重點:熟悉簡單的

9、Hive 命令。8開源集群計算環(huán)境Spark重點:理解Spark 的工作機制。 難點:解決實戰(zhàn)時的步驟及思路。9流實時處理系統(tǒng)Storm重點:Storm 的實時處理。難點:利用Storm 的特點對數(shù)據(jù)進行合適的處理。 10企業(yè)級、大數(shù)據(jù)流處理Apex重點:Apex 的流處理功能。11事件流OLAP 之 Druid重點:使用 Druid 進行加載和查詢數(shù)據(jù)。12事件數(shù)據(jù)流引擎Flink重點:明白Flink 的基本架構。難點:Flink 系統(tǒng)中進程間處理信息的原理。13分布式文件搜索Elasticsearch重點:Elasticsearch 的基本架構。14實例電商數(shù)據(jù)分析難點:怎樣利用所學的工具

10、對目標實例進行數(shù)據(jù)分析。五、課時分配表序號課程內(nèi)容總學時講課實驗習題課機動1大數(shù)據(jù)概述2222數(shù)據(jù)獲取4223Hadoop 基礎4224HDFS 基本應用4225MapReduce 應用開發(fā)6426分布式數(shù)據(jù)庫HBase4227數(shù)據(jù)倉庫工具Hive4228開源集群計算環(huán)境Spark8449流實時處理系統(tǒng)Storm42210企業(yè)級、大數(shù)據(jù)流處理Apex42211事件流OLAP 之Druid42212事件數(shù)據(jù)流引擎Flink42213分布式文件搜索Elasticsearch42214實例電商數(shù)據(jù)分析422合計603228六、實驗項目及基本要求實驗一 通過爬蟲獲取數(shù)據(jù)要求:能安裝爬蟲所需環(huán)境,創(chuàng)建簡

11、單的爬蟲項目。成功完成爬蟲核心實現(xiàn)。實驗二 Hadoop 安裝與配置要求:Hadoop 單機和集群模式的配置。實驗三 實戰(zhàn)HDFS 的接口要求:能自主操作Java 和命令行接口。實驗四 編寫簡單的Mapreduce 程序要求:完成MapReduce 所需環(huán)境的配置,完成Mapreduce 應用實例實驗五 分布式數(shù)據(jù)庫HBase要求:安裝HBase 集群模式,能簡單使用HBase shell 和Hbase API。實驗六 Hive 的使用要求:會進行簡單的Hive 命令使用,熟悉Hive 的復雜語句。實驗七 Spark 簡單編程與聚類實戰(zhàn)要求:了解Spark 簡單的RDD 創(chuàng)建,了解各個實戰(zhàn)的編

12、程實現(xiàn)及解決過程。實驗八 Storm 安裝與配置要求:了解Storm 的概念及原理,了解Storm 的安裝和基本使用。實驗九 Spark 的使用和配置要求:掌握Apex 的使用,了解Apex 的基本配置。實驗十 Druid 環(huán)境配置要求:了解Druid 的概念和使用,理解Druid 的作用。實驗十 事件數(shù)據(jù)流引擎Flink 的使用要求:了解Flink 的概念和部署過程,理解Flink 的使用。七、考核辦法1考試采用統(tǒng)一命題,閉卷考試,考試時間為120 分鐘。2本大綱各部分所規(guī)定基本要求、知識點及知識點下的知識細目,都屬于考核的內(nèi)容??荚嚸}覆蓋到各部分,并適當突出重點部分,加大重點內(nèi)容的覆蓋密度。3不同能力層次要求的分數(shù)比例大致為:識記占 20%,領會占 30%,簡單應用占 30%,綜合應用占 20%4題的難度可分為易、較易、較難和難四個等級。試卷中不同難度試題的分數(shù)比例一般為2:3:3:25試題主要題型有:填空、單項選擇、多選、簡答、及綜合應用等。八、使用說明在本課程學習中,應從“了解”、“識記”、“領會”、“簡單應用”、“綜合應用”五個能力層次去把握:1. 了解:要求概念的基本掌握,是最基本要求。2. 識記:要求能夠識別和記憶本課程有關知識點的主要內(nèi)容,并能夠做出正確的表達、選擇和判斷。3. 領會:在識記的基礎上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論