




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)技術原理與應用一、課程概況所屬專業(yè):軟件工程開課單位:數(shù)學計算機科學學院課程類型:院系選修課程課程代碼:07494120開課學期:5學分:3學時:68(34+34)核心課程:否擬使用教材:林子雨 大數(shù)據(jù)技術原理與應用:概念、存儲、處理、分析與應用.人民郵電出版社.2015.08 國內(nèi)(外)現(xiàn)有教材:王鵬.云計算與大數(shù)據(jù)技術.人民郵電出版社.2014.05 林子雨 大數(shù)據(jù)技術原理與應用:概念、存儲、處理、分析與應用.人民郵電出版社.2015.08王星. 大數(shù)據(jù)分析:方法與應用清華大學出版社.2013.09Holden Karau.Spark快速大數(shù)據(jù)分析.人民郵電出版社.2015.09陸嘉
2、恒. Hadoop實戰(zhàn). 機械工業(yè)出版社. 2012.11曾大聃, 周傲英(譯). Hadoop權威指南中文版. 清華大學出版社. 2011.07Nick Dimiduk.HBase實戰(zhàn)中文版.人民郵電出版社.2013.09學習參考資料專著教材類:大數(shù)據(jù)時代、大數(shù)據(jù) 思維與決策、大數(shù)據(jù)可視化:重構智慧社會、大數(shù)據(jù)、數(shù)據(jù)之巔報紙期刊類:互聯(lián)網(wǎng)周刊、物聯(lián)網(wǎng)與云計算網(wǎng)絡資源類:/、/、/、/android二、課程描述本門課程是軟件工程類專業(yè)選修課,屬于大數(shù)據(jù)技術入門課程,為學生搭建起通向“大數(shù)據(jù)知識空間”的橋梁和紐帶,以“構建知識體系、闡明基本原理、引導初級實踐、了解相關應用”為原則,為學生在大數(shù)據(jù)
3、領域“深耕細作”奠定基礎、指明方向。課程將系統(tǒng)講授大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫、分布式并行編程模型MapReduce、流計算、圖計算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學和物流等各個領域的應用。在Hadoop、HDFS、HBase和MapReduce等重要章節(jié),安排了入門級的實踐操作,讓學生更好地學習和掌握大數(shù)據(jù)關鍵技術。三、課程目標建立對大數(shù)據(jù)知識體系的輪廓性認識,了解大數(shù)據(jù)發(fā)展歷程、基本概念、主要影響、應用領域、關鍵技術、計算模式和產(chǎn)業(yè)發(fā)展,并了解云計算、物聯(lián)網(wǎng)的概念及其與大數(shù)據(jù)之間的緊密關系;了
4、解Hadoop的發(fā)展歷史、重要特性和應用現(xiàn)狀,Hadoop項目結構及其各個組件,并熟練掌握Hadoop平臺的安裝和使用方法;了解分布式文件系統(tǒng)的基本概念、結構和設計需求,掌握Hadoop分布式文件系統(tǒng)HDFS的重要概念、體系結構、存儲原理和讀寫過程,并熟練掌握分布式文件系統(tǒng)HDFS的使用方法;了解分布式數(shù)據(jù)庫HBase的訪問接口、數(shù)據(jù)模型、實現(xiàn)原理和運行機制,并熟練掌握HBase的使用方法;了解NoSQL數(shù)據(jù)庫與傳統(tǒng)的關系數(shù)據(jù)庫的差異、NoSQL數(shù)據(jù)庫的四大類型以及NoSQL數(shù)據(jù)庫的三大基石;基本掌握Redis、MongoDB等NoSQL數(shù)據(jù)庫的使用方法;了解云數(shù)據(jù)庫的概念、基本原理和代表性產(chǎn)
5、品的使用方法;熟練掌握分布式編程框架MapReduce的基本原理和編程方法;了解流計算與批處理的區(qū)別,以及流計算的基本原理;了解圖計算的基本原理;了解數(shù)據(jù)可視化的概念和相關工具;能夠了解大數(shù)據(jù)在互聯(lián)網(wǎng)等領域的典型應用。四、教學要求通過本課程學習,使學生掌握大數(shù)據(jù)的采集、傳輸、處理和應用的技術,了解Hadoop 分布式系統(tǒng)基礎架構,掌握HDFS 和MapReduce 技術。了解HBase 、Hive 、Zookeeper 、Avro 、Pig 等相關大數(shù)據(jù)技術,與實際工程應用相結合,構建相應的云計算平臺。教學應當結合實際實驗條件,培養(yǎng)學生實踐動手能力,了解大數(shù)據(jù)技術發(fā)展現(xiàn)狀,促進大數(shù)據(jù)相關教學改
6、革。在學習過程中轉(zhuǎn)換角色讓學生真正的成為學習主人,通過啟發(fā)、點撥、設疑及解惑,激發(fā)學生的思維能力和創(chuàng)造能力; 通過輔助大量的實戰(zhàn)練習,鍛煉學生的思考能力和動手的熟練程度。通過學習小組討論、交流的過程,能真正做到提高學生的溝通表達能力。采取立體監(jiān)督學生記筆記,加注釋,寫總結,引導學生提高自學能力,對新技術有學習、鉆研精神,有較強的實踐能力。具有認真負責、嚴謹細致的工作態(tài)度和工作作風,具備良好的團隊協(xié)作和溝通交流能力。五、考核方式及要求為實現(xiàn)課程教學目標,本門課程考核方式及要求為:出勤率占20%,點到不少于5次,其中缺席3次,本門課按無成績計算;課程大作業(yè)1次,按批改成績20%折算后計入總成績;期
7、末考試采用卷面考試形式,占總成績的60%。六、課程內(nèi)容第一單元(講、章):大數(shù)據(jù)概述(授課時間:第五學期第一周)教學目標:掌握大數(shù)據(jù)基本概念與關鍵技術、大數(shù)據(jù)與云計算以及物聯(lián)網(wǎng)之間的關系,理解大數(shù)據(jù)計算模式,了解數(shù)據(jù)對當今各行業(yè)帶來的各種影響。教學重點:數(shù)據(jù)爆炸對網(wǎng)絡帶寬、cpu運算能力以及存儲容量產(chǎn)生的影響和促進。大數(shù)據(jù)發(fā)展的3個階段:萌芽期、成熟期、大規(guī)模應用期。教學難點:對大數(shù)據(jù)4個V(Volume、Velocity、Variety、Value)的理解,非結構化數(shù)據(jù)的存儲,大數(shù)據(jù)的思維方式,大數(shù)據(jù)的關鍵技術。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要
8、內(nèi)容:(1)大數(shù)據(jù)時代(2)大數(shù)據(jù)概念(3)大數(shù)據(jù)的影響(4)大數(shù)據(jù)的應用(5)大數(shù)據(jù)關鍵技術(6)大數(shù)據(jù)計算模式(7)大數(shù)據(jù)產(chǎn)業(yè)(8)大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系.學習方法:小組討論、實驗操作課后作業(yè):完成教材第25頁練習題1-12并在下周課前提交第二單元(講、章):大數(shù)據(jù)處理架構Hadoop(授課時間:第五學期第二周)教學目標:了解Hadoop發(fā)展歷程、應用現(xiàn)狀以及使用優(yōu)勢,掌握Hadoop安裝方法,并理解其項目文件結構,大數(shù)據(jù)基本概念與關鍵技術、大數(shù)據(jù)與云計算以及物聯(lián)網(wǎng)之間的關系,理解大數(shù)據(jù)計算模式,了解數(shù)據(jù)對當今各行業(yè)帶來的各種影響。教學重點:MapReduce思想,Hadoop在企業(yè)
9、中的應用架構,Hadoop的安裝和配置,Avro、Zookeeper、HDFS、HBase、Hive等項目的使用。教學難點:Hadoop各個組件的構成,Hadoop集群的部署和配置及使用,基準測試,云計算環(huán)境中使用Hadoop。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)Hadoop概述(2)Hadoop項目結構(3)Hadoop的安裝與使用(4)Hadoop集群的部署與使用學習方法:小組討論、實驗操作課后作業(yè):完成教材第36頁練習題1-9并在下周課前提交第三單元(講、章):分布式文件系統(tǒng)HDFS(授課時間:第五學期第三周)教學目標:了解分布式文
10、件系統(tǒng)概念,理解HDFS存儲原理及體系結構,掌握HDFS數(shù)據(jù)讀寫過程并能夠編程實現(xiàn)。了解GFS概念以及HDFS和GFS之間的關系。教學重點:名稱節(jié)點、數(shù)據(jù)節(jié)點,流數(shù)據(jù)的讀寫,大規(guī)模文件存儲,HDFS主要組件的功能,HDFS常用命令,HDFS冗余數(shù)據(jù)存儲,數(shù)據(jù)存放、數(shù)據(jù)讀取和數(shù)據(jù)復制策略。教學難點:HDFS的塊概念,主從(Master/Slave)結構模型,名稱節(jié)點、數(shù)據(jù)節(jié)點的理解,數(shù)據(jù)可靠性的保障,錯誤恢復機制。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)分布式文件系統(tǒng)(2)HDFS簡介(3)HDFS相關概念(4)HDFS體系結構(5)HDFS存
11、儲原理(6)HDFS數(shù)據(jù)讀寫過程(7)HDFS編程實踐學習方法:小組討論、實驗操作課后作業(yè):完成教材第58頁練習題1-2并在下周課前提交第四單元(講、章):HBase、NoSQL和云數(shù)據(jù)庫(授課時間:第五學期第四到六周)教學目標:了解BigTable相關概念,理解HBase與傳統(tǒng)數(shù)據(jù)庫之間的關系和區(qū)別,掌握大規(guī)模數(shù)據(jù)的離線批量處理技術;掌握NoSQL鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫的技術原理以及應用場合,了解云數(shù)據(jù)庫概念以及與其他類型數(shù)據(jù)庫的關系,理解云數(shù)據(jù)庫系統(tǒng)架構。教學重點:HBase數(shù)據(jù)模型和數(shù)據(jù)坐標,面向列的存儲,概念視圖和物理視圖,HBase上構建SQL引擎,HBase
12、二級索引;NoSQL的CAP、BASE和最終一致性三大理論。云數(shù)據(jù)庫的特性,UMP系統(tǒng)架構。教學難點:HBase的實現(xiàn)原理,HBase的功能組件,表和Region以及Region的定位,Store和HLog工作原理。融合傳統(tǒng)關系和NoSQL優(yōu)點的NewSQL數(shù)據(jù)庫。分庫和分表,數(shù)據(jù)安全。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)HBase訪問接口、數(shù)據(jù)模型(2)HBase實現(xiàn)原理、運行機制、應用方案(3)NoSQL與關系數(shù)據(jù)庫的比較(4)NoSQL的四大類型和三大基石(5)從NoSQL到NewSQL數(shù)據(jù)庫(6)云數(shù)據(jù)庫產(chǎn)品及系統(tǒng)架構(7)Ama
13、zon AWS和SQLAzure云數(shù)據(jù)庫.學習方法:小組討論、實驗操作課后作業(yè):完成教材第86頁練習題1-19并在下周課前提交第五單元(講、章):MapReduce(授課時間:第五學期第七周)教學目標:了解分布式并行編程概念,理解MapReduce模型,并掌握Map和Reduce兩個過程,掌握大數(shù)據(jù)基本概念與關鍵技術、大數(shù)據(jù)與云計算以及物聯(lián)網(wǎng)之間的關系,理解大數(shù)據(jù)計算模式,了解數(shù)據(jù)對當今各行業(yè)帶來的各種影響。教學重點:MPI并行計算框架和MapReduce的對比,“分而治之”策略,“計算向數(shù)據(jù)靠攏”的理念,Master/Slave架構,資源監(jiān)控和作業(yè)調(diào)度。教學難點:MapReduce體系結構的
14、四大部分:Client、JobTracker、TaskTracker、Task,Split過程和Shuffle過程,海量數(shù)據(jù)集的計算。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)MapReduce體系結構(2)MapReduce工作流程(3)MapReduce的具體應用.學習方法:小組討論、實驗操作課后作業(yè):完成教材第104頁練習題1-16并在下周課前提交第六單元(講、章):流計算和圖計算(授課時間:第五學期第八到九周)教學目標:了解靜態(tài)數(shù)據(jù)和流數(shù)據(jù)的概念,掌握數(shù)據(jù)挖掘和OLAP分析工具的使用,理解流計算系統(tǒng)的特性,理解數(shù)據(jù)采集系統(tǒng)的基本框架。理
15、解Pregel圖計算框架,掌握Pregel的計算過程。教學重點:兩種計算模式:批量計算和實時計算,傳統(tǒng)數(shù)據(jù)處理流程和流計算數(shù)據(jù)處理流程的不同點。Storm的設計思想和框架結構。Pregel解決圖計算的優(yōu)勢。教學難點:流計算框架的理解,流計算的三個階段:實時采集、實時計算、實時查詢,“超步”迭代,分布式圖計算框架。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)流計算處理流程及應用(2)流計算開源框架Storm(3)Storm、Spark Streaming和Samza應用場景(4)Pregel圖計算模型和C+API(5)Pregel的體系結構和應用實
16、例(6)Pregel和MapReduce實現(xiàn)PageRank算法的對比(7)Hama的安裝和使用學習方法:小組討論、實驗操作課后作業(yè):完成教材第125頁練習題1-16并在下周課前提交第七單元(講、章):數(shù)據(jù)可視化以及在互聯(lián)網(wǎng)領域的應用(授課時間:第五學期第十到十一周)教學目標:了解數(shù)據(jù)可視化的發(fā)展歷程,理解其重要作用,掌握數(shù)據(jù)可視化的各種方法,理解長尾理論,掌握不同類型的推薦方法,。教學重點:信息圖表工具,地圖工具,時間線工具,推薦系統(tǒng)的三大模塊:用戶建模模塊、推薦對象模塊、推薦算法模塊,計算相似度矩陣,推薦結果展示。教學難點:Weka、Gephi等高級分析工具的使用,個性化推薦算法,基于用戶
17、的協(xié)同過濾和基于物品的協(xié)同過濾,UserCF算法和ItemCF算法的對比。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)可視化工具(2)可視化典型案例(3)可視化工具實踐(4)推薦算法協(xié)同過濾(5)協(xié)同過濾實踐電影推薦系統(tǒng)學習方法:小組討論、實驗操作課后作業(yè):完成教材第147頁練習題1-22并在下周課前提交第八單元(講、章):基于Hadoop的數(shù)據(jù)倉庫Hive(授課時間:第五學期第十二到十三周)教學目標:了解數(shù)據(jù)倉庫概念以及傳統(tǒng)數(shù)據(jù)倉庫面臨的挑戰(zhàn),理解Hive與Hadoop生態(tài)系統(tǒng)中其他組件的關系,掌握Hive與傳統(tǒng)數(shù)據(jù)庫的對比分析方法,掌握Hiv
18、e的部署和應用。教學重點:Data Warehouse概念的理解,Hive處理海量數(shù)據(jù)的方式,Hive提取、轉(zhuǎn)換、加載數(shù)據(jù)的工具的使用方法,Impala與Hive的比較,Hive的安裝與配置。教學難點:Hive在企業(yè)大數(shù)據(jù)分析平臺中的應用,SQL語句轉(zhuǎn)換成MapReduce作業(yè)的基本原理以及工作過程,Impala系統(tǒng)架構和查詢執(zhí)行過程,Hive的基本操作。學 時:課堂教學2學時,課外自主學習時間不少于2學時教學方法:講授法、演示法主要內(nèi)容:(1)Hive系統(tǒng)架構(2)Hive工作原理(3)Hive HA基本原理(4)Impala.學習方法:小組討論、實驗操作課后作業(yè):完成教材第166頁練習題1-35并在下周課前提交第九單元(講、章):Hadoop結構再探討(授課時間:第五學期第十四到十五周)教學目標:了解Hadoop的局限與不足,掌握針對Hadoop的改進和提升,理解YARN的設計思路和體系結構,熟悉YARN的工作流程,理解“一個集群多個框架”的思想。教學重點:Hadoop核心組件MapReduce和HDFS的架構設計改進,基于內(nèi)存的并行編程框架,工作流和協(xié)作服務引擎,YARN框架和MapReduce框架的對比分析。教學難點:Hadoop生態(tài)系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年仙居縣人民醫(yī)院招聘工作人員考試真題
- 中標后催業(yè)主簽合同范例
- 2024年新疆昌吉學院(團隊)引進筆試真題
- 鄉(xiāng)村承包開發(fā)合同范本
- 人員反聘合同范本
- 云梯租賃合同范本
- app開發(fā)服務合同范本
- 勞務合同范例放牧
- 《五、標明引用內(nèi)容的出處》教學設計教學反思-2023-2024學年初中信息技術人教版七年級上冊
- 農(nóng)村電器購銷合同范本
- 公用水泵房和雨水泵房設備調(diào)試方案
- 社區(qū)衛(wèi)生服務機構社會實踐報告
- 電力系統(tǒng)動態(tài)仿真與建模
- 庭院工程暫預算報價單(龍威景觀)
- 2024年南京機電職業(yè)技術學院單招職業(yè)技能測試題庫及答案解析
- 投標技術服務和質(zhì)保期服務計劃
- 教學評一體化
- 2023年全國高考體育單招考試英語試卷試題真題(精校打印版)
- 音樂欣賞與實踐(中職音樂)全套教學課件
- 粵語活動策劃方案模板范文相關7篇
- 蘇教版三年級數(shù)學下冊教學計劃及進度表
評論
0/150
提交評論