數(shù)據(jù)倉庫Hive應用實戰(zhàn) 教案1-4課時-Hadoop簡介_第1頁
數(shù)據(jù)倉庫Hive應用實戰(zhàn) 教案1-4課時-Hadoop簡介_第2頁
數(shù)據(jù)倉庫Hive應用實戰(zhàn) 教案1-4課時-Hadoop簡介_第3頁
數(shù)據(jù)倉庫Hive應用實戰(zhàn) 教案1-4課時-Hadoop簡介_第4頁
數(shù)據(jù)倉庫Hive應用實戰(zhàn) 教案1-4課時-Hadoop簡介_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

湖南汽車工程職業(yè)學院教師授課教案第1周第1-4課時累計4課時課程名稱大數(shù)據(jù)倉庫HIVE授課課題Hadoop簡介授課專業(yè)班級大數(shù)據(jù)1801教學目標能闡述清楚Hadoop產生的原因;能闡述清楚Hive在Hadoop生態(tài)中的意義;能闡述清楚Pig在Hadoop生態(tài)中的意義;能闡述清楚HBase在Hadoop生態(tài)中的意義。教學要點教學重點Hadoop生態(tài)系統(tǒng)的主要組件教學難點MapReduce的工作原理課型一體化授課教法與學法(教具)示范演示法、任務驅動教學法、分組合作教學法課后作業(yè)完成智課堂作業(yè)、看書復習教學后記(教師課后填寫)授課教師王海霞【智課堂簽到】【課程簡介及考核方式】一、課程簡介二、課程考核方式平時成績占40%,期末考試占60%。平時成績考核包括:1、考勤和6s管理2、課堂測試和課后作業(yè)三、學習機房管理制度及上機要求【學習資源推薦】1、傳統(tǒng)學習資源: 權威教材2、在線學習資源:Hadoop生態(tài)系統(tǒng)中各大官方網(wǎng)站【互動】現(xiàn)居住地的學習環(huán)境調研?學習準備【新課講授】一、Hadoop綜述1、Hadoop概述Hadoop是由Apache基金會開發(fā)的分布式存儲與計算框架。用戶不需要了解底層的分布式計算原理就可以輕松開發(fā)出分布式計算程序,可以充分利用集群中閑置的計算資源,將集群的真正威力調動起來。Hadoop由兩個重要模塊組成。一個是Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,簡稱HDFS),顧名思義,就是一個分布式的文件系統(tǒng),可以將文件數(shù)據(jù)分布式地存儲在集群中的不同節(jié)點上。另一個是MapReduce系統(tǒng),是一個針對大量數(shù)據(jù)的分布式計算系統(tǒng),其可以將計算任務分割成多個處理單元然后分散到一群家用的或服務器級別的硬件機器上,從而降低成本并提供水平可伸縮性。2、ApacheHadoop的主要特點:3、Hadoop名字由來二、MapReduce綜述1、MapReduce簡介用戶無需精通MapReduce就可以學習和使用Hive,但是掌握MapReduce的基本原理將有助于用戶理解Hive的底層運作模式,以及了解如何操作才能更高效地運用Hive,因此本書中提供關于MapReduce的簡要描述,更多關于MapReduce細節(jié)知識,請參考Tomwhite(O’Reilly)所著的<<Hadoop權威指南>>一書。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念"Map(映射)","Reduce(歸約)",和其主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。2、MapReduce運行機制Hadoop框架下MapReduce的運行機制《MapReduce:SimplifiedDataProcessingonLargeCluster》翻譯/YaoDD/p/6017397.html,用一個典型的架構圖來表示,如圖1-1《MapReduce:SimplifiedDataProcessingonLargeCluster》翻譯/YaoDD/p/6017397.html圖1-1MapReduce運行機制(1)用戶應用程序提交給Master機(主節(jié)點,負責管理文件系統(tǒng)的命名空間以及客戶端對文件的訪問)。(2)依據(jù)程序確定運行的worker機(數(shù)據(jù)節(jié)點,充當一個node(節(jié)點),啟動一個Datanode的守護進程,負責管理它所在節(jié)點上的存儲)。(3)在運行Mapper前進行分片(split)處理。(4)在多臺worker本地啟用眾多的Mapper運行分配的小任務,并將Mapper運行的結果寫入上下文,然后進行Shuffle處理。(5)負責運行少量Reducer任務的worker機從shuffle中將數(shù)據(jù)拉取回來。(6)將Reducer運算結果寫入輸出文件(Outputfiles)?!净犹釂枴咳绻悴皇且幻鸍ava程序員,那就不能編寫JavaMapreduce代碼了,但是,如果你已經熟悉SQL,那學習Hive將會相當?shù)厝菀?,而且很多程序都能很容易且快速實現(xiàn)?!拘抡n講授】三、Hadoop生態(tài)系統(tǒng)中的Hive1、hive簡介Hive不僅提供了熟悉SQL的用戶所能熟悉的編程模型,還消除了大量的通用代碼,甚至是那些有時是不得不使用Java編寫的令人棘手的代碼。這就是為什么Hive對于Hadoop是如此重要的原因,無論用戶是DBA還是Java開發(fā)工程師。Hive可以讓你花費相當少的精力就可以完成大量的工作。圖1-2顯示了Hive的主要“模塊”以及Hive是如何與Hadoop交互工作的。圖1-2Hive組成模塊有多種方式可以與Hive進行交互。本書中,我們將主要關注于CLI,也就是命令行界面。【互動提問】以下那個不是Hive發(fā)行版中附帶的能進行編程訪問的模塊()CLIB、HWIC、MapReduceD、JDBC【新課講授】四、Hadoop生態(tài)系統(tǒng)中的Pig1、pig簡介2、pig的缺點【互動提問】1、Pig被描述成一種數(shù)據(jù)流語言,而不是一種查詢語言。()2、Hive的替代工具中最有名的就是Pig了,Pig是由Fackbook開發(fā)完成的。()【新課講授】五、Hadoop生態(tài)系統(tǒng)中的HBase六、Java和Hive:詞頻統(tǒng)計算法1、簡單分析代碼2、比較兩者異同【互動:提問】1、以下不屬于ApacheHadoop生態(tài)系統(tǒng)中的是()DA、HiveB、HBase

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論