




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用(含實(shí)驗(yàn))教學(xué)大綱@襦翼教育一、大綱編寫(xiě)依據(jù)《Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用》是數(shù)據(jù)科學(xué)、大數(shù)據(jù)方向本科生的一門(mén)必修課。通過(guò)該課程的學(xué)習(xí),使學(xué)生系統(tǒng)的學(xué)習(xí)當(dāng)前廣泛使用的大數(shù)據(jù)Hadoop平臺(tái)及其主要組件的作用及使用。課程由理論及實(shí)踐兩部分組成,課程理論部分的內(nèi)容以介紹Hadoop平臺(tái)主要組件的作用、結(jié)構(gòu)、工作流程為主,讓學(xué)生對(duì)Hadoop平臺(tái)組件的作用及其工作原理有比較深入的了解;課程同時(shí)為各組件設(shè)計(jì)有若干實(shí)驗(yàn),幫助學(xué)生在學(xué)習(xí)理論知識(shí)的同時(shí),提高學(xué)生的實(shí)踐能力,系統(tǒng)的掌握Hadoop主要組件的原理及應(yīng)用,為其他相關(guān)課程的學(xué)習(xí)提供必要的幫助。二、課程目的1、知識(shí)目標(biāo)學(xué)習(xí)Hadoop平臺(tái)框架,學(xué)會(huì)手動(dòng)搭建Hadoop環(huán)境,掌握Hadoop平臺(tái)上存儲(chǔ)及計(jì)算的原理、結(jié)構(gòu)、工作流程,掌握基礎(chǔ)的MapReduce編程,掌握Hadoop生態(tài)圈常用組件的作用、結(jié)構(gòu)、配置和工作流程,并具備一定的動(dòng)手及問(wèn)題分析能力,使用掌握的知識(shí)應(yīng)用到實(shí)際的項(xiàng)目實(shí)踐中。2、能力目標(biāo)工程師思維方式通過(guò)本課程的學(xué)習(xí),引導(dǎo)學(xué)生養(yǎng)成工程師邏輯思維、系統(tǒng)思維的思維方式及習(xí)慣。分析及解決問(wèn)題的能力課程中實(shí)驗(yàn)由淺及深,有一定的步驟及難度,操作不當(dāng)可能會(huì)遇到問(wèn)題;遇到問(wèn)題時(shí)老師會(huì)給出引導(dǎo),但不會(huì)直接告訴解決方法,因此,如何分析、分析完成后實(shí)施具體的解決步驟,都需要學(xué)生摸索完成,在這個(gè)摸索實(shí)踐過(guò)程中,學(xué)生的分析及解決問(wèn)題的能力得到培養(yǎng)。三、教學(xué)方法1、課堂教學(xué)(1)講授本課程的理論教學(xué)內(nèi)容以講授為主、輔以操作演示,講授的主要內(nèi)容有:Hadoop概述,Hadoop安裝部署,分布式文件系統(tǒng) HDFS,分布式計(jì)算MapReduce,資源管理調(diào)度組件YARN,列式存儲(chǔ)HBase,數(shù)據(jù)倉(cāng)庫(kù)組件Hive,數(shù)據(jù)分析引擎Pig,日志采集組件Flume等。根據(jù)教學(xué)大綱的要求,突出重點(diǎn)和難點(diǎn)。(2)教師指導(dǎo)下的學(xué)生自學(xué)實(shí)踐課程由若干實(shí)驗(yàn)組成,每個(gè)實(shí)驗(yàn)都包含實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)原理、實(shí)驗(yàn)環(huán)境等,需要學(xué)生結(jié)合理論知識(shí),充分發(fā)揮自主學(xué)習(xí)的能力來(lái)完成實(shí)驗(yàn),老師在這個(gè)過(guò)程中更多起到輔導(dǎo)的作用。其它教學(xué)方法采用多媒體輔助教學(xué)手段、提供實(shí)驗(yàn)相關(guān)視頻,結(jié)合傳統(tǒng)教學(xué)方法,解決好教學(xué)內(nèi)容多、信息量大與學(xué)時(shí)少的矛盾;充分利用教學(xué)實(shí)驗(yàn)系統(tǒng)EDU資源和學(xué)校的圖書(shū)館的資源優(yōu)勢(shì),查閱與課程相關(guān)的資料;通過(guò)輔導(dǎo)學(xué)生完成實(shí)驗(yàn)來(lái)提高學(xué)生的綜合處理問(wèn)題的能力和軟件開(kāi)發(fā)的能力。2、課外學(xué)習(xí)作業(yè)1:課外練習(xí)。作業(yè)2:上機(jī)實(shí)驗(yàn)報(bào)告。四、適用對(duì)象數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息安全、信息管理、網(wǎng)絡(luò)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)專(zhuān)業(yè)。五、先修課程及后續(xù)課程(或相關(guān)課程)先修課程:《高級(jí)語(yǔ)言程序設(shè)計(jì)(Java)》、《Linux》、《大數(shù)據(jù)導(dǎo)論》、《數(shù)據(jù)庫(kù)原理》;后續(xù)課程:《數(shù)據(jù)挖掘》、《Spark大數(shù)據(jù)技術(shù)與應(yīng)用》六、課程性質(zhì)必修。七、總課時(shí)及各章的分配授課總課時(shí)數(shù)為64學(xué)時(shí),各章的學(xué)時(shí)具體安排如下:—尸片早節(jié)教學(xué)內(nèi)容理論授課學(xué)時(shí)實(shí)驗(yàn)課時(shí)氏U第一早[初識(shí)Hadoop大數(shù)據(jù)技術(shù)43第二早Hadoop環(huán)境設(shè)置44第三章HDFS(重點(diǎn)章節(jié))85第四章YARN20第五早MapReduce(重點(diǎn)早節(jié))68第六章HBase、Hive、Pig(重點(diǎn)早節(jié))66第七章Flume12第八章Hadoop應(yīng)用案例實(shí)戰(zhàn)(綜合實(shí)驗(yàn))14合計(jì)3232八、使用教材及主要參考書(shū)目1、 選用教材許桂秋:《Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用》 人民郵電出版社,2019年3月。2、 主要參考書(shū)目TomWhite:《Hadoop權(quán)威指南:大數(shù)據(jù)的存儲(chǔ)與分析(第4版)》,清華大學(xué)出版社,2017年7月。林子雨:《大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲(chǔ)、處理、分析與應(yīng)用(第2版)》,人民郵電出版社,2017年1月。九、考核方式及成績(jī)?cè)u(píng)定標(biāo)準(zhǔn)1、考核內(nèi)容與形式(1) 知識(shí)類(lèi)考核本課程采用閉卷考試形式。重點(diǎn)考試內(nèi)容:HDFS、MapReduce、HBase、Hive、Pig、Flume等組件的使用方法。(2) 能力類(lèi)考核利用學(xué)生平時(shí)作業(yè)、課堂提問(wèn)與討論考查學(xué)生的學(xué)習(xí)能力,理解和掌握相關(guān)知識(shí)的程度以及實(shí)際應(yīng)用能力通過(guò)實(shí)驗(yàn)考查學(xué)生的實(shí)踐動(dòng)手能力、軟件開(kāi)發(fā)能力,促進(jìn)學(xué)生自主性學(xué)習(xí)和研究性學(xué)習(xí),啟迪學(xué)生的創(chuàng)新思維。2、課程成績(jī)構(gòu)成(1)平時(shí)成績(jī)占百分比平時(shí)成績(jī)(包括平時(shí)考勤、作業(yè)情況和上機(jī)實(shí)驗(yàn)情況)占總分40%(2)考試成績(jī)占百分比期末考試成績(jī)占總分60%第一章初識(shí)Hadoop大數(shù)據(jù)技術(shù)第一節(jié)大數(shù)據(jù)概述了解什么是大數(shù)據(jù)、大數(shù)據(jù)簡(jiǎn)史、大數(shù)據(jù)的類(lèi)型和特征、大數(shù)據(jù)對(duì)于企業(yè)帶來(lái)的挑戰(zhàn)。第二節(jié)大數(shù)據(jù)相關(guān)問(wèn)題的解決方法(本章重點(diǎn))了解對(duì)于大數(shù)據(jù)問(wèn)題,傳統(tǒng)方法、Google的解決方案、Hadoop框架下的解決方案,重點(diǎn)了解Google的三篇論文。第三節(jié)Hadoop概述(本章重點(diǎn))了解Hadoop核心構(gòu)成、Hadoop生態(tài)系統(tǒng)的主要組件、Hadoop發(fā)行版本的差異及如何選擇。第四節(jié)Hadoop應(yīng)用案例了解Hadoop典型應(yīng)用場(chǎng)景。第五節(jié)Java基礎(chǔ)(本章重點(diǎn)、難點(diǎn))了解本課程內(nèi)容涉及到的Java語(yǔ)言基礎(chǔ)。第六節(jié)Linux基礎(chǔ)(本章重點(diǎn)、難點(diǎn))了解本課程實(shí)驗(yàn)涉及到的Linux基礎(chǔ)。第二章Hadoop環(huán)境設(shè)置第一節(jié)安裝前準(zhǔn)備了解Hadoop環(huán)境搭建前所需做的準(zhǔn)備工作。第二節(jié)Hadoop模式(本章重點(diǎn))逐一介紹Hadoop的三種模式:?jiǎn)螜C(jī)、偽分布式和完全分布式。第三章HDFS(重點(diǎn)章節(jié))第一節(jié)HDFS簡(jiǎn)介掌握HDFS組件的作用、優(yōu)缺點(diǎn)。第二節(jié)HDFS組成與架構(gòu)(本章重點(diǎn))掌握HDFS的組成與架構(gòu):NameNodeDataNodeSecondaryNameNod等,掌握工作流程。第三節(jié)HDFS工作機(jī)制(本章重點(diǎn)、難點(diǎn))掌握機(jī)架感應(yīng)、HDFSfc件讀取寫(xiě)入流程、掌握HDFS數(shù)據(jù)容錯(cuò)相關(guān)處理機(jī)制。第四節(jié)HDFS操作(本章重點(diǎn)、難點(diǎn))從Web訪問(wèn)、HDFSShell、HDFSAPI三個(gè)方面掌握HDFS操作。第五節(jié)HDFS高級(jí)功能了解HDFS高級(jí)功能,包括:安全模式、回收站、快照、配額。第四章YARN第一節(jié)YARN簡(jiǎn)介了解YARN的作用,了解YARNtB現(xiàn)的原因,以幫助下一節(jié)對(duì)YARN的結(jié)構(gòu)有更好的理解。第二節(jié)YARN架構(gòu)(本章難點(diǎn))了解YARN組件、YARNE作流程(重點(diǎn))、YARN資源模型。第三節(jié)YARN調(diào)度組件了解YARN調(diào)度組件,了解FIFO調(diào)度器,了解Capacity調(diào)度器和Fair調(diào)度器。第五章MapReduce(重點(diǎn)章節(jié))第一節(jié)MapReduce概述了解MapReduce旨的是什么,重點(diǎn)掌握MapReduced計(jì)思想,了解MapReduces點(diǎn)和不擅長(zhǎng)的場(chǎng)景。第二節(jié)MapReduce編程模型(本章重點(diǎn)、難點(diǎn))重點(diǎn)掌握MapReduce編程模型,掌握MapReduc編程實(shí)例之wordcount、統(tǒng)計(jì)各個(gè)部門(mén)員工薪水總和、序列化。第三節(jié)MapReduce編程進(jìn)階(本章難點(diǎn))了解MapReduce的數(shù)據(jù)輸入、輸出格式,掌握分區(qū)和合并的概念。第四節(jié)MapReduce工作機(jī)制(本章重點(diǎn)、難點(diǎn))重點(diǎn)掌握MapReduct乍業(yè)運(yùn)行機(jī)制,掌握Shuffle與排序。第五節(jié)MapReduce編程案例通過(guò)案例,熟悉MapReduce常用編程案例之排序、去重和多表查詢(xún)。第六章HBase、Hive、Pig(重點(diǎn)章節(jié))第一節(jié)HBase一、 了解Hive架構(gòu)與工作原理。二、 掌握Hive數(shù)據(jù)類(lèi)型與存儲(chǔ)格式。(本節(jié)重點(diǎn))三、 掌握Hive數(shù)據(jù)模型。(本節(jié)重點(diǎn))四、 掌握查詢(xún)數(shù)據(jù)。(本節(jié)重點(diǎn))五、 了解用戶(hù)定義函數(shù)。第二節(jié)Hive一、 了解Hive架構(gòu)與工作原理。二、 掌握Hive數(shù)據(jù)類(lèi)型與存儲(chǔ)格式。(本節(jié)重點(diǎn))三、 掌握Hive數(shù)據(jù)模型。(本節(jié)重點(diǎn))四、 掌握查詢(xún)數(shù)據(jù)。(本節(jié)重點(diǎn))五、 了解用戶(hù)定義函數(shù)。第三節(jié)Pig一、 了解什么是Pig:Pig組件、Pig與Hive的比較;重點(diǎn)了解Pig數(shù)據(jù)模型。二、 掌握什么是PigLatin編程語(yǔ)言:數(shù)據(jù)類(lèi)型、語(yǔ)句、表達(dá)式、函數(shù)。(本節(jié)重點(diǎn))三、 掌握Pig代碼實(shí)例。(本節(jié)重點(diǎn))四、 了解用戶(hù)自定義函數(shù)。第七章Flume第一節(jié)Flume產(chǎn)生的背景了解Flume產(chǎn)生的背景。第二節(jié)Flume簡(jiǎn)介了解什么是Flume。第三節(jié)Flume安裝掌握Flume安裝。第四節(jié)Flume架構(gòu)(本章重點(diǎn))掌握Flume架構(gòu)和工作方式。第五節(jié)Flume配置(本章重點(diǎn))掌握Flume常用的配置。第八章Hadoop應(yīng)用案例實(shí)戰(zhàn)(綜合實(shí)驗(yàn))掌握Hadoop的綜合實(shí)驗(yàn),使用MapReduce做數(shù)據(jù)過(guò)濾,使用Hive做數(shù)據(jù)分析等。附:《Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用》課程實(shí)驗(yàn)教學(xué)大綱課程名稱(chēng):Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用實(shí)驗(yàn)學(xué)時(shí):32適用專(zhuān)業(yè):數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息安全、信息管理、網(wǎng)絡(luò)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)專(zhuān)業(yè)課程性質(zhì):必修一、課程實(shí)驗(yàn)簡(jiǎn)介課程所有實(shí)驗(yàn)都是與《Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用》課程理論內(nèi)容相配套的。通過(guò)該課程的學(xué)習(xí),使學(xué)生系統(tǒng)的學(xué)習(xí)當(dāng)前廣泛使用的大數(shù)據(jù)Hadoop平臺(tái)及其主要組件的作用及使用。課程實(shí)踐部分為各組件設(shè)計(jì)的若干實(shí)驗(yàn),實(shí)驗(yàn)設(shè)計(jì)難易安排合理,貼合實(shí)際應(yīng)用場(chǎng)景,幫助學(xué)生在學(xué)習(xí)理論知識(shí)的同時(shí),強(qiáng)化學(xué)生對(duì)Hadoop主要組件的認(rèn)知,提高學(xué)生的實(shí)踐能力,為其他相關(guān)課程的學(xué)習(xí)提供必要的幫助。二、教學(xué)目的“Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用”是大數(shù)據(jù)專(zhuān)業(yè)或方向的一門(mén)重要的專(zhuān)業(yè)核心課,是必修的課程之一,是一門(mén)實(shí)踐性很強(qiáng)的課程。通過(guò)學(xué)生參與實(shí)踐的過(guò)程,強(qiáng)化學(xué)生對(duì)Hadoop主要組件思想、架構(gòu)、原理的認(rèn)知,真正掌握Hadoop各個(gè)組件的使用方法,提高學(xué)生動(dòng)手能力和解決問(wèn)題的能力。三、考核方式及成績(jī)?cè)u(píng)定標(biāo)準(zhǔn)平時(shí)上機(jī)的考勤占總分的10%,課程設(shè)計(jì)占總分的10%。四、實(shí)驗(yàn)指導(dǎo)書(shū)及主要參考書(shū)許桂秋:《Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用》 人民郵電出版社,2019年3月。TomWhite:《Hadoop權(quán)威指南:大數(shù)據(jù)的存儲(chǔ)與分析(第4版)》,清華大學(xué)出版社,2017年7月。林子雨:《大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲(chǔ)、處理、分析與應(yīng)用(第2版)》,人民郵電出版社,2017年1月。五、實(shí)驗(yàn)項(xiàng)目實(shí)驗(yàn)項(xiàng)目一覽表
早節(jié)骨口,序號(hào)實(shí)驗(yàn)項(xiàng)目名稱(chēng)實(shí)驗(yàn)類(lèi)型實(shí)驗(yàn)學(xué)時(shí)必做/選做氏U第一早實(shí)驗(yàn)1.1Java基礎(chǔ)驗(yàn)證性2必做實(shí)驗(yàn)1.2Linux基礎(chǔ)驗(yàn)證性1必做第二早實(shí)驗(yàn)2.1拾建Hadoop單機(jī)模式環(huán)境演示性0選做實(shí)驗(yàn)2.2拾建Hadoop偽分布式模式環(huán)境驗(yàn)證性4必做實(shí)驗(yàn)2.3拾建Hadoop元全分布式模式環(huán)境演示性0選做AVV *z±n第二早實(shí)驗(yàn)3.1通過(guò)shell命令訪問(wèn)HDFS驗(yàn)證性2必做實(shí)驗(yàn)3.2熟悉Eclipse+Maven的JAVA開(kāi)發(fā)環(huán)境驗(yàn)證性1必做實(shí)驗(yàn)3.3通過(guò)API訪問(wèn)HDFS驗(yàn)證性2必做氏U~r^第五早實(shí)驗(yàn)5.1分析和編寫(xiě)WordCount程序綜合性2必做實(shí)驗(yàn)5.2MapReduce序列化、分區(qū)實(shí)驗(yàn)綜合性2必做實(shí)驗(yàn)5.3使用MapReduce求出各年銷(xiāo)售筆數(shù)、各年銷(xiāo)售總額綜合性2必做實(shí)驗(yàn)5.4使用MapReduce統(tǒng)計(jì)用戶(hù)在搜狗上的搜索綜合性2必做第六章實(shí)驗(yàn)6.1HBase-安裝和配置Hbase演示性0選做實(shí)驗(yàn)6.2通過(guò)HBaseShell訪問(wèn)Hbase驗(yàn)證性0選做實(shí)驗(yàn)6.3HBase-通過(guò)JavaAPI訪問(wèn)Hbase驗(yàn)證性2必做實(shí)驗(yàn)6.4HBase-通過(guò)JavaAPI,開(kāi)發(fā)基于HBase的MapReduce程序綜合性2必做實(shí)驗(yàn)6.5Hive-Metastore米用Local模式(MySQL數(shù)據(jù)庫(kù))搭建Hive環(huán)境演示性0選做實(shí)驗(yàn)6.6Hive-常用操作驗(yàn)證性1必做實(shí)驗(yàn)6.7Pig-安裝和使用Pig演示性0選做實(shí)驗(yàn)6.8Pig-使用PigLatin操作員工表和部門(mén)表驗(yàn)證性1必做第七章實(shí)驗(yàn)7.1AvroSource+MemoryChannel+LoggerSink驗(yàn)證性1必做實(shí)驗(yàn)7.2syslogtcpSource+memory驗(yàn)證性0選做Channel+HDFSSink實(shí)驗(yàn)7.3ExecSource+MemoryChannel+LoggerSink驗(yàn)證性1必做總結(jié)綜合1搜狗日志查詢(xún)分析綜合性4必做綜合2離線統(tǒng)計(jì)電商各類(lèi)熱點(diǎn)商品,支持運(yùn)營(yíng)決策綜合性0選做合計(jì)32實(shí)驗(yàn)類(lèi)型:演示性、驗(yàn)證性、綜合性、設(shè)計(jì)性、其它實(shí)驗(yàn)1.1、Java基礎(chǔ)(2課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆毡菊n程內(nèi)容涉及的Java基礎(chǔ)知識(shí)。實(shí)驗(yàn)內(nèi)容:Java基礎(chǔ)代碼編寫(xiě)、閱讀。實(shí)驗(yàn)環(huán)境:ubuntun16.04 ,Java環(huán)境實(shí)驗(yàn)1.2、Linux基礎(chǔ)(1課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆毡菊n程內(nèi)容涉及的Linux基礎(chǔ)知識(shí)。實(shí)驗(yàn)內(nèi)容:Linux基礎(chǔ)命令的使用。實(shí)驗(yàn)環(huán)境:ubuntun16.04實(shí)驗(yàn)2.1、搭建Hadoop單機(jī)模式環(huán)境(選做)實(shí)驗(yàn)類(lèi)型:演示性實(shí)驗(yàn)?zāi)康模菏煜adoop單機(jī)模式的搭建實(shí)驗(yàn)內(nèi)容:(1) 安裝Java環(huán)境(2) 搭建Hadoop單機(jī)模式、,I? 、、+:注意:前置條件,虛擬機(jī)、ubuntu,并且環(huán)境變量設(shè)置已經(jīng)完成,未安裝的學(xué)生請(qǐng)參考教材虛擬機(jī),ubuntu的安裝步驟。實(shí)驗(yàn)環(huán)境:ubuntun16.04,Java環(huán)境。實(shí)驗(yàn)2.2、搭建Hadoop偽分布式模式環(huán)境(4課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆誋adoop偽分布式模式環(huán)境搭建。實(shí)驗(yàn)內(nèi)容:(1)在個(gè)人計(jì)算機(jī)搭建Hadoop偽分布模式環(huán)境(建議使用)(2)在教學(xué)實(shí)驗(yàn)系統(tǒng)EDU搭建Hadoop偽分布模式環(huán)境注:以上兩個(gè)安裝選項(xiàng),請(qǐng)根據(jù)實(shí)際實(shí)驗(yàn)環(huán)境條件選擇其中一個(gè)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境:ubuntun16.04,Java環(huán)境實(shí)驗(yàn)要求:必須要有以下條件:需要先上傳安裝包hadopp-2.7.3.tar.gz到的個(gè)人home目錄下實(shí)驗(yàn)2.3、搭建Hadoop完全分布式模式環(huán)境(選做)實(shí)驗(yàn)類(lèi)型:演示性實(shí)驗(yàn)?zāi)康模毫私獯罱℉adoop完全分布式模式環(huán)境。實(shí)驗(yàn)內(nèi)容:搭建Hadoop完全分布式模式環(huán)境。實(shí)驗(yàn)環(huán)境:1.至少3臺(tái)計(jì)算機(jī)2.OS:Ubuntu16.04實(shí)驗(yàn)3.1、通過(guò)shell命令訪問(wèn)HDFS(2課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模豪斫釮DFS在Hadoop體系結(jié)構(gòu)中的角色;熟練使用HDFS操作常用的Shell命令;實(shí)驗(yàn)內(nèi)容:HDFS是hadoop平臺(tái)的核心組成之一。熟悉使用hadoop平臺(tái)需要熟練訪問(wèn)HDFS。HDFS的訪問(wèn)方式有多種??赏ㄟ^(guò)web訪問(wèn),也可通過(guò)shell方式或者API方式訪問(wèn)。本實(shí)驗(yàn)通過(guò)shell對(duì)HDFS進(jìn)行訪問(wèn),基本操作有列舉目錄內(nèi)容,新建文件、文件夾,刪除文件、文件夾,追加文件內(nèi)容,文件的上下載等。實(shí)驗(yàn)環(huán)境:操作系統(tǒng):LinuxHadoop版本:2.6.5或以上版本JDK版本:1.6或以上版本JavaIDE:Eclipse實(shí)驗(yàn)3.2、熟悉Eclipse+Maven的JAVA開(kāi)發(fā)環(huán)境(1課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模核^“工欲善其事,必先利其器”,Eclipse+Maven(還有更優(yōu)秀的IDEA+Maven)是幾乎所有從事JAVA開(kāi)發(fā)的企業(yè)和工程師的優(yōu)先選擇的開(kāi)發(fā)工具。通過(guò)本次實(shí)驗(yàn)使得學(xué)生懂得如何配置和使用Eclipse+Maven開(kāi)發(fā)環(huán)境。了解如何使用Eclipse進(jìn)行創(chuàng)建Maven工程、運(yùn)行Maven工程。了解Maven的一些基本命令,如打包命令為后面章節(jié)程序的開(kāi)發(fā)做好準(zhǔn)備。實(shí)驗(yàn)內(nèi)容:使用Eclipse+Maven環(huán)境,開(kāi)發(fā)”HelloWorld”程序,并運(yùn)行實(shí)驗(yàn)環(huán)境:操作系統(tǒng):Linux環(huán)境可以連接互聯(lián)網(wǎng)實(shí)驗(yàn)3.3、通過(guò)API命令訪問(wèn)HDFS(2課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模豪斫釮DFS在Hadoop體系結(jié)構(gòu)中的角色;熟悉通過(guò)javaAPI訪問(wèn)HDFS。實(shí)驗(yàn)內(nèi)容:HDFS是hadoop平臺(tái)的核心組成之一。熟悉使用hadoop平臺(tái)需要熟練訪問(wèn)HDFS。HDFS的訪問(wèn)方式有多種??赏ㄟ^(guò)web訪問(wèn),也可通過(guò)shell方式或者API方式訪問(wèn)。本實(shí)驗(yàn)通過(guò)API對(duì)HDFS進(jìn)行訪問(wèn),基本操作有文件的刪除,文件的上傳,下載以及屬性的讀取等。實(shí)驗(yàn)環(huán)境:操作系統(tǒng):LinuxHadoop版本:2.6.5或以上版本JDK版本:1.6或以上版本JavaIDE:Eclipse實(shí)驗(yàn)5.1、分析和編寫(xiě)WordCount程序(2課時(shí))實(shí)驗(yàn)類(lèi)型:綜合性實(shí)驗(yàn)?zāi)康模菏炀毨斫夂驼莆誐apReduce編程模型,并且會(huì)使用Combiner。實(shí)驗(yàn)內(nèi)容:編寫(xiě)MapReduce程序統(tǒng)計(jì)單詞出現(xiàn)的頻率。獨(dú)立完成編程。實(shí)驗(yàn)環(huán)境:要使用到Combiner。實(shí)驗(yàn)5.2、MapReduce序列化、分區(qū)實(shí)驗(yàn)(2課時(shí))實(shí)驗(yàn)類(lèi)型:綜合性實(shí)驗(yàn)?zāi)康模豪斫夂褪炀氄莆誐apReduce序列化、分區(qū)。實(shí)驗(yàn)內(nèi)容:編寫(xiě)程序,將對(duì)員工數(shù)據(jù)按低薪、中薪、高薪進(jìn)行分區(qū)存儲(chǔ)。輸出到三個(gè)文件。實(shí)驗(yàn)環(huán)境:結(jié)合課堂學(xué)習(xí)的知識(shí),職工信息采用一個(gè)獨(dú)立的類(lèi)存放,并且實(shí)現(xiàn)Hadoop序列化。獨(dú)立完成編程。實(shí)驗(yàn)5.3、使用MapReduce求出各年銷(xiāo)售筆數(shù)、各年銷(xiāo)售總額(2課時(shí))實(shí)驗(yàn)類(lèi)型:綜合性實(shí)驗(yàn)?zāi)康模菏炀氄莆誐apReduce編程模型。實(shí)驗(yàn)內(nèi)容:編寫(xiě)程序,使用MapReduce求出各年銷(xiāo)售筆數(shù)、各年銷(xiāo)售總額。實(shí)驗(yàn)要求:將上面的數(shù)據(jù)文件上傳到hdfs,存放的目錄按學(xué)號(hào)區(qū)分。獨(dú)立完成編程。實(shí)驗(yàn)5.4、使用MapReduce統(tǒng)計(jì)用戶(hù)在搜狗上的搜索(2課時(shí))實(shí)驗(yàn)類(lèi)型:綜合性實(shí)驗(yàn)?zāi)康模菏炀氄莆誐apReduce編程模型。實(shí)驗(yàn)內(nèi)容:使用MapReduce統(tǒng)計(jì)用戶(hù)在搜狗上搜索,排在前10的關(guān)鍵字;另外,獲取到URL排名第二、用戶(hù)點(diǎn)擊順序第一的日志。實(shí)驗(yàn)要求:從搜狗實(shí)驗(yàn)室下載數(shù)據(jù)源,并獨(dú)立完成編程。實(shí)驗(yàn)6.1、HBase-安裝和配置HBase(選做)實(shí)驗(yàn)類(lèi)型:演示性實(shí)驗(yàn)?zāi)康模赫莆誋Base的本地模式、偽分布式、集群模式的搭建。實(shí)驗(yàn)內(nèi)容:安裝和配置HBase。實(shí)驗(yàn)要求:教師根據(jù)機(jī)房環(huán)境,選擇是否要做這個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)6.2、HBase-通過(guò)HBaseShell訪問(wèn)HBase(選做)實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆誋BaseShell常用指令的使用。實(shí)驗(yàn)內(nèi)容:通過(guò)HBaseShell訪問(wèn)HBase。實(shí)驗(yàn)要求:教師根據(jù)另一門(mén)NoSQL課程實(shí)驗(yàn)情況,覺(jué)得是否要選做此實(shí)驗(yàn)。為了避免沖突,下面的表名規(guī)則為:member+學(xué)號(hào),比如學(xué)號(hào)001,表名為member001實(shí)驗(yàn)6.3、HBase-通過(guò)JavaAPI訪問(wèn)HBase(2課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆粘S玫腍BaseJAVAAPI。實(shí)驗(yàn)內(nèi)容:通過(guò)JAVAAPI,實(shí)現(xiàn)類(lèi)似所描述的hbaseshell功能,可以操作實(shí)驗(yàn)二的表'member'。實(shí)驗(yàn)要求:獨(dú)立開(kāi)發(fā)程序。實(shí)驗(yàn)6.4、HBase-通過(guò)JavaAPI,開(kāi)發(fā)基于HBase的MapReduce程序
(2課時(shí))實(shí)驗(yàn)類(lèi)型:綜合性實(shí)驗(yàn)?zāi)康模赫莆誐apReduce操作HBase的方法。實(shí)驗(yàn)內(nèi)容:寫(xiě)一個(gè)MapReduce程序,統(tǒng)計(jì)實(shí)驗(yàn)三的表'member001'(001表示學(xué)號(hào),根據(jù)自己學(xué)號(hào)修改)的數(shù)據(jù),按所在城市('address:city')分組,統(tǒng)計(jì)出每個(gè)城市的成員個(gè)數(shù)。并將結(jié)果保存到表'result001'(001表示學(xué)號(hào),根據(jù)自己學(xué)號(hào)修改)的'content:count'列,行鍵是城市名稱(chēng)。實(shí)驗(yàn)要求:獨(dú)立開(kāi)發(fā)程序。實(shí)驗(yàn)6.5、Hive-Metastore采用Local模式(MySQL數(shù)據(jù)庫(kù))搭建Hive
環(huán)境(選做)實(shí)驗(yàn)類(lèi)型:演示性實(shí)驗(yàn)?zāi)康模赫莆誋ive的環(huán)境搭建方法。實(shí)驗(yàn)內(nèi)容:Metastore采用Local模式(MySQL數(shù)據(jù)庫(kù))搭建Hive環(huán)境。實(shí)驗(yàn)要求:采用Local模式搭建Hive,采用MySQL。實(shí)驗(yàn)6.6、Hive-常用操作(1課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆誋ive的使用。實(shí)驗(yàn)內(nèi)容:將數(shù)據(jù)導(dǎo)入到hive,并分析。實(shí)驗(yàn)要求:無(wú)。實(shí)驗(yàn)6.7、Pig-安裝和使用Pig(選做)實(shí)驗(yàn)類(lèi)型:演示性實(shí)驗(yàn)?zāi)康模毫私馊绾伟惭bPig,了解它的啟動(dòng)模式。實(shí)驗(yàn)內(nèi)容:安裝和使用Pig。實(shí)驗(yàn)要求:檢查EDU實(shí)驗(yàn)平臺(tái)是否有pig,如果沒(méi)有請(qǐng)選擇此實(shí)驗(yàn)。實(shí)驗(yàn)6.8、Pig-使用PigLatin操作員工表和部門(mén)表(1課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模赫莆誔igLatin常用的語(yǔ)句、內(nèi)置函數(shù)。實(shí)驗(yàn)內(nèi)容:使用PigLatin操作員工表和部門(mén)表。實(shí)驗(yàn)要求:獲取實(shí)驗(yàn)數(shù)據(jù)源,并加載,根據(jù)步驟操作。1課時(shí))實(shí)驗(yàn)7.1、AvroSource+MemoryChannel+1課時(shí))實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模豪斫釬lume的基本原理,掌握各組件的作用及關(guān)系;熟悉Flume的常用配置;實(shí)驗(yàn)內(nèi)容:Flume是apache的一個(gè)頂級(jí)項(xiàng)目,是一個(gè)分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方 (比如文本、HDFS、Hbase等)的能力。Flume的數(shù)據(jù)流由事件(Event)貫穿始終。事件是Flume的基本數(shù)據(jù)單位,它攜帶日志數(shù)據(jù)(字節(jié)數(shù)組形式)并且攜帶有頭信息,這些Event由Agent外部的Source生成,當(dāng)Source捕獲事件后會(huì)進(jìn)行特定的格式化,然后Source會(huì)把事件推入(單個(gè)或多個(gè))Channel中。你可以把Channel看作是一個(gè)緩沖區(qū),它將保存事件直到Sink處理完該事件。Sink負(fù)責(zé)持久化日志或者把事件推向另一個(gè)Source。本實(shí)驗(yàn)實(shí)現(xiàn)AvroSource+MemoryChannel+LoggerSink的組合。實(shí)驗(yàn)環(huán)境:操作系統(tǒng):LinuxHadoop版本:2.7.3Flume1.8.0實(shí)驗(yàn)7.2、syslogtcpSource+memoryChannel+HDFSSink (選做)實(shí)驗(yàn)類(lèi)型:驗(yàn)證性實(shí)驗(yàn)?zāi)康模豪斫釬lume的基本原理,掌握各組件的作用及關(guān)系;熟悉Flume的常用配置;實(shí)驗(yàn)內(nèi)容:Flume是apache的一個(gè)頂級(jí)項(xiàng)目,是一個(gè)分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方(比如文本、HDFS、Hbase等)的能力。Flume的數(shù)據(jù)流由事件(Event)貫穿始終。事件是Flume的基本數(shù)據(jù)單位,它攜帶日志數(shù)據(jù)(字節(jié)數(shù)組形式)并且攜帶有頭信息,這些Event由Agent外部的Source生成,當(dāng)Source捕獲事件后會(huì)進(jìn)行特定的格式化,然后Source會(huì)把事件推入(單個(gè)或多個(gè))Channel中。你可以把Channel看作是一個(gè)緩沖區(qū),它將保存事件直到Sink處理完該事件。Sink負(fù)責(zé)持久化日志或者把事件推向另一個(gè)Source。本實(shí)驗(yàn)實(shí)現(xiàn)syslogtcpSourc
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆工業(yè)職業(yè)技術(shù)學(xué)院《美術(shù)技能幼兒繪畫(huà)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年西安交大matlab考試題及答案
- 2025年?duì)I養(yǎng)食品考試題及答案
- 2025年有關(guān)醫(yī)院的面試題及答案
- 2025年餐飲業(yè)考試題及答案
- 2025年消控室考核試題及答案
- 2025年安徽煙草面試試題及答案
- 2025年北京導(dǎo)游口試題庫(kù)及答案
- 2025年精神神經(jīng)病學(xué)試題及答案
- 2025年生活黑客測(cè)試題及答案
- 2024年黑龍江公務(wù)員《行政職業(yè)能力測(cè)驗(yàn)》試題真題及答案
- 2025年鄂爾多斯職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)必考題
- 項(xiàng)目立項(xiàng)申請(qǐng)書(shū)與立項(xiàng)調(diào)研報(bào)告
- 2025年企業(yè)與個(gè)體工商戶(hù)長(zhǎng)期供銷(xiāo)合同模板
- 2025年全民國(guó)家安全教育日主題教育課件
- 北京市石景山區(qū)2024-2025學(xué)年高三上學(xué)期期末英語(yǔ)試題【含答案解析】
- 聲學(xué)基礎(chǔ)課后題答案
- 腫瘤專(zhuān)業(yè)十種常見(jiàn)疾病質(zhì)量控制指標(biāo)全年統(tǒng)計(jì)表
- 體育與健康-羽毛球運(yùn)動(dòng)
- 2025年南京信息職業(yè)技術(shù)學(xué)院高職單招語(yǔ)文2018-2024歷年參考題庫(kù)頻考點(diǎn)含答案解析
- 12J201平屋面建筑構(gòu)造圖集(完整版)
評(píng)論
0/150
提交評(píng)論