《Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用(第2版)微課版》高職全套教學(xué)課件_第1頁
《Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用(第2版)微課版》高職全套教學(xué)課件_第2頁
《Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用(第2版)微課版》高職全套教學(xué)課件_第3頁
《Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用(第2版)微課版》高職全套教學(xué)課件_第4頁
《Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用(第2版)微課版》高職全套教學(xué)課件_第5頁
已閱讀5頁,還剩1336頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hadoop大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版)第1章

初識(shí)Hadoop第2章

部署Hadoop第3章HDFS分布式文件系統(tǒng)第4章MapReduce分布式計(jì)算框架第5章ZooKeeper分布式協(xié)調(diào)服務(wù)第6章Hadoop高可用集群第7章Hive數(shù)據(jù)倉庫第8章Flume日志采集系統(tǒng)第9章Azkaban工作流管理器第10章Sqoop數(shù)據(jù)遷移第11章

綜合項(xiàng)目—網(wǎng)站流量日志數(shù)據(jù)分析系統(tǒng)全套可編輯PPT課件

第1章初識(shí)Hadoop《Hadoop大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版)》學(xué)習(xí)目標(biāo)/Target了解大數(shù)據(jù),能夠描述大數(shù)據(jù)概念、數(shù)據(jù)類型、特征和研究意義。了解大數(shù)據(jù)應(yīng)用場(chǎng)景,能夠描述大數(shù)據(jù)在醫(yī)療、金融和零售行業(yè)的應(yīng)用。了解Hadoop的前世今生,能夠說出Hadoop的發(fā)展過程。本課件是可編輯的正常PPT課件學(xué)習(xí)目標(biāo)/Target熟悉Hadoop的生態(tài)體系,能夠敘述Hadoop生態(tài)體系中各個(gè)項(xiàng)目的作用。熟悉Hadoop的架構(gòu),能夠描述不同版本Hadoop的架構(gòu)及特點(diǎn)。熟悉Hadoop的優(yōu)缺點(diǎn),能夠舉例說明Hadoop的優(yōu)點(diǎn)和缺點(diǎn)。本課件是可編輯的正常PPT課件章節(jié)概述/Summary隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)已經(jīng)在金融、交通、物流等各個(gè)行業(yè)領(lǐng)域得到廣泛應(yīng)用。而Hadoop就是一個(gè)用于處理海量數(shù)據(jù)的框架,它既可以為海量數(shù)據(jù)提供可靠的存儲(chǔ);也可以為海量數(shù)據(jù)提供高效的處理。本章將詳細(xì)介紹大數(shù)據(jù)和Hadoop的相關(guān)概念。本課件是可編輯的正常PPT課件目錄/Contents010203大數(shù)據(jù)概述大數(shù)據(jù)的應(yīng)用場(chǎng)景Hadoop概述本課件是可編輯的正常PPT課件大數(shù)據(jù)概述1.1

先定一個(gè)小目標(biāo)!了解大數(shù)據(jù),能夠描述大數(shù)據(jù)概念、數(shù)據(jù)類型、特征和研究意義1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件什么是大數(shù)據(jù)1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件高速發(fā)展的信息時(shí)代,新一輪科技革命和變革正在加速推進(jìn),技術(shù)創(chuàng)新日益成為重塑經(jīng)濟(jì)發(fā)展模式和促進(jìn)經(jīng)濟(jì)增長(zhǎng)的重要驅(qū)動(dòng)力量,而大數(shù)據(jù)無疑是核心推動(dòng)力。那么,什么是大數(shù)據(jù)呢?如果從字面意思來看,大數(shù)據(jù)指的是海量數(shù)據(jù)。那么可能有人會(huì)問,多大量級(jí)的數(shù)據(jù)才叫大數(shù)據(jù)?其實(shí)不同的機(jī)構(gòu)或者學(xué)者對(duì)于大數(shù)據(jù)的量級(jí)難以給出一個(gè)具體定量的定義,只能說,大數(shù)據(jù)的存儲(chǔ)單位已經(jīng)超過TB發(fā)展到了PB、EB、ZB、YB甚至BB。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常什么是大數(shù)據(jù)本課件是可編輯的正常PPT課件最早提出大數(shù)據(jù)時(shí)代到來的是麥肯錫公司(McKinsey&Company),該公司認(rèn)為數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。從大數(shù)據(jù)特點(diǎn)來看,大數(shù)據(jù)具有海量、流轉(zhuǎn)快、數(shù)據(jù)類型豐富以及價(jià)值密度低等特點(diǎn)。如果從技術(shù)角度來看,大數(shù)據(jù)的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù),還包括對(duì)這些數(shù)據(jù)進(jìn)行有效處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)盈利的關(guān)鍵在于提高對(duì)大數(shù)據(jù)的加工能力,通過加工技術(shù)來實(shí)現(xiàn)數(shù)據(jù)增值。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常什么是大數(shù)據(jù)本課件是可編輯的正常PPT課件大數(shù)據(jù)的數(shù)據(jù)類型豐富多樣,包括網(wǎng)頁文件、表格數(shù)據(jù)、XML文件、文本數(shù)據(jù)、多媒體數(shù)據(jù)(視頻、圖片等)等,這些數(shù)據(jù)可大致劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)3種類型。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常大數(shù)據(jù)的數(shù)據(jù)類型本課件是可編輯的正常PPT課件213采用標(biāo)準(zhǔn)化格式的數(shù)據(jù),具有明確定義的結(jié)構(gòu),數(shù)據(jù)的存儲(chǔ)和排列是有規(guī)律的,便于理解數(shù)據(jù)的定義、格式和含義,易于人類和程序訪問。結(jié)構(gòu)化數(shù)據(jù)不遵循任何數(shù)據(jù)模型,沒有明確定義的結(jié)構(gòu),但是包含一些結(jié)構(gòu)化元素,用于標(biāo)記和組織數(shù)據(jù),使數(shù)據(jù)更容易分析。半結(jié)構(gòu)化數(shù)據(jù)不遵循任何數(shù)據(jù)模型,并且沒有易于識(shí)別的結(jié)構(gòu),企業(yè)中產(chǎn)生的大部分?jǐn)?shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),是大數(shù)據(jù)最常見的一種數(shù)據(jù)類型非結(jié)構(gòu)化數(shù)據(jù)1.繼承的概念1.什么是異常大數(shù)據(jù)的數(shù)據(jù)類型1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件大數(shù)據(jù)是來源于眾多不同數(shù)據(jù)源的集合,通常由5個(gè)特征來描述,包括大量(Volume)、真實(shí)(Veracity)、多樣(Variety)、低價(jià)值密度(Value)和高速(Velocity),這5個(gè)特征稱為大數(shù)據(jù)的5V特征。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常大數(shù)據(jù)的特征本課件是可編輯的正常PPT課件0102030405采集、存儲(chǔ)、管理和分析的數(shù)據(jù)量都非常龐大,并且數(shù)據(jù)每年都在持續(xù)的增長(zhǎng)。大數(shù)據(jù)的質(zhì)量,一定程度上反應(yīng)出實(shí)際情況,真實(shí)不一定代表準(zhǔn)確,虛假數(shù)據(jù)所營(yíng)造出來的準(zhǔn)確一定不是真實(shí)的,這也是數(shù)據(jù)分析的基礎(chǔ)。大數(shù)據(jù)的數(shù)據(jù)類型和來源的多樣性,數(shù)據(jù)類型多樣性是指大數(shù)據(jù)的數(shù)據(jù)類型;來源多樣性是指大數(shù)據(jù)的數(shù)據(jù)源可以是多種設(shè)備。海量數(shù)據(jù)中有價(jià)值內(nèi)容的密度相對(duì)較低,從海量數(shù)據(jù)中提取有價(jià)值的數(shù)據(jù)進(jìn)行分析預(yù)測(cè)的方法,可以為企業(yè)帶來更有效的運(yùn)營(yíng)。數(shù)據(jù)增長(zhǎng)速度快,對(duì)于海量數(shù)據(jù)存儲(chǔ)和處理的時(shí)效性要求更高。大量真實(shí)多樣低價(jià)值密度高速大數(shù)據(jù)的特征1.繼承的概念1.什么是異常大數(shù)據(jù)的特征1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件研究大數(shù)據(jù)最重要的意義是預(yù)測(cè),數(shù)據(jù)從根本上來講,是對(duì)過去和現(xiàn)在的歸納與總結(jié),其本身不具備趨勢(shì)和方向性的特征,但是可以應(yīng)用大數(shù)據(jù)去了解事物發(fā)展的客觀規(guī)律、人類的行為特征等,并且能夠幫助我們改變過去的思維方式,建立新的數(shù)據(jù)思維模型,從而對(duì)未來進(jìn)行預(yù)測(cè)和推測(cè)。1.繼承的概念1.什么是異常研究大數(shù)據(jù)的意義1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件大數(shù)據(jù)的應(yīng)用場(chǎng)景1.2

先定一個(gè)小目標(biāo)!了解大數(shù)據(jù)應(yīng)用場(chǎng)景,能夠描述大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用1.2.1醫(yī)療行業(yè)的應(yīng)用本課件是可編輯的正常PPT課件1.2.1醫(yī)療行業(yè)的應(yīng)用醫(yī)生往往都希望盡可能多地收集病人信息,盡早發(fā)現(xiàn)疾病,對(duì)于患者來說,不但降低了身體健康受損的風(fēng)險(xiǎn),同時(shí)也能夠減少醫(yī)療支出。而通過對(duì)醫(yī)療大數(shù)據(jù)的分析,人類不但能夠預(yù)測(cè)流行疾病的爆發(fā)趨勢(shì)、避免感染、降低醫(yī)療成本等,還能讓患者享受到更加便利的服務(wù)。本課件是可編輯的正常PPT課件1.醫(yī)學(xué)影像評(píng)估1.2.1醫(yī)療行業(yè)的應(yīng)用醫(yī)學(xué)影像是醫(yī)療過程中經(jīng)常會(huì)遇到的醫(yī)療事項(xiàng),醫(yī)學(xué)影像技術(shù)包括X射線、核磁共振成像、醫(yī)學(xué)超聲波檢測(cè)等。通過醫(yī)院歷年來積累的大量患者影像數(shù)據(jù)訓(xùn)練人工智能算法,使其協(xié)助處理患者的影像,可以提高患者影像的處理效率,也可以輔助醫(yī)生做出診斷。本課件是可編輯的正常PPT課件2.醫(yī)院管理決策輔助1.2.1醫(yī)療行業(yè)的應(yīng)用醫(yī)療大數(shù)據(jù)在醫(yī)院管理應(yīng)用上主要有兩個(gè)方向,分別是優(yōu)化醫(yī)療資源配置和彌補(bǔ)醫(yī)院管理漏洞,其中優(yōu)化醫(yī)療資源配置指的是通過人工智能制定實(shí)時(shí)的工作安排。彌補(bǔ)醫(yī)院管理漏洞是指通過大數(shù)據(jù)分析總結(jié)醫(yī)院存在的問題,并給出解決方案,降低醫(yī)院成本,提高醫(yī)院的營(yíng)收。本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!了解大數(shù)據(jù)應(yīng)用場(chǎng)景,能夠描述大數(shù)據(jù)在金融行業(yè)的應(yīng)用1.2.2金融行業(yè)的應(yīng)用本課件是可編輯的正常PPT課件1.2.2金融行業(yè)的應(yīng)用在大數(shù)據(jù)時(shí)代,面對(duì)海量的金融數(shù)據(jù),傳統(tǒng)的分析方式需要發(fā)生重大的改變,并建立與之相應(yīng)的新的統(tǒng)計(jì)模式。面對(duì)金融大數(shù)據(jù),如何使用和管理大數(shù)據(jù)、從中提取有用的信息,為金融決策者提供可靠的理論支持,是各級(jí)政府、企事業(yè)單位以及金融機(jī)構(gòu)所共同面臨的重要問題。隨著近年來社會(huì)重視度的不斷提高,金融大數(shù)據(jù)的應(yīng)用將迎來突破性的發(fā)展。本課件是可編輯的正常PPT課件1.風(fēng)險(xiǎn)管控1.2.2金融行業(yè)的應(yīng)用風(fēng)險(xiǎn)管控主要包括欺詐交易識(shí)別和中小企業(yè)貸款風(fēng)險(xiǎn)評(píng)估,其中欺詐交易識(shí)別是指銀行可以利用持卡人基本信息、銀行卡基本信息、交易歷史,結(jié)合人工智能算法進(jìn)行實(shí)時(shí)的交易反欺詐分析;中小企業(yè)貸款風(fēng)險(xiǎn)評(píng)估是指銀行可通過企業(yè)的產(chǎn)量、銷售、流通、財(cái)務(wù)等相關(guān)信息。本課件是可編輯的正常PPT課件2.運(yùn)營(yíng)優(yōu)化1.2.2金融行業(yè)的應(yīng)用運(yùn)行優(yōu)化主要包括市場(chǎng)和渠道分析優(yōu)化、產(chǎn)品和服務(wù)優(yōu)化、輿情分析,市場(chǎng)和渠道分析優(yōu)化可以對(duì)合作渠道進(jìn)行調(diào)整和優(yōu)化;產(chǎn)品和服務(wù)優(yōu)化可以對(duì)產(chǎn)品創(chuàng)新和服務(wù)進(jìn)行優(yōu)化;輿情分析通過自然語言處理技術(shù)進(jìn)行正負(fù)面判斷,對(duì)于負(fù)面信息,銀行及時(shí)發(fā)現(xiàn)和處理問題,對(duì)于正面信息,可以加以總結(jié)并繼續(xù)強(qiáng)化。本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!了解大數(shù)據(jù)應(yīng)用場(chǎng)景,能夠描述大數(shù)據(jù)在零售行業(yè)的應(yīng)用1.2.3零售行業(yè)的應(yīng)用本課件是可編輯的正常PPT課件大數(shù)據(jù)時(shí)代下,高頻次的零售交易會(huì)產(chǎn)生海量業(yè)務(wù)數(shù)據(jù),但如何將這些數(shù)據(jù)付諸業(yè)務(wù)應(yīng)用卻面臨著重大挑戰(zhàn)。為保持行業(yè)競(jìng)爭(zhēng)力,零售商們需要克服這些挑戰(zhàn),并根據(jù)業(yè)務(wù)各個(gè)層面的數(shù)據(jù)作出決策。1.2.3零售行業(yè)的應(yīng)用本課件是可編輯的正常PPT課件1.打造智慧的購(gòu)物體驗(yàn)1.2.3零售行業(yè)的應(yīng)用零售行業(yè)可以通過定制APP幫助顧客瀏覽產(chǎn)品,在APP中記錄顧客的偏好并收集詳細(xì)的購(gòu)買信息,這些數(shù)據(jù)將反饋給大數(shù)據(jù)分析平臺(tái)?;趯?duì)數(shù)據(jù)的進(jìn)一步分析,零售行業(yè)可以對(duì)顧客歷史購(gòu)買行為進(jìn)行分類,并以此改進(jìn)產(chǎn)品推薦,分析結(jié)果還可以指導(dǎo)零售行業(yè)對(duì)新產(chǎn)品的設(shè)計(jì)和定價(jià),為客戶提供更個(gè)性化、更高效、更優(yōu)質(zhì)的服務(wù)。本課件是可編輯的正常PPT課件2.構(gòu)建智慧的商品管理和供應(yīng)鏈網(wǎng)絡(luò)1.2.3零售行業(yè)的應(yīng)用零售行業(yè)在拓展電商平臺(tái)方面充分利用大數(shù)據(jù)打開市場(chǎng),并與上游供應(yīng)商協(xié)同聯(lián)動(dòng),實(shí)現(xiàn)預(yù)期效果。借助自身積累的會(huì)員資料、訪問流量、訂單信息等大數(shù)據(jù),進(jìn)行深入挖掘,與供應(yīng)商一起研究用戶需求,向上游供應(yīng)商進(jìn)行產(chǎn)品的定制。本課件是可編輯的正常PPT課件Hadoop概述1.3

先定一個(gè)小目標(biāo)!了解Hadoop的前世今生,能夠說出Hadoop的發(fā)展過程1.3.1Hadoop的前世今生本課件是可編輯的正常PPT課件1.3.1Hadoop的前世今生2002~2004開發(fā)出了Nutch分布式文件系統(tǒng),模仿Google的MapReduce框架,實(shí)現(xiàn)了一個(gè)新的MapReduce并行處理軟件系統(tǒng),并作為Nutch底層的計(jì)算引擎。2006~2008NDFS更名為HDFS,Hadoop晉升為Apache軟件基金會(huì)的頂級(jí)項(xiàng)目。Hive、Pig、HBase和ZooKeeper成為Hadoop的子項(xiàng)目。2012Hadoop2.x誕生,將負(fù)責(zé)資源管理、工作管理和容錯(cuò)的代碼庫從MapReduce提取出來,形成一個(gè)新的子項(xiàng)目YARN。2021將13個(gè)大部分屬于Hadoop的大數(shù)據(jù)項(xiàng)目遷移至軟件基金會(huì)的一個(gè)項(xiàng)目ApacheAttic。2017Hadoop3.x誕生。本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉Hadoop的優(yōu)缺點(diǎn),能夠舉例說明Hadoop的優(yōu)點(diǎn)和缺點(diǎn)1.3.2Hadoop的優(yōu)缺點(diǎn)本課件是可編輯的正常PPT課件0102030405企業(yè)可以使用多臺(tái)廉價(jià)的計(jì)算機(jī)組建集群環(huán)境,通過分布式系統(tǒng)處理大規(guī)模數(shù)據(jù)集。Hadoop自動(dòng)維護(hù)數(shù)據(jù)文件的多份副本,可以有效防止數(shù)據(jù)丟失的情況發(fā)生。若執(zhí)行計(jì)算的過程中,某個(gè)計(jì)算機(jī)宕機(jī),那么Hadoop會(huì)自動(dòng)將該計(jì)算機(jī)上執(zhí)行的任務(wù)轉(zhuǎn)移到其他計(jì)算機(jī)上繼續(xù)執(zhí)行,以防止任務(wù)執(zhí)行失敗。Hadoop可以高效地執(zhí)行并行計(jì)算,能夠在計(jì)算機(jī)之間動(dòng)態(tài)地移動(dòng)計(jì)算,確保每臺(tái)計(jì)算機(jī)在執(zhí)行計(jì)算時(shí)可以最快的獲取到將要處理的數(shù)據(jù),提高計(jì)算效率。Hadoop可以隨時(shí)通過添加更多的計(jì)算機(jī)來增加集群的存儲(chǔ)和計(jì)算能力。低成本高可靠性高容錯(cuò)性高效率高擴(kuò)展性Hadoop的優(yōu)點(diǎn)1.3.2Hadoop的優(yōu)缺點(diǎn)本課件是可編輯的正常PPT課件1.3.2Hadoop的優(yōu)缺點(diǎn)Hadoop設(shè)計(jì)之初是為了解決大型數(shù)據(jù)集的處理問題,對(duì)于大量小文件的處理來說,Hadoop的處理效率并不高。不適合處理小文件Hadoop的核心是執(zhí)行離線計(jì)算的引擎,無法在輸出結(jié)果時(shí)像實(shí)時(shí)計(jì)算那樣確保低延遲。無法實(shí)時(shí)計(jì)算Hadoop自身在存儲(chǔ)和網(wǎng)絡(luò)傳輸方面缺乏對(duì)數(shù)據(jù)的加密,這意味著通過Hadoop處理的數(shù)據(jù)可能存在泄露的風(fēng)險(xiǎn)。安全性較低Hadoop的缺點(diǎn)本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉Hadoop的生態(tài)系統(tǒng),能夠敘述Hadoop生態(tài)體系中各個(gè)項(xiàng)目的作用1.3.3Hadoop的生態(tài)系統(tǒng)本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目Hadoop的核心由HDFS、MapReduce和YARN組成。Hadoop也用于泛指與Hadoop相關(guān)的開源大數(shù)據(jù)項(xiàng)目所組成的生態(tài)體系。本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)AmbariSubmarineAmbari是一個(gè)基于Web的工具。用于配置、管理和監(jiān)控Hadoop,包括對(duì)Hive、HBase和Pig等的支持。Submarine是一個(gè)智能化平臺(tái)。允許用戶利用該平臺(tái)在分布式集群中進(jìn)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的工作。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)HBaseHiveHBase是一個(gè)基于Hadoop的分布式數(shù)據(jù)庫。HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問。Hive是一個(gè)數(shù)據(jù)倉庫工具??梢詫⒔Y(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)PigMahoutPig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái)。提供的SQL-LIKE語言是一個(gè)類SQL語言。Mahout是一個(gè)機(jī)器學(xué)習(xí)的算法庫。提供了一些機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典算法。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)AvroTezAvro是一個(gè)數(shù)據(jù)序列化系統(tǒng)。支持二進(jìn)制序列化方式,可以便捷、快速地處理大量數(shù)據(jù)。Tez是一個(gè)基于Hadoop的YARN構(gòu)建的分布式框架。支持用戶使用DAG(有向無環(huán)圖)作業(yè)處理數(shù)據(jù)。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)SparkCassandraSpark是一個(gè)基于內(nèi)存的分布式計(jì)算引擎??梢酝ㄟ^自身提供組件,實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)集相關(guān)操作。Cassandra是一個(gè)開源的分布式數(shù)據(jù)庫??梢源鎯?chǔ)不同結(jié)構(gòu)的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)OzoneChukwaOzone是一個(gè)可擴(kuò)展的分布式存儲(chǔ)系統(tǒng)。基于Hadoop的HDFS所構(gòu)建,并彌補(bǔ)了HDFS自身存在的不足。Chukwa是一個(gè)構(gòu)建在Hadoop的HDFS和MapReduce之上的開源數(shù)據(jù)收集平臺(tái)。監(jiān)控、分析和展示收集到的數(shù)據(jù)。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)ZooKeeperZooKeeper是一個(gè)分布式協(xié)調(diào)服務(wù)??梢詾榉植际较到y(tǒng)提供一致性服務(wù),包括統(tǒng)一命名、狀態(tài)同步、集群管理、配置同步等。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項(xiàng)目本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉Hadoop的架構(gòu),能夠描述不同版本Hadoop的架構(gòu)及特點(diǎn)1.3.4Hadoop架構(gòu)變遷本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷Hadoop1.x與Hadoop2.x的架構(gòu)Hadoop共發(fā)行了三個(gè)版本,分別是Hadoop1.x、Hadoop2.x和Hadoop3.x。Hadoop2.x架構(gòu)比Hadoop1.x架構(gòu)增加了YARN與Others。本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷MapReduce既負(fù)責(zé)Hadoop資源管理,又負(fù)責(zé)Hadoop的數(shù)據(jù)處理,負(fù)荷較大。HDFS主要負(fù)責(zé)Hadoop的分布式文件存儲(chǔ)。Hadoop1.x和Hadoop2.x架構(gòu)Hadoop1.x架構(gòu)Hadoop2.x架構(gòu)MapReduce只負(fù)責(zé)Hadoop的數(shù)據(jù)處理,負(fù)載相對(duì)較小。YARN負(fù)責(zé)Hadoop的資源管理和任務(wù)調(diào)度。HDFS負(fù)責(zé)Hadoop中的分布式文件存儲(chǔ)。YARN支持為其他大數(shù)據(jù)開源項(xiàng)目提供資源管理。本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷JDK升級(jí):Hadoop2.x版本支持的最低JDK版本為7。Hadoop3.x版本支持的最低JDK版本為8。重構(gòu)Shell腳本:Hadoop3.x中的Shell腳本被重寫,修補(bǔ)了許多長(zhǎng)期存在的Bug,提高了Hadoop使用時(shí)的穩(wěn)定性。精簡(jiǎn)內(nèi)核:Hadoop3.x剔除了過期的API,將默認(rèn)組件的實(shí)現(xiàn)替換成更高效的實(shí)現(xiàn)。類路徑隔離:Hadoop3.x提供了類路徑隔離機(jī)制,防止不同版本的jar包發(fā)生沖突。1.HadoopCommonHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷任務(wù)本地優(yōu)化:Hadoop3.x中,為MapReduce增加了NativeMapOutputCollector組件來處理MapTask輸出的鍵值對(duì),包括排序、溢寫和IFile序列化,對(duì)于Shuffle比較密集型的任務(wù),可以使MapTask的執(zhí)行速度性能提高2~3倍。內(nèi)存參數(shù)自動(dòng)推斷:在Hadoop2.x中,運(yùn)行MapReduce程序時(shí)設(shè)置內(nèi)存參數(shù)的過程非常繁瑣。而Hadoop3.x中運(yùn)行MapReduce程序時(shí),可自動(dòng)進(jìn)行內(nèi)存的調(diào)整。2.MapReduceHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷YARNTimelineServiceV2:YARNTimelineServiceV2主要對(duì)Hadoop2.x的YARN進(jìn)行了兩處優(yōu)化,第一使用了更具有伸縮性的分布式體系架構(gòu),以及可擴(kuò)展的后端存儲(chǔ),從而將數(shù)據(jù)的寫入和讀取進(jìn)行了分離;第二采用了一組收集器負(fù)責(zé)將數(shù)據(jù)寫入到后端進(jìn)行存儲(chǔ)。增加YARN資源類型:Hadoop3.x中,YARN資源模型已被通用化,支持用戶定義CPU和內(nèi)存以外的可計(jì)數(shù)資源類型。3.YARNHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷支持多個(gè)NameNode:Hadoop2.x只允許HDFS中存在一個(gè)Active(激活)狀態(tài)的NameNode和一個(gè)Standby(備用)狀態(tài)的NameNode。Hadoop3.x版本允許HDFS中存在一個(gè)Active狀態(tài)的NameNode和多個(gè)Standby狀態(tài)的NameNode,有效提高了HDFS的可靠性。引入ErasureCoding(糾刪碼):Hadoop3.x引入了ErasureCoding,在確保HDFS存儲(chǔ)數(shù)據(jù)可靠的前提下,可以節(jié)省50%的存儲(chǔ)空間。4.HDFSHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件本章小結(jié)本章主要講解了大數(shù)據(jù)和Hadoop的相關(guān)概念。首先介紹了什么是大數(shù)據(jù),以及大數(shù)據(jù)的數(shù)據(jù)類型、特征和研究意義;然后,介紹了大數(shù)據(jù)在醫(yī)療行業(yè)、金融行業(yè)和零售行業(yè)的應(yīng)用場(chǎng)景;最后,介紹了Hadoop的前世今生、優(yōu)缺點(diǎn)、生態(tài)體系以及Hadoop的架構(gòu)變遷。希望通過本章的學(xué)習(xí),讀者可以了解大數(shù)據(jù)和Hadoop相關(guān)的基本概念,為后續(xù)更加深入的學(xué)習(xí)Hadoop奠定基礎(chǔ)。本章小結(jié)本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件第2章部署Hadoop《Hadoop大數(shù)據(jù)技術(shù)原理與應(yīng)用(第2版)》學(xué)習(xí)目標(biāo)/Target了解虛擬機(jī)的創(chuàng)建過程,能夠完成虛擬機(jī)和Linux操作系統(tǒng)的安裝。了解虛擬機(jī)的克隆方式,能夠使用完整克隆的方式克隆新的虛擬機(jī)。熟悉虛擬機(jī)的配置,能夠配置Linux系統(tǒng)的主機(jī)名、IP地址、網(wǎng)絡(luò)參數(shù)等。本課件是可編輯的正常PPT課件學(xué)習(xí)目標(biāo)/Target掌握基于完全分布式模式下部署Hadoop,能夠獨(dú)立完成完全分布式模式部署。掌握Hadoop的案例操作,能夠在Hadoop中運(yùn)行MapReduce程序。熟悉基于偽分布式模式部署Hadoop,能夠在單臺(tái)虛擬機(jī)完成偽分布式模式部署。本課件是可編輯的正常PPT課件章節(jié)概述/Summary“工欲善其事,必先利其器”,比喻要做好一件事情,準(zhǔn)備好工具就顯得非常重要。同樣深入學(xué)習(xí)Hadoop之前,部署好Hadoop集群也是至關(guān)重要的。本章將帶領(lǐng)大家從零開始搭建一個(gè)Hadoop集群,并體驗(yàn)Hadoop集群的簡(jiǎn)單使用。本課件是可編輯的正常PPT課件目錄/Contents010203安裝準(zhǔn)備Hadoop集群部署模式基于偽分布式模式部署Hadoop04基于完全分布式模式部署Hadoop05案例--詞頻統(tǒng)計(jì)本課件是可編輯的正常PPT課件安裝準(zhǔn)備2.1

先定一個(gè)小目標(biāo)!了解虛擬機(jī)的創(chuàng)建過程,能夠完成虛擬機(jī)的安裝2.1.1創(chuàng)建虛擬機(jī)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)在實(shí)際開發(fā)應(yīng)用場(chǎng)景中,Hadoop集群的搭建需要涉及多臺(tái)計(jì)算機(jī)來實(shí)現(xiàn),這對(duì)于想要學(xué)習(xí)Hadoop的大部分人來說是難以實(shí)現(xiàn)的。這里我們借助VMwareWorkstation軟件在一臺(tái)計(jì)算機(jī)上創(chuàng)建多臺(tái)虛擬機(jī),并且在每臺(tái)虛擬機(jī)中安裝Linux操作系統(tǒng),從而實(shí)現(xiàn)在一臺(tái)計(jì)算機(jī)上搭建Hadoop集群。接下來,我們一起來學(xué)習(xí)如何安裝虛擬機(jī)。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)下載并安裝好VMwareWorkstation虛擬軟件工具,安裝成功后打開VMwareWorkstation工具,進(jìn)入VMwareWorkstation主界面。STEP01創(chuàng)建新的虛擬機(jī)界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在歡迎使用新建虛擬機(jī)向?qū)Ы缑孢x擇自定義(高級(jí))。STEP02歡迎使用新建虛擬機(jī)向?qū)Ы缑姹菊n件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在選擇虛擬機(jī)硬件兼容性界面,選擇硬件兼容性為Workstation16.2.x。STEP03選擇虛擬機(jī)硬件兼容性界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在安裝客戶機(jī)操作系統(tǒng)界面,選擇安裝來源為稍后安裝操作系統(tǒng)。STEP04安裝客戶機(jī)操作系統(tǒng)界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在選擇客戶機(jī)操作系統(tǒng)界面,選擇客戶機(jī)操作系統(tǒng)為L(zhǎng)inux。STEP05選擇客戶機(jī)操作系統(tǒng)界面版本為其他Linux5.x內(nèi)核64位本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在命名虛擬機(jī)界面,將虛擬機(jī)名稱填寫為Hadoop1。STEP06命名虛擬機(jī)界面虛擬機(jī)本地的存儲(chǔ)位置本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在處理器配置界面,處理數(shù)量選擇為1,每個(gè)處理器的內(nèi)核數(shù)量設(shè)置為2。STEP07處理器配置界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在此虛擬機(jī)的內(nèi)存界面,將此虛擬機(jī)的內(nèi)存設(shè)置為4096MB。STEP08此虛擬機(jī)的內(nèi)存界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在網(wǎng)絡(luò)類型界面,選擇網(wǎng)絡(luò)連接為使用網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)。STEP09網(wǎng)絡(luò)類型界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在選擇I/O控制器類型界面,選擇I/O控制器類型為L(zhǎng)SILogic。STEP10選擇I/O控制器類型界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)在選擇磁盤類型界面,選擇虛擬磁盤類型為SCSI。STEP11選擇磁盤類型界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)STEP12選擇磁盤界面在選擇磁盤界面,選擇磁盤為創(chuàng)建新虛擬磁盤。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)STEP13指定磁盤容量界面在指定磁盤容量界面,將最大磁盤大小設(shè)置為30.0。選擇將虛擬磁盤拆分成多個(gè)文件本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)STEP14指定磁盤文件界面

在指定磁盤文件界面,將磁盤文件命名為Hadoop1.vmdk。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)STEP15已準(zhǔn)備好創(chuàng)建虛擬機(jī)界面

在已準(zhǔn)備好創(chuàng)建虛擬機(jī)界面,可以查看虛擬機(jī)的相關(guān)配置參數(shù)。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機(jī)2.1.1創(chuàng)建虛擬機(jī)STEP16完成虛擬機(jī)的創(chuàng)建界面

虛擬機(jī)Hadoop1創(chuàng)建完成后的效果。本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!了解虛擬機(jī)的創(chuàng)建過程,能夠完成Linux操作系統(tǒng)的安裝2.1.1創(chuàng)建虛擬機(jī)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)接下來,我們一起來學(xué)習(xí)在虛擬機(jī)Hadoop1安裝Linux操作系統(tǒng)的發(fā)行版CentOSStream9。本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP01虛擬機(jī)設(shè)置對(duì)話框

在虛擬機(jī)設(shè)置對(duì)話框,勾選使用ISO鏡像文件。選擇本地存放ISO鏡像文件1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP02CentOSStream9安裝引導(dǎo)界面啟動(dòng)虛擬機(jī)Hadoop1,初次啟動(dòng)虛擬機(jī)Hadoop1之后會(huì)進(jìn)入CentOSStream9的安裝引導(dǎo)界面。選擇InstallCentOSStream91.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP03歡迎使用CENTOSSTREAM9界面在歡迎使用CENTOSSTREAM9界面,選擇用簡(jiǎn)體中文(中國(guó))做為CentOSStream9操作系統(tǒng)的語言。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP04安裝信息摘要界面在安裝信息摘要界面,可以修改CentOSStream9的相關(guān)配置。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP05網(wǎng)絡(luò)和主機(jī)名界面在網(wǎng)絡(luò)和主機(jī)名界面,確認(rèn)以太網(wǎng)(ens33)為打開狀態(tài)。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)將主機(jī)名設(shè)置為hadoop1本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP06時(shí)間和日期界面在時(shí)間和日期界面,確認(rèn)“地區(qū)”和“城市”分別為“亞洲”和“上?!?,以及網(wǎng)絡(luò)時(shí)間為打開狀態(tài)。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP07安裝目標(biāo)位置界面在安裝目標(biāo)位置界面配置CentOSStream9的磁盤分區(qū),選擇存儲(chǔ)配置為自動(dòng)。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)選擇存儲(chǔ)配置為自動(dòng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP08軟件選擇界面在軟件選擇界面配置CentOSStream9的基本環(huán)境,選擇基本環(huán)境為MinimalInstall,即最小化安裝。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP09ROOT密碼界面在ROOT密碼界面,配置用戶root的密碼。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)密碼為123456本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP10安裝進(jìn)度界面(1)在安裝進(jìn)度界面開始安裝CentOSStream9。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP10安裝進(jìn)度界面(2)待CentOSStream9安裝完成后,單擊重啟系統(tǒng)按鈕開始使用CentOSStream9。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP11虛擬機(jī)Hadoop1的登錄界面待重啟完成后會(huì)進(jìn)入虛擬機(jī)Hadoop1的登錄界面。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機(jī)STEP12成功登錄虛擬機(jī)Hadoop1的效果在虛擬機(jī)Hadoop1的登錄界面,輸入用戶名root,在“Password:”位置輸入用戶root的密碼123456;按“Enter”鍵登錄虛擬機(jī)Hadoop1。1.繼承的概念1.什么是異常在虛擬機(jī)中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!了解虛擬機(jī)的克隆方式,能夠使用完整克隆的方式克隆新的虛擬機(jī)2.1.2克隆虛擬機(jī)本課件是可編輯的正常PPT課件2.1.2克隆虛擬機(jī)完整克隆的虛擬機(jī)是通過復(fù)制原虛擬機(jī)創(chuàng)建完全獨(dú)立的新虛擬機(jī),不和原虛擬機(jī)共享任何資源,可以脫離原虛擬機(jī)獨(dú)立使用。完整克隆鏈接克隆鏈接克隆的虛擬機(jī)需要和原虛擬機(jī)共享同一個(gè)虛擬磁盤文件,不能脫離原虛擬機(jī)獨(dú)立運(yùn)行。本課件是可編輯的正常PPT課件通過完整克隆方式創(chuàng)建的虛擬機(jī)相對(duì)獨(dú)立,不依賴于原虛擬機(jī),在實(shí)際使用中也較為常用。接下來,我們一起學(xué)習(xí)以完整克隆的方式創(chuàng)建虛擬機(jī)Hadoop2和Hadoop3。2.1.2克隆虛擬機(jī)本課件是可編輯的正常PPT課件STEP01關(guān)閉虛擬機(jī)虛擬機(jī)克隆之前,需要在VMwareWorkstation工具的主界面關(guān)閉要克隆的虛擬機(jī)Hadoop1。2.1.2克隆虛擬機(jī)本課件是可編輯的正常PPT課件STEP02歡迎使用克隆虛擬機(jī)向?qū)Ы缑嬖赩MwareWorkstation的主界面選擇并右擊虛擬機(jī)Hadoop1,依次選擇“管理”→“克隆”選項(xiàng)進(jìn)入歡迎使用克隆虛擬機(jī)向?qū)Ы缑妗?.1.2克隆虛擬機(jī)本課件是可編輯的正常PPT課件STEP03克隆源界面在克隆源界面,選擇虛擬機(jī)中的當(dāng)前狀態(tài)。2.1.2克隆虛擬機(jī)本課件是可編輯的正常PPT課件在克隆類型界面,選擇選擇克隆方法為創(chuàng)建完整克隆。2.1.2克隆虛擬機(jī)STEP04克隆類型界面本課件是可編輯的正常PPT課件在“新虛擬機(jī)名稱”界面,自定義虛擬機(jī)名稱和虛擬機(jī)存儲(chǔ)位置。2.1.2克隆虛擬機(jī)STEP05新虛擬機(jī)名稱界面本課件是可編輯的正常PPT課件在正在克隆虛擬機(jī)界面,查看通過完整克隆的方式創(chuàng)建虛擬機(jī)Hadoop2的進(jìn)度。2.1.2克隆虛擬機(jī)STEP06正在克隆虛擬機(jī)界面本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉虛擬機(jī)的配置,能夠配置Linux系統(tǒng)的主機(jī)名和IP映射2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)在集群環(huán)境中,IP地址作為各節(jié)點(diǎn)的標(biāo)識(shí)可以說是非常重要的,我們可以通過IP地址明確訪問集群中具體的某一節(jié)點(diǎn),不過,IP地址難以記憶,通過IP地址訪問節(jié)點(diǎn)非常不方便。此時(shí)可以將虛擬機(jī)主機(jī)名與IP地址映射,使用主機(jī)名訪問節(jié)點(diǎn)。本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)修改主機(jī)名hostnamectlset-hostnamehadoop2hostnamectlset-hostnamehadoop3hadoop2hadoop3配置虛擬機(jī)的主機(jī)名和配置IP映射分別將虛擬機(jī)Hadoop2和Hadoop3的主機(jī)名修改為hadoop2和hadoop3。STEP01本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)配置VMwareWorkstation網(wǎng)絡(luò)在VMwareWorkstation主界面,依次單擊“編輯”→“虛擬網(wǎng)絡(luò)編輯器...”選項(xiàng),配置VMwareWorkstation網(wǎng)絡(luò)。配置虛擬機(jī)的主機(jī)名和配置IP映射STEP02單擊更改設(shè)置本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)修改映射文件分別在虛擬機(jī)Hadoop1、Hadoop2和Hadoop3執(zhí)行“vi/etc/hosts”命令編輯映射文件hosts,在配置文件中添加如下內(nèi)容。60hadoop161hadoop262hadoop3配置虛擬機(jī)的主機(jī)名和配置IP映射STEP03本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉虛擬機(jī)的配置,能夠配置網(wǎng)絡(luò)參數(shù)2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù),主要是將虛擬機(jī)Hadoop1、Hadoop2和Hadoop3的網(wǎng)絡(luò)由默認(rèn)的動(dòng)態(tài)IP修改為靜態(tài)IP,以配置虛擬機(jī)Hadoop2的網(wǎng)絡(luò)參數(shù)為例演示。2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)編輯網(wǎng)絡(luò)配置文件vi/etc/NetworkManager/system-connections/ens33.nmconnection配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù)編輯虛擬機(jī)Hadoop2的網(wǎng)絡(luò)配置文件ens33.nmconnection。STEP01本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)修改網(wǎng)絡(luò)配置文件修改網(wǎng)絡(luò)配置文件中[ipv4]下方參數(shù)method的值為manual,表示使用靜態(tài)IP。在[ipv4]下方添加參數(shù)address1和dns,參數(shù)address1用于指定IP地址和網(wǎng)關(guān),參數(shù)dns用于指定域名解析器。STEP02配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)修改uuidsed-i'/uuid=/c\uuid='`uuidgen`''\/etc/NetworkManager/system-connections/ens33.nmconnection修改虛擬機(jī)Hadoop2和Hadoop3的uuid,uuid的作用是使分布式系統(tǒng)中的所有元素都有唯一的標(biāo)識(shí)碼。STEP03配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)重啟ens33網(wǎng)卡和重新加載網(wǎng)絡(luò)配置文件在虛擬機(jī)Hadoop2中執(zhí)行“nmclicreload”命令重新加載網(wǎng)絡(luò)配置文件,以及執(zhí)行“nmclicupens33”命令重啟ens33網(wǎng)卡,使修改后的網(wǎng)絡(luò)配置文件生效。STEP04配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)查看網(wǎng)絡(luò)信息通過執(zhí)行“ipaddr”命令查看虛擬機(jī)Hadoop2的網(wǎng)絡(luò)信息,驗(yàn)證網(wǎng)絡(luò)配置文件是否修改成功。配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù)STEP05本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)檢測(cè)網(wǎng)絡(luò)連接保證個(gè)人計(jì)算機(jī)連網(wǎng)狀態(tài),執(zhí)行“ping”命令,檢測(cè)虛擬機(jī)的網(wǎng)絡(luò)連接是否正常,檢測(cè)完成后可以通過組合鍵“Ctrl+C”退出檢測(cè)。配置虛擬機(jī)的網(wǎng)絡(luò)參數(shù)STEP06本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉虛擬機(jī)的配置,能夠完成SSH遠(yuǎn)程登錄2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件在VMwareWorkstation中操作虛擬機(jī)十分不方便,既不能開啟單臺(tái)虛擬機(jī)的多個(gè)操作窗口,也不能復(fù)制內(nèi)容到虛擬機(jī)中,在實(shí)際工作中,服務(wù)器被放置在機(jī)房中,受到地域和管理的限制,虛擬機(jī)配置SSH遠(yuǎn)程登錄功能非常重要,虛擬機(jī)Hadoop2為例,為虛擬機(jī)配置SSH遠(yuǎn)程登錄。2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)查看是否安裝和開啟SSH服務(wù)在虛擬機(jī)中,分別執(zhí)行“rpm-qa|grepssh”和“ps-ef|grepsshd”命令,查看當(dāng)前虛擬機(jī)是否安裝了SSH服務(wù),以及SSH服務(wù)是否啟動(dòng)。配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP01本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)修改SSH服務(wù)配置文件默認(rèn)情況下,CentOSStream9不允許用戶root進(jìn)行遠(yuǎn)程登錄,在虛擬機(jī)Hadoop2中執(zhí)行“vi/etc/ssh/sshd_config”命令編輯配置文件sshd_config。PermitRootLoginyes配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP02重啟SSH服務(wù)systemctlrestartsshd本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)創(chuàng)建快速連接打開遠(yuǎn)程連接工具SecureCRT,在SecureCRT主界面依次單擊“File”→“QuickConnect”選項(xiàng)進(jìn)入QuickConnect對(duì)話框創(chuàng)建快速連接。配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP03本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)指定連接信息在QuickConnect對(duì)話框的

Hostname和Username文本框中分別輸入61和root,指定虛擬機(jī)的IP地址和登錄虛擬機(jī)的用戶名。配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP04虛擬機(jī)的IP地址登錄虛擬機(jī)的用戶名本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)保存主機(jī)密鑰在NewHostKey對(duì)話框,單擊“Accept&Save”按鈕接收并保存主機(jī)密鑰。配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP05本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)輸入用戶root的密碼在EnterSecureShellPassword對(duì)話框中,輸入用戶root的密碼123456。配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP06勾選Savepassword保存密碼!本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)連接虛擬機(jī)Hadoop2成功連接虛擬機(jī)Hadoop2。配置虛擬機(jī)SSH遠(yuǎn)程登錄STEP07本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!熟悉虛擬機(jī)的配置,能夠完成SSH免密登錄2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件在集群環(huán)境中,主節(jié)點(diǎn)需要頻繁的訪問從節(jié)點(diǎn),以獲取從節(jié)點(diǎn)的運(yùn)行狀態(tài),主節(jié)點(diǎn)每次訪問從節(jié)點(diǎn)時(shí)都需要通過輸入密碼的方式進(jìn)行驗(yàn)證,確定密碼輸入正確后才建立連接,這會(huì)對(duì)集群運(yùn)行的連續(xù)性造成不良影響,為主節(jié)點(diǎn)配置SSH免密登錄功能,可以有效避免訪問從節(jié)點(diǎn)時(shí)頻繁輸入密碼。接下來,虛擬機(jī)Hadoop1作為集群環(huán)境的主節(jié)點(diǎn)實(shí)現(xiàn)SSH免密登錄。2.1.3配置虛擬機(jī)本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)配置虛擬機(jī)SSH免密登錄功能生成秘鑰在虛擬機(jī)Hadoop1中執(zhí)行“ssh-keygen-trsa”命令,生成密鑰。STEP01執(zhí)行命令生成密鑰,并根據(jù)提示連續(xù)按四次Enter確認(rèn)!本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)配置虛擬機(jī)SSH免密登錄功能查看秘鑰文件在虛擬機(jī)Hadoop1中執(zhí)行“cd/root/.ssh/”命令進(jìn)入存儲(chǔ)密鑰文件的目錄,在該目錄下執(zhí)行“l(fā)l”命令查看密鑰文件。STEP02密鑰文件本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)配置虛擬機(jī)SSH免密登錄功能復(fù)制公鑰文件將虛擬機(jī)Hadoop1生成的公鑰文件復(fù)制到集群中相關(guān)聯(lián)的所有虛擬機(jī),實(shí)現(xiàn)通過虛擬機(jī)Hadoop1可以免密登錄虛擬機(jī)Hadoop1、Hadoop2和Hadoop3。ssh-copy-idhadoop1ssh-copy-idhadoop2ssh-copy-idhadoop3STEP03復(fù)制公鑰文件到虛擬機(jī)Hadoop1本課件是可編輯的正常PPT課件2.1.3配置虛擬機(jī)配置虛擬機(jī)SSH免密登錄功能測(cè)試免密登錄在虛擬機(jī)Hadoop1中執(zhí)行“sshhadoop2”命令訪問虛擬機(jī)Hadoop2,驗(yàn)證虛擬機(jī)Hadoop1是否可以免密登錄虛擬機(jī)Hadoop2。STEP04退出虛擬機(jī)Hadoop2的訪問本課件是可編輯的正常PPT課件

先定一個(gè)小目標(biāo)!掌握J(rèn)DK的安裝,能夠在虛擬機(jī)中完成JDK的安裝2.1.4安裝JDK本課件是可編輯的正常PPT課件Hadoop的運(yùn)行依賴于Java環(huán)境,在部署Hadoop集群之前,需要在虛擬機(jī)Hadoop1、Hadoop2和Hadoop3安裝JDK。我們使用的Hadoop版本為3.3.0,支持的最低JDK版本是1.8,以JDK1.8為例,演示如何在3臺(tái)虛擬機(jī)中安裝JDK。2.1.4安裝JDK本課件是可編輯的正常PPT課件創(chuàng)建目錄分別在虛擬機(jī)Hadoop1、Hadoop2和Hadoop3的根目錄下創(chuàng)建以下目錄作為約定。STEP01mkdir-p/export/data/mkdir-p/export/servers/mkdir-p/export/software/2.1.4安裝JDK創(chuàng)建存放數(shù)據(jù)的目錄創(chuàng)建存放安裝程序的目錄創(chuàng)建存放安裝包的目錄本課件是可編輯的正常PPT課件上傳JDK安裝包在虛擬機(jī)Hadoop1的文件管理器進(jìn)入/export/software目錄將JDK安裝包上傳。STEP022.1.4安裝JDK查看JDK安裝包是否上傳成功在虛擬機(jī)Hadoop1的/export/software目錄執(zhí)行“l(fā)l”命令,查看該目錄包含的內(nèi)容。STEP03JDK安裝包上傳成功!2.1.4安裝JDK本課件是可編輯的正常PPT課件安裝JDK在虛擬機(jī)Hadoop1中,以解壓方式安裝JDK,將JDK安裝到/export/servers目錄。STEP04tar-zxvfjdk-8u241-linux-x64.tar.gz-C/export/servers/2.1.4安裝JDK本課件是可編輯的正常PPT課件配置JDK系統(tǒng)環(huán)境變量在虛擬機(jī)Hadoop1執(zhí)行“vi/etc/profile”命令編輯環(huán)境變量文件profile,在該文件的底部添加配置JDK系統(tǒng)環(huán)境變量的內(nèi)容。STEP05exportJAVA_HOME=/export/servers/jdk1.8.0_241exportPATH=$PATH:$JAVA_HOME/bin2.1.4安裝JDK初始化系統(tǒng)環(huán)境變量source/etc/profile本課件是可編輯的正常PPT課件驗(yàn)證JDK是否安裝成功在虛擬機(jī)Hadoop1執(zhí)行“java-version”命令查看JDK版本號(hào),驗(yàn)證當(dāng)前虛擬機(jī)是否成功安裝JDK。STEP06成功在虛擬機(jī)Hadoop1中安裝了JDK!2.1.4安裝JDK本課件是可編輯的正常PPT課件分發(fā)JDK安裝目錄通過scp命令將虛擬機(jī)Hadoop1的JDK安裝目錄分發(fā)至虛擬機(jī)Hadoop2和Hadoop3的/export/servers/目錄。STEP07scp-r/export/servers/jdk1.8.0_241root@hadoop2:/export/servers/scp-r/export/servers/jdk1.8.0_241root@hadoop3:/export/servers/2.1.4安裝JDK向虛擬機(jī)Hadoop2分發(fā)JDK安裝目錄向虛擬機(jī)Hadoop3分發(fā)JDK安裝目錄本課件是可編輯的正常PPT課件分發(fā)系統(tǒng)環(huán)境變量文件通過scp命令將虛擬機(jī)Hadoop1的系統(tǒng)環(huán)境變量文件profile分發(fā)至虛擬機(jī)Hadoop2和Hadoop3的/etc目錄。STEP08scp/etc/profileroot@hadoop2:/etcscp/etc/profileroot@hadoop3:/etc2.1.4安裝JDK向虛擬機(jī)Hadoop3分發(fā)系統(tǒng)環(huán)境變量文件向虛擬機(jī)Hadoop2分發(fā)系統(tǒng)環(huán)境變量文件初始化系統(tǒng)環(huán)境變量source/etc/profile本課件是可編輯的正常PPT課件Hadoop集群部署模式2.2

先定一個(gè)小目標(biāo)!了解Hadoop集群部署模式,能夠描述Hadoop集群的3種部署模式2.2Hadoop集群部署模式本課件是可編輯的正常PPT課件2.2Hadoop集群部署模式獨(dú)立模式部署模式獨(dú)立模式是一種在單臺(tái)計(jì)算機(jī)的單個(gè)JVM進(jìn)程中模擬Hadoop集群的工作模式,此模式部署的Hadoop通常用于快速安裝體驗(yàn)Hadoop的功能,并不適用于實(shí)際生產(chǎn)環(huán)境。偽分布式模式偽分布式模式是一種在單臺(tái)計(jì)算機(jī)的不同JVM進(jìn)程中運(yùn)行Hadoop集群的工作模式,此模式部署的Hadoop通常用于在開發(fā)環(huán)境中進(jìn)行測(cè)試和調(diào)試,并不適用于實(shí)際生產(chǎn)環(huán)境。完全分布式模式完全分布式模式是一種在多臺(tái)計(jì)算機(jī)的JVM進(jìn)程中運(yùn)行Hadoop集群的工作模式,Hadoop集群的每個(gè)守護(hù)進(jìn)程都運(yùn)行在不同的計(jì)算機(jī)中,此模式部署的Hadoop通常作為實(shí)際生產(chǎn)環(huán)境的基礎(chǔ)。本課件是可編輯的正常PPT課件基于偽分布式模式部署Hadoop2.3

先定一個(gè)小目標(biāo)!熟悉基于偽分布式模式部署Hadoop,能夠在單臺(tái)虛擬機(jī)完成偽分布式模式部署Hadoop的相關(guān)操作2.3基于偽分布式模式部署Hadoop本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop一臺(tái)虛擬機(jī)便可以滿足基于偽分布式模式部署Hadoop的條件,這對(duì)于計(jì)算機(jī)硬件條件無法滿足創(chuàng)建多臺(tái)虛擬機(jī)的人來說,是一種不錯(cuò)的選擇。接下來,以虛擬機(jī)Hadoop1為例,演示如何基于偽分布式模式部署Hadoop。本課件是可編輯的正常PPT課件在/export/software目錄執(zhí)行“rz”命令,將本地計(jì)算機(jī)中準(zhǔn)備好的Hadoop安裝包hadoop-3.3.0.tar.gz上傳到虛擬機(jī)的/export/software目錄。2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常1.上傳Hadoop安裝包本課件是可編輯的正常PPT課件在/export/servers目錄創(chuàng)建wfb-hadoop目錄,該目錄用于存放基于偽分布式部署Hadoop的安裝目錄。mkdir-p/export/servers/wfb-hadoop2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常2.創(chuàng)建目錄本課件是可編輯的正常PPT課件(1)以解壓方式安裝Hadoop,將Hadoop安裝到/export/servers/wfb-hadoop目錄。tar-zxvf/export/software/hadoop-3.3.0.tar.gz-C\/export/servers/wfb-hadoop2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常3.安裝Hadoop本課件是可編輯的正常PPT課件(2)查看Hadoop安裝目錄中的所有文件。2.3基于偽分布式模式部署Hadoop存放Hadoop最基本的腳本存放管理Hadoop配置文件存放Hadoop的腳本存放Hadoop對(duì)外提供編程的動(dòng)態(tài)庫和靜態(tài)庫存放Hadoop各個(gè)模塊編譯后的jar包3.安裝Hadoop本課件是可編輯的正常PPT課件在基于偽分布式部署Hadoop的安裝目錄執(zhí)行“bin/hadoopversion”命令查看Hadoop的版本號(hào),驗(yàn)證當(dāng)前虛擬機(jī)是否成功安裝Hadoop。2.3基于偽分布式模式部署HadoopHadoop安裝成功1.繼承的概念1.什么是異常4.驗(yàn)證Hadoop是否安裝成功本課件是可編輯的正常PPT課件Hadoop提供了兩種配置文件:一種是只讀的默認(rèn)配置文件,另一種是自定義配置文件,以下為Hadoop常用的自定義配置文件。2.3基于偽分布式模式部署Hadoop配置文件功能描述hadoop-env.sh配置Hadoop運(yùn)行時(shí)的環(huán)境,確保HDFS能夠正常運(yùn)行NameNode、SecondaryNameNode和DataNode服務(wù)yarn-env.sh配置YARN運(yùn)行時(shí)的環(huán)境,確保YARN能夠正常運(yùn)行ResourceManager和NodeManager服務(wù)core-site.shHadoop核心配置文件hdfs-site.xmlHDFS核心配置文件mapred-site.xmlMapReduce核心配置文件yarn-site.xmlYARN核心配置文件workers控制從節(jié)點(diǎn)所運(yùn)行的服務(wù)器1.繼承的概念1.什么是異常5.修改Hadoop配置文件本課件是可編輯的正常PPT課件接下來,以自定義配置文件的方式實(shí)現(xiàn)基于偽分布式模式部署Hadoop。2.3基于偽分布式模式部署Hadoop本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vihadoop-env.sh”命令,在hadoop-env.sh文件的底部添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置Hadoop運(yùn)行時(shí)環(huán)境STEP01exportJAVA_HOME=/export/servers/jdk1.8.0_241exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root指定Hadoop使用的JDK指定管理NameNode服務(wù)的用戶root指定管理DataNode服務(wù)的用戶root指定管理SecondNameNode服務(wù)的用戶root指定管理ResourceManager服務(wù)的用戶root指定管理NodeManager服務(wù)的用戶root本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vicore-site.xml”命令,在core-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置HadoopSTEP02<property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value></property><property><name>hadoop.tmp.dir</name><value>/export/data/hadoop-wfb-3.3.0</value></property><property><name>hadoop.http.staticuser.user</name><value>root</value></property>指定HDFS的通信地址指定Hadoop臨時(shí)數(shù)據(jù)的存儲(chǔ)目錄指定通過WebUI訪問HDFS的用戶root本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置HadoopSTEP02<property><name>xyuser.root.hosts</name><value>*</value></property><property><name>xyuser.root.groups</name><value>*</value></property><property><name>erval</name><value>1440</value></property>允許任何用戶組的root用戶可以向Hadoop提交任務(wù)指定HDFS中被刪除文件的存活時(shí)長(zhǎng)為1440秒允許任何服務(wù)器的root用戶可以向Hadoop提交任務(wù)本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vihdfs-site.xml”命令,在hdfs-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置HDFSSTEP03<property><name>dfs.replication</name><value>1</value></property><property><name>node.secondary.http-address</name><value>hadoop1:9868</value></property>指定HDFS的副本數(shù)為1指定SecondaryNameNode服務(wù)的通信地址本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vimapred-site.xml”命令,在mapred-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置MapReduceSTEP04<property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value></property>指定MapReduce任務(wù)運(yùn)行在YARN之上指定MapReduce歷史服務(wù)的通信地址指定通過WebUI訪問MapReduce歷史服務(wù)的地址本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置MapReduceSTEP04<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value></property>指定MapReduce任務(wù)的運(yùn)行環(huán)境指定MapReduce任務(wù)中Map階段的運(yùn)行環(huán)境指定MapReduce任務(wù)中Reduce階段的運(yùn)行環(huán)境本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“viyarn-site.xml”命令,在yarn-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置YARNSTEP05<property><name>yarn.resourcemanager.hostname</name><value>hadoop1</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value></property>指定ResourceManager服務(wù)運(yùn)行在虛擬機(jī)Hadoop1指定NodeManager運(yùn)行的附屬服務(wù)指定是否啟動(dòng)檢測(cè)每個(gè)任務(wù)使用的物理內(nèi)存本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置YARNSTEP05<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log.server.url</name><value>http://hadoop1:19888/jobhistory/logs</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>指定是否啟動(dòng)檢測(cè)每個(gè)任務(wù)使用的虛擬內(nèi)存指定是否開啟日志聚合功能指定日志聚合后日志保存的時(shí)間指定日志聚合的服務(wù)器本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置workersSTEP05在Hadoop安裝目錄的/etc/hadoop/目錄,執(zhí)行“viworkers”命令,將workers文件默認(rèn)的內(nèi)容修改為hadoop1。本課件是可編輯的正常PPT課件初次啟動(dòng)Hadoop之前,需要對(duì)HDFS文件系統(tǒng)進(jìn)行格式化操作之后才能使用,在Hadoop安裝目錄執(zhí)行命令格式化HDFS文件系統(tǒng)。2.3基于偽分布式模式部署HadoopHDFS文件系統(tǒng)格式化成功1.繼承的概念1.什么是異常6.格式化HDFS文件系統(tǒng)bin/hdfsnamenode-format本課件是可編輯的正常PPT課件在Hadoop的安裝目錄執(zhí)行下列命令啟動(dòng)HDFS和YARN。2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常7.啟動(dòng)Hadoopsbin/start-dfs.shsbin/start-yarn.sh關(guān)閉Hadoopsbin/stop-dfs.sh和sbin/stop-yarn.sh啟動(dòng)HDFS啟動(dòng)YARN本課件是可編輯的正常PPT課件HDFS和YARN的相關(guān)服務(wù)運(yùn)行在JVM進(jìn)程中,可以執(zhí)行“jps”命令查看當(dāng)前虛擬機(jī)中運(yùn)行的JVM進(jìn)程。2.3基于偽分布式模式部署HadoopHadoop啟動(dòng)成功1.繼承的概念1.什么是異常8.查看Hadoop運(yùn)行狀態(tài)本課件是可編輯的正常PPT課件基于完全分布式模式部署Hado

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論