《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件

上傳人：b*** IP屬地：浙江上傳時(shí)間：2024-11-04 格式：PPTX 頁數(shù)：203 大小：14.14MB 積分：35 舉報(bào) 版權(quán)申訴

《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件_第2頁

《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件_第3頁

《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件_第4頁

《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件_第5頁

已閱讀5頁，還剩198頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Hadoop大數(shù)據(jù)技術(shù)

——linux系統(tǒng)概述

全套可編輯PPT課件項(xiàng)目1Linux系統(tǒng)概述項(xiàng)目2Hadoop技術(shù)概述項(xiàng)目4Zookeeper分布式協(xié)調(diào)服務(wù)項(xiàng)目5搭建HDFS分布式集群項(xiàng)目6搭建YARN分布式集群項(xiàng)目7Hadoop分布式計(jì)算框架(MapReduce)項(xiàng)目8Hive的安裝部署項(xiàng)目10HBase集群安裝配置項(xiàng)目11Sqoop安裝部署項(xiàng)目12Flume的安裝與使用項(xiàng)目13Kafka分布式集群搭建項(xiàng)目14Davinci安裝部署linux系統(tǒng)概述

Linux，全稱GNU/Linux，是一種免費(fèi)使用和自由傳播的類UNIX操作系統(tǒng)，其內(nèi)核由林納斯·本納第克特·托瓦茲于1991年10月5日首次發(fā)布，它主要受到Minix和Unix思想的啟發(fā)，是一個(gè)基于POSIX的多用戶、多任務(wù)、支持多線程和多CPU的操作系統(tǒng)。它能運(yùn)行主要的Unix工具軟件、應(yīng)用程序和網(wǎng)絡(luò)協(xié)議。它支持32位和64位硬件。Linux繼承了Unix以網(wǎng)絡(luò)為核心的設(shè)計(jì)思想，是一個(gè)性能穩(wěn)定的多用戶網(wǎng)絡(luò)操作系統(tǒng)。Linux有上百種不同的發(fā)行版，如基于社區(qū)開發(fā)的debian、archlinux，和基于商業(yè)開發(fā)的RedHatEnterpriseLinux、SUSE、OracleLinux等。1.1.1linux操作系統(tǒng)的特點(diǎn)

linux系統(tǒng)概述

Linux操作系統(tǒng)的特點(diǎn)有：良好的用戶界面、可移植性、全面支持網(wǎng)絡(luò)協(xié)議、支持多任務(wù)及多用戶、免費(fèi)及源代碼開放、可靠的安全性。1.1.1linux操作系統(tǒng)的特點(diǎn)

linux系統(tǒng)概述1、高端服務(wù)器領(lǐng)域。服務(wù)器市場占有率已經(jīng)達(dá)到25%，很多公司都是用Liunx做操作系統(tǒng)的。2、桌面應(yīng)用領(lǐng)域。新版本的Liunx完全可以作為一種集辦公應(yīng)用、多媒體應(yīng)用、網(wǎng)絡(luò)應(yīng)用等多方面功能為一體的圖形界面操作系統(tǒng)。3、嵌入式應(yīng)用領(lǐng)域。目前能夠支持嵌入式開發(fā)的操作系統(tǒng)有PalmOS、嵌入式Linux、WindowsCE。1.1.3linux操作系統(tǒng)的應(yīng)用場景

linux系統(tǒng)概述linux版本版本分為兩類：內(nèi)核版本和發(fā)行版本1．內(nèi)核版本內(nèi)核是系統(tǒng)的心臟，是運(yùn)行程序和管理像磁盤和打印機(jī)等硬件設(shè)備的核心程序，它提供了一個(gè)在裸設(shè)備與應(yīng)用程序間的抽象層。例如，程序本身不需要了解用戶的主板芯片集或磁盤控制器的細(xì)節(jié)就能在高層次上讀寫磁盤。內(nèi)核的開發(fā)和規(guī)范一直是由Linus領(lǐng)導(dǎo)的開發(fā)小組控制著，版本也是惟一的。開發(fā)小組每隔一段時(shí)間公布新的版本或其修訂版，從1991年10月Linus向世界公開發(fā)布的內(nèi)核0.0.2版本（0.0.1版本功能相當(dāng)簡陋所以沒有公開發(fā)布）到目前最新的內(nèi)核2.6.22版本，Linux的功能越來越強(qiáng)大。1.1.4linux版本

linux系統(tǒng)概述linux版本版本分為兩類：內(nèi)核版本和發(fā)行版本發(fā)行版本僅有內(nèi)核而沒有應(yīng)用軟件的操作系統(tǒng)是無法使用的，所以許多公司或社團(tuán)將內(nèi)核、源代碼及相關(guān)的應(yīng)用程序組織構(gòu)成一個(gè)完整的操作系統(tǒng)，讓一般的用戶可以簡便地安裝和使用Linux，這就是所謂的發(fā)行版本（distribution），一般談?wù)摰腖inux系統(tǒng)便是針對這些發(fā)行版本的。目前估計(jì)各種發(fā)行版本有數(shù)十種，它們的發(fā)行版本號各不相同，使用的內(nèi)核版本號也可能不一樣，下面就為讀者介紹目前比較著名的幾個(gè)發(fā)行版本。1.1.4linux版本

linux系統(tǒng)概述linux版本版本分為兩類：內(nèi)核版本和發(fā)行版本發(fā)行版本Linux幾種常見的發(fā)行版，如商業(yè)版本redHat:十分穩(wěn)定且好用，但是需要付費(fèi)。centos：雖然不如redHat，但功能全面，且免費(fèi)。Ubuntu：擁有圖形化界面，方便操作，PC針對Ubuntu軟件較多。1.1.4linux版本

ThanksHadoop大數(shù)據(jù)技術(shù)

——Hadoop技術(shù)概述

Hadoop的前世今生什么是大數(shù)據(jù)

雙11電商數(shù)據(jù)大屏

高速收費(fèi)站數(shù)據(jù)大屏

智慧交通

工程建設(shè)作戰(zhàn)指揮室

生產(chǎn)作業(yè)KPI指標(biāo)分析

大數(shù)據(jù)是什么大數(shù)據(jù)這三個(gè)字只是一門市場語言，不是一項(xiàng)專門的技術(shù)。大數(shù)據(jù)的背后是硬件、數(shù)據(jù)庫、操作系統(tǒng)、Hadoop等一系列技術(shù)的綜合應(yīng)用。

Hadoop是什么Hadoop是由一系列軟件庫組成的框架。這些軟件庫各自負(fù)責(zé)Hadoop的一部分功能，其中最主要的是HDFS、MapReduce和YARN。HDFS負(fù)責(zé)大數(shù)據(jù)的存儲、MapReduce負(fù)責(zé)大數(shù)據(jù)的計(jì)算、YARN負(fù)責(zé)集群資源的調(diào)度。

Hadoop項(xiàng)目起源Hadoop起源于Google的三篇著名論文：《TheGoogleFileSystem》2003年《MapReduce:SimplifiedDataProcessingonLargeClusters》2004年《Bigtable:ADistributedStorageSystemforStructuredData》2006年2004年左右，DougCutting開發(fā)出初始版本的Hadoop，作為Nutch項(xiàng)目的一部分。

Hadoop發(fā)展歷程第一階段前Hadoop時(shí)代（2003-2007）三大論文、DougCutting、HadoopHBase萌芽階段

HDFS（分布式文件系統(tǒng)）MapReduce(分布式離線計(jì)算框架)HBase（NOSQL分布式數(shù)據(jù)庫）Hadoop發(fā)展歷程第二階段后Hadoop時(shí)代（2008-2014）Hadoop、HBase、Hive、Pig、Sqoop等百花齊放，眼花繚亂各個(gè)組件層出不窮，相互之間的兼容性管理混亂，雖然選擇性多，但是很亂

HDFS（分布式文件系統(tǒng)）MapReduce(分布式離線計(jì)算框架)HivePigMahoutHBaseZookeeperSqoopFlumeOozieHadoop發(fā)展歷程第三階段Hadoop商業(yè)發(fā)行版時(shí)代（2011-2020）商業(yè)發(fā)行版、CDH、HDP等等，云原生套件出現(xiàn)，如阿里云、華為云、騰訊云、百度云標(biāo)準(zhǔn)的發(fā)行版大行其道，提供免費(fèi)版本，云原生商業(yè)版如火如荼

Hadoop發(fā)展歷程第四階段國產(chǎn)化開源發(fā)行版時(shí)代（2021開始）USDP標(biāo)準(zhǔn)的發(fā)行版紛紛收費(fèi)，國產(chǎn)化開源發(fā)行版勢在必行

Hadoop名字起源Hadoop這個(gè)名字不是一個(gè)縮寫，而是一個(gè)虛構(gòu)的名字。該項(xiàng)目的創(chuàng)建者，DougCutting解釋Hadoop的得名：“這個(gè)名字是我孩子給一個(gè)棕黃色的大象玩具命名的。我的命名標(biāo)準(zhǔn)就是簡短，容易發(fā)音和拼寫，沒有太多的意義，并且不會被用于別處。小孩子恰恰是這方面的高手。”

Hadoop生態(tài)系統(tǒng)簡介Hadoop版本迭代

Hadoop生態(tài)系統(tǒng)

Hadoop的優(yōu)勢及應(yīng)用場景Hadoop的優(yōu)勢方便Hadoop可以運(yùn)行在一般商業(yè)服務(wù)器構(gòu)成的大型集群上，或者是亞馬遜彈性計(jì)算云(AmazonEC2)/阿里云等云計(jì)算服務(wù)上。彈性Hadoop可以通過增加節(jié)點(diǎn)方式來線性地?cái)U(kuò)展集群規(guī)模，以便處理更大的數(shù)據(jù)集。同時(shí)，在集群負(fù)載下降時(shí)，也可以減少節(jié)點(diǎn)以提高資源使用效率。健壯Hadoop在設(shè)計(jì)之初，就將故障檢測和自動(dòng)恢復(fù)作為一個(gè)設(shè)計(jì)目標(biāo)，它可以從容處理通用計(jì)算平臺上出現(xiàn)硬件失效的情況。簡單Hadoop允許用戶快速編寫出高效的分布式計(jì)算程序。

Hadoop的應(yīng)用領(lǐng)域移動(dòng)數(shù)據(jù)Cloudera運(yùn)營總監(jiān)稱，美國有70%的智能手機(jī)數(shù)據(jù)服務(wù)背后都是由Hadoop來支撐的，也就是說包括數(shù)據(jù)的存儲以及無線運(yùn)營商的數(shù)據(jù)處理等，都是在利用Hadoop技術(shù)。電子商務(wù)Hadoop在這一領(lǐng)域應(yīng)用非常廣泛，eBay就是最大的實(shí)踐者之一。國內(nèi)的電商平臺在Hadoop技術(shù)儲備上也非常雄厚。在線旅游目前全球范圍內(nèi)80%的在線旅游網(wǎng)站都是在使用Cloudera公司提供的Hadoop發(fā)行版，其中SearchBI網(wǎng)站曾經(jīng)報(bào)導(dǎo)過的Expedia也在其中。

Hadoop的應(yīng)用領(lǐng)域移詐騙檢測這個(gè)領(lǐng)域普通用戶接觸得比較少，一般只有金融服務(wù)或者政府機(jī)構(gòu)會用到。利用Hadoop來存儲所有的客戶交易數(shù)據(jù)，包括一些非結(jié)構(gòu)化的數(shù)據(jù)，能夠幫助機(jī)構(gòu)發(fā)現(xiàn)客戶的異?；顒?dòng)，預(yù)防欺詐行為。醫(yī)療保健醫(yī)療行業(yè)也會用到Hadoop，像IBM的Watson就會使用Hadoop集群作為其服務(wù)的基礎(chǔ)，包括語義分析等高級分析技術(shù)。醫(yī)療機(jī)構(gòu)可以利用語義分析為患者提供醫(yī)護(hù)人員，并協(xié)助醫(yī)生更好地為患者進(jìn)行診斷。能源開采美國Chevron公司是全美第二大石油公司，它們的IT部門主管介紹了Chevron使用Hadoop的經(jīng)驗(yàn)，利用Hadoop進(jìn)行數(shù)據(jù)的收集和處理，其中一些數(shù)據(jù)是海洋的地震數(shù)據(jù)，以便找到油礦的位置。

Hadoop與云計(jì)算云計(jì)算是什么云計(jì)算是一種可以通過網(wǎng)絡(luò)方便地接入共享資源池，按需獲取計(jì)算資源（包括網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用、服務(wù)等）的服務(wù)模型。共享資源池中的資源可以通過較少的管理代價(jià)和簡單業(yè)務(wù)交互過程而快速部署和發(fā)布。

云計(jì)算的特點(diǎn)按需提供服務(wù)以服務(wù)的形式為用戶提供應(yīng)用程序、數(shù)據(jù)存儲、基礎(chǔ)設(shè)施等資源，并可以根據(jù)用戶需求自動(dòng)分配資源，而不需要管理員的干預(yù)。比如亞馬遜彈性計(jì)算云（AmazonEC2），用戶可以通過Web表單提交自己需要的配置給亞馬遜，從而動(dòng)態(tài)獲得計(jì)算能力，這些配置包括CPU核數(shù)、內(nèi)存大小、磁盤大小等。寬帶網(wǎng)絡(luò)訪問用戶可以通過各種終端設(shè)備，比如智能手機(jī)、筆記本等，隨時(shí)隨地通過互聯(lián)網(wǎng)訪問云計(jì)算服務(wù)。資源池化資源以共享池的方式統(tǒng)一管理。通過虛擬化技術(shù)，將資源分享給不同的用戶，而資源的存放、管理以及分配策略對用戶是透明的。高可伸縮性服務(wù)的規(guī)?？梢钥焖偕炜s，來自動(dòng)適應(yīng)業(yè)務(wù)負(fù)載的變化。這樣就保證了用戶使用的資源與業(yè)務(wù)所需要的資源的一致性，從而避免了因?yàn)榉?wù)器超載或者冗余造成服務(wù)質(zhì)量下降或者資源的浪費(fèi)。

云計(jì)算的特點(diǎn)可量化服務(wù)云計(jì)算服務(wù)中心可以通過監(jiān)控軟件監(jiān)控用戶的使用情況，從而根據(jù)資源的使用情況對提供的服務(wù)進(jìn)行計(jì)費(fèi)。大規(guī)模承載云計(jì)算的集群規(guī)模非常巨大，一般達(dá)到數(shù)萬臺服務(wù)器以上。從集群規(guī)模來看，云計(jì)算賦予了用戶前所未有的計(jì)算能力。服務(wù)非常廉價(jià)云服務(wù)可以采用非常廉價(jià)的PCServer來構(gòu)建，而不是需要非常昂貴的小型機(jī)。另外云服務(wù)的公用性和通用性，極大地提升了資源利用率，從而大幅降低使用成本。

HadoopVS云計(jì)算云計(jì)算包含以下3種模式：IaaS(InfrastructureasaService)它的含義是基礎(chǔ)設(shè)施即服務(wù)。比如，阿里云主機(jī)提供的就是基礎(chǔ)設(shè)施服務(wù)，可以直接購買阿里云主機(jī)服務(wù)。PaaS(PlatformasaService)：它的含義是平臺即服務(wù)。比如，阿里云主機(jī)上已經(jīng)部署好Hadoop集群，可以提供大數(shù)據(jù)平臺服務(wù)，用戶直接購買平臺的計(jì)算能力運(yùn)行自己的應(yīng)用即可。SaaS(SoftwareasaService)：它的含義是軟件即服務(wù)，比如阿里云平臺已經(jīng)部署好具體的項(xiàng)目應(yīng)用，用戶直接購買賬號使用它們提供的軟件服務(wù)即可?？偟膩碚f，云計(jì)算是一種運(yùn)營模式，而Hadoop是一種技術(shù)手段，對云計(jì)算提供技術(shù)支撐。

Hadoop與SparkSpark是什么Spark是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架。Spark基于內(nèi)存計(jì)算的特性，提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性，同時(shí)保證了高容錯(cuò)性和高可伸縮性，允許用戶將Spark部署在大量的廉價(jià)硬件之上形成集群，從而提高并行計(jì)算能力。Spark于2009年誕生于加州大學(xué)伯克利分校AMPLab，在開發(fā)以Spark為核心的BDAS時(shí)，AMPLab提出的目標(biāo)是：onestacktorulethemall，也就是說在一套軟件棧內(nèi)完成各種大數(shù)據(jù)分析任務(wù)。目前，Spark已經(jīng)成為Apache軟件基金會旗下的頂級開源項(xiàng)目。

Spark的特點(diǎn)運(yùn)行速度快Spark源碼是由Scala語言編寫的，Scala語言非常簡潔并具有豐富的表達(dá)力。

Spark充分利用和集成了Hadoop等其他第三方組件，同時(shí)著眼于大數(shù)據(jù)處理，那么數(shù)據(jù)處理速度是至關(guān)重要的，Spark通過將中間結(jié)果緩存在內(nèi)存從而減少磁盤I/O來達(dá)到性能的提升。易用性Spark支持Java、Python和Scala的API，還支持超過80種高級算法，使用戶可以快速構(gòu)建不同的應(yīng)用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在這些shell中使用Spark集群來驗(yàn)證解決問題的方法。支持復(fù)雜查詢除了簡單的map及reduce操作之外，Spark還支持復(fù)雜查詢。Spark支持SQL查詢、流式計(jì)算、機(jī)器學(xué)習(xí)和圖算法，同時(shí)用戶可以在同一個(gè)工作流中無縫地搭配這些計(jì)算范式。

Spark的特點(diǎn)實(shí)時(shí)的流處理與Hadoop相比，Spark不僅支持離線計(jì)算還支持實(shí)時(shí)流計(jì)算。SparkStreaming主要用來對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理，而Hadoop在擁有了YARN之后，也可以借助其他框架進(jìn)行流式計(jì)算。容錯(cuò)性Spark引入了彈性分布式數(shù)據(jù)集RDD(ResilientDistributedDataset)，它是分布在一組節(jié)點(diǎn)中的只讀對象集合，這些集合是彈性的，如果數(shù)據(jù)集的一部分丟失，則可以根據(jù)“血統(tǒng)”對它們進(jìn)行重建。另外在對RDD進(jìn)行計(jì)算時(shí)可以通過CheckPoint機(jī)制來實(shí)現(xiàn)容錯(cuò)。

HadoopVSSpark

Hadoop與傳統(tǒng)關(guān)系型數(shù)據(jù)庫RDBMS是什么傳統(tǒng)關(guān)系型數(shù)據(jù)庫RDBMS(RelationalDatabaseManagementSystem)是指對應(yīng)于一個(gè)關(guān)系模型的所有關(guān)系的集合。關(guān)系型數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)了關(guān)系模型，并用它來處理數(shù)據(jù)。關(guān)系模型在表中將信息與字段關(guān)聯(lián)起來，從而存儲數(shù)據(jù)。這種數(shù)據(jù)庫管理系統(tǒng)需要結(jié)構(gòu)（例如表）在存儲數(shù)據(jù)之前被定義出來。有了表，每一列（字段）都存儲一個(gè)不同類型（數(shù)據(jù)類型）的信息。數(shù)據(jù)庫中的每條記錄都有自己唯一的key（主鍵）作為屬于某個(gè)表的一行，行中的每一個(gè)信息都對應(yīng)了表中的一列——所有的關(guān)系一起構(gòu)成了關(guān)系模型。

RDBMS的特點(diǎn)容易理解二維表結(jié)構(gòu)是非常貼近邏輯世界的一個(gè)概念，關(guān)系模型相對網(wǎng)狀、層次等其他模型來說更容易理解。使用方便通用的SQL語言使得操作關(guān)系型數(shù)據(jù)庫非常方便。易于維護(hù)豐富的完整性（實(shí)體完整性、參照完整性和用戶定義的完整性）大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。支持SQL支持SQL語言完成復(fù)雜的查詢功能。

HadoopVSRDBMS

HadoopVSRDBMS數(shù)據(jù)規(guī)模RDBMS適合處理GB級別的數(shù)據(jù)，數(shù)據(jù)量超過這個(gè)范圍就會出現(xiàn)性能急劇下降，而Hadoop可以處理PB級別的數(shù)據(jù)，沒有數(shù)據(jù)規(guī)模的限制。訪問方式RDBMS支持交互處理和批處理，而Hadoop僅支持批處理。數(shù)據(jù)讀寫RDBMS支持?jǐn)?shù)據(jù)多次讀寫，而Hadoop支持一次寫、多次讀。集群收縮性RDBMS是非線性擴(kuò)展的，而Hadoop支持線性擴(kuò)展，可以通過簡單的增加節(jié)點(diǎn)來擴(kuò)展Hadoop集群規(guī)模?？偟膩碚f，Hadoop適合用于海量數(shù)據(jù)的批處理，而RDBMS適合用于少量數(shù)據(jù)的實(shí)時(shí)查詢。在實(shí)際工作中，Hadoop一般需要與RDBMS結(jié)合來使用，比如可以利用Hadoop集群對海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，然后將分析結(jié)果存入RDBMS對外提供實(shí)時(shí)查詢服務(wù)。

ThanksHadoop大數(shù)據(jù)技術(shù)

——Zookeeper分布式協(xié)調(diào)服務(wù)

Zookeeper架構(gòu)設(shè)計(jì)與工作原理Zookeeper是什么定義：zookeeper一個(gè)分布式的開源的協(xié)調(diào)服務(wù)框架,服務(wù)于分布式應(yīng)用。它暴露了一系列的原語操作服務(wù),因此分布式應(yīng)用能夠基于這些服務(wù),構(gòu)建出更高級別的服務(wù),比如同步,配置管理,分組和命名服務(wù)。zookeeper設(shè)計(jì)上易于編碼,數(shù)據(jù)模型構(gòu)建在我們熟悉的樹形結(jié)構(gòu)目錄風(fēng)格的文件系統(tǒng)中。zookeeper運(yùn)行在Java中,同時(shí)支持Java和C語言。

Zookeeper的特點(diǎn)最終一致性客戶端不論連接到哪個(gè)Server，展示給它的都是同一個(gè)視圖，這是Zookeeper最重要的特點(diǎn)。可靠性Zookeeper具有簡單、健壯、良好的性能。如果一條消息被一臺服務(wù)器接收，那么它將被所有的服務(wù)器接收。實(shí)時(shí)性Zookeeper保證客戶端將在一個(gè)時(shí)間間隔范圍內(nèi)，獲得服務(wù)器的更新信息或者服務(wù)器失效的信息。但由于網(wǎng)絡(luò)延時(shí)等原因，Zookeeper不能保證兩個(gè)客戶端能同時(shí)得到剛更新的數(shù)據(jù)，如果需要最新數(shù)據(jù)，應(yīng)該在讀數(shù)據(jù)之前調(diào)用sync()接口。等待無關(guān)（wait-free）慢的或者失效的客戶端不得干預(yù)快速的客戶端的請求，這就使得每個(gè)客戶端都能有效地等待。

Zookeeper的特點(diǎn)原子性對Zookeeper的更新操作要么成功，要么失敗，沒有中間狀態(tài)。順序性它包括全局有序和偏序兩種。全局有序是針對服務(wù)器端，例如，在一臺服務(wù)器上，消息A在消息B前發(fā)布，那么所有服務(wù)器上的消息A都將在消息B前被發(fā)布。偏序是針對客戶端，例如，在同一個(gè)客戶端中，消息B在消息A后發(fā)布，那么執(zhí)行的順序必將是先執(zhí)行消息A然后在是消息B。所有的更新操作都有嚴(yán)格的偏序關(guān)系，更新操作都是串行執(zhí)行的，這一點(diǎn)是保證ZooKeeper功能正確性的關(guān)鍵。

Zookeeper的基本架構(gòu)與工作原理Zookeeper服務(wù)自身組成一個(gè)集群（2n+1個(gè)服務(wù)節(jié)點(diǎn)最多允許n個(gè)失效）。Zookeeper服務(wù)有兩個(gè)角色：一個(gè)是主節(jié)點(diǎn)（Leader），負(fù)責(zé)投票的發(fā)起和決議，更新系統(tǒng)狀態(tài)；另一種是從節(jié)點(diǎn)（Follower），用于接收客戶端請求并向客戶端返回結(jié)果，在選主過程（即選擇主節(jié)點(diǎn)的過程）中參與投票。主節(jié)點(diǎn)失效后，會在從節(jié)點(diǎn)中重新選舉新的主節(jié)點(diǎn)。

Zookeeper數(shù)據(jù)模型zookeeper的數(shù)據(jù)結(jié)構(gòu)與linux文件系統(tǒng)很類似，與Linux中的文件系統(tǒng)路徑不同，Zookeeper中的路徑必須是絕對路徑，而且每條路徑只有唯一的一種表示方式（/app1/p_3）。

Zookeeper數(shù)據(jù)模型Znode節(jié)點(diǎn)特性臨時(shí)節(jié)點(diǎn)znode節(jié)點(diǎn)有兩種：臨時(shí)節(jié)點(diǎn)和持久節(jié)點(diǎn)。Znode的類型在創(chuàng)建時(shí)就確定，之后不能修改。當(dāng)創(chuàng)建臨時(shí)節(jié)點(diǎn)的客戶端會話結(jié)束時(shí)，Zookeeper會將該臨時(shí)節(jié)點(diǎn)刪除。而持久節(jié)點(diǎn)不依賴與客戶端會話，只有當(dāng)客戶端明確要?jiǎng)h除該持久節(jié)點(diǎn)時(shí)才會被真正刪除。臨時(shí)節(jié)點(diǎn)不可以有子節(jié)點(diǎn)，即使是短暫的子節(jié)點(diǎn)。順序節(jié)點(diǎn)順序節(jié)點(diǎn)是指名稱中包含Zookeeper指定順序號的znode。如果在創(chuàng)建znode的時(shí)候設(shè)置了順序標(biāo)識，那么該znode名稱之后就會附加一個(gè)值，這個(gè)值是由一個(gè)單調(diào)遞增的計(jì)數(shù)器所添加的，由父節(jié)點(diǎn)維護(hù)。

Zookeeper數(shù)據(jù)模型觀察機(jī)制客戶端可以在znode上設(shè)置watcher，當(dāng)節(jié)點(diǎn)狀態(tài)發(fā)生改變時(shí)將會觸發(fā)watcher所對應(yīng)的操作。當(dāng)watcher被觸發(fā)時(shí)，ZooKeeper將會向客戶端發(fā)送且僅發(fā)送一條通知，因?yàn)閣atcher只能被觸發(fā)一次，這樣可以減少網(wǎng)絡(luò)流量。為了能夠多次收到通知，客戶端需要重新注冊所需的watcher。

Zookeeper服務(wù)/spider客戶端客戶端客戶端監(jiān)視器注冊注冊注冊ThanksHadoop大數(shù)據(jù)技術(shù)

——搭建HDFS分布式集群

HDFS架構(gòu)設(shè)計(jì)與工作原理HDFS是什么HDFS（HadoopDistributedFileSystem）是Hadoop項(xiàng)目的核心子項(xiàng)目，是分布式計(jì)算中數(shù)據(jù)存儲管理的基礎(chǔ)，是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的，可以運(yùn)行于廉價(jià)的商用服務(wù)器上。HDFS源于Google在2003年10月份發(fā)表的GFS（GoogleFileSystem）論文。它其實(shí)就是GFS的一個(gè)克隆版本。

HDFS產(chǎn)生背景隨著數(shù)據(jù)量的不斷增大，最終會導(dǎo)致數(shù)據(jù)在一個(gè)操作系統(tǒng)的磁盤中存儲不下。那么為了存儲這些大規(guī)模數(shù)據(jù)，就需要將數(shù)據(jù)分配到更多操作系統(tǒng)管理的磁盤中進(jìn)行存儲，但是這樣會導(dǎo)致數(shù)據(jù)的管理和維護(hù)非常不方便，所以就迫切需要一種系統(tǒng)來管理和維護(hù)多臺機(jī)器上的數(shù)據(jù)文件，實(shí)際上這種系統(tǒng)就是分布式文件系統(tǒng)，而HDFS只是分布式文件系統(tǒng)中的一種。

HDFS設(shè)計(jì)理念HDFS的設(shè)計(jì)理念來源于非常樸素的思想：即當(dāng)數(shù)據(jù)文件的大小超過單臺計(jì)算機(jī)的存儲能力時(shí)，就有必要將數(shù)據(jù)文件切分并存儲到由若干臺計(jì)算機(jī)組成的集群中，這些計(jì)算機(jī)通過網(wǎng)絡(luò)進(jìn)行連接。而HDFS作為一個(gè)抽象層架構(gòu)在集群網(wǎng)絡(luò)之上，對外提供統(tǒng)一的文件管理功能，對于用戶來說就感覺像在操作一臺計(jì)算機(jī)一樣，根本感受不到HDFS底層的多臺計(jì)算機(jī)，而且HDFS還能夠很好地容忍節(jié)點(diǎn)故障且不丟失任何數(shù)據(jù)。

HDFS設(shè)計(jì)目標(biāo)HHDFS核心設(shè)計(jì)目標(biāo)：支持超大文件存儲支持超大文件存儲是HDFS最基本的職責(zé)所在。流式數(shù)據(jù)訪問流式數(shù)據(jù)訪問是HDFS選擇的最高效的數(shù)據(jù)訪問方式。流式數(shù)據(jù)訪問可以理解為：讀取數(shù)據(jù)文件就像打開水龍頭一樣，可以不停地讀取。簡單的一致性模型在HDFS文件系統(tǒng)中，一個(gè)文件一旦經(jīng)過創(chuàng)建、寫入、關(guān)閉之后，一般就不需要再進(jìn)行修改，這樣就可以簡單地保證數(shù)據(jù)的一致性。硬件故障的檢測和快速應(yīng)對通過大量普通硬件構(gòu)成的集群中，硬件出現(xiàn)故障是常見的問題。HDFS文件系統(tǒng)一般是由數(shù)十臺甚至成百上千臺服務(wù)器組成，這么多服務(wù)器就意味著高故障率，但是HDFS在設(shè)計(jì)之初已經(jīng)充分考慮到這些問題，認(rèn)為硬件故障是常態(tài)而不是異常，所以如何進(jìn)行故障的檢測和快速自動(dòng)恢復(fù)也是HDFS的重要設(shè)計(jì)目標(biāo)之一。

HDFS系統(tǒng)架構(gòu)

HDFS優(yōu)缺點(diǎn)HDFS的優(yōu)點(diǎn)高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本，HDFS通過增加多個(gè)副本的形式，提高HDFS文件系統(tǒng)的容錯(cuò)性，某一個(gè)副本丟失以后可以自動(dòng)恢復(fù)。適合大數(shù)據(jù)處理能夠處理GB、TB、甚至PB級別的數(shù)據(jù)規(guī)模；能夠處理百萬規(guī)模以上的文件數(shù)量；能夠達(dá)到10000個(gè)節(jié)點(diǎn)以上的集群規(guī)模。流式文件訪問數(shù)據(jù)文件只能一次寫入，多次讀取，只能追加，不能修改；HDFS能保證數(shù)據(jù)的簡單一致性。可構(gòu)建在廉價(jià)的機(jī)器上HDFS提供了容錯(cuò)和恢復(fù)機(jī)制，比如某一個(gè)副本丟失了可以通過其他副本來恢復(fù)，從而保證了數(shù)據(jù)的安全性和系統(tǒng)的可靠性。

HDFS優(yōu)缺點(diǎn)HDFS的缺點(diǎn)不適合低延時(shí)數(shù)據(jù)訪問比如毫秒級別的數(shù)據(jù)響應(yīng)時(shí)間，這種場景HDFS是很難做到的。HDFS更適合高吞吐率的場景，就是在某一時(shí)間內(nèi)寫入大量的數(shù)據(jù)。不適合大量小文件的存儲如果有大量小文件需要存儲，這些小文件的元數(shù)據(jù)信息會占用NameNode大量的內(nèi)存空間。這樣是不可取的，因?yàn)镹ameNode的內(nèi)存總是有限的。如果讀取小文件的尋道時(shí)間超過文件數(shù)據(jù)的讀取時(shí)間，它就違反了HDFS大數(shù)據(jù)塊的設(shè)計(jì)目標(biāo)。不適合并發(fā)寫入、文件隨機(jī)修改一個(gè)文件只能有一個(gè)寫操作，不允許多個(gè)線程同時(shí)進(jìn)行寫操作；僅支持?jǐn)?shù)據(jù)的append（追加）操作，不支持文件的隨機(jī)修改。

HDFS讀數(shù)據(jù)流程

HDFS寫數(shù)據(jù)流程

HDFS高可用（HA）HA機(jī)制產(chǎn)生的背景高可用（HighAvailability

，簡稱HA）為了整個(gè)系統(tǒng)的可靠性，我們通常會在系統(tǒng)中部署兩臺或多臺主節(jié)點(diǎn)，多臺主節(jié)點(diǎn)形成主備的關(guān)系，但是某一時(shí)刻只有一個(gè)主節(jié)點(diǎn)能夠?qū)ν馓峁┓?wù)，當(dāng)某一時(shí)刻檢測到對外提供服務(wù)的主節(jié)點(diǎn)“掛”掉之后，備用主節(jié)點(diǎn)能夠立刻接替已掛掉的主節(jié)點(diǎn)對外提供服務(wù)，而用戶感覺不到明顯的系統(tǒng)中斷。這樣對用戶來說整個(gè)系統(tǒng)就更加的可靠和高效。影響HDFS集群的可用性主要包括兩種情況一是NameNode機(jī)器宕機(jī)，將導(dǎo)致集群不可用，重啟NameNode之后才可使用；二是計(jì)劃內(nèi)的NameNode節(jié)點(diǎn)軟件或硬件升級，導(dǎo)致集群在短時(shí)間內(nèi)不可用。

HDFSHA架構(gòu)

HDFSHA機(jī)制

集群規(guī)劃主機(jī)規(guī)劃

軟件規(guī)劃

用戶規(guī)劃

目錄規(guī)劃

ThanksHadoop大數(shù)據(jù)技術(shù)

——搭建YARN分布式集群

YARN架構(gòu)設(shè)計(jì)與工作原理YARN產(chǎn)生背景MapReduce1.0系統(tǒng)架構(gòu)

YARN產(chǎn)生背景MapReduce1.0架構(gòu)缺陷擴(kuò)展性差JobTracker同時(shí)兼?zhèn)淞速Y源管理和作業(yè)控制兩個(gè)功能，嚴(yán)重制約了Hadoop集群擴(kuò)展性。

YARN產(chǎn)生背景MapReduce1.0架構(gòu)缺陷資源利用率低MRv1采用基于slot的粗粒度的資源分配模型，包含Mapslot和Reduceslot。某個(gè)任務(wù)用不完的資源其他任務(wù)也不能用，因?yàn)閙ap和reduce的資源完全不能共享的。當(dāng)一個(gè)作業(yè)剛提交時(shí)，只會運(yùn)行MapTask，此時(shí)ReduceSlot閑置。

YARN產(chǎn)生背景MapReduce1.0架構(gòu)缺陷通用性差隨著互聯(lián)網(wǎng)高速發(fā)展導(dǎo)致數(shù)據(jù)量劇增，MapReduce這種基于磁盤的離線計(jì)算框架已經(jīng)不能滿足應(yīng)用要求，從而出現(xiàn)了一些新的計(jì)算框架以應(yīng)對各種場景，包括內(nèi)存計(jì)算框架、流式計(jì)算框架和迭代式計(jì)算框架等，而MRv1不能支持多種計(jì)算框架并存。

YARN產(chǎn)生背景MapReduce1.0架構(gòu)缺陷單點(diǎn)故障MRv1采用了master/slave結(jié)構(gòu)，其中master存在單點(diǎn)故障問題，一旦它出現(xiàn)故障將導(dǎo)致整個(gè)集群不可用。

YARN產(chǎn)生背景MapReduce1.0架構(gòu)缺陷擴(kuò)展性差：兼具資源管理和作業(yè)調(diào)度資源利用率低：基于粗粒度slot資源分配通用性差：不支持多種計(jì)算框架單點(diǎn)故障：master沒有實(shí)現(xiàn)高可用

YARN是什么YARN是Hadoop2.0版本新引入的資源管理系統(tǒng)，直接從MR1演化而來。ApacheHadoopYARN（YetAnotherResourceNegotiator，另一種資源協(xié)調(diào)者）是一種新的Hadoop資源管理器，它是一個(gè)通用資源管理系統(tǒng)，可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。核心思想：將MR1中JobTracker的資源管理和作業(yè)調(diào)度兩個(gè)功能分開，分別由ResourceManager和ApplicationMaster進(jìn)程來實(shí)現(xiàn)。ResourceManager負(fù)責(zé)整個(gè)集群的資源管理和調(diào)度。ApplicationMaster負(fù)責(zé)應(yīng)用程序相關(guān)的事務(wù)，比如任務(wù)調(diào)度、任務(wù)監(jiān)控和容錯(cuò)等。

YARN的作用

YARN的基本構(gòu)架

YARN的工作原理

MapReduceONYARN工作流程MapReduceONYARN工作流程

YARN的容錯(cuò)性YARN的容錯(cuò)性ResourceManager的容錯(cuò)性保障ResourceManager存在單點(diǎn)故障，但是可以通過配置實(shí)現(xiàn)ResourceManager的HA（高可用），當(dāng)主節(jié)點(diǎn)出現(xiàn)故障時(shí)，可以切換到備用節(jié)點(diǎn)繼續(xù)對外提供服務(wù)。NodeManager的容錯(cuò)性保障NodeManager失敗之后，ResourceManager會將失敗的任務(wù)通知對應(yīng)的ApplicationMaster，由ApplicationMaster來決定如何去處理失敗的任務(wù)。ApplicationMaster的容錯(cuò)性保障ApplicationMaster失敗后，由ResourceManager負(fù)責(zé)重啟即可。其中，ApplicationMaster需要處理內(nèi)部任務(wù)的容錯(cuò)問題。ResourceManager會保存已經(jīng)運(yùn)行的任務(wù)，重啟后無須重新運(yùn)行。

YARN的高可用YARN的高可用

YARN的調(diào)度器先進(jìn)先出調(diào)度器

容量調(diào)度器

公平調(diào)度器

ThanksHadoop大數(shù)據(jù)技術(shù)

——MapReduce

初識MapReduceMapReduce概述MapReduce是一個(gè)使用簡單的軟件框架，基于它寫出來的應(yīng)用程序能夠運(yùn)行在由上千個(gè)商用機(jī)器組成的大型集群上，并以一種可靠容錯(cuò)式并行處理TB級別的數(shù)據(jù)集。MapReduce是一個(gè)并行程序的計(jì)算模型與方法MapReduce是一個(gè)并行程序運(yùn)行的軟件框架MapReduce是一個(gè)基于集群的高性能并行計(jì)算平臺

MapReduce基本設(shè)計(jì)思想

分而治之MapReduce基本設(shè)計(jì)思想抽象成模型

MapReduce基本設(shè)計(jì)思想升到框架MapReduce

提供統(tǒng)一計(jì)算框架的主要目標(biāo)是實(shí)現(xiàn)自動(dòng)并行化計(jì)算，為程序員隱藏系統(tǒng)層面的細(xì)節(jié)。計(jì)算任務(wù)的自動(dòng)劃分和調(diào)度。數(shù)據(jù)的自動(dòng)化分布存儲和劃分。處理數(shù)據(jù)與計(jì)算任務(wù)的同步。結(jié)果數(shù)據(jù)的收集整理，如排序，合并，分區(qū)等。系統(tǒng)通信、負(fù)載均衡、計(jì)算性能優(yōu)化。處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測和失效恢復(fù)。

MapReduce優(yōu)缺點(diǎn)MapReduce的優(yōu)點(diǎn)MapReduce易于編程良好的擴(kuò)展性高容錯(cuò)性適合PB級以上數(shù)據(jù)集的離線處理MapReduce缺點(diǎn)不適合實(shí)時(shí)計(jì)算不適合流式計(jì)算不適合DAG計(jì)算

MapReduce的編程模型MapReduce分布式計(jì)算原理

MapReduce編程模型

深入剖析MapReduce編程模型

背景分析

深入剖析MapReduce編程模型問題思路分析業(yè)務(wù)場景有大量的文件，每個(gè)文件里面存儲的都是單詞。我們的任務(wù)統(tǒng)計(jì)所有文件中每個(gè)單詞出現(xiàn)的次數(shù)。解決思路先分別統(tǒng)計(jì)出每個(gè)文件中各個(gè)單詞出現(xiàn)的次數(shù)，然后再累加不同文件中同一個(gè)單詞出現(xiàn)次數(shù)。

深入剖析MapReduce編程模型深入剖析MapReduce編程模型數(shù)據(jù)分割

深入剖析MapReduce編程模型深入剖析MapReduce編程模型數(shù)據(jù)處理

深入剖析MapReduce編程模型深入剖析MapReduce編程模型數(shù)據(jù)局部合并

深入剖析MapReduce編程模型深入剖析MapReduce編程模型數(shù)據(jù)聚合

MapReduce運(yùn)行機(jī)制剖析MapReduce作業(yè)運(yùn)行機(jī)制

作業(yè)失敗與容錯(cuò)任務(wù)容錯(cuò)當(dāng)applicationmaster被告知一個(gè)任務(wù)嘗試失敗后，它將重新調(diào)度該任務(wù)的執(zhí)行。applicationmaster會試圖避免在之前失敗過的NodeManager上重新調(diào)度該任務(wù)。此外，如果一個(gè)任務(wù)失敗數(shù)超過4次，該任務(wù)將不會再嘗試執(zhí)行。applicationmaster容錯(cuò)applicationmaster向ResourceManager發(fā)送周期性的心跳，當(dāng)applicationmaster失敗時(shí)，ResourceManager將檢測到該失敗，并在一個(gè)新的容器中重新啟動(dòng)一個(gè)applicationmaster實(shí)例。對于新的applicationmaster來說，它將使用作業(yè)歷史記錄來恢復(fù)失敗的應(yīng)用程序所運(yùn)行任務(wù)的狀態(tài)，所以這些任務(wù)不需要重新運(yùn)行。

作業(yè)失敗與容錯(cuò)NodeManager容錯(cuò)如果一個(gè)NodeManager節(jié)點(diǎn)因中斷或運(yùn)行緩慢而失敗，那么它就會停止向ResourceManager發(fā)送心跳信息（或者發(fā)送頻率很低）。默認(rèn)情況下，如果ResourceManager在10分鐘內(nèi)沒有收到一個(gè)心跳信息，它將會通知停止發(fā)送心跳信息的NodeManager，并且將其從自己的節(jié)點(diǎn)池中移除。在出現(xiàn)故障的NodeManager節(jié)點(diǎn)上運(yùn)行的任何任務(wù)或applicationmaster，將會按前面描述的機(jī)制進(jìn)行恢復(fù)。另外，對于出現(xiàn)故障的NodeManager節(jié)點(diǎn)，那么曾經(jīng)在其上運(yùn)行且成功完成的map任務(wù)，如果屬于未完成的作業(yè)，那么applicationmaster會安排它們重新運(yùn)行。這是因?yàn)樗鼈兊闹虚g輸出結(jié)果是存放在故障NodeManager節(jié)點(diǎn)所在的本地文件系統(tǒng)中，reduce任務(wù)可能無法訪問。

作業(yè)失敗與容錯(cuò)ResourceManager容錯(cuò)ResourceManager出現(xiàn)故障是比較嚴(yán)重的，因?yàn)闆]有ResourceManager，作業(yè)和任務(wù)容器將無法啟動(dòng)。在默認(rèn)的配置中，ResourceManager是一個(gè)單點(diǎn)故障，因?yàn)樵跈C(jī)器出現(xiàn)故障時(shí)，所有的作業(yè)都會失敗并且不能被恢復(fù)。為了實(shí)現(xiàn)高可用（HA），有必要以一種active-standby配置模式運(yùn)行一對ResourceManager。如果activeResourceManager出現(xiàn)故障，則standbyResourceManager可以很快的接管，并且對客戶端來說沒有明顯的中斷現(xiàn)象。

shuffle過程詳解

Hadoop集群運(yùn)維管理Hadoop集群進(jìn)程管理NameNode守護(hù)進(jìn)程管理下線操作sbin/hadoop-daemon.shstopnamenode

上線操作sbin/hadoop-daemon.shstartnamenodeDataNode守護(hù)進(jìn)程管理下線操作sbin/hadoop-daemon.shstopdatanode上線操作sbin/hadoop-daemon.shstartdatanode

Hadoop集群進(jìn)程管理ResourceManager守護(hù)進(jìn)程管理下線操作sbin/yarn-daemon.shstopresourcemanager

上線操作sbin/yarn-daemon.shstartresourcemanagerNodeManager守護(hù)進(jìn)程管理下線操作sbin/yarn-daemon.shstopnodemanager上線操作sbin/yarn-daemon.shstartnodemanager

Hadoop集群運(yùn)維技巧文件系統(tǒng)檢查命令：bin/hdfsfsck/元數(shù)據(jù)備份命令：bin/hdfsdfsadmin-fetchImagefsimage.backup

ThanksHadoop大數(shù)據(jù)技術(shù)

——Hive數(shù)據(jù)倉庫工具

Hive概述Hive是什么Hive是由faceBook開源，最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計(jì)問題，它可以作為ETL工具。Hive最初是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫。數(shù)據(jù)計(jì)算是MapReduce數(shù)據(jù)存儲是HDFSHive定義了一種類SQL的查詢語言——HQLHive適合離線數(shù)據(jù)處理Hive是將HQL轉(zhuǎn)換為MR的語言翻譯器。

Hive產(chǎn)生的背景

Hive

的誕生源于

Facebook

的日志分析需求，面對海量的結(jié)構(gòu)化數(shù)據(jù)，

Hive

能夠以較低的成本完成以往需要大規(guī)模數(shù)據(jù)庫才能完成的任務(wù)，并且學(xué)習(xí)門檻相對較低，應(yīng)用開發(fā)靈活且高效。后來Facebook將

Hive

開源給了

Apache，成為

Apache

的一個(gè)頂級項(xiàng)目，至此Hive在大數(shù)據(jù)應(yīng)用方面得到了快速的發(fā)展和普及。Hive的優(yōu)缺點(diǎn)Hive的優(yōu)點(diǎn)Hive適合數(shù)據(jù)的批處理，解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫在海量數(shù)據(jù)處理上的瓶頸。Hive構(gòu)建在Hadoop之上，充分利用了集群的存儲資源、計(jì)算資源。Hive學(xué)習(xí)使用成本低，支持標(biāo)準(zhǔn)的SQL語法，這樣就免去了編寫MapReduce程序的過程，減少了開發(fā)成本。具有良好的擴(kuò)展性，且能夠?qū)崿F(xiàn)與其他組件的集成開發(fā)。Hive的缺點(diǎn)HQL的表達(dá)能力依然有限，不支持迭代計(jì)算，有些復(fù)雜的運(yùn)算用HQL不易表達(dá)，還需要單獨(dú)編寫MapReduce來實(shí)現(xiàn)。Hive的運(yùn)行效率低、延遲高，這是因?yàn)镠ive底層計(jì)算引擎默認(rèn)為MapReduce，而MapReduce是離線計(jì)算框架。Hive的調(diào)優(yōu)比較困難，由于HQL語句最終會轉(zhuǎn)換為MapReduce任務(wù)，所以Hive的調(diào)優(yōu)還需要考慮MapReduce層面的優(yōu)化。

Hive在Hadoop生態(tài)系統(tǒng)中的位置

Hive和Hadoop的關(guān)系

Hive利用HDFS來存儲數(shù)據(jù)，利用MapReduce來查詢分析數(shù)據(jù)，那么Hive與Hadoop之間的關(guān)系總結(jié)如下。Hive需要構(gòu)建在Hadoop集群之上。Hive中的所有數(shù)據(jù)都存儲在Hadoop分布式文件系統(tǒng)中。對HQL查詢語句的解釋、優(yōu)化、生成查詢計(jì)劃等過程均是由

Hive

完成的，而查詢計(jì)劃被轉(zhuǎn)化為

MapReduce

任務(wù)之后需要運(yùn)行在

Hadoop

集群之上。

Hive原理及架構(gòu)Hive的設(shè)計(jì)原理Hive的原理Hive

是一種構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫工具，可以使用HQL

語句對數(shù)據(jù)進(jìn)行分析和查詢，而Hive

的底層數(shù)據(jù)都存儲在HDFS中。Hive

在加載數(shù)據(jù)過程中不會對數(shù)據(jù)進(jìn)行任何的修改，只是將數(shù)據(jù)移動(dòng)到指定的HDFS目錄下，因此，Hive

不支持對數(shù)據(jù)的修改。Hive的特點(diǎn)支持索引，加快數(shù)據(jù)查詢。不同的存儲類型，例如，純文本文件、HBase

中的文件。將元數(shù)據(jù)保存在關(guān)系數(shù)據(jù)庫中，大大減少了在查詢過程中執(zhí)行語義檢查的時(shí)間?？梢灾苯邮褂么鎯υ贖adoop

文件系統(tǒng)中的數(shù)據(jù)。內(nèi)置大量用戶自定義函數(shù)(userdefinefunction，簡稱UDF)來對時(shí)間、字符串進(jìn)行操作，支持用戶擴(kuò)展UDF

函數(shù)來完成內(nèi)置函數(shù)無法實(shí)現(xiàn)的操作。HQL語句最終會被轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行在Hadoop集群之上。

Hive的體系結(jié)構(gòu)

Hive的運(yùn)行機(jī)制

Hive的轉(zhuǎn)換過程

Hive的數(shù)據(jù)類型

Hive的基本數(shù)據(jù)類型Hive的數(shù)據(jù)類型

Hive的復(fù)雜數(shù)據(jù)類型Hive的數(shù)據(jù)存儲

表（table）Hive的表在邏輯上由存儲的數(shù)據(jù)和描述表中數(shù)據(jù)形式的相關(guān)元數(shù)據(jù)組成。數(shù)據(jù)一般存放在HDFS中，但它也可以放在其他任何Hadoop文件系統(tǒng)中，包括本地文件系統(tǒng)或S3。Hive把元數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中，而不是放在HDFS中。在Hive中創(chuàng)建表時(shí)，默認(rèn)情況下Hive負(fù)責(zé)管理數(shù)據(jù)。這意味著Hive把數(shù)據(jù)移入它的“倉庫目錄”。另外一種選擇是創(chuàng)建一個(gè)外部表(externaltable)，這會讓Hive到倉庫目錄以外的位置訪問數(shù)據(jù)。分區(qū)（Partition）Hive把表組織成分區(qū)。這是一種根據(jù)分區(qū)列（如日期）的值對表進(jìn)行粗略劃分的機(jī)制。使用分區(qū)可以加快數(shù)據(jù)分片的查詢速度。以分區(qū)的常用情況為例，如日志文件的每條記錄包含一個(gè)時(shí)間戳。如果我們根據(jù)日期來對它進(jìn)行分區(qū)，那么同一天的記錄就會被存放在同一個(gè)分區(qū)中。這樣做的優(yōu)點(diǎn)是：對于限制到某個(gè)或者某些特定日期的查詢，它們的處理可以變得非常高效。因?yàn)樗鼈冎恍枰獟呙璨樵兎秶鷥?nèi)分區(qū)中的文件。注意，使用分區(qū)并不會影響大范圍查詢的執(zhí)行，我們?nèi)匀豢梢圆樵兛缍鄠€(gè)分區(qū)的整個(gè)數(shù)據(jù)集。桶（Bucket）表或者分區(qū)可以進(jìn)一步分為桶。它會為數(shù)據(jù)提供額外的結(jié)構(gòu)以獲得更高效的查詢處理。例如，通過用戶ID來劃分桶，我們可以在所有用戶集合的隨機(jī)樣本上快速計(jì)算基于用戶的查詢。

ThanksHadoop大數(shù)據(jù)技術(shù)

——HBase分布式數(shù)據(jù)庫

HBase概述HBase是什么HBase是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫，利用HBase技術(shù)可在廉價(jià)的PCServer上搭建大規(guī)模結(jié)構(gòu)化存儲集群。HBase是GoogleBigTable的開源實(shí)現(xiàn)，與Google的BigTable利用GFS作為其文件存儲系統(tǒng)類似，HBase則利用Hadoop的HDFS作為其文件存儲系統(tǒng)。Google運(yùn)行MapReduce來處理Bigtable中的海量數(shù)據(jù)，而HBase則利用Hadoop的MapReduce來處理HBase中的海量數(shù)據(jù)。GoogleBigtable利用Chubby作為協(xié)同服務(wù)，而HBase則利用Zookeeper作為協(xié)同服務(wù)。

HBase的特點(diǎn)

容量巨大：單表可以有百億行、數(shù)百萬列。無模式：同一個(gè)表的不同行可以有截然不同的列。面向列：HBase是面向列的存儲和權(quán)限控制，并支持列獨(dú)立索引。稀疏性：表可以設(shè)計(jì)得非常稀疏，值為空的列并不占用存儲空間。擴(kuò)展性：HBase底層文件存儲依賴HDFS，它天生具備可擴(kuò)展性。高可靠性：HBase提供了預(yù)寫日志(WAL)和副本(Replication)機(jī)制，防止數(shù)據(jù)丟失。高性能：底層的LSM（Log-StructuredMergeTree）數(shù)據(jù)結(jié)構(gòu)和RowKey有序排列等架構(gòu)上的獨(dú)特設(shè)計(jì)，使得HBase具備非常高的寫入性能。

HBase模型及架構(gòu)HBase邏輯模型

HBase邏輯模型表HBase

是一種列式存儲的分布式數(shù)據(jù)庫，其核心概念是表（Table）。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫一樣，HBase

的表也是由行和列組成，但

HBase

同一列可以存儲不同時(shí)刻的值，同時(shí)多個(gè)列可以組成一個(gè)列簇（ColumnFamily），這種組織形式主要是出于HBase存取性能的考慮。行健Rowkey

既是

HBase

表的行鍵，也是

HBase

表的主鍵。HBase

表中的記錄是按照RowKey的字典順序進(jìn)行存儲的。在HBase中，為了高效地檢索數(shù)據(jù)，需要設(shè)計(jì)良好的Rowkey來提高查詢性能。因?yàn)镽owkey

會被冗余存儲，所以長度不宜過長，Rowkey

過長將會占用大量的存儲空間同時(shí)會降低檢索效率。其次

Rowkey

應(yīng)該盡量均勻分布，避免產(chǎn)生熱點(diǎn)問題（大量用戶訪問集中在一個(gè)或極少數(shù)節(jié)點(diǎn)，從而造成單臺節(jié)點(diǎn)超出自身承受能力）。另外需要保證Rowkey的唯一性。

HBase邏輯模型列簇HBase表中的每個(gè)列都?xì)w屬于某個(gè)列簇，一個(gè)列簇中的所有列成員有著相同的前綴。比如，列anchor:和anchor:my.look.ca都是列簇anchor的成員。列簇是表的schema的一部分，必須在使用表之前定義列簇，但列卻不是必需的，寫數(shù)據(jù)的時(shí)候可以動(dòng)態(tài)加入。一般將經(jīng)常一起查詢的列放在一個(gè)列簇中，合理劃分列簇將減少查詢時(shí)加載到緩存的數(shù)據(jù)，提高查詢效率，但也不能有太多的列簇，因?yàn)榭缌写卦L問是非常低效的。單元格HBase中通過RowKey和Column確定的一個(gè)存儲單元稱為單元格（Cell）。每個(gè)單元格都保存著同一份數(shù)據(jù)的多個(gè)版本，不同時(shí)間版本的數(shù)據(jù)按照時(shí)間順序倒序排序，最新時(shí)間的數(shù)據(jù)排在最前面，時(shí)間戳是

位的整數(shù)，可以由客戶端在寫入數(shù)據(jù)時(shí)賦值，也可以由RegionServer自動(dòng)賦值。

HBase物理模型

HBase基本構(gòu)架

HBaseshell操作HBaseshell操作1.創(chuàng)建course表hbase(main):002:0>create'course','cf'2.查看HBase所有表hbase(main):003:0>list3.查看course表結(jié)構(gòu)hbase(main):004:0>describe'course'4.向course表插入數(shù)據(jù)hbase(main):005:0>put'course','001','cf:cname','hbase'hbase(main):006:0>put'course','001','cf:score','95'hbase(main):007:0>put'course','002','cf:cname','sqoop'hbase(main):008:0>put'course','002','cf:score','85'hbase(main):009:0>put'course','003','cf:cname','flume'hbase(main):010:0>put'course','003','cf:score','98'

HBaseshell操作5.查詢course表中的所有數(shù)據(jù)hbase(main):011:0>scan'course'6.根據(jù)行鍵查詢course表（1）查詢整條記錄hbase(main):012:0>get'course','001'（2）查詢一個(gè)列簇?cái)?shù)據(jù)hbase(main):013:0>get'course','001','cf'（3）查詢列簇中其中的一個(gè)列hbase(main):014:0>get'course','001','cf:cname'7.更新course表數(shù)據(jù)hbase(main):015:0>put'course','001','cf:score','99'hbase(main):016:0>get'course','001','cf'8.查詢course表總記錄hbase(main):017:0>count'course'

HBaseshell操作9.刪除course表數(shù)據(jù)（1）刪除列簇中的一個(gè)列hbase(main):021:0>delete'course','003','cf:score'（2）刪除整行記錄hbase(main):022:0>deleteall'course','002'hbase(main):023:0>scan'course'10.清空course表hbase(main):024:0>truncate'course'hbase(main):025:0>scan'course'11.刪除course表hbase(main):026:0>disable'course'hbase(main):027:0>drop'course'12.查看表是否存在hbase(main):028:0>exists'course'

ThanksHadoop大數(shù)據(jù)技術(shù)

——Sqoop安裝部署

Sqoop概述ApacheSqoop（SQL-to-Hadoop）項(xiàng)目旨在協(xié)助RDBMS與Hadoop之間進(jìn)行高效的大數(shù)據(jù)遷移。用戶可以在Sqoop的幫助下，輕松地將RDBMS中的數(shù)據(jù)導(dǎo)入到Hadoop或者與其相關(guān)的系統(tǒng)（如HBase和Hive）中；同時(shí)也可以將數(shù)據(jù)從Hadoop系統(tǒng)導(dǎo)出到RDBMS。因此，可以說Sqoop就是一個(gè)橋梁，連接了RDBMS與Hadoop。

Sqoop的優(yōu)勢

Sqoop可以高效地、可控地利用資源，可以通過調(diào)整任務(wù)數(shù)來控制任務(wù)的并發(fā)度。另外它還可以配置數(shù)據(jù)庫的訪問時(shí)間。Sqoop可以自動(dòng)地完成數(shù)據(jù)庫與Hadoop系統(tǒng)中數(shù)據(jù)類型的映射與轉(zhuǎn)換。Sqoop支持多種數(shù)據(jù)庫，比如，MySQL、Oracle和PostgreSQL等數(shù)據(jù)庫。Sqoop架構(gòu)及工作機(jī)制

SqoopImport流程

SqoopExport流程

HBase邏輯模型表HBase

是一種列式存儲的分布式數(shù)據(jù)庫，其核心概念是表（Table）。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫一樣，HBase

的表也是由行和列組成，但

HBase

同一列可以存儲不同時(shí)刻的值，同時(shí)多個(gè)列可以組成一個(gè)列簇（ColumnFamily），這種組織形式主要是出于HBase存取性能的考慮。行健Rowkey

既是

HBase

表的行鍵，也是

HBase

表的主鍵。HBase

會被冗余存儲，所以長度不宜過長，Rowkey

過長將會占用大量的存儲空間同時(shí)會降低檢索效率。其次

Rowkey

位的整數(shù)，可以由客戶端在寫入數(shù)據(jù)時(shí)賦值，也可以由RegionServer自動(dòng)賦值。

HBase物理模型

HBase基本構(gòu)架

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

《基于新信息技術(shù)的Hadoop大數(shù)據(jù)技術(shù)》全套教學(xué)課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔