版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Hadoop2.0架構(gòu)設(shè)計與原理數(shù)據(jù)中心-Alan主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的計算框架6YARN發(fā)展趨勢主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的基本框架6YARN發(fā)展趨勢Hadoop概述Hadoop是一個開源的、可靠的、可擴(kuò)展的分布式并行計算框架主要組成:分布式文件系統(tǒng)HDFS和MapReduce算法執(zhí)行作者:DougCutting語言:Java,支持多種編程語言,如:Python、C++Hadoop的起源Hadoop是Google的集群系統(tǒng)的開源實(shí)現(xiàn)Google集群系統(tǒng):GFS(GoogleFileSystem)、MapReduce、BigTableHadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系統(tǒng))、MapReduceHadoop的初衷是為解決Nutch
的海量數(shù)據(jù)爬取和存儲的需要Hadoop于2005年秋天作為Lucene的子項目Nutch的一部分正式引入Apache基金會。名稱起源:DougCutting兒子的黃色大象玩具的名字目前最新穩(wěn)定版本2.6.0什么是大數(shù)據(jù)數(shù)據(jù)集主要特點(diǎn)Volume:數(shù)量量從TB到PB級別Variety:數(shù)據(jù)類型復(fù)雜,超過80%的數(shù)據(jù)是非結(jié)構(gòu)化的Velocity:數(shù)據(jù)量在持續(xù)增加(兩位數(shù)的年增長率)Value:巨大的數(shù)據(jù)價值其他特征數(shù)據(jù)來自大量源,需要做相關(guān)性分析需要實(shí)時或者準(zhǔn)實(shí)時的流式采集,有些應(yīng)用90%寫vs.10%讀數(shù)據(jù)需要長時間存儲,非熱點(diǎn)數(shù)據(jù)也會被隨機(jī)訪問什么是大數(shù)據(jù)某比薩店的電話鈴響了,客服人員拿起電話??头篨XX比薩店。您好,請問有什么需要我為您服務(wù)?顧客:你好,我想要一份……客服:先生,煩請先把您的會員卡號告訴我。顧客:16846146***。客服:陳先生,您好!您是住在泉州路一號12樓120x室,請問您想要點(diǎn)什么?顧客:我想要一個海鮮比薩……客服:陳先生,海鮮比薩不適合您。顧客:為什么?客服:根據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。顧客:那你們有什么可以推薦的?客服:您可以試試我們的低脂健康比薩。顧客:你怎么知道我會喜歡吃這種的?客服:您上星期一在中央圖書館借了一本《低脂健康食譜》。顧客:好。那我要一個家庭特大號比薩,要付多少錢?客服:99元,這個足夠您一家六口吃了。但您母親應(yīng)該少吃,她上個月剛剛做了心臟搭橋手術(shù),還處在恢復(fù)期。顧客:那可以刷卡嗎?客服:陳先生,對不起。請您付現(xiàn)款,因?yàn)槟男庞每ㄒ呀?jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括房貸利息。顧客:那我先去附近的提款機(jī)提款。客服:陳先生,根據(jù)您的記錄,您已經(jīng)超過今日提款限額。顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會送到?客服:大約30分鐘。如果您不想等,可以自己騎車來。顧客:為什么?客服:根據(jù)我們?nèi)蚨ㄎ幌到y(tǒng)的車輛行駛自動跟蹤系統(tǒng)記錄。您登記有一輛車號為SB-748的摩托車,而目前您正在解放路東段華聯(lián)商場右側(cè)騎著這輛摩托車。顧客當(dāng)即暈倒……大數(shù)據(jù)VS傳統(tǒng)數(shù)據(jù)
大數(shù)據(jù)處理流程101010010101010101111010100101010101011101011010100101010101011101011010100101010101011110101001010101010111非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)實(shí)時流數(shù)據(jù)其它數(shù)據(jù)APITextBigDataStoreandAnalyticsETL0101101010010101010101110101101010010101010101111010100101010101011101011010100101010101011101011010100101010101011110101001010101010111Hadoop生態(tài)圈主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的基本框架6YARN發(fā)展趨勢HDFS-分布式文件系統(tǒng)
設(shè)計目標(biāo)錯誤檢測和快速自動恢復(fù)硬件故障是常態(tài)而非異常為流式數(shù)據(jù)訪問優(yōu)化針對支持大數(shù)據(jù)集單個文件大小有數(shù)GB或者TB可提供高聚合帶寬訪問
可能夠擴(kuò)展至數(shù)千個節(jié)點(diǎn)簡化“一致性”模型一次寫入、多次讀,寫入過程可能并發(fā)移動“計算”比移動“數(shù)據(jù)”更便宜主要特點(diǎn)使用低成本存儲和服務(wù)器構(gòu)建存放PB級別的海量數(shù)據(jù)高可擴(kuò)展性,實(shí)際生產(chǎn)環(huán)境擴(kuò)展至4000個節(jié)點(diǎn)高可靠性和容錯性,數(shù)據(jù)自動復(fù)制,可自我修復(fù)高帶寬,高并發(fā)訪問,對于延遲不敏感數(shù)據(jù)分布與復(fù)制數(shù)據(jù)塊:文件被劃分為固定大小的數(shù)據(jù)塊進(jìn)行存儲數(shù)據(jù)塊缺省為64M,遠(yuǎn)大于一般文件系統(tǒng)數(shù)據(jù)塊大小減少元數(shù)據(jù)的量有利于順序讀寫(在磁盤上順序存放)可靠性:數(shù)據(jù)通過副本的方式保存在多個數(shù)據(jù)節(jié)點(diǎn)上默認(rèn)3個副本副本選擇會考慮機(jī)架信息以防止整個機(jī)架同時掉電系統(tǒng)設(shè)計優(yōu)化:用單個管理節(jié)點(diǎn)來保存文件系統(tǒng)元數(shù)據(jù)和管理/協(xié)調(diào)數(shù)據(jù)緩存:DataNode沒有數(shù)據(jù)緩存由于文件的訪問是掃描式的,不具有局部性訪問方式讀、寫、文件改名、刪除等文件內(nèi)容不允許覆蓋更新提供一個特殊的訪問接口:追加appendHDFS基本設(shè)計
HDFS體系結(jié)構(gòu)
中心目錄服務(wù)器(NameNode)管理大量數(shù)據(jù)服務(wù)器(DataNode)NameNode管理元數(shù)據(jù)(文件目錄樹,文件->塊映射,塊->數(shù)據(jù)服務(wù)器映射表,etc.)DataNode負(fù)責(zé)存儲數(shù)據(jù)、以及響應(yīng)數(shù)據(jù)讀寫請求客戶端與NameNode交互進(jìn)行文件創(chuàng)建/刪除/尋址等操作,之后直接與DataNodes交互進(jìn)行文件I/OHDFS寫文件流程HDFS讀文件流程什么是MapReduce編程模型?
Map(映射):對一些獨(dú)立元素組成的列表的每一個元素進(jìn)行指定的操作,可以高度并行。Reduce(化簡):對一個列表的元素進(jìn)行合并。一個簡單的MapReduce程序只需要指定map()、reduce()、輸入和輸出,剩下的事由框架幫你搞定。MapReduce計算框架
為離線數(shù)據(jù)分析而設(shè)計,基本上是個利用數(shù)據(jù)并行性進(jìn)行分布運(yùn)算而后匯總結(jié)果的計算框架分析問題能夠被并行化,且輸入數(shù)據(jù)集可以被切分一個Map函數(shù),在第一階段計算<Key,Value>對
一個Reduce函數(shù),在第二階段用于匯總Map函數(shù)的結(jié)果MapReduce運(yùn)行機(jī)制MapReduce原理MapReduce實(shí)例分析主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的基本框架6YARN發(fā)展趨勢Hadoop
YARN產(chǎn)生背景
直接源于MRv1在幾個方面的缺陷
擴(kuò)展性受限
單點(diǎn)故障
難以支持MR之外的計算
多計算框架各自為戰(zhàn),數(shù)據(jù)共享困難
MR:離線計算框架
Storm:實(shí)時計算框架
Spark:內(nèi)存計算框架Hadoop
1.0和2.0Hadoop2.0由HDFS、MapReduce和YARN三個分支構(gòu)成;HDFS:NN
Federation、HA;MapReduce:運(yùn)行在YARN上的MR;
YARN:資源管理系統(tǒng)主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的基本框架6YARN發(fā)展趨勢Hadoop
YARN基本架構(gòu)Hadoop
YARN各模塊組成ResourceManager
處理客戶端請求啟動/監(jiān)控ApplicationMaster監(jiān)控NodeManager
資源分配與調(diào)度NodeManager
單個節(jié)點(diǎn)上的資源管理處理來自ResourceManager的命令處理來自ApplicationMaster的命令A(yù)pplicationMaster
數(shù)據(jù)切分
為應(yīng)用程序申請資源,并分配給內(nèi)部任務(wù)
任務(wù)監(jiān)控與容錯Hadoop
YARN運(yùn)行流程分析NodeManagerNodeManagerNodeManagerResourceManagerApplicationMasterClientClientClient①②③④⑤⑤⑤⑥⑥TaskContainerContainerTaskTaskContainerHadoop
YARN容錯ResourceManager基于ZooKeeper實(shí)現(xiàn)HA。NodeManager
失敗后,RM將失敗任務(wù)告訴對應(yīng)的AM;
AM決定如何處理失敗的任務(wù)。ApplicationMaster
失敗后,由RM負(fù)責(zé)重啟;
AM需處理內(nèi)部任務(wù)的容錯問題;
RMAppMaster會保存已經(jīng)運(yùn)行完成的Task,重啟后無需重新運(yùn)行。Hadoop
YARN調(diào)度框架
雙層調(diào)度框架
RM將資源分配給AM
AM將資源進(jìn)一步分配給各個Task
基于資源預(yù)留的調(diào)度策略
資源不夠時,會為Task預(yù)留,直到資源充足與“all
or
nothing”策略不同(Apache
Mesos)Hadoop
YARN資源調(diào)度器
多類型資源調(diào)度采用DRF算法(論文:“DominantResource
Fairness:
FairAllocation
of
Multiple
Resource
Types”)
目前支持CPU和內(nèi)存兩種資源
提供多種資源調(diào)度器FIFOFair
SchedulerCapacityScheduler
多租戶資源調(diào)度器
支持資源按比例分配
支持層級隊列劃分方式
支持資源搶占Hadoop
YARN資源隔離方案
支持內(nèi)存和CPU兩種資源隔離
內(nèi)存是一種“決定生死”的資源
CPU是一種“影響快慢”的資源
內(nèi)存隔離
基于線程監(jiān)控的方案基于Cgroups的方案CPU隔離
默認(rèn)不對CPU資源進(jìn)行隔離基于Cgroups的方案Hadoop
YARN資源調(diào)度語義
支持的語義
請求某個特定節(jié)點(diǎn)/機(jī)架上的特定資源量
將某些節(jié)點(diǎn)加入(或移除)黑名單,不再為自己分配這些節(jié)點(diǎn)上的資源
請求歸還某些資源
不支持的語義
請求任意節(jié)點(diǎn)/機(jī)架上的特定資源量
請求一組或幾組符合某種特質(zhì)的資源
超細(xì)粒度資源動態(tài)調(diào)整Container資源主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的基本框架6YARN發(fā)展趨勢應(yīng)用程序的運(yùn)行模型MapinputoutputMapinputReduceoutputStage1inputoutputStage2Stage3Stage4Stage1inputoutputStage2Stage3StageNYARN應(yīng)用程序類型
長應(yīng)用程序和短應(yīng)用程序
長應(yīng)用程序Service、HTTP
Server等
短應(yīng)用程序MR
job、Spark
Job等以YARN為核心的生態(tài)系統(tǒng)運(yùn)行在YARN上的計算框架離線計算框架:MapReduceDAG計算框架:Tez流式計算框架:Storm內(nèi)存計算框架:Spark圖計算框架:Giraph、GraphLib離線計算框架MapReduce
將計算過程分為兩個階段,Map和Reduce
Map階段并行處理輸入數(shù)據(jù)Reduce階段對Map結(jié)果進(jìn)行匯總Shuffle連接Map和Reduce兩個階段
MapTask將數(shù)據(jù)寫到本地磁盤Reduce
Task從每個Map
Task上讀取一份數(shù)據(jù)
僅適合離線批處理
具有很好的容錯性和擴(kuò)展性
適合簡單的批處理任務(wù)
缺點(diǎn)明顯
啟動開銷大、過多使用磁盤導(dǎo)致效率低下等MapReduce
On
YARN2 5MRAppMstrNodeManagerMapTaskNodeManager6 6ReduceTaskClient1Container245MapTask 777ContainerContainerContainerResourceManager3,86ApplicationsManagerResourceSchedulerDAG計算框架Tez
多個作業(yè)之間存在數(shù)據(jù)依賴關(guān)系,并形成一個依賴關(guān)系有
向圖(
Directed
Acyclic
Graph
),該圖的計算稱為“DAG計算”Apache
Tez:基于YARN的DAG計算框架
運(yùn)行在YARN之上,充分利用YARN的資源管理和容錯等功能;
提供了豐富的數(shù)據(jù)流(dataflow)API;擴(kuò)展性良好的“Input-Processor-Output”運(yùn)行時模型;
動態(tài)生成物理數(shù)據(jù)流關(guān)系。Phase
1Phase
2Phase
3Phase
4Phase
5MapReduceMapReduceReduceDAG計算框架TezHDFSMap1Reduce1HDFSHDFSMap2Reduce2HDFSWordCountTop
KHDFSMap1Reduce12HDFSWordCount+Top
KReduce2Job1Job2DAG
JobUsingTezJob1Job2Job4SingleJobUsingTez
On
YARNDAG
AppMstrNodeManager2 5Vertex-ATaskNodeManagerVertex-ATaskClient1Container245Vertex-ATask777ContainerContainerContainerResourceManager3,866ApplicationsManagerResourceSchedulerTez優(yōu)化技術(shù)ApplicationMaster緩沖池作業(yè)提交到AMPoolServer服務(wù)上預(yù)啟動若干個ApplicationMaster,形成一個ApplicationMaster緩沖池預(yù)先啟動ContainerApplicationMaster啟動時可以預(yù)先啟動若干個ContainerContainer重用任務(wù)運(yùn)行完成后,ApplicationMaster不會馬上注銷它使用的Container,而是將它重新分配給其他未運(yùn)行的任務(wù)Tez應(yīng)用場景
直接編寫應(yīng)用程序
Tez提供了一套通用編程接口
適合編寫有依賴關(guān)系的作業(yè)優(yōu)化Pig、Hive等引擎下一代Hive:Stinger
好處1:避免查詢語句轉(zhuǎn)換成過多的MapReduce作業(yè)后產(chǎn)生大量不必要的網(wǎng)絡(luò)和磁盤IO
好處2:更加智能的任務(wù)處理引擎流式計算Storm
流式(Streaming)計算,是指被處理的數(shù)據(jù)
像流水一樣不斷流入系統(tǒng),而系統(tǒng)需要針對每條數(shù)據(jù)進(jìn)行實(shí)時處理和計算,并永不停止(直到用戶顯式殺死進(jìn)程);
傳統(tǒng)做法:由消息隊列和消息處理者組成的實(shí)時行實(shí)時計算;化性現(xiàn)。處理網(wǎng)絡(luò)進(jìn)缺乏自動缺乏健壯伸縮性差Storm出引自:2013中國大數(shù)據(jù)技術(shù)大會肖康:“Storm在實(shí)時網(wǎng)絡(luò)攻擊檢測和分析的應(yīng)用與改進(jìn)”,PPT:http://share.csdn.net/slides/1230流式計算框架StormNimbusSupervisorZookeeperExecutorExecutorWorkerExecutorExecutorWorkerSpoutTasks,topology1Blot-ATasks,topology1SupervisorExecutorExecutorWorkerExecutorExecutorWorkerSupervisorExecutorExecutorWorkerExecutorExecutorWorkerSpoutTasks,topology1Blot-BTasks,topology1SpoutTasks,topology2Blot-1Tasks,topology2Blot-CTasks,topology1Blot-BTasks,topology1Blot-2Tasks,topology2Blot-1Tasks,topology2Blot-2Tasks,topology2Blot-2Tasks,topology2流式計算框架StormTaskTaskTaskTaskTaskTaskTaskTaskTaskSpoutBlot-ABlot-BBlot-CStreamGroupingStreamGroupingTopologyHadoop
MapReduce(MRv1)Storm系統(tǒng)服務(wù)JobTrackerNimbusTaskTrackerSupervisorChildWorker應(yīng)用程序名稱JobTopology編程模型Map/ReduceSpout/BlotShuffleStream
GroupingStorm
On
YARNResourceManagerNodeManagerNodeManagerStormSupervisiorNodeManager②④④④YARN-StormClientYARN-MPIClientYARN-MapReduceeClientStorm
①SubmissionResource
RequestStormApplicationMaster③StormSupervisiorZookeeperNodeManagerMRAppMstrContainerMapTaskContainer……StormClient⑤StormClient⑤NimbusWeb
UI內(nèi)存計算框架Spark
克服MapReduce在迭代式計算和交互式計算方面的不足;引入RDD(Resilient
DistributedDatasets)數(shù)據(jù)表示模型;RDD是集合,一個有容錯機(jī)制,可以被并能夠被緩存到內(nèi)存或磁盤上行操作的數(shù)據(jù)。引自:
“基于Spark
on
Yarn的淘寶數(shù)據(jù)挖掘平臺”,PPT:http://vdisk.weibo.com/s/dn9q7A_XuVrf內(nèi)存計算框架SparkSpark
On
YARNResourceManagerNodeManagerNodeManagerStandaloneExecutorBackenddNodeManagerYARN-SparkClientYARN-MPIClientYARN-MapReducee
ClientSparkSubmissionResource
RequestClusterSchedulerSpark
Application
MasterStandaloneExecutorBackendNodeManagerMR
AppMstrContainerMap
TaskContainer……Web
UISpark生態(tài)系統(tǒng)主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN基本架構(gòu)5運(yùn)行在YARN上的基本框架6YARN發(fā)展趨勢資源管理系統(tǒng)帶來的好處
提高集群資源利用率
服務(wù)自動化部署YARN(資源管理系統(tǒng))HDFS2(分布式存儲系統(tǒng))
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年北京公交有軌電車有限公司招聘筆試參考題庫含答案解析
- 2025年冀少新版八年級地理下冊月考試卷含答案
- 2025年浙江嘉興海寧市康源再生資源科技有限公司招聘筆試參考題庫附帶答案詳解
- 2025年遼寧葫蘆島市興城市城建交通集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年外研版2024高二地理下冊月考試卷含答案
- 2025年人教B版九年級生物上冊階段測試試卷含答案
- 商品房開發(fā)和銷售管理
- 2025年度個人租房合同范本(含家具家電清單)
- 2025年粵人版選修4地理上冊月考試卷含答案
- 2025年蘇教版九年級歷史下冊月考試卷含答案
- 拆遷評估機(jī)構(gòu)選定方案
- 趣味知識問答100道
- 鋼管豎向承載力表
- 2024年新北師大版八年級上冊物理全冊教學(xué)課件(新版教材)
- 人教版數(shù)學(xué)四年級下冊核心素養(yǎng)目標(biāo)全冊教學(xué)設(shè)計
- JJG 692-2010無創(chuàng)自動測量血壓計
- 三年級下冊口算天天100題(A4打印版)
- 徐州市2023-2024學(xué)年八年級上學(xué)期期末地理試卷(含答案解析)
- CSSD職業(yè)暴露與防護(hù)
- 飲料對人體的危害1
- 移動商務(wù)內(nèi)容運(yùn)營(吳洪貴)項目三 移動商務(wù)運(yùn)營內(nèi)容的策劃和生產(chǎn)
評論
0/150
提交評論