




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《大數(shù)據(jù)平臺(tái)部署與運(yùn)維》單元4HDFS分布式存儲(chǔ)任務(wù)4.1認(rèn)識(shí)HDFS01HDFS原理與體系架構(gòu)學(xué)習(xí)目標(biāo)02HDFS讀寫(xiě)文件流程03HDFS特點(diǎn)任務(wù)4.1認(rèn)識(shí)HDFS【任務(wù)場(chǎng)景】經(jīng)理:小張,我們的大數(shù)據(jù)平臺(tái)已經(jīng)上線了,你整理一下Hadoop的數(shù)據(jù)存儲(chǔ)策略給大家分享一下吧。小張:HDFS會(huì)先將大文件分割成數(shù)據(jù)塊,將數(shù)據(jù)塊寫(xiě)入到數(shù)據(jù)節(jié)點(diǎn)中。HDFS默認(rèn)將數(shù)據(jù)塊存儲(chǔ)三份來(lái)保障數(shù)據(jù)的安全性。我先整理一下這個(gè)內(nèi)容。經(jīng)理:它三副本的策略保證了我們的安全性。那HDFS的其他特性你也總結(jié)一下吧。小張:HDFS通過(guò)副本放置策略機(jī)架感知策略同時(shí)作用,提高數(shù)據(jù)存放的安全性,同時(shí),HDFS嘗試滿足來(lái)自最接近讀取器的副本的讀取請(qǐng)求來(lái)提高數(shù)據(jù)訪問(wèn)的性能。這方面我統(tǒng)一總結(jié)一下吧。任務(wù)4.1認(rèn)識(shí)HDFS【任務(wù)布置】了解HDFS原理及體系架構(gòu),理解HDFS數(shù)據(jù)存儲(chǔ)的副本存放策略,理解HDFS文件讀寫(xiě)的流程。任務(wù)4.1認(rèn)識(shí)HDFS4.1.1HDFS原理與體系架構(gòu)HadoopDistributedFileSystem,Hadoop分布式文件系統(tǒng)。它被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS的體系架構(gòu)決定它能夠提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的存儲(chǔ)。HDFS總的設(shè)計(jì)思想是分而治之:將大文件、大批量文件,分布式存放在大量獨(dú)立的服務(wù)器上,以便于采取分而治之的方式對(duì)海量數(shù)據(jù)進(jìn)行運(yùn)算分析。HDFS是一個(gè)主從體系結(jié)構(gòu),HDFS體系結(jié)構(gòu)中包含三類(lèi)組件,分別是NameNode、DataNode和SecondaryNameNode。名稱(chēng)描述NameNodeHDFS的守護(hù)進(jìn)程,用來(lái)管理文件系統(tǒng)的命名空間和客戶(hù)端對(duì)文件的訪問(wèn)。它負(fù)責(zé)記錄文件是如何分割成數(shù)據(jù)塊,以及數(shù)據(jù)塊被存儲(chǔ)到哪些DataNode中。DataNode負(fù)責(zé)存儲(chǔ)和提取數(shù)據(jù)塊,讀寫(xiě)請(qǐng)求可能來(lái)自namenode,也可能直接來(lái)自客戶(hù)端。數(shù)據(jù)節(jié)點(diǎn)周期性向Namenode匯報(bào)自己節(jié)點(diǎn)上所存儲(chǔ)的數(shù)據(jù)塊相關(guān)信息。SecondaryNameNode定期合并主Namenode的namespaceimage和editlog,避免editlog過(guò)大,通過(guò)創(chuàng)建檢查點(diǎn)checkpoint來(lái)合并。它會(huì)維護(hù)一個(gè)合并后的namespaceimage副本,可用于在Namenode完全崩潰時(shí)恢復(fù)數(shù)據(jù)。任務(wù)4.1認(rèn)識(shí)HDFS4.1.1HDFS原理與體系架構(gòu)客戶(hù)端通過(guò)同NameNode和DataNodes的交互訪問(wèn)文件系統(tǒng),客戶(hù)端聯(lián)系NameNode以獲取文件的元數(shù)據(jù),而真正的文件I/O操作是直接和DataNode進(jìn)行交互的。HDFS旨在可靠地跨大型集群中的機(jī)器存儲(chǔ)非常大的文件。它將每個(gè)文件存儲(chǔ)為一個(gè)塊(Block)序列,數(shù)據(jù)塊是HDFS上存儲(chǔ)數(shù)據(jù)的基本單位。文件存儲(chǔ)過(guò)程中,文件先分割為塊序列,除最后一個(gè)塊外的所有塊大小都相同,而在append和hsync中增加了對(duì)變長(zhǎng)塊的支持后,用戶(hù)可以在不將最后一個(gè)塊填充到配置的塊大小的情況下開(kāi)始一個(gè)新塊。HDFS通過(guò)復(fù)制文件的塊以實(shí)現(xiàn)容錯(cuò)。應(yīng)用程序可以指定文件的副本數(shù)。復(fù)制因子可以在文件創(chuàng)建時(shí)指定,以后可以更改。任務(wù)4.1認(rèn)識(shí)HDFS4.1.1HDFS原理與體系架構(gòu)
副本選擇策略為了提升HDFS的可靠性,可以創(chuàng)建多分?jǐn)?shù)據(jù)塊副本,并將它們放置在服務(wù)器集群。為了最小化全局帶寬消耗和讀取延遲,HDFS嘗試滿足來(lái)自最接近讀取器的副本的讀取請(qǐng)求。如果在與讀取器節(jié)點(diǎn)相同的機(jī)架上存在副本,則首選該副本來(lái)滿足讀取請(qǐng)求。如果HDFS集群跨越多個(gè)數(shù)據(jù)中心,那么駐留在本地?cái)?shù)據(jù)中心的副本優(yōu)先于任何遠(yuǎn)程副本。
數(shù)據(jù)塊放置策略對(duì)于常見(jiàn)的情況,當(dāng)復(fù)制因子為3時(shí),HDFS的放置策略是如果寫(xiě)入者在數(shù)據(jù)節(jié)點(diǎn)上,則將一個(gè)副本放在本地機(jī)器上,否則在與寫(xiě)入者相同機(jī)架的隨機(jī)數(shù)據(jù)節(jié)點(diǎn)上,另一個(gè)副本放在不同(遠(yuǎn)程)機(jī)架中的一個(gè)節(jié)點(diǎn),以及同一遠(yuǎn)程機(jī)架中不同節(jié)點(diǎn)上的最后一個(gè)節(jié)點(diǎn)。此策略減少了機(jī)架間寫(xiě)入流量,這通常會(huì)提高寫(xiě)入性能。機(jī)架故障的幾率遠(yuǎn)小于節(jié)點(diǎn)故障;此政策不影響數(shù)據(jù)可靠性和可用性保證。然而,它不會(huì)減少讀取數(shù)據(jù)時(shí)使用的聚合網(wǎng)絡(luò)帶寬,因?yàn)橐粋€(gè)塊只放置在兩個(gè)獨(dú)特的機(jī)架中,而不是三個(gè)。使用此策略,塊的副本不會(huì)均勻地分布在機(jī)架上。兩個(gè)副本位于一個(gè)機(jī)架的不同節(jié)點(diǎn)上,其余副本位于其他機(jī)架之一的節(jié)點(diǎn)上。此策略可在不影響數(shù)據(jù)可靠性或讀取性能的情況下提高寫(xiě)入性能。如果復(fù)制因子大于3,則隨機(jī)確定第4個(gè)及以下副本的放置,同時(shí)保持每個(gè)機(jī)架的副本數(shù)量低于上限(基本上是(replicas-1)/racks+2)。任務(wù)4.1認(rèn)識(shí)HDFS4.1.1HDFS原理與體系架構(gòu)
機(jī)架感知策略副本的放置對(duì)于HDFS的可靠性和性能至關(guān)重要。優(yōu)化副本放置將HDFS與大多數(shù)其他分布式文件系統(tǒng)區(qū)分開(kāi)來(lái)。這是一項(xiàng)需要大量調(diào)整和經(jīng)驗(yàn)的功能。機(jī)架感知副本放置策略的目的是提高數(shù)據(jù)可靠性、可用性和網(wǎng)絡(luò)帶寬利用率。大型HDFS實(shí)例通常分布在許多機(jī)架上的計(jì)算機(jī)集群上運(yùn)行。不同機(jī)架中的兩個(gè)節(jié)點(diǎn)之間的通信必須通過(guò)交換機(jī)。在大多數(shù)情況下,同一機(jī)架中機(jī)器之間的網(wǎng)絡(luò)帶寬大于不同機(jī)架中機(jī)器之間的網(wǎng)絡(luò)帶寬。NameNode通過(guò)HadoopRackAwareness中設(shè)定每個(gè)DataNode所屬的機(jī)架ID。一個(gè)簡(jiǎn)單但非最優(yōu)的策略是將副本放在唯一的機(jī)架上。這可以防止在整個(gè)機(jī)架出現(xiàn)故障時(shí)丟失數(shù)據(jù),并允許在讀取數(shù)據(jù)時(shí)使用多個(gè)機(jī)架的帶寬。此策略在集群中均勻分布副本,從而可以輕松平衡組件故障時(shí)的負(fù)載。但是,此策略增加了寫(xiě)入成本,因?yàn)閷?xiě)入需要將塊傳輸?shù)蕉鄠€(gè)機(jī)架。任務(wù)4.1認(rèn)識(shí)HDFS4.1.2HDFS讀寫(xiě)文件流程
NameNode做出有關(guān)塊復(fù)制的所有決定。它會(huì)定期從集群中的每個(gè)DataNode接收Heartbeat和Blockreport。收到心跳意味著DataNode運(yùn)行正常。Blockreport包含DataNode上所有塊的列表。大文件被切割成小文件,使用分而治之的思想讓很多服務(wù)器對(duì)同一個(gè)文件進(jìn)行聯(lián)合管理。每個(gè)小文件做冗余備份,并且分散存到不同的服務(wù)器,做到高可靠不丟失。任務(wù)4.1認(rèn)識(shí)HDFS4.1.2HDFS讀寫(xiě)文件流程1.HDFS數(shù)據(jù)寫(xiě)入流程任務(wù)4.1認(rèn)識(shí)HDFS4.1.2HDFS讀寫(xiě)文件流程1.HDFS數(shù)據(jù)讀取流程任務(wù)4.1認(rèn)識(shí)HDFS4.1.3HDFS特點(diǎn)HDFS特點(diǎn)(1)硬件故障是常態(tài)(2)流數(shù)據(jù)訪問(wèn)(3)大數(shù)據(jù)集(4)簡(jiǎn)單的一致性模型(5)移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更劃算(6)跨異構(gòu)硬件和軟件平臺(tái)的可移植性任務(wù)4.1認(rèn)識(shí)HDFS4.1.3HDFS特點(diǎn)
有些場(chǎng)景不適合使用HDFS來(lái)存儲(chǔ)數(shù)據(jù),比如如下場(chǎng)景:(1)低延時(shí)的數(shù)據(jù)訪問(wèn)
對(duì)延時(shí)要求在毫秒級(jí)別的應(yīng)用,不適合采用HDFS。HDFS是為高吞吐數(shù)據(jù)傳輸設(shè)計(jì)的,因此可能犧牲延時(shí),HBase更適合低延時(shí)的數(shù)據(jù)訪問(wèn)。(2)大量小文件
文件的元數(shù)據(jù)(如目錄結(jié)構(gòu),文件block的節(jié)點(diǎn)列表,block-nodemapping)保存在NameNode的內(nèi)存中,整個(gè)文件系統(tǒng)的文件數(shù)量會(huì)受限于NameNode的內(nèi)存大小。
經(jīng)驗(yàn)而言,一個(gè)文件/目錄/文件塊一般占有150字節(jié)的元數(shù)據(jù)內(nèi)存空間。如果有100萬(wàn)個(gè)文件,每個(gè)文件占用1個(gè)文件塊,則需要大約300M的內(nèi)存。因此十億級(jí)別的文件數(shù)量在現(xiàn)有商用機(jī)器上難以支持。(3)多方讀寫(xiě),需要任意修改文件
HDFS采用追
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 七夕節(jié)活動(dòng)方案 (15篇)
- 《綠野仙蹤》讀后感集合15篇
- 綠色制造工藝改造項(xiàng)目可行性研究報(bào)告
- 空調(diào)與照明系統(tǒng)優(yōu)化在標(biāo)準(zhǔn)廠房節(jié)能中的作用
- 海洋科技創(chuàng)新的路徑與行動(dòng)計(jì)劃
- 光伏電站光伏區(qū)技改項(xiàng)目可行性研究報(bào)告
- 工業(yè)遺產(chǎn)活化利用項(xiàng)目可行性研究報(bào)告
- 高效能電機(jī)研發(fā)項(xiàng)目可行性研究報(bào)告
- 家庭對(duì)學(xué)生心理健康教育
- 新疆維吾爾自治區(qū)塔城地區(qū)烏蘇市第一中學(xué)2022-2023學(xué)年高一下學(xué)期3月月考政治 含解析
- 陽(yáng)光心理-健康人生小學(xué)生心理健康主題班會(huì)課件
- 樂(lè)理知識(shí)考試題庫(kù)130題(含答案)
- 2023年廣東廣州中考滿分作文《一樣的舞臺(tái)不一樣的我》
- 2024-2030年中國(guó)商用顯示產(chǎn)業(yè)投資策略及發(fā)展規(guī)劃建議研究研究報(bào)告
- 2024年共青團(tuán)入團(tuán)積極分子團(tuán)校結(jié)業(yè)考試試題庫(kù)及答案
- 小學(xué)五年級(jí)數(shù)學(xué)奧林匹克競(jìng)賽試卷及答案
- 中西文化鑒賞智慧樹(shù)知到答案2024年鄭州大學(xué)
- 人教PEP版英語(yǔ)六上Unit 5《What does he do》(B Let's learn)說(shuō)課稿
- DL∕T 5494-2014 電力工程場(chǎng)地地震安全性評(píng)價(jià)規(guī)程
- DL∕T 1630-2016 氣體絕緣金屬封閉開(kāi)關(guān)設(shè)備局部放電特高頻檢測(cè)技術(shù)規(guī)范
- 實(shí)驗(yàn)室可靠性測(cè)試計(jì)劃表
評(píng)論
0/150
提交評(píng)論