Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第1頁
Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第2頁
Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第3頁
Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第4頁
Hadoop進(jìn)行分布式數(shù)據(jù)處理第2部分進(jìn)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Hadoop 進(jìn)行分布式數(shù)據(jù)處理,第 2 部分 進(jìn)Hadoop分布式計(jì)算架構(gòu)的真正實(shí)力在于其分布性。換句話說,向工作并行分布多個(gè)節(jié)點(diǎn)的能力使Hadoop能夠應(yīng)用于大型基礎(chǔ)設(shè)施以及大量數(shù)據(jù)的處理。本文首先對(duì)一個(gè)分布式Hadoop架構(gòu)進(jìn)行分解,然后探討分布式配置和使用。分布式Hadoop架構(gòu)根據(jù)用Hadoop進(jìn)行分布式數(shù)據(jù)處理,第1部分:入門,所有Hadoop守護(hù)進(jìn)程都在同一個(gè)主機(jī)上運(yùn)行。盡管不運(yùn)用Hadoop的并行性,這個(gè)偽分布式配置提供一種簡單的方式來以最少的設(shè)置測(cè)試Hadoop的功能?,F(xiàn)在,讓我們使用機(jī)器集群探討一下Hadoop的并行性。根據(jù)第1部分,Hadoop配置定義了讓所有Hadoop

2、守護(hù)進(jìn)程在一個(gè)節(jié)點(diǎn)上運(yùn)行。因此,讓我們首先看一下如何自然分布Hadoop來執(zhí)行并行操作。在一個(gè)分布式Hadoop設(shè)置中,您有一個(gè)主節(jié)點(diǎn)和一些從節(jié)點(diǎn)(見圖1)。圖1.Hadoop主從節(jié)點(diǎn)分解如圖1所示,主節(jié)點(diǎn)包括名稱節(jié)點(diǎn)、從屬名稱節(jié)點(diǎn)和jobtracker守護(hù)進(jìn)程(即所謂的主守護(hù)進(jìn)程)。此外,這是您為本演示管理集群所用的節(jié)點(diǎn)(使用Hadoop實(shí)用程序和瀏覽器)。從節(jié)點(diǎn)包括tasktracker和數(shù)據(jù)節(jié)點(diǎn)(從屬守護(hù)進(jìn)程)。兩種設(shè)置的不同之處在于,主節(jié)點(diǎn)包括提供Hadoop集群管理和協(xié)調(diào)的守護(hù)進(jìn)程,而從節(jié)點(diǎn)包括實(shí)現(xiàn)Hadoop文件系統(tǒng)(HDFS)存儲(chǔ)功能和MapReduce功能(數(shù)據(jù)處理功能)的守護(hù)

3、進(jìn)程。對(duì)于該演示,在一個(gè)LAN上創(chuàng)建一個(gè)主節(jié)點(diǎn)和兩個(gè)從節(jié)點(diǎn)。設(shè)置如圖2所示?,F(xiàn)在,我們來探討用于多節(jié)點(diǎn)分布的Hadoop的安裝和配置。圖2.Hadoop集群配置為簡化部署,要運(yùn)用虛擬化技術(shù),該技術(shù)有幾個(gè)好處。盡管在該設(shè)置中使用虛擬化技術(shù)看不出性能優(yōu)勢(shì),但是它可以創(chuàng)建一個(gè)Hadoop安裝,然后為其他節(jié)點(diǎn)克隆該安裝。為此,您的Hadoop集群應(yīng)顯示如下:在一個(gè)主機(jī)上的虛擬機(jī)監(jiān)控程序上下文中將主從節(jié)點(diǎn)作為虛擬機(jī)(VM)運(yùn)行(見圖3)。圖3.虛擬環(huán)境中的Hadoop集群配置回頁首升級(jí)Hadoop在用Hadoop進(jìn)行分布式數(shù)據(jù)處理,第1部分:入門中,我們安裝了在一個(gè)節(jié)點(diǎn)上運(yùn)行的Hadoop的一個(gè)特殊分布

4、(偽配置)。在本文中,我們要更新分布式配置。如果您沒有看過本系列的第1部分,那么請(qǐng)閱讀第1部分,了解如何首先安裝Hadoop偽配置。在偽配置中,您沒有進(jìn)行任何配置,因?yàn)閱蝹€(gè)節(jié)點(diǎn)已經(jīng)過預(yù)先配置。現(xiàn)在,您需要更新配置。首先,使用update-alternatives命令檢查當(dāng)前配置,如清單1所示。該命令告訴您,配置在使用conf.pseudo(最高優(yōu)先級(jí))。清單1.檢查當(dāng)前Hadoop配置$update-alternatives-display hadoop-0.20-conf hadoop-0.20-conf-status is auto.link currently points to/etc

5、/hadoop-0.20/conf.pseudo/etc/hadoop-0.20/conf.empty-priority 10/etc/hadoop-0.20/conf.pseudo-priority 30 Currentbestversion is/etc/hadoop-0.20/conf.pseudo.$下一步,通過復(fù)制現(xiàn)有配置(本例中為conf.empty,如清單1所示)創(chuàng)建一個(gè)新配置:$sudo cp-r/etc/hadoop-0.20/conf.empty/etc/hadoop-0.20/conf.dist$最后,激活并檢查新配置:清單2.激活并檢查Hadoop配置$sudo upd

6、ate-alternatives-install/etc/hadoop-0.20/conf hadoop-0.20-conf/etc/hadoop-0.20/conf.dist 40$update-alternatives-display hadoop-0.20-conf hadoop-0.20-conf-status is auto.link currently points to/etc/hadoop-0.20/conf.dist/etc/hadoop-0.20/conf.empty-priority 10/etc/hadoop-0.20/conf.pseudo-priority 30/e

7、tc/hadoop-0.20/conf.dist-priority 40 Currentbestversion is/etc/hadoop-0.20/conf.dist.$現(xiàn)在,您有一個(gè)名為conf.dist的新配置,您要將其用于您的新分布式配置。此時(shí)該節(jié)點(diǎn)運(yùn)行于一個(gè)虛擬環(huán)境中,將該節(jié)點(diǎn)克隆到另外兩個(gè)要充當(dāng)數(shù)據(jù)節(jié)點(diǎn)的節(jié)點(diǎn)中?;仨撌着渲肏adoop以實(shí)現(xiàn)分布式操作下一步是要使所有節(jié)點(diǎn)互聯(lián)互通。這可以/etc/hadoop-0.20/conf.dist/中的兩個(gè)名為masters和slaves的文件中實(shí)現(xiàn)。本例中的三個(gè)節(jié)點(diǎn)的IP地址是靜態(tài)分配的,如清單3所示(來自/etc/hosts):清單3.該

8、設(shè)置的Hadoop節(jié)點(diǎn)(/etc/hosts)master 33 slave1 34 slave2 35因此,在主節(jié)點(diǎn)上,更新/etc/hadoop-0.20/conf.dist/masters來確定主節(jié)點(diǎn),如下所示:master然后在/etc/hadoop-0.20/conf.dist/slaves中確定從節(jié)點(diǎn),其中包括以下兩行:slave1 slave2接下來,從每個(gè)節(jié)點(diǎn)上,將Secure Shell(ssh)連接到所有其他節(jié)點(diǎn),確保pass-phraseless ssh在運(yùn)行。所有這些文件(masters,sl

9、aves)都由本系列第1部分中使用過的Hadoop啟動(dòng)和停止工具使用。下一步,在/etc/hadoop-0.20/conf.dist子目錄中繼續(xù)進(jìn)行Hadoop配置。以下變更需要應(yīng)用于所有節(jié)點(diǎn)(主節(jié)點(diǎn)和從節(jié)點(diǎn)),如同Hadoop文檔中所定義的。首先,在core-site.xml文件(清單4)中確定HDFS主節(jié)點(diǎn),它定義名稱節(jié)點(diǎn)的主機(jī)和端口(注意主節(jié)點(diǎn)的IP地址的使用)。core-site.xml文件定義Hadoop的核心屬性。清單4.在core-site.xml中定義HDFS主節(jié)點(diǎn)configuration property name name value hd

10、fs:/master:54310 value description The name and URI of the default FS./description property configuration下一步,確認(rèn)MapReduce jobtracker。jobtracker位于其自己的節(jié)點(diǎn)上,但對(duì)于本配置,將其放在主節(jié)點(diǎn)上,如清單5所示。mapred-site.xml文件包含MapReduce屬性。清單5.在mapred-site.xml中定義MapReduce jobtracker configuration property name mapred.job.tracker nam

11、e value master:54311 value description Map Reduce jobtracker description property configuration最后,定義默認(rèn)復(fù)制因子(清單6)。該值定義將創(chuàng)建的副本數(shù),一般小于3。在本例中,將其定義為2(數(shù)據(jù)節(jié)點(diǎn)的數(shù)量)。該值在包含HDFS屬性的hdfs-site.xml中定義。清單6.在hdfs-site.xml中定義默認(rèn)數(shù)據(jù)副本configuration property name dfs.replication name value 2value description Default block repli

12、cation description property configuration配置項(xiàng)如清單4所示,分布式設(shè)置所需的元素見清單5和清單6。Hadoop在這里提供大量配置選項(xiàng),支持您按需定制整個(gè)環(huán)境。參考資料部分含有關(guān)于這些選項(xiàng)的更多信息。完成配置之后,下一步是要格式化名稱節(jié)點(diǎn)(HDFS主節(jié)點(diǎn))。對(duì)于該操作,使用hadoop-0.20實(shí)用程序指定名稱節(jié)點(diǎn)和操作(-format):清單7.格式化名稱節(jié)點(diǎn)usermaster:#sudo su-rootmaster:#hadoop-0.20 namenode-format 10/05/11 18:39:58 INFO namenode.NameNo

13、de:STARTUP_MSG:/*STARTUP_MSG:Starting NameNode STARTUP_MSG:host=master/ STARTUP_MSG:args=-formatSTARTUP_MSG:version=0.20.2+228 STARTUP_MSG:build=-r cfc3233ece0769b11af9add 328261295aaf4d1ad;*/10/05/11 18:39:59 INFO namenode.FSNamesystem:fsOwner=root,root 10/05/11 18:39:59 INFO namenode.FSNa

14、mesystem:supergroup=supergroup 10/05/11 18:39:59 INFO namenode.FSNamesystem:isPermissionEnabled=true 10/05/11 18:39:59 INFO common.Storage:Image size 94 saved in 0seconds.10/05/11 18:39:59 INFO common.Storage:Storage directory/tmp/hadoop-root/dfs/name has been successfully formatted.10/05/11 18:39:5

15、9 INFO namenode.NameNode:SHUTDOWN_MSG:/*SHUTDOWN_MSG:Shutting down NameNode at master/*/rootmaster:#格式化名稱節(jié)點(diǎn)之后,就可以啟動(dòng)Hadoop守護(hù)進(jìn)程了??梢詫?duì)第1部分中的偽分布式配置執(zhí)行同樣的操作,但進(jìn)程為分布式配置完成同樣的工作。注意,這里的代碼啟動(dòng)名稱節(jié)點(diǎn)和從屬名稱節(jié)點(diǎn)(正如jps命令所指示):清單8.啟動(dòng)名稱節(jié)點(diǎn)rootmaster:#/usr/lib/hadoop-0.20/bin/start-dfs.sh starting namenode,logging to/u

16、sr/lib/hadoop-0.20/bin/./logs/hadoop-root-namenode-mtj-desktop.out 35:starting datanode,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-datanode-mtj-desktop.out 34:starting datanode,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-datanode-mtj-desktop.out 192.168

17、.108.133:starting secondarynamenode,logging to/usr/lib/hadoop-0.20/logs/hadoop-root-secondarynamenode-mtj-desktop.out rootmaster:#jps 7367 NameNode 7618 Jps 7522 SecondaryNameNode rootmaster:#現(xiàn)在,如果使用jps節(jié)點(diǎn)檢測(cè)其中一個(gè)從節(jié)點(diǎn)(數(shù)據(jù)節(jié)點(diǎn)),您會(huì)看到每個(gè)節(jié)點(diǎn)上都有一個(gè)數(shù)據(jù)節(jié)點(diǎn)守護(hù)進(jìn)程:清單9.檢測(cè)其中一個(gè)從節(jié)點(diǎn)上的數(shù)據(jù)節(jié)點(diǎn)rootslave1:#jps 10562 Jps 10451 DataNod

18、e rootslave1:#下一步是要啟動(dòng)MapReduce守護(hù)進(jìn)程(jobtracker和tasktracker)。如清單10所示執(zhí)行該操作。注意,腳本啟動(dòng)主節(jié)點(diǎn)上的jobtracker(正如配置所定義的;參見清單5)和每個(gè)從節(jié)點(diǎn)上的tasktrackers。主節(jié)點(diǎn)上的一個(gè)jps命令顯示jobtracker正在運(yùn)行。清單10.啟動(dòng)MapReduce守護(hù)進(jìn)程rootmaster:#/usr/lib/hadoop-0.20/bin/start-mapred.sh starting jobtracker,logging to/usr/lib/hadoop-0.20/logs/hadoop-root

19、-jobtracker-mtj-desktop.out 34:starting tasktracker,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-tasktracker-mtj-desktop.out 35:starting tasktracker,logging to/usr/lib/hadoop-0.20/bin/./logs/hadoop-root-tasktracker-mtj-desktop.out rootmaster:#jps 7367 NameNode 7842

20、 JobTracker 7938 Jps 7522 SecondaryNameNode rootmaster:#最后,使用jps檢查一個(gè)從節(jié)點(diǎn)。這里您可以看到,一個(gè)tasktracker守護(hù)進(jìn)程將數(shù)據(jù)節(jié)點(diǎn)守護(hù)進(jìn)程聯(lián)接到每個(gè)從數(shù)據(jù)節(jié)點(diǎn)上:清單11.檢測(cè)其中一個(gè)從節(jié)點(diǎn)上的數(shù)據(jù)節(jié)點(diǎn)rootslave1:#jps 7785 DataNode 8114 Jps 7991 TaskTracker rootslave1:#啟動(dòng)腳本、節(jié)點(diǎn)和啟動(dòng)的守護(hù)進(jìn)程之間的關(guān)系如圖4所示。如您所見,start-dfs腳本啟動(dòng)名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn),而start-mapred腳本啟動(dòng)jobtracker和tasktrackers

21、。圖4.每個(gè)節(jié)點(diǎn)的啟動(dòng)腳本和守護(hù)進(jìn)程的關(guān)系回頁首測(cè)試HDFS既然Hadoop已經(jīng)開始在整個(gè)集群中運(yùn)行了,您可以運(yùn)行一些測(cè)試來確保其正常運(yùn)作(見清單12)。首先,通過hadoop-0.20實(shí)用程序發(fā)出一個(gè)文件系統(tǒng)命令(fs),并請(qǐng)求一個(gè)df(disk free)操作。與在Linux®;中一樣,該命令僅確定特定設(shè)備的已用空間和可用空間。因此,對(duì)于新格式化的文件系統(tǒng),就沒有已用空間。下一步,在HDFS的根上執(zhí)行一個(gè)ls操作,創(chuàng)建一個(gè)子目錄,列出其內(nèi)容,并刪除它。最后,在hadoop-0.20實(shí)用程序內(nèi),您可以使用fsck命令在HDFS上執(zhí)行一個(gè)fsck(文件系統(tǒng)檢查)。這一切-以及各種其他信

22、息(比如檢測(cè)到兩個(gè)數(shù)據(jù)節(jié)點(diǎn))-都告訴您文件系統(tǒng)是正常的。清單12.檢查HDFS rootmaster:#hadoop-0.20 fs-df Size Used Avail Use%/16078839808 73728 3490967552 0%rootmaster:#hadoop-0.20 fs-ls/Found 1items drwxr-xr-x-root supergroup 02010-05-12 12:16/tmp rootmaster:#hadoop-0.20 fs-mkdir test rootmaster:#hadoop-0.20 fs-ls test rootmaster:#h

23、adoop-0.20 fs-rmr test Deleted hdfs:/33:54310/user/root/test rootmaster:#hadoop-0.20 fsck/.Status:HEALTHY Total size:4 BTotal dirs:6 Total files:1 Total blocks(validated):1(avg.block size 4B)Minimally replicated blocks:1(100.0%)Over-replicated blocks:0(0.0%)Under-replicated blocks:0(0.0

24、%)Mis-replicated blocks:0(0.0%)Default replication factor:2 Average block replication:2.0 Corrupt blocks:0 Missing replicas:0(0.0%)Number of data-nodes:2 Number of racks:1 The under path/is HEALTHY rootmaster:#回頁首執(zhí)行一個(gè)MapReduce作業(yè)下一步是執(zhí)行一個(gè)MapReduce作業(yè),以驗(yàn)證整個(gè)設(shè)置運(yùn)作正常(見清單13)。該進(jìn)程的第一步是要引入一些數(shù)據(jù)。因此,首先創(chuàng)建一個(gè)目錄來容納您的輸

25、入數(shù)據(jù)(稱為input),創(chuàng)建方式是使用hadoop-0.20實(shí)用程序的mkdir命令。然后,使用hadoop-0.20的put命令將兩個(gè)文件放到HDFS中。您可以使用Hadoop實(shí)用程序的ls命令檢查輸入目錄的內(nèi)容。清單13.生成輸入數(shù)據(jù)rootmaster:#hadoop-0.20 fs-mkdir input rootmaster:#hadoop-0.20 fs-put/usr/src/linux-source-2.6.27/Doc*/memory-barriers.txt input rootmaster:#hadoop-0.20 fs-put/usr/src/linux-source

26、-2.6.27/Doc*/rt-mutex-design.txt input rootmaster:#hadoop-0.20 fs-ls input Found 2items-rw-r-r-2 root supergroup 78031 2010-05-12 14:16/user/root/input/memory-barriers.txt-rw-r-r-2 root supergroup 33567 2010-05-12 14:16/user/root/input/rt-mutex-design.txt rootmaster:#下一步,啟動(dòng)wordcount MapReduce作業(yè)。與在偽分

27、布式模型中一樣,指定輸入子目錄(包含輸入文件)和輸出目錄(不存在,但會(huì)由名稱節(jié)點(diǎn)創(chuàng)建并用結(jié)果數(shù)據(jù)填充):清單14.在集群上運(yùn)行MapReduce wordcount作業(yè)rootmaster:#hadoop-0.20 jar/usr/lib/hadoop-0.20/hadoop-0.20.2+228-examples.jar wordcount input output 10/05/12 19:04:37 INFO input.:Total input paths to process:2 10/05/12 19:04:38 INFO mapred.JobClient:Running job:j

28、ob_ 2_0001 10/05/12 19:04:39 INFO mapred.JobClient:map 0%reduce 0%10/05/12 19:04:59 INFO mapred.JobClient:map 50%reduce 0%10/05/12 19:05:08 INFO mapred.JobClient:map 100%reduce 16%10/05/12 19:05:17 INFO mapred.JobClient:map 100%reduce 100%10/05/12 19:05:19 INFO mapred.JobClient:Job complete:job_ 2_0

29、001 10/05/12 19:05:19 INFO mapred.JobClient:Counters:17 10/05/12 19:05:19 INFO mapred.JobClient:Job Counters 10/05/12 19:05:19 INFO mapred.JobClient:Launched reduce tasks=1 10/05/12 19:05:19 INFO mapred.JobClient:Launched map tasks=2 10/05/12 19:05:19 INFO mapred.JobClient:Data-local map tasks=2 10/

30、05/12 19:05:19 INFO mapred.Job Client: 10/05/12 19:05:19 INFO mapred.JobClient: 10/05/12 19:05:19 INFO mapred.JobClient:HDFS_BYTES_READ=111598 10/05/12 19:05:19 INFO mapred.JobClient: 10/05/12 19:05:19 INFO mapred.JobClient:HDFS_BYTES_WRITTEN=30949 10/05/12 19:05:19 INFO mapred.JobClient:Map-Reduce

31、Framework 10/05/12 19:05:19 INFO mapred.JobClient:Reduce input groups=2974 10/05/12 19:05:19 INFO mapred.JobClient:Combine output records=3381 10/05/12 19:05:19 INFO mapred.JobClient:Map input records=2937 10/05/12 19:05:19 INFO mapred.JobClient:Reduce shuffle bytes=47562 10/05/12 19:05:19 INFO mapr

32、ed.JobClient:Reduce output records=2974 10/05/12 19:05:19 INFO mapred.JobClient:Spilled Records=6762 10/05/12 19:05:19 INFO mapred.JobClient:Map output bytes=168718 10/05/12 19:05:19 INFO mapred.JobClient:Combine input records=17457 10/05/12 19:05:19 INFO mapred.JobClient:Map output records=17457 10

33、/05/12 19:05:19 INFO mapred.JobClient:Reduce input records=33 81 rootmaster:#最后一步是探索輸出數(shù)據(jù)。由于您運(yùn)行了wordcount MapReduce作業(yè),結(jié)果是一個(gè)文件(從已處理映射文件縮減而來)。該文件包含一個(gè)元組列表,表示輸入文件中找到的單詞和它們?cè)谒休斎胛募谐霈F(xiàn)的次數(shù):清單15.檢測(cè)MapReduce作業(yè)的輸出rootmaster:#hadoop-0.20 fs-ls output Found 2items drwxr-xr-x-root supergroup 02010-05-12 19:04/user

34、/root/output/_logs-rw-r-r-2 root supergroup 30949 2010-05-12 19:05/user/root/output/part-r-00000 rootmaster:#hadoop-0.20 fs-cat output/part-r-00000|head-13!=1Atomic 2Cache 2Control 1Examples 1Has 7Inter-CPU 1LOAD 1LOCK1Locking 1Locks 1MMIO 1Pending 5rootmaster:#回頁首Web管理界面盡管hadoop-0.20實(shí)用程序的功能極其豐富,但有時(shí)

35、使用一個(gè)GUI會(huì)更方便。在執(zhí)行文件系統(tǒng)檢測(cè)時(shí),您可以通過鏈接到名稱節(jié)點(diǎn),通過連接到j(luò)obtracker。您可以通過名稱節(jié)點(diǎn)檢測(cè)HDFS,如圖5所示,在這里您檢測(cè)輸入目錄(包含輸入數(shù)據(jù)-見上面清單13)。圖5.通過名稱節(jié)點(diǎn)檢測(cè)HDFS通過jobtracker,您可以檢測(cè)運(yùn)行中或已完成的作業(yè)。在圖6中,您可以看到對(duì)最后一個(gè)作業(yè)的檢測(cè)(來自清單14)。該圖展示了作為Java存檔(JAR)請(qǐng)求的輸出發(fā)出的各種數(shù)據(jù),以及任務(wù)的狀態(tài)和數(shù)量。注意,這里執(zhí)行了兩個(gè)映射任務(wù)(每個(gè)輸入文件一個(gè)映射)和一個(gè)縮減任務(wù)(用于縮減兩個(gè)映射輸入)。圖6.檢查一個(gè)已完成作業(yè)的狀態(tài)最后,您可以通過名稱節(jié)點(diǎn)檢查數(shù)據(jù)節(jié)點(diǎn)的狀態(tài)。名

36、稱節(jié)點(diǎn)主頁確定活動(dòng)節(jié)點(diǎn)和死節(jié)點(diǎn)(作為鏈接)的數(shù)量,且允許您進(jìn)一步檢測(cè)它們。圖7所示的頁面顯示了活動(dòng)數(shù)據(jù)節(jié)點(diǎn)以及每個(gè)節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)。圖7.檢查活動(dòng)數(shù)據(jù)節(jié)點(diǎn)的狀態(tài)通過名稱節(jié)點(diǎn)和jobtracker Web界面,可以查看許多其他視圖,但出于簡潔,只顯示該樣例集。在名稱節(jié)點(diǎn)和jobtracker Web頁面內(nèi),您會(huì)找到大量鏈接,從而引導(dǎo)您獲取有關(guān)Hadoop配置和操作的其他信息(包括運(yùn)行時(shí)日志)?;仨撌赘M(jìn)一步在本期中,您了解了如何將一個(gè)偽分布式配置從Cloudera轉(zhuǎn)化為一個(gè)完全分布式配置。寥寥無幾的步驟以及MapReduce應(yīng)用程序的一個(gè)相同接口,就使Hadoop成為一個(gè)能實(shí)現(xiàn)分布式處理的有用工具。另一個(gè)有趣的部分就是Hadoop的可伸縮性探討。通過添加新數(shù)據(jù)節(jié)點(diǎn)(并更新其XML文件和master中的slave文件),您可以輕松伸縮Hadoop來進(jìn)行更高級(jí)別的平行處理。第3部分,也就是本Hadoop系列的最后一期,將探討如何為Hadoop開發(fā)一個(gè)MapReduce應(yīng)用程序。參考資料學(xué)習(xí)本系列的第1部分,用Hadoop進(jìn)行分布式數(shù)據(jù)處理,第1部分:入門(developerWorks,2010年5月)向您展示了如何為實(shí)現(xiàn)偽分布式配置而安裝Hadoop(即在一個(gè)節(jié)點(diǎn)上運(yùn)行所有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論