hadoop作業(yè)調(diào)優(yōu)參數(shù)及原理_第1頁
hadoop作業(yè)調(diào)優(yōu)參數(shù)及原理_第2頁
hadoop作業(yè)調(diào)優(yōu)參數(shù)及原理_第3頁
hadoop作業(yè)調(diào)優(yōu)參數(shù)及原理_第4頁
hadoop作業(yè)調(diào)優(yōu)參數(shù)及原理_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余22頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺●●●●hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及 ment1(第1/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺 較復(fù)雜,并且利用到了內(nèi)存buffer來進(jìn)行已經(jīng)產(chǎn)生的部分結(jié)果的緩存,并在內(nèi)存buffer中進(jìn)行一些預(yù)排序來化整個(gè)a的性能。如上圖所示,每一個(gè)a都會(huì)對應(yīng)存在一個(gè)內(nèi)存(aOBfer,即上圖的rino),a會(huì)將已經(jīng)產(chǎn)生的部分結(jié)果先寫入到該中,這個(gè)默認(rèn)是100B大小,但是這個(gè)大小是可以根據(jù)jo提交時(shí)的參數(shù)設(shè)定來調(diào)整的,該參數(shù)即為:ismb。當(dāng)a的產(chǎn)生數(shù)據(jù)非常大時(shí),并且把ioso.調(diào)大,那么a在整個(gè)計(jì)算過程中sil的次數(shù)就勢必會(huì)降低,apsk對磁盤的操作就會(huì)變少,如果apsks的瓶頸在磁盤上,這樣調(diào)整就會(huì)大大提高a的計(jì)算性能。a做sot和sil的內(nèi)存結(jié)構(gòu)如下如所示: ment1(第2/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺存下來,當(dāng)a輸出超出一定閾值比如100M那么a就必須將該er個(gè)過程在ardue中叫做spil。ap并不是要等到將該r全部寫滿時(shí)才進(jìn)行spil,因?yàn)槿绻繉憹M了再去寫sill,勢必會(huì)造成a的計(jì)算部分等待b釋放空間的情況。所以,a其實(shí)是當(dāng)被寫滿到一定程度(比如80)siljo.een0.80或80%slapsk運(yùn)行周期對磁盤的os.當(dāng) 的輸出結(jié)果。a在正常退出之前,需要將這些sil合并()成一個(gè),所以a在結(jié)束之前還有一個(gè)的過程。is。該參數(shù)默認(rèn)為10。它表示當(dāng)esill文件時(shí),最多能有多少并行的s向文件中寫入。比如如果a產(chǎn)生的數(shù)據(jù)非常的大,產(chǎn)生的spil文件大于10,而i.so.aor使用的是默認(rèn)的10,那么當(dāng)a計(jì)算完成做時(shí),就沒有辦法一次將所有的sil文件成一個(gè),而是會(huì)分多次,每次最多10個(gè)sa。這也就 ment1(第3/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺 指定 biner的時(shí)候,我們都知 介紹后會(huì) 端根 biner定義的函數(shù)將map結(jié)果進(jìn)合并。運(yùn)行oi函數(shù)的時(shí)機(jī)有可會(huì)是完成之前,或者之,這個(gè)時(shí)機(jī)可以由一個(gè)參數(shù)控制,即in biealt3),當(dāng) 中設(shè)定了 ir并且sill數(shù)最少3個(gè)的時(shí)候,oi函數(shù)就會(huì)在產(chǎn)生結(jié)果文件之前運(yùn)行。通過這樣的方式,就可以在spil非常多需要,并且很多數(shù)據(jù)需要做oi的時(shí)候,減少寫入到磁盤文件的數(shù)據(jù)數(shù)量,同樣是為了減少對磁盤的讀寫頻率,有可能達(dá)到優(yōu)化業(yè)目的。a的中間,無論是sil的時(shí)候,還是最后產(chǎn)生的結(jié)果文件,都是可以壓縮的。壓縮的好處在于,通過壓縮減少寫入讀出磁盤的數(shù)據(jù)量。對中間結(jié)果非常大,磁盤速度成為a執(zhí)行瓶頸的jo,尤其有用。控制a中間結(jié)果是否使用壓縮的參數(shù)為 press.map.output(true/false)。將這個(gè)參數(shù)設(shè)置為true時(shí),那么map會(huì)將數(shù)據(jù)壓縮后再寫入磁盤,讀結(jié)果時(shí)也會(huì)采用先解壓后數(shù)據(jù)。這樣做的就是:寫入磁盤的中間結(jié) 在,而是在磁盤的讀寫的情況。說的直白一些就是用換IO都不是oot中間結(jié)果采用壓縮和不采用壓縮產(chǎn)生的a中間結(jié)果本地磁盤讀寫的數(shù)據(jù)量對比: ment1(第4/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺當(dāng)采用a中間結(jié)果壓縮的情況下,用戶還可以選擇壓縮時(shí)采用哪種壓縮格式進(jìn)行壓縮,現(xiàn)在aoo支持的壓縮格式有zio,Lzoo,Bi2o,Lzaoe等壓縮格式。通常來說,想要達(dá)到比較平衡的和磁盤壓縮比,Lzoo比較適合。但也要取決于jo的具體情況。用戶若想要自行選擇中間結(jié)果的壓縮算法,可以設(shè)置配參數(shù)p e.oss.alo或者其用戶行選的壓方式。Mapside選 類 默認(rèn) 描

大小(inMB)mapoutput ment1(第5/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺

map開始做merge

運(yùn)行的spill

class

compress.DefaultCodec將數(shù)據(jù)分成 ment1(第6/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺開始嘗試從完成的map中該reduce對應(yīng)的partition部分?jǐn)?shù)據(jù)。這個(gè)過程就是通常所說的shuffle,也就是Reducetask在做shuffle時(shí),實(shí)際上就是從不同的已經(jīng)完成的map上去屬于自己這個(gè)reduce 可以調(diào)整的,調(diào)整參數(shù)為:mapred.reduce.parallel.copies(default5)。默認(rèn)情況下,每個(gè)只會(huì)有5個(gè) reduce的每一個(gè)線程在某個(gè)map數(shù)據(jù)的時(shí)候,有可能因?yàn)槟莻€(gè)map中間結(jié)果所在機(jī)器發(fā)生錯(cuò)誤,或者中間結(jié)果的文件丟失,或者網(wǎng)絡(luò)瞬斷等等情況,這樣reduce的就有可能失敗,所以reduce的線程并不會(huì)無休止的等待下去,當(dāng)一定時(shí)間后仍然失敗,那么線程就會(huì)放棄這次,并在隨后嘗試從另外的地方(因?yàn)檫@段時(shí)間map可能重跑)。所以reduce線程的這個(gè)最大的時(shí)間段是可以調(diào)整的,調(diào)整參數(shù)為:mapred.reduce.copy.backoff(default300秒)。如果集群環(huán)境的網(wǎng)絡(luò)本身是瓶頸,那么用戶可以通過調(diào)大這個(gè)參數(shù)來避免reduce線程被誤判為失敗的情況。不過在網(wǎng)絡(luò)環(huán)境比較好的情況下,沒有必要調(diào)整。通常來說專業(yè)的集群網(wǎng)絡(luò)不應(yīng)該有太大問題,所以這個(gè)參數(shù)需要調(diào)整的情況不多。R將a結(jié)果 到本地時(shí),同樣也是需要進(jìn)行的,所以o.o.aor的配置選項(xiàng)同樣會(huì)影響進(jìn)行時(shí)的行為,該參數(shù)的詳細(xì)介紹上文已經(jīng)提到,當(dāng)發(fā)現(xiàn)在sle階段ioait非常的高的時(shí)候,就有可能通過調(diào)大這個(gè)參數(shù)來加大一次時(shí)的并發(fā)吞吐優(yōu)效率。R在sl階段對 來的a數(shù)據(jù),并不是立刻就寫入磁盤,而是會(huì)先緩存在內(nèi)存中,然后當(dāng)使用內(nèi)存達(dá)到一定量時(shí)才入盤。這個(gè)內(nèi)存大小的控制就不像a一樣可以通過i.s.來設(shè)定了,而置:ebleibeeenalt 0.7實(shí)是一個(gè)百分比,意思是,si在內(nèi)存的數(shù)最多用內(nèi)量為0.7×axpofesk。也就是說,如果該esk的最大使用量(通通過a.i.jaa.s來置,如置為x1024)的一定比例用緩存據(jù)。認(rèn)情,會(huì)使其sze70在內(nèi)中緩存 ment1(第7/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺假設(shè)mapred.job.shuffle.input.buffer.percent為0.7,reducetask的maxheapsize為1G,那么用來做 的,而是當(dāng)這700中被使用到了一定的限度(通常是一個(gè)百分比),就會(huì)開始往磁盤刷。這個(gè)限度閾值也是可以通過jo參數(shù)來設(shè)定的,設(shè)定參數(shù)為:mae.ob.shule.mee.en(dalt0.66)。如果e的性能有所幫助。 的)。當(dāng)es真正進(jìn)入函數(shù)的計(jì)算階段時(shí),有一個(gè)參數(shù)也是可以調(diào)的計(jì)算行。也就是:mae.ob.euinu.bufer.pern(ealt0.0)。由于e計(jì)算時(shí)肯定也是需消耗內(nèi)存的,而在 需要的數(shù)據(jù),同樣是需要內(nèi)存作,這個(gè)參數(shù)是控制,需要多少的內(nèi)存百分比來作為讀已經(jīng)so好的數(shù)據(jù)的百分比。默認(rèn)情況下為0也就是說,默認(rèn)情況e是全部從磁盤開讀理據(jù)。如果這個(gè)參數(shù)大于0,那么就會(huì)有一定量的數(shù)據(jù)被緩存在內(nèi)存并輸送給,當(dāng)計(jì)算邏輯消耗內(nèi)存很小時(shí),可以分一部分內(nèi)存用來緩存數(shù)據(jù),反正的內(nèi)存閑著也是閑著。2.2Reduceside選 類 描 map結(jié)果的 (in ment1(第8/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺

taskheap百分比

緩存的內(nèi)存中多少百分比后開

guili|hadoop,云計(jì)算|Comments(28adebug一月20,20117:59下 這個(gè)很久之前在30臺的集群上測試過,由于一開始跑不滿網(wǎng)絡(luò),只能到10M左右,每次sfle都特別慢,因此改進(jìn)了這個(gè)功能,直接單機(jī)網(wǎng)絡(luò)打滿,可見這里也是有可改進(jìn)的地方的,但是對于大規(guī)模的環(huán)境下時(shí),由于瓶頸已經(jīng)不在網(wǎng)絡(luò)上,往往是在o下,因此這個(gè)不是特別有效。rqetqr一月20,20118:59下 ment1(第9/27頁)[2012/9/4數(shù)據(jù)平臺hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理數(shù)據(jù)平臺gaoyang一月20,20119:29下Shen一月21,20119:36上>>所以,為了優(yōu)化reduce的執(zhí)行時(shí)間,hadoop中是等job的第一個(gè)map結(jié)束后,所有的reduce 這句話不對,實(shí)際上來說Reduce階段是等Job已完成5%的Maptasks數(shù)量之後才開始啟動(dòng)Reduce,此參數(shù)為 guili一月21,201110:08上@Shen我們的hadoop版本里沒有引入slowstart這個(gè)功能,所以…… ment1(第10/27頁)[2012/9/4數(shù)據(jù)平臺hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理數(shù)據(jù)平臺Shen一月21,201110:46上哦哦!是採用0.19guili一月21,201111:03上@Shen從08年開始基于0.19.1一月22,201111:52下 感 經(jīng) ment1(第11/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺guili一月25,20117:02一月25,2011guili一月25,20117:02一月25,20119:59上Raymond一月26,201110:36 @panfei這個(gè)說起來會(huì)很長,我們Raymond一月26,201110:36guili一月27,20119:09上 guili一月27,20119:09上 @Raymond多謝關(guān)注,我們會(huì)持 ment1(第12/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺yfan一月28,20119:53Roger二月2,20115:56下請問可guili二月10,201110:05 ment1(第13/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺三月16,201111:18下說的很好很全面,比definitiveguide講的還透徹,做performancetuning推薦一個(gè)工具ganglia,用于cluster的cpu,mem,networkio等指標(biāo),逐一把硬件資源吃慢就tune到極限了;-)guili三月17,20113:57下@ 另外,ganglia我們從使用hadoop的第一天就在使用,還做了很多改造。內(nèi)部我們不叫g(shù)anglia,都稱它為“裂DennyYe四月1,201111:29上 開啟這種MemToMemmerge模式是將mapreduce.reduce.merge.memtomem.enabled設(shè)置為true。當(dāng) ment1(第14/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺0.99,最大化地利用端的內(nèi)存來做。最后在做過一些內(nèi)存間的后,你希望有多少內(nèi)存來存儲的輸入數(shù)據(jù)?a..i..et,這個(gè)比例設(shè)置高些,這個(gè)數(shù)據(jù)設(shè)置的越在我的測試?yán)又?,端的所有處理都是在?nèi)存中發(fā)生,沒有往磁盤寫一點(diǎn)數(shù)據(jù)。流程從最初的接近8分鐘減少到2分鐘,這2分鐘基本就是在拉取數(shù)據(jù),內(nèi)存中是很快的。因?yàn)槲覝y試的初衷是盡量讓磁盤讀寫不要成為瓶頸。對于performancetuningDennyYe四月1,201111:31上還有一個(gè)問題。我不清楚你的這些分析是基于Hadoop靈活,很多時(shí)間沒有將map與reduce的執(zhí)行分開對待。只是個(gè)人感覺guili四月1,20113:47下@Denny ment1(第15/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿里數(shù)據(jù)平臺 HadoopMapReduce|LifeYun九月17,20111:12下[...]10.05pt;mso-layout-grid-align:none;text-autospace:none">1TB排序MapReducehadoop的源碼析hadoop的源碼分析HadoopMapReduce優(yōu)化TuningHadoopbabyyellow十一月22,20114:13下arkilis十一月30,20118:25上請教一下,這個(gè)copy是什么,從哪里到哪里 ment1(第16/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺jijiannan十二月5,201110:12上小e | 不如 ?MapReduce優(yōu)化(一)說道二月11,201211:36下...]這篇博文主要是解決上一篇<迭代式aRedce解決方案(一)>中總結(jié)所提到的第三個(gè)問題,與網(wǎng)上大多數(shù)aoop調(diào)優(yōu)(<董的博客、<淘寶數(shù)據(jù)平臺)不太一樣,網(wǎng)上告訴的是方法,但是方法是什么以及優(yōu)化后能達(dá)到什么效果沒有一個(gè)直觀的感受。這篇博文講述了一些簡單的優(yōu)化 ,可將140M的臨時(shí)文件縮小到4.9,期望能有一些對優(yōu)化一些更為直觀的感受,起到拋磚引玉的作。...]遙方七月16,201210:17下 Jobnotsuccessful.Error:#offailedMapTasksexceededallowed ment1(第17/27頁)[2012/9/4hadoop作業(yè)調(diào)優(yōu)參數(shù)整理及原理-阿 數(shù)據(jù)平臺Niko7八月20,20128:54 八月26,20123:25action呢。那本書比較好,還是直接看

Leave

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論