數(shù)據(jù)傾斜的原因_第1頁(yè)
數(shù)據(jù)傾斜的原因_第2頁(yè)
數(shù)據(jù)傾斜的原因_第3頁(yè)
數(shù)據(jù)傾斜的原因_第4頁(yè)
數(shù)據(jù)傾斜的原因_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)傾斜的原因2學(xué)習(xí)任務(wù)了解何為數(shù)據(jù)傾斜數(shù)據(jù)傾斜解決方案數(shù)據(jù)傾斜的原理3知識(shí)目標(biāo)了解何為數(shù)據(jù)傾斜了解數(shù)據(jù)傾斜解決方案理解數(shù)據(jù)傾斜的原理01能力目標(biāo)掌握數(shù)據(jù)傾斜解決方案02學(xué)習(xí)目標(biāo)4目錄01何為數(shù)據(jù)傾斜02數(shù)據(jù)傾斜的原理03數(shù)據(jù)傾斜解決方案5何為數(shù)據(jù)傾斜-Hadoop中的數(shù)據(jù)傾斜Hadoop中直接貼近用戶使用使用的時(shí)Mapreduce程序和Hive程序,雖說Hive最后也是用MR來執(zhí)行(至少目前Hive內(nèi)存計(jì)算并不普及),但是畢竟寫的內(nèi)容邏輯區(qū)別很大,一個(gè)是程序,一個(gè)是Sql,因此這里稍作區(qū)分。Hadoop中的數(shù)據(jù)傾斜主要表現(xiàn)在ruduce階段卡在99.99%,一直99.99%不能結(jié)束。

6何為數(shù)據(jù)傾斜-Hadoop中的數(shù)據(jù)傾斜

這里如果詳細(xì)的看日志或者和監(jiān)控界面的話會(huì)發(fā)現(xiàn):

有一個(gè)多幾個(gè)Reduce卡住各種container報(bào)錯(cuò)OOM讀寫的數(shù)據(jù)量極大,至少遠(yuǎn)遠(yuǎn)超過其它正常的Reduce

伴隨著數(shù)據(jù)傾斜,會(huì)出現(xiàn)任務(wù)被kill等各種詭異的表現(xiàn)。經(jīng)驗(yàn):

Hive的數(shù)據(jù)傾斜,一般都發(fā)生在Sql中Group和On上,而且和數(shù)據(jù)邏輯綁定比較深7何為數(shù)據(jù)傾斜-Spark中的數(shù)據(jù)傾斜Spark中的數(shù)據(jù)傾斜也很常見,這里包括SparkStreaming和SparkSql,表現(xiàn)主要有下面幾種:key分布不均勻Executorlost,OOM,Shuffle過程出錯(cuò)DriverOOM單個(gè)Executor執(zhí)行時(shí)間特別久,整體任務(wù)卡在某個(gè)階段不能結(jié)束正常運(yùn)行的任務(wù)突然失敗8數(shù)據(jù)傾斜的原因數(shù)據(jù)傾斜產(chǎn)生的原因我們以Spark和Hive的使用場(chǎng)景為例。他們?cè)谧鰯?shù)據(jù)運(yùn)算的時(shí)候會(huì)設(shè)計(jì)到,countdistinct、groupby、join等操作,這些都會(huì)觸發(fā)Shuffle動(dòng)作,一旦觸發(fā),所有相同key的值就會(huì)拉到一個(gè)或幾個(gè)節(jié)點(diǎn)上,就容易發(fā)生單點(diǎn)問題。萬惡的Shuffle

Shuffle是一個(gè)能產(chǎn)生奇跡的地方,不管是在Spark還是Hadoop中,它們的作用都是至關(guān)重要的。那么在Shuffle如何產(chǎn)生了數(shù)據(jù)傾斜?9數(shù)據(jù)傾斜的原因10數(shù)據(jù)傾斜的解決方案增加jvm內(nèi)存。增加reduce的個(gè)數(shù)。自定義分區(qū)。重新設(shè)計(jì)key。使用co

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論