版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)傾斜的原因2學(xué)習(xí)任務(wù)了解何為數(shù)據(jù)傾斜數(shù)據(jù)傾斜解決方案數(shù)據(jù)傾斜的原理3知識(shí)目標(biāo)了解何為數(shù)據(jù)傾斜了解數(shù)據(jù)傾斜解決方案理解數(shù)據(jù)傾斜的原理01能力目標(biāo)掌握數(shù)據(jù)傾斜解決方案02學(xué)習(xí)目標(biāo)4目錄01何為數(shù)據(jù)傾斜02數(shù)據(jù)傾斜的原理03數(shù)據(jù)傾斜解決方案5何為數(shù)據(jù)傾斜-Hadoop中的數(shù)據(jù)傾斜Hadoop中直接貼近用戶使用使用的時(shí)Mapreduce程序和Hive程序,雖說Hive最后也是用MR來執(zhí)行(至少目前Hive內(nèi)存計(jì)算并不普及),但是畢竟寫的內(nèi)容邏輯區(qū)別很大,一個(gè)是程序,一個(gè)是Sql,因此這里稍作區(qū)分。Hadoop中的數(shù)據(jù)傾斜主要表現(xiàn)在ruduce階段卡在99.99%,一直99.99%不能結(jié)束。
6何為數(shù)據(jù)傾斜-Hadoop中的數(shù)據(jù)傾斜
這里如果詳細(xì)的看日志或者和監(jiān)控界面的話會(huì)發(fā)現(xiàn):
有一個(gè)多幾個(gè)Reduce卡住各種container報(bào)錯(cuò)OOM讀寫的數(shù)據(jù)量極大,至少遠(yuǎn)遠(yuǎn)超過其它正常的Reduce
伴隨著數(shù)據(jù)傾斜,會(huì)出現(xiàn)任務(wù)被kill等各種詭異的表現(xiàn)。經(jīng)驗(yàn):
Hive的數(shù)據(jù)傾斜,一般都發(fā)生在Sql中Group和On上,而且和數(shù)據(jù)邏輯綁定比較深7何為數(shù)據(jù)傾斜-Spark中的數(shù)據(jù)傾斜Spark中的數(shù)據(jù)傾斜也很常見,這里包括SparkStreaming和SparkSql,表現(xiàn)主要有下面幾種:key分布不均勻Executorlost,OOM,Shuffle過程出錯(cuò)DriverOOM單個(gè)Executor執(zhí)行時(shí)間特別久,整體任務(wù)卡在某個(gè)階段不能結(jié)束正常運(yùn)行的任務(wù)突然失敗8數(shù)據(jù)傾斜的原因數(shù)據(jù)傾斜產(chǎn)生的原因我們以Spark和Hive的使用場(chǎng)景為例。他們?cè)谧鰯?shù)據(jù)運(yùn)算的時(shí)候會(huì)設(shè)計(jì)到,countdistinct、groupby、join等操作,這些都會(huì)觸發(fā)Shuffle動(dòng)作,一旦觸發(fā),所有相同key的值就會(huì)拉到一個(gè)或幾個(gè)節(jié)點(diǎn)上,就容易發(fā)生單點(diǎn)問題。萬惡的Shuffle
Shuffle是一個(gè)能產(chǎn)生奇跡的地方,不管是在Spark還是Hadoop中,它們的作用都是至關(guān)重要的。那么在Shuffle如何產(chǎn)生了數(shù)據(jù)傾斜?9數(shù)據(jù)傾斜的原因10數(shù)據(jù)傾斜的解決方案增加jvm內(nèi)存。增加reduce的個(gè)數(shù)。自定義分區(qū)。重新設(shè)計(jì)key。使用co
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海市金山區(qū)華東師大三附中2013-2014學(xué)年高一下學(xué)期期末考試數(shù)學(xué)試題
- 【全程復(fù)習(xí)方略】2020年人教A版數(shù)學(xué)理(福建用)課時(shí)作業(yè):第三章-第八節(jié)應(yīng)-用-舉-例
- 學(xué)校的八年級(jí)的班級(jí)工作計(jì)劃范文
- 陜西省渭南市2025屆高三教學(xué)質(zhì)量檢測(cè)(Ⅰ)物理試題(含答案)
- 四川省綿陽市綿陽中學(xué)2024-2025學(xué)年高一上學(xué)期期末模擬測(cè)試物理試題(含答案)
- 【備戰(zhàn)2021高考】全國(guó)2021屆高中英語試題匯編(第六期-11月):U單元-重慶
- 【名師一號(hào)】2022屆高三歷史一輪復(fù)習(xí)調(diào)研試題:第七單元-古代中國(guó)經(jīng)濟(jì)的基本結(jié)構(gòu)與特點(diǎn)7-13a
- 【走向高考】2021屆高三生物二輪復(fù)習(xí)專項(xiàng)檢測(cè):專題4-第3講-變異、育種與生物進(jìn)化
- 一年級(jí)數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)匯編
- 【名師一號(hào)】2020-2021學(xué)年蘇教版化學(xué)檢測(cè)題-選修五:專題3
- “銷售技巧課件-讓你掌握銷售技巧”
- 2019北師大版高中英語選修一UNIT 2 單詞短語句子復(fù)習(xí)默寫單
- 房地產(chǎn)項(xiàng)目保密協(xié)議
- 2023年云南省初中學(xué)業(yè)水平考試 物理
- 【安吉物流股份有限公司倉(cāng)儲(chǔ)管理現(xiàn)狀及問題和優(yōu)化研究15000字(論文)】
- 火災(zāi)自動(dòng)報(bào)警系統(tǒng)施工及驗(yàn)收調(diào)試報(bào)告
- 《13464電腦動(dòng)畫》自考復(fù)習(xí)必備題庫(kù)(含答案)
- 中國(guó)成人血脂異常防治指南課件
- 2023塔式太陽能熱發(fā)電廠集熱系統(tǒng)設(shè)計(jì)規(guī)范
- 消費(fèi)稅改革對(duì)商貿(mào)企業(yè)的影響與對(duì)策
- 識(shí)別藥用植物種類-識(shí)別藥用被子植物
評(píng)論
0/150
提交評(píng)論