




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Hadoopshuffle與Sparkshuffle的區(qū)別2知識目標Shuffle簡介兩種shuffle的區(qū)別01能力目標了解什么是shuffle清楚兩種shuffle的區(qū)別02學習目標3目錄01Shuffle簡介04Shufflewrite/read實現上有一些區(qū)別02030506是否需要對key提前進行排序DAG數據流的優(yōu)勢數據fetch與數據計算的重疊粒度的細微區(qū)別從性能優(yōu)化角度來講,Spark考慮的更全面Shuffle簡介4Shuffle,翻譯成中文就是洗牌。之所以需要Shuffle,還是因為具有某種共同特征的一類數據需要最終匯聚(aggregate)到一個計算節(jié)點上進行計算。這些數據分布在各個存儲節(jié)點上并且由不同節(jié)點的計算單元處理。以最簡單的Word
Count為例,其中數據保存在Node1、Node2和Node3;經過處理后,這些數據最終會匯聚到Nodea、Nodeb處理。這個數據重新打亂然后匯聚到不同節(jié)點的過程就是Shuffle。
ApacheSpark的Shuffle過程與ApacheHadoop的Shuffle過程有著諸多類似,一些概念可直接套用,例如,Shuffle過程中,提供數據的一端,被稱作Map端,Map端每個生成數據的任務稱為Mapper,對應的,接收數據的一端,被稱作Reduce端,Reduce端每個拉取數據的任務稱為Reducer,Shuffle過程本質上都是將Map端獲得的數據使用分區(qū)器進行劃分,并將數據發(fā)送給對應的Reducer的過程。是否需要對key提前進行排序5從邏輯角度來講,Shuffle過程就是一個GroupByKey的過程,兩者沒有本質區(qū)別。只是MapReduce為了方便GroupBy存在于不同partition中的key/valuerecords,就提前對key進行排序。Spark認為很多應用不需要對key排序,就默認沒有在GroupBy的過程中對key排序。6DAG數據流的優(yōu)勢從數據流角度講,兩者有差別。MapReduce只能從一個MapStageshuffle數據,Spark可以從多個MapStagesshuffle數據(這是DAG型數據流的優(yōu)勢,可以表達復雜的數據流操作)7Shufflewrite/read實現上有一些區(qū)別以前對shufflewrite/read的分類是sort-based和hash-based。MapReduce可以說是sort-based,shufflewrite和shuffleread過程都是基于keysorting的(bufferingrecords+in-memorysort+on-diskexternalsorting)。早期的Spark是hash-based,shufflewrite和shuffleread都使用HashMap-like的數據結構進行aggregate(withoutkeysorting)。但目前的Spark是兩者的結合體,shufflewrite可以是sort-based(onlysortpartitionid,withoutkeysorting),shuffleread階段可以是hash-based。因此,目前sort-based和hash-based已經“你中有我,我中有你”,界限已經不那么清晰。8數據fetch與數據計算的重疊粒度的細微區(qū)別MapReduce是粗粒度,reducerfetch到的records先被放到shufflebuffer中休息,當shufflebuffer快滿時,才對它們進行combine()。而Spark是細粒度,可以即時將fetch到的record與HashMap中相同key的record進行aggregate。9從性能優(yōu)化角度來講,Spark考慮的更全面MapReduce的shuffle方式單一。Spark針對不同類型的操作、不同類型的參數,會使用不同的shufflewrite方式。所以說,Hadoopshuffle與Sparksh
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 八年級語文上冊 第四單元 寫作 語言要連貫教學實錄 新人教版
- 2025年江蘇貨運從業(yè)資格證科目一模擬考試題庫
- 流動式吊車知識培訓課件
- 四年級語文上冊 第四單元 13 精衛(wèi)填海教學實錄 新人教版五四制
- 撒哈拉以南非洲(第2課時)課件-2024~2025學年人教版初中地理七年級下冊
- 第3課+中古時期的歐洲+高一下學期統編版(2019)必修中外歷史綱要下
- 陜西省咸陽市2023-2024學年高一(上)期末物理試卷【含解析】
- 部編版二年級語文下冊第3課《開滿鮮花的小路》精美課件
- 第2課《首屆諾貝爾獎頒發(fā)》教學設計 2024-2025學年統編版語文八年級上冊
- 北京市通州區(qū)2024-2025學年高一上學期1月期末物理試題(解析版)
- 《測繪管理法律與法規(guī)》課件-測繪資質管理
- DB37T 5245-2022 橋梁智慧健康監(jiān)測技術標準
- 玩轉微木工:零基礎木作小件
- 社區(qū)圖書館設計任務書
- 蒂森克虜伯電梯 meta200 MRL MOB 安裝培訓 AP (無腳手架安裝工藝)
- 民警違法違紀的預防策略
- 健康體檢結果調查分析報告范文
- 機械性能試驗報告模板
- 2022內蒙古烏審旗圖克鎮(zhèn)圖克工業(yè)園區(qū)中天合創(chuàng)化工分公司招聘20人上岸筆試歷年難、易錯點考題附帶參考答案與詳解
- 妊娠期高血壓疾病診治指南2020完整版
- 功能科運用PDCA循環(huán)提高超聲報告圖像質量PDCA成果匯報
評論
0/150
提交評論