版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
工作流程概述2學習任務了解MapReduce相關知識點掌握MapReduce工作流程3知識目標學習MapReduce程序執(zhí)行流程了解MapReduce相關知識了解MapReduce主要功能01能力目標熟練了解MapReduce工作原理熟悉MapReduce主要功能02學習目標4目錄01MapReduce簡介02MapReduce程序執(zhí)行流程03MapReduce工作原理04MapReduce主要功能5MapReduce簡介MapReduce是一種并行可擴展計算模型,并且有較好的容錯性,主要解決海量離線數(shù)據(jù)的批處理。實現(xiàn)下面目標。易于編程良好的擴展性高容錯性6MapReduce程序執(zhí)行流程程序執(zhí)行流程圖如下圖所示:7MapReduce程序執(zhí)行流程(1)開發(fā)人員編寫好MapReduceprogram,將程序打包運行。(2)JobClient向JobTracker申請可用Job,JobTracker返回JobClient一個可用JobID。(3)JobClient得到JobID后,將運行Job所需要的資源拷貝到共享文件系統(tǒng)HDFS中。(4)資源準備完備后,JobClient向JobTracker提交Job。(5)
JobTracker收到提交的Job后,初始化Job。(6)初始化完成后,JobTracker從HDFS中獲取輸入splits(作業(yè)可以該啟動多少Mapper任務)。8MapReduce程序執(zhí)行流程(7)與此同時,TaskTracker不斷地向JobTracker匯報心跳信息,并且返回要執(zhí)行的任務。(8)
TaskTracker得到JobTracker分配(盡量滿足數(shù)據(jù)本地化)的任務后,向HDFS獲取Job資源(若數(shù)據(jù)是本地的,不需拷貝數(shù)據(jù))。(9)獲取資源后,TaskTracker會開啟JVM子進程運行任務。注:(3)中資源具體指什么?主要包含:
程序jar包、作業(yè)配置文件xml
輸入劃分信息,決定作業(yè)該啟動多少個map任務
本地文件,包含依賴的第三方jar包(-libjars)、依賴的歸檔文件(-archives)和普通文件(-files),如果已經(jīng)上傳,則不需上傳9MapReduce工作原理工作原理圖如下圖所示:10MapReduce工作原理程序會根據(jù)InputFormat將輸入文件分割成splits,每個split會作為一個maptask的輸入,每個maptask會有一個內存緩沖區(qū),輸入數(shù)據(jù)經(jīng)過map階段處理后的中間結果會寫入內存緩沖區(qū),并且決定數(shù)據(jù)寫入到哪個partitioner,當寫入的數(shù)據(jù)到達內存緩沖區(qū)的的閥值(默認是0.8),會啟動一個線程將內存中的數(shù)據(jù)溢寫入磁盤,同時不影響map中間結果繼續(xù)寫入緩沖區(qū)。在溢寫過程中,MapReduce框架會對key進行排序,如果中間結果比較大,會形成多個溢寫文件,最后的緩沖區(qū)數(shù)據(jù)也會全部溢寫入磁盤形成一個溢寫文件(最少有一個溢寫文件),如果是多個溢寫文件,則最后合并所有的溢寫文件為一個文件。maptask11MapReduce工作原理當所有的maptask完成后,每個maptask會形成一個最終文件,并且該文件按區(qū)劃分。reduce任務啟動之前,一個maptask完成后,就會啟動線程來拉取map結果數(shù)據(jù)到相應的reducetask,不斷地合并數(shù)據(jù),為reduce的數(shù)據(jù)輸入做準備,當所有的maptesk完成后,數(shù)據(jù)也拉取合并完畢后,reducetask啟動,最終將輸出輸出結果存入HDFS上。reducetask12MapReduce主要功能系統(tǒng)自動將一個作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊,每個數(shù)據(jù)塊對應于一個計算任務(Task),并自動調度計算節(jié)點來處理相應的數(shù)據(jù)塊。作業(yè)和任務調度功能主要負責分配和調度計算節(jié)點(Map節(jié)點或Reduce節(jié)點),同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負責Map節(jié)點執(zhí)行的同步控制。數(shù)據(jù)劃分和計算任務調度:13MapReduce主要功能為了減少數(shù)據(jù)通信,一個基本原則是本地化數(shù)據(jù)處理,即一個計算節(jié)點盡可能處理其本地磁盤上所分布存儲的數(shù)據(jù),這實現(xiàn)了代碼向數(shù)據(jù)的遷移;當無法進行這種本地化數(shù)據(jù)處理時,再尋找其他可用節(jié)點并將數(shù)據(jù)從網(wǎng)絡上傳送給該節(jié)點(數(shù)據(jù)向代碼遷移),但將盡可能從數(shù)據(jù)所在的本地機架上尋找可用節(jié)點以減少通信延遲。數(shù)據(jù)/代碼互定位:14MapReduce主要功能以低端商用服務器構成的大規(guī)模MapReduce計算集群中,節(jié)點硬件(主機、磁盤、內存等)出錯和軟件出錯是常態(tài),因此MapReduce需要能檢測并隔離出錯節(jié)點,并調度分配新的節(jié)點接管出錯節(jié)點的計算任務。同時,系統(tǒng)還將維護數(shù)據(jù)存儲的可靠性,用多備份冗余存
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年遼寧省遼陽市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2022年遼寧省遼陽市公開招聘警務輔助人員輔警筆試自考題2卷含答案
- 2022年浙江省嘉興市公開招聘警務輔助人員輔警筆試自考題1卷含答案
- 2024年PET改性及合金材料項目投資申請報告代可行性研究報告
- 2024年石油產(chǎn)品添加劑:燃料油添加劑項目資金申請報告
- 關于銀行實習日記范文錦集八篇
- 2025年煤礦自動化控制系統(tǒng)項目規(guī)劃申請報告模范
- 虛擬現(xiàn)實項目招投標合同關鍵點
- 科技孵化器招投標委托期限
- 出租車公司賬戶管理辦法
- 廣西北海市2023-2024學年八年級(上)期末數(shù)學試卷
- 非急救轉運合同范例
- 車輛使用安全培訓
- 肺結核的護理個案
- 陜西省漢中市2024-2025學年高一上學期12月第二次月考地理試題(含答案)
- AutoCAD2024簡明教程資料
- 《中國傳統(tǒng)文化》課件模板(六套)
- 民航客艙服務管理Ⅱ學習通超星期末考試答案章節(jié)答案2024年
- 兒科主任年終總結
- 2023年上海市錄用公務員考試真題
- 期末 (試題) -2024-2025學年人教PEP版英語四年級上冊
評論
0/150
提交評論