![簡單闡述hdfs的體系結(jié)構(gòu)-大數(shù)據(jù)開發(fā)全棧課程體系學(xué)習(xí)猿地_第1頁](http://file4.renrendoc.com/view/1500a2ab9c1508688a1ac8ecaacae7ca/1500a2ab9c1508688a1ac8ecaacae7ca1.gif)
![簡單闡述hdfs的體系結(jié)構(gòu)-大數(shù)據(jù)開發(fā)全棧課程體系學(xué)習(xí)猿地_第2頁](http://file4.renrendoc.com/view/1500a2ab9c1508688a1ac8ecaacae7ca/1500a2ab9c1508688a1ac8ecaacae7ca2.gif)
![簡單闡述hdfs的體系結(jié)構(gòu)-大數(shù)據(jù)開發(fā)全棧課程體系學(xué)習(xí)猿地_第3頁](http://file4.renrendoc.com/view/1500a2ab9c1508688a1ac8ecaacae7ca/1500a2ab9c1508688a1ac8ecaacae7ca3.gif)
![簡單闡述hdfs的體系結(jié)構(gòu)-大數(shù)據(jù)開發(fā)全棧課程體系學(xué)習(xí)猿地_第4頁](http://file4.renrendoc.com/view/1500a2ab9c1508688a1ac8ecaacae7ca/1500a2ab9c1508688a1ac8ecaacae7ca4.gif)
![簡單闡述hdfs的體系結(jié)構(gòu)-大數(shù)據(jù)開發(fā)全棧課程體系學(xué)習(xí)猿地_第5頁](http://file4.renrendoc.com/view/1500a2ab9c1508688a1ac8ecaacae7ca/1500a2ab9c1508688a1ac8ecaacae7ca5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、簡單闡述hdfs的體系結(jié)構(gòu)大數(shù)據(jù)開發(fā)全棧課程體系-學(xué)習(xí)猿地大數(shù)據(jù)概論應(yīng)知應(yīng)會:認(rèn)識大數(shù)據(jù)基本概念2認(rèn)識大數(shù)據(jù)生態(tài)圈3認(rèn)識大數(shù)據(jù)行業(yè)落地案例業(yè)務(wù)實戰(zhàn):搭建Hadoop分布式集群HTML5(H5)基本文檔結(jié)構(gòu)大數(shù)據(jù)背景認(rèn)識HadoopHadoop架構(gòu)和組件Hadoop生態(tài)系統(tǒng)Hadoop經(jīng)典落地案例Hadoop安裝部署及集群搭建訪問HDFS應(yīng)知應(yīng)會:1掌握HDFS的特性2理解HDFS的設(shè)計目標(biāo)3掌握HDFS的體系結(jié)構(gòu)4理解數(shù)據(jù)塊基本概念5掌握數(shù)據(jù)塊復(fù)制原理6掌握HDFS安全模式7理解HDFS心跳機(jī)制8掌握HDFS核心架構(gòu)業(yè)務(wù)實戰(zhàn):闡述HDFS分布式文件系統(tǒng)的原理HDFS特性HDFS目標(biāo)HDFS核心
2、設(shè)計數(shù)據(jù)塊數(shù)據(jù)復(fù)制副本存放策略安全模式心跳機(jī)制HDFS體系結(jié)構(gòu)Master/SlaveNN、SNN、DNHDFS接口應(yīng)知應(yīng)會:1掌握HDFS常用的命令行操作接口2學(xué)會查看HDFS文件列表3掌握文件的上傳、下載、刪除4掌握HDFS的Java訪問接口業(yè)務(wù)實戰(zhàn):利用命令行和Java接口訪問HDFS分布式文件系統(tǒng)數(shù)據(jù)庫安裝和使用命令行接口查看文件列表創(chuàng)建目錄上傳文件下載文件查看文件刪除數(shù)據(jù)Java接口從HadoopURL讀取數(shù)據(jù)通過FileSystemAPI讀取數(shù)據(jù)寫入數(shù)據(jù)創(chuàng)建目錄查詢文件系統(tǒng)刪除數(shù)據(jù)HDFS分布式文件系統(tǒng)的運行機(jī)制應(yīng)知應(yīng)會:1掌握HDFS中的數(shù)據(jù)流讀寫2掌握RPC的實現(xiàn)流程及模型3掌
3、握文件的讀取、寫入及文件的一致性模型4掌握HA高可靠機(jī)制5熟悉HDFS的Federation機(jī)制業(yè)務(wù)實戰(zhàn):搭建HA應(yīng)用開發(fā)平臺HDFS中數(shù)據(jù)流的讀寫RPC實現(xiàn)流程RPC實現(xiàn)模型文件的讀取文件的寫入文件的一致模型HDFS的HA機(jī)制為什么有HA機(jī)制HA集群架構(gòu)HDFS的Federation機(jī)制為什么引入Federation機(jī)制Federation架構(gòu)多命名空間管理HadoopI/O詳解應(yīng)知應(yīng)會:理解HDFS的數(shù)據(jù)完整性掌握HDFS的數(shù)據(jù)壓縮算法掌握HDFS序列化接口掌握Hadoop數(shù)據(jù)結(jié)構(gòu)理解SequenceFile存儲業(yè)務(wù)實戰(zhàn):利用HDFS序列化Writable接口實現(xiàn)SequenceFile的
4、寫入數(shù)據(jù)庫安裝和使用HDFS的數(shù)據(jù)完整性驗證數(shù)據(jù)完整性文件壓縮Hadoop支持的壓縮格式壓縮解壓縮算法codec壓縮和輸入分片文件序列化Writable接口WritableComparable接口自定義Writable接口Writable實現(xiàn)類實現(xiàn)定制的Writable類型序列化框架Hadoop文件的數(shù)據(jù)結(jié)構(gòu)SequenceFile存儲MapFile存儲MapReduce編程模型應(yīng)知應(yīng)會:1掌握MapReduce編程模型編寫WordCount事例掌握HadoopMapReduce架構(gòu)MapReduce編程模型簡介WordCount編程實例HadoopMapReduce架構(gòu)MapReduce應(yīng)用
5、編程開發(fā)應(yīng)知應(yīng)會:配置MapReduce應(yīng)用編程開發(fā)環(huán)境掌握MapReduce程序設(shè)計思路掌握Mapper和Reducer的編寫4掌握集群上運行作業(yè)熟練作業(yè)的的狀態(tài)查看與檢測掌握MapReduce作業(yè)的調(diào)試7掌握常見的MapReduce的輸入輸出的格式業(yè)務(wù)實戰(zhàn):開發(fā)MapReduce分布式并行程序MapReduce的編程配置開發(fā)環(huán)境設(shè)計思路編寫Mapper類編寫Reducer類編寫main方法在集群上的運作打包作業(yè)啟動作業(yè)通過WebUI查看Job狀態(tài)獲取結(jié)果作業(yè)調(diào)試MapReduce類型與格式MapReduce中的鍵值對輸入格式輸出格式MapReduce的工作機(jī)制與丫ARN平臺應(yīng)知應(yīng)會:1掌握
6、MapReduce作業(yè)的運行過程2掌握Shuffle的運行過程和原理3.掌握Map段shuffle與Reduce段shuffle的原理4理解YARN平臺的工作原理及架構(gòu)掌握ResouceManager的資源分配掌握NodeManager的工作原理掌握ApplicationMaster的工作原理理解Container容器的工作原理掌握作業(yè)的調(diào)度業(yè)務(wù)實戰(zhàn):刨析MapReduce作業(yè)的Shuffle過程通過案例剖析MapReduce作業(yè)運行過程shuffle和排序亠L(fēng)Umap端I亠L(fēng)Ureduce端shuffle過程YARN平臺簡介YARN的誕生YARN的作用YARN的架構(gòu)ResourceManag
7、erApplicationMaster資源模型ResourceRequest和ContainerContainer規(guī)范作業(yè)的調(diào)度公平調(diào)度器計算能力調(diào)度器項目實戰(zhàn):日志數(shù)據(jù)分析系統(tǒng)應(yīng)知應(yīng)會:掌握項目的業(yè)務(wù)需求掌握項目的系統(tǒng)架構(gòu)掌握項目的需求分析掌握項目的概要設(shè)計掌握項目的詳細(xì)設(shè)計掌握項目的系統(tǒng)開發(fā)掌握項目的單元測試掌握項目的系統(tǒng)測試掌握項目的上線部署掌握項目的運營測試掌握項目集群環(huán)境的搭建測試業(yè)務(wù)實戰(zhàn):MapReduce開發(fā)工程師項目名稱:日志數(shù)據(jù)分析系統(tǒng)數(shù)據(jù)體量:5000W+/日硬件環(huán)境:Hadoop集群12臺軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+OraclelOg開發(fā)工
8、具:Eclipse+Jdk1.7+ETL項目職責(zé):主要負(fù)責(zé)數(shù)據(jù)清洗,分析客戶需求數(shù)據(jù)的抓取和處理。項目描述:搜狗每天產(chǎn)生大量的日志數(shù)據(jù),從日志數(shù)據(jù)里面能提取到有用的數(shù)據(jù)包括每個用戶的ID、瀏覽次數(shù)、月/日瀏覽頻率、訪問源、瀏覽內(nèi)容等等,提取這些內(nèi)容、統(tǒng)計數(shù)據(jù)分析每個用戶行為,從而做出有利的決定。本次項目使用MapReduce框架對數(shù)據(jù)進(jìn)行處理,HDFS作為底層存儲,使用Hive大大加快了項目的進(jìn)度,Hive自帶的數(shù)據(jù)庫并不適用于項目,用MySql代替,這里用到了Hive但是底層處理計算還是MapReduce,其最突出的地方就是其對MapReduce進(jìn)行了包裝,減少了使用MapReduce需要寫大量重復(fù)JAVA代碼的時間。實例分析,客戶需要知道瀏覽過“仙劍奇?zhèn)b傳”的用戶還瀏覽過其他什么內(nèi)容,我們就利用MapReduce對數(shù)據(jù)進(jìn)行處理得出所有瀏覽過“仙劍奇?zhèn)b傳”的用戶ID,在由ID取出他們除了“仙劍奇?zhèn)b傳”之外的瀏覽內(nèi)容,值得一提的是這次任務(wù)中很好的利用MapReduce的shuffle階段的處理將大大減少任務(wù)的難度。查
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉(xiāng)鎮(zhèn)單位解聘合同范本
- 農(nóng)民在工地打工合同范本
- 公廁施工范圍合同范本
- 京西印玥合同范本
- 2025年度歷史文化名城保護(hù)工程個人勞務(wù)分包合同
- 公司漁業(yè)船舶買賣合同范例
- 會議家具采購合同范本
- 臨時住宿合同范本
- 借住公租房合同范例
- 修補(bǔ)圍網(wǎng)合同范本
- htcc制備工藝書籍
- 建立高效的員工溝通與反饋機(jī)制
- 中國電信互聯(lián)網(wǎng)+酒店解決方案
- 《信息科技》學(xué)科新課標(biāo)《義務(wù)教育信息科技課程標(biāo)準(zhǔn)(2022年版)》
- 《語用學(xué)之指示語》課件
- 《對折剪紙》課件
- 小學(xué)數(shù)學(xué)人教版六年級上冊分?jǐn)?shù)混合運算練習(xí)題
- 培訓(xùn)學(xué)校 組織架構(gòu)及部門崗位職責(zé)
- 調(diào)車作業(yè)-調(diào)車概述(鐵路行車組織)
- 【住院患者跌倒或墜床預(yù)防護(hù)理措施研究國內(nèi)外文獻(xiàn)綜述3300字】
- 2023施工項目部標(biāo)準(zhǔn)化工作手冊
評論
0/150
提交評論