Hadoop技術(shù)介紹及應(yīng)用探討-v6_第1頁
Hadoop技術(shù)介紹及應(yīng)用探討-v6_第2頁
Hadoop技術(shù)介紹及應(yīng)用探討-v6_第3頁
Hadoop技術(shù)介紹及應(yīng)用探討-v6_第4頁
Hadoop技術(shù)介紹及應(yīng)用探討-v6_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

提綱一、大數(shù)據(jù)時(shí)代

二、Hadoop出現(xiàn)與發(fā)展三、Hadoop核心技術(shù)四、Hadoop應(yīng)用情況五、Hadoop展望大數(shù)據(jù)現(xiàn)象一、大數(shù)據(jù)時(shí)代1.8ZB2011年里2天內(nèi)的數(shù)據(jù)大于2003年一整年的數(shù)據(jù)7.5億兩天內(nèi)傳到facebook上的照片數(shù)966PB美國制造業(yè)存儲(chǔ)的數(shù)據(jù)209億FRID標(biāo)簽在2012年的銷售量;而2011年僅有0.12億200PB中國智慧城市的數(shù)據(jù)存儲(chǔ)量8億美元10年內(nèi)手機(jī)統(tǒng)計(jì)的個(gè)人位置信息數(shù)據(jù)獲利3億美元得益于大數(shù)據(jù),美國每年節(jié)省的醫(yī)療開支石油行業(yè)5年前單個(gè)項(xiàng)目最大3~5T,現(xiàn)在我院濱里海項(xiàng)目30T原始數(shù)據(jù),且單位面積工區(qū)數(shù)據(jù)增加大數(shù)據(jù)現(xiàn)象一、大數(shù)據(jù)時(shí)代華爾街日報(bào):我們再次處于三場宏大技術(shù)變革(大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算)開端;中關(guān)村:將開展云運(yùn)營和大數(shù)據(jù)示范應(yīng)用;奧巴馬政府:把大數(shù)據(jù)上升到了國家戰(zhàn)略的層面;大數(shù)據(jù)已經(jīng)成為繼邊防、海防、空防之后,第四個(gè)大國博弈的空間。商業(yè)、經(jīng)濟(jì)、政府:將基于大數(shù)據(jù)的分析而作出決策行為;公共衛(wèi)生、經(jīng)濟(jì)領(lǐng)域:大數(shù)據(jù)的預(yù)見能力也已經(jīng)嶄露頭角。大數(shù)據(jù)典型特征一、大數(shù)據(jù)時(shí)代信息爆炸的時(shí)代,信息以幾何級(jí)數(shù)速度增長;計(jì)算從“提升軟件本身性能”轉(zhuǎn)移到信息處理方面;摩爾定律不再像以前那樣發(fā)揮作用。Volume大量M字節(jié)到Z字節(jié)Velocity高速批數(shù)據(jù)到流數(shù)據(jù)Veriety多數(shù)據(jù)類型文本、音頻、視頻、圖片結(jié)構(gòu)化、非結(jié)構(gòu)化廣義的大數(shù)據(jù)一、大數(shù)據(jù)時(shí)代結(jié)構(gòu)化數(shù)據(jù)客戶數(shù)據(jù)、銷售數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)文本、視頻、聲音、傳感器、GPS等數(shù)據(jù)處理、存儲(chǔ)、分析技術(shù)Hadoop、NoSQL、機(jī)器學(xué)習(xí)廣義大數(shù)據(jù)狹義大數(shù)據(jù)1、Hadoop歷程2、Hadoop相關(guān)項(xiàng)目3、定義二、hadoop出現(xiàn)與發(fā)展1、Hadoop歷程2002DougCutting開始Nutch項(xiàng)目,網(wǎng)頁爬取工具和搜索引擎系統(tǒng)2003Google發(fā)表論文,揭示核心技術(shù):GFS、BigTable

、MapReduce2004DougCutting據(jù)論文,開發(fā)Nutch分布式文件系統(tǒng)(NDFS)2006NDFS和MapReduce移出Nutch,單獨(dú)形成Lucene的子項(xiàng)目,即Hadoop。同年DougCutting加入Yahoo!2008Haoop已成為Apache的頂級(jí)項(xiàng)目2011在所有的云計(jì)算開源系統(tǒng)里,Haodop穩(wěn)居第一2012Hadooprelease1.0.0出現(xiàn)2013Hadooprelease2.0.0出現(xiàn),YARN加入核心技術(shù)2014Hadooprelease2.5.0出現(xiàn)…Hadoop應(yīng)用到石油領(lǐng)域

Hadoop之父名稱從小孩的玩具大象名字而來2、Hadoop相關(guān)項(xiàng)目目前大量的Hadoop平臺(tái)運(yùn)行于Linux平臺(tái)上,具有很多延伸產(chǎn)品,因?yàn)椋篐adoop的開源性;Java基礎(chǔ);廉價(jià)的服務(wù)器組成;可用性極大的增強(qiáng)。(1)圍繞Hadoop的系列工具與軟件Pig數(shù)據(jù)流類SQLMapReduce分布式程序框架HCatalog元數(shù)據(jù)HBase列存儲(chǔ)HDFS分布式文件系統(tǒng)編程語言計(jì)算表存儲(chǔ)對象存儲(chǔ)Zoo-Keeper協(xié)調(diào)Amb-ari管理數(shù)據(jù)挖掘(2)GigaOM總結(jié)的Hadoop生態(tài)系統(tǒng)圖Hadoop作為基礎(chǔ)設(shè)施服務(wù)微軟(WindowsAzureHDInsight)IBM(BigInsights)亞馬遜彈性MapReduceHadoop作為APP或分析服務(wù)VMware(Cetas)Kongtagent(數(shù)據(jù)挖掘)Birst(大數(shù)據(jù)分析)Hadoop作為分析應(yīng)用或平臺(tái)阿帕奇MahoutHStreaming數(shù)據(jù)庫HBaseSqrrlHadoop上的SQLHiveEMCGreenplum框架/語言PigTwitter第三方軟件管理Corona(FaceBook)Zettaset各個(gè)版本ClouderaHortonworksMapRIntelIBM重新包裝OracleHP

DELL競爭平臺(tái)DiscoHPCC-SystemHDFS的替代品Cassandra(via

DataStax)IBM(GPFS)RedHat(RedHat存儲(chǔ)

/GlusterFS)2、Hadoop衍生工具JustATool能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架;實(shí)現(xiàn)了Google的MapReduce編程模型和框架;把應(yīng)用程序分割成小工作單元,并將其放到集群節(jié)點(diǎn)上執(zhí)行(先分后合)。分兩個(gè)方面分布式存儲(chǔ);并行計(jì)算。3、定義≠

1、架構(gòu)特點(diǎn)—主從結(jié)構(gòu)2、功能模塊—三架馬車3、新版本升級(jí)—YARN出現(xiàn)4、集群搭建實(shí)例三、hadoop核心技術(shù)1、架構(gòu)特點(diǎn)(1)Hadoop總架構(gòu)圖Linux文件系統(tǒng)datanode…tasktrackerSlave節(jié)點(diǎn)NamenodeNamenode節(jié)點(diǎn)jobtracker作業(yè)提交節(jié)點(diǎn)Linux文件系統(tǒng)datanode…tasktrackerSlave節(jié)點(diǎn)Linux文件系統(tǒng)datanode…tasktrackerSlave節(jié)點(diǎn)每個(gè)slave節(jié)點(diǎn)上,存儲(chǔ)進(jìn)程與計(jì)算進(jìn)程同時(shí)存在;作業(yè)管理節(jié)點(diǎn)和存儲(chǔ)管理節(jié)點(diǎn)一般配置在一起;文件系統(tǒng)Master-Slave

結(jié)構(gòu)NameNode節(jié)點(diǎn)記錄文件系統(tǒng)的元數(shù)據(jù);Slave節(jié)點(diǎn)分別存儲(chǔ)數(shù)據(jù);文件系統(tǒng)有塊的概念。1、架構(gòu)特點(diǎn)(2)主從結(jié)構(gòu)(從文件系統(tǒng)上)TaskMaster-Slave結(jié)構(gòu)作業(yè)提交節(jié)點(diǎn)直接與客戶端連接;jobtracker進(jìn)行任務(wù)的分配;tasktracker負(fù)責(zé)完成任務(wù)。1、架構(gòu)特點(diǎn)(3)主從結(jié)構(gòu)(從并行計(jì)算上)2、功能模塊MapReduce集群資源管理&數(shù)據(jù)處理HBase列存儲(chǔ)數(shù)據(jù)庫HDFS冗余、可靠存儲(chǔ)(1)三架馬車HDFS文件系統(tǒng)是基礎(chǔ);MapReduce進(jìn)行并行計(jì)算;HBase完成列式存儲(chǔ)。HDFS是Hadoop中的核心技術(shù),完成基本存儲(chǔ);在廉價(jià)PC集群上運(yùn)行;訪問模式為流式數(shù)據(jù);冗余與多副本機(jī)制保證數(shù)據(jù)存儲(chǔ)的可靠性;負(fù)載均衡控制集群中數(shù)據(jù)的存儲(chǔ)分布。Linux之上的HDFS文件系統(tǒng)HDFS客戶端DFS管理類輸出流類客戶端JVM存儲(chǔ)客戶端查詢客戶端大數(shù)據(jù)…Hadoop集群輸入流類HDFS客戶端DFS管理類客戶端JVM2、功能模塊(2)HDFS(HadoopDistributedFileSystem)Problems硬件錯(cuò)誤是常態(tài)而非異常海量存儲(chǔ)流式數(shù)據(jù)訪問高吞吐率數(shù)據(jù)一致性移動(dòng)計(jì)算策略高可移植性2、功能模塊(2)HDFS-解決的問題本質(zhì)是函數(shù)式編程,為使用者提供一個(gè)框架;程序可應(yīng)用于不同規(guī)模的集群;該框架下,所有的操作都分為兩類;框架底層實(shí)現(xiàn)將數(shù)據(jù)集劃分為Spilts;作業(yè)中輸出文件和輸入文件都保存在HDFS上。2、功能模塊(3)MapReduce幾經(jīng)波折,一度被拋棄的框架包括四個(gè)獨(dú)立的實(shí)體:客戶端提交MapReduce任務(wù);jobtracker進(jìn)程協(xié)調(diào)任務(wù)的運(yùn)行;tasktraker進(jìn)程完成分配的任務(wù);HDFS完成對文件的共享。2、功能模塊(3)MapReduce-工作機(jī)制客戶端程序提交作業(yè)JobTracker輸入格式Map()combine()partition()Region1Region2TaskTrackerTaskTrackerRegion1Region2TaskTrackerRegion1Region2輸入文件HDFSspilt1spilt2spilt3spilt4spilt5TaskTracker輸出文件1HDFSTaskTracker讀sortReduce()輸出格式輸出文件2HDFSMap階段Reduce階段2、功能模塊(3)MapReduce-工作流程HDFS之上的數(shù)據(jù)庫;居于NoSQL和關(guān)系數(shù)據(jù)庫之間,存儲(chǔ)結(jié)構(gòu)化較弱的數(shù)據(jù);每個(gè)值的數(shù)據(jù)形式是字符串,不區(qū)分類型。2、功能模塊(4)HBase(

HadoopDatabase)關(guān)鍵字時(shí)間戳列"Frame"列"database"“云計(jì)算"Time1"nosql:hbase""open"Time2"nosql:monDB""open"Time3"hadoop"Time4"abicloud"Time5"eucalyptus"客戶端是以表的方式在HBase上存儲(chǔ)和訪問數(shù)據(jù)的:表由行和列構(gòu)成,一個(gè)columnfamily包括多個(gè)列;行和列的交叉點(diǎn)稱為Cell,版本化的,通過時(shí)間戳區(qū)別;主鍵也是一個(gè)字節(jié)數(shù)組;海量/面向列/稀疏為其主要特點(diǎn)。2、功能模塊(4)HBase-數(shù)據(jù)模型3、新版本升級(jí)(1)升級(jí)過程HDFS(冗余、可靠存儲(chǔ))MapReduce(集群資源管理、數(shù)據(jù)處理)HBase(列存儲(chǔ)數(shù)據(jù)庫)Hadoop1.0HDFS(冗余、可靠存儲(chǔ))HBase(列存儲(chǔ)數(shù)據(jù)庫)Hadoop2.0Yarn(集群資源管理)MapReduce(數(shù)據(jù)處理)其他(數(shù)據(jù)處理)Yarn接管了原MapReduce的集群資源管理(JobTraker、TaskTracker)的功能;增加了除MapReduce之外的數(shù)據(jù)處理工具。3、新版本升級(jí)(2)Yarn產(chǎn)生背景Yarn應(yīng)運(yùn)而生多計(jì)算框架各自為戰(zhàn),數(shù)據(jù)共享困難MR:離線計(jì)算框架Strom:實(shí)時(shí)計(jì)算框架Spark:內(nèi)存計(jì)算框架直接源于原MR框架幾個(gè)方面的缺陷:擴(kuò)展性受限單點(diǎn)故障難以支持MR之外的計(jì)算3、新版本升級(jí)(2)Yarn基本架構(gòu)資源管理客戶端客戶端客戶端節(jié)點(diǎn)管理節(jié)點(diǎn)管理Reduce任務(wù)MPI任務(wù)節(jié)點(diǎn)管理MR管理Map任務(wù)容器容器MPI任務(wù)MPI管理MPI任務(wù)應(yīng)用提交節(jié)點(diǎn)狀態(tài)資源請求任務(wù)狀態(tài)4、集群搭建實(shí)例(1)NameNode信息4、集群搭建實(shí)例(2)DataNode信息4、集群搭建實(shí)例(3)MapReduce作業(yè)運(yùn)行情況14/10/1122:59:33INFOclient.RMProxy:ConnectingtoResourceManageratwn8hp01/5:803214/10/1122:59:34INFOinput.FileInputFormat:Totalinputpathstoprocess:3514/10/1122:59:34INFOmapreduce.JobSubmitter:numberofsplits:3514/10/1122:59:34INFOmapreduce.JobSubmitter:Submittingtokensforjob:job_1410613891486_000114/10/1122:59:35INFOimpl.YarnClientImpl:Submittedapplicationapplication_1410613891486_000114/10/1122:59:35INFOmapreduce.Job:Theurltotrackthejob:http://wn8hp01:8088/proxy/application_1410613891486_0001/14/10/1122:59:35INFOmapreduce.Job:Runningjob:job_1410613891486_000114/10/1122:59:46INFOmapreduce.Job:map0%reduce0%14/10/1122:59:54INFOmapreduce.Job:map3%reduce0%14/10/1122:59:55INFOmapreduce.Job:map17%reduce0%14/10/1122:59:57INFOmapreduce.Job:map34%reduce0%14/10/1122:59:58INFOmapreduce.Job:map40%reduce0%14/10/1122:59:59INFOmapreduce.Job:map71%reduce0%14/10/1123:00:00INFOmapreduce.Job:map91%reduce0%14/10/1123:00:01INFOmapreduce.Job:map94%reduce0%14/10/1123:00:02INFOmapreduce.Job:map100%reduce0%14/10/1123:00:05INFOmapreduce.Job:map100%reduce100%14/10/1123:00:06INFOmapreduce.Job:Jobjob_1410613891486_0001completedsuccessfully4、集群搭建實(shí)例(4)普通pc機(jī)上通過虛擬機(jī)搭建平臺(tái)4、集群搭建實(shí)例(4)普通pc機(jī)上直接搭建平臺(tái)1、成功應(yīng)用案例2、石油勘探領(lǐng)域中的應(yīng)用探討四、hadoop應(yīng)用情況1、成功應(yīng)用案例(1)淘寶數(shù)據(jù)處理-數(shù)據(jù)量“21世紀(jì)核心的競爭是數(shù)據(jù)的競爭”“誰擁有更多數(shù)據(jù),誰就擁有未來”主站備庫RAC主站日志數(shù)據(jù)源MyFOXProm存儲(chǔ)層數(shù)據(jù)中間層/glider查詢層數(shù)據(jù)魔方淘寶指數(shù)開放API產(chǎn)品Hadoop集群/云梯計(jì)算層

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論