基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述_第1頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述_第2頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述_第3頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述_第4頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

.6.15基于Hadoop大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第1頁大數(shù)據(jù)背景介紹ContentHadoop定義、特點大數(shù)據(jù)對系統(tǒng)需求、大數(shù)據(jù)和云計算關(guān)系大數(shù)據(jù)市場分析大數(shù)據(jù)處理技術(shù)關(guān)鍵12Hadoop原理、優(yōu)點Hadoop體系架構(gòu)Hadoop關(guān)鍵設(shè)計:MapReduce、HDFS基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第2頁大數(shù)據(jù)背景介紹1定義

為了更為經(jīng)濟(jì)從高頻率獲取、大容量、不一樣結(jié)構(gòu)和類型數(shù)據(jù)中獲取價值,而設(shè)計新一代架構(gòu)和技術(shù)特點基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第3頁大數(shù)據(jù)對系統(tǒng)需求大數(shù)據(jù)和云計算關(guān)系Highperformance–高并發(fā)讀寫需求 高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)高效率存放和訪問需求 類似SNS網(wǎng)站,海量用戶信息高效率實時存放和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性需求 需要擁有快速橫向擴(kuò)展能力、提供7*二十四小時不間斷服務(wù)云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計算是大數(shù)據(jù)IT基礎(chǔ),大數(shù)據(jù)須有云計算作為基礎(chǔ)架構(gòu),才能高效運行經(jīng)過大數(shù)據(jù)業(yè)務(wù)需求,為云計算落地找到了實際應(yīng)用基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第4頁大數(shù)據(jù)市場分析是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例產(chǎn)生。年-20,將迎來大數(shù)據(jù)市場飛速發(fā)展。年中國大數(shù)據(jù)市場規(guī)模到達(dá)4.7億元,20大數(shù)據(jù)市場將迎來增速為138.3%飛躍,到20,整個市場規(guī)模迫近百億。政府、互聯(lián)網(wǎng)、電信、金融大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)二分之一市場份額。因為各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非常可觀。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第5頁大數(shù)據(jù)處理技術(shù)關(guān)鍵分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù);統(tǒng)計和分析:地域占比,文本情感分析,A/Btest,topN排行榜;數(shù)據(jù)挖掘:建模,聚類,分類,排名;模型預(yù)測:預(yù)測模型,機(jī)器學(xué)習(xí),建模仿真。存放技術(shù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存放,不利于檢索,存放和查詢半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化存放。大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具;數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫,NoSQL,NewSQL,等基礎(chǔ)架構(gòu)支持:云存放,分布式文件系統(tǒng)等;計算結(jié)果展現(xiàn):云計算,標(biāo)簽云,關(guān)系圖等。處理方案:Hadoop(MapReduce技術(shù))、MongoDB、流計算(twitterstrom和yahoo!S4)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第6頁Hadoop大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop2Hadoop最先是由Apache企業(yè)在引入,起源于谷歌開發(fā)MapReduce和GoogleFileSystem(GFS)項目。Hadoop作為新一代架構(gòu)和技術(shù),因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)軟件框架,在由大量計算機(jī)組成集群中運行海量數(shù)據(jù)分布式計算,它能夠讓應(yīng)用程序支持上千個節(jié)點和PB級別數(shù)據(jù)。Hadoop是項目標(biāo)總稱,主要是由分布式存放(HDFS)、分布式計算(MapReduce)等組成?;贖adoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第7頁Hadoop原理基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第8頁Hadoop原理假設(shè)系統(tǒng)每秒處理4000個文件處理4千萬個文件=10000秒約為2.7小時處理4千萬個文件處理400萬個文件處理400萬個文件處理400萬個文件……切分成十臺機(jī)器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第9頁優(yōu)點可擴(kuò)展:不論是存放可擴(kuò)展還是計算可擴(kuò)展都是Hadoop設(shè)計根本。經(jīng)濟(jì):框架能夠運行在任何普通PC上。可靠:分布式文件系統(tǒng)備份恢復(fù)機(jī)制以及MapReduce任務(wù)監(jiān)控確保了分布式處理可靠性。高效:分布式文件系統(tǒng)高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合LocalData處理模式,為高效處理海量信息作了基礎(chǔ)準(zhǔn)備。不適合存放小文件(不提議)大量隨機(jī)讀(不提議)對文件修改(不支持)應(yīng)用模式為:write-once-read-many存取模式基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第10頁Hadoop體系架構(gòu)MapReduceHBasePigChuKwaHivePig是一個基于Hadoop大規(guī)模數(shù)據(jù)分析平臺,Pig為復(fù)雜海量數(shù)據(jù)并行計算提供了一個簡易操作和編程接口hive是基于Hadoop一個工具,提供完整sql查詢功效,能夠?qū)ql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行Chukwa是基于Hadoop集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)ZooKeeper:高效,可擴(kuò)展協(xié)調(diào)系統(tǒng),存放和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個開源,基于列存放模型分布式數(shù)據(jù)庫MapReduce是一個編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)并行運算HDFS是一個分布式文件系統(tǒng)。有著高容錯性特點,而且設(shè)計用來布署在低廉硬件上,適合那些有著超大數(shù)據(jù)集應(yīng)用程序ZooKeeper基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第11頁MapReduceMap:任務(wù)分解Reduce:結(jié)果匯總兩大關(guān)鍵設(shè)計HDFSNameNode:文件管理DataNode:文件存放Client:文件獲取Hadoop關(guān)鍵設(shè)計基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第12頁MapReduce——映射、化簡編程模型(分而治之)1.依據(jù)輸入數(shù)據(jù)大小和參數(shù)設(shè)置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中數(shù)據(jù)作為Map輸入,Map輸出一定在Map端。3.Map輸出到Reduce輸入過程(shuffle過程): 第一階段:在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce輸入到Reduce輸出最終排好序key/value作為Reduce輸入MapReduce是一個編程模型,用于大規(guī)模數(shù)據(jù)集并行運算。Map(映射)和Reduce(化簡),采取分而治之思想,先把任務(wù)分發(fā)到集群多個節(jié)點上,并行計算,然后再把計算結(jié)果合并,從而得到最終計算結(jié)果。多節(jié)點計算,所包括任務(wù)調(diào)度、負(fù)載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容?;贖adoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第13頁HDFS——分布式文件系統(tǒng)什么是分布式文件系統(tǒng)?分布式文件系統(tǒng)是指文件系統(tǒng)管理物理存放資源不一定直接在當(dāng)?shù)毓?jié)點上,而是經(jīng)過計算機(jī)網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)設(shè)計基于客戶機(jī)/服務(wù)器模式,一個經(jīng)典網(wǎng)絡(luò)可能包含多個供用戶訪問服務(wù)器。用戶能夠在任意一臺客戶機(jī)上訪問其它機(jī)器文件系統(tǒng)。為何需要分布式文件系統(tǒng)?高擴(kuò)展能力:HDFS采取元數(shù)據(jù)中心化管理,然后經(jīng)過客戶端暫存數(shù)據(jù)分布減小元數(shù)據(jù)訪問壓力;高可用性:一是整個文件系統(tǒng)可用性,二是數(shù)據(jù)完整和一致性。數(shù)據(jù)完整性經(jīng)過文件鏡像和文件自動修復(fù)來處理;彈性存放:能夠依據(jù)業(yè)務(wù)需要靈活地增加或縮減數(shù)據(jù)存放以及增刪存放池中資源,而不需要中止系統(tǒng)運行;基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第14頁HDFS——分布式文件系統(tǒng)NameNode

能夠看作是分布式文件系統(tǒng)中管理者,存放文件系統(tǒng)meta-data,主要負(fù)責(zé)管理文件系統(tǒng)命名空間,集群配置信息,存放塊復(fù)制。DataNode

是文件存放基本單元。它存放文件塊在當(dāng)?shù)匚募到y(tǒng)中,保留了文件塊meta-data,同時周期性發(fā)送全部存在文件塊匯報給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件應(yīng)用程序。

HDFS是一個高度容錯性分布式文件系統(tǒng),能提供高吞吐量數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上應(yīng)用。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第15頁HDFS高可用性NameNode掛了怎么辦?系統(tǒng)采取雙NameNode節(jié)點分布管理設(shè)計方案,支持分布式元數(shù)據(jù)服務(wù)器,支持元數(shù)據(jù)自動日志功效,實現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)備份和自動恢復(fù),當(dāng)一臺服務(wù)器發(fā)生宕機(jī)時,其管理功效能夠有另外服務(wù)器接管,系統(tǒng)能夠正常運行,對外提供服務(wù)。NameNodeNameNode是用來管理文件系統(tǒng)命名空間組件

一個HDFS集群只有一臺activeNameNode一個HDFS集群只有一個命名空間,一個根目錄NameNode上存放了HDFS元數(shù)據(jù)元數(shù)據(jù)保留在NameNode內(nèi)存當(dāng)中,方便快速查詢1G內(nèi)存大致能夠存放1,000,000個塊對應(yīng)元數(shù)據(jù)信息按缺省每塊64M計算,大致對應(yīng)64T實際數(shù)據(jù)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第16頁Datanode?一個數(shù)據(jù)塊在DataNode以文件存放在磁盤上,包含兩個文件,一個是數(shù)據(jù)本身,一個是元數(shù)據(jù)包含數(shù)據(jù)塊長度,塊數(shù)據(jù)校驗和,以及時間戳。?DataNode開啟后向NameNode注冊,經(jīng)過后,周期性(1小時)向NameNode上報全部塊信息。?心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode命令如復(fù)制塊數(shù)據(jù)到另一臺機(jī)器,或刪除某個數(shù)據(jù)塊。假如超出10分鐘沒有收到某個DataNode心跳,則認(rèn)為該節(jié)點不可用。增加DataNode節(jié)點后?系統(tǒng)平臺增加新節(jié)點之后,系統(tǒng)自動在全部節(jié)點之間均衡數(shù)據(jù)。系統(tǒng)后臺依據(jù)忙閑程度,自動發(fā)起,占用極少系統(tǒng)資源,無需人工干預(yù),實現(xiàn)數(shù)據(jù)均衡分布?;贖adoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第17頁HDFS詳細(xì)操作文件寫入:1.Client向NameNode發(fā)起文件寫入請求2.NameNode依據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode信息。3.Client將文件劃分為多個文件塊,依據(jù)DataNode地址信息,按次序?qū)懭氲矫恳粋€DataNode塊中。

文件讀?。?.

Client向NameNode發(fā)起文件讀取請求2.

NameNode返回文件存放DataNode信息。3.Client讀取文件信息。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第18頁Client1Client2DataNode節(jié)點NameNode1NameNode2NFS服務(wù)器正常運行狀態(tài)單點失效狀態(tài)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第19頁HBASE——分布式數(shù)據(jù)存放HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮分布式存放系統(tǒng);HBas

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論