大數(shù)據(jù)處理與分析相關(guān)平臺簡介49_第1頁
大數(shù)據(jù)處理與分析相關(guān)平臺簡介49_第2頁
大數(shù)據(jù)處理與分析相關(guān)平臺簡介49_第3頁
大數(shù)據(jù)處理與分析相關(guān)平臺簡介49_第4頁
大數(shù)據(jù)處理與分析相關(guān)平臺簡介49_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)處理與分析相關(guān)平臺簡介中國人民大學(xué)信息學(xué)院董兆安內(nèi)容來自CSDN等互聯(lián)網(wǎng)資源大數(shù)據(jù)及及其主要要特征2規(guī)模(Volume)、種類類(Variety)、速速度(Velocity)2001年,道格格.萊尼(Doug Laney)VolumeVolumeVarietyVolume模態(tài)多樣VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達(dá)40ZB,人均5.2TB分享的內(nèi)容條目超過25億個/天,增加數(shù)據(jù)超過500TB/天關(guān)于大數(shù)數(shù)據(jù)定義義的誤解解http:/blogs./doug-laney/Other“V”s likeveracity, validity,valu

2、e,etc.areaspirational qualitiesofalldata,not definitionalqualitiesofbig data.3硬件、技技術(shù)、數(shù)數(shù)據(jù)不斷斷進(jìn)化4傳統(tǒng)的數(shù)數(shù)據(jù)處理理ExternalDataSourcesExtractTransformLoadData WarehouseIntegrated storageData processingUsersSQL數(shù)據(jù)分析析的需求求也逐漸漸提高從海量數(shù)數(shù)據(jù)中快快速獲取取有價值值信息低延遲、高性能能、分布布式、可可擴(kuò)展、容錯。6RTAPOLAPOLTP需求變化化7Real-TimeNon-InteractiveBatc

3、hInteractiveOnlinesystemsReal timeAnalyticsComplex event processingData preparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprise reportsData miningParameterizedReportsDrilldownVisualizationExploration0-5s5s-1m1m-1h1h+場景不同同-工具不同同-視角不同同Hortonworks將應(yīng)用需需求進(jìn)行行了如下下劃分:實時應(yīng)用用場景(05s)

4、:Storm、S4、ClouderaImpala,ApacheDrill等;交互式場場景(5s1m):最好支持持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式式場景(1m1h):MapReduce、Hive、Pig、Stinger等;批處理場場景(1h+)運行時間間較長,處理數(shù)數(shù)據(jù)量較較大,對對容錯性性和擴(kuò)展展性要求求較高M(jìn)apReduce、Hive、Pig、Stinger等。8大數(shù)據(jù)分分析與處處理架構(gòu)構(gòu)一個案例例9IngestLanding andAnalyticsSandboxZoneIndexes, facetsHive/HBaseColStore

5、sDocumentsInVariety of FormatsAnalyticsMapReduceRepository, WorkbenchIngestionand Real-timeAnalyticZoneDataSinksFilter, TransformIngestCorrelate, ClassifyExtract,AnnotateWarehousing ZoneEnterprise WarehouseData MartsQuery EnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearc

6、hAnalyticsand ReportingZoneMetadataandGovernanceZone9Connectors大數(shù)據(jù)處處理與分分析技術(shù)術(shù)數(shù)據(jù)采集集數(shù)據(jù)處理理數(shù)據(jù)存儲儲統(tǒng)計分析析數(shù)據(jù)挖掘掘模型預(yù)測測數(shù)據(jù)可視視化元數(shù)據(jù)管管理10數(shù)據(jù)處理理的幾種種模式轉(zhuǎn)換TransformerConvert payloadormodify headers過濾FilterDiscard messages based on booleanevaluation路由RouterDeterminenextchannel based on content分割SplitterGeneratemultiplemes

7、sagesfrom one聚集AggregatorAssemblea singlemessage frommultiple11幾種平臺臺介紹MPPHadoopstormspark12開源的大大數(shù)據(jù)處處理平臺臺SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle發(fā)布了Dremel和PowerDrillEMC推出Pivotal+HAWQ開源數(shù)據(jù)據(jù)倉庫brighthouse基于MySQL的數(shù)據(jù)倉倉庫存儲儲引擎13開源的大大數(shù)據(jù)處處理平臺臺NO-MapReduce系統(tǒng)微軟的DAG任務(wù)計算算模型DryadG

8、oogle的圖批量量同步處處理系統(tǒng)統(tǒng)Pregel和增量式式計算框框架PercolatorYahoo!的數(shù)據(jù)流流計算系系統(tǒng)S4、NYU的共享內(nèi)內(nèi)存處理理系統(tǒng)PiccoloBerkeley的交互式式實時處處理系統(tǒng)統(tǒng)Spark等等。NEWSQL系統(tǒng)VoltDBmySQL集群14Hadoop的版本1516IntelHadoop*17Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metast

9、ore(HCatalog)OozieClouderaNavigatorMore varieddata sourceswithmany moreaccess /retention requirementsUsersHadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorData accessed throughmultipleentr

10、ypointsUsersHadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorUsersLots of newconsumersofthe dataHadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqo

11、op+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorUsersOneaccess controlmechanism:filesHadoop1.0HDFS存儲模型型23Hadoop1.0計算模型型MapReduce24節(jié)點功能能與角色色25集群部署署示意26YARN和Hadoop2.027comprisesthe latestrelease acrossHadoopand thekeyrelatedprojectsinto asingle integratedand testedplatformCore ser

12、vicesData servicesOperationalservices28Hadoop2.0Hadoop2.0YARN的基本思思想是將將JobTracker的兩個主主要功能能資源管管理和作作業(yè)調(diào)度度/監(jiān)控分離離主要方法法是創(chuàng)建建一個全全局的ResourceManager(RM)和若干干個針對對應(yīng)用程程序的ApplicationMaster(AM)29對比:Hadoop1.0JobTracker和TaskTracker30對比:Hadoop2.031運行在YARN上的計算算框架YARN =Yet AnotherResourceNeogitator.32內(nèi)存計算算Spark andShark3

13、3High-Speed In-MemoryAnalyticsoverHadoopandHiveDataUC BERKELEY34MapReduce數(shù)據(jù)共享享于HDFSiter.1iter.2.InputHDFSreadHDFSwriteHDFSreadHDFSwriteInputquery 1query 2query 3result 1result 2result 3. . .HDFSreadSlowduetoreplication, serialization, anddisk IO35iter.1iter.2.InputSpark數(shù)據(jù)共享享于內(nèi)存存DistributedmemoryInpu

14、tquery1query2query3.one-timeprocessing10-100fasterthannetwork anddiskSpark之RDD彈性分布布式數(shù)據(jù)據(jù)集37伯克利架架構(gòu)38分布式實實時計算算系統(tǒng)Storm流數(shù)據(jù)處處理Storm可以用來來處理源源源不斷斷流進(jìn)來來的消息息,處理理之后將將結(jié)果寫寫入到某某個存儲儲中去。S4(SimpleScalableStreaming System)是一個分分布式流流處理引引擎,開開發(fā)者可可以在這這個引擎擎基礎(chǔ)上上開發(fā)面面向無界界的,不不間斷的的流數(shù)據(jù)據(jù)處理應(yīng)應(yīng)用。分布式rpc由于storm的處理組組件是分分布式的的,而且且處理延延遲極低低

15、,所以以可以作作為一個個通用的的分布式式rpc框架來使使用。搜索引擎擎本身也也是一個個分布式式rpc系統(tǒng)。39STORM角色Nimbus:負(fù)責(zé)資源源分配和和任務(wù)調(diào)調(diào)度。Supervisor:負(fù)責(zé)接受受nimbus分配的任任務(wù),啟啟動和停停止屬于于自己管管理的worker進(jìn)程。Worker:運行具體體處理組組件邏輯輯的進(jìn)程程。Task:worker中每一個個spout/bolt的線程稱稱為一個個task.40基本邏輯輯概念Spout:在一個topology中產(chǎn)生源源數(shù)據(jù)流流的組件件。Spout是一個主主動的角角色,其其接口中中有個nextTuple()函數(shù),storm框架會不不停地調(diào)調(diào)用此函函數(shù)

16、,用用戶只要要在其中中生成源源數(shù)據(jù)即即可。Bolt:在一個個topology中接受數(shù)數(shù)據(jù)然后后執(zhí)行處處理的組組件。Bolt可以執(zhí)行行過濾、函數(shù)操操作、合合并、寫寫數(shù)據(jù)庫庫等任何何操作。Bolt是一個被被 動的的角色,Tuple:一次消息息傳遞的的基本單單元。Stream:源源不斷斷傳遞的的tuple就組成了了stream。Topology:storm中運行的的一個實實時應(yīng)用用程序,因為各個個組件間間的消息息流動形形成邏輯輯上的一一個拓?fù)鋼浣Y(jié)構(gòu)。41大數(shù)據(jù)處處理平臺臺MPP42 應(yīng)用程序通過Master主機(jī)訪問數(shù)據(jù) 在存儲節(jié)點和Master主機(jī)之間交換數(shù)據(jù) 每一個存儲節(jié)點都是獨立的PgSQL數(shù)據(jù)

17、庫(無共享)QueryPlanMPP=Massive Parallel Processing海量并行行處理結(jié)結(jié)構(gòu)數(shù)據(jù)分發(fā)發(fā)43Share-Nothing的完全并并行架構(gòu)構(gòu)44共享磁盤例如:Oracle RACDBSAN/共享磁盤DBDBDB網(wǎng)絡(luò)SAN/FC完全共享例如:SMP服務(wù)器DB磁盤完全不共享例如:GreenplumDBDBDBDB網(wǎng)絡(luò)磁盤磁盤磁盤磁盤Master注:所有有的共享享資源都都用藍(lán)灰灰色表示示基于外部部表的高高速數(shù)據(jù)據(jù)加載利用并行行數(shù)據(jù)流流引擎,Greenplum可以直接接用SQL操作外部部表數(shù)據(jù)加載載完全并并行,加加載速度度可達(dá)4.5TB/小時45Master主機(jī)Segment主機(jī)內(nèi)部互聯(lián)網(wǎng)千兆以太網(wǎng)交換機(jī)gdfdistgdfdistSegment主機(jī)Segment主機(jī)Segment主機(jī)外部表文件外部表文件ETL服務(wù)器內(nèi)部網(wǎng)絡(luò)MapReduce&SQL一體環(huán)境境46傳統(tǒng)RDBMS系統(tǒng)ACID交易管理器ACID交易管理器查詢優(yōu)化器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論