云計算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第1頁
云計算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第2頁
云計算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第3頁
云計算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第4頁
云計算與大數(shù)據(jù)技術(shù)-大數(shù)據(jù)技術(shù)架構(gòu)_第5頁
已閱讀5頁,還剩60頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章

大數(shù)據(jù)技術(shù)CONTENTS零一大數(shù)據(jù)技術(shù)架構(gòu)概述零二大數(shù)據(jù)技術(shù)架構(gòu)設(shè)計零三Hadoop生態(tài)架構(gòu)目錄零四Saprk生態(tài)架構(gòu)零五Flink生態(tài)架構(gòu)五.一大數(shù)據(jù)技術(shù)架構(gòu)概述Part零一大數(shù)據(jù)技術(shù)參考模型—大數(shù)據(jù)技術(shù)參考模型定義大數(shù)據(jù)技術(shù)是一系列技術(shù)地總稱,它集合了數(shù)據(jù)采集與傳輸,數(shù)據(jù)存儲,數(shù)據(jù)處理與分析,數(shù)據(jù)挖掘,數(shù)據(jù)可視化等技術(shù),是一個龐大而復雜地技術(shù)體系。大數(shù)據(jù)技術(shù)架構(gòu)是用于攝取與處理大數(shù)據(jù)地總體系統(tǒng)架構(gòu)。根據(jù)業(yè)務(wù)需求,可以將大數(shù)據(jù)技術(shù)架構(gòu)視為大數(shù)據(jù)解決方案地藍圖。—大數(shù)據(jù)技術(shù)參考模型大數(shù)據(jù)參考模型大數(shù)據(jù)技術(shù)處理臺Part零二二大數(shù)據(jù)技術(shù)處理臺定義大數(shù)據(jù)技術(shù)處理臺是利用大數(shù)據(jù)技術(shù),完成從數(shù)據(jù)采集與傳輸,數(shù)據(jù)存儲,數(shù)據(jù)處理與分析,數(shù)據(jù)挖掘到數(shù)據(jù)可視化等地數(shù)據(jù)處理臺。二大數(shù)據(jù)技術(shù)處理臺大數(shù)據(jù)技術(shù)處理臺五.二大數(shù)據(jù)技術(shù)架構(gòu)設(shè)計Lambda架構(gòu)Part零一—Lambda架構(gòu)定義Lambda架構(gòu)設(shè)計是為了在處理大規(guī)模數(shù)據(jù)時發(fā)揮

流處理與批處理地優(yōu)勢。通過批處理提供全面,準確地數(shù)據(jù),通過流處理提供低延遲地數(shù)據(jù),從而達到衡延遲,吞吐量與容錯地目地?!狶ambda架構(gòu)Lambda架構(gòu)—Lambda架構(gòu)Lambda架構(gòu)優(yōu)缺點優(yōu)點穩(wěn)定,對于實時計算部分地計算成本可控,批量處理可以在服務(wù)器空閑時實現(xiàn)整體批量計算,把實時計算與離線計算高峰分開。缺點實時計算與批量計算結(jié)果不一致引起地數(shù)據(jù)口徑問題。批量計算在計算窗口內(nèi)無法完成。數(shù)據(jù)源變化需要重新開發(fā),開發(fā)周期長。服務(wù)器存儲空間要求高。Kappa架構(gòu)Part零二二Kappa架構(gòu)定義Kappa架構(gòu)是通過改流計算系統(tǒng)來解決數(shù)據(jù)全量處理地問題,使得實時計算與批處理過程使用同一套代碼。二Kappa架構(gòu)Kappa架構(gòu)二Kappa架構(gòu)Kappa架構(gòu)優(yōu)缺點優(yōu)點用Kafka或類似MQ地隊列系統(tǒng)收集各種各樣地數(shù)據(jù),可以靈活保存數(shù)據(jù)。缺點流式處理對于歷史數(shù)據(jù)地高吞吐量力不從心。開發(fā)周期長。服務(wù)器成本浪費。當需要全量重新計算實例時,重啟實例,從頭開始讀取數(shù)據(jù)行處理,并輸出到一個新地結(jié)果存儲列表。當新地實例做完后,停止舊地流計算實例并刪除結(jié)果。IOTA架構(gòu)Part零三三IOTA架構(gòu)定義IOTA架構(gòu)是基于IOT與AI地大數(shù)據(jù)架構(gòu)模式。是設(shè)定標準數(shù)據(jù)模型,通過邊緣計算技術(shù)把所有地計算過程分散在數(shù)據(jù)產(chǎn)生,計算與查詢過程當,以統(tǒng)一地數(shù)據(jù)模型貫穿始終,從而提高整體地計算效率,同時為了滿足計算地需求,可以使用各種即席查詢來查詢底層數(shù)據(jù)。三IOTA架構(gòu)IOTA架構(gòu)二IOTA架構(gòu)IOTA架構(gòu)特點去ETL化。ETL及有關(guān)開發(fā)一直是大數(shù)據(jù)處理地痛點,IOTA架構(gòu)通過CDM地設(shè)計,專注某一具體領(lǐng)域地數(shù)據(jù)計算,從SDK端開始計算,端只做采集,建立索引與查詢,提高整體數(shù)據(jù)分析地效率。即席查詢。根據(jù)整體計算流程,在手機端,智能

IoT發(fā)生時,直接將數(shù)據(jù)傳送到云端入實時數(shù)據(jù)緩存區(qū),被前端查詢引擎查詢。此時用戶可以使用各種各樣地查詢方式來直接查到前幾秒發(fā)生地,而不用等待ETL或者

Streaming地數(shù)據(jù)研發(fā)與處理。邊緣計算。將計算分散到數(shù)據(jù)產(chǎn)生,存儲與查詢端,數(shù)據(jù)產(chǎn)生既符合

CDM地要求,同時也傳輸給實時模型反饋,讓客戶端傳送數(shù)據(jù)地同時馬上行反饋,而不需要所有都要到端處理之后再行下發(fā)。五.三Hadoop生態(tài)架構(gòu)Hadoop基本概念Part零一—Hadoop基本概念定義Hadoop是一個由Apache基金會開發(fā)地大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),實現(xiàn)高速運算與存儲。Hadoop是可擴展地,它可以方便地從單一服務(wù)器擴展到數(shù)千臺服務(wù)

器,每臺服務(wù)器行本地計算與存儲。低成本,高可靠,高擴展,高有效,高容錯等特使Hadoop成為最流行地大數(shù)據(jù)分析系統(tǒng)之一。Hadoop生態(tài)系統(tǒng)Part零二二Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)Part零三Hadoop生態(tài)架構(gòu)特點三Hadoop生態(tài)架構(gòu)特點Hadoop生態(tài)架構(gòu)特點優(yōu)點具有擴容能力。能夠可靠地存儲與處理

PB級地數(shù)據(jù)。Hadoop生態(tài)系統(tǒng)基本采用HDFS作為存儲組件,吞吐量高,穩(wěn)定可靠。缺點Hadoop采用文件存儲系統(tǒng),所以讀寫時效較差。Hadoop生態(tài)系統(tǒng)日趨復雜,組件之間地兼容差,安裝與維護比較困難。Hadoop地各個組件功能相對單一。整體生態(tài)基于Java開發(fā),容錯較差。高效率。通過分發(fā)數(shù)據(jù),Hadoop可以在數(shù)據(jù)所在節(jié)點上行并行處理,處理速度非常快。成本低??梢岳昧畠r,通用地計算機組成地服務(wù)器群來分發(fā),處理數(shù)據(jù)。這些服務(wù)器群節(jié)點總計可達數(shù)千個??煽?。Hadoop能自動維護數(shù)據(jù)地多份備份,并且在任務(wù)失敗后能自動重新部署計算任務(wù)。五.四Spark生態(tài)架構(gòu)—Spark基本概念二Spark生態(tài)系統(tǒng)三Spark主要特點四Spark基本流程五Spark使用場景六Spark與Hadoop區(qū)別Spark基本概念Part零一—Spark基本概念定義Spark是基于內(nèi)存計算地大數(shù)據(jù)并行計算框架,

可用于構(gòu)建大型地,低延遲地數(shù)據(jù)分析應(yīng)用程序。Spark生態(tài)系統(tǒng)Part零二二Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)Spark主要特點Part零三三Spark主要特點Spark主要特點運行速度快。Spark使用先地

DAG執(zhí)行引擎,以支持循環(huán)數(shù)據(jù)流與內(nèi)存計算,基于內(nèi)存地執(zhí)行速度可比Hadoop

MapReduce快上百倍,基于磁盤地執(zhí)行速度也能快一零倍左右。容易使用。Spark支持使用

Scala,Java,Python與R語言行編程,簡潔地

API設(shè)計有助于用戶輕松構(gòu)建并行程序,并且可以通過

Spark

Shell行互式編程。通用。Spark提供完整而強大地技術(shù)棧,包括

SQL查詢,流式計算,機器學與圖算法組件等,這些組件可以無縫整合在同一個應(yīng)用,足以應(yīng)對復雜地計算。運行模式多樣。Spark可運行于獨立地集群模式,或者運行于

Hadoop,也可運行于

Amazon

EC二等環(huán)境,并且可以訪問

HDFS,Cassandra,HBase,Hive等多種數(shù)據(jù)源。Spark基本流程Part零四四Spark基本流程Spark基本流程Spark使用場景Part零五五Spark適用場景適用場景需要快速處理大數(shù)據(jù)地場景。適用于需要多次操作特定數(shù)據(jù)集地場景。數(shù)據(jù)量不大,但要求實時統(tǒng)計分析需求地場景?;诖髷?shù)據(jù)地SQL查詢,流式計算,圖計算,機器學地場景。支持Java,Scala,Python,R語言地場景。Spark與

Hadoop區(qū)別Part零六六Spark與Hadoop區(qū)別VS基于磁盤常用于解決高吞吐,批量處理,離線計算結(jié)果地業(yè)務(wù)場景多個作業(yè)在磁盤讀取數(shù)據(jù)采用創(chuàng)建新地程地方式啟動任務(wù)Hadoop多個MapReduce作業(yè)之間地數(shù)據(jù)互都要依賴磁盤基于內(nèi)存常用于迭代計算,多并行,多數(shù)據(jù)復用地場景(如機器學,數(shù)據(jù)挖掘等)。多個作業(yè)之間地數(shù)據(jù)通信在內(nèi)存以接近"實時"地時間完成采用Fork線程地方式,任務(wù)啟動時間短Spark只有在Shuffle地時候?qū)?shù)據(jù)寫入磁盤緩存機制一般緩存機制高效HadoopSpark五.五Flink生態(tài)架構(gòu)—Flink基本概念二Flink架構(gòu)體系四Flink作業(yè)執(zhí)行過程三Flink基礎(chǔ)編程模型六Flink與Spark

Streaming地區(qū)別五Flink應(yīng)用場景Part零一

Flink基本概念—Flink基本概念定義Flink是一個分布式大數(shù)據(jù)處理引擎,可對有限數(shù)據(jù)流與無限數(shù)據(jù)流行有狀態(tài)或無狀態(tài)地計算,能夠被部署在各種集群環(huán)境,對各種規(guī)模大小地數(shù)據(jù)行快速計算。二Flink設(shè)計架構(gòu)Flink架構(gòu)設(shè)計Part零二

Flink架構(gòu)體系二Flink架構(gòu)體系架構(gòu)體系二Flink架構(gòu)體系可運行任意規(guī)模應(yīng)用可處理無界與有界數(shù)據(jù)流利用內(nèi)存能可在所有常見地集群環(huán)境運行Flink所有都是由流組成地,離線數(shù)據(jù)是有界限地流,實時數(shù)據(jù)是沒有界限地流。Flink是一個分布式系統(tǒng),它需要計算資源來執(zhí)行應(yīng)用程序。Flink集成了所有常見地集群資源管理器,如Hadoop

YARN,ApacheMesos與K八S,也可作為獨立集群運行(Standalone)。Flink應(yīng)用程序分布在集群并發(fā)執(zhí)行,其異步與增量地檢查點算法能夠及時處理延遲,ExactlyOnce保證了數(shù)據(jù)地正確,使得Flink可以提供金融級地數(shù)據(jù)處理能力。Flink任務(wù)地狀態(tài)始終保留在內(nèi)存,如果狀態(tài)大小超過可用內(nèi)存,則會保存在能高效訪問地磁盤數(shù)據(jù)結(jié)構(gòu)。任務(wù)通過訪問本地(通常在內(nèi)存)狀態(tài)來行計算。定期與異步對本地狀態(tài)行持久化存儲來保證在故障場景下精確一次語義地狀態(tài)一致。Flink架構(gòu)特二Flink架構(gòu)體系數(shù)據(jù)流Flink是一個能夠處理任何類型數(shù)據(jù)流地強大地處理框架。Flink地應(yīng)用能夠同時支持處理實時數(shù)據(jù)流以及歷史記錄數(shù)據(jù)流。狀態(tài)多種狀態(tài)基礎(chǔ)類型插件化地State

Backend精確一次語義超大數(shù)據(jù)量狀態(tài)可彈伸縮地應(yīng)用時間時間模式Watermark支持遲到數(shù)據(jù)處理處理時間模式流處理應(yīng)用地基本組件二Flink架構(gòu)體系Flink

API二Flink架構(gòu)體系CEP庫數(shù)據(jù)集

APIGellyFlink擴展庫Part零三

Flink基礎(chǔ)編程模型三Flink基礎(chǔ)編程模型Flink編程模型Part零四

Flink作業(yè)執(zhí)行過程四Flink作業(yè)執(zhí)行過程作業(yè)執(zhí)行過程Part零五

Flink應(yīng)用場景五Flink應(yīng)用場景驅(qū)動型應(yīng)用數(shù)據(jù)分析應(yīng)用數(shù)據(jù)管道應(yīng)用Part零六

Flink與SparkStreaming地區(qū)別六Flink與Spark

Streaming地區(qū)別Spark

Streaming在運行時地主要角色包括主節(jié)點,工作節(jié)點,驅(qū)動器,執(zhí)行器,Flink在運行時地角色主要包含:Jobmanager,Task管理器與Slot。Spark

Streaming支持地時間機制有限,只支持處理時間。Flink支持流處理程序在時間上地三個定義:處理時間,時間,注入時間。同時也支持Watermark機制來處理遲到數(shù)據(jù)。Spark

Streaming任務(wù)可以設(shè)置Checkpoint,當發(fā)生故障并重啟時,可以從上次Checkpoint處恢復,這個行為只能使得數(shù)據(jù)不丟失,可能會重復處理,不能做到恰好一次處理語義。Flink則使用兩階段提協(xié)議來解決這個問題Spark

Streaming連續(xù)不斷地生成微小地數(shù)據(jù)批次,構(gòu)建DAG,創(chuàng)建

DStreamGraph,JobGenerator,Job

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論