Spark大數(shù)據(jù)分析實戰(zhàn)課件

上傳人：g*** IP屬地：貴州上傳時間：2022-07-23 格式：PPTX 頁數(shù)：80 大?。?.87MB 積分：25 舉報 版權申訴

已閱讀5頁，還剩75頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、Spark大數(shù)據(jù)分析演講人2020-12-0201Spark簡介Spark簡介DSpark架構ERDDASpark執(zhí)行特點BSpark優(yōu)勢CSpark生態(tài)系統(tǒng)BDASSpark簡介Spark執(zhí)行特點數(shù)據(jù)格式和內(nèi)存布局使用RDD0204任務調(diào)度使用事件驅(qū)動AKKA,避免使用線程池中間結果無需輸出到HDFS03執(zhí)行策略不同Stage需要shuffle01Spark簡介Spark優(yōu)勢01打造全棧多計算凡是的高效數(shù)據(jù)流水線03易于使用,支持多語言05社區(qū)活躍度高02輕量級快速處理04ExternalDataSource多數(shù)據(jù)支持打造全棧多計算凡是的高效數(shù)據(jù)流水線支持MR, SQL查詢, 流式計算, 機

2、器學習和圖算法, 用戶可以在一個工作流無縫搭配這些計算范式輕量級快速處理Scala簡化了代碼利用了第三方組件基于內(nèi)存計算,減少了磁盤IO易于使用,支持多語言支持Scala,Java,Python自帶80多個算子Spark簡介Spark生態(tài)系統(tǒng)BDAS數(shù)據(jù)分析棧組件組件Spark組件Spark SQLSpark Streaming流式計算吞吐量超過Strom組件GraphX經(jīng)行大規(guī)模同步全局的圖計算組件分布式機器學習算法庫分類, 回歸, 聚類 ,協(xié)同過濾 , 梯度下降優(yōu)化MLlibSpark簡介Spark架構Spark組件運行邏輯Spark組件DirverClientWorkerExecutor

3、SparkConextRDDSpark組件Task Scheduler02DAG schedule01SparkEnv03Dirver創(chuàng)建SparkContext的main函數(shù)Spark組件Client用戶提交作業(yè)的客戶端Spark組件Worker集群中任何可以運行Application代碼的節(jié)點, 運行一個或多個Executor進程Spark組件Executor運行Worker的Task執(zhí)行器Spark組件SparkConext應用的上下文, 控制應用的聲明周期Spark組件RDDSpark組件Spark的基本計算單元, 一組RDD形成執(zhí)行的有向無環(huán)圖DAG scheduleSpark組件根

4、據(jù)Job構建基于Stage的DAG工作流, 并提交Stage給TaskSchedulerTask SchedulerTask分發(fā)給Executor執(zhí)行Spark組件SparkEnv線程級別的上下文Spark組件運行邏輯作業(yè)提交 Client-Master- Worker-Driver-Master-RDD-Stage DAG - TaskScheduler- Executor作業(yè)執(zhí)行 ShuffleSpark簡介RDDRDD的重要內(nèi)部屬性Spark計算工作流彈性分布式數(shù)據(jù)集RDD創(chuàng)建方式RDD的兩種操作算子RDD創(chuàng)建方式011. HDFS輸入創(chuàng)建022. 父RDD轉(zhuǎn)換033. parallei

5、ze或makeRDD將單機數(shù)據(jù)創(chuàng)建為分布式RDDRDD的兩種操作算子轉(zhuǎn)換(Transformation) 延遲計算map, flatMap, mapPartitions.行動(Action) 觸發(fā)提交作業(yè)Jobforeach, saveAsTextFile.RDD的重要內(nèi)部屬性對父RDD的依賴列表對key-value pair數(shù)據(jù)類型RDD的分區(qū)器, 控制分片策略和分區(qū)數(shù)計算每個分片的函數(shù)每個數(shù)據(jù)分區(qū)的地址列表分區(qū)列表02BDASBDASSQL on Spark(替代Hive)A1. Catalyst架構及執(zhí)行流程2. SparkSql優(yōu)化策略BSpark Streaming(替代Storm)

6、優(yōu)勢與特點 1. 多范式數(shù)據(jù)分析管道2. 擴展性, 可運行在100個節(jié)點以上的集群3. 容錯性4. 吞吐量大(超過Storm)5. 實時性比Storm略低(batch size選取為0.52S, storm為100ms)Spark Stream架構BDASGraphX(替代GraphLab)BDASMLlib(替代Mahout)03Lamda架構日志分析流水線Lamda架構日志分析流水線日志分析指標PV01UV02留存率05漏斗模型與轉(zhuǎn)化率04PVUV03Lamda架構日志分析流水線Lamda架構010203速度層(Speed Layer)批處理層(Batch Layer)服務層(Servin

7、g Layer)實時日志分析流水線架構Flume NG數(shù)據(jù)采集0102Flume 匯總到Kafka數(shù)據(jù)匯總和轉(zhuǎn)發(fā)Spark Streaming數(shù)據(jù)處理0304Flask結果呈現(xiàn)離線日志分析流水線架構Flume轉(zhuǎn)儲到HDFS數(shù)據(jù)存儲Spark SQL數(shù)據(jù)處理Flask結果呈現(xiàn)04基于云平臺和用戶日志的推薦系統(tǒng)基于云平臺和用戶日志的推薦系統(tǒng)系統(tǒng)架構數(shù)據(jù)收集聚合數(shù)據(jù)處理結果輸出離線訓練 Spark MLlib中的ALS模型05分布式的搜索引擎分布式的搜索引擎計算網(wǎng)頁的PageRank值06微博情感分析微博情感分析數(shù)據(jù)收集熱點微博分析Spark SQL進行離線分析系統(tǒng)架構數(shù)據(jù)預處理和Cassandr

8、a存儲在線情感分析微博情感分析微博可視化熱點新聞分析系統(tǒng)微博情感分析系統(tǒng)架構Spark分析模塊03Spark Streaming 微博收集與分析模塊01Mysql結果存儲模塊04Cassandra持久化存儲模塊02系統(tǒng)架構提供可視化數(shù)據(jù)Mysql結果存儲模塊04情感分析Spark分析模塊03 Cassandra持久化存儲模塊02實時聚類和熱點分析Spark Streaming 微博收集與分析模塊01數(shù)據(jù)收集微博數(shù)據(jù)收集微博情感分析數(shù)據(jù)收集微博數(shù)據(jù)收集數(shù)據(jù)預處理和Cassandra存儲作為存儲引擎進行數(shù)據(jù)分析微博情感分析數(shù)據(jù)預處理和Cassandra存儲作為存儲引擎進行數(shù)據(jù)分析熱點微博分析Spa

9、rk Stream 滑動窗口API微博情感分析熱點微博分析Spark Stream 滑動窗口API在線情感分析使用遞歸神經(jīng)網(wǎng)路RNN經(jīng)行微博情感分析在線情感分析使用遞歸神經(jīng)網(wǎng)路RNN經(jīng)行微博可視化D3, Echarts, HightCharts.微博情感分析微博可視化D3, Echarts, HightCharts.微博情感分析熱點新聞分析系統(tǒng)01系統(tǒng)架構02爬蟲抓取網(wǎng)絡信息03新聞文本數(shù)據(jù)預處理04新聞聚類05Spark Elastic Search 構建全文檢索引擎系統(tǒng)架構新聞抓取模塊01Scrapy抓取Kafka傳輸Mongo存儲實時新聞分析模塊02Spark Streaming實時處理

10、離線新聞分析模塊03Spark定時從MongoDB中批量處理,離線熱點分析可視化呈現(xiàn)界面04 熱點新聞分析系統(tǒng)爬蟲抓取網(wǎng)絡信息熱點新聞分析系統(tǒng)新聞文本數(shù)據(jù)預處理新聞聚類文本聚類分析 1. 使用向量空間模型進行數(shù)據(jù)轉(zhuǎn)換2. 通過K-Means進行聚類數(shù)據(jù)準換為向量向量空間模型熱點新聞分析系統(tǒng)Spark Elastic Search 構建全文檢索引擎07熱點新聞分析系統(tǒng)系統(tǒng)架構新聞抓取模塊01Scrapy抓取Kafka傳輸Mongo存儲實時新聞分析模塊02Spark Streaming實時處理離線新聞分析模塊03Spark定時從MongoDB中批量處理,離線熱點分析可視化呈現(xiàn)界面04 熱點新聞分析系統(tǒng)爬蟲抓取網(wǎng)絡信息熱點新聞分析系統(tǒng)新聞文本數(shù)據(jù)預處理新聞聚類文本聚類分析 1. 使用向量空間模型進行數(shù)據(jù)轉(zhuǎn)換2. 通過K-Means進行聚類數(shù)據(jù)準換為向量向量空間模型熱點新聞分析系統(tǒng)Spark Elastic Search 構建全文檢索引擎08個性化推薦算法協(xié)同過濾推薦算法基

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Spark大數(shù)據(jù)分析實戰(zhàn)課件

文檔簡介

溫馨提示

最新文檔

評論

Spark大數(shù)據(jù)分析實戰(zhàn)課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔