版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、簡析spark -高效的分布式計算架構Life is short,you need spark!.Spark簡介與體系架構Spark的安裝與配置Spark的開發(fā)與運用Life is short,you need spark!.Spark簡介與體系架構Spark的安裝與配置Spark的開發(fā)與運用Life is short,you need spark!.Spark是一個高速,通用大數(shù)據(jù)計算處置引擎。的官方定義官方網(wǎng)址/.Spark的開展歷史2021誕生于伯克利大學2021正式開源2021成為Apache基金工程2021發(fā)布2.0版本.Spark開展中的學術奉獻“D
2、iscretized Streams: Fault-Tolerant Streaming Computation at Scale. Matei Zaharia, Tathagata Das, Haoyuan Li, Timothy Hunter, Scott Shenker, Ion Stoica. SOSP 2021. November 2021.“Shark: SQL and Rich Analytics at Scale. Reynold Xin, Joshua Rosen, Matei Zaharia, Michael J. Franklin, Scott Shenker, Ion
3、Stoica. SIGMOD 2021. June 2021.“Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters. Matei Zaharia, Tathagata Das, Haoyuan Li, Scott Shenker, Ion Stoica. HotCloud 2021. June 2021.“Shark: Fast Data Analysis Using Coarse-grained Distributed Memory (demo)
4、. Cliff Engle, Antonio Lupher, Reynold Xin, Matei Zaharia, Haoyuan Li, Scott Shenker, Ion Stoica. SIGMOD 2021. May 2021. Best Demo Award.“Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin
5、 Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NSDI 2021. April 2021. Best Paper Award and Honorable Mention for Community Award.“Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotCloud 2021. June
6、2021.Spark開展中的學術奉獻 Spark主要奠基者如今Spark是在其博士論文的根底上開展而來的“An Architecture for Fast and General Data Processing on Large Clusters.Spark的版本開展在開源社區(qū)的奉獻下Spark版本更新速度很快,平均1-2個月就推出一個新版本.Spark的體系架構被稱為Spark core,是其最中心的部分,包含了Spark最根本、最中心的功能和根本分布式算子。Spark core 的根本功能有義務調(diào)度、內(nèi)存管理、缺點恢復以及和存儲系統(tǒng)的交互。.Spark的體系架構數(shù)據(jù)選集被分割為多個數(shù)據(jù)子集
7、Sparkcore RDD (resilient distributed dataset) 是Spark的中心概念,指的是一個只讀的,可分區(qū)的分布式數(shù)據(jù)集分布式彈性數(shù)據(jù)集,這個數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計算間重用。Spark的中心思緒就是將數(shù)據(jù)集緩存在內(nèi)存中加快讀取速度,同時用RDD以較小的性能代價保證數(shù)據(jù)的魯棒性RDDRDD都是可序列化的,在內(nèi)存缺乏時可自動降級為磁盤存儲計算的中間結果會被保管,出錯后可以方便地重新調(diào)度.Spark的體系架構Spark SQL用于分布式構造化數(shù)據(jù)的SQL查詢與分析,在編寫程序中,可以直接運用SQL語句.Spark的體系架構Spark Strea
8、ming是用于處置流數(shù)據(jù)的分布式流處置框架,它將數(shù)據(jù)流以時間片為單位進展分割構成RDD,可以以較小的時間間隔對流數(shù)據(jù)進展處置,從嚴厲意義上說是一個準實時處置系統(tǒng)。.Spark的體系架構Mllib是一個分布式機器學習庫,在Spark平臺上對一些常用的機器學習算法進展了分布式實現(xiàn),如今都包括:分類、回歸、聚類、決策樹等等。.Spark的體系架構GraphX是一個分布式圖處置框架,在Spark上實現(xiàn)了大規(guī)模圖計算的功能,提供了對圖計算和圖發(fā)掘的各種接口。.使用場景時間跨度同類框架使用Spark復雜的批量數(shù)據(jù)處理小時級MapReduce(Hive)Spark基于歷史數(shù)據(jù)的交互式查詢分鐘級,秒級Impa
9、laSpark SQL基于實時數(shù)據(jù)流的數(shù)據(jù)處理秒級StormSpark Streaming基于歷史數(shù)據(jù)的數(shù)據(jù)挖掘-MahoutSpark MLlib基于增量數(shù)據(jù)的機器學習-Spark Streaming+MLlibSpark的體系架構在特定的運用場景下,Spark提供的處理方案不一定是最優(yōu),比如在實時數(shù)據(jù)流處置中,相比于Spark Streaming,Storm的實時性更強、時間切片更小,但Spark模塊間的數(shù)據(jù)可以無縫結合,因此Spark生態(tài)體系可以為大數(shù)據(jù)的處置、分析提供一站式處理方案。.Spark簡介與體系架構Spark的安裝與配置Spark的開發(fā)與運用Life is short,you
10、 need spark!.Spark的安裝與配置Spark支持在多種操作系統(tǒng)上安裝和運用,包括Windows、Linux、Ubuntu以及蘋果的Mac OS 等等。目前運用最廣泛的是Linux和Ubuntu。緣由是其安裝配置方便。.Spark的安裝與配置將Spark部署一臺單機系統(tǒng)中,需求安裝的軟件為 -Ubuntu -jdk -Hadoop-2.4.0 此為穩(wěn)定版本 -Scala 編譯spark的言語環(huán)境 -spark-bin-hadoop2.4 Spark的開源代碼 -Spark開發(fā)環(huán)境以及IDE.Spark的安裝與配置1、安裝JDK,配置Java運轉(zhuǎn)環(huán)境 測試jdk能否安裝勝利:.Spa
11、rk的安裝與配置2、安裝Hadoop,配置環(huán)境變量 測試hdfs能否配置勝利:.Spark的安裝與配置2、安裝Hadoop,配置環(huán)境變量 測試hdfs能否配置勝利:.Spark的安裝與配置3、安裝Scala,配置相應環(huán)境變量 測試Scala安裝能否勝利:.Spark的安裝與配置4、安裝Spark,配置環(huán)境變量 測試Spark能否安裝勝利:.Spark的安裝與配置4、安裝Spark,配置環(huán)境變量 測試Spark能否安裝勝利:.Spark簡介與體系架構Spark的安裝與配置Spark的開發(fā)與運用Life is short,you need spark!.Spark的開發(fā)與運用可以運用多種編程言語編寫Spark運用,包括Java、Scala、Python和R。其中Scala是Spark框架的開發(fā)言語,所以運用Scala言語可以和Spark的源代碼進展更好的無縫結合,更方便調(diào)用其相關功能。.Spar
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣州鐵路職業(yè)技術學院《采礦工程》2023-2024學年第一學期期末試卷
- 2025年浙江省安全員B證(項目經(jīng)理)考試題庫
- 2025黑龍江省安全員考試題庫附答案
- 2025年-河北省安全員《B證》考試題庫
- 《電影天堂》課件
- 植物的逆境生理-課件
- 上海市初中勞技試題解析2014
- 【大學課件】國際投資的企業(yè)形式
- 《植物病原病毒》課件
- 《探析權健腫瘤醫(yī)院》課件
- 礦山隱蔽致災普查治理報告
- 零星維修工程 投標方案(技術方案)
- 護理基礎測試題+參考答案
- 副總經(jīng)理招聘面試題與參考回答(某大型國企)2024年
- 2024年SATACT家教培訓合同
- 《ESPEN重癥病人營養(yǎng)指南(2023版)》解讀課件
- 智慧茶園監(jiān)控系統(tǒng)的設計
- 2024年宜賓發(fā)展產(chǎn)城投資限公司第三批員工公開招聘高頻難、易錯點500題模擬試題附帶答案詳解
- 2024年省宿州市“宿事速辦”12345政務服務便民熱線服務中心招考15名工作人員高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 2024年安徽省行政執(zhí)法人員資格認證考試試題含答案
- 中國2型糖尿病運動治療指南 (2024版)
評論
0/150
提交評論