單元9 任務(wù)9.1部署與操作Spark Local_第1頁
單元9 任務(wù)9.1部署與操作Spark Local_第2頁
單元9 任務(wù)9.1部署與操作Spark Local_第3頁
單元9 任務(wù)9.1部署與操作Spark Local_第4頁
單元9 任務(wù)9.1部署與操作Spark Local_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

單元9

Spark計算框架部署任務(wù)9.1部署與操作SparkLocal任務(wù)9.1部署與操作SparkLocal【任務(wù)場景】經(jīng)理:小張,現(xiàn)在我們的業(yè)務(wù)壓力很大,MapReduce任務(wù)經(jīng)常很長時間處理不完。有什么方法解決嗎?小張:根據(jù)我們的業(yè)務(wù)分析,Spark非常適合我們的計算任務(wù),它通過使用內(nèi)存進(jìn)行持久化存儲和計算,避免了磁盤上的中間數(shù)據(jù)存儲過程,將計算速度提高了數(shù)百倍。并且,Spark的流式計算也能解決我們的實時業(yè)務(wù)。經(jīng)理:那你研究一下,給我們演示一下把。小張:好的,我搭建一個驗證環(huán)境。任務(wù)9.1部署與操作SparkLocal任務(wù)布置:了解Spark原理和體系架構(gòu),搭建SparkLocal環(huán)境并體驗Spark運行示例。知識點1:Spark原理與體系架構(gòu)快速、分布式、可擴展、容錯的集群計算框架;Spark是基于內(nèi)存計算的大數(shù)據(jù)分布式計算框架低延遲的復(fù)雜分析;Spark是HadoopMapReduce的替代方案。MapReudce不適合迭代和交互式任務(wù),Spark主要為交互式查詢和迭代算法設(shè)計,支持內(nèi)存存儲和高效的容錯恢復(fù)。Spark擁有MapReduce具有的優(yōu)點,但不同于MapReduce,Spark中間輸出結(jié)果可以保存在內(nèi)存中,減少讀寫HDFS的次數(shù)知識點1:Spark原理與體系架構(gòu)知識點1:Spark原理與體系架構(gòu)Spark特點:速度快一般情況下,對于迭代次數(shù)較多的應(yīng)用程序,Spark程序在內(nèi)存中的運行速度是HadoopMapReduce運行速度的100多倍,在磁盤上的運行速度是HadoopMapReduce運行速度的10多倍。知識點1:Spark原理與體系架構(gòu)Spark特點:易用性Spark支持使用Scala、Python、Java及R語言快速編寫應(yīng)用。同時Spark提供超過80個高級運算符,使得編寫并行應(yīng)用程序變得容易并且可以在Scala、Python或R的交互模式下使用Spark。知識點1:Spark原理與體系架構(gòu)Spark特點:通用性

SparkCore:包含Spark的基本功能;尤其是定義RDD的API、操作以及這兩者上的動作。其他Spark的庫都是構(gòu)建在RDD和SparkCore之上。SparkSQL:提供通過ApacheHive的SQL變體Hive查詢語言(HiveQL)與Spark進(jìn)行交互的API。每個數(shù)據(jù)庫表被當(dāng)做一個RDD,SparkSQL查詢被轉(zhuǎn)換為Spark操作。SparkStreaming:對實時數(shù)據(jù)流進(jìn)行處理和控制。SparkStreaming允許程序能夠像普通RDD一樣處理實時數(shù)據(jù)。MLlib:一個常用機器學(xué)習(xí)算法庫,算法被實現(xiàn)為對RDD的Spark操作。這個庫包含可擴展的學(xué)習(xí)算法,比如分類、回歸等需要對大量數(shù)據(jù)集進(jìn)行迭代的操作。GraphX:控制圖、并行圖操作和計算的一組算法和工具的集合。GraphX擴展了RDDAPI,包含控制圖、創(chuàng)建子圖、訪問路徑上所有頂點的操作。知識點1:Spark原理與體系架構(gòu)Spark特點:隨處運行用戶可以使用Spark的獨立集群模式運行Spark,也可以在EC2(亞馬遜彈性計算云)、HadoopYARN或者ApacheMesos上運行Spark。并且可以從HDFS、Cassandra、HBase、Hive、Tachyon和任何分布式文件系統(tǒng)讀取數(shù)據(jù)知識點1:Spark原理與體系架構(gòu)Spark體系架構(gòu):知識點1:Spark原理與體系架構(gòu)

Local模式即單機模式,用單機的多個線程來模擬Spark分布式計算,如果在命令語句中不加任何配置,則默認(rèn)是Local模式,在本地運行。Local模式就是運行在一臺計算機上的模式,通常就是用于在本機上練手和測試。local:所有計算都運行在一個線程當(dāng)中,沒有任何并行計算,通常我們在本機執(zhí)行一些測試代碼,或者練手,就用這種模式;local[K]:指定使用幾個線程來運行計算,比如local[4]就是運行4個Worker線程。通常我們的Cpu有幾個Core,就指定幾個線程,最大化利用Cpu的計算能力。local[*]:這種模式直接按照Cpu最多Cores來設(shè)置線程數(shù)了SparkLocal模式部署過程部署SparkLocal模式按照以下3個步驟完成;準(zhǔn)備操作系統(tǒng)環(huán)境部署SparkLocal驗證SparkLocal

SparkLocal模式部署過程準(zhǔn)備操作系統(tǒng)環(huán)境

操作系統(tǒng)準(zhǔn)備操作和前面部署Hadoop平臺相似都需要進(jìn)行以下準(zhǔn)備工作:

(1)關(guān)閉防火墻

(2)配置主機名、IP地址

(3)禁用selinux(4)安裝部署JDK

以上操作步驟和任務(wù)2.1基本一致,詳細(xì)步驟可參考任務(wù)2.1。SparkLocal模式部署過程2.部署SparkLocal下載并解壓spark安裝包下載spark-3.2.0-bin-hadoop3.2.tgz文件,解壓并放到/usr/local目錄下。[root@localhostlocal]#tar-zxvfspark-3.2.0-bin-hadoop3.2.tgz-C/usr/local[root@localhostlocal]#mvspark-3.2.0-bin-hadoop3.2spark

配置環(huán)境變量:vim/etc/profile在配置文件中增加以下3行:exportSPARK_HOME=/opt/sparkexportSPARK_CONF_DIR=$SPARK_HOME/confexportPATH=$PATH:$SPARK_HOME/bin使環(huán)境變量生效:

source/etc/profile為啟動pyspark,安裝pyspark客戶端[root@localhost~]#yuminstallpython3[root@localhost~]#pip3installpysparkSparkLocal模式部署過程3.驗證SparkLocal:運行spark-submit命令提交運行Spark任務(wù):–master指定Master的地址,默認(rèn)為Local–class:你的應(yīng)用的啟動類(如org.apache.spark.examples.SparkPi)–deploy-mode:是否發(fā)布你的驅(qū)動到worker節(jié)點(cluster)或者作為一個本地客戶端(client)(default:client)*–conf:任意的Spark配置屬性,格式key=value.如果值包含空格,可以加引號“key=value”[root@localhost~]#bin/spark-submit\--class<main-class>\--master<master-url>\--deploy-mode<deploy-mode>\--conf<key>=<value><application-jar>[application-0arguments]SparkLocal模式部署過程

Spark運行示例,計算圓周率運行結(jié)果“Piisroughly3.1415191415191415”,執(zhí)行成功。[root@localhost~]#]#spark-submit--classorg.apache.spark.examples.SparkPi--masterlocalexamples/jars/spark-examples*.jar102021-11-3023:04:53,331INFO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論