銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊_第1頁
銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊_第2頁
銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊_第3頁
銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊_第4頁
銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、銀河麒麟服務(wù)器操作系統(tǒng)Spark 軟件適配手冊銀河麒麟服務(wù)器操作系統(tǒng) V4 spark 軟件適配手冊I目錄 HYPERLINK l _bookmark0 目錄I HYPERLINK l _bookmark1 概述2 HYPERLINK l _bookmark2 系統(tǒng)概述2 HYPERLINK l _bookmark3 環(huán)境概述2 HYPERLINK l _bookmark4 SPARK 軟件簡介2 HYPERLINK l _bookmark5 SPARK 的優(yōu)點(diǎn)3 HYPERLINK l _bookmark6 SPARK 架構(gòu)3 HYPERLINK l _bookmark7 SPARK 運(yùn)行流

2、程及特點(diǎn)4 HYPERLINK l _bookmark8 SPARK 運(yùn)行流程4 HYPERLINK l _bookmark9 SPARK 運(yùn)行特點(diǎn)5 HYPERLINK l _bookmark10 SPARK 軟件適配6 HYPERLINK l _bookmark11 下載并解壓 SPARK6 HYPERLINK l _bookmark12 安裝 SCALA6 HYPERLINK l _bookmark13 運(yùn)行測試6 HYPERLINK l _bookmark14 使用自帶的 PYTHON SHELL 進(jìn)行測試6 HYPERLINK l _bookmark15 使用自帶的 SPARK SH

3、ELL 進(jìn)行測試7 HYPERLINK l _bookmark16 執(zhí)行 PAGEVIEW 測試7 PAGE 8概述系統(tǒng)概述銀河麒麟服務(wù)器操作系統(tǒng)主要面向軍隊(duì)綜合電子信息系統(tǒng)、金融系統(tǒng)以及電力系統(tǒng)等國家關(guān)鍵行業(yè)的服務(wù)器應(yīng)用領(lǐng)域,突出高安全性、高可用性、高效數(shù)據(jù)處理、虛擬化等關(guān)鍵技術(shù)優(yōu)勢,針對關(guān)鍵業(yè)務(wù)構(gòu)建的豐富高效、安全可靠的功能特性,兼容適配長城、聯(lián)想、浪潮、華為、曙光等國內(nèi)主流廠商的服務(wù)器整機(jī)產(chǎn)品,以及達(dá)夢、金倉、神通、南大通用等主要國產(chǎn)數(shù)據(jù)庫和中創(chuàng)、金蝶、東方通等國產(chǎn)中間件,滿足虛擬化、云計(jì)算和大數(shù)據(jù)時(shí)代,服務(wù)器業(yè)務(wù)對操作系統(tǒng)在性能、安全性及可擴(kuò)展性等方面的需求,是一款具有高安全、高可用、

4、高可靠、高性能的自主可控服務(wù)器操作系統(tǒng)。環(huán)境概述服務(wù)器型號長城信安擎天 DF720 服務(wù)器CPU 類型飛騰 2000+處理器操作系統(tǒng)版本Kylin-4.0.2-server-sp2-2000-19050910.Z1內(nèi)核版本4.4.131spark 版本2.4.3spark 軟件簡介Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark 是 UC Berkeley AMP lab (加州大學(xué)伯克利分校的 AMP 實(shí)驗(yàn)室)所開源的類 HadoopMapReduce 的通用并行框架,Spark,擁有 Hadoop MapReduce 所具有的優(yōu)點(diǎn);但不同于 MapRed

5、uce 的是Job 中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫 HDFS , 因此 Spark 能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce 的算法。Spark 是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處, 這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark 是在 Scala 語言中實(shí)現(xiàn)的, 它將 Scala 用作其應(yīng)用程序框架。與Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可

6、以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對 Hadoop 的補(bǔ)充,可以在 Hadoop 文件系統(tǒng)中并行運(yùn)行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。Spark 的優(yōu)點(diǎn)快速與 Hadoop 的 MapReduce 相比, Spark 基于內(nèi)存的運(yùn)算要快 100 倍以上;而基于磁盤的運(yùn)算也要快 10 倍以上。Spark 實(shí)現(xiàn)了高效

7、的 DAG 執(zhí)行引擎,可以通過基于內(nèi)存來高效地處理數(shù)據(jù)流。簡介易用Spark 支持 Java、Python 和 Scala 的 API,還支持超過 80 種高級算法,使用戶可以快速構(gòu)建不同應(yīng)用。而且 Spark 支持交互式的 Python 和 Scala 的 Shell,這意味著可以非常方便的在這些 Shell 中使用 Spark 集群來驗(yàn)證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗(yàn)證等。這對于原型開發(fā)非常重要。通用性Spark 提供了統(tǒng)一的解決方案。Spark 可以用于批處理、交互式查詢(通用 SparkSQL)、實(shí)時(shí)流處理(通過 Spark Streaming)、機(jī)器學(xué)習(xí)(通

8、過 Spark MLlib)和圖計(jì)算(通過 Spark GraphX)。這些不同類型的處理都可以在同一應(yīng)用中無縫使用。Spark 統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺處理問題,減少開發(fā)和維護(hù)的人力成本和部署平臺的物理成本。當(dāng)然還有,作為統(tǒng)一的解決方案,Spark 并沒有以犧牲性能為代價(jià)。相反,在性能方面 Spark 具有巨大優(yōu)勢。可融合性Spark 非常方便的與其他開源產(chǎn)品進(jìn)行融合。比如, Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作為它的資源管理和調(diào)度器,并且可以處理所有 Hadoop 支持的數(shù)據(jù), 包括 HDFS、HBase 和

9、Cassanda 等。這對于已部署 Hadoop 集群的用戶特別重要,因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用 Spark 強(qiáng)大的處理能力。Spark 也可以不依賴第三方的資源管理器和調(diào)度器,它實(shí)現(xiàn)了 Standalone 作為其內(nèi)置資源管理器和調(diào)度框架,這樣進(jìn)一步降低了 Spark 的使用門檻,使得所有人可以非常容易地部署和使用 Spark。此外 Spark 還提供了在 EC2 上部署 Standalone 的 Spark 集群的工具。Spark 架構(gòu)spark 架構(gòu)示意圖所示:Spark Core:包含 Spark 的基本功能;尤其是定義 RDD 的 API、操作以及這兩者上的動(dòng)作。其他 Spa

10、rk 的庫都是構(gòu)建在 RDD 和 Spark Core 之上的。Spark SQL:提供通過 Apache Hive 的 SQL 變體 Hive 查詢語言(HiveQL) 與 Spark 進(jìn)行交互的 API。每個(gè)數(shù)據(jù)庫表被當(dāng)做一個(gè) RDD,Spark SQL 查詢被轉(zhuǎn)換為 Spark 操作。Spark Streaming:對實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理和控制。Spark Streaming 允許程序能夠像普通 RDD 一樣處理實(shí)時(shí)數(shù)據(jù)MLib:一個(gè)常用機(jī)器學(xué)習(xí)的算法庫,算法被實(shí)現(xiàn)為對 RDD 的 Spark 操作。這個(gè)庫包含可擴(kuò)展的學(xué)習(xí)算法,比如分類、回歸等需要對大量數(shù)據(jù)集進(jìn)行迭代的操作GraphX:控

11、制圖、并行圖操作和計(jì)算的一組算法和工具的集合。GraphX擴(kuò)展了 RDD API,包含控制圖、創(chuàng)建子圖、訪問路徑上所有頂點(diǎn)的操作Spark 架構(gòu)采用了分布式計(jì)算中的 Master-Slave 模型, Master 是對應(yīng)集群中的含有 Master 進(jìn)程的節(jié)點(diǎn), Slave 是集群中含有 Worker 進(jìn)程的節(jié)點(diǎn)。Master 作為整個(gè)集群的控制器,負(fù)責(zé)整個(gè)集群的正常運(yùn)行;Worker 相當(dāng)于是計(jì)算節(jié)點(diǎn),接收主節(jié)點(diǎn)命令與進(jìn)行狀態(tài)匯報(bào);Executor 負(fù)責(zé)任務(wù)的執(zhí)行;Client 作為用戶的客戶端負(fù)責(zé)提交應(yīng)用,Driver 負(fù)責(zé)控制一個(gè)應(yīng)用的執(zhí)行。Spark 運(yùn)行流程及特點(diǎn)Spark 運(yùn)行流程S

12、park 運(yùn)行流程圖如下:構(gòu)建 Spark Application 的運(yùn)行環(huán)境,啟動(dòng) SparkContext;SparkContext 向資源管理器(可以是 Standalone,Mesos,Yarn)申請運(yùn)行Executor 資源,并啟動(dòng) StandaloneExecutorbackend;Executor 向 SparkContext 申請 Task;SparkContext 將應(yīng)用程序分發(fā)給 Executor;SparkContext 構(gòu)建成 DAG 圖,將 DAG 圖分解成 Stage、將 Taskset 發(fā)送給Task Scheduler,最后由 Task Scheduler 將

13、Task 發(fā)送給 Executor 運(yùn)行;Task 在 Executor 上運(yùn)行,運(yùn)行完釋放所有資源。Spark 運(yùn)行特點(diǎn)每個(gè) Application 獲取專屬的 executor 進(jìn)程,該進(jìn)程在 Application 期間一直駐留,并以多線程方式運(yùn)行 Task。這種 Application 隔離機(jī)制是有優(yōu)勢的, 無論是從調(diào)度角度看(每個(gè) Driver 調(diào)度它自己的任務(wù)),還是從運(yùn)行角度看(來自不同 Application 的 Task 運(yùn)行在不同 JVM 中),當(dāng)然這樣意味著Spark Application 不能跨應(yīng)用程序共享數(shù)據(jù),除非將數(shù)據(jù)寫入外部存儲系統(tǒng)。Spark 與資源管理器無關(guān)

14、,只要能夠獲取 Executor 進(jìn)程, 并能保持互相通信就可以了。提交 SparkContext 的 Client 應(yīng)該靠近 Worker 節(jié)點(diǎn)(運(yùn)行 Executor 的節(jié)點(diǎn)), 最好是在同一個(gè) Rack 里,因?yàn)?Spark Application 運(yùn)行過程中 SparkContext 和 Executor 之間有大量的信息互換。Task 采用了數(shù)據(jù)本地性和推測執(zhí)行的優(yōu)化機(jī)制。spark 軟件適配下載并解壓 spark$wget HYPERLINK /apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz/ /apache/spark

15、/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz/$ tar xvf spark-2.4.3-bin-hadoop2.7.tgz -C /usr/local/安裝 scala$ apt install scala修改環(huán)境變量:$ vim /.bashrcexport SCALA_HOME=/usr/share/scala-2.11export PATH=$PATH:$SCALA_HOME/bin添加如下內(nèi)容:使環(huán)境變量生效:$ source /.bashrc運(yùn)行測試$ cd /usr/local/spark-2.4.3-bin-hadoop2.7/bin/$ ./pyspark lines = sc.textFile(/usr/local/spark-2.4.3-bin-hadoop2.7/README.md) lines.count() lines.first()使用自帶的 python shell 進(jìn)行測試$ ./spark-shell使用自帶的 spark shell 進(jìn)行測試運(yùn)行結(jié)果如下圖:查看當(dāng)前節(jié)點(diǎn)運(yùn)行情況:$ cd /usr/local/spark-2.4.3-bin-hadoop2.7/sbin/$ ./start-all.sh訪問:http:/YOUR_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論