銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊

上傳人：賈*** IP屬地：四川上傳時(shí)間：2022-08-17 格式：DOCX 頁數(shù)：9 大小：583.01KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、銀河麒麟服務(wù)器操作系統(tǒng)Spark 軟件適配手冊銀河麒麟服務(wù)器操作系統(tǒng) V4 spark 軟件適配手冊I目錄 HYPERLINK l _bookmark0 目錄I HYPERLINK l _bookmark1 概述2 HYPERLINK l _bookmark2 系統(tǒng)概述2 HYPERLINK l _bookmark3 環(huán)境概述2 HYPERLINK l _bookmark4 SPARK 軟件簡介2 HYPERLINK l _bookmark5 SPARK 的優(yōu)點(diǎn)3 HYPERLINK l _bookmark6 SPARK 架構(gòu)3 HYPERLINK l _bookmark7 SPARK 運(yùn)行流

2、程及特點(diǎn)4 HYPERLINK l _bookmark8 SPARK 運(yùn)行流程4 HYPERLINK l _bookmark9 SPARK 運(yùn)行特點(diǎn)5 HYPERLINK l _bookmark10 SPARK 軟件適配6 HYPERLINK l _bookmark11 下載并解壓 SPARK6 HYPERLINK l _bookmark12 安裝 SCALA6 HYPERLINK l _bookmark13 運(yùn)行測試6 HYPERLINK l _bookmark14 使用自帶的 PYTHON SHELL 進(jìn)行測試6 HYPERLINK l _bookmark15 使用自帶的 SPARK SH

3、ELL 進(jìn)行測試7 HYPERLINK l _bookmark16 執(zhí)行 PAGEVIEW 測試7 PAGE 8概述系統(tǒng)概述銀河麒麟服務(wù)器操作系統(tǒng)主要面向軍隊(duì)綜合電子信息系統(tǒng)、金融系統(tǒng)以及電力系統(tǒng)等國家關(guān)鍵行業(yè)的服務(wù)器應(yīng)用領(lǐng)域，突出高安全性、高可用性、高效數(shù)據(jù)處理、虛擬化等關(guān)鍵技術(shù)優(yōu)勢，針對關(guān)鍵業(yè)務(wù)構(gòu)建的豐富高效、安全可靠的功能特性，兼容適配長城、聯(lián)想、浪潮、華為、曙光等國內(nèi)主流廠商的服務(wù)器整機(jī)產(chǎn)品，以及達(dá)夢、金倉、神通、南大通用等主要國產(chǎn)數(shù)據(jù)庫和中創(chuàng)、金蝶、東方通等國產(chǎn)中間件，滿足虛擬化、云計(jì)算和大數(shù)據(jù)時(shí)代，服務(wù)器業(yè)務(wù)對操作系統(tǒng)在性能、安全性及可擴(kuò)展性等方面的需求，是一款具有高安全、高可用、

4、高可靠、高性能的自主可控服務(wù)器操作系統(tǒng)。環(huán)境概述服務(wù)器型號長城信安擎天 DF720 服務(wù)器CPU 類型飛騰 2000+處理器操作系統(tǒng)版本Kylin-4.0.2-server-sp2-2000-19050910.Z1內(nèi)核版本4.4.131spark 版本2.4.3spark 軟件簡介Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark 是 UC Berkeley AMP lab (加州大學(xué)伯克利分校的 AMP 實(shí)驗(yàn)室)所開源的類 HadoopMapReduce 的通用并行框架，Spark，擁有 Hadoop MapReduce 所具有的優(yōu)點(diǎn)；但不同于 MapRed

5、uce 的是Job 中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫 HDFS ，因此 Spark 能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce 的算法。Spark 是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負(fù)載。Spark 是在 Scala 語言中實(shí)現(xiàn)的，它將 Scala 用作其應(yīng)用程序框架。與Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可

6、以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè)，但是實(shí)際上它是對 Hadoop 的補(bǔ)充，可以在 Hadoop 文件系統(tǒng)中并行運(yùn)行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開發(fā)，可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。Spark 的優(yōu)點(diǎn)快速與 Hadoop 的 MapReduce 相比， Spark 基于內(nèi)存的運(yùn)算要快 100 倍以上；而基于磁盤的運(yùn)算也要快 10 倍以上。Spark 實(shí)現(xiàn)了高效

7、的 DAG 執(zhí)行引擎，可以通過基于內(nèi)存來高效地處理數(shù)據(jù)流。簡介易用Spark 支持 Java、Python 和 Scala 的 API，還支持超過 80 種高級算法，使用戶可以快速構(gòu)建不同應(yīng)用。而且 Spark 支持交互式的 Python 和 Scala 的 Shell，這意味著可以非常方便的在這些 Shell 中使用 Spark 集群來驗(yàn)證解決問題的方法，而不是像以前一樣，需要打包、上傳集群、驗(yàn)證等。這對于原型開發(fā)非常重要。通用性Spark 提供了統(tǒng)一的解決方案。Spark 可以用于批處理、交互式查詢（通用 SparkSQL）、實(shí)時(shí)流處理（通過 Spark Streaming）、機(jī)器學(xué)習(xí)（通

8、過 Spark MLlib）和圖計(jì)算（通過 Spark GraphX）。這些不同類型的處理都可以在同一應(yīng)用中無縫使用。Spark 統(tǒng)一的解決方案非常具有吸引力，畢竟任何公司都想用統(tǒng)一的平臺處理問題，減少開發(fā)和維護(hù)的人力成本和部署平臺的物理成本。當(dāng)然還有，作為統(tǒng)一的解決方案，Spark 并沒有以犧牲性能為代價(jià)。相反，在性能方面 Spark 具有巨大優(yōu)勢。可融合性Spark 非常方便的與其他開源產(chǎn)品進(jìn)行融合。比如， Spark 可以使用 Hadoop 的 YARN 和 Apache Mesos 作為它的資源管理和調(diào)度器，并且可以處理所有 Hadoop 支持的數(shù)據(jù)，包括 HDFS、HBase 和

9、Cassanda 等。這對于已部署 Hadoop 集群的用戶特別重要，因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用 Spark 強(qiáng)大的處理能力。Spark 也可以不依賴第三方的資源管理器和調(diào)度器，它實(shí)現(xiàn)了 Standalone 作為其內(nèi)置資源管理器和調(diào)度框架，這樣進(jìn)一步降低了 Spark 的使用門檻，使得所有人可以非常容易地部署和使用 Spark。此外 Spark 還提供了在 EC2 上部署 Standalone 的 Spark 集群的工具。Spark 架構(gòu)spark 架構(gòu)示意圖所示：Spark Core：包含 Spark 的基本功能；尤其是定義 RDD 的 API、操作以及這兩者上的動(dòng)作。其他 Spa

10、rk 的庫都是構(gòu)建在 RDD 和 Spark Core 之上的。Spark SQL：提供通過 Apache Hive 的 SQL 變體 Hive 查詢語言（HiveQL）與 Spark 進(jìn)行交互的 API。每個(gè)數(shù)據(jù)庫表被當(dāng)做一個(gè) RDD，Spark SQL 查詢被轉(zhuǎn)換為 Spark 操作。Spark Streaming：對實(shí)時(shí)數(shù)據(jù)流進(jìn)行處理和控制。Spark Streaming 允許程序能夠像普通 RDD 一樣處理實(shí)時(shí)數(shù)據(jù)MLib：一個(gè)常用機(jī)器學(xué)習(xí)的算法庫，算法被實(shí)現(xiàn)為對 RDD 的 Spark 操作。這個(gè)庫包含可擴(kuò)展的學(xué)習(xí)算法，比如分類、回歸等需要對大量數(shù)據(jù)集進(jìn)行迭代的操作GraphX：控

11、制圖、并行圖操作和計(jì)算的一組算法和工具的集合。GraphX擴(kuò)展了 RDD API，包含控制圖、創(chuàng)建子圖、訪問路徑上所有頂點(diǎn)的操作Spark 架構(gòu)采用了分布式計(jì)算中的 Master-Slave 模型， Master 是對應(yīng)集群中的含有 Master 進(jìn)程的節(jié)點(diǎn)， Slave 是集群中含有 Worker 進(jìn)程的節(jié)點(diǎn)。Master 作為整個(gè)集群的控制器，負(fù)責(zé)整個(gè)集群的正常運(yùn)行；Worker 相當(dāng)于是計(jì)算節(jié)點(diǎn)，接收主節(jié)點(diǎn)命令與進(jìn)行狀態(tài)匯報(bào)；Executor 負(fù)責(zé)任務(wù)的執(zhí)行；Client 作為用戶的客戶端負(fù)責(zé)提交應(yīng)用，Driver 負(fù)責(zé)控制一個(gè)應(yīng)用的執(zhí)行。Spark 運(yùn)行流程及特點(diǎn)Spark 運(yùn)行流程S

12、park 運(yùn)行流程圖如下：構(gòu)建 Spark Application 的運(yùn)行環(huán)境，啟動(dòng) SparkContext；SparkContext 向資源管理器（可以是 Standalone，Mesos，Yarn）申請運(yùn)行Executor 資源，并啟動(dòng) StandaloneExecutorbackend；Executor 向 SparkContext 申請 Task；SparkContext 將應(yīng)用程序分發(fā)給 Executor；SparkContext 構(gòu)建成 DAG 圖，將 DAG 圖分解成 Stage、將 Taskset 發(fā)送給Task Scheduler，最后由 Task Scheduler 將

13、Task 發(fā)送給 Executor 運(yùn)行；Task 在 Executor 上運(yùn)行，運(yùn)行完釋放所有資源。Spark 運(yùn)行特點(diǎn)每個(gè) Application 獲取專屬的 executor 進(jìn)程，該進(jìn)程在 Application 期間一直駐留，并以多線程方式運(yùn)行 Task。這種 Application 隔離機(jī)制是有優(yōu)勢的，無論是從調(diào)度角度看（每個(gè) Driver 調(diào)度它自己的任務(wù)），還是從運(yùn)行角度看（來自不同 Application 的 Task 運(yùn)行在不同 JVM 中），當(dāng)然這樣意味著Spark Application 不能跨應(yīng)用程序共享數(shù)據(jù)，除非將數(shù)據(jù)寫入外部存儲系統(tǒng)。Spark 與資源管理器無關(guān)

14、，只要能夠獲取 Executor 進(jìn)程，并能保持互相通信就可以了。提交 SparkContext 的 Client 應(yīng)該靠近 Worker 節(jié)點(diǎn)（運(yùn)行 Executor 的節(jié)點(diǎn)），最好是在同一個(gè) Rack 里，因?yàn)?Spark Application 運(yùn)行過程中 SparkContext 和 Executor 之間有大量的信息互換。Task 采用了數(shù)據(jù)本地性和推測執(zhí)行的優(yōu)化機(jī)制。spark 軟件適配下載并解壓 spark$wget HYPERLINK /apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz/ /apache/spark

15、/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz/$ tar xvf spark-2.4.3-bin-hadoop2.7.tgz -C /usr/local/安裝 scala$ apt install scala修改環(huán)境變量：$ vim /.bashrcexport SCALA_HOME=/usr/share/scala-2.11export PATH=$PATH:$SCALA_HOME/bin添加如下內(nèi)容：使環(huán)境變量生效：$ source /.bashrc運(yùn)行測試$ cd /usr/local/spark-2.4.3-bin-hadoop2.7/bin/$ ./pyspark lines = sc.textFile(/usr/local/spark-2.4.3-bin-hadoop2.7/README.md) lines.count() lines.first()使用自帶的 python shell 進(jìn)行測試$ ./spark-shell使用自帶的 spark shell 進(jìn)行測試運(yùn)行結(jié)果如下圖：查看當(dāng)前節(jié)點(diǎn)運(yùn)行情況：$ cd /usr/local/spark-2.4.3-bin-hadoop2.7/sbin/$ ./start-all.sh訪問:http:/YOUR_

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊

文檔簡介

溫馨提示

最新文檔

評論

銀河麒麟服務(wù)器操作系統(tǒng)-Spark適配手冊

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔