課程九、大數(shù)據(jù)核心開(kāi)發(fā)技術(shù)-內(nèi)存計(jì)算框架spark精講課件0502rdd_第1頁(yè)
課程九、大數(shù)據(jù)核心開(kāi)發(fā)技術(shù)-內(nèi)存計(jì)算框架spark精講課件0502rdd_第2頁(yè)
課程九、大數(shù)據(jù)核心開(kāi)發(fā)技術(shù)-內(nèi)存計(jì)算框架spark精講課件0502rdd_第3頁(yè)
課程九、大數(shù)據(jù)核心開(kāi)發(fā)技術(shù)-內(nèi)存計(jì)算框架spark精講課件0502rdd_第4頁(yè)
課程九、大數(shù)據(jù)核心開(kāi)發(fā)技術(shù)-內(nèi)存計(jì)算框架spark精講課件0502rdd_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)Hadoop高薪直通車課程SparkRDD)講師:軒宇(北風(fēng)網(wǎng)1Spark RDD 特性2Spark R3賴RDD ShuffleSpark 內(nèi)核分析課程大綱1Spark RDD 特性2Spark R3賴RDD ShuffleSpark 內(nèi)核分析課程大綱val rdd=sc.textFile(hdfs:/bigdata-:8020/user/beifeng/spark/wc.input)val wordsort=wordcount.map(x=(x._2,x._1).sortByKey(false).map(x=(x._2,x._1)wordsort.collect()val wordc

2、ount=rdd.flatMap(_.split( ).map(_,1).reduceByKey(_ + _) wordcount.collect()Spark WordCountHDFSsc.textFile(“path”)Memoryrdd.flatMap(line = line.split( )MemoryRDDStringRDDStringhdf :/:8020/user/hadoop/spark/wc.inputRDDA Resint Distributed Dataset (RDD), the basic abstraction in Spark.Represents an imm

3、utable, partitioned collection of elementst can be operated on in parallel.RDDRDD1Spark RDD 特性2Spark R3賴RDD ShuffleSpark 內(nèi)核分析課程大綱Parallelized CollectionsExternal DatasetsCreate RDDsParallelized CollectionsExternal DatasetsRDDResint Distributed Datasets13ActionsPersistenceTransformationsCreate a new

4、datasetfrom and existing one.Returns to the driver program a value orFor caching datasets emory for futureoperations.exports da system aft a compuo a storageerformingion.Lazy in nature. They are executed only when some action is performed.Option to store on disk or RAM or mixed (Storage Level).Examp

5、le:count() reduce(func) collect take()Example:Example :persist() cache()map(func) filter(func) distinct() RDDCreate new datasets from existing onesmap()ersection()carte()flatMap()distinct()pipe()filter()groupByKey()coalesce()mapPartitions()reduceByKey()repartition()mapPartitionsWithIndex()sortByKey(

6、)partitionBy()sample()join().lazyunion()cogroup.Transformations arent appd to an RDD until an action is executed;Spark remembers set of transformations appd to base dataset;Transformationreduce()takeOrdered()collect()saveAsTextFile()count()saveAsSequenceFile()()saveAsObjectFile()take()countByKey()ta

7、keSample()foreach()eagersaveToCassandra().Cause Spark to execute recipe to transform source;Cause dao be returned to driver or saved to output;ActionRDD Persistence1Spark RDD 特性2Spark R3賴RDD ShuffleSpark 內(nèi)核分析課程大綱RDDRDD Dependencies窄依賴( narrow dependencies )子 RDD 的每個(gè)分區(qū)依賴于常數(shù)個(gè)父分區(qū)(即與數(shù)據(jù)規(guī)模無(wú)關(guān))輸入輸出一對(duì)一的算子,且結(jié)

8、果 RDD 的分區(qū)結(jié)構(gòu)不變,主要是 map 、 flatMap輸入輸出一對(duì)一,但結(jié)果 RDD 的分區(qū)結(jié)構(gòu)發(fā)生了變化,如 union 、 coalesce從輸入中選擇部分元素的算子,如 filter 、 distinct 、 subtract 、 sample寬依賴( wide dependencies )子 RDD 的每個(gè)分區(qū)依賴于所有父 RDD 分區(qū)對(duì)單個(gè) RDD 基于 key 進(jìn)行重組和 reduce ,如 groupByKey 、 reduceByKey ;對(duì)兩個(gè) RDD 基于 key 進(jìn)行 join 和重組,如 joinRDD Dependencies1Spark RDD 特性2Spa

9、rk R3賴RDD ShuffleSpark 內(nèi)核分析課程大綱Spark Shufflespark ShuffleThe shuffle is Sparks mechanism for re-distributing data那些操作會(huì)引起Shuffle?具有重新調(diào)整分區(qū)操作,eg:repartition,coalesce*BeyKeyeg: groupByKey ,reduceByKey關(guān)聯(lián)操作 eg: join ,cogroupRDD Shuffle1Spark RDD 特性2Spark R3賴RDD ShuffleSpark 內(nèi)核分析課程大綱Initializing SparkSpark

10、 SchedulerDAG Scheduler接收用戶提交的job構(gòu)建 Stage,哪個(gè)RDD 或者 Stage 輸出被物化重新提交 shuffle 輸出丟失的 stage將Taskset 傳給底層調(diào)度器DAG SchedulerTask Scheduler提交 taskset( 一組 task) 到集群運(yùn)行并為每一個(gè) TaskSet 構(gòu)建一個(gè) TaskSetManager 實(shí)例管理這個(gè) TaskSet的生命周期數(shù)據(jù)本地性決定每個(gè) Task 最佳位置 (pros-local, nocal,rack-local andthen any)推測(cè)執(zhí)行,碰到輸出 lost 要straggle 任務(wù)需要放到別的節(jié)點(diǎn)上重試出現(xiàn) shufflefetch failed 錯(cuò)誤Task SchedulerPartition & TaskTask是Executor中的執(zhí)行單元T

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論