![《spark編程基礎(chǔ)》課程考試復(fù)習(xí)題庫及答案_第1頁](http://file4.renrendoc.com/view6/M02/1A/05/wKhkGWd70vmAcN9fAADELc9Bdz0375.jpg)
![《spark編程基礎(chǔ)》課程考試復(fù)習(xí)題庫及答案_第2頁](http://file4.renrendoc.com/view6/M02/1A/05/wKhkGWd70vmAcN9fAADELc9Bdz03752.jpg)
![《spark編程基礎(chǔ)》課程考試復(fù)習(xí)題庫及答案_第3頁](http://file4.renrendoc.com/view6/M02/1A/05/wKhkGWd70vmAcN9fAADELc9Bdz03753.jpg)
![《spark編程基礎(chǔ)》課程考試復(fù)習(xí)題庫及答案_第4頁](http://file4.renrendoc.com/view6/M02/1A/05/wKhkGWd70vmAcN9fAADELc9Bdz03754.jpg)
![《spark編程基礎(chǔ)》課程考試復(fù)習(xí)題庫及答案_第5頁](http://file4.renrendoc.com/view6/M02/1A/05/wKhkGWd70vmAcN9fAADELc9Bdz03755.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGEPAGE1《spark編程基礎(chǔ)》課程考試復(fù)習(xí)題庫及答案多選題1.以下哪些是Spark的組件?()A、MLBase/MLlibB、GraphXC、SparkRD、Matlab答案:ABC2.在Spark中,對(duì)RDD的Action操作有哪些?()A、saveAsTextFileB、saveAsSequenceFileC、saveAsObjectFileD、saveAsParquet答案:ABC3.在Spark中,對(duì)RDD的transformation操作有哪些?()A、flatmapB、sleC、reduceByKeyD、reduce答案:ABC4.關(guān)于spark應(yīng)用程序部署,描述正確的有?()A、使用java開發(fā)的spark程序,需要編譯,部署到服務(wù)器執(zhí)行B、使用scala開發(fā)的spark程序,需要編譯,部署到服務(wù)器執(zhí)行C、使用python開發(fā)的spark程序,需要編譯,部署到服務(wù)器執(zhí)行D、使用scala開發(fā)的spark程序,不需要編譯,直接部署到服務(wù)器執(zhí)行答案:AB5.Spark是什么()A、Spark是基于內(nèi)存計(jì)算的框架B、Spark是基于磁盤計(jì)算的框架C、Spark是一種基于RDD計(jì)算框架D、Spark是一種并行計(jì)算框架答案:ACD6.開發(fā)spark應(yīng)用程序,常用的開發(fā)語言有哪些?()A、PythonB、ScalaC、JavaD、objectC答案:ABC7.Scala中可以定義哪些類型的類?A、對(duì)象類B、實(shí)例類C、抽象類D、特質(zhì)類答案:ABCD8.Spark使用的資源管理器有哪些?()A、MesosB、standaloneC、yarnD、cloud答案:ABCD9.spark的數(shù)據(jù),可以存儲(chǔ)在哪些地方?()A、HDFSB、CassandraC、HbaseD、S3答案:ABCD10.SparkStreaming的數(shù)據(jù)來源有哪些?()A、KafkaB、FlumeC、HDFSD、Twitter/Kinesis答案:ABCD11.Scala中的異常處理機(jī)制包括哪些?A、try/catch塊B、throw語句C、try/finally塊D、catch/finally塊答案:ABC12.進(jìn)入sparkshell,可以傳遞哪些參數(shù)?()A、--masterB、--driver-memoryC、--driver-coresD、--executor-cores答案:ABCD13.大數(shù)據(jù)處理主要的三種場(chǎng)景為()A、批處理B、交互處理C、流式計(jì)算D、事務(wù)處理答案:ABC14.spark都有哪些組件?()A、SparkSQLB、SparkStreamingC、MLlibD、GraphX答案:ABCD15.parkRDD持久化存儲(chǔ)數(shù)據(jù)來源,有哪些?()A、HDFSB、CassandraC、HbaseD、S3答案:ABCD16.關(guān)于SparkRDD,說法正確的有哪些?()A、RDD可以來源于持久存儲(chǔ),也可以從其他RDD轉(zhuǎn)換B、RDD狀態(tài)不可變,不能修改C、支持元素根據(jù)Key進(jìn)行分區(qū),保存到多個(gè)節(jié)點(diǎn)上D、可以設(shè)置存儲(chǔ)級(jí)別(內(nèi)存、磁盤等)來進(jìn)行持久化答案:ABCD17.在Spark中,對(duì)RDD的transformation操作有哪些?()A、mapB、unionC、joinD、istinct答案:ABCD18.Scala中的控制結(jié)構(gòu)包括哪些?A、if/else結(jié)構(gòu)B、for循環(huán)結(jié)構(gòu)C、while循環(huán)結(jié)構(gòu)D、o/while循環(huán)結(jié)構(gòu)答案:ABC19.Spark與Hadoop的區(qū)別()。A、Spark是基于內(nèi)存計(jì)算框架,而Hadoop基于硬盤計(jì)算框架B、Spark是基于硬盤計(jì)算框架,而Hadoop基于內(nèi)存計(jì)算框架C、Spark是一站式計(jì)算框架,而Hadoop只適合離線處理計(jì)算框架D、Spark只適合離線處理計(jì)算框架,而Hadoop是一站式計(jì)算框架答案:AC20.以下對(duì)SparkSQL的描述正確的有?()A、SparkSQL運(yùn)行開發(fā)人員之間處理RDDB、SparkSQL可以直接查詢hive中的數(shù)據(jù)C、SparkSQL運(yùn)行開發(fā)人員之間使用SQL進(jìn)行復(fù)制的數(shù)據(jù)分析D、SparkSQL的性能上,和Hive類似。答案:ABC21.可以使用哪些語言來編寫spark應(yīng)用程序?()A、javaB、scalaC、pythonD、R答案:ABCD22.以下哪些操作為窄依賴()A、mapB、filterC、unionD、groupByKey答案:ABC23.Spark中RDD的數(shù)據(jù)來源有哪些?()A、存儲(chǔ)設(shè)備獲取B、從其他RDD轉(zhuǎn)換來C、從磁盤讀取文件D、從hdfs讀取數(shù)據(jù)答案:ABCD24.在Spark中,對(duì)RDD的Action操作有哪些?()A、takeB、takeSleC、foreachD、countByKey答案:ABCD25.關(guān)于Sparkstreaming和storm描述正確的是?()A、Storm逐條處理數(shù)據(jù),而streaming有一定的時(shí)間窗口B、storm是亞秒級(jí),而streaming有一定的延遲C、storm和streaming都是由scala開發(fā)D、streaming可以完全替代storm答案:AB26.Scala中的參數(shù)傳遞方式有哪些?A、值傳遞B、引用傳遞C、默認(rèn)傳遞D、上下文傳遞答案:ABD27.Spark的運(yùn)行模式有哪些?()A、localB、StandaloneC、onYarnoronmesosD、onCloud答案:ABCD28.SparkStreaming具有哪些特性?()A、可伸縮B、高吞吐量C、容錯(cuò)D、實(shí)時(shí)流處理答案:ABCD29.下列對(duì)spark描述正確的有?()A、spark是基于內(nèi)存計(jì)算的B、spark處理大量數(shù)據(jù)的一個(gè)快速通用的引擎C、spark由lab實(shí)驗(yàn)室開發(fā)D、spark目前是apache的頂級(jí)項(xiàng)目答案:ABCD30.關(guān)于spark可視化程序,默認(rèn)端口,描述正確的有()A、8080顯示master運(yùn)行情況B、4040可以看到j(luò)ob相關(guān)的信息C、8081顯示的是worker運(yùn)行的情況D、4040可以看到storage相關(guān)的信息答案:ABCD31.Scala中可以定義哪些類型的函數(shù)?A、有參函數(shù)B、無參函數(shù)C、返回值函數(shù)D、嵌套函數(shù)答案:ABCD32.Spark的容錯(cuò)機(jī)制是()。A、checkpointB、persistC、acheD、lineage答案:AD33.spark基本特點(diǎn)有哪些?()A、EaseofuseB、GeneralityC、RunseverywhereD、Speed答案:ABCD34.在如下選項(xiàng)中,選出窄依賴項(xiàng)()A、mapB、flatmapC、unionD、istinct答案:ABC35.在Sparkshell中,導(dǎo)入數(shù)據(jù)的過程,哪些是正確的?()A、valrdd=sc.parallelize()B、valrdd=sc.textFile()C、valrddnew=rddold.map()D、valrddnew=rddold.filter()答案:ABCD36.spark和hadoop對(duì)比,說法正確的是?()A、Hadoop中間結(jié)果會(huì)存儲(chǔ)在磁盤上B、spark中間結(jié)果會(huì)存儲(chǔ)在內(nèi)存中C、Spark相對(duì)于hadoop提供了更多的操作D、Spark已經(jīng)完全取代hadoop答案:ABC37.對(duì)于spark開發(fā)環(huán)境搭建,所依賴的環(huán)境必須要有哪些()A、jdkB、scalaC、pythonD、spark答案:ABD38.在spark中,以下選項(xiàng),描述正確的有?()A、一個(gè)應(yīng)用程序,可能會(huì)有多個(gè)jobB、一個(gè)job,可能對(duì)應(yīng)一個(gè)stageC、一個(gè)stage,可能會(huì)對(duì)應(yīng)多個(gè)taskD、一個(gè)job,可能對(duì)應(yīng)多個(gè)stage答案:ACD39.在Spark中,對(duì)RDD的Action操作有哪些?()A、ReduceB、collectC、ountD、first答案:ABCD40.以下對(duì)SparkCore描述正確的有?()A、引入了RDDB、移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)C、使用線程池來減少task啟動(dòng)開銷D、使用akka作為通訊框架答案:ABCD判斷題1.Scala是一種面向?qū)ο蠛秃瘮?shù)式編程語言。A、正確B、錯(cuò)誤答案:A2.Scala中的print和println兩個(gè)方法無區(qū)別()A、正確B、錯(cuò)誤答案:B3.Scala中的“type”關(guān)鍵字可以用來定義類型別名。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:A4.spark是由java語言開發(fā)()A、正確B、錯(cuò)誤答案:B5.Scala中的“case”關(guān)鍵字可以用來定義案例類。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:A6.由于Spark提供一站式的解決方案,而且sparkstreaming和apachestorm功能相似,所以sparkStreaming可以完全替代apachestorm。()A、正確B、錯(cuò)誤答案:B7.Estimator翻譯成轉(zhuǎn)換器()A、正確B、錯(cuò)誤答案:B8.在對(duì)sparkstreaming的測(cè)試中,使用nc-lk9999,可以向9999端口,發(fā)送數(shù)據(jù)。()A、正確B、錯(cuò)誤答案:A9.subtract是對(duì)兩個(gè)RDD進(jìn)行交集運(yùn)算()A、正確B、錯(cuò)誤答案:B10.在Scala中,可以用“var”關(guān)鍵字聲明可變對(duì)象。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:A11.PipeLine翻譯為流水線或者管道。()A、正確B、錯(cuò)誤答案:A12.MLlib是Spark的機(jī)器學(xué)習(xí)(MachineLearning)庫()A、正確B、錯(cuò)誤答案:A13.在spark對(duì)RDD的操作中,每個(gè)action操作,可以看成是一個(gè)job()A、正確B、錯(cuò)誤答案:A14.Scala中的變量必須先聲明后使用。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:B15.Scala中的“List”類型是一種可變集合類型。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:B16.Scala中的“object”關(guān)鍵字可以用來定義單例對(duì)象。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:A17.next可以返回迭代器的下一個(gè)元素()A、正確B、錯(cuò)誤答案:A18.MapReduce是一種分布式并行編程模型。()A、正確B、錯(cuò)誤答案:A19.在spark中,對(duì)rdd執(zhí)行transformation操作后,現(xiàn)有的RDD并不會(huì)立刻通過轉(zhuǎn)換,生產(chǎn)一個(gè)新的RDD。()A、正確B、錯(cuò)誤答案:A20.編寫spark應(yīng)用程序,首先需要?jiǎng)?chuàng)建sparkcontext對(duì)象。()A、正確B、錯(cuò)誤答案:A21.Load命令導(dǎo)入腳本,一次運(yùn)行多行程序()A、正確B、錯(cuò)誤答案:A22.Spark運(yùn)行模式中,lacal這種模式,可以應(yīng)用于生產(chǎn)環(huán)境中()A、正確B、錯(cuò)誤答案:B23.Scala中的變量必須先聲明后使用。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:B24.在spark的web圖形界面master:8080,可以看到master的運(yùn)行情況()A、正確B、錯(cuò)誤答案:A25.Transformer翻譯成估計(jì)器或評(píng)估器()A、正確B、錯(cuò)誤答案:B26.intersection是對(duì)兩個(gè)RDD進(jìn)行并集運(yùn)算()A、正確B、錯(cuò)誤答案:B27.hasNext用于檢測(cè)是否還有下一個(gè)元素()A、正確B、錯(cuò)誤答案:A28.Scala中的“null”關(guān)鍵字可以用來表示對(duì)象未被初始化。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:A29.在Spark中,如果RDD數(shù)據(jù)大于內(nèi)存空間,那么執(zhí)行persist()方法,只能將數(shù)據(jù)緩存到磁盤中()A、正確B、錯(cuò)誤答案:A30.在spark的web圖形界面master:4040,可以看到執(zhí)行persist后,都有是否緩存數(shù)據(jù)成功()A、正確B、錯(cuò)誤答案:A31.Scala中的“println”函數(shù)可以用來輸出信息到控制臺(tái)。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:A32.在spark中,RDD的數(shù)據(jù)來源,可以是持久化的存儲(chǔ),也可以來自于RDD的轉(zhuǎn)換。()A、正確B、錯(cuò)誤答案:A33.spark運(yùn)行模式中,onyarn這種模式,不可以應(yīng)用于生產(chǎn)環(huán)境中()A、正確B、錯(cuò)誤答案:B34.spark運(yùn)行模式中,onyarn這種模式,可以應(yīng)用于生產(chǎn)環(huán)境中()A、正確B、錯(cuò)誤答案:A35.在Spark中,對(duì)RDD數(shù)據(jù)執(zhí)行cache()方法,數(shù)據(jù)默認(rèn)緩存在磁盤中。A、正確B、錯(cuò)誤答案:B36.命令sudotar-zxf/data/scala-2.12.15.tgz-C/apps功能是將scala安裝包解壓縮()A、正確B、錯(cuò)誤答案:A37.在Spark中,對(duì)RDD的transformation操作,是延遲執(zhí)行的。()A、正確B、錯(cuò)誤答案:A38.valintValueArr=newArrayInt是聲明一個(gè)長度為3的字符數(shù)組()A、正確B、錯(cuò)誤答案:B39.在spark中,對(duì)rdd執(zhí)行transformation操作后,現(xiàn)有的RDD會(huì)立刻通過轉(zhuǎn)換,生產(chǎn)一個(gè)新的RDD。()A、正確B、錯(cuò)誤答案:B40.union是對(duì)兩個(gè)RDD進(jìn)行差集運(yùn)算()A、正確B、錯(cuò)誤答案:B41.Spark是2009年誕生于伯克利大學(xué)Lab的基于內(nèi)存計(jì)算框架()A、正確B、錯(cuò)誤答案:A42.Scala中的函數(shù)類型指的是函數(shù)的返回類型。(對(duì)/錯(cuò))A、正確B、錯(cuò)誤答案:B填空題1.標(biāo)注點(diǎn)是一種()的本地向量。答案:帶有標(biāo)簽2.鍵值對(duì)轉(zhuǎn)換操作()是對(duì)具有相同鍵的值進(jìn)行分組。答案:groupByKey()3.Scala中,____關(guān)鍵字用來表示一個(gè)函數(shù)類型。答案:Function4.階段():答案:是作業(yè)的基本調(diào)度單位,一個(gè)作業(yè)會(huì)分為多組任務(wù)5.Scala中,____關(guān)鍵字用來表示一個(gè)不可變集合。答案:Set6.使用()方法將一個(gè)RDD標(biāo)記為持久化。答案:persist()7.RDD操作包括轉(zhuǎn)換操作和()兩種類型。答案:行動(dòng)操作8.RDD是()的簡(jiǎn)稱。答案:彈性分布式數(shù)據(jù)集9.在spark-shell中讀取目錄:/data/word.txt文件命令為:v()答案:alrdd1=sc.textFile(file:///data/word.txt10.Scala中,____關(guān)鍵字用來聲明一個(gè)可變變量。答案:var11.()是對(duì)數(shù)據(jù)提取、轉(zhuǎn)換和加載答案:ETL12.應(yīng)用():答案:用戶編寫的Spark應(yīng)用程序13.Scala中,____用來定義一個(gè)可變集合。答案:List14.importorg.apache.spark.ml.linalg.{Vector,Vectors}valsv2:Vector=(),()))生成的稀疏向量為.)答案:Vectors.sparse(3,Seq((0,2.0|2,8.015.使用()方法重新設(shè)置RDD分區(qū)個(gè)數(shù)。答案:repartition()16.數(shù)學(xué)家()設(shè)計(jì)了“λ演算答案:阿隆佐?邱奇|AlonzoChurch17.DataFrame操作中()操作可以實(shí)現(xiàn)條件查詢。答案:filter()18.程序valarray=Array()for(){breakable{if()breakprintln()}}語句將輸出()答案:1,3,10,5,4|i<-array|i>5|i|1,3,5,419.RDD:是()彈性分布式數(shù)據(jù)集的簡(jiǎn)稱答案:ResillientDistributedDataset20.vallist=List(),listreduceRight{_-_}運(yùn)行結(jié)果()答案:1,2,3,4,5|321.程序valr=for()ifi%2==0)yield{print();i}的輸出結(jié)果為()。答案:i<-Array(1,2,3,4,5)|i|2422.作業(yè)():答案:一個(gè)作業(yè)包含多個(gè)RDD及作用于相應(yīng)RDD上的各種操作23.本地向量分為稠密向量和()兩種。答案:稀疏向量24.Scala的數(shù)據(jù)類型包括:()答案:Byte、Char、Short、Int、Long、Float、Double和Boolean25.Executor:是運(yùn)行在工作節(jié)點(diǎn)()的一個(gè)進(jìn)程,負(fù)責(zé)運(yùn)行Task答案:WorkerNode26.程序valarray=Array()breakable{for(){if()breakprintln()}}將輸出()答案:1,3,10,5,4|i<-array|i>5|i|1,327.vallist=List(),list.reduce(),運(yùn)行結(jié)果()答案:1,2,3,4,5|_+_|1528.()()將圖靈的理論物化成為實(shí)際的物理實(shí)體,成為了計(jì)算機(jī)體系結(jié)構(gòu)的奠基者答案:馮·諾依曼|JohnVonNeumann29.Scala中,____關(guān)鍵字用來定義一個(gè)類型別名。答案:type30.valtuple=()、Print()結(jié)果是:()答案:“hello”,2015,21.3|tuple._2|201531.Scala中,____關(guān)鍵字用來定義一個(gè)案例類。答案:case32.編程范式是指計(jì)算機(jī)編程的基本風(fēng)格或典范模式。常見的編程范式主要包括()程和函數(shù)式編程答案:命令式編33.Spark生態(tài)系統(tǒng)主要包括:()、SparkSQL、()、StructuredStreaming、SparkMlib和GraphX。答案:SparkCore|SparkStreaming34.HDFS的全稱為:()。答案:Hadoop分布式文件系統(tǒng)35.英國數(shù)學(xué)家()采用了完全不同的設(shè)計(jì)思路,提出了一種全新的抽象計(jì)算模型——圖靈機(jī)答案:阿蘭·圖靈36.大數(shù)據(jù)計(jì)算模式主要有:()計(jì)算。答案:批處理計(jì)算、流計(jì)算、圖計(jì)算和查詢分析37.根據(jù)Spark的部署方式,驅(qū)動(dòng)器會(huì)啟動(dòng)基于網(wǎng)頁的用戶界面,默認(rèn)在端口()上運(yùn)行。答案:404038.Scala中,____關(guān)鍵字用來表示一個(gè)可變集合。答案:MutableSet39.DataFrame即帶有()信息的RDD。答案:Schema40.DAG:是()有向無環(huán)圖)的簡(jiǎn)稱答案:DirectedAcyclicGraph41.大數(shù)據(jù)的“4V”概念包含四個(gè)層面,分別是:()。答案:數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快和價(jià)值密度低42.Scala中,____函數(shù)用來輸出信息到控制臺(tái)。答案:println43.稠密向量表示形式是[1.0,0.0,3.0]對(duì)應(yīng)的稀疏向量形式則是())答案:(3,[0,2],[1.0,3.0]44.Scala中,____關(guān)鍵字用來聲明一個(gè)不可變變量。答案:val45.Scala中,____關(guān)鍵字用來定義一個(gè)對(duì)象。答案:object46.通過并行集合()創(chuàng)建RDDv()valrdd=sc.parallelize())答案:數(shù)組|alarray=Array(1,2,3,4,5|array47.vallist=List(),listreduceLeft{_-_}運(yùn)行結(jié)果()答案:1,2,3,4,5|-1348.任務(wù)():答案:運(yùn)行在Executor上的工作單元簡(jiǎn)答題1.簡(jiǎn)述RDD有哪幾種創(chuàng)建方式?答案:(1)從本地文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD:(2)從分布式文件系統(tǒng)HDFS中加載數(shù)據(jù)創(chuàng)建RDD(3)通過并行集合創(chuàng)建RDD2.Spark部署模式有哪些?答案:Local模式:?jiǎn)螜C(jī)模式Standalone模式:使用Spark自帶的簡(jiǎn)單集群管理器YARN模式:使用YARN作為集群管理器Mesos模式:使用Mesos作為集群管理器Kubernetes模式:搭建在Kubernetes集群上3.簡(jiǎn)述RDD分區(qū)的原則。答案:RDD分區(qū)的一個(gè)原則是使得分區(qū)的個(gè)數(shù)盡量等于集群中的CPU核心數(shù)目。local模式:默認(rèn)為本地機(jī)器的CPU數(shù)目,若設(shè)置了local[N],則默認(rèn)為N。Standalone或YARN模式:在“集群中所有CPU核心數(shù)目總和”和“2”這二者中取較大值作為默認(rèn)值。Mesos模式:默認(rèn)的區(qū)分?jǐn)?shù)為8。4.簡(jiǎn)述Spark相對(duì)于HadoopMapreduce有哪些優(yōu)點(diǎn)?答案:(1)Spark的計(jì)算模式也屬于MapReduce,但不局限于Map和Reduce,還提供了多種數(shù)據(jù)集操作類型,編程模型比MapReduce更靈活;(2)Spark提供了內(nèi)存計(jì)算,中間結(jié)果直接存放到內(nèi)存中,帶來了更高的迭代運(yùn)算效率;(3)Spark基于DAG的任務(wù)調(diào)度執(zhí)行機(jī)制,要優(yōu)于MapReduce的迭代執(zhí)行機(jī)制。5.簡(jiǎn)述二項(xiàng)邏輯回歸模型是什么?答案:6.簡(jiǎn)述流數(shù)據(jù)的特征。答案:(1)數(shù)據(jù)快速持續(xù)到達(dá),也許是無窮無盡的。(2)數(shù)據(jù)來源眾多,格式復(fù)雜。(3)數(shù)據(jù)量大,但是不十分關(guān)注儲(chǔ)存,一旦流數(shù)據(jù)中的某個(gè)元素經(jīng)過處理,則要么被丟棄,要么被歸檔儲(chǔ)存。(4)注重?cái)?shù)據(jù)的整體價(jià)值,不過分關(guān)注個(gè)別數(shù)據(jù)。(5)數(shù)據(jù)順序顛倒,或者不完整,系統(tǒng)無法控制將要處理的新到達(dá)的數(shù)據(jù)元素的順序。7.在spark-shell中編程實(shí)現(xiàn)間隔20秒一次訪問文件夾data/logfile里的數(shù)據(jù)流,并進(jìn)行詞頻統(tǒng)計(jì)輸出結(jié)果。答案:(1)importorg.apache.spark.streaming._(2)valssc=newStreamingContext(sc,Seconds(20))(3)vallines=ssc.textFileStream("file:///data/logfile")(4)valwords=lines.flatMap(_.split(""))(5)valwordCounts=words.map(x=>(x,1)).reduceByKey(_+_)(6)wordCounts.print()(7)ssc.start()(8)ssc.awaitTermination()8.在Linux系統(tǒng)中的/data下有文件file.txt,該數(shù)據(jù)集包含了某大學(xué)計(jì)算機(jī)系的成績(jī),數(shù)據(jù)格式為:Tom,DataBase,90Hanmeimei,Algorithm,70Jerry,Spark,85根據(jù)給定的數(shù)據(jù),在Spark-shell中編寫程序代碼來實(shí)現(xiàn)下面題目要求。答案:(1)該系總共有多少學(xué)生;valrdd1=sc.textFile("file:///data/file.txt")Valrdd2=rdd1.map(row=>row.split(",")(0))valrdd3=rdd2.distinct()//去重操作rdd3.count//取得總數(shù)(2)該系共開設(shè)來多少門課程;valrdd1=sc.textFile("file:///data/file.txt")valrdd2=rdd1.map(row=>row.split(",")(1))valrdd3=rdd2.distinct()rdd3.count(3)該系Spark課程共有多少人選修;Valrdd1=sc.textFile("file://data/file.txt")valrdd2=rdd1.filter(row=>row.split(",")(1)=="Spark")rdd2.count9.簡(jiǎn)述spark在啟動(dòng)時(shí),分別采用local、local[k]、local[*]時(shí)有什么區(qū)別?答案:(1)local:使用一個(gè)Worker線程本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 口譯翻譯合同-純?nèi)斯しg
- 醫(yī)療器械三方合作合同協(xié)議書范本
- 進(jìn)口貨物運(yùn)輸預(yù)約保險(xiǎn)合同
- 水電材料購銷簡(jiǎn)單合同范本
- 基于電磁飛環(huán)的目標(biāo)定位理論和技術(shù)研究
- 基于摩擦擺的某高層框筒結(jié)構(gòu)抗震性能研究
- 基于幻想數(shù)據(jù)驅(qū)動(dòng)的移動(dòng)機(jī)器人閉環(huán)導(dǎo)航框架研究
- 2025年人教A新版九年級(jí)生物下冊(cè)階段測(cè)試試卷
- 2025年牛津上海版八年級(jí)地理上冊(cè)月考試卷含答案
- 2025年粵教新版八年級(jí)地理下冊(cè)階段測(cè)試試卷含答案
- 九年級(jí)上冊(cè)-備戰(zhàn)2024年中考?xì)v史總復(fù)習(xí)核心考點(diǎn)與重難點(diǎn)練習(xí)(統(tǒng)部編版)
- 健康指南如何正確護(hù)理蠶豆病學(xué)會(huì)這些技巧保持身體健康
- 老客戶的開發(fā)與技巧課件
- 2024建設(shè)工程人工材料設(shè)備機(jī)械數(shù)據(jù)分類和編碼規(guī)范
- 26個(gè)英文字母書寫(手寫體)Word版
- GB/T 13813-2023煤礦用金屬材料摩擦火花安全性試驗(yàn)方法和判定規(guī)則
- DB31 SW-Z 017-2021 上海市排水檢測(cè)井圖集
- 日語專八分類詞匯
- GB/T 707-1988熱軋槽鋼尺寸、外形、重量及允許偏差
- GB/T 33084-2016大型合金結(jié)構(gòu)鋼鍛件技術(shù)條件
- 高考英語課外積累:Hello,China《你好中國》1-20詞塊摘錄課件
評(píng)論
0/150
提交評(píng)論