MOOC 大數(shù)據(jù)基礎(chǔ)與應(yīng)用-北京理工大學 中國大學慕課答案_第1頁
MOOC 大數(shù)據(jù)基礎(chǔ)與應(yīng)用-北京理工大學 中國大學慕課答案_第2頁
MOOC 大數(shù)據(jù)基礎(chǔ)與應(yīng)用-北京理工大學 中國大學慕課答案_第3頁
MOOC 大數(shù)據(jù)基礎(chǔ)與應(yīng)用-北京理工大學 中國大學慕課答案_第4頁
MOOC 大數(shù)據(jù)基礎(chǔ)與應(yīng)用-北京理工大學 中國大學慕課答案_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

MOOC大數(shù)據(jù)基礎(chǔ)與應(yīng)用-北京理工大學中國大學慕課答案【第一周】單元測試1、問題:大數(shù)據(jù)的特性不包括選項:A、分布地域廣B、容量大C、速度快D、價值密度低正確答案:【分布地域廣】2、問題:如下關(guān)于大數(shù)據(jù)分析流程的哪一項是正確的?選項:A、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn)B、數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)清洗、數(shù)據(jù)管理、數(shù)據(jù)呈現(xiàn)C、數(shù)據(jù)采集、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)清洗、數(shù)據(jù)管理D、數(shù)據(jù)清洗、數(shù)據(jù)采集、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)管理正確答案:【數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)呈現(xiàn)】3、問題:大數(shù)據(jù)分析與傳統(tǒng)的數(shù)據(jù)分析的區(qū)別主要在于:選項:A、傳統(tǒng)數(shù)據(jù)分析主要是描述性分析和診斷性分析,而大數(shù)據(jù)分析主要是預測性分析。B、大數(shù)據(jù)分析的對象是大規(guī)模類型多樣的海量數(shù)據(jù),使用的模型較為復雜;而傳統(tǒng)數(shù)據(jù)分析則作用在有限的小規(guī)模數(shù)據(jù)集上,模型較為簡單。C、大數(shù)據(jù)分析主要是為了發(fā)現(xiàn)新的規(guī)律和知識,而傳統(tǒng)數(shù)據(jù)分析主要是為了了解正在發(fā)生的事件及其原因。D、大數(shù)據(jù)分析需要借助各種分析工具完成,而傳統(tǒng)數(shù)據(jù)分析不需要使用其他工具。正確答案:【傳統(tǒng)數(shù)據(jù)分析主要是描述性分析和診斷性分析,而大數(shù)據(jù)分析主要是預測性分析。#大數(shù)據(jù)分析的對象是大規(guī)模類型多樣的海量數(shù)據(jù),使用的模型較為復雜;而傳統(tǒng)數(shù)據(jù)分析則作用在有限的小規(guī)模數(shù)據(jù)集上,模型較為簡單。#大數(shù)據(jù)分析主要是為了發(fā)現(xiàn)新的規(guī)律和知識,而傳統(tǒng)數(shù)據(jù)分析主要是為了了解正在發(fā)生的事件及其原因?!?、問題:1、大數(shù)據(jù)主要是由于數(shù)據(jù)規(guī)模巨大、來源分散、格式多樣,所以需要新的體系架構(gòu)、技術(shù)、算法和分析方法來對這些數(shù)據(jù)進行采集、存儲和關(guān)聯(lián)分析,以期望能夠從中抽取出隱藏的有價值的信息。選項:A、正確B、錯誤正確答案:【正確】5、問題:數(shù)據(jù)科學家主要負責開發(fā)、構(gòu)建、測試和維護系統(tǒng),比如數(shù)據(jù)庫和大規(guī)模處理系統(tǒng)選項:A、正確B、錯誤正確答案:【錯誤】6、問題:大數(shù)據(jù)分析的目的是從類型多樣的海量數(shù)據(jù)中挖掘出隱藏的有價值的信息。選項:A、正確B、錯誤正確答案:【正確】7、填空題:大數(shù)據(jù)分析能夠應(yīng)用在哪些領(lǐng)域?正確答案:【交通醫(yī)療足球零售天文政治】【第二周】單元測試1、問題:Python代碼:r=5+"5"的執(zhí)行結(jié)果是選項:A、報錯B、55C、10D、5正確答案:【報錯】2、問題:1.m=[1,2,[3]]2.n=m[:]3.n[1]=44.n[2][0]=55.print(m)代碼的執(zhí)行結(jié)果是?選項:A、[1,2,[5]]B、[1,2,[3]]C、[1,4,[3]]D、[1,4,[5]]正確答案:【[1,2,[5]]】3、問題:1.n1={'a':1,'b':2}2.n2=n13.n1['a']=54.s=n1['a']+n2['a']5.print(s)代碼的結(jié)果是?選項:A、10B、5C、6D、7正確答案:【10】4、問題:用python處理本機文件時,可以使用glob完成文件查找功能。下列有關(guān)glob的說法中,錯誤的是選項:A、glob為內(nèi)置庫,無需import即可使用B、glob可以使用?匹配單個字符C、glob中表達式"[0-9]"表示匹配0-9中的單個數(shù)字D、glob返回的是一個包含所有匹配文件的列表正確答案:【glob為內(nèi)置庫,無需import即可使用】5、問題:1.importsqlite32.fromfakerimportFaker3.f=Faker("zh_cn")4.conn=sqlite3.connect(":memory:")5.c=conn.cursor()6.c.execute("createtableuser(idvarchar(10)primarykey,namevarchar(20))")7.foriinrange(0,100):8.c.execute("insertintouser(id,name)values('{}','{}')".format(i,()))9.c.execute("select*fromuser")10.result=c.fetchall()11.print(len(result))上述代碼執(zhí)行的結(jié)果是?選項:A、100B、10C、20D、0正確答案:【100】6、問題:用戶處理numpy的ndarray對象時,可以改變數(shù)組維度。下列描述中錯誤的是選項:A、resize方法不能修改原andarray數(shù)組B、reshape方法不能修改原andarray數(shù)組C、flatten方法不能修改原andarray數(shù)組D、參數(shù)用元組來表示正確答案:【resize方法不能修改原andarray數(shù)組】7、問題:Numpy的Series對象在進行運算時,其默認索引值是0到n-1可以參與運算,而自定義索引值不會參與運算。選項:A、正確B、錯誤正確答案:【錯誤】8、問題:DataFrame結(jié)構(gòu)為一個二維結(jié)構(gòu),每一列可以為不同的值類型,但一列之內(nèi)的類型必須相同。選項:A、正確B、錯誤正確答案:【正確】9、問題:由于Python的list列表足夠強大,完全可以代替ndarry這種數(shù)組。選項:A、正確B、錯誤正確答案:【錯誤】10、問題:使用文件打開命令時,即使使用withas語句也應(yīng)該調(diào)用close()方法顯式關(guān)閉文件,以保證文件安全。選項:A、正確B、錯誤正確答案:【錯誤】【第3周】單元測試1、問題:使用json庫進行Python的內(nèi)置數(shù)據(jù)類型與Json類型轉(zhuǎn)換時,字典dict將被轉(zhuǎn)換為選項:A、objectB、stringC、strD、array正確答案:【object】2、問題:某網(wǎng)站提供形式多樣的財經(jīng)大數(shù)據(jù)服務(wù):①提供一個第三方python庫,調(diào)用庫中方法可以直接返回DataFrame對象;②提供一個網(wǎng)站api,可以返回json格式字符串;③提供靜態(tài)頁面,內(nèi)含表格數(shù)據(jù);④提供查詢功能,使用JavaScript動態(tài)腳本生成查詢結(jié)果。假設(shè)上述各種服務(wù)樣式均可返回所需數(shù)據(jù),則從減少編程工作量的角度看,用戶應(yīng)選擇的方案編號是選項:A、①B、②C、③D、④正確答案:【①】3、問題:對于matplotlib的plot方法原型:pyplot.plot([x],y,[format],…),下列說法錯誤的是選項:A、只需要提供y軸數(shù)據(jù),即可繪制出圖像B、pyplot是matplotlib中的一個子庫名字C、format表示控制字符串,包括:顏色、風格和標記D、x軸數(shù)據(jù)必須提供正確答案:【x軸數(shù)據(jù)必須提供】4、問題:matplotlib提供了圖形文本顯示,下列函數(shù)可以在圖像中任意位置顯示文字的是選項:A、text()B、title()C、xlabel()D、ylabel()正確答案:【text()】5、問題:使用Pandas處理數(shù)據(jù)的時候,經(jīng)常會遇到重復值。下列說法中錯誤的是選項:A、duplicated()返回值中用1表示重復,0表示不重復B、duplicated()用于判斷某行是否存在重復C、duplicated()返回一個Series對象D、duplicated()不能刪除重復值正確答案:【duplicated()返回值中用1表示重復,0表示不重復】6、問題:排序在數(shù)據(jù)處理中具有重要的作用。若df為一個DataFrame對象,則對其描述中錯誤的是選項:A、排序時無論是升序還是降序,NaN統(tǒng)一排到序列的開頭部分B、df.nlargest(10,"Score")表示取Score列的前10項最大值C、df.sort_index()表示對索引排序D、df.sort_values()表示對數(shù)值排序正確答案:【排序時無論是升序還是降序,NaN統(tǒng)一排到序列的開頭部分】7、問題:語句json.dumps({'name':'David','age':20})將一個Python對象轉(zhuǎn)為一個JSON字符串。選項:A、正確B、錯誤正確答案:【正確】8、問題:使用requests庫爬取回來的字符串數(shù)據(jù),可以加載到BeautifulSoup庫中,形成一個樹狀的HTML頁面結(jié)構(gòu),供用戶檢索使用。選項:A、正確B、錯誤正確答案:【正確】9、問題:當在DataFrame中試圖補全空值時,可以使用fillna,但該方法只能為整個DataFrame設(shè)置相同的補全值。選項:A、正確B、錯誤正確答案:【錯誤】10、問題:使用matplotlib繪制多圖時,可以使用subplots和subplot方法。如:1.fig,ax=subplot(rows,cols)選項:A、正確B、錯誤正確答案:【錯誤】【第4周】單元測試1、問題:如下關(guān)于數(shù)據(jù)分析框架的流程,哪一項是正確的?選項:A、業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估B、建立模型、模型評估、數(shù)據(jù)理解、業(yè)務(wù)理解、數(shù)據(jù)準備C、數(shù)據(jù)理解、業(yè)務(wù)理解、建立模型、數(shù)據(jù)準備、模型評估D、數(shù)據(jù)準備、建立模型、模型評估、數(shù)據(jù)理解、業(yè)務(wù)理解正確答案:【業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估】2、問題:偏度是數(shù)據(jù)分布扁平程度的測度。選項:A、正確B、錯誤正確答案:【錯誤】3、問題:中位數(shù)指的是任意一組數(shù)據(jù)中的中間位置的數(shù)。選項:A、正確B、錯誤正確答案:【錯誤】4、問題:某組數(shù)據(jù)的峰態(tài)系數(shù)小于0,則并表明該組數(shù)據(jù)為扁平分布或者平峰分布。選項:A、正確B、錯誤正確答案:【正確】5、問題:預測降雨量屬于機器學習中的回歸任務(wù)的應(yīng)用場景。選項:A、正確B、錯誤正確答案:【正確】6、填空題:已知10個家庭的人均月收入數(shù)據(jù)分別為:660、750、780、850、960、1080、1250、1500、1630、2000,請計算該組數(shù)據(jù)的中位數(shù)。正確答案:【1020】7、填空題:已知9個家庭的人均月收入數(shù)據(jù)分別為:1500、750、780、1080、850、960、2000、1250、1630,請計算該組數(shù)據(jù)的四分位數(shù)。(請使用較準確的位置確定方法。)正確答案:【8151565】8、填空題:請計算下列數(shù)據(jù){10,12,13,14,25,30,40,50,90,100}的p=40%的截斷均值。(保留2位小數(shù))正確答案:【28.67】9、填空題:請計算下列數(shù)據(jù){1,3,7,9,0,3,5}的中列數(shù)。正確答案:【4.5】10、填空題:依據(jù)下面兩組數(shù)據(jù),分別計算兩組年收入數(shù)據(jù)的方差。第一組:99個年收入10萬的人和1個年收入1000萬的人,第二組:60個年收入10萬的人和40個年收入34.75萬的人。正確答案:【9801148.5】【第5周】單元測試1、問題:“二手車價格預測”場景屬于哪種機器學習的典型任務(wù)?選項:A、回歸B、分類C、關(guān)聯(lián)D、聚類正確答案:【回歸】2、問題:“垃圾郵件的處理”場景屬于哪種機器學習的典型任務(wù)?選項:A、分類B、關(guān)聯(lián)C、聚類D、回歸正確答案:【分類】3、問題:“推薦系統(tǒng)”場景屬于哪種機器學習的典型任務(wù)?選項:A、聚類B、分類C、關(guān)聯(lián)D、回歸正確答案:【聚類】4、問題:“尿布與啤酒”案例屬于哪種機器學習的典型任務(wù)?選項:A、關(guān)聯(lián)B、分類C、聚類D、回歸正確答案:【關(guān)聯(lián)】5、問題:過擬合是指模型不能在訓練集上獲得足夠低的誤差選項:A、正確B、錯誤正確答案:【錯誤】6、問題:有監(jiān)督算法和無監(jiān)督算法的區(qū)別在于數(shù)據(jù)是否進行標注。選項:A、正確B、錯誤正確答案:【正確】7、問題:K-means算法屬于分類算法。選項:A、正確B、錯誤正確答案:【錯誤】8、問題:KNN算法的優(yōu)點在于不需要指定K的個數(shù)。選項:A、正確B、錯誤正確答案:【錯誤】9、填空題:決策樹的生成由兩個階段組成:_____、______正確答案:【判定樹構(gòu)建樹剪枝】10、填空題:假設(shè)有四個樣本分布在坐標系中,已知A區(qū)兩點分別(2,5)和(1,4),B區(qū)(8,1)和(9,2),若使用KNN算法(距離使用歐氏距離),求M(4,3)屬于哪一區(qū)?正確答案:【A】【第七周】單元測試1、問題:以下關(guān)于日志采集工具Flume的說法不正確的是:選項:A、Flume是一個分布式、可靠和高可用的海量日志采集、聚合和傳輸?shù)娜罩臼占到y(tǒng)B、Flume的數(shù)據(jù)源和目標都是可定制、可擴展的C、Flume支持多級級聯(lián)和多路復制D、Flume適用于大量數(shù)據(jù)的實時數(shù)據(jù)采集正確答案:【Flume適用于大量數(shù)據(jù)的實時數(shù)據(jù)采集】2、問題:以下關(guān)于數(shù)據(jù)分發(fā)中間件Kafka的說法不正確的是:選項:A、Kafka是一個基于發(fā)布/訂閱的消息系統(tǒng)B、每條發(fā)布到Kafka集群的消息都屬于一個主題(topic)C、Kafka主要是使用c++、Java語言實現(xiàn)的D、Kafka將Topic分成一個或者多個Partition正確答案:【Kafka主要是使用c++、Java語言實現(xiàn)的】3、問題:以下關(guān)于分布式文件系統(tǒng)HDFS的說法不正確的是:選項:A、HDFS是能夠運行在通用硬件上的分布式文件系統(tǒng)B、HDFS支持存儲TB-PB級別的數(shù)據(jù)C、HDFS支持多用戶寫入,任意修改文件D、數(shù)據(jù)塊(Block)是HDFS文件系統(tǒng)基本的存儲單位正確答案:【HDFS支持多用戶寫入,任意修改文件】4、問題:HDFS集群中管理文件系統(tǒng)的元數(shù)據(jù)、負責客戶端請求響應(yīng)的節(jié)點是:選項:A、NameNodeB、DataNodeC、ClientNodeD、ActiveNode正確答案:【NameNode】5、問題:HDFS(Hadoop1.X版本中)默認的塊大小是:選項:A、32MBB、32KBC、64MBD、64KB正確答案:【64MB】6、問題:以下關(guān)于分布式數(shù)據(jù)庫HBase的說法不正確的是:選項:A、HBase是一個基于列式存儲的分布式數(shù)據(jù)庫系統(tǒng)B、HBase源于GoogleBigTable技術(shù)C、HBase比傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)具有更加豐富的數(shù)據(jù)類型D、HBase不支持復雜的SQL操作,例如表連接正確答案:【HBase比傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)具有更加豐富的數(shù)據(jù)類型】7、問題:HBase中分布式存儲和負載均衡的最小單元是:選項:A、TableB、RegionC、BlockD、Partition正確答案:【Region】8、問題:以下關(guān)于數(shù)據(jù)倉庫Hive的說法不正確的是:選項:A、Hive主要是為分析數(shù)據(jù)而設(shè)計的數(shù)據(jù)倉庫B、Hive的數(shù)據(jù)最終都保存為HDFS文件C、Hive將用戶的查詢語句轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群上執(zhí)行D、Hive能夠在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速的查詢正確答案:【Hive能夠在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速的查詢】9、問題:Hive的數(shù)據(jù)模型主要包括:選項:A、表(Tables)B、分區(qū)(Partitions)C、桶(Buckets)D、塊(Blocks)正確答案:【表(Tables)#分區(qū)(Partitions)#桶(Buckets)】10、問題:NoSQL數(shù)據(jù)庫的主要類型包括:選項:A、圖形數(shù)據(jù)庫B、文檔數(shù)據(jù)庫C、鍵值數(shù)據(jù)庫D、列族數(shù)據(jù)庫正確答案:【圖形數(shù)據(jù)庫#文檔數(shù)據(jù)庫#鍵值數(shù)據(jù)庫#列族數(shù)據(jù)庫】MOOC期末測試1、問題:下列數(shù)據(jù)類型中,不屬于Python內(nèi)置數(shù)據(jù)類型的是:選項:A、strB、floatC、dtypeD、bool正確答案:【dtype】2、問題:假設(shè)d是一個DataFrame類型對象,其中包含name和age兩列100行數(shù)據(jù)。則下列表達式中,錯誤的是.選項:A、d[‘a(chǎn)ge’]B、d[2,’name’]C、d.ageD、d.loc[2,’name’]正確答案:【d[2,’name’]】3、問題:以下不屬于高維數(shù)據(jù)可視化技術(shù)的是.選項:A、RadVizB、平行坐標C、降維投影D、詞云正確答案:【詞云】4、問題:以下哪個是常見的大數(shù)據(jù)處理流程.選項:A、數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)可視化B、數(shù)據(jù)清洗、數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)可視化C、數(shù)據(jù)清洗、數(shù)據(jù)獲取、數(shù)據(jù)可視化、數(shù)據(jù)分析D、數(shù)據(jù)可視化、數(shù)據(jù)清洗、數(shù)據(jù)獲取、數(shù)據(jù)分析正確答案:【數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)可視化】5、問題:大數(shù)據(jù)分析技術(shù)可以應(yīng)用于哪些行業(yè).選項:A、政務(wù)和交通B、金融和農(nóng)業(yè)C、醫(yī)療和健康D、其他全是正確答案:【其他全是】6、問題:測得一組身高(cm)數(shù)據(jù)如下:176、165、173、168、176、180、177、168、174、176,則其眾數(shù)和中位數(shù)分別是:選項:A、175,176B、173.3,175C、176,173.3D、176,175正確答案:【176,175】7、問題:數(shù)據(jù)清洗的方法不包括選項:A、缺失值處理B、噪聲數(shù)據(jù)清除C、數(shù)據(jù)可視化D、重復數(shù)據(jù)記錄處理正確答案:【數(shù)據(jù)可視化】8、問題:以下哪個不屬于分布式文件系統(tǒng)HDFS的特有特性選項:A、高容錯性B、高吞吐量C、隨機讀寫D、大文件存儲正確答

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論