MOOC 大數(shù)據(jù)技術(shù)導論-北京理工大學 中國大學慕課答案_第1頁
MOOC 大數(shù)據(jù)技術(shù)導論-北京理工大學 中國大學慕課答案_第2頁
MOOC 大數(shù)據(jù)技術(shù)導論-北京理工大學 中國大學慕課答案_第3頁
MOOC 大數(shù)據(jù)技術(shù)導論-北京理工大學 中國大學慕課答案_第4頁
MOOC 大數(shù)據(jù)技術(shù)導論-北京理工大學 中國大學慕課答案_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

MOOC大數(shù)據(jù)技術(shù)導論-北京理工大學中國大學慕課答案第1章單元測驗1、問題:大數(shù)據(jù)是一個什么領(lǐng)域的問題()。選項:A、計算機領(lǐng)域B、數(shù)學統(tǒng)計領(lǐng)域C、業(yè)務領(lǐng)域D、多學科綜合領(lǐng)域正確答案:【多學科綜合領(lǐng)域】2、問題:科學研究第四范式數(shù)據(jù)思維采用()。選項:A、科學歸納B、模型推演C、仿真模擬D、關(guān)聯(lián)分析正確答案:【關(guān)聯(lián)分析】3、問題:大數(shù)據(jù)的優(yōu)勢包括()。選項:A、數(shù)據(jù)體量大B、收集時間短C、數(shù)據(jù)類型豐富D、價值密度高正確答案:【數(shù)據(jù)體量大#收集時間短#數(shù)據(jù)類型豐富】4、問題:大數(shù)據(jù)處理框架之批處理框架()。選項:A、hadoopB、SparkC、FlinkD、jvm正確答案:【hadoop#Spark#Flink】5、問題:大數(shù)據(jù)處理框架之流計算框架()。選項:A、hadoopB、SparkstreamingC、FlinkD、STORM正確答案:【Sparkstreaming#Flink#STORM】6、填空題:系統(tǒng)的控制方式一般分為模型驅(qū)動和_____________。正確答案:【數(shù)據(jù)驅(qū)動】7、填空題:4V特征:數(shù)據(jù)規(guī)模大、_________、數(shù)據(jù)處理速度快、價值密度低。正確答案:【數(shù)據(jù)類型多】8、填空題:大數(shù)據(jù)的處理過程:數(shù)據(jù)獲取與管理、數(shù)據(jù)存儲與處理、數(shù)據(jù)分析與______、結(jié)合領(lǐng)域的大數(shù)據(jù)應用。正確答案:【理解】9、填空題:科學研究的第三范式計算思維-______。正確答案:【仿真模擬】10、填空題:大數(shù)據(jù)領(lǐng)域的職業(yè)包括首席數(shù)據(jù)官、系統(tǒng)架構(gòu)師、___________、領(lǐng)域科學家。正確答案:【數(shù)據(jù)分析師】第2章單元測驗1、問題:選項:A、M1-M2-M3-S4-M5-M6-M8-S7B、M1-M2-M5-M8-M6-M3-S7-S4C、M1-M2-M3-S4-M5-M6-S7-M8D、M1-M2-M5-M8-M6-M3-S4-S7正確答案:【M1-M2-M5-M8-M6-M3-S7-S4】2、問題:下面科學研究的四個范式順序正確的是()。選項:A、經(jīng)驗范式-理論范式-模擬范式-數(shù)據(jù)密集型范式B、理論范式-模擬范式-經(jīng)驗范式-數(shù)據(jù)密集型范式C、理論范式-模擬范式-數(shù)據(jù)密集型范式-經(jīng)驗范式D、理論范式-經(jīng)驗范式-數(shù)據(jù)密集型范式-模擬范式正確答案:【經(jīng)驗范式-理論范式-模擬范式-數(shù)據(jù)密集型范式】3、問題:以數(shù)據(jù)考察為基礎(chǔ),聯(lián)合理論、實驗和模擬一體的數(shù)據(jù)密集計算的范式是以下哪個范式()。選項:A、經(jīng)驗范式B、理論范式C、模擬范式D、數(shù)據(jù)密集型范式正確答案:【數(shù)據(jù)密集型范式】4、問題:在大數(shù)據(jù)生命周期的各個階段中,工作最多的是哪個階段()。選項:A、數(shù)據(jù)存儲B、數(shù)據(jù)收集和整理C、數(shù)據(jù)分析D、數(shù)據(jù)治理正確答案:【數(shù)據(jù)收集和整理】5、問題:在增量抽取方法中,需要計算MD5校驗碼的是哪種增量抽取方法()。選項:A、日志對比B、時間戳C、觸發(fā)器D、全表對比正確答案:【全表對比】6、問題:在網(wǎng)絡爬蟲策略中需要根據(jù)鏈接計算網(wǎng)頁重要性的是以下哪個算法()。選項:A、深度優(yōu)先B、廣度優(yōu)先C、局部PageRank策略D、OPIC正確答案:【局部PageRank策略】7、問題:大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)包括()。選項:A、圖像B、文本C、語音D、視頻正確答案:【圖像#文本#語音#視頻】8、問題:大數(shù)據(jù)中的半結(jié)構(gòu)化數(shù)據(jù)包括()。選項:A、辦公文檔B、電子郵件C、XMLD、HTML正確答案:【電子郵件#XML#HTML】9、問題:常見的分布式網(wǎng)絡爬蟲架構(gòu)有()。選項:A、Master-workerB、Master-slaveC、peer-peerD、Mixed正確答案:【Master-slave#peer-peer#Mixed】10、問題:以下哪些內(nèi)容屬于深網(wǎng)內(nèi)容()。選項:A、通過搜索引擎搜索得到的結(jié)果B、Web上可訪問的非網(wǎng)頁文件,比如圖片文件,Pdf和word文檔等C、通過填寫表單形成對后臺在線數(shù)據(jù)庫的查詢而得到的動態(tài)頁面D、需要注冊或其他限制才能訪問的內(nèi)容正確答案:【W(wǎng)eb上可訪問的非網(wǎng)頁文件,比如圖片文件,Pdf和word文檔等#通過填寫表單形成對后臺在線數(shù)據(jù)庫的查詢而得到的動態(tài)頁面#需要注冊或其他限制才能訪問的內(nèi)容】第3章單元測驗1、問題:HBase依靠()存儲底層數(shù)據(jù)。選項:A、HDFSB、HadoopC、MemoryD、MapReduce正確答案:【HDFS】2、問題:下列選項中哪些不是NoSQL數(shù)據(jù)庫的特點()。選項:A、靈活的可擴展性B、動態(tài)的數(shù)據(jù)遷移C、與云計算緊密融合D、靈活的數(shù)據(jù)模型正確答案:【動態(tài)的數(shù)據(jù)遷移】3、問題:HDFS中文件塊默認保存幾份()。選項:A、1份B、2份C、3份D、4份正確答案:【3份】4、問題:下面與HDFS類似的框架是()。選項:A、NTFSB、FAT32C、GFSD、EXT3正確答案:【GFS】5、問題:分布式文件系統(tǒng)改變了數(shù)據(jù)存儲和管理方式,相對于本地文件系統(tǒng)具有哪些優(yōu)勢()。選項:A、低成本B、易擴展C、強可靠D、高可用正確答案:【低成本#易擴展#強可靠#高可用】6、問題:下面對HBase的描述哪些是正確的()。選項:A、不是開源的B、是面向列的C、是分布式的D、是一種NoSQL數(shù)據(jù)庫正確答案:【是面向列的#是分布式的#是一種NoSQL數(shù)據(jù)庫】7、問題:Hadoop的框架最核心的設(shè)計是()。選項:A、HDFSB、MapReduceC、NamenodeD、Datanode正確答案:【HDFS#MapReduce】8、問題:HBase的實現(xiàn)包括哪幾個主要的功能組件()。選項:A、庫函數(shù)B、一個Master主服務器C、許多個Region服務器D、一個Region服務器正確答案:【庫函數(shù)#一個Master主服務器#許多個Region服務器】9、問題:HDFS專為解決大數(shù)據(jù)存儲問題而產(chǎn)生的,其具備了以下哪些特點()。選項:A、兼容廉價的硬件設(shè)備B、流數(shù)據(jù)讀寫C、大數(shù)據(jù)集D、復雜的文件模型E、強大的跨平臺兼容性正確答案:【兼容廉價的硬件設(shè)備#流數(shù)據(jù)讀寫#大數(shù)據(jù)集#強大的跨平臺兼容性】10、問題:NoSQL數(shù)據(jù)庫的明顯優(yōu)勢在于()。選項:A、實現(xiàn)數(shù)據(jù)完整性B、支持超大規(guī)模數(shù)據(jù)存儲C、靈活的數(shù)據(jù)模型可以很好的支持Web2.0應用D、具有強大的橫向擴展能力正確答案:【支持超大規(guī)模數(shù)據(jù)存儲#靈活的數(shù)據(jù)模型可以很好的支持Web2.0應用#具有強大的橫向擴展能力】第4章單元測驗1、問題:大數(shù)據(jù)可視化分析有效融合計算機的______和人的_____,以獲得對于大規(guī)模復雜數(shù)據(jù)集的洞察力。選項:A、計算能力、認知能力B、計算能力、分析能力C、分析能力、觀察能力D、認知能力、計算能力正確答案:【計算能力、認知能力】2、問題:下列關(guān)于數(shù)據(jù)可視化的介紹,不正確的是()。選項:A、可視化技術(shù)被大量應用于統(tǒng)計學領(lǐng)域、地理信息系統(tǒng)、數(shù)據(jù)挖掘分析、商務智能工具等。B、統(tǒng)計圖表有餅圖、時間序列圖、散點圖、等高線圖等多種形式C、可視化分析用到了支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術(shù)。D、雷達圖不適用于多維數(shù)據(jù)。正確答案:【雷達圖不適用于多維數(shù)據(jù)。】3、問題:以下哪個不是數(shù)據(jù)可視化方法和技術(shù)?選項:A、圖可視化技術(shù)B、多維數(shù)據(jù)可視化技術(shù)C、時空數(shù)據(jù)可視化技術(shù)D、混合建模技術(shù)正確答案:【混合建模技術(shù)】4、問題:關(guān)于數(shù)據(jù)挖掘任務,下列說法正確的是()選項:A、聚類是描述性任務。B、分類屬于預測性任務C、聚類屬于無監(jiān)督范疇。D、回歸分析屬于描述性任務正確答案:【聚類是描述性任務。#分類屬于預測性任務#聚類屬于無監(jiān)督范疇?!?、問題:下列可以用于多維數(shù)據(jù)可視化的方法有()選項:A、GMapB、平行坐標系C、雷達圖D、散點圖矩陣正確答案:【平行坐標系#雷達圖#散點圖矩陣】6、問題:設(shè)X是非空集合,對于X中任意的兩個元素x與y,按某一法則都對應唯一的實數(shù)d(x,y),而且滿足下述()性質(zhì),則稱d(x,y)為x與y的距離。選項:A、非負性d(x,y)≥0B、Bd(x,y)=d(y,x)C、對于任意的x,y,z∈X,有d(x,y)≤d(x,z)+d(z,y)D、傳遞性正確答案:【非負性d(x,y)≥0#Bd(x,y)=d(y,x)#對于任意的x,y,z∈X,有d(x,y)≤d(x,z)+d(z,y)】7、問題:以下哪些是數(shù)據(jù)可視化的作用()選項:A、協(xié)助思考B、探索數(shù)據(jù)C、作為大量工作記憶的外界輔助D、理解信息正確答案:【協(xié)助思考#探索數(shù)據(jù)#作為大量工作記憶的外界輔助#理解信息】8、問題:預測任務的目標是導出和概括數(shù)據(jù)中有潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常)選項:A、正確B、錯誤正確答案:【錯誤】9、問題:文本是大數(shù)據(jù)時代結(jié)構(gòu)數(shù)據(jù)類型的典型代表。選項:A、正確B、錯誤正確答案:【錯誤】10、問題:PCA是一種有監(jiān)督的降維方法。選項:A、正確B、錯誤正確答案:【錯誤】11、問題:Textflow用河流的運動表達了文本主題的誕生、發(fā)展、合并、分裂、消亡的過程。導致主題演變的原因往往是主題關(guān)鍵詞的變化。選項:A、正確B、錯誤正確答案:【正確】12、問題:聚類是在沒有先驗知識的情況下進行的。選項:A、正確B、錯誤正確答案:【正確】13、填空題:將收入在范圍$12,000至$98,000內(nèi)的收入規(guī)范化到區(qū)間[0.0,1.0],$73,600將被規(guī)范為:(保留兩位小數(shù))正確答案:【0.72】14、填空題:兩個向量的方向差異可以表示為兩個向量夾角的。正確答案:【余弦】15、填空題:圖的簡化中,技術(shù)會將相似形狀的邊連接線集中在一起構(gòu)成約束,降低視覺復雜度,使節(jié)點間的連接關(guān)系更加清楚。正確答案:【邊邦定】第5章單元測驗1、問題:在Spark運行時,()為程序構(gòu)建基本運行環(huán)境Sparkcontext對象(應用管家),向資源管理器進行資源申請,任務分配與監(jiān)控。選項:A、DriverprogramB、SparkEnvironmentC、DAGSchedulerD、TaskScheduler正確答案:【Driverprogram】2、問題:Spark的組件中,用于做查詢分析的是()。選項:A、SparkSQLB、SparkStreamingC、SparkMLibD、SparkCore正確答案:【SparkSQL】3、問題:以下屬于Spark的特點的有()。選項:A、SpeedB、ConciseC、In-memoryprocessingD、LazyEvaluation正確答案:【Speed#Concise#In-memoryprocessing#LazyEvaluation】4、問題:MapReduce執(zhí)行的全過程包括以下幾個主要階段()。選項:A、從分布式文件系統(tǒng)讀入數(shù)據(jù)B、執(zhí)行Map任務輸出中間結(jié)果C、通過Shuffle階段把中間結(jié)果分區(qū)排序整理后發(fā)送給Reduce任務D、執(zhí)行Reduce任務得到最終結(jié)果并寫入分布式系統(tǒng)文件正確答案:【從分布式文件系統(tǒng)讀入數(shù)據(jù)#執(zhí)行Map任務輸出中間結(jié)果#通過Shuffle階段把中間結(jié)果分區(qū)排序整理后發(fā)送給Reduce任務#執(zhí)行Reduce任務得到最終結(jié)果并寫入分布式系統(tǒng)文件】5、問題:RDD的兩種主要操作類型是()。選項:A、TransformB、ActionC、MapD、Reduce正確答案:【Transform#Action】6、問題:關(guān)于RDD論述正確的是()。選項:A、RDD提供一種高度受限的共享內(nèi)存模型,是一個彈性分布式數(shù)據(jù)集B、RDD讀取的數(shù)據(jù)都存儲在一臺機器上C、RDD是只讀存儲D、RDD支持各種粗粒度和細粒度的操作正確答案:【RDD提供一種高度受限的共享內(nèi)存模型,是一個彈性分布式數(shù)據(jù)集#RDD是只讀存儲】7、問題:Spark支持的開發(fā)語言有()。選項:A、JavaB、C語言C、PythonD、Scala正確答案:【Java#Python#Scala】8、問題:Apache軟件基金會最重要的三大分布式計算系統(tǒng)開源項目包括()。選項:A、HadoopB、SparkC、StormD、HDFS正確答案:【Hadoop#Spark#Storm】9、問題:Shuffle過程分為Map端的操作和Reduce端的操作。()選項:A、正確B、錯誤正確答案:【正確】10、問題:Hadoop擅長批處理,不適合流計算。()選項:A、正確B、錯誤正確答案:【正確】11、問題:MapReduce設(shè)計的一個理念是“數(shù)據(jù)向計算靠攏”,并采用“分而治之”的策略。()選項:A、正確B、錯誤正確答案:【錯誤】12、問題:Shuffle過程是指對Map輸出結(jié)果進行分區(qū)、排序、合并等處理并交給Reduce的過程。()選項:A、正確B、錯誤正確答案:【正確】第六章習題1、問題:數(shù)據(jù)匿名化的原因有哪些選項:A、實現(xiàn)數(shù)據(jù)共享發(fā)布,而不泄漏用戶的隱私B、防止數(shù)據(jù)被篡改C、壓縮數(shù)據(jù)的存儲空間D、實現(xiàn)數(shù)據(jù)清洗正確答案:【實現(xiàn)數(shù)據(jù)共享發(fā)布,而不泄漏用戶的隱私】2、問題:下列哪些信息可能會侵犯用戶的隱私選項:A、搜索引擎的搜索記錄B、瀏覽器的訪問痕跡C、電商平臺的購物記錄D、地圖應用的搜索記錄正確答案:【搜索引擎的搜索記錄#瀏覽器的訪問痕跡#電商平臺的購物記錄#地圖應用的搜索記錄】3、問題:下列哪些方法可以實現(xiàn)匿名化選項:A、元組抑制B、屬性泛化C、屬性置換D、屬性擾亂正確答案:【元組抑制#屬性泛化#屬性置換#屬性擾亂】4、問題:關(guān)于隱私保護技術(shù),以下描述正確的包括選項:A、K-匿名的局限性是容易遭受同質(zhì)性攻擊B、L-多樣性的局限性是容易遭受相似性攻擊C、T-相近比K-匿名和L-多樣性有更強的隱私保護性能D、K-匿名無法保證敏感值缺乏多樣性正確答案:【K-匿名的局限性是容易遭受同質(zhì)性攻擊#L-多樣性的局限性是容易遭受相似性攻擊#T-相近比K-匿名和L-多樣性有更強的隱私保護性能#K-匿名無法保證敏感值缺乏多樣性】5、問題:計算k-匿名的算法分類包括選項:A、基于泛化和基于元組抑制的算法B、基于全局和基于局部記錄的算法C、基于層次和基于劃分的算法D、基于集合枚舉和基于格搜索的算法正確答案:【基于泛化和基于元組抑制的算法#基于全局和基于局部記錄的算法#基于層次和基于劃分的算法】6、問題:K-匿名規(guī)則滿足子集屬性和泛化屬性選項:A、正確B、錯誤正確答案:【正確】7、問題:蒙德里安算法是一種基于劃分的算法選項:A、正確B、錯誤正確答案:【正確】8、問題:極小全域泛化的集合構(gòu)成一個反鏈選項:A、正確B、錯誤正確答案:【正確】9、問題:熵l-多樣性滿足子集屬性和泛化屬性選項:A、正確B、錯誤正確答案:【正確】10、問題:遞歸(c,l)-多樣性不滿足泛化屬性選項:A、正確B、錯誤正確答案:【錯誤】第6章單元測驗1、問題:數(shù)據(jù)匿名化的原因有哪些選項:A、實現(xiàn)數(shù)據(jù)共享發(fā)布,而不泄漏用戶的隱私B、防止數(shù)據(jù)被篡改C、壓縮數(shù)據(jù)的存儲空間D、實現(xiàn)數(shù)據(jù)清洗正確答案:【實現(xiàn)數(shù)據(jù)共享發(fā)布,而不泄漏用戶的隱私】2、問題:下列哪些信息可能會侵犯用戶的隱私選項:A、搜索引擎的搜索記錄B、瀏覽器的訪問痕跡C、電商平臺的購物記錄D、地圖應用的搜索記錄正確答案:【搜索引擎的搜索記錄#瀏覽器的訪問痕跡#電商平臺的購物記錄#地圖應用的搜索記錄】3、問題:下列哪些方法可以實現(xiàn)匿名化選項:A、元組抑制B、屬性泛化C、屬性置換D、屬性擾亂正確答案:【元組抑制#屬性泛化#屬性置換#屬性擾亂】4、問題:關(guān)于隱私保護技術(shù),以下描述正確的包括選項:A、K-匿名的局限性是容易遭受同質(zhì)性攻擊B、L-多樣性的局限性是容易遭受相似性攻擊C、T-相近比K-匿名和L-多樣性有更強的隱私保護性能D、K-匿名無法保證敏感值缺乏多樣性正確答案:【K-匿名的局限性是容易遭受同質(zhì)性攻擊#L-多樣性的局限性是容易遭受相似性攻擊#T-相近比K-匿名和L-多樣性有更強的隱私保護性能#K-匿名無法保證敏感值缺乏多樣性】5、問題:計算k-匿名的算法分類包括選項:A、基于泛化和基于元組抑制的算法B、基于全局和基于局部記錄的算法C、基于層次和基于劃分的算法D、基于集合枚舉和基于格搜索的算法正確答案:【基于泛化和基于元組抑制的算法#基于全局和基于局部記錄的算法#基于層次和基于劃分的算法】6、問題:K-匿名規(guī)則滿足子集屬性和泛化屬性選項:A、正確B、錯誤正確答案:【正確】7、問題:蒙德里安算法是一種基于劃分的算法選項:A、正確B、錯誤正確答案:【正確】8、問題:極小全域泛化的集合構(gòu)成一個反鏈選項:A、正確B、錯誤正確答案:【正確】9、問題:熵l-多樣性滿足子集屬性和泛化屬性選項:A、正確B、錯誤正確答案:【正確】10、問題:遞歸(c,l)-多樣性不滿足泛化屬性選項:A、正確B、錯誤正確答案:【錯誤】第7章單元測驗1、問題:在“看不見的動機中”由于數(shù)據(jù)使用者和數(shù)據(jù)生成機構(gòu)都是()的生產(chǎn)大數(shù)據(jù),忽略了人們行為背后趨利避害的動機的大數(shù)據(jù)統(tǒng)計分析。選項:A、無意識B、有意識C、自主選擇D、趨向選擇正確答案:【無意識】2、問題:小數(shù)據(jù)強調(diào)采樣,精確以及因果關(guān)系,大數(shù)據(jù)強調(diào)()。選項:A、全樣B、非精確C、相關(guān)關(guān)系D、因果關(guān)系正確答案:【全樣#非精確#相關(guān)關(guān)系】3、問題:大數(shù)據(jù)面臨的挑戰(zhàn)包括()。選項:A、大數(shù)據(jù)自大B、算法演化C、數(shù)據(jù)來源少D、看不見的動機正確答案:【大數(shù)據(jù)自大#算法演化#看不見的動機】4、填空題:數(shù)據(jù)收集過程的性質(zhì)發(fā)生了變化,大數(shù)據(jù)不再只是被動記錄使用者的決策,而是通過______,積極參與到使用者的行為決策中。正確答案:【算法演化】5、填空題:夜光遙感挖掘是通過在遙感圖像中提取________數(shù)據(jù)進行繪制和分析。正確答案:【燈光】6、填空題:“大數(shù)據(jù)自大(bigdatahubris)”的傾向,即認為_______,?這里的關(guān)鍵是,企業(yè)或者機構(gòu)擁有的這個稱為總體的數(shù)據(jù)和研究問題關(guān)心的總體是否相同.正確答案:【自己擁有的數(shù)據(jù)是總體】7、填空題:在大數(shù)據(jù)分析中只關(guān)心________而不關(guān)注因果關(guān)系。正確答案:【相關(guān)關(guān)系】8、填空題:熱力圖是通過__________數(shù)據(jù)進行繪制和分析。正確答案:【位置】9、填空題:谷歌通過__________來預測流感發(fā)病率。正確答案:【搜索關(guān)鍵詞】10、填空題:_______未卜先知的故事,常被看做大數(shù)據(jù)分析優(yōu)勢的明證。正確答案:【谷歌流感預測】大數(shù)據(jù)技術(shù)導論期末試題1、問題:大數(shù)據(jù)是一個什么領(lǐng)域的問題?選項:A、業(yè)務領(lǐng)域B、計算機領(lǐng)域C、多學科綜合領(lǐng)域D、數(shù)學統(tǒng)計領(lǐng)域正確答案:【多學科綜合領(lǐng)域】2、問題:以下哪種技術(shù)對大數(shù)據(jù)技術(shù)的發(fā)展起了最重要基礎(chǔ)支撐作用?選項:A、云計算技術(shù)B、信息安全技術(shù)C、物聯(lián)網(wǎng)技術(shù)D、數(shù)據(jù)庫技術(shù)正確答案:【云計算技術(shù)】3、問題:科學研究的第三范式是計算思維-()選項:A、仿真模擬B、模型推演C、關(guān)聯(lián)分析D、科學歸納正確答案:【仿真模擬】4、問題:與大數(shù)據(jù)直接相關(guān)的職業(yè)不包括選項:A、數(shù)據(jù)分析師B、系統(tǒng)架構(gòu)師C、領(lǐng)域科學家D、首席執(zhí)行官正確答案:【首席執(zhí)行官】5、問題:下面科學研究的四個范式順序正確的是()選項:A、理論范式-模擬范式-經(jīng)驗范式-數(shù)據(jù)密集型范式B、理論范式-模擬范式-數(shù)據(jù)密集型范式-經(jīng)驗范式C、理論范式-經(jīng)驗范式-數(shù)據(jù)密集型范式-模擬范式D、經(jīng)驗范式-理論范式-模擬范式-數(shù)據(jù)密集型范式正確答案:【經(jīng)驗范式-理論范式-模擬范式-數(shù)據(jù)密集型范式】6、問題:在大數(shù)據(jù)生命周期的各個階段中,工作最多的是哪個階段()選項:A、數(shù)據(jù)分析B、數(shù)據(jù)收集和整理C、數(shù)據(jù)治理D、數(shù)據(jù)存儲正確答案:【數(shù)據(jù)收集和整理】7、問題:在網(wǎng)絡爬蟲策略中需要根據(jù)鏈接計算網(wǎng)頁重要性的是以下哪個算法()選項:A、局部PageRank策略B、廣度優(yōu)先C、深度優(yōu)先D、OPIC正確答案:【局部PageRank策略】8、問題:常見的分布式網(wǎng)絡爬蟲架構(gòu)不包含()選項:A、Master-slaveB、MixedC、Master-workerD、peer-peer正確答案:【Master-worker】9、問題:以下哪項不是傳統(tǒng)關(guān)系型數(shù)據(jù)庫的弱點?選項:A、無法滿足海量數(shù)據(jù)的管理要求B、無法滿足數(shù)據(jù)高并發(fā)的需求C、無法滿足數(shù)據(jù)一致性和完整性的需求D、無法滿足高拓展性和高可用性的需求正確答案:【無法滿足數(shù)據(jù)一致性和完整性的需求】10、問題:下列對HBase數(shù)據(jù)模型的描述錯誤的是選項:A、每個HBase表都由若干行組成,每個行由行鍵(rowkey)來標識B、HBase是一個稀疏、多維度、排序的映射表,這張表的索引是行鍵、列族、列限定符和時間戳C、HBase中執(zhí)行更新操作時,會刪除數(shù)據(jù)舊的版本,并生成一個新的版本D、HBase列族支持動態(tài)擴展,可以很輕松地添加一個列族或列正確答案:【HBase中執(zhí)行更新操作時,會刪除數(shù)據(jù)舊的版本,并生成一個新的版本】11、問題:HBase是一種()數(shù)據(jù)庫選項:A、關(guān)系數(shù)據(jù)庫B、文檔數(shù)據(jù)庫C、列式數(shù)據(jù)庫D、行式數(shù)據(jù)庫正確答案:【列式數(shù)據(jù)庫】12、問題:訪問HBase表中的行,不可以用以下哪種方式選項:A、通過一個行健的區(qū)間來訪問B、全表掃描C、通過某列的值區(qū)間D、通過單個行健訪問正確答案:【通過某列的值區(qū)間】13、問題:分布式文件系統(tǒng)HDFS采用了主從結(jié)構(gòu)模型,由計算機集群中的多個節(jié)點構(gòu)成的,這些節(jié)點分為兩類,一類存儲元數(shù)據(jù)叫(),另一類存儲具體數(shù)據(jù)叫()選項:A、名稱節(jié)點,數(shù)據(jù)節(jié)點B、名稱節(jié)點,主節(jié)點C、從節(jié)點,主節(jié)點D、數(shù)據(jù)節(jié)點,名稱節(jié)點正確答案:【名稱節(jié)點,數(shù)據(jù)節(jié)點】14、問題:HDFS中文件塊默認保存幾份()選項:A、2份B、3份C、4份D、5份正確答案:【3份】15、問題:下面與HDFS類似的框架是()選項:A、FAT32B、NTFSC、GFSD、EXT3正確答案:【GFS】16、問題:下列關(guān)于NoSQL數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫的比較,不正確的是選項:A、NoSQL數(shù)據(jù)庫缺乏統(tǒng)一的查詢語言,而關(guān)系型數(shù)據(jù)庫有標準化查詢語言B、NoSQL數(shù)據(jù)庫很容易實現(xiàn)數(shù)據(jù)完整性,關(guān)系型數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性C、NoSQL數(shù)據(jù)庫具有弱一致性,關(guān)系型數(shù)據(jù)庫具有強一致性D、NoSQL數(shù)據(jù)庫的可擴展性比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫更好正確答案:【NoSQL數(shù)據(jù)庫很容易實現(xiàn)數(shù)據(jù)完整性,關(guān)系型數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性】17、問題:下列數(shù)據(jù)庫屬于文檔數(shù)據(jù)庫的是選項:A、HBaseB、RedisC、MongoDBD、MySQL正確答案:【MongoDB】18、問題:NoSQL數(shù)據(jù)庫的CAP不包含()選項:A、一致性B、可用性C、分區(qū)容忍性D、持久性正確答案:【持久性】19、問題:NoSQL數(shù)據(jù)庫的BASE不包含()選項:A、持續(xù)性B、最終一致性C、基本可用D、軟狀態(tài)正確答案:【持續(xù)性】20、問題:關(guān)于NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫,下列說法不正確的是:選項:A、NoSQL數(shù)據(jù)庫可以支持超大規(guī)模數(shù)據(jù)存儲,具有強大的橫向擴展能力B、NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫各有優(yōu)缺點,但隨著NoSQL的發(fā)展,終將取代關(guān)系數(shù)據(jù)庫C、大多數(shù)NoSQL數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性D、關(guān)系數(shù)據(jù)庫有關(guān)系代數(shù)理論作為基礎(chǔ),NoSQL數(shù)據(jù)庫沒有統(tǒng)一的理論基礎(chǔ)正確答案:【NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫各有優(yōu)缺點,但隨著NoSQL的發(fā)展,終將取代關(guān)系數(shù)據(jù)庫】21、問題:NoSQL數(shù)據(jù)庫的明顯優(yōu)勢不包含()選項:A、具有強大的橫向擴展能力B、靈活的數(shù)據(jù)模型可以很好的支持Web2.0應用C、實現(xiàn)數(shù)據(jù)完整性D、支持超大規(guī)模數(shù)據(jù)存儲正確答案:【實現(xiàn)數(shù)據(jù)完整性】22、問題:下列關(guān)于數(shù)據(jù)可視化的介紹,不正確的是()選項:A、可視化分析用到了支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術(shù)B、統(tǒng)計圖表有餅圖、時間序列圖、散點圖、等高線圖等多種形式C、可視化技術(shù)被大量應用于統(tǒng)計學領(lǐng)域、地理信息系統(tǒng)、數(shù)據(jù)挖掘分析、商務智能工具等D、雷達圖不適用于多維數(shù)據(jù)正確答案:【雷達圖不適用于多維數(shù)據(jù)】23、問題:關(guān)于數(shù)據(jù)挖掘任務,下列說法不正確的是()選項:A、聚類屬于無監(jiān)督范疇B、聚類是描述性任務C、回歸分析屬于描述性任務D、分類屬于預測性任務正確答案:【回歸分析屬于描述性任務】24、問題:下列不可以用于多維數(shù)據(jù)可視化的方法有()選項:A、GMapB、散點圖矩陣C、平行坐標系D、雷達圖正確答案:【GMap】25、問題:數(shù)據(jù)度量的常用方法不包括:選項:A、相似性函數(shù)B、夾角余弦C、相關(guān)系數(shù)D、聚類系數(shù)正確答案:【聚類系數(shù)】26、問題:Spark的組件中,用于做查詢分析的是()選項:A、SparkMLibB、SparkCoreC、SparkStreamingD、SparkSQL正確答案:【SparkSQL】27、問題:關(guān)于MapReduce,下列說法錯誤的是選項:A、不同的Map任務之間不能互相通信B、MapReduce框架采用了Master/Slave架構(gòu),包括一個Master和若干個SlaveC、Map函數(shù)將輸入的元素轉(zhuǎn)換成key,value形式的鍵值對D、Hadoop框架是用Java實現(xiàn)的,MapReduce應用程序則一定要用Java來寫正確答案:【Hadoop框架是用Java實現(xiàn)的,MapReduce應用程序則一定要用Java來寫】28、問題:傳統(tǒng)并行計算框架(比如MPI)和MapReduce并行計算框架相比較的特點不包含選項:A、前者相比后者學習起來更容易B、前者是共享式(共享內(nèi)存/共享存儲),容錯性差,后者是非共享式的,容錯性好C、前者所需硬件價格貴,可擴展性差,后者硬件便宜,擴展性好D、前者適用于實時、細粒度計算、計算密集型,后者適用于批處理、非實時、數(shù)據(jù)密集型正確答案:【前者相比后者學習起來更容易】29、問題:關(guān)于RDD論述正確的是()選項:A、RDD讀取的數(shù)據(jù)都存儲在一臺機器上B、RDD是一種高效的可讀寫存儲C、RDD提供一種高度受限的共享內(nèi)存模型,是一個彈性分布式數(shù)據(jù)集D、RDD支持各種粗粒度和細粒度的操作,是一個高效的多模態(tài)處理系統(tǒng)正確答案:【RDD提供一種高度受限的共享內(nèi)存模型,是一個彈性分布式數(shù)據(jù)集】30、問題:Apache軟件基金會最重要的三大分布式計算系統(tǒng)開源項目不包括()選項:A、MapReduceB、SparkC、StormD、Hadoop正確答案:【MapReduce】31、問題:利用大數(shù)據(jù)特性進行隱私保護的方式不包含:選項:A、數(shù)據(jù)匿名化B、屬性多樣性C、差分隱私保護D、數(shù)據(jù)加密傳輸技術(shù)正確答案:【數(shù)據(jù)加密傳輸技術(shù)】32、問題:以下哪項對數(shù)據(jù)隱私問題的影響相對最小選項:A、證明P=NPB、研制出量子計算機C、政府和企業(yè)成立安全聯(lián)盟D、發(fā)現(xiàn)了新的可計算哈希碰撞正確答案:【政府和企業(yè)成立安全聯(lián)盟】33、問題:大數(shù)據(jù)分析的挑戰(zhàn)不包括()選項:A、大數(shù)據(jù)自大B、算法演化C、看不見的動機D、無處不在的數(shù)據(jù)正確答案:【無處不在的數(shù)據(jù)】34、問題:科學研究的第一到第四范式數(shù)據(jù)思維依次分別采用:仿真模擬、模型推演、關(guān)聯(lián)分析、科學歸納選項:A、正確B、錯誤正確答案:【錯誤】35、問題:大數(shù)據(jù)的優(yōu)勢包含:數(shù)據(jù)體量大,數(shù)據(jù)類型豐富,價值密度高,收集時間短選項:A、正確B、錯誤正確答案:【錯誤】36、問題:大數(shù)據(jù)處理中的批處理框架包含F(xiàn)link、hadoop、jvm、Spark選項:A、正確B、錯誤正確答案:【錯誤】37、問題:大數(shù)據(jù)處理中的流計算框架包含F(xiàn)link、Sparkstreaming、STORM選項:A、正確B、錯誤正確答案:【正確】38、問題:大數(shù)據(jù)處理中批流融合計算很難,目前業(yè)界關(guān)于此類研究處于空白狀態(tài)選項:A、正確B、錯誤正確答案:【錯誤】39、問題:系統(tǒng)的控制方式一般分為模型驅(qū)動和數(shù)據(jù)驅(qū)動選項:A、正確B、錯誤正確答案:【正確】40、問題:4V特征包含:數(shù)據(jù)規(guī)模大、數(shù)據(jù)密度低、數(shù)據(jù)處理速度快、價值密度低選項:A、正確B、錯誤正確答案:【錯誤】41、問題:大數(shù)據(jù)的處理過程包含,數(shù)據(jù)獲取與管理、數(shù)據(jù)存儲與處理、數(shù)據(jù)分析與理解、結(jié)合領(lǐng)域的大數(shù)據(jù)應用選項:A、正確B、錯誤正確答案:【正確】42、問題:模擬范式是以數(shù)據(jù)考察為基礎(chǔ),聯(lián)合理論、實驗和模擬一體的數(shù)據(jù)密集計算的范式選項:A、正確B、錯誤正確答案:【錯誤】43、問題:全表對比是一種需要計算MD5校驗碼的非增量抽取方法選項:A、正確B、錯誤正確答案:【錯誤】44、問題:大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)包括視頻、圖像、語音、文本選項:A、正確B、錯誤正確答案:【正確】45、問題:電子表格Excel、網(wǎng)頁HTML均屬于結(jié)構(gòu)化數(shù)據(jù)選項:A、正確B、錯誤正確答案:【錯誤】46、問題:通過使用詞組查詢搜索引擎搜索得到的結(jié)果、通過填寫表單形成對后臺在線數(shù)據(jù)庫的查詢而得到的動態(tài)頁面、需要注冊或其他限制才能訪問的內(nèi)容都屬于深網(wǎng)內(nèi)容選項:A、正確B、錯誤正確答案:【錯誤】47、問題:HBase依靠Hadoop存儲底層數(shù)據(jù)選項:A、正確B、錯誤正確答案:【錯誤】48、問題:NoSQL的數(shù)據(jù)特點包含與云計算緊密融合,靈活的可擴展性,動態(tài)的數(shù)據(jù)遷移、靈活的數(shù)據(jù)模型選項:A、正確B、錯誤正確答案:【錯誤】49、問題:HDFS只設(shè)置唯一一個名稱節(jié)點帶來的局限性主要包括集群的可用性、命名空間的限制、隔離問題以及性能的瓶頸選項:A、正確B、錯誤正確答案:【正確】50、問題:在分布式文件系統(tǒng)中,采用采用多副本冗余存儲可以節(jié)約存儲空間、保證數(shù)據(jù)可靠性、更容易檢查數(shù)據(jù)錯誤并加快數(shù)據(jù)傳輸速度選項:A、正確B、錯誤正確答案:【錯誤】51、問題:分布式文件系統(tǒng)改變了數(shù)據(jù)存儲和管理方式,相對于本地文件系統(tǒng)具有易擴展、低成本、強可靠、高可用的優(yōu)勢選項:A、正確B、錯誤正確答案:【正確】52、問題:HBase是一種開源的,是面向行的、分布式的NoSQL數(shù)據(jù)庫選項:A、正確B、錯誤正確答案:【錯誤】53、問題:Hadoop的框架最核心的設(shè)計是HDFS和MapReduce選項:A、正確B、錯誤正確答案:【正確】54、問題:HBase的實現(xiàn)主要包含許多個Master主服務器、Region服務器及庫函數(shù)選項:A、正確B、錯誤正確答案:【錯誤】55、問題:HDFS專為解決大數(shù)據(jù)存儲問題而產(chǎn)生的,其具備了強大的跨平臺兼容性,支持批和流數(shù)據(jù)讀寫,實現(xiàn)了低延時數(shù)據(jù)訪問,并兼容廉價的硬件設(shè)備選項:A、正確B、錯誤正確答案:【錯誤】56、問題:NoSQL數(shù)據(jù)庫的三大理論基石包括BASE、CAP和最終一致性選項:A、正確B、錯誤正確答案:【正確】57、問題:目前,NoSQL的含義是“NotonlySQL”,而不是“NoSQL”。選項:A、正確B、錯誤正確答案:【正確】58、問題:一個數(shù)據(jù)庫事務具有ACID是指:原子性,一致性,持久性,隔離性。選項:A、正確B、錯誤正確答案:【正確】59、問題:數(shù)據(jù)可視化方法和技術(shù)包含多維數(shù)據(jù)可視化技術(shù)、圖可視化技術(shù)、時空數(shù)據(jù)可視化技術(shù)以及混合建模技術(shù)選項:A、正確B、錯誤正確答案:【錯誤】60、問題:數(shù)據(jù)可視化可以理解信息、探索數(shù)據(jù)、協(xié)助思考,并作為大量工作記憶的外界輔助選項:A、正確B、錯誤正確答案:【正確】61、問題:預測任務的目標是導出和概

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論