大數(shù)據(jù)開發(fā)基礎練習題及答案7-2023練習版_第1頁
大數(shù)據(jù)開發(fā)基礎練習題及答案7-2023練習版_第2頁
大數(shù)據(jù)開發(fā)基礎練習題及答案7-2023練習版_第3頁
大數(shù)據(jù)開發(fā)基礎練習題及答案7-2023練習版_第4頁
大數(shù)據(jù)開發(fā)基礎練習題及答案7-2023練習版_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試題說明

本套試題共包括1套試卷

答案和解析在每套試卷后

大數(shù)據(jù)開發(fā)基礎練習題及答案7(500題)

大數(shù)據(jù)開發(fā)基礎練習題及答案7

L[單選題]Hadoop作者

A)MartinFowler

B)KentBeck

C)Dougcutting

2.[單選題]以下說法正確的是()。

A)一個機器學習模型如果有較高準確率,總是說明這個分類器是好的

B)如果增加模型復雜度,那么模型的測試錯誤率不一定會降低

C)如果增加模型復雜度,那么模型的訓練錯誤率總是會降低

3.[單選題]在邏輯回歸輸出與目標對比的情況下,以下評估指標中0不適用。

A)AUC-ROC

B)準確度

C)Logloss

D)均方誤差

4.[單選題]大數(shù)據(jù)正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關聯(lián)分

析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的O

A)新一代技術平臺

B)新一代信息技術和服務業(yè)態(tài)

C)新一代服務業(yè)態(tài)

D)新一代信息技術

5.[單選題]在HadooP中負責運算的組件是O

A)HDFS

B)YARN

OMapReduce

D)Zookeeper

6.[單選題]聚類算法的性能度量可稱為()

A)密度估計

B)異常檢測

C)有效性指標

D)分布結構

7.[單選題]數(shù)據(jù)科學是一門以“數(shù)據(jù)時代”,尤其是“大數(shù)據(jù)時代”面臨的新挑戰(zhàn)、新機會、新思

維和新方法為核心內容的,包括新的理論、方法、模型、技術、平臺、工具、應用和最佳實踐在內

的(一)。

A)新興科學

B)交叉性學科

C)獨立學科

D)一整套知識體系

8.[單選題]以下說法錯誤的是哪項?()

A)大數(shù)據(jù)是一種思維方式

B)大數(shù)據(jù)不僅僅是講數(shù)據(jù)的體量大

C)大數(shù)據(jù)會帶來機器智能

D)大數(shù)據(jù)的英文名稱是Iargedata

9.[單選題IFusionlnsightHD系統(tǒng)中HDFS默認BlockSiZe是多少

A)32MB

B)64MB

C)128MB

D)256MB

10.[單選題]有如下程序:deff(x,y,z):returnx+y+ZPrint(f(l,10,100))程序的輸出結

果是(一)o

A)110110

B)110

Olll

D)112

IL[單選題]下列關于PythOn全局變量和局部變量描述不正確的是()o

A)IOCaI關鍵字用于定義局部變量,global關鍵字用于定義全局變量

B)關鍵字IoCaI定義的變量僅在該函數(shù)內可見

C)關鍵字global定義全局變量時必須自成一行

D)nonlocal變量不可以在內嵌函數(shù)中使用

12.[單選題]下列選項中,關于fillna()方法描述正確的是()

A)fi∏na()方法只能填充替換值為NaN的數(shù)據(jù)

B)只支持前向填充方式

C)默認可支持填充的最大數(shù)量為1

D)fi∏na()方法可以填充替換值為NaN和NOne的數(shù)據(jù)

13.[單選題]MapReduce做二次排序是要對什么內容進行排序

A)對文件名進行排序

B)對key進行再次排序

C)對分區(qū)進行排序

D)對key進行排序

14.[單選題]運行下列代碼,輸出結果是()。

L=[iifi%2==0elsei*10foriinrange(5)]print(1)

A)[0,10,2,30,4]

B)[10,2,30,4]

C)[0,10,2,30,4,50]

D)[O,1,20,3,40]

15.[單選題Iregionserver負責零個或多個區(qū)域的管理以及響應()的讀寫請求。

A)Client

B)MapReduce

OHDFS

D)HBase

16.[單選題]關于Kafka磁盤容量不足的告警,對于可能的原因以下分析不正確的是?

A)業(yè)務規(guī)劃不合理,導致數(shù)據(jù)分配不均,使部分磁盤達到使用率上限

B)數(shù)據(jù)保存時間配置過長,數(shù)據(jù)累計達到磁盤使用率上限

OBroker節(jié)點故障導致

D)用于存儲Kafka數(shù)據(jù)的磁盤配置答案:如磁盤數(shù)目,磁盤大小等,無法滿足當前業(yè)務數(shù)據(jù)流量,導致

磁盤使用率達到上限

17.[單選題]()反映數(shù)據(jù)的精細化程度,越細化的數(shù)據(jù),價值越高。

A)規(guī)模

B)靈活性

C)關聯(lián)度

D)顆粒度

18.[單選題]下面關于“領域務實知識”相關描述不正確的有(_)。

A)”領域務實知識”是對數(shù)據(jù)科學家的特殊要求

B)領域務實知識具有顯著的面向領域性

C)領域務實知識是數(shù)據(jù)科學的理論基礎

D)在組建團隊時,不需重視領域專家的參與

19.[單選題]以下哪項不屬于傳統(tǒng)的數(shù)據(jù)存儲和管理技術:()

A)NOSQL數(shù)據(jù)庫

B)文件系統(tǒng)

C)關系數(shù)據(jù)庫

D)數(shù)據(jù)倉庫

20.[單選題]向數(shù)據(jù)表中插入一條記錄用以下哪一項()

A)CREATE

B)INSERT

C)SAVE

D)UPDATE

21.[單選題]以下哪項不屬于圖像分割的目的。()

A)把不同類標分開。

B)提取不同區(qū)域的特征。

C)識別圖像內容,或對圖像進行分類。

D)對未處理噪聲的圖像進行平滑。

22.[單選題]Maxcompute的ACL授權操作一般涉及三個要素,不包括:()。

A)操作

B)客體

C)限制條件

D)主體

23.[單選題]大數(shù)據(jù)數(shù)據(jù)驅動環(huán)境下,世界經濟發(fā)展呈現(xiàn)的新特點中不包括()。

A)創(chuàng)新發(fā)展

B)零和博弈

C)互聯(lián)互通

D)開放包容

24.[單選題]運行下面程序,a、b、c、d四個變量的值錯誤的是()。

Importcopya=[l,2,3,4,L'a','b']]b=a

C=copy.copy(a)d=copy.deepcopy(a)(a).append(5)a[4],append('c')

A)a==Ll,2,3,4,['a','b",'c'],5]

B)b==[l,2,3,4,['a','b','c'],5]

C)c==[l,2,3,4,['a','b','c']]

D)d==[l,2,3,4,['a','b','c']]

25.[單選題]以下哪些選項不屬于大數(shù)據(jù)時代到來的必要條件?

A)存儲設備容量提升

B)CPU計算性能提升

C)超級計算機的出現(xiàn)

D)網(wǎng)絡帶寬提升

26.[單選題]參數(shù)估計可分為()和區(qū)間估計。

A)線型估計

B)點估計

C)回歸估計

D)二維分析

27.[單選題]與大數(shù)據(jù)密切相關的技術是

A)藍牙

B)云計算

C)博弈論

D)WiFi

28.[單選題]在HiVe中,標準查詢關鍵字執(zhí)行順序為()

A)FROMfGROUPBY→WHERE→0RDERBY→HΛVING

B)FROMfWHEREfGROUPBY→ORDERBY-*HAVING

C)FROM-NHEREfGROUPBY→HΛVING→ORDERBY

D)FROMfWHEREfORDERBYfHAVINGfGROUPBY

29.[單選題]數(shù)據(jù)銷毀環(huán)節(jié)的安全技術措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的()、不可恢

復,如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。

A)暫時隔離

B)暫時刪除

C)永久刪除

D)不做處理

30.[單選題]屬于卷積神經網(wǎng)絡應用方向的是()。

A)圖像分類

B)目標檢測

C)圖像語義分割

D)以上答案都正確

31.[單選題]以下聚合函數(shù)求平均數(shù)的是()

A)COUNT

B)MAX

OAVG

D)SUM

32.[單選題]大數(shù)據(jù)平臺技術架構不包含的是0

A)數(shù)據(jù)整合

B)數(shù)據(jù)存儲

C)數(shù)據(jù)計算

D)數(shù)據(jù)溯源

33.[單選題]k近鄰學習是一種(_)算法。

A)分類算法

B)降維算法

C)聚類算法

D)回歸算法

34.[單選題]大數(shù)據(jù)計算服務(MaxCompute,原ODPS)提供了MaPRedUCe編程接口,用戶可以使用

MaPRedUCe提供的SDK編寫程序處理大數(shù)據(jù)計算服務的中的數(shù)據(jù)。目前提供了()語言的SDK。

A)Perl

B)C++

C)Python

D)Java

35.[單選題]Metastore是HiVe的()的集中存放地,它保存了HiVe的元數(shù)據(jù)信息

A)元數(shù)據(jù)

B)配置信息

C)登錄信息

D)權限設置

36.[單選題]存儲過程的調用有幾種方式()?

A)2

B)3

04

D)l

37.[單選題]回歸分析的任務,就是根據(jù)()和因變量的觀察值,估計這個函數(shù),并討論與之有關的

種種統(tǒng)計推斷的問題

A)相關變量

B)樣本

C)已知數(shù)據(jù)

D)自變量

38.[單選題]數(shù)據(jù)管理成熟度模型一DMM將一個機構的數(shù)據(jù)管理工作抽象成6個關鍵過程域,即數(shù)據(jù)戰(zhàn)

略、()、數(shù)據(jù)質量、平臺與架構、數(shù)據(jù)操作以及輔助性過程。

A)數(shù)據(jù)管理

B)數(shù)據(jù)治理

C)數(shù)據(jù)策略

D)數(shù)據(jù)安全

39.[單選題]TFTDF模型中TF是指(_)。

A)詞頻數(shù)

B)逆文檔頻率

C)詞頻率

D)逆文檔頻數(shù)

40.[單選題]“冬天麥蓋三層被,來年枕著饅頭睡?!币恍氯私贪嫘W語文《第一場雪》”關于這

段民俗民諺中體現(xiàn)的是:

A)相關性背后有一定的因果性

B)能被直接觀測到的才是因果性

C)相關性就是因果性

D)相關性與因果性完全無關

41.[單選題]在HadoOP的分區(qū)階段,默認的PartitiOner是()

A)RangePartitioner

B)Partitioner

OHashPartitioner

D)用戶自定義的Partitioner

42.[單選題]以下可用于隱變量估計的方法是(—)o

A)梯度下降法

B)EM法

C)牛頓法

D)貝葉斯分析

43.[單選題]關于大數(shù)據(jù)在社會綜合治理中的作用,以下理解不正確的是()。

A)大數(shù)據(jù)的運用能夠維護社會治安

B)大數(shù)據(jù)的運用能夠加強交通管理

C)大數(shù)據(jù)的運用能夠杜絕抗生素的濫用

D)大數(shù)據(jù)的運用有利于走群眾路線

44.[單選題]下面()函數(shù)不是字符串處理函數(shù)。

A)TRUNC

B)TO_CHAR

C)SUBSTR

D)1NSTR

45.[單選題]關于MaXComPUte分區(qū)的說法,正確的是:()。

A)MaXCOinPUte將分區(qū)列的每個值作為一個分區(qū)

B)用戶最多能指定2級分區(qū)

C)分區(qū)列只支持String和bigint兩種,且統(tǒng)一表的分區(qū)列要么全部是String,要么全部是bigint,不

能混用

D)在使用數(shù)據(jù)時必須指定分區(qū)列,否則會出錯

46.[單選題]以下哪個組件樣式是在所有的可視化圖表中普遍存在的?()

A)圖例

B)軸線

C)標題

D)網(wǎng)格線

47.[單選題]閱讀下列程序r=10c=2s=r*cprint(s)運行結果是

Λ)20

B)12

08

D)出錯

48.[單選題]在HiVe中有數(shù)據(jù)表employee,將其重命名為emp命令正確的是()

A)altertableemployeerenametoemp;

B)updatetableemployeerenametoemp;

C)altertableemployeerenameemp;

D)updatetableemployeerenameemp;

49.[單選題]FusionlnsightHDManager界面Hive日志收集,哪個選項不正確

A)可指定實例進行日志收集,比如指定單獨收集MetaStore的日志

B)可指定時間段進行日志收集,比如只收集2016TT到2016TT0的日志

C)可指定節(jié)點IP進行日志收集,例如僅下載某個ip的日志

D)可指定特定用戶進行日志收集,例如僅下載USerA用戶產生的日志

50.[單選題]下面的循環(huán)會打印多少次"ILovePythonw?foriin5:print('ILovePython')

A)l

B)6

C)5

D)會報錯

51.[單選題]關于引入模塊的方式,錯誤的是()

A)importmath

B)fromfibimportfibonacci

C)frommathimport*

D)fromimportfib

52.[單選題](_)度量了學習算法的期望預測與真實結果的偏離程度。

A)偏差

B)方差

C)均方差

D)泛化誤差

53.[單選題]下列選擇LOgiStiC回歸中的One-VS-An方法中,()是真實的

A)我們需要在n類分類問題中適合n個模型

B)我們需要適合n-1個模型來分類為n個類

C)我們需要只適合1個模型來分類為n個類

D)以上答案都不正確

54.[單選題]下列選項中,若是哪個節(jié)點關閉了,就無法訪問HadooP集群()

A)namenode

B)datanode

C)secondarynamenode

D)yarn

55.[單選題]ADS的表進行實時插入、更新時,遵循()設計。

A)強一致性

B)最終一致性

C)會話一致性

D)因果一致性

56.[單選題]下列選項中,關于SSH服務說法正確的是O

A)SSH服務是一種傳輸協(xié)議

B)SSH服務是一種通信協(xié)議

C)SSH服務是一種數(shù)據(jù)包協(xié)議

D)SSH服務是一種網(wǎng)絡安全協(xié)議

57.[單選題]關于SeCOndaryNameNode哪項是正確?。

A)它是NameNode熱

B)它對內存沒有要求

C)它的目的是幫助

D)SecondaryNameNode

58.[單選題]HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、

高可擴展性、高吞吐率等特征,適合的讀寫任務是OO

A)一次寫入,少次讀

B)多次寫入,少次讀

C)多次寫入,多次讀

D)一次寫入,多次讀

59.[單選題]下列說法錯誤的是(—)o

A)乎所有LinUX系統(tǒng)都默認安裝了Pythono

B)你想使用非默認版本的Python,請首先確定已安裝的PythOn版本

C)$python—versionPython2.7.6表示系統(tǒng)只安裝了版本是2.7.6

D)名為deadsnakes的包讓安裝多個Python版本變得很容易

60.[單選題]下面這段代碼的作用是什么?try{Rsp=restClientlest.PerformRequest

("HEAD","1,,+indexparams);Lf(HttpStatus.Sc_OK==rsp.getStatusLineO.getSta

tusCode(){LOG.info("Checkindexsuccessful,indexisexist:"+index);return

true:}Lf(Httpstatus.SC_NOT_FOUND==Rsp.getStatusLine(.getStatusCode(){

LOG.info(indexisnotexist:"+index);returnfalse;)

A)判斷素引分片是否存在

B)判斷索引類型

C)判斷索引是否可用

D)判斷索引是否存在

61.[單選題]在神經網(wǎng)絡學習中,感知機輸出層中的M-P神經元通常被稱為()

A)閩值邏輯羊元

B)激活函數(shù)

C)擠壓函數(shù)

D)連接函數(shù)

62.[單選題]下面說法正確的是

A)基于像素的圖像增強方法是一種線性灰度變換

B)基于像素的圖像增強方法是基于空間域的圖像增強方法的一種

C)基于頻域的圖像增強方法由于常用到傅里葉變換和傅里葉反變換,所以總比基于圖像域的方法計

算復雜較高

D)基于頻域的圖像增強方法比基于空域的圖像增強方法的增強效果好

63.[單選題]()的主要目標是提供可擴展的機器學習算法及其實現(xiàn),旨在幫助開發(fā)人員更加方便快捷

地創(chuàng)建智能應用程序。

A)Mahout

B)Flume

C)Sqoop

D)HBase

64.[單選題]關于HBaSe的三層結構中各層次的名稱和作用的說法,哪個是錯誤的?

A)ZookeePer文件記錄了用戶數(shù)據(jù)表的RegiOn位置信息

B)-ROOT-表記錄了.META.表的RegiOn位置信息

C)META.表保存了HBaSe中所有用戶數(shù)據(jù)表的RegiOn位置信息

D)ZookeePer文件記錄了-ROoT-表的位置信息

65.[單選題]運行下面程序,可以獲得兩個數(shù)組元素匹配的位置的操作是()。輸入:a=

np.array([1,2,3,2,3,4,3,4,5,6])

B=np.array([7,2,10,2,7,4,9,4,9,8])期望輸出:(array([1,3,5,7]),)

A)np.where(a!=b)

B)np.where(a==b)

C)np.where(a=b)

D)np.where(a>b)

66.[單選題]下列關于數(shù)據(jù)轉換,正確的是()。

A)JSon內的取值只能有統(tǒng)一格式

B)PDF文件在不同平臺上打開顯示不同

C)可以通過PythOn將CSV文件轉換成Excel格式

D)EXCeI存儲數(shù)據(jù)的量無限制

67.[單選題]圖像中的椒鹽噪聲可以用(_)去除。

A)中值濾波

B)均值濾波

C)最大值濾波

D)最小值濾波

68.[單選題]下列關于數(shù)據(jù)轉換器說法正確的是()

A)ArraySPlit是文本型轉換器

B)Left是集合型轉換器

C)DateInC是集合型轉換器

D)FOrmatdate轉換器使用時可以不區(qū)分日期形式

69.[單選題]如果訓練一個RNN網(wǎng)絡時發(fā)現(xiàn)權重與激活值都是NaN,則導致這個問題最有可能的原因

是()。

A)梯度消失

B)梯度爆炸

OReLU函數(shù)作為激活函數(shù)g。,在計算g(Z)時,Z的數(shù)值過大了

D)Sigmoid函數(shù)作為激活函數(shù)g(),在計算g(z)時,Z的數(shù)值過大了

70.[單選題]()算法是一種最有影響的挖掘關聯(lián)規(guī)則頻繁項日集的算法

A)FP-grow也

B)EClat

C)聚類

D)Apdori

71.[單選題]已知X=Io,y=20,z=30;以下語句執(zhí)行后X,y,z的值是()Ifx<y:z=xx=yy=z

A)10,20,30

B)10,20,20

C)20,10,10

D)20,10,30

72.[單選題]Spark的四大組件下面哪個不是O

A)SparkStreaming

B)Mlib

C)Graphx

D)SparkR

73.[單選題]下列關于bootstrap說法正確的是()0

A)從總的M個特征中,有放回地抽取m個特征(m<;M)

B)從總的M個特征中,無放回地抽取m個特征(m<;M)

C)從總的N個樣本中,有放回地抽取n個樣本(n<;N)

D)從總的N個樣本中,無放回地抽取n個樣本(n<;N)

74.[單選題]()是二維隨機變量的分布。

A)正態(tài)分布

B)二項分布

C)邊緣分布

D)指數(shù)分布

75.[單選題]如果建立一個5000個特征、100萬個數(shù)據(jù)的機器學習模型,則有效地應對這樣的大數(shù)

據(jù)訓練的方法是()。

A)隨機抽取一些樣本,在這些少量樣本之上訓練

B)可以試用在線機器學習算法

C)應用PCA算法降維,減少特征數(shù)

D)以上答案都正確

76.[單選題]SQL語言具有兩種使用方式,分別稱為交互式SQL和()

A)提示式SQL

B)多用戶SQL

C)嵌入式SQL

D)解釋式SQL

77.[單選題]有關神經網(wǎng)絡訓練過程的說法,錯誤的是?()

A)對神經網(wǎng)絡訓練的優(yōu)化需要綜合考慮激活函數(shù)、網(wǎng)絡結構、權重更新方法等多種因素。

B)分析問題確定后,神經網(wǎng)絡合適的結構就可以確定。

C)神經網(wǎng)絡權重的初始化大小會對網(wǎng)絡的訓練結果影響。

D)使用增加訓練次數(shù)的方法不一定可以減少代價函數(shù)的取值。

78.[單選題]馬爾可夫隨機場有一組(_),這是定義在變量子集上的非負實函數(shù),主要用于定義概

率分布函數(shù)。

A)損失函數(shù)

B)優(yōu)化函數(shù)

C)激活函數(shù)

D)勢函數(shù)

79.[單選題]下列不屬于無監(jiān)督學習方法的是0

A)、K-meΛsns

B)、線性降維

C)、D、B、SC、A、N

D)、支持向量機

80.[單選題]HBase依靠O來存儲底層數(shù)據(jù)?

A)HDFS

B)Zookeeper

OHive

D)Spark

81.[單選題]下面這段代碼的作用是什么?

A)創(chuàng)建索引

B)刪除索引

C)維護親引

D)更新索引

82.[單選題]假設PreCiSiOn='四7(TP+FP),recall=TP/(回'+FN),則在二分類問題中,當測試集的

正例和負例數(shù)量不均衡時,以下評價方案中()是相對不合理的

A)Accuracy:(TP+τN)/all

B)F-value:2recallprecisionJ(r,8居IJ增r8ision)

C)G-mean:Sq此(precision*recall)

D)ΛUC:曲線下面積

83.[單選題]如果線性回歸模型中的隨機誤差存在異方差性,那么參數(shù)的OLS估計量是()。

A)無偏的、有效的

B)無偏的、非有效的

C)有偏的、有效的

D)有偏的、非有效的

84.[單選題]IBM在3V的基礎上又歸納總結了第4個V是指

A)真實和準確

B)無時不在

C)巨量

D)極速

85.[單選題]大數(shù)據(jù)對推動經濟的重要意義不包括。。

A)大數(shù)據(jù)成為推動經濟轉型發(fā)展的新動力

B)大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇

C)大數(shù)據(jù)成為企業(yè)轉型升級的新常態(tài)

D)大數(shù)據(jù)成為提升政府治理能力的新途徑

86.[單選題]關于Spark的說法中,()是錯誤的。

A)采用內存計算模式

B)可利用多種語言編程

C)主要用于批處理

D)可進行map()操作

87.[單選題]假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F(xiàn)在

,在數(shù)據(jù)中增加一個新的特征,其他特征保持不變。然后重新訓練測試。則下列說法正確的是()。

A)訓練樣本準確率一定會降低

B)訓練樣本準確率一定增加或保持不變

C)測試樣本準確率一定會降低

D)測試樣本準確率一定增加或保持不變

88.[單選題]學生成績屬于下列哪類數(shù)據(jù)

A)結構化數(shù)據(jù)

B)非結構化數(shù)據(jù)

C)半結構化數(shù)據(jù)

D)準結構化數(shù)據(jù)

89.[單選題]執(zhí)行以下代碼段ClaSSTest:def_init_(self):self,x=Oclass

Derived_Test(Test):def—init—(self):Test.—init_(self)self,y=Idefmain():b=

Derived_Test()Print(b.x,b.y)main()時,輸出為()o

A)00

B)01

Ol0

D)l1

90.[單選題]以下對結構化數(shù)據(jù)描述不正確的是(一)。

A)結構化數(shù)據(jù)可以直接用傳統(tǒng)關系數(shù)據(jù)庫進行存儲

B)先有結構,后有數(shù)據(jù)

C)語音數(shù)據(jù)是結構化數(shù)據(jù)

D)XML不是結構化數(shù)據(jù)

91.[單選題]設計分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可以對表中的連續(xù)字段進行

什么操作。

A)分桶

B)分區(qū)

C)索引

D)分表

92.[單選題]HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不包括

O?

A)利用SeqUenCeFiIe、MapFile,Har等方式歸檔小文件

B)多MaSter設計

C)BlOCk大小適當調小

D)調大namenode內存或將文件系統(tǒng)元數(shù)據(jù)存到硬盤里

93.[單選題]你正在使用帶有Ll正則化的IogiStiC回歸做二分類,其中C是正則化參數(shù),WI和w2是

Xl和x2的系數(shù)。當你把C值從0增加至非常大的值時,下面哪個選項是正確的?

A)第一個w2成了0,接著Wl也成了0

B)第一個Wl成了0,接著w2也成了0

C)Wl和w2同時成了0

D)即使在C成為大值之后,Wl和w2都不能成0

94.[單選題]執(zhí)行以下代碼段a=3b=4c=256Print(C∕b**a)時,輸出為()。

A)64

B)4.0

0192

D)262144

95.[單選題]()完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及生成邏輯執(zhí)行計劃的

生成。生成的邏輯執(zhí)行計劃存儲在HDFS中,并隨后由MapReduce調用執(zhí)行。

A)Parser

B)YARN

C)Driver

D)Executor

96.[單選題]0racle數(shù)據(jù)庫中,段的集合稱為

A)區(qū)

B)段

C)表空間

D)數(shù)據(jù)庫

97.[單選題]如果想把RediS的Key中存儲的數(shù)字值減1,該使用下列哪一個命令?

A)deer

B)incr

C)C.incrby

D)decrby

98.[單選題]()是一門以可視交互為基礎,綜合運用圖形學、數(shù)據(jù)挖掘和人機交互等技術等多個學

科領域的知識,以實現(xiàn)人機協(xié)同完成可視化任務為主要目的分析推理性學科。

A)科學可視化

B)可視分析學

C)數(shù)據(jù)可視化

D)信息可視化

99.[單選題]匹配是將兩個知識模式進行()比較。

A)相同性

B)一致性

C)可比性

D)同類性

IOO.[單選題]HBase的一個典型應用是webtable,它是一個以網(wǎng)頁()為主鍵的表。

A)標題

B)URL

C)內容

D)類別

IOL[單選題]下列是數(shù)學模塊的是O

A)math

B)random

C)re

D)sax

102.[單選題]Spark的大數(shù)據(jù)處理平臺是建立在同一抽象的(一)之上。

A)HDFS

B)HBase

ORDD

D)MR

103.[單選題]FusionlnsightHD系統(tǒng)審計日志不可以記錄下面哪些操作?

A)手動清除告警

B)啟停服務實例

C)刪除服務實例

D)查詢歷史監(jiān)控

104.[單選題]大型會員制連鎖超市S使用OTS來存儲消費記錄表,里面包含了客戶的ViP卡號、訂單標

識,超市分店標識,商品標識,購買時間等,業(yè)務邏輯遵循以下規(guī)則:每個ViP卡號對應一個客戶

,同時一個客戶職能擁有一個ViP卡號;該連鎖超市的不同分店都擁有唯一的分店標識;訂單標識按

照時間順序產生;為了讓數(shù)據(jù)分布和訪問了的分布盡可能均勻,一下備注主鍵中()最合適。

A)購買時間,ViP卡號

B)ViP卡號,購買時間

C)ViP卡號

D)訂單標識,ViP卡號

105.[單選題]下列方法中,默認刪除列表最后一個元素的是()。

A)del

B)remove()

C)pop()

D)extend()

106.[單選題]使用交互式的和可視化的技術,對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務?

A)探索性數(shù)據(jù)分析

B)建模描述

C)預測建模

D)尋找模式和規(guī)則

107.[單選題]業(yè)務系統(tǒng)功能設計需嚴格執(zhí)行公司信息化和數(shù)據(jù)資產標準,數(shù)據(jù)應按O準確錄入和

采集,關鍵數(shù)據(jù)應進行初審和復核,保證數(shù)據(jù)真實,避免數(shù)據(jù)缺失

A)規(guī)定的時間、頻度

B)數(shù)據(jù)類型

C)數(shù)據(jù)大小

D)數(shù)據(jù)重要性

108.[單選題]以下代碼哪個能夠打印出138-9922-0202這個電話號碼,注意格式需要完全一致?()

A)Print("138")Print("9922")print(u0202,t)

B)Print(“138”,end="'')Print(“9922”,end="")Print(“0202”,end="")

C)Print(“138”,SeP=)Print(“9922”,SeP=)Print(“0202”,sep=)

D)Print(“138”,end=)Print(“9922”,end="-")Print(“0202”)

109.[單選題]關于HiVe說法正確的是()。

A)一種數(shù)據(jù)倉庫

B)一種數(shù)據(jù)處理工具

C)一種可視化工具

D)一種分析算法

110.[單選題]當需要在字符串中使用特殊字符時,Python使用()作為轉義字符。

A)?

B)/

O#

D)%

245

Ill.[單選題]在HadoOP生態(tài)系統(tǒng)中,()建立在MaPRedUCe之上,主要用來彌補MaPRedUCe編程的

復雜性。

A)HBase

B)Flume

OPig

D)Sqoop

112.[單選題]下列一系列處理,在基本保持原始數(shù)據(jù)完整性的基礎上,減小數(shù)據(jù)規(guī)模的是()

A)數(shù)據(jù)清洗

B)數(shù)據(jù)融合

C)數(shù)據(jù)規(guī)約

D)數(shù)據(jù)挖掘

113.[單選題]可以實現(xiàn)數(shù)組的除法是哪個函數(shù)?

A)np.sub

B)np.add

C)np.mul

D)np.div

114.[單選題]有訂單表Order,包含用戶信息uid,商品信息gid,以下()語句能夠返回至少被購買兩

次的商品id。一

A)SELECTgiD、FROMorderWHERECOUNT(gid)>1;

B)SELECTgiD、FROMorderWHEREMAX(gid)>l;

C)SELECTgiD、FROMorderGROUPBYgiD、HAVINGCOUNT(gid)>l;

D)SELECTgiD、FROMorderWHEREHAVINGCOUNT(gid)>1GROUPBYgid;

115.[單選題]MapReduce計算框架的輸入是(__)數(shù)據(jù)結構。

A)key-value

B)input-output

C)map-reduce

D)key-column

116.[單選題]Zookeeper維護著一個(__)的層次結構。

A)鏈型

B)網(wǎng)格型

C)樹形

D)隊列行

117.[單選題]支持子程序調用的數(shù)據(jù)結構是

A)隊列

B)二叉樹

C)樹

D)棧

118.[單選題]在MaxComputeSQL中,執(zhí)行CeIl(Ll),結果為:()。

A)l

B)2

02

D)l

119.[單選題]下列關鍵字中,用來引入模塊的是()

A)include

B)from

C)import

D)continue

120.[單選題]某大數(shù)據(jù)分析人員想選擇某圖表類型來表示當前坐標范圍內的各個點的權重情況,最適

合的是()

A)點圖

B)熱力點圖

C)面積圖

D)雷達圖

121.[單選題]執(zhí)行以下代碼段Print(TrUeand1)print(Falseand1)時,輸出為(__)。

A)TrueFalse

B)Truel

C)IFalse

D)ll

122.[單選題]下面哪個APaChe系統(tǒng)可以向HadooP提供流式數(shù)據(jù)O

A)Oozie

B)Flume

OHive

D)Kafka

123.[單選題]出現(xiàn)在datanode的VERSlON文件格式中但不出現(xiàn)在namenode的VERSION文件格式中的是

O

Λ)namespacelD

B)StorageID

C)StorageType

D)IayoutVersion

124.[單選題IMapReduce是一種編程模型,用于對大規(guī)模數(shù)據(jù)的(__)o

A)并行處理

B)串行處理

C)存儲

D)查詢

125.[單選題]為了應對大數(shù)據(jù)時代的信息安全問題,下列措施中不恰當?shù)淖龇ㄊ荗o

A)遵循歷史經驗

B)事前主動預防

C)事中即時應對

D)事后總結改進

126.[單選題]已知一組數(shù)據(jù)的協(xié)方差矩陣,下面關于主分量說法錯誤的是()o

A)主分量分析的最佳準則是對一組數(shù)據(jù)接一組正交基分解,在只取相同數(shù)量分量的條件下,以均方

誤差計算截尾誤差最小

B)在經主分量分解后,協(xié)方差矩陣成為對角矩陣

C)主分量分析就是K-L變換

D)主分量是通過求協(xié)方差矩陣的特征值得到

127.[單選題]MapReduce里面的query、sort和Iimit等都是針對()的操作。

A)map()之前

B)reduce()之前

C)reduce()之后

D)nalize()之后

128.[單選題]PageRank是一個函數(shù),它對Web中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的

PageRank越高,那么它就()。

A)相關性越高

B)越不重要

C)相關性越低

D)越重要

129.[單選題]x**=2等效于(__)o

A)x=X*2

B)x=x*2*2

C)x=X**2

D)以上都不對

130.[單選題]“神威-太湖之光”1分鐘算力,相當于全球72億人同時用計算器不間斷計算:

A)2年

B)32年

0432年

D)5432年

131.[單選題]關于準確率,精確率與召回率,下列說法錯誤的是:

A)準確率=所有預測正確的樣本/總的樣本

B)精確率=將正類預測為正類/所有預測為正類

C)召回率=將正類預測為正類/所有正真的正類

D)F值=精確率*召回率/(正確率+召回率)

132.[單選題]采用云計算帶來的最明顯的價值是什么:O

A)業(yè)務靈活性

B)降低IT成本

C)增強安全性

D)提供自服務

133.[單選題]當執(zhí)行IistChello')時,輸出是()。

A)['h','e','Γ,'Γ,,o']

B)[%e∏o'].

C)[4olleh,]

D)['h']

134.[單選題]執(zhí)行以下代碼段Print("test"=="testing")時,輸出為()0

A)None

B)Error

OFalse

D)True

135.[單選題]正是由于BP神經網(wǎng)絡的強大的表示能力,它經常遭遇(_),其訓練誤差持續(xù)降低

,但測試誤差卻可能上升。

A)欠擬合

B)誤差過大

C)誤差過小

D)過擬合

136.[單選題]關于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的:()

A)性能好(高并發(fā))

B)缺乏統(tǒng)一的查詢語法

C)復雜性低

D)數(shù)據(jù)是規(guī)則的

137.[單選題]池化層的作用是()。

A)、標準化處理輸入特征

B)、對特征圖進行特征選擇和信息過濾

C)、對提取的特征進行非線性組合以得到輸出

D)、直接輸出每個像素的分類結果

138.[單選題]以下對半結構化數(shù)據(jù)描述不正確的是(—)。

A)先有數(shù)據(jù),后有結構

B)先有結構,后有數(shù)據(jù)

C)HTML是半結構化數(shù)據(jù)

D)經過一定轉換后可以用傳統(tǒng)關系數(shù)據(jù)庫存儲

139.[單選題]在SQL語言中,子查詢是()。

A)選取單表中字段子集的查詢語句

B)選取多表中字段子集的查詢語句

C)返回單表中數(shù)據(jù)子集的查詢語言

D)嵌入到另一個查詢語句之中的查詢語句

140.[單選題]CREATETABLE與()一起使用可為新表復制已有的表結構。一

A)AS

B)IS

OLIKE

D)以上的答案都不正確

141.[單選題]為了返回組中所有值的和,應使用的聚合函數(shù)為()

A)AVG

B)SUM

OCOUNT

D)DISTINCT

142.[單選題]對于Hive中關于普通表和外部表描述不正確的是?

A)默認創(chuàng)建普通表

B)刪除外部表時,只刪除外部表數(shù)據(jù)而不刪除元數(shù)據(jù)

C)外部實質是將已存在于HDFS上的文件路徑跟表關聯(lián)起來

D)刪除普通表時,元數(shù)據(jù)和數(shù)據(jù)同時被刪除

143.[單選題]以下哪項關于決策樹的說法是錯誤的()

A)冗余屬性不會對決策樹的準確率造成不利的影響

B)子樹可能在決策樹中重復多次

C)決策樹算法對于噪聲的干擾非常敏感

D)尋找最佳決策樹是NP完全問題

144.[單選題]對連續(xù)圖像的離散化采樣決定了圖像的(—)。

A)空間分辨率

B)時間分辨率

C)地面分辨率

D)灰度值

145.[單選題]一般情況下,若要提高EIaStiCSearCh檢索效率,可以采取什么操作?

A)增加ESMaSter節(jié)點

B)使用HiVe做底層存儲

C)調整索引分片數(shù)

D)壓縮索引

146.[單選題]高頻增強濾波器由于相對消弱了低頻成分,因而濾波所得的圖像往往偏暗,對比度差

,所以常需要在濾波后進行(_)。

A)中值濾波

B)低頻加強

C)直方圖均衡化

D)圖像均勻加強

147.[單選題]在留出法、交叉驗證法和自助法三種評估方法中,()更適用于數(shù)據(jù)集較小、難以

劃分訓練集和測試集的情況。

A)留出法

B)交叉驗證法

C)自助法

D)留一法

148.[單選題]關于數(shù)據(jù)分析,下列說法正確的是()。

A)描述性分析和預測性分析是診斷性分析的基礎

B)診斷性分析是對規(guī)范性分析的進一步理解

C)預測性分析是規(guī)范性分析的基礎

D)規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產生產業(yè)價值

149.[單選題]O一般由信道不理想引起,它們與信號的關系是相乘的,信號在它在,信號不在時

他也就不在了。

A)泊松噪聲

B)高斯噪聲

C)乘性噪聲

D)椒鹽噪聲

150.[單選題]下列Python賦值語句中,不合法的是O0

A)x.y=y,x

B)x=y=l

C)x=(y=l)

D)x=l;y=l

151.[單選題]任一隨機事件出現(xiàn)的概率為()

A)在T與1之間

B)小于0

C)不小于1

D)在0與1之間

152.[單選題]關于PandaS層次化索引,下列說法錯誤的是()。

A)層次化索引是指PandaS對象在一個軸方向上具有多層索引

B)層次化索引至多只能有兩層索引

C)可以使用SWaPIeVe1()方法對層次化索引的位置交換順序

D)使用sort_index()可以對索引進行排序

153.[單選題]下列說法錯誤的是?()

A)大數(shù)據(jù)魔鏡是一款優(yōu)秀的國產數(shù)據(jù)分析軟件,可以讓用戶真正理解探索分析數(shù)據(jù)

B)TabIeaU是桌面系統(tǒng)中最簡單的商業(yè)智能工具軟件,是一個用于網(wǎng)頁作圖、生成互動圖形的

JaVaSCriPt函數(shù)庫

OGoogleFusionTables讓一般使用者也可以輕松制作出專業(yè)的統(tǒng)計地圖

D)ModestMaPS是一個小型、可擴展、交互式的免費庫,提供了一套查看衛(wèi)星地圖的APl

154.[單選題]向量空間模型的缺陷不包括()。

A)維度災難

B)模型稀疏性

C)語義信息缺失

D)無法計算文本相似度

155.[單選題]下面哪種不屬于數(shù)據(jù)預處理的方法?

A)變量代換

B)離散化

C)聚集

D)估計遺漏值

156.[單選題Imatplotlib中的調用堆積折線圖的函數(shù)是什么O

A)step()

B)stackplot()

C)plusplot()

D)hist()

157.[單選題]HBase依賴()提供強大的計算能力。

A)Zookeeper

B)Chubby

ORPC

D)MapReduce

158.[單選題]HBase針對邏輯模型的理解錯誤的選項是()

A)一開始以時間戳版本為鍵,以數(shù)據(jù)(Data)為值(Value)建立單元(Cell)映射(MaP)

B)往下一層以列標識為鍵,以單元映射為值建立列簇映射

C)再往上一層以列簇為鍵,以列簇映射為值建立行鍵映射

D)最后以行鍵為鍵,以行鍵映射為值建立表映射

159.[單選題]Python中定義私有屬性的方法是Oo

A)使用PriVate關鍵字

B)使用PUbliC關鍵字

C)使用_XX_定義屬性名

D)使用_XX定義屬性名

160.[單選題]以下說法錯誤的一項是O

A)負梯度方向是使函數(shù)值下降最快的方向

B)當目標函數(shù)是凸函數(shù)時,梯度下降法的解是全局最優(yōu)解

C)梯度下降法比牛頓法收斂速度快

D)擬牛頓法不需要計算HeSSe矩陣

161.[單選題]當客戶端需要讀取HDFS中存儲的文件時,首先向O發(fā)起讀請求。

A)DataNode

B)NameNode

C)Yarn

D)Zookeeper

162.[單選題]下面哪個不是HadOOP生態(tài)系統(tǒng)的組件:O

A)HDFS

B)SQLServer

OMapReduce

D)HBase

163.[單選題](一)接受來自AM的應用程序資源請求,把集群中的資源以COntainer的形式分配給申

請的應用程序。

A)NodeManger

B)ResourceManger

C)ApplicationMaster

D)Schedule

164.[單選題]硬件故障被認為是常態(tài),為了解決這個問題,HDFS設計了副本機制。默認情況下,一份

文件,HDFS會存()份?

A)3

B)5

02

D)4

165.[單選題]()不屬于聚類性能度量外部指標。

A)Jaccard系數(shù)

B)FM系數(shù)

ORand指數(shù)

D)DB指數(shù)

166.[單選題]下列不屬于數(shù)據(jù)科學跨平臺基礎設施和分析工具的是()。

A)微軟Azure

B)Google云平臺

C)阿里云

D)Adobephotoshop

167.[單選題]以下哪個是技術性最強的計算機系統(tǒng)攻擊手法?()

A)口令猜測

B)數(shù)據(jù)包偵聽

0口令破解

D)數(shù)據(jù)包欺騙

168.[單選題]執(zhí)行以下代碼段defbuild_PerSOn(firstJname,last_name):person={'first':

firstname,'last':IaSt_name}returnpersonmusician=buildperson('jimi',

'hendrix')print(musician)時,輸出為(.)□

A){'first':"jimi','last':'hendrix')

B){'first':'Jimi','last':'Hendrix'}

C)JimiHendrix

D)jimihendrix

169.[單選題]k近鄰算法在()的情況下效果較好。

A)樣本較多但典型性不好

B)樣本較少但典型性好

C)樣本呈團狀分布

D)樣本呈鏈狀分布

170.[單選題]執(zhí)行以下代碼段deffl0:x=20print(x)x=+lfl()時,輸出為()。

A)Error

B)20

021

D)19

171.[單選題]以下說法正確的是()。-

A)INT(4)中的4表示取值范圍

B)BlNARY(4)中的4表示二進制數(shù)據(jù)的最大字節(jié)長度

C)VARCHAR(4)中的4表示占用的字節(jié)數(shù)

D)以上說法都不正確

172.[單選題]Hadoop工程文件使用哪個擴展名O

A)hrh

B)har

C)hrc

D)hraf

173.[單選題]Hive的數(shù)據(jù)最終存儲在()。

A)HDFS

B)HBase

ORDBMS

D)MetaStore

174.[單選題](_)是指同樣的一句話,可能有兩種或者更多的切分方法。

A)生詞

B)歧義

C)斷句

D)分詞

175.[單選題]假設file是文本文件對象,下列選項中,哪個用于讀取一行內容?()

A)file.read()

B)file,read(200)

C)file,readline()

D)file.readlies()

176.[單選題]下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測

A)ARMA模型

B)AR模型

C)MA模型

D)GARCH模型

177.[單選題]當作業(yè)調度根據(jù)自己的調度算法調度該作業(yè)時,會根據(jù)數(shù)據(jù)劃分信息為每個劃分創(chuàng)建

一個(____)任務。

Λ)Reduce

B)Shuffle

OMap

D)Partition

178.[單選題]在面積圖中,面積是指()

A)坐標系中不同的點圍成的最大圖形面積

B)坐標系中不同的點所連成的折現(xiàn)投影于縱軸的面積

C)坐標系中不同的點所連成的折現(xiàn)投影于橫軸的面積

D)坐標系中不同的點圍成的最小圖形面積

179.[單選題]執(zhí)行下列語句后,變量SUm的值是()SUm=Oi=OWhile(i

A)55

B)30

C)25

D)無答案

180.[單選題]一個輸入為(32,32,3)的數(shù)據(jù)集,通過一個大小為2X2的不重疊最大池化層,輸出

()O

A)(28,28,8)

B)(16,16,8)

C)(28,28,3)

D)(16,16,3)

181.[單選題]one-hot單個屬性編碼的個數(shù)取決于()

A)所有樣本中該屬性出現(xiàn)的最高頻率的取值

B)樣本個數(shù)

C)所有樣本中該屬性的最大值

D)所有樣本中該屬性可取值的個數(shù)

182.[單選題IMapReduce中哪一種文件輸入格式可以自動切割并合并小文件?()

A)NLinelmputFormat

B)TextInputFormat

C)CombineFileInputFormat

D)KeyvalueTextInputFormat

183.[單選題]下列選項中,屬于PythOn關鍵字的是()。

A)name

B)is

Oif

D)and

184.[單選題]在HBaSe的附加過濾器中,全匹配過濾器是()

A)SkipFilter

B)WhileMatchFilter

C)ColumnPrefixFiIter

D)RandomRowFilter

185.[單選題]下面屬于流計算技術的是:()

A)Spark

B)GraphX

0S4

D)Hive

186.[單選題]HBase中有兩種讀取數(shù)據(jù)函數(shù),分別是get()方法和()方法

A)set()

B)scan()

C)fileter()

D)scanner()

187.[單選題]下列哪項通常是集群的最主要瓶頸(

A)CPU

B)網(wǎng)絡

C)磁盤I/O

D)內存

188.[單選題]某項目小組接到一個大數(shù)據(jù)實時分析項目,且對實時性要求很高。請問以下哪種大數(shù)

據(jù)計算框架最合適?

Λ)Flink

B)MapReduce

OHBase

D)Spark

189.[單選題]np.hsplit函數(shù)是按照什么軸進行分割數(shù)組?

A)水平軸

B)豎直軸

C)深度分割

D)45度軸

190.[單選題]下列哪一項不是經典的社區(qū)研究案例O

A)空手道俱樂部

B)科學家合作網(wǎng)絡

C)斑馬群體的社交行為研究

D)芽殖酵母基因調控網(wǎng)絡

191.[單選題]工業(yè)4.0計劃是哪個國家提出的數(shù)據(jù)戰(zhàn)略

A)日本

B)德國

C)中國

D)敘利亞

192.[單選題INumericToString是文本函數(shù)的一種,它的功能是()。

A)把一個字符串轉換為數(shù)值

B)把二進制轉換為字符串

O把一個CSN序列轉換成字符串

D)把一個數(shù)值數(shù)據(jù)轉換為字符串

193.[單選題]下列關于運算符優(yōu)先級的說法中,不正確的一個是()

A)運算符按照優(yōu)先級順序表進行運算

B)同一優(yōu)先級的運算符在表達式中都是按照從左到右的順序進行運算的

C)同一優(yōu)先級的運算符在表達式中都是按照從右到左的順序進行運算的

D)括號可以改變運算的優(yōu)先次序

194.[單選題]以下關于HiVeSQL基本操作描述正確的是:()。

A)加載數(shù)據(jù)到HiVe時數(shù)據(jù)必須是HDFS的一個路徑

B)創(chuàng)建外部表必須要指定IoCatiOn信息

C)創(chuàng)建外部表使用external關鍵字,創(chuàng)建普通表需要指定internal關鍵字

D)創(chuàng)建表時可以指定列分隔符

195.[單選題]列表對象的sort()函數(shù)用來對列表元素進行原地排序,該函數(shù)返回值為()。

A)False

B)None

C)True

D)報錯

196.[單選題]O的主要目的是提升數(shù)據(jù)質量,將數(shù)據(jù)形態(tài)更加符合某一算法需求,進而提升數(shù)據(jù)計

算的效果和降低其復雜度。

A)數(shù)據(jù)加工

B)數(shù)據(jù)分析

C)數(shù)據(jù)挖掘

D)數(shù)據(jù)處理

197.[單選題]關于Kafka盤容量不足的告警,對于可能的原因以下分析不正確的是?

A)用于存儲Kafka數(shù)據(jù)的磁盤配置(如磁盤數(shù)目、磁盤大小等)無法滿足當前業(yè)務數(shù)據(jù)流量,導致磁盤

使用率達到上限

B)數(shù)據(jù)保存時間配置過長,數(shù)據(jù)累積達到磁盤使用率上限

C)業(yè)務規(guī)劃不合理,導致數(shù)據(jù)分配不均,使部分磁盤達到使用率上限。

D)Broker節(jié)點故障導致

198.[單選題]如下哪個不是最近鄰分類器的特點()。

A)它使用具體的訓練實例進行預測,不必維護源自數(shù)據(jù)的模型

B)分類一個測試樣例開銷很大

C)最近鄰分類器基于全局信息進行預測

D)可以生產任意形狀的決策邊界

199.[單選題]可以對大數(shù)據(jù)進行深度分析的工具是()。

A)淺層神經網(wǎng)絡

B)Scala

C)深度學習

D)MapReduce

200.[單選題]下列關于隊列的描述正確的是()。

A)在隊列中只能刪除數(shù)據(jù)

B)隊列是先進后出的線性表

C)在隊列中只能插入數(shù)據(jù)

D)隊列是先進先出的線性表

201.[單選題]CDSW是基于HadoOP的企業(yè)級數(shù)據(jù)科學平臺,以下哪些不是他支持主流的開源深度學習

算法庫?O

A)TensorFlow

B)Coffe

C)Torch

D)Theano

202.[單選題]從數(shù)據(jù)表中查找記錄用以下哪一項()

A)UPDATE

B)FIND

C)SELECT

D)CREATE

203.[單選題](_)采用概率模型來表達聚類原型。

A)k均值算法

B)學習向量量化

C)高斯混合聚類密度聚類

D)密度聚類

204.[單選題]長短時記憶神經網(wǎng)絡不適合解決什么樣的數(shù)據(jù)?

A)語音數(shù)據(jù)

B)文本數(shù)據(jù)

C)圖像數(shù)據(jù)

D)序列數(shù)據(jù)

205.[單選題]下列說法錯誤的是O

A)JObSerVer是用戶作業(yè)和JobTraCker交互的主要接口

B)JObeIient為用戶提供提交作業(yè)功能

C)JobCIient提供訪問子任務報告和日志功能

D)JobCIient提供獲取MaPRedUCe集群狀態(tài)信息功能

206.[單選題]當我們需要在一張圖表中加上文字標注達到提醒讀者的目的時,需要用到()函數(shù)

O

?)pit.axvspan()

B)pit.axhspan()

C)plt.annotate()

D)pit.text()

207.[單選題]下列關于對ZOOkeePer的ConS命令描述正確的是()。

A)列出所有服務器客戶端的連接統(tǒng)計信息

B)重置連接統(tǒng)計信息

C)重置服務器統(tǒng)計信息

D)列出服務器上所有觀察的摘要信息

208.[單選題]在其他條件不變的前提下,()容易引起機器學習中的過擬合問題。

A)增加訓練集量

B)減少神經網(wǎng)絡隱藏層節(jié)點數(shù)

C)刪除稀疏的特征

D)SVM算法中使用高斯核/RBF核代替線性核

209.[單選題]python中,哪些是序列O

A)鏈表

B)字符串

C)字典

D)字節(jié)

210.[單選題]谷歌采用搜索引擎大數(shù)據(jù)進行流感趨勢預測.體現(xiàn)了哪種大數(shù)據(jù)思維方式:()

A)我為人人,人人為我

B)全樣而非抽樣

C)效率而非精確

D)相關而非因果

211.[單選題]下列關于HadOoP中SheIl類說法錯誤的是()

A)ShelI類是一個繼承類

B)Shen類定義了如何在當前文件系統(tǒng)環(huán)境中,通過命令進行交互

C)SheII類定義了靜態(tài)的字符串命令

D)Shen類定義了與實現(xiàn)命令的執(zhí)行相關的屬性

212.[單選題]輸人圖像已被轉換為大小為28x28的矩陣和大小為7x7的步幅為1的核心/濾波十器卷和

提陣的大小是()

A)22x22

B)21x21

028x28

D)7x7

213.[單選題]下列關于函數(shù)的參數(shù)的描述錯誤的是()。

A)可選參數(shù)可以定義在非可選參數(shù)的前面

B)一個元組可以傳遞給帶有星號的可變參數(shù)

C)在定義函數(shù)時,可以設計可變數(shù)量參數(shù),通過在參數(shù)前增加星號(*)實現(xiàn)

D)在定義函數(shù)時,如果有些參數(shù)存在默認值,可以在定義函數(shù)時直接為這些參數(shù)指定默認值

214.[單選題]下列關于HBase的集群結構描述有誤的是()

A)HBase的服務器體系結構遵從簡單的主/從服務器架構,它由HRegionServer群和HBase

MasterServer構成。

B)當表的大小超過設置的值時,HBase會自動地將表劃分為不同的區(qū)域,每個區(qū)域包含所有行的子

集。

OHBase邏輯上的表可能會被劃分成多個HRegion,然后存儲到HRegionServer群中。

D)ZooKeeper本身并不存儲HBase中的任何數(shù)據(jù),它存儲的是從數(shù)據(jù)到HRegionServer的映射,

告訴每臺HRegionServer它要維護哪些HRegion0

215.[單選題]以下哪個不是SPark的組件()

A)DAGScheduler

B)MultiScheduler

C)TaskScheduler

D)SparkContext

216.[單選題]下列方法中,用于向文件中寫內容的是()

A)open

B)write

C)close

D)read

217.[單選題]下列關于函數(shù)的說法中,描述錯誤的是()。

A)函數(shù)可以減少重復的代碼,使得程序更加模塊化

B)不同的函數(shù)中可以使用相同名字的變量

C)調用函數(shù)時,實參的傳遞順序與形參的順序可以不同

D)匿名函數(shù)與使用關鍵字def定義的函數(shù)沒有區(qū)別

218.[單選題]屬于有監(jiān)督學習的是()

A)、k-meA、n

B)、主成分分析

0、關聯(lián)規(guī)則分析

D)、線性回歸

219.[單選題]以下關于列表操作的描述,錯誤的是:

A)通過append方法可以向列表添加元素

B)通過extend方法可以將另一個列表中的元素逐一添加到列表中

C)通過insert(index,object)方法在指定位置index前插入元素object

D)通過add方法可以向列表添加元素

220.[單選題]下列代碼中繪制散點圖的是Oo

A)plt.scatter(x,y)

B)pit.plot(x,y)

C)pit.IegendCupperleft)

D)plt.xlabel(散點圖")

221.[單選題]資源(Resource)是大數(shù)據(jù)計算服務(MaxCompute,原ODPS)的特有概念。用戶如果

想使用MaXCOnIPUte的MaPRedUCe或自定義函數(shù)(UDF)功能,需要依賴資源來完成。DataWOrkS中,可

以通過數(shù)據(jù)開發(fā)面板的資源管理上傳資源,目前支持的資源類型有:()。

A)jar^file、archive

B)jar、file,python

C)jar、archive,python

D)file,archive,python

222.[單選題]關于數(shù)據(jù)產品,以下說法錯誤的是0。

A)數(shù)據(jù)產品的存在形式是數(shù)據(jù)集

B)與傳統(tǒng)物質產品不同的是,數(shù)據(jù)產品的消費者不僅限于人類用戶.還可以是計

算機以及其他軟硬件系統(tǒng)

C)數(shù)據(jù)產品不僅包括數(shù)據(jù)科學項目的最終產品,也包括其中間產品以及副產品

D)數(shù)據(jù)產品開發(fā)涉及數(shù)據(jù)科學項目流程的全部活動

223.[單選題]jieba分詞包含的分詞模式是()。

A)精確模式

B)全模式

C)搜索引擎模式

D)以上都對

224.[單選題]世界一流能源互聯(lián)網(wǎng)企業(yè)辦公室統(tǒng)籌組織,下設技術組、商務組和管理優(yōu)化組3個常設

小組,技術組的組長部門是O

A)國網(wǎng)人資部

B)國網(wǎng)營銷部

C)國網(wǎng)財務部

D)國網(wǎng)互聯(lián)網(wǎng)部

225.[單選題]下面關于SET和ENUM說法錯誤的是()。一

A)只能插入規(guī)定的數(shù)據(jù)項

B)節(jié)省存儲空間

C)查詢速度比VARCHAR類型快

D)列表中不支持中文

226.[單選題]在HDFS中(一)是文件系統(tǒng)的工作節(jié)點。

A)DataNode

B)Client

C)NameNode

D)Flume

227.[單選題]根據(jù)《大數(shù)據(jù)風控平臺項目操作手冊》,財務智能分析中的財務科目異動分析模塊

,O部分描述頁面右側表格中有所異動、大幅異動的重點科目數(shù)值、增額、增幅情況,描述的文

字內容隨表格內容變動而變動。

A)表格

B)B.圖表

C)C.文字

D)D.以上都不對

228.[單選題]以下MaXComPUteSQL()效率最高。

A)select*from(select*fromΛwheredt=20140301)AleftouterjoinBonB.id=A.id

B)沒有區(qū)別

C)select*fromAleftouterjoinBonB.id=A.idandA.dt=20140301

D)select*

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論