2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）

上傳人：唯*** IP屬地：河北上傳時(shí)間：2024-09-09 格式：PDF 頁(yè)數(shù)：95 大?。?8.09MB 積分：12 舉報(bào) 版權(quán)申訴

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）_第2頁(yè)

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）_第3頁(yè)

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）_第4頁(yè)

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）_第5頁(yè)

已閱讀5頁(yè)，還剩90頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全一下（多選題匯

總）

多選題

1.與自然語(yǔ)言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的區(qū)

別是（）。

A、Jieba專(zhuān)注于中文分詞操作

B、NLTK主要用于一般自然語(yǔ)言處理任務(wù)（標(biāo)記化，P0S標(biāo)記，解析等）

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、ScikiLlearn為機(jī)器學(xué)習(xí)提供了一個(gè)大型庫(kù)，其中包含了用于文本預(yù)處理的

工具，例如詞頻-逆文檔頻率特征提?。═fidfVectorizer）等。

答案：ABCD

2.下面哪些函數(shù)中，是有效的類(lèi)構(gòu)造函數(shù)有（）。

A、def_lnit_（self）:

B、definit_（self,var=0）:

Gdefinit_）:

D、ef_init_（seIf,a,b,c）:

答案：ABD

3.以下圖像技術(shù)中屬于圖像處理技術(shù)的是（）。

A、圖像編碼

B、圖像合成

C、圖像增強(qiáng)

D、圖像分類(lèi)

答案：AC

4.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面（）。

A、能夠直觀反映成對(duì)數(shù)據(jù)之間的空間關(guān)系

B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系

C、能夠靜態(tài)演化事物的變化及變化的規(guī)律

D、能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律

答案：BD

5.Python函數(shù)包括下述哪些內(nèi)容（）。

A、函數(shù)名稱(chēng)

B、參數(shù)

C、執(zhí)行語(yǔ)句

D、返回值

答案：ABCD

6.情感分析的應(yīng)用場(chǎng)景有（）。

A、數(shù)據(jù)挖掘

B、信息檢索

C、文本分詞

D、市場(chǎng)營(yíng)銷(xiāo)

答案：ABD

7.如果希望減少數(shù)據(jù)集中的特征數(shù)量，則可以采取的措施是（）。

A、使用正向選擇法（ForwardSeIection）

B\使用反向消除法（BackwardEIimination）

G逐步選擇消除法（Stepwise）

D、計(jì)算不同特征之間的相關(guān)系數(shù)，刪去相關(guān)系數(shù)高的特征之一

答案：ABCD

8.參數(shù)估計(jì)可以分為（）。

A、點(diǎn)估計(jì)

B、一致估計(jì)

C、區(qū)間估計(jì)

D、無(wú)偏估計(jì)

答案：AC

9.在正則化公式中，人為正則化參數(shù)，關(guān)于人的描述正確的是（）。

A、若正則化參數(shù)人過(guò)大，可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象

B、若入的值太大，則梯度下降可能不收斂

C、取一個(gè)合理的人值，可以更好地應(yīng)用正則化

D、如果令人的值很大的話，為了使CostFunction盡可能的小,所有0的值（不

包括eo）都會(huì)在一定程度上減小

答案：ABCD

10.直方圖修正法包括（）。

A、直方圖統(tǒng)計(jì)

B、直方圖均衡

C、直方圖過(guò)濾

D、直方圖規(guī)定化

答案：BD

11.實(shí)時(shí)計(jì)算類(lèi)應(yīng)用主要通過(guò)（）來(lái)實(shí)現(xiàn)。

A、流計(jì)算組件

B、內(nèi)存計(jì)算組件

GMPP數(shù)據(jù)庫(kù)

D、Hadoop的后臺(tái)定時(shí)分析計(jì)算任務(wù)

答案：AB

12.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為（）和隨機(jī)型網(wǎng)絡(luò)等。

A、前向型

B、后向型

C、反饋型

D、自組織競(jìng)爭(zhēng)型

答案：ACD

13.下面關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說(shuō)法，正確的是（）。

A、“一個(gè)客服一天可能接聽(tīng)到多少個(gè)電話”是一個(gè)連續(xù)型隨機(jī)變量

B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布

C、可以使用概率密度函數(shù)來(lái)描述連續(xù)型隨機(jī)變量的概率分布

D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

答案：BCD

14.ETL技術(shù)主要涉及（）操作。

A、抽取

B、轉(zhuǎn)換

C\加載

D\分析

答案：ABC

15.關(guān)于Python分隔代碼塊,描述錯(cuò)誤的是（）o

A、內(nèi)嵌代碼的每一行，都比外面的if語(yǔ)句的縮進(jìn)更多

B、代碼以“begin”開(kāi)頭，“end”結(jié)尾

C、每行代碼的縮進(jìn)都一致

D、代碼塊被封裝在花括號(hào)中

答案：BCD

16.下面對(duì)范數(shù)規(guī)則化描述，正確的是（）。

A\L0是指向量中0的元素的個(gè)數(shù)

B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和

C、L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方

D、L0是指向量中非0的元素的個(gè)數(shù)

答案：BCD

17.常用的代價(jià)函數(shù)有（）。

A、均方誤差

B、均方根誤差

C、平均絕對(duì)誤差

D、交叉炳

答案：ABCD

18.常見(jiàn)的圖像降噪方式包括（）。

A、中值濾波

B、均值濾波

C、平均濾波

D、加權(quán)平均濾波

答案：ABCD

19.以下選項(xiàng)中,屬于MapReduce特征的有（）。

A、以主從結(jié)構(gòu)的形式運(yùn)行

B、容錯(cuò)機(jī)制的復(fù)雜性

C、任務(wù)備份機(jī)制的必要性

D、數(shù)據(jù)存儲(chǔ)位置固定

答案：ABC

20.以下關(guān)于L1和L2范數(shù)的描述，正確的是（）。

A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。

B\L2范數(shù)為x向量各個(gè)元素平方和的1/2次方，L2范數(shù)又稱(chēng)Euclidean范數(shù)或

Frobenius范數(shù)

C、L1范數(shù)可以使權(quán)值稀疏，方便特征提取

D、L2范數(shù)可以防止過(guò)擬合，提升模型的泛化能力。

答案：ABCD

21.圖像數(shù)字化應(yīng)該包括哪些過(guò)程（）。

A、采樣

B、模糊

C、量化

D、統(tǒng)計(jì)

答案：AC

22.以下關(guān)于數(shù)據(jù)維度的描述，正確的是（）。

A、采用列表表示一維數(shù)據(jù)，不同數(shù)據(jù)類(lèi)型的元素是可以的

B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)

C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式

D、字典不可以表示二維以上的高維數(shù)據(jù)

答案：ABC

23.最常見(jiàn)的分詞算法可以分為（）。

A、基于字符串匹配的分詞方法

B、基于理解的分詞方法

C、基于統(tǒng)計(jì)的分詞方法

D、基于閱讀的分詞方法

答案：ABC

24.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括（）。

A、可分區(qū)

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

25.下列關(guān)于Ridge回歸的說(shuō)法，正確的是（）。

A、若入=0,則等價(jià)于一般的線性回歸

B、若入=0,則不等價(jià)于一般的線性回歸

C、若入二+8,則得到的權(quán)重系數(shù)很小，接近于零

D、若入二+8,則得到的權(quán)重系數(shù)很大，接近與無(wú)窮大

答案：AC

26.以下有關(guān)特征數(shù)據(jù)歸一化的說(shuō)法，正確的是（）。

A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度

B、特征數(shù)據(jù)歸一化有可能提高模型的精度

C、線性歸一化適用于特征數(shù)值分化比較大的情況

D、概率模型不需要做歸一化處理

答案：ABD

27.下列哪些是面向?qū)ο蠹夹g(shù)的特征包含（）。

A、封裝

B、繼承

C、多態(tài)

D、分布性

答案：ABC

28.一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為（）。

A、訓(xùn)練集

B、驗(yàn)證集

C、測(cè)試集

D、預(yù)處理集

答案：ABC

29.()是Spark比MapReduce計(jì)算快的原因。

A、基于內(nèi)存的計(jì)算

B、基于DAG的調(diào)度框架

C、基于Lineage的容錯(cuò)機(jī)制

D、基于分布式計(jì)算的框架

答案：ABC

30.ETL包含下列哪些過(guò)程()o

A、數(shù)據(jù)抽取

B、數(shù)據(jù)轉(zhuǎn)換

C、數(shù)據(jù)加載

D、數(shù)據(jù)展現(xiàn)

答案：ABC

31.下列選項(xiàng)中屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)有()。

A、上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)絡(luò)狀態(tài)

B、并行處理序列中所有信息

C、容易梯度爆炸/消失

D、易于搭建

答案：AC

32.pit.axhIine(y=0.0,c="r",Is="--",lw=2),對(duì)這句代碼說(shuō)法正確的是()。

A、在0.0處添加豎直參考線

B、添加水平參考線

C、參考線是虛線形式

D、網(wǎng)格線是紅色的

答案：BC

33.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括（）。

A、最大池化函數(shù)

B、L2范數(shù)

C、相鄰矩形區(qū)域內(nèi)的平均值

D、基于據(jù)中心像素距離的加權(quán)平均函數(shù)

答案：ABCD

34.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。

A、資源管理層

B、Spark核心層

C、應(yīng)用層

D、服務(wù)層

答案：ABD

35.RNN在NLP領(lǐng)域的應(yīng)用包括（）。

A、語(yǔ)言模型與文本生成

B、機(jī)器翻譯

C、語(yǔ)音識(shí)別

D、圖像描述生成

答案：ABCD

36.下列關(guān)于EM算法描述正確的是（）。

A、EM算法是常用的估計(jì)參數(shù)隱變量的利器

B、EM算法即是期望最大化算法

C、EM算法常被用來(lái)學(xué)習(xí)高斯混合模型的參數(shù)

D、EM算法是一種迭代式的方法

答案：ABCD

37.循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式包含（）。

A、多輸出

B、單輸出

C、同步多輸出

D、異步多輸出

答案：ABD

38.下列不屬于聚類(lèi)性能度量?jī)?nèi)部指標(biāo)的是（）。

A、DB指數(shù)

B、Dunn指數(shù)

C、Jaccard系數(shù)

D、FM系數(shù)

答案：CD

39.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法，正確的是（）。

A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量

B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性

C、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的

D、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為5的概率是最大的

答案：ABC

40.關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系，說(shuō)法正確的是（）。

A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計(jì)算'數(shù)據(jù)存儲(chǔ)'數(shù)據(jù)加工（DataWrangling或DataMung

ing）等服務(wù)

B、數(shù)據(jù)流處理、統(tǒng)計(jì)工具、日志分析都屬于常用的開(kāi)源工具

C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機(jī)構(gòu)

D、數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容

答案：ABCD

41.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢(shì)分析、孤立點(diǎn)分析及（）等方面。

A、關(guān)聯(lián)分析

B、分類(lèi)和預(yù)測(cè)

C、聚類(lèi)分析

D、偏差分析

答案：ABCD

42.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

43.許多功能更為強(qiáng)大的非線性模型可在線性模型基礎(chǔ)上通過(guò)引入（）而得。

A、層級(jí)結(jié)構(gòu)

B、高維映射

C、降維

D、分類(lèi)

答案：AB

44.ETL技術(shù)主要涉及（）操作。

A、抽取

B、轉(zhuǎn)換

C、加載

D、分析

答案：ABC

45.以下屬于頻率域圖像濾波的方法有（）。

A、中值濾波

B、均值濾波

C、布特沃斯濾波

D、圖斯濾波

答案：CD

46.以下方法中可用于圖像分割的有（）。

A、霍夫曼編碼

B、分水嶺算法

C、K-means

D、區(qū)域增長(zhǎng)法

答案：BCD

47.以下對(duì)模型性能提高有幫助的是（）。

A、數(shù)據(jù)預(yù)處理

B、特征工程

C、機(jī)器學(xué)習(xí)算法

D、模型集成

答案：ABCD

48.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。

A、具有勞動(dòng)增值

B、涉及法律權(quán)屬

C、具有財(cái)務(wù)價(jià)值

D、涉及道德與倫理

答案：ABCD

49.對(duì)于決策樹(shù)的優(yōu)點(diǎn)描述，正確的是（）。

A、可讀性強(qiáng)

B、分類(lèi)速度快

C、只用于回歸問(wèn)題

D、是無(wú)監(jiān)督學(xué)習(xí)

答案：AB

50.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一oHadoopMapReduce數(shù)據(jù)處理

過(guò)程涉及四個(gè)獨(dú)立的實(shí)體，包括（）。

AvClient

B、JobTracker

CvTaskTracker

D、HDFS

答案：ABCD

51.在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化—從集中式計(jì)算、分布式計(jì)

算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算，有一定的代表性的是Google云計(jì)算三

大技術(shù)，這三大技術(shù)包括（）。

A、HadoopYARN資源管理器

B、GFS分布式存儲(chǔ)系統(tǒng)

C\MapReduce分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫(kù)

答案：BCD

52.下面屬于可視化高維數(shù)據(jù)技術(shù)的是（）。

A、矩陣

B、平行坐標(biāo)系

C、星形坐標(biāo)系

D、散布圖

答案：ABC

53.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢(shì)是（）。

A、不需要做缺失值處理

B、不需要處理噪音

C、不需要做特征選擇

D、不需要平衡數(shù)據(jù)集

答案：ACD

54.回歸分析有很多種類(lèi)，常見(jiàn)的有（）。

A、線性回歸

B、系數(shù)回歸

G邏輯回歸

D、曲線回歸

答案：ACD

55.使用極大似然估計(jì)的前提條件有（）。

A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型

B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集

C、提前已知某先驗(yàn)概率

D、數(shù)據(jù)集各個(gè)屬性相對(duì)獨(dú)立

答案：AB

56.基于Hadoop開(kāi)源大數(shù)據(jù)平臺(tái)主要提供了針對(duì)數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力，如

下屬于分布式存儲(chǔ)組件的有（）。

A、MapReduce

B、Spark

GHDFS

D、HBase

答案：CD

57.TF-IDF的缺點(diǎn)包含()o

A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比

B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞

C、只考慮特征詞和文本之間的關(guān)系，忽略了一個(gè)特征項(xiàng)在不同類(lèi)別間的分布情

況

D、沒(méi)有考慮特征詞的位置因素對(duì)文本的區(qū)分度

答案：BCD

58.下面對(duì)范數(shù)規(guī)則化描述，正確的是()。

A、L0是指向量中0的元素的個(gè)數(shù)

B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和

C、L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方

D、L0是指向量中非0的元素的個(gè)數(shù)

答案：BCD

59.Pandas中主要的數(shù)據(jù)結(jié)構(gòu)是()。

A、Data

B、DataFrame

C、Frame

D、Series

答案：BD

60,若b=np.array([True,FaIse,FaIse]),以下能輸出[FaIseTrueTrue]的是

A、print(b-1)

B、print(~b)

C、print(np.Iogical_not(b)

D、print(?b)

答案：BC

61.下面關(guān)于reduce函數(shù)功能描述正確的是()。

A、合并value值，形成較小集合

B、采用迭代器將中間值提供給reduce函數(shù)

C、map)函數(shù)處理后結(jié)果才會(huì)傳輸給reduce)

D、內(nèi)存中不會(huì)存儲(chǔ)大量的vaIue值

答案：ABCD

62.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案：AB

63.異常值的檢測(cè)方法有()。

A、直接通過(guò)數(shù)據(jù)可視化進(jìn)行觀察

B、通過(guò)統(tǒng)計(jì)分布進(jìn)行判斷

C、通過(guò)相對(duì)距離進(jìn)行度量

D、通過(guò)相對(duì)密度進(jìn)行度量

答案：ABCD

64.下列屬于描述gensim庫(kù)的特性的是（）。

A、訓(xùn)練語(yǔ)料的預(yù)處理

B、主題向量的變換

C、文檔相似度的計(jì)算

D、文章切分詞語(yǔ)統(tǒng)計(jì)計(jì)算

答案：ABC

65.以下（）是scipy.stats可實(shí)現(xiàn)的連續(xù)隨機(jī)變量方法。

A、rvs

B、pdf

C、ppf

D、cdf

答案：ABCD

66.特征選擇方法有（）。

A、IC赤池信息準(zhǔn)則

B、LARS嵌入式特征選擇方法

C、LVW包裹式特征選擇方法

D\Relief過(guò)濾式特征選擇方法

答案：BCD

67.下列關(guān)于集合操作結(jié)果正確的有（）。

A、name={'d','s'}nameadd（'sd'）,name值為：{‘sd','d','s'}

B\name={'sd',d','s'}nameremove（'s'）,name值為：{‘sd','d'}

C、name={'sd',d','s'}namecIear),name值為：{}

D\name={'sd',d','s'}nameupdate（'dF）,name值為：{‘sd','d',

s'j'）

答案：ABC

68.Python中jieba庫(kù)的基本實(shí)現(xiàn)原理是什么（）。

A、分析漢字與漢字之間的關(guān)聯(lián)幾率概率

B、分析漢字詞組的關(guān)聯(lián)幾率概率

C、根據(jù)用戶自定義的詞組進(jìn)行分析

D、還可以分析漢字與英文之間關(guān)聯(lián)幾率概率

答案：ABC

69.數(shù)據(jù)科學(xué)以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對(duì)象，主要研究?jī)?nèi)容包括（）。

A、數(shù)據(jù)加工

B、數(shù)據(jù)管理

C、數(shù)據(jù)計(jì)算

D、數(shù)據(jù)產(chǎn)品開(kāi)發(fā)

答案：ABCD

70.在python中查看關(guān)鍵字，需要在Python解釋器中執(zhí)行（）和（）。這兩條

命令。

A、Iistkeyword

B\importkeyword

C、keyword

D\import.kwlist

答案：BC

71.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。

A、具有勞動(dòng)增值

B、涉及法律權(quán)屬

C、具有財(cái)務(wù)價(jià)值

D、涉及道德與倫理

答案：ABCD

72.以下說(shuō)法正確的是（）。

A、條件獨(dú)立性假設(shè)不成立時(shí)，樸素貝葉斯分類(lèi)器仍有可能產(chǎn)生最優(yōu)貝葉斯分類(lèi)

器

B、在估計(jì)概率值時(shí)使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率

估值為零的問(wèn)題

C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布，因此吉布斯采樣算法的收斂速

度很快

D、二分類(lèi)任務(wù)中兩類(lèi)數(shù)據(jù)滿足高斯分布且方差相同時(shí)，線性判別分析產(chǎn)生貝葉

斯最優(yōu)分類(lèi)器

答案：ABD

73.我們想要訓(xùn)練一個(gè)ML模型，樣本數(shù)量有100萬(wàn)個(gè)，特征維度是5000,面對(duì)

如此大數(shù)據(jù)，有效地訓(xùn)練模型可以采取的措施是（）

A、對(duì)訓(xùn)練集隨機(jī)采樣，在隨機(jī)采樣的數(shù)據(jù)上建立模型

B、嘗試使用在線機(jī)器學(xué)習(xí)算法

C、使用PCA算法減少特征維度

D、-

答案：ABC

74.Spark中的ScheduIer模塊可以分為（）。

A、DAGScheduIer

B、ResourceScheduIer

C、TaskScheduIer

D、JobScheduIer

答案：AC

75.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)（）o

A、表結(jié)構(gòu)schema擴(kuò)展不方便

B、全文搜索功能較弱

C、大數(shù)據(jù)場(chǎng)景下I/O較高

D、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱

答案：ABCD

76.ApacheFIume主要解決的是日志數(shù)據(jù)的收集和處理問(wèn)題，F(xiàn)lume的主要設(shè)計(jì)目

的和特征是（）。

A、高可靠性

B、可擴(kuò)展性

C、管理復(fù)雜

D、不支持用戶自定義

答案：AB

77.循環(huán)神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用的場(chǎng)景有（）。

A、語(yǔ)音識(shí)別

B、語(yǔ)音建模

C、機(jī)器翻譯

D、圖像識(shí)別

答案：ABC

78.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有（）。

A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失

B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜

C、雙曲正切更簡(jiǎn)單

D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜

答案：AB

79.完整性約束通常包括（）

A、實(shí)體完整性

B、域完整性

C、參照完整性

D、用戶定義完整性

答案：ABCD

80.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性，還包括（）。

A、完整性

B、可用性

C、不可否認(rèn)性

D、可審計(jì)性

答案：ABCD

81.Python的優(yōu)點(diǎn)有（）o

A、變量不用預(yù)定義類(lèi)型

B、數(shù)據(jù)結(jié)構(gòu)功能強(qiáng)大

C、語(yǔ)言可解釋性強(qiáng)

D、變量類(lèi)型固定

答案：ABC

82.鑒別了多元共線特征，下一步可能的操作是（）。

A、移除兩個(gè)共線變量

B、不移除兩個(gè)變量，而是移除一個(gè)

C、移除相關(guān)變量可能會(huì)導(dǎo)致信息損失，可以使用懲罰線性回歸模型（如ridge

或Iassoregression）

D、-

答案：BC

83.模塊可以分為以下的通用類(lèi)別包含（）。

A、使用python編寫(xiě)的.py文件

B、已被編譯為共享庫(kù)或DLL的C或C++擴(kuò)展

C、把一系列模塊組織到一起的文件夾

D、使用C編寫(xiě)并鏈接到python解釋器的內(nèi)置模塊

答案：ABCD

84.關(guān)于梯度消失和梯度爆炸，以下說(shuō)法正確的是：（_）。

A、根據(jù)鏈?zhǔn)椒▌t，如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小

于1的話，那么即使這個(gè)結(jié)果是0.99,在經(jīng)過(guò)足夠多層傳播之后，誤差對(duì)輸入

層的偏導(dǎo)會(huì)趨于0

B、可以采用ReLU激活函數(shù)有效地解決梯度消失的情況

C、根據(jù)鏈?zhǔn)椒▌t，如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大

于1的話，在經(jīng)過(guò)足夠多層傳播之后，誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于無(wú)窮大

D、可以通過(guò)減小初始權(quán)重矩陣的值來(lái)緩解梯度爆炸

答案：ABCD

85.數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下，不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道

的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括（）。

A、精確性

B、可辨認(rèn)性

G可分離性

D、視覺(jué)突出性

答案：ABCD

86.以下（）函數(shù)是累積函數(shù)。

A、cumsum

B、argmin

Cvumprod

Dvargmax

答案：AC

87.以下關(guān)于集成學(xué)習(xí)的說(shuō)法，正確的是（）。

A\隨機(jī)森林是減少模型的方差，而GBDT是減少模型的偏差

B、組成隨機(jī)森林的樹(shù)可以并行生成，而GBDT是串行生成

C、隨機(jī)森林的結(jié)果是多數(shù)表決表決的，而GBDT則是多棵樹(shù)累加之和

D、-

答案：ABC

88.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中，P、D和R代表的是（）。

A、策略

B、防護(hù)

C、檢）則

D、響應(yīng)

答案：ABCD

89.LSTM應(yīng)用場(chǎng)景有（）。

A、翻譯語(yǔ)言

B、語(yǔ)音識(shí)別

C、圖像識(shí)別

D、股票預(yù)測(cè)

答案：ABD

90.相對(duì)于HadoopMapReduce,Spark的特點(diǎn)有（）。

A、通用性

B、易用性

C、速度快

D、容錯(cuò)性

答案：ABC

91.對(duì)以下代碼說(shuō)法正確的是（）。

A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖

B、圖表中有紅色實(shí)線的網(wǎng)格線

C、圖表中有圖例

D、該圖畫(huà)的是sin曲線

答案：CD

92.數(shù)據(jù)增值存在于哪些過(guò)程中（）。

A、數(shù)據(jù)對(duì)象的封裝

B、數(shù)據(jù)系統(tǒng)的研發(fā)

C、數(shù)據(jù)的集成應(yīng)用

D、基于數(shù)據(jù)的創(chuàng)新

答案：ABCD

93.可能導(dǎo)致交叉檢驗(yàn)?zāi)Ｐ驮u(píng)估較差可能是由于（）的原因?qū)е碌挠校ǎ?/p>

A、模型過(guò)擬合

B、模型欠擬合

C、模型過(guò)度復(fù)雜

D、模型過(guò)度簡(jiǎn)單

答案：ABCD

94.在選擇高斯函數(shù)作為核函數(shù)的支持向量機(jī)中，參數(shù)的選取會(huì)影響擬合的結(jié)果,

如果出現(xiàn)過(guò)擬合的現(xiàn)象，則導(dǎo)致該結(jié)果的原因有可能是（）。

A、其他參數(shù)保持不變，C值過(guò)大

B、其他參數(shù)保持不變，C值較小

C、其他參數(shù)保持不變，。較大

D、其他參數(shù)保持不變，。較小

答案：AD

95.下面是Python注釋語(yǔ)句的是（）。

A、'heIIo'

B、"'helIo'''

C、"helIo"

D、#

答案：BD

96.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法，正確的是（）。

A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量

B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性

C、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的

D、扔5次硬幣，正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為5的概率是最大的

答案：ABC

97.以下方法是tf-idf的變種的有（）o

A、TFC

B、EWC

C、ITC

D、IG

答案：AC

98.常見(jiàn)的聚類(lèi)性能度量外部指標(biāo)有（）。

A、Jaccard系數(shù)

B、DB指數(shù)

C、FM指數(shù)

D、以上答案都正確

答案：AC

99.聚類(lèi)性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo)，其中屬于內(nèi)部指標(biāo)的是

。。

A、Jaccard指數(shù)

B、FM指數(shù)

GDB指數(shù)

D、unn指數(shù)

答案：CD

100.影響聚類(lèi)算法效果的主要原因有（）。

A、特征選取

B、模式相似性測(cè)度

C、分類(lèi)準(zhǔn)則

D、已知類(lèi)別的樣本質(zhì)量

答案：ABC

101.下面哪些是Spark的組件（）o

A、SparkStreaming

B、MLib

C、GraphX

D\SparkR

答案：ABC

102.下列關(guān)于AUC面積的描述，正確的是()。

A、UC被定義為ROC曲線下與坐標(biāo)軸圍成的面積

B、AUG面積的值大于1

C、AUC等于0.5時(shí)，則真實(shí)性最低，無(wú)應(yīng)用價(jià)值

D、AUC越接近1.0,檢測(cè)方法真實(shí)性越高

答案：ACD

103.MapReduce對(duì)map()函數(shù)的返回值處理后才傳給reduce()函數(shù)，其中涉

及哪些操作()。

A、合并

B、排序

C、分區(qū)

D、抽樣

答案：ABC

104.特征選擇的目的是()o

A、減少特征數(shù)量、降維

B、使模型泛化能力更強(qiáng)

C、增強(qiáng)模型擬合能力

D、減少過(guò)擬合。

答案：ABD

105.下面對(duì)LDA判別分析的思想描述，正確的是（）。

A、同類(lèi)樣例的投影點(diǎn)盡可能近

B、異類(lèi)樣例的投影點(diǎn)盡可能遠(yuǎn)

C、同類(lèi)樣例的投影點(diǎn)盡可能遠(yuǎn)

D、異類(lèi)樣例的投影點(diǎn)盡可能近

答案：AB

106.列式數(shù)據(jù)庫(kù)（如BigTable和HBase）以表的形式存儲(chǔ)數(shù)據(jù)，表結(jié)構(gòu)包括（）

等元素。

A、關(guān)鍵字

B、時(shí)間戳

G列簇

D、數(shù)據(jù)類(lèi)型

答案：ABC

107.Numpy數(shù)組中將一個(gè)數(shù)組分割成多個(gè)小數(shù)組數(shù)組的分割函數(shù)包括（）。

A、hspIitB

B、vspIitC

C、spIitD

Dvsplit

答案：ABCD

108.下列跟人工智能場(chǎng)景相關(guān)的是（）。

A\圖像識(shí)別

B\人臉識(shí)別

C、語(yǔ)音識(shí)別

D、語(yǔ)義分析

答案：ABCD

109.以下選項(xiàng)中是正確的字符串有（）。

A、'abc"ab"

B、‘a(chǎn)bc"ab'

C、“abc”ab”

D、“abc\"ab”

答案：BD

110.DGI定義的數(shù)據(jù)治理任務(wù)包括（）。

A、數(shù)據(jù)質(zhì)量的評(píng)估

B、主動(dòng)定義或序化規(guī)則

C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)

D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題

答案：BCD

111.大數(shù)據(jù)偏見(jiàn)包括（）。

A、數(shù)據(jù)源的選擇偏見(jiàn)

B、算法與模型偏見(jiàn)

C、結(jié)果解讀方法的偏見(jiàn)

D、數(shù)據(jù)呈現(xiàn)方式的偏見(jiàn)

答案：ABCD

112.關(guān)于Dropout說(shuō)法，正確的是（）。

A、Dropout背后的思想其實(shí)就是把DNN當(dāng)作一個(gè)集成模型來(lái)訓(xùn)練，之后取所有

值的平均值，而不只是訓(xùn)練單個(gè)DNN

B、DNN網(wǎng)絡(luò)將Dropout率設(shè)置為p,也就是說(shuō)，一個(gè)神經(jīng)元被保留的概率是1-p。

當(dāng)一個(gè)神經(jīng)元被丟棄時(shí)，無(wú)論輸入或者相關(guān)的參數(shù)是什么，它的輸出值就會(huì)被設(shè)

置為0

C、丟棄的神經(jīng)元在訓(xùn)練階段，對(duì)BP算法的前向和后向階段都沒(méi)有貢獻(xiàn)。由于這

個(gè)原因，每一次訓(xùn)練它都像是在訓(xùn)練一個(gè)新的網(wǎng)絡(luò)

D\ropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)（比如MaxNorm）一起使

用，來(lái)防止神經(jīng)網(wǎng)絡(luò)的過(guò)擬合

答案：ABCD

113.下列場(chǎng)景適合使用Python的是（）。

A、可作為腳本語(yǔ)言，快速編寫(xiě)小型程序、腳本等

B、可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域

C、可作為膠水語(yǔ)言，整合如C++等語(yǔ)言代碼

D\Python適用于低延時(shí)'高利用率的應(yīng)用場(chǎng)景

答案：ABC

114.關(guān)于Hive的說(shuō)法正確的是（）。

A、Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具

B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表

C、最初，Hive由Google開(kāi)源，用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計(jì)問(wèn)題

D、Hive的主要應(yīng)用場(chǎng)景是離線分析

答案：ABD

115.下列關(guān)于詞袋模型說(shuō)法正確的是（）。

A、詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序

B、詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序

C\TensorFIow支持詞袋模型

D、詞袋模型可以表出單詞之間的前后關(guān)系

答案：AC

116.下列關(guān)于密度聚類(lèi)說(shuō)法，錯(cuò)誤的是（）。

A、DBSCAN是一種著名的密度聚類(lèi)算法

B、密度聚類(lèi)從樣本數(shù)量的角度來(lái)考察樣本之間的可連接性

C、密度聚類(lèi)基于不可連接樣本不斷擴(kuò)展聚類(lèi)簇，以獲得最終的聚類(lèi)結(jié)果

D、密度直達(dá)關(guān)系通常滿足對(duì)稱(chēng)性

答案：BCD

117.數(shù)據(jù)挖掘算法的組件包括（）。

A、模型或模型結(jié)構(gòu)

B、評(píng)分函數(shù)

C、優(yōu)化和搜索方法

D、數(shù)據(jù)管理策略

答案：ABCD

118.Python中jieba庫(kù)支持哪幾種模式為（）。

A、精準(zhǔn)模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案：ACD

119.下列關(guān)于特征的稀疏性說(shuō)法，正確的是（）。

A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)

B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開(kāi)銷(xiāo)

C、學(xué)習(xí)任務(wù)難度可能有所降低

D、稀疏矩陣沒(méi)有高效的存儲(chǔ)方法

答案：ABC

120.以下屬于規(guī)則的分詞方法的是（）。

A、正向最大匹配法

B、逆向最大匹配法

C、雙向最大匹配法

D、條件隨機(jī)場(chǎng)

答案：ABC

121.以下（）是一元通用函數(shù)。

A、np.add）

B\np.maximum）

C、np.exp）

D\np.sqrt）

答案：CD

122.我們想要減少數(shù)據(jù)集中的特征數(shù)即降維，以下方案合適的是（）。

A、使用前向特征選擇方法

B、使用后向特征排除方法

C、我們先把所有特征都使用，去訓(xùn)練一個(gè)模型，得到測(cè)試集上的表現(xiàn)。然后我

們?nèi)サ粢粋€(gè)特征，再去訓(xùn)練，用交叉驗(yàn)證看看測(cè)試集上的表現(xiàn)。如果表現(xiàn)比原來(lái)

還要好，我們可以去除這個(gè)特征

D、查看相關(guān)性表，去除相關(guān)性最高的一些特征

答案：ABCD

123.在Spark的基本流程中，主要涉及（）。

A、DriverProgram

B、CIusterManager

C、WorkerNode

D\Executor

答案：ABCD

124.以下關(guān)于HBase說(shuō)法正確的是（）。

A、面向列的數(shù)據(jù)庫(kù)

B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)

C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫(xiě)

D、采用松散數(shù)據(jù)模型

答案：ABCD

125.下列說(shuō)法中正確的是（）o

A、云計(jì)算的主要特點(diǎn)是非常昂貴

B、大數(shù)據(jù)是多源、異構(gòu)'動(dòng)態(tài)的復(fù)雜數(shù)據(jù)，即具有4V特征的數(shù)據(jù)

C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對(duì)象之一

D、MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件(或算法)

答案：BCD

126.()是Spark比MapReduce計(jì)算快的原因。

A、基于內(nèi)存的計(jì)算

B、基于DAG的調(diào)度框架

C、基于Lineage的容錯(cuò)機(jī)制

D、基于分布式計(jì)算的框架

答案：ABC

127.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法，正確的是()。

A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.s()實(shí)現(xiàn)

B、單樣本Z檢驗(yàn)適用于樣本量較大的情況

C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布

D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量

答案：BCD

128.下列屬于CNN關(guān)鍵層的是()o

A、輸入層

B、卷積層

C、激活層

D、池化層

答案：ABCD

129.在正則化公式中，入為正則化參數(shù)，關(guān)于人的描述正確的是（）。

A、若正則化參數(shù)人過(guò)大，可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象

B、若入的值太大，則梯度下降可能不收斂

C、取一個(gè)合理的人值，可以更好地應(yīng)用正則化

D、如果令人的值很大的話，為了使CostFunction盡可能的小,所有6的值（不

包括eo）都會(huì)在一定程度上減小

答案：ABCD

130.下列有關(guān)MapReduce計(jì)算框架的描述正確的是（）。

A、MapReduce可以計(jì)算任務(wù)的劃分和調(diào)度

B、MapReduce可完成數(shù)據(jù)的分布存儲(chǔ)和劃分

CvMapReduce可以實(shí)現(xiàn)處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測(cè)和失效恢復(fù)

DvMapReduce可實(shí)現(xiàn)處理數(shù)據(jù)與計(jì)算任務(wù)的同步

答案：ABCD

131.以下關(guān)于MapReducel.0版本說(shuō)法正確的是（）。

A、擴(kuò)展性差

B、可靠性差

C、資源利用率低

D、無(wú)法支持多種計(jì)算框架

答案：ABCD

132.HighBias（高偏差）的解決方案有（）。

A、Boosting

B、復(fù)雜模型（非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層）

G更多特征

D、-

答案：ABC

133.常用的數(shù)據(jù)審計(jì)方法可以分為（）。

A、預(yù)定義審計(jì)

B、自定義審計(jì)

C、可視化審計(jì)

D、結(jié)構(gòu)化審計(jì)

答案：ABC

134.以下關(guān)于HTML標(biāo)簽嵌套規(guī)則的說(shuō)法，正確的是（）。

A、塊元素可以包含內(nèi)聯(lián)元素或某些塊元素，但內(nèi)聯(lián)元素也可以包含塊元素

B、HTML標(biāo)簽包括塊級(jí)元素和內(nèi)嵌元素

C、內(nèi)嵌元素一般用在網(wǎng)站內(nèi)容之中的某些細(xì)節(jié)或部位，用以“強(qiáng)調(diào)區(qū)分樣式上

標(biāo)下標(biāo)錨點(diǎn)”等，通常包括：aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIs

pansubttuvar等

D、其中塊級(jí)元素一般用來(lái)搭建網(wǎng)絡(luò)架構(gòu)布局承載內(nèi)容，通常包括的標(biāo)簽有：ad

dressdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI

等

答案：BCD

135.在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化—從集中式計(jì)算、分布式計(jì)

算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算，有一定的代表性的是Google云計(jì)算三

大技術(shù)，這三大技術(shù)包括（）。

A、HadoopYRN資源管理器

B、GFS分布式存儲(chǔ)系統(tǒng)

C\MapRedue分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫(kù)

答案：BCD

136.在Python中，以下導(dǎo)入模塊方式正確的是()。

A、import模塊名

B、import模塊名as模塊的別名

C\from模塊名import函數(shù)名

D\from模塊名import函數(shù)名A,函數(shù)名B

答案：ABCD

137.下面定義函數(shù)正確的是()。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、efcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案：AB

138.字典的遍歷正確的有()o

A、forin變量i,字典：使用i遍歷所有的鍵，有鍵就可以通過(guò)變量訪問(wèn)其值

B、for變量iin字典：使用i遍歷所有的鍵，有鍵就可以通過(guò)變量訪問(wèn)其值

C\for變量i,變量jin字典items):使用變量i遍歷所有鍵，通過(guò)變量j遍

歷所有值

D、forin變量i,變量j字典items）:使用變量i遍歷所有鍵，通過(guò)變量j遍歷

所有值

答案：BC

139.與自然語(yǔ)言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的

區(qū)別是（）。

A、Jieba專(zhuān)注于中文分詞操作

B、NLTK主要用于一般自然語(yǔ)言處理任務(wù)（標(biāo)記化，P0S標(biāo)記，解析等）

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、Scikit-learn為機(jī)器學(xué)習(xí)提供了一個(gè)大型庫(kù)，其中包含了用于文本預(yù)處理的

工具，例如詞頻-逆文檔頻率特征提?。═fidfVectorizer）等。

答案：ABCD

140.下面屬于范數(shù)規(guī)則化的作用的是（）。

A、保證模型盡可能的簡(jiǎn)單，避免過(guò)擬合

B、約束模型特征

C、最小化問(wèn)題

D、最大化問(wèn)題

答案：AB

141.以下關(guān)于L1和L2范數(shù)的描述，正確的是（）。

A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。

B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方，L2范數(shù)又稱(chēng)Euclidean范數(shù)或

Frobenius范數(shù)

C、L1范數(shù)可以使權(quán)值稀疏，方便特征提取

D、L2范數(shù)可以防止過(guò)擬合，提升模型的泛化能力。

答案：ABCD

142.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型。該模型主要預(yù)測(cè)下期臺(tái)區(qū)

工單數(shù)量，構(gòu)建搶修熱點(diǎn)。以下模型算法構(gòu)建步驟中合理的順序是（）。

A、將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣，生成N個(gè)訓(xùn)練樣本集

B、將N個(gè)訓(xùn)練樣本集分別做決策樹(shù)，生成N棵決策樹(shù)

C、將N棵決策樹(shù)隨機(jī)構(gòu)成隨機(jī)森林

D、未來(lái)根據(jù)預(yù)測(cè)樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)行隨機(jī)森林決策投票，

得出針對(duì)該預(yù)測(cè)樣本最優(yōu)的決策樹(shù)進(jìn)行運(yùn)算，并計(jì)算出最終結(jié)果。

答案：ABCD

143.預(yù)剪枝使得決策樹(shù)的很多分子都沒(méi)有展開(kāi)，會(huì)導(dǎo)致（）。

A、顯著減少訓(xùn)練時(shí)間開(kāi)銷(xiāo)

B、顯著減少測(cè)試時(shí)間開(kāi)銷(xiāo)

C、降低過(guò)擬合風(fēng)險(xiǎn)

D、提高欠擬合風(fēng)險(xiǎn)

答案：ABCD

144.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)，將數(shù)據(jù)轉(zhuǎn)換成（）或（）

在屏幕上顯示出來(lái)，并進(jìn)行交互處理的理論、方法和技術(shù)。

A、文字

B、圖形

C、圖像

D、視頻

答案：BC

145.下列屬于TF-IDF的應(yīng)用有（）o

A、搜索引擎

B、關(guān)鍵詞提取

C、文本相似性

D、數(shù)據(jù)降維

答案：ABC

146.集成學(xué)習(xí)中增強(qiáng)多樣性的常見(jiàn)做法有（）。

A、數(shù)據(jù)樣本擾動(dòng)

B、輸入屬性擾動(dòng)

C、輸出表示擾動(dòng)

D、算法參數(shù)擾動(dòng)

答案：ABCD

147.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分（）。

A、卷積層

B、中間層

C、池化層

D、全連接層

答案：ACD

148.可作為決策樹(shù)選擇劃分屬性的參數(shù)是（）。

A、信息增益

B、增益率

C、基尼指數(shù)

D\密度函數(shù)

答案：ABC

149.假設(shè)目標(biāo)遍歷的類(lèi)別非常不平衡，即主要類(lèi)別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在

你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度，那么下面說(shuō)法正確的是（）。

A、準(zhǔn)確度并不適合衡量不平衡類(lèi)別問(wèn)題

B、準(zhǔn)確度適合衡量不平衡類(lèi)別問(wèn)題

C、精確度和召回率適合于衡量不平衡類(lèi)別問(wèn)題

D、精確度和召回率不適合衡量不平衡類(lèi)別問(wèn)題

答案：AC

150.DGI定義的數(shù)據(jù)治理任務(wù)包括（）。

A、數(shù)據(jù)質(zhì)量的評(píng)估

B、主動(dòng)定義或序化規(guī)則

C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)

D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題

答案：BCD

151.在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化—從集中式計(jì)算,分布式計(jì)

算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算，有一定的代表性的是Google云計(jì)算三

大技術(shù)，這三大技術(shù)包括（）。

A、HadoopYRN資源管理器

B、GFS分布式存儲(chǔ)系統(tǒng)

C\MapRedue分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫(kù)

答案：BCD

152.（）是通過(guò)對(duì)無(wú)標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來(lái)進(jìn)行分類(lèi)的。

A、密度估計(jì)

B、異常檢測(cè)

G線性回歸

D、聚類(lèi)分析

答案：ABD

153.以下（）屬于數(shù)據(jù)統(tǒng)計(jì)分析工具。

A、Weka

B、SAS

C、SPSS

D\MatIab

答案：ABCD

154.決策樹(shù)的劃分選擇有（）。

A、增益系數(shù)

B、信息增益

C、增益率

D、基尼系數(shù)

答案：BCD

155.下面是Python的特點(diǎn)和優(yōu)點(diǎn)是（）。

A、解釋性強(qiáng)

B、使用動(dòng)態(tài)特性

C、面向?qū)ο?/p>

D、語(yǔ)法簡(jiǎn)潔

答案：ABCD

156.以下屬于漢語(yǔ)未登錄詞的類(lèi)型的有（）。

A、存在于詞典但出現(xiàn)頻率較少的詞

B、新出現(xiàn)的普通詞匯

C、專(zhuān)有名詞

D、專(zhuān)業(yè)名詞和研究領(lǐng)域名稱(chēng)

答案：BCD

157.假設(shè)檢驗(yàn)中，首先需要提出零假設(shè)和備擇假設(shè)，零假設(shè)是（），備擇假設(shè)是

（）。

A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的，只有零假設(shè)出現(xiàn)的概率大于閾值才

會(huì)被承認(rèn)的

B、希望推翻的結(jié)論，希望證明的結(jié)論

C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的，只有零假設(shè)出現(xiàn)的概率小于閾值才

會(huì)被承認(rèn)的

D、希望證明的結(jié)論，希望推翻的結(jié)論

答案：BC

158.聚類(lèi)性能度量外部指標(biāo)包括（）。

A、Jaccard系數(shù)

B、FM指數(shù)

C\Dunn指數(shù)

D、Rand指數(shù)

答案：ABD

159.以下可用于處理由于光照不均帶來(lái)的影響的圖像處理方法有（）。

A、同態(tài)濾波

B、頂帽變換

C、基于移動(dòng)平均的局部閾值處理

D、拉普拉斯算子

答案：ABC

160.圖像識(shí)別的一般步驟包括（）。

A、預(yù)處理

B、特征提取

C、超像素生成

D、識(shí)別分類(lèi)

答案：ABD

161.關(guān)于降維說(shuō)法正確的是（）。

A、PA是根據(jù)方差這一屬性降維的

B、降維可以防止模型過(guò)擬合

C、降維降低了數(shù)據(jù)集特征的維度

D、降維方法有PLA等

答案：ACD

162.按照涉及自變量的多少，可以將回歸分析分為（）。

A、線性回歸分析

B、非線性回歸分析

C、一元回歸分析

D、多元回歸分析

答案：CD

163.特征向量的缺失值處理：缺失值較多，直接將該特征舍棄掉，否則可能反倒

會(huì)帶入較大的noise,對(duì)結(jié)果造成不良影響；缺失值較少,其余的特征缺失值都

在10%以?xún)?nèi)，我們可以采取的處理方式有（）。

A、把NaN直接作為一個(gè)特征，假設(shè)用0表示

B、用均值填充

C、用隨機(jī)森林等算法預(yù)測(cè)填充

D、以上答案都不正確

答案：ABC

164.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較，說(shuō)法正確的是（）。

A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè)，分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)

B、歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理，分析學(xué)習(xí)為演繹推理

C、歸納學(xué)習(xí)不需要先驗(yàn)知識(shí)

D、訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗

答案：ABCD

165.在假設(shè)檢驗(yàn)中，當(dāng)原假設(shè)為“偽”，但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤

叫（）。

A、a錯(cuò)誤

B、B錯(cuò)誤

c、取偽錯(cuò)誤

D、棄真錯(cuò)誤

答案：BC

166.如將A、B、C三個(gè)分類(lèi)器的PR曲線畫(huà)在一個(gè)圖中，其中A、B的PR曲線可

以完全包含住C的PR曲線，A與B的PR曲線有交點(diǎn)，A、B、C的平衡點(diǎn)分別為

0.79、0.66、0.58,以下說(shuō)法中正確的是（）。

A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C

B、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器B

C、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器C

D、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B

答案：ABC

167.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

168.數(shù)據(jù)挖掘的挖掘方法包括（）。

A、聚類(lèi)

B\回歸分析

C、神經(jīng)網(wǎng)絡(luò)

D、決策樹(shù)算法

答案：ABCD

169.Pandas中刪除列的方式是（）□

A、df.drop（［"列名,axis=1）

B\df.drop（coIumns=［"列名"］）

C\df.drop（［0,1］）

D\f.drop（［0］）

答案：AB

170.常用的數(shù)據(jù)審計(jì)方法可以分為（）。

A、預(yù)定義審計(jì)

B、自定義審計(jì)

C、可視化審計(jì)

D、結(jié)構(gòu)化審計(jì)

答案：ABC

171.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類(lèi)型產(chǎn)品的本質(zhì)特征，表現(xiàn)在（）

方面。

A、數(shù)據(jù)驅(qū)動(dòng)

B、數(shù)據(jù)密集型

C、數(shù)據(jù)范式

D、數(shù)據(jù)可視化

答案：ABC

172.主要面向或關(guān)注“過(guò)去”的數(shù)據(jù)分析過(guò)程為（）。

A、描述性分析

B、診斷性分析

C、預(yù)測(cè)性分析

D、規(guī)范性分析

答案：AB

173.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是（）。

A、樸素貝葉斯

B、隱馬爾科夫模型

C、線性回歸模型

D\深度信念網(wǎng)絡(luò)

答案：ABD

174.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說(shuō)法，正確的有（）。

A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對(duì)

比

B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點(diǎn)圖、

箱型圖等

C、在探索型數(shù)據(jù)分析時(shí)應(yīng)該盡量避免使用餅圖，然而在數(shù)據(jù)報(bào)告中可以使用餅

圖達(dá)到更加美觀的效果

D、直方圖和箱型圖都可以用來(lái)展示數(shù)據(jù)的分布情況

答案：BCD

175.決策樹(shù)在（）情況下會(huì)導(dǎo)致遞歸返回。

A、當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類(lèi)

B、當(dāng)前屬性集為空

C、當(dāng)前節(jié)點(diǎn)包含的樣本集合為空

D、所有樣本在所有屬性上取值相同

答案：ABCD

176.Analytics1.0的主要特點(diǎn)有()。

A、分析活動(dòng)滯后于數(shù)據(jù)的生成

B、重視結(jié)構(gòu)化數(shù)據(jù)的分析

C、以對(duì)歷史數(shù)據(jù)的理解為主要目的

D、注重描述性分析

答案：ABCD

177.回歸分析有很多種類(lèi)，常見(jiàn)的有()。

A、線性回歸

B、系數(shù)回歸

G邏輯回歸

D、曲線回歸

答案：ACD

178.以下()是scipy中的模塊。

A、cIuster

B\constants

C、integrate

D、io

答案：ABCD

179.決策樹(shù)遞歸停止的條件為（）。

A、訓(xùn)練數(shù)據(jù)集使用完

B、所有的類(lèi)標(biāo)簽完全相同

C、特征用完

D、遇到丟失值

答案：BC

180.下面屬于范數(shù)規(guī)則化的作用的是（）。

A、保證模型盡可能的簡(jiǎn)單，避免過(guò)擬合

B、約束模型特征

C、最小化問(wèn)題

D、最大化問(wèn)題

答案：AB

181.下列既可以用于分類(lèi)，又可以用于回歸的機(jī)器學(xué)習(xí)算法有（）。

A\k近鄰

B、邏輯回歸

C、決策樹(shù)

D、線性回歸

答案：AC

182.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是（）。

A、os

B、sys

C、numpy

D、re

答案：ABD

183.語(yǔ)音識(shí)別的方法包括0o

A、聲道模型方法

B、模板匹配的方法

C、利用人工神經(jīng)網(wǎng)絡(luò)的方法

D、語(yǔ)音知識(shí)方法

答案：ABCD

184.數(shù)據(jù)科學(xué)基本原則中，三世界原則指的是（）

A、精神世界

B、數(shù)據(jù)世界

C、物理世界

D、數(shù)字世界

答案：ABC

185.Spark提交工作的方式（）。

AvClient

B、CIuster

C、StandaIone

D、YARN

答案：AB

186.下面導(dǎo)入模塊正確的是（）。

A、importnumpy

B、importnumpyasnp

C、frommatpIotIibimportpypIot

DvfrommatpIotIibimportpypIotasp11

答案：ABCD

187.SparkRDD的依賴(lài)機(jī)制包括O。

A、寬依賴(lài)

B、深度依賴(lài)

C、廣度依賴(lài)

D、窄依賴(lài)

答案：AD

188.在假設(shè)檢驗(yàn)中，當(dāng)原假設(shè)為“偽"但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤

叫（）。

A、a錯(cuò)誤

B、B錯(cuò)誤

C、取偽錯(cuò)誤

D、棄真錯(cuò)誤

答案：BC

189.下列關(guān)于自然語(yǔ)言處理中的關(guān)鍵詞提取的說(shuō)法，正確的是（）。

A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法

B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法

C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題

D、這個(gè)問(wèn)題涉及數(shù)據(jù)挖掘、文本處理'信息檢索等領(lǐng)域

答案：BD

190.下列關(guān)于深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)的說(shuō)法，正確的是（）。

A、深度學(xué)習(xí)強(qiáng)調(diào)模型深度

B、深度學(xué)習(xí)突出特征學(xué)習(xí)的重要性：特征變換+非人工

C、沒(méi)有區(qū)別

D、以上答案都不正確

答案：AB

191.Hadoop中map輸出結(jié)果說(shuō)法正確的是（）。

A、＜key,value〉鍵值對(duì)

B、輸出中間臨時(shí)結(jié)果

C、輸出最終計(jì)算結(jié)果

D、輸出結(jié)果永久保留

答案：AB

192.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則是（）。

A、忠于原始數(shù)據(jù)原則

B、設(shè)定共同場(chǎng)景原則

C、有效性利用原則

D、3c精神原則

答案：ABCD

193.以下算法中可以應(yīng)用于圖像分割的是（）。

A、邊緣檢測(cè)技術(shù)

B、閾值分割技術(shù)

C、基于區(qū)域的分割技術(shù)

D、區(qū)域生長(zhǎng)方法

答案：ABCD

194.統(tǒng)計(jì)模式分類(lèi)問(wèn)題中，當(dāng)先驗(yàn)概率未知時(shí)，可以使用（）。

A、最小最大損失準(zhǔn)則

B、最小誤判概率準(zhǔn)則

C、最小損失準(zhǔn)則

D、N-P判決

答案：AD

195.請(qǐng)問(wèn)下面哪些是離散型變量（）。

A、示波器

B、心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測(cè)量

C、過(guò)去數(shù)月的總銷(xiāo)售額

D、公司每年的紅利

答案：CD

196.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0

附近的濾波器有（）。

A、同態(tài)濾波

B、圖斯濾波

C、巴特沃斯濾波

D、中值濾波

答案：BC

197.決策樹(shù)的劃分選擇有（）。

A、增益系數(shù)

B、信息增益

C、增益率

D、基尼系數(shù)

答案：BCD

198.圖像壓縮是建立在圖像存在（）幾種冗余之上。

A、編程冗余

B、像素間冗余

C、心理視覺(jué)冗余

D、計(jì)算資源冗余

答案：ABC

199.下列方法中，屬于詞語(yǔ)情感分析的方法有（）。

A、基于網(wǎng)絡(luò)的分析方法

B、基于word-embedding的分析方法

C、基于詞典的分析方法

D、基于詞頻的分析方法

答案：AC

200.Numpy中計(jì)算數(shù)組的標(biāo)準(zhǔn)差和方差的函數(shù)是（）。

A、std）

B、diff）

C\exp)

D\var)

答案：AD

201.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。

A、資源管理層

B、Spark核心層

C、應(yīng)用層

D、服務(wù)層

答案：ABD

202.以下關(guān)于神經(jīng)網(wǎng)絡(luò)模型描述正確的是（）。

A、神經(jīng)網(wǎng)絡(luò)模型是許多邏輯單元按照不同層級(jí)組織起來(lái)的網(wǎng)絡(luò)，每一層的輸出

變量都是下一層的輸入變量

B、神經(jīng)網(wǎng)絡(luò)模型建立在多神經(jīng)元之上

C、神經(jīng)網(wǎng)絡(luò)模型中，無(wú)中間層的神經(jīng)元模型的計(jì)算可用來(lái)表示邏輯運(yùn)算

D、神經(jīng)網(wǎng)絡(luò)模型一定可以解決所有分類(lèi)問(wèn)題

答案：ABC

203.類(lèi)的特點(diǎn)有（）o

A、封裝

B、繼承

C、多態(tài)

D、重復(fù)

答案：ABC

204.下列方法中，可以用于特征降維的方法包括（）。

A、主成分分析PCA

B、線性判別分析LDA

G深度學(xué)習(xí)SparseAutoEncoder

D、矩陣奇異值分解SVD

答案：ABD

205.處理圖像平滑處理的濾波有（）。

A、盒式濾波

B、均值濾波

C、圖斯濾波

D、中值濾波

答案：ABCD

206.關(guān)于相關(guān)與線性關(guān)系，下列說(shuō)法正確的是（）

A、相關(guān)不一定是線性關(guān)系，可能是非線性關(guān)系

B、相關(guān)一定是線性關(guān)系，不可能是非線性關(guān)系

C、相關(guān)時(shí)若有相關(guān)系數(shù)r為0,說(shuō)明兩個(gè)變量之間不存在線性關(guān)系，仍可能存

在非線性關(guān)系

D、相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件

答案：ACD

207.關(guān)于CAP理論說(shuō)法正確的是（）。

A、一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性,可用性和分區(qū)容錯(cuò)性等需求

B、一致性主要指強(qiáng)一致性

C、一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證（爭(zhēng)取）可能導(dǎo)致另

一個(gè)特征的損失（放棄）

D、可用性指每個(gè)操作總是在“給定時(shí)間”之內(nèi)得到返回“所需要的結(jié)果”

答案：ABCD

208.常見(jiàn)的聚類(lèi)性能度量外部指標(biāo)有（）。

A、Jaccard系數(shù)

B、DB指數(shù)

C、FM指數(shù)

D、以上答案都正確

答案：AC

209.在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中，應(yīng)用最為常見(jiàn)的是（）。

A、深度優(yōu)先遍歷策略

B、廣度優(yōu)先遍歷策略

C、高度優(yōu)先遍歷策略

D、反向鏈接策略

答案：AB

210.下列關(guān)于情感分析的說(shuō)法正確的是（）。

A、簡(jiǎn)單而言，是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)

程

B、情感分析的發(fā)展得益于社交媒體的興起

C、按照處理文本的粒度不同，情感分析大致可分為詞語(yǔ)級(jí)、句子級(jí)、篇章級(jí)三個(gè)

D、情感分析可以應(yīng)用于文本挖掘

答案：ABCD

211.假設(shè)檢驗(yàn)中，首先需要提出零假設(shè)和備擇假設(shè)，零假設(shè)是()，備擇假設(shè)是

()。

A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的，只有零假設(shè)出現(xiàn)的概率大于閾值才

會(huì)被承認(rèn)的

B、希望推翻的結(jié)論，希望證明的結(jié)論

C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的，只有零假設(shè)出現(xiàn)的概率小于閾值才

會(huì)被承認(rèn)的

D、希望證明的結(jié)論，希望推翻的結(jié)論

答案：BC

212.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中，正確的是()。

A、可用于處理時(shí)間序列數(shù)據(jù)

B、可用于處理圖像數(shù)據(jù)

C、卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算

D、至少在網(wǎng)絡(luò)的一層中使用卷積

答案：ABD

213.在Python中,執(zhí)行importdatetimeasdt語(yǔ)句后，如下下列時(shí)間或日期定義

方式正確的是()。

A、dt.datetime(2019,12,12,23,23,23)

B、dt.datetime(2019,0,0,23,23,23)

C\dt.datetime(2019,12,12,0)

D、1.1ime(23,23,23)

答案：AC

214.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動(dòng)包括（）。

A、模式/模型的應(yīng)用及維護(hù)

B、模式/模型的洞見(jiàn)

C、結(jié)果的可視化與文檔化

D、模式/模型的驗(yàn)證和優(yōu)化

答案：ABCD

215.0是Hadoop運(yùn)行的模式。

A、單機(jī)版

B、偽分布式

C、分布式

D、全分布式

答案：ABC

216.列式數(shù)據(jù)庫(kù)（如BigTable和HBase）以表的形式存儲(chǔ)數(shù)據(jù)，表結(jié)構(gòu)包括（）

等元素。

A、關(guān)鍵字

B、時(shí)間戳

G列簇

D、數(shù)據(jù)類(lèi)型

答案：ABC

217.Python邏輯表達(dá)式中，（）會(huì)導(dǎo)致邏輯短路，即不會(huì)繼續(xù)向下推算而直接

返回結(jié)果。

A、FaIse開(kāi)頭的and語(yǔ)句

B\FaIse開(kāi)頭的or語(yǔ)句

C\True開(kāi)頭的and語(yǔ)句

D、True開(kāi)頭的or語(yǔ)句

答案：AD

218.下面關(guān)于機(jī)器學(xué)習(xí)的理解，正確的是（）。

A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的

B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽

C、強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對(duì)模型的反饋

D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)

答案：BCD

219.不屬于使用池化層相比于相同步長(zhǎng)的卷積層的優(yōu)勢(shì)有（）。

A、參數(shù)更少

B、可以獲得更大下采樣

G速度更快

D、有助于提升精度

答案：BCD

220.在監(jiān)督式學(xué)習(xí)中使用聚類(lèi)算法的方法有（）。

A、首先，可以創(chuàng)建聚類(lèi)，然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法

B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前，可以將其類(lèi)別ID作為特征空間中的一個(gè)額外的

特征

C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前，不能創(chuàng)建聚類(lèi)

D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前，不能將其類(lèi)別ID作為特征空間中的一個(gè)額外的

特征

答案：AB

221.以下描述中正確的是0o

A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

B、Python語(yǔ)言是統(tǒng)計(jì)學(xué)家發(fā)明的語(yǔ)言

C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域（子學(xué)科）

答案：AC

222.Spark支持的計(jì)算模型有（）。

A、批處理

B、實(shí)時(shí)計(jì)算

C、機(jī)器學(xué)習(xí)模型

D、交互式查詢(xún)

答案：ABCD

223.一個(gè)回歸模型存在多重共線問(wèn)題，在不損失過(guò)多信息的情況下，可采取的措

施有（）。

A、剔除所有的共線性變量

B、剔除共線性變量中的一個(gè)

C、通過(guò)計(jì)算方差膨脹因子（VariancelnflationFactor,VIF）來(lái)檢查共線性程

度，并采取相應(yīng)措施

D、刪除相關(guān)變量可能會(huì)有信息損失，我們可以不刪除相關(guān)變量，而使用一些正

則化方法來(lái)解決多重共線性問(wèn)題，例如Ridge或Lasso回歸

答案：BCD

224.以下選項(xiàng)中，不是Python語(yǔ)言保留字的是（）。

A、do

B、pass

Cvexcept

DvuntiI

答案：AD

225.圖像分割中常使用的領(lǐng)域有（）。

A、0鄰域

B、4鄰域

C、8鄰域

D、24鄰域

答案：BC

226.以下描述中屬于Analytics2.0的主要特點(diǎn)的是（）。

A、側(cè)重嵌入式分析

B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析

C、以決策支持為主要目的

D、注重解釋性分析和預(yù)測(cè)性分析

答案：BCD

227.下列選項(xiàng)中基于核的機(jī)器學(xué)習(xí)算法有（）。

A、最大期望算法

B、徑向基核函數(shù)

C、線性判別分析法

D、支持向量機(jī)

答案：BCD

228.EDA（探索性數(shù)據(jù)分析）方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證性分析方法的區(qū)別有（）o

A、EDA需要事先提出假設(shè)，而驗(yàn)證性分析不需要

B、EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單

C、在一般數(shù)據(jù)科學(xué)項(xiàng)目中，探索性分析在先，驗(yàn)證性分析在后

D、EDA更為簡(jiǎn)單、易學(xué)和易用

答案：BCD

229.從可視化處理視角看，可以將數(shù)據(jù)分為四個(gè)類(lèi)型（）四個(gè)類(lèi)型并采用不同的

視覺(jué)映射方法。

A、定類(lèi)數(shù)據(jù)

B、定序數(shù)據(jù)

C、定距離數(shù)據(jù)

D、定比暑假

答案：ABCD

230.屬于特征選擇的優(yōu)點(diǎn)有（）。

A、解決模型自身的缺陷

B、減少過(guò)擬合

C、提升模型的性能

D、增強(qiáng)模型的泛化能力

答案：BCD

231.Spark容錯(cuò)性的方式有哪些（）。

A、數(shù)據(jù)檢查點(diǎn)

B、存儲(chǔ)原始數(shù)據(jù)

C、記錄數(shù)據(jù)的更新

D、自建數(shù)據(jù)版本

答案：AC

232.下列可以用來(lái)構(gòu)造神經(jīng)網(wǎng)絡(luò)的算法有（）。

A、kNN

B、線性回歸

G邏輯回歸

D、-

答案：BC

233.Hadoop組件Zookeeper的設(shè)計(jì)目標(biāo)和主要特點(diǎn)包括（）。

A、簡(jiǎn)單性

B、自我復(fù)制

C、順序訪問(wèn)

D、高速讀取

答案：ABCD

234.Pig說(shuō)法正確的是（）o

A、彌補(bǔ)MapReduce編程復(fù)雜性

B\封裝MapReduce處理過(guò)程

C、PigLatin是一種數(shù)據(jù)分析語(yǔ)言

D、適用于并行處理

答案：ABCD

235.Python變量命名規(guī)則包含（）。

A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開(kāi)頭，但不

能以數(shù)字開(kāi)頭。例如，可將變量命名為message」，但不能將其命名為1_messa

ge。

B、變量名不能包含空格，但可使用下劃線來(lái)分隔其中的單詞。例如，變量名gr

eeting_message可行，但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。

C\不要將Python關(guān)鍵字和函數(shù)名用作變量名，即不要使用Python保留用于特

殊用途的單詞，如print。

D\變量名應(yīng)既簡(jiǎn)短又具有描述性。例如，name比n好，student_name比s_n

好，name_lengthbtIength_of_persons_name好。

答案：ABCD

236.以下跟圖像處理相關(guān)的是（）。

A、圖像識(shí)別

B、人臉識(shí)別

C、視頻分析

D、自然語(yǔ)言處理

答案：ABC

237.關(guān)于總體和樣本的說(shuō)法，正確的是（）。

A、總體也就是研究對(duì)象的全體

B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品，那么樣本可以是每間隔10s抽

取的產(chǎn)品

C、樣本是從總體的隨機(jī)抽樣

D、如果總體是某一小學(xué)的1000名學(xué)生，那么樣本可以是一年級(jí)的100名學(xué)生

答案：ABC

238.深度學(xué)習(xí)方法不適用于的場(chǎng)景有（）。

A、數(shù)據(jù)樣本充足

B、數(shù)據(jù)樣本不足

C、數(shù)據(jù)集具有局部相關(guān)特性

D、數(shù)據(jù)集沒(méi)有局部相關(guān)特性

答案：BD

239.在Windows系統(tǒng)中通過(guò)Geany編寫(xiě)Python程序，運(yùn)行Python程序的常用步

驟是（）。

A、菜單Build>Execute

B、菜單Execute>BuiId

G按F5

D、按F10

答案：AC

240.在Spark中，彈性分布式數(shù)據(jù)集的特點(diǎn)包括（）。

A、可分區(qū)

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

241.下列哪些是RDBMS中事務(wù)遵循的原則()o

A、原子性(Atomicity)

B、一致性(Connsistency)

G隔離性(Isolation)

Dv持久性(DurabiIity)

答案：ABCD

242.Spark組件包含哪兩個(gè)算子()。

A、Map

B、Action

C、Transformation

D、Reduce

答案：BC

243.特征選擇的目的是()。

A、減少特征數(shù)量、降維

B、使模型泛化能力更強(qiáng)

C、增強(qiáng)模型擬合能力

D、減少過(guò)擬合。

答案：ABD

244.對(duì)于不同場(chǎng)景內(nèi)容，一般數(shù)字圖像可以分為()。

A、二值圖像

B、灰度圖像

C、彩色圖像

D、深度圖像

答案：ABC

245.

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下（多選題）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔