2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下(多選題)_第1頁(yè)
2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下(多選題)_第2頁(yè)
2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下(多選題)_第3頁(yè)
2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下(多選題)_第4頁(yè)
2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全-下(多選題)_第5頁(yè)
已閱讀5頁(yè),還剩90頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年數(shù)據(jù)價(jià)值挖掘技能競(jìng)賽考試題庫(kù)大全一下(多選題匯

總)

多選題

1.與自然語(yǔ)言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的區(qū)

別是()。

A、Jieba專(zhuān)注于中文分詞操作

B、NLTK主要用于一般自然語(yǔ)言處理任務(wù)(標(biāo)記化,P0S標(biāo)記,解析等)

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、ScikiLlearn為機(jī)器學(xué)習(xí)提供了一個(gè)大型庫(kù),其中包含了用于文本預(yù)處理的

工具,例如詞頻-逆文檔頻率特征提?。═fidfVectorizer)等。

答案:ABCD

2.下面哪些函數(shù)中,是有效的類(lèi)構(gòu)造函數(shù)有()。

A、def_lnit_(self):

B、definit_(self,var=0):

Gdefinit_):

D、ef_init_(seIf,a,b,c):

答案:ABD

3.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。

A、圖像編碼

B、圖像合成

C、圖像增強(qiáng)

D、圖像分類(lèi)

答案:AC

4.可視化高維展示技術(shù)在展示數(shù)據(jù)之間的關(guān)系以及數(shù)據(jù)分析結(jié)果方面()。

A、能夠直觀反映成對(duì)數(shù)據(jù)之間的空間關(guān)系

B、能夠直觀反映多維數(shù)據(jù)之間的空間關(guān)系

C、能夠靜態(tài)演化事物的變化及變化的規(guī)律

D、能夠動(dòng)態(tài)演化事物的變化及變化的規(guī)律

答案:BD

5.Python函數(shù)包括下述哪些內(nèi)容()。

A、函數(shù)名稱(chēng)

B、參數(shù)

C、執(zhí)行語(yǔ)句

D、返回值

答案:ABCD

6.情感分析的應(yīng)用場(chǎng)景有()。

A、數(shù)據(jù)挖掘

B、信息檢索

C、文本分詞

D、市場(chǎng)營(yíng)銷(xiāo)

答案:ABD

7.如果希望減少數(shù)據(jù)集中的特征數(shù)量,則可以采取的措施是()。

A、使用正向選擇法(ForwardSeIection)

B\使用反向消除法(BackwardEIimination)

G逐步選擇消除法(Stepwise)

D、計(jì)算不同特征之間的相關(guān)系數(shù),刪去相關(guān)系數(shù)高的特征之一

答案:ABCD

8.參數(shù)估計(jì)可以分為()。

A、點(diǎn)估計(jì)

B、一致估計(jì)

C、區(qū)間估計(jì)

D、無(wú)偏估計(jì)

答案:AC

9.在正則化公式中,人為正則化參數(shù),關(guān)于人的描述正確的是()。

A、若正則化參數(shù)人過(guò)大,可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象

B、若入的值太大,則梯度下降可能不收斂

C、取一個(gè)合理的人值,可以更好地應(yīng)用正則化

D、如果令人的值很大的話,為了使CostFunction盡可能的小,所有0的值(不

包括eo)都會(huì)在一定程度上減小

答案:ABCD

10.直方圖修正法包括()。

A、直方圖統(tǒng)計(jì)

B、直方圖均衡

C、直方圖過(guò)濾

D、直方圖規(guī)定化

答案:BD

11.實(shí)時(shí)計(jì)算類(lèi)應(yīng)用主要通過(guò)()來(lái)實(shí)現(xiàn)。

A、流計(jì)算組件

B、內(nèi)存計(jì)算組件

GMPP數(shù)據(jù)庫(kù)

D、Hadoop的后臺(tái)定時(shí)分析計(jì)算任務(wù)

答案:AB

12.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為()和隨機(jī)型網(wǎng)絡(luò)等。

A、前向型

B、后向型

C、反饋型

D、自組織競(jìng)爭(zhēng)型

答案:ACD

13.下面關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函數(shù)的說(shuō)法,正確的是()。

A、“一個(gè)客服一天可能接聽(tīng)到多少個(gè)電話”是一個(gè)連續(xù)型隨機(jī)變量

B、正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布

C、可以使用概率密度函數(shù)來(lái)描述連續(xù)型隨機(jī)變量的概率分布

D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

答案:BCD

14.ETL技術(shù)主要涉及()操作。

A、抽取

B、轉(zhuǎn)換

C\加載

D\分析

答案:ABC

15.關(guān)于Python分隔代碼塊,描述錯(cuò)誤的是()o

A、內(nèi)嵌代碼的每一行,都比外面的if語(yǔ)句的縮進(jìn)更多

B、代碼以“begin”開(kāi)頭,“end”結(jié)尾

C、每行代碼的縮進(jìn)都一致

D、代碼塊被封裝在花括號(hào)中

答案:BCD

16.下面對(duì)范數(shù)規(guī)則化描述,正確的是()。

A\L0是指向量中0的元素的個(gè)數(shù)

B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和

C、L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方

D、L0是指向量中非0的元素的個(gè)數(shù)

答案:BCD

17.常用的代價(jià)函數(shù)有()。

A、均方誤差

B、均方根誤差

C、平均絕對(duì)誤差

D、交叉炳

答案:ABCD

18.常見(jiàn)的圖像降噪方式包括()。

A、中值濾波

B、均值濾波

C、平均濾波

D、加權(quán)平均濾波

答案:ABCD

19.以下選項(xiàng)中,屬于MapReduce特征的有()。

A、以主從結(jié)構(gòu)的形式運(yùn)行

B、容錯(cuò)機(jī)制的復(fù)雜性

C、任務(wù)備份機(jī)制的必要性

D、數(shù)據(jù)存儲(chǔ)位置固定

答案:ABC

20.以下關(guān)于L1和L2范數(shù)的描述,正確的是()。

A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。

B\L2范數(shù)為x向量各個(gè)元素平方和的1/2次方,L2范數(shù)又稱(chēng)Euclidean范數(shù)或

Frobenius范數(shù)

C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取

D、L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力。

答案:ABCD

21.圖像數(shù)字化應(yīng)該包括哪些過(guò)程()。

A、采樣

B、模糊

C、量化

D、統(tǒng)計(jì)

答案:AC

22.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。

A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類(lèi)型的元素是可以的

B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)

C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式

D、字典不可以表示二維以上的高維數(shù)據(jù)

答案:ABC

23.最常見(jiàn)的分詞算法可以分為()。

A、基于字符串匹配的分詞方法

B、基于理解的分詞方法

C、基于統(tǒng)計(jì)的分詞方法

D、基于閱讀的分詞方法

答案:ABC

24.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括()。

A、可分區(qū)

B、可序列化

C、可直接修改

D、可持久化

答案:ABD

25.下列關(guān)于Ridge回歸的說(shuō)法,正確的是()。

A、若入=0,則等價(jià)于一般的線性回歸

B、若入=0,則不等價(jià)于一般的線性回歸

C、若入二+8,則得到的權(quán)重系數(shù)很小,接近于零

D、若入二+8,則得到的權(quán)重系數(shù)很大,接近與無(wú)窮大

答案:AC

26.以下有關(guān)特征數(shù)據(jù)歸一化的說(shuō)法,正確的是()。

A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度

B、特征數(shù)據(jù)歸一化有可能提高模型的精度

C、線性歸一化適用于特征數(shù)值分化比較大的情況

D、概率模型不需要做歸一化處理

答案:ABD

27.下列哪些是面向?qū)ο蠹夹g(shù)的特征包含()。

A、封裝

B、繼承

C、多態(tài)

D、分布性

答案:ABC

28.一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為()。

A、訓(xùn)練集

B、驗(yàn)證集

C、測(cè)試集

D、預(yù)處理集

答案:ABC

29.()是Spark比MapReduce計(jì)算快的原因。

A、基于內(nèi)存的計(jì)算

B、基于DAG的調(diào)度框架

C、基于Lineage的容錯(cuò)機(jī)制

D、基于分布式計(jì)算的框架

答案:ABC

30.ETL包含下列哪些過(guò)程()o

A、數(shù)據(jù)抽取

B、數(shù)據(jù)轉(zhuǎn)換

C、數(shù)據(jù)加載

D、數(shù)據(jù)展現(xiàn)

答案:ABC

31.下列選項(xiàng)中屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)有()。

A、上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)絡(luò)狀態(tài)

B、并行處理序列中所有信息

C、容易梯度爆炸/消失

D、易于搭建

答案:AC

32.pit.axhIine(y=0.0,c="r",Is="--",lw=2),對(duì)這句代碼說(shuō)法正確的是()。

A、在0.0處添加豎直參考線

B、添加水平參考線

C、參考線是虛線形式

D、網(wǎng)格線是紅色的

答案:BC

33.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括()。

A、最大池化函數(shù)

B、L2范數(shù)

C、相鄰矩形區(qū)域內(nèi)的平均值

D、基于據(jù)中心像素距離的加權(quán)平均函數(shù)

答案:ABCD

34.Spark的技術(shù)架構(gòu)可以分為哪幾層()。

A、資源管理層

B、Spark核心層

C、應(yīng)用層

D、服務(wù)層

答案:ABD

35.RNN在NLP領(lǐng)域的應(yīng)用包括()。

A、語(yǔ)言模型與文本生成

B、機(jī)器翻譯

C、語(yǔ)音識(shí)別

D、圖像描述生成

答案:ABCD

36.下列關(guān)于EM算法描述正確的是()。

A、EM算法是常用的估計(jì)參數(shù)隱變量的利器

B、EM算法即是期望最大化算法

C、EM算法常被用來(lái)學(xué)習(xí)高斯混合模型的參數(shù)

D、EM算法是一種迭代式的方法

答案:ABCD

37.循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式包含()。

A、多輸出

B、單輸出

C、同步多輸出

D、異步多輸出

答案:ABD

38.下列不屬于聚類(lèi)性能度量?jī)?nèi)部指標(biāo)的是()。

A、DB指數(shù)

B、Dunn指數(shù)

C、Jaccard系數(shù)

D、FM系數(shù)

答案:CD

39.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法,正確的是()。

A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量

B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性

C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的

D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為5的概率是最大的

答案:ABC

40.關(guān)于現(xiàn)階段大數(shù)據(jù)技術(shù)體系,說(shuō)法正確的是()。

A、基礎(chǔ)設(shè)施提供數(shù)據(jù)計(jì)算'數(shù)據(jù)存儲(chǔ)'數(shù)據(jù)加工(DataWrangling或DataMung

ing)等服務(wù)

B、數(shù)據(jù)流處理、統(tǒng)計(jì)工具、日志分析都屬于常用的開(kāi)源工具

C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機(jī)構(gòu)

D、數(shù)據(jù)源與App為數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內(nèi)容

答案:ABCD

41.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢(shì)分析、孤立點(diǎn)分析及()等方面。

A、關(guān)聯(lián)分析

B、分類(lèi)和預(yù)測(cè)

C、聚類(lèi)分析

D、偏差分析

答案:ABCD

42.以下屬于數(shù)據(jù)挖掘與分析工具的有()。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案:ABCD

43.許多功能更為強(qiáng)大的非線性模型可在線性模型基礎(chǔ)上通過(guò)引入()而得。

A、層級(jí)結(jié)構(gòu)

B、高維映射

C、降維

D、分類(lèi)

答案:AB

44.ETL技術(shù)主要涉及()操作。

A、抽取

B、轉(zhuǎn)換

C、加載

D、分析

答案:ABC

45.以下屬于頻率域圖像濾波的方法有()。

A、中值濾波

B、均值濾波

C、布特沃斯濾波

D、圖斯濾波

答案:CD

46.以下方法中可用于圖像分割的有()。

A、霍夫曼編碼

B、分水嶺算法

C、K-means

D、區(qū)域增長(zhǎng)法

答案:BCD

47.以下對(duì)模型性能提高有幫助的是()。

A、數(shù)據(jù)預(yù)處理

B、特征工程

C、機(jī)器學(xué)習(xí)算法

D、模型集成

答案:ABCD

48.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。

A、具有勞動(dòng)增值

B、涉及法律權(quán)屬

C、具有財(cái)務(wù)價(jià)值

D、涉及道德與倫理

答案:ABCD

49.對(duì)于決策樹(shù)的優(yōu)點(diǎn)描述,正確的是()。

A、可讀性強(qiáng)

B、分類(lèi)速度快

C、只用于回歸問(wèn)題

D、是無(wú)監(jiān)督學(xué)習(xí)

答案:AB

50.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一oHadoopMapReduce數(shù)據(jù)處理

過(guò)程涉及四個(gè)獨(dú)立的實(shí)體,包括()。

AvClient

B、JobTracker

CvTaskTracker

D、HDFS

答案:ABCD

51.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化—從集中式計(jì)算、分布式計(jì)

算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三

大技術(shù),這三大技術(shù)包括()。

A、HadoopYARN資源管理器

B、GFS分布式存儲(chǔ)系統(tǒng)

C\MapReduce分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫(kù)

答案:BCD

52.下面屬于可視化高維數(shù)據(jù)技術(shù)的是()。

A、矩陣

B、平行坐標(biāo)系

C、星形坐標(biāo)系

D、散布圖

答案:ABC

53.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢(shì)是()。

A、不需要做缺失值處理

B、不需要處理噪音

C、不需要做特征選擇

D、不需要平衡數(shù)據(jù)集

答案:ACD

54.回歸分析有很多種類(lèi),常見(jiàn)的有()。

A、線性回歸

B、系數(shù)回歸

G邏輯回歸

D、曲線回歸

答案:ACD

55.使用極大似然估計(jì)的前提條件有()。

A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型

B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集

C、提前已知某先驗(yàn)概率

D、數(shù)據(jù)集各個(gè)屬性相對(duì)獨(dú)立

答案:AB

56.基于Hadoop開(kāi)源大數(shù)據(jù)平臺(tái)主要提供了針對(duì)數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力,如

下屬于分布式存儲(chǔ)組件的有()。

A、MapReduce

B、Spark

GHDFS

D、HBase

答案:CD

57.TF-IDF的缺點(diǎn)包含()o

A、字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比

B、將一些生僻字誤當(dāng)作文檔關(guān)鍵詞

C、只考慮特征詞和文本之間的關(guān)系,忽略了一個(gè)特征項(xiàng)在不同類(lèi)別間的分布情

D、沒(méi)有考慮特征詞的位置因素對(duì)文本的區(qū)分度

答案:BCD

58.下面對(duì)范數(shù)規(guī)則化描述,正確的是()。

A、L0是指向量中0的元素的個(gè)數(shù)

B、L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和

C、L2范數(shù)向量元素絕對(duì)值的平方和再開(kāi)平方

D、L0是指向量中非0的元素的個(gè)數(shù)

答案:BCD

59.Pandas中主要的數(shù)據(jù)結(jié)構(gòu)是()。

A、Data

B、DataFrame

C、Frame

D、Series

答案:BD

60,若b=np.array([True,FaIse,FaIse]),以下能輸出[FaIseTrueTrue]的是

0o

A、print(b-1)

B、print(~b)

C、print(np.Iogical_not(b)

D、print(?b)

答案:BC

61.下面關(guān)于reduce函數(shù)功能描述正確的是()。

A、合并value值,形成較小集合

B、采用迭代器將中間值提供給reduce函數(shù)

C、map)函數(shù)處理后結(jié)果才會(huì)傳輸給reduce)

D、內(nèi)存中不會(huì)存儲(chǔ)大量的vaIue值

答案:ABCD

62.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案:AB

63.異常值的檢測(cè)方法有()。

A、直接通過(guò)數(shù)據(jù)可視化進(jìn)行觀察

B、通過(guò)統(tǒng)計(jì)分布進(jìn)行判斷

C、通過(guò)相對(duì)距離進(jìn)行度量

D、通過(guò)相對(duì)密度進(jìn)行度量

答案:ABCD

64.下列屬于描述gensim庫(kù)的特性的是()。

A、訓(xùn)練語(yǔ)料的預(yù)處理

B、主題向量的變換

C、文檔相似度的計(jì)算

D、文章切分詞語(yǔ)統(tǒng)計(jì)計(jì)算

答案:ABC

65.以下()是scipy.stats可實(shí)現(xiàn)的連續(xù)隨機(jī)變量方法。

A、rvs

B、pdf

C、ppf

D、cdf

答案:ABCD

66.特征選擇方法有()。

A、IC赤池信息準(zhǔn)則

B、LARS嵌入式特征選擇方法

C、LVW包裹式特征選擇方法

D\Relief過(guò)濾式特征選擇方法

答案:BCD

67.下列關(guān)于集合操作結(jié)果正確的有()。

A、name={'d','s'}nameadd('sd'),name值為:{‘sd','d','s'}

B\name={'sd',d','s'}nameremove('s'),name值為:{‘sd','d'}

C、name={'sd',d','s'}namecIear),name值為:{}

D\name={'sd',d','s'}nameupdate('dF),name值為:{‘sd','d',

s'j')

答案:ABC

68.Python中jieba庫(kù)的基本實(shí)現(xiàn)原理是什么()。

A、分析漢字與漢字之間的關(guān)聯(lián)幾率概率

B、分析漢字詞組的關(guān)聯(lián)幾率概率

C、根據(jù)用戶自定義的詞組進(jìn)行分析

D、還可以分析漢字與英文之間關(guān)聯(lián)幾率概率

答案:ABC

69.數(shù)據(jù)科學(xué)以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對(duì)象,主要研究?jī)?nèi)容包括()。

A、數(shù)據(jù)加工

B、數(shù)據(jù)管理

C、數(shù)據(jù)計(jì)算

D、數(shù)據(jù)產(chǎn)品開(kāi)發(fā)

答案:ABCD

70.在python中查看關(guān)鍵字,需要在Python解釋器中執(zhí)行()和()。這兩條

命令。

A、Iistkeyword

B\importkeyword

C、keyword

D\import.kwlist

答案:BC

71.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。

A、具有勞動(dòng)增值

B、涉及法律權(quán)屬

C、具有財(cái)務(wù)價(jià)值

D、涉及道德與倫理

答案:ABCD

72.以下說(shuō)法正確的是()。

A、條件獨(dú)立性假設(shè)不成立時(shí),樸素貝葉斯分類(lèi)器仍有可能產(chǎn)生最優(yōu)貝葉斯分類(lèi)

B、在估計(jì)概率值時(shí)使用的拉普拉斯修正避免了因訓(xùn)練集樣本不充分而導(dǎo)致概率

估值為零的問(wèn)題

C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速

度很快

D、二分類(lèi)任務(wù)中兩類(lèi)數(shù)據(jù)滿足高斯分布且方差相同時(shí),線性判別分析產(chǎn)生貝葉

斯最優(yōu)分類(lèi)器

答案:ABD

73.我們想要訓(xùn)練一個(gè)ML模型,樣本數(shù)量有100萬(wàn)個(gè),特征維度是5000,面對(duì)

如此大數(shù)據(jù),有效地訓(xùn)練模型可以采取的措施是()

A、對(duì)訓(xùn)練集隨機(jī)采樣,在隨機(jī)采樣的數(shù)據(jù)上建立模型

B、嘗試使用在線機(jī)器學(xué)習(xí)算法

C、使用PCA算法減少特征維度

D、-

答案:ABC

74.Spark中的ScheduIer模塊可以分為()。

A、DAGScheduIer

B、ResourceScheduIer

C、TaskScheduIer

D、JobScheduIer

答案:AC

75.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)()o

A、表結(jié)構(gòu)schema擴(kuò)展不方便

B、全文搜索功能較弱

C、大數(shù)據(jù)場(chǎng)景下I/O較高

D、存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱

答案:ABCD

76.ApacheFIume主要解決的是日志數(shù)據(jù)的收集和處理問(wèn)題,F(xiàn)lume的主要設(shè)計(jì)目

的和特征是()。

A、高可靠性

B、可擴(kuò)展性

C、管理復(fù)雜

D、不支持用戶自定義

答案:AB

77.循環(huán)神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用的場(chǎng)景有()。

A、語(yǔ)音識(shí)別

B、語(yǔ)音建模

C、機(jī)器翻譯

D、圖像識(shí)別

答案:ABC

78.RNN網(wǎng)絡(luò)的激活函數(shù)要選用雙曲正切而不是Sigmod的原因有()。

A、使用Sigmod函數(shù)容易出現(xiàn)梯度消失

B、Sigmod的導(dǎo)數(shù)形式較為復(fù)雜

C、雙曲正切更簡(jiǎn)單

D、Sigmoid函數(shù)實(shí)現(xiàn)較為復(fù)雜

答案:AB

79.完整性約束通常包括()

A、實(shí)體完整性

B、域完整性

C、參照完整性

D、用戶定義完整性

答案:ABCD

80.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。

A、完整性

B、可用性

C、不可否認(rèn)性

D、可審計(jì)性

答案:ABCD

81.Python的優(yōu)點(diǎn)有()o

A、變量不用預(yù)定義類(lèi)型

B、數(shù)據(jù)結(jié)構(gòu)功能強(qiáng)大

C、語(yǔ)言可解釋性強(qiáng)

D、變量類(lèi)型固定

答案:ABC

82.鑒別了多元共線特征,下一步可能的操作是()。

A、移除兩個(gè)共線變量

B、不移除兩個(gè)變量,而是移除一個(gè)

C、移除相關(guān)變量可能會(huì)導(dǎo)致信息損失,可以使用懲罰線性回歸模型(如ridge

或Iassoregression)

D、-

答案:BC

83.模塊可以分為以下的通用類(lèi)別包含()。

A、使用python編寫(xiě)的.py文件

B、已被編譯為共享庫(kù)或DLL的C或C++擴(kuò)展

C、把一系列模塊組織到一起的文件夾

D、使用C編寫(xiě)并鏈接到python解釋器的內(nèi)置模塊

答案:ABCD

84.關(guān)于梯度消失和梯度爆炸,以下說(shuō)法正確的是:(_)。

A、根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小

于1的話,那么即使這個(gè)結(jié)果是0.99,在經(jīng)過(guò)足夠多層傳播之后,誤差對(duì)輸入

層的偏導(dǎo)會(huì)趨于0

B、可以采用ReLU激活函數(shù)有效地解決梯度消失的情況

C、根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都大

于1的話,在經(jīng)過(guò)足夠多層傳播之后,誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于無(wú)窮大

D、可以通過(guò)減小初始權(quán)重矩陣的值來(lái)緩解梯度爆炸

答案:ABCD

85.數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下,不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道

的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括()。

A、精確性

B、可辨認(rèn)性

G可分離性

D、視覺(jué)突出性

答案:ABCD

86.以下()函數(shù)是累積函數(shù)。

A、cumsum

B、argmin

Cvumprod

Dvargmax

答案:AC

87.以下關(guān)于集成學(xué)習(xí)的說(shuō)法,正確的是()。

A\隨機(jī)森林是減少模型的方差,而GBDT是減少模型的偏差

B、組成隨機(jī)森林的樹(shù)可以并行生成,而GBDT是串行生成

C、隨機(jī)森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵樹(shù)累加之和

D、-

答案:ABC

88.在數(shù)據(jù)安全領(lǐng)域常用的P2DR模型中,P、D和R代表的是()。

A、策略

B、防護(hù)

C、檢)則

D、響應(yīng)

答案:ABCD

89.LSTM應(yīng)用場(chǎng)景有()。

A、翻譯語(yǔ)言

B、語(yǔ)音識(shí)別

C、圖像識(shí)別

D、股票預(yù)測(cè)

答案:ABD

90.相對(duì)于HadoopMapReduce,Spark的特點(diǎn)有()。

A、通用性

B、易用性

C、速度快

D、容錯(cuò)性

答案:ABC

91.對(duì)以下代碼說(shuō)法正確的是()。

A、該圖表是一個(gè)藍(lán)綠色的散點(diǎn)圖

B、圖表中有紅色實(shí)線的網(wǎng)格線

C、圖表中有圖例

D、該圖畫(huà)的是sin曲線

答案:CD

92.數(shù)據(jù)增值存在于哪些過(guò)程中()。

A、數(shù)據(jù)對(duì)象的封裝

B、數(shù)據(jù)系統(tǒng)的研發(fā)

C、數(shù)據(jù)的集成應(yīng)用

D、基于數(shù)據(jù)的創(chuàng)新

答案:ABCD

93.可能導(dǎo)致交叉檢驗(yàn)?zāi)P驮u(píng)估較差可能是由于()的原因?qū)е碌挠校ǎ?/p>

A、模型過(guò)擬合

B、模型欠擬合

C、模型過(guò)度復(fù)雜

D、模型過(guò)度簡(jiǎn)單

答案:ABCD

94.在選擇高斯函數(shù)作為核函數(shù)的支持向量機(jī)中,參數(shù)的選取會(huì)影響擬合的結(jié)果,

如果出現(xiàn)過(guò)擬合的現(xiàn)象,則導(dǎo)致該結(jié)果的原因有可能是()。

A、其他參數(shù)保持不變,C值過(guò)大

B、其他參數(shù)保持不變,C值較小

C、其他參數(shù)保持不變,。較大

D、其他參數(shù)保持不變,。較小

答案:AD

95.下面是Python注釋語(yǔ)句的是()。

A、'heIIo'

B、"'helIo'''

C、"helIo"

D、#

答案:BD

96.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法,正確的是()。

A、隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量

B、隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性

C、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的

D、扔5次硬幣,正面朝上次數(shù)的可能取值是0、1、2、3、4、5,其中正面朝上

次數(shù)為5的概率是最大的

答案:ABC

97.以下方法是tf-idf的變種的有()o

A、TFC

B、EWC

C、ITC

D、IG

答案:AC

98.常見(jiàn)的聚類(lèi)性能度量外部指標(biāo)有()。

A、Jaccard系數(shù)

B、DB指數(shù)

C、FM指數(shù)

D、以上答案都正確

答案:AC

99.聚類(lèi)性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo),其中屬于內(nèi)部指標(biāo)的是

。。

A、Jaccard指數(shù)

B、FM指數(shù)

GDB指數(shù)

D、unn指數(shù)

答案:CD

100.影響聚類(lèi)算法效果的主要原因有()。

A、特征選取

B、模式相似性測(cè)度

C、分類(lèi)準(zhǔn)則

D、已知類(lèi)別的樣本質(zhì)量

答案:ABC

101.下面哪些是Spark的組件()o

A、SparkStreaming

B、MLib

C、GraphX

D\SparkR

答案:ABC

102.下列關(guān)于AUC面積的描述,正確的是()。

A、UC被定義為ROC曲線下與坐標(biāo)軸圍成的面積

B、AUG面積的值大于1

C、AUC等于0.5時(shí),則真實(shí)性最低,無(wú)應(yīng)用價(jià)值

D、AUC越接近1.0,檢測(cè)方法真實(shí)性越高

答案:ACD

103.MapReduce對(duì)map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉

及哪些操作()。

A、合并

B、排序

C、分區(qū)

D、抽樣

答案:ABC

104.特征選擇的目的是()o

A、減少特征數(shù)量、降維

B、使模型泛化能力更強(qiáng)

C、增強(qiáng)模型擬合能力

D、減少過(guò)擬合。

答案:ABD

105.下面對(duì)LDA判別分析的思想描述,正確的是()。

A、同類(lèi)樣例的投影點(diǎn)盡可能近

B、異類(lèi)樣例的投影點(diǎn)盡可能遠(yuǎn)

C、同類(lèi)樣例的投影點(diǎn)盡可能遠(yuǎn)

D、異類(lèi)樣例的投影點(diǎn)盡可能近

答案:AB

106.列式數(shù)據(jù)庫(kù)(如BigTable和HBase)以表的形式存儲(chǔ)數(shù)據(jù),表結(jié)構(gòu)包括()

等元素。

A、關(guān)鍵字

B、時(shí)間戳

G列簇

D、數(shù)據(jù)類(lèi)型

答案:ABC

107.Numpy數(shù)組中將一個(gè)數(shù)組分割成多個(gè)小數(shù)組數(shù)組的分割函數(shù)包括()。

A、hspIitB

B、vspIitC

C、spIitD

Dvsplit

答案:ABCD

108.下列跟人工智能場(chǎng)景相關(guān)的是()。

A\圖像識(shí)別

B\人臉識(shí)別

C、語(yǔ)音識(shí)別

D、語(yǔ)義分析

答案:ABCD

109.以下選項(xiàng)中是正確的字符串有()。

A、'abc"ab"

B、‘a(chǎn)bc"ab'

C、“abc”ab”

D、“abc\"ab”

答案:BD

110.DGI定義的數(shù)據(jù)治理任務(wù)包括()。

A、數(shù)據(jù)質(zhì)量的評(píng)估

B、主動(dòng)定義或序化規(guī)則

C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)

D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題

答案:BCD

111.大數(shù)據(jù)偏見(jiàn)包括()。

A、數(shù)據(jù)源的選擇偏見(jiàn)

B、算法與模型偏見(jiàn)

C、結(jié)果解讀方法的偏見(jiàn)

D、數(shù)據(jù)呈現(xiàn)方式的偏見(jiàn)

答案:ABCD

112.關(guān)于Dropout說(shuō)法,正確的是()。

A、Dropout背后的思想其實(shí)就是把DNN當(dāng)作一個(gè)集成模型來(lái)訓(xùn)練,之后取所有

值的平均值,而不只是訓(xùn)練單個(gè)DNN

B、DNN網(wǎng)絡(luò)將Dropout率設(shè)置為p,也就是說(shuō),一個(gè)神經(jīng)元被保留的概率是1-p。

當(dāng)一個(gè)神經(jīng)元被丟棄時(shí),無(wú)論輸入或者相關(guān)的參數(shù)是什么,它的輸出值就會(huì)被設(shè)

置為0

C、丟棄的神經(jīng)元在訓(xùn)練階段,對(duì)BP算法的前向和后向階段都沒(méi)有貢獻(xiàn)。由于這

個(gè)原因,每一次訓(xùn)練它都像是在訓(xùn)練一個(gè)新的網(wǎng)絡(luò)

D\ropout方法通常和L2正則化或者其他參數(shù)約束技術(shù)(比如MaxNorm)一起使

用,來(lái)防止神經(jīng)網(wǎng)絡(luò)的過(guò)擬合

答案:ABCD

113.下列場(chǎng)景適合使用Python的是()。

A、可作為腳本語(yǔ)言,快速編寫(xiě)小型程序、腳本等

B、可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域

C、可作為膠水語(yǔ)言,整合如C++等語(yǔ)言代碼

D\Python適用于低延時(shí)'高利用率的應(yīng)用場(chǎng)景

答案:ABC

114.關(guān)于Hive的說(shuō)法正確的是()。

A、Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具

B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表

C、最初,Hive由Google開(kāi)源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計(jì)問(wèn)題

D、Hive的主要應(yīng)用場(chǎng)景是離線分析

答案:ABD

115.下列關(guān)于詞袋模型說(shuō)法正確的是()。

A、詞袋模型可以忽略每個(gè)詞出現(xiàn)的順序

B、詞袋模型不可以忽略每個(gè)詞出現(xiàn)的順序

C\TensorFIow支持詞袋模型

D、詞袋模型可以表出單詞之間的前后關(guān)系

答案:AC

116.下列關(guān)于密度聚類(lèi)說(shuō)法,錯(cuò)誤的是()。

A、DBSCAN是一種著名的密度聚類(lèi)算法

B、密度聚類(lèi)從樣本數(shù)量的角度來(lái)考察樣本之間的可連接性

C、密度聚類(lèi)基于不可連接樣本不斷擴(kuò)展聚類(lèi)簇,以獲得最終的聚類(lèi)結(jié)果

D、密度直達(dá)關(guān)系通常滿足對(duì)稱(chēng)性

答案:BCD

117.數(shù)據(jù)挖掘算法的組件包括()。

A、模型或模型結(jié)構(gòu)

B、評(píng)分函數(shù)

C、優(yōu)化和搜索方法

D、數(shù)據(jù)管理策略

答案:ABCD

118.Python中jieba庫(kù)支持哪幾種模式為()。

A、精準(zhǔn)模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案:ACD

119.下列關(guān)于特征的稀疏性說(shuō)法,正確的是()。

A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)

B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開(kāi)銷(xiāo)

C、學(xué)習(xí)任務(wù)難度可能有所降低

D、稀疏矩陣沒(méi)有高效的存儲(chǔ)方法

答案:ABC

120.以下屬于規(guī)則的分詞方法的是()。

A、正向最大匹配法

B、逆向最大匹配法

C、雙向最大匹配法

D、條件隨機(jī)場(chǎng)

答案:ABC

121.以下()是一元通用函數(shù)。

A、np.add)

B\np.maximum)

C、np.exp)

D\np.sqrt)

答案:CD

122.我們想要減少數(shù)據(jù)集中的特征數(shù)即降維,以下方案合適的是()。

A、使用前向特征選擇方法

B、使用后向特征排除方法

C、我們先把所有特征都使用,去訓(xùn)練一個(gè)模型,得到測(cè)試集上的表現(xiàn)。然后我

們?nèi)サ粢粋€(gè)特征,再去訓(xùn)練,用交叉驗(yàn)證看看測(cè)試集上的表現(xiàn)。如果表現(xiàn)比原來(lái)

還要好,我們可以去除這個(gè)特征

D、查看相關(guān)性表,去除相關(guān)性最高的一些特征

答案:ABCD

123.在Spark的基本流程中,主要涉及()。

A、DriverProgram

B、CIusterManager

C、WorkerNode

D\Executor

答案:ABCD

124.以下關(guān)于HBase說(shuō)法正確的是()。

A、面向列的數(shù)據(jù)庫(kù)

B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)

C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫(xiě)

D、采用松散數(shù)據(jù)模型

答案:ABCD

125.下列說(shuō)法中正確的是()o

A、云計(jì)算的主要特點(diǎn)是非常昂貴

B、大數(shù)據(jù)是多源、異構(gòu)'動(dòng)態(tài)的復(fù)雜數(shù)據(jù),即具有4V特征的數(shù)據(jù)

C、大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究對(duì)象之一

D、MapReduce是采用云計(jì)算這種新的計(jì)算模式研發(fā)出的具體工具軟件(或算法)

答案:BCD

126.()是Spark比MapReduce計(jì)算快的原因。

A、基于內(nèi)存的計(jì)算

B、基于DAG的調(diào)度框架

C、基于Lineage的容錯(cuò)機(jī)制

D、基于分布式計(jì)算的框架

答案:ABC

127.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法,正確的是()。

A、在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.s()實(shí)現(xiàn)

B、單樣本Z檢驗(yàn)適用于樣本量較大的情況

C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布

D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量

答案:BCD

128.下列屬于CNN關(guān)鍵層的是()o

A、輸入層

B、卷積層

C、激活層

D、池化層

答案:ABCD

129.在正則化公式中,入為正則化參數(shù),關(guān)于人的描述正確的是()。

A、若正則化參數(shù)人過(guò)大,可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象

B、若入的值太大,則梯度下降可能不收斂

C、取一個(gè)合理的人值,可以更好地應(yīng)用正則化

D、如果令人的值很大的話,為了使CostFunction盡可能的小,所有6的值(不

包括eo)都會(huì)在一定程度上減小

答案:ABCD

130.下列有關(guān)MapReduce計(jì)算框架的描述正確的是()。

A、MapReduce可以計(jì)算任務(wù)的劃分和調(diào)度

B、MapReduce可完成數(shù)據(jù)的分布存儲(chǔ)和劃分

CvMapReduce可以實(shí)現(xiàn)處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測(cè)和失效恢復(fù)

DvMapReduce可實(shí)現(xiàn)處理數(shù)據(jù)與計(jì)算任務(wù)的同步

答案:ABCD

131.以下關(guān)于MapReducel.0版本說(shuō)法正確的是()。

A、擴(kuò)展性差

B、可靠性差

C、資源利用率低

D、無(wú)法支持多種計(jì)算框架

答案:ABCD

132.HighBias(高偏差)的解決方案有()。

A、Boosting

B、復(fù)雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)

G更多特征

D、-

答案:ABC

133.常用的數(shù)據(jù)審計(jì)方法可以分為()。

A、預(yù)定義審計(jì)

B、自定義審計(jì)

C、可視化審計(jì)

D、結(jié)構(gòu)化審計(jì)

答案:ABC

134.以下關(guān)于HTML標(biāo)簽嵌套規(guī)則的說(shuō)法,正確的是()。

A、塊元素可以包含內(nèi)聯(lián)元素或某些塊元素,但內(nèi)聯(lián)元素也可以包含塊元素

B、HTML標(biāo)簽包括塊級(jí)元素和內(nèi)嵌元素

C、內(nèi)嵌元素一般用在網(wǎng)站內(nèi)容之中的某些細(xì)節(jié)或部位,用以“強(qiáng)調(diào)區(qū)分樣式上

標(biāo)下標(biāo)錨點(diǎn)”等,通常包括:aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIs

pansubttuvar等

D、其中塊級(jí)元素一般用來(lái)搭建網(wǎng)絡(luò)架構(gòu)布局承載內(nèi)容,通常包括的標(biāo)簽有:ad

dressdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI

答案:BCD

135.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化—從集中式計(jì)算、分布式計(jì)

算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三

大技術(shù),這三大技術(shù)包括()。

A、HadoopYRN資源管理器

B、GFS分布式存儲(chǔ)系統(tǒng)

C\MapRedue分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫(kù)

答案:BCD

136.在Python中,以下導(dǎo)入模塊方式正確的是()。

A、import模塊名

B、import模塊名as模塊的別名

C\from模塊名import函數(shù)名

D\from模塊名import函數(shù)名A,函數(shù)名B

答案:ABCD

137.下面定義函數(shù)正確的是()。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、efcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案:AB

138.字典的遍歷正確的有()o

A、forin變量i,字典:使用i遍歷所有的鍵,有鍵就可以通過(guò)變量訪問(wèn)其值

B、for變量iin字典:使用i遍歷所有的鍵,有鍵就可以通過(guò)變量訪問(wèn)其值

C\for變量i,變量jin字典items):使用變量i遍歷所有鍵,通過(guò)變量j遍

歷所有值

D、forin變量i,變量j字典items):使用變量i遍歷所有鍵,通過(guò)變量j遍歷

所有值

答案:BC

139.與自然語(yǔ)言處理相關(guān)的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的

區(qū)別是()。

A、Jieba專(zhuān)注于中文分詞操作

B、NLTK主要用于一般自然語(yǔ)言處理任務(wù)(標(biāo)記化,P0S標(biāo)記,解析等)

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、Scikit-learn為機(jī)器學(xué)習(xí)提供了一個(gè)大型庫(kù),其中包含了用于文本預(yù)處理的

工具,例如詞頻-逆文檔頻率特征提?。═fidfVectorizer)等。

答案:ABCD

140.下面屬于范數(shù)規(guī)則化的作用的是()。

A、保證模型盡可能的簡(jiǎn)單,避免過(guò)擬合

B、約束模型特征

C、最小化問(wèn)題

D、最大化問(wèn)題

答案:AB

141.以下關(guān)于L1和L2范數(shù)的描述,正確的是()。

A、L1范數(shù)為x向量各個(gè)元素絕對(duì)值之和。

B、L2范數(shù)為x向量各個(gè)元素平方和的1/2次方,L2范數(shù)又稱(chēng)Euclidean范數(shù)或

Frobenius范數(shù)

C、L1范數(shù)可以使權(quán)值稀疏,方便特征提取

D、L2范數(shù)可以防止過(guò)擬合,提升模型的泛化能力。

答案:ABCD

142.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型。該模型主要預(yù)測(cè)下期臺(tái)區(qū)

工單數(shù)量,構(gòu)建搶修熱點(diǎn)。以下模型算法構(gòu)建步驟中合理的順序是()。

A、將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣,生成N個(gè)訓(xùn)練樣本集

B、將N個(gè)訓(xùn)練樣本集分別做決策樹(shù),生成N棵決策樹(shù)

C、將N棵決策樹(shù)隨機(jī)構(gòu)成隨機(jī)森林

D、未來(lái)根據(jù)預(yù)測(cè)樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)行隨機(jī)森林決策投票,

得出針對(duì)該預(yù)測(cè)樣本最優(yōu)的決策樹(shù)進(jìn)行運(yùn)算,并計(jì)算出最終結(jié)果。

答案:ABCD

143.預(yù)剪枝使得決策樹(shù)的很多分子都沒(méi)有展開(kāi),會(huì)導(dǎo)致()。

A、顯著減少訓(xùn)練時(shí)間開(kāi)銷(xiāo)

B、顯著減少測(cè)試時(shí)間開(kāi)銷(xiāo)

C、降低過(guò)擬合風(fēng)險(xiǎn)

D、提高欠擬合風(fēng)險(xiǎn)

答案:ABCD

144.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成()或()

在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。

A、文字

B、圖形

C、圖像

D、視頻

答案:BC

145.下列屬于TF-IDF的應(yīng)用有()o

A、搜索引擎

B、關(guān)鍵詞提取

C、文本相似性

D、數(shù)據(jù)降維

答案:ABC

146.集成學(xué)習(xí)中增強(qiáng)多樣性的常見(jiàn)做法有()。

A、數(shù)據(jù)樣本擾動(dòng)

B、輸入屬性擾動(dòng)

C、輸出表示擾動(dòng)

D、算法參數(shù)擾動(dòng)

答案:ABCD

147.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分()。

A、卷積層

B、中間層

C、池化層

D、全連接層

答案:ACD

148.可作為決策樹(shù)選擇劃分屬性的參數(shù)是()。

A、信息增益

B、增益率

C、基尼指數(shù)

D\密度函數(shù)

答案:ABC

149.假設(shè)目標(biāo)遍歷的類(lèi)別非常不平衡,即主要類(lèi)別占據(jù)了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在

你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度,那么下面說(shuō)法正確的是()。

A、準(zhǔn)確度并不適合衡量不平衡類(lèi)別問(wèn)題

B、準(zhǔn)確度適合衡量不平衡類(lèi)別問(wèn)題

C、精確度和召回率適合于衡量不平衡類(lèi)別問(wèn)題

D、精確度和召回率不適合衡量不平衡類(lèi)別問(wèn)題

答案:AC

150.DGI定義的數(shù)據(jù)治理任務(wù)包括()。

A、數(shù)據(jù)質(zhì)量的評(píng)估

B、主動(dòng)定義或序化規(guī)則

C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)

D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題

答案:BCD

151.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化—從集中式計(jì)算,分布式計(jì)

算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過(guò)渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三

大技術(shù),這三大技術(shù)包括()。

A、HadoopYRN資源管理器

B、GFS分布式存儲(chǔ)系統(tǒng)

C\MapRedue分布式處理技術(shù)

D、BigTable分布式數(shù)據(jù)庫(kù)

答案:BCD

152.()是通過(guò)對(duì)無(wú)標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來(lái)進(jìn)行分類(lèi)的。

A、密度估計(jì)

B、異常檢測(cè)

G線性回歸

D、聚類(lèi)分析

答案:ABD

153.以下()屬于數(shù)據(jù)統(tǒng)計(jì)分析工具。

A、Weka

B、SAS

C、SPSS

D\MatIab

答案:ABCD

154.決策樹(shù)的劃分選擇有()。

A、增益系數(shù)

B、信息增益

C、增益率

D、基尼系數(shù)

答案:BCD

155.下面是Python的特點(diǎn)和優(yōu)點(diǎn)是()。

A、解釋性強(qiáng)

B、使用動(dòng)態(tài)特性

C、面向?qū)ο?/p>

D、語(yǔ)法簡(jiǎn)潔

答案:ABCD

156.以下屬于漢語(yǔ)未登錄詞的類(lèi)型的有()。

A、存在于詞典但出現(xiàn)頻率較少的詞

B、新出現(xiàn)的普通詞匯

C、專(zhuān)有名詞

D、專(zhuān)業(yè)名詞和研究領(lǐng)域名稱(chēng)

答案:BCD

157.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是

()。

A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才

會(huì)被承認(rèn)的

B、希望推翻的結(jié)論,希望證明的結(jié)論

C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才

會(huì)被承認(rèn)的

D、希望證明的結(jié)論,希望推翻的結(jié)論

答案:BC

158.聚類(lèi)性能度量外部指標(biāo)包括()。

A、Jaccard系數(shù)

B、FM指數(shù)

C\Dunn指數(shù)

D、Rand指數(shù)

答案:ABD

159.以下可用于處理由于光照不均帶來(lái)的影響的圖像處理方法有()。

A、同態(tài)濾波

B、頂帽變換

C、基于移動(dòng)平均的局部閾值處理

D、拉普拉斯算子

答案:ABC

160.圖像識(shí)別的一般步驟包括()。

A、預(yù)處理

B、特征提取

C、超像素生成

D、識(shí)別分類(lèi)

答案:ABD

161.關(guān)于降維說(shuō)法正確的是()。

A、PA是根據(jù)方差這一屬性降維的

B、降維可以防止模型過(guò)擬合

C、降維降低了數(shù)據(jù)集特征的維度

D、降維方法有PLA等

答案:ACD

162.按照涉及自變量的多少,可以將回歸分析分為()。

A、線性回歸分析

B、非線性回歸分析

C、一元回歸分析

D、多元回歸分析

答案:CD

163.特征向量的缺失值處理:缺失值較多,直接將該特征舍棄掉,否則可能反倒

會(huì)帶入較大的noise,對(duì)結(jié)果造成不良影響;缺失值較少,其余的特征缺失值都

在10%以?xún)?nèi),我們可以采取的處理方式有()。

A、把NaN直接作為一個(gè)特征,假設(shè)用0表示

B、用均值填充

C、用隨機(jī)森林等算法預(yù)測(cè)填充

D、以上答案都不正確

答案:ABC

164.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說(shuō)法正確的是()。

A、歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)

B、歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理

C、歸納學(xué)習(xí)不需要先驗(yàn)知識(shí)

D、訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗

答案:ABCD

165.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤

叫()。

A、a錯(cuò)誤

B、B錯(cuò)誤

c、取偽錯(cuò)誤

D、棄真錯(cuò)誤

答案:BC

166.如將A、B、C三個(gè)分類(lèi)器的PR曲線畫(huà)在一個(gè)圖中,其中A、B的PR曲線可

以完全包含住C的PR曲線,A與B的PR曲線有交點(diǎn),A、B、C的平衡點(diǎn)分別為

0.79、0.66、0.58,以下說(shuō)法中正確的是()。

A、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器C

B、學(xué)習(xí)器A的性能優(yōu)于學(xué)習(xí)器B

C、學(xué)習(xí)器B的性能優(yōu)于學(xué)習(xí)器C

D、學(xué)習(xí)器C的性能優(yōu)于學(xué)習(xí)器B

答案:ABC

167.以下屬于數(shù)據(jù)挖掘與分析工具的有()。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案:ABCD

168.數(shù)據(jù)挖掘的挖掘方法包括()。

A、聚類(lèi)

B\回歸分析

C、神經(jīng)網(wǎng)絡(luò)

D、決策樹(shù)算法

答案:ABCD

169.Pandas中刪除列的方式是()□

A、df.drop(["列名,axis=1)

B\df.drop(coIumns=["列名"])

C\df.drop([0,1])

D\f.drop([0])

答案:AB

170.常用的數(shù)據(jù)審計(jì)方法可以分為()。

A、預(yù)定義審計(jì)

B、自定義審計(jì)

C、可視化審計(jì)

D、結(jié)構(gòu)化審計(jì)

答案:ABC

171.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類(lèi)型產(chǎn)品的本質(zhì)特征,表現(xiàn)在()

方面。

A、數(shù)據(jù)驅(qū)動(dòng)

B、數(shù)據(jù)密集型

C、數(shù)據(jù)范式

D、數(shù)據(jù)可視化

答案:ABC

172.主要面向或關(guān)注“過(guò)去”的數(shù)據(jù)分析過(guò)程為()。

A、描述性分析

B、診斷性分析

C、預(yù)測(cè)性分析

D、規(guī)范性分析

答案:AB

173.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是()。

A、樸素貝葉斯

B、隱馬爾科夫模型

C、線性回歸模型

D\深度信念網(wǎng)絡(luò)

答案:ABD

174.下列關(guān)于探索型數(shù)據(jù)分析常用圖表的說(shuō)法,正確的有()。

A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對(duì)

B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點(diǎn)圖、

箱型圖等

C、在探索型數(shù)據(jù)分析時(shí)應(yīng)該盡量避免使用餅圖,然而在數(shù)據(jù)報(bào)告中可以使用餅

圖達(dá)到更加美觀的效果

D、直方圖和箱型圖都可以用來(lái)展示數(shù)據(jù)的分布情況

答案:BCD

175.決策樹(shù)在()情況下會(huì)導(dǎo)致遞歸返回。

A、當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類(lèi)

B、當(dāng)前屬性集為空

C、當(dāng)前節(jié)點(diǎn)包含的樣本集合為空

D、所有樣本在所有屬性上取值相同

答案:ABCD

176.Analytics1.0的主要特點(diǎn)有()。

A、分析活動(dòng)滯后于數(shù)據(jù)的生成

B、重視結(jié)構(gòu)化數(shù)據(jù)的分析

C、以對(duì)歷史數(shù)據(jù)的理解為主要目的

D、注重描述性分析

答案:ABCD

177.回歸分析有很多種類(lèi),常見(jiàn)的有()。

A、線性回歸

B、系數(shù)回歸

G邏輯回歸

D、曲線回歸

答案:ACD

178.以下()是scipy中的模塊。

A、cIuster

B\constants

C、integrate

D、io

答案:ABCD

179.決策樹(shù)遞歸停止的條件為()。

A、訓(xùn)練數(shù)據(jù)集使用完

B、所有的類(lèi)標(biāo)簽完全相同

C、特征用完

D、遇到丟失值

答案:BC

180.下面屬于范數(shù)規(guī)則化的作用的是()。

A、保證模型盡可能的簡(jiǎn)單,避免過(guò)擬合

B、約束模型特征

C、最小化問(wèn)題

D、最大化問(wèn)題

答案:AB

181.下列既可以用于分類(lèi),又可以用于回歸的機(jī)器學(xué)習(xí)算法有()。

A\k近鄰

B、邏輯回歸

C、決策樹(shù)

D、線性回歸

答案:AC

182.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是()。

A、os

B、sys

C、numpy

D、re

答案:ABD

183.語(yǔ)音識(shí)別的方法包括0o

A、聲道模型方法

B、模板匹配的方法

C、利用人工神經(jīng)網(wǎng)絡(luò)的方法

D、語(yǔ)音知識(shí)方法

答案:ABCD

184.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()

A、精神世界

B、數(shù)據(jù)世界

C、物理世界

D、數(shù)字世界

答案:ABC

185.Spark提交工作的方式()。

AvClient

B、CIuster

C、StandaIone

D、YARN

答案:AB

186.下面導(dǎo)入模塊正確的是()。

A、importnumpy

B、importnumpyasnp

C、frommatpIotIibimportpypIot

DvfrommatpIotIibimportpypIotasp11

答案:ABCD

187.SparkRDD的依賴(lài)機(jī)制包括O。

A、寬依賴(lài)

B、深度依賴(lài)

C、廣度依賴(lài)

D、窄依賴(lài)

答案:AD

188.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為“偽"但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤

叫()。

A、a錯(cuò)誤

B、B錯(cuò)誤

C、取偽錯(cuò)誤

D、棄真錯(cuò)誤

答案:BC

189.下列關(guān)于自然語(yǔ)言處理中的關(guān)鍵詞提取的說(shuō)法,正確的是()。

A、關(guān)鍵詞提取是指用人工方法提取文章關(guān)鍵詞的方法

B、TF-IDF模型是關(guān)鍵詞提取的經(jīng)典方法

C、文本中出現(xiàn)次數(shù)最多的詞最能代表文本的主題

D、這個(gè)問(wèn)題涉及數(shù)據(jù)挖掘、文本處理'信息檢索等領(lǐng)域

答案:BD

190.下列關(guān)于深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)的說(shuō)法,正確的是()。

A、深度學(xué)習(xí)強(qiáng)調(diào)模型深度

B、深度學(xué)習(xí)突出特征學(xué)習(xí)的重要性:特征變換+非人工

C、沒(méi)有區(qū)別

D、以上答案都不正確

答案:AB

191.Hadoop中map輸出結(jié)果說(shuō)法正確的是()。

A、<key,value〉鍵值對(duì)

B、輸出中間臨時(shí)結(jié)果

C、輸出最終計(jì)算結(jié)果

D、輸出結(jié)果永久保留

答案:AB

192.數(shù)據(jù)故事化描述應(yīng)遵循的基本原則是()。

A、忠于原始數(shù)據(jù)原則

B、設(shè)定共同場(chǎng)景原則

C、有效性利用原則

D、3c精神原則

答案:ABCD

193.以下算法中可以應(yīng)用于圖像分割的是()。

A、邊緣檢測(cè)技術(shù)

B、閾值分割技術(shù)

C、基于區(qū)域的分割技術(shù)

D、區(qū)域生長(zhǎng)方法

答案:ABCD

194.統(tǒng)計(jì)模式分類(lèi)問(wèn)題中,當(dāng)先驗(yàn)概率未知時(shí),可以使用()。

A、最小最大損失準(zhǔn)則

B、最小誤判概率準(zhǔn)則

C、最小損失準(zhǔn)則

D、N-P判決

答案:AD

195.請(qǐng)問(wèn)下面哪些是離散型變量()。

A、示波器

B、心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測(cè)量

C、過(guò)去數(shù)月的總銷(xiāo)售額

D、公司每年的紅利

答案:CD

196.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0

附近的濾波器有()。

A、同態(tài)濾波

B、圖斯濾波

C、巴特沃斯濾波

D、中值濾波

答案:BC

197.決策樹(shù)的劃分選擇有()。

A、增益系數(shù)

B、信息增益

C、增益率

D、基尼系數(shù)

答案:BCD

198.圖像壓縮是建立在圖像存在()幾種冗余之上。

A、編程冗余

B、像素間冗余

C、心理視覺(jué)冗余

D、計(jì)算資源冗余

答案:ABC

199.下列方法中,屬于詞語(yǔ)情感分析的方法有()。

A、基于網(wǎng)絡(luò)的分析方法

B、基于word-embedding的分析方法

C、基于詞典的分析方法

D、基于詞頻的分析方法

答案:AC

200.Numpy中計(jì)算數(shù)組的標(biāo)準(zhǔn)差和方差的函數(shù)是()。

A、std)

B、diff)

C\exp)

D\var)

答案:AD

201.Spark的技術(shù)架構(gòu)可以分為哪幾層()。

A、資源管理層

B、Spark核心層

C、應(yīng)用層

D、服務(wù)層

答案:ABD

202.以下關(guān)于神經(jīng)網(wǎng)絡(luò)模型描述正確的是()。

A、神經(jīng)網(wǎng)絡(luò)模型是許多邏輯單元按照不同層級(jí)組織起來(lái)的網(wǎng)絡(luò),每一層的輸出

變量都是下一層的輸入變量

B、神經(jīng)網(wǎng)絡(luò)模型建立在多神經(jīng)元之上

C、神經(jīng)網(wǎng)絡(luò)模型中,無(wú)中間層的神經(jīng)元模型的計(jì)算可用來(lái)表示邏輯運(yùn)算

D、神經(jīng)網(wǎng)絡(luò)模型一定可以解決所有分類(lèi)問(wèn)題

答案:ABC

203.類(lèi)的特點(diǎn)有()o

A、封裝

B、繼承

C、多態(tài)

D、重復(fù)

答案:ABC

204.下列方法中,可以用于特征降維的方法包括()。

A、主成分分析PCA

B、線性判別分析LDA

G深度學(xué)習(xí)SparseAutoEncoder

D、矩陣奇異值分解SVD

答案:ABD

205.處理圖像平滑處理的濾波有()。

A、盒式濾波

B、均值濾波

C、圖斯濾波

D、中值濾波

答案:ABCD

206.關(guān)于相關(guān)與線性關(guān)系,下列說(shuō)法正確的是()

A、相關(guān)不一定是線性關(guān)系,可能是非線性關(guān)系

B、相關(guān)一定是線性關(guān)系,不可能是非線性關(guān)系

C、相關(guān)時(shí)若有相關(guān)系數(shù)r為0,說(shuō)明兩個(gè)變量之間不存在線性關(guān)系,仍可能存

在非線性關(guān)系

D、相關(guān)系數(shù)為0是兩個(gè)變量獨(dú)立的必要不充分條件

答案:ACD

207.關(guān)于CAP理論說(shuō)法正確的是()。

A、一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性,可用性和分區(qū)容錯(cuò)性等需求

B、一致性主要指強(qiáng)一致性

C、一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證(爭(zhēng)取)可能導(dǎo)致另

一個(gè)特征的損失(放棄)

D、可用性指每個(gè)操作總是在“給定時(shí)間”之內(nèi)得到返回“所需要的結(jié)果”

答案:ABCD

208.常見(jiàn)的聚類(lèi)性能度量外部指標(biāo)有()。

A、Jaccard系數(shù)

B、DB指數(shù)

C、FM指數(shù)

D、以上答案都正確

答案:AC

209.在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是()。

A、深度優(yōu)先遍歷策略

B、廣度優(yōu)先遍歷策略

C、高度優(yōu)先遍歷策略

D、反向鏈接策略

答案:AB

210.下列關(guān)于情感分析的說(shuō)法正確的是()。

A、簡(jiǎn)單而言,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)

B、情感分析的發(fā)展得益于社交媒體的興起

C、按照處理文本的粒度不同,情感分析大致可分為詞語(yǔ)級(jí)、句子級(jí)、篇章級(jí)三個(gè)

D、情感分析可以應(yīng)用于文本挖掘

答案:ABCD

211.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),零假設(shè)是(),備擇假設(shè)是

()。

A、只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率大于閾值才

會(huì)被承認(rèn)的

B、希望推翻的結(jié)論,希望證明的結(jié)論

C、只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的,只有零假設(shè)出現(xiàn)的概率小于閾值才

會(huì)被承認(rèn)的

D、希望證明的結(jié)論,希望推翻的結(jié)論

答案:BC

212.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中,正確的是()。

A、可用于處理時(shí)間序列數(shù)據(jù)

B、可用于處理圖像數(shù)據(jù)

C、卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算

D、至少在網(wǎng)絡(luò)的一層中使用卷積

答案:ABD

213.在Python中,執(zhí)行importdatetimeasdt語(yǔ)句后,如下下列時(shí)間或日期定義

方式正確的是()。

A、dt.datetime(2019,12,12,23,23,23)

B、dt.datetime(2019,0,0,23,23,23)

C\dt.datetime(2019,12,12,0)

D、1.1ime(23,23,23)

答案:AC

214.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動(dòng)包括()。

A、模式/模型的應(yīng)用及維護(hù)

B、模式/模型的洞見(jiàn)

C、結(jié)果的可視化與文檔化

D、模式/模型的驗(yàn)證和優(yōu)化

答案:ABCD

215.0是Hadoop運(yùn)行的模式。

A、單機(jī)版

B、偽分布式

C、分布式

D、全分布式

答案:ABC

216.列式數(shù)據(jù)庫(kù)(如BigTable和HBase)以表的形式存儲(chǔ)數(shù)據(jù),表結(jié)構(gòu)包括()

等元素。

A、關(guān)鍵字

B、時(shí)間戳

G列簇

D、數(shù)據(jù)類(lèi)型

答案:ABC

217.Python邏輯表達(dá)式中,()會(huì)導(dǎo)致邏輯短路,即不會(huì)繼續(xù)向下推算而直接

返回結(jié)果。

A、FaIse開(kāi)頭的and語(yǔ)句

B\FaIse開(kāi)頭的or語(yǔ)句

C\True開(kāi)頭的and語(yǔ)句

D、True開(kāi)頭的or語(yǔ)句

答案:AD

218.下面關(guān)于機(jī)器學(xué)習(xí)的理解,正確的是()。

A、非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的

B、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)據(jù)帶標(biāo)簽

C、強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對(duì)模型的反饋

D、卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的數(shù)據(jù)

答案:BCD

219.不屬于使用池化層相比于相同步長(zhǎng)的卷積層的優(yōu)勢(shì)有()。

A、參數(shù)更少

B、可以獲得更大下采樣

G速度更快

D、有助于提升精度

答案:BCD

220.在監(jiān)督式學(xué)習(xí)中使用聚類(lèi)算法的方法有()。

A、首先,可以創(chuàng)建聚類(lèi),然后分別在不同的集群上應(yīng)用監(jiān)督式學(xué)習(xí)算法

B、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類(lèi)別ID作為特征空間中的一個(gè)額外的

特征

C、在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類(lèi)

D、在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類(lèi)別ID作為特征空間中的一個(gè)額外的

特征

答案:AB

221.以下描述中正確的是0o

A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

B、Python語(yǔ)言是統(tǒng)計(jì)學(xué)家發(fā)明的語(yǔ)言

C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域(子學(xué)科)

答案:AC

222.Spark支持的計(jì)算模型有()。

A、批處理

B、實(shí)時(shí)計(jì)算

C、機(jī)器學(xué)習(xí)模型

D、交互式查詢(xún)

答案:ABCD

223.一個(gè)回歸模型存在多重共線問(wèn)題,在不損失過(guò)多信息的情況下,可采取的措

施有()。

A、剔除所有的共線性變量

B、剔除共線性變量中的一個(gè)

C、通過(guò)計(jì)算方差膨脹因子(VariancelnflationFactor,VIF)來(lái)檢查共線性程

度,并采取相應(yīng)措施

D、刪除相關(guān)變量可能會(huì)有信息損失,我們可以不刪除相關(guān)變量,而使用一些正

則化方法來(lái)解決多重共線性問(wèn)題,例如Ridge或Lasso回歸

答案:BCD

224.以下選項(xiàng)中,不是Python語(yǔ)言保留字的是()。

A、do

B、pass

Cvexcept

DvuntiI

答案:AD

225.圖像分割中常使用的領(lǐng)域有()。

A、0鄰域

B、4鄰域

C、8鄰域

D、24鄰域

答案:BC

226.以下描述中屬于Analytics2.0的主要特點(diǎn)的是()。

A、側(cè)重嵌入式分析

B、重視非結(jié)構(gòu)化數(shù)據(jù)的分析

C、以決策支持為主要目的

D、注重解釋性分析和預(yù)測(cè)性分析

答案:BCD

227.下列選項(xiàng)中基于核的機(jī)器學(xué)習(xí)算法有()。

A、最大期望算法

B、徑向基核函數(shù)

C、線性判別分析法

D、支持向量機(jī)

答案:BCD

228.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證性分析方法的區(qū)別有()o

A、EDA需要事先提出假設(shè),而驗(yàn)證性分析不需要

B、EDA中采用的方法往往比驗(yàn)證性分析簡(jiǎn)單

C、在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分析在后

D、EDA更為簡(jiǎn)單、易學(xué)和易用

答案:BCD

229.從可視化處理視角看,可以將數(shù)據(jù)分為四個(gè)類(lèi)型()四個(gè)類(lèi)型并采用不同的

視覺(jué)映射方法。

A、定類(lèi)數(shù)據(jù)

B、定序數(shù)據(jù)

C、定距離數(shù)據(jù)

D、定比暑假

答案:ABCD

230.屬于特征選擇的優(yōu)點(diǎn)有()。

A、解決模型自身的缺陷

B、減少過(guò)擬合

C、提升模型的性能

D、增強(qiáng)模型的泛化能力

答案:BCD

231.Spark容錯(cuò)性的方式有哪些()。

A、數(shù)據(jù)檢查點(diǎn)

B、存儲(chǔ)原始數(shù)據(jù)

C、記錄數(shù)據(jù)的更新

D、自建數(shù)據(jù)版本

答案:AC

232.下列可以用來(lái)構(gòu)造神經(jīng)網(wǎng)絡(luò)的算法有()。

A、kNN

B、線性回歸

G邏輯回歸

D、-

答案:BC

233.Hadoop組件Zookeeper的設(shè)計(jì)目標(biāo)和主要特點(diǎn)包括()。

A、簡(jiǎn)單性

B、自我復(fù)制

C、順序訪問(wèn)

D、高速讀取

答案:ABCD

234.Pig說(shuō)法正確的是()o

A、彌補(bǔ)MapReduce編程復(fù)雜性

B\封裝MapReduce處理過(guò)程

C、PigLatin是一種數(shù)據(jù)分析語(yǔ)言

D、適用于并行處理

答案:ABCD

235.Python變量命名規(guī)則包含()。

A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開(kāi)頭,但不

能以數(shù)字開(kāi)頭。例如,可將變量命名為message」,但不能將其命名為1_messa

ge。

B、變量名不能包含空格,但可使用下劃線來(lái)分隔其中的單詞。例如,變量名gr

eeting_message可行,但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。

C\不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特

殊用途的單詞,如print。

D\變量名應(yīng)既簡(jiǎn)短又具有描述性。例如,name比n好,student_name比s_n

好,name_lengthbtIength_of_persons_name好。

答案:ABCD

236.以下跟圖像處理相關(guān)的是()。

A、圖像識(shí)別

B、人臉識(shí)別

C、視頻分析

D、自然語(yǔ)言處理

答案:ABC

237.關(guān)于總體和樣本的說(shuō)法,正確的是()。

A、總體也就是研究對(duì)象的全體

B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間隔10s抽

取的產(chǎn)品

C、樣本是從總體的隨機(jī)抽樣

D、如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級(jí)的100名學(xué)生

答案:ABC

238.深度學(xué)習(xí)方法不適用于的場(chǎng)景有()。

A、數(shù)據(jù)樣本充足

B、數(shù)據(jù)樣本不足

C、數(shù)據(jù)集具有局部相關(guān)特性

D、數(shù)據(jù)集沒(méi)有局部相關(guān)特性

答案:BD

239.在Windows系統(tǒng)中通過(guò)Geany編寫(xiě)Python程序,運(yùn)行Python程序的常用步

驟是()。

A、菜單Build>Execute

B、菜單Execute>BuiId

G按F5

D、按F10

答案:AC

240.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括()。

A、可分區(qū)

B、可序列化

C、可直接修改

D、可持久化

答案:ABD

241.下列哪些是RDBMS中事務(wù)遵循的原則()o

A、原子性(Atomicity)

B、一致性(Connsistency)

G隔離性(Isolation)

Dv持久性(DurabiIity)

答案:ABCD

242.Spark組件包含哪兩個(gè)算子()。

A、Map

B、Action

C、Transformation

D、Reduce

答案:BC

243.特征選擇的目的是()。

A、減少特征數(shù)量、降維

B、使模型泛化能力更強(qiáng)

C、增強(qiáng)模型擬合能力

D、減少過(guò)擬合。

答案:ABD

244.對(duì)于不同場(chǎng)景內(nèi)容,一般數(shù)字圖像可以分為()。

A、二值圖像

B、灰度圖像

C、彩色圖像

D、深度圖像

答案:ABC

245.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論