2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案

上傳人：燈*** IP屬地：河北上傳時(shí)間：2025-02-15 格式：PDF 頁數(shù)：75 大?。?7.22MB 積分：12 舉報(bào) 版權(quán)申訴

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第2頁

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第3頁

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第4頁

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第5頁

已閱讀5頁，還剩70頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)

考試題庫與答案

一、單選題

1.圖像平滑會(huì)造成什么效果？

A、圖像邊緣模糊化

B、圖像邊緣清晰化

C、無影響

D、以上答案都不正確

參考答案：A

2.在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)，哪種技術(shù)常用于提取有用

信息？

A.數(shù)據(jù)清洗

B.文本挖掘

C.數(shù)據(jù)聚合

D.統(tǒng)計(jì)分析

參考答案：B

3.在數(shù)據(jù)科學(xué)項(xiàng)目中，數(shù)據(jù)科學(xué)家如何驗(yàn)證模型的泛

化能力?

第1頁共75頁

A.在訓(xùn)練數(shù)據(jù)集上進(jìn)行測試

B.在驗(yàn)證數(shù)據(jù)集上進(jìn)行測試

C.在未見過的測試數(shù)據(jù)集上進(jìn)行測試

D.通過交叉驗(yàn)證

參考答案：C

4.在數(shù)據(jù)科學(xué)中，哪種方法常用于降維以減少數(shù)據(jù)的

復(fù)雜度？

A.標(biāo)準(zhǔn)化

B,正規(guī)化

C.主成分分析（PCA）

D.交叉驗(yàn)證

參考答案：C

5.以下哪個(gè)不是數(shù)據(jù)預(yù)處理階段的常見步驟？

A.數(shù)據(jù)清洗

B.數(shù)據(jù)集成

C.數(shù)據(jù)可視化

D.數(shù)據(jù)轉(zhuǎn)換

參考答案：C

6.在使用決策樹算法時(shí)，哪個(gè)參數(shù)可能導(dǎo)致模型過擬

第2頁共75頁

合？

A.樹的深度

B.最小樣本分割數(shù)

C.兩者都可能

D.兩者都不可能

參考答案：C

7.在數(shù)據(jù)倉庫中，數(shù)據(jù)集市(DataMart)與數(shù)據(jù)倉庫

的主要區(qū)別是什么？

A.數(shù)據(jù)集市包含的數(shù)據(jù)量更小

B.數(shù)據(jù)集市不需要ETL過程

C.數(shù)據(jù)集市是面向特定業(yè)務(wù)部門的

D.數(shù)據(jù)集市不支持復(fù)雜查詢

參考答案：C

8.以下哪個(gè)不是機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)算法？

A.K-最近鄰

B.決策樹

C.K-means聚類

D.邏輯回歸

參考答案：C

第3頁共75頁

9.在處理時(shí)間序列數(shù)據(jù)時(shí)，哪種方法常用于平滑數(shù)據(jù)

以減少噪聲？

A.移動(dòng)平均

B.傅里葉變換

C.標(biāo)準(zhǔn)化

D.決策樹

參考答案：A

10.在數(shù)據(jù)科學(xué)項(xiàng)目中，哪個(gè)步驟通常用于發(fā)現(xiàn)數(shù)據(jù)中

的隱藏模式或關(guān)系？

A.數(shù)據(jù)清洗

B.數(shù)據(jù)可視化

C.特征工程

D.建模與預(yù)測

參考答案：B

11.在數(shù)據(jù)科學(xué)項(xiàng)目中，特征選擇(FeatureSelection)

的主要目的是什么？

A.減少計(jì)算時(shí)間

B.提高模型的可解釋性

C.兩者都是

第4頁共75頁

D.兩者都不是

參考答案：C

12.以下哪個(gè)不是數(shù)據(jù)清洗(DataCleaning)過程中

可能遇到的挑戰(zhàn)？

A.缺失值處理

B.異常值檢測

C.數(shù)據(jù)加密

D.數(shù)據(jù)類型不一致

參考答案：C

13.以下哪個(gè)不是A/B測試中的關(guān)鍵要素？

A.實(shí)驗(yàn)組和對(duì)照組

B.假設(shè)檢驗(yàn)

C.數(shù)據(jù)可視化

D.樣本大小計(jì)算

參考答案：C

14.在進(jìn)行數(shù)據(jù)清洗時(shí)，處理異常值(outliers)的一

種常用方法是什么？

A.填充為中位數(shù)或眾數(shù)

B.刪除異常值所在的行或列

第5頁共75頁

C.使用插值法進(jìn)行填充

D.標(biāo)準(zhǔn)化或歸一化數(shù)據(jù)

參考答案：B

15.以下哪個(gè)不是數(shù)據(jù)挖掘的常用技術(shù)？

A.關(guān)聯(lián)規(guī)則挖掘

B.聚類分析

C.回歸分析

D.神經(jīng)網(wǎng)絡(luò)

參考答案：D

16.以下哪個(gè)不是bmeans聚類算法可能面臨的挑戰(zhàn)？

A.需要預(yù)先指定聚類數(shù)量（K值）

B.對(duì)初始聚類中心的選擇敏感

C.只能處理球形簇

D.無法處理大規(guī)模數(shù)據(jù)集

參考答案：D

17.以下哪個(gè)不是自然語言處理（NLP）中的任務(wù)？

A.情感分析

B.命名實(shí)體識(shí)別

第6頁共75頁

C.回歸分析

D.機(jī)器翻譯

參考答案：C

18.在數(shù)據(jù)科學(xué)項(xiàng)目中，A/B測試的結(jié)果如何統(tǒng)計(jì)上顯

著？

A.當(dāng)且僅當(dāng)實(shí)驗(yàn)組和對(duì)照組的差異在統(tǒng)計(jì)上顯著時(shí)

B.當(dāng)實(shí)驗(yàn)組的性能始終優(yōu)于對(duì)照組時(shí)

C.當(dāng)實(shí)驗(yàn)組的性能標(biāo)準(zhǔn)差小于對(duì)照組時(shí)

D.當(dāng)實(shí)驗(yàn)組的樣本數(shù)量大于對(duì)照組時(shí)

參考答案：A

19.在使用隨機(jī)森林進(jìn)行特征重要性評(píng)估時(shí)，哪個(gè)指標(biāo)

通常用于衡量特征的重要性？

A.特征在樹中出現(xiàn)的次數(shù)

B.特征在樹中作為分裂節(jié)點(diǎn)的平均增益

C.特征值的范圍

D.特征在數(shù)據(jù)集中的缺失率

參考答案：B

20.以下哪個(gè)不是數(shù)據(jù)清洗過程中可能遇到的挑戰(zhàn)？

A.缺失值處理

第7頁共75頁

B.異常值檢測與處理

C.數(shù)據(jù)整合與合并

D.數(shù)據(jù)加密與安全性(數(shù)據(jù)加密和安全性更多是關(guān)于

數(shù)據(jù)保護(hù)，而不是數(shù)據(jù)清洗的直接挑戰(zhàn))

參考答案：D

21.關(guān)于Spark的說法中，哪個(gè)是錯(cuò)誤的？

A、采用內(nèi)存計(jì)算模式

B、可利用多種語言編程

C、主要用于批處理

D、可進(jìn)行map()操作

參考答案：C

22.對(duì)數(shù)值型輸出，最常見的結(jié)合策略是？

A、投票法

B、平均法

C、學(xué)習(xí)法

D、排序法

參考答案：B

23.以下屬于考慮詞語位置關(guān)系的模型有？

A、詞向量模型

第8頁共75頁

B、詞袋模型

C、詞的分布式表示

D、TF-IDF

參考答案：A

24.對(duì)于SVM分類算法，待分樣本集中的大部分樣本不

是支持向量，下列說法正確的是？

A、需要將這些樣本全部強(qiáng)制轉(zhuǎn)換為支持向量

B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,

不能轉(zhuǎn)換的直接刪除

C、移去或者減少這些樣本對(duì)分類結(jié)果沒有影響

D、以上都不對(duì)

參考答案：C

25.在數(shù)據(jù)倉庫中，哪種類型的事實(shí)表通常包含詳細(xì)的

業(yè)務(wù)活動(dòng)數(shù)據(jù)？

A.累積快照事實(shí)表

B.事務(wù)事實(shí)表

C.周期快照事實(shí)表

D.無事實(shí)表（此選項(xiàng)不符合實(shí)際，僅為排除項(xiàng)）

參考答案：B

第9頁共75頁

26.哪種類型的機(jī)器學(xué)習(xí)算法不依賴于數(shù)據(jù)實(shí)例的標(biāo)

簽進(jìn)行訓(xùn)練？

A.監(jiān)督學(xué)習(xí)

B.無監(jiān)督學(xué)習(xí)

C.半監(jiān)督學(xué)習(xí)

D.強(qiáng)化學(xué)習(xí)（強(qiáng)化學(xué)習(xí)雖然不完全依賴標(biāo)簽，但它通

常涉及獎(jiǎng)勵(lì)信號(hào)，不完全等同于無監(jiān)督學(xué)習(xí)）

參考答案：B

27.在數(shù)據(jù)科學(xué)中，A/B測試主要用于什么目的？

A.評(píng)估不同機(jī)器學(xué)習(xí)算法的性能

B.評(píng)估不同數(shù)據(jù)預(yù)處理方法的效果

C.評(píng)估網(wǎng)站或應(yīng)用的不同版本對(duì)用戶行為的影響

D.評(píng)估不同數(shù)據(jù)可視化工具的優(yōu)劣

參考答案：C

28.在使用深度學(xué)習(xí)進(jìn)行圖像分類時(shí)，哪個(gè)層通常用于

輸出最終的分類結(jié)果？

A.卷積層

B.池化層

C.全連接層（或稱為密集層）

第10頁共75頁

D.激活層（但這里特指用于輸出的激活層，如softmax）

參考答案：D

29.在數(shù)據(jù)科學(xué)項(xiàng)目中，哪個(gè)步驟通常涉及將原始數(shù)據(jù)

轉(zhuǎn)換為可用于模型訓(xùn)練的形式？

A.數(shù)據(jù)收集

B.數(shù)據(jù)清洗

C.特征工程

D.模型訓(xùn)練

參考答案：C

30.當(dāng)圖像通過信道傳輸時(shí)，噪聲一般與什么無關(guān)？

A.信道傳輸?shù)馁|(zhì)量

B.出現(xiàn)的圖像信號(hào)

C.是否有中轉(zhuǎn)信道的過程

D.圖像在信道前后的處理

參考答案：B

31.在留出法、交叉驗(yàn)證法和自助法三種評(píng)估方法中，

哪種更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測試集的情

況？

A.留出法

第11頁共75頁

B.交叉驗(yàn)證法

C.自助法

D.留一法

參考答案：C

32.在數(shù)據(jù)科學(xué)中，通?？梢圆捎媚姆N方法有效避免數(shù)

據(jù)加工和數(shù)據(jù)備份的偏見？

A.A/B測試

B.訓(xùn)練集和測試集的劃分

C.測試集和驗(yàn)證集的劃分

參考答案：B

33.下列不屬于深度學(xué)習(xí)內(nèi)容的是？

A.深度置信網(wǎng)絡(luò)

B.受限玻爾茲曼機(jī)

C.卷積神經(jīng)網(wǎng)絡(luò)

D.貝葉斯學(xué)習(xí)

參考答案：D

34.在大數(shù)據(jù)項(xiàng)目中，哪個(gè)階段可能涉及使用數(shù)據(jù)工程

師來優(yōu)化數(shù)據(jù)查詢性能？

A.數(shù)據(jù)采集

第12頁共75頁

B.數(shù)據(jù)清洗

C.數(shù)據(jù)存儲(chǔ)與管理

D.數(shù)據(jù)分析與可視化

參考答案：C

35.以下哪個(gè)不是NoSQL數(shù)據(jù)庫的特點(diǎn)？

A.不保證事務(wù)的ACID特性

B.易于擴(kuò)展

C.支持復(fù)雜的SQL查詢

D.靈活的數(shù)據(jù)模型

參考答案：C

36.在數(shù)據(jù)倉庫設(shè)計(jì)中，星型模式與雪花模式的主要區(qū)

別在于？

A.存儲(chǔ)的數(shù)據(jù)量

B.表的連接方式

C.數(shù)據(jù)更新的頻率

D.數(shù)據(jù)的來源

參考答案：B

37.以下哪種算法常用于推薦系統(tǒng)中，基于用戶的歷史

行為預(yù)測其興趣?

第13頁共75頁

A.決策樹

B.協(xié)同過濾

C.樸素貝葉斯

D.邏輯回歸

參考答案：B

38.在數(shù)據(jù)預(yù)處理階段，缺失值處理的一種常用方法

是？

A.刪除包含缺失值的行或列

B.用均值、中位數(shù)或眾數(shù)填充

C.忽略缺失值，直接進(jìn)行后續(xù)分析

D.將缺失值視為一個(gè)新的類別

參考答案：B

39.下列哪個(gè)不是大數(shù)據(jù)處理面臨的挑戰(zhàn)？

A.數(shù)據(jù)安全性

B.數(shù)據(jù)實(shí)時(shí)性

C.數(shù)據(jù)一致性

D.數(shù)據(jù)存儲(chǔ)與計(jì)算成本

參考答案：C

40.在使用bmeans聚類算法時(shí)，通常需要預(yù)先確定的

第14頁共75頁

參數(shù)是？

A.聚類中心的數(shù)量

B.數(shù)據(jù)點(diǎn)的維度

C.數(shù)據(jù)點(diǎn)的數(shù)量

D.聚類半徑

參考答案：A

41.哪種類型的機(jī)器學(xué)習(xí)算法適合處理非線性關(guān)系的

數(shù)據(jù)？

A.線性回歸

B.決策樹

C.邏輯回歸

D.樸素貝葉斯

參考答案：B

42.哪個(gè)不是大數(shù)據(jù)安全面臨的挑戰(zhàn)？

A.數(shù)據(jù)泄露

B.數(shù)據(jù)篡改

C.數(shù)據(jù)存儲(chǔ)成本

D.隱私保護(hù)

參考答案：C

第15頁共75頁

43.在機(jī)器學(xué)習(xí)中，哪種學(xué)習(xí)類型涉及在沒有明確標(biāo)記

的數(shù)據(jù)集上進(jìn)行訓(xùn)練？

A.監(jiān)督學(xué)習(xí)

B.無監(jiān)督學(xué)習(xí)

C.半監(jiān)督學(xué)習(xí)

D.強(qiáng)化學(xué)習(xí)

參考答案：B

44.以下哪個(gè)不是數(shù)據(jù)科學(xué)家在數(shù)據(jù)探索階段可能執(zhí)

行的任務(wù)？

A.數(shù)據(jù)清洗

B.缺失值處理

C.特征工程

D.模型部署（模型部署通常發(fā)生在數(shù)據(jù)探索和分析之后）

參考答案：D

45.在數(shù)據(jù)可視化中，哪種圖表類型最適合展示時(shí)間序

列數(shù)據(jù)？

A.條形圖

B.折線圖

C.餅圖

第16頁共75頁

D.熱力圖

參考答案：B

46.以下哪個(gè)不是大數(shù)據(jù)處理中的關(guān)鍵挑戰(zhàn)？

A.數(shù)據(jù)多樣性

B.數(shù)據(jù)實(shí)時(shí)性

C.數(shù)據(jù)安全性

D.數(shù)據(jù)一致性(在分布式系統(tǒng)中，數(shù)據(jù)一致性是一個(gè)重

要問題，但在大數(shù)據(jù)處理的上下文中，它通常不是首要挑戰(zhàn),

特別是與數(shù)據(jù)多樣性、實(shí)時(shí)性和安全性相比)

參考答案：D

47.哪種類型的數(shù)據(jù)庫最適合處理圖結(jié)構(gòu)數(shù)據(jù)？

A.關(guān)系型數(shù)據(jù)庫

B.文檔型數(shù)據(jù)庫

C.列式數(shù)據(jù)庫

D.圖數(shù)據(jù)庫

參考答案：D

48.在數(shù)據(jù)科學(xué)中，交叉驗(yàn)證(Cross-Validation)的

主要目的是什么？

A.減少過擬合

第17頁共75頁

B.加速模型訓(xùn)練

C.增加模型的復(fù)雜度

D.無需訓(xùn)練集和測試集的分割

參考答案：A

49.在機(jī)器學(xué)習(xí)中，梯度下降(GradientDescent)算

法屬于哪一類優(yōu)化算法？

A.局部搜索算法

B.貪心算法

C.動(dòng)態(tài)規(guī)劃

D.啟發(fā)式算法

參考答案：A

50.以下哪個(gè)不是自然語言處理(NLP)中的常見任務(wù)？

A.情感分析

B.命名實(shí)體識(shí)別

C.語音識(shí)別

D.機(jī)器翻譯

參考答案：C

51.以下哪個(gè)不是數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時(shí)可能面

臨的挑戰(zhàn)?

第18頁共75頁

A.數(shù)據(jù)存儲(chǔ)和訪問

B.數(shù)據(jù)安全和隱私

C.數(shù)據(jù)可視化

D.實(shí)時(shí)數(shù)據(jù)處理

參考答案：C

52.在數(shù)據(jù)科學(xué)項(xiàng)目中，數(shù)據(jù)泄露(DataLeakage)指

的是什么？

A.數(shù)據(jù)在傳輸過程中被未經(jīng)授權(quán)的第三方獲取

B.在模型訓(xùn)練過程中，測試數(shù)據(jù)的信息被間接地用于

訓(xùn)練模型

C.數(shù)據(jù)在存儲(chǔ)過程中因硬件故障而丟失

D.數(shù)據(jù)在可視化時(shí)未進(jìn)行脫敏處理

參考答案：B

53.在機(jī)器學(xué)習(xí)中，正則化(Regularization)的主要

目的是什么？

A.增加模型的復(fù)雜度

B.減少模型的訓(xùn)練時(shí)間

C.防止過擬合

D.提高模型的解釋性

第19頁共75頁

參考答案：C

54.以下哪個(gè)不是數(shù)據(jù)預(yù)處理中處理缺失值的常用方

法？

A.刪除含有缺失值的行或列

B.用均值、中位數(shù)或眾數(shù)填充

C.使用插值法(如線性插值)

D.忽略缺失值，直接進(jìn)行模型訓(xùn)練

參考答案：D

55.在使用隨機(jī)森林(RandomForest)算法時(shí)，哪個(gè)

參數(shù)的增加通常會(huì)導(dǎo)致模型變得更加復(fù)雜？

A.樹的數(shù)量

B.樹的深度

C.葉子節(jié)點(diǎn)所需的最小樣本數(shù)

D.分割節(jié)點(diǎn)所需的最小樣本數(shù)

參考答案：B

56.在使用機(jī)器學(xué)習(xí)模型時(shí)，特征縮放(Feature

Scaling)的主要目的是什么？

A.提高模型的準(zhǔn)確率

B.加快模型的訓(xùn)練速度

第20頁共75頁

C.減少數(shù)據(jù)的存儲(chǔ)空間

D.使得不同量綱的特征能夠公平地比較

參考答案：D

二、多選題

1.在建立模型時(shí)，需要用到0。

A.訓(xùn)練數(shù)據(jù)

B.測試數(shù)據(jù)

C.原始數(shù)據(jù)

D.驗(yàn)證數(shù)據(jù)

參考答案：ABD

2.決策樹的劃分選擇有()。

A.增益系數(shù)

B.信息增益

C.增益率

D.基尼系數(shù)

E、信息增益量

參考答案：BCD

3.關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用，以下說法正確的是()。

第21頁共75頁

A.數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確?？勺匪?、可復(fù)查

B.前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實(shí)、完整

C.前序環(huán)節(jié)應(yīng)及時(shí)傳遞到后序環(huán)節(jié)

D.前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致

參考答案：ABCD

4.CNN相比于全連接的DNN有哪些優(yōu)勢()

A.參數(shù)更少

B.泛化更好

C.訓(xùn)練更快

D.更容易搭建；

參考答案：ABC

5.語音識(shí)別的方法包括()。

A.聲道模型方法

B.模板匹配的方法

C.利用仍神經(jīng)網(wǎng)絡(luò)的方法

D.語音知識(shí)方法

參考答案：ABCD

6.以下描述中屬于Analytics。的主要特點(diǎn)的是0。

第22頁共75頁

A.側(cè)重嵌入式分析

B.重視非結(jié)構(gòu)化數(shù)據(jù)的分析

C.以決策支持為主要目的

D.注重解釋性分析和預(yù)測性分析

參考答案：BCD

7.下面哪些是基于核的機(jī)器學(xué)習(xí)算法(_)。

A.最大期望算法

B.徑向基核函數(shù)

C.線性判別分析法

D.支持向量機(jī)

參考答案：BCD

8.Python的優(yōu)點(diǎn)有0。

A.變量不用預(yù)定義類型

B.數(shù)據(jù)結(jié)構(gòu)功能強(qiáng)大

C.語言可解釋性強(qiáng)

D.變量類型固定

參考答案：ABC

9.K均值聚類和層次聚類在一些方面有重大差異。以下

哪些說法是正確的()

第23頁共75頁

A.在K均值聚類中，必須在運(yùn)行算法前選定想要的簇的

個(gè)數(shù)

B.在k均值聚類中，可以在運(yùn)行算法后選定想要的簇的

個(gè)數(shù)

C.在層次聚類中，可以在運(yùn)行算法后選定想要的簇的個(gè)

數(shù)

D.k均值聚類算法所需的計(jì)算量比層次聚類算法小得多

參考答案：ACD

10.影響聚類算法效果的主要原因有：（）

A.特征選取

B.模式相似性測度

C.分類準(zhǔn)則

D.已知類別的樣本質(zhì)量

參考答案：ABC

11.直方圖修正法包括0。

A.直方圖統(tǒng)計(jì)

B.直方圖均衡

C.直方圖過濾

D.直方圖規(guī)定化;

第24頁共75頁

參考答案：BD

12.特征選擇的目的：()。

A.減少特征數(shù)量、降維

B.使模型泛化能力更強(qiáng)

C.增強(qiáng)模型擬合能力

D.減少過擬合。

參考答案：ABD

13.LSTM應(yīng)用場景應(yīng)用場景有哪些0

A.翻譯語言

B.語音識(shí)別

C.圖像識(shí)別

D.股票預(yù)測

參考答案：ABD

14.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動(dòng)包括()。

A.模式/模型的應(yīng)用及維護(hù)

B.模式/模型的洞見

C.結(jié)果的可視化與文檔化

D,模式/模型的驗(yàn)證和優(yōu)化

第25頁共75頁

參考答案：ABCD

15.以下屬于規(guī)則的分詞方法的是()。

A.正向最大匹配法

B.逆向最大匹配法

C.雙向最大匹配法

D.條件隨機(jī)場

參考答案：ABC

16.集成學(xué)習(xí)中多樣性的增強(qiáng)有哪些0

A.數(shù)據(jù)樣本擾動(dòng)

B.輸入屬性擾動(dòng)

C.輸出表示擾動(dòng)

D.算法參數(shù)擾動(dòng)

參考答案：ABCD

17.下列哪些現(xiàn)象屬于乘性噪聲()。

A.電視光柵的退化

B.二值圖像上的胡椒鹽噪聲

C.信道傳輸受擾

D,膠片材料的退化

第26頁共75頁

參考答案：AD

18.在支持向量機(jī)中，參數(shù)的選取會(huì)影響擬合的結(jié)果，

如果出現(xiàn)過擬合的現(xiàn)象,則導(dǎo)致該結(jié)果的原因有可能是(_)。

A.其他參數(shù)保持不變,C值過大

B.其他參數(shù)保持不變，入值較少

C.其他參數(shù)保持不變，。較大

D.其他參數(shù)保持不變，。較小

參考答案：ABD

19.常用的爬蟲技巧有以下哪些()。

A.更改header,偽裝成瀏覽器進(jìn)行爬取

B.設(shè)置爬取的時(shí)間間隔

C.應(yīng)用神經(jīng)網(wǎng)絡(luò)算法識(shí)別網(wǎng)站驗(yàn)證碼

D.通過代理服務(wù)器進(jìn)行爬取

參考答案：ABCD

20.下列哪些是詞語情感分析的方法()。

A.基于網(wǎng)絡(luò)的分析方法

B.基于word-embedding的分析方法

C.基于詞典的分析方法

D.基于詞頻的分析方法

第27頁共75頁

參考答案：AC

21.大數(shù)據(jù)的參考架構(gòu)分為哪三個(gè)層次()

A.角色

B.活動(dòng)

C.邏輯構(gòu)件

D.功能組件

參考答案：ABD

22.Spark有哪些缺陷()。

A.于內(nèi)存的計(jì)算

B.持Schema信息

C.支持增量迭代計(jì)算

D.支持細(xì)粒度更新操作

參考答案：CD

23.在BP網(wǎng)絡(luò)中，常用于緩解其過擬合的策略有0。

A.早停策略

B.正則化策略

C.全局最小策略

D.局部最小策略

第28頁共75頁

參考答案：AB

24.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),

將數(shù)據(jù)轉(zhuǎn)換成?；?)在屏幕上顯示出來,并進(jìn)行交互處理的

理論、方法和技術(shù)。

A.文字

B.圖形

C.圖像

D.視頻

參考答案：BC

25.下列哪些是情感分析的應(yīng)用場景0。

A.數(shù)據(jù)挖掘

B.信息檢索

C.文本分詞

D.市場營銷

參考答案：ABD

26.常用的沖突消解策略有包括()。

A.投票法

B.排序法

C.元規(guī)則法

第29頁共75頁

D.調(diào)研法

參考答案：ABC

27.線性模型的基本形式有0。

A.線性回歸

B.對(duì)數(shù)幾率回歸(二分類問題)

C.線性判別分析(Fisher判別分析)

D.多分類學(xué)習(xí)

參考答案：ABCD

28.在網(wǎng)絡(luò)爬蟲的爬行策略中，應(yīng)用最為常見的是()。

A.深度優(yōu)先遍歷策略

B.廣度優(yōu)先遍歷策略

C.高度優(yōu)先遍歷策略

D.反向鏈接策略

E、大站優(yōu)先策略

參考答案：AB

29.請(qǐng)問下面哪些是離散型變量()。

A.示波器

B.心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測量

第30頁共75頁

C.過去數(shù)月的總銷售額

D.公司每年的紅利

參考答案：CD

30.分布式列式存儲(chǔ)的功能有0。

A.支持在線快速讀寫

B.支持線性擴(kuò)展

C.具備節(jié)點(diǎn)監(jiān)控管理

D.數(shù)據(jù)同源不壓縮

參考答案：ABC

31.數(shù)據(jù)從產(chǎn)生到終結(jié)共有()環(huán)節(jié)。

A.數(shù)據(jù)產(chǎn)生環(huán)節(jié)

B.數(shù)據(jù)傳輸環(huán)節(jié)

C.數(shù)據(jù)使用環(huán)節(jié)

D.數(shù)據(jù)共享環(huán)節(jié)

E、數(shù)據(jù)銷毀環(huán)節(jié)

參考答案：ABCDE

32.關(guān)于HDFS的文件寫入，正確的是()。

A.不支持多用戶對(duì)同一文件的寫操作；

第31頁共75頁

B.用戶不可以在文件任意位置進(jìn)行修改；

C.默認(rèn)將文件復(fù)制成三份存放；

D.復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上；

參考答案：ABCD7

33.下面對(duì)LDA判別分析的思想描述正確的是()。

A.同類樣例的投影點(diǎn)盡可能近

B.異類樣例的投影點(diǎn)盡可能遠(yuǎn)

C.同類樣例的投影點(diǎn)盡可能遠(yuǎn)

D.異類樣例的投影點(diǎn)盡可能近

參考答案：AB

34.下面屬于范數(shù)規(guī)則化的作用的是0和()。

A.保證模型盡可能的簡單,避免過擬合

B.約束模型特征

C.最小化問題

D.最大化問題

參考答案：AB

35.我們想要減少數(shù)據(jù)集中的特征數(shù)，即降維.選擇以

下適合的方案：()。

A.使用前向特征選擇方法

第32頁共75頁

B.使用后向特征排除方法

C.我們先把所有特征都使用，去訓(xùn)練一個(gè)模型，得到測

試集上的表現(xiàn).然后我們?nèi)サ粢粋€(gè)特征，再去訓(xùn)練,用交叉驗(yàn)

證看看測試集上的表現(xiàn).如果表現(xiàn)比原來還要好，我們可以

去除這個(gè)特征

D.查看相關(guān)性表,去除相關(guān)性最高的一些特征

參考答案：ABCD

36.以下說法正確的是0。

A.負(fù)梯度方向是使函數(shù)值下降最快的方向

B.當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降法的解是全局最優(yōu)

解

C.梯度下降法比牛頓法收斂速度快

D.擬牛頓法不需要計(jì)算Hesse矩陣

參考答案：ABD

37.對(duì)于主成分分析方法，降維后低維空間的維數(shù)d可

以通過()方法確定。

A.由用戶事先指定

B.通過在d值不同的低維空間中對(duì)開銷較小的學(xué)習(xí)器進(jìn)

行交叉驗(yàn)證來選取

第33頁共75頁

C.可從重構(gòu)的角度設(shè)置一個(gè)重構(gòu)閾值,選取使得特定公

式成立的最小值

D.隨機(jī)設(shè)置

參考答案：ABC

38.變量名可以包含()。

A.字母

B.數(shù)字

C.下劃線

D.空格

參考答案：ABC

39.從可視化處理視角看，可以將數(shù)據(jù)分為四個(gè)類型()

并采用不同的視覺映射方法。

A.定類數(shù)據(jù)

B.定序數(shù)據(jù)

C.定距離數(shù)據(jù)

D.定比暑假

參考答案：ABCD

40.下列關(guān)于特征的稀疏性說法正確的是()。

A.稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)

第34頁共75頁

B.稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開銷

C.學(xué)習(xí)任務(wù)難度可能有所降低

D.稀疏矩陣沒有高效的存儲(chǔ)方法

參考答案：ABC

41.數(shù)據(jù)可視化中，從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑()。

A.可視化分析

B.自動(dòng)化建模

C.用戶交互

D.參數(shù)優(yōu)化

參考答案：AB

42.在數(shù)據(jù)缺失嚴(yán)重時(shí)，會(huì)對(duì)分析結(jié)果造成較大的影響,

因此剔除的異常值和缺失值，要采用合理的方法進(jìn)行填補(bǔ)，

常用的方法有()。

A.平均值填充

B.K最近鄰距離法

C.回歸法

D.極大似然估計(jì)

E、多重插補(bǔ)法

參考答案：ABCDE

第35頁共75頁

43.假設(shè)目標(biāo)遍歷的類別非常不平衡，即主要類別占據(jù)

了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)

確度,那么下面說法正確的是：()。

A.準(zhǔn)確度并不適合衡量不平衡類別問題

B.準(zhǔn)確度適合衡量不平衡類別問題

C.精確度和召回率適合于衡量不平衡類別問題

D.精確度和召回率不適合衡量不平衡類別問題

參考答案：AC

44.圖像壓縮是建立在圖像存在()幾種冗余之上。

A.編程冗余

B.像素間冗余

C.心理視覺冗余

D.計(jì)算資源冗余

參考答案：ABC

45.圖像識(shí)別的一般步驟包括0。

A.預(yù)處理

B.特征提取

C.超像素生成

D.識(shí)別分類

第36頁共75頁

參考答案：ABD

46.RDD具有()和()特征。

A.可容錯(cuò)性；

B.簡潔性；

C.并行數(shù)據(jù)結(jié)構(gòu)；

D.結(jié)構(gòu)化；

參考答案：AC

47.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。

A.卷積層

B.中間層

C.池化層

D.全連接層

參考答案：ACD

48.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為()和隨機(jī)型網(wǎng)絡(luò)等。

A.前向型

B.后向型

C.反饋型

D.自組織競爭型

第37頁共75頁

參考答案：ACD

49.空間域?yàn)V波是直接以圖像中的像素操作為基礎(chǔ)的

濾波,空間濾波器有時(shí)也可稱為()。

A.空間掩模

B.核

C.模板

D.窗口

參考答案：ABCD

50.下面關(guān)于單樣本t檢驗(yàn)的說法,錯(cuò)誤的是()。

A.當(dāng)單樣本t檢驗(yàn)的自由度越來越大時(shí),正態(tài)分布越來

越趨向于t分布

B.單樣本t檢驗(yàn)適用于樣本量比較多(n>30)的情況

C.t分布的不確定性比正態(tài)分布小，其原因是樣本數(shù)量

比較小

D.單樣本t檢驗(yàn)通常也被叫做學(xué)生t檢驗(yàn)

參考答案：ABC

51.以下關(guān)于數(shù)據(jù)維度的描述，正確的是()。

A.采用列表表示一維數(shù)據(jù)，不同數(shù)據(jù)類型的元素是可以

的

第38頁共75頁

B.JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)

C.二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式

D.字典不可以表示二維以上的高維數(shù)據(jù)

參考答案：ABC

52.下列哪些項(xiàng)屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)（）

A.上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)

絡(luò)狀態(tài)

B.并行處理序列中所有信息

C.容易梯度爆炸/消失

D.易于搭建

參考答案：AC

53.關(guān)于總體和樣本的說法，正確的是：

A.總體也就是研究對(duì)象的全體

B.如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品，那么樣

本可以是每間隔10秒抽取的產(chǎn)品

C.樣本是從總體的隨機(jī)抽樣

D.如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是

一年級(jí)的100名學(xué)生

參考答案：ABC

第39頁共75頁

54.數(shù)據(jù)可視化涉及到()等多個(gè)領(lǐng)域，成為研究數(shù)據(jù)表

示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。

A.計(jì)算機(jī)圖形學(xué)

B.圖像處理

C.計(jì)算機(jī)視覺

D.計(jì)算機(jī)輔助設(shè)計(jì)

參考答案：ABCD

55.下列場景適合使用Python的是()。

A.可作為腳本語言,快速編寫小型程序、腳本等

B.可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域

C.可作為膠水語言,整合如C++等語言代碼

D.Python適用于低延時(shí)、高利用率的應(yīng)用場景

參考答案：ABC

56.下列關(guān)于PCA說法正確的是()。

A.在使用PCA之前,我們必須標(biāo)準(zhǔn)化數(shù)據(jù)

B.應(yīng)該選擇具有最大方差的主成分

C.應(yīng)該選擇具有最小方差的主成分

D,可以使用PCA在低維空間中可視化數(shù)據(jù)

參考答案：ABD

第40頁共75頁

57.以下哪幾項(xiàng)屬于漢語未登錄詞的類型()。

A.存在于詞典但出現(xiàn)頻率較少的詞

B.新出現(xiàn)的普通詞匯

C.專有名詞

D.專業(yè)名詞和研究領(lǐng)域名稱

參考答案：BCD

58.以下關(guān)于降維方法,敘述正確的是()。

A.主成分分析是一種常用的非線性降維方法

B.核化線性降維是一種常用的線性降維方法

C.流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法

D.度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離

度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)

參考答案：CD

59.關(guān)于降維說法正確的是()。

A.PA是根據(jù)方差這一屬性降維的

B.降維可以防止模型過擬合

C.降維降低了數(shù)據(jù)集特征的維度

D.降維方法有PLA等

參考答案：ACD

第41頁共75頁

60.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。

A.具有勞動(dòng)增值

B.涉及法律權(quán)屬

C.具有財(cái)務(wù)價(jià)值

D.涉及道德與倫理

參考答案：ABCD

61.以下算法中可以應(yīng)用于圖像分割的是()。

A.邊緣檢測技術(shù)

B.閾值分割技術(shù)

C.基于區(qū)域的分割技術(shù)

D.區(qū)域生長方法

參考答案：ABCD

62.下列關(guān)于密度聚類說法錯(cuò)誤的是(_)。

A.DBSCAN是一種著名的密度聚類算法

B.密度聚類從樣本數(shù)量的角度來考察樣本之間的可連

接性

C.密度聚類基于不可連接樣本不斷擴(kuò)展聚類簇易獲得

最終的聚類結(jié)果

D,密度直達(dá)關(guān)系通常滿足對(duì)稱性

第42頁共75頁

參考答案：BCD

63.隨機(jī)森林在做數(shù)據(jù)處理方面有什么優(yōu)勢()。

A.不需要做缺失值處理

B.不需要處理噪音

C.不需要做特征選擇

D.不需要平衡數(shù)據(jù)集

參考答案：ACD

64.特征向量的歸一化方法有哪些()

A.線性函數(shù)轉(zhuǎn)換

B.對(duì)數(shù)函數(shù)轉(zhuǎn)換

C.反余切函數(shù)轉(zhuǎn)換

D.減去均值，除以方差

參考答案：ABCD

65.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品

的本質(zhì)特征,表現(xiàn)在()方面。

A.數(shù)據(jù)驅(qū)動(dòng)

B.數(shù)據(jù)密集型

C.數(shù)據(jù)范式

D.數(shù)據(jù)可視化

第43頁共75頁

參考答案：ABC

66.以下關(guān)于集成學(xué)習(xí)的說法正確的是：()。

A.隨機(jī)森林是減少模型的方差,而GBDT是減少模型的偏

差

B.組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成

C.隨機(jī)森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵

樹累加之和

參考答案：ABC

67.常用的數(shù)據(jù)審計(jì)方法可以分為()。

A.預(yù)定義審計(jì)

B.自定義審計(jì)

C.可視化審計(jì)

D.結(jié)構(gòu)化審計(jì)

參考答案：ABC

68.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在()。

A.決策樹選擇的隨機(jī)性

B.數(shù)據(jù)集的隨機(jī)性

C.待選特征的隨機(jī)性

D,參數(shù)選擇的隨機(jī)性

第44頁共75頁

參考答案：BC

69.有兩種策略常用來緩解BP網(wǎng)絡(luò)的過擬合,分別是()

和()。

A.晚停

B.早停

C.正則化

D.加入損失函數(shù)

參考答案：BC

70.預(yù)剪枝使得決策樹的很多分子都沒有展開，會(huì)導(dǎo)致

A.顯著減少訓(xùn)練時(shí)間開銷

B.顯著減少測試時(shí)間開銷

C.降低過擬合風(fēng)險(xiǎn)

D.提高欠擬合風(fēng)險(xiǎn)

參考答案：ABCD

71.一個(gè)監(jiān)督觀測值集合會(huì)被劃分為0。

A.訓(xùn)練集

B.驗(yàn)證集

C.測試集

第45頁共75頁

D.預(yù)處理集

參考答案：ABC

72.關(guān)于梯度消失和梯度消失，以下說法正確的

是：(_)。

73.A.根據(jù)鏈?zhǔn)椒▌t，如果每一層神經(jīng)元對(duì)上一層的輸

出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個(gè)結(jié)果是

99,在經(jīng)過足夠多層傳播之后,誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于0

B.可以采用ReLU激活函數(shù)有效的解決梯度消失的情況

C.根據(jù)鏈?zhǔn)椒▌t，如果每一層神經(jīng)元對(duì)上一層的輸出的

偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,

誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于無窮大

D.可以通過減小初始權(quán)重矩陣的值來緩解梯度爆炸

參考答案：ABCD

74.循環(huán)神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用于哪些場景(_)。

A.語音識(shí)別

B.語音建模

C.機(jī)器翻譯

D.圖像識(shí)別

參考答案：ABC

第46頁共75頁

75.以下屬于頻率域圖像濾波的方法有()。

A.中值濾波

B.均值濾波

C.布特沃斯濾波

D.高斯濾波

參考答案：CD

76.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括()。

A.最大池化函數(shù)

B.L2范數(shù)

C.相鄰矩形區(qū)域內(nèi)的平均值

D.基于據(jù)中心像素距離的加權(quán)平均函數(shù)

參考答案：ABCD

77.ETL技術(shù)主要涉及0操作。

A.抽取

B.轉(zhuǎn)換

C.加載

D.分析

參考答案：ABC

第47頁共75頁

78.以下可用于處理由于光照不均帶來的影響的圖像

處理方法有()。

A.同態(tài)濾波

B.頂帽變換

C.基于移動(dòng)平均的局部閾值處理

D.拉普拉斯算子

參考答案：ABC

79.下面關(guān)于Python中的列表和字典說法正確的是()。

A.字典和列表都可以通過“口”操作符訪問元素的值

B.列表的索引必須是整型數(shù)或者切片

C.字典不過是列表的另一個(gè)名字。二者沒有區(qū)別

D.字典的長度是動(dòng)態(tài)的,而列表的長度是固定的

參考答案：AB

80.ETL包含下列哪些過程()

A.數(shù)據(jù)抽取

B.數(shù)據(jù)轉(zhuǎn)換

C.數(shù)據(jù)加載

D.數(shù)據(jù)展現(xiàn)

參考答案：ABC

第48頁共75頁

81.處理圖像平滑處理的濾波有()。

A.盒式濾波

B.均值濾波

C.高斯濾波

D.中值濾波

參考答案：ABCD

82.參數(shù)估計(jì)可以分為0。

A.點(diǎn)估計(jì)

B.一致估計(jì)

C.區(qū)間估計(jì)

D.無偏估計(jì)

參考答案：AC

83.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)0

A.表結(jié)構(gòu)schema擴(kuò)展不方便

B.全文搜索功能較弱

C.大數(shù)據(jù)場景下I/O較高

D.存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱

參考答案：ABCD

第49頁共75頁

84.以下哪些濾波器能在卷積窗口的邊界上使卷積掩

膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0附近()。

A.同態(tài)濾波

B.高斯濾波

C.巴特沃斯濾波

D.中值濾波

參考答案：BC

85.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中正確的是()。

A.可用于處理時(shí)間序列數(shù)據(jù)

B.可用于處理圖像數(shù)據(jù)

C.卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算

D.至少在網(wǎng)絡(luò)的一層中使用卷積

參考答案：ABD

86.對(duì)于不同場景內(nèi)容，一般數(shù)字圖像可以分為()。

A.二值圖像

B.灰度圖像

C.彩色圖像

D.深度圖像

參考答案：ABC

第50頁共75頁

87.下面關(guān)于中心極限定理的說法，正確的是：

A.中心極限定理說明，對(duì)于大量相互獨(dú)立的隨機(jī)變量，

其均值的分布以正態(tài)分布為極限

B.中心極限定理說明，對(duì)于大量相互獨(dú)立的隨機(jī)變量，

其均值的分布以t分布為極限

C.中心極限定理為Z檢驗(yàn)提供了理論支持

D.中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)

參考答案：ACD

88.下列關(guān)于情感分析的說法正確的是()。

A.簡單而言，是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、

處理、歸納和推理的過程

B.情感分析的發(fā)展得益于社交媒體的興起

C.按照處理文本的粒度不同，情感分析大致可分為詞語

級(jí)，句子級(jí)、篇章級(jí)三個(gè)

D.情感分析可以應(yīng)用于文本挖掘

參考答案：ABCD

89.下列既可以用于分類，又可以用于回歸的機(jī)器學(xué)習(xí)

算法有：

A.k近鄰

第51頁共75頁

B.邏輯回歸

C.決策樹

D.線性回歸

參考答案：AC

90.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。

A.完整性

B,可用性

C.不可否認(rèn)性

D.可審計(jì)性

參考答案：ABCD

91.異常值的檢測方法有()

A.直接通過數(shù)據(jù)可視化進(jìn)行觀察

B.通過統(tǒng)計(jì)分布進(jìn)行判斷

C.通過相對(duì)距離進(jìn)行度量

D.通過相對(duì)密度進(jìn)行度量

參考答案：ABCD

92.深度學(xué)習(xí)方法不適用于以下哪些場景()。

A.數(shù)據(jù)樣本充足

第52頁共75頁

B.數(shù)據(jù)樣本不足

C.數(shù)據(jù)集具有局部相關(guān)特性

D.數(shù)據(jù)集沒有局部相關(guān)特性

參考答案：BD

93.以下對(duì)模型性能提高有幫助的是0。

A.數(shù)據(jù)預(yù)處理

B.特征工程

C.機(jī)器學(xué)習(xí)算法

D.模型集成

參考答案：ABCD

94.在Hive架構(gòu)中支持對(duì)數(shù)據(jù)的操作有()。

A.插入

B.查詢

C.刪除

D.分析；

參考答案：BD

95.以下圖像技術(shù)中屬于圖像處理技術(shù)的是0。

A.圖像編碼

第53頁共75頁

B.圖像合成

C.圖像增強(qiáng)

D.圖像分類

參考答案：AC

96.回歸分析有很多種類，常見的有()。

A.線性回歸

B.系數(shù)回歸

C.邏輯回歸

D.曲線回歸

參考答案：ACD

97.算法“歧視”現(xiàn)象可能出現(xiàn)在()。

A.算法設(shè)計(jì)

B.算法實(shí)現(xiàn)

C.算法投入使用

D.算法驗(yàn)證

參考答案：ABC

98.下面關(guān)于機(jī)器學(xué)習(xí)的理解正確的是()。

A.非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的

第54頁共75頁

B.監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)

據(jù)帶標(biāo)簽

C.強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對(duì)模型的反饋

D.卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的

數(shù)據(jù)

參考答案：BCD

99.決策樹()情況下會(huì)導(dǎo)致遞歸返回。

A.當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類

B.當(dāng)前屬性集為空

C.當(dāng)前節(jié)點(diǎn)包含的樣本集合為空

D.所有樣本在所有屬性上取值相同

參考答案：ABCD

100.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計(jì)學(xué)知識(shí)說法錯(cuò)誤

的是()。

A.從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基

本分析方法和元分析方法

B.從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為

描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)

C.描述統(tǒng)計(jì)可分為集中趨勢分析、離中趨勢分析、參數(shù)

第55頁共75頁

估計(jì)和假設(shè)檢驗(yàn)

D.推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析

參考答案：ABCD

101.()是通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進(jìn)行分類的。

A.密度估計(jì)

B.異常檢測

C.線性回歸

D.聚類分析

參考答案：ABD

102.數(shù)據(jù)再利用的意義在于()

A.挖掘數(shù)據(jù)的潛在價(jià)值

B.提高社會(huì)效益,優(yōu)化社會(huì)管理

C.實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值

D.優(yōu)化存儲(chǔ)設(shè)備，降低設(shè)備成本E、利用數(shù)據(jù)可拓展性拓

寬業(yè)務(wù)領(lǐng)域

參考答案：ACE

103.非頻繁模式0。

A.其支持度小于閾值

B,都是不讓人感興趣的

第56頁共75頁

C.包含負(fù)模式和負(fù)相關(guān)模式

D.對(duì)異常數(shù)據(jù)項(xiàng)敏感

參考答案：AD

104.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是()。

A.任務(wù)T

B.性能指標(biāo)P

C.目標(biāo)函數(shù)V

D.經(jīng)驗(yàn)來源E

參考答案：ABD

105.圖像數(shù)字化應(yīng)該包括哪些過程()。

A.采樣

B.模糊

C.量化

D.統(tǒng)計(jì)

參考答案：AC

106.以下關(guān)于CSV文件的描述,正確的選項(xiàng)是()。

A.CSV文件可用于不同工具間進(jìn)行數(shù)據(jù)交換

B.CSV文件格式是一種通用的,相對(duì)簡單的文件格式,應(yīng)

用于程序之間轉(zhuǎn)移表格數(shù)據(jù)。

第57頁共75頁

c.SV文件通過多種編碼表示字符

D.CSV文件的每一行是一維數(shù)據(jù),可以使用Python中的

列表類型表示

參考答案：ABD

107.AnalyticsO的主要特點(diǎn)有0。

A.分析活動(dòng)滯后于數(shù)據(jù)的生成

B.重視結(jié)構(gòu)化數(shù)據(jù)的分析

C.以對(duì)歷史數(shù)據(jù)的理解為主要目的

D.注重描述性分析

參考答案：ABCD

108.Spark的技術(shù)架構(gòu)可以分為哪幾層()。

A.資源管理層；

B.Spark核心層；

C.應(yīng)用層；

D.服務(wù)層;

參考答案：ABD

109.完整性約束通常包括()

A.實(shí)體完整性

B.域完整性

第58頁共75頁

C.參照完整性

D.用戶定義完整性

參考答案：ABCD

110.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證

性分析方法的區(qū)別有()。

A.EDA需要事先提出假設(shè),而驗(yàn)證性分析不需要

B.EDA中采用的方法往往比驗(yàn)證性分析簡單

C.在一般數(shù)據(jù)科學(xué)項(xiàng)目中，探索性分析在先，驗(yàn)證性分

析在后

D.EDA更為簡單、易學(xué)和易用

參考答案：BCD

111.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較，說法正確的是

A.歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假

設(shè)

B.歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理

C.歸納學(xué)習(xí)不需要隱式的先驗(yàn)知識(shí)

D.訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗

參考答案：ABCD

第59頁共75頁

112.統(tǒng)計(jì)模式分類問題中，當(dāng)先驗(yàn)概率未知時(shí)，可以使

用()。

A.最小最大損失準(zhǔn)則

B.最小誤判概率準(zhǔn)則

C.最小損失準(zhǔn)則

D.N-P判決

參考答案：AD

113.HBase性能優(yōu)化包含下面的哪些選項(xiàng)()。

A.讀優(yōu)化

B.寫優(yōu)化

C,配置優(yōu)化

D.JVM優(yōu)化

參考答案：ABCD

114.下列哪個(gè)是Hadoop運(yùn)行的模式()。

A.單機(jī)版

B.偽分布式

C.分布式

D.全分布式

參考答案：ABC

第60頁共75頁

115.下列屬于CNN關(guān)鍵層的是(_)。

A.輸入層

B.卷積層

C.激活層

D.池化層

參考答案：ABCD

116.關(guān)于神經(jīng)元的敘述,哪些是正確的()

A.每個(gè)神經(jīng)元可以有一個(gè)輸入和一個(gè)輸出

B.每個(gè)神經(jīng)元可以有多個(gè)輸入和一個(gè)輸出

C.每個(gè)神經(jīng)元可以有多個(gè)輸入和多個(gè)輸出

D.每個(gè)神經(jīng)元可以有多個(gè)輸出和一個(gè)輸入

參考答案：ABCD

117.哪些項(xiàng)不屬于使用池化層相比于相同步長的卷積

層的優(yōu)勢()

A.參數(shù)更少

B.可以獲得更大下采樣

C.速度更快

D,有助于提升精度

參考答案：BCD

第61頁共75頁

H8.使用極大似然估計(jì)的前提條件有0。

A.數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型

B.已經(jīng)得到了一部分?jǐn)?shù)據(jù)集

C.提前已知某先驗(yàn)概率

D.數(shù)據(jù)集各個(gè)屬性相對(duì)獨(dú)立

參考答案：AB

119.以下描述中正確的是()。

A.統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

B.Python語言是統(tǒng)計(jì)學(xué)家發(fā)明的語言

C.機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

D.數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域(子學(xué)科)

參考答案：AC

120.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點(diǎn)包括0。

A.數(shù)據(jù)一致性高

B.數(shù)據(jù)冗余度低

C.簡單處理的效率高

D.產(chǎn)品成熟度高

參考答案：ABD

第62頁共75頁

121.Python的模塊符合以下哪些說法()。

A.模塊讓你能夠有邏輯地組織你的Python代碼段

B.Python擁有豐富的模塊,不支持自定義模塊

C.把相關(guān)的代碼分配到一個(gè)模塊里能讓你的代碼更好

用，更易懂

D.模塊能定義函數(shù)，類和變量，模塊里也能包含可執(zhí)行

的代碼。

參考答案：ACD

122.關(guān)于神經(jīng)網(wǎng)絡(luò)，下列說法正確的是()

A.增加網(wǎng)絡(luò)層數(shù),可能會(huì)增加測試集分類錯(cuò)誤率

B.增加網(wǎng)絡(luò)層數(shù),一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率

C.減少網(wǎng)絡(luò)層數(shù),可能會(huì)減少測試集分類錯(cuò)誤率

D.減少網(wǎng)絡(luò)層數(shù),一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率

參考答案：AC

123.Flume特點(diǎn)包括()。

A.分布式

B.高可靠

C.IWJ容錯(cuò)

D.易于定制和擴(kuò)展

第63頁共75頁

參考答案：ABCD

124.深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)的說法正確的是

(_)。

A.DL強(qiáng)調(diào)模型深度

B.DL突出特征學(xué)習(xí)的重要性.特征變換+非人工

C.沒有區(qū)別

D.以上答案都不正確

參考答案：AB

125.如何在監(jiān)督式學(xué)習(xí)中使用聚類算法0

A.首先，可以創(chuàng)建聚類，然后分別在不同的集群上應(yīng)用

監(jiān)督式學(xué)習(xí)算法

B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特

征空間中的一個(gè)額外的特征

C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類

D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特

征空間中的一個(gè)額外的特征

參考答案：AB

126.(__)可以幫助解決訓(xùn)練集在特征空間中線性不可

分的問題。

第64頁共75頁

A.硬間隔

B.軟間隔

C.核函數(shù)

D.拉格朗日乘子法

參考答案：BC

127.下面關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函

數(shù)的說法,正確的是。

A.“一個(gè)客服一天可能接聽到多少個(gè)電話”是一個(gè)連續(xù)

型隨機(jī)變量

B.正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布

C.可以使用概率密度函數(shù)來描述連續(xù)型隨機(jī)變量的概

率分布

D.連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

參考答案：BCD

128.假設(shè)檢驗(yàn)中，首先需要提出零假設(shè)和備擇假設(shè)，零

假設(shè)是()，備擇假設(shè)是()。

A.只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的，只有零假設(shè)

出現(xiàn)的概率大于閾值才會(huì)被承認(rèn)的

B.希望推翻的結(jié)論,希望證明的結(jié)論

第65頁共75頁

C.只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的，只有零假設(shè)

出現(xiàn)的概率小于閾值才會(huì)被承認(rèn)的

D.希望證明的結(jié)論,希望推翻的結(jié)論

參考答案：BC

129.數(shù)據(jù)科學(xué)基本原則中，三世界原則指的是()

A.我們的世界

B.數(shù)據(jù)世界

C.物理世界

D.數(shù)字世界

參考答案：ABC

130.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型。

該模型主要預(yù)測下期臺(tái)區(qū)工單數(shù)量，構(gòu)建搶修熱點(diǎn)。以下模

型算法構(gòu)建步驟中合理的順序是：()。

A.將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣,生成N個(gè)訓(xùn)練樣

本集

B.將N個(gè)訓(xùn)練樣本集分別做決策樹,生成N棵決策樹

C.將N棵決策樹隨機(jī)構(gòu)成隨機(jī)森林

D.未來根據(jù)預(yù)測樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)

行隨機(jī)森林決策投票，得出針對(duì)該預(yù)測樣本最優(yōu)的決策樹進(jìn)

第66頁共75頁

行運(yùn)算,并計(jì)算出最終結(jié)果。

參考答案：ABCD

131.針對(duì)維數(shù)災(zāi)難，我們主要采用的降維方法有哪些

A.多維縮放

B.主成分分析

C.核化線性降維

D.流形學(xué)習(xí)

E、度量學(xué)習(xí)

參考答案：ABCDE

132.特征工程一般需要做哪些工作()。

A.正則化

B.標(biāo)準(zhǔn)化

C.特征處理

D.特征選擇

參考答案：CD

133.圖像識(shí)別的精度會(huì)受

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案

文檔簡介

溫馨提示

最新文檔

評(píng)論

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔