2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第1頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第2頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第3頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第4頁
2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)考試題庫與答案_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2024年應(yīng)用及操作處理大數(shù)據(jù)技能知識(shí)

考試題庫與答案

一、單選題

1.圖像平滑會(huì)造成什么效果?

A、圖像邊緣模糊化

B、圖像邊緣清晰化

C、無影響

D、以上答案都不正確

參考答案:A

2.在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),哪種技術(shù)常用于提取有用

信息?

A.數(shù)據(jù)清洗

B.文本挖掘

C.數(shù)據(jù)聚合

D.統(tǒng)計(jì)分析

參考答案:B

3.在數(shù)據(jù)科學(xué)項(xiàng)目中,數(shù)據(jù)科學(xué)家如何驗(yàn)證模型的泛

化能力?

第1頁共75頁

A.在訓(xùn)練數(shù)據(jù)集上進(jìn)行測試

B.在驗(yàn)證數(shù)據(jù)集上進(jìn)行測試

C.在未見過的測試數(shù)據(jù)集上進(jìn)行測試

D.通過交叉驗(yàn)證

參考答案:C

4.在數(shù)據(jù)科學(xué)中,哪種方法常用于降維以減少數(shù)據(jù)的

復(fù)雜度?

A.標(biāo)準(zhǔn)化

B,正規(guī)化

C.主成分分析(PCA)

D.交叉驗(yàn)證

參考答案:C

5.以下哪個(gè)不是數(shù)據(jù)預(yù)處理階段的常見步驟?

A.數(shù)據(jù)清洗

B.數(shù)據(jù)集成

C.數(shù)據(jù)可視化

D.數(shù)據(jù)轉(zhuǎn)換

參考答案:C

6.在使用決策樹算法時(shí),哪個(gè)參數(shù)可能導(dǎo)致模型過擬

第2頁共75頁

合?

A.樹的深度

B.最小樣本分割數(shù)

C.兩者都可能

D.兩者都不可能

參考答案:C

7.在數(shù)據(jù)倉庫中,數(shù)據(jù)集市(DataMart)與數(shù)據(jù)倉庫

的主要區(qū)別是什么?

A.數(shù)據(jù)集市包含的數(shù)據(jù)量更小

B.數(shù)據(jù)集市不需要ETL過程

C.數(shù)據(jù)集市是面向特定業(yè)務(wù)部門的

D.數(shù)據(jù)集市不支持復(fù)雜查詢

參考答案:C

8.以下哪個(gè)不是機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)算法?

A.K-最近鄰

B.決策樹

C.K-means聚類

D.邏輯回歸

參考答案:C

第3頁共75頁

9.在處理時(shí)間序列數(shù)據(jù)時(shí),哪種方法常用于平滑數(shù)據(jù)

以減少噪聲?

A.移動(dòng)平均

B.傅里葉變換

C.標(biāo)準(zhǔn)化

D.決策樹

參考答案:A

10.在數(shù)據(jù)科學(xué)項(xiàng)目中,哪個(gè)步驟通常用于發(fā)現(xiàn)數(shù)據(jù)中

的隱藏模式或關(guān)系?

A.數(shù)據(jù)清洗

B.數(shù)據(jù)可視化

C.特征工程

D.建模與預(yù)測

參考答案:B

11.在數(shù)據(jù)科學(xué)項(xiàng)目中,特征選擇(FeatureSelection)

的主要目的是什么?

A.減少計(jì)算時(shí)間

B.提高模型的可解釋性

C.兩者都是

第4頁共75頁

D.兩者都不是

參考答案:C

12.以下哪個(gè)不是數(shù)據(jù)清洗(DataCleaning)過程中

可能遇到的挑戰(zhàn)?

A.缺失值處理

B.異常值檢測

C.數(shù)據(jù)加密

D.數(shù)據(jù)類型不一致

參考答案:C

13.以下哪個(gè)不是A/B測試中的關(guān)鍵要素?

A.實(shí)驗(yàn)組和對(duì)照組

B.假設(shè)檢驗(yàn)

C.數(shù)據(jù)可視化

D.樣本大小計(jì)算

參考答案:C

14.在進(jìn)行數(shù)據(jù)清洗時(shí),處理異常值(outliers)的一

種常用方法是什么?

A.填充為中位數(shù)或眾數(shù)

B.刪除異常值所在的行或列

第5頁共75頁

C.使用插值法進(jìn)行填充

D.標(biāo)準(zhǔn)化或歸一化數(shù)據(jù)

參考答案:B

15.以下哪個(gè)不是數(shù)據(jù)挖掘的常用技術(shù)?

A.關(guān)聯(lián)規(guī)則挖掘

B.聚類分析

C.回歸分析

D.神經(jīng)網(wǎng)絡(luò)

參考答案:D

16.以下哪個(gè)不是bmeans聚類算法可能面臨的挑戰(zhàn)?

A.需要預(yù)先指定聚類數(shù)量(K值)

B.對(duì)初始聚類中心的選擇敏感

C.只能處理球形簇

D.無法處理大規(guī)模數(shù)據(jù)集

參考答案:D

17.以下哪個(gè)不是自然語言處理(NLP)中的任務(wù)?

A.情感分析

B.命名實(shí)體識(shí)別

第6頁共75頁

C.回歸分析

D.機(jī)器翻譯

參考答案:C

18.在數(shù)據(jù)科學(xué)項(xiàng)目中,A/B測試的結(jié)果如何統(tǒng)計(jì)上顯

著?

A.當(dāng)且僅當(dāng)實(shí)驗(yàn)組和對(duì)照組的差異在統(tǒng)計(jì)上顯著時(shí)

B.當(dāng)實(shí)驗(yàn)組的性能始終優(yōu)于對(duì)照組時(shí)

C.當(dāng)實(shí)驗(yàn)組的性能標(biāo)準(zhǔn)差小于對(duì)照組時(shí)

D.當(dāng)實(shí)驗(yàn)組的樣本數(shù)量大于對(duì)照組時(shí)

參考答案:A

19.在使用隨機(jī)森林進(jìn)行特征重要性評(píng)估時(shí),哪個(gè)指標(biāo)

通常用于衡量特征的重要性?

A.特征在樹中出現(xiàn)的次數(shù)

B.特征在樹中作為分裂節(jié)點(diǎn)的平均增益

C.特征值的范圍

D.特征在數(shù)據(jù)集中的缺失率

參考答案:B

20.以下哪個(gè)不是數(shù)據(jù)清洗過程中可能遇到的挑戰(zhàn)?

A.缺失值處理

第7頁共75頁

B.異常值檢測與處理

C.數(shù)據(jù)整合與合并

D.數(shù)據(jù)加密與安全性(數(shù)據(jù)加密和安全性更多是關(guān)于

數(shù)據(jù)保護(hù),而不是數(shù)據(jù)清洗的直接挑戰(zhàn))

參考答案:D

21.關(guān)于Spark的說法中,哪個(gè)是錯(cuò)誤的?

A、采用內(nèi)存計(jì)算模式

B、可利用多種語言編程

C、主要用于批處理

D、可進(jìn)行map()操作

參考答案:C

22.對(duì)數(shù)值型輸出,最常見的結(jié)合策略是?

A、投票法

B、平均法

C、學(xué)習(xí)法

D、排序法

參考答案:B

23.以下屬于考慮詞語位置關(guān)系的模型有?

A、詞向量模型

第8頁共75頁

B、詞袋模型

C、詞的分布式表示

D、TF-IDF

參考答案:A

24.對(duì)于SVM分類算法,待分樣本集中的大部分樣本不

是支持向量,下列說法正確的是?

A、需要將這些樣本全部強(qiáng)制轉(zhuǎn)換為支持向量

B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,

不能轉(zhuǎn)換的直接刪除

C、移去或者減少這些樣本對(duì)分類結(jié)果沒有影響

D、以上都不對(duì)

參考答案:C

25.在數(shù)據(jù)倉庫中,哪種類型的事實(shí)表通常包含詳細(xì)的

業(yè)務(wù)活動(dòng)數(shù)據(jù)?

A.累積快照事實(shí)表

B.事務(wù)事實(shí)表

C.周期快照事實(shí)表

D.無事實(shí)表(此選項(xiàng)不符合實(shí)際,僅為排除項(xiàng))

參考答案:B

第9頁共75頁

26.哪種類型的機(jī)器學(xué)習(xí)算法不依賴于數(shù)據(jù)實(shí)例的標(biāo)

簽進(jìn)行訓(xùn)練?

A.監(jiān)督學(xué)習(xí)

B.無監(jiān)督學(xué)習(xí)

C.半監(jiān)督學(xué)習(xí)

D.強(qiáng)化學(xué)習(xí)(強(qiáng)化學(xué)習(xí)雖然不完全依賴標(biāo)簽,但它通

常涉及獎(jiǎng)勵(lì)信號(hào),不完全等同于無監(jiān)督學(xué)習(xí))

參考答案:B

27.在數(shù)據(jù)科學(xué)中,A/B測試主要用于什么目的?

A.評(píng)估不同機(jī)器學(xué)習(xí)算法的性能

B.評(píng)估不同數(shù)據(jù)預(yù)處理方法的效果

C.評(píng)估網(wǎng)站或應(yīng)用的不同版本對(duì)用戶行為的影響

D.評(píng)估不同數(shù)據(jù)可視化工具的優(yōu)劣

參考答案:C

28.在使用深度學(xué)習(xí)進(jìn)行圖像分類時(shí),哪個(gè)層通常用于

輸出最終的分類結(jié)果?

A.卷積層

B.池化層

C.全連接層(或稱為密集層)

第10頁共75頁

D.激活層(但這里特指用于輸出的激活層,如softmax)

參考答案:D

29.在數(shù)據(jù)科學(xué)項(xiàng)目中,哪個(gè)步驟通常涉及將原始數(shù)據(jù)

轉(zhuǎn)換為可用于模型訓(xùn)練的形式?

A.數(shù)據(jù)收集

B.數(shù)據(jù)清洗

C.特征工程

D.模型訓(xùn)練

參考答案:C

30.當(dāng)圖像通過信道傳輸時(shí),噪聲一般與什么無關(guān)?

A.信道傳輸?shù)馁|(zhì)量

B.出現(xiàn)的圖像信號(hào)

C.是否有中轉(zhuǎn)信道的過程

D.圖像在信道前后的處理

參考答案:B

31.在留出法、交叉驗(yàn)證法和自助法三種評(píng)估方法中,

哪種更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測試集的情

況?

A.留出法

第11頁共75頁

B.交叉驗(yàn)證法

C.自助法

D.留一法

參考答案:C

32.在數(shù)據(jù)科學(xué)中,通??梢圆捎媚姆N方法有效避免數(shù)

據(jù)加工和數(shù)據(jù)備份的偏見?

A.A/B測試

B.訓(xùn)練集和測試集的劃分

C.測試集和驗(yàn)證集的劃分

參考答案:B

33.下列不屬于深度學(xué)習(xí)內(nèi)容的是?

A.深度置信網(wǎng)絡(luò)

B.受限玻爾茲曼機(jī)

C.卷積神經(jīng)網(wǎng)絡(luò)

D.貝葉斯學(xué)習(xí)

參考答案:D

34.在大數(shù)據(jù)項(xiàng)目中,哪個(gè)階段可能涉及使用數(shù)據(jù)工程

師來優(yōu)化數(shù)據(jù)查詢性能?

A.數(shù)據(jù)采集

第12頁共75頁

B.數(shù)據(jù)清洗

C.數(shù)據(jù)存儲(chǔ)與管理

D.數(shù)據(jù)分析與可視化

參考答案:C

35.以下哪個(gè)不是NoSQL數(shù)據(jù)庫的特點(diǎn)?

A.不保證事務(wù)的ACID特性

B.易于擴(kuò)展

C.支持復(fù)雜的SQL查詢

D.靈活的數(shù)據(jù)模型

參考答案:C

36.在數(shù)據(jù)倉庫設(shè)計(jì)中,星型模式與雪花模式的主要區(qū)

別在于?

A.存儲(chǔ)的數(shù)據(jù)量

B.表的連接方式

C.數(shù)據(jù)更新的頻率

D.數(shù)據(jù)的來源

參考答案:B

37.以下哪種算法常用于推薦系統(tǒng)中,基于用戶的歷史

行為預(yù)測其興趣?

第13頁共75頁

A.決策樹

B.協(xié)同過濾

C.樸素貝葉斯

D.邏輯回歸

參考答案:B

38.在數(shù)據(jù)預(yù)處理階段,缺失值處理的一種常用方法

是?

A.刪除包含缺失值的行或列

B.用均值、中位數(shù)或眾數(shù)填充

C.忽略缺失值,直接進(jìn)行后續(xù)分析

D.將缺失值視為一個(gè)新的類別

參考答案:B

39.下列哪個(gè)不是大數(shù)據(jù)處理面臨的挑戰(zhàn)?

A.數(shù)據(jù)安全性

B.數(shù)據(jù)實(shí)時(shí)性

C.數(shù)據(jù)一致性

D.數(shù)據(jù)存儲(chǔ)與計(jì)算成本

參考答案:C

40.在使用bmeans聚類算法時(shí),通常需要預(yù)先確定的

第14頁共75頁

參數(shù)是?

A.聚類中心的數(shù)量

B.數(shù)據(jù)點(diǎn)的維度

C.數(shù)據(jù)點(diǎn)的數(shù)量

D.聚類半徑

參考答案:A

41.哪種類型的機(jī)器學(xué)習(xí)算法適合處理非線性關(guān)系的

數(shù)據(jù)?

A.線性回歸

B.決策樹

C.邏輯回歸

D.樸素貝葉斯

參考答案:B

42.哪個(gè)不是大數(shù)據(jù)安全面臨的挑戰(zhàn)?

A.數(shù)據(jù)泄露

B.數(shù)據(jù)篡改

C.數(shù)據(jù)存儲(chǔ)成本

D.隱私保護(hù)

參考答案:C

第15頁共75頁

43.在機(jī)器學(xué)習(xí)中,哪種學(xué)習(xí)類型涉及在沒有明確標(biāo)記

的數(shù)據(jù)集上進(jìn)行訓(xùn)練?

A.監(jiān)督學(xué)習(xí)

B.無監(jiān)督學(xué)習(xí)

C.半監(jiān)督學(xué)習(xí)

D.強(qiáng)化學(xué)習(xí)

參考答案:B

44.以下哪個(gè)不是數(shù)據(jù)科學(xué)家在數(shù)據(jù)探索階段可能執(zhí)

行的任務(wù)?

A.數(shù)據(jù)清洗

B.缺失值處理

C.特征工程

D.模型部署(模型部署通常發(fā)生在數(shù)據(jù)探索和分析之后)

參考答案:D

45.在數(shù)據(jù)可視化中,哪種圖表類型最適合展示時(shí)間序

列數(shù)據(jù)?

A.條形圖

B.折線圖

C.餅圖

第16頁共75頁

D.熱力圖

參考答案:B

46.以下哪個(gè)不是大數(shù)據(jù)處理中的關(guān)鍵挑戰(zhàn)?

A.數(shù)據(jù)多樣性

B.數(shù)據(jù)實(shí)時(shí)性

C.數(shù)據(jù)安全性

D.數(shù)據(jù)一致性(在分布式系統(tǒng)中,數(shù)據(jù)一致性是一個(gè)重

要問題,但在大數(shù)據(jù)處理的上下文中,它通常不是首要挑戰(zhàn),

特別是與數(shù)據(jù)多樣性、實(shí)時(shí)性和安全性相比)

參考答案:D

47.哪種類型的數(shù)據(jù)庫最適合處理圖結(jié)構(gòu)數(shù)據(jù)?

A.關(guān)系型數(shù)據(jù)庫

B.文檔型數(shù)據(jù)庫

C.列式數(shù)據(jù)庫

D.圖數(shù)據(jù)庫

參考答案:D

48.在數(shù)據(jù)科學(xué)中,交叉驗(yàn)證(Cross-Validation)的

主要目的是什么?

A.減少過擬合

第17頁共75頁

B.加速模型訓(xùn)練

C.增加模型的復(fù)雜度

D.無需訓(xùn)練集和測試集的分割

參考答案:A

49.在機(jī)器學(xué)習(xí)中,梯度下降(GradientDescent)算

法屬于哪一類優(yōu)化算法?

A.局部搜索算法

B.貪心算法

C.動(dòng)態(tài)規(guī)劃

D.啟發(fā)式算法

參考答案:A

50.以下哪個(gè)不是自然語言處理(NLP)中的常見任務(wù)?

A.情感分析

B.命名實(shí)體識(shí)別

C.語音識(shí)別

D.機(jī)器翻譯

參考答案:C

51.以下哪個(gè)不是數(shù)據(jù)科學(xué)家在處理大數(shù)據(jù)時(shí)可能面

臨的挑戰(zhàn)?

第18頁共75頁

A.數(shù)據(jù)存儲(chǔ)和訪問

B.數(shù)據(jù)安全和隱私

C.數(shù)據(jù)可視化

D.實(shí)時(shí)數(shù)據(jù)處理

參考答案:C

52.在數(shù)據(jù)科學(xué)項(xiàng)目中,數(shù)據(jù)泄露(DataLeakage)指

的是什么?

A.數(shù)據(jù)在傳輸過程中被未經(jīng)授權(quán)的第三方獲取

B.在模型訓(xùn)練過程中,測試數(shù)據(jù)的信息被間接地用于

訓(xùn)練模型

C.數(shù)據(jù)在存儲(chǔ)過程中因硬件故障而丟失

D.數(shù)據(jù)在可視化時(shí)未進(jìn)行脫敏處理

參考答案:B

53.在機(jī)器學(xué)習(xí)中,正則化(Regularization)的主要

目的是什么?

A.增加模型的復(fù)雜度

B.減少模型的訓(xùn)練時(shí)間

C.防止過擬合

D.提高模型的解釋性

第19頁共75頁

參考答案:C

54.以下哪個(gè)不是數(shù)據(jù)預(yù)處理中處理缺失值的常用方

法?

A.刪除含有缺失值的行或列

B.用均值、中位數(shù)或眾數(shù)填充

C.使用插值法(如線性插值)

D.忽略缺失值,直接進(jìn)行模型訓(xùn)練

參考答案:D

55.在使用隨機(jī)森林(RandomForest)算法時(shí),哪個(gè)

參數(shù)的增加通常會(huì)導(dǎo)致模型變得更加復(fù)雜?

A.樹的數(shù)量

B.樹的深度

C.葉子節(jié)點(diǎn)所需的最小樣本數(shù)

D.分割節(jié)點(diǎn)所需的最小樣本數(shù)

參考答案:B

56.在使用機(jī)器學(xué)習(xí)模型時(shí),特征縮放(Feature

Scaling)的主要目的是什么?

A.提高模型的準(zhǔn)確率

B.加快模型的訓(xùn)練速度

第20頁共75頁

C.減少數(shù)據(jù)的存儲(chǔ)空間

D.使得不同量綱的特征能夠公平地比較

參考答案:D

二、多選題

1.在建立模型時(shí),需要用到0。

A.訓(xùn)練數(shù)據(jù)

B.測試數(shù)據(jù)

C.原始數(shù)據(jù)

D.驗(yàn)證數(shù)據(jù)

參考答案:ABD

2.決策樹的劃分選擇有()。

A.增益系數(shù)

B.信息增益

C.增益率

D.基尼系數(shù)

E、信息增益量

參考答案:BCD

3.關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用,以下說法正確的是()。

第21頁共75頁

A.數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確??勺匪?、可復(fù)查

B.前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實(shí)、完整

C.前序環(huán)節(jié)應(yīng)及時(shí)傳遞到后序環(huán)節(jié)

D.前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致

參考答案:ABCD

4.CNN相比于全連接的DNN有哪些優(yōu)勢()

A.參數(shù)更少

B.泛化更好

C.訓(xùn)練更快

D.更容易搭建;

參考答案:ABC

5.語音識(shí)別的方法包括()。

A.聲道模型方法

B.模板匹配的方法

C.利用仍神經(jīng)網(wǎng)絡(luò)的方法

D.語音知識(shí)方法

參考答案:ABCD

6.以下描述中屬于Analytics。的主要特點(diǎn)的是0。

第22頁共75頁

A.側(cè)重嵌入式分析

B.重視非結(jié)構(gòu)化數(shù)據(jù)的分析

C.以決策支持為主要目的

D.注重解釋性分析和預(yù)測性分析

參考答案:BCD

7.下面哪些是基于核的機(jī)器學(xué)習(xí)算法(_)。

A.最大期望算法

B.徑向基核函數(shù)

C.線性判別分析法

D.支持向量機(jī)

參考答案:BCD

8.Python的優(yōu)點(diǎn)有0。

A.變量不用預(yù)定義類型

B.數(shù)據(jù)結(jié)構(gòu)功能強(qiáng)大

C.語言可解釋性強(qiáng)

D.變量類型固定

參考答案:ABC

9.K均值聚類和層次聚類在一些方面有重大差異。以下

哪些說法是正確的()

第23頁共75頁

A.在K均值聚類中,必須在運(yùn)行算法前選定想要的簇的

個(gè)數(shù)

B.在k均值聚類中,可以在運(yùn)行算法后選定想要的簇的

個(gè)數(shù)

C.在層次聚類中,可以在運(yùn)行算法后選定想要的簇的個(gè)

數(shù)

D.k均值聚類算法所需的計(jì)算量比層次聚類算法小得多

參考答案:ACD

10.影響聚類算法效果的主要原因有:()

A.特征選取

B.模式相似性測度

C.分類準(zhǔn)則

D.已知類別的樣本質(zhì)量

參考答案:ABC

11.直方圖修正法包括0。

A.直方圖統(tǒng)計(jì)

B.直方圖均衡

C.直方圖過濾

D.直方圖規(guī)定化;

第24頁共75頁

參考答案:BD

12.特征選擇的目的:()。

A.減少特征數(shù)量、降維

B.使模型泛化能力更強(qiáng)

C.增強(qiáng)模型擬合能力

D.減少過擬合。

參考答案:ABD

13.LSTM應(yīng)用場景應(yīng)用場景有哪些0

A.翻譯語言

B.語音識(shí)別

C.圖像識(shí)別

D.股票預(yù)測

參考答案:ABD

14.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動(dòng)包括()。

A.模式/模型的應(yīng)用及維護(hù)

B.模式/模型的洞見

C.結(jié)果的可視化與文檔化

D,模式/模型的驗(yàn)證和優(yōu)化

第25頁共75頁

參考答案:ABCD

15.以下屬于規(guī)則的分詞方法的是()。

A.正向最大匹配法

B.逆向最大匹配法

C.雙向最大匹配法

D.條件隨機(jī)場

參考答案:ABC

16.集成學(xué)習(xí)中多樣性的增強(qiáng)有哪些0

A.數(shù)據(jù)樣本擾動(dòng)

B.輸入屬性擾動(dòng)

C.輸出表示擾動(dòng)

D.算法參數(shù)擾動(dòng)

參考答案:ABCD

17.下列哪些現(xiàn)象屬于乘性噪聲()。

A.電視光柵的退化

B.二值圖像上的胡椒鹽噪聲

C.信道傳輸受擾

D,膠片材料的退化

第26頁共75頁

參考答案:AD

18.在支持向量機(jī)中,參數(shù)的選取會(huì)影響擬合的結(jié)果,

如果出現(xiàn)過擬合的現(xiàn)象,則導(dǎo)致該結(jié)果的原因有可能是(_)。

A.其他參數(shù)保持不變,C值過大

B.其他參數(shù)保持不變,入值較少

C.其他參數(shù)保持不變,。較大

D.其他參數(shù)保持不變,。較小

參考答案:ABD

19.常用的爬蟲技巧有以下哪些()。

A.更改header,偽裝成瀏覽器進(jìn)行爬取

B.設(shè)置爬取的時(shí)間間隔

C.應(yīng)用神經(jīng)網(wǎng)絡(luò)算法識(shí)別網(wǎng)站驗(yàn)證碼

D.通過代理服務(wù)器進(jìn)行爬取

參考答案:ABCD

20.下列哪些是詞語情感分析的方法()。

A.基于網(wǎng)絡(luò)的分析方法

B.基于word-embedding的分析方法

C.基于詞典的分析方法

D.基于詞頻的分析方法

第27頁共75頁

參考答案:AC

21.大數(shù)據(jù)的參考架構(gòu)分為哪三個(gè)層次()

A.角色

B.活動(dòng)

C.邏輯構(gòu)件

D.功能組件

參考答案:ABD

22.Spark有哪些缺陷()。

A.于內(nèi)存的計(jì)算

B.持Schema信息

C.支持增量迭代計(jì)算

D.支持細(xì)粒度更新操作

參考答案:CD

23.在BP網(wǎng)絡(luò)中,常用于緩解其過擬合的策略有0。

A.早停策略

B.正則化策略

C.全局最小策略

D.局部最小策略

第28頁共75頁

參考答案:AB

24.數(shù)據(jù)可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),

將數(shù)據(jù)轉(zhuǎn)換成?;?)在屏幕上顯示出來,并進(jìn)行交互處理的

理論、方法和技術(shù)。

A.文字

B.圖形

C.圖像

D.視頻

參考答案:BC

25.下列哪些是情感分析的應(yīng)用場景0。

A.數(shù)據(jù)挖掘

B.信息檢索

C.文本分詞

D.市場營銷

參考答案:ABD

26.常用的沖突消解策略有包括()。

A.投票法

B.排序法

C.元規(guī)則法

第29頁共75頁

D.調(diào)研法

參考答案:ABC

27.線性模型的基本形式有0。

A.線性回歸

B.對(duì)數(shù)幾率回歸(二分類問題)

C.線性判別分析(Fisher判別分析)

D.多分類學(xué)習(xí)

參考答案:ABCD

28.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是()。

A.深度優(yōu)先遍歷策略

B.廣度優(yōu)先遍歷策略

C.高度優(yōu)先遍歷策略

D.反向鏈接策略

E、大站優(yōu)先策略

參考答案:AB

29.請(qǐng)問下面哪些是離散型變量()。

A.示波器

B.心電圖及腦動(dòng)電圖掃描器對(duì)腦電波的測量

第30頁共75頁

C.過去數(shù)月的總銷售額

D.公司每年的紅利

參考答案:CD

30.分布式列式存儲(chǔ)的功能有0。

A.支持在線快速讀寫

B.支持線性擴(kuò)展

C.具備節(jié)點(diǎn)監(jiān)控管理

D.數(shù)據(jù)同源不壓縮

參考答案:ABC

31.數(shù)據(jù)從產(chǎn)生到終結(jié)共有()環(huán)節(jié)。

A.數(shù)據(jù)產(chǎn)生環(huán)節(jié)

B.數(shù)據(jù)傳輸環(huán)節(jié)

C.數(shù)據(jù)使用環(huán)節(jié)

D.數(shù)據(jù)共享環(huán)節(jié)

E、數(shù)據(jù)銷毀環(huán)節(jié)

參考答案:ABCDE

32.關(guān)于HDFS的文件寫入,正確的是()。

A.不支持多用戶對(duì)同一文件的寫操作;

第31頁共75頁

B.用戶不可以在文件任意位置進(jìn)行修改;

C.默認(rèn)將文件復(fù)制成三份存放;

D.復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上;

參考答案:ABCD7

33.下面對(duì)LDA判別分析的思想描述正確的是()。

A.同類樣例的投影點(diǎn)盡可能近

B.異類樣例的投影點(diǎn)盡可能遠(yuǎn)

C.同類樣例的投影點(diǎn)盡可能遠(yuǎn)

D.異類樣例的投影點(diǎn)盡可能近

參考答案:AB

34.下面屬于范數(shù)規(guī)則化的作用的是0和()。

A.保證模型盡可能的簡單,避免過擬合

B.約束模型特征

C.最小化問題

D.最大化問題

參考答案:AB

35.我們想要減少數(shù)據(jù)集中的特征數(shù),即降維.選擇以

下適合的方案:()。

A.使用前向特征選擇方法

第32頁共75頁

B.使用后向特征排除方法

C.我們先把所有特征都使用,去訓(xùn)練一個(gè)模型,得到測

試集上的表現(xiàn).然后我們?nèi)サ粢粋€(gè)特征,再去訓(xùn)練,用交叉驗(yàn)

證看看測試集上的表現(xiàn).如果表現(xiàn)比原來還要好,我們可以

去除這個(gè)特征

D.查看相關(guān)性表,去除相關(guān)性最高的一些特征

參考答案:ABCD

36.以下說法正確的是0。

A.負(fù)梯度方向是使函數(shù)值下降最快的方向

B.當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí),梯度下降法的解是全局最優(yōu)

C.梯度下降法比牛頓法收斂速度快

D.擬牛頓法不需要計(jì)算Hesse矩陣

參考答案:ABD

37.對(duì)于主成分分析方法,降維后低維空間的維數(shù)d可

以通過()方法確定。

A.由用戶事先指定

B.通過在d值不同的低維空間中對(duì)開銷較小的學(xué)習(xí)器進(jìn)

行交叉驗(yàn)證來選取

第33頁共75頁

C.可從重構(gòu)的角度設(shè)置一個(gè)重構(gòu)閾值,選取使得特定公

式成立的最小值

D.隨機(jī)設(shè)置

參考答案:ABC

38.變量名可以包含()。

A.字母

B.數(shù)字

C.下劃線

D.空格

參考答案:ABC

39.從可視化處理視角看,可以將數(shù)據(jù)分為四個(gè)類型()

并采用不同的視覺映射方法。

A.定類數(shù)據(jù)

B.定序數(shù)據(jù)

C.定距離數(shù)據(jù)

D.定比暑假

參考答案:ABCD

40.下列關(guān)于特征的稀疏性說法正確的是()。

A.稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)

第34頁共75頁

B.稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開銷

C.學(xué)習(xí)任務(wù)難度可能有所降低

D.稀疏矩陣沒有高效的存儲(chǔ)方法

參考答案:ABC

41.數(shù)據(jù)可視化中,從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑()。

A.可視化分析

B.自動(dòng)化建模

C.用戶交互

D.參數(shù)優(yōu)化

參考答案:AB

42.在數(shù)據(jù)缺失嚴(yán)重時(shí),會(huì)對(duì)分析結(jié)果造成較大的影響,

因此剔除的異常值和缺失值,要采用合理的方法進(jìn)行填補(bǔ),

常用的方法有()。

A.平均值填充

B.K最近鄰距離法

C.回歸法

D.極大似然估計(jì)

E、多重插補(bǔ)法

參考答案:ABCDE

第35頁共75頁

43.假設(shè)目標(biāo)遍歷的類別非常不平衡,即主要類別占據(jù)

了訓(xùn)練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)

確度,那么下面說法正確的是:()。

A.準(zhǔn)確度并不適合衡量不平衡類別問題

B.準(zhǔn)確度適合衡量不平衡類別問題

C.精確度和召回率適合于衡量不平衡類別問題

D.精確度和召回率不適合衡量不平衡類別問題

參考答案:AC

44.圖像壓縮是建立在圖像存在()幾種冗余之上。

A.編程冗余

B.像素間冗余

C.心理視覺冗余

D.計(jì)算資源冗余

參考答案:ABC

45.圖像識(shí)別的一般步驟包括0。

A.預(yù)處理

B.特征提取

C.超像素生成

D.識(shí)別分類

第36頁共75頁

參考答案:ABD

46.RDD具有()和()特征。

A.可容錯(cuò)性;

B.簡潔性;

C.并行數(shù)據(jù)結(jié)構(gòu);

D.結(jié)構(gòu)化;

參考答案:AC

47.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。

A.卷積層

B.中間層

C.池化層

D.全連接層

參考答案:ACD

48.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為()和隨機(jī)型網(wǎng)絡(luò)等。

A.前向型

B.后向型

C.反饋型

D.自組織競爭型

第37頁共75頁

參考答案:ACD

49.空間域?yàn)V波是直接以圖像中的像素操作為基礎(chǔ)的

濾波,空間濾波器有時(shí)也可稱為()。

A.空間掩模

B.核

C.模板

D.窗口

參考答案:ABCD

50.下面關(guān)于單樣本t檢驗(yàn)的說法,錯(cuò)誤的是()。

A.當(dāng)單樣本t檢驗(yàn)的自由度越來越大時(shí),正態(tài)分布越來

越趨向于t分布

B.單樣本t檢驗(yàn)適用于樣本量比較多(n>30)的情況

C.t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量

比較小

D.單樣本t檢驗(yàn)通常也被叫做學(xué)生t檢驗(yàn)

參考答案:ABC

51.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。

A.采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以

第38頁共75頁

B.JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)

C.二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式

D.字典不可以表示二維以上的高維數(shù)據(jù)

參考答案:ABC

52.下列哪些項(xiàng)屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的性質(zhì)()

A.上一時(shí)刻的網(wǎng)絡(luò)狀態(tài)信息將會(huì)作用于下一時(shí)刻的網(wǎng)

絡(luò)狀態(tài)

B.并行處理序列中所有信息

C.容易梯度爆炸/消失

D.易于搭建

參考答案:AC

53.關(guān)于總體和樣本的說法,正確的是:

A.總體也就是研究對(duì)象的全體

B.如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣

本可以是每間隔10秒抽取的產(chǎn)品

C.樣本是從總體的隨機(jī)抽樣

D.如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是

一年級(jí)的100名學(xué)生

參考答案:ABC

第39頁共75頁

54.數(shù)據(jù)可視化涉及到()等多個(gè)領(lǐng)域,成為研究數(shù)據(jù)表

示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。

A.計(jì)算機(jī)圖形學(xué)

B.圖像處理

C.計(jì)算機(jī)視覺

D.計(jì)算機(jī)輔助設(shè)計(jì)

參考答案:ABCD

55.下列場景適合使用Python的是()。

A.可作為腳本語言,快速編寫小型程序、腳本等

B.可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域

C.可作為膠水語言,整合如C++等語言代碼

D.Python適用于低延時(shí)、高利用率的應(yīng)用場景

參考答案:ABC

56.下列關(guān)于PCA說法正確的是()。

A.在使用PCA之前,我們必須標(biāo)準(zhǔn)化數(shù)據(jù)

B.應(yīng)該選擇具有最大方差的主成分

C.應(yīng)該選擇具有最小方差的主成分

D,可以使用PCA在低維空間中可視化數(shù)據(jù)

參考答案:ABD

第40頁共75頁

57.以下哪幾項(xiàng)屬于漢語未登錄詞的類型()。

A.存在于詞典但出現(xiàn)頻率較少的詞

B.新出現(xiàn)的普通詞匯

C.專有名詞

D.專業(yè)名詞和研究領(lǐng)域名稱

參考答案:BCD

58.以下關(guān)于降維方法,敘述正確的是()。

A.主成分分析是一種常用的非線性降維方法

B.核化線性降維是一種常用的線性降維方法

C.流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法

D.度量學(xué)習(xí)繞過降維的過程,將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離

度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)

參考答案:CD

59.關(guān)于降維說法正確的是()。

A.PA是根據(jù)方差這一屬性降維的

B.降維可以防止模型過擬合

C.降維降低了數(shù)據(jù)集特征的維度

D.降維方法有PLA等

參考答案:ACD

第41頁共75頁

60.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。

A.具有勞動(dòng)增值

B.涉及法律權(quán)屬

C.具有財(cái)務(wù)價(jià)值

D.涉及道德與倫理

參考答案:ABCD

61.以下算法中可以應(yīng)用于圖像分割的是()。

A.邊緣檢測技術(shù)

B.閾值分割技術(shù)

C.基于區(qū)域的分割技術(shù)

D.區(qū)域生長方法

參考答案:ABCD

62.下列關(guān)于密度聚類說法錯(cuò)誤的是(_)。

A.DBSCAN是一種著名的密度聚類算法

B.密度聚類從樣本數(shù)量的角度來考察樣本之間的可連

接性

C.密度聚類基于不可連接樣本不斷擴(kuò)展聚類簇易獲得

最終的聚類結(jié)果

D,密度直達(dá)關(guān)系通常滿足對(duì)稱性

第42頁共75頁

參考答案:BCD

63.隨機(jī)森林在做數(shù)據(jù)處理方面有什么優(yōu)勢()。

A.不需要做缺失值處理

B.不需要處理噪音

C.不需要做特征選擇

D.不需要平衡數(shù)據(jù)集

參考答案:ACD

64.特征向量的歸一化方法有哪些()

A.線性函數(shù)轉(zhuǎn)換

B.對(duì)數(shù)函數(shù)轉(zhuǎn)換

C.反余切函數(shù)轉(zhuǎn)換

D.減去均值,除以方差

參考答案:ABCD

65.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品

的本質(zhì)特征,表現(xiàn)在()方面。

A.數(shù)據(jù)驅(qū)動(dòng)

B.數(shù)據(jù)密集型

C.數(shù)據(jù)范式

D.數(shù)據(jù)可視化

第43頁共75頁

參考答案:ABC

66.以下關(guān)于集成學(xué)習(xí)的說法正確的是:()。

A.隨機(jī)森林是減少模型的方差,而GBDT是減少模型的偏

B.組成隨機(jī)森林的樹可以并行生成,而GBDT是串行生成

C.隨機(jī)森林的結(jié)果是多數(shù)表決表決的,而GBDT則是多棵

樹累加之和

參考答案:ABC

67.常用的數(shù)據(jù)審計(jì)方法可以分為()。

A.預(yù)定義審計(jì)

B.自定義審計(jì)

C.可視化審計(jì)

D.結(jié)構(gòu)化審計(jì)

參考答案:ABC

68.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在()。

A.決策樹選擇的隨機(jī)性

B.數(shù)據(jù)集的隨機(jī)性

C.待選特征的隨機(jī)性

D,參數(shù)選擇的隨機(jī)性

第44頁共75頁

參考答案:BC

69.有兩種策略常用來緩解BP網(wǎng)絡(luò)的過擬合,分別是()

和()。

A.晚停

B.早停

C.正則化

D.加入損失函數(shù)

參考答案:BC

70.預(yù)剪枝使得決策樹的很多分子都沒有展開,會(huì)導(dǎo)致

Oo

A.顯著減少訓(xùn)練時(shí)間開銷

B.顯著減少測試時(shí)間開銷

C.降低過擬合風(fēng)險(xiǎn)

D.提高欠擬合風(fēng)險(xiǎn)

參考答案:ABCD

71.一個(gè)監(jiān)督觀測值集合會(huì)被劃分為0。

A.訓(xùn)練集

B.驗(yàn)證集

C.測試集

第45頁共75頁

D.預(yù)處理集

參考答案:ABC

72.關(guān)于梯度消失和梯度消失,以下說法正確的

是:(_)。

73.A.根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸

出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個(gè)結(jié)果是

99,在經(jīng)過足夠多層傳播之后,誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于0

B.可以采用ReLU激活函數(shù)有效的解決梯度消失的情況

C.根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對(duì)上一層的輸出的

偏導(dǎo)乘上權(quán)重結(jié)果都大于1的話,在經(jīng)過足夠多層傳播之后,

誤差對(duì)輸入層的偏導(dǎo)會(huì)趨于無窮大

D.可以通過減小初始權(quán)重矩陣的值來緩解梯度爆炸

參考答案:ABCD

74.循環(huán)神經(jīng)網(wǎng)絡(luò)主要被應(yīng)用于哪些場景(_)。

A.語音識(shí)別

B.語音建模

C.機(jī)器翻譯

D.圖像識(shí)別

參考答案:ABC

第46頁共75頁

75.以下屬于頻率域圖像濾波的方法有()。

A.中值濾波

B.均值濾波

C.布特沃斯濾波

D.高斯濾波

參考答案:CD

76.卷積神經(jīng)網(wǎng)絡(luò)中常用的池化函數(shù)包括()。

A.最大池化函數(shù)

B.L2范數(shù)

C.相鄰矩形區(qū)域內(nèi)的平均值

D.基于據(jù)中心像素距離的加權(quán)平均函數(shù)

參考答案:ABCD

77.ETL技術(shù)主要涉及0操作。

A.抽取

B.轉(zhuǎn)換

C.加載

D.分析

參考答案:ABC

第47頁共75頁

78.以下可用于處理由于光照不均帶來的影響的圖像

處理方法有()。

A.同態(tài)濾波

B.頂帽變換

C.基于移動(dòng)平均的局部閾值處理

D.拉普拉斯算子

參考答案:ABC

79.下面關(guān)于Python中的列表和字典說法正確的是()。

A.字典和列表都可以通過“口”操作符訪問元素的值

B.列表的索引必須是整型數(shù)或者切片

C.字典不過是列表的另一個(gè)名字。二者沒有區(qū)別

D.字典的長度是動(dòng)態(tài)的,而列表的長度是固定的

參考答案:AB

80.ETL包含下列哪些過程()

A.數(shù)據(jù)抽取

B.數(shù)據(jù)轉(zhuǎn)換

C.數(shù)據(jù)加載

D.數(shù)據(jù)展現(xiàn)

參考答案:ABC

第48頁共75頁

81.處理圖像平滑處理的濾波有()。

A.盒式濾波

B.均值濾波

C.高斯濾波

D.中值濾波

參考答案:ABCD

82.參數(shù)估計(jì)可以分為0。

A.點(diǎn)估計(jì)

B.一致估計(jì)

C.區(qū)間估計(jì)

D.無偏估計(jì)

參考答案:AC

83.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)0

A.表結(jié)構(gòu)schema擴(kuò)展不方便

B.全文搜索功能較弱

C.大數(shù)據(jù)場景下I/O較高

D.存儲(chǔ)和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱

參考答案:ABCD

第49頁共75頁

84.以下哪些濾波器能在卷積窗口的邊界上使卷積掩

膜中心像素和它的4-鄰接點(diǎn)的系數(shù)降至0附近()。

A.同態(tài)濾波

B.高斯濾波

C.巴特沃斯濾波

D.中值濾波

參考答案:BC

85.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中正確的是()。

A.可用于處理時(shí)間序列數(shù)據(jù)

B.可用于處理圖像數(shù)據(jù)

C.卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算

D.至少在網(wǎng)絡(luò)的一層中使用卷積

參考答案:ABD

86.對(duì)于不同場景內(nèi)容,一般數(shù)字圖像可以分為()。

A.二值圖像

B.灰度圖像

C.彩色圖像

D.深度圖像

參考答案:ABC

第50頁共75頁

87.下面關(guān)于中心極限定理的說法,正確的是:

A.中心極限定理說明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,

其均值的分布以正態(tài)分布為極限

B.中心極限定理說明,對(duì)于大量相互獨(dú)立的隨機(jī)變量,

其均值的分布以t分布為極限

C.中心極限定理為Z檢驗(yàn)提供了理論支持

D.中心極限定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的基礎(chǔ)

參考答案:ACD

88.下列關(guān)于情感分析的說法正確的是()。

A.簡單而言,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、

處理、歸納和推理的過程

B.情感分析的發(fā)展得益于社交媒體的興起

C.按照處理文本的粒度不同,情感分析大致可分為詞語

級(jí),句子級(jí)、篇章級(jí)三個(gè)

D.情感分析可以應(yīng)用于文本挖掘

參考答案:ABCD

89.下列既可以用于分類,又可以用于回歸的機(jī)器學(xué)習(xí)

算法有:

A.k近鄰

第51頁共75頁

B.邏輯回歸

C.決策樹

D.線性回歸

參考答案:AC

90.數(shù)據(jù)安全不僅包括數(shù)據(jù)保密性,還包括()。

A.完整性

B,可用性

C.不可否認(rèn)性

D.可審計(jì)性

參考答案:ABCD

91.異常值的檢測方法有()

A.直接通過數(shù)據(jù)可視化進(jìn)行觀察

B.通過統(tǒng)計(jì)分布進(jìn)行判斷

C.通過相對(duì)距離進(jìn)行度量

D.通過相對(duì)密度進(jìn)行度量

參考答案:ABCD

92.深度學(xué)習(xí)方法不適用于以下哪些場景()。

A.數(shù)據(jù)樣本充足

第52頁共75頁

B.數(shù)據(jù)樣本不足

C.數(shù)據(jù)集具有局部相關(guān)特性

D.數(shù)據(jù)集沒有局部相關(guān)特性

參考答案:BD

93.以下對(duì)模型性能提高有幫助的是0。

A.數(shù)據(jù)預(yù)處理

B.特征工程

C.機(jī)器學(xué)習(xí)算法

D.模型集成

參考答案:ABCD

94.在Hive架構(gòu)中支持對(duì)數(shù)據(jù)的操作有()。

A.插入

B.查詢

C.刪除

D.分析;

參考答案:BD

95.以下圖像技術(shù)中屬于圖像處理技術(shù)的是0。

A.圖像編碼

第53頁共75頁

B.圖像合成

C.圖像增強(qiáng)

D.圖像分類

參考答案:AC

96.回歸分析有很多種類,常見的有()。

A.線性回歸

B.系數(shù)回歸

C.邏輯回歸

D.曲線回歸

參考答案:ACD

97.算法“歧視”現(xiàn)象可能出現(xiàn)在()。

A.算法設(shè)計(jì)

B.算法實(shí)現(xiàn)

C.算法投入使用

D.算法驗(yàn)證

參考答案:ABC

98.下面關(guān)于機(jī)器學(xué)習(xí)的理解正確的是()。

A.非監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)是要求帶標(biāo)簽的

第54頁共75頁

B.監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別在于是否要求樣本數(shù)

據(jù)帶標(biāo)簽

C.強(qiáng)化學(xué)習(xí)以輸入數(shù)據(jù)作為對(duì)模型的反饋

D.卷積神經(jīng)網(wǎng)絡(luò)一般用于圖像處理等局部特征相關(guān)的

數(shù)據(jù)

參考答案:BCD

99.決策樹()情況下會(huì)導(dǎo)致遞歸返回。

A.當(dāng)前節(jié)點(diǎn)包含的樣本全屬于同一類

B.當(dāng)前屬性集為空

C.當(dāng)前節(jié)點(diǎn)包含的樣本集合為空

D.所有樣本在所有屬性上取值相同

參考答案:ABCD

100.下列關(guān)于數(shù)據(jù)科學(xué)中常用的統(tǒng)計(jì)學(xué)知識(shí)說法錯(cuò)誤

的是()。

A.從行為目的與思維方式看,數(shù)據(jù)統(tǒng)計(jì)方法可以分為基

本分析方法和元分析方法

B.從方法論角度看,基于統(tǒng)計(jì)的數(shù)據(jù)分析方法又可分為

描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)

C.描述統(tǒng)計(jì)可分為集中趨勢分析、離中趨勢分析、參數(shù)

第55頁共75頁

估計(jì)和假設(shè)檢驗(yàn)

D.推斷統(tǒng)計(jì)包括采樣分布和相關(guān)分析

參考答案:ABCD

101.()是通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來進(jìn)行分類的。

A.密度估計(jì)

B.異常檢測

C.線性回歸

D.聚類分析

參考答案:ABD

102.數(shù)據(jù)再利用的意義在于()

A.挖掘數(shù)據(jù)的潛在價(jià)值

B.提高社會(huì)效益,優(yōu)化社會(huì)管理

C.實(shí)現(xiàn)數(shù)據(jù)重組的創(chuàng)新價(jià)值

D.優(yōu)化存儲(chǔ)設(shè)備,降低設(shè)備成本E、利用數(shù)據(jù)可拓展性拓

寬業(yè)務(wù)領(lǐng)域

參考答案:ACE

103.非頻繁模式0。

A.其支持度小于閾值

B,都是不讓人感興趣的

第56頁共75頁

C.包含負(fù)模式和負(fù)相關(guān)模式

D.對(duì)異常數(shù)據(jù)項(xiàng)敏感

參考答案:AD

104.機(jī)器學(xué)習(xí)的三個(gè)關(guān)鍵組成要素是()。

A.任務(wù)T

B.性能指標(biāo)P

C.目標(biāo)函數(shù)V

D.經(jīng)驗(yàn)來源E

參考答案:ABD

105.圖像數(shù)字化應(yīng)該包括哪些過程()。

A.采樣

B.模糊

C.量化

D.統(tǒng)計(jì)

參考答案:AC

106.以下關(guān)于CSV文件的描述,正確的選項(xiàng)是()。

A.CSV文件可用于不同工具間進(jìn)行數(shù)據(jù)交換

B.CSV文件格式是一種通用的,相對(duì)簡單的文件格式,應(yīng)

用于程序之間轉(zhuǎn)移表格數(shù)據(jù)。

第57頁共75頁

c.SV文件通過多種編碼表示字符

D.CSV文件的每一行是一維數(shù)據(jù),可以使用Python中的

列表類型表示

參考答案:ABD

107.AnalyticsO的主要特點(diǎn)有0。

A.分析活動(dòng)滯后于數(shù)據(jù)的生成

B.重視結(jié)構(gòu)化數(shù)據(jù)的分析

C.以對(duì)歷史數(shù)據(jù)的理解為主要目的

D.注重描述性分析

參考答案:ABCD

108.Spark的技術(shù)架構(gòu)可以分為哪幾層()。

A.資源管理層;

B.Spark核心層;

C.應(yīng)用層;

D.服務(wù)層;

參考答案:ABD

109.完整性約束通常包括()

A.實(shí)體完整性

B.域完整性

第58頁共75頁

C.參照完整性

D.用戶定義完整性

參考答案:ABCD

110.EDA(探索性數(shù)據(jù)分析)方法與傳統(tǒng)統(tǒng)計(jì)學(xué)的驗(yàn)證

性分析方法的區(qū)別有()。

A.EDA需要事先提出假設(shè),而驗(yàn)證性分析不需要

B.EDA中采用的方法往往比驗(yàn)證性分析簡單

C.在一般數(shù)據(jù)科學(xué)項(xiàng)目中,探索性分析在先,驗(yàn)證性分

析在后

D.EDA更為簡單、易學(xué)和易用

參考答案:BCD

111.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說法正確的是

Oo

A.歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假

設(shè)

B.歸納學(xué)習(xí)論證方式為統(tǒng)計(jì)推理,分析學(xué)習(xí)為演繹推理

C.歸納學(xué)習(xí)不需要隱式的先驗(yàn)知識(shí)

D.訓(xùn)練數(shù)據(jù)不足時(shí)歸納學(xué)習(xí)可能會(huì)失敗

參考答案:ABCD

第59頁共75頁

112.統(tǒng)計(jì)模式分類問題中,當(dāng)先驗(yàn)概率未知時(shí),可以使

用()。

A.最小最大損失準(zhǔn)則

B.最小誤判概率準(zhǔn)則

C.最小損失準(zhǔn)則

D.N-P判決

參考答案:AD

113.HBase性能優(yōu)化包含下面的哪些選項(xiàng)()。

A.讀優(yōu)化

B.寫優(yōu)化

C,配置優(yōu)化

D.JVM優(yōu)化

參考答案:ABCD

114.下列哪個(gè)是Hadoop運(yùn)行的模式()。

A.單機(jī)版

B.偽分布式

C.分布式

D.全分布式

參考答案:ABC

第60頁共75頁

115.下列屬于CNN關(guān)鍵層的是(_)。

A.輸入層

B.卷積層

C.激活層

D.池化層

參考答案:ABCD

116.關(guān)于神經(jīng)元的敘述,哪些是正確的()

A.每個(gè)神經(jīng)元可以有一個(gè)輸入和一個(gè)輸出

B.每個(gè)神經(jīng)元可以有多個(gè)輸入和一個(gè)輸出

C.每個(gè)神經(jīng)元可以有多個(gè)輸入和多個(gè)輸出

D.每個(gè)神經(jīng)元可以有多個(gè)輸出和一個(gè)輸入

參考答案:ABCD

117.哪些項(xiàng)不屬于使用池化層相比于相同步長的卷積

層的優(yōu)勢()

A.參數(shù)更少

B.可以獲得更大下采樣

C.速度更快

D,有助于提升精度

參考答案:BCD

第61頁共75頁

H8.使用極大似然估計(jì)的前提條件有0。

A.數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型

B.已經(jīng)得到了一部分?jǐn)?shù)據(jù)集

C.提前已知某先驗(yàn)概率

D.數(shù)據(jù)集各個(gè)屬性相對(duì)獨(dú)立

參考答案:AB

119.以下描述中正確的是()。

A.統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

B.Python語言是統(tǒng)計(jì)學(xué)家發(fā)明的語言

C.機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一

D.數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域(子學(xué)科)

參考答案:AC

120.傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點(diǎn)包括0。

A.數(shù)據(jù)一致性高

B.數(shù)據(jù)冗余度低

C.簡單處理的效率高

D.產(chǎn)品成熟度高

參考答案:ABD

第62頁共75頁

121.Python的模塊符合以下哪些說法()。

A.模塊讓你能夠有邏輯地組織你的Python代碼段

B.Python擁有豐富的模塊,不支持自定義模塊

C.把相關(guān)的代碼分配到一個(gè)模塊里能讓你的代碼更好

用,更易懂

D.模塊能定義函數(shù),類和變量,模塊里也能包含可執(zhí)行

的代碼。

參考答案:ACD

122.關(guān)于神經(jīng)網(wǎng)絡(luò),下列說法正確的是()

A.增加網(wǎng)絡(luò)層數(shù),可能會(huì)增加測試集分類錯(cuò)誤率

B.增加網(wǎng)絡(luò)層數(shù),一定會(huì)增加訓(xùn)練集分類錯(cuò)誤率

C.減少網(wǎng)絡(luò)層數(shù),可能會(huì)減少測試集分類錯(cuò)誤率

D.減少網(wǎng)絡(luò)層數(shù),一定會(huì)減少訓(xùn)練集分類錯(cuò)誤率

參考答案:AC

123.Flume特點(diǎn)包括()。

A.分布式

B.高可靠

C.IWJ容錯(cuò)

D.易于定制和擴(kuò)展

第63頁共75頁

參考答案:ABCD

124.深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)的說法正確的是

(_)。

A.DL強(qiáng)調(diào)模型深度

B.DL突出特征學(xué)習(xí)的重要性.特征變換+非人工

C.沒有區(qū)別

D.以上答案都不正確

參考答案:AB

125.如何在監(jiān)督式學(xué)習(xí)中使用聚類算法0

A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應(yīng)用

監(jiān)督式學(xué)習(xí)算法

B.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,可以將其類別ID作為特

征空間中的一個(gè)額外的特征

C.在應(yīng)用監(jiān)督式學(xué)習(xí)之前,不能創(chuàng)建聚類

D.在應(yīng)用監(jiān)督式學(xué)習(xí)算法之前,不能將其類別ID作為特

征空間中的一個(gè)額外的特征

參考答案:AB

126.(__)可以幫助解決訓(xùn)練集在特征空間中線性不可

分的問題。

第64頁共75頁

A.硬間隔

B.軟間隔

C.核函數(shù)

D.拉格朗日乘子法

參考答案:BC

127.下面關(guān)于連續(xù)型隨機(jī)變量以及連續(xù)型概率密度函

數(shù)的說法,正確的是。

A.“一個(gè)客服一天可能接聽到多少個(gè)電話”是一個(gè)連續(xù)

型隨機(jī)變量

B.正態(tài)分布是一種連續(xù)型隨機(jī)變量的概率分布

C.可以使用概率密度函數(shù)來描述連續(xù)型隨機(jī)變量的概

率分布

D.連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

參考答案:BCD

128.假設(shè)檢驗(yàn)中,首先需要提出零假設(shè)和備擇假設(shè),零

假設(shè)是(),備擇假設(shè)是()。

A.只有出現(xiàn)的概率大于閾值才會(huì)被拒絕的,只有零假設(shè)

出現(xiàn)的概率大于閾值才會(huì)被承認(rèn)的

B.希望推翻的結(jié)論,希望證明的結(jié)論

第65頁共75頁

C.只有出現(xiàn)的概率小于閾值才會(huì)被拒絕的,只有零假設(shè)

出現(xiàn)的概率小于閾值才會(huì)被承認(rèn)的

D.希望證明的結(jié)論,希望推翻的結(jié)論

參考答案:BC

129.數(shù)據(jù)科學(xué)基本原則中,三世界原則指的是()

A.我們的世界

B.數(shù)據(jù)世界

C.物理世界

D.數(shù)字世界

參考答案:ABC

130.某單位運(yùn)用隨機(jī)森林算法思想建立搶修熱點(diǎn)模型。

該模型主要預(yù)測下期臺(tái)區(qū)工單數(shù)量,構(gòu)建搶修熱點(diǎn)。以下模

型算法構(gòu)建步驟中合理的順序是:()。

A.將歷史數(shù)據(jù)進(jìn)行隨機(jī)自助法重抽樣,生成N個(gè)訓(xùn)練樣

本集

B.將N個(gè)訓(xùn)練樣本集分別做決策樹,生成N棵決策樹

C.將N棵決策樹隨機(jī)構(gòu)成隨機(jī)森林

D.未來根據(jù)預(yù)測樣本氣候環(huán)境、設(shè)備屬性、設(shè)備工況進(jìn)

行隨機(jī)森林決策投票,得出針對(duì)該預(yù)測樣本最優(yōu)的決策樹進(jìn)

第66頁共75頁

行運(yùn)算,并計(jì)算出最終結(jié)果。

參考答案:ABCD

131.針對(duì)維數(shù)災(zāi)難,我們主要采用的降維方法有哪些

Oo

A.多維縮放

B.主成分分析

C.核化線性降維

D.流形學(xué)習(xí)

E、度量學(xué)習(xí)

參考答案:ABCDE

132.特征工程一般需要做哪些工作()。

A.正則化

B.標(biāo)準(zhǔn)化

C.特征處理

D.特征選擇

參考答案:CD

133.圖像識(shí)別的精度會(huì)受

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論