HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第1頁(yè)
HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第2頁(yè)
HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第3頁(yè)
HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第4頁(yè)
HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第5頁(yè)
已閱讀5頁(yè),還剩157頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

HCIE-BigData-DataMiningH13-731筆試必備題庫(kù)(重點(diǎn)題)

一'單選題

1.以下哪個(gè)選項(xiàng)不是矩陣乘法對(duì)向量的變換?

A、投影

B、伸縮

C、曲線化

D、旋轉(zhuǎn)

答案:C

2.SparkMLIib中的BasicStatistic是專(zhuān)口用于進(jìn)行大數(shù)據(jù)集群上的統(tǒng)計(jì)分析工

具,以下哪個(gè)不屬于BasicStatistic

支持的功能?

A、假設(shè)檢驗(yàn)

B、特征抽取

C、匯總統(tǒng)計(jì)

D、生成隨機(jī)數(shù)

答案:B

解析:BasicStatistic是SparkMLIib提供專(zhuān)口用于進(jìn)行大數(shù)

據(jù)集群上的統(tǒng)計(jì)分析工具。BasicStatistic為大數(shù)據(jù)集

中數(shù)據(jù)預(yù)處理中數(shù)據(jù)的分析提供支撐方法,包括

Summarystatistics(匯總統(tǒng)計(jì)),Correlations(相

關(guān)系數(shù)),Stratifiedsampling(分層抽樣)

,Hypothesistesting(假設(shè)檢驗(yàn)),Randomdata

Generation(隨機(jī)數(shù)生成),KerneIdensityestimation

(核密度估計(jì))等數(shù)據(jù)分析方法。

3.“點(diǎn)擊率問(wèn)題”是這樣一個(gè)預(yù)測(cè)問(wèn)題,99%的人不會(huì)點(diǎn)擊,而1%的人會(huì)點(diǎn)擊,

所以這是一個(gè)非常不平衡的數(shù)據(jù)集。假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來(lái)分類(lèi),

而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們可以下的結(jié)論是?

A、模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了。

B、模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型。

C、無(wú)法下結(jié)論

D、以上都不對(duì)

答案:C

4.以下關(guān)于特征選擇定義的理解說(shuō)法錯(cuò)誤的是哪一項(xiàng)?

A、特征選擇是指從原始特征中挑選出一組最有代表性、分類(lèi)性能好的特征。

B、特征選擇不像算法和模型是確定的步驟,更多是工程上的經(jīng)驗(yàn)和權(quán)衡,一般需

要耗費(fèi)較多的時(shí)間和精力。

C、對(duì)于不同的數(shù)據(jù)挖掘任務(wù),所需要的特征組合都是相同的。

D、特征選擇(Featureselection)也被稱(chēng)為變量選擇、屬性選擇或變量子集選擇。

它是為了構(gòu)建模型而選擇相關(guān)特征子集的過(guò)程。

答案:C

5.請(qǐng)問(wèn)以下選項(xiàng)中,不屬于分類(lèi)算法的是哪一項(xiàng)?

A、決策樹(shù)

B、隨機(jī)森林

C、線性回歸

D、SVM

答案:C

解析:線性回歸屬于回歸算法

6.以下哪個(gè)選項(xiàng)是求解等式約束最優(yōu)化的常用方法?

A、牛頓法

B、梯度下降法

C、拉格朗曰乘法子

D、KKT條件

答案:C

解析:考查等式約束最優(yōu)化的問(wèn)題,其中提到用拉格朗曰乘法

子方法來(lái)將約束優(yōu)化問(wèn)題轉(zhuǎn)化為無(wú)約束優(yōu)化問(wèn)題

7.在案例“銀行客聲精準(zhǔn)畫(huà)像”中,關(guān)于其數(shù)據(jù)挖掘不同階段的操作描述,屬于

數(shù)據(jù)建模階段的是?

A、在客聲分類(lèi)問(wèn)題中采用的主要是數(shù)據(jù)挖掘中分類(lèi)和聚類(lèi)的算法,需要結(jié)合需

求規(guī)劃出適用模型。

B、將來(lái)自數(shù)據(jù)倉(cāng)庫(kù)中多個(gè)數(shù)據(jù)表,經(jīng)過(guò)了數(shù)據(jù)采集.清理和集成,生成一個(gè)針對(duì)

數(shù)據(jù)挖掘目標(biāo)確定與交易行為有關(guān)的數(shù)據(jù)項(xiàng)集合。

C、結(jié)果分析,并提供參看策略。

D、對(duì)最近三個(gè)月的原始交易數(shù)據(jù)進(jìn)行計(jì)算獲得變量。并整合在客聲的實(shí)際交易

情祝上定義客聲的行為,每個(gè)客聲作為一條觀測(cè)從中隧機(jī)抽取2867個(gè)客聲作為

研究實(shí)例的代表性樣本。

答案:D

解析:A選項(xiàng):算法選擇,B選項(xiàng):數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備,C選項(xiàng):結(jié)果分析

8.以下關(guān)于離散特征編碼的表述,錯(cuò)誤的是哪一項(xiàng)?單

A、離散特征的取值之間沒(méi)有大小的意義,使用。ne-hot編碼。

B、因?yàn)闄C(jī)器學(xué)習(xí)算法接收的是數(shù)字型變量。所以需要對(duì)屬性進(jìn)行編碼。

C、離散特征的取值有大小的意義,直接使用映射。

D、想要方法pandas.get_dummies()的作用等同于onehot編碼的效果,只需要

設(shè)置其參數(shù)drop_first=True0

答案:D

9.以下關(guān)于Wrapper(包裝法)和FiLter(過(guò)濾法)的描述不正確的是?

A、Wrapper方法由于每次對(duì)子集的評(píng)價(jià)都要進(jìn)行分類(lèi)器的訓(xùn)練

和測(cè)試,所以算法計(jì)算復(fù)雜度很高。

B、Wrapper方法選出的特征通用性較強(qiáng),當(dāng)改變學(xué)習(xí)算法時(shí),

也不需要針對(duì)該學(xué)習(xí)算法重新進(jìn)行特征選擇。

C、相對(duì)于Filter(過(guò)濾法),Wrapper方法找到的特征子集分類(lèi)性

能通常更好。

D、對(duì)于大規(guī)模數(shù)據(jù)集來(lái)說(shuō),Wrapper算法的執(zhí)行時(shí)間很口。

答案:B

解析:相對(duì)于Filter方法,Wrapper方法找到的特征子集分類(lèi)

性能通常更好。但是因?yàn)閃rapper方法選出的特征通用

性不強(qiáng),當(dāng)改變學(xué)習(xí)算法時(shí),需要針對(duì)該學(xué)習(xí)算法重新

進(jìn)行特征選擇。

10.以下不屬于決策樹(shù)算法?

A、ID3

B、CART

C、C4.5

D、KNN

答案:D

解析:KNN不屬于決策樹(shù)算法。

11.請(qǐng)問(wèn)以下關(guān)于特征選擇方法的一些表述,不正確的是哪一項(xiàng)?

A、卡方值描述了自變量與因變量之間的相關(guān)程度:卡方值越小,相關(guān)程度也越

大,所以很自然的可以利用卡方值來(lái)做特征選擇,保留相關(guān)程度大的變量。

B、遞歸消除特征法使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,移除若干權(quán)

值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練。它解決思路沒(méi)有過(guò)濾法直接,

它是在確認(rèn)后續(xù)的算法模型后,把模型本身的性能作為評(píng)價(jià)準(zhǔn)則:選擇一個(gè)目標(biāo)

函數(shù)來(lái)一步步的篩選特征。

C、基于樹(shù)的嵌入方法能夠用來(lái)計(jì)算特征的重要程度,因此能用來(lái)去除不相關(guān)的

特征。

D、保留大的方差的實(shí)際意義,就是該列特征的數(shù)據(jù)分散情況比較大,對(duì)結(jié)果的

劃分的影響力度就大,反過(guò)來(lái),如果方差很小,比如一列數(shù)據(jù)的值全部一樣,方

差為0,確實(shí)對(duì)結(jié)果的分類(lèi)來(lái)說(shuō)意義不大,有沒(méi)有這列特征都不能影響分類(lèi)目標(biāo)

產(chǎn)生不同的結(jié)果,這個(gè)也是方差選擇法的原理。

答案:A

12.關(guān)于實(shí)時(shí)流處理整體架構(gòu)中數(shù)據(jù)緩存和消息中間件描述錯(cuò)誤的是()。

A、Redis:提供高速key/vaIue存儲(chǔ)查詢(xún)能力,用于流處理結(jié)果數(shù)據(jù)的高速緩存。

B、Katka:分布式消息系統(tǒng),支持消息的生產(chǎn)和發(fā)布,以及多種形式的消息緩存,

滿(mǎn)足高效可靠的消息生產(chǎn)和消費(fèi)。

C、Kafka:消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。

D、HBase:用于行鍵查詢(xún)(Key-Value)檢索,查詢(xún)條件復(fù)雜且多樣。

答案:C

13.下列代碼的作用是?StringvertexId=getVertexIdByProperty(api,graphNam

e,"person","name","marko");api.queryVertex(vertexId,graphName);

A、查詢(xún)點(diǎn)

B、查詢(xún)屬性

C、查詢(xún)邊

D、以上全不正確

答案:B

14.樸素口葉斯分類(lèi)方法(NaiveBayes)是一種特殊的Bayes分類(lèi)器,特征變量是

x,類(lèi)別標(biāo)簽是C,它的一個(gè)假定

是?

A、以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布

B、P(XIC)是高斯分布

C、特征變量x的各個(gè)屬性之間互相獨(dú)立

D、各類(lèi)別的先驗(yàn)概率P(C)是相等的

答案:C

解析:樸素口葉斯的條件就是每個(gè)變量相互獨(dú)立。

15.以下哪種場(chǎng)景比較適用于在保證召回率的前提下,

盡量提升精確率的情況?

A、搜索

B、地震檢測(cè)

C、金融欺詐

D、癌癥檢測(cè)

答案:A

解析:查全率(Recall):又被稱(chēng)為召回率,是指分類(lèi)器預(yù)測(cè)為

正例的樣本占實(shí)際正例樣本的比例。在實(shí)際項(xiàng)目中,

常常需要根據(jù)具體情況做出取舍,例如一般的搜索情

況,在保證召回率的條件下,盡量提升精確率。而像

癌癥檢測(cè)、地震檢測(cè)、金融欺詐等,則在保證精確率

的條件下,盡量提升召回率。

16.以下關(guān)于Python函數(shù)的描述中,錯(cuò)誤的是

A、函數(shù)是一段可重用的語(yǔ)句組

B、每次使用函數(shù)需要提供相同的參數(shù)作為輸入

C、函數(shù)通過(guò)函數(shù)名進(jìn)行調(diào)用

D、函數(shù)是一段具有特定功能的語(yǔ)句組

答案:B

17.以下哪種方法屬于判別式模型(discriminativemodel)?單

A、隱口爾科夫模型(HMM)

B、SVM

C、LDA

D、樸素口葉斯

答案:c

解析:LDA(LinearDiscriminantAnalysis):線性判別式分析,也叫Fisher線性

判別,是模式識(shí)別中的經(jīng)典算法,它的數(shù)據(jù)集的每樣本是有

類(lèi)別輸出的。

18.下列哪個(gè)選項(xiàng)不是常用的聚類(lèi)算法?

A、SVM

B、DBSCAN算法

C、K-means算法

D、HierarchicalClustering算法、BIRCH算法

答案:A

解析:常用聚類(lèi)算法:1、基于原型聚類(lèi)(partitionng

Methods)K-Means算法,K-Mediods2x算法基于層次

聚類(lèi)(hierarchicaImethods)HierarchicaICIustering算

法、BIRCH算法3、基于密度聚類(lèi)(density-based

Methods)DBSCAN算法

19.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹(shù),為了使用較少時(shí)間,我們可以

A、減少樹(shù)的數(shù)量

B、增加樹(shù)的深度

C、減少樹(shù)的深度

D、增加學(xué)習(xí)率(learningrate)

答案:C

解析:

增加樹(shù)的深度,會(huì)導(dǎo)致所有節(jié)點(diǎn)不斷分裂,直到葉子節(jié)點(diǎn)是純的為止.所以,增加

深度,會(huì)延口訓(xùn)練時(shí)間。所以需要減少使用時(shí)間,應(yīng)該

選擇減少樹(shù)的深度。

20.設(shè)X.Y是兩個(gè)隨機(jī)變量,C是常數(shù),以下關(guān)于方差的性質(zhì)描述錯(cuò)誤的是?

A、D(C)=0

B、D(0)=0的充要條件是X以概率1取常數(shù)E(X),即P{X=E(X)}=1

GD(X+Y)=D(X)+D(Y)

D、D(CX)=C2D(X)

答案:C

解析:X與Y相互獨(dú)立時(shí)才有C選項(xiàng)成立,題目中沒(méi)有X與Y相互獨(dú)立的前提,

所以選擇C選項(xiàng)。

21.Python中列表數(shù)據(jù)類(lèi)型元素的切片非常強(qiáng)大,對(duì)于列表mylist=[1,2,3,4,5,

6,7,8,9],下面操作正確的是

A、mylist[1:9:0]

B、mylist[1:9:2]

C、mylist(6:-9:-2)

D、mylist[10::]

答案:B

22.我們可以使用Python中skiearn庫(kù)的。函數(shù),來(lái)解決無(wú)序分類(lèi)變量的離散

化問(wèn)題?

A、cut()函數(shù)

B、map()函數(shù)

C、OneHotEncoder()函數(shù)

D、KMeansO函數(shù)

答案:c

解析:無(wú)序分類(lèi)變量的離散化方法較為常用方法有:獨(dú)熱編碼(One-HotEncodin

g)、啞編碼(DummyEncoding)0

23.以下關(guān)于SparkMLIib中協(xié)同過(guò)濾算法參數(shù)描述不正確的是哪一項(xiàng)?

A、Iterations:模型中潛在因子的數(shù)量。

B、nurnBlocks:用于并行計(jì)算的塊數(shù),如設(shè)置為7則為自動(dòng)配置。

GLambda:ALS中的正則化參數(shù)。

D、OimplicitPrefs:指定是使用顯式反饋ALS變體還是使用適用于隱式反饋數(shù)

據(jù)的變量。

答案:A

解析:

?SparkMLlib中協(xié)同過(guò)濾算法叁

SparkMLlib協(xié)同過(guò)濾算法參數(shù)

□numBlocks:用于并行計(jì)算的塊數(shù)(設(shè)置為-1以為動(dòng)配

□Rank:模型中潛在因子的數(shù)量。

口[iterations:運(yùn)行的迭代次數(shù)。

□lambda:ALS中的正則化參數(shù)。

□implicitPrefs:指定是使用顯式反饋ALS變體還是使用

□alpha:適用于ALS的隱式反饋?zhàn)凅w的參數(shù),其控制偏正

24.以下對(duì)分類(lèi)模型以下描述,錯(cuò)誤的是哪一項(xiàng)?

A、邏輯回歸算法速度快,解釋性也較好。

B、利用神經(jīng)網(wǎng)絡(luò)系列算法,需要大量數(shù)據(jù)點(diǎn)才能達(dá)到較好的預(yù)測(cè)效果。

C、線性支持向量機(jī)和樸素口葉斯算法都具有較好的解釋性。

D、GBDT一般是適用于二分類(lèi)問(wèn)題,但單獨(dú)的使用GBDT模型,容易出現(xiàn)過(guò)擬合。

答案:B

25.以下關(guān)于有監(jiān)督連續(xù)變量的離散化分析錯(cuò)誤的是哪一項(xiàng)?

A、1R方法是分箱法的有監(jiān)督版本,每個(gè)區(qū)間至少包含6個(gè)變量(最后一個(gè)區(qū)間除

外)

B、基于卡方檢驗(yàn)的方法,運(yùn)用卡方檢驗(yàn)的策略,自頂向下合并數(shù)值進(jìn)行有監(jiān)督

離散化,核心操作是Herge.

C、有監(jiān)督的連續(xù)變量的離散化相對(duì)于無(wú)監(jiān)督的方法來(lái)說(shuō),可以減少在離散化的過(guò)

程中異常值的影響

D、基于信息熠的方法運(yùn)用了決策樹(shù)的理念進(jìn)行變量離散化,是一種自頂向下的分

裂技術(shù)。

答案:B

26.以下關(guān)于SparkMLlib中決策樹(shù)模型超參數(shù)描述不正確的是?

Aximpurity:用于在候選分割之間進(jìn)行選擇的雜質(zhì)度量。

B、subsamplingRater用于學(xué)習(xí)決策樹(shù)的訓(xùn)練數(shù)據(jù)的分?jǐn)?shù),但對(duì)于訓(xùn)練單個(gè)決策

樹(shù),該參數(shù)不太有用。

GmaxBins:樹(shù)的最大深度。

D、maxMemoryInMB用于收集足夠統(tǒng)計(jì)信息的內(nèi)存量。

答案:C

解析:maxBins:離散連續(xù)特征時(shí)使用的箱數(shù);maxDepth:樹(shù)的最大深度

27.關(guān)于GaussDB200的邏輯架構(gòu),下列說(shuō)法正確的是

A、DN是實(shí)際數(shù)據(jù)節(jié)點(diǎn),所以只負(fù)責(zé)存儲(chǔ)數(shù)據(jù)。

B、CN是協(xié)調(diào)節(jié)點(diǎn),協(xié)助CM管理整個(gè)集群。

C、CM是集群的管理模塊,那么負(fù)責(zé)集群的曰常管理和運(yùn)維。

D、GTM是全局事務(wù)控制器,負(fù)責(zé)生成和維護(hù)全局事務(wù)ID等全局唯一信息。

答案:D

28.重新采樣是不均衡數(shù)據(jù)處理的常用方法之一,對(duì)于類(lèi)別占比很高的樣本集,

適用于以下哪種重采樣方法?

A、欠采樣

B、組合采樣

C、過(guò)采樣

D、SMOTE算法

答案:A

解析:

》不均衡數(shù)據(jù)處理一方法(

重新采樣數(shù)據(jù)

□重采樣是不均衡數(shù)據(jù)處理的常用方法之一,

據(jù)量大的數(shù)據(jù)類(lèi)別定義為豐富類(lèi)數(shù)據(jù)量少

□欠采樣

■適用于大數(shù)據(jù)集,從豐富類(lèi)中隨機(jī)選擇少量市

□過(guò)采樣

■適用于小數(shù)據(jù)集,從稀有類(lèi)中隨機(jī)選擇樣本

□方法

-Python中SMOTE算法。

29.以下關(guān)于邏輯回歸算法的損失函數(shù)描述不正確的是哪一項(xiàng)?

A、在邏輯回歸的推導(dǎo)中,它假設(shè)樣本服從伯努利(07)分布,然后求得滿(mǎn)足該分

布的似然函數(shù),接著用對(duì)數(shù)求極值。

B、邏輯回歸算法一定要計(jì)算最大似然函數(shù)。

C、邏輯回歸算法的損失函數(shù)可以使用對(duì)數(shù)函數(shù)。

D、邏輯回歸并沒(méi)有求對(duì)數(shù)似然函數(shù)的最大值,而是把極大化當(dāng)做一個(gè)思想,進(jìn)而

推導(dǎo)出它的口險(xiǎn)函數(shù)為最小化的似然函數(shù)。

答案:B

30.請(qǐng)問(wèn)在Pandas中,DataFrame對(duì)象可以使用以下哪個(gè)方法查看前n條數(shù)據(jù)?

A、read

B、taiI

C、describe

D、head

答案:D

解析:DataFrame.head(n=5):顯示前n條數(shù)據(jù),n表示顯示的數(shù)據(jù)量。DataFra

me.tail(n=5):顯示底部數(shù)據(jù),n表示顯示的數(shù)據(jù)量。

31.決策樹(shù)中不包含以下哪種節(jié)點(diǎn)?

A、內(nèi)部節(jié)點(diǎn)(internaInode)

B、外部節(jié)點(diǎn)(externaInode)

C、根節(jié)點(diǎn)(rootnode)

D、葉節(jié)點(diǎn)

答案:B

32.一般情況下,若要提高ElasticSearch檢索效率,可以采取什么操作?

A、調(diào)整索引分片數(shù)

B、使用Hive做底層存儲(chǔ)

C、壓縮素引

D、正價(jià)EsMaster節(jié)點(diǎn)

答案:A

33.假設(shè)A,B,C是三個(gè)矩陣,A是2X2,B是2X2階,C是3x2階,以下哪一個(gè)矩

陣的運(yùn)算是有意義的?

A、A+B

B、AC

C、AB+AC

D、B+C

答案:A

34.關(guān)于GaussDB200的數(shù)據(jù)導(dǎo)入導(dǎo)出下列說(shuō)法正確的是(

A、gsql元命令和COPY命令在使用和用法上是一樣的。

B、GDS在數(shù)據(jù)導(dǎo)入時(shí)可以做預(yù)處理,比如非法字符替換、容錯(cuò)處理'數(shù)據(jù)聚合

等。

C、COPY方式使用簡(jiǎn)單,一般用在大量數(shù)據(jù)的導(dǎo)入導(dǎo)出中。

D、INSERT數(shù)據(jù)寫(xiě)入適合數(shù)據(jù)量不大,并發(fā)度不高的場(chǎng)景。

答案:B

35.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇

下列哪個(gè)工具實(shí)現(xiàn)該功能?

A、Lucene

BvEIasticSearch

C、HBase

D、GES

答案:B

36.企業(yè)數(shù)據(jù)分析平臺(tái)在根據(jù)不同的業(yè)務(wù)場(chǎng)景需求,搭建不同的大數(shù)據(jù)分析平臺(tái),

如適應(yīng)離線批處理的Hadoop平臺(tái);適應(yīng)實(shí)時(shí)處理的流計(jì)算等,這種架構(gòu)屬于哪種

類(lèi)型的架構(gòu)?

Av融合架構(gòu)

B、分離架構(gòu)

C、單一架構(gòu)

D、多維架構(gòu)

答案:A

37.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇

下列哪個(gè)工具實(shí)現(xiàn)該功能?

A、Lucene

B、HBase

C、EIasticSearch

D、GraphBase

答案:C

38.Numpy中創(chuàng)建全為0的矩陣使用

A、ones

B、empty

C、zeros

Dxarange

答案:C

39.以下關(guān)于Python正則表達(dá)式描述不正確的是?

A、re正則表達(dá)式可以處理字符串?dāng)?shù)據(jù),也能處理數(shù)值數(shù)據(jù)。

Bxre正則表達(dá)式模塊使Python語(yǔ)擁有部分正則表達(dá)式功能。

C、re正則表達(dá)式是用于處理字符串的強(qiáng)大工具。

D、Python自1.5版本起增加了re正則表達(dá)式模塊。

答案:A

40.下列關(guān)于存儲(chǔ)過(guò)程的特點(diǎn)說(shuō)法正確的是

A、編寫(xiě)的SQL存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此執(zhí)行速度快。

B、創(chuàng)建時(shí)編譯,執(zhí)行時(shí)調(diào)用,因此開(kāi)發(fā)效率高。

C、用聲創(chuàng)建的存儲(chǔ)過(guò)程或自定義函數(shù)可以重復(fù)調(diào)用,因此數(shù)據(jù)傳輸量少。

D、通過(guò)指定存儲(chǔ)過(guò)程的訪問(wèn)權(quán)限,因此安全系數(shù)高。

答案:D

41.當(dāng)決策樹(shù)出現(xiàn)過(guò)擬合后,需要使用()技術(shù)來(lái)縮小樹(shù)的結(jié)構(gòu)和規(guī)模。

A、剪枝

B、回歸

C、小波

D、調(diào)和

答案:A

解析:決策樹(shù)容易過(guò)擬合,需要剪枝來(lái)縮小樹(shù)的結(jié)構(gòu)和規(guī)模

(包括預(yù)剪枝和后剪枝)o剪枝是決策樹(shù)后期處理的重

要步驟,也被視為必不可少的一個(gè)步驟。其根本目的就

是為了去掉一些不必要的節(jié)點(diǎn)使得決策樹(shù)模型具有更好

的泛化能力,以解決過(guò)擬合問(wèn)題。

42.以下對(duì)聚類(lèi)算法KMeans的缺點(diǎn)描述正確的是哪些項(xiàng)?

A、該算法對(duì)噪音和異常點(diǎn)比較的敏感。

B、如果各隱含類(lèi)別的數(shù)據(jù)不平衡,比如各隱含類(lèi)別的數(shù)據(jù)量嚴(yán)重失衡,或者各

隱含類(lèi)別的方差不同,則聚類(lèi)效果不佳。

C、聚類(lèi)結(jié)果可能具有一定的隨機(jī)性。

D、K值是超參數(shù),它的選取不好把握。

答案:D

43.DUGP(UnitiedDataGovernancePIatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺(tái),為運(yùn)

營(yíng)商提供全面高效的數(shù)據(jù)資產(chǎn)管控環(huán)境。實(shí)現(xiàn)

了數(shù)據(jù)集中.統(tǒng)一和共享。包括統(tǒng)一的數(shù)據(jù)采集和整合。統(tǒng)一的安全、標(biāo)準(zhǔn)、生

命周期和質(zhì)量管理。以及多維度數(shù)提云圖功能。提供開(kāi)箱即

用的可以實(shí)現(xiàn)全生命周期的主數(shù)據(jù)管理。包括主數(shù)據(jù)的集中存儲(chǔ)'()、主數(shù)據(jù)清

洗、主數(shù)據(jù)監(jiān)管和主數(shù)據(jù)的共享滿(mǎn)足集團(tuán)對(duì)于企業(yè)級(jí)別主數(shù)

據(jù)的管理平臺(tái)的要求。

A、主數(shù)據(jù)合并

B、主數(shù)據(jù)關(guān)聯(lián)

C、主數(shù)據(jù)標(biāo)記

D、主數(shù)據(jù)遷移

答案:A

解析:DUGP(UnifiedDataGovernancePIatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺(tái),

為運(yùn)營(yíng)商提供全面高效的數(shù)據(jù)資產(chǎn)管控環(huán)境,包括主數(shù)據(jù)

的集中存儲(chǔ)、主數(shù)據(jù)合并、主數(shù)據(jù)清洗、主數(shù)據(jù)監(jiān)管和主數(shù)據(jù)的共享,滿(mǎn)足集團(tuán)

對(duì)于企業(yè)級(jí)別主數(shù)據(jù)管理平臺(tái)的需求。故選擇A選項(xiàng)

44.在MRSManager界面中,對(duì)Loader的操作不包括下列哪個(gè)選項(xiàng)?

A、配置Loader參數(shù)

B、啟動(dòng)Loader實(shí)例

C、切換Loader主備節(jié)點(diǎn)

D、查看Loader服務(wù)狀態(tài)

答案:C

45.以下哪項(xiàng)不是KNN算法的三要素?

A、K值的選取

B、分類(lèi)決策規(guī)則

C、距離度量的方式

D、特征的順序

答案:D

解析:KNN的算法三要素:1.K值的選取。2.距離度量的方

式。3.分類(lèi)決策規(guī)則。

46.HDFS的副本放置策略中,同一機(jī)架不同服務(wù)器之間的距離是?

A、1

B、2

C、3

D、4

答案:B

47.下列哪個(gè)不屬于決策樹(shù)的是?

A、KNN

B、CART

C、ID3

D、C4.5

答案:A

解析:A)KNN(K-NearestNeighbor)就是k個(gè)最近的鄰居的意思,即每個(gè)樣本都

可以用它最接近的k個(gè)鄰居來(lái)代表。KNN常用來(lái)處理分類(lèi)問(wèn)

題,但也可以用來(lái)處理回歸問(wèn)題,不屬于決策樹(shù)。B)CART(CIassificationand

RegressionTree)分類(lèi)回歸樹(shù):是在ID3的基礎(chǔ)上進(jìn)

行優(yōu)化的決策樹(shù)。C)ID3算法是由RossQuinIan提出的決策樹(shù)的一種算法實(shí)現(xiàn)D)

C4.5算法是決策樹(shù)的一種是基于ID3的改進(jìn)和提

升。

48.關(guān)于FusionlnsightMiner的功能描述不準(zhǔn)確的是哪一項(xiàng)?

A、業(yè)務(wù)場(chǎng)景包括極大團(tuán)分析。

B、工作流暫不支持自定義算法。

C、支持R語(yǔ)言。

D、支持Python2和Python3語(yǔ)言。

答案:B

49.)建設(shè)一個(gè)完整的數(shù)據(jù)治理平臺(tái),作為數(shù)據(jù)平臺(tái)的管控系統(tǒng),從制度、標(biāo)準(zhǔn)、

()、流程幾個(gè)方面提升數(shù)據(jù)信息管理能力。解決目

前所面臨的數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題、數(shù)據(jù)質(zhì)量問(wèn)題、元數(shù)據(jù)管理問(wèn)題和數(shù)據(jù)服務(wù)問(wèn)題。

A、實(shí)時(shí)

B、管理

C、分化

D、監(jiān)控

答案:B

50.以下關(guān)于Python中函數(shù)定義的描述不正確的是?

A、函數(shù)內(nèi)容以冒號(hào)起始,并且縮進(jìn)。

B、在python中只能用關(guān)鍵字def創(chuàng)建函數(shù)。

C、Return用于返回一個(gè)函數(shù)執(zhí)行的結(jié)果。

D、用def聲明函數(shù),后面跟函數(shù)名和小括號(hào),括號(hào)內(nèi)可以放置所需參數(shù)。

答案:B

解析:考查Python的函數(shù)創(chuàng)建。Python中除了def可以創(chuàng)建函

數(shù)外,還提供了lambda來(lái)創(chuàng)建匿名函數(shù)。

51.以下關(guān)于KNN(K-NearestNeighbor)K最近鄰方法的描述不正確的是哪一項(xiàng)?

A、可用于非線性分類(lèi)

B、計(jì)算量小

C、常用來(lái)處理分類(lèi)問(wèn)題,但也可以處理回歸問(wèn)題

D、對(duì)數(shù)據(jù)沒(méi)有假設(shè),支持增量學(xué)習(xí),無(wú)需估計(jì)參數(shù)

答案:B

52.一般而言,若數(shù)據(jù)類(lèi)別比例超過(guò)(),即認(rèn)為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象。

A、2:1

B、4:1

C、1:1

D、3:1

答案:B

解析:

考查數(shù)據(jù)預(yù)處理中,不均衡數(shù)據(jù)處理的影響。一般而

言,若數(shù)據(jù)類(lèi)別比例超過(guò)4:1,即認(rèn)為數(shù)據(jù)集中存在不

均衡數(shù)據(jù)的現(xiàn)象

53.Numpy中向量轉(zhuǎn)換成矩陣使用

Avreshape

B、revaI

C、arrange

D、random

答案:A

54.以下哪個(gè)選項(xiàng)不屬于直接刪除包含缺失值的元組(或記錄)產(chǎn)生的影響?

A、降低模型準(zhǔn)確性

B、可能會(huì)引入噪音節(jié)點(diǎn)

C、數(shù)據(jù)缺失占比較多時(shí),直接刪除可能會(huì)改變?cè)紨?shù)據(jù)的分布情況

D、破壞數(shù)據(jù)的歷史完整性

答案:B

解析:刪除不會(huì)引入噪音節(jié)點(diǎn)

55.以下哪些方法不可以用來(lái)做分類(lèi)?

A、KNN

B、支持向量機(jī)

C、K-Means

D、決策樹(shù)

答案:C

解析:考查有監(jiān)督學(xué)習(xí)的分類(lèi)算法。KNN常用來(lái)做分類(lèi)算法,

也可以用來(lái)處理回歸問(wèn)題,支持向量機(jī)就是SVM,用于

分類(lèi)算法,“Means是聚類(lèi)算法。決策樹(shù)是分類(lèi)算法。

56.屬于聚類(lèi)問(wèn)題常用的評(píng)估方法是哪一項(xiàng)?

A、均方誤差

B\SiIhonette輪廓系數(shù)

C、F-score

D、ROC曲線

答案:B

解析:聚類(lèi)的評(píng)價(jià)方式在大方向上被分成兩類(lèi),一種是分析外

部信息,另一種是分析內(nèi)部信息。較為常用的分析內(nèi)部

信息的方法:互信息評(píng)分,蘭德系數(shù),輪轂系數(shù)等。

57.在其它條件不變的前提下,以下哪一方法容易引起模型的過(guò)擬合問(wèn)題?

A、增加訓(xùn)練集數(shù)量

B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)

C、刪除稀疏的特征

D、SVM算法中使用高斯核/RBF核替代

答案:D

58.以下關(guān)于PCA算法(主成分分析)說(shuō)法不正確的是

A、必須在使用PCA前規(guī)范化數(shù)據(jù)

B、使數(shù)據(jù)降低到低維度上做數(shù)據(jù)可視化

C、應(yīng)該選擇使得模型有最小variance的主成分

D、應(yīng)該選擇使得模型有最大variance的主成分

答案:C

解析:PCA對(duì)數(shù)據(jù)尺度很敏感,打個(gè)比方,如果單位是從km變

為cm,這樣的數(shù)據(jù)尺度對(duì)PCA最后的結(jié)果可能很有影

響。我們總是應(yīng)該選擇使得模型有最大variance的主成

分,有時(shí)在低維度上作圖是需要PCA降維幫助的

59.以下關(guān)于特征縮放的處理方法,最小值-最大值歸一化和標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)景

描述錯(cuò)誤的是?

A、在實(shí)際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化操作更常用。

B、標(biāo)準(zhǔn)化方法在分、聚類(lèi)算法中需要使用PCA技術(shù)進(jìn)行降維

C、最小值-最大值歸一化的數(shù)據(jù)不符合正態(tài)分布。

D、最小值最大值歸一化和標(biāo)準(zhǔn)化都需要使用距高來(lái)度量相似

性。

答案:D

解析:考查特征縮放的應(yīng)用場(chǎng)景,最小值最大值歸一化應(yīng)用場(chǎng)

景中說(shuō)明最小值最大值歸一化不涉及距離度量

60.通過(guò)聚類(lèi)的簇是否緊密相連來(lái)判斷樣本點(diǎn)是否屬于一個(gè)簇的聚類(lèi)算法是以下

哪一項(xiàng)?

A、層次聚類(lèi)

B、原型聚類(lèi)

C、原點(diǎn)聚類(lèi)

D、密度聚類(lèi)

答案:D

解析:密度聚類(lèi)的思想不同于K-Means,它是通過(guò)聚類(lèi)的簇是否緊密相連來(lái)判斷

樣本點(diǎn)是否屬于一個(gè)簇,代表性的算法就是DBSCAN,它基

于一組鄰域參數(shù)來(lái)判斷某處樣本是否是緊密。

61.從數(shù)據(jù)庫(kù)架構(gòu)設(shè)計(jì)來(lái)看,主要有以下哪些設(shè)計(jì)思路?

AxShared-Disk

B、Shared-Everying

C、Shared-Nothing

D、以上全正確

答案:D

62.請(qǐng)問(wèn)在Python中以下哪個(gè)選項(xiàng)正確?

A、Python中的類(lèi)對(duì)象無(wú)法實(shí)現(xiàn)多重繼承。

B、Python面向?qū)ο缶幊痰姆庋b性只體現(xiàn)在不允許私有化變量被訪問(wèn)。

C、變量是對(duì)象,但函數(shù)不是對(duì)象。

DxPython的多態(tài)性表現(xiàn)在子類(lèi)可以覆蓋父類(lèi)的屬性或方法。

答案:D

63.某開(kāi)發(fā)小組計(jì)劃利用GraphBase實(shí)現(xiàn)一些功能,以下哪些功能可以實(shí)現(xiàn)?

A、物流最優(yōu)路徑規(guī)劃

B、社交分析

C、金融反欺詐

D、以上全都正確

答案:D

64.以下關(guān)于SparkMLIib中集成算法的相關(guān)描述,表述錯(cuò)誤的是哪一項(xiàng)?

A、vaIboostingStrategy=BoostingStrategy.defauItParams("CIassificatio

n")boostingStrategy.numIterations=3boostingStrategy.treeStrategy.num

CIasses=2boostingStrategy.treeStrategy.maxDepth=5vaImodel=GradientBoo

stedIrees.train(trainingData,boostingStrategy)表示訓(xùn)練梯度提升分類(lèi)樹(shù)

模型,設(shè)置類(lèi)別數(shù)維度為2,樹(shù)的最大深度為5。

B、SparkMLIib包含兩種算法RandomForest和GradientBoostedDecisionIree(G

BDT),二者都是用決策樹(shù)算法作為基學(xué)習(xí)器。

C、vaImodeI=RandomForest.trainRegressor(trainingData,categoricaIFeatu

resInfo,numlrees=2,"auto","variance",maxDepth=4,32)該語(yǔ)句采用隨機(jī)森林

算法進(jìn)行分類(lèi)模型訓(xùn)練,并且指定屬性選擇的方式為基尼系數(shù)度量。

D、vaImodel=newLogisticRegressionWithLBFGS().setIumCIasses(10).run(tr

aining)表示創(chuàng)建邏輯回歸LBFGS的模型進(jìn)行分類(lèi)問(wèn)題的求解,同時(shí)采用訓(xùn)練數(shù)

據(jù)進(jìn)行預(yù)測(cè),樣本類(lèi)別數(shù)是10。

答案:C

65.Oracle數(shù)據(jù)治理產(chǎn)品包括0racleDatabase12c\0、OracIe大數(shù)據(jù)SOL、和

大數(shù)據(jù)連接器開(kāi)始入手。

A、OracIe大數(shù)據(jù)共享系統(tǒng)

B、Oracle大數(shù)據(jù)清洗系統(tǒng)

C、Oracle大數(shù)據(jù)存儲(chǔ)系統(tǒng)

D、OracIe大數(shù)據(jù)管理系統(tǒng)

答案:D

解析:Oracle公司從旗艦產(chǎn)品OracleDatabasel2c、OracIe大數(shù)據(jù)管理系統(tǒng)'0

racIe大數(shù)據(jù)SQL和大數(shù)據(jù)連接器開(kāi)始入手。對(duì)于特定的數(shù)

據(jù)管理,它具有OracIe企業(yè)元數(shù)據(jù)管理器(OEMM)和OracIe企業(yè)數(shù)據(jù)質(zhì)量(EDQ)。

故選擇D選項(xiàng)

66.請(qǐng)問(wèn)最小值-最大值歸一化的結(jié)果不會(huì)受到以下哪種數(shù)據(jù)點(diǎn)影響?

A、離群點(diǎn)

B、極值點(diǎn)

C、異常點(diǎn)

D、平均點(diǎn)

答案:D

解析:最小值-最大值歸一化受訓(xùn)練集中最大值和最小值影響

大,存在數(shù)據(jù)集中最大值與最小值動(dòng)態(tài)變化的可能。容

易受噪聲(異常點(diǎn)、離群點(diǎn))影響。

67.以下哪一項(xiàng)不屬于抽樣的類(lèi)別?

A、簡(jiǎn)單隨機(jī)抽樣

B、分層抽樣

C、系統(tǒng)抽樣

D、整群抽樣

E、循環(huán)抽樣

答案:E

解析:抽樣方法1、簡(jiǎn)單隨機(jī)抽樣:在簡(jiǎn)單隨機(jī)抽樣

中,總體所有成員被選為樣本的概率是相等的。2、

分層抽樣:將總體分成不同的子群,然后對(duì)所有的子

層進(jìn)行隨機(jī)抽樣。3、系統(tǒng)抽樣:首先將總體中各單位

按一定順序排列,根據(jù)樣本容量要求確定抽選間,然

后隨機(jī)確定起點(diǎn),每隔一定的間隔抽取一個(gè)單位,以

得到所需要的樣本。4、整群抽樣:整群地抽選樣本

68.Flume的高級(jí)組件不包含以下哪個(gè)?

A、SinkProcessor

B、ChannelInterceptor

C、ChanneISeIector

D、SourceInterceptor

答案:B

69.以下關(guān)于SparkMLIib中K-Means優(yōu)化參數(shù)描述不正確的是?

A、initializationMode指定隨機(jī)初始化。

B、Runs:運(yùn)行Kmeans算法的次數(shù)。

GmaxIterations:要運(yùn)行的最大迭代次數(shù)。

D、EpsiIon:K-Means收斂的距離閾值。

答案:A

解析:

EpsiIon指的是K-Means已收斂的距離閾值,而非收斂的距離閾值。

70.以下關(guān)于DataNode的描述不正確的是?

A、DataNode管理數(shù)據(jù)塊元數(shù)據(jù)

B、DataNode執(zhí)行數(shù)據(jù)塊的讀/寫(xiě)操作。

C、DataNode的數(shù)量受數(shù)據(jù)規(guī)模影響。

D、DataNode是用來(lái)存儲(chǔ)數(shù)據(jù)庫(kù)。

答案:A

71.以下關(guān)于聚類(lèi)算法的理解正確的是?

A、簇內(nèi)的相似性越大,簇間的差別越小,聚類(lèi)的效果就越好。

B、簇內(nèi)的相似性越大,簇間的差別越小,聚類(lèi)的效果就越差。

C、簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效果就越好。

D、簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效果就越差。

答案:C

解析:簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效

果就越好

72.以下關(guān)于SparkMLIib中降維算法的相關(guān)描述,表述錯(cuò)誤的是哪一項(xiàng)?

A、奇異值分解(SVD)通常不需要完全因式分解,只需要頂部奇異值及其相關(guān)的

奇異向量,這可以節(jié)省存儲(chǔ),降噪并恢復(fù)矩陣的低秩結(jié)構(gòu)。

B、SparkMLIib為RowMatrix類(lèi)的降維提供支持。

C、奇異值分解(SVD)將矩陣分解為三個(gè)矩陣,分別是左奇異矩陣,對(duì)角矩陣和

一個(gè)右奇異上三角非正交矩陣。

D、PCA通常用于高維數(shù)據(jù)集的探索與可視化,還可以用于數(shù)據(jù)壓縮。

答案:C

解析:

奇異值分解算法原理回顧

奇異值分解(SVD)將矩陣分解為三個(gè)矩陣,公式如下

A=U^VT

□U是一個(gè)(m*m)標(biāo)準(zhǔn)正交矩陣,其列稱(chēng)為左奇異向量。

□Z是一個(gè)(m*n)對(duì)角矩陣,非負(fù)對(duì)角線按降序排列,其先

□V是一個(gè)(n*n辰矩陣],其列被稱(chēng)為右奇異向量。

X

AUA

nxn

inxn/xrmxnmXn

73.FIume中—ChanneISeIector的作用是什么?

A、設(shè)置多個(gè)channel發(fā)往多個(gè)sink的策略

B、設(shè)置—source發(fā)往多個(gè)channeI的策略

C、設(shè)置多個(gè)source發(fā)往多個(gè)channeI的策略

D、設(shè)置一個(gè)channel發(fā)往多個(gè)sink的策略

答案:B

74.打開(kāi)文件的不正確寫(xiě)法為

Axf=open(*test.txt','r)

B、withopen('test.txtJ'r)asf

Gf=open(4C:\Apps\test.txt';r)

Dvf=open(r4C:\Apps\test.txt*;*r)

答案:c

75.我們可以使用Python中scikit-learn庫(kù)的()函數(shù),來(lái)對(duì)樣本集進(jìn)行feature

_seIection(特征選擇)和dimensionaIity

Reduction(降維)?

AxskIearn,neighbors

BxskIearn.feature_seIection

C、skIearn.Iinear_modeI

D、skIearn,cIuster

答案:B

解析:在sklearn.feature_seIection模塊中的類(lèi)可以用來(lái)對(duì)樣

本集進(jìn)行features?Iection(特征選擇)和

DimensionaIityreduction(降維),這將會(huì)提高估計(jì)

器的準(zhǔn)確度或者增強(qiáng)它們?cè)诟呔S數(shù)據(jù)集上的性能。

76.請(qǐng)問(wèn)在Python中以下哪項(xiàng)描述是正確的?

A、定義一個(gè)空集合的命令為:x={}。

B、t=(42,)和t=(42)都可以用于定義tuple。

C、animals.remove('fish')可以把a(bǔ)nimaIs這個(gè)列表中所有'fish'元素都

刪除。

D\animals.insert(1,'fish')是往animals這個(gè)列表中索引為1,也就是第

二個(gè)位置添加‘fish'元素。

答案:D

解析:x={}是定義一個(gè)空字典(diet),故不選A;

T=(42,)定義的是tuple,但t=(42)定義的是整型,故不選B;

Animals.remove(!fish')只會(huì)刪除第一個(gè)fish,故不選C;

77.請(qǐng)問(wèn)在sklearn中,下列哪個(gè)選項(xiàng)中關(guān)于lasso回歸描述是不正確的?

A、在函數(shù)LassoCVO中可設(shè)置參數(shù)alpha是多少(序列格式),默認(rèn)不設(shè)置則找

適合訓(xùn)練集最優(yōu)alpha0

B、函數(shù)LassoCVO會(huì)返回mse這一統(tǒng)計(jì)學(xué)指標(biāo),其值越趨近1,表示擬合程度越

好。

C、lass?;貧w模型中有一個(gè)超參數(shù)需要選擇,也就是正則化的參數(shù)alpha,合適

的超參數(shù)選擇是獲取好的模型的重要因素。

D、屬性alpha_會(huì)返回最佳懲罰系數(shù)alpha的值。

答案:B

78.如一個(gè)原始數(shù)據(jù)為3行4列的數(shù)據(jù)框需要降維至兩維,利用SparkMLIib的實(shí)

現(xiàn)思路下述不正確的是?

A、在PCA中,可以選取值最小的2個(gè)特征值對(duì)應(yīng)的特征向量,并

由該兩個(gè)特征向量組成矩陣c

B、求協(xié)方差矩陣B的右特征向量

C、求取矩陣A的協(xié)方差矩陣B

D、將原始3行4列的數(shù)據(jù)轉(zhuǎn)換得到一個(gè)3乘4的矩陣A

答案:B

79.RISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型中的數(shù)據(jù)準(zhǔn)備環(huán)節(jié)除了包括數(shù)據(jù)選

擇,數(shù)據(jù)清潔,數(shù)據(jù)創(chuàng)建,數(shù)據(jù)合并外,還包含以

下哪個(gè)步驟?

A、數(shù)據(jù)變換

B、確定業(yè)務(wù)目標(biāo)

C、模型結(jié)果評(píng)估

D、選擇建模技術(shù)

答案:A

解析:PPT"第一章數(shù)據(jù)挖掘介紹”第32口原題

80.以下哪個(gè)措施屬于反爬措施?

A、字體

B、滑塊驗(yàn)證碼

C、數(shù)據(jù)收費(fèi)

D、以上全部正確

答案:D

解析:常口的反爬手段:1、Headers字段:cookie,refer,

User-Agent等字段。2、驗(yàn)證碼:數(shù)字,滑塊,計(jì)

算,文字,12306等。3、JavaScript:通過(guò)

JavaScript生成請(qǐng)求參數(shù)、數(shù)據(jù)加密、數(shù)據(jù)混淆'口

面跳轉(zhuǎn)。4、IP地址檢測(cè):通過(guò)檢測(cè)訪問(wèn)者的IP地

址,判斷是否為正常用聲。

81.以下關(guān)于Apriori算法的描述不正確的是哪一項(xiàng)?

A、Apriori算法是一個(gè)非常經(jīng)典的頻繁項(xiàng)集的挖掘算法,很多算法都是基于Ap

riori算法而產(chǎn)生的,包括FP-Tree,GSP,CBA等。

B、Apriori算法適用于非重復(fù)項(xiàng)集數(shù)元素較多的案例。

C、python的工具庫(kù)mlxtend目前提供實(shí)踐Apriori算法的方法。

D、使用先驗(yàn)原理,大大提高了頻繁項(xiàng)集逐層產(chǎn)生的效率。

答案:A

82.對(duì)于隨機(jī)森林和GradientBostingTrees.下面說(shuō)法正確的是?

A、可以并行地生成GradientBoostingTrees單個(gè)樹(shù),因?yàn)樗鼈冎g是沒(méi)有依賴(lài)

B、這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹(shù)

C、在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是有依賴(lài)的,而GradientBostingTrees

中的單個(gè)樹(shù)之間是沒(méi)有依賴(lài)的

D、GradientBoostingTrees訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好

答案:B

解析:隨機(jī)森林是基于bagging的,而GradientBoostingtrees是基于boosting

的,所以在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是沒(méi)有依賴(lài)的,而

GradientBoostingTrees中的單個(gè)樹(shù)之間是有依賴(lài)關(guān)系。

83.以下哪些不屬于無(wú)量綱化特征縮放的方法?

A、最大-最小歸化

B\OneHot編碼

C、縮放成單位向量

D、特征標(biāo)準(zhǔn)化

E、均值歸一化

答案:B

解析:考查常□的無(wú)量綱化特征縮放方法:標(biāo)準(zhǔn)化、歸一化

(均值歸一化、最大-最小歸化)、縮放成單位向量

84.銀行進(jìn)行客聲購(gòu)買(mǎi)力分析,首先獲取客聲歷史賬單,確定其中各項(xiàng)商品的計(jì)

算權(quán)重,得出每位客聲的購(gòu)買(mǎi)力評(píng)分并存儲(chǔ)記錄。最后將結(jié)果圖表顯

示。請(qǐng)問(wèn)該過(guò)程對(duì)應(yīng)于以下哪個(gè)項(xiàng)目數(shù)據(jù)流程設(shè)計(jì)。

A、數(shù)據(jù)源數(shù)據(jù)處理數(shù)據(jù)落地->數(shù)據(jù)可視化

B、數(shù)據(jù)可視化->數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理

C、數(shù)據(jù)可視化->數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地

D、數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理數(shù)據(jù)可視化

答案:A

85.Pandas中的DataFrame的df.iloc[1:3]

Av查詢(xún)的是1,2行

B、查詢(xún)的是2,3列

G查詢(xún)的是2,3行

D、查詢(xún)的是1,2列

答案:C

86.在華為MLS中,“線性回歸”節(jié)點(diǎn)的參數(shù)設(shè)置描述錯(cuò)誤的是?

A、最大迭代次數(shù),模型訓(xùn)練的最大迭代次數(shù)。

B、正則化函數(shù)。正則化方法,可選參數(shù)僅包括Aut。、None、L1、L2

C、正則化參數(shù):用于調(diào)節(jié)正則化項(xiàng)的權(quán)重.

D、彈性網(wǎng)絡(luò)參數(shù),L1和L2正則化的分配權(quán)重。

答案:B

解析:“線性回歸”節(jié)點(diǎn)的參數(shù)設(shè)置:1)正則化函數(shù):正則化方法。包括Aut。、

None、L1、L2和L1andL2。2)正則化參數(shù):用于調(diào)節(jié)

正則化項(xiàng)的權(quán)重。3)彈性網(wǎng)絡(luò)參數(shù):L1和L2正則化的分配權(quán)重。4)最大迭代

次數(shù):模型訓(xùn)練的最大迭代次數(shù)。B選項(xiàng)中的僅包括

是錯(cuò)誤的,還有L1andL2方式,故選擇B選項(xiàng)

87.請(qǐng)問(wèn)以下關(guān)于ID3算法中說(shuō)法錯(cuò)誤的是哪一項(xiàng)?

A、選取信息增益最大的特征,作為樹(shù)的根節(jié)點(diǎn)

B、節(jié)點(diǎn)分裂依據(jù)為信息增益

C、以信息增益度量屬性選擇,選擇分裂后信息增益最小的屬性進(jìn)行分裂

D、ID3算法是建立在奧卡姆剃刀的基礎(chǔ)上

答案:C

解析:ID3算法的核心思想:以信息增益度量屬性選擇,選擇分裂后信息增益最

大的屬性進(jìn)行分裂。故C錯(cuò)誤

88.癌癥檢查數(shù)據(jù)樣本有1000個(gè),其中10個(gè)數(shù)據(jù)樣本是有癌癥,其它是無(wú)癌癥。

假設(shè)分類(lèi)模型在無(wú)癌癥數(shù)據(jù)9990中預(yù)測(cè)正確了9980個(gè),在10個(gè)癌癥數(shù)據(jù)中預(yù)

測(cè)正確了9個(gè),此時(shí)真陽(yáng)=9,真陰=9980,假陽(yáng)二10,假陰=1。則該預(yù)測(cè)模型的召

回率為多少?

A、90%

B、76.27%

G47.36%

D、99.89%

答案:A

解析:召回率計(jì)算公式TP/CTP+FN),即9/(9+1)=0.9

真陽(yáng)性(TP)、真陰性(TN)、假陽(yáng)性、假陰性(FN)O

89.以下哪個(gè)選項(xiàng)不是連續(xù)變量的數(shù)值特征離散化方法?

A、OneR

B、獨(dú)熱編碼

G分箱

D、基于信息熠的方法

答案:B

90.在數(shù)據(jù)抽取、轉(zhuǎn)換和加載過(guò)程中,以下哪種不是數(shù)據(jù)抽取的方式?

A、全量抽取

B、倒置抽取

G更新抽取

D、增量抽取

答案:B

解析:考查數(shù)據(jù)預(yù)處理的知識(shí)點(diǎn)。ETL工具中數(shù)據(jù)抽取的三種

方式:更新抽取、增量抽取、全量抽取

91.在有監(jiān)督學(xué)習(xí)中,我們?nèi)绾问褂镁垲?lèi)方法?1.我們可以先創(chuàng)建聚類(lèi)類(lèi)別,然后

在每個(gè)類(lèi)別上用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)2.我們可以使用聚類(lèi)“類(lèi)別id”作為一

個(gè)新的特征項(xiàng),然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)3.在進(jìn)行監(jiān)督學(xué)習(xí)之前,我們

不能新建聚類(lèi)類(lèi)別4.我們不可以使用聚類(lèi)“類(lèi)別id”作為一個(gè)新的特征項(xiàng),然

后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)

A、3和4

B、1和4

C、1和3

D、1和2

答案:D

92.Redis不適用于以下哪個(gè)應(yīng)用場(chǎng)景?

A、獲取PB級(jí)Value數(shù)據(jù)

B、獲取TOPN操作

C、獲取手機(jī)驗(yàn)證碼

D、獲取最新N個(gè)數(shù)據(jù)的操作

答案:A

93.以下不屬于大數(shù)據(jù)治理的目的的是哪一項(xiàng)?

A、保障企業(yè)或組織可以明確定位到其核心數(shù)據(jù)信息,如客聲、供應(yīng)商、產(chǎn)品等

信息描述。

B、幫助企業(yè)等組織建立其現(xiàn)有數(shù)據(jù)的清單,就像建立物理資產(chǎn)的清單一樣。

C、兼顧開(kāi)放性,如多分析引擎統(tǒng)一管理,滿(mǎn)足多樣化的數(shù)據(jù)分析場(chǎng)景和挖掘能力。

D、防御其財(cái)務(wù)、企業(yè)斐源規(guī)劃和人力資源應(yīng)用程序中的關(guān)鍵業(yè)務(wù)數(shù)據(jù)受到未授

權(quán)更改。

答案:C

94.以下哪種方法不屬于Embedded(嵌入法)?

A、特征擴(kuò)增

B、基于L1的正則化方法

C、平均不純度減少(MeanDecreaseImpurity)

D、平均精度下降(MeanDecreaseAccuracy)

答案:A

95.若隨機(jī)變量X服從正態(tài)分布N(口。”),則隨機(jī)變量Y=aX+b服從以下哪個(gè)正

態(tài)分布?

A、N(a”口+b,a”。-2)

B、N(au+b,a-2cT2)

C、N(au+b,a”o”+b)

D、N(au,a"(<2)

答案:B

96.以下關(guān)于大數(shù)據(jù)Kappa架構(gòu)描述不正確的是?

A、Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,將實(shí)時(shí)和流部分進(jìn)行了合并,

將數(shù)據(jù)通道以消息隊(duì)列進(jìn)行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面

進(jìn)行了存儲(chǔ)

B、在Kappa架構(gòu)中,如果需要進(jìn)行離線分析或者再次計(jì)算的時(shí)候,不必像實(shí)時(shí)

分析那樣將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過(guò)消息隊(duì)列重播一次

C、Kappa架構(gòu)的缺點(diǎn):實(shí)施難度相對(duì)較高,尤其是在數(shù)據(jù)重播的部分

D、Kappa架構(gòu)的優(yōu)點(diǎn):解決了Lambda架構(gòu)里面的冗余部分,以數(shù)據(jù)可重播的超

凡脫俗的思想進(jìn)行了設(shè)計(jì),整個(gè)架構(gòu)非常簡(jiǎn)潔

答案:B

解析:Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,將實(shí)

時(shí)部分和流部分進(jìn)行了合并,將數(shù)據(jù)通道以消息隊(duì)列進(jìn)

行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面

進(jìn)行了存儲(chǔ)。

97.ElasticSearch進(jìn)行全文檢索一般需要哪幾個(gè)步驟?

A、清洗、分詞、建立素引

B、清洗、分詞

C、清洗、建立素引

D、清洗、建立素引、分詞

答案:A

98.協(xié)同過(guò)濾推薦算法,是最經(jīng)典、最常用的推薦算法。要實(shí)現(xiàn)協(xié)同過(guò)濾。以下

哪個(gè)步驟不需要?

A、計(jì)算推薦

B、找到相似的用聲或物品

C、收集用聲偏好

D、收集用聲來(lái)源

答案:D

解析:要實(shí)現(xiàn)協(xié)同過(guò)濾,需要以下幾個(gè)步驟:1)收集用聲偏好;2)找到相似的用

聲或物品;3)計(jì)算推薦。沒(méi)有收集用聲來(lái)源,所以選擇D選項(xiàng)

99.以下關(guān)于數(shù)據(jù)分析與數(shù)據(jù)挖掘的描述錯(cuò)誤的是?

A、數(shù)據(jù)分析更側(cè)重于統(tǒng)計(jì)學(xué)上面的一些方法,經(jīng)過(guò)人的推理演譯得到結(jié)論。數(shù)

據(jù)挖掘更側(cè)重于側(cè)重由機(jī)器進(jìn)行自學(xué)習(xí),直換得到結(jié)論。

B、數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,挖掘出未知的、且有價(jià)值的信息和知識(shí)的過(guò)程,

重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)“知識(shí)規(guī)則”。

C、數(shù)據(jù)分析和數(shù)據(jù)挖掘的界限是非常清晰的。

D、數(shù)據(jù)分析會(huì)用到成熟的分析工具,比如EXCEL.SPSS.SAS等。數(shù)據(jù)挖掘則需楚

有編程基礎(chǔ)。

答案:C

解析:都跟數(shù)據(jù)打交道,知識(shí)技能有很多交叉點(diǎn),在職業(yè)上他們沒(méi)有很明顯的界

限,數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是一樣的,都是從數(shù)據(jù)里

面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(shí)(有價(jià)值的信息),從而幫助業(yè)務(wù)運(yùn)營(yíng)、改進(jìn)產(chǎn)品以及幫

助企業(yè)做更好的決策。狹義的數(shù)據(jù)分析與數(shù)據(jù)挖掘構(gòu)

成廣義的數(shù)據(jù)分析。

100.下列哪個(gè)不屬于常用的文本分類(lèi)的特征選擇算法?

A、主成分分析

B、信息增益

G互信息法

D、卡方檢驗(yàn)

答案:A

解析:常U的六種特征選擇方法:1)DF(DocumentFrequency)文檔頻率2)Ml(M

utuaIInformation)互信息法3)(InformationGain)信

息增益法4)CHI(Chi-square)卡方檢驗(yàn)法5)WLLR(WeightedLogLikeIihoodRat

ion)加權(quán)對(duì)數(shù)似然6)WFO(Weighted

FrequencyandOdds)加權(quán)頻率和可能性主成分分析屬于降維方法,是對(duì)特征進(jìn)行

轉(zhuǎn)化而不是特征選擇,所以選擇A選項(xiàng)。

101.以下關(guān)于模型超參數(shù)的特征描述不正確的是?

A、模型超參數(shù)通常根據(jù)給定的預(yù)測(cè)建模問(wèn)題而調(diào)整

B、模型超參數(shù)常應(yīng)用于估計(jì)模型參數(shù)的過(guò)程中

C、模型的超參數(shù)可以通過(guò)數(shù)據(jù)直接得到,也可以通過(guò)人的經(jīng)驗(yàn)來(lái)設(shè)定

D、模型超參數(shù)通??梢允褂脝l(fā)式方法來(lái)設(shè)置

E、模型超參數(shù)通常由實(shí)踐者直接指定

答案:C

解析:考查超參數(shù)具有的特征:模型超參數(shù)常應(yīng)用于估計(jì)模型

參數(shù)的過(guò)程中,模型超參數(shù)通常由實(shí)踐者直接指定,模

型超參數(shù)通??梢允褂脝l(fā)式方法來(lái)設(shè)置,模型超參數(shù)

通常根據(jù)給定的預(yù)測(cè)建模問(wèn)題而調(diào)整。沒(méi)有C選項(xiàng)

102.在LogisticRegression中,如果同時(shí)加入L1和L2范數(shù),不會(huì)產(chǎn)生什么效果?

A、以做特征選擇,并在一定程度上防止過(guò)擬合

B、可以獲得更準(zhǔn)確的結(jié)果

C、能解決維度災(zāi)難問(wèn)題

D、能加快計(jì)算速度

答案:B

103.大數(shù)據(jù)的4V不包含哪一個(gè)?

A、數(shù)據(jù)量大

B、種類(lèi)多

C、價(jià)值密度低

D、分布式

E、處理速度快

答案:D

104.以下關(guān)于特征選擇方法中哪個(gè)不屬于特征減少的方法?

A、Embedded(嵌入法)

B、Wrapper(包裝法)

C、交叉驗(yàn)證方法

D、Filter(過(guò)濾法)

答案:C

解析:考查常口特征選擇方法,特征減少的選擇方法有單變量

特征選擇方法:Filter(過(guò)濾法),基于模型的特征西安

則方法:Wrapper(包裝法)、Embedded(嵌入法)

105.以下選項(xiàng)中屬于需要模型通過(guò)訓(xùn)練獲得的參數(shù)是哪些?

A、隨機(jī)森林中的樹(shù)的個(gè)數(shù)。

B、神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速率。

C、線性回歸或邏輯回歸中的系數(shù)。

D、SVM算法中的核函數(shù)。

答案:C

106.在python中,關(guān)于Pandas模塊中的數(shù)據(jù)讀取函數(shù)read_table以下說(shuō)法不

正確的是?單

A、names:讀取數(shù)據(jù)時(shí),可以通過(guò)names屬性設(shè)置列索引。

B、header:用來(lái)制定標(biāo)題行,如果數(shù)據(jù)集中沒(méi)有標(biāo)題行,則制定為None

C、index_col:可以將數(shù)據(jù)集中的某一列(某幾列)設(shè)置為行索引,通過(guò)indexcol

來(lái)進(jìn)行指定。

D、usecols:通過(guò)usecols參數(shù)來(lái)設(shè)置需要使用的列。

E、se/edaiter:用來(lái)制定數(shù)據(jù)之間的分隔符,read_table默認(rèn)為逗號(hào),red.csv

默認(rèn)為表符。

答案:E

解析:seq/deIimiter:用來(lái)制定數(shù)據(jù)之間的分隔符,read_csv默認(rèn)為逗號(hào),read

Jable默認(rèn)為\t(制表符)。E選項(xiàng)說(shuō)反了

107.請(qǐng)問(wèn)對(duì)于CRISP-DM模型基本步驟的描述,以下哪項(xiàng)是正確的?

A、1.商業(yè)理解2.數(shù)據(jù)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型評(píng)估6.模型實(shí)施

B、1.數(shù)據(jù)理解2.商業(yè)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型評(píng)估6.模型實(shí)施

C、1.數(shù)據(jù)理解2.商業(yè)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型實(shí)施6.模型評(píng)估

D、1.商業(yè)理解2.數(shù)據(jù)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型實(shí)施6.模型評(píng)估

答案:A

解析:

?CRISP-DM模型

CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)是CrossIndi

Mining的縮寫(xiě),是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一

的應(yīng)用,是用以管理并指導(dǎo)DataMiner有效、準(zhǔn)確開(kāi)展;

果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。

CRISP-DM模型的基本步驟包括:

□商業(yè)理解

□數(shù)據(jù)理解

□數(shù)據(jù)準(zhǔn)備

實(shí)施

□建立模型

□模型評(píng)估

□模型實(shí)施

108.以下哪些選項(xiàng)不屬于數(shù)值特征離散化的必要性?

A、數(shù)值高散化實(shí)際是一個(gè)數(shù)據(jù)簡(jiǎn)化機(jī)制,通過(guò)數(shù)值離散化過(guò)程,一個(gè)完整的數(shù)

據(jù)集變成一個(gè)個(gè)按照某種規(guī)則分類(lèi)的子集,增強(qiáng)了模型的穩(wěn)定性。

B、離散化數(shù)值在提高建模速度和提高模型精度上有顯著作用。

C、離散化過(guò)程并沒(méi)有帶來(lái)信息丟失

D、離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性,能減少噪音節(jié)點(diǎn)對(duì)數(shù)據(jù)的影響。

答案:C

解析:

1、在數(shù)據(jù)挖掘理論研究中,數(shù)值離散化對(duì)數(shù)據(jù)預(yù)處

理影響重大。研究表明離散化數(shù)值在提高建模速度和

提高模型精度上有顯著作用。2、數(shù)值離散化實(shí)際是

一個(gè)數(shù)據(jù)簡(jiǎn)化機(jī)制。因?yàn)橥ㄟ^(guò)數(shù)值離散化過(guò)程,一個(gè)

完整的數(shù)據(jù)集變成一個(gè)個(gè)按照某種規(guī)則分類(lèi)的子集,

增強(qiáng)了模型的穩(wěn)定性。3、離散化后的特征對(duì)異常數(shù)

據(jù)有很強(qiáng)的魯棒性。能減少噪音節(jié)點(diǎn)對(duì)數(shù)據(jù)的影響。

109.若要修改HBase表,下列API哪個(gè)最先被調(diào)用?

AvcreateConnection()

B、getTabIe()

C、getConnect0

D、getAdmin()

答案:A

110.請(qǐng)問(wèn)以下哪些算法最適合配合線性判別分析LDA使用?

A、聚類(lèi)算法

B、非線性回歸算法

C、多元線性回歸算法

D、一元線性回歸算法

答案:B

111.下面這條GaussDB200語(yǔ)句“caIIdbms_job.intervaI(1,'sysdate+1.0/24");

”的意思是

A、修改Job的Interva為每隔24小時(shí)執(zhí)行一次。

B、修改Job的Interval為每隔1小時(shí)執(zhí)行一次。

G修改Job的Interval為每隔1/24小時(shí)執(zhí)行一次。

D、修改Job的Interval為每隔24分鐘執(zhí)行一次。

答案:B

112.在DGC平臺(tái)架構(gòu)下提供企業(yè)級(jí)的元數(shù)據(jù)管理。數(shù)據(jù)斐產(chǎn)管理可視,支持鉆取、

溯源等。通過(guò)數(shù)據(jù)地圖,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)智能

搜索和運(yùn)營(yíng)監(jiān)控的模塊是哪個(gè)?

A、數(shù)據(jù)開(kāi)發(fā)

B、數(shù)據(jù)資產(chǎn)管理

C、規(guī)范設(shè)計(jì)

D、數(shù)據(jù)集成

答案:B

113.以下哪個(gè)選項(xiàng)是異常值處理的方法?

A、刪除異常值

B、將異常值視為缺失值,按照缺失值處理方法來(lái)處理異常值

C、估算異常值

D、以上全都正確

答案:D

解析:

異常值處理方法包括:1)刪除異常值。適用于異常值較少的情況。2)將異常值

視為缺失值,按照缺失值處理方法來(lái)處理異常值。

3)估算異常值。Mean/Mode/Median估計(jì)數(shù)據(jù)填充異常值。

114.請(qǐng)問(wèn)以下哪種場(chǎng)景不需要降維算法?

A、數(shù)量統(tǒng)計(jì)

B、視頻壓縮

C、用聲畫(huà)像

D、人臉識(shí)別

答案:A

115.利用Python中的seaborn模塊可以快速的制作出數(shù)據(jù)集中特征之間的相關(guān)

關(guān)系圖。以下對(duì)該相關(guān)系數(shù)熱力圖描述

錯(cuò)誤的是哪一項(xiàng)?

A、通過(guò)相關(guān)關(guān)系熱力圖觀察到屬性之間相關(guān)系數(shù)值都不大,說(shuō)明屬性之間普遍相

關(guān)性不高,但是部分屬性具備相關(guān)性挖掘的可能。

B、相關(guān)系數(shù)熱力圖矩陣是對(duì)稱(chēng)的。

C、相關(guān)關(guān)系熱力圖中,各個(gè)特征自身的相關(guān)系數(shù)值均為1O

D、繪制相關(guān)關(guān)系熱力圖時(shí),如果選擇相關(guān)關(guān)系計(jì)算的參數(shù)為spearman相關(guān)系數(shù),

則是用于描述兩個(gè)變量之間的線性相關(guān)關(guān)系。

答案:D

解析:Spearman相關(guān)系數(shù)不關(guān)心兩個(gè)數(shù)據(jù)集是否線性相關(guān),

而是單調(diào)相關(guān)

116.以下關(guān)于KMeans對(duì)比K-Mediods的描述,表述錯(cuò)誤的是哪一項(xiàng)?

A、K-Mediods質(zhì)心可能是計(jì)算產(chǎn)生的,不屬于數(shù)據(jù)集中的點(diǎn)。

B、如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用K-Mediods替代K-Mea

C、K-Mediods比K-Means效果更穩(wěn)定。

D、K-Mediods算法對(duì)比K-Means算法,質(zhì)心的計(jì)算復(fù)雜度更高。

答案:A

解析:

?K?Means對(duì)比K?Mediods(2)

K-Mediods聚類(lèi)算法原理和K-Means大體相似,算方

□質(zhì)心的計(jì)算復(fù)雜度更高:在質(zhì)心的選取上,K-Means只

點(diǎn)獲得新的質(zhì)心,而K-Medoids需要計(jì)算每個(gè)簇任兩點(diǎn)

比較獲取新的質(zhì)心,計(jì)算復(fù)雜度增加,運(yùn)行速度會(huì)較慢

□穩(wěn)定性更高、執(zhí)行速度變慢:對(duì)于有異常值的小樣本量:

Means效果更穩(wěn)定,但是隨著數(shù)據(jù)集規(guī)模增加,K-Mec

□如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用I

117.關(guān)于SparkMLIib中SVD算法的使用說(shuō)法錯(cuò)誤的是?

A、必須先通過(guò)已有數(shù)據(jù)創(chuàng)建出相應(yīng)矩陣類(lèi)型的對(duì)象,然后調(diào)用該類(lèi)的成員方法

來(lái)進(jìn)行SVD分解。

B、如果需要獲得U成員,可以在進(jìn)行SVD分解時(shí),指定puteU參數(shù),令其等于F

aIse,即可在分解后的svd對(duì)象中拿到U成員.

GSparkMLIib中SVD方法位于org.apache,spark,mIIib.LinaIg包下的RowMat

rix和IndexedRowMatrix類(lèi)中.

D、將數(shù)據(jù)轉(zhuǎn)換成RowMatrix后,可調(diào)用RowMatrix自帶的puteSVD方法計(jì)算分解

結(jié)果。

答案:B

118.以下關(guān)于Python全局變量和局部變量的描述中,錯(cuò)誤的是

A、局部變量在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出后變量被釋放

B、全局變量一般指定義在函數(shù)之外的變量

C、使用global保留字聲明后,變量可以作為全局變量使用

D、當(dāng)函數(shù)退出時(shí),局部變量依然存在,下次函數(shù)調(diào)用可以繼續(xù)使用

答案:D

119.df.taiI()這個(gè)函數(shù)是用來(lái)

A、用來(lái)創(chuàng)建數(shù)據(jù)

B、用來(lái)展現(xiàn)數(shù)據(jù)

C、用來(lái)分析數(shù)據(jù)

D、用來(lái)測(cè)試數(shù)據(jù)

答案:B

120.下列方法中,不可以用于特征降維的方法包括。

A、最小二乘法LeastSquares

B、主成分分析PCA

C、矩陣奇異值分解SVD

D、局部線性嵌入LLE

E、線性判別分析LDA

答案:A

解析:

考查??诮稻S方法,有:SVD-奇異值分解、PCA-主成

分分析、LDA-線性判別分析、LLE-局部線性嵌入

121.可以通過(guò)以下哪個(gè)命令創(chuàng)建節(jié)點(diǎn)數(shù)據(jù)?

A、Is/node

B、get/node

C、set/nodedata

D、create/node

答案:D

122.決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示個(gè)()上的測(cè)試,每個(gè)分支代

表個(gè)測(cè)試(),每個(gè)葉節(jié)點(diǎn)代表一種().

A、輸出、類(lèi)別、屬性

B、屬性、類(lèi)別、輸出

C、屬性、輸出、類(lèi)別

D、類(lèi)別、輸出、屬性

答案:C

解析:

考查分類(lèi)問(wèn)題模型選擇中的決策樹(shù),在內(nèi)部進(jìn)行決策樹(shù)

的比較,每個(gè)分支代表類(lèi)別,每個(gè)葉節(jié)點(diǎn)作為輸出

123.以下關(guān)于大數(shù)據(jù)Lambda架構(gòu)描述不正確的是哪一選項(xiàng)?

A、Lambda架構(gòu)是大數(shù)據(jù)系統(tǒng)里面舉足輕重的架構(gòu),大多數(shù)架構(gòu)基本都是Lambd

a架構(gòu)或者基于其變種的架構(gòu)。

B、Lambda架構(gòu)很好的兼顧了實(shí)時(shí)處理和離線處理,幾乎覆蓋了大多數(shù)的數(shù)據(jù)分

析和需求處理??梢院芎玫貪M(mǎn)足同時(shí)存在實(shí)時(shí)和離線需求的場(chǎng)景。

C、Lambda架構(gòu)將數(shù)據(jù)通道分為兩個(gè)分支:實(shí)時(shí)流和離線。實(shí)時(shí)流類(lèi)似流式架構(gòu),

保障了其實(shí)時(shí)性,而離線則以批處理方式為主,保障了最終一致性。

D、Lambda架構(gòu)的缺點(diǎn):離線層與實(shí)時(shí)流內(nèi)部處理的邏輯是不相同的,因此有大

量冗余和重復(fù)的模塊存在。

答案:D

124.SparkMLIib匯總統(tǒng)計(jì)主要是對(duì)RDD數(shù)據(jù)集進(jìn)行整體的統(tǒng)計(jì)性描述,主要通過(guò)

調(diào)用colStats函數(shù),該函數(shù)中獲取數(shù)據(jù)每列的L1范數(shù)的參數(shù)是下列選項(xiàng)中的哪

一項(xiàng)?

A、normlL1

B、numNonzeros

C、normL2

Dxvariance

答案:A

125.Gremlin中查詢(xún)單個(gè)點(diǎn)的信息該用什么命令?

A、gV().hasLabeI("test").vaIues("age")

B、gV().hasLabeI("test").vaIueIap("string_list","age")

C、gV(13464736).vaIueMapO

D、gV().hasLabeI("test")

答案:A

126.設(shè)X、X1、X2、Y是四個(gè)隨機(jī)變量,a,b是常數(shù),以下關(guān)于協(xié)方差的性質(zhì)描

述錯(cuò)誤的是?

A、如果Cov(X,Y)=0,則隨機(jī)變量X,Y相互獨(dú)立

B、Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

GCov(aX,bY)=abCov(X,Y)

D、如果隨機(jī)變量x,Y相互獨(dú)立,則Cov(X,Y)=0

答案:A

127.離線批處理方案的應(yīng)用場(chǎng)景不包括?

A、占用計(jì)算存儲(chǔ)資源多

B、快速高效,實(shí)時(shí)的數(shù)據(jù)處理

C、數(shù)據(jù)處理格式多樣

D、處理大規(guī)模數(shù)據(jù)

答案:B

128.關(guān)于模型部署的描述不正確的是哪一項(xiàng)?

A、模型一經(jīng)部署,就可以永久的固化下來(lái)。

B、模型部署可以借助的工具越來(lái)越多。

C、在生產(chǎn)環(huán)境下部署模型也存在許多挑

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論