![HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第1頁(yè)](http://file4.renrendoc.com/view8/M01/14/16/wKhkGWa49dGAOV-oAADvywrmtxA161.jpg)
![HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第2頁(yè)](http://file4.renrendoc.com/view8/M01/14/16/wKhkGWa49dGAOV-oAADvywrmtxA1612.jpg)
![HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第3頁(yè)](http://file4.renrendoc.com/view8/M01/14/16/wKhkGWa49dGAOV-oAADvywrmtxA1613.jpg)
![HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第4頁(yè)](http://file4.renrendoc.com/view8/M01/14/16/wKhkGWa49dGAOV-oAADvywrmtxA1614.jpg)
![HCIE-Big Data-Data Mining H13-731筆試題庫(kù)(重點(diǎn)題)_第5頁(yè)](http://file4.renrendoc.com/view8/M01/14/16/wKhkGWa49dGAOV-oAADvywrmtxA1615.jpg)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
HCIE-BigData-DataMiningH13-731筆試必備題庫(kù)(重點(diǎn)題)
一'單選題
1.以下哪個(gè)選項(xiàng)不是矩陣乘法對(duì)向量的變換?
A、投影
B、伸縮
C、曲線化
D、旋轉(zhuǎn)
答案:C
2.SparkMLIib中的BasicStatistic是專(zhuān)口用于進(jìn)行大數(shù)據(jù)集群上的統(tǒng)計(jì)分析工
具,以下哪個(gè)不屬于BasicStatistic
支持的功能?
A、假設(shè)檢驗(yàn)
B、特征抽取
C、匯總統(tǒng)計(jì)
D、生成隨機(jī)數(shù)
答案:B
解析:BasicStatistic是SparkMLIib提供專(zhuān)口用于進(jìn)行大數(shù)
據(jù)集群上的統(tǒng)計(jì)分析工具。BasicStatistic為大數(shù)據(jù)集
中數(shù)據(jù)預(yù)處理中數(shù)據(jù)的分析提供支撐方法,包括
Summarystatistics(匯總統(tǒng)計(jì)),Correlations(相
關(guān)系數(shù)),Stratifiedsampling(分層抽樣)
,Hypothesistesting(假設(shè)檢驗(yàn)),Randomdata
Generation(隨機(jī)數(shù)生成),KerneIdensityestimation
(核密度估計(jì))等數(shù)據(jù)分析方法。
3.“點(diǎn)擊率問(wèn)題”是這樣一個(gè)預(yù)測(cè)問(wèn)題,99%的人不會(huì)點(diǎn)擊,而1%的人會(huì)點(diǎn)擊,
所以這是一個(gè)非常不平衡的數(shù)據(jù)集。假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來(lái)分類(lèi),
而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們可以下的結(jié)論是?
A、模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了。
B、模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型。
C、無(wú)法下結(jié)論
D、以上都不對(duì)
答案:C
4.以下關(guān)于特征選擇定義的理解說(shuō)法錯(cuò)誤的是哪一項(xiàng)?
A、特征選擇是指從原始特征中挑選出一組最有代表性、分類(lèi)性能好的特征。
B、特征選擇不像算法和模型是確定的步驟,更多是工程上的經(jīng)驗(yàn)和權(quán)衡,一般需
要耗費(fèi)較多的時(shí)間和精力。
C、對(duì)于不同的數(shù)據(jù)挖掘任務(wù),所需要的特征組合都是相同的。
D、特征選擇(Featureselection)也被稱(chēng)為變量選擇、屬性選擇或變量子集選擇。
它是為了構(gòu)建模型而選擇相關(guān)特征子集的過(guò)程。
答案:C
5.請(qǐng)問(wèn)以下選項(xiàng)中,不屬于分類(lèi)算法的是哪一項(xiàng)?
A、決策樹(shù)
B、隨機(jī)森林
C、線性回歸
D、SVM
答案:C
解析:線性回歸屬于回歸算法
6.以下哪個(gè)選項(xiàng)是求解等式約束最優(yōu)化的常用方法?
A、牛頓法
B、梯度下降法
C、拉格朗曰乘法子
D、KKT條件
答案:C
解析:考查等式約束最優(yōu)化的問(wèn)題,其中提到用拉格朗曰乘法
子方法來(lái)將約束優(yōu)化問(wèn)題轉(zhuǎn)化為無(wú)約束優(yōu)化問(wèn)題
7.在案例“銀行客聲精準(zhǔn)畫(huà)像”中,關(guān)于其數(shù)據(jù)挖掘不同階段的操作描述,屬于
數(shù)據(jù)建模階段的是?
A、在客聲分類(lèi)問(wèn)題中采用的主要是數(shù)據(jù)挖掘中分類(lèi)和聚類(lèi)的算法,需要結(jié)合需
求規(guī)劃出適用模型。
B、將來(lái)自數(shù)據(jù)倉(cāng)庫(kù)中多個(gè)數(shù)據(jù)表,經(jīng)過(guò)了數(shù)據(jù)采集.清理和集成,生成一個(gè)針對(duì)
數(shù)據(jù)挖掘目標(biāo)確定與交易行為有關(guān)的數(shù)據(jù)項(xiàng)集合。
C、結(jié)果分析,并提供參看策略。
D、對(duì)最近三個(gè)月的原始交易數(shù)據(jù)進(jìn)行計(jì)算獲得變量。并整合在客聲的實(shí)際交易
情祝上定義客聲的行為,每個(gè)客聲作為一條觀測(cè)從中隧機(jī)抽取2867個(gè)客聲作為
研究實(shí)例的代表性樣本。
答案:D
解析:A選項(xiàng):算法選擇,B選項(xiàng):數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備,C選項(xiàng):結(jié)果分析
8.以下關(guān)于離散特征編碼的表述,錯(cuò)誤的是哪一項(xiàng)?單
A、離散特征的取值之間沒(méi)有大小的意義,使用。ne-hot編碼。
B、因?yàn)闄C(jī)器學(xué)習(xí)算法接收的是數(shù)字型變量。所以需要對(duì)屬性進(jìn)行編碼。
C、離散特征的取值有大小的意義,直接使用映射。
D、想要方法pandas.get_dummies()的作用等同于onehot編碼的效果,只需要
設(shè)置其參數(shù)drop_first=True0
答案:D
9.以下關(guān)于Wrapper(包裝法)和FiLter(過(guò)濾法)的描述不正確的是?
A、Wrapper方法由于每次對(duì)子集的評(píng)價(jià)都要進(jìn)行分類(lèi)器的訓(xùn)練
和測(cè)試,所以算法計(jì)算復(fù)雜度很高。
B、Wrapper方法選出的特征通用性較強(qiáng),當(dāng)改變學(xué)習(xí)算法時(shí),
也不需要針對(duì)該學(xué)習(xí)算法重新進(jìn)行特征選擇。
C、相對(duì)于Filter(過(guò)濾法),Wrapper方法找到的特征子集分類(lèi)性
能通常更好。
D、對(duì)于大規(guī)模數(shù)據(jù)集來(lái)說(shuō),Wrapper算法的執(zhí)行時(shí)間很口。
答案:B
解析:相對(duì)于Filter方法,Wrapper方法找到的特征子集分類(lèi)
性能通常更好。但是因?yàn)閃rapper方法選出的特征通用
性不強(qiáng),當(dāng)改變學(xué)習(xí)算法時(shí),需要針對(duì)該學(xué)習(xí)算法重新
進(jìn)行特征選擇。
10.以下不屬于決策樹(shù)算法?
A、ID3
B、CART
C、C4.5
D、KNN
答案:D
解析:KNN不屬于決策樹(shù)算法。
11.請(qǐng)問(wèn)以下關(guān)于特征選擇方法的一些表述,不正確的是哪一項(xiàng)?
A、卡方值描述了自變量與因變量之間的相關(guān)程度:卡方值越小,相關(guān)程度也越
大,所以很自然的可以利用卡方值來(lái)做特征選擇,保留相關(guān)程度大的變量。
B、遞歸消除特征法使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,移除若干權(quán)
值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練。它解決思路沒(méi)有過(guò)濾法直接,
它是在確認(rèn)后續(xù)的算法模型后,把模型本身的性能作為評(píng)價(jià)準(zhǔn)則:選擇一個(gè)目標(biāo)
函數(shù)來(lái)一步步的篩選特征。
C、基于樹(shù)的嵌入方法能夠用來(lái)計(jì)算特征的重要程度,因此能用來(lái)去除不相關(guān)的
特征。
D、保留大的方差的實(shí)際意義,就是該列特征的數(shù)據(jù)分散情況比較大,對(duì)結(jié)果的
劃分的影響力度就大,反過(guò)來(lái),如果方差很小,比如一列數(shù)據(jù)的值全部一樣,方
差為0,確實(shí)對(duì)結(jié)果的分類(lèi)來(lái)說(shuō)意義不大,有沒(méi)有這列特征都不能影響分類(lèi)目標(biāo)
產(chǎn)生不同的結(jié)果,這個(gè)也是方差選擇法的原理。
答案:A
12.關(guān)于實(shí)時(shí)流處理整體架構(gòu)中數(shù)據(jù)緩存和消息中間件描述錯(cuò)誤的是()。
A、Redis:提供高速key/vaIue存儲(chǔ)查詢(xún)能力,用于流處理結(jié)果數(shù)據(jù)的高速緩存。
B、Katka:分布式消息系統(tǒng),支持消息的生產(chǎn)和發(fā)布,以及多種形式的消息緩存,
滿(mǎn)足高效可靠的消息生產(chǎn)和消費(fèi)。
C、Kafka:消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。
D、HBase:用于行鍵查詢(xún)(Key-Value)檢索,查詢(xún)條件復(fù)雜且多樣。
答案:C
13.下列代碼的作用是?StringvertexId=getVertexIdByProperty(api,graphNam
e,"person","name","marko");api.queryVertex(vertexId,graphName);
A、查詢(xún)點(diǎn)
B、查詢(xún)屬性
C、查詢(xún)邊
D、以上全不正確
答案:B
14.樸素口葉斯分類(lèi)方法(NaiveBayes)是一種特殊的Bayes分類(lèi)器,特征變量是
x,類(lèi)別標(biāo)簽是C,它的一個(gè)假定
是?
A、以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布
B、P(XIC)是高斯分布
C、特征變量x的各個(gè)屬性之間互相獨(dú)立
D、各類(lèi)別的先驗(yàn)概率P(C)是相等的
答案:C
解析:樸素口葉斯的條件就是每個(gè)變量相互獨(dú)立。
15.以下哪種場(chǎng)景比較適用于在保證召回率的前提下,
盡量提升精確率的情況?
A、搜索
B、地震檢測(cè)
C、金融欺詐
D、癌癥檢測(cè)
答案:A
解析:查全率(Recall):又被稱(chēng)為召回率,是指分類(lèi)器預(yù)測(cè)為
正例的樣本占實(shí)際正例樣本的比例。在實(shí)際項(xiàng)目中,
常常需要根據(jù)具體情況做出取舍,例如一般的搜索情
況,在保證召回率的條件下,盡量提升精確率。而像
癌癥檢測(cè)、地震檢測(cè)、金融欺詐等,則在保證精確率
的條件下,盡量提升召回率。
16.以下關(guān)于Python函數(shù)的描述中,錯(cuò)誤的是
A、函數(shù)是一段可重用的語(yǔ)句組
B、每次使用函數(shù)需要提供相同的參數(shù)作為輸入
C、函數(shù)通過(guò)函數(shù)名進(jìn)行調(diào)用
D、函數(shù)是一段具有特定功能的語(yǔ)句組
答案:B
17.以下哪種方法屬于判別式模型(discriminativemodel)?單
A、隱口爾科夫模型(HMM)
B、SVM
C、LDA
D、樸素口葉斯
答案:c
解析:LDA(LinearDiscriminantAnalysis):線性判別式分析,也叫Fisher線性
判別,是模式識(shí)別中的經(jīng)典算法,它的數(shù)據(jù)集的每樣本是有
類(lèi)別輸出的。
18.下列哪個(gè)選項(xiàng)不是常用的聚類(lèi)算法?
A、SVM
B、DBSCAN算法
C、K-means算法
D、HierarchicalClustering算法、BIRCH算法
答案:A
解析:常用聚類(lèi)算法:1、基于原型聚類(lèi)(partitionng
Methods)K-Means算法,K-Mediods2x算法基于層次
聚類(lèi)(hierarchicaImethods)HierarchicaICIustering算
法、BIRCH算法3、基于密度聚類(lèi)(density-based
Methods)DBSCAN算法
19.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹(shù),為了使用較少時(shí)間,我們可以
A、減少樹(shù)的數(shù)量
B、增加樹(shù)的深度
C、減少樹(shù)的深度
D、增加學(xué)習(xí)率(learningrate)
答案:C
解析:
增加樹(shù)的深度,會(huì)導(dǎo)致所有節(jié)點(diǎn)不斷分裂,直到葉子節(jié)點(diǎn)是純的為止.所以,增加
深度,會(huì)延口訓(xùn)練時(shí)間。所以需要減少使用時(shí)間,應(yīng)該
選擇減少樹(shù)的深度。
20.設(shè)X.Y是兩個(gè)隨機(jī)變量,C是常數(shù),以下關(guān)于方差的性質(zhì)描述錯(cuò)誤的是?
A、D(C)=0
B、D(0)=0的充要條件是X以概率1取常數(shù)E(X),即P{X=E(X)}=1
GD(X+Y)=D(X)+D(Y)
D、D(CX)=C2D(X)
答案:C
解析:X與Y相互獨(dú)立時(shí)才有C選項(xiàng)成立,題目中沒(méi)有X與Y相互獨(dú)立的前提,
所以選擇C選項(xiàng)。
21.Python中列表數(shù)據(jù)類(lèi)型元素的切片非常強(qiáng)大,對(duì)于列表mylist=[1,2,3,4,5,
6,7,8,9],下面操作正確的是
A、mylist[1:9:0]
B、mylist[1:9:2]
C、mylist(6:-9:-2)
D、mylist[10::]
答案:B
22.我們可以使用Python中skiearn庫(kù)的。函數(shù),來(lái)解決無(wú)序分類(lèi)變量的離散
化問(wèn)題?
A、cut()函數(shù)
B、map()函數(shù)
C、OneHotEncoder()函數(shù)
D、KMeansO函數(shù)
答案:c
解析:無(wú)序分類(lèi)變量的離散化方法較為常用方法有:獨(dú)熱編碼(One-HotEncodin
g)、啞編碼(DummyEncoding)0
23.以下關(guān)于SparkMLIib中協(xié)同過(guò)濾算法參數(shù)描述不正確的是哪一項(xiàng)?
A、Iterations:模型中潛在因子的數(shù)量。
B、nurnBlocks:用于并行計(jì)算的塊數(shù),如設(shè)置為7則為自動(dòng)配置。
GLambda:ALS中的正則化參數(shù)。
D、OimplicitPrefs:指定是使用顯式反饋ALS變體還是使用適用于隱式反饋數(shù)
據(jù)的變量。
答案:A
解析:
?SparkMLlib中協(xié)同過(guò)濾算法叁
SparkMLlib協(xié)同過(guò)濾算法參數(shù)
□numBlocks:用于并行計(jì)算的塊數(shù)(設(shè)置為-1以為動(dòng)配
□Rank:模型中潛在因子的數(shù)量。
口[iterations:運(yùn)行的迭代次數(shù)。
□lambda:ALS中的正則化參數(shù)。
□implicitPrefs:指定是使用顯式反饋ALS變體還是使用
□alpha:適用于ALS的隱式反饋?zhàn)凅w的參數(shù),其控制偏正
24.以下對(duì)分類(lèi)模型以下描述,錯(cuò)誤的是哪一項(xiàng)?
A、邏輯回歸算法速度快,解釋性也較好。
B、利用神經(jīng)網(wǎng)絡(luò)系列算法,需要大量數(shù)據(jù)點(diǎn)才能達(dá)到較好的預(yù)測(cè)效果。
C、線性支持向量機(jī)和樸素口葉斯算法都具有較好的解釋性。
D、GBDT一般是適用于二分類(lèi)問(wèn)題,但單獨(dú)的使用GBDT模型,容易出現(xiàn)過(guò)擬合。
答案:B
25.以下關(guān)于有監(jiān)督連續(xù)變量的離散化分析錯(cuò)誤的是哪一項(xiàng)?
A、1R方法是分箱法的有監(jiān)督版本,每個(gè)區(qū)間至少包含6個(gè)變量(最后一個(gè)區(qū)間除
外)
B、基于卡方檢驗(yàn)的方法,運(yùn)用卡方檢驗(yàn)的策略,自頂向下合并數(shù)值進(jìn)行有監(jiān)督
離散化,核心操作是Herge.
C、有監(jiān)督的連續(xù)變量的離散化相對(duì)于無(wú)監(jiān)督的方法來(lái)說(shuō),可以減少在離散化的過(guò)
程中異常值的影響
D、基于信息熠的方法運(yùn)用了決策樹(shù)的理念進(jìn)行變量離散化,是一種自頂向下的分
裂技術(shù)。
答案:B
26.以下關(guān)于SparkMLlib中決策樹(shù)模型超參數(shù)描述不正確的是?
Aximpurity:用于在候選分割之間進(jìn)行選擇的雜質(zhì)度量。
B、subsamplingRater用于學(xué)習(xí)決策樹(shù)的訓(xùn)練數(shù)據(jù)的分?jǐn)?shù),但對(duì)于訓(xùn)練單個(gè)決策
樹(shù),該參數(shù)不太有用。
GmaxBins:樹(shù)的最大深度。
D、maxMemoryInMB用于收集足夠統(tǒng)計(jì)信息的內(nèi)存量。
答案:C
解析:maxBins:離散連續(xù)特征時(shí)使用的箱數(shù);maxDepth:樹(shù)的最大深度
27.關(guān)于GaussDB200的邏輯架構(gòu),下列說(shuō)法正確的是
A、DN是實(shí)際數(shù)據(jù)節(jié)點(diǎn),所以只負(fù)責(zé)存儲(chǔ)數(shù)據(jù)。
B、CN是協(xié)調(diào)節(jié)點(diǎn),協(xié)助CM管理整個(gè)集群。
C、CM是集群的管理模塊,那么負(fù)責(zé)集群的曰常管理和運(yùn)維。
D、GTM是全局事務(wù)控制器,負(fù)責(zé)生成和維護(hù)全局事務(wù)ID等全局唯一信息。
答案:D
28.重新采樣是不均衡數(shù)據(jù)處理的常用方法之一,對(duì)于類(lèi)別占比很高的樣本集,
適用于以下哪種重采樣方法?
A、欠采樣
B、組合采樣
C、過(guò)采樣
D、SMOTE算法
答案:A
解析:
》不均衡數(shù)據(jù)處理一方法(
重新采樣數(shù)據(jù)
□重采樣是不均衡數(shù)據(jù)處理的常用方法之一,
據(jù)量大的數(shù)據(jù)類(lèi)別定義為豐富類(lèi)數(shù)據(jù)量少
□欠采樣
■適用于大數(shù)據(jù)集,從豐富類(lèi)中隨機(jī)選擇少量市
□過(guò)采樣
■適用于小數(shù)據(jù)集,從稀有類(lèi)中隨機(jī)選擇樣本
□方法
-Python中SMOTE算法。
29.以下關(guān)于邏輯回歸算法的損失函數(shù)描述不正確的是哪一項(xiàng)?
A、在邏輯回歸的推導(dǎo)中,它假設(shè)樣本服從伯努利(07)分布,然后求得滿(mǎn)足該分
布的似然函數(shù),接著用對(duì)數(shù)求極值。
B、邏輯回歸算法一定要計(jì)算最大似然函數(shù)。
C、邏輯回歸算法的損失函數(shù)可以使用對(duì)數(shù)函數(shù)。
D、邏輯回歸并沒(méi)有求對(duì)數(shù)似然函數(shù)的最大值,而是把極大化當(dāng)做一個(gè)思想,進(jìn)而
推導(dǎo)出它的口險(xiǎn)函數(shù)為最小化的似然函數(shù)。
答案:B
30.請(qǐng)問(wèn)在Pandas中,DataFrame對(duì)象可以使用以下哪個(gè)方法查看前n條數(shù)據(jù)?
A、read
B、taiI
C、describe
D、head
答案:D
解析:DataFrame.head(n=5):顯示前n條數(shù)據(jù),n表示顯示的數(shù)據(jù)量。DataFra
me.tail(n=5):顯示底部數(shù)據(jù),n表示顯示的數(shù)據(jù)量。
31.決策樹(shù)中不包含以下哪種節(jié)點(diǎn)?
A、內(nèi)部節(jié)點(diǎn)(internaInode)
B、外部節(jié)點(diǎn)(externaInode)
C、根節(jié)點(diǎn)(rootnode)
D、葉節(jié)點(diǎn)
答案:B
32.一般情況下,若要提高ElasticSearch檢索效率,可以采取什么操作?
A、調(diào)整索引分片數(shù)
B、使用Hive做底層存儲(chǔ)
C、壓縮素引
D、正價(jià)EsMaster節(jié)點(diǎn)
答案:A
33.假設(shè)A,B,C是三個(gè)矩陣,A是2X2,B是2X2階,C是3x2階,以下哪一個(gè)矩
陣的運(yùn)算是有意義的?
A、A+B
B、AC
C、AB+AC
D、B+C
答案:A
34.關(guān)于GaussDB200的數(shù)據(jù)導(dǎo)入導(dǎo)出下列說(shuō)法正確的是(
A、gsql元命令和COPY命令在使用和用法上是一樣的。
B、GDS在數(shù)據(jù)導(dǎo)入時(shí)可以做預(yù)處理,比如非法字符替換、容錯(cuò)處理'數(shù)據(jù)聚合
等。
C、COPY方式使用簡(jiǎn)單,一般用在大量數(shù)據(jù)的導(dǎo)入導(dǎo)出中。
D、INSERT數(shù)據(jù)寫(xiě)入適合數(shù)據(jù)量不大,并發(fā)度不高的場(chǎng)景。
答案:B
35.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇
下列哪個(gè)工具實(shí)現(xiàn)該功能?
A、Lucene
BvEIasticSearch
C、HBase
D、GES
答案:B
36.企業(yè)數(shù)據(jù)分析平臺(tái)在根據(jù)不同的業(yè)務(wù)場(chǎng)景需求,搭建不同的大數(shù)據(jù)分析平臺(tái),
如適應(yīng)離線批處理的Hadoop平臺(tái);適應(yīng)實(shí)時(shí)處理的流計(jì)算等,這種架構(gòu)屬于哪種
類(lèi)型的架構(gòu)?
Av融合架構(gòu)
B、分離架構(gòu)
C、單一架構(gòu)
D、多維架構(gòu)
答案:A
37.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇
下列哪個(gè)工具實(shí)現(xiàn)該功能?
A、Lucene
B、HBase
C、EIasticSearch
D、GraphBase
答案:C
38.Numpy中創(chuàng)建全為0的矩陣使用
A、ones
B、empty
C、zeros
Dxarange
答案:C
39.以下關(guān)于Python正則表達(dá)式描述不正確的是?
A、re正則表達(dá)式可以處理字符串?dāng)?shù)據(jù),也能處理數(shù)值數(shù)據(jù)。
Bxre正則表達(dá)式模塊使Python語(yǔ)擁有部分正則表達(dá)式功能。
C、re正則表達(dá)式是用于處理字符串的強(qiáng)大工具。
D、Python自1.5版本起增加了re正則表達(dá)式模塊。
答案:A
40.下列關(guān)于存儲(chǔ)過(guò)程的特點(diǎn)說(shuō)法正確的是
A、編寫(xiě)的SQL存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此執(zhí)行速度快。
B、創(chuàng)建時(shí)編譯,執(zhí)行時(shí)調(diào)用,因此開(kāi)發(fā)效率高。
C、用聲創(chuàng)建的存儲(chǔ)過(guò)程或自定義函數(shù)可以重復(fù)調(diào)用,因此數(shù)據(jù)傳輸量少。
D、通過(guò)指定存儲(chǔ)過(guò)程的訪問(wèn)權(quán)限,因此安全系數(shù)高。
答案:D
41.當(dāng)決策樹(shù)出現(xiàn)過(guò)擬合后,需要使用()技術(shù)來(lái)縮小樹(shù)的結(jié)構(gòu)和規(guī)模。
A、剪枝
B、回歸
C、小波
D、調(diào)和
答案:A
解析:決策樹(shù)容易過(guò)擬合,需要剪枝來(lái)縮小樹(shù)的結(jié)構(gòu)和規(guī)模
(包括預(yù)剪枝和后剪枝)o剪枝是決策樹(shù)后期處理的重
要步驟,也被視為必不可少的一個(gè)步驟。其根本目的就
是為了去掉一些不必要的節(jié)點(diǎn)使得決策樹(shù)模型具有更好
的泛化能力,以解決過(guò)擬合問(wèn)題。
42.以下對(duì)聚類(lèi)算法KMeans的缺點(diǎn)描述正確的是哪些項(xiàng)?
A、該算法對(duì)噪音和異常點(diǎn)比較的敏感。
B、如果各隱含類(lèi)別的數(shù)據(jù)不平衡,比如各隱含類(lèi)別的數(shù)據(jù)量嚴(yán)重失衡,或者各
隱含類(lèi)別的方差不同,則聚類(lèi)效果不佳。
C、聚類(lèi)結(jié)果可能具有一定的隨機(jī)性。
D、K值是超參數(shù),它的選取不好把握。
答案:D
43.DUGP(UnitiedDataGovernancePIatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺(tái),為運(yùn)
營(yíng)商提供全面高效的數(shù)據(jù)資產(chǎn)管控環(huán)境。實(shí)現(xiàn)
了數(shù)據(jù)集中.統(tǒng)一和共享。包括統(tǒng)一的數(shù)據(jù)采集和整合。統(tǒng)一的安全、標(biāo)準(zhǔn)、生
命周期和質(zhì)量管理。以及多維度數(shù)提云圖功能。提供開(kāi)箱即
用的可以實(shí)現(xiàn)全生命周期的主數(shù)據(jù)管理。包括主數(shù)據(jù)的集中存儲(chǔ)'()、主數(shù)據(jù)清
洗、主數(shù)據(jù)監(jiān)管和主數(shù)據(jù)的共享滿(mǎn)足集團(tuán)對(duì)于企業(yè)級(jí)別主數(shù)
據(jù)的管理平臺(tái)的要求。
A、主數(shù)據(jù)合并
B、主數(shù)據(jù)關(guān)聯(lián)
C、主數(shù)據(jù)標(biāo)記
D、主數(shù)據(jù)遷移
答案:A
解析:DUGP(UnifiedDataGovernancePIatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺(tái),
為運(yùn)營(yíng)商提供全面高效的數(shù)據(jù)資產(chǎn)管控環(huán)境,包括主數(shù)據(jù)
的集中存儲(chǔ)、主數(shù)據(jù)合并、主數(shù)據(jù)清洗、主數(shù)據(jù)監(jiān)管和主數(shù)據(jù)的共享,滿(mǎn)足集團(tuán)
對(duì)于企業(yè)級(jí)別主數(shù)據(jù)管理平臺(tái)的需求。故選擇A選項(xiàng)
44.在MRSManager界面中,對(duì)Loader的操作不包括下列哪個(gè)選項(xiàng)?
A、配置Loader參數(shù)
B、啟動(dòng)Loader實(shí)例
C、切換Loader主備節(jié)點(diǎn)
D、查看Loader服務(wù)狀態(tài)
答案:C
45.以下哪項(xiàng)不是KNN算法的三要素?
A、K值的選取
B、分類(lèi)決策規(guī)則
C、距離度量的方式
D、特征的順序
答案:D
解析:KNN的算法三要素:1.K值的選取。2.距離度量的方
式。3.分類(lèi)決策規(guī)則。
46.HDFS的副本放置策略中,同一機(jī)架不同服務(wù)器之間的距離是?
A、1
B、2
C、3
D、4
答案:B
47.下列哪個(gè)不屬于決策樹(shù)的是?
A、KNN
B、CART
C、ID3
D、C4.5
答案:A
解析:A)KNN(K-NearestNeighbor)就是k個(gè)最近的鄰居的意思,即每個(gè)樣本都
可以用它最接近的k個(gè)鄰居來(lái)代表。KNN常用來(lái)處理分類(lèi)問(wèn)
題,但也可以用來(lái)處理回歸問(wèn)題,不屬于決策樹(shù)。B)CART(CIassificationand
RegressionTree)分類(lèi)回歸樹(shù):是在ID3的基礎(chǔ)上進(jìn)
行優(yōu)化的決策樹(shù)。C)ID3算法是由RossQuinIan提出的決策樹(shù)的一種算法實(shí)現(xiàn)D)
C4.5算法是決策樹(shù)的一種是基于ID3的改進(jìn)和提
升。
48.關(guān)于FusionlnsightMiner的功能描述不準(zhǔn)確的是哪一項(xiàng)?
A、業(yè)務(wù)場(chǎng)景包括極大團(tuán)分析。
B、工作流暫不支持自定義算法。
C、支持R語(yǔ)言。
D、支持Python2和Python3語(yǔ)言。
答案:B
49.)建設(shè)一個(gè)完整的數(shù)據(jù)治理平臺(tái),作為數(shù)據(jù)平臺(tái)的管控系統(tǒng),從制度、標(biāo)準(zhǔn)、
()、流程幾個(gè)方面提升數(shù)據(jù)信息管理能力。解決目
前所面臨的數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題、數(shù)據(jù)質(zhì)量問(wèn)題、元數(shù)據(jù)管理問(wèn)題和數(shù)據(jù)服務(wù)問(wèn)題。
A、實(shí)時(shí)
B、管理
C、分化
D、監(jiān)控
答案:B
50.以下關(guān)于Python中函數(shù)定義的描述不正確的是?
A、函數(shù)內(nèi)容以冒號(hào)起始,并且縮進(jìn)。
B、在python中只能用關(guān)鍵字def創(chuàng)建函數(shù)。
C、Return用于返回一個(gè)函數(shù)執(zhí)行的結(jié)果。
D、用def聲明函數(shù),后面跟函數(shù)名和小括號(hào),括號(hào)內(nèi)可以放置所需參數(shù)。
答案:B
解析:考查Python的函數(shù)創(chuàng)建。Python中除了def可以創(chuàng)建函
數(shù)外,還提供了lambda來(lái)創(chuàng)建匿名函數(shù)。
51.以下關(guān)于KNN(K-NearestNeighbor)K最近鄰方法的描述不正確的是哪一項(xiàng)?
A、可用于非線性分類(lèi)
B、計(jì)算量小
C、常用來(lái)處理分類(lèi)問(wèn)題,但也可以處理回歸問(wèn)題
D、對(duì)數(shù)據(jù)沒(méi)有假設(shè),支持增量學(xué)習(xí),無(wú)需估計(jì)參數(shù)
答案:B
52.一般而言,若數(shù)據(jù)類(lèi)別比例超過(guò)(),即認(rèn)為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象。
A、2:1
B、4:1
C、1:1
D、3:1
答案:B
解析:
考查數(shù)據(jù)預(yù)處理中,不均衡數(shù)據(jù)處理的影響。一般而
言,若數(shù)據(jù)類(lèi)別比例超過(guò)4:1,即認(rèn)為數(shù)據(jù)集中存在不
均衡數(shù)據(jù)的現(xiàn)象
53.Numpy中向量轉(zhuǎn)換成矩陣使用
Avreshape
B、revaI
C、arrange
D、random
答案:A
54.以下哪個(gè)選項(xiàng)不屬于直接刪除包含缺失值的元組(或記錄)產(chǎn)生的影響?
A、降低模型準(zhǔn)確性
B、可能會(huì)引入噪音節(jié)點(diǎn)
C、數(shù)據(jù)缺失占比較多時(shí),直接刪除可能會(huì)改變?cè)紨?shù)據(jù)的分布情況
D、破壞數(shù)據(jù)的歷史完整性
答案:B
解析:刪除不會(huì)引入噪音節(jié)點(diǎn)
55.以下哪些方法不可以用來(lái)做分類(lèi)?
A、KNN
B、支持向量機(jī)
C、K-Means
D、決策樹(shù)
答案:C
解析:考查有監(jiān)督學(xué)習(xí)的分類(lèi)算法。KNN常用來(lái)做分類(lèi)算法,
也可以用來(lái)處理回歸問(wèn)題,支持向量機(jī)就是SVM,用于
分類(lèi)算法,“Means是聚類(lèi)算法。決策樹(shù)是分類(lèi)算法。
56.屬于聚類(lèi)問(wèn)題常用的評(píng)估方法是哪一項(xiàng)?
A、均方誤差
B\SiIhonette輪廓系數(shù)
C、F-score
D、ROC曲線
答案:B
解析:聚類(lèi)的評(píng)價(jià)方式在大方向上被分成兩類(lèi),一種是分析外
部信息,另一種是分析內(nèi)部信息。較為常用的分析內(nèi)部
信息的方法:互信息評(píng)分,蘭德系數(shù),輪轂系數(shù)等。
57.在其它條件不變的前提下,以下哪一方法容易引起模型的過(guò)擬合問(wèn)題?
A、增加訓(xùn)練集數(shù)量
B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)
C、刪除稀疏的特征
D、SVM算法中使用高斯核/RBF核替代
答案:D
58.以下關(guān)于PCA算法(主成分分析)說(shuō)法不正確的是
A、必須在使用PCA前規(guī)范化數(shù)據(jù)
B、使數(shù)據(jù)降低到低維度上做數(shù)據(jù)可視化
C、應(yīng)該選擇使得模型有最小variance的主成分
D、應(yīng)該選擇使得模型有最大variance的主成分
答案:C
解析:PCA對(duì)數(shù)據(jù)尺度很敏感,打個(gè)比方,如果單位是從km變
為cm,這樣的數(shù)據(jù)尺度對(duì)PCA最后的結(jié)果可能很有影
響。我們總是應(yīng)該選擇使得模型有最大variance的主成
分,有時(shí)在低維度上作圖是需要PCA降維幫助的
59.以下關(guān)于特征縮放的處理方法,最小值-最大值歸一化和標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)景
描述錯(cuò)誤的是?
A、在實(shí)際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化操作更常用。
B、標(biāo)準(zhǔn)化方法在分、聚類(lèi)算法中需要使用PCA技術(shù)進(jìn)行降維
C、最小值-最大值歸一化的數(shù)據(jù)不符合正態(tài)分布。
D、最小值最大值歸一化和標(biāo)準(zhǔn)化都需要使用距高來(lái)度量相似
性。
答案:D
解析:考查特征縮放的應(yīng)用場(chǎng)景,最小值最大值歸一化應(yīng)用場(chǎng)
景中說(shuō)明最小值最大值歸一化不涉及距離度量
60.通過(guò)聚類(lèi)的簇是否緊密相連來(lái)判斷樣本點(diǎn)是否屬于一個(gè)簇的聚類(lèi)算法是以下
哪一項(xiàng)?
A、層次聚類(lèi)
B、原型聚類(lèi)
C、原點(diǎn)聚類(lèi)
D、密度聚類(lèi)
答案:D
解析:密度聚類(lèi)的思想不同于K-Means,它是通過(guò)聚類(lèi)的簇是否緊密相連來(lái)判斷
樣本點(diǎn)是否屬于一個(gè)簇,代表性的算法就是DBSCAN,它基
于一組鄰域參數(shù)來(lái)判斷某處樣本是否是緊密。
61.從數(shù)據(jù)庫(kù)架構(gòu)設(shè)計(jì)來(lái)看,主要有以下哪些設(shè)計(jì)思路?
AxShared-Disk
B、Shared-Everying
C、Shared-Nothing
D、以上全正確
答案:D
62.請(qǐng)問(wèn)在Python中以下哪個(gè)選項(xiàng)正確?
A、Python中的類(lèi)對(duì)象無(wú)法實(shí)現(xiàn)多重繼承。
B、Python面向?qū)ο缶幊痰姆庋b性只體現(xiàn)在不允許私有化變量被訪問(wèn)。
C、變量是對(duì)象,但函數(shù)不是對(duì)象。
DxPython的多態(tài)性表現(xiàn)在子類(lèi)可以覆蓋父類(lèi)的屬性或方法。
答案:D
63.某開(kāi)發(fā)小組計(jì)劃利用GraphBase實(shí)現(xiàn)一些功能,以下哪些功能可以實(shí)現(xiàn)?
A、物流最優(yōu)路徑規(guī)劃
B、社交分析
C、金融反欺詐
D、以上全都正確
答案:D
64.以下關(guān)于SparkMLIib中集成算法的相關(guān)描述,表述錯(cuò)誤的是哪一項(xiàng)?
A、vaIboostingStrategy=BoostingStrategy.defauItParams("CIassificatio
n")boostingStrategy.numIterations=3boostingStrategy.treeStrategy.num
CIasses=2boostingStrategy.treeStrategy.maxDepth=5vaImodel=GradientBoo
stedIrees.train(trainingData,boostingStrategy)表示訓(xùn)練梯度提升分類(lèi)樹(shù)
模型,設(shè)置類(lèi)別數(shù)維度為2,樹(shù)的最大深度為5。
B、SparkMLIib包含兩種算法RandomForest和GradientBoostedDecisionIree(G
BDT),二者都是用決策樹(shù)算法作為基學(xué)習(xí)器。
C、vaImodeI=RandomForest.trainRegressor(trainingData,categoricaIFeatu
resInfo,numlrees=2,"auto","variance",maxDepth=4,32)該語(yǔ)句采用隨機(jī)森林
算法進(jìn)行分類(lèi)模型訓(xùn)練,并且指定屬性選擇的方式為基尼系數(shù)度量。
D、vaImodel=newLogisticRegressionWithLBFGS().setIumCIasses(10).run(tr
aining)表示創(chuàng)建邏輯回歸LBFGS的模型進(jìn)行分類(lèi)問(wèn)題的求解,同時(shí)采用訓(xùn)練數(shù)
據(jù)進(jìn)行預(yù)測(cè),樣本類(lèi)別數(shù)是10。
答案:C
65.Oracle數(shù)據(jù)治理產(chǎn)品包括0racleDatabase12c\0、OracIe大數(shù)據(jù)SOL、和
大數(shù)據(jù)連接器開(kāi)始入手。
A、OracIe大數(shù)據(jù)共享系統(tǒng)
B、Oracle大數(shù)據(jù)清洗系統(tǒng)
C、Oracle大數(shù)據(jù)存儲(chǔ)系統(tǒng)
D、OracIe大數(shù)據(jù)管理系統(tǒng)
答案:D
解析:Oracle公司從旗艦產(chǎn)品OracleDatabasel2c、OracIe大數(shù)據(jù)管理系統(tǒng)'0
racIe大數(shù)據(jù)SQL和大數(shù)據(jù)連接器開(kāi)始入手。對(duì)于特定的數(shù)
據(jù)管理,它具有OracIe企業(yè)元數(shù)據(jù)管理器(OEMM)和OracIe企業(yè)數(shù)據(jù)質(zhì)量(EDQ)。
故選擇D選項(xiàng)
66.請(qǐng)問(wèn)最小值-最大值歸一化的結(jié)果不會(huì)受到以下哪種數(shù)據(jù)點(diǎn)影響?
A、離群點(diǎn)
B、極值點(diǎn)
C、異常點(diǎn)
D、平均點(diǎn)
答案:D
解析:最小值-最大值歸一化受訓(xùn)練集中最大值和最小值影響
大,存在數(shù)據(jù)集中最大值與最小值動(dòng)態(tài)變化的可能。容
易受噪聲(異常點(diǎn)、離群點(diǎn))影響。
67.以下哪一項(xiàng)不屬于抽樣的類(lèi)別?
A、簡(jiǎn)單隨機(jī)抽樣
B、分層抽樣
C、系統(tǒng)抽樣
D、整群抽樣
E、循環(huán)抽樣
答案:E
解析:抽樣方法1、簡(jiǎn)單隨機(jī)抽樣:在簡(jiǎn)單隨機(jī)抽樣
中,總體所有成員被選為樣本的概率是相等的。2、
分層抽樣:將總體分成不同的子群,然后對(duì)所有的子
層進(jìn)行隨機(jī)抽樣。3、系統(tǒng)抽樣:首先將總體中各單位
按一定順序排列,根據(jù)樣本容量要求確定抽選間,然
后隨機(jī)確定起點(diǎn),每隔一定的間隔抽取一個(gè)單位,以
得到所需要的樣本。4、整群抽樣:整群地抽選樣本
68.Flume的高級(jí)組件不包含以下哪個(gè)?
A、SinkProcessor
B、ChannelInterceptor
C、ChanneISeIector
D、SourceInterceptor
答案:B
69.以下關(guān)于SparkMLIib中K-Means優(yōu)化參數(shù)描述不正確的是?
A、initializationMode指定隨機(jī)初始化。
B、Runs:運(yùn)行Kmeans算法的次數(shù)。
GmaxIterations:要運(yùn)行的最大迭代次數(shù)。
D、EpsiIon:K-Means收斂的距離閾值。
答案:A
解析:
EpsiIon指的是K-Means已收斂的距離閾值,而非收斂的距離閾值。
70.以下關(guān)于DataNode的描述不正確的是?
A、DataNode管理數(shù)據(jù)塊元數(shù)據(jù)
B、DataNode執(zhí)行數(shù)據(jù)塊的讀/寫(xiě)操作。
C、DataNode的數(shù)量受數(shù)據(jù)規(guī)模影響。
D、DataNode是用來(lái)存儲(chǔ)數(shù)據(jù)庫(kù)。
答案:A
71.以下關(guān)于聚類(lèi)算法的理解正確的是?
A、簇內(nèi)的相似性越大,簇間的差別越小,聚類(lèi)的效果就越好。
B、簇內(nèi)的相似性越大,簇間的差別越小,聚類(lèi)的效果就越差。
C、簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效果就越好。
D、簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效果就越差。
答案:C
解析:簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效
果就越好
72.以下關(guān)于SparkMLIib中降維算法的相關(guān)描述,表述錯(cuò)誤的是哪一項(xiàng)?
A、奇異值分解(SVD)通常不需要完全因式分解,只需要頂部奇異值及其相關(guān)的
奇異向量,這可以節(jié)省存儲(chǔ),降噪并恢復(fù)矩陣的低秩結(jié)構(gòu)。
B、SparkMLIib為RowMatrix類(lèi)的降維提供支持。
C、奇異值分解(SVD)將矩陣分解為三個(gè)矩陣,分別是左奇異矩陣,對(duì)角矩陣和
一個(gè)右奇異上三角非正交矩陣。
D、PCA通常用于高維數(shù)據(jù)集的探索與可視化,還可以用于數(shù)據(jù)壓縮。
答案:C
解析:
奇異值分解算法原理回顧
奇異值分解(SVD)將矩陣分解為三個(gè)矩陣,公式如下
A=U^VT
□U是一個(gè)(m*m)標(biāo)準(zhǔn)正交矩陣,其列稱(chēng)為左奇異向量。
□Z是一個(gè)(m*n)對(duì)角矩陣,非負(fù)對(duì)角線按降序排列,其先
□V是一個(gè)(n*n辰矩陣],其列被稱(chēng)為右奇異向量。
X
AUA
nxn
inxn/xrmxnmXn
73.FIume中—ChanneISeIector的作用是什么?
A、設(shè)置多個(gè)channel發(fā)往多個(gè)sink的策略
B、設(shè)置—source發(fā)往多個(gè)channeI的策略
C、設(shè)置多個(gè)source發(fā)往多個(gè)channeI的策略
D、設(shè)置一個(gè)channel發(fā)往多個(gè)sink的策略
答案:B
74.打開(kāi)文件的不正確寫(xiě)法為
Axf=open(*test.txt','r)
B、withopen('test.txtJ'r)asf
Gf=open(4C:\Apps\test.txt';r)
Dvf=open(r4C:\Apps\test.txt*;*r)
答案:c
75.我們可以使用Python中scikit-learn庫(kù)的()函數(shù),來(lái)對(duì)樣本集進(jìn)行feature
_seIection(特征選擇)和dimensionaIity
Reduction(降維)?
AxskIearn,neighbors
BxskIearn.feature_seIection
C、skIearn.Iinear_modeI
D、skIearn,cIuster
答案:B
解析:在sklearn.feature_seIection模塊中的類(lèi)可以用來(lái)對(duì)樣
本集進(jìn)行features?Iection(特征選擇)和
DimensionaIityreduction(降維),這將會(huì)提高估計(jì)
器的準(zhǔn)確度或者增強(qiáng)它們?cè)诟呔S數(shù)據(jù)集上的性能。
76.請(qǐng)問(wèn)在Python中以下哪項(xiàng)描述是正確的?
A、定義一個(gè)空集合的命令為:x={}。
B、t=(42,)和t=(42)都可以用于定義tuple。
C、animals.remove('fish')可以把a(bǔ)nimaIs這個(gè)列表中所有'fish'元素都
刪除。
D\animals.insert(1,'fish')是往animals這個(gè)列表中索引為1,也就是第
二個(gè)位置添加‘fish'元素。
答案:D
解析:x={}是定義一個(gè)空字典(diet),故不選A;
T=(42,)定義的是tuple,但t=(42)定義的是整型,故不選B;
Animals.remove(!fish')只會(huì)刪除第一個(gè)fish,故不選C;
77.請(qǐng)問(wèn)在sklearn中,下列哪個(gè)選項(xiàng)中關(guān)于lasso回歸描述是不正確的?
A、在函數(shù)LassoCVO中可設(shè)置參數(shù)alpha是多少(序列格式),默認(rèn)不設(shè)置則找
適合訓(xùn)練集最優(yōu)alpha0
B、函數(shù)LassoCVO會(huì)返回mse這一統(tǒng)計(jì)學(xué)指標(biāo),其值越趨近1,表示擬合程度越
好。
C、lass?;貧w模型中有一個(gè)超參數(shù)需要選擇,也就是正則化的參數(shù)alpha,合適
的超參數(shù)選擇是獲取好的模型的重要因素。
D、屬性alpha_會(huì)返回最佳懲罰系數(shù)alpha的值。
答案:B
78.如一個(gè)原始數(shù)據(jù)為3行4列的數(shù)據(jù)框需要降維至兩維,利用SparkMLIib的實(shí)
現(xiàn)思路下述不正確的是?
A、在PCA中,可以選取值最小的2個(gè)特征值對(duì)應(yīng)的特征向量,并
由該兩個(gè)特征向量組成矩陣c
B、求協(xié)方差矩陣B的右特征向量
C、求取矩陣A的協(xié)方差矩陣B
D、將原始3行4列的數(shù)據(jù)轉(zhuǎn)換得到一個(gè)3乘4的矩陣A
答案:B
79.RISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型中的數(shù)據(jù)準(zhǔn)備環(huán)節(jié)除了包括數(shù)據(jù)選
擇,數(shù)據(jù)清潔,數(shù)據(jù)創(chuàng)建,數(shù)據(jù)合并外,還包含以
下哪個(gè)步驟?
A、數(shù)據(jù)變換
B、確定業(yè)務(wù)目標(biāo)
C、模型結(jié)果評(píng)估
D、選擇建模技術(shù)
答案:A
解析:PPT"第一章數(shù)據(jù)挖掘介紹”第32口原題
80.以下哪個(gè)措施屬于反爬措施?
A、字體
B、滑塊驗(yàn)證碼
C、數(shù)據(jù)收費(fèi)
D、以上全部正確
答案:D
解析:常口的反爬手段:1、Headers字段:cookie,refer,
User-Agent等字段。2、驗(yàn)證碼:數(shù)字,滑塊,計(jì)
算,文字,12306等。3、JavaScript:通過(guò)
JavaScript生成請(qǐng)求參數(shù)、數(shù)據(jù)加密、數(shù)據(jù)混淆'口
面跳轉(zhuǎn)。4、IP地址檢測(cè):通過(guò)檢測(cè)訪問(wèn)者的IP地
址,判斷是否為正常用聲。
81.以下關(guān)于Apriori算法的描述不正確的是哪一項(xiàng)?
A、Apriori算法是一個(gè)非常經(jīng)典的頻繁項(xiàng)集的挖掘算法,很多算法都是基于Ap
riori算法而產(chǎn)生的,包括FP-Tree,GSP,CBA等。
B、Apriori算法適用于非重復(fù)項(xiàng)集數(shù)元素較多的案例。
C、python的工具庫(kù)mlxtend目前提供實(shí)踐Apriori算法的方法。
D、使用先驗(yàn)原理,大大提高了頻繁項(xiàng)集逐層產(chǎn)生的效率。
答案:A
82.對(duì)于隨機(jī)森林和GradientBostingTrees.下面說(shuō)法正確的是?
A、可以并行地生成GradientBoostingTrees單個(gè)樹(shù),因?yàn)樗鼈冎g是沒(méi)有依賴(lài)
的
B、這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹(shù)
C、在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是有依賴(lài)的,而GradientBostingTrees
中的單個(gè)樹(shù)之間是沒(méi)有依賴(lài)的
D、GradientBoostingTrees訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林好
答案:B
解析:隨機(jī)森林是基于bagging的,而GradientBoostingtrees是基于boosting
的,所以在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是沒(méi)有依賴(lài)的,而
GradientBoostingTrees中的單個(gè)樹(shù)之間是有依賴(lài)關(guān)系。
83.以下哪些不屬于無(wú)量綱化特征縮放的方法?
A、最大-最小歸化
B\OneHot編碼
C、縮放成單位向量
D、特征標(biāo)準(zhǔn)化
E、均值歸一化
答案:B
解析:考查常□的無(wú)量綱化特征縮放方法:標(biāo)準(zhǔn)化、歸一化
(均值歸一化、最大-最小歸化)、縮放成單位向量
84.銀行進(jìn)行客聲購(gòu)買(mǎi)力分析,首先獲取客聲歷史賬單,確定其中各項(xiàng)商品的計(jì)
算權(quán)重,得出每位客聲的購(gòu)買(mǎi)力評(píng)分并存儲(chǔ)記錄。最后將結(jié)果圖表顯
示。請(qǐng)問(wèn)該過(guò)程對(duì)應(yīng)于以下哪個(gè)項(xiàng)目數(shù)據(jù)流程設(shè)計(jì)。
A、數(shù)據(jù)源數(shù)據(jù)處理數(shù)據(jù)落地->數(shù)據(jù)可視化
B、數(shù)據(jù)可視化->數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理
C、數(shù)據(jù)可視化->數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地
D、數(shù)據(jù)源->數(shù)據(jù)落地->數(shù)據(jù)處理數(shù)據(jù)可視化
答案:A
85.Pandas中的DataFrame的df.iloc[1:3]
Av查詢(xún)的是1,2行
B、查詢(xún)的是2,3列
G查詢(xún)的是2,3行
D、查詢(xún)的是1,2列
答案:C
86.在華為MLS中,“線性回歸”節(jié)點(diǎn)的參數(shù)設(shè)置描述錯(cuò)誤的是?
A、最大迭代次數(shù),模型訓(xùn)練的最大迭代次數(shù)。
B、正則化函數(shù)。正則化方法,可選參數(shù)僅包括Aut。、None、L1、L2
C、正則化參數(shù):用于調(diào)節(jié)正則化項(xiàng)的權(quán)重.
D、彈性網(wǎng)絡(luò)參數(shù),L1和L2正則化的分配權(quán)重。
答案:B
解析:“線性回歸”節(jié)點(diǎn)的參數(shù)設(shè)置:1)正則化函數(shù):正則化方法。包括Aut。、
None、L1、L2和L1andL2。2)正則化參數(shù):用于調(diào)節(jié)
正則化項(xiàng)的權(quán)重。3)彈性網(wǎng)絡(luò)參數(shù):L1和L2正則化的分配權(quán)重。4)最大迭代
次數(shù):模型訓(xùn)練的最大迭代次數(shù)。B選項(xiàng)中的僅包括
是錯(cuò)誤的,還有L1andL2方式,故選擇B選項(xiàng)
87.請(qǐng)問(wèn)以下關(guān)于ID3算法中說(shuō)法錯(cuò)誤的是哪一項(xiàng)?
A、選取信息增益最大的特征,作為樹(shù)的根節(jié)點(diǎn)
B、節(jié)點(diǎn)分裂依據(jù)為信息增益
C、以信息增益度量屬性選擇,選擇分裂后信息增益最小的屬性進(jìn)行分裂
D、ID3算法是建立在奧卡姆剃刀的基礎(chǔ)上
答案:C
解析:ID3算法的核心思想:以信息增益度量屬性選擇,選擇分裂后信息增益最
大的屬性進(jìn)行分裂。故C錯(cuò)誤
88.癌癥檢查數(shù)據(jù)樣本有1000個(gè),其中10個(gè)數(shù)據(jù)樣本是有癌癥,其它是無(wú)癌癥。
假設(shè)分類(lèi)模型在無(wú)癌癥數(shù)據(jù)9990中預(yù)測(cè)正確了9980個(gè),在10個(gè)癌癥數(shù)據(jù)中預(yù)
測(cè)正確了9個(gè),此時(shí)真陽(yáng)=9,真陰=9980,假陽(yáng)二10,假陰=1。則該預(yù)測(cè)模型的召
回率為多少?
A、90%
B、76.27%
G47.36%
D、99.89%
答案:A
解析:召回率計(jì)算公式TP/CTP+FN),即9/(9+1)=0.9
真陽(yáng)性(TP)、真陰性(TN)、假陽(yáng)性、假陰性(FN)O
89.以下哪個(gè)選項(xiàng)不是連續(xù)變量的數(shù)值特征離散化方法?
A、OneR
B、獨(dú)熱編碼
G分箱
D、基于信息熠的方法
答案:B
90.在數(shù)據(jù)抽取、轉(zhuǎn)換和加載過(guò)程中,以下哪種不是數(shù)據(jù)抽取的方式?
A、全量抽取
B、倒置抽取
G更新抽取
D、增量抽取
答案:B
解析:考查數(shù)據(jù)預(yù)處理的知識(shí)點(diǎn)。ETL工具中數(shù)據(jù)抽取的三種
方式:更新抽取、增量抽取、全量抽取
91.在有監(jiān)督學(xué)習(xí)中,我們?nèi)绾问褂镁垲?lèi)方法?1.我們可以先創(chuàng)建聚類(lèi)類(lèi)別,然后
在每個(gè)類(lèi)別上用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)2.我們可以使用聚類(lèi)“類(lèi)別id”作為一
個(gè)新的特征項(xiàng),然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)3.在進(jìn)行監(jiān)督學(xué)習(xí)之前,我們
不能新建聚類(lèi)類(lèi)別4.我們不可以使用聚類(lèi)“類(lèi)別id”作為一個(gè)新的特征項(xiàng),然
后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)
A、3和4
B、1和4
C、1和3
D、1和2
答案:D
92.Redis不適用于以下哪個(gè)應(yīng)用場(chǎng)景?
A、獲取PB級(jí)Value數(shù)據(jù)
B、獲取TOPN操作
C、獲取手機(jī)驗(yàn)證碼
D、獲取最新N個(gè)數(shù)據(jù)的操作
答案:A
93.以下不屬于大數(shù)據(jù)治理的目的的是哪一項(xiàng)?
A、保障企業(yè)或組織可以明確定位到其核心數(shù)據(jù)信息,如客聲、供應(yīng)商、產(chǎn)品等
信息描述。
B、幫助企業(yè)等組織建立其現(xiàn)有數(shù)據(jù)的清單,就像建立物理資產(chǎn)的清單一樣。
C、兼顧開(kāi)放性,如多分析引擎統(tǒng)一管理,滿(mǎn)足多樣化的數(shù)據(jù)分析場(chǎng)景和挖掘能力。
D、防御其財(cái)務(wù)、企業(yè)斐源規(guī)劃和人力資源應(yīng)用程序中的關(guān)鍵業(yè)務(wù)數(shù)據(jù)受到未授
權(quán)更改。
答案:C
94.以下哪種方法不屬于Embedded(嵌入法)?
A、特征擴(kuò)增
B、基于L1的正則化方法
C、平均不純度減少(MeanDecreaseImpurity)
D、平均精度下降(MeanDecreaseAccuracy)
答案:A
95.若隨機(jī)變量X服從正態(tài)分布N(口。”),則隨機(jī)變量Y=aX+b服從以下哪個(gè)正
態(tài)分布?
A、N(a”口+b,a”。-2)
B、N(au+b,a-2cT2)
C、N(au+b,a”o”+b)
D、N(au,a"(<2)
答案:B
96.以下關(guān)于大數(shù)據(jù)Kappa架構(gòu)描述不正確的是?
A、Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,將實(shí)時(shí)和流部分進(jìn)行了合并,
將數(shù)據(jù)通道以消息隊(duì)列進(jìn)行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面
進(jìn)行了存儲(chǔ)
B、在Kappa架構(gòu)中,如果需要進(jìn)行離線分析或者再次計(jì)算的時(shí)候,不必像實(shí)時(shí)
分析那樣將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過(guò)消息隊(duì)列重播一次
C、Kappa架構(gòu)的缺點(diǎn):實(shí)施難度相對(duì)較高,尤其是在數(shù)據(jù)重播的部分
D、Kappa架構(gòu)的優(yōu)點(diǎn):解決了Lambda架構(gòu)里面的冗余部分,以數(shù)據(jù)可重播的超
凡脫俗的思想進(jìn)行了設(shè)計(jì),整個(gè)架構(gòu)非常簡(jiǎn)潔
答案:B
解析:Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上進(jìn)行了優(yōu)化,將實(shí)
時(shí)部分和流部分進(jìn)行了合并,將數(shù)據(jù)通道以消息隊(duì)列進(jìn)
行替代,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖層面
進(jìn)行了存儲(chǔ)。
97.ElasticSearch進(jìn)行全文檢索一般需要哪幾個(gè)步驟?
A、清洗、分詞、建立素引
B、清洗、分詞
C、清洗、建立素引
D、清洗、建立素引、分詞
答案:A
98.協(xié)同過(guò)濾推薦算法,是最經(jīng)典、最常用的推薦算法。要實(shí)現(xiàn)協(xié)同過(guò)濾。以下
哪個(gè)步驟不需要?
A、計(jì)算推薦
B、找到相似的用聲或物品
C、收集用聲偏好
D、收集用聲來(lái)源
答案:D
解析:要實(shí)現(xiàn)協(xié)同過(guò)濾,需要以下幾個(gè)步驟:1)收集用聲偏好;2)找到相似的用
聲或物品;3)計(jì)算推薦。沒(méi)有收集用聲來(lái)源,所以選擇D選項(xiàng)
99.以下關(guān)于數(shù)據(jù)分析與數(shù)據(jù)挖掘的描述錯(cuò)誤的是?
A、數(shù)據(jù)分析更側(cè)重于統(tǒng)計(jì)學(xué)上面的一些方法,經(jīng)過(guò)人的推理演譯得到結(jié)論。數(shù)
據(jù)挖掘更側(cè)重于側(cè)重由機(jī)器進(jìn)行自學(xué)習(xí),直換得到結(jié)論。
B、數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,挖掘出未知的、且有價(jià)值的信息和知識(shí)的過(guò)程,
重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)“知識(shí)規(guī)則”。
C、數(shù)據(jù)分析和數(shù)據(jù)挖掘的界限是非常清晰的。
D、數(shù)據(jù)分析會(huì)用到成熟的分析工具,比如EXCEL.SPSS.SAS等。數(shù)據(jù)挖掘則需楚
有編程基礎(chǔ)。
答案:C
解析:都跟數(shù)據(jù)打交道,知識(shí)技能有很多交叉點(diǎn),在職業(yè)上他們沒(méi)有很明顯的界
限,數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是一樣的,都是從數(shù)據(jù)里
面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(shí)(有價(jià)值的信息),從而幫助業(yè)務(wù)運(yùn)營(yíng)、改進(jìn)產(chǎn)品以及幫
助企業(yè)做更好的決策。狹義的數(shù)據(jù)分析與數(shù)據(jù)挖掘構(gòu)
成廣義的數(shù)據(jù)分析。
100.下列哪個(gè)不屬于常用的文本分類(lèi)的特征選擇算法?
A、主成分分析
B、信息增益
G互信息法
D、卡方檢驗(yàn)
答案:A
解析:常U的六種特征選擇方法:1)DF(DocumentFrequency)文檔頻率2)Ml(M
utuaIInformation)互信息法3)(InformationGain)信
息增益法4)CHI(Chi-square)卡方檢驗(yàn)法5)WLLR(WeightedLogLikeIihoodRat
ion)加權(quán)對(duì)數(shù)似然6)WFO(Weighted
FrequencyandOdds)加權(quán)頻率和可能性主成分分析屬于降維方法,是對(duì)特征進(jìn)行
轉(zhuǎn)化而不是特征選擇,所以選擇A選項(xiàng)。
101.以下關(guān)于模型超參數(shù)的特征描述不正確的是?
A、模型超參數(shù)通常根據(jù)給定的預(yù)測(cè)建模問(wèn)題而調(diào)整
B、模型超參數(shù)常應(yīng)用于估計(jì)模型參數(shù)的過(guò)程中
C、模型的超參數(shù)可以通過(guò)數(shù)據(jù)直接得到,也可以通過(guò)人的經(jīng)驗(yàn)來(lái)設(shè)定
D、模型超參數(shù)通??梢允褂脝l(fā)式方法來(lái)設(shè)置
E、模型超參數(shù)通常由實(shí)踐者直接指定
答案:C
解析:考查超參數(shù)具有的特征:模型超參數(shù)常應(yīng)用于估計(jì)模型
參數(shù)的過(guò)程中,模型超參數(shù)通常由實(shí)踐者直接指定,模
型超參數(shù)通??梢允褂脝l(fā)式方法來(lái)設(shè)置,模型超參數(shù)
通常根據(jù)給定的預(yù)測(cè)建模問(wèn)題而調(diào)整。沒(méi)有C選項(xiàng)
102.在LogisticRegression中,如果同時(shí)加入L1和L2范數(shù),不會(huì)產(chǎn)生什么效果?
A、以做特征選擇,并在一定程度上防止過(guò)擬合
B、可以獲得更準(zhǔn)確的結(jié)果
C、能解決維度災(zāi)難問(wèn)題
D、能加快計(jì)算速度
答案:B
103.大數(shù)據(jù)的4V不包含哪一個(gè)?
A、數(shù)據(jù)量大
B、種類(lèi)多
C、價(jià)值密度低
D、分布式
E、處理速度快
答案:D
104.以下關(guān)于特征選擇方法中哪個(gè)不屬于特征減少的方法?
A、Embedded(嵌入法)
B、Wrapper(包裝法)
C、交叉驗(yàn)證方法
D、Filter(過(guò)濾法)
答案:C
解析:考查常口特征選擇方法,特征減少的選擇方法有單變量
特征選擇方法:Filter(過(guò)濾法),基于模型的特征西安
則方法:Wrapper(包裝法)、Embedded(嵌入法)
105.以下選項(xiàng)中屬于需要模型通過(guò)訓(xùn)練獲得的參數(shù)是哪些?
A、隨機(jī)森林中的樹(shù)的個(gè)數(shù)。
B、神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速率。
C、線性回歸或邏輯回歸中的系數(shù)。
D、SVM算法中的核函數(shù)。
答案:C
106.在python中,關(guān)于Pandas模塊中的數(shù)據(jù)讀取函數(shù)read_table以下說(shuō)法不
正確的是?單
A、names:讀取數(shù)據(jù)時(shí),可以通過(guò)names屬性設(shè)置列索引。
B、header:用來(lái)制定標(biāo)題行,如果數(shù)據(jù)集中沒(méi)有標(biāo)題行,則制定為None
C、index_col:可以將數(shù)據(jù)集中的某一列(某幾列)設(shè)置為行索引,通過(guò)indexcol
來(lái)進(jìn)行指定。
D、usecols:通過(guò)usecols參數(shù)來(lái)設(shè)置需要使用的列。
E、se/edaiter:用來(lái)制定數(shù)據(jù)之間的分隔符,read_table默認(rèn)為逗號(hào),red.csv
默認(rèn)為表符。
答案:E
解析:seq/deIimiter:用來(lái)制定數(shù)據(jù)之間的分隔符,read_csv默認(rèn)為逗號(hào),read
Jable默認(rèn)為\t(制表符)。E選項(xiàng)說(shuō)反了
107.請(qǐng)問(wèn)對(duì)于CRISP-DM模型基本步驟的描述,以下哪項(xiàng)是正確的?
A、1.商業(yè)理解2.數(shù)據(jù)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型評(píng)估6.模型實(shí)施
B、1.數(shù)據(jù)理解2.商業(yè)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型評(píng)估6.模型實(shí)施
C、1.數(shù)據(jù)理解2.商業(yè)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型實(shí)施6.模型評(píng)估
D、1.商業(yè)理解2.數(shù)據(jù)理解3.數(shù)據(jù)準(zhǔn)備4.建立模型5.模型實(shí)施6.模型評(píng)估
答案:A
解析:
?CRISP-DM模型
CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)是CrossIndi
Mining的縮寫(xiě),是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一
的應(yīng)用,是用以管理并指導(dǎo)DataMiner有效、準(zhǔn)確開(kāi)展;
果的一系列工作步驟的規(guī)范標(biāo)準(zhǔn)。
CRISP-DM模型的基本步驟包括:
□商業(yè)理解
□數(shù)據(jù)理解
□數(shù)據(jù)準(zhǔn)備
實(shí)施
□建立模型
□模型評(píng)估
□模型實(shí)施
108.以下哪些選項(xiàng)不屬于數(shù)值特征離散化的必要性?
A、數(shù)值高散化實(shí)際是一個(gè)數(shù)據(jù)簡(jiǎn)化機(jī)制,通過(guò)數(shù)值離散化過(guò)程,一個(gè)完整的數(shù)
據(jù)集變成一個(gè)個(gè)按照某種規(guī)則分類(lèi)的子集,增強(qiáng)了模型的穩(wěn)定性。
B、離散化數(shù)值在提高建模速度和提高模型精度上有顯著作用。
C、離散化過(guò)程并沒(méi)有帶來(lái)信息丟失
D、離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的魯棒性,能減少噪音節(jié)點(diǎn)對(duì)數(shù)據(jù)的影響。
答案:C
解析:
1、在數(shù)據(jù)挖掘理論研究中,數(shù)值離散化對(duì)數(shù)據(jù)預(yù)處
理影響重大。研究表明離散化數(shù)值在提高建模速度和
提高模型精度上有顯著作用。2、數(shù)值離散化實(shí)際是
一個(gè)數(shù)據(jù)簡(jiǎn)化機(jī)制。因?yàn)橥ㄟ^(guò)數(shù)值離散化過(guò)程,一個(gè)
完整的數(shù)據(jù)集變成一個(gè)個(gè)按照某種規(guī)則分類(lèi)的子集,
增強(qiáng)了模型的穩(wěn)定性。3、離散化后的特征對(duì)異常數(shù)
據(jù)有很強(qiáng)的魯棒性。能減少噪音節(jié)點(diǎn)對(duì)數(shù)據(jù)的影響。
109.若要修改HBase表,下列API哪個(gè)最先被調(diào)用?
AvcreateConnection()
B、getTabIe()
C、getConnect0
D、getAdmin()
答案:A
110.請(qǐng)問(wèn)以下哪些算法最適合配合線性判別分析LDA使用?
A、聚類(lèi)算法
B、非線性回歸算法
C、多元線性回歸算法
D、一元線性回歸算法
答案:B
111.下面這條GaussDB200語(yǔ)句“caIIdbms_job.intervaI(1,'sysdate+1.0/24");
”的意思是
A、修改Job的Interva為每隔24小時(shí)執(zhí)行一次。
B、修改Job的Interval為每隔1小時(shí)執(zhí)行一次。
G修改Job的Interval為每隔1/24小時(shí)執(zhí)行一次。
D、修改Job的Interval為每隔24分鐘執(zhí)行一次。
答案:B
112.在DGC平臺(tái)架構(gòu)下提供企業(yè)級(jí)的元數(shù)據(jù)管理。數(shù)據(jù)斐產(chǎn)管理可視,支持鉆取、
溯源等。通過(guò)數(shù)據(jù)地圖,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)智能
搜索和運(yùn)營(yíng)監(jiān)控的模塊是哪個(gè)?
A、數(shù)據(jù)開(kāi)發(fā)
B、數(shù)據(jù)資產(chǎn)管理
C、規(guī)范設(shè)計(jì)
D、數(shù)據(jù)集成
答案:B
113.以下哪個(gè)選項(xiàng)是異常值處理的方法?
A、刪除異常值
B、將異常值視為缺失值,按照缺失值處理方法來(lái)處理異常值
C、估算異常值
D、以上全都正確
答案:D
解析:
異常值處理方法包括:1)刪除異常值。適用于異常值較少的情況。2)將異常值
視為缺失值,按照缺失值處理方法來(lái)處理異常值。
3)估算異常值。Mean/Mode/Median估計(jì)數(shù)據(jù)填充異常值。
114.請(qǐng)問(wèn)以下哪種場(chǎng)景不需要降維算法?
A、數(shù)量統(tǒng)計(jì)
B、視頻壓縮
C、用聲畫(huà)像
D、人臉識(shí)別
答案:A
115.利用Python中的seaborn模塊可以快速的制作出數(shù)據(jù)集中特征之間的相關(guān)
關(guān)系圖。以下對(duì)該相關(guān)系數(shù)熱力圖描述
錯(cuò)誤的是哪一項(xiàng)?
A、通過(guò)相關(guān)關(guān)系熱力圖觀察到屬性之間相關(guān)系數(shù)值都不大,說(shuō)明屬性之間普遍相
關(guān)性不高,但是部分屬性具備相關(guān)性挖掘的可能。
B、相關(guān)系數(shù)熱力圖矩陣是對(duì)稱(chēng)的。
C、相關(guān)關(guān)系熱力圖中,各個(gè)特征自身的相關(guān)系數(shù)值均為1O
D、繪制相關(guān)關(guān)系熱力圖時(shí),如果選擇相關(guān)關(guān)系計(jì)算的參數(shù)為spearman相關(guān)系數(shù),
則是用于描述兩個(gè)變量之間的線性相關(guān)關(guān)系。
答案:D
解析:Spearman相關(guān)系數(shù)不關(guān)心兩個(gè)數(shù)據(jù)集是否線性相關(guān),
而是單調(diào)相關(guān)
116.以下關(guān)于KMeans對(duì)比K-Mediods的描述,表述錯(cuò)誤的是哪一項(xiàng)?
A、K-Mediods質(zhì)心可能是計(jì)算產(chǎn)生的,不屬于數(shù)據(jù)集中的點(diǎn)。
B、如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用K-Mediods替代K-Mea
C、K-Mediods比K-Means效果更穩(wěn)定。
D、K-Mediods算法對(duì)比K-Means算法,質(zhì)心的計(jì)算復(fù)雜度更高。
答案:A
解析:
?K?Means對(duì)比K?Mediods(2)
K-Mediods聚類(lèi)算法原理和K-Means大體相似,算方
□質(zhì)心的計(jì)算復(fù)雜度更高:在質(zhì)心的選取上,K-Means只
點(diǎn)獲得新的質(zhì)心,而K-Medoids需要計(jì)算每個(gè)簇任兩點(diǎn)
比較獲取新的質(zhì)心,計(jì)算復(fù)雜度增加,運(yùn)行速度會(huì)較慢
□穩(wěn)定性更高、執(zhí)行速度變慢:對(duì)于有異常值的小樣本量:
Means效果更穩(wěn)定,但是隨著數(shù)據(jù)集規(guī)模增加,K-Mec
□如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用I
117.關(guān)于SparkMLIib中SVD算法的使用說(shuō)法錯(cuò)誤的是?
A、必須先通過(guò)已有數(shù)據(jù)創(chuàng)建出相應(yīng)矩陣類(lèi)型的對(duì)象,然后調(diào)用該類(lèi)的成員方法
來(lái)進(jìn)行SVD分解。
B、如果需要獲得U成員,可以在進(jìn)行SVD分解時(shí),指定puteU參數(shù),令其等于F
aIse,即可在分解后的svd對(duì)象中拿到U成員.
GSparkMLIib中SVD方法位于org.apache,spark,mIIib.LinaIg包下的RowMat
rix和IndexedRowMatrix類(lèi)中.
D、將數(shù)據(jù)轉(zhuǎn)換成RowMatrix后,可調(diào)用RowMatrix自帶的puteSVD方法計(jì)算分解
結(jié)果。
答案:B
118.以下關(guān)于Python全局變量和局部變量的描述中,錯(cuò)誤的是
A、局部變量在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出后變量被釋放
B、全局變量一般指定義在函數(shù)之外的變量
C、使用global保留字聲明后,變量可以作為全局變量使用
D、當(dāng)函數(shù)退出時(shí),局部變量依然存在,下次函數(shù)調(diào)用可以繼續(xù)使用
答案:D
119.df.taiI()這個(gè)函數(shù)是用來(lái)
A、用來(lái)創(chuàng)建數(shù)據(jù)
B、用來(lái)展現(xiàn)數(shù)據(jù)
C、用來(lái)分析數(shù)據(jù)
D、用來(lái)測(cè)試數(shù)據(jù)
答案:B
120.下列方法中,不可以用于特征降維的方法包括。
A、最小二乘法LeastSquares
B、主成分分析PCA
C、矩陣奇異值分解SVD
D、局部線性嵌入LLE
E、線性判別分析LDA
答案:A
解析:
考查??诮稻S方法,有:SVD-奇異值分解、PCA-主成
分分析、LDA-線性判別分析、LLE-局部線性嵌入
121.可以通過(guò)以下哪個(gè)命令創(chuàng)建節(jié)點(diǎn)數(shù)據(jù)?
A、Is/node
B、get/node
C、set/nodedata
D、create/node
答案:D
122.決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示個(gè)()上的測(cè)試,每個(gè)分支代
表個(gè)測(cè)試(),每個(gè)葉節(jié)點(diǎn)代表一種().
A、輸出、類(lèi)別、屬性
B、屬性、類(lèi)別、輸出
C、屬性、輸出、類(lèi)別
D、類(lèi)別、輸出、屬性
答案:C
解析:
考查分類(lèi)問(wèn)題模型選擇中的決策樹(shù),在內(nèi)部進(jìn)行決策樹(shù)
的比較,每個(gè)分支代表類(lèi)別,每個(gè)葉節(jié)點(diǎn)作為輸出
123.以下關(guān)于大數(shù)據(jù)Lambda架構(gòu)描述不正確的是哪一選項(xiàng)?
A、Lambda架構(gòu)是大數(shù)據(jù)系統(tǒng)里面舉足輕重的架構(gòu),大多數(shù)架構(gòu)基本都是Lambd
a架構(gòu)或者基于其變種的架構(gòu)。
B、Lambda架構(gòu)很好的兼顧了實(shí)時(shí)處理和離線處理,幾乎覆蓋了大多數(shù)的數(shù)據(jù)分
析和需求處理??梢院芎玫貪M(mǎn)足同時(shí)存在實(shí)時(shí)和離線需求的場(chǎng)景。
C、Lambda架構(gòu)將數(shù)據(jù)通道分為兩個(gè)分支:實(shí)時(shí)流和離線。實(shí)時(shí)流類(lèi)似流式架構(gòu),
保障了其實(shí)時(shí)性,而離線則以批處理方式為主,保障了最終一致性。
D、Lambda架構(gòu)的缺點(diǎn):離線層與實(shí)時(shí)流內(nèi)部處理的邏輯是不相同的,因此有大
量冗余和重復(fù)的模塊存在。
答案:D
124.SparkMLIib匯總統(tǒng)計(jì)主要是對(duì)RDD數(shù)據(jù)集進(jìn)行整體的統(tǒng)計(jì)性描述,主要通過(guò)
調(diào)用colStats函數(shù),該函數(shù)中獲取數(shù)據(jù)每列的L1范數(shù)的參數(shù)是下列選項(xiàng)中的哪
一項(xiàng)?
A、normlL1
B、numNonzeros
C、normL2
Dxvariance
答案:A
125.Gremlin中查詢(xún)單個(gè)點(diǎn)的信息該用什么命令?
A、gV().hasLabeI("test").vaIues("age")
B、gV().hasLabeI("test").vaIueIap("string_list","age")
C、gV(13464736).vaIueMapO
D、gV().hasLabeI("test")
答案:A
126.設(shè)X、X1、X2、Y是四個(gè)隨機(jī)變量,a,b是常數(shù),以下關(guān)于協(xié)方差的性質(zhì)描
述錯(cuò)誤的是?
A、如果Cov(X,Y)=0,則隨機(jī)變量X,Y相互獨(dú)立
B、Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
GCov(aX,bY)=abCov(X,Y)
D、如果隨機(jī)變量x,Y相互獨(dú)立,則Cov(X,Y)=0
答案:A
127.離線批處理方案的應(yīng)用場(chǎng)景不包括?
A、占用計(jì)算存儲(chǔ)資源多
B、快速高效,實(shí)時(shí)的數(shù)據(jù)處理
C、數(shù)據(jù)處理格式多樣
D、處理大規(guī)模數(shù)據(jù)
答案:B
128.關(guān)于模型部署的描述不正確的是哪一項(xiàng)?
A、模型一經(jīng)部署,就可以永久的固化下來(lái)。
B、模型部署可以借助的工具越來(lái)越多。
C、在生產(chǎn)環(huán)境下部署模型也存在許多挑
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能倉(cāng)儲(chǔ)卷簾門(mén)系統(tǒng)采購(gòu)及集成合同
- 2025年度區(qū)塊鏈技術(shù)應(yīng)用項(xiàng)目開(kāi)發(fā)與許可合同
- 2025年休假村租賃協(xié)議模板
- 2025年建筑工程模板工程承包合同書(shū)
- 2025年信用卡債務(wù)履行協(xié)議
- 2025年金剛石膜工具項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模范
- 2025年血液系統(tǒng)用藥項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模范
- 2025年街頭籃球項(xiàng)目規(guī)劃申請(qǐng)報(bào)告
- 2025年放射性藥品項(xiàng)目提案報(bào)告模式
- 2025年生活用橡膠制品:塑膠盒項(xiàng)目規(guī)劃申請(qǐng)報(bào)告范文
- 工業(yè)機(jī)器人編程語(yǔ)言:Epson RC+ 基本指令集教程
- 2024年同等學(xué)力申碩統(tǒng)考英語(yǔ)卷
- 六年級(jí)下冊(cè)音樂(lè)全冊(cè)教案湖南文藝出版社湘教版
- 2023.05.06-廣東省建筑施工安全生產(chǎn)隱患識(shí)別圖集(高處作業(yè)吊籃工程部分)
- 2024年上海高考數(shù)學(xué)真題試題(原卷版+含解析)
- JTG 3362-2018公路鋼筋混凝土及預(yù)應(yīng)力混凝土橋涵設(shè)計(jì)規(guī)范
- 電動(dòng)汽車(chē)用驅(qū)動(dòng)電機(jī)系統(tǒng)-編制說(shuō)明
- 江蘇卷2024年高三3月份模擬考試化學(xué)試題含解析
- 門(mén)診導(dǎo)診課件
- 2024年四川省成都市新都區(qū)中考英語(yǔ)一診試卷(含解析)
- 《樹(shù)立正確的“三觀”》班會(huì)課件
評(píng)論
0/150
提交評(píng)論