數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案

上傳人：喝*** IP屬地：廣西上傳時(shí)間：2024-12-27 格式：DOCX 頁(yè)數(shù)：59 大?。?3.37KB 積分：30 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案_第2頁(yè)

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案_第3頁(yè)

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案_第4頁(yè)

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案_第5頁(yè)

已閱讀5頁(yè)，還剩54頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案1.RDD中的數(shù)據(jù)被（）在集群中，使得任務(wù)可以并行執(zhí)行。A、順序存儲(chǔ)B、連續(xù)存儲(chǔ)C、分塊存儲(chǔ)D、分區(qū)存儲(chǔ)【正確答案】：D解析：

RDD為分區(qū)存儲(chǔ)。2.（）的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn)，旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】：A解析：

Mahout是ApacheSoftwareFoundation（ASF）旗下的一個(gè)開(kāi)源項(xiàng)目，提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)，旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn)，如聚類、分類、推薦過(guò)濾、頻繁子項(xiàng)挖掘等。3.支持向量回歸與傳統(tǒng)回歸模型的差別是（）。A、模型輸出與真實(shí)值相同B、模型輸出與真實(shí)值存在ε偏差C、模型輸出大于真實(shí)值D、模型輸出小于真實(shí)值【正確答案】：B解析：

以線性回歸為例，通過(guò)模型輸出的f（x）與真實(shí)輸出的y之間的差別來(lái)計(jì)算損失。而SVR假設(shè)模型輸出f（x）與真實(shí)的y之間可以容忍有eps大小的偏差，也就意味只要樣本的預(yù)測(cè)值落在f（x）兩側(cè)在y軸方向上絕對(duì)值之差小于eps的間隔帶就是預(yù)測(cè)正確的。4.增加卷積核的大小對(duì)于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的效果是必要的嗎（）A、是的，增加卷積核尺寸一定能提高性能B、不是，增加核函數(shù)的大小不一定會(huì)提高性能C、-D、-【正確答案】：B解析：

增加核函數(shù)的大小不一定會(huì)提高性能。這個(gè)問(wèn)題在很大程度上取決于數(shù)據(jù)集。5.下列選項(xiàng)中，用于觸發(fā)異常的是（）。A、tryB、catchC、raiseD、except【正確答案】：C解析：

--6.數(shù)據(jù)科學(xué)是一門以（）為主要研究任務(wù)的獨(dú)立學(xué)科。A、“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見(jiàn)”“數(shù)據(jù)產(chǎn)品研發(fā)”和（或）“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”B、數(shù)據(jù)研發(fā)C、數(shù)據(jù)處理D、數(shù)據(jù)洞見(jiàn)【正確答案】：A解析：

數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)“從數(shù)據(jù)到信息”“從數(shù)據(jù)到知識(shí)”和（或）“從數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的的，以“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見(jiàn)”“數(shù)據(jù)產(chǎn)品研發(fā)”和（或）“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)的獨(dú)立學(xué)科。7.以下敘述正確的是（）。A、continue語(yǔ)句的作用是結(jié)束整個(gè)循環(huán)的執(zhí)行B、只能在循環(huán)體內(nèi)使用break語(yǔ)句C、在循環(huán)體內(nèi)使用break語(yǔ)句或continue語(yǔ)句的作用相同D、從多層循環(huán)嵌套中退出時(shí)，只能使用goto語(yǔ)句【正確答案】：B解析：

continue語(yǔ)句可以跳過(guò)循環(huán)的當(dāng)前一步,故AC錯(cuò)；python沒(méi)有g(shù)oto語(yǔ)句。8.矩陣相減使用以下哪種的函數(shù)是（）。A、np.add）B、np.subtract）C、np.multiply）D、np.divide）【正確答案】：B解析：

ABCD選項(xiàng)分別對(duì)應(yīng)矩陣計(jì)算的加減乘除法。9.以下描述中錯(cuò)誤的是（）。A、數(shù)據(jù)化與數(shù)字化是兩個(gè)不同概念B、數(shù)據(jù)與數(shù)值是一個(gè)概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個(gè)不同的概念D、數(shù)據(jù)和信息是兩個(gè)不同的概念【正確答案】：B解析：

除了“數(shù)值”，數(shù)據(jù)科學(xué)中的“數(shù)據(jù)”還包括文字、圖形、圖像、動(dòng)畫(huà)、文本、語(yǔ)音、視頻、多媒體和富媒體等多種類型10.在Apriori算法中，候選項(xiàng)集劃分為不同的桶，存放在（）中。A、字典B、集合C、Hash樹(shù)D、列表【正確答案】：C解析：

--11.對(duì)于PCA（主成分分析）轉(zhuǎn)化過(guò)的特征,樸素貝葉斯的不依賴假設(shè)總是成立,因?yàn)樗兄饕煞质钦坏?這個(gè)說(shuō)法是（）。A、正確的B、錯(cuò)誤的C、-D、-【正確答案】：B解析：

說(shuō)法錯(cuò)誤。首先,不依賴和不相關(guān)是兩回事；其次,轉(zhuǎn)化過(guò)的特征也可能是相關(guān)的。12.卷積神經(jīng)網(wǎng)絡(luò)能通過(guò)卷積以及池化等操作將不同種類的鳥(niǎo)歸為一類。關(guān)于卷積神經(jīng)網(wǎng)絡(luò)能達(dá)到該效果的原因，下列說(shuō)法不正確的是（）。A、同樣模式的內(nèi)容（如鳥(niǎo)嘴）在圖像不同位置可能出現(xiàn)B、池化之后的圖像主體內(nèi)容基本不變C、不同種類鳥(niǎo)的相同部位（如鳥(niǎo)嘴）形狀相似D、池化作用能使不同種類鳥(niǎo)變得相似【正確答案】：D解析：

特征維數(shù)的減少并不會(huì)讓之前的特征丟失。13.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說(shuō)法中：①增加神經(jīng)網(wǎng)絡(luò)層數(shù),可能會(huì)增加測(cè)試數(shù)據(jù)集的分類錯(cuò)誤率；②減少神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小測(cè)試數(shù)據(jù)集的分類錯(cuò)誤率；③增加神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小訓(xùn)練數(shù)據(jù)集的分類錯(cuò)誤率，正確的是（）。A、①B、①③C、①②D、②【正確答案】：A解析：

深度神經(jīng)網(wǎng)絡(luò)的成功已經(jīng)證明,增加神經(jīng)網(wǎng)絡(luò)層數(shù),可以增加模型范化能力,即訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都表現(xiàn)得更好。但更多的層數(shù)也不一定能保證有更好的表。所以，不能絕對(duì)地說(shuō)層數(shù)多的好壞,只能選A。14.考慮值集{12243324556826}，其四分位數(shù)極差是：（）。A、21B、24C、55D、3【正確答案】：A解析：

四分位差，也稱為內(nèi)距或四分間距，它是上四分位數(shù)（QU，即位于75%）與下四分位數(shù)（QL，即位于25%）的差。計(jì)算公式為：QD=QU-QL。將數(shù)據(jù)從小到大排序，可得到QU=33,QL=12，因此QD=QU-QL=2115.能使圖像亮度得到平緩漸變，減小突變梯度，改善圖像質(zhì)量的是（）。A、圖像平滑B、圖像分類C、圖像識(shí)別D、圖像分割【正確答案】：A解析：

圖像平滑是指用于突出圖像的寬大區(qū)域、低頻成分、主干部分或抑制圖像噪聲和干擾高頻成分的圖像處理方法，目的是使圖像亮度平緩漸變，減小突變梯度，改善圖像質(zhì)量。16.以下哪個(gè)模塊（）不是Scipy庫(kù)中的（）模塊。A、clusterB、randomC、signalD、misc【正確答案】：B解析：

cluster、signal、misc都是Scipy庫(kù)中的模塊，random是Numpy中的模塊，Python本身也帶有random庫(kù)。17.HTML的表格中，如果需要定義表格的單元格內(nèi)文字和邊緣的空間，需要通過(guò)哪個(gè)屬性（）來(lái)實(shí)現(xiàn)（）。A、cellspacing屬性B、colspan屬性C、cellpadding屬性D、rowspan屬性【正確答案】：C解析：

cellspacing屬性用來(lái)指定表格各單元格之間的空隙；colspan屬性規(guī)定單元格可橫跨的列數(shù)；cellpadding屬性用來(lái)指定單元格內(nèi)容與單元格邊界之間的空白距離的大?。籸owspan屬性規(guī)定單元格可橫跨的行數(shù)。18.如果要將讀寫(xiě)位置移動(dòng)到文件開(kāi)頭，需要使用的命令是（）。A、closeB、seek（0）C、truncateD、write（'stuff'）【正確答案】：B解析：

seek（0）指移動(dòng)指針到0位置即開(kāi)頭。19.matplotlib中設(shè)置x軸數(shù)值顯示范圍的函數(shù)是什么（）。A、xrange）B、xspan）C、xlabel）D、xlim）【正確答案】：D解析：

xlim用于設(shè)置x軸的顯示范圍。20.在支持向量機(jī)中，核函數(shù)的主要作用是（）。A、將低維空間中線性不可分的數(shù)據(jù)映射到高維空間，使其線性可分B、將高維空間中線性不可分的數(shù)據(jù)映射到低維空間，使其線性可分C、將高維空間中線性可分的數(shù)據(jù)映射到低維空間，使其線性不可分D、將低維空間中線性可分的數(shù)據(jù)映射到高維空間，使其線性不可分【正確答案】：A解析：

--21.關(guān)于HDFS的特征，下列說(shuō)法錯(cuò)誤的是（）。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問(wèn)D、低吞吐量【正確答案】：D解析：

HDFS設(shè)計(jì)中重視“數(shù)據(jù)的高吞吐量”，因此其數(shù)據(jù)吞吐量高，但也造成了其數(shù)據(jù)延遲訪問(wèn)的特征。22.下列關(guān)于模型能力（modelcapacity指神經(jīng)網(wǎng)絡(luò)模型能擬合復(fù)雜函數(shù)的能力）的描述，正確的是（）。A、隱藏層層數(shù)增加，模型能力增加B、Dropout的比例增加，模型能力增加C、學(xué)習(xí)率增加，模型能力增加D、都不正確【正確答案】：A解析：

Dropout比例增加，可能會(huì)丟失過(guò)多參數(shù)影響模型能力；學(xué)習(xí)率過(guò)大，梯度下降可能會(huì)越過(guò)最低點(diǎn)，無(wú)法收斂。23.random庫(kù)的seed（a）函數(shù)的作用是（）。A、生成一個(gè)[0.0,1.0）之間的隨機(jī)小數(shù)B、生成一個(gè)k比特長(zhǎng)度的隨機(jī)整數(shù)C、設(shè)置初始化隨機(jī)數(shù)種子aD、生成一個(gè)隨機(jī)整數(shù)【正確答案】：C解析：

本題考查隨機(jī)種子數(shù)函數(shù)seed）。24.下列不屬于數(shù)據(jù)科學(xué)開(kāi)源工具的是（）。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】：B解析：

ERP系統(tǒng)是企業(yè)資源計(jì)劃（EnterpriseResourcePlanning）的簡(jiǎn)稱，是指建立在信息技術(shù)基礎(chǔ)上，集信息技術(shù)與先進(jìn)管理思想于一身，以系統(tǒng)化的管理思想，為企業(yè)員工及決策層提供決策手段的管理平臺(tái)。25.數(shù)據(jù)安全不只是技術(shù)問(wèn)題，還涉及（）。A、人員問(wèn)題B、管理問(wèn)題C、行政問(wèn)題D、領(lǐng)導(dǎo)問(wèn)題【正確答案】：B解析：

數(shù)據(jù)安全不只是技術(shù)問(wèn)題，還涉及管理問(wèn)題。26.（）是表現(xiàn)數(shù)據(jù)分布對(duì)稱性的指標(biāo)。A、斜率B、偏斜度C、偏度D、偏離度【正確答案】：B解析：

偏斜度是對(duì)統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中，當(dāng)偏斜度為正值時(shí)，分布正偏，即眾數(shù)位于算術(shù)平均數(shù)的左側(cè)；當(dāng)偏斜度為負(fù)值時(shí)，分布負(fù)偏，即眾數(shù)位于算術(shù)平均數(shù)的右側(cè)。27.（）對(duì)應(yīng)于決策樹(shù)結(jié)果，其他節(jié)點(diǎn)對(duì)應(yīng)于（）。A、葉節(jié)點(diǎn)，屬性測(cè)試B、根結(jié)點(diǎn)，學(xué)習(xí)測(cè)試C、內(nèi)部節(jié)點(diǎn)，學(xué)習(xí)測(cè)試D、葉節(jié)點(diǎn)，分類測(cè)試【正確答案】：A解析：

決策樹(shù)包含一個(gè)根節(jié)點(diǎn)、若干內(nèi)部節(jié)點(diǎn)和若干葉節(jié)點(diǎn)。葉節(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果，其他每個(gè)節(jié)點(diǎn)則對(duì)應(yīng)于一個(gè)屬性測(cè)試。28.下列關(guān)于支持向量回歸說(shuō)法，錯(cuò)誤的是（）。A、支持向量回歸是將支持向量的方法應(yīng)用到回歸問(wèn)題中B、支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問(wèn)題C、同分類算法不同的是，支持向量回歸要最小化一個(gè)凹函數(shù)D、支持向量回歸的解是稀疏的【正確答案】：C解析：

支持向量機(jī)最大間隔模型是一個(gè)凸二次規(guī)劃問(wèn)題。29.以下不屬于Python內(nèi)置模塊的是（）。A、sysB、jsonC、osD、image【正確答案】：D解析：

image屬于第三方庫(kù)。30.以下屬于考慮詞語(yǔ)位置關(guān)系的模型有（）。A、詞向量模型B、詞袋模型C、詞的分布式表示D、TF-IDF【正確答案】：A解析：

詞向量模型考慮通過(guò)中間詞預(yù)測(cè)鄰近詞，需要考慮詞語(yǔ)順序位置。31.為了提高系統(tǒng)性能，Spark采取“惰性計(jì)算模式”，具體為（）。A、執(zhí)行Transformation操作時(shí)不會(huì)提交，只有執(zhí)行Action操作時(shí)才會(huì)被提交到集群中開(kāi)始被執(zhí)行B、執(zhí)行Action操作時(shí)不會(huì)提交，只有執(zhí)行Transformation操作時(shí)才會(huì)被提交到集群中開(kāi)始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時(shí)，所有操作才會(huì)被提交到集群中開(kāi)始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時(shí)都不會(huì)提交到集群【正確答案】：A解析：

Spark“惰性計(jì)算模式”定義。32.（）是指理解挖掘項(xiàng)目的目標(biāo)業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準(zhǔn)備D、數(shù)據(jù)建?！菊_答案】：A解析：

根據(jù)CRISP-DM（cross-industrystandardprocessfordatamining，跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程）模型，業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的，并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來(lái)。33.常用的灰度內(nèi)插值法不包括有（）。A、最近鄰內(nèi)插法B、三次內(nèi)插法C、雙線性內(nèi)插值法D、三次樣條插值法【正確答案】：D解析：

常用的灰度內(nèi)插值法有最近鄰內(nèi)插法、三次內(nèi)插法、雙線性內(nèi)插值法。34.在Python中，調(diào)用open）時(shí)需要將內(nèi)容附加到文件末尾，而不是覆蓋文件原來(lái)內(nèi)容，則第二個(gè)實(shí)參應(yīng)該使用（）。A、’a'B、'g'C、'm'D、'w'【正確答案】：A解析：

'r'讀模式、'w'寫(xiě)模式、'a'追加模式、'b'二進(jìn)制模式、'+'讀/寫(xiě)模式。35.k近鄰算法在（）的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團(tuán)狀分布D、樣本呈鏈狀分布【正確答案】：B解析：

k近鄰算法主要依靠的是周圍的點(diǎn)，因此如果樣本過(guò)多，則難以區(qū)分，典型性好的容易區(qū)分。樣本都是呈團(tuán)狀分布，KNN就發(fā)揮不出其求近鄰的優(yōu)勢(shì)了，整體樣本應(yīng)該具有典型性好，樣本較少，比較適宜。36.Python語(yǔ)句print（0xA+0xB）的輸出結(jié)果是（）。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】：D解析：

0x是16進(jìn)制運(yùn)算，0xA+0xB換為十進(jìn)制為10+11=21。37.以下選項(xiàng)中，執(zhí)行后可以查看Python的版本的是（）。A、importsystemB、C、Print（sys.version）D、importsystem【正確答案】：B解析：

查看Python版本可以通過(guò)調(diào)用操作系統(tǒng)模塊sys,語(yǔ)句print（sys.version）實(shí)現(xiàn)。38.線性回歸算法主要在sklearn中的哪個(gè)（）模塊中（）。A、baseB、clusterC、linear_modelD、kernel_impute【正確答案】：C解析：

sklearn中l(wèi)inear_model是廣義線性模型模塊。39.下列關(guān)于支持向量機(jī)優(yōu)化性問(wèn)題的形式，說(shuō)法正確的是（）。A、它是一個(gè)凸二次規(guī)劃問(wèn)題B、它是一個(gè)凸一次規(guī)劃問(wèn)題C、它是一個(gè)凹二次規(guī)劃問(wèn)題D、它是一個(gè)凹一次規(guī)劃問(wèn)題【正確答案】：A解析：

支持向量機(jī)優(yōu)化性問(wèn)題的一個(gè)凸二次規(guī)劃問(wèn)題。40.緩解過(guò)擬合的一個(gè)辦法是允許支持向量機(jī)在一些樣本上出錯(cuò)，（）形式適合這種方法。A、硬間隔支持向量機(jī)B、軟間隔支持向量機(jī)C、線性核函數(shù)支持向量機(jī)D、多項(xiàng)式核函數(shù)支持向量機(jī)【正確答案】：B解析：

軟間隔允許某些樣本不滿足約束，可緩解過(guò)擬合。41.以下哪種參數(shù)須以正確的順序傳入函數(shù)，調(diào)用時(shí)的數(shù)量必須和聲明時(shí)的一樣的參數(shù)是（）。A、位置參數(shù)B、默認(rèn)值參數(shù)C、可變參數(shù)D、關(guān)鍵字參數(shù)【正確答案】：A解析：

位置參數(shù)須以正確的順序傳入函數(shù)，調(diào)用時(shí)的數(shù)量必須和聲明時(shí)的一樣。42.下列哪個(gè)語(yǔ)句中，在Python中是非法的是（）。A、x=y=z=1B、x=（y=z+1）C、x，y=y，xD、x+=y【正確答案】：B解析：

賦值語(yǔ)句不能用于賦值。43.下列數(shù)據(jù)類型中，Numpy不支持以下哪種數(shù)據(jù)類型的是（）。A、float32B、uint64C、boolD、byte【正確答案】：D解析：

Numpy支持的數(shù)據(jù)類型包括bool、int（8,16,32,64）、unit（16,32,64）、float（16,32,64）、complex（64,128）等類型，不支持byte、short等類型。44.關(guān)于PythonNumpy，、Scipy，、Pandas這些庫(kù)的區(qū)別，描述不對(duì)的是（）。A、Numpy是以矩陣為基礎(chǔ)的數(shù)學(xué)計(jì)算模塊，純數(shù)學(xué)B、Scipy基于Numpy，科學(xué)計(jì)算庫(kù)，有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數(shù)據(jù)結(jié)構(gòu)D、三個(gè)模塊分別獨(dú)立【正確答案】：D解析：

模塊之間不是相互獨(dú)立的，例如Pandas和Scipy都基于Numpy。45.數(shù)組允許批量計(jì)算而無(wú)須任何for循環(huán)，這種特性叫（）。A、矩陣化B、便捷化C、批量化D、矢失量化【正確答案】：D解析：

矢量化指Numpy可以直接面向數(shù)組進(jìn)行批量計(jì)算，不需要對(duì)每個(gè)元素進(jìn)行循環(huán)計(jì)算。46.Numpy包中meshgrid函數(shù)實(shí)現(xiàn)的功能是（）。A、數(shù)組拆分B、數(shù)組乘法C、數(shù)組除法D、數(shù)組融合【正確答案】：D解析：

np.meshgrid）用于數(shù)組融合，在畫(huà)等高線圖時(shí)常用。47.在留出法、交叉驗(yàn)證法和自助法三種評(píng)估方法中，（）更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測(cè)試集的情況。A、留出法B、交叉驗(yàn)證法C、自助法D、留一法【正確答案】：C解析：

--48.關(guān)于數(shù)據(jù)創(chuàng)新，下列說(shuō)法正確的是（）。A、個(gè)數(shù)據(jù)集的總和價(jià)值等于單個(gè)數(shù)據(jù)集價(jià)值相加B、于數(shù)據(jù)的再利用，數(shù)據(jù)應(yīng)該永久保存下去C、同數(shù)據(jù)多次用于相同或類似用途，其有效性會(huì)降低D、數(shù)據(jù)開(kāi)放價(jià)值可以得到真正釋放【正確答案】：D解析：

略。49.scipy的stats包中提供了產(chǎn)生連續(xù)性分布的函數(shù)，其中用于均勻分布的函數(shù)是（）。A、normB、uniformC、betaD、geom【正確答案】：B解析：

均勻分布是uniform。50.繪圖是如何通過(guò)（）為項(xiàng)目設(shè)置matplotlib參數(shù)（）。A、rc）B、sci）C、axes）D、sca）【正確答案】：A解析：

matplotlib.rc）設(shè)置當(dāng)前的matplotlib參數(shù)。51.scipyScipy通常與下列哪個(gè)庫(kù)（）同時(shí)使用（）。A、pandasB、scikit-learnC、NumpyD、jieba【正確答案】：C解析：

SciPyScipy是另一種使用Numpy來(lái)做高等數(shù)學(xué)、信號(hào)處理、優(yōu)化、統(tǒng)計(jì)和許多其他它科學(xué)任務(wù)的語(yǔ)言擴(kuò)展，通常與Numpy搭配使用。52.階躍函數(shù)與sigmoid函數(shù)均為典型激活函數(shù)，該說(shuō)法（）。A、正確B、錯(cuò)誤C、-D、-【正確答案】：A解析：

--53.機(jī)器學(xué)習(xí)中，基于樣本分布的距離是（）。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】：A解析：

馬氏距離是基于樣本分布的一種距離。54.（）不適合使用機(jī)器學(xué)習(xí)方法解決。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對(duì)滴滴拼車乘客分簇【正確答案】：B解析：

判斷給定的圖中是否有環(huán)采用深度學(xué)習(xí)。55.np.linalg.svd）函數(shù)可以實(shí)現(xiàn)（）功能。A、計(jì)算協(xié)方差矩陣B、實(shí)現(xiàn)奇異值分解C、計(jì)算方差D、計(jì)算均值；【正確答案】：B解析：

svd實(shí)現(xiàn)奇異值分解。56.matplotlib中的調(diào)用堆積折線圖的函數(shù)是什么（）。A、step）B、stackplot）C、plusplot）D、hist）【正確答案】：B解析：

stackplot用于繪制堆疊折線圖。57.Numpy.linspace（0,3,3）的結(jié)果為（）。A、[0，1，2]B、[1，2，3]C、[0，1.5，3]D、[0，3，6]【正確答案】：C解析：

np.linspace）指定開(kāi)始值、結(jié)束值和值的個(gè)數(shù)，默認(rèn)包含結(jié)束值，注意與arange的區(qū)別。58.以下算法中不屬于基于深度學(xué)習(xí)的圖像分割算法是（）。A、FCNB、DeeplabC、Mask-RCNND、KNN【正確答案】：D解析：

KNN為傳統(tǒng)機(jī)器學(xué)習(xí)方法并非深度學(xué)習(xí)方法。59.Hive的數(shù)據(jù)最終存儲(chǔ)在（）。A、HDFSB、HBaseC、RDBMSD、MetaStore【正確答案】：A解析：

Hive是基于Hadoop分布式文件系統(tǒng)的,它的數(shù)據(jù)存儲(chǔ)在Hadoop分布式文件系統(tǒng)HDFS中。60.在matplotlib中，以下關(guān)于繪圖標(biāo)準(zhǔn)流程說(shuō)法錯(cuò)誤的是（）。A、繪制最簡(jiǎn)單的圖形可以不用創(chuàng)建畫(huà)布B、添加圖例可以在繪制圖形之前C、添加x軸、y軸的標(biāo)簽可以在繪制圖形之前D、修改x軸標(biāo)簽、y軸標(biāo)簽和繪制圖形沒(méi)有先后【正確答案】：B解析：

繪制圖例需要在繪制圖形之后。61.假設(shè)有列表a=['name','age','sex']和b=['Dong',38,'Male']，請(qǐng)使用一個(gè)語(yǔ)句將這兩個(gè)列表的內(nèi)容轉(zhuǎn)換為字典，并且以列表a中的元素為“鍵”，以列表b中的元素為“值”，這個(gè)語(yǔ)句可以寫(xiě)為（）。A、c=dict（cross（a，b）B、c=dict（zip（a，b）C、c=map（zip（a，b）D、c=b【正確答案】：B解析：

zip）將可迭代的對(duì)象作為參數(shù)，將對(duì)象中對(duì)應(yīng)的元素打包成一個(gè)個(gè)元組,然后用dict生成器生成字典。62.下列關(guān)于Python函數(shù)調(diào)用的說(shuō)法，錯(cuò)誤的是（）。A、函數(shù)的遞歸調(diào)用必須有一個(gè)明確的結(jié)束條件B、函數(shù)的遞歸調(diào)用每次進(jìn)入更深一層遞歸時(shí)，問(wèn)題規(guī)模相比上次遞歸都應(yīng)有所減少C、函數(shù)的遞歸調(diào)用效率不高，遞歸層次過(guò)多會(huì)導(dǎo)致棧溢出（[在計(jì)算機(jī)中，函數(shù)調(diào)用是通過(guò)棧（stack）這種數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)的，每當(dāng)進(jìn)入一個(gè)函數(shù)調(diào)用，棧就會(huì)加一層棧幀，每當(dāng)函數(shù)返回，棧就會(huì)減一層棧）]D、函數(shù)的遞歸調(diào)用由于棧的大小是無(wú)限的，所以，遞歸調(diào)用的次數(shù)過(guò)多，也不會(huì)導(dǎo)致棧溢出【正確答案】：D解析：

由于棧的大小不是無(wú)限的，所以，遞歸調(diào)用的次數(shù)過(guò)多，會(huì)導(dǎo)致棧溢出。63.以下關(guān)于異常處理的描述，正確的是（）。A、try語(yǔ)句中有except子句就不能有finally子句B、Python中，可以用異常處理捕獲程序中的所有錯(cuò)誤C、引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)NameError錯(cuò)誤D、Python中允許利用raise語(yǔ)句由程序主動(dòng)引發(fā)異?！菊_答案】：D解析：

try語(yǔ)句中有except子句可以有finally子句,，不用異常處理捕獲程序中的所有錯(cuò)誤，引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)lisindeoutError。64.基本元數(shù)據(jù)是指（）。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】：D解析：

基本元數(shù)據(jù)（Metadata）又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)（dataaboutdata）。65.二值圖像中的分支點(diǎn)的連接數(shù)為（）。A、0B、1C、2D、3【正確答案】：D解析：

二值圖像中連接數(shù)為0的像素為孤立點(diǎn)或內(nèi)點(diǎn)。連接數(shù)為1的像素為端點(diǎn)或邊界點(diǎn)。連接數(shù)為2的像素為連接點(diǎn)。連接數(shù)為3的像素為分支點(diǎn)。66.以下代碼的輸出結(jié)果為（）。A、TRUEB、FALSEC、[Ture，F(xiàn)alse，Ture]D、（[Ture，Ture，Ture]）【正確答案】：C解析：

數(shù)組進(jìn)行邏輯運(yùn)算生成邏輯數(shù)組。67.相對(duì)于HadoopMapReduce1.0，Spark的特點(diǎn)不包括（）。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】：B解析：

相較于HadoopMapReduce，Spark的特點(diǎn)為速度快、通用性和易用性。68.一組數(shù)據(jù)中出現(xiàn)最多的變量值叫作做（）。A、最大值B、平均值C、中位數(shù)D、眾數(shù)【正確答案】：D解析：

眾數(shù)是樣本觀測(cè)值在頻數(shù)分布表中頻數(shù)最多的那一組的組中值。69.對(duì)文本數(shù)據(jù)處理，通常采用（）核函數(shù)。A、多項(xiàng)式B、SigmoidC、線性D、拉普拉斯【正確答案】：C解析：

--70.Numpy數(shù)組輸出的原則是（）。A、從左到右，從下到上B、從左到右，從上到下C、從右到左，從下到上D、從右到左，從上到下【正確答案】：B解析：

Numpy數(shù)組輸出時(shí)遵循以下原則：從左到右，從上到下，71.下列算法中：①K-NN最近鄰算法；②線性回歸；③邏輯回歸，可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建的算法是（）。A、①②B、②③C、①②③D、以上都不是【正確答案】：B解析：

KNN是關(guān)于距離的學(xué)習(xí)算法，沒(méi)有任何參數(shù)，所以無(wú)法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。72.（）是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉(cāng)庫(kù)C、數(shù)據(jù)單元D、數(shù)據(jù)分析【正確答案】：A解析：

在關(guān)系數(shù)據(jù)庫(kù)中，事務(wù)（Transaction）是保證數(shù)據(jù)一致性的重要手段，可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個(gè)數(shù)據(jù)庫(kù)操作序列，這些操作要么全做，要么全不做，是一個(gè)不可分割的工作單位。73.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的（），將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過(guò)程。A、可理解性、可記憶性、可體驗(yàn)性B、可接受性、可記憶性、可體驗(yàn)性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】：A解析：

“數(shù)據(jù)的故事化描述（Storytelling）”是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性，將“數(shù)據(jù)”還原成關(guān)聯(lián)至特定的“情景”的過(guò)程。74.以下代碼的輸出結(jié)果為（）。A、[0123][0123]B、[1934][1234]C、[0923][0923]D、[0923][0123]【正確答案】：C解析：

ndarrray的切片操作為深復(fù)制，a改變數(shù)值會(huì)影響到b。75.兩個(gè)變量相關(guān)，它們的相關(guān)系數(shù)r可能為0。這句話（）。A、正確B、錯(cuò)誤C、-D、-【正確答案】：A解析：

Pearson相關(guān)系數(shù)r=0,這表示兩個(gè)變量間不存在線性相關(guān)關(guān)系。76.數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù)，是數(shù)據(jù)產(chǎn)品的研發(fā)的哪個(gè)階段（）。A、零次數(shù)據(jù)B、一次數(shù)據(jù)C、二次數(shù)據(jù)D、采集數(shù)據(jù)【正確答案】：A解析：

零次數(shù)據(jù)是數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù)，如各種感知儀器設(shè)備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯(cuò)誤或虛假數(shù)據(jù)等質(zhì)量問(wèn)題。77.下列描述中不屬于情感分析的具體任務(wù)是（）。A、情感分類B、觀點(diǎn)抽取C、觀點(diǎn)問(wèn)答D、段落匹配【正確答案】：D解析：

情感分析又稱意見(jiàn)挖掘、傾向性分析等，是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程，包括情感分類、觀點(diǎn)抽取、觀點(diǎn)問(wèn)答等，沒(méi)有段落匹配。78.由于不同類別的關(guān)鍵詞對(duì)排序的貢獻(xiàn)不同，檢索算法一般把查詢關(guān)鍵詞分為幾類，以下不屬于此關(guān)鍵詞類型的是（）。A、引用詞B、普通關(guān)鍵詞C、高頻詞匯D、擴(kuò)展關(guān)鍵詞【正確答案】：C解析：

高頻詞匯信息量較少不能充當(dāng)關(guān)鍵詞，多數(shù)為無(wú)用詞。79.關(guān)于Spark的說(shuō)法中，（）是錯(cuò)誤的。A、采用內(nèi)存計(jì)算模式B、可利用多種語(yǔ)言編程C、主要用于批處理D、可進(jìn)行map（）操作【正確答案】：C解析：

HadoopMapReduce主要用于批處理，與Hadoop不同的是，Spark更為通用一些，可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。80.訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類。該說(shuō)法（）。A、正確B、錯(cuò)誤C、-D、-【正確答案】：A解析：

--81.以下關(guān)于圖像的平滑處理錯(cuò)誤的說(shuō)法是（）。A、圖像的平滑處理是指在盡量保留原有信息的情況下，過(guò)濾掉圖像內(nèi)部的噪音B、圖像平滑處理會(huì)對(duì)圖像中與周圍像素點(diǎn)的像素值差異較大的像素點(diǎn)進(jìn)行處理，將其值調(diào)整為周圍像素點(diǎn)像素值的近似值C、經(jīng)過(guò)平滑處理后圖像質(zhì)量會(huì)下降D、以上答案都正確【正確答案】：C解析：

圖像的平滑處理不會(huì)損壞圖像的輪廓及邊緣等重要信息，使得圖像清晰視覺(jué)效果好。82.下列哪個(gè)函數(shù)中可以計(jì)算字典元素個(gè)數(shù)的是（）。A、cmpB、lenC、strD、type【正確答案】：B解析：

cmp用于比較；len用于計(jì)算元素個(gè)數(shù)；str用于將對(duì)象轉(zhuǎn)換為字符串；type求對(duì)象類型。83.Spark中引入RDD概念的目的是（）。A、數(shù)據(jù)存儲(chǔ)B、數(shù)據(jù)查重C、提升容錯(cuò)能力D、增強(qiáng)數(shù)據(jù)一致性【正確答案】：C解析：

在Spark中引入RDD概念的目的是實(shí)現(xiàn)Spark的并行操作和靈活的容錯(cuò)能力。84.關(guān)于bagging下列說(shuō)法錯(cuò)誤的是（）。A、各基分類器之間有較強(qiáng)依賴，不可以進(jìn)行并行訓(xùn)練B、最著名的算法之一是基于決策樹(shù)基分類器的隨機(jī)森林C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí)，子集之間可能有重疊D、為了讓基分類器之間互相獨(dú)立，需要將訓(xùn)練集分為若干子集【正確答案】：A解析：

Bagging方法在訓(xùn)練過(guò)程中，各基分類器之間無(wú)強(qiáng)依賴，可以進(jìn)行并行訓(xùn)練，隨機(jī)森林就是一種典型的例子。85.不屬于數(shù)據(jù)脫敏的要求的是（）。A、雙向性B、單向性C、無(wú)殘留D、易于實(shí)現(xiàn)【正確答案】：A解析：

數(shù)據(jù)脫敏操作不能停留在簡(jiǎn)單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個(gè)要求：?jiǎn)蜗蛐?、無(wú)殘留、易于實(shí)現(xiàn)。86.決策樹(shù)中，同一路徑上的所有屬性之間是（）關(guān)系。A、因果B、相關(guān)C、邏輯或D、邏輯與【正確答案】：D解析：

--87.相對(duì)于HadoopMapReduce1.0，Spark的特點(diǎn)不包括（）。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】：B解析：

相較于HadoopMapReduce，Spark的特點(diǎn)為速度快、通用性和易用性。88.關(guān)于模塊下列說(shuō)法不正確的是（）。A、Python模塊（Module），是一個(gè)Python文件，以.py結(jié)尾，包含了Python對(duì)象定義和Python語(yǔ)句。B、模塊讓你能夠有邏輯地組織你的Python代碼段。C、把相關(guān)的代碼分配到一個(gè)模塊里能讓你的代碼更好用，更易懂。D、模塊不能定義類【正確答案】：D解析：

模塊中可以定義類。89.Spark的集群管理模式不包含（）。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】：B解析：

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。90.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為（）。A、編輯器B、編譯器C、虛擬機(jī)D、解釋器【正確答案】：B解析：

將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。91.設(shè)置圖的標(biāo)題的命令是（）。A、plt.text（'標(biāo)題'）B、plt.legend（'標(biāo)題'）C、plt.xticks（'標(biāo)題'）D、plt.title（'標(biāo)題'）【正確答案】：D解析：

A選項(xiàng)是添加文字說(shuō)明命令,B選項(xiàng)是添加標(biāo)識(shí)命令，C選項(xiàng)是添加X(jué)軸坐標(biāo)軸標(biāo)識(shí)命令。92.SparkJob默認(rèn)的調(diào)度模式是（）。A、FIFOB、FAIRC、無(wú)D、運(yùn)行時(shí)指定【正確答案】：A解析：

默認(rèn)情況下Spark的調(diào)度模式是FIFO（先進(jìn)先出）。93.HBase的一個(gè)典型應(yīng)用是webtable，它是一個(gè)以網(wǎng)頁(yè)（）為主鍵的表。A、標(biāo)題B、URLC、內(nèi)容D、類別【正確答案】：B解析：

webtable中，以網(wǎng)頁(yè)URL為主鍵。94.（）的基本想法是適當(dāng)考慮一部分屬性間的相互依賴信息，從而既不需要進(jìn)行完全聯(lián)合概率計(jì)算，又不至于徹底忽略了比較強(qiáng)的屬性依賴關(guān)系。A、貝葉斯判定準(zhǔn)則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器【正確答案】：D解析：

--95.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的（）。A、基礎(chǔ)B、前提C、核心D、條件【正確答案】：C解析：

略。96.在神經(jīng)網(wǎng)絡(luò)中引入了非線性的是（）。A、隨機(jī)梯度下降B、修正線性單元（ReLU）C、卷積函數(shù)D、以上答案都不正確【正確答案】：B解析：

ReLU是目前最常用的激勵(lì)函數(shù)，增加了神經(jīng)網(wǎng)絡(luò)模型的非線性。97.scipy.stats.cdf函數(shù)的作用是（）。A、計(jì)算隨機(jī)變量的期望和方差B、隨機(jī)變量的生存函數(shù)C、隨機(jī)變量的累積分布函數(shù)D、隨機(jī)變量的概率密度函數(shù)【正確答案】：C解析：

cdf是隨機(jī)變量的累積分布函數(shù)，是概率密度函數(shù)的積分。98.已知一組數(shù)據(jù)的協(xié)方差矩陣,下面關(guān)于主分量說(shuō)法錯(cuò)誤的是（）。A、主分量分析的最佳準(zhǔn)則是對(duì)一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計(jì)算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對(duì)角矩陣C、主分量分析就是K-L變換D、主分量是通過(guò)求協(xié)方差矩陣的特征值得到【正確答案】：C解析：

K-L變換與PCA變換是不同的概念，PCA的變換矩陣是協(xié)方差矩陣，K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí)，等同于PCA。99.txt=open（filename）返回的是（）。A、變量B、常數(shù)C、文件內(nèi)容D、文件對(duì)象【正確答案】：D解析：

txt=open（filename）返回的是文件對(duì)象。100.np.floor（[-1.7,1.5,-0.2,0.6,10]）的輸出結(jié)果是（）。A、[-1,1,0,0,10]B、[-2.,1.,-1.,0.,10.]C、[-1.,1.,-1.,0.,10.]D、[-2.,1.,0.,0.,10.]【正確答案】：B解析：

floor函數(shù)定義取的是不超過(guò)這個(gè)數(shù)的最大整數(shù)。1.以下屬于圖像分割的算法的是（）。A、閾值分割方法（thresholdsegmentationmethod）B、區(qū)域增長(zhǎng)細(xì)分（regionalgrowthsegmentation）C、邊緣檢測(cè)分割方法（edgedetectionsegmentationmethod）D、基于聚類的分割（segmentationbasedonclustering）E、基于能量的分割【正確答案】：ABCDE解析：

--2.以下關(guān)于降維方法的敘述，正確的是（）。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學(xué)習(xí)是一種借鑒拓?fù)淞餍胃拍畹慕稻S方法D、度量學(xué)習(xí)繞過(guò)降維的過(guò)程，將學(xué)習(xí)目標(biāo)轉(zhuǎn)化為對(duì)距離度量計(jì)算的權(quán)重矩陣的學(xué)習(xí)【正確答案】：CD解析：

本質(zhì)上講，主成分分析是一種線性降維方法，在處理非線性問(wèn)題時(shí)，效果不太理想。核化線性降維是一種非線性降維方法。3.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征，表現(xiàn)在（）方面。A、數(shù)據(jù)驅(qū)動(dòng)B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】：ABC解析：

“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的“以數(shù)據(jù)中心”的特征不僅體現(xiàn)在“以數(shù)據(jù)為核心生產(chǎn)要素”，而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)密集和數(shù)據(jù)范式。4.圖像分割中常使用的領(lǐng)域有（）。A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】：BC解析：

圖像分割中常見(jiàn)的鄰域?yàn)?鄰域與8鄰域，即某像素的上下左右、某像素周圍的一圈像素。5.K均值聚類和層次聚類在一些方面有重大差異。以下說(shuō)法正確的是（）。A、在K均值聚類中，必須在運(yùn)行算法前選定想要的簇的個(gè)數(shù)B、在K均值聚類中，可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)C、在層次聚類中，可以在運(yùn)行算法后選定想要的簇的個(gè)數(shù)D、K均值聚類算法所需的計(jì)算量比層次聚類算法小得多【正確答案】：ACD解析：

在K均值聚類中，需要在運(yùn)行算法前確定想要的簇的個(gè)數(shù)K。6.循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式包含（）。A、多輸出B、單輸出C、同步多輸出D、異步多輸出【正確答案】：ABD解析：

循環(huán)神經(jīng)網(wǎng)絡(luò)是遞歸的，不可能同步多輸出。7.下列屬于描述gensim庫(kù)的特性的是（）。A、訓(xùn)練語(yǔ)料的預(yù)處理B、主題向量的變換C、文檔相似度的計(jì)算D、文章切分詞語(yǔ)統(tǒng)計(jì)計(jì)算【正確答案】：ABC解析：

gensim不用于分詞。8.下面是Python注釋語(yǔ)句的是（）。A、'hello'B、'''hello'''C、"hello"D、#【正確答案】：BD解析：

python語(yǔ)句單行注釋使用單個(gè)#號(hào)，多行注釋使用三個(gè)單引號(hào)。9.影響聚類算法效果的主要原因有（）。A、特征選取B、模式相似性測(cè)度C、分類準(zhǔn)則D、已知類別的樣本質(zhì)量【正確答案】：ABC解析：

聚類算法是無(wú)監(jiān)督的學(xué)習(xí)算法，訓(xùn)練樣本的標(biāo)記信息是未知的。10.Spark容錯(cuò)性的方式有哪些（）。A、數(shù)據(jù)檢查點(diǎn)B、存儲(chǔ)原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】：AC解析：

Spark容錯(cuò)性有數(shù)據(jù)檢查點(diǎn)和記錄數(shù)據(jù)的更新兩種方式。11.以下關(guān)于HBase說(shuō)法正確的是（）。A、面向列的數(shù)據(jù)庫(kù)B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫(xiě)D、采用松散數(shù)據(jù)模型【正確答案】：ABCD解析：

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開(kāi)源的數(shù)據(jù)庫(kù)；HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫(xiě)訪問(wèn)；從存儲(chǔ)模型看，HBase采用的是松散數(shù)據(jù)模型。12.語(yǔ)音識(shí)別的方法包括（）。A、聲道模型方法B、模板匹配的方法C、利用人工神經(jīng)網(wǎng)絡(luò)的方法D、語(yǔ)音知識(shí)方法【正確答案】：ABCD解析：

一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。13.在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是（）。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】：AB解析：

在網(wǎng)絡(luò)爬蟲(chóng)的爬行策略中,應(yīng)用最為常見(jiàn)的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。14.特征工程一般需要做哪些工作（）。A、正則化B、標(biāo)準(zhǔn)化C、特征處理D、特征選擇【正確答案】：CD解析：

特征工程包括特征選擇、特征處理、特征變換、特征衍生等。15.Python的優(yōu)點(diǎn)有（）。A、變量不用預(yù)定義類型B、數(shù)據(jù)結(jié)構(gòu)功能強(qiáng)大C、語(yǔ)言可解釋性強(qiáng)D、變量類型固定【正確答案】：ABC解析：

Python變量在使用前不必定義變量類型。16.下列關(guān)于EM算法描述正確的是（）。A、EM算法是常用的估計(jì)參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來(lái)學(xué)習(xí)高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】：ABCD解析：

--17.在假設(shè)檢驗(yàn)中，當(dāng)原假設(shè)為“偽”，但數(shù)據(jù)分析人員沒(méi)有拒絕它時(shí)犯的錯(cuò)誤叫（）。A、α錯(cuò)誤B、β錯(cuò)誤C、取偽錯(cuò)誤D、棄真錯(cuò)誤【正確答案】：BC解析：

α錯(cuò)誤（棄真錯(cuò)誤）：當(dāng)原假設(shè)為真時(shí)，但我們錯(cuò)誤地認(rèn)為“原假設(shè)是不成立的”，進(jìn)而導(dǎo)致拒絕這個(gè)正確假設(shè)；β錯(cuò)誤（取偽錯(cuò)誤）：當(dāng)原假設(shè)為假時(shí)，但我們錯(cuò)誤地認(rèn)為“原假設(shè)是成立的”，進(jìn)而導(dǎo)致接受此錯(cuò)誤假設(shè)18.下列方法中，可以用于特征降維的方法包括（）。A、主成分分析PCAB、線性判別分析LDAC、深度學(xué)習(xí)SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】：ABD解析：

--19.常見(jiàn)的原型聚類算法包括（）。A、K均值算法B、學(xué)習(xí)向量量化C、高斯混合聚類D、密度聚類【正確答案】：ABC解析：

--20.下列哪些是RDBMS中事務(wù)遵循的原則（）。A、原子性（Atomicity）B、一致性（Connsistency）C、隔離性（Isolation）D、持久性（Durability）【正確答案】：ABCD解析：

關(guān)系數(shù)據(jù)庫(kù)中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫(kù)事務(wù)正確執(zhí)行的4個(gè)基本要素的縮寫(xiě)：原子性（Atomicity）、一致性（Consistency）、隔離性（Isolation）、持久性（Durability）。21.情感分析的應(yīng)用場(chǎng)景有（）。A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場(chǎng)營(yíng)銷【正確答案】：ABD解析：

情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場(chǎng)營(yíng)銷等，而文本分詞屬于文本處理的應(yīng)用場(chǎng)景。22.類的特點(diǎn)有（）。A、封裝B、繼承C、多態(tài)D、重復(fù)【正確答案】：ABC解析：

類的特點(diǎn)：封裝、繼承、多態(tài)。23.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為（）和隨機(jī)型網(wǎng)絡(luò)等。A、前向型B、后向型C、反饋型D、自組織競(jìng)爭(zhēng)型【正確答案】：ACD解析：

--24.決策樹(shù)的劃分選擇有（）。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】：BCD解析：

--25.SparkRDD的依賴機(jī)制包括（）。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】：AD解析：

RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。26.ETL技術(shù)主要涉及（）操作。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】：ABC解析：

ETL技術(shù)主要涉及抽?。╡xtract）、轉(zhuǎn)換（transform）、加載（load）。27.Spark的技術(shù)架構(gòu)可以分為哪幾層（）。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】：ABD解析：

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。28.下列關(guān)于特征的稀疏性說(shuō)法，正確的是（）。A、稀疏性指的是矩陣中有許多列與當(dāng)前學(xué)習(xí)任務(wù)無(wú)關(guān)B、稀疏樣本可減少學(xué)習(xí)任務(wù)的計(jì)算開(kāi)銷C、學(xué)習(xí)任務(wù)難度可能有所降低D、稀疏矩陣沒(méi)有高效的存儲(chǔ)方法【正確答案】：ABC解析：

在一個(gè)矩陣中，若非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于零元素的個(gè)數(shù)，且非零元素的分布沒(méi)有規(guī)律，則稱之為稀疏矩陣。為了節(jié)省存儲(chǔ)空間并且加快并行程序處理速度，可對(duì)稀疏矩陣進(jìn)行壓縮存儲(chǔ)。29.以下關(guān)于數(shù)據(jù)維度的描述，正確的是（）。A、采用列表表示一維數(shù)據(jù)，不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復(fù)雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】：ABC解析：

字典可以表示二維以上的高維數(shù)據(jù)。30.可作為決策樹(shù)選擇劃分屬性的參數(shù)是（）。A、信息增益B、增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】：ABC解析：

特征選擇的準(zhǔn)則主要有信息增益，信息增益率，基尼指數(shù)三種。31.（）是Spark比MapReduce計(jì)算快的原因。A、基于內(nèi)存的計(jì)算B、基于DAG的調(diào)度框架C、基于Lineage的容錯(cuò)機(jī)制D、基于分布式計(jì)算的框架【正確答案】：ABC解析：

Spark比MapReduce計(jì)算快的原因包括基于內(nèi)存計(jì)算、使用基于Lineage的容錯(cuò)機(jī)制和基于DAG的調(diào)度框架。32.下面關(guān)于單樣本t檢驗(yàn)的說(shuō)法，錯(cuò)誤的是（）。A、當(dāng)單樣本t檢驗(yàn)的自由度越來(lái)越大時(shí)，正態(tài)分布越來(lái)越趨向于t分布B、單樣本t檢驗(yàn)適用于樣本量比較多（n>30）的情況C、t分布的不確定性比正態(tài)分布小，其原因是樣本數(shù)量比較小D、單樣本t檢驗(yàn)通常也被叫作學(xué)生t檢驗(yàn)【正確答案】：ABC解析：

t檢驗(yàn)，亦稱studentt檢驗(yàn)（Student'sttest），主要用于樣本含量較?。ɡ鏽＜30），總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。t檢驗(yàn)是用t分布理論來(lái)推論差異發(fā)生的概率，從而比較兩個(gè)平均數(shù)的差異是否顯著。33.Pig說(shuō)法正確的是（）。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過(guò)程C、PigLatin是一種數(shù)據(jù)分析語(yǔ)言D、適用于并行處理【正確答案】：ABCD解析：

Pig建立在MapReduce之上，主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性；Pig較好地封裝了MapReduce的處理過(guò)程；PigLatin是數(shù)據(jù)分析的描述語(yǔ)言；Pig程序的結(jié)構(gòu)適合于并行處理。34.下列有關(guān)MapReduce計(jì)算框架的描述正確的是（）。A、MapReduce可以計(jì)算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲(chǔ)和劃分C、MapReduce可以實(shí)現(xiàn)處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測(cè)和失效恢復(fù)D、MapReduce可實(shí)現(xiàn)處理數(shù)據(jù)與計(jì)算任務(wù)的同步【正確答案】：ABCD解析：

根據(jù)MapReduce定義可得，A、B、C、D都可以實(shí)現(xiàn)。35.以下說(shuō)法正確的是（）。A、負(fù)梯度方向是使函數(shù)值下降最快的方向B、當(dāng)目標(biāo)函數(shù)是凸函數(shù)時(shí)，梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計(jì)算Hesse矩陣【正確答案】：ABD解析：

牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。36.下面關(guān)于reduce函數(shù)功能描述正確的是（）。A、合并value值，形成較小集合B、采用迭代器將中間值提供給reduce函數(shù)C、map）函數(shù)處理后結(jié)果才會(huì)傳輸給reduce）D、內(nèi)存中不會(huì)存儲(chǔ)大量的value值【正確答案】：ABCD解析：

略。37.數(shù)據(jù)科學(xué)基本原則中，三世界原則指的是（）A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】：ABC解析：

大數(shù)據(jù)時(shí)代的到來(lái)，在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此，在數(shù)據(jù)科學(xué)中，通常需要研究如何運(yùn)用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問(wèn)題，而不是直接到“物理世界”，采用問(wèn)卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對(duì)于“采訪數(shù)據(jù)”，“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎(jiǎng)獲得者JimGray提出的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)（Data-intensiveScientificDiscovery）是“三世界原則”的代表性理論之一。38.在Hive架構(gòu)中支持對(duì)數(shù)據(jù)的操作有（）。A、插入B、查詢C、刪除D、分析【正確答案】：BD解析：

Hive提供簡(jiǎn)單的HiveQL查詢功能，可以較好地滿足基于數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析需要。39.下列關(guān)于情感分析的說(shuō)法正確的是（）。A、簡(jiǎn)單而言,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程B、情感分析的發(fā)展得益于社交媒體的興起C、按照處理文本的粒度不同,情感分析大致可分為詞語(yǔ)級(jí)、句子級(jí)、篇章級(jí)三個(gè)D、情感分析可以應(yīng)用于文本挖掘【正確答案】：ABCD解析：

情感分析的定義即對(duì)帶有感情色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程，它得益于社交媒體的興起，從而能收集大量信息進(jìn)行分析。其分析力度包括詞語(yǔ)級(jí)、句子級(jí)和篇章級(jí)。情感分析可用于文本挖掘。40.以下屬于頻率域圖像濾波的方法有（）。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】：CD解析：

頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。41.以下圖像技術(shù)中屬于圖像處理技術(shù)的是（）。A、圖像編碼B、圖像合成C、圖像增強(qiáng)D、圖像分類【正確答案】：AC解析：

圖像合成輸入是數(shù)據(jù)，圖像分類輸出是類別數(shù)據(jù)。42.以下屬于關(guān)鍵詞提取算法的有（）。A、TF-IDF算法B、TextRank算法C、LSA（潛在語(yǔ)義分析）D、LDA【正確答案】：ABCD解析：

關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA（潛在語(yǔ)義分析）orLSI（潛在語(yǔ)義索引）、LDA等。43.Spark的部署模式包括（）。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】：ABCD解析：

Spark支持上述四種運(yùn)行模式，在實(shí)驗(yàn)中為了充分利用資源，一般配置Standalone模式運(yùn)行。44.Python邏輯表達(dá)式中，（）會(huì)導(dǎo)致邏輯短路，即不會(huì)繼續(xù)向下推算而直接返回結(jié)果。A、False開(kāi)頭的and語(yǔ)句B、False開(kāi)頭的or語(yǔ)句C、True開(kāi)頭的and語(yǔ)句D、True開(kāi)頭的or語(yǔ)句【正確答案】：AD解析：

兩種情況：False開(kāi)頭的and語(yǔ)句，True開(kāi)頭的or語(yǔ)句。45.下面導(dǎo)入模塊正確的是（）。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正確答案】：ABCD解析：

本題考查模塊導(dǎo)入方法。46.數(shù)據(jù)挖掘的挖掘方法包括（）。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹(shù)算法【正確答案】：ABCD解析：

利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等.47.下面選項(xiàng)是python標(biāo)準(zhǔn)庫(kù)的是（）。A、osB、sysC、numpyD、re【正確答案】：ABD解析：

numpy屬于第三方庫(kù)。48.以下屬于規(guī)則的分詞方法的是（）。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機(jī)場(chǎng)【正確答案】：ABC解析：

條件隨機(jī)場(chǎng)是一種鑒別式機(jī)率模型，常用于標(biāo)注或分析序列資料。49.數(shù)據(jù)科學(xué)項(xiàng)目主要涉及的活動(dòng)包括（）。A、模式/模型的應(yīng)用及維護(hù)B、模式/模型的洞見(jiàn)C、結(jié)果的可視化與文檔化D、模式/模型的驗(yàn)證和優(yōu)化【正確答案】：ABCD解析：

數(shù)據(jù)科學(xué)項(xiàng)目是由從“項(xiàng)目目標(biāo)的定義”到“模式/模型的應(yīng)用及維護(hù)”的一系列雙向互聯(lián)的互動(dòng)鏈條組成的循序漸進(jìn)的過(guò)程，主要涉及的活動(dòng)包括項(xiàng)目目標(biāo)的定義、數(shù)據(jù)的獲得與管理、模式/模型的洞見(jiàn)、模式/模型的驗(yàn)證和優(yōu)化、模式/模型的應(yīng)用及維護(hù)和結(jié)果的可視化與文檔化。50.統(tǒng)計(jì)模式分類問(wèn)題中，當(dāng)先驗(yàn)概率未知時(shí)，可以使用（）。A、最小最大損失準(zhǔn)則B、最小誤判概率準(zhǔn)則C、最小損失準(zhǔn)則D、N-P判決【正確答案】：AD解析：

--51.圖像數(shù)字化應(yīng)該包括哪些過(guò)程（）。A、采樣B、模糊C、量化D、統(tǒng)計(jì)【正確答案】：AC解析：

自然界的圖像轉(zhuǎn)化為數(shù)字圖像首先包括連續(xù)空間到離散空間的采樣，其次是色彩域的數(shù)值化處理。52.以下選項(xiàng)中，不是Python語(yǔ)言保留字的是（）。A、doB、passC、exceptD、until【正確答案】：AD解析：

詳見(jiàn)Python關(guān)鍵字列表。53.我們想要減少數(shù)據(jù)集中的特征數(shù)即降維，以下方案合適的是（）。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用，去訓(xùn)練一個(gè)模型，得到測(cè)試集上的表現(xiàn)。然后我們?nèi)サ粢粋€(gè)特征，再去訓(xùn)練，用交叉驗(yàn)證看看測(cè)試集上的表現(xiàn)。如果表現(xiàn)比原來(lái)還要好，我們可以去除這個(gè)特征D、查看相關(guān)性表，去除相關(guān)性最高的一些特征【正確答案】：ABCD解析：

前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用，可以用這里C中方法。用相關(guān)性的度量去刪除多余特征也是一個(gè)可行的方法。54.神經(jīng)網(wǎng)絡(luò)模型（NeuralNetwork）因受人類大腦的啟發(fā)而得名。神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元（Neuron）組成，每個(gè)神經(jīng)元接受一個(gè)輸入，對(duì)輸入進(jìn)行處理后給出一個(gè)輸出。下列關(guān)于神經(jīng)元的描述中，正確的是（）。A、每個(gè)神經(jīng)元有一個(gè)輸入和一個(gè)輸出B、每個(gè)神經(jīng)元有多個(gè)輸入和一個(gè)輸出C、每個(gè)神經(jīng)元有一個(gè)輸入和多個(gè)輸出D、每個(gè)神經(jīng)元有多個(gè)輸入和多個(gè)輸出【正確答案】：ABCD解析：

每個(gè)神經(jīng)元可以有一個(gè)或多個(gè)輸入，和一個(gè)或多個(gè)輸出。55.我們想要訓(xùn)練一個(gè)ML模型，樣本數(shù)量有100萬(wàn)個(gè)，特征維度是5000，面對(duì)如此大數(shù)據(jù)，有效地訓(xùn)練模型可以采取的措施是（）A、對(duì)訓(xùn)練集隨機(jī)采樣，在隨機(jī)采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機(jī)器學(xué)習(xí)算法C、使用PCA算法減少特征維度D、-【正確答案】：ABC解析：

大數(shù)據(jù)可以采用對(duì)訓(xùn)練集隨機(jī)采樣，在隨機(jī)采樣的數(shù)據(jù)上建立模型，嘗試使用在線機(jī)器學(xué)習(xí)算法，使用PCA算法減少特征維度。56.DGI定義的數(shù)據(jù)治理任務(wù)包括（）。A、數(shù)據(jù)質(zhì)量的評(píng)估B、主動(dòng)定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D、應(yīng)對(duì)并解決因不遵守規(guī)則而產(chǎn)生的問(wèn)題【正確答案】：BCD解析：

DGI（TheDataGovermanceInstitute）認(rèn)為數(shù)據(jù)治理是對(duì)數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動(dòng)。它是一個(gè)信息處理過(guò)程中根據(jù)模型來(lái)執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng)，規(guī)定了誰(shuí)可以在什么情況下對(duì)哪些信息做怎樣的處理。57.以下描述中正確的是（）。A、統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一B、Python語(yǔ)言是統(tǒng)計(jì)學(xué)家發(fā)明的語(yǔ)言C、機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的理論基礎(chǔ)之一D、數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)分支領(lǐng)域（子學(xué)科）【正確答案】：AC解析：

Python發(fā)明者是GuidoVanRossum，并非為統(tǒng)計(jì)學(xué)家；數(shù)據(jù)科學(xué)是一門獨(dú)立學(xué)科，已經(jīng)超出了統(tǒng)計(jì)學(xué)一個(gè)學(xué)科的研究范疇，并非為統(tǒng)計(jì)學(xué)的一個(gè)分支。58.下列屬于CNN關(guān)鍵層的是（）。A、輸入層B、卷積層C、激活層D、池化層【正確答案】：ABCD解析：

CNN關(guān)鍵層有：①輸入層，對(duì)數(shù)據(jù)去均值，做dataaugmentation等工作；②卷積層，局部關(guān)聯(lián)抽取feature；③激活層，非線性變化；④池化層，下采樣；⑤全連接層，增加模型非線性；⑥高速通道，快速連接；⑦BN層，緩解梯度彌散。59.在正則化公式中，λ為正則化參數(shù)，關(guān)于λ的描述正確的是（）。A、若正則化參數(shù)λ過(guò)大，可能會(huì)導(dǎo)致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大，則梯度下降可能不收斂C、取一個(gè)合理的λ值，可以更好地應(yīng)用正則化D、如果令λ的值很大的話，為了使CostFunction盡可能的小，所有θ的值（不包括θ0）都會(huì)在一定程度上減小【正確答案】：ABCD解析：

正則化參數(shù)太小容易產(chǎn)生過(guò)擬合，太大容易產(chǎn)生欠擬合。60.Pandas中刪除列的方式是（）。A、df.drop（["列名"],axis=1）B、df.drop（columns=["列名"]）C、df.drop（[0,1]）D、df.drop（[0]）【正確答案】：AB解析：

--61.HighBias（高偏差）的解決方案有（）。A、BoostingB、復(fù)雜模型（非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層）C、更多特征D、-【正確答案】：ABC解析：

偏差刻畫(huà)了學(xué)習(xí)算法本身的擬合能力，高偏差意味著欠擬合，可通過(guò)Boosting、復(fù)雜模型（非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層）、更多特征等方式解決。62.常用的沖突消解策略包括（）。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】：ABC解析：

--63.在詞袋模型中使用單個(gè)的單詞來(lái)構(gòu)建詞向量這樣的序列被稱為（）。A、1元組（1-gram）B、單元組（unigram）模型C、列表D、字典【正確答案】：AB解析：

列表和字典一般包含多個(gè)單詞64.隨機(jī)森林在做數(shù)據(jù)處理方面的優(yōu)勢(shì)是（）。A、不需要做缺失值處理B、不需要處理噪音C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】：ACD解析：

理論上隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合現(xiàn)象，但噪聲是不能忽略的，增加樹(shù)雖然能夠減小過(guò)擬合，但樹(shù)的數(shù)目不可能無(wú)限增加，沒(méi)有辦法完全消除過(guò)擬合。65.列式數(shù)據(jù)庫(kù)（如BigTable和HBase）以表的形式存儲(chǔ)數(shù)據(jù)，表結(jié)構(gòu)包括（）等元素。A、關(guān)鍵字B、時(shí)間戳C、列簇D、數(shù)據(jù)類型【正確答案】：ABC解析：

BigTable和HBase的索引由行關(guān)鍵字、列簇和時(shí)間戳組成。66.下列場(chǎng)景適合使用Python的是（）。A、可作為腳本語(yǔ)言，快速編寫(xiě)小型程序、腳本等B、可應(yīng)用在數(shù)據(jù)科學(xué)、交互式計(jì)算及可視化領(lǐng)域C、可作為膠水語(yǔ)言，整合如C++等語(yǔ)言代碼D、Python適用于低延時(shí)、高利用率的應(yīng)用場(chǎng)景【正確答案】：ABC解析：

Python作為腳本語(yǔ)言，以解釋方式逐條執(zhí)行語(yǔ)句，相比C++等語(yǔ)言運(yùn)行速度較慢，不適用于低延時(shí)場(chǎng)景。67.下列關(guān)于PCA的說(shuō)法，正確的是（）。A、在使用PCA之前，我們必須標(biāo)準(zhǔn)化數(shù)據(jù)B、應(yīng)該選擇具有最大方差的主成分C、應(yīng)該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】：ABD解析：

PCA對(duì)數(shù)據(jù)中變量的尺度非常敏感，因此需要對(duì)各個(gè)變量進(jìn)行標(biāo)準(zhǔn)化。方差越大，說(shuō)明在該特征上分布越廣泛，說(shuō)明該特征越有用，影響越大。PCA有時(shí)在較低維度上繪制數(shù)據(jù)是非常有用，可以提取前2個(gè)主要組成部分，在二維平面上使用散點(diǎn)圖可視化數(shù)據(jù)。68.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法，正確的是（）。A、在Python中，單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp（）實(shí)現(xiàn)B、單樣本Z檢驗(yàn)適用于樣本量較大的情況C、單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量（近似）滿足正態(tài)分布D、單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量【正確答案】：BCD解析：

在Python中，單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。69.在Spark中，彈性分布式數(shù)據(jù)集的特點(diǎn)包括（）。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】：ABD解析：

RDD不可修改。70.在選擇高斯函數(shù)作為核函數(shù)的支持向量機(jī)中，參數(shù)的選取會(huì)影響擬合的結(jié)果，如果出現(xiàn)過(guò)擬合的現(xiàn)象，則導(dǎo)致該結(jié)果的原因有可能是（）。A、其他參數(shù)保持不變，C值過(guò)大B、其他參數(shù)保持不變，C值較小C、其他參數(shù)保持不變，σ較大D、其他參數(shù)保持不變，σ較小【正確答案】：AD解析：

SVM模型中，C值是懲罰系數(shù)，即對(duì)誤判的寬容度，若C值越高，說(shuō)明越不能容忍出現(xiàn)誤差，容易擬合；σ是高斯函數(shù)自帶的一個(gè)參數(shù)，若σ無(wú)窮小，理論上，高斯核的SVM可以擬合任何非線性數(shù)據(jù)，但容易過(guò)擬合。71.NoSQL數(shù)據(jù)庫(kù)常用的數(shù)據(jù)模型包括（）。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲(chǔ)【正確答案】：ABCD解析：

NoSQL數(shù)據(jù)庫(kù)常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、圖存儲(chǔ)。72.字符串的格式化可以使用（）。A、%B、formatC、inputD、+【正確答案】：AB解析：

input是輸入，+是加法運(yùn)算符。73.常用的數(shù)據(jù)審計(jì)方法可以分為（）。A、預(yù)定義審計(jì)B、自定義審計(jì)C、可視化審計(jì)D、結(jié)構(gòu)化審計(jì)【正確答案】：ABC解析：

常用的數(shù)據(jù)審計(jì)方法有預(yù)定義審計(jì)、自定義審計(jì)和可視化審計(jì)三種。74.針對(duì)維數(shù)災(zāi)難，我們主要采用的降維方法有（）。A、多維縮放B、主成分分析C、核化線性降維D、流形學(xué)習(xí)E、度量學(xué)習(xí)【正確答案】：ABCDE解析：

--75.LSTM應(yīng)用場(chǎng)景有（）。A、翻譯語(yǔ)言B、語(yǔ)音識(shí)別C、圖像識(shí)別D、股票預(yù)測(cè)【正確答案】：ABD解析：

CNN應(yīng)用于圖像識(shí)別，因此C錯(cuò)誤。76.下列對(duì)字符串函數(shù)或方法說(shuō)法正確的有（）。A、istitle）如果字符串是標(biāo)題化的（見(jiàn)title）則返回True，否則返回FalseB、max（str）返回字符串str中最大的字母。C、replace（old,new,max）把將字符串中的str1替換成str2,如果max指定，則替換不超過(guò)max次D、upper）轉(zhuǎn)換字符串中所有大寫(xiě)字符為小寫(xiě)【正確答案】：ABC解析：

upper）轉(zhuǎn)換字符串中所有小寫(xiě)字符為大寫(xiě)。77.Python變量命名規(guī)則包含（）。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開(kāi)頭，但不能以數(shù)字開(kāi)頭，。例如，可將變量命名為message_1，但不能將其命名為1_message。B、變量名不能包含空格，但可使用下劃線來(lái)分隔其中的單詞。例如，變量名greeting_message可行，但變量名greetingmessage會(huì)引發(fā)錯(cuò)誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名，即不要使用Python保留用于特殊用途的單詞，如print。D、變量名應(yīng)既簡(jiǎn)短又具有描述性。例如，name比n好，student_name比s_n好，name_length比length_of_persons_name好?！菊_答案】：ABCD解析：

Python變量名只能包含字母、數(shù)字和下劃線，但不能以數(shù)字開(kāi)頭，避免使用關(guān)鍵字，變量名應(yīng)既簡(jiǎn)短又具有描述性。78.以下選項(xiàng)中是正確的字符串有（）。A、‘a(chǎn)bc”ab”B、‘a(chǎn)bc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】：BD解析：

需要兩端引號(hào)符號(hào)相同。79.以下關(guān)于MapReduce1.0版本說(shuō)法正確的是（）。A、擴(kuò)展性差B、可靠性差C、資源利用率低D、無(wú)法支持多種計(jì)算框架【正確答案】：ABCD解析：

MapReduce1.0存在的局限性包括擴(kuò)展性差、可靠性差、資源利用率低、無(wú)法支持多種計(jì)算框架。80.常用的代價(jià)函數(shù)有（）。A、均方誤差B、均方根誤差C、平均絕對(duì)誤差D、交叉熵【正確答案】：ABCD解析：

--81.對(duì)于決策樹(shù)的優(yōu)點(diǎn)描述，正確的是（）。A、可讀性強(qiáng)B、分類速度快C、只用于回歸問(wèn)題D、是無(wú)監(jiān)督學(xué)習(xí)【正確答案】：AB解析：

決策樹(shù)也可用于回歸，屬于有監(jiān)督的機(jī)器學(xué)習(xí)算法。82.下列關(guān)于AUC面積的描述，正確的是（）。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時(shí)，則真實(shí)性最低，無(wú)應(yīng)用價(jià)值D、AUC越接近1.0，檢測(cè)方法真實(shí)性越高【正確答案】：ACD解析：

AUC面積的值小于等于1。83.假設(shè)目標(biāo)遍歷的類別非常不平衡，即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的99%，現(xiàn)在你的模型在訓(xùn)練集上表現(xiàn)為99%的準(zhǔn)確度，那么下面說(shuō)法正確的是（）。A、準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題B、準(zhǔn)確度適合衡量不平衡類別問(wèn)題C、精確度和召回率適合于衡量不平衡類別問(wèn)題D、精確度和召回率不適合衡量不平衡類別問(wèn)題【正確答案】：AC解析：

精確度和召回率適合于衡量不平衡類別問(wèn)題，準(zhǔn)確度并不適合衡量不平衡類別問(wèn)題。84.關(guān)于CAP理論說(shuō)法正確的是（）。A、一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性、可用性和分區(qū)容錯(cuò)性等需求B、一致性主要指強(qiáng)一致性C、一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證（爭(zhēng)取）可能導(dǎo)致另一個(gè)特征的損失（放棄）D、可用性指每個(gè)操作總是在“給定時(shí)間”之內(nèi)得到返回“所需要的結(jié)果”【正確答案】：ABCD解析：

CAP理論認(rèn)為，一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性（Consistency）、可用性（Availability）和分區(qū)容錯(cuò)性（PartitionTolerance）等需求，而最多只能同時(shí)滿足其中的兩個(gè)特征。CAP理論告訴我們，數(shù)據(jù)管理不一定是理想的——一致性、可用性和分區(qū)容錯(cuò)性中的任何兩個(gè)特征的保證（爭(zhēng)取）可能導(dǎo)致另一個(gè)特征的損失（放棄）。85.下列不屬于聚類性能度量?jī)?nèi)部指標(biāo)的是（）。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】：CD解析：

聚類常用的外部指標(biāo)包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù)；聚類常用的內(nèi)部指標(biāo)包括DB指數(shù)、Dunn指數(shù)。86.下列模型屬于機(jī)器學(xué)習(xí)生成式模型的是（）。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】：ABD解析：

機(jī)器學(xué)習(xí)生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。87.Python中jieba庫(kù)的基本實(shí)現(xiàn)原理是什么（）。A、分析漢字與漢字之間的關(guān)聯(lián)幾率概率B、分析漢字詞組的關(guān)聯(lián)幾率概率C、根據(jù)用戶自定義的詞組進(jìn)行分析D、還可以分析漢字與英文之間關(guān)聯(lián)幾率概率【正確答案】：ABC解析：

D選項(xiàng)，jieba用于中文分詞，無(wú)法分析漢字與英文之間的關(guān)聯(lián)幾率概率。88.以下算法中可以應(yīng)用于圖像分割的是（）。A、邊緣檢測(cè)技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長(zhǎng)方法【正確答案】：ABCD解析：

邊緣檢測(cè)技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長(zhǎng)方法均是圖像分割技術(shù)。89.訓(xùn)練CNN時(shí)，GPU顯存溢出，此時(shí)可以采取的辦法有（）。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】：ABC解析：

增加激活函數(shù)反而會(huì)加重負(fù)擔(dān)，D選項(xiàng)錯(cuò)誤。90.隨機(jī)森林的隨機(jī)性主要體現(xiàn)在（）。A、決策樹(shù)選擇的隨機(jī)性B、數(shù)據(jù)集的隨機(jī)性C、待選特征的隨機(jī)性D、參數(shù)選擇的隨機(jī)性【正確答案】：BC解析：

隨機(jī)森林算法的隨機(jī)性主要體現(xiàn)在兩個(gè)方面：子模型的訓(xùn)練樣本是隨機(jī)抽取的、子模型的特征變量也是隨機(jī)抽取的。91.下列關(guān)于深度學(xué)習(xí)的實(shí)質(zhì)及其與淺層學(xué)習(xí)的說(shuō)法，正確的是（）。A、深度學(xué)習(xí)強(qiáng)調(diào)模型深度B、深度學(xué)習(xí)突出特征學(xué)習(xí)的重要性：特征變換+非人工C、沒(méi)有區(qū)別D、以上答案都不正確【正確答案】：AB解析：

深度模型是手段，特征學(xué)習(xí)是目的。92.使用極大似然估計(jì)的前提條件有（）。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分?jǐn)?shù)據(jù)集C、提前已知某先驗(yàn)概率D、數(shù)據(jù)集各個(gè)屬性相對(duì)獨(dú)立【正確答案】：AB解析：

極大似然估計(jì)要求樣本獨(dú)立同分布，否則無(wú)法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實(shí)的分布要一致，否則會(huì)南轅北轍。如果對(duì)總體分布一無(wú)所知是無(wú)法使用MLE的。93.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中，正確的是（）。A、可用于處理時(shí)間序列數(shù)據(jù)B、可用于處理圖像數(shù)據(jù)C、卷積網(wǎng)絡(luò)中使用的卷積運(yùn)算就是數(shù)學(xué)中的卷積計(jì)算D、至少在網(wǎng)絡(luò)的一層中使用卷積【正確答案】：ABD解析：

--94.以下屬于數(shù)據(jù)挖掘與分析工具的有（）。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】：ABCD解析：

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R＆Python語(yǔ)言、FineReport、PowerBI。95.Python函數(shù)包括下述哪些內(nèi)容（）。A、函數(shù)名稱B、參數(shù)C、執(zhí)行語(yǔ)句D、返回值【正確答案】：ABCD解析：

Python函數(shù)包括下述哪些內(nèi)容函數(shù)名稱、參數(shù)、執(zhí)行語(yǔ)句、返回值。96.許多功能更為強(qiáng)大的非線性模型可在線性模型基礎(chǔ)上通過(guò)引入（）而得。A、層級(jí)結(jié)構(gòu)B、高維映射C、降維D、分類【正確答案】：AB解析：

--97.關(guān)于Python分隔代碼塊，描述錯(cuò)誤的是（）。A、內(nèi)嵌代碼的每一行，都比外面的if語(yǔ)句的縮進(jìn)更多B、代碼以“begin”開(kāi)頭，“end”結(jié)尾C、每行代碼的縮進(jìn)都一致D、代碼塊被封裝在花括號(hào)中【正確答案】：BCD解析：

python代碼沒(méi)有開(kāi)頭與結(jié)尾標(biāo)識(shí)；不同級(jí)別的語(yǔ)句縮進(jìn)不同；python代碼用縮進(jìn)區(qū)分代碼塊，不用{}。98.屬于特征選擇的優(yōu)點(diǎn)有（）。A、解決模型自身的缺陷B、減少過(guò)擬合C、提升模型的性能D、增強(qiáng)模型的泛化能力【正確答案】：BCD解析：

特征選擇無(wú)法克服模型自身的缺陷，二者是獨(dú)立的。99.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過(guò)程涉及四個(gè)獨(dú)立的實(shí)體，包括（）。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】：ABCD解析：

可以將MapReduce的工作流程概括為4個(gè)獨(dú)立的實(shí)體。4個(gè)實(shí)體分別為：①客戶端，用來(lái)提交MapReduce的作業(yè)。編寫(xiě)MapReduce程序，配置作業(yè)，提交作業(yè)，即需程序員完成的工作。②JobTracker，用來(lái)協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信，協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行。③TaskTracker，用來(lái)處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信，在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù)，TaskTracker和JobTracker的不同有個(gè)很重要方面，就是在執(zhí)行任務(wù)的時(shí)候TaskTracker可以有n個(gè)，JobTracker則只會(huì)有一個(gè)。④HDFS，用來(lái)在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等，最后的結(jié)果也是保存在HDFS上面。100.下列說(shuō)法中正確的是（）。A、云計(jì)算的主要特點(diǎn)是非常昂貴B、大數(shù)據(jù)是多源

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘競(jìng)賽復(fù)習(xí)試題有答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔