版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第頁數(shù)據(jù)挖掘競賽復習試題有答案1.RDD中的數(shù)據(jù)被()在集群中,使得任務(wù)可以并行執(zhí)行。A、順序存儲B、連續(xù)存儲C、分塊存儲D、分區(qū)存儲【正確答案】:D解析:
RDD為分區(qū)存儲。2.()的主要目標是提供可擴展的機器學習算法及其實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:
Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實現(xiàn),如聚類、分類、推薦過濾、頻繁子項挖掘等。3.支持向量回歸與傳統(tǒng)回歸模型的差別是()。A、模型輸出與真實值相同B、模型輸出與真實值存在ε偏差C、模型輸出大于真實值D、模型輸出小于真實值【正確答案】:B解析:
以線性回歸為例,通過模型輸出的f(x)與真實輸出的y之間的差別來計算損失。而SVR假設(shè)模型輸出f(x)與真實的y之間可以容忍有eps大小的偏差,也就意味只要樣本的預測值落在f(x)兩側(cè)在y軸方向上絕對值之差小于eps的間隔帶就是預測正確的。4.增加卷積核的大小對于改進卷積神經(jīng)網(wǎng)絡(luò)的效果是必要的嗎()A、是的,增加卷積核尺寸一定能提高性能B、不是,增加核函數(shù)的大小不一定會提高性能C、-D、-【正確答案】:B解析:
增加核函數(shù)的大小不一定會提高性能。這個問題在很大程度上取決于數(shù)據(jù)集。5.下列選項中,用于觸發(fā)異常的是()。A、tryB、catchC、raiseD、except【正確答案】:C解析:
--6.數(shù)據(jù)科學是一門以()為主要研究任務(wù)的獨立學科。A、“數(shù)據(jù)驅(qū)動”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”B、數(shù)據(jù)研發(fā)C、數(shù)據(jù)處理D、數(shù)據(jù)洞見【正確答案】:A解析:
數(shù)據(jù)科學是一門以實現(xiàn)“從數(shù)據(jù)到信息”“從數(shù)據(jù)到知識”和(或)“從數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的的,以“數(shù)據(jù)驅(qū)動”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)的獨立學科。7.以下敘述正確的是()。A、continue語句的作用是結(jié)束整個循環(huán)的執(zhí)行B、只能在循環(huán)體內(nèi)使用break語句C、在循環(huán)體內(nèi)使用break語句或continue語句的作用相同D、從多層循環(huán)嵌套中退出時,只能使用goto語句【正確答案】:B解析:
continue語句可以跳過循環(huán)的當前一步,故AC錯;python沒有g(shù)oto語句。8.矩陣相減使用以下哪種的函數(shù)是()。A、np.add)B、np.subtract)C、np.multiply)D、np.divide)【正確答案】:B解析:
ABCD選項分別對應(yīng)矩陣計算的加減乘除法。9.以下描述中錯誤的是()。A、數(shù)據(jù)化與數(shù)字化是兩個不同概念B、數(shù)據(jù)與數(shù)值是一個概念C、大數(shù)據(jù)與海量數(shù)據(jù)是兩個不同的概念D、數(shù)據(jù)和信息是兩個不同的概念【正確答案】:B解析:
除了“數(shù)值”,數(shù)據(jù)科學中的“數(shù)據(jù)”還包括文字、圖形、圖像、動畫、文本、語音、視頻、多媒體和富媒體等多種類型10.在Apriori算法中,候選項集劃分為不同的桶,存放在()中。A、字典B、集合C、Hash樹D、列表【正確答案】:C解析:
--11.對于PCA(主成分分析)轉(zhuǎn)化過的特征,樸素貝葉斯的不依賴假設(shè)總是成立,因為所有主要成分是正交的,這個說法是()。A、正確的B、錯誤的C、-D、-【正確答案】:B解析:
說法錯誤。首先,不依賴和不相關(guān)是兩回事;其次,轉(zhuǎn)化過的特征也可能是相關(guān)的。12.卷積神經(jīng)網(wǎng)絡(luò)能通過卷積以及池化等操作將不同種類的鳥歸為一類。關(guān)于卷積神經(jīng)網(wǎng)絡(luò)能達到該效果的原因,下列說法不正確的是()。A、同樣模式的內(nèi)容(如鳥嘴)在圖像不同位置可能出現(xiàn)B、池化之后的圖像主體內(nèi)容基本不變C、不同種類鳥的相同部位(如鳥嘴)形狀相似D、池化作用能使不同種類鳥變得相似【正確答案】:D解析:
特征維數(shù)的減少并不會讓之前的特征丟失。13.下列關(guān)于神經(jīng)網(wǎng)絡(luò)的說法中:①增加神經(jīng)網(wǎng)絡(luò)層數(shù),可能會增加測試數(shù)據(jù)集的分類錯誤率;②減少神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小測試數(shù)據(jù)集的分類錯誤率;③增加神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小訓練數(shù)據(jù)集的分類錯誤率,正確的是()。A、①B、①③C、①②D、②【正確答案】:A解析:
深度神經(jīng)網(wǎng)絡(luò)的成功已經(jīng)證明,增加神經(jīng)網(wǎng)絡(luò)層數(shù),可以增加模型范化能力,即訓練數(shù)據(jù)集和測試數(shù)據(jù)集都表現(xiàn)得更好。但更多的層數(shù)也不一定能保證有更好的表。所以,不能絕對地說層數(shù)多的好壞,只能選A。14.考慮值集{12243324556826},其四分位數(shù)極差是:()。A、21B、24C、55D、3【正確答案】:A解析:
四分位差,也稱為內(nèi)距或四分間距,它是上四分位數(shù)(QU,即位于75%)與下四分位數(shù)(QL,即位于25%)的差。計算公式為:QD=QU-QL。將數(shù)據(jù)從小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2115.能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質(zhì)量的是()。A、圖像平滑B、圖像分類C、圖像識別D、圖像分割【正確答案】:A解析:
圖像平滑是指用于突出圖像的寬大區(qū)域、低頻成分、主干部分或抑制圖像噪聲和干擾高頻成分的圖像處理方法,目的是使圖像亮度平緩漸變,減小突變梯度,改善圖像質(zhì)量。16.以下哪個模塊()不是Scipy庫中的()模塊。A、clusterB、randomC、signalD、misc【正確答案】:B解析:
cluster、signal、misc都是Scipy庫中的模塊,random是Numpy中的模塊,Python本身也帶有random庫。17.HTML的表格中,如果需要定義表格的單元格內(nèi)文字和邊緣的空間,需要通過哪個屬性()來實現(xiàn)()。A、cellspacing屬性B、colspan屬性C、cellpadding屬性D、rowspan屬性【正確答案】:C解析:
cellspacing屬性用來指定表格各單元格之間的空隙;colspan屬性規(guī)定單元格可橫跨的列數(shù);cellpadding屬性用來指定單元格內(nèi)容與單元格邊界之間的空白距離的大小;rowspan屬性規(guī)定單元格可橫跨的行數(shù)。18.如果要將讀寫位置移動到文件開頭,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正確答案】:B解析:
seek(0)指移動指針到0位置即開頭。19.matplotlib中設(shè)置x軸數(shù)值顯示范圍的函數(shù)是什么()。A、xrange)B、xspan)C、xlabel)D、xlim)【正確答案】:D解析:
xlim用于設(shè)置x軸的顯示范圍。20.在支持向量機中,核函數(shù)的主要作用是()。A、將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線性可分B、將高維空間中線性不可分的數(shù)據(jù)映射到低維空間,使其線性可分C、將高維空間中線性可分的數(shù)據(jù)映射到低維空間,使其線性不可分D、將低維空間中線性可分的數(shù)據(jù)映射到高維空間,使其線性不可分【正確答案】:A解析:
--21.關(guān)于HDFS的特征,下列說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:
HDFS設(shè)計中重視“數(shù)據(jù)的高吞吐量”,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。22.下列關(guān)于模型能力(modelcapacity指神經(jīng)網(wǎng)絡(luò)模型能擬合復雜函數(shù)的能力)的描述,正確的是()。A、隱藏層層數(shù)增加,模型能力增加B、Dropout的比例增加,模型能力增加C、學習率增加,模型能力增加D、都不正確【正確答案】:A解析:
Dropout比例增加,可能會丟失過多參數(shù)影響模型能力;學習率過大,梯度下降可能會越過最低點,無法收斂。23.random庫的seed(a)函數(shù)的作用是()。A、生成一個[0.0,1.0)之間的隨機小數(shù)B、生成一個k比特長度的隨機整數(shù)C、設(shè)置初始化隨機數(shù)種子aD、生成一個隨機整數(shù)【正確答案】:C解析:
本題考查隨機種子數(shù)函數(shù)seed)。24.下列不屬于數(shù)據(jù)科學開源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正確答案】:B解析:
ERP系統(tǒng)是企業(yè)資源計劃(EnterpriseResourcePlanning)的簡稱,是指建立在信息技術(shù)基礎(chǔ)上,集信息技術(shù)與先進管理思想于一身,以系統(tǒng)化的管理思想,為企業(yè)員工及決策層提供決策手段的管理平臺。25.數(shù)據(jù)安全不只是技術(shù)問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導問題【正確答案】:B解析:
數(shù)據(jù)安全不只是技術(shù)問題,還涉及管理問題。26.()是表現(xiàn)數(shù)據(jù)分布對稱性的指標。A、斜率B、偏斜度C、偏度D、偏離度【正確答案】:B解析:
偏斜度是對統(tǒng)計數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中,當偏斜度為正值時,分布正偏,即眾數(shù)位于算術(shù)平均數(shù)的左側(cè);當偏斜度為負值時,分布負偏,即眾數(shù)位于算術(shù)平均數(shù)的右側(cè)。27.()對應(yīng)于決策樹結(jié)果,其他節(jié)點對應(yīng)于()。A、葉節(jié)點,屬性測試B、根結(jié)點,學習測試C、內(nèi)部節(jié)點,學習測試D、葉節(jié)點,分類測試【正確答案】:A解析:
決策樹包含一個根節(jié)點、若干內(nèi)部節(jié)點和若干葉節(jié)點。葉節(jié)點對應(yīng)于決策結(jié)果,其他每個節(jié)點則對應(yīng)于一個屬性測試。28.下列關(guān)于支持向量回歸說法,錯誤的是()。A、支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中B、支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題C、同分類算法不同的是,支持向量回歸要最小化一個凹函數(shù)D、支持向量回歸的解是稀疏的【正確答案】:C解析:
支持向量機最大間隔模型是一個凸二次規(guī)劃問題。29.以下不屬于Python內(nèi)置模塊的是()。A、sysB、jsonC、osD、image【正確答案】:D解析:
image屬于第三方庫。30.以下屬于考慮詞語位置關(guān)系的模型有()。A、詞向量模型B、詞袋模型C、詞的分布式表示D、TF-IDF【正確答案】:A解析:
詞向量模型考慮通過中間詞預測鄰近詞,需要考慮詞語順序位置。31.為了提高系統(tǒng)性能,Spark采取“惰性計算模式”,具體為()。A、執(zhí)行Transformation操作時不會提交,只有執(zhí)行Action操作時才會被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時不會提交,只有執(zhí)行Transformation操作時才會被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:
Spark“惰性計算模式”定義。32.()是指理解挖掘項目的目標業(yè)務(wù)需求。A、業(yè)務(wù)理解B、數(shù)據(jù)理解C、數(shù)據(jù)準備D、數(shù)據(jù)建?!菊_答案】:A解析:
根據(jù)CRISP-DM(cross-industrystandardprocessfordatamining,跨行業(yè)數(shù)據(jù)挖掘標準流程)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項目的要求和最終目的,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。33.常用的灰度內(nèi)插值法不包括有()。A、最近鄰內(nèi)插法B、三次內(nèi)插法C、雙線性內(nèi)插值法D、三次樣條插值法【正確答案】:D解析:
常用的灰度內(nèi)插值法有最近鄰內(nèi)插法、三次內(nèi)插法、雙線性內(nèi)插值法。34.在Python中,調(diào)用open)時需要將內(nèi)容附加到文件末尾,而不是覆蓋文件原來內(nèi)容,則第二個實參應(yīng)該使用()。A、’a'B、'g'C、'm'D、'w'【正確答案】:A解析:
'r'讀模式、'w'寫模式、'a'追加模式、'b'二進制模式、'+'讀/寫模式。35.k近鄰算法在()的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布【正確答案】:B解析:
k近鄰算法主要依靠的是周圍的點,因此如果樣本過多,則難以區(qū)分,典型性好的容易區(qū)分。樣本都是呈團狀分布,KNN就發(fā)揮不出其求近鄰的優(yōu)勢了,整體樣本應(yīng)該具有典型性好,樣本較少,比較適宜。36.Python語句print(0xA+0xB)的輸出結(jié)果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:
0x是16進制運算,0xA+0xB換為十進制為10+11=21。37.以下選項中,執(zhí)行后可以查看Python的版本的是()。A、importsystemB、C、Print(sys.version)D、importsystem【正確答案】:B解析:
查看Python版本可以通過調(diào)用操作系統(tǒng)模塊sys,語句print(sys.version)實現(xiàn)。38.線性回歸算法主要在sklearn中的哪個()模塊中()。A、baseB、clusterC、linear_modelD、kernel_impute【正確答案】:C解析:
sklearn中l(wèi)inear_model是廣義線性模型模塊。39.下列關(guān)于支持向量機優(yōu)化性問題的形式,說法正確的是()。A、它是一個凸二次規(guī)劃問題B、它是一個凸一次規(guī)劃問題C、它是一個凹二次規(guī)劃問題D、它是一個凹一次規(guī)劃問題【正確答案】:A解析:
支持向量機優(yōu)化性問題的一個凸二次規(guī)劃問題。40.緩解過擬合的一個辦法是允許支持向量機在一些樣本上出錯,()形式適合這種方法。A、硬間隔支持向量機B、軟間隔支持向量機C、線性核函數(shù)支持向量機D、多項式核函數(shù)支持向量機【正確答案】:B解析:
軟間隔允許某些樣本不滿足約束,可緩解過擬合。41.以下哪種參數(shù)須以正確的順序傳入函數(shù),調(diào)用時的數(shù)量必須和聲明時的一樣的參數(shù)是()。A、位置參數(shù)B、默認值參數(shù)C、可變參數(shù)D、關(guān)鍵字參數(shù)【正確答案】:A解析:
位置參數(shù)須以正確的順序傳入函數(shù),調(diào)用時的數(shù)量必須和聲明時的一樣。42.下列哪個語句中,在Python中是非法的是()。A、x=y=z=1B、x=(y=z+1)C、x,y=y,xD、x+=y【正確答案】:B解析:
賦值語句不能用于賦值。43.下列數(shù)據(jù)類型中,Numpy不支持以下哪種數(shù)據(jù)類型的是()。A、float32B、uint64C、boolD、byte【正確答案】:D解析:
Numpy支持的數(shù)據(jù)類型包括bool、int(8,16,32,64)、unit(16,32,64)、float(16,32,64)、complex(64,128)等類型,不支持byte、short等類型。44.關(guān)于PythonNumpy,、Scipy,、Pandas這些庫的區(qū)別,描述不對的是()。A、Numpy是以矩陣為基礎(chǔ)的數(shù)學計算模塊,純數(shù)學B、Scipy基于Numpy,科學計算庫,有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數(shù)據(jù)結(jié)構(gòu)D、三個模塊分別獨立【正確答案】:D解析:
模塊之間不是相互獨立的,例如Pandas和Scipy都基于Numpy。45.數(shù)組允許批量計算而無須任何for循環(huán),這種特性叫()。A、矩陣化B、便捷化C、批量化D、矢失量化【正確答案】:D解析:
矢量化指Numpy可以直接面向數(shù)組進行批量計算,不需要對每個元素進行循環(huán)計算。46.Numpy包中meshgrid函數(shù)實現(xiàn)的功能是()。A、數(shù)組拆分B、數(shù)組乘法C、數(shù)組除法D、數(shù)組融合【正確答案】:D解析:
np.meshgrid)用于數(shù)組融合,在畫等高線圖時常用。47.在留出法、交叉驗證法和自助法三種評估方法中,()更適用于數(shù)據(jù)集較小、難以劃分訓練集和測試集的情況。A、留出法B、交叉驗證法C、自助法D、留一法【正確答案】:C解析:
--48.關(guān)于數(shù)據(jù)創(chuàng)新,下列說法正確的是()。A、個數(shù)據(jù)集的總和價值等于單個數(shù)據(jù)集價值相加B、于數(shù)據(jù)的再利用,數(shù)據(jù)應(yīng)該永久保存下去C、同數(shù)據(jù)多次用于相同或類似用途,其有效性會降低D、數(shù)據(jù)開放價值可以得到真正釋放【正確答案】:D解析:
略。49.scipy的stats包中提供了產(chǎn)生連續(xù)性分布的函數(shù),其中用于均勻分布的函數(shù)是()。A、normB、uniformC、betaD、geom【正確答案】:B解析:
均勻分布是uniform。50.繪圖是如何通過()為項目設(shè)置matplotlib參數(shù)()。A、rc)B、sci)C、axes)D、sca)【正確答案】:A解析:
matplotlib.rc)設(shè)置當前的matplotlib參數(shù)。51.scipyScipy通常與下列哪個庫()同時使用()。A、pandasB、scikit-learnC、NumpyD、jieba【正確答案】:C解析:
SciPyScipy是另一種使用Numpy來做高等數(shù)學、信號處理、優(yōu)化、統(tǒng)計和許多其他它科學任務(wù)的語言擴展,通常與Numpy搭配使用。52.階躍函數(shù)與sigmoid函數(shù)均為典型激活函數(shù),該說法()。A、正確B、錯誤C、-D、-【正確答案】:A解析:
--53.機器學習中,基于樣本分布的距離是()。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】:A解析:
馬氏距離是基于樣本分布的一種距離。54.()不適合使用機器學習方法解決。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環(huán)C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇【正確答案】:B解析:
判斷給定的圖中是否有環(huán)采用深度學習。55.np.linalg.svd)函數(shù)可以實現(xiàn)()功能。A、計算協(xié)方差矩陣B、實現(xiàn)奇異值分解C、計算方差D、計算均值;【正確答案】:B解析:
svd實現(xiàn)奇異值分解。56.matplotlib中的調(diào)用堆積折線圖的函數(shù)是什么()。A、step)B、stackplot)C、plusplot)D、hist)【正確答案】:B解析:
stackplot用于繪制堆疊折線圖。57.Numpy.linspace(0,3,3)的結(jié)果為()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正確答案】:C解析:
np.linspace)指定開始值、結(jié)束值和值的個數(shù),默認包含結(jié)束值,注意與arange的區(qū)別。58.以下算法中不屬于基于深度學習的圖像分割算法是()。A、FCNB、DeeplabC、Mask-RCNND、KNN【正確答案】:D解析:
KNN為傳統(tǒng)機器學習方法并非深度學習方法。59.Hive的數(shù)據(jù)最終存儲在()。A、HDFSB、HBaseC、RDBMSD、MetaStore【正確答案】:A解析:
Hive是基于Hadoop分布式文件系統(tǒng)的,它的數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)HDFS中。60.在matplotlib中,以下關(guān)于繪圖標準流程說法錯誤的是()。A、繪制最簡單的圖形可以不用創(chuàng)建畫布B、添加圖例可以在繪制圖形之前C、添加x軸、y軸的標簽可以在繪制圖形之前D、修改x軸標簽、y軸標簽和繪制圖形沒有先后【正確答案】:B解析:
繪制圖例需要在繪制圖形之后。61.假設(shè)有列表a=['name','age','sex']和b=['Dong',38,'Male'],請使用一個語句將這兩個列表的內(nèi)容轉(zhuǎn)換為字典,并且以列表a中的元素為“鍵”,以列表b中的元素為“值”,這個語句可以寫為()。A、c=dict(cross(a,b)B、c=dict(zip(a,b)C、c=map(zip(a,b)D、c=b【正確答案】:B解析:
zip)將可迭代的對象作為參數(shù),將對象中對應(yīng)的元素打包成一個個元組,然后用dict生成器生成字典。62.下列關(guān)于Python函數(shù)調(diào)用的說法,錯誤的是()。A、函數(shù)的遞歸調(diào)用必須有一個明確的結(jié)束條件B、函數(shù)的遞歸調(diào)用每次進入更深一層遞歸時,問題規(guī)模相比上次遞歸都應(yīng)有所減少C、函數(shù)的遞歸調(diào)用效率不高,遞歸層次過多會導致棧溢出([在計算機中,函數(shù)調(diào)用是通過棧(stack)這種數(shù)據(jù)結(jié)構(gòu)實現(xiàn)的,每當進入一個函數(shù)調(diào)用,棧就會加一層棧幀,每當函數(shù)返回,棧就會減一層棧)]D、函數(shù)的遞歸調(diào)用由于棧的大小是無限的,所以,遞歸調(diào)用的次數(shù)過多,也不會導致棧溢出【正確答案】:D解析:
由于棧的大小不是無限的,所以,遞歸調(diào)用的次數(shù)過多,會導致棧溢出。63.以下關(guān)于異常處理的描述,正確的是()。A、try語句中有except子句就不能有finally子句B、Python中,可以用異常處理捕獲程序中的所有錯誤C、引發(fā)一個不存在索引的列表元素會引發(fā)NameError錯誤D、Python中允許利用raise語句由程序主動引發(fā)異?!菊_答案】:D解析:
try語句中有except子句可以有finally子句,,不用異常處理捕獲程序中的所有錯誤,引發(fā)一個不存在索引的列表元素會引發(fā)lisindeoutError。64.基本元數(shù)據(jù)是指()。A、基本元數(shù)據(jù)是與數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理、分析處理以及管理方面的信息【正確答案】:D解析:
基本元數(shù)據(jù)(Metadata)又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)。65.二值圖像中的分支點的連接數(shù)為()。A、0B、1C、2D、3【正確答案】:D解析:
二值圖像中連接數(shù)為0的像素為孤立點或內(nèi)點。連接數(shù)為1的像素為端點或邊界點。連接數(shù)為2的像素為連接點。連接數(shù)為3的像素為分支點。66.以下代碼的輸出結(jié)果為()。A、TRUEB、FALSEC、[Ture,F(xiàn)alse,Ture]D、([Ture,Ture,Ture])【正確答案】:C解析:
數(shù)組進行邏輯運算生成邏輯數(shù)組。67.相對于HadoopMapReduce1.0,Spark的特點不包括()。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】:B解析:
相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。68.一組數(shù)據(jù)中出現(xiàn)最多的變量值叫作做()。A、最大值B、平均值C、中位數(shù)D、眾數(shù)【正確答案】:D解析:
眾數(shù)是樣本觀測值在頻數(shù)分布表中頻數(shù)最多的那一組的組中值。69.對文本數(shù)據(jù)處理,通常采用()核函數(shù)。A、多項式B、SigmoidC、線性D、拉普拉斯【正確答案】:C解析:
--70.Numpy數(shù)組輸出的原則是()。A、從左到右,從下到上B、從左到右,從上到下C、從右到左,從下到上D、從右到左,從上到下【正確答案】:B解析:
Numpy數(shù)組輸出時遵循以下原則:從左到右,從上到下,71.下列算法中:①K-NN最近鄰算法;②線性回歸;③邏輯回歸,可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建的算法是()。A、①②B、②③C、①②③D、以上都不是【正確答案】:B解析:
KNN是關(guān)于距離的學習算法,沒有任何參數(shù),所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。72.()是數(shù)據(jù)庫管理系統(tǒng)運行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉庫C、數(shù)據(jù)單元D、數(shù)據(jù)分析【正確答案】:A解析:
在關(guān)系數(shù)據(jù)庫中,事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段,可以幫助用戶維護數(shù)據(jù)的一致性。事務(wù)是用戶定義的一個數(shù)據(jù)庫操作序列,這些操作要么全做,要么全不做,是一個不可分割的工作單位。73.“數(shù)據(jù)的故事化描述”是指為了提升數(shù)據(jù)的(),將數(shù)據(jù)還原成關(guān)聯(lián)至特定的情景的過程。A、可理解性、可記憶性、可體驗性B、可接受性、可記憶性、可體驗性C、可接受性、可記憶性、可呈現(xiàn)性D、可理解性、可記憶性、可呈線性【正確答案】:A解析:
“數(shù)據(jù)的故事化描述(Storytelling)”是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗性,將“數(shù)據(jù)”還原成關(guān)聯(lián)至特定的“情景”的過程。74.以下代碼的輸出結(jié)果為()。A、[0123][0123]B、[1934][1234]C、[0923][0923]D、[0923][0123]【正確答案】:C解析:
ndarrray的切片操作為深復制,a改變數(shù)值會影響到b。75.兩個變量相關(guān),它們的相關(guān)系數(shù)r可能為0。這句話()。A、正確B、錯誤C、-D、-【正確答案】:A解析:
Pearson相關(guān)系數(shù)r=0,這表示兩個變量間不存在線性相關(guān)關(guān)系。76.數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),是數(shù)據(jù)產(chǎn)品的研發(fā)的哪個階段()。A、零次數(shù)據(jù)B、一次數(shù)據(jù)C、二次數(shù)據(jù)D、采集數(shù)據(jù)【正確答案】:A解析:
零次數(shù)據(jù)是數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù),如各種感知儀器設(shè)備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質(zhì)量問題。77.下列描述中不屬于情感分析的具體任務(wù)是()。A、情感分類B、觀點抽取C、觀點問答D、段落匹配【正確答案】:D解析:
情感分析又稱意見挖掘、傾向性分析等,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,包括情感分類、觀點抽取、觀點問答等,沒有段落匹配。78.由于不同類別的關(guān)鍵詞對排序的貢獻不同,檢索算法一般把查詢關(guān)鍵詞分為幾類,以下不屬于此關(guān)鍵詞類型的是()。A、引用詞B、普通關(guān)鍵詞C、高頻詞匯D、擴展關(guān)鍵詞【正確答案】:C解析:
高頻詞匯信息量較少不能充當關(guān)鍵詞,多數(shù)為無用詞。79.關(guān)于Spark的說法中,()是錯誤的。A、采用內(nèi)存計算模式B、可利用多種語言編程C、主要用于批處理D、可進行map()操作【正確答案】:C解析:
HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用一些,可以很好地支持流計算、交互式處理、圖計算等多種計算模式。80.訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類。該說法()。A、正確B、錯誤C、-D、-【正確答案】:A解析:
--81.以下關(guān)于圖像的平滑處理錯誤的說法是()。A、圖像的平滑處理是指在盡量保留原有信息的情況下,過濾掉圖像內(nèi)部的噪音B、圖像平滑處理會對圖像中與周圍像素點的像素值差異較大的像素點進行處理,將其值調(diào)整為周圍像素點像素值的近似值C、經(jīng)過平滑處理后圖像質(zhì)量會下降D、以上答案都正確【正確答案】:C解析:
圖像的平滑處理不會損壞圖像的輪廓及邊緣等重要信息,使得圖像清晰視覺效果好。82.下列哪個函數(shù)中可以計算字典元素個數(shù)的是()。A、cmpB、lenC、strD、type【正確答案】:B解析:
cmp用于比較;len用于計算元素個數(shù);str用于將對象轉(zhuǎn)換為字符串;type求對象類型。83.Spark中引入RDD概念的目的是()。A、數(shù)據(jù)存儲B、數(shù)據(jù)查重C、提升容錯能力D、增強數(shù)據(jù)一致性【正確答案】:C解析:
在Spark中引入RDD概念的目的是實現(xiàn)Spark的并行操作和靈活的容錯能力。84.關(guān)于bagging下列說法錯誤的是()。A、各基分類器之間有較強依賴,不可以進行并行訓練B、最著名的算法之一是基于決策樹基分類器的隨機森林C、當訓練樣本數(shù)量較少時,子集之間可能有重疊D、為了讓基分類器之間互相獨立,需要將訓練集分為若干子集【正確答案】:A解析:
Bagging方法在訓練過程中,各基分類器之間無強依賴,可以進行并行訓練,隨機森林就是一種典型的例子。85.不屬于數(shù)據(jù)脫敏的要求的是()。A、雙向性B、單向性C、無殘留D、易于實現(xiàn)【正確答案】:A解析:
數(shù)據(jù)脫敏操作不能停留在簡單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個要求:單向性、無殘留、易于實現(xiàn)。86.決策樹中,同一路徑上的所有屬性之間是()關(guān)系。A、因果B、相關(guān)C、邏輯或D、邏輯與【正確答案】:D解析:
--87.相對于HadoopMapReduce1.0,Spark的特點不包括()。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】:B解析:
相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。88.關(guān)于模塊下列說法不正確的是()。A、Python模塊(Module),是一個Python文件,以.py結(jié)尾,包含了Python對象定義和Python語句。B、模塊讓你能夠有邏輯地組織你的Python代碼段。C、把相關(guān)的代碼分配到一個模塊里能讓你的代碼更好用,更易懂。D、模塊不能定義類【正確答案】:D解析:
模塊中可以定義類。89.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:
Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。90.將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為()。A、編輯器B、編譯器C、虛擬機D、解釋器【正確答案】:B解析:
將Python中的.py文件轉(zhuǎn)換為.pyc文件的組件為編譯器。91.設(shè)置圖的標題的命令是()。A、plt.text('標題')B、plt.legend('標題')C、plt.xticks('標題')D、plt.title('標題')【正確答案】:D解析:
A選項是添加文字說明命令,B選項是添加標識命令,C選項是添加X軸坐標軸標識命令。92.SparkJob默認的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運行時指定【正確答案】:A解析:
默認情況下Spark的調(diào)度模式是FIFO(先進先出)。93.HBase的一個典型應(yīng)用是webtable,它是一個以網(wǎng)頁()為主鍵的表。A、標題B、URLC、內(nèi)容D、類別【正確答案】:B解析:
webtable中,以網(wǎng)頁URL為主鍵。94.()的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯(lián)合概率計算,又不至于徹底忽略了比較強的屬性依賴關(guān)系。A、貝葉斯判定準則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器【正確答案】:D解析:
--95.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預測是大數(shù)據(jù)的()。A、基礎(chǔ)B、前提C、核心D、條件【正確答案】:C解析:
略。96.在神經(jīng)網(wǎng)絡(luò)中引入了非線性的是()。A、隨機梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:
ReLU是目前最常用的激勵函數(shù),增加了神經(jīng)網(wǎng)絡(luò)模型的非線性。97.scipy.stats.cdf函數(shù)的作用是()。A、計算隨機變量的期望和方差B、隨機變量的生存函數(shù)C、隨機變量的累積分布函數(shù)D、隨機變量的概率密度函數(shù)【正確答案】:C解析:
cdf是隨機變量的累積分布函數(shù),是概率密度函數(shù)的積分。98.已知一組數(shù)據(jù)的協(xié)方差矩陣,下面關(guān)于主分量說法錯誤的是()。A、主分量分析的最佳準則是對一組數(shù)據(jù)按一組正交基分解,在只取相同數(shù)量分量的條件下,以均方誤差計算截尾誤差最小B、在經(jīng)主分量分解后,協(xié)方差矩陣成為對角矩陣C、主分量分析就是K-L變換D、主分量是通過求協(xié)方差矩陣的特征值得到【正確答案】:C解析:
K-L變換與PCA變換是不同的概念,PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種。如二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等。當K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。99.txt=open(filename)返回的是()。A、變量B、常數(shù)C、文件內(nèi)容D、文件對象【正確答案】:D解析:
txt=open(filename)返回的是文件對象。100.np.floor([-1.7,1.5,-0.2,0.6,10])的輸出結(jié)果是()。A、[-1,1,0,0,10]B、[-2.,1.,-1.,0.,10.]C、[-1.,1.,-1.,0.,10.]D、[-2.,1.,0.,0.,10.]【正確答案】:B解析:
floor函數(shù)定義取的是不超過這個數(shù)的最大整數(shù)。1.以下屬于圖像分割的算法的是()。A、閾值分割方法(thresholdsegmentationmethod)B、區(qū)域增長細分(regionalgrowthsegmentation)C、邊緣檢測分割方法(edgedetectionsegmentationmethod)D、基于聚類的分割(segmentationbasedonclustering)E、基于能量的分割【正確答案】:ABCDE解析:
--2.以下關(guān)于降維方法的敘述,正確的是()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學習是一種借鑒拓撲流形概念的降維方法D、度量學習繞過降維的過程,將學習目標轉(zhuǎn)化為對距離度量計算的權(quán)重矩陣的學習【正確答案】:CD解析:
本質(zhì)上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。3.“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征,表現(xiàn)在()方面。A、數(shù)據(jù)驅(qū)動B、數(shù)據(jù)密集型C、數(shù)據(jù)范式D、數(shù)據(jù)可視化【正確答案】:ABC解析:
“以數(shù)據(jù)為中心”是數(shù)據(jù)產(chǎn)品區(qū)別于其他類型產(chǎn)品的本質(zhì)特征。數(shù)據(jù)產(chǎn)品的“以數(shù)據(jù)中心”的特征不僅體現(xiàn)在“以數(shù)據(jù)為核心生產(chǎn)要素”,而且還主要表現(xiàn)在數(shù)據(jù)驅(qū)動、數(shù)據(jù)密集和數(shù)據(jù)范式。4.圖像分割中常使用的領(lǐng)域有()。A、0鄰域B、4鄰域C、8鄰域D、24鄰域【正確答案】:BC解析:
圖像分割中常見的鄰域為4鄰域與8鄰域,即某像素的上下左右、某像素周圍的一圈像素。5.K均值聚類和層次聚類在一些方面有重大差異。以下說法正確的是()。A、在K均值聚類中,必須在運行算法前選定想要的簇的個數(shù)B、在K均值聚類中,可以在運行算法后選定想要的簇的個數(shù)C、在層次聚類中,可以在運行算法后選定想要的簇的個數(shù)D、K均值聚類算法所需的計算量比層次聚類算法小得多【正確答案】:ACD解析:
在K均值聚類中,需要在運行算法前確定想要的簇的個數(shù)K。6.循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式包含()。A、多輸出B、單輸出C、同步多輸出D、異步多輸出【正確答案】:ABD解析:
循環(huán)神經(jīng)網(wǎng)絡(luò)是遞歸的,不可能同步多輸出。7.下列屬于描述gensim庫的特性的是()。A、訓練語料的預處理B、主題向量的變換C、文檔相似度的計算D、文章切分詞語統(tǒng)計計算【正確答案】:ABC解析:
gensim不用于分詞。8.下面是Python注釋語句的是()。A、'hello'B、'''hello'''C、"hello"D、#【正確答案】:BD解析:
python語句單行注釋使用單個#號,多行注釋使用三個單引號。9.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質(zhì)量【正確答案】:ABC解析:
聚類算法是無監(jiān)督的學習算法,訓練樣本的標記信息是未知的。10.Spark容錯性的方式有哪些()。A、數(shù)據(jù)檢查點B、存儲原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:
Spark容錯性有數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新兩種方式。11.以下關(guān)于HBase說法正確的是()。A、面向列的數(shù)據(jù)庫B、非結(jié)構(gòu)化的數(shù)據(jù)庫C、支持大規(guī)模的隨機、實時讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:
HBase是非結(jié)構(gòu)化的、多版本的、面向列和開源的數(shù)據(jù)庫;HBase提供了對大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數(shù)據(jù)模型。12.語音識別的方法包括()。A、聲道模型方法B、模板匹配的方法C、利用人工神經(jīng)網(wǎng)絡(luò)的方法D、語音知識方法【正確答案】:ABCD解析:
一般來說,語音識別的方法有基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。13.在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是()。A、深度優(yōu)先遍歷策略B、廣度優(yōu)先遍歷策略C、高度優(yōu)先遍歷策略D、反向鏈接策略【正確答案】:AB解析:
在網(wǎng)絡(luò)爬蟲的爬行策略中,應(yīng)用最為常見的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。14.特征工程一般需要做哪些工作()。A、正則化B、標準化C、特征處理D、特征選擇【正確答案】:CD解析:
特征工程包括特征選擇、特征處理、特征變換、特征衍生等。15.Python的優(yōu)點有()。A、變量不用預定義類型B、數(shù)據(jù)結(jié)構(gòu)功能強大C、語言可解釋性強D、變量類型固定【正確答案】:ABC解析:
Python變量在使用前不必定義變量類型。16.下列關(guān)于EM算法描述正確的是()。A、EM算法是常用的估計參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學習高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】:ABCD解析:
--17.在假設(shè)檢驗中,當原假設(shè)為“偽”,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、α錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:
α錯誤(棄真錯誤):當原假設(shè)為真時,但我們錯誤地認為“原假設(shè)是不成立的”,進而導致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當原假設(shè)為假時,但我們錯誤地認為“原假設(shè)是成立的”,進而導致接受此錯誤假設(shè)18.下列方法中,可以用于特征降維的方法包括()。A、主成分分析PCAB、線性判別分析LDAC、深度學習SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD解析:
--19.常見的原型聚類算法包括()。A、K均值算法B、學習向量量化C、高斯混合聚類D、密度聚類【正確答案】:ABC解析:
--20.下列哪些是RDBMS中事務(wù)遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關(guān)系數(shù)據(jù)庫中的事務(wù)需要具備一定的規(guī)則——ACID特征。ACID是指數(shù)據(jù)庫事務(wù)正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。21.情感分析的應(yīng)用場景有()。A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場營銷【正確答案】:ABD解析:
情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應(yīng)用場景。22.類的特點有()。A、封裝B、繼承C、多態(tài)D、重復【正確答案】:ABC解析:
類的特點:封裝、繼承、多態(tài)。23.神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)可以分為()和隨機型網(wǎng)絡(luò)等。A、前向型B、后向型C、反饋型D、自組織競爭型【正確答案】:ACD解析:
--24.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD解析:
--25.SparkRDD的依賴機制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:
RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。26.ETL技術(shù)主要涉及()操作。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:
ETL技術(shù)主要涉及抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)。27.Spark的技術(shù)架構(gòu)可以分為哪幾層()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:
Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。28.下列關(guān)于特征的稀疏性說法,正確的是()。A、稀疏性指的是矩陣中有許多列與當前學習任務(wù)無關(guān)B、稀疏樣本可減少學習任務(wù)的計算開銷C、學習任務(wù)難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:
在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。29.以下關(guān)于數(shù)據(jù)維度的描述,正確的是()。A、采用列表表示一維數(shù)據(jù),不同數(shù)據(jù)類型的元素是可以的B、JSON格式可以表示比二維數(shù)據(jù)還復雜的高維數(shù)據(jù)C、二維數(shù)據(jù)可以看成是一維數(shù)據(jù)的組合形式D、字典不可以表示二維以上的高維數(shù)據(jù)【正確答案】:ABC解析:
字典可以表示二維以上的高維數(shù)據(jù)。30.可作為決策樹選擇劃分屬性的參數(shù)是()。A、信息增益B、增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】:ABC解析:
特征選擇的準則主要有信息增益,信息增益率,基尼指數(shù)三種。31.()是Spark比MapReduce計算快的原因。A、基于內(nèi)存的計算B、基于DAG的調(diào)度框架C、基于Lineage的容錯機制D、基于分布式計算的框架【正確答案】:ABC解析:
Spark比MapReduce計算快的原因包括基于內(nèi)存計算、使用基于Lineage的容錯機制和基于DAG的調(diào)度框架。32.下面關(guān)于單樣本t檢驗的說法,錯誤的是()。A、當單樣本t檢驗的自由度越來越大時,正態(tài)分布越來越趨向于t分布B、單樣本t檢驗適用于樣本量比較多(n>30)的情況C、t分布的不確定性比正態(tài)分布小,其原因是樣本數(shù)量比較小D、單樣本t檢驗通常也被叫作學生t檢驗【正確答案】:ABC解析:
t檢驗,亦稱studentt檢驗(Student'sttest),主要用于樣本含量較小(例如n<30),總體標準差σ未知的正態(tài)分布。t檢驗是用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。33.Pig說法正確的是()。A、彌補MapReduce編程復雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:
Pig建立在MapReduce之上,主要目的是彌補MapReduce編程的復雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig程序的結(jié)構(gòu)適合于并行處理。34.下列有關(guān)MapReduce計算框架的描述正確的是()。A、MapReduce可以計算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲和劃分C、MapReduce可以實現(xiàn)處理系統(tǒng)節(jié)點出錯檢測和失效恢復D、MapReduce可實現(xiàn)處理數(shù)據(jù)與計算任務(wù)的同步【正確答案】:ABCD解析:
根據(jù)MapReduce定義可得,A、B、C、D都可以實現(xiàn)。35.以下說法正確的是()。A、負梯度方向是使函數(shù)值下降最快的方向B、當目標函數(shù)是凸函數(shù)時,梯度下降法的解是全局最優(yōu)解C、梯度下降法比牛頓法收斂速度快D、牛頓法不需要計算Hesse矩陣【正確答案】:ABD解析:
牛頓法是二階收斂,梯度下降是一階收斂,所以牛頓法就更快。36.下面關(guān)于reduce函數(shù)功能描述正確的是()。A、合并value值,形成較小集合B、采用迭代器將中間值提供給reduce函數(shù)C、map)函數(shù)處理后結(jié)果才會傳輸給reduce)D、內(nèi)存中不會存儲大量的value值【正確答案】:ABCD解析:
略。37.數(shù)據(jù)科學基本原則中,三世界原則指的是()A、精神世界B、數(shù)據(jù)世界C、物理世界D、數(shù)字世界【正確答案】:ABC解析:
大數(shù)據(jù)時代的到來,在我們的“精神世界”和“物理世界”之間出現(xiàn)了一種新的世界——“數(shù)據(jù)世界”。因此,在數(shù)據(jù)科學中,通常需要研究如何運用“數(shù)據(jù)世界”中已存在的“痕跡數(shù)據(jù)”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數(shù)據(jù)”。相對于“采訪數(shù)據(jù)”,“痕跡數(shù)據(jù)”更具有客觀性。圖靈獎獲得者JimGray提出的科學研究第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。38.在Hive架構(gòu)中支持對數(shù)據(jù)的操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:
Hive提供簡單的HiveQL查詢功能,可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計分析需要。39.下列關(guān)于情感分析的說法正確的是()。A、簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B、情感分析的發(fā)展得益于社交媒體的興起C、按照處理文本的粒度不同,情感分析大致可分為詞語級、句子級、篇章級三個D、情感分析可以應(yīng)用于文本挖掘【正確答案】:ABCD解析:
情感分析的定義即對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,它得益于社交媒體的興起,從而能收集大量信息進行分析。其分析力度包括詞語級、句子級和篇章級。情感分析可用于文本挖掘。40.以下屬于頻率域圖像濾波的方法有()。A、中值濾波B、均值濾波C、布特沃斯濾波D、高斯濾波【正確答案】:CD解析:
頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。41.以下圖像技術(shù)中屬于圖像處理技術(shù)的是()。A、圖像編碼B、圖像合成C、圖像增強D、圖像分類【正確答案】:AC解析:
圖像合成輸入是數(shù)據(jù),圖像分類輸出是類別數(shù)據(jù)。42.以下屬于關(guān)鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:
關(guān)鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。43.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正確答案】:ABCD解析:
Spark支持上述四種運行模式,在實驗中為了充分利用資源,一般配置Standalone模式運行。44.Python邏輯表達式中,()會導致邏輯短路,即不會繼續(xù)向下推算而直接返回結(jié)果。A、False開頭的and語句B、False開頭的or語句C、True開頭的and語句D、True開頭的or語句【正確答案】:AD解析:
兩種情況:False開頭的and語句,True開頭的or語句。45.下面導入模塊正確的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正確答案】:ABCD解析:
本題考查模塊導入方法。46.數(shù)據(jù)挖掘的挖掘方法包括()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡(luò)D、決策樹算法【正確答案】:ABCD解析:
利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等.47.下面選項是python標準庫的是()。A、osB、sysC、numpyD、re【正確答案】:ABD解析:
numpy屬于第三方庫。48.以下屬于規(guī)則的分詞方法的是()。A、正向最大匹配法B、逆向最大匹配法C、雙向最大匹配法D、條件隨機場【正確答案】:ABC解析:
條件隨機場是一種鑒別式機率模型,常用于標注或分析序列資料。49.數(shù)據(jù)科學項目主要涉及的活動包括()。A、模式/模型的應(yīng)用及維護B、模式/模型的洞見C、結(jié)果的可視化與文檔化D、模式/模型的驗證和優(yōu)化【正確答案】:ABCD解析:
數(shù)據(jù)科學項目是由從“項目目標的定義”到“模式/模型的應(yīng)用及維護”的一系列雙向互聯(lián)的互動鏈條組成的循序漸進的過程,主要涉及的活動包括項目目標的定義、數(shù)據(jù)的獲得與管理、模式/模型的洞見、模式/模型的驗證和優(yōu)化、模式/模型的應(yīng)用及維護和結(jié)果的可視化與文檔化。50.統(tǒng)計模式分類問題中,當先驗概率未知時,可以使用()。A、最小最大損失準則B、最小誤判概率準則C、最小損失準則D、N-P判決【正確答案】:AD解析:
--51.圖像數(shù)字化應(yīng)該包括哪些過程()。A、采樣B、模糊C、量化D、統(tǒng)計【正確答案】:AC解析:
自然界的圖像轉(zhuǎn)化為數(shù)字圖像首先包括連續(xù)空間到離散空間的采樣,其次是色彩域的數(shù)值化處理。52.以下選項中,不是Python語言保留字的是()。A、doB、passC、exceptD、until【正確答案】:AD解析:
詳見Python關(guān)鍵字列表。53.我們想要減少數(shù)據(jù)集中的特征數(shù)即降維,以下方案合適的是()。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用,去訓練一個模型,得到測試集上的表現(xiàn)。然后我們?nèi)サ粢粋€特征,再去訓練,用交叉驗證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來還要好,我們可以去除這個特征D、查看相關(guān)性表,去除相關(guān)性最高的一些特征【正確答案】:ABCD解析:
前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用,可以用這里C中方法。用相關(guān)性的度量去刪除多余特征也是一個可行的方法。54.神經(jīng)網(wǎng)絡(luò)模型(NeuralNetwork)因受人類大腦的啟發(fā)而得名。神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元(Neuron)組成,每個神經(jīng)元接受一個輸入,對輸入進行處理后給出一個輸出。下列關(guān)于神經(jīng)元的描述中,正確的是()。A、每個神經(jīng)元有一個輸入和一個輸出B、每個神經(jīng)元有多個輸入和一個輸出C、每個神經(jīng)元有一個輸入和多個輸出D、每個神經(jīng)元有多個輸入和多個輸出【正確答案】:ABCD解析:
每個神經(jīng)元可以有一個或多個輸入,和一個或多個輸出。55.我們想要訓練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),有效地訓練模型可以采取的措施是()A、對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機器學習算法C、使用PCA算法減少特征維度D、-【正確答案】:ABC解析:
大數(shù)據(jù)可以采用對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型,嘗試使用在線機器學習算法,使用PCA算法減少特征維度。56.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A、數(shù)據(jù)質(zhì)量的評估B、主動定義或序化規(guī)則C、為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護與服務(wù)D、應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題【正確答案】:BCD解析:
DGI(TheDataGovermanceInstitute)認為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔責任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。57.以下描述中正確的是()。A、統(tǒng)計學是數(shù)據(jù)科學的理論基礎(chǔ)之一B、Python語言是統(tǒng)計學家發(fā)明的語言C、機器學習是數(shù)據(jù)科學的理論基礎(chǔ)之一D、數(shù)據(jù)科學是統(tǒng)計學的一個分支領(lǐng)域(子學科)【正確答案】:AC解析:
Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計學家;數(shù)據(jù)科學是一門獨立學科,已經(jīng)超出了統(tǒng)計學一個學科的研究范疇,并非為統(tǒng)計學的一個分支。58.下列屬于CNN關(guān)鍵層的是()。A、輸入層B、卷積層C、激活層D、池化層【正確答案】:ABCD解析:
CNN關(guān)鍵層有:①輸入層,對數(shù)據(jù)去均值,做dataaugmentation等工作;②卷積層,局部關(guān)聯(lián)抽取feature;③激活層,非線性變化;④池化層,下采樣;⑤全連接層,增加模型非線性;⑥高速通道,快速連接;⑦BN層,緩解梯度彌散。59.在正則化公式中,λ為正則化參數(shù),關(guān)于λ的描述正確的是()。A、若正則化參數(shù)λ過大,可能會導致出現(xiàn)欠擬合現(xiàn)象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好地應(yīng)用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小【正確答案】:ABCD解析:
正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。60.Pandas中刪除列的方式是()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正確答案】:AB解析:
--61.HighBias(高偏差)的解決方案有()。A、BoostingB、復雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)C、更多特征D、-【正確答案】:ABC解析:
偏差刻畫了學習算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復雜模型(非線性模型、增加神經(jīng)網(wǎng)絡(luò)中的層)、更多特征等方式解決。62.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調(diào)研法【正確答案】:ABC解析:
--63.在詞袋模型中使用單個的單詞來構(gòu)建詞向量這樣的序列被稱為()。A、1元組(1-gram)B、單元組(unigram)模型C、列表D、字典【正確答案】:AB解析:
列表和字典一般包含多個單詞64.隨機森林在做數(shù)據(jù)處理方面的優(yōu)勢是()。A、不需要做缺失值處理B、不需要處理噪音C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】:ACD解析:
理論上隨機森林不會產(chǎn)生過擬合現(xiàn)象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數(shù)目不可能無限增加,沒有辦法完全消除過擬合。65.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結(jié)構(gòu)包括()等元素。A、關(guān)鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:
BigTable和HBase的索引由行關(guān)鍵字、列簇和時間戳組成。66.下列場景適合使用Python的是()。A、可作為腳本語言,快速編寫小型程序、腳本等B、可應(yīng)用在數(shù)據(jù)科學、交互式計算及可視化領(lǐng)域C、可作為膠水語言,整合如C++等語言代碼D、Python適用于低延時、高利用率的應(yīng)用場景【正確答案】:ABC解析:
Python作為腳本語言,以解釋方式逐條執(zhí)行語句,相比C++等語言運行速度較慢,不適用于低延時場景。67.下列關(guān)于PCA的說法,正確的是()。A、在使用PCA之前,我們必須標準化數(shù)據(jù)B、應(yīng)該選擇具有最大方差的主成分C、應(yīng)該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】:ABD解析:
PCA對數(shù)據(jù)中變量的尺度非常敏感,因此需要對各個變量進行標準化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用,可以提取前2個主要組成部分,在二維平面上使用散點圖可視化數(shù)據(jù)。68.下面關(guān)于單樣本Z檢驗的說法,正確的是()。A、在Python中,單樣本Z檢驗可以使用scipy.stats.ttest_1samp()實現(xiàn)B、單樣本Z檢驗適用于樣本量較大的情況C、單樣本Z檢驗假設(shè)要檢驗的統(tǒng)計量(近似)滿足正態(tài)分布D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量【正確答案】:BCD解析:
在Python中,單樣本Z檢驗可以使用statsmodels.stats.weightstats.ztest實現(xiàn)。69.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:
RDD不可修改。70.在選擇高斯函數(shù)作為核函數(shù)的支持向量機中,參數(shù)的選取會影響擬合的結(jié)果,如果出現(xiàn)過擬合的現(xiàn)象,則導致該結(jié)果的原因有可能是()。A、其他參數(shù)保持不變,C值過大B、其他參數(shù)保持不變,C值較小C、其他參數(shù)保持不變,σ較大D、其他參數(shù)保持不變,σ較小【正確答案】:AD解析:
SVM模型中,C值是懲罰系數(shù),即對誤判的寬容度,若C值越高,說明越不能容忍出現(xiàn)誤差,容易擬合;σ是高斯函數(shù)自帶的一個參數(shù),若σ無窮小,理論上,高斯核的SVM可以擬合任何非線性數(shù)據(jù),但容易過擬合。71.NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:
NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、圖存儲。72.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正確答案】:AB解析:
input是輸入,+是加法運算符。73.常用的數(shù)據(jù)審計方法可以分為()。A、預定義審計B、自定義審計C、可視化審計D、結(jié)構(gòu)化審計【正確答案】:ABC解析:
常用的數(shù)據(jù)審計方法有預定義審計、自定義審計和可視化審計三種。74.針對維數(shù)災難,我們主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學習E、度量學習【正確答案】:ABCDE解析:
--75.LSTM應(yīng)用場景有()。A、翻譯語言B、語音識別C、圖像識別D、股票預測【正確答案】:ABD解析:
CNN應(yīng)用于圖像識別,因此C錯誤。76.下列對字符串函數(shù)或方法說法正確的有()。A、istitle)如果字符串是標題化的(見title)則返回True,否則返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把將字符串中的str1替換成str2,如果max指定,則替換不超過max次D、upper)轉(zhuǎn)換字符串中所有大寫字符為小寫【正確答案】:ABC解析:
upper)轉(zhuǎn)換字符串中所有小寫字符為大寫。77.Python變量命名規(guī)則包含()。A、變量名只能包含字母、數(shù)字和下劃線。變量名可以字母或下劃線開頭,但不能以數(shù)字開頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會引發(fā)錯誤。C、不要將Python關(guān)鍵字和函數(shù)名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應(yīng)既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好?!菊_答案】:ABCD解析:
Python變量名只能包含字母、數(shù)字和下劃線,但不能以數(shù)字開頭,避免使用關(guān)鍵字,變量名應(yīng)既簡短又具有描述性。78.以下選項中是正確的字符串有()。A、‘a(chǎn)bc”ab”B、‘a(chǎn)bc”ab’C、“abc”ab”D、“abc\”ab”【正確答案】:BD解析:
需要兩端引號符號相同。79.以下關(guān)于MapReduce1.0版本說法正確的是()。A、擴展性差B、可靠性差C、資源利用率低D、無法支持多種計算框架【正確答案】:ABCD解析:
MapReduce1.0存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架。80.常用的代價函數(shù)有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】:ABCD解析:
--81.對于決策樹的優(yōu)點描述,正確的是()。A、可讀性強B、分類速度快C、只用于回歸問題D、是無監(jiān)督學習【正確答案】:AB解析:
決策樹也可用于回歸,屬于有監(jiān)督的機器學習算法。82.下列關(guān)于AUC面積的描述,正確的是()。AUC被定義為ROC曲線下與坐標軸圍成的面積B、AUC面積的值大于1C、AUC等于0.5時,則真實性最低,無應(yīng)用價值D、AUC越接近1.0,檢測方法真實性越高【正確答案】:ACD解析:
AUC面積的值小于等于1。83.假設(shè)目標遍歷的類別非常不平衡,即主要類別占據(jù)了訓練數(shù)據(jù)的99%,現(xiàn)在你的模型在訓練集上表現(xiàn)為99%的準確度,那么下面說法正確的是()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。84.關(guān)于CAP理論說法正確的是()。A、一個分布式系統(tǒng)不能同時滿足一致性、可用性和分區(qū)容錯性等需求B、一致性主要指強一致性C、一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭?。┛赡軐е铝硪粋€特征的損失(放棄)D、可用性指每個操作總是在“給定時間”之內(nèi)得到返回“所需要的結(jié)果”【正確答案】:ABCD解析:
CAP理論認為,一個分布式系統(tǒng)不能同時滿足一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolerance)等需求,而最多只能同時滿足其中的兩個特征。CAP理論告訴我們,數(shù)據(jù)管理不一定是理想的——一致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可能導致另一個特征的損失(放棄)。85.下列不屬于聚類性能度量內(nèi)部指標的是()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:
聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內(nèi)部指標包括DB指數(shù)、Dunn指數(shù)。86.下列模型屬于機器學習生成式模型的是()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡(luò)【正確答案】:ABD解析:
機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡(luò)等。線性回歸屬于判別式模型。87.Python中jieba庫的基本實現(xiàn)原理是什么()。A、分析漢字與漢字之間的關(guān)聯(lián)幾率概率B、分析漢字詞組的關(guān)聯(lián)幾率概率C、根據(jù)用戶自定義的詞組進行分析D、還可以分析漢字與英文之間關(guān)聯(lián)幾率概率【正確答案】:ABC解析:
D選項,jieba用于中文分詞,無法分析漢字與英文之間的關(guān)聯(lián)幾率概率。88.以下算法中可以應(yīng)用于圖像分割的是()。A、邊緣檢測技術(shù)B、閾值分割技術(shù)C、基于區(qū)域的分割技術(shù)D、區(qū)域生長方法【正確答案】:ABCD解析:
邊緣檢測技術(shù)、閾值分割技術(shù)、基于區(qū)域的分割技術(shù)、區(qū)域生長方法均是圖像分割技術(shù)。89.訓練CNN時,GPU顯存溢出,此時可以采取的辦法有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數(shù)【正確答案】:ABC解析:
增加激活函數(shù)反而會加重負擔,D選項錯誤。90.隨機森林的隨機性主要體現(xiàn)在()。A、決策樹選擇的隨機性B、數(shù)據(jù)集的隨機性C、待選特征的隨機性D、參數(shù)選擇的隨機性【正確答案】:BC解析:
隨機森林算法的隨機性主要體現(xiàn)在兩個方面:子模型的訓練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。91.下列關(guān)于深度學習的實質(zhì)及其與淺層學習的說法,正確的是()。A、深度學習強調(diào)模型深度B、深度學習突出特征學習的重要性:特征變換+非人工C、沒有區(qū)別D、以上答案都不正確【正確答案】:AB解析:
深度模型是手段,特征學習是目的。92.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分數(shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立【正確答案】:AB解析:
極大似然估計要求樣本獨立同分布,否則無法用概率密度函數(shù)乘積的形式。假設(shè)的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。93.關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的敘述中,正確的是()。A、可用于處理時間序列數(shù)據(jù)B、可用于處理圖像數(shù)據(jù)C、卷積網(wǎng)絡(luò)中使用的卷積運算就是數(shù)學中的卷積計算D、至少在網(wǎng)絡(luò)的一層中使用卷積【正確答案】:ABD解析:
--94.以下屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:
常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。95.Python函數(shù)包括下述哪些內(nèi)容()。A、函數(shù)名稱B、參數(shù)C、執(zhí)行語句D、返回值【正確答案】:ABCD解析:
Python函數(shù)包括下述哪些內(nèi)容函數(shù)名稱、參數(shù)、執(zhí)行語句、返回值。96.許多功能更為強大的非線性模型可在線性模型基礎(chǔ)上通過引入()而得。A、層級結(jié)構(gòu)B、高維映射C、降維D、分類【正確答案】:AB解析:
--97.關(guān)于Python分隔代碼塊,描述錯誤的是()。A、內(nèi)嵌代碼的每一行,都比外面的if語句的縮進更多B、代碼以“begin”開頭,“end”結(jié)尾C、每行代碼的縮進都一致D、代碼塊被封裝在花括號中【正確答案】:BCD解析:
python代碼沒有開頭與結(jié)尾標識;不同級別的語句縮進不同;python代碼用縮進區(qū)分代碼塊,不用{}。98.屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力【正確答案】:BCD解析:
特征選擇無法克服模型自身的缺陷,二者是獨立的。99.HadoopMapReduce是MapReduce的具體實現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個獨立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:
可以將MapReduce的工作流程概括為4個獨立的實體。4個實體分別為:①客戶端,用來提交MapReduce的作業(yè)。編寫MapReduce程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運行。與TaskTracker通信,協(xié)調(diào)整個作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個很重要方面,就是在執(zhí)行任務(wù)的時候TaskTracker可以有n個,JobTracker則只會有一個。④HDFS,用來在其他實體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結(jié)果也是保存在HDFS上面。100.下列說法中正確的是()。A、云計算的主要特點是非常昂貴B、大數(shù)據(jù)是多源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 借款合同利息條款的范例分析
- 環(huán)保節(jié)能洗車合同
- 共享服務(wù)合同范本在線問答
- 簽訂勞務(wù)分包合同的注意事項解析
- 預購合同的風險評估
- 保證書范文撰寫心得
- 教輔資料購銷協(xié)議
- 預訂住房合同協(xié)議
- 三年級積極參與保證
- 保安服務(wù)提供合同
- 第六單元 寫作《表達要得體》公開課一等獎創(chuàng)新教案
- 犯罪學智慧樹知到期末考試答案章節(jié)答案2024年云南司法警官職業(yè)學院
- xxx軍分區(qū)安保服務(wù)項目技術(shù)方案文件
- 電感耦合等離子體發(fā)射光譜儀的維護和保養(yǎng)
- 2023年高二組重慶市高中學生化學競賽試題
- 2024-2030年中國新鮮果蔬行業(yè)市場發(fā)展分析及競爭策略與投資前景研究報告
- 物流配送合作協(xié)議書范本
- 機械制圖(山東聯(lián)盟)智慧樹知到期末考試答案章節(jié)答案2024年山東華宇工學院
- 在線網(wǎng)課《馬克思主義新聞思想(河北)》單元測試考核答案
- 2024年海南省??谒闹懈呷?月份第一次模擬考試化學試卷含解析
- 人員招聘計劃方案
評論
0/150
提交評論