大數(shù)據(jù)題庫-機器學習復習測試卷(一)_第1頁
大數(shù)據(jù)題庫-機器學習復習測試卷(一)_第2頁
大數(shù)據(jù)題庫-機器學習復習測試卷(一)_第3頁
大數(shù)據(jù)題庫-機器學習復習測試卷(一)_第4頁
大數(shù)據(jù)題庫-機器學習復習測試卷(一)_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第頁大數(shù)據(jù)題庫-機器學習復習測試卷1.機器學習中,基于樣本分布的距離是()。A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離【正確答案】:A解析:

馬氏距離是基于樣本分布的一種距離。2.機器學習算法在學習過程中對某種類型假設的偏好稱為()。A、訓練偏好B、歸納偏好C、分析偏好D、假設偏好【正確答案】:B3.下列關于決策樹的說法錯誤的是()。A、冗余屬性不會對決策樹的準確率造成不利的影響B(tài)、子樹可能在決策樹中重復多次C、決策樹算法對于噪聲的干擾非常敏感D、尋找最佳決策樹是NP完全問題【正確答案】:C解析:

決策樹算法對于噪聲的干擾具有相當好的魯棒性。4.決策樹中的葉節(jié)點對應于決策樹結果,其他節(jié)點對應于()。A、屬性測試B、學習測試C、學習測試D、分類測試【正確答案】:A解析:

決策樹包含一個根節(jié)點、若干內部節(jié)點和若千葉節(jié)點。葉節(jié)點對應于決策結果,其他每個節(jié)點則對應于一個屬性測試。5.通常來說,()能夠用來預測連續(xù)因變量。A、線性回歸B、邏輯回歸C、線性回歸和邏輯回歸D、以上答案都不正確【正確答案】:A解析:

邏輯回歸被用來處理分類問題。6.()在劃分屬性時是在當前結點的屬性集合中選擇一個最優(yōu)屬性。AdaBoostB、RFC、BaggingD、傳統(tǒng)決策樹【正確答案】:D7.線性模型中的權重w可以看做各個屬性x的()。A、正則化系數(shù)B、對最終決策結果的貢獻度C、高維映射D、取值【正確答案】:B8.下列關于Boosting算法的描述錯誤的是()。A、可將強學習器降為弱學習器B、從初始訓練集訓練基學習器C、對訓練樣本分布進行調整D、做錯的訓練樣本多次訓練【正確答案】:A解析:

Boosting是一種集成學習算法,由一系列基本分類器按照不同的權重組合成為一個強分類器。9.()是交叉驗證法的一種特例。A、自助法B、留一法C、交叉驗證法D、錯誤率分析【正確答案】:B10.對參數(shù)進行L2正則,是機器學習常用的防止過擬合的方法。對參數(shù)做L2正則時,()是對參數(shù)本身做先驗分布假設。A、高斯分布B、拉普拉斯分布C、泊松分布D、均勻分布【正確答案】:A解析:

L2正則假設參數(shù)的先驗分布是高斯分布,可以保證模型的穩(wěn)定性,也就是參數(shù)的值不會太大或太小。11.Apriori算法的核心思想是()。A、通過頻繁項集生成和情節(jié)的向下封閉檢測兩個階段來挖掘候選集B、通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集C、數(shù)據(jù)集中包含該項集的數(shù)據(jù)所占數(shù)據(jù)集的比例,度量一個集合在原始數(shù)據(jù)中出現(xiàn)的頻率D、若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度要求【正確答案】:B解析:

Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。12.當不知道數(shù)據(jù)所帶標簽時,可以使用()促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離。A、分類B、聚類C、關聯(lián)分析D、隱馬爾可夫鏈【正確答案】:B解析:

聚類是一種典型的無監(jiān)督學習任務,不要求樣本集數(shù)據(jù)帶標簽。13.信息熵是度量()的最常用的一種指標。A、樣本的個數(shù)B、樣本的維度C、樣本的純度D、樣本的冗余度【正確答案】:C14.()算法是一種最有影響的挖掘關聯(lián)規(guī)則頻繁項目集的算法。A、FP-growthB、EClatC、聚類D、Apdori【正確答案】:D解析:

Apdori算法是一種最有影響的挖掘關聯(lián)規(guī)則頻繁項目集的算法。15.()是基于規(guī)則的分類器。A、C4.5B、KNNC、NaiveBayesD、ANN【正確答案】:A解析:

基于規(guī)則的分類器有決策樹、隨機森林、Aprior,C4.5屬于決策樹算法。16.如果一個SVM模型出現(xiàn)欠擬合,那么()能解決這一問題。A、增大懲罰參數(shù)CB、減小懲罰參數(shù)CC、減小核系數(shù)(gamma參數(shù))D、增大核系數(shù)(gamma參數(shù))【正確答案】:A解析:

SVM模型出現(xiàn)欠擬合,表明模型過于簡單,需要提高模型復雜度。C越大,相應的模型越復雜。17.下列機器學習算法中,不需要歸一化處理的是()。A、DecisionTreeB、SVMC、K-meansD、LogisticRegression【正確答案】:A解析:

DecisionTree屬于概率模型,不需要歸一化處理;SVM、K-means和LogisticRegression之類的最優(yōu)化問題需要歸一化處理。18.在一個簡單的線性回歸模型中(只有一個變量),如果將輸入變量改變一個單位(增加或減少),那么輸出將改變()。A、一個單位B、不變C、截距D、回歸模型的尺度因子【正確答案】:D解析:

假設線性回歸模型是,若x改變一個單位,如x+1,則y改變b個單位,b是回歸模型的尺度因子。19.機器學習訓練時,Mini-Batch的大小優(yōu)選為2的冪,如256或512。它背后的原因是()。A、Mini-Batch為偶數(shù)的時候,梯度下降算法訓練的更快B、Mini-Batch設為2的冪,是為了符合CPU、GPU的內存要求,利于并行化處理C、不使用偶數(shù)時,損失函數(shù)是不穩(wěn)定的D、以上答案都不正確【正確答案】:B20.參數(shù)估計可分為()和區(qū)間估計。A、線型估計B、點估計C、回歸估計D、二維分析【正確答案】:B解析:

參數(shù)估計是根據(jù)從總體中抽取的隨機樣本來估計總體分布中未知參數(shù)的過程。從估計形式看,區(qū)分為點估計與區(qū)間估計。21.下列關于機器學習模型的說法正確的是()。A、一個機器學習模型如果有較高準確率,總是說明這個分類器是好的B、如果增加模型復雜度,那么模型的測試錯誤率不一定會降低C、如果增加模型復雜度,那么模型的訓練錯誤率總是會降低【正確答案】:C解析:

一個機器學習模型如果有較高準確率,不能說明這個分類器是好的。對于不平衡的數(shù)據(jù)集進行預測時,正確率不能反映模型的性能。模型越復雜,在訓練集上越容易表現(xiàn)好,在測試集上越容易表現(xiàn)不好。22.下列說法錯誤的是()。A、當目標函數(shù)是凸函數(shù)時,梯度下降算法的解一般就是全局最優(yōu)解B、進行PCA降維時,需要計算協(xié)方差矩陣C、沿負梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:

沿負梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。23.學習率對機器學習模型結果會產(chǎn)生影響,通常希望學習率()。A、越小越好B、越大越好C、較小而迭代次數(shù)較多D、較大而迭代次數(shù)較小【正確答案】:C24.K-means++算法選擇初始sceds的基本思想就是初始的聚類中心之間的相互距離要盡可能的遠。對以下步驟:①從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心;②對于數(shù)據(jù)集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是D(x)較大的點,被選取作為聚類中心的概率較大;④重復②和③直到k個聚類中心被選出來;⑤利用這k個初始的聚類中心米運行標準的K-means算法。K-means++算法的正確流程為()。A、②⑤④③①B、①⑤④②③C、①②③④⑤D、④③②①⑤【正確答案】:C解析:

K-means++算法基本流程為:①從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心;②對于數(shù)據(jù)集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x);③選擇一個新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是D(x)較大的點,被選取作為聚類中心的概率較大;④重復②和③直到k個聚類中心被選出來;⑤利用這k個初始的聚類中心來運行標準的K-mcans算法。25.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學習等基于單學習機器利用未標記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學習器,而學習器之間的分歧(disagreement)對未標記數(shù)據(jù)的利用至關重要。()是此類方法的重要代表。A、協(xié)同訓練B、組合訓練C、配合訓練D、陪同訓練【正確答案】:A解析:

協(xié)同訓練是此類方法的重要代表,它很好地利用了多視圖的相容互補性。26.選擇哪一個解作為輸出,將由學習算法的歸納偏好決定,常見的做法是引入()。A、線性回歸B、線性判別分析C、正則化項D、偏置項【正確答案】:C27.下列關于支持向量機優(yōu)化性問題形式的說法正確的是()。A、它是一個凸二次規(guī)劃問題B、它是一個凸一次規(guī)劃問題C、它是一個凹二次規(guī)劃問題D、它是一個凹一次規(guī)劃問題【正確答案】:A解析:

支持向量機優(yōu)化性問題的一個凸二次規(guī)劃問題。28.()是二維隨機變量的分布。A、正態(tài)分布B、二項分布C、邊緣分布D、指數(shù)分布【正確答案】:C解析:

二維隨機變量的分布有邊緣分布和條件分布。29.()算法是分類算法。A、DBSCANB、C4.5C、K-meansD、EM【正確答案】:B解析:

C4.5是分類算法;DBSCAN、K-means、EM是聚類算法。30.一監(jiān)獄人臉識別準入系統(tǒng)用來識別待進入人員的身份,此系統(tǒng)能識別獄警、小偷、送餐員、其他人員4種不同人員。下列學習方法最適合此種應用需求的是()。A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題【正確答案】:C解析:

涉及4種人員類別屬于多分類問題。31.當學習器將訓練樣本自身的特點作為所有潛在樣本都具有的一般性質,這樣會導致泛化性能下降,這種現(xiàn)象稱為()。A、欠擬合B、過擬合C、擬合D、以上答案都不正確【正確答案】:B解析:

當學習器把訓練樣本學得太好了的時候,很可能已經(jīng)把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化性能下降,這種現(xiàn)象在機器學習中稱為過擬合。32.為了觀察測試Y與X之間的線性關系,若X是連續(xù)變量,則使用()比較適合。A、散點圖B、柱形圖C、直方圖D、以上答案都不正確【正確答案】:A解析:

散點圖反映了兩個變量之間的相互關系,在測試Y與X之間的線性關系時,使用散點圖最為直觀。33.下列關于K均值與DBSCAN比較的說法不正確的是()。A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇D、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇【正確答案】:A解析:

DBSCAN與K均值都是將每個對象指派到單個簇的劃分聚類算法,但K均值一般聚類所有對象,而DBSCAN丟棄被它識別為噪聲的對象。34.下列不屬于判別式模型的是()。A、決策樹BP神經(jīng)網(wǎng)絡C、支持向量機D、貝葉斯【正確答案】:D35.假設你需要調整參數(shù)來最小化代價函數(shù)(costfunction),會使用()技術。A、窮舉搜索B、隨機搜索C、Bayesian優(yōu)化D、以上全是【正確答案】:D36.下列算法中更適合做時間序列建模的是()。A、CNNB、決策樹C、LSTMD、貝葉斯算法【正確答案】:C解析:

LSTM為長短時記憶網(wǎng)絡,是一種時間遞歸神經(jīng)網(wǎng)絡。37.下列方法中:①增加更多的數(shù)據(jù);②使用數(shù)據(jù)擴增技術(dataaugmentation);③用歸納性更好的架構;④正規(guī)化數(shù)據(jù);⑤降低架構的復雜度可以用來降低深度習模型的過擬合問題的方法有()。A、①④⑤B、①②③C、①③④⑤D、所有項目都有用【正確答案】:D解析:

增多數(shù)據(jù)、數(shù)據(jù)擴增、正規(guī)化數(shù)據(jù)、選擇歸納性更好、復雜度更低的架構均可以用來降低深度學習模型的過擬合問題。38.bootstrap是指()。A、有放回地從總共M個特征中抽樣m個特征B、無放回地從總共M個特征中抽樣m個特征C、有放回地從總共N個樣本中抽樣n個樣本D、無放回地從總共N個樣本中抽樣n個樣本【正確答案】:C解析:

自助采樣法(bootstrapsampling):給定包含N個樣本的數(shù)據(jù)集,我們先隨機取出一個樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時該樣本仍有可能被選中,這樣經(jīng)過n次隨機采樣操作,我們得到含n個樣本的采樣集。39.假負率是指()。A、正樣本預測結果數(shù)/正樣本實際數(shù)B、被預測為負的正樣本結果數(shù)/正樣本實際數(shù)C、被預測為正的負樣本結果數(shù)/負樣本實際數(shù)D、負樣本預測結果數(shù)/負樣本實際數(shù)【正確答案】:B40.假設一個線性回歸模型完美適合訓練數(shù)據(jù)(訓練誤差為0),則下列說法正確的是()。A、測試集誤差一直為0B、測試集誤差可能為0C、測試集誤差不會為0D、以上都不對【正確答案】:B解析:

假如測試數(shù)據(jù)里面沒有噪聲數(shù)據(jù),則測試誤差有可能為0?;蛘哒f,如果測試數(shù)據(jù)能夠完美表征訓練數(shù)據(jù)集,則測試誤差即可為0,但測試數(shù)據(jù)不會總這樣。41.機器學習中發(fā)生過擬合的主要原因不包括()。A、使用過于復雜的模型B、數(shù)據(jù)噪聲較大C、訓練數(shù)據(jù)少D、訓練數(shù)據(jù)充足【正確答案】:D解析:

訓練數(shù)據(jù)充足可以降低過擬合。42.在大型數(shù)據(jù)集上訓練決策樹時,為了花費更少的時間來訓練這個模型,下列做法正確的是()。A、增加樹的深度B、增加學習率C、減小樹的深度D、減少樹的數(shù)量【正確答案】:C解析:

決策樹深度越深,在訓練集上誤差會越小,準確率越高。但是容易造成過擬合,而且增加模型的訓練時間。對決策樹進行修剪,減小樹的深度,能夠提高模型的訓練速度,有效避免過擬合。43.線性判別分析在二分類問題上也稱為()。A、線性回歸B、對數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:

線性判別分析在二分類問題上也稱為Fisher判別分析。44.一般而言,在個體學習器性能相差較大與個體學習器性能相近時宜分別使用()。A、簡單平均法,加權平均法B、加權平均法,簡單平均法C、簡單平均法,簡單平均法D、加權平均法,加權平均法【正確答案】:B45.假設precision=TP/(TP+FP),recall=TP/(TP+FN(TP+FN),則在二分類問題中,當測試集的正例和負例數(shù)量不均衡時,下列評價方案中相對不合理的是()。Accuracy:((TP+TN)/allB、FvaluC、1*precisioprecision)D、G-mean:sqrt(precision*recall)E、AUF、曲線下面積【正確答案】:A解析:

測試集正例和負例數(shù)量不均衡,那么假設正例數(shù)量很少占10%,負例數(shù)量占90%。而且算法能正確識別所有負例,但正例只有一半能正確判別。那么TTP=0.05xall,TN=0.9xall,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。46.CART決策樹通常采用()剪枝方法。A、REP(錯誤率降低)B、CCP(代價復雜度)C、PEP(悲觀剪枝)D、預剪枝【正確答案】:B47.假如使用一個較復雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調試正則化參數(shù)入,來降低模型復雜度。在入較大時,下列關于偏差(bias)和方差(variance)關系的說法正確的是()。A、偏差減小,方差減小B、偏差減小,方差增大C、偏差增大,方差減小D、偏差增大,方差增大【正確答案】:C解析:

入較小,偏差減小,方差增大,容易發(fā)生過擬合;入較大,偏差增大,方差減小,容易發(fā)生欠擬合。48.()是指數(shù)據(jù)減去一個總括統(tǒng)計量或模型擬合值時的殘余部分。A、極值B、標準值C、平均值D、殘值【正確答案】:D解析:

殘值在數(shù)理統(tǒng)計中是指實際觀察值與估計值(擬合值)之間的差。49.在抽樣估計中,隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。這一性質稱為()。A、無偏性B、有效性C、及時性D、一致性【正確答案】:D解析:

一致性是指隨著樣本容量的增大,樣本統(tǒng)計量接近總體參數(shù)的概率就越大。50.在同歸模型中,()在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大。A、多項式階數(shù)B、更新權重w時,使用的是矩陣求逆C、使用常數(shù)項D、使用梯度下降法【正確答案】:A解析:

選擇合適的多項式階數(shù)非常重要。如果階數(shù)過大,模型就會更加復雜,容易發(fā)生過擬合;如果階數(shù)較小,模型就會過于簡單,容易發(fā)生欠擬合。51.下列不屬于模型集成方法的是()。A、直接集成法B、增強法C、堆疊法D、遞歸法【正確答案】:D解析:

模型集成方法包括直接集成法、自助法、隨機森林、增強法和堆疊法等。52.多分類學習中,最經(jīng)典的三種拆分策略不包括()。A、一對一B、一對其余C、一對多D、多對多【正確答案】:A解析:

多分類學習中,最經(jīng)典的三種拆分策略包括一對多、多對多、一對其余。53.假設有n組數(shù)據(jù)集,每組數(shù)據(jù)集中x的平均值都是9,x的方差都是11,y的平均值都是7.50,x與y的相關系數(shù)都是0.816,擬合的線性回歸方程都是

Y=3.00+0.500x。那么這n組數(shù)據(jù)集()。A、一樣B、不一樣C、無法確定是否一樣D、以上都不對【正確答案】:C解析:

只比較平均值、方差、相關系數(shù)和回歸方程,無法確定數(shù)據(jù)集是否相同,還需比較Anscombe'squartet。54.以等可能性為基礎的概率是()。A、古典概率B、經(jīng)驗概率C、試驗概率D、主觀概率【正確答案】:A解析:

古典概率是以這樣的假設為基礎的,即隨機現(xiàn)象所能發(fā)生的事件是有限的、互不相容的,而且每個基本事件發(fā)生的可能性相等。根據(jù)大量的、重復的統(tǒng)計試驗結果計算隨機事件中各種可能發(fā)生結果的概率稱為試驗概率或頻率概率。主觀概率是指建立在過去的經(jīng)驗與判斷的基礎上,根據(jù)對未來事態(tài)發(fā)展的預測和歷史統(tǒng)計資料的研究確定的概率,反映的只是一種主觀可能性。55.線性判別分析(LDA)從貝葉斯決策理論闡釋,當兩類數(shù)據(jù)同先驗且滿足()時,LDA達到最優(yōu)分類。A、高斯分布B、協(xié)方差相等C、高斯分布且協(xié)方差相等D、協(xié)方差不等【正確答案】:C56.基于Bagging的集成學習代表算法有()。AdaboostB、GBDTC、XGBOOSTD、隨機森林【正確答案】:D解析:

基于Boosting的集成學習算法的集成學習代表算法包含Adaboost、GBDT、XGBOOST,隨機森林是基于Bagging。57.采樣分析的精確性隨著采樣隨機性的增加而(),但與樣本數(shù)量的增加關系不大。A、降低B、不變C、提高D、無關【正確答案】:C解析:

采樣分析的精確性隨著采樣隨機性的增加而提高,但與樣本數(shù)量的增加關系不大。當樣本數(shù)量達到某個值后,我們從新個體上得到的信息會越來越少。58.緩解過擬合的一個辦法是允許支持向量機在一些樣本上出錯,()形式適合這種方法。A、硬間隔支持向量機B、軟間隔支持向量機C、線性核函數(shù)支持向量機D、多項式核函數(shù)支持向量機【正確答案】:B解析:

軟間隔允許某些樣本不滿足約束,可緩解過擬合。59.()先對數(shù)據(jù)集進行特征選擇,然后再訓練學習器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A60.聚類算法的性能度量可稱為()。A、密度估計B、異常檢測C、有效性指標D、分布結構【正確答案】:C61.概率模型的訓練過程就是()過程。A、分類B、聚類C、參數(shù)估計D、參數(shù)選擇【正確答案】:C62.()算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。AprioriB、EMC、PCAD、PAC【正確答案】:A解析:

Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。PCA是無監(jiān)督的降維算法。概率近似正確(PAC)學習理論是計算學習理論中最基本的理論。最大期望算法(expectationmaximumEM),是一類通過迭代進行極大似然估計的優(yōu)化算法。63.下列關于L1正則化與L2正則化的描述錯誤的是()。A、L1范數(shù)正則化有助于降低過擬合風險B、L2范數(shù)正則化有助于降低過擬合風險C、L1范數(shù)正則化比L2范數(shù)正則化更易于獲得稀疏解D、L2范數(shù)正則化比L1范數(shù)正則化更易于獲得稀疏解【正確答案】:C64.在邏輯回歸輸出與目標對比的情況下,下列評估指標不適用的是()。AUC-ROCB、準確度C、LoglossD、均方誤差【正確答案】:D解析:

LogisticRegression是一個分類算法,所以它的輸出不能是實時值,所以均方誤差不能用于評估它。65.在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()。A、異方差B、序列相關C、多重共線性D、高擬合優(yōu)度【正確答案】:C66.()是以樣本統(tǒng)計量作為未知總體參數(shù)的估計量,并通過對樣本單位的實際觀察取得樣本數(shù)據(jù),計算樣本統(tǒng)計量的取值作為被估計參數(shù)的估計值。A、參數(shù)估計B、邏輯分析C、方差分析D、回歸分析【正確答案】:A解析:

參數(shù)估計是統(tǒng)計推斷的一種,根據(jù)從總體中抽取的隨機樣本來估計總體分布中未知參數(shù)。67.下列關于Apriori算法原理的敘述錯誤的是()。Apriori算法通常使用先驗知識或者假設B、如果某個項集是頻繁的,那么它的所有子集也是頻繁的C、如果一個項集是非頻繁集,那么它的所有超集也是非頻繁的D、Apriori算法不可以用來發(fā)現(xiàn)頻繁集【正確答案】:D解析:

Apriori算法可以用來發(fā)現(xiàn)頻繁集。68.進行主成分分析的前提條件是各變量間()。A、高度相關B、低度相關C、相互獨立D、完全相關【正確答案】:B69.下列關于隨機森林和GBDT的說法正確的是()。A、在隨機森林的單個樹中,樹和樹之間是有依賴的,而GBDT中的單個樹之間是沒有依賴的B、這兩個模型都使用隨機特征子集,來生成許多單個的樹C、我們可以并行地生成GBDT單個樹,因為它們之間是沒有依賴的D、GBDT訓練模型的表現(xiàn)總是比隨機森林好【正確答案】:B解析:

組成隨機森林的樹可以并行生成;而GBDT只能是串行生成。70.()選擇成為支持向量機的最大變數(shù)。A、核函數(shù)B、樣本空間C、模型D、算法【正確答案】:A解析:

在不知道特征映射的形式時,我們并不知道什么樣的核函數(shù)是合適的,而核函數(shù)也僅是隱式地定義了這個特征空間,因此核函數(shù)選擇成為支持向量機的最大變數(shù)。71.訓練樣本集S含有天氣、氣溫、人體感受、風力4個指標,已知天氣的熵為0.694,溫度的熵為0.859,人體感受的熵為0.952,風力的熵為0.971,如使用ID3算法,選擇()為樹模型的分界點。A、天氣B、氣溫C、人體感受D、風力【正確答案】:A解析:

信息熵(informationentropy)是度量樣本集合純度最常用的一種指標,信息熵越大,變量的不確定性越大,反之越小。樹模型的分界點應選擇信息熵最小的元素,本體選天氣。72.機器學習中L1正則化和L2正則化的區(qū)別是()。A、使用L1可以得到稀疏的權值,使用L2可以得到平滑的權值B、使用Ll可以得到平滑的權值,使用L2可以得到平滑的權值C、使用Ll可以得到平滑的權值,使用L2可以得到稀疏的權值D、使用L1可以得到稀疏的權值,使用L2可以得到稀疏的權值【正確答案】:A解析:

使用L1可以得到稀疏的權值,使用L2可以得到平滑的權值。73.隨機森林是在()上的一個擴展變體。A、BoostingB、AdasBoostC、RFD、Bagging【正確答案】:D74.下列關于隨機森林的說法正確的是()。A、隨機森林對于高維數(shù)據(jù)集的處理能力比較好B、在對缺失數(shù)據(jù)進行估計時,隨機森林是一個十分有效的方法C、當存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法D、以上答案都正確【正確答案】:D解析:

隨機森林對于高維數(shù)據(jù)集的處理能力比較好,在對缺失數(shù)據(jù)進行估計時,隨機森林是一個十分有效的方法,當存在分類不平衡的情況時,隨機森林能夠提供平衡數(shù)據(jù)集誤差的有效方法。75.任何一個核函數(shù)都隱式地定義了一個()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間【正確答案】:C76.如果說線性回歸模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下列說法正確的是()。A、測試樣本誤差始終為零B、測試樣本誤差不可能為零C、測試樣本誤差不一定為零D、以上答案都不對【正確答案】:C解析:

根據(jù)訓練樣本誤差為零,無法推斷測試樣本誤差是否為零。如果測試樣本集很大,則很可能發(fā)生過擬合,導致模型不具備很好的泛化能力。77.假定使用SVM學習數(shù)據(jù)X,數(shù)據(jù)X里面有些點存在錯誤。現(xiàn)在如果使用一個二次核函數(shù),多項式階數(shù)為2,使用松弛變量C作為超參之一。當使用較大的C(C趨于無窮),則()。A、仍然能正確分類數(shù)據(jù)B、不能正確分類C、不確定D、以上均不正確【正確答案】:A解析:

采用更大的C,誤分類點的懲罰就更大,因此決策邊界將盡可能完美地分類數(shù)據(jù)。78.KNN近鄰算法在()的情況下效果較好。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團狀分布D、樣本呈鏈狀分布【正確答案】:B解析:

KNN算法主要依靠的是周圍的點,因此如果樣本過多,則難以區(qū)分,典型性好的容易區(qū)分。樣本都是呈團狀分布,KNN就發(fā)揮不出其求近鄰的優(yōu)勢了,整體樣本應該具有典型性好,樣本較少,比較適宜。79.在K均值算法中,()可用于獲得全局最小。A、嘗試為不同的質心(centroid)初始化運行算法B、調整迭代的次數(shù)C、找到集群的最佳數(shù)量D、以上答案都正確【正確答案】:D解析:

所有都可以用來調試以找到全局最小。80.使用似然函數(shù)的目的是()。A、求解目標函數(shù)B、得到最優(yōu)數(shù)據(jù)樣本C、找到最適合數(shù)據(jù)的參數(shù)D、改變目標函數(shù)分布【正確答案】:C解析:

似然估計是一種確定模型參數(shù)值的方法。確定參數(shù)值的過程,是找到使模型產(chǎn)生真實觀察數(shù)據(jù)可能性最大的那一組參數(shù)。81.后剪枝是先從訓練集生成一顆完整的決策樹,然后()對非葉結點進行考察。A、自上而下B、在劃分前C、禁止分支展開D、自底向上【正確答案】:D82.在k近鄰學習算法中,隨著k的增加,上界將逐漸降低,當k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達到了()。A、貝葉斯錯誤率B、漸進錯誤率C、最優(yōu)值D、上界【正確答案】:A83.邏輯回歸將輸出概率范圍限定為[0,1],()函數(shù)能起到這樣的作用。A、Sigmoid()函數(shù)B、tanh()函數(shù)C、ReLU()函數(shù)D、LeakyReLU()函數(shù)【正確答案】:A解析:

Sigmoid()函數(shù)輸出值限定為[0,1]。84.關聯(lián)規(guī)則的評價指標是()。A、均方誤差、均方根誤差B、Kappa統(tǒng)計、顯著性檢驗C、支持度、置信度D、平均絕對誤差、相對誤差【正確答案】:C解析:

支持度、置信度是關聯(lián)規(guī)則的評價指標。85.如果建立一個5000個特征、100萬個數(shù)據(jù)的機器學習模型,則有效地應對這樣的大數(shù)據(jù)訓練的方法是()。A、隨機抽取一些樣本,在這些少量樣本之上訓練B、可以試用在線機器學習算法C、應用PCA算法降維,減少特征數(shù)D、以上答案都正確【正確答案】:D解析:

樣本數(shù)過多或者特征數(shù)過多而不能單機完成訓練時,可以用小批量樣本訓練,或者在線累計式訓練,或者主成分PCA降維方式減少特征數(shù)量再進行訓練。86.隨機森林與Bagging中基學習器多樣性的區(qū)別是()。A、都來自樣本擾動B、都來自屬性擾動C、來自樣本擾動和屬性擾動D、多樣本集結合【正確答案】:C解析:

Bagging中基學習器的多樣性僅來自樣本擾動(自助采樣),隨機森林中基學習器的多樣性不僅來自樣本擾動,還來自屬性擾動。87.下列關于降維算法中主成分分析的說法錯誤的是()。A、有監(jiān)督算法B、可以指定降維的維度C、基于方差來計算D、根據(jù)特征值大小來篩選特征【正確答案】:A解析:

主成分分析法屬于無監(jiān)督算法。88.()算法指的是給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離。A、PCAB、SVMC、K-meansD、LDA【正確答案】:D89.當特征值大致相等時,會發(fā)生的情況是()。A、PCA將表現(xiàn)出色B、PCA將表現(xiàn)不佳C、不知道D、以上都沒有【正確答案】:B解析:

當所有特征向量相同時將無法選擇主成分,因為在這種情況下所有主成分相等。90.下列關于Boosting的說法錯誤的是()。A、Boosting方法的主要思想是迭代式學習B、訓練基分類器時采用并行的方式C、測試時,根據(jù)各層分類器的結果的加權得到最終結果D、基分類器層層疊加,每一層在訓練時,對前一層基分類器分錯的樣本給予更高的權值【正確答案】:B解析:

Boosing訓練基分類器時只能采用順序的方式,Bagging訓練基分類器時采用并行的方式。91.如果使用線性回歸模型,則下列說法正確的是()。A、檢查異常值是很重要的,因為線性回歸對離群效應很敏感B、線性回歸分析要求所有變量特征都必須具有正態(tài)分布C、線性回歸假設數(shù)據(jù)中基本沒有多重共線性D、以上說法都不對【正確答案】:A解析:

異常值是數(shù)據(jù)中的一個非常有影響的點,它可以改變最終回歸線的斜率。因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用的,類似于正態(tài)分布的變量特征對提升模型性能很有幫助,數(shù)據(jù)預處理的時候經(jīng)常做的一件事就是將數(shù)據(jù)特征歸一化到(0,1)分布,但不是必需的。當模型包含相互關聯(lián)的多個特征時,會發(fā)生多重共線性。因此,線性回歸中變量特征應該盡量減少冗余性。92.在一個線性回歸問題中,通常使用R平方(R-Squared)來判斷擬合度。此時,如果增加一個特征,模型不變,則下面說法正確的是()。A、如果R-Squared增加,則這個特征有意義B、如果R-Squared減小,則這個特征沒有意義C、僅看R-Squared單一變量,無法確定這個特征是否有意義D、以上說法都不對【正確答案】:C解析:

單獨看R-Squared,并不能推斷出增加的特征是否有意義。通常來說,增加一個特征,R-Squared可能變大也可能保持不變,兩者不一定呈正相關。93.主成分分析的優(yōu)化目標是一個()。A、不含約束條件的二次規(guī)劃問題B、含有約束條件的二次規(guī)劃問題C、不含約束條件的線性規(guī)劃問題D、含有約束條件的線性規(guī)劃問題【正確答案】:B94.決策樹中,同一路徑上的所有屬性之間是()關系。A、因果B、相關C、邏輯或D、邏輯與【正確答案】:D95.下列關于聚類挖掘技術的說法錯誤的是()。A、不預先設定數(shù)據(jù)歸類類目,完全根據(jù)數(shù)據(jù)本身性質將數(shù)據(jù)聚合成不同類別B、要求同類數(shù)據(jù)的內容相似度盡可能小C、要求不同類數(shù)據(jù)的內容相似度盡可能小D、與分類挖掘技術相似的是,都是要對數(shù)據(jù)進行分類處理【正確答案】:B解析:

聚類挖掘技術中要求不同類數(shù)據(jù)的內容相似度盡可能小。96.SVM在()情況下表現(xiàn)糟糕。A、線性可分數(shù)據(jù)B、清洗過的數(shù)據(jù)C、含噪聲數(shù)據(jù)與重疊數(shù)據(jù)點【正確答案】:C解析:

[y1(wx,+b)≥1]下97.當訓練集特征非常多,而實例非常少的時候,可以采用()。A、sigmoid核的支持向量機B、不帶核的支持向量機C、高斯核的支持向量機D、多項式核的支持向量機【正確答案】:B解析:

當不采用非常復雜的函數(shù),或者當我們的訓練集特征非常多但是實例非常少的時候,可以采用不帶核函數(shù)的支持向量機。98.聚類是一種典型的無監(jiān)督學習任務,然而在現(xiàn)實聚類任務中我們往往能獲得一些額外的監(jiān)督信息,于是可通過()來利用監(jiān)督信息以獲得更好的聚類效果。A、監(jiān)督聚類B、半監(jiān)督聚類C、聚類D、直推聚類【正確答案】:B99.在集成學習中,對于數(shù)據(jù)型輸出,最常見的結合策略是()。A、平均法B、投票法C、學習法D、以上答案都正確【正確答案】:A100.任一隨機事件出現(xiàn)的概率P為()。A、-1≤P≤1B、0≤P≤1。P=0C、P≥1D、0≤P≤1【正確答案】:D解析:

果沒有其他的附加條件,一般概率P的取值范圍是代表不可能發(fā)生,P=1=1代表一定會發(fā)生。1.許多功能更為強大的非線性模型可在線性模型基礎上通過引入()而得。A、層級結構B、高維映射C、降維D、分類【正確答案】:AB2.如果將A、B、C三個分類器的P-R曲線畫在一個圖中,其中A、B的P-R曲線可以完全包含住C的P-R曲線,A、B的P-R曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,則下列說法中正確的有()。A、學習器A的性能優(yōu)于學習器CB、學習器A的性能優(yōu)于學習器BC、學習器B的性能優(yōu)于學習器CD、學習器C的性能優(yōu)于學習器B【正確答案】:ABC解析:

若一個學習器的P-R曲線被另一個學習器的曲線完全包住,則可斷官后者的性能優(yōu)于前者,如果兩個學習器的P-R曲線發(fā)生了交叉,則可用平衡點度量。3.下列關于LDA判別分析思想的描述正確的有()。A、同類樣例的投影點盡可能近B、異類樣例的投影點盡可能遠C、同類樣例的投影點盡可能遠D、異類樣例的投影點盡可能近【正確答案】:AB解析:

LDA的思想非常樸素,即給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離。在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據(jù)投影點的位置來確定新樣本的類別。4.特征選擇的目的有()。A、減少特征數(shù)量、降維B、使模型泛化能力更強C、增強模型擬合能力D、減少過擬合。【正確答案】:ABD解析:

特征選擇的主要目的是減少特征的數(shù)量、降低特征維度、使模型泛化能力更強、減少過擬合。5.下列關于決策樹的優(yōu)點的描述正確的有()。A、可讀性強B、分類速度快C、只用于回歸問題D、是無監(jiān)督學習【正確答案】:AB解析:

決策樹也可用于回歸,屬于有監(jiān)督的機器學習算法。6.聚類性能度量的指標主要分為外部指標和內部指標,其中屬于內部指標的是()。A、Jaccard指數(shù)B、FM指數(shù)C、DB指數(shù)Dunn指數(shù)【正確答案】:CD解析:

AB為外部指標。7.針對維數(shù)災難,主要采用的降維方法有()。A、多維縮放B、主成分分析C、核化線性降維D、流形學習【正確答案】:ABCD8.下列可以用于特征降維的方法有()。A、主成分分析PCAB、線性判別分析LDAC、深度學習SparseAutoEncoderD、矩陣奇異值分解SVD【正確答案】:ABD9.集成學習中增強多樣性的常見做法有()。A、數(shù)據(jù)樣本擾動B、輸入屬性擾動C、輸出表示擾動D、算法參數(shù)擾動【正確答案】:ABCD解析:

集成學習中增強多樣性的常見做法主要有對數(shù)據(jù)樣本、輸入屬性、輸出表示、算法參數(shù)進行擾動。10.下列關于機器學習的理解正確的有()。A、非監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的B、監(jiān)督學習和非監(jiān)督學習的區(qū)別在于是否要求樣本數(shù)據(jù)帶標簽C、強化學習以輸入數(shù)據(jù)作為對模型的反饋D、卷積神經(jīng)網(wǎng)絡一般用于圖像處理等局部特征相關的數(shù)據(jù)【正確答案】:BCD解析:

非監(jiān)督學習的樣本數(shù)據(jù)是不要求帶標簽的,監(jiān)督學習的樣本數(shù)據(jù)是要求帶標簽的。11.在統(tǒng)計模式分類問題中,當先驗概率未知時,可以使用()。A、最小最大損失準則B、最小誤判概率準則C、最小損失準則D、N-P判決【正確答案】:AD12.一個監(jiān)督觀測值集合會被劃分為()。A、訓練集B、驗證集C、測試集D、預處理集【正確答案】:ABC解析:

一個監(jiān)督觀測值集合會被劃分為訓練集、測試集、預測集。其中測試集來測試學習器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。13.在監(jiān)督式學習中使用聚類算法的方法有()。A、首先可以創(chuàng)建聚類,然后分別在不同的集群上應用監(jiān)督式學習算法B、在應用監(jiān)督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征C、在應用監(jiān)督式學習之前,不能創(chuàng)建聚類D、在應用監(jiān)督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的特征【正確答案】:AB解析:

我們可以為不同的集群構建獨立的機器學習模型,并且可以提高預測精度。將每個類別的ID作為特征空間中的一個額外的特征可能會提高的精度結果。14.下列對模型性能提高有幫助的有()。A、數(shù)據(jù)預處理B、特征工程C、機器學習算法D、模型集成【正確答案】:ABCD解析:

數(shù)據(jù)預處理、特征工程、機器學習算法、模型集成均可提高模型性能。15.可以幫助解決訓練集在特征空間中線性不可分的問題的方法有()。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:

核函數(shù)解決線性不可分的本質思想就是把原始的樣本通過核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。16.特征選擇方法有()。AIC赤池信息準則B、LARS嵌入式特征選擇方法C、LVW包裹式特征選擇方法D、Relief過濾式特征選擇方法【正確答案】:BCD解析:

AIC赤池信息準則是常用的模型選擇方法。17.深度學習方法不適用的數(shù)據(jù)集有()。A、數(shù)據(jù)樣本充足B、數(shù)據(jù)樣本不足C、數(shù)據(jù)集具有局部相關特性D、數(shù)據(jù)集沒有局部相關特性【正確答案】:BD解析:

以下數(shù)據(jù)集不適用于深度學習:①數(shù)據(jù)集太小,數(shù)據(jù)樣本不足時,深度學習相對其他機器學習算法沒有明顯優(yōu)勢;②數(shù)據(jù)集沒有局部相關特性,目前深度學習表現(xiàn)比較好的領域主要是圖像、語音、自然語言處理等領域,這些領域的一個共性是局部相關性。圖像中像素組成物體,語音信號中音位組合成單詞,文本數(shù)據(jù)中單詞組合成句子,這些特征元素的組合一旦被打亂,表示的含義同時也被改變。對于沒有這樣的局部相關性的數(shù)據(jù)集,不適用于使用深度學習算法進行處理。18.下列屬于數(shù)值優(yōu)化算法的有()。A、梯度下降法B、牛頓法C、極大似然法D、邏輯回歸【正確答案】:AB解析:

在機器學習的優(yōu)化問題中,梯度下降法和牛頓法是常用的兩種凸函數(shù)求極值的方法,他們都是為了求得目標函數(shù)的近似解。極大似然法是一種應用非常廣泛的參數(shù)估計方法。邏輯回歸是一種廣義的線性回歸分析模型,常用于分類問題。19.在正則化公式中,入為正則化參數(shù)。下列關于入的描述正確的有()。A、若正則化參數(shù)入過大,可能會導致出現(xiàn)欠擬合現(xiàn)象B、若入太大,則梯度下降可能不收斂C、取一個合理的λ,可以更好地應用正則化D、如果令λ很大的話,為了使CostFunction盡可能的小,所有0(不包括0。)都會在一定程度上減小【正確答案】:ABCD解析:

正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。20.下列關于集成學習的說法正確的有()。A、隨機森林是減少模型的方差,而GBDT是減少模型的偏差B、組成隨機森林的樹可以并行生成,而GBDT是串行生成C、隨機森林的結果是多數(shù)表決的,而GBDT則是多棵樹累加之和D、隨機森林對異常值不敏感,而GBDT對異常值比較敏感【正確答案】:ABCD解析:

隨機森林與GBDT之間的區(qū)別:①組成隨機森林的樹可以是分類樹也可以是回歸樹,而GBDT只由回歸樹組成;②組成隨機森林的樹可以并行生成,而GBDT是串行生成;③隨機森林的結果是多數(shù)表決的,而GBDT則是多棵樹累加之和;④隨機森林對異常值不敏感,而GBDT對異常值比較敏感;⑤隨機森林是通過減少模型的方差來提高性能,而GBDT是減少模型的偏差來提高性能的;⑥隨機森林不需要進行數(shù)據(jù)預處理即特征歸一心而GBDT則需要進行特征歸一化。21.()是通過對無標記訓練樣本的學習來進行分類的。A、密度估計B、異常檢測C、線性回歸D、聚類分析【正確答案】:ABD22.如果想要訓練一個ML模型,樣本數(shù)量為100萬個,特征維度為5000個,面對如此大數(shù)據(jù),那么有效地訓練模型可以采取的措施有()。A、對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B、嘗試使用在線機器學習算法C、使用PCA算法減少特征維度【正確答案】:ABC解析:

大數(shù)據(jù)可以采用對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型,嘗試使用在線機器學習算法,使用PCA算法減少特征維度。23.特征選擇在子集生成與搜索方面引入了人工智能搜索技術和子集評價方法。其中人工智能搜索技術有()。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】:ABCD解析:

特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術,如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準則,如信息熵、AIC等。24.關于特征向量的缺失值處理方式如下:缺失值較多,直接將該特征舍棄掉,否則可能會帶入較大的noise,對結果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內,可以采取的處理方式有()。A、把NaN直接作為一個特征,假設用0表示B、用均值填充C、用隨機森林等算法預測填充D、以上選項都不正確【正確答案】:ABC解析:

缺失值較少的處理方式:①把NAN直接作為一個特征,假設用0表示;②用均值填充;③用隨機森林等算法預測填充;④用插值法填充。25.常見的回歸分析的種類有()。A、線性回歸B、系數(shù)回歸C、邏輯回歸D、曲線回歸【正確答案】:ACD26.當構造線性模型時,應注意變量間的相關性。在相關矩陣中搜索相關系數(shù)時,如果發(fā)現(xiàn)3對變址的相關系數(shù)是(Varl和Var2、Var2和Var3、Var3和Varl),相關系數(shù)分別是-0.98、0.45、1.23,則可以得出的結論有()。A、Varl和Var2是非常相關的B、因為Varl和Var2是非常相關的,可以去除其中一個C、Var3和Varl的相關系數(shù)1.23是不可能的【正確答案】:ABC解析:

Varl和Var2之間的相關性非常高,并且是負的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關大于0.7或小于-0.7,則認為特征之間有很高的相關性。相關系數(shù)范圍為[-1,1],C選項中1.23明顯有誤。27.下列屬于范數(shù)規(guī)則化作用的有()。A、保證模型盡可能的簡單,避免過擬合B、約束模型特征C、最小化問題D、最大化問題【正確答案】:AB28.HighBias(高偏差)的解決方式有()。A、BoostingB、復雜模型(非線性模型、增加神經(jīng)網(wǎng)絡中的層)C、更多特征D、以上選項都不正確【正確答案】:ABC解析:

偏差刻畫了學習算法本身的擬合能力,高偏差意味著欠擬合,可通過Boosting、復雜模型(非線性模型、增加神經(jīng)網(wǎng)絡中的層)、更多特征等方式解決。29.決策樹的劃分選擇有()。A、增益系數(shù)B、信息增益C、增益率D、基尼系數(shù)【正確答案】:BCD30.下列不屬于聚類性能度量內部指標的有()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內部指標包括DB指數(shù)、Dunn指數(shù)。31.假設目標遍歷的類別非常不平衡,即主要類別占據(jù)了訓練數(shù)據(jù)的99%,假設現(xiàn)在模型在訓練集上表現(xiàn)為99%的準確度,那么下列說法正確的有()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:

精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。32.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學習算法,訓練樣本的標記信息是未知的。33.常用的代價函數(shù)有()。A、均方誤差B、均方根誤差C、平均絕對誤差D、交叉熵【正確答案】:ABCD34.數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析、()等方面。A、關聯(lián)分析B、分類和預測分析C、聚類分析D、偏差分析【正確答案】:ABCD35.一個回歸模型存在多重共線問題,在不損失過多信息的情況下,可采取的措施有()。A、剔除所有的共線性變量B、別除共線性變量中的一個C、通過計算方差膨脹因子(varianceinflationfactor,VIF)來檢查共線性程度,并采取相應措施D、刪除相關變量可能會有信息損失,我們可以不刪除相關變量,而使用一些正則化方法來解決多重共線性問題,例如Ridge或Lasso回歸【正確答案】:BCD解析:

為了檢查多重共線性,我們可以創(chuàng)建相關系數(shù)矩陣來辨別和移除相關系數(shù)大于75%的變量(閾值根據(jù)情況設定)。除此之外,可以使用VIF方法來檢查當前存在的共線變量。VIF≤4表明沒有多種共線,VIF≥10表明有著嚴重的多重共線性,也可以使用公差(tolcrance)作為評估指標。但是,移除相關變量可能導致信息的丟失,為了保留這些變量,可以使用帶懲罰的回歸方法??梢栽谙嚓P變量之間隨機加入噪聲,使得變量之間存在差異,但增加噪聲可能影響準確度,因此這種方法應該小心使用。36.下列關于Ridge回歸的說法正確的有()。A、若λ=0,則等價于一般的線性回歸B、若λ=0,則不等價于一般的線性回歸C、o+=YD、若,則得到的權重系數(shù)很小,接近于零E、8+ルF、若,則得到的權重系數(shù)很大,接近與無窮大【正確答案】:AC解析:

λ=+0Ridge回歸中,若λ=0,則等價于一般的線性回歸;若,則得到的權重系數(shù)很小,接近于零。37.聚類性能度量外部指標包括()。A、Jaccard系數(shù)B、FM指數(shù)C、Dunn指數(shù)D、Rand指數(shù)【正確答案】:ABD解析:

常用的聚類性能度量外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。38.下列說法正確的有()。A、條件獨立性假設不成立時,樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B、在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D、二分類任務中兩類數(shù)據(jù)滿足高斯分布且方差相同時,線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器【正確答案】:ABD解析:

由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。39.數(shù)據(jù)再利用的意義有()。A、挖掘數(shù)據(jù)的潛在價值B、提高社會效益,優(yōu)化社會管理C、實現(xiàn)數(shù)據(jù)重組的創(chuàng)新價值D、優(yōu)化存儲設備,降低設備成本【正確答案】:ACD解析:

數(shù)據(jù)的再利用可以挖掘數(shù)據(jù)的潛在價值、實現(xiàn)數(shù)據(jù)組重組的創(chuàng)新價值,并且可以利用數(shù)據(jù)的可拓展性拓展業(yè)務領域40.下列關于密度聚類的說法錯誤的有()。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴展聚類簇,以獲得最終的聚類結果D、密度直達關系通常滿足對稱性【正確答案】:BCD解析:

密度聚類從樣本密度的角度來考察樣本之間的可連接性;密度聚類基于可連接樣本不斷擴展聚類簇,以獲得最終的聚類結果;密度直達關系通常不滿足對稱性;密度可達關系滿足直遞性,但不滿足對稱性;密度相連關系滿足對稱性。41.下列關于AUC面積的描述正確的有()。AUC被定義為ROC曲線下與坐標軸圍成的面積B、AUC面積的值大于1C、AUC面積的值等于0.5時,真實性最低,無應用價值D、AUC面積的值越接近1.0,檢測方法真實性越高【正確答案】:ACD解析:

AUC面積的值不大于1。42.下列方法中適合減少數(shù)據(jù)集中的特征數(shù)即降維的有()。A、使用前向特征選擇方法B、使用后向特征排除方法C、我們先把所有特征都使用,去訓練一個模型,得到測試集上的表現(xiàn)。然后我們去掉一個特征,再去訓練,用交叉驗證看看測試集上的表現(xiàn)。如果表現(xiàn)比原來還要好,我們可以去除這個特征D、查看相關性表,去除相關性最高的一些特征【正確答案】:ABCD解析:

前向特征選擇方法和后向特征排除方法是特征選擇的常用方法。如果前向特征選擇方法和后向特征排除方法在大數(shù)據(jù)上不適用,可以用選項C的方法。用相關性的度量去刪除多余特征也是一個可行的方法。43.下列關于EM算法的描述正確的有()。A、EM算法是常用的估計參數(shù)隱變量的利器B、EM算法即是期望最大化算法C、EM算法常被用來學習高斯混合模型的參數(shù)D、EM算法是一種迭代式的方法【正確答案】:ABCD44.常見的原型聚類算法包括()。A、K均值算法B、學習向量量化C、高斯混合聚類D、密度聚類【正確答案】:ABC45.常見的聚類性能度量外部指標有()。A、Jaccard系數(shù)B、DB指數(shù)C、FM指數(shù)D、以上答案都正確【正確答案】:AC解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)。46.下列關于特征數(shù)據(jù)歸一化的說法正確的有()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:

歸一化方法比較適用于數(shù)值比較集中的情況,這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經(jīng)驗常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。47.鑒別多元共線特征后,下一步可能的操作有()。A、移除兩個共線變量B、不移除兩個變量,而是移除一個C、移除相關變量可能會導致信息損失,可以使用懲罰線性回歸模型(如ridge或lassoregression)【正確答案】:BC解析:

移除兩個變量會損失一切信息,所以只能移除一個特征,或者也可以使用正則化算法。48.常用的沖突消解策略包括()。A、投票法B、排序法C、元規(guī)則法D、調研法【正確答案】:ABC49.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)50.下列關于學習器結合的描述正確的有()。A、避免單學習器可能因誤選而導致泛化性能不佳B、降低陷入局部極小點的風險C、假設空間擴大有可能學得更好的近似D、多學習器結合有可能沖突【正確答案】:ABC解析:

學習器結合可能會從三個方面帶來好處。從統(tǒng)計方面來看,由于學習任務的假設空間往往很大,可能有多個假設在訓練集上達到同等性能,此時若使用單學習器可能因誤選而導致泛化性能不佳,結合多個學習器則會減小這一風險;從計算方面來看,學習算法往往會陷入局部極小,有的局部極小點所對應的泛化性能可能很糟糕。而通過多次運行之后進行結合,可降低陷入糟糕局部極小點的風險;從表示方面來看,某些學習任務的真實假設可能不在當前學習算法所考慮的假設空間中,此時若使用單學習器則肯定無效,而通過結合多個學習器,由于相應的假設空間有所擴大,有可能學得更好的近似。51.隨機森林的隨機性主要體現(xiàn)在()。A、決策樹選擇的隨機性B、數(shù)據(jù)集的隨機性C、待選特征的隨機性D、參數(shù)選擇的隨機性【正確答案】:BC解析:

隨機森林算法的隨機性主要體現(xiàn)在兩個方面,即子模型的訓練樣本是隨機抽取的、子模型的特征變量也是隨機抽取的。52.下列可以用來評估線性回歸模型的指標有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:

R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標均可以評估線性回歸模型。53.下列關于PCA的說法正確的有()。A、在使用PCA之前,我們必須標準化數(shù)據(jù)B、應該選擇具有最大方差的主成分C、應該選擇具有最小方差的主成分D、可以使用PCA在低維空間中可視化數(shù)據(jù)【正確答案】:ABD解析:

PCA對數(shù)據(jù)中變量的尺度非常敏感,因此需要對各個變量進行標準化。方差越大,說明在該特征上分布越廣泛,說明該特征越有用,影響越大。PCA有時在較低維度上繪制數(shù)據(jù)是非常有用的,可以提取前2個主要組成部分,在二維平面上使用散點圖可視化數(shù)據(jù)。54.做一個二分類預測問題,先設定閾值為0.5,概率不小于0.5的樣本歸入正例類(即1),小于0.5的樣本歸入反例類(即0)。然后,用閾值n((n>0.5.5)重新劃分樣本到正例類和反例類。下列說法正確的有()。A、增加閾值不會提高召回率B、增加閾值會提高召回率C、增加閾值不會降低查準率D、增加閾值會降低查準率【正確答案】:AC解析:

召回率=TP/TP+FN,查準率=TP/TP+FP。當概率固值增加時,TP、FP減少或者持平,TP+FN不變,所以召回率不會增加。55.機器學習的三個關鍵組成要素包含()。A、任務TB、性能指標PC、目標函數(shù)VD、經(jīng)驗來源E【正確答案】:ABD56.如果希望減少數(shù)據(jù)集中的特征數(shù)量,則可以采取的措施有()。A、使用正向選擇法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步選擇消除法(Stepwise)D、計算不同特征之間的相關系數(shù),刪去相關系數(shù)高的特征之一【正確答案】:ABCD解析:

正向選擇法(ForwardSelection)是首先選擇一個特征,每個特征都試一遍,選擇對模型準確率提升最高的那個特征;然后再在這個特征基礎上添加另外一個特征,方法類似,直到模型準確率不再提示為止。反向消除法(BackwardElimination)是首先包含了所有的特征,然后嘗試刪除每個特征,最終刪掉對模型準確率提升最高的一個特征(如果刪除這個特征模型準確率反而增加了,則說明這個特征是無用特征)。以此類推,直到刪除特征并不能提升模型為止。相對于正向選擇法,反向消除法的優(yōu)點在于其允許-些低貢獻值的特征能夠進到模型中去(有時候低貢獻值的特征能在組合中有更大的貢獻值,而正向選擇法忽略了這種組合的可能性),因此反向消除法能夠避免受一兩個占主導地位的特征的干擾。另外還有一種特征選擇方法是逐步選擇消除法(Stepwise),該方法結合上述兩者的方法,新加入一個特征之后,再嘗試刪去一個特征,直至達到某個預設的標準。這種方法的缺點是預設的標準不好定,而且容易陷入到過擬合當中。除此之外,也可以使用基于相關性的特征選擇,可以去除多重線性特征。57.隨機森林在做數(shù)據(jù)處理方面的優(yōu)勢有()。A、不需要做缺失值處理B、不需要處理噪聲C、不需要做特征選擇D、不需要平衡數(shù)據(jù)集【正確答案】:ACD解析:

理論上隨機森林不會產(chǎn)生過擬合現(xiàn)象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數(shù)目不可能無限增加,沒有辦法完全消除過擬合。58.可作為決策樹選擇劃分屬性的參數(shù)有()。A、信息增益B、信息增益率C、基尼指數(shù)D、密度函數(shù)【正確答案】:ABC解析:

特征選擇的準則主要有信息增益、信息增益率、基尼指數(shù)三種。59.按照涉及自變量的多少,可以將回歸分析分為()。A、線性回歸分析B、非線性回歸分析C、一元回歸分析D、多元回歸分析【正確答案】:CD解析:

按照涉及自變量的多少,可以將回歸分析分為一元回歸分析和多元回歸分析。60.預剪枝使得決策樹的很多分子都沒有展開,則會導致的結果有()。A、顯著減少訓練時間開銷B、顯著減少測試時間開銷C、降低過擬合風險D、提高欠擬合風險【正確答案】:ABCD解析:

預剪枝使得決策樹的很多分支都沒有展開,這不僅降低了過擬合的風險,還顯著減少了決策樹的訓練時間開銷和測試時間開銷。但另一方面,有些分支的當前劃分雖不能提升泛化性能,甚至可能導致泛化性能暫時下降,但在其基礎上進行的后續(xù)劃分卻有可能導致性能顯著提高;預剪枝基于貪心原則,禁止這些分支展開,提高了欠擬合的風險。61.下列關于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當前學習任務無關B、稀疏樣本可減少學習任務的計算開銷C、學習任務難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:

在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。62.決策樹在()情況下會導致遞歸返回。A、當前節(jié)點包含的樣本全屬于同一類B、當前屬性集為空C、當前節(jié)點包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:

決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①當前節(jié)點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前節(jié)點包含的樣本集合為空,不能劃分。63.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學習器進行交叉驗證來選取C、可從重構的角度設置一個重構閾值,選取使得特定公式成立的最小值D、隨機設置【正確答案】:ABC解析:

降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對k近鄰分類器(或其他開銷較小的學習器)進行交叉驗證來選取較好的d。還可從重構的角度設置一個重構閾值,選取使得特定公式成立的最小值。64.下列屬于數(shù)據(jù)挖掘方法的有()。A、聚類B、回歸分析C、神經(jīng)網(wǎng)絡D、決策樹算法【正確答案】:ABCD解析:

利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關聯(lián)則、特征、變化和偏差分析、Web頁挖掘等。分類方法有決策樹算法、KNN算法(k-nearestneighbor)、SVM算法、VSM算*Bayes算法、神經(jīng)網(wǎng)絡等。聚類算法有基于密度、基于層次、基于模型、基于網(wǎng)格等。關聯(lián)規(guī)則算法有Apriori算法、FP-Growth算法。65.下列關于神經(jīng)網(wǎng)絡的說法正確的有()。A、增加網(wǎng)絡層數(shù),可能會增加測試集分類錯誤率B、增加網(wǎng)絡層數(shù),一定會增加訓練集分類錯誤率C、減少網(wǎng)絡層數(shù),可能會減少測試集分類錯誤率D、減少網(wǎng)絡層數(shù),一定會減少訓練集分類錯誤率【正確答案】:AC解析:

增加網(wǎng)絡層數(shù)可能造成訓練誤差和測試誤差減小,但神經(jīng)網(wǎng)絡層數(shù)過多容易造成過擬合、訓練誤差小,但是測試誤差很大。66.影響Apriori算法的計算復雜度的有()。A、支持度閾值B、項數(shù)(維度)C、事務數(shù)D、事務平均寬度【正確答案】:ABCD67.下列關于范數(shù)規(guī)則化的描述正確的有()。A、LO是指向量中0的元素的個數(shù)B、L1范數(shù)是指向量中各個元素絕對值之和C、L2范數(shù)向量元素絕對值的平方和再開平方D、LO是指向量中非0的元素的個數(shù)【正確答案】:BCD解析:

LO是指向量中非0的元素的個數(shù),Ll范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。68.線性模型的基本形式有()。A、線性回歸B、對數(shù)幾率回歸(二分類問題)C、線性判別分析(Fisher判別分析)D、多分類學習【正確答案】:ABCD69.下列關于非頻繁模式的說法正確的有()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關模式D、對異常數(shù)據(jù)項敏感【正確答案】:AD解析:

非頻繁模式是一個項集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負相關時。非頻繁模式對異常數(shù)據(jù)項敏感。70.下列關于相關與線性關系的說法正確的有()。A、相關不一定是線性關系,可能是非線性關系B、相關一定是線性關系,不可能是非線性關系C、相關時若有相關系數(shù)為0,說明兩個變量之間不存在線性關系,仍可能存在非線性關系D、相關系數(shù)為0是兩個變量獨立的必要不充分條件【正確答案】:ACD解析:

相關不一定是線性關系,可能是非線性關系。71.下列屬于機器學習生成式模型的有()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡【正確答案】:ABD解析:

機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡等。線性回歸屬于判別式模型。72.特征向量的歸一化方法有()。A、線性函數(shù)轉換B、對數(shù)函數(shù)轉換C、反余切函數(shù)轉換D、減去均值,除以方差【正確答案】:ABCD73.常見的核函數(shù)包括()。A、多項式核B、高斯核C、線性核D、拉普拉斯核【正確答案】:ABCD74.下列關于L1和L2范數(shù)的描述正確的有()。)A、L1范數(shù)為x向量各個元素絕對值之和B、L2范數(shù)為x向量各個元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力【正確答案】:ABCD解析:

LO是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。75.K均值聚類算法和層次聚類算法在一些方面有重大差異,下列關于兩種算法的說法正確的有()。A、在K均值聚類算法中,必須在運行算法前選定想要的簇的個數(shù)B、在K均值聚類算法中,可以在運行算法后選定想要的簇的個數(shù)C、在層次聚類算法中,可以在運行算法后選定想要的簇的個數(shù)D、K均值聚類算法所需的計算量比層次聚類算法小得多【正確答案】:ACD解析:

在K均值聚類算法中,需要在運行算法前確定想要的簇的個數(shù)k。76.下列關于降維方法的敘述正確的有()。A、主成分分析是一種常用的非線性降維方法B、核化線性降維是一種常用的線性降維方法C、流形學習是一種借鑒拓撲流形概念的降維方法D、度量學習繞過降維的過程,將學習目標轉化為對距離度量計算的權重矩陣的學習【正確答案】:CD解析:

本質上講,主成分分析是一種線性降維方法,在處理非線性問題時,效果不太理想。核化線性降維是一種非線性降維方法。77.決策樹遞歸返回的條件有()。A、訓練數(shù)據(jù)集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:

決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①節(jié)點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前節(jié)點包含的樣本集合為空,不能劃分。1.LogisticRegression和SupportVectprMachine都可以處理分類問題,且一般都用于處理線性二分類問題。()A、正確B、錯誤【正確答案】:A2.基于鄰近度的離群點檢測方法不能處理具有不同密度區(qū)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論