![《機器學習-Python實踐》試卷及答案 共5套_第1頁](http://file4.renrendoc.com/view12/M0A/07/0A/wKhkGWcXZMWAE-YgAAGYgtsmxU8876.jpg)
![《機器學習-Python實踐》試卷及答案 共5套_第2頁](http://file4.renrendoc.com/view12/M0A/07/0A/wKhkGWcXZMWAE-YgAAGYgtsmxU88762.jpg)
![《機器學習-Python實踐》試卷及答案 共5套_第3頁](http://file4.renrendoc.com/view12/M0A/07/0A/wKhkGWcXZMWAE-YgAAGYgtsmxU88763.jpg)
![《機器學習-Python實踐》試卷及答案 共5套_第4頁](http://file4.renrendoc.com/view12/M0A/07/0A/wKhkGWcXZMWAE-YgAAGYgtsmxU88764.jpg)
![《機器學習-Python實踐》試卷及答案 共5套_第5頁](http://file4.renrendoc.com/view12/M0A/07/0A/wKhkGWcXZMWAE-YgAAGYgtsmxU88765.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1頁,共1頁一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、關于支持向量機SVM,下列說法錯誤的是()A.L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力B.Hinge損失函數(shù),作用是最小化經驗分類錯誤C.分類間隔為1||w||1||w||,||w||代表向量的模D.當參數(shù)C越小時,分類間隔越大,分類錯誤越多,趨于欠學習2、假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數(shù)據(jù)的兩個維度搞重復了,那么關于NB的說法中正確的是:()A.這個被重復的特征在模型中的決定作用會被加強B.模型效果相比無重復特征的情況下精確度會降低C.如果所有特征都被重復一遍,得到的模型預測結果相對于不重復的情況下的模型預測結果一樣。D.當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題3、關于Logit回歸和SVM不正確的是()A.Logit回歸本質上是一種根據(jù)樣本對權值進行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標是找到使得訓練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應該屬于結構風險最小化。D.SVM可以通過正則化系數(shù)控制模型的復雜度,避免過擬合。4、以下哪些方法不可以直接來對文本分類?()A、KmeansB、決策樹C、支持向量機D、KNN正確答案:A分類不同于聚類。5、關于Logit回歸和SVM不正確的是()A.Logit回歸本質上是一種根據(jù)樣本對權值進行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數(shù)的乘積。logit僅僅是最大化似然函數(shù),并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標是找到使得訓練數(shù)據(jù)盡可能分開且分類間隔最大的超平面,應該屬于結構風險最小化。D.SVM可以通過正則化系數(shù)控制模型的復雜度,避免過擬合。6、下列不是SVM核函數(shù)的是()A.多項式核函數(shù)B.logistic核函數(shù)C.徑向基核函數(shù)D.Sigmoid核函數(shù)7、模型的高bias是什么意思,我們如何降低它?機器學習ML基礎易()A.在特征空間中減少特征B.在特征空間中增加特征C.增加數(shù)據(jù)點D.B和C8、當你使用Boosting提升算法時,你會考慮弱學習器,以下哪項是使用弱學習器的主要原因?()A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對9、梯度提升中,利用學習率來獲得最優(yōu)輸出是非常重要的,在選擇學習速率時, 下列描述正確的是:()A.學習率越大越好B.學習率越小越好C.學習率應該小一點但是不能太小D.學習率不能太大也不能太小,根據(jù)情況而定10、下列哪個算法不是集成學習算法的例子:()A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree二、判斷題(本大題共10小題,每題1分,共10分)1、錯誤率(ErrorRate)是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。()2、決策樹算法可以用于小數(shù)據(jù)集。()3、支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。()4、SVM在小樣本訓練集上能夠得到比其它算法好很多的結果。()5、最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數(shù)值。()6、決策樹只能處理數(shù)據(jù)型屬性。()7、邏輯回歸計算速度快。()8、集成學習(ensemblelearning)通過構建并結合多個學習器(learner)來完成學習任務()9、集成學習可獲得比單一學習器更良好的泛化性能(特別是在集成弱學習器(weaklearner)時)。()10、集成學習以bagging、RandomForest等算法為代表的,各個學習器之間相互獨立、可同時生成的并行化方法。()三、填空(本大題共10小題,每題3分,共30分)1、熵指的是體系的的程度。2、算法利用信息增益進行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。3、算法在決策樹生成的過程中,用信息增益比來選擇特征。4、p(x|θ)是給定參數(shù)θ的概率分布:。5、線性回歸如果是泊松分布,那就是。6、回歸常用評估方法:,,。7、基尼指數(shù)(基尼不純度)=*。8、聚類(Clustering)是指把相似的數(shù)據(jù)劃分到一起,具體劃分的時候并不關心這一類的標簽,目標就是把相似的數(shù)據(jù)聚合到一起,聚類是一種。9、分類(Classification):是把不同的數(shù)據(jù)劃分開,其過程是通過訓練數(shù)據(jù)集獲得一個分類器,再通過分類器去預測未知數(shù)據(jù),分類是一種。10、聚類的一般過程數(shù)據(jù)準備:和。四、簡答題(本大題共3小題,共30分)1、L1和L2正則先驗分別服從什么分布?什么是最小二乘法?常用的降維技術有哪些?一、選擇題1.C 2.BD 3.A 4.A 5.A 6.B 7.B 8.B 9.D 10.E二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯 7.對 8.對 9.對 10.對 三、填空題1.混亂 2.ID3 3.C4.5 4.似然函數(shù) 5.泊松回歸 6.平均誤差絕對值誤差R2 7.樣本被選中的概率樣本被分錯的概率 8.無監(jiān)督學習(UnsupervisedLearning)方法 9.監(jiān)督學習(SupervisedLearning)方法 10.特征標準化降維四、簡答題1、答:L1和L2正則先驗分別服從什么分布,L1是拉普拉斯分布,L2是高斯分布。2、答:最小二乘法(又稱最小平方法)是一種數(shù)學優(yōu)化技術。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。3、答:(1)主成分分析(PCA)在PCA中,數(shù)據(jù)從原來的坐標系轉換到新的坐標系,由數(shù)據(jù)本身決定。轉換坐標系時,以方差最大的方向作為坐標軸方向,因為數(shù)據(jù)的最大方差給出了數(shù)據(jù)的最重要的信息。第一個新坐標軸選擇的是原始數(shù)據(jù)中方差最大的方法,第二個新坐標軸選擇的是與第一個新坐標軸正交且方差次大的方向。重復該過程,重復次數(shù)為原始數(shù)據(jù)的特征維數(shù)。大部分方差都包含在最前面的幾個新坐標軸中,因此,可以忽略余下的坐標軸,即對數(shù)據(jù)進行了降維處理。(2)因子分析(FA)在因子分析中,假設在觀察數(shù)據(jù)的生成中有一些觀察不到的隱變量;假設觀察數(shù)據(jù)是這些隱變量和某些噪聲的線性組合;那么隱變量的數(shù)據(jù)可能比觀察數(shù)據(jù)的數(shù)目少,也就是說通過找到隱變量就可以實現(xiàn)數(shù)據(jù)的降維。(3)獨立成分分析(ICA)ICA假設數(shù)據(jù)是從N個數(shù)據(jù)源生成的,這一點和因子分析有些類似。假設數(shù)據(jù)為多個數(shù)據(jù)源的混合觀察結果,這些數(shù)據(jù)源之間在統(tǒng)計上是相互獨立的,而在PCA中只假設數(shù)據(jù)是不相關的。同因子分析一樣,如果數(shù)據(jù)源的數(shù)目少于觀察數(shù)據(jù)的數(shù)目,則可以實現(xiàn)降維過程。本篇以下內容主要介紹PCA。優(yōu)點:降低數(shù)據(jù)的復雜性,識別最重要的多個特征。缺點:不一定需要,且可能損失有用信息。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、假設,現(xiàn)在我們已經建了一個模型來分類,而且有了99%的預測準確率,我們可以下的結論是:()A.模型預測準確率已經很高了,我們不需要做什么了B.模型預測準確率不高,我們需要做點什么改進模型C.無法下結論D.以上都不對2、我們想在大數(shù)據(jù)集上訓練決策樹,為了使用較少時間,我們可以:()A.增加樹的深度B.增加學習率(learningrate)C.減少樹的深度D.減少樹的數(shù)量3、對于線性回歸,我們應該有以下哪些假設?()1.找到離群點很重要,因為線性回歸對利群點很敏感2.線性回歸要求所有變量必須符合正態(tài)分布3.線性回歸假設數(shù)據(jù)沒有多重線性相關性A.1和2B.2和3C.1,2和3D.以上都不是4、關于正態(tài)分布,下列說法錯誤的是:()A.正態(tài)分布具有集中性和對稱性B.正態(tài)分布的均值和方差能夠決定正態(tài)分布的位置和形態(tài)C.正態(tài)分布的偏度為0,峰度為1D.標準正態(tài)分布的均值為0,方差為15、決策樹的父節(jié)點和子節(jié)點的熵的大小關系是什么?()A.決策樹的父節(jié)點更大B.子節(jié)點的熵更大C.兩者相等D.根據(jù)具體情況而定6、下列關于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是(多選)?()A.MLE可能并不存在B.MLE總是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的7、一般來說,下列哪種方法常用來預測連續(xù)獨立變量?()A.線性回歸B.邏輯回顧C.線性回歸和邏輯回歸都行D.以上說法都不對8、你使用隨機森林生成了幾百顆樹(T1,T2,...,Tn),然后對這些樹的預測結果進行綜合,下列說法正確的是:()1、每棵樹是通過所有數(shù)據(jù)的子集構建而成的2、每棵樹學習的樣本數(shù)據(jù)都是通過隨機有放回采樣而得的3、每棵樹是通過數(shù)據(jù)集的子集和特征的子集構建而成的4、每棵樹是通過所有的數(shù)據(jù)構建而成的A.1和2B.2和4C.1、2和3D.2和39、下面關于隨機森林和GBDT的說法正確的是:()①這兩種方法都可以用來解決分類問題②隨機森林解決分類問題,GBDT解決回歸問題③隨機森林解決回歸問題,GBDT解決分類問題④這兩種方法都可以用來解決回歸問題A.①B.②C.③D.④E.①和④10、關于隨機森林和GBDT,下列說法錯誤的是:()A.隨機森林中每個學習器是相互獨立的B.隨機森林利用了bagging的思想來構建強學習器C.GBDT利用了Boosting的思想來構建強學習器D.GBDT中每個學習器之間沒有任何聯(lián)系二、判斷題(本大題共10小題,每題1分,共10分)1、SVM是一個凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解的優(yōu)點。()2、錯誤否定(FalseNegative,FN):預測為假,實際為真。()3、邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最常用的就是二分類的邏輯回歸。()4、決策樹只能處理數(shù)據(jù)型屬性。()5、樸素貝葉斯適合高維數(shù)據(jù)。()6、隨機事件X所包含的信息量與其發(fā)生的概率有關。發(fā)生的概率越小,其信息量就越小。()7、決策樹短時間內處理大量數(shù)據(jù),得到可行且效果較好的結果。()8、集成學習以boosting、Adaboost等算法為代表的,個體學習器不是串行序列化生成的、具有依賴關系。()9、Adaboost算法流程給數(shù)據(jù)中的每一個樣本一個權重。()10、Adaboost算法流程訓練數(shù)據(jù)中的每一個樣本,得到第一個分類器()三、填空(本大題共10小題,每題3分,共30分)1、評判分類效果好壞的三個指標就是上面介紹的三個指標:,,。2、提取出的正確信息條數(shù)/提取出的信息條數(shù)是。3、模型把訓練樣本學習“太好了”,可能把一些訓練樣本自身的特性當做了所有潛在樣本都有的一般性質,導致泛化能力下降叫。4、分類是預測,比如把人分為好人和壞人之類的學習任務。5、訓練用到的每個樣本叫。6、訓練過程中用到的數(shù)據(jù)叫。7、在某些情況下,我們會討論坐標超過兩維的數(shù)組。一般地,一個數(shù)組中的元素分布在若干維坐標的規(guī)則網(wǎng)格中,我們將其稱之為。8、聚類的特征選擇:從最初的特征中選擇最有效的特征,并將其存儲在?中。9、聚類的特征提取:通過對進行轉換形成新的突出特征。10、聚類的聚類:基于某種距離函數(shù)進行相似度度量,獲取。四、簡答題(本大題共3小題,共30分)1、為什么樸素貝葉斯如此“樸素”?2、簡單說下有監(jiān)督學習和無監(jiān)督學習的區(qū)別?3、特征選擇與數(shù)據(jù)降維(特征提取)?一、選擇題1.B 2.C 3.D 4.C 5.B 6.AC 7.A 8.D 9.E 10.D二、判斷題1.對 2.對 3.對 4.錯 5.錯 6.錯 7.對 8.錯 9.對 10.對 三、填空題1.正確率召回率F值 2.正確率 3.過擬合 4.離散值5.訓練樣本 6.訓練集 7.張量 8.向量 9.選擇的特征 10.簇四、簡答題1、因為它假定所有的特征在數(shù)據(jù)集中的作用是同樣重要和獨立的。正如我們所知,這個假設在現(xiàn)實世界中是很不真實的,因此,說樸素貝葉斯真的很“樸素”。2、答:有監(jiān)督學習:對具有標記的訓練樣本進行學習,以盡可能對訓練樣本集外的數(shù)據(jù)進行分類預測。(LR,SVM,BP,RF,GBDT)無監(jiān)督學習:對未標記的樣本進行訓練學習,比發(fā)現(xiàn)這些樣本中的結構知識。(KMeans,DL)3、答:降維的方法:結合專業(yè)知識剔除或合并類別通過數(shù)據(jù)概要來發(fā)現(xiàn)變量間的信息重疊(并剔除或合并類別)對數(shù)據(jù)進行轉換,例如將分類型變量轉換為數(shù)值型變量使用如主成分分析(PCA)這樣的自動降維技術來創(chuàng)建一系列新的變量(原變量的加權平均)。這些變量互不相關,并且其中很小的一個子集就包含了原始數(shù)據(jù)中很大一部分信息(因此我們可以只使用新變量集的一個子集來實現(xiàn)降維)。可以利用一些數(shù)據(jù)挖掘的方法:如回歸模型、分類和回歸樹等,這些方法可以用于剔除冗余變量,以及合并分類型變量中的相似類別。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、個人健康和年齡的相關系數(shù)是-1.09。根據(jù)這個你可以告訴醫(yī)生哪個結論?()A.年齡是健康程度很好的預測器B.年齡是健康程度很糟的預測器C.以上說法都不對D:兩者沒關系2、假如我們利用Y是X的3階多項式產生一些數(shù)據(jù)(3階多項式能很好地擬合數(shù)據(jù))。那么,下列說法正確的是(多選)?()A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項式擬合會造成低偏差(bias)、高方差(variance)D.3階多項式擬合具備低偏差(bias)、低方差(variance)3、假如你在訓練一個線性回歸模型,有下面兩句話:()1.如果數(shù)據(jù)量較少,容易發(fā)生過擬合。2.如果假設空間較小,容易發(fā)生過擬合。關于這兩句話,下列說法正確的是?A.1和2都錯誤B.1正確,2錯誤C.1錯誤,2正確D.1和2都正確4、假如我們使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有100個(X1,X2,…,X100)?,F(xiàn)在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用相同的正則化參數(shù)對Lasso回歸進行修正。那么,下列說法正確的是?()A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對5、假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F(xiàn)在,在數(shù)據(jù)中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是?()A.訓練樣本準確率一定會降低B.訓練樣本準確率一定增加或保持不變C.測試樣本準確率一定會降低D.測試樣本準確率一定增加或保持不變6、下面這張圖是一個簡單的線性回歸模型,圖中標注了每個樣本點預測值與真實值的殘差。計算SSE(平方誤差和)為多少?()A.3.02B.0.75C.1.01D.0.6047、關于“回歸(Regression)”和“相關(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關在x和y之間都是互為對稱的B.回歸和相關在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關在x和y之間是非對稱的8、關于AdaBoost,下列說法中正確的是(多選):()A.它是一種集成學習算法B.每個分類器的權重和被它正確分類的樣本的權重相同C.后一個基學習器要依賴于前一個基學習器的分類錯誤率和樣本的權重D.后一個基學習器每次只學習前一個基學習器被分錯的樣本9、集成學習策略有哪些() A.投票法B.平均法C.學習法D.上述都有10、集成學習策略常用于分類的是:()A.投票法B.平均法C.學習法D.上述都有二、判斷題(本大題共10小題,每題1分,共10分)1、決策樹短時間內處理大量數(shù)據(jù),得到可行且效果較好的結果。()樸素貝葉斯適合高維數(shù)據(jù)。()標量是0階張量。()協(xié)方差是衡量兩個變量線性相關性強度及變量尺度。()聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。()隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量。()矩陣的L0范數(shù):矩陣的非0元素的個數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。()Adaboost算法流程計算該分類器的錯誤率,根據(jù)錯誤率計算要給分類器分配的權重。()9、Adaboost算法流程將第一個分類器分錯誤的樣本權重增加。()10、Adaboost算法流程然后再用新的樣本權重訓練數(shù)據(jù),得到新的分類器。()三、填空(本大題共10小題,每題3分,共30分)1、一個表示一個單獨的數(shù),它不同于線性代數(shù)中研究的其他大部分對象(通常是多個數(shù)的數(shù)組)。2、馬式距離的特征則是:。3、p(x|θ)是給定參數(shù)θ的概率分布:。4、基尼指數(shù)(基尼不純度)=*。5、Gini指數(shù)越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度。6、表示在樣本集合中一個隨機選中的樣本被分錯的概率。7、算法在決策樹生成的過程中,用信息增益比來選擇特征。8、聚類結果評估:分析結果,如距離誤差和(SSE)等。9、人工神經網(wǎng)絡(ArtificialNeuralNetworks,ANNs),也簡稱為神經網(wǎng)絡(NNs),是模擬進行信息處理的一種數(shù)學模型,以對大腦的生理研究成果為基礎,其目的在于模擬大腦的某些機理與機制,實現(xiàn)一些特定的功能。10、生物神經元主要由,,,組成。四、簡答題(本大題共3小題,共30分)1、梯度下降法找到的一定是下降最快的方向么?2、什么是最小二乘法?3、K-Means和KNN算法的區(qū)別是什么?一、選擇題1.C 2.AD 3.B 4.B 5.B 6.A 7.C 8.AC 9.D 10.A二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.標量 2.平移不變性、旋轉不變性、尺度不變性 3.似然函數(shù) 4.樣本被選中的概率樣本被分錯的概率 5.越高 6.基尼指數(shù)(基尼不純度) 7.C4.5 8.聚類 9.生物神經網(wǎng)絡的結構和功能 10.細胞體樹突軸突突觸四、簡答題1、答:梯度下降法并不是下降最快的方向,它只是目標函數(shù)在當前的點的切平面(當然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認為是下降最快的方向,可以達到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復雜約束的問題)。2、答:最小二乘法(又稱最小平方法)是一種數(shù)學優(yōu)化技術。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。3、首先,這兩個算法解決的是數(shù)據(jù)挖掘中的兩類問題。K-Means是聚類算法,KNN是分類算法。其次,這兩個算法分別是兩種不同的學習方式。K-Means是非監(jiān)督學習,也就是不需要事先給出分類標簽,而KNN是有監(jiān)督學習,需要我們給出訓練數(shù)據(jù)的分類標識。最后,K值的含義不同。K-Means中的K值代表K類。KNN中的K值代表K個最接近的鄰居。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、關于“回歸(Regression)”和“相關(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關在x和y之間都是互為對稱的B.回歸和相關在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關在x和y之間是非對稱的2、邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數(shù)起到這樣的作用?()A.Sigmoid函數(shù)B.tanh函數(shù)C.ReLU函數(shù)D.LeakyReLU函數(shù)3、關于兩個邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權重系數(shù)。()A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個模型的β1相同D.以上說法都不對4、在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?()A.正態(tài)概率圖B.箱形圖C.馬氏距離D.散點圖5、邏輯回歸與多元回歸分析有哪些不同之處?()A.邏輯回歸用來預測事件發(fā)生的概率B.邏輯回歸用來計算擬合優(yōu)度指數(shù)C.邏輯回歸用來對回歸系數(shù)進行估計D.以上都是6、如果一個SVM模型出現(xiàn)欠擬合,那么下列哪種方法能解決這一問題?()A.增大懲罰參數(shù)C的值B.減小懲罰參數(shù)C的值C.減小核系數(shù)(gamma參數(shù))D.以上都不是7、我們知道二元分類的輸出是概率值。一般設定輸出概率大于或等于0.5,則預測為正類;若輸出概率小于0.5,則預測為負類。那么,如果將閾值0.5提高,例如0.6,大于或等于0.6的才預測為正類。則準確率(Precision)和召回率(Recall)會發(fā)生什么變化(多選)?()A.準確率(Precision)增加或者不變B.準確率(Precision)減小C.召回率(Recall)減小或者不變D.召回率(Recall)增大8、集成學習策略常用于處理數(shù)值問題的是:()A.投票法B.平均法C.學習法D.上述都有9、關于學習法表述正確的事()A.平均法和投票法是對弱學習器的結果做平均或者投票,相對比較簡單,但是可能學習誤差較大,于是就有了學習法。B.學習法是一種更為強大的結合策略,即通過另一個學習器來進行結合。C.Stacking是學習法的典型代表。Stacking先從初級數(shù)據(jù)集訓練出初級學習器,然后“生成”一個新數(shù)據(jù)集用于訓練次級學習器。在這個新數(shù)據(jù)集中,初級學習器的輸出被當作樣例輸入特征。D.上述都對10、以下關于Bagging算法的特點描述正確的是()A.Bagging通過降低基學習器的方差改善了泛化誤差B.bagging對樣本進行有放回的重采樣,學習結果是各個學習模型的平均值C.由于重采樣的樣本集具有相似性以及使用相同的學習器模型,因此,各學習模型的結果相近,即模型有近似相等的偏差和方差。D.以上描述都對二、判斷題(本大題共10小題,每題1分,共10分)1、矩陣的L0范數(shù):矩陣的非0元素的個數(shù),通常用它來表示稀疏,L0范數(shù)越小0元素越多,也就越稀疏。()2、隨機事件X所包含的信息量與其發(fā)生的概率有關。發(fā)生的概率越小,其信息量就越小。()3、SVM通過尋找使得訓練數(shù)據(jù)盡可能分開且分類間隔最大的超平面實現(xiàn)結構風險最小化。()4、logit回歸輸出的是Y屬于某一類的概率,也可以表示某事件發(fā)生的概率。()5、P(θ|x)是在數(shù)據(jù)X的支持下,θ發(fā)生的概率:后驗概率。()6、P(θ)是在沒有數(shù)據(jù)支持下,θ發(fā)生的概率:先驗概率。()7、F1值定義為:F1=2PR/(P+R)。()8、Adaboost算法流程將所有弱分類器加權求和,得到分類結果(注意是分類器權重)。()9、集成學習通過將多個單個學習器集成/組合在一起,使它們共同完成學習任務,以達到提高預測準確率的目的。()10、Boosting是一個順序過程,每個后續(xù)模型都會嘗試糾正先前模型的錯誤,后續(xù)的模型依賴于之前的模型。()三、填空(本大題共10小題,每題3分,共30分)1、算法利用信息增益進行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。2、機器學習中做特征選擇時,可能用到的、、、。3、已知坐標軸中兩點A(2,?2)B(?1,2),這兩點的曼哈頓距離(L1距離)是。4、求函數(shù)機制的方法有兩大類,分別是和。5、損失函數(shù)也叫或。6、從已有的M個特征(Feature)中選擇N個特征使得系統(tǒng)的特定指標最優(yōu)化叫。7、回歸問題對數(shù)值型連續(xù)隨機變量進行預測和建模的監(jiān)督學習算法?;貧w往往會通過計算來確定模型的精確性。8、人工神經元模型可以看成是由3種基本元素組成,,。9、學習算法是指針對學習問題的明確規(guī)則,學習類型是由參數(shù)變化發(fā)生的形式決定的,不同的學習算法對神經元的權值調整的表達式是不同的。人工神經網(wǎng)絡常用的算法有,,。10、在最基本的BP算法中,學習率在整個訓練過程是保持不變的,學習率過,算法可能振蕩而不穩(wěn)定;學習率過,則收斂速度慢,訓練時間。四、簡答題(本大題共3小題,共30分)1、簡單介紹下Logistics回歸。?2、常見的分類算法有哪些?3、機器學習能解決哪些問題?每一類使用的常用方法有哪些?舉例說明其應用?一、選擇題1.C 2.A 3.B 4.C 5.D 6.A 7.AC 8.B 9.D 10.D二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對三、填空題1.ID3 2.卡方信息增益平均互信息期望交叉熵 3.7 4.解析解(閉式解)數(shù)值解 5.代價函數(shù)目標函數(shù) 6.特征選擇 7.誤差(Error) 8.一組連接一個加法器一個激活函數(shù) 9.有監(jiān)督Hebb算法單層感知器梯度LMS算法 10.大小長四、簡答題1、答:Logistic回歸目的是從特征學習出一個0/1分類模型,而這個模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負無窮到正無窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認為是屬于y=1的概率。2、答:SVM、神經網(wǎng)絡、隨機森林、邏輯回歸、KNN、貝葉斯等。3、答:監(jiān)督學習:分類:邏輯回歸、決策樹、KNN、隨機森林、支持向量機、樸素貝葉斯數(shù)字預測:線性回歸、KNN、GradientBoosting*AdaBoost無監(jiān)督學習:聚類、關聯(lián)分析強化學習一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業(yè)班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、點擊率預測是一個正負樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。假如在這個非平衡的數(shù)據(jù)集上建立一個模型,得到訓練樣本的正確率是99%,則下列說法正確的是?()A.模型正確率很高,不需要優(yōu)化模型了B.模型正確率并不高,應該建立更好的模型C.無法對模型做出好壞評價D.以上說法都不對2、如果在大型數(shù)據(jù)集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的?()A.增加樹的深度B.增加學習率C.減小樹的深度D.減少樹的數(shù)量3、我們想要訓練一個ML模型,樣本數(shù)量有100萬個,特征維度是5000,面對如此大數(shù)據(jù),如何有效地訓練模型?()A.對訓練集隨機采樣,在隨機采樣的數(shù)據(jù)上建立模型B.嘗試使用在線機器學習算法C.使用PCA算法減少特征維度D.以上都對4、機器學習中做特征選擇時,可能用到的方法有?(多選)()a.卡方b.信息增益c.平均互信息d.期待交叉熵5、如何在監(jiān)督式學習中使用聚類算法(多選)?()A.首先,可以創(chuàng)建聚類,然后分別在不同的集群上應用監(jiān)督式學習算法B.在應用監(jiān)督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征C.在應用監(jiān)督式學習之前,不能創(chuàng)建聚類D.在應用監(jiān)督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的特征6、下面哪句話是正確的?()A.機器學習模型的精準度越高,則模型的性能越好B.增加模型的復雜度,總能減小測試樣本誤差C.增加模型的復雜度,總能減小訓練樣本誤差D.以上說法都不對7、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因為線性回歸對離群效應很敏感B.線性回歸分析要求所有變量特征都必須具有正態(tài)分布C.線性回歸假設數(shù)據(jù)中基本沒有多重共線性D.以上說法都不對8、以下關于Bagging特點的描述不正確的是()A.Bagging是一個很低效的集成學習算法B.Bagging復雜度與基學習器同階C.由于每一個樣本被選中的概率相同,因此bagging并不側重于訓練數(shù)據(jù)集中的任何特定實例。D.對于噪聲數(shù)據(jù),ba
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代學校后勤管理與服務創(chuàng)新
- 校園環(huán)境對幼兒自信心與自尊心的影響
- 2025年度家具行業(yè)專利技術居間轉讓合同
- 生態(tài)建筑設計在商業(yè)地產的前景展望
- 深入探討美顏相機的技術創(chuàng)新與應用
- 2025年度電子信息產品檢測與加工技術服務合同
- 現(xiàn)代辦公環(huán)境的健康與舒適性研究
- 電商平臺的跨境服務策略與文化差異應對
- 2025年度婚介行業(yè)獨家代理協(xié)議書模板
- 用戶體驗在產品設計結構中的重要性
- 2024年度體育賽事贊助合同:運動員代言與贊助權益2篇
- 智研咨詢發(fā)布:2024年中國新疫苗行業(yè)市場現(xiàn)狀、發(fā)展概況、未來前景分析報告
- 2025屆西藏林芝一中高三第二次診斷性檢測英語試卷含解析
- 藥企銷售總經理競聘
- 開封市第一屆職業(yè)技能大賽健康照護項目技術文件(國賽)
- 公路電子收費系統(tǒng)安裝合同范本
- 醫(yī)院培訓課件:《傷口評估與測量》
- 2021年全國高考物理真題試卷及解析(全國已卷)
- 期末試卷(試題)-2024-2025學年四年級上冊數(shù)學滬教版
- 《第一單元口語交際:即興發(fā)言》教案-2023-2024學年六年級下冊語文統(tǒng)編版
- 綜合實踐項目 制作水族箱飼養(yǎng)淡水魚 教學設計-2024-2025學年魯科版生物六年級上冊
評論
0/150
提交評論