




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘原理與應(yīng)用試題及答案試卷一答案:解:BADDA二、解:二、解:,I, _count?=a,)xcount(B=b)UJ-■ ?en300x450 ~ en300x450 ~ =901500e!2I?。。*45。=3601500300x1050 二2101500e221200x1250 … =8401500所以(25°-9。產(chǎn)(25°-9。產(chǎn)+(5。一21所90210(200-360)2+ 360+(1000-8W840=284.44+121.90+71.11+30.48=507.93三、解:分類和回歸的區(qū)別在于輸出變量的類型。定量輸出稱為回歸,或者說是連續(xù)變量預(yù)測;定性輸出稱為分類,或者說是離散變量預(yù)測。四、解:Root(FP-Tree(不唯一))RootFP-TreeK:5Y:10:1
K:5Y:10:1itemconditionalpatternbaseconditionaltreefrequentpatterny{{k,e,m,o:l},{k,e,o:l},{k,m:l}}k:3{k,y:3}o{{k,e,m:l},{k,e:2}k:3,e:3{k,o:3},{e,o:3},{k,e,o:3}m{{k,e:2},{k:l}}k:3{k,m:3}e{#:4}}k:4{k,e:4}五、解:(1)在數(shù)據(jù)集中有20個正樣本和500個負(fù)樣本,因此在根結(jié)點處錯誤率為TOC\o"1-5"\h\z_, /20 500、 20t—1-max\ , )—520 520 520如果按照屬性X劃分,則:x=oX=1X=2+01010-2000300TOC\o"1-5"\h\zEx=o=O/31O=O Ex=i=0/10=0 Ex=2=10/310200 10 310 10_10A- 520 520 520 310 520如果按照屬性丫劃分,貝ij:Y=0Y=1Y=2+02()0-20()10020()Ey=o=O/2OO=O120aEy=o=O/2OO=O120ax=E-~\ 52020=0120因此X被選為第一個分裂屬性,因為X=0和X=1都是純節(jié)點,所以使用丫屬性去分割不純節(jié)點X=2。丫=0節(jié)點包含100個負(fù)樣本,丫=1節(jié)點包含10個正樣本和100個負(fù)樣本,丫=2節(jié)點100個負(fù)樣本,所以子節(jié)點被標(biāo)記為“.”。整個結(jié)果為:'+,X=1類標(biāo)記=<、-淇他
預(yù)測類+-實際類+1010-0500510 10accuracy: =0.9808, aprecision:—=1.0520 1010 2*0.5*1.0recall:—=0.5, F-measure: =0.666620 1.0+0.5(3)由題可得代價矩陣為預(yù)測類+-實際類+0500/20=2.5-10決策樹在(1)之后還有3個葉節(jié)點,X=2AY=0,X=2AY=1,X=2AY=2o其中X=2八丫=1是不純節(jié)點,誤分類該節(jié)點為“+”類的代價為:10*0+100*1=100,誤分該節(jié)點為"-”類的代價為:10*25+100*0=250。所以這些節(jié)點被標(biāo)記為“+”類。分類結(jié)果為:'+ X=1v(X=2/\Y=l)類標(biāo)記="、-其他六、解:比如第一次聚類,兩個聚簇的中心坐標(biāo)如下:聚類中心坐標(biāo)% 工(A、B)(C、D)第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標(biāo),為下一步聚類做準(zhǔn)備。先計算A到兩個類的平方距離:J2(A,(AB))=(5-2)2+(3-2)2=10片(4(8))=(5+1尸+(3+2尸=61由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:</2(B,(AB))=(-l-2)2+(l-2)2=10/(氏(CD))=(-1+1尸+(1+2產(chǎn)=9由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)?更新中心坐標(biāo)如下表所示。聚類中心坐標(biāo)(A)53(B、C、D)-1-1第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方,結(jié)果見下表。聚類樣品到中心的距離平方A BC D(A)0404189(B、C、D)52455到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨自成一類,B、C、D聚成一類。七、解:假警告率=(99%*1%)/(99%*1%+1%*99%)=50%檢測率=(1%99%)/(1%)=99%八、解:(1)圖1中,對象p,q,pl是核心對象:圖2中,對象p,q,o是核心對象。因為他們的-領(lǐng)域內(nèi)斗至少包含3(MinPts)個對象。(2)圖1中,對象p是從對象pl直接密度可達(dá)的,反之亦然;對象q是從對象pl直接密度可達(dá)的,反之亦然。圖2中,對象p,q,。中不存在直接密度可達(dá)的對象。(3)圖1中,對象p,q,pl相互間是密度可達(dá)的;圖2中,對象p,q,。相互間是密度可達(dá)的。(4)圖1中,對象p,q,pl相互間是密度相連的;圖2中,對象p,q,。相互間是密度相連的。九、解:(1)均值2.29,方差1.51(2)離群點24.0試題二答案一、解:d=7(20-22)2+(0-I)2+(36-42)2+(8-10)2=375 Hi?o(*▽*)7* d=V(20-22)3+(0-I)3+(36-42)3+(8-10)3=V233 J(i,j)=max| |,所以d=max{2,l,6,2}=6 二、解:Hadoop基于分布式文件系統(tǒng)HDFS的分布式批處理計算框架。適用于數(shù)據(jù)量大,SPMD(單程序多數(shù)據(jù))的應(yīng)用。Spark基于內(nèi)存計算的并行計算框架。適用于需要迭代多輪計算的應(yīng)用。MPI基于消息傳遞的并行計算框架。適用各種復(fù)雜應(yīng)用的并行計算。支持MPMD(多程序多數(shù)據(jù)),開發(fā)復(fù)雜度高三、解:最小支持度計數(shù)為560%=3Apriori:
四、解:< {1} {2} {3}{4} ><{1}{25}{3}>< {1} {5} {34}>< {2} {3} {4}{5} ><{25}{34}>五、解:9a5R(1)Info(D)= log.? log2—=0.94014 214 14 2144 24 2InfOincm'D)=—X(--log22 2 , 2、 6 /4 , log2—)+—x(——log24 4 24 14 6 22. 2、——log2一)6 26+Ax(-2io+Ax(-2iog2214 4 24-log,-)=0.91114 24Gainkincome)=Infc^D}-Infoincom(.D}=0.940-0.9111=0.029 (2) 4 44 4SplitInfoinco^D}=--Xlog2—6 6 4 4—xlog? xlog?—=1.55714 214 14 214GainRatio^income)—Gain^income)/SplitInfoincom^D}—0.029/1.557=0.019(3) 10 4⑵=-Gini(D)+-Gini(D>=0.443六、解:每個類的先驗概率P(G)為: P(buys-computer=yes)=9/14P(buys-computer=no)=5/14條件概率為: P(age=youth|buys-computer=yes)=2/9P(age=youth|buys-computer=no)=3/5P(income=medium|buys-computer=yes)=4/9P(income=medium|buys-computer=no)=2/5P(student=yes|buys-computer=yes)=6/9P(student=yes|buys-computer=no)=1/5P(credit=fair|buys-computer=yes)=6/9P(credit=fair|buys-computer=no)=2/5使用上面的概率,得到:P(X|buys-computer=yes)=P(age=youth|buys-computer=yes)XP(income=medium|buys-computer=yes)XP(student=yes|buys-computer=yes)XP(credit=fair|buys-computer=yes)=32/729 類似的,P(X|buys-computer=no)=l2/625 為了找出最大化P(X|Ci)P(Ci),計算P(X|buys-computer=yes)P(buys-computer=yes)=16/567=0.028 P(X|buys-computer=no)P(buys-computer=no)=6/875=0.007
因此,對于元組X,樸素貝葉斯分類預(yù)測元組X的類為buys-computer=yes 七、解:TPFPTNFNTPRFPRp10540.20N1I440.20.2P2i430.40.2P3i420.60.2N32320.60.4P42310.80.4N43210.80.6N44110.80.8N45010.81P550011八、解:k-均值和k.中心點算法都可以進(jìn)行有效的聚類。(1)k-均值優(yōu)點:高效,k.均值算法復(fù)雜度為O(tkn),n是對象數(shù)目,k是聚類數(shù)目,t是迭代次數(shù),一般的k,t?n;缺點:1)局部最優(yōu)解;2)只適用于連續(xù)的固定的n維數(shù)據(jù)3)需要先確定聚類數(shù)目k;4)對噪音和離群點比較敏感:5)只適用于凸型數(shù)據(jù)聚類。k-中心點優(yōu)點:1)可適用于范圍可變的數(shù)據(jù);2)能夠處理對噪聲或離群點。缺點:1)局部最優(yōu)解2)只適用于數(shù)據(jù)集較小的數(shù)據(jù)集,對較大的數(shù)據(jù)集不適用(計算的復(fù)雜性)算法復(fù)雜度為O(k(n-k)2).3)需要先確定聚類數(shù)目k;4)只適用于凸型數(shù)據(jù)聚類(2)層次化聚類方法優(yōu)點:沒有局部極小問題或是很難選擇初始點的問題缺點:計算存儲的代價昂貴。試題三答案:一、解:BCACCBCAAABABBD二、解:ABCACDABCDADABCD三、解:g(D,A)=H(4/10,6/10)-7/10*H(4/7,3/7)-3/10*H(l,0)g(D,B)=H(4/10,6/10)-4/10*H(3/4,1/4)-6/10*H(5/6,1/6)信息增益表示特征X使得類y的不確定性減少的程度四、解:這屬于聚類分析。因為這是無監(jiān)督的學(xué)習(xí),事先不知道各個類別的標(biāo)準(zhǔn)。而分類分析屬于有監(jiān)督的學(xué)習(xí),事先知道分類的標(biāo)準(zhǔn)。兩者的區(qū)別主要是數(shù)據(jù)中是否有類標(biāo)號。從數(shù)據(jù)方面來說,分類挖掘的數(shù)據(jù)必須有類標(biāo)號,也就是有專家參與。五、解:(1):平均值是25.08,20%的截斷均值(兩端各去掉兩個數(shù)以后的平均值)是18.8,中位數(shù)是19o(2)規(guī)范化后,轉(zhuǎn)換后的值為(0,1,0.31)(3)深度為4進(jìn)行劃分,得到三個箱(6,7,9,11),(12,18,20,21),(25.35,37,100)邊界值平滑后的結(jié)果為(6,6,11,11),(12,12,21,21),(25,25,25,100)六、解:欠擬合的原因:模型復(fù)雜度過低,不能很好的擬合所有的數(shù)據(jù),訓(xùn)練誤差大;避免欠擬合:增加模型復(fù)雜度,如采用高階模型(預(yù)測)或者引入更多特征(分類)等。過擬合的原因:模型復(fù)雜度過高,訓(xùn)練數(shù)據(jù)過少,訓(xùn)練誤差小,測試誤差大;避免過擬合:降低模型復(fù)雜度,如加上正則懲罰項,如LI,L2,增加訓(xùn)練數(shù)據(jù)等。七、解:劍橋分析有三大法寶:心理學(xué)模型、大數(shù)據(jù)分析、定向廣告。首先,他們從各種地方獲取個人數(shù)據(jù),比如土地登記信息、汽車數(shù)據(jù)、購物數(shù)據(jù)、優(yōu)惠券、俱樂部會員,以及FB賬戶信息等。再把這些信息與選民名冊等大數(shù)據(jù)整合到一起,一起放進(jìn)已研發(fā)出的心理學(xué)模型中,原先的數(shù)字足跡變成了完整又具體的大活人,他們有擔(dān)憂、有需求、有興趣、有癖好,還附帶手機號碼、信用卡類型、電子郵箱和家庭住址。接下來,你就可以根據(jù)自己的需求,向這些早已被你研究透的人們灌輸思想了。在川普和希拉里展開第三場電視辯論的時候,劍橋分析用川普的觀點在FB上精心測試了17.5萬個版本的廣告,然后跟蹤人們在網(wǎng)絡(luò)上的舉動和興趣,恰如其分地投放4到5萬條,不同版本的差別都僅僅是細(xì)節(jié):比如標(biāo)題、顏色、照片、視頻……然后就是等待獵物的反饋:比如某人是賓夕法尼亞州一個搖擺不定的選民,他有沒有點擊關(guān)于希拉里郵件門的帖子呢?點了,就顯示更多的內(nèi)容,看看希拉里是如何失職的。沒點?自動腳本就換個標(biāo)題,或者換個切入點~ ■比如這個人容易聽信權(quán)威,標(biāo)題就自動更正為:《情報部門高官一致認(rèn)為:希拉里郵件門事件危及國家安全》。總之就是反復(fù)向你投放他們想讓你看到的內(nèi)容,直到你最終被他們洗腦。試題四答案一、解:CCDCCADACDCDCDA二、解:BDABCDBCEADABCDABDCACDABCBCBDCC三、解:(1)被評為垃圾郵件的發(fā)信郵件地址,信的內(nèi)容,信的格式(長度,段落等)(2)準(zhǔn)確率為1%,召回率為1.01%(3)對正樣本進(jìn)行上采樣,或者對正樣本加大的權(quán)重四、解:d(p,q)=1+1+(20-18)=4d ( p , Cl ) = ( 1-25/30) + (1-20/30 ) + (20-18 )=2.5d ( p , C2 ) = ( 1-3/15) + (1-0/15) + ( 24-18) =7.8d ( q , Cl ) = ( 1-5/30) + (1-4/30) + ( 20-20) =1.7d ( q , C2 ) = ( 1-12/15) + (1-2/15) + (24-20)=5.07d(Cl,Cl)=(1-(25*3+5*12)/30*15)+(1-(6*1+4*2)/15*30)+(24-20)=5.67五、解:K-means算法通過最小化平方距離,通過迭代發(fā)現(xiàn)K個聚簇,在每次迭代中,需要計算均值點,通過每個點與均值點的距離來重新調(diào)整聚類。選擇聚類中心通過計算每個聚簇中所有點在每個維度的平均值來獲得。試題五答案一、解:TOC\o"1-5"\h\z.離群點可以是合法的數(shù)據(jù)對象或者值。 (T).離散屬性總是具有有限個值。 (F).關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。 (F).K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(F).如果一個對象不屬于任何簇,那么該對象是基于聚類的離群點。(T)二、解:P(青年I購買)=2/9=0.222P(收入中等|購買)=4/9=0.444P(學(xué)生|購買)=6/9=0.667P(信用中|購買)=6/9=0.667P(X|購買)=0.222X0.444X0.667X0.667=0.044P倩年I不買)=3/5=0.6P(收入中等|不買)=2/5=0.4P(學(xué)生|不買)=1/5=0.2P(信用中|不買)=2/5=0.4P(X|不買)=0.6X0.4X0.2X0.4=0.019p(c)=9/14=0.643P(Ct「P(Ct「不買)=5/14=0.357P(購買|XP(購買|X)=0.044X0.643=0.028(1分)P(不買IX)=0.019X0.357=0.007(1分)試題六答案第一題.單選題AACBACDBADCCDCBACBCC第二題,多選題ABADABCDEABCDEBD第三題.判斷題TTTFTFTFTFFFTFTFFTFF試題七答案第一題.單選題ABADBCABAAABDCDCADDDCDACBDACCC第二題.多選題CDBCABCDADABACACDBCDEABCDBCD試題八答案第一題.單選題ABACBBDCBBAAAABACBCB第二題.多選題ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD試題九答案一、單選題BACDCBCADAABCDCABBBCBBACCCCDAC二、不定項選擇題CDABCACBCDABCACDABDDACACDSupport(看乒乓球f試題八答案第一題.單選題ABACBBDCBBAAAABACBCB第二題.多選題ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD試題九答案一、單選題BACDCBCADAABCDCABBBCBBACCCCDAC二、不定項選擇題CDABCACBCDABCACDABDDACACDSupport(看乒乓球f看籃球)=2000/5000=40%Confidence(看乒乓球一看籃球)=2000/3000=66.7%/沈;P(看乒乓球^看籃球)
lJ-P(看乒乓球)P(看籃球)2000/50003000/5000*3750/5000=0.89P(h+|D)=P(九+)P(D|h+)P(。)nn(03*0.2*0.2)=o-2*-7(^0.0096/P(D)P(。)=0.8*(0.01*0.01*0.2)P(D)(2分)=0.000016/P(D)P(/i+⑼>P(h-|D)答:該郵件是垃圾郵件五、c(ABCfD)2c(AB->CD)>c(AtBCD)c(ABC-D)=support({A}u{B}u{C}u{D})/support({A}u{B}u{C})c(AB->CD)=support({A}u{B}u{C)u{D})/support({A)u{B})c(A->BCD)=support({A}o{B}u{C}o{D})/support({AJ)很顯然:support({A}u{B)u{C})<support({A}u{B})<support({A})因此:c(ABC D)>c(ABCD)>c(ABCD)六、神經(jīng)網(wǎng)絡(luò)使用激活函數(shù)能夠增加模型的非線性映射,提高網(wǎng)絡(luò)的擬合和表達(dá)能力;;/3)={(1+6-工尸}'-2(_「)e~x(1+e-/產(chǎn)e~~x1+eT11+e-x=/W(i-/W)/(0)=/(0)(l-/(0))=七:問題i解答:小梅采用OneHotEncoder獨熱編碼,而小雷采用的是LabelEncoder標(biāo)簽編碼(即用某一個數(shù)字代表一種類型,如1代表一線城市,2代表二線城市,3代表三線城市)。如果模型損失函數(shù)對變量的數(shù)值大小是敏感的,如SVM、LR、GLM等,為模型A:如果模型損失函數(shù)對變量數(shù)據(jù)大小不敏感,數(shù)值的存在意義是為了排序,如各種樹模型,則為模型屏顯然該題用的LR模型對變量數(shù)值大小是敏感的,所以小梅的編碼方式更合適。問題2解答:beta為機器學(xué)習(xí)模型中的截距,如果設(shè)置為I,與事實相比過大,可能需要模型訓(xùn)練更長時間。所以小梅更好,能在短時間找到最優(yōu)的模型參數(shù)。問題3解答:在訓(xùn)練樣本中擬合的很好,但是在測試樣本中效果比較差,屬于過擬合問題。該損失函數(shù)使用的是經(jīng)驗風(fēng)險最小化,不是結(jié)構(gòu)風(fēng)險最小化,泛化能力差,容易過擬合。(結(jié)構(gòu)風(fēng)險=經(jīng)驗風(fēng)險+置信風(fēng)險,置信風(fēng)險是一個減函數(shù),整個公示反映了經(jīng)驗風(fēng)險和真實誤差的差距上界,表征了根據(jù)經(jīng)驗風(fēng)險最小化原則得到的模型的泛化能力。稱為泛化誤差上界。)問題4解答:AUC最大的應(yīng)用應(yīng)該就是點擊率預(yù)估(CTR)的離線評估。其計算過程如下:得到結(jié)果數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)為:(輸出概率,標(biāo)簽真值);對結(jié)果數(shù)據(jù)按輸出概率進(jìn)行分組,得到(輸出概率,該輸出概率下真實正樣本數(shù),該輸出概率下真實負(fù)樣本數(shù))。這樣做的好處是方便后面的分組統(tǒng)計、閾值劃分統(tǒng)計等;對結(jié)果數(shù)據(jù)按輸出概率進(jìn)行從大到小排序;從大到小,把每一個輸出概率作為分類閾值,統(tǒng)計該分類閾值下的TPR和FPR;微元法計算ROC曲線面積、繪制ROC曲線。試題十答案一、單選題ADDBDCABDCCBBCBCCAACDDCCCCCAAB二、判斷題FFTTFFTFTF三、不定項選擇題BCDABCABDABCABC四、答:聚類算法主要有:層次的方法(hierarchicalmethod)>劃分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于網(wǎng)格的方法(grid-basedmelhod)、基于模型的方法(model-basedmethod)等。其中,前兩種算法是利用統(tǒng)計學(xué)定義的距離進(jìn)行度量。K-Means算法的計算原理如下:首先從〃個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。在算法中,一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù),算法收斂后各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。五、答:在模型建立的時候,如果一味的追求提高對訓(xùn)練數(shù)據(jù)的預(yù)測能力,所選模型的復(fù)雜度往往會比真實的模型高,這種現(xiàn)象稱之為過擬合。從原理上來說,過擬合是對訓(xùn)練數(shù)據(jù)的過度學(xué)習(xí),得到的模型參數(shù)太多太復(fù)雜,所建立模型太過于依賴訓(xùn)練數(shù)據(jù),從而導(dǎo)致模型放在預(yù)測數(shù)據(jù)上時反而得不到很好的效果。因此在模型建立和選擇時,不僅僅要考慮在訓(xùn)練集上準(zhǔn)確率高,更重要的是在測試集上的準(zhǔn)確性。防止過擬合最常用的方法就是模型的正則化,即在模型的經(jīng)驗風(fēng)險后面加上一個正則項(懲罰項),正則項一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則項也越大。通過添加正則項強迫機器去學(xué)習(xí)盡可能簡單的模型。正則化的作用就是選擇經(jīng)驗風(fēng)險和模型復(fù)雜度都比較小的模型。正則化符合奧卡姆剃刀原則:在所有可以選擇的模型中,能夠很好地解釋已知數(shù)據(jù)同時十分簡單的模型才是最好的模型。六、1)年齡均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44年齡中位數(shù)=(50+52)/2=51標(biāo)準(zhǔn)差=方差的平方根=開根號(l/n-l[E(Xi)2-l/n-l(EXi)。)注意這里是抽樣(即估算樣本方差),根號內(nèi)除以(n-1)=開根號1/17[2970.44]=13.22脂肪百分比均值=28.78,中位數(shù)=30.7,標(biāo)準(zhǔn)差=9.252)繪制年齡和脂肪百分比的盒圖
3)根據(jù)這兩個屬性,繪制散布圖4)根據(jù)z-score規(guī)范化來規(guī)范化這兩個屬性age232327273941474950z-age-1.83-1.83-1.51-1.51-0.58-0.420.040.200.28%fat9.526.57.817.831.425.927.427.231.2z-%fat-2.14-0.25-2.33-1.220.29-0.32-0.15-0.180.27age525454565758586061z-age0.430.590.590.740.820.900.901.061.13%fat34.642.528.833.430.234.132.941.235.7z-%fat0.651.53().0().510.1G0.59().461.380.775)計算得到相關(guān)系數(shù)為0.82公式如下,兩個屬性變量呈正相關(guān),、cov(X,Y)七:
1)節(jié)點4、5、6的凈輸入7,和輸出Oj為:單前凈輸入(輸出g40.2+0-0.5-0.4=-0.7l+(l+e07)=03325-03+0+0.2+0.2=0.11+(1+e?!?=0.5256(-O.3)(O.332M-O.2)(O.525)+0.1=-0.1051+(1-t-eoio5)=0.4742)節(jié)點4、5、6的誤差Es為:單元jErr}6(0.474)(1-0.474)(1-0.474)=0.13115(O.525)(1-0.525)(0.1311)(-0.2)=-0.00654(0332)(1-0.332X0.1311)(-03)=-0.00873)更新后的權(quán)值和偏置為:權(quán)或偏置新值%"J“一化仇-0.3+(0.9)(0.1311)(0.332)=-0.2610.2+(0.9)(0.1311)(0.525)=-0.1380.2+(0.9)(-0,0087)(1)=0.1920.3+(0.9)(0.0065)(1)=-0.3060.4+(0.9)(-0.0087)(0)=0.40.1+(0.9)(-0.0065X0)=0.10.5+(0.9)(-0.0087)(1)=-0.5080.1+(0.9)(-0.0065)(1)=0.1940.1+(0.9)(0.1311)=0.2180.2+(0.9)(-0.0065)=0.1940.44-(0.9)(-0.0087)=-0.4084)根據(jù)鏈?zhǔn)椒▌t,如果每一層神經(jīng)元對上一層的輸出的偏導(dǎo)乘上權(quán)重結(jié)果都小于1的話,那么即使這個結(jié)果是0.99,在經(jīng)過足夠多層傳播之后,誤差對輸入層的偏導(dǎo)會趨于0,簡言之,隨著網(wǎng)絡(luò)層數(shù)的增加,誤差反向傳播的梯度更新信息會朝著指數(shù)衰減的方式減少,這就是梯度消失。數(shù)據(jù)挖掘原理與應(yīng)用試題及答案一、(30分,總共30題,每題答對得1分,答錯得0分)單選題1、當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離(A)A、聚類;B、關(guān)聯(lián)分析;C,分類;D、隱馬爾科夫2、樸素貝葉斯是一種特殊的貝葉斯分類器,特征變量是X,類別標(biāo)簽是C,它的一個假定是:(C)A、各類別的先驗概率P(C)是相等的B、以0為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布C、特征變量X的各個維度是類別條件獨立隨機變量D、P(X|C)是局斯分布3,下列說法錯誤的是(A)Krieans算法能夠解決有離群點的聚類問題K-modes能夠解決離散數(shù)據(jù)的聚類問題K-means^能夠解決初始點影響聚類效果的問題K中心點能夠解決有離群點的聚類問題4、只有非零值才重要的二元屬性被稱作:(C)A、計數(shù)屬性 B、離散屬性C,非對稱的二元屬性 D、對稱屬性5,以下哪些方法不可以直接來對文本分類(A)A、KmeansB,決策樹C,支持向量機 D、KNN6、在logistic分類中,LI正則化和L2正則化的引入為了解決什么問題?(C)A、數(shù)據(jù)量不充分 B、訓(xùn)練數(shù)據(jù)不匹配C,訓(xùn)練過擬合 D、訓(xùn)練速度太慢7、標(biāo)稱類型數(shù)據(jù)的可以實現(xiàn)數(shù)學(xué)計算(A)A、眾數(shù)B、中位數(shù)C,均值D、方差8、對于數(shù)據(jù)組:200,300,500,700,1000,使用最小-最大規(guī)范化,將數(shù)據(jù)規(guī)約到區(qū)間[5,10],其中數(shù)據(jù)500將變換為(C)A、7.375B、5.52C、6.875D、79、主成分分析(PCA)中各因子的關(guān)系是(A、互相獨立 B、線性相關(guān)A)C、非線性相關(guān)D、都有可能10、數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且最后把這些算法的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí)),以下對集成學(xué)習(xí)說法正確的是(B)A、單個模型之間有高相關(guān)性B、單個模型之間有低相關(guān)性C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會比較好D、單個模型都是用的一個算法11,訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,以下哪種激活函數(shù)最容易造成梯度消失:(B)
A、tanhA、tanhB、sigmoidC、ReLUD、leakyReLU12、在訓(xùn)練Lass?;貧w模型時,訓(xùn)練數(shù)據(jù)集有N個特征(XI,X2,…,XN)?在模型調(diào)優(yōu)階段的數(shù)據(jù)預(yù)處理時,無意將某個特征XX擴大了20倍,然后用相同的正則化參數(shù)對Lasso回歸進(jìn)行修正。那么,下列說法正確的是?(B)A、特征XX很可能被排除在模型之外B、特征XX很可能還包含在模型之中C、無法確定特征XX是否被舍棄D、其磔項說法髀對13、以下模型中,在數(shù)據(jù)預(yù)處理時,不需要考慮歸一化處理的是:(C)A,logistic回歸B、SVMC、樹形模型 D、神經(jīng)網(wǎng)絡(luò)14、關(guān)于數(shù)據(jù)預(yù)處理,以下說法錯誤的是(B)A、可以通過聚類分析方法找出離群點。B、數(shù)據(jù)質(zhì)量的三個基本屬性(指標(biāo))是:正確性、精確性和完整性。C、聚類和回歸算法可在數(shù)據(jù)預(yù)處理中做數(shù)據(jù)規(guī)約操作。D、數(shù)據(jù)集成包括內(nèi)容集成和結(jié)構(gòu)集成。15、如果對相同的數(shù)據(jù)進(jìn)行邏輯回歸,將花費更少的時間,并給出比較相似的精度(也可能不一樣),怎么辦?(假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型??赡苡龅揭粋€問題,Logistic回歸需要很長時間才能訓(xùn)練。)(D)A、陽氐學(xué)習(xí)率,減少迭代次數(shù) B、降低學(xué)習(xí)率,增加迭代次數(shù)C、提高學(xué)習(xí)率,增加迭代次數(shù) D、增加學(xué)習(xí)率,減少迭代次數(shù)16、小明想使用邏輯回歸預(yù)測用戶點擊某廣告可能性,使用了變量xl,x2作為輸入特征,兩個變量量綱差異巨大,且xl本身呈雙峰分布,兩個分布中心數(shù)值差異巨大,請問小明應(yīng)該怎么做特征工程(D)A,對xl,x2做min-max歸一化B、對xl做z-score歸一化,對x2做min-max歸一化C、對xl,x2做z-score歸一化D、以上皆不對17、關(guān)于邏輯回歸和SVM算法,說法不正確的是(A)A、邏輯回歸的目標(biāo)是最小化后驗概率B、邏輯回歸可以用于預(yù)測事件發(fā)生概率的大小C、SVM的目標(biāo)是最小化結(jié)構(gòu)風(fēng)險D、SVM可以有效避免模型過擬合18、以下關(guān)于邏輯回歸的說法不正確的是?(C)A、邏輯回歸必須對缺失值做預(yù)處理;B、邏輯回歸要求自變量和目標(biāo)變量是線性關(guān)系;C、邏輯回歸比決策樹,更容易過度擬合;D、邏輯回歸只能做2值分類,不能直接做多值分類;19、有如下6條記錄的數(shù)據(jù)集:tl=[0,P,B],t2=[P,B,M],t3=[M,A],t4=[0,P,M],t5=[0,P,B,A],t6-[0,P, 則支持度大于50%的頻繁3項集為(A)
A、OPBBA、OPBB、OPMC、PBMD、OBM20、通常可以通過關(guān)聯(lián)規(guī)則挖掘來發(fā)現(xiàn)啤酒和尿布的關(guān)系,那么如果對于一條規(guī)則A-B,如果同時購買A和B的顧客比例是4/7,而購買A的顧客當(dāng)中也購買了B的顧客比例是1/2,而購買B的顧客當(dāng)中也購買了A的顧客比例是1/3,則以下對于規(guī)則AfB的支持度(support)和置信度(confidence)分別是多少?(C)A、4/7,1/3 B、3/7,1/2C、4/7,1/2 D、4/7,2/321、下面關(guān)于關(guān)聯(lián)規(guī)則的描述錯誤的是(D)A、關(guān)聯(lián)規(guī)則經(jīng)典的算法主要有Apriori算法和FP-growth算法B、FP-growth算法主要采取分而治之的策略C、FP-growth對不同長度的規(guī)則都有很好的適應(yīng)性D、Apriori算法不需要重復(fù)的掃描數(shù)據(jù)庫22、DBSCAN算法適用于哪種樣本集(C)A、凸樣本集B、非凸樣本集C、凸樣本集與非凸樣本集 D、無法判斷23、在k-均值算法中,以下哪個選項可用于獲得全局最小?(D)A、嘗試為不同的質(zhì)心(centroid)初始化運行算法B、調(diào)整迭代的次數(shù)C、找到集群的最佳數(shù)量D、以上所有24、兩個種子點A(T,0),B(-l,6),其余點為(0,0),(2,0),(0,6),(2,6),利用Kmeans算法,點群中心按坐標(biāo)平均計算。最終同類點到種子點A和同類點到種子點B的距離和分別為(B)A、1,1B、2,2C、4,4D、6,625、一般情況下,KNN最近鄰方法在(D)情況下效果最好A、樣本呈現(xiàn)團(tuán)狀分布 B、樣本呈現(xiàn)鏈狀分布C、樣本較多但典型性不好 D、樣本較少但典型性好26、在使用樸素貝葉斯進(jìn)行文本分類時,待分類語料中,有部分語句中的某些詞匯在訓(xùn)練語料中的A類中從未出現(xiàn)過,下面哪些解決方式是正確的(C)A、按照貝葉斯公式計算,這些詞匯并未在A類出現(xiàn)過,那么語句屬于A類的概率為零。B、這種稀疏特征屬于噪音,它們的加入會嚴(yán)重影響到分類效果,把這類特征從所有類別中刪掉。C、這種特征可能會起到作用,不易簡單刪掉,使用一些參數(shù)平滑方式,使它起到作用。D、這種稀疏特征出現(xiàn)在的類別,該句更有可能屬于該類,應(yīng)該把特征從它未出現(xiàn)的類別中刪掉。27、下面關(guān)于貝葉斯分類器描述錯誤的是(B)A、以貝葉斯定理為基礎(chǔ)B、是基于后驗概率,推導(dǎo)出先驗概率C、可以解決有監(jiān)督學(xué)習(xí)的問題D、可以用極大似然估計法解貝葉斯分類器28、我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時間,我們可以(C)
A、增加樹的深度C、減少樹的深度A、增加樹的深度C、減少樹的深度D、減少樹的數(shù)量29、在使用數(shù)據(jù)挖掘解決現(xiàn)實問題時,有時出現(xiàn)分類問題的正負(fù)樣本集不均衡的現(xiàn)象,在這種情況下,以下哪種指標(biāo)不合理?(B)A,FmeasureB、AccuracyC、AUC D、Gmean30、神經(jīng)網(wǎng)絡(luò)模型是受人腦的結(jié)構(gòu)啟發(fā)發(fā)明的。神經(jīng)網(wǎng)絡(luò)模型由很多的神經(jīng)元組成,每個神經(jīng)元都接受輸入,進(jìn)行計算并輸出結(jié)果,那么以下選項描述正確的是(D)A、每個神經(jīng)元只有一個單一的輸入和單一的輸出B、每個神經(jīng)元有多個輸入而只有一個單一的輸出C、每個神經(jīng)元只有一個單一的輸入而有多個輸出D、每個神經(jīng)元有多個輸入和多個輸出二、(20分,總共10題,每題全對得2分,漏選得1分,錯選得。分)不定項選擇題1、采用決策樹分類算法,連續(xù)數(shù)據(jù)如何處理?(AB)A、連續(xù)數(shù)據(jù)離散化 B、選擇最佳劃分點分裂C、連續(xù)數(shù)據(jù)每2個值之間形成分裂 D、以上均不正確2、主成分分析(PCA)是一種重要的降維技術(shù),以下對于PCA的描述正確的是:(ABC)A、主成分分析是一種無監(jiān)督方法B、主成分?jǐn)?shù)量一定小于等于特征的數(shù)量C、各個主成分之間相互正交D、原始數(shù)據(jù)在第一主成分上的投影方差最小3、影響基本K-均值算法的主要因素有(ABD)oA,樣本輸入頁序 B、模式相似性測度C,聚類準(zhǔn)則 D、初始類中心的選取4、關(guān)于K均值和DBSCAN的比較,以下說法正確的是(ABC)A、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念B、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。C、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇D、K均值丟棄被它識別為噪聲的時象,而DBSCAN一般聚類所有對象5、貝葉斯分類器的訓(xùn)練中,最大似然法估計參數(shù)的過程包括以下哪些步驟(ABCD)A、寫出似然函數(shù)B、求導(dǎo)數(shù),令偏導(dǎo)數(shù)為0,得到似然方程組C、對似然函數(shù)取對數(shù),并整理D、解似然方褶且,得到所有參數(shù)即為所求6、決策樹中屬性選擇的方法有?(BCD)A、信息值 B、信息增益C、信息增益率 D、GINI系數(shù)7、在數(shù)據(jù)挖掘中需要劃分?jǐn)?shù)據(jù)集,常用的劃分測試集和訓(xùn)練集的劃分方法有哪些(ABC)A、留出法B、交叉驗證法 C、自助法D、評分法8、下列有關(guān)機器學(xué)習(xí)中L1正則化和L2正則化說法正確的是?(AD)A、使用L1可以得到稀疏的權(quán)值B、使用L2可以得到稀疏的權(quán)值C、使用L1可以得到平滑的權(quán)值D、使用L2可以得到平滑的權(quán)值9、下列哪些因素會對BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果產(chǎn)生影響(ABCD)A、權(quán)值初始值 B,閾值初始值C,學(xué)習(xí)率 D,隱層神經(jīng)元個數(shù)10、下列關(guān)于隨機森林和Adaboost說法正確的是(ACD)A、和Adaboost相比,隨機森林對錯誤和離群點更魯棒B、隨機森林準(zhǔn)確率不依賴于個體分類器的實例和他們之間的依賴性C、隨機森林對每次劃分所考慮的屬性數(shù)很偏感D、Adaboost初始時每個訓(xùn)練元組被賦予相等的權(quán)重三、(10分,總共10題,每題答對得1分,答錯得0分)判斷題,正確的用“T”,錯誤的用“F”1、具有較高的支持度的項集具有較高的置信度。(錯)2、利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)。(對)3、可以利用概率統(tǒng)計方法估計數(shù)據(jù)的分布參數(shù),再進(jìn)一步估計待測試數(shù)據(jù)的概率,以此來實現(xiàn)貝葉斯分類。(對)4、數(shù)據(jù)庫中某屬性缺失值比較多時,數(shù)據(jù)清理可以采用忽略元組的方法。(錯)5、K-means++自睇解決初始點影響聚類效果的問題。(對)6、邏輯回歸等同于一個使用交叉墉loss,且沒有隱藏層的神經(jīng)網(wǎng)絡(luò)。(對)7、樸素貝葉斯分類器不存在數(shù)據(jù)平滑問題。(錯)8、邏輯回歸分析需要對離散值做預(yù)處理,決策樹則不需要。(對)9、在AdaBoost算法中,所有被分錯的樣本的權(quán)重更新比例相同。(對)10、分類和回歸都可用于預(yù)測,分類的輸出是連續(xù)數(shù)值,而回歸的輸出是離散的類別值。(錯)四、(10分)假設(shè)正常對象被分類為離群點的概率是0.01,而離群點被分類為離群點概率為0.99,如果99%的對象都是正常的,那么檢測率和假警告率各為多少?(使用下面的定義)
檢測率=假警告率=檢測出的離群點個數(shù)
離群點的總數(shù)檢測率=假警告率=假離群點的個數(shù)被分類為離群點的個數(shù)觀察發(fā)現(xiàn),每天有10%觀察發(fā)現(xiàn),每天有10%概率需求40份,30%概率需求50份,40%概率需求40份,20%概率需求70份,做出下方部分決策樹:五、(10分)小明開家餐廳賣炒飯,每份炒飯售價10元,成本8元,每天需要以10份為單位提前準(zhǔn)備炒飯,按每天可能需求40,50,60,70彳分炒飯做出下方支付矩陣:?興建S裝炒坂的供應(yīng)量40份50份60份70份40份80元。元-80元-160元50份80元100元20元-60元60份80元100元120元40元70份80元100元120元140元請計算準(zhǔn)備50份炒飯的利潤的期望值?六、(10分)從某超市顧客中隨機抽取5名,他們的購物籃數(shù)據(jù)的二元0/1表示如下:面包牛奶尿布啤酒雞蛋可樂
11100002101110301110141111005111001某學(xué)生依據(jù)此數(shù)據(jù)做關(guān)聯(lián)分析,考慮規(guī)則{牛奶,尿布}->{啤酒},請計算該規(guī)則的支持度(support).置信度(confidence)。七、(10分)下表的數(shù)據(jù)集包含兩個屬性X與丫,兩個類標(biāo)號“+”和。每個屬性取三個不同值策略:0,1或2?!?”類的概念是丫=1, 類的概念是爛0andX=2。XY實例擻+-00010010002001001110021101000201001200220100⑴建立該數(shù)據(jù)集的決策樹。該決策樹能捕捉至甘+”和”的概念嗎?(注意:純性度量采用ClassificationError,Error?=1-max|t))(2)決策樹的準(zhǔn)確率、精度、召回率和Fl各是多少?(注意:精度,召回率和F1量均是對“+”類的定義)四、解:TOC\o"1-5"\h\z假警告率=(99%*1%)/(99W:l%+l%*99%)=50% 5檢測率=(1%99%)/(1%)=99% 5五、解:需求40的利潤:0.1*0=0 2
需求50的利潤:0.3*100=30 2需求60的利潤:0.4*100=40 2需求70的利潤:0.2*100=20 2利潤期望值:30+40+20=90 2六、解:支持度:{牛奶,尿布,啤酒}都出現(xiàn)的個數(shù)/事務(wù)數(shù)=2/5 5置信度:{牛奶,尿布,啤酒}都出現(xiàn)的個數(shù)/{牛奶,尿布}出現(xiàn)的個數(shù)=2/3 5七、解:(1)4在數(shù)據(jù)集中有20個正樣本和500個負(fù)樣本,因此在根結(jié)點處錯誤率為E=l-max(1分)x=oX=1X=2+01010-2000300如果按照屬性X劃分,5JIJE=l-max(1分)x=oX=1X=2+01010-2000300如果按照屬性X劃分,5JIJ:Ex=0=0/310=0Ex=l=0/10=0Ex=2=10/310△x=£-200 *052010 31010 10 *0 * = (1分)520 520310520YRY=1Y=2+0200-200100200如果按照屬性丫劃分,則:EY=0=0/200=0EY=l=20/120EY=2R/200=012052020 ■=0120(1分)因此X被選為第一個分裂屬性,因為X=0和X=1都是純節(jié)點,所以使用Y屬性去分割不純節(jié)點X=2。YR節(jié)點包含100個負(fù)樣本,Y=1節(jié)點包含10個正樣本和100個負(fù)樣本,丫二2節(jié)點100個負(fù)樣本,所以子節(jié)點被標(biāo)記為“Jo整個結(jié)果為:(2分)+,X=1其他(2)(每個1分,總計5分)預(yù)測類+-實際類+1010-0500?,1°
precision:—?,1°
precision:—=1.0
1052010recal10recal1:—=0.5,20F-measure: =0.66661.0+0.5數(shù)據(jù)挖掘原理與應(yīng)用試題及答案試卷一、(30分,總共30題,每題答對得1分,答錯得0分)單選題1、在ID3算法中信息增益是指(D)A、信息的溢出程度 B、信息的增加效益C、端增加的程度最大 D、烯減少的程度最大2、下面哪種情況不會影響kmeans聚類的效果?(B)A、數(shù)據(jù)點密度分布不均B、數(shù)據(jù)點呈圓形狀分布C、數(shù)據(jù)中有異常點存在D、數(shù)據(jù)點呈非凸形狀分布3、下列哪個不是數(shù)據(jù)對象的別名(C)A、樣品B、實例C、維度D、元組4、人從出生到長大的過程中,是如何認(rèn)識事物的?(D)A、聚類過程B、分類過程C、先分類,后聚類D、先聚類,后分類5、決策樹模型中應(yīng)如何妥善處理連續(xù)型屬性:(C)A、直接忽略 B、利用固定閾值進(jìn)行離散化C、根據(jù)信息增益選擇閾值進(jìn)行離散化D、隨機選擇數(shù)據(jù)標(biāo)簽發(fā)生變化的位置進(jìn)行離散化6、假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70.問題:使用按箱平均值平滑方法對上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個箱子值為:(A)A、18.3B,22.6C、26.8D、27.97、建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)A,根據(jù)內(nèi)容檢索 B、建模描述C、預(yù)測建模 D、尋找模式和規(guī)則8、如果現(xiàn)在需要對一組數(shù)據(jù)進(jìn)行樣本個體或指標(biāo)變量按其具有的特性進(jìn)行分類,尋找合理的度量事物相似性的統(tǒng)計量,應(yīng)該采?。ˋ)A,聚類分析 B、回歸分析C、相關(guān)分析D、判別分析9、時間序列數(shù)據(jù)更適合用(A)做數(shù)據(jù)規(guī)約。A、小波變換 B、主成分分析 C、決策樹 D、直方圖10、下面哪些場景合適使用PCA?(A)A、陽氐數(shù)據(jù)的維度,節(jié)約內(nèi)存和存儲空間B、降低數(shù)據(jù)維度,并作為其它有監(jiān)督學(xué)習(xí)的輸入C、獲得更多的特征D、替代線性回歸11、數(shù)字圖像處理中常使用主成分分析(PCA)來對數(shù)據(jù)進(jìn)行降維,下列關(guān)于PCA算法錯誤的是:(C)A、PCA算法是用較少數(shù)量的特征對樣本進(jìn)行描述以達(dá)到降低特征空間維數(shù)的方法;B、PCA本質(zhì)是KL-變換;C、PCA是最小絕對值誤差意義下的最優(yōu)正交變換:D、PCA算法通過對協(xié)方差矩陣做特征分解獲得最優(yōu)投影子空間,來消除模式特征之間的相關(guān)性、突出差異性;12、將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C)A,頻繁模式挖掘 B,分類和預(yù)測C、數(shù)據(jù)預(yù)處理 D、數(shù)據(jù)流挖掘13、假設(shè)使用維數(shù)降低作為預(yù)處理技術(shù),使用PCA將數(shù)據(jù)減少到k維度。然后使用這些PCA預(yù)測作為特征,以下哪個聲明是正確的?(B)A、更高的“k”意味著更正則化 B、更高的“k”意味著較少的正則化C,都不對 D、都正確14、為節(jié)省神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時間,神經(jīng)網(wǎng)絡(luò)模型的權(quán)重和偏移參數(shù)一般初始化為(D)A、0B、0.5C、1D,隨機值15、在邏輯回歸輸出與目標(biāo)對比的情況下,以下評估指標(biāo)中哪一項不適用?(D)A、AUC-ROCB、準(zhǔn)確度C、LoglossD、均方誤差16、假設(shè)對數(shù)據(jù)提供一個邏輯回歸模型,得到訓(xùn)練精度X和測試精度Yo在數(shù)據(jù)中加入新的特征值,則下列哪一項是正確的?提示:其余參數(shù)是一樣的。(B)A,訓(xùn)練精度總是下降 B、訓(xùn)練精度總是上升或不變C,測試精度總是下降 D、測試精度總是上升或不變17、SVM(支持向量機)與LR(邏輯回歸)的數(shù)學(xué)本質(zhì)上的區(qū)別是什么?(A)A、損失函數(shù) B、是否有核技巧 C、是否支持多分類 D、其余選項皆錯18、邏輯回歸為什么是一個分類算法而不是回歸算法?(A)A、是由于激活函數(shù)sigmod把回歸問題轉(zhuǎn)化成了二分類問題B、是由于激活函數(shù)maxsoft把回歸問題轉(zhuǎn)化成了二分類問題C、是由于激活函數(shù)tanh把回歸問題轉(zhuǎn)化成了二分類問題D、是由于激活函數(shù)Relu把回歸問題轉(zhuǎn)化成了二分類問題19、以下關(guān)于邏輯回歸說法錯誤的是:(C)A、特征歸一化有助于模型效果B、邏輯回歸是一種廣義線性模型C、邏輯回歸相比最小二乘法分類器對異常值更敏感D、邏輯回歸可以看成是只有輸入層和輸出層且輸出層為單一神經(jīng)元的神經(jīng)網(wǎng)絡(luò)20、Apriori算法的計算復(fù)雜度受(D)影響A,項數(shù)(維度) B、事務(wù)平均寬度 C、事務(wù)數(shù)D、支持度閥值21、考慮下面的頻繁3-項集的集合:{1.2.3},{1.2.4},{1.2.5},{1.3.4},{1.3.5},{2.3.4},{2.3.5},{3.4.5}?假定數(shù)據(jù)集中只有5個項,采用合并策略,由候選產(chǎn)生過程得到4-項集不包含(C)A、1.2.3.4B、1.2.3.5C、1.2.4.5D、1.3.4.522、在關(guān)聯(lián)規(guī)則中,有三個重要的指標(biāo),支持度(support),置信度(confident),作用度(lift),則對于規(guī)則X->Y的三個指標(biāo)說法錯誤的是(N表示所有的樣本item數(shù)目):(C)A、support=freq(X,Y)/NB、confident=freq(X,Y)/freq(x)C,lift=freq(X,Y)/freq(Y)D、lift=freq(X,Y)*N/(freq(X)*freq(Y))23、在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A)的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A、曼哈頓距離 B、平方歐幾里德距離C、余弦距離D、Bregman散度24、一共5個點A(0,0),B(l,0.3),C(3,0.5),D(2,1),E(1.8,1.5),采用Kmeans方法如果選取A,D為種子點,B,C,E分別屬于(A)種子點A、A,D,DB、A,A,DC、D,D,AD、D,A,D25、圖像中應(yīng)用的kmeans算法,以下說法錯誤的是:(D)A、kmeans算法有效的前提假設(shè)是數(shù)據(jù)滿足高斯分布B、kmeans需要手工指定類別的數(shù)目KC、對于多維實數(shù)數(shù)據(jù),kmeans算法最終一定是收斂的D、kmeans算法可以直接得到類別分布的層級關(guān)系26、以下關(guān)于KNN的描述,不正確的是(A)A、KNN算法只適用于數(shù)值型的數(shù)據(jù)分類B、KNN算法對異常值不敏感C、KNN算法無數(shù)據(jù)輸入假定D、其他說法都正確27、假定某同學(xué)使用貝葉斯分類模型時,由于失誤操作,致使訓(xùn)練數(shù)據(jù)中兩個維度重復(fù)表示。下列描述中正確的是:(B)A、被重復(fù)的在模型中作用被加強B、模型效果精度降低C、如果所有特征都被重復(fù)一遍,則預(yù)測結(jié)果不發(fā)生變化D,以上均正確28、在其他條件不變的前提下,以下哪種做法容易引起模型中的過擬合問題?(D)A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點數(shù)C、刪除稀疏的特征I)、SVM算法中使用高斯核/RBF核代替線性核29、下列哪一項在神經(jīng)網(wǎng)絡(luò)中引入了非線性(B)A、SGD B、激活函數(shù) C、卷積函數(shù) D、都不正確30、下列哪個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會發(fā)生權(quán)重共享(D)A、卷積神經(jīng)網(wǎng)絡(luò) B、循環(huán)神經(jīng)網(wǎng)絡(luò)C,全連接神經(jīng)網(wǎng)絡(luò) D、選項A和B二、(20分,總共10題,每題全對得2分,漏選得1分,錯選得0分)不定項選擇題1、下列哪些是非監(jiān)督數(shù)據(jù)離散化方法(ABC)A,等寬法B,等頻法C、聚類法D、決策樹法(ABC2、在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法有:(ABCA、忽略元組 B、使用屬性的平均值填充空缺值C、使用一個全局常量填充空缺值 D、使用最可能的值填充空缺值3、序數(shù)類型數(shù)據(jù)的可以實現(xiàn)數(shù)學(xué)計算 (AB)A、眾數(shù)B、中位數(shù)C,均值D、方差4、應(yīng)用PCA后,以下哪項可以是前兩個主成分?(CD)(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)(0.5,0.5,0.5,0.5)和(0,0,-0.71,0.71)C、(0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)D、(0.5,0.5,0.5,0.5)和(-0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 城市配送與物流配送環(huán)節(jié)的個性化服務(wù)考核試卷
- 機床附件的供應(yīng)鏈優(yōu)化與成本控制考核試卷
- D打印技術(shù)在個性化鞋類設(shè)計的應(yīng)用考核試卷
- 城市規(guī)劃城市水資源配置考核試卷
- 未來的數(shù)字化電影產(chǎn)業(yè)考核試卷
- 在家工作租房合同范本
- 代加工藥品合同范本
- 工程承包服務(wù)合同范本
- 酒店客房服務(wù)操作流程制度
- 電力行業(yè)電力設(shè)備維修合同及免責(zé)條款
- 六年級小升初語文試卷 [六年級下冊語文小升初試卷
- 計量泵的維護(hù)和修理知識培訓(xùn)講義
- 危險化學(xué)品從業(yè)單位安全生產(chǎn)標(biāo)準(zhǔn)化宣貫
- 幼兒園中班開學(xué)第一課
- Zabbix監(jiān)控系統(tǒng)方案
- 招商人員薪酬及提成
- 物業(yè)保潔員培訓(xùn)專業(yè)課件
- 人教版小學(xué)六年級數(shù)學(xué)下冊教材研說
- PPT辦公使用技巧培訓(xùn)筆記(共52張)
- 六年級《我的夢想》作文指導(dǎo)(課堂PPT)
- 關(guān)于誠信的論據(jù)
評論
0/150
提交評論