數(shù)據(jù)挖掘原理與應用試題及答案(丁兆云)試卷1~10答案_第1頁
數(shù)據(jù)挖掘原理與應用試題及答案(丁兆云)試卷1~10答案_第2頁
數(shù)據(jù)挖掘原理與應用試題及答案(丁兆云)試卷1~10答案_第3頁
數(shù)據(jù)挖掘原理與應用試題及答案(丁兆云)試卷1~10答案_第4頁
數(shù)據(jù)挖掘原理與應用試題及答案(丁兆云)試卷1~10答案_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘原理與應用試題及答案試卷一答案:解:BADDA二、解:二、解:,I, _count?=a,)xcount(B=b)UJ-■ ?en300x450 ~ en300x450 ~ =901500e!2I?。。*45。=3601500300x1050 二2101500e221200x1250 … =8401500所以(25°-9。產(chǎn)+(25°-9。產(chǎn)+(5。一21所90210(200-360)2+ 360+(1000-8W840=284.44+121.90+71.11+30.48=507.93三、解:分類和回歸的區(qū)別在于輸出變量的類型。定量輸出稱為回歸,或者說是連續(xù)變量預測;定性輸出稱為分類,或者說是離散變量預測。四、解:Root(FP-Tree(不唯一))RootFP-TreeK:5Y:10:1

K:5Y:10:1itemconditionalpatternbaseconditionaltreefrequentpatterny{{k,e,m,o:l},{k,e,o:l},{k,m:l}}k:3{k,y:3}o{{k,e,m:l},{k,e:2}k:3,e:3{k,o:3},{e,o:3},{k,e,o:3}m{{k,e:2},{k:l}}k:3{k,m:3}e{#:4}}k:4{k,e:4}五、解:(1)在數(shù)據(jù)集中有20個正樣本和500個負樣本,因此在根結(jié)點處錯誤率為TOC\o"1-5"\h\z_, /20 500、 20t—1-max\ , )—520 520 520如果按照屬性X劃分,則:x=oX=1X=2+01010-2000300TOC\o"1-5"\h\zEx=o=O/31O=O Ex=i=0/10=0 Ex=2=10/310200 10 310 10_10\o"CurrentDocument"A- 520 520 520 310 520如果按照屬性丫劃分,貝ij:Y=0Y=1Y=2+02()0-20()10020()Ey=o=O/2OO=O120aEy=o=O/2OO=O120ax=E-~\ 52020=0120因此X被選為第一個分裂屬性,因為X=0和X=1都是純節(jié)點,所以使用丫屬性去分割不純節(jié)點X=2。丫=0節(jié)點包含100個負樣本,丫=1節(jié)點包含10個正樣本和100個負樣本,丫=2節(jié)點100個負樣本,所以子節(jié)點被標記為“.”。整個結(jié)果為:'+,X=1類標記=<、-淇他(2)預測類+-實際類+1010-0500510 10accuracy: =0.9808, aprecision:—=1.0520 1010 2*0.5*1.0recall:—=0.5, F-measure: =0.666620 1.0+0.5(3)由題可得代價矩陣為預測類+-實際類+0500/20=2.5-10決策樹在(1)之后還有3個葉節(jié)點,X=2AY=0,X=2AY=1,X=2AY=2o其中X=2八丫=1是不純節(jié)點,誤分類該節(jié)點為“+”類的代價為:10*0+100*1=100,誤分該節(jié)點為"-”類的代價為:10*25+100*0=250。所以這些節(jié)點被標記為“+”類。分類結(jié)果為:'+ X=1v(X=2/\Y=l)類標記="、-其他六、解:比如第一次聚類,兩個聚簇的中心坐標如下:聚類中心坐標% 工(A、B)(C、D)第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標,為下一步聚類做準備。先計算A到兩個類的平方距離:J2(A,(AB))=(5-2)2+(3-2)2=10片(4(8))=(5+1尸+(3+2尸=61由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:</2(B,(AB))=(-l-2)2+(l-2)2=10/(氏(CD))=(-1+1尸+(1+2產(chǎn)=9由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)?更新中心坐標如下表所示。聚類中心坐標(A)53(B、C、D)-1-1第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方,結(jié)果見下表。聚類樣品到中心的距離平方A BC D(A)0404189(B、C、D)52455到現(xiàn)在為止,每個樣品都已經(jīng)分配給距離中心最近的類,因此聚類過程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨自成一類,B、C、D聚成一類。七、解:假警告率=(99%*1%)/(99%*1%+1%*99%)=50%檢測率=(1%99%)/(1%)=99%八、解:(1)圖1中,對象p,q,pl是核心對象:圖2中,對象p,q,o是核心對象。因為他們的-領域內(nèi)斗至少包含3(MinPts)個對象。(2)圖1中,對象p是從對象pl直接密度可達的,反之亦然;對象q是從對象pl直接密度可達的,反之亦然。圖2中,對象p,q,。中不存在直接密度可達的對象。(3)圖1中,對象p,q,pl相互間是密度可達的;圖2中,對象p,q,。相互間是密度可達的。(4)圖1中,對象p,q,pl相互間是密度相連的;圖2中,對象p,q,。相互間是密度相連的。九、解:(1)均值2.29,方差1.51(2)離群點24.0試題二答案一、解:d=7(20-22)2+(0-I)2+(36-42)2+(8-10)2=375 Hi?o(*▽*)7* d=V(20-22)3+(0-I)3+(36-42)3+(8-10)3=V233 J(i,j)=max| |,所以d=max{2,l,6,2}=6 二、解:Hadoop基于分布式文件系統(tǒng)HDFS的分布式批處理計算框架。適用于數(shù)據(jù)量大,SPMD(單程序多數(shù)據(jù))的應用。Spark基于內(nèi)存計算的并行計算框架。適用于需要迭代多輪計算的應用。MPI基于消息傳遞的并行計算框架。適用各種復雜應用的并行計算。支持MPMD(多程序多數(shù)據(jù)),開發(fā)復雜度高三、解:最小支持度計數(shù)為560%=3Apriori:

四、解:< {1} {2} {3}{4} ><{1}{25}{3}>< {1} {5} {34}>< {2} {3} {4}{5} ><{25}{34}>五、解:9a5R(1)Info(D)= log.? log2—=0.94014 214 14 2144 24 2InfOincm'D)=—X(--log22 2 , 2、 6 /4 , log2—)+—x(——log24 4 24 14 6 22. 2、——log2一)6 26+Ax(-2io+Ax(-2iog2214 4 24-log,-)=0.91114 24Gainkincome)=Infc^D}-Infoincom(.D}=0.940-0.9111=0.029 (2) 4 44 4SplitInfoinco^D}=--Xlog2—6 6 4 4—xlog? xlog?—=1.55714 214 14 214GainRatio^income)—Gain^income)/SplitInfoincom^D}—0.029/1.557=0.019(3) 10 4⑵=-Gini(D)+-Gini(D>=0.443六、解:每個類的先驗概率P(G)為: P(buys-computer=yes)=9/14P(buys-computer=no)=5/14條件概率為: P(age=youth|buys-computer=yes)=2/9P(age=youth|buys-computer=no)=3/5P(income=medium|buys-computer=yes)=4/9P(income=medium|buys-computer=no)=2/5P(student=yes|buys-computer=yes)=6/9P(student=yes|buys-computer=no)=1/5P(credit=fair|buys-computer=yes)=6/9P(credit=fair|buys-computer=no)=2/5使用上面的概率,得到:P(X|buys-computer=yes)=P(age=youth|buys-computer=yes)XP(income=medium|buys-computer=yes)XP(student=yes|buys-computer=yes)XP(credit=fair|buys-computer=yes)=32/729 類似的,P(X|buys-computer=no)=l2/625 為了找出最大化P(X|Ci)P(Ci),計算P(X|buys-computer=yes)P(buys-computer=yes)=16/567=0.028 P(X|buys-computer=no)P(buys-computer=no)=6/875=0.007

因此,對于元組X,樸素貝葉斯分類預測元組X的類為buys-computer=yes 七、解:TPFPTNFNTPRFPRp10540.20N1I440.20.2P2i430.40.2P3i420.60.2N32320.60.4P42310.80.4N43210.80.6N44110.80.8N45010.81P550011八、解:k-均值和k.中心點算法都可以進行有效的聚類。(1)k-均值優(yōu)點:高效,k.均值算法復雜度為O(tkn),n是對象數(shù)目,k是聚類數(shù)目,t是迭代次數(shù),一般的k,t?n;缺點:1)局部最優(yōu)解;2)只適用于連續(xù)的固定的n維數(shù)據(jù)3)需要先確定聚類數(shù)目k;4)對噪音和離群點比較敏感:5)只適用于凸型數(shù)據(jù)聚類。k-中心點優(yōu)點:1)可適用于范圍可變的數(shù)據(jù);2)能夠處理對噪聲或離群點。缺點:1)局部最優(yōu)解2)只適用于數(shù)據(jù)集較小的數(shù)據(jù)集,對較大的數(shù)據(jù)集不適用(計算的復雜性)算法復雜度為O(k(n-k)2).3)需要先確定聚類數(shù)目k;4)只適用于凸型數(shù)據(jù)聚類(2)層次化聚類方法優(yōu)點:沒有局部極小問題或是很難選擇初始點的問題缺點:計算存儲的代價昂貴。試題三答案:一、解:BCACCBCAAABABBD二、解:ABCACDABCDADABCD三、解:g(D,A)=H(4/10,6/10)-7/10*H(4/7,3/7)-3/10*H(l,0)g(D,B)=H(4/10,6/10)-4/10*H(3/4,1/4)-6/10*H(5/6,1/6)信息增益表示特征X使得類y的不確定性減少的程度四、解:這屬于聚類分析。因為這是無監(jiān)督的學習,事先不知道各個類別的標準。而分類分析屬于有監(jiān)督的學習,事先知道分類的標準。兩者的區(qū)別主要是數(shù)據(jù)中是否有類標號。從數(shù)據(jù)方面來說,分類挖掘的數(shù)據(jù)必須有類標號,也就是有專家參與。五、解:(1):平均值是25.08,20%的截斷均值(兩端各去掉兩個數(shù)以后的平均值)是18.8,中位數(shù)是19o(2)規(guī)范化后,轉(zhuǎn)換后的值為(0,1,0.31)(3)深度為4進行劃分,得到三個箱(6,7,9,11),(12,18,20,21),(25.35,37,100)邊界值平滑后的結(jié)果為(6,6,11,11),(12,12,21,21),(25,25,25,100)六、解:欠擬合的原因:模型復雜度過低,不能很好的擬合所有的數(shù)據(jù),訓練誤差大;避免欠擬合:增加模型復雜度,如采用高階模型(預測)或者引入更多特征(分類)等。過擬合的原因:模型復雜度過高,訓練數(shù)據(jù)過少,訓練誤差小,測試誤差大;避免過擬合:降低模型復雜度,如加上正則懲罰項,如LI,L2,增加訓練數(shù)據(jù)等。七、解:劍橋分析有三大法寶:心理學模型、大數(shù)據(jù)分析、定向廣告。首先,他們從各種地方獲取個人數(shù)據(jù),比如土地登記信息、汽車數(shù)據(jù)、購物數(shù)據(jù)、優(yōu)惠券、俱樂部會員,以及FB賬戶信息等。再把這些信息與選民名冊等大數(shù)據(jù)整合到一起,一起放進已研發(fā)出的心理學模型中,原先的數(shù)字足跡變成了完整又具體的大活人,他們有擔憂、有需求、有興趣、有癖好,還附帶手機號碼、信用卡類型、電子郵箱和家庭住址。接下來,你就可以根據(jù)自己的需求,向這些早已被你研究透的人們灌輸思想了。在川普和希拉里展開第三場電視辯論的時候,劍橋分析用川普的觀點在FB上精心測試了17.5萬個版本的廣告,然后跟蹤人們在網(wǎng)絡上的舉動和興趣,恰如其分地投放4到5萬條,不同版本的差別都僅僅是細節(jié):比如標題、顏色、照片、視頻……然后就是等待獵物的反饋:比如某人是賓夕法尼亞州一個搖擺不定的選民,他有沒有點擊關于希拉里郵件門的帖子呢?點了,就顯示更多的內(nèi)容,看看希拉里是如何失職的。沒點?自動腳本就換個標題,或者換個切入點~ ■比如這個人容易聽信權威,標題就自動更正為:《情報部門高官一致認為:希拉里郵件門事件危及國家安全》??傊褪欠磸拖蚰阃斗潘麄兿胱屇憧吹降膬?nèi)容,直到你最終被他們洗腦。試題四答案一、解:CCDCCADACDCDCDA二、解:BDABCDBCEADABCDABDCACDABCBCBDCC三、解:(1)被評為垃圾郵件的發(fā)信郵件地址,信的內(nèi)容,信的格式(長度,段落等)(2)準確率為1%,召回率為1.01%(3)對正樣本進行上采樣,或者對正樣本加大的權重四、解:d(p,q)=1+1+(20-18)=4d ( p , Cl ) = ( 1-25/30) + (1-20/30 ) + (20-18 )=2.5d ( p , C2 ) = ( 1-3/15) + (1-0/15) + ( 24-18) =7.8d ( q , Cl ) = ( 1-5/30) + (1-4/30) + ( 20-20) =1.7d ( q , C2 ) = ( 1-12/15) + (1-2/15) + (24-20)=5.07d(Cl,Cl)=(1-(25*3+5*12)/30*15)+(1-(6*1+4*2)/15*30)+(24-20)=5.67五、解:K-means算法通過最小化平方距離,通過迭代發(fā)現(xiàn)K個聚簇,在每次迭代中,需要計算均值點,通過每個點與均值點的距離來重新調(diào)整聚類。選擇聚類中心通過計算每個聚簇中所有點在每個維度的平均值來獲得。試題五答案一、解:TOC\o"1-5"\h\z.離群點可以是合法的數(shù)據(jù)對象或者值。 (T).離散屬性總是具有有限個值。 (F).關聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。 (F).K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(F).如果一個對象不屬于任何簇,那么該對象是基于聚類的離群點。(T)二、解:P(青年I購買)=2/9=0.222P(收入中等|購買)=4/9=0.444P(學生|購買)=6/9=0.667P(信用中|購買)=6/9=0.667P(X|購買)=0.222X0.444X0.667X0.667=0.044P倩年I不買)=3/5=0.6P(收入中等|不買)=2/5=0.4P(學生|不買)=1/5=0.2P(信用中|不買)=2/5=0.4P(X|不買)=0.6X0.4X0.2X0.4=0.019p(c)=9/14=0.643P(Ct「P(Ct「不買)=5/14=0.357P(購買|XP(購買|X)=0.044X0.643=0.028(1分)P(不買IX)=0.019X0.357=0.007(1分)試題六答案第一題.單選題AACBACDBADCCDCBACBCC第二題,多選題ABADABCDEABCDEBD第三題.判斷題TTTFTFTFTFFFTFTFFTFF試題七答案第一題.單選題ABADBCABAAABDCDCADDDCDACBDACCC第二題.多選題CDBCABCDADABACACDBCDEABCDBCD試題八答案第一題.單選題ABACBBDCBBAAAABACBCB第二題.多選題ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD試題九答案一、單選題BACDCBCADAABCDCABBBCBBACCCCDAC二、不定項選擇題CDABCACBCDABCACDABDDACACDSupport(看乒乓球f試題八答案第一題.單選題ABACBBDCBBAAAABACBCB第二題.多選題ABCABCDABCABABDBCBCABCDABCBCDABCABABCBCD試題九答案一、單選題BACDCBCADAABCDCABBBCBBACCCCDAC二、不定項選擇題CDABCACBCDABCACDABDDACACDSupport(看乒乓球f看籃球)=2000/5000=40%Confidence(看乒乓球一看籃球)=2000/3000=66.7%/沈;P(看乒乓球^看籃球)

lJ-P(看乒乓球)P(看籃球)2000/50003000/5000*3750/5000=0.89P(h+|D)=P(九+)P(D|h+)P(。)nn(03*0.2*0.2)=o-2*-7(^0.0096/P(D)P(。)=0.8*(0.01*0.01*0.2)P(D)(2分)=0.000016/P(D)P(/i+⑼>P(h-|D)答:該郵件是垃圾郵件五、c(ABCfD)2c(AB->CD)>c(AtBCD)c(ABC-D)=support({A}u{B}u{C}u{D})/support({A}u{B}u{C})c(AB->CD)=support({A}u{B}u{C)u{D})/support({A)u{B})c(A->BCD)=support({A}o{B}u{C}o{D})/support({AJ)很顯然:support({A}u{B)u{C})<support({A}u{B})<support({A})因此:c(ABC D)>c(ABCD)>c(ABCD)六、神經(jīng)網(wǎng)絡使用激活函數(shù)能夠增加模型的非線性映射,提高網(wǎng)絡的擬合和表達能力;;/3)={(1+6-工尸}'-2(_「)e~x(1+e-/產(chǎn)e~~x1+eT11+e-x=/W(i-/W)/(0)=/(0)(l-/(0))=七:問題i解答:小梅采用OneHotEncoder獨熱編碼,而小雷采用的是LabelEncoder標簽編碼(即用某一個數(shù)字代表一種類型,如1代表一線城市,2代表二線城市,3代表三線城市)。如果模型損失函數(shù)對變量的數(shù)值大小是敏感的,如SVM、LR、GLM等,為模型A:如果模型損失函數(shù)對變量數(shù)據(jù)大小不敏感,數(shù)值的存在意義是為了排序,如各種樹模型,則為模型屏顯然該題用的LR模型對變量數(shù)值大小是敏感的,所以小梅的編碼方式更合適。問題2解答:beta為機器學習模型中的截距,如果設置為I,與事實相比過大,可能需要模型訓練更長時間。所以小梅更好,能在短時間找到最優(yōu)的模型參數(shù)。問題3解答:在訓練樣本中擬合的很好,但是在測試樣本中效果比較差,屬于過擬合問題。該損失函數(shù)使用的是經(jīng)驗風險最小化,不是結(jié)構風險最小化,泛化能力差,容易過擬合。(結(jié)構風險=經(jīng)驗風險+置信風險,置信風險是一個減函數(shù),整個公示反映了經(jīng)驗風險和真實誤差的差距上界,表征了根據(jù)經(jīng)驗風險最小化原則得到的模型的泛化能力。稱為泛化誤差上界。)問題4解答:AUC最大的應用應該就是點擊率預估(CTR)的離線評估。其計算過程如下:得到結(jié)果數(shù)據(jù),數(shù)據(jù)結(jié)構為:(輸出概率,標簽真值);對結(jié)果數(shù)據(jù)按輸出概率進行分組,得到(輸出概率,該輸出概率下真實正樣本數(shù),該輸出概率下真實負樣本數(shù))。這樣做的好處是方便后面的分組統(tǒng)計、閾值劃分統(tǒng)計等;對結(jié)果數(shù)據(jù)按輸出概率進行從大到小排序;從大到小,把每一個輸出概率作為分類閾值,統(tǒng)計該分類閾值下的TPR和FPR;微元法計算ROC曲線面積、繪制ROC曲線。試題十答案一、單選題ADDBDCABDCCBBCBCCAACDDCCCCCAAB二、判斷題FFTTFFTFTF三、不定項選擇題BCDABCABDABCABC四、答:聚類算法主要有:層次的方法(hierarchicalmethod)>劃分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于網(wǎng)格的方法(grid-basedmelhod)、基于模型的方法(model-basedmethod)等。其中,前兩種算法是利用統(tǒng)計學定義的距離進行度量。K-Means算法的計算原理如下:首先從〃個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數(shù)開始收斂為止。在算法中,一般都采用均方差作為標準測度函數(shù),算法收斂后各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。五、答:在模型建立的時候,如果一味的追求提高對訓練數(shù)據(jù)的預測能力,所選模型的復雜度往往會比真實的模型高,這種現(xiàn)象稱之為過擬合。從原理上來說,過擬合是對訓練數(shù)據(jù)的過度學習,得到的模型參數(shù)太多太復雜,所建立模型太過于依賴訓練數(shù)據(jù),從而導致模型放在預測數(shù)據(jù)上時反而得不到很好的效果。因此在模型建立和選擇時,不僅僅要考慮在訓練集上準確率高,更重要的是在測試集上的準確性。防止過擬合最常用的方法就是模型的正則化,即在模型的經(jīng)驗風險后面加上一個正則項(懲罰項),正則項一般是模型復雜度的單調(diào)遞增函數(shù),模型越復雜,正則項也越大。通過添加正則項強迫機器去學習盡可能簡單的模型。正則化的作用就是選擇經(jīng)驗風險和模型復雜度都比較小的模型。正則化符合奧卡姆剃刀原則:在所有可以選擇的模型中,能夠很好地解釋已知數(shù)據(jù)同時十分簡單的模型才是最好的模型。六、1)年齡均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44年齡中位數(shù)=(50+52)/2=51標準差=方差的平方根=開根號(l/n-l[E(Xi)2-l/n-l(EXi)。)注意這里是抽樣(即估算樣本方差),根號內(nèi)除以(n-1)=開根號1/17[2970.44]=13.22脂肪百分比均值=28.78,中位數(shù)=30.7,標準差=9.252)繪制年齡和脂肪百分比的盒圖

3)根據(jù)這兩個屬性,繪制散布圖4)根據(jù)z-score規(guī)范化來規(guī)范化這兩個屬性age23232727394147495

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論