數(shù)據(jù)挖掘試卷-題集匯編_第1頁(yè)
數(shù)據(jù)挖掘試卷-題集匯編_第2頁(yè)
數(shù)據(jù)挖掘試卷-題集匯編_第3頁(yè)
數(shù)據(jù)挖掘試卷-題集匯編_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、學(xué)習(xí)-好資料數(shù)據(jù)挖掘復(fù)習(xí)題集1 .名詞解釋及簡(jiǎn)答數(shù)據(jù)矩陣閉頻繁項(xiàng)集,極大頻繁項(xiàng)集四分位數(shù)極差聚類(lèi)分析聚類(lèi)算法DBSCAN中的密度可達(dá)與密度相連簡(jiǎn)述數(shù)據(jù)清理的任務(wù)簡(jiǎn)述k-means聚類(lèi)與k-中心點(diǎn)聚類(lèi)的相似與不同之處2 .填空題(1) 計(jì)算sin(45o)的Matlab命令是(2) 假設(shè)x=10,計(jì)算(J2ex4"5+1)的Matlab命令是(3) Matlab中清除顯示內(nèi)容的命令是(4) Matlab中清除變量y的命令是(5) Matlab中有矩陣a=123;456;789,執(zhí)行a(2,:)二口后,a的值為。(6) Matlab中繪制曲線(xiàn)的基本命令是。(7) 數(shù)據(jù)質(zhì)量涉及許多因素,包

2、括,時(shí)效性,可信性和可解釋性。(8) 屬性的類(lèi)型由該屬性可能具有的值的集合決定,屬性類(lèi)型包括,序數(shù)的或數(shù)值的。(9) KDD過(guò)程包括:,數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)寸g掘,模式評(píng)估和。(10) 一個(gè)模式是有趣的,如果它是,在某種程度上在新的或測(cè)試數(shù)據(jù)上是有效的,新穎的,或驗(yàn)證了用戶(hù)希望證實(shí)的某種假設(shè)。(11) 數(shù)據(jù)對(duì)象又稱(chēng)為樣本、數(shù)據(jù)點(diǎn)、或。(12) 數(shù)值屬性可以被分為屬性和屬性(13) 常見(jiàn)的數(shù)據(jù)的可視化技術(shù)有基于的技術(shù),幾何投影技術(shù),基于的技術(shù)以及層次的和基于圖形的技術(shù)。(14) 支持度和是規(guī)則興趣度的兩種度量。3.選擇題:1) Matlab中,執(zhí)行a=-4:4;b=reshape(

3、a,3,3)后b的值是()。2) 在MATLAB中,列出當(dāng)前工作空間變量名的函數(shù)是更多精品文檔學(xué)習(xí)-好資料(A)who(s)(B)clc(C)path(D)draw-4613)已知A=28,則在MATLAB中調(diào)用命令A(yù)(3)的結(jié)果為-37J(A)3(B)2(C)無(wú)結(jié)果(D)74) MATLAB對(duì)圖形窗口進(jìn)行靈活分割的命令為(A)plot(B)subplot(C)aplot(D)ploval5) A=363,B=211,則A.*B=(A)運(yùn)算不執(zhí)行,因有錯(cuò)(B)683(C)574(D)6636) MATLAB中保持圖形窗口不關(guān)閉的命令為(A)alter(B)holdon(C)holdoff(D)

4、cd7) MATLAB中a=2,3,1,則b=a.A2的結(jié)果為(A)b=4,6,1(B)b=4,9,1(C)b=4,6,2(D)執(zhí)行出錯(cuò),無(wú)結(jié)果8) MATLAB中給變量w賦空矩陣的語(yǔ)句為(A)w=zeros()(B)w=(C)w=zeros(0,0)(D)clearw9)某超市研究銷(xiāo)售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買(mǎi)啤酒的人很大概率也會(huì)購(gòu)買(mǎi)尿布,這種屬于數(shù)據(jù)挖掘的哪類(lèi)問(wèn)題?()A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類(lèi)C.分類(lèi)D.自然語(yǔ)言處理10)假設(shè)12個(gè)銷(xiāo)售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)

5、箱子內(nèi)?()A第一個(gè)B第二個(gè)C第三個(gè)D第四個(gè)11)上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里?()12)下面哪個(gè)不屬于數(shù)據(jù)的屬性類(lèi)型:()A標(biāo)稱(chēng)B序數(shù)C區(qū)間D相異13)在上題中,屬于定量的屬性類(lèi)型是:()14)只有非零值才重要的二元屬性被稱(chēng)作:()A計(jì)數(shù)屬性B離散屬性C非對(duì)稱(chēng)的二元屬性D對(duì)稱(chēng)屬性15)以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:()A嵌入B過(guò)濾C包裝D抽樣16)嫡是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的嫡是:()A1比特B2.6比特C3.2比特D3.8比特17)假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性

6、的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:()A0.821B1.224C1.458D0.71618)假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問(wèn)題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:()更多精品文檔學(xué)習(xí)-好資料A18.3B22.6C26.8D27.919)考慮值集12243324556826,其四分位數(shù)極差是:()A31B24C55D320)一所大學(xué)內(nèi)的各年

7、紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是:()A一年級(jí)B二年級(jí)C三年級(jí)D四年級(jí)21)下列哪個(gè)不是專(zhuān)門(mén)用于可視化時(shí)間空間數(shù)據(jù)的技術(shù):()A等高線(xiàn)圖B餅圖C曲面圖D矢量場(chǎng)圖22)在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是:()A有放回的簡(jiǎn)單隨機(jī)抽樣B無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C分層抽樣D漸進(jìn)抽樣23)以下哪些算法是分類(lèi)算法,()A,DBSCANBC4.5C,K-MeanD,EM24)以下哪些分類(lèi)方法可以較好地避免樣本的不平衡問(wèn)題,()A,KNNB,SVMC,BayesD,神經(jīng)網(wǎng)絡(luò)25)以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的()A.冗余

8、屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利的影響B(tài).子樹(shù)可能在決策樹(shù)中重復(fù)多次C.決策樹(shù)算法對(duì)于噪聲的干擾非常敏感26)決策樹(shù)分類(lèi)方法中,A.信息增益27)決策樹(shù)分類(lèi)方法中,A.信息增益28)決策樹(shù)分類(lèi)方法中,A.信息增益D.尋找最佳決策樹(shù)是NP完全問(wèn)題ID3算法使用的分裂準(zhǔn)則是:D.分類(lèi)錯(cuò)誤率D.分類(lèi)錯(cuò)誤率D.分類(lèi)錯(cuò)誤率B.增益比率C基尼指數(shù)C4.5算法使用的分裂準(zhǔn)則是:B.增益比率C基尼指數(shù)CART算法使用的分裂準(zhǔn)則是:B.增益比率C基尼指數(shù)4.判斷題1. Matlab程序要編譯后才能運(yùn)行。()2. Matlab中變量名不區(qū)分大小寫(xiě)。()3. Matlab中對(duì)2維矩陣的下標(biāo)與C語(yǔ)言一樣,是行優(yōu)先存儲(chǔ)

9、。()4. Matlab的執(zhí)行效率比C語(yǔ)言低,但是Matlab的開(kāi)發(fā)難度通常比C語(yǔ)言低。()5. 聚類(lèi)算法運(yùn)行的條件需要所有的訓(xùn)練樣本都有類(lèi)別標(biāo)簽。()6. 決策樹(shù)中基于信息增益分裂準(zhǔn)則的一個(gè)缺陷是它趨向于多值屬性。()7. 分類(lèi)算法中,隨著分類(lèi)模型的復(fù)雜度增加,訓(xùn)練集和測(cè)試集上的準(zhǔn)確率通常都會(huì)提高。()8. DBSCAN是一種基于密度的聚類(lèi)方法。()9. 分位數(shù)圖是一種觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效方法。()10. 分位數(shù)-分位數(shù)圖可以觀察從一個(gè)分布到另一個(gè)分布是否有漂移。()11. k-中心點(diǎn)聚類(lèi)算法比k-均值算法對(duì)離群點(diǎn)更魯棒。()更多精品文檔學(xué)習(xí)-好資料12 .頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘中,

10、閉頻繁項(xiàng)集和極大頻繁項(xiàng)集都包含了頻繁項(xiàng)集的完整支持度信息()13 .頻繁模式增長(zhǎng)FP-growth是一種比Aprior算法更高效的關(guān)聯(lián)規(guī)則挖掘算法。()14 計(jì)算題:1. 給定兩個(gè)元組(10,20,30,10)和(20,0,36,8)表示的對(duì)象,求以下距離:(1) 計(jì)算這兩個(gè)對(duì)象間的歐幾里得距離(2) 計(jì)算這兩個(gè)對(duì)象間的曼哈頓距離(3)(4) 使用q=3,計(jì)算這兩個(gè)對(duì)象之間的閔可夫斯基距離(5)(6) 計(jì)算這兩個(gè)對(duì)象之間的上確界距離2.在決策樹(shù)分類(lèi)中,依據(jù)分裂規(guī)則的不同提出了不同決策樹(shù)算法,信息增益準(zhǔn)則在ID3分類(lèi)方法中采用。我們希望能夠?qū)W習(xí)出一個(gè)貸款申請(qǐng)的決策樹(shù),當(dāng)新的客戶(hù)提出申請(qǐng)貸款時(shí),根

11、據(jù)申請(qǐng)人的特征利用決策樹(shù)決定是否批準(zhǔn)申請(qǐng)貸款。請(qǐng)完成如下的計(jì)算。ID年齡有工作有自己的毆信貸情況是否批準(zhǔn)貸款申請(qǐng)1青年否否否2P青年否否好一否3青年是否好是4青年是是是5r青年否否否6中年否否否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14二老年是否非常好是15老年否否否1)假設(shè)目前在根節(jié)點(diǎn),包含所有15個(gè)樣本點(diǎn),請(qǐng)計(jì)算根節(jié)點(diǎn)分類(lèi)所需的期望信息。2)計(jì)算年齡屬性分裂的信息增益。3)計(jì)算用是否有工作屬性分裂的信息增益。4)計(jì)算分別用是否有自己的房子和信貸情況屬性分裂的信息增益,并說(shuō)明基于信息增益準(zhǔn)則,應(yīng)該選擇什么屬性作為

12、分裂屬性。3.樸素貝葉斯分類(lèi)方法是一種簡(jiǎn)單但高效的分類(lèi)方法,有如下關(guān)于顧客是否買(mǎi)計(jì)算機(jī)的訓(xùn)練數(shù)據(jù)集,請(qǐng)依據(jù)樸素貝葉斯分類(lèi)方法,寫(xiě)出計(jì)算過(guò)程,判斷屬性信息為x=(年齡若年,收更多精品文檔學(xué)習(xí)-好資料入中等,彳t用等級(jí)=良好)的顧客是否會(huì)購(gòu)買(mǎi)計(jì)算機(jī)。RID年齡收入信用等級(jí)是否買(mǎi)計(jì)算機(jī)1青年高良否2青年高優(yōu)否3中年高良是4老年中等良是5老年低良是6老年低優(yōu)否7中年低優(yōu)是8青年中等良否9青年低良是10老年中等良是4.有如下混淆矩陣,請(qǐng)計(jì)算指標(biāo)分類(lèi)準(zhǔn)確率,靈敏度,特效性,精度,召回率和F1度量。預(yù)測(cè)類(lèi)別實(shí)際類(lèi)別Class=YesClass=NoClass=Yes90210Class=No14095605.假設(shè)我們對(duì)購(gòu)買(mǎi)計(jì)算機(jī)游戲和錄像帶的事務(wù)感興趣。設(shè)game表示包含計(jì)算機(jī)游戲的事務(wù),而video表示包含錄像的事務(wù)。在所分析的1000個(gè)事務(wù)中,數(shù)據(jù)顯示有600個(gè)顧客事務(wù)包含計(jì)算機(jī)游戲,750個(gè)事務(wù)包含錄像,而400個(gè)事務(wù)同時(shí)包含計(jì)算機(jī)游戲和錄像。假設(shè)發(fā)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論