《海量數(shù)據(jù)挖掘技術(shù)及工程實踐》試題

上傳人：招*** IP屬地：河北上傳時間：2025-03-24 格式：PDF 頁數(shù)：24 大?。?MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩19頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

《海量數(shù)據(jù)挖掘技術(shù)及工程實踐》試題

一、單選題（共80題）

1）（D）的目的縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算

法的需要，并且能夠得到

和原始數(shù)據(jù)相同的分析結(jié)果。

A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約

2）某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn)，買啤酒的人很大概率也會

購買尿布，這種屬于數(shù)據(jù)挖

掘的哪類問題？（A）

A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類

C.分類D.自然語言處理

3）以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)？（A）

（a）警察抓小偷，描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。（b）

描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A.Precision,RecallB.

Recall,PrecisionA.Precision,ROCD.Recall,ROC

4）將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下

哪個步驟的任務(wù)？（C）

A.頻繁模式挖掘B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖

掘

5）當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時，可以使用哪種技術(shù)促使帶同類標(biāo)

簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)

據(jù)相分離?（B）

A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈

6）建立一個模型，通過這個模型根據(jù)已知的變量值來預(yù)測其他

某個變量值屬于數(shù)據(jù)挖掘的

哪一類任務(wù)？（C）

A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測建模D.尋找模式和規(guī)

則7）下面哪種不屬于數(shù)據(jù)預(yù)處理的方法？（D）

A.變量代換B.離散化

C.聚集D.估計遺漏值

8）假設(shè)12個銷售價格記錄組已經(jīng)排序如下：5,10,11,13,15,

35,50,55,72,92,204,

215使用如下每種方法將它們劃分成四個箱。等頻（等深）劃分

時，15在第幾個箱子內(nèi)？（B）

A.第一個B.第二個C.第三個D.第四個9）下面哪個不屬于數(shù)

據(jù)的屬性類型：（D）

A.標(biāo)稱B.序數(shù)C.區(qū)間D.相異10）只有非零值才重要的二元

屬性被稱作：（C）

A.計數(shù)屬性B.離散屬性C.非對稱的二元屬性D.對稱屬性

11）以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法：⑴）

A.嵌入B.過濾C.包裝D.抽樣

12）下面不屬于創(chuàng)建新屬性的相關(guān)方法的是：（B）

A.特征提取B.特征修改C.映射數(shù)據(jù)到新的空間D.特征構(gòu)造

13）下面哪個屬于映射數(shù)據(jù)到新的空間的方法？（A）

A.傅立葉變換3.特征加權(quán)C.漸進抽樣D.維歸約

14）假設(shè)屬性income的最大最小值分別是12000元和98000元。

利用最大最小規(guī)范化的方

法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600

元將被轉(zhuǎn)化為：（D）A.0.821B.1.224C.1.458D.0.716

15）一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為：一年級200人,二年級160

人，三年級130人，四年

級H0人。則年級屬性的眾數(shù)是：（A）A.一年級B.二年級C.

三年級D.四年級

16）下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù)：（B）

A.等高線圖B.餅圖C.曲面圖D.矢量場圖

17）在抽樣方法中，當(dāng)合適的樣本容量很難確定時?，可以使用的

抽樣方法是：（D）

A.有放回的簡單隨機抽樣B.無放回的簡單隨機抽樣C.分層抽

樣D漸進抽樣

18）數(shù)據(jù)倉庫是隨著時間變化的，下面的描述不正確的是（C）

A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新

數(shù)據(jù)會覆蓋原來的快照

C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容

D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的

變化不斷地進行重新綜合

19）下面關(guān)于數(shù)據(jù)粒度的描述不正確的是：（C）

A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B.數(shù)據(jù)越詳

細,粒度就越小,級別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級

別也就越高

D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)

量20)有關(guān)數(shù)據(jù)倉庫的開發(fā)特點，不止確的描述是：(A)

A.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)

B.數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確

C.數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā)

D.在數(shù)據(jù)倉庫環(huán)境中，并不存在操作型環(huán)境中所固定的和較確切

的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式21)

關(guān)于0LAP的特性，下面正確的是：(D)

(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性

A.(1)(2)(3)B.(2)(3)(4)

C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)

22)關(guān)于OLAP和OLTP的區(qū)別描述，不正確的是：(C)

A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與0TAp應(yīng)

用程序不同B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡

單的事務(wù)C.OLAP的特點在于事務(wù)量大，但事務(wù)內(nèi)容比較簡單且重復(fù)

率高

D.OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均

來自底層的數(shù)據(jù)庫系統(tǒng)，兩者面對的用戶是相同的

23)關(guān)于OLAP和OLTP的說法，下列不正確的是：(A)

A.OLAP事務(wù)量大，但事務(wù)內(nèi)容比較簡單且重復(fù)率高B.OLAP的最

終數(shù)據(jù)來源與OLTP不一樣C.OLTP面對的是決策人員和高層管理人

員D.OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的

24）設(shè)X={1,2,3}是頻繁項集,則可由X產(chǎn)生（C）個關(guān)聯(lián)規(guī)則。

A.4B.5C.6D.7

25）考慮下面的頻繁3-項集的集合：

{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5）

,{3,4,5}假定數(shù)據(jù)集中只有5個項，采用合并策略，由候選產(chǎn)生過程

得到4-項集不包含（C）A.1,2,3,4B.1,2,3,5C.1,2,4,5

D.1,3,4,5

26）下面選項中t不是s的子序列的是（C）

A.s=<{2,4},{3}5,6},{8}>t=<⑵,{3,6},{8}>

B.s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C.S=<{1,2},{3,4}>

t=<{1},{2}>D.s=<{2,4},{2,4}>t=<⑵,{4}>

27）在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu)，這樣的任務(wù)稱為（B）

A.頻繁子集挖掘B.頻繁子圖挖掘C.頻繁數(shù)據(jù)項挖掘D.頻繁模

式挖掘

28）下列度量不具有反演性的是（D）

A.系數(shù)B.幾率C.Cohen度量D.興趣因子

29）下列（A）不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。

A.與同一時期其他數(shù)據(jù)對比B.可視化C.基于模板的方法D.主

觀興趣度量

30）下面購物藍能夠提取的3-項集的最大數(shù)量是多少（C）

TID12345678910

A.1B.2C.3D.431）以下哪些算法是分類算法（B）

A.DBSCANB.C4.5C.K-MeanD.EM

32）以下哪些分類方法可以較好地避免樣本的不平衡問題（A）

A.KNNB.SVMC.BayesD.神經(jīng)網(wǎng)絡(luò)33）決策樹中不包含一下哪

種結(jié)點（C）

A.根結(jié)點（rootnode）B.內(nèi)部結(jié)點（internalnode）

項集牛奶，啤酒，尿布面包，黃油，牛奶牛奶，尿布，餅干面包，

黃油，餅干啤酒，餅干，尿布牛奶，尿布，面包，黃油面包，黃油，尿布

啤酒，尿布牛奶，尿布，面包，黃油啤酒，餅干C.外部結(jié)點

（externalnode）D.葉結(jié)點（leafnode）

34）以下哪項關(guān)于決策樹的說法是錯誤的（C）

A.冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響B(tài).子樹可

能在決策樹中重復(fù)多次C.決策樹算法對于噪聲的干擾非常敏感D.

尋找最佳決策樹是NP完全問題

35）在基于規(guī)則分類器的中，依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排

序，保證每一個測試記錄都

是由覆蓋它的“最好的”規(guī)格來分類，這種方案稱為（B）A.基

于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案

D.基于規(guī)格的排序方案。

36）以下哪些算法是基于規(guī)則的分類器（A）

A.C4.5B.KNNC.NaiveBayesD.ANN

37）可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有（C）。

A.決策樹、對數(shù)回歸、關(guān)聯(lián)模式B.K均值法、SOM神經(jīng)網(wǎng)絡(luò)C.

Apriori算法、FP-Tree算法D.RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹

38）如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋，則

稱規(guī)則集R中的規(guī)則為（B）

A.無序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則39）用于分

類與回歸應(yīng)用的主要算法有：（D）

A.Apriori算法、HotSpot算法B.RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決

策樹C.K均值法、SOM神經(jīng)網(wǎng)絡(luò)D.決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯

40）如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的

后件看作是對相應(yīng)類的一次

投票，然后計票確定測試記錄的類標(biāo)號，稱為（A）A.無序規(guī)則B.

窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則

41）考慮兩隊之間的足球比賽：隊0和隊1。假設(shè)65%的比賽隊0

勝出，剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的

主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1

的主場進行隊1獲勝的概率為（C）A.0.75B.0.35C.0.4678

D.0.573842）以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)（ANN）的描述錯誤的有（A）

A.神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B.可以處理冗余特征

C.訓(xùn)練ANN是一個很耗時的過程D.至少含有一個隱藏層的多層

神經(jīng)網(wǎng)絡(luò)

43）通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為

A.組合（ensemble）B.聚集（aggregate）C.合并（combination）D.

投票（voting）

44）簡單地將數(shù)據(jù)對象集劃分成小重疊的子集,使得每個數(shù)據(jù)對

象恰在一個子集中，這種聚類類型稱作（B）

A.層次聚類B.劃分聚類C.非互斥聚類D.模糊聚類

45）在基本K均值算法里，當(dāng)鄰近度函數(shù)采用（A）的時候，合適

的質(zhì)心是簇中各點的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離

C.余弦距離D.Bregman散度

46）（C）是一個觀測值,它與其他觀測值的差別如此之大，以至

于懷疑它是由不同的機制產(chǎn)生的。

A.邊界點B.質(zhì)心

C.離群點D.核心點47）BIRCH是一種（B）。

A.分類器B.聚類算法

C.關(guān)聯(lián)分析算法D.特征選擇算法

48）檢測一元正態(tài)分布中的離群點，屬于異常檢測中的基于（A）

的離群點檢測。

A.統(tǒng)計方法B.鄰近度C.密度D.聚類技術(shù)

49）（C）將兩個簇的鄰近度定義為不同簇的所有點對的平均逐

對鄰近度，它是一種凝聚層次聚類技術(shù)。

A.MIN（單鏈）B.MAX（全鏈）

C.組平均D.Ward方法

50）（D）將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤

差的增量,它是一種凝聚層次聚類技術(shù)。

A.MIN（單鏈）B.MAX（全鏈）

C.組平均D.Ward方法51）下列算法中，不屬于外推法的是

（B）oA.移動平均法B.回歸分析法

C.指數(shù)平滑法D.季節(jié)指數(shù)法52）關(guān)聯(lián)規(guī)則的評價指標(biāo)是：

（C）oA.均方誤差、均方根誤差

B.Kappa統(tǒng)計、顯著性檢驗C.支持度、置信度D.平均絕對誤

差、相對誤差

53）關(guān)于K均值和DBSCAN的比較，以下說法不正確的是（A）。

A.K均值丟棄被它識別為噪聲的對象，而DBSCAN一般聚類所有對象。

B.K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。

C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理

不同大小和不同形狀的簇。

D.K均值可以發(fā)現(xiàn)不是明顯分離的簇，即便簇有重疊也可以發(fā)現(xiàn)，

但是DBSCAN會合并有重疊的簇。

54）從研究現(xiàn)狀上看，下面不屬于云計算特點的是（C）

A.超大規(guī)模B.虛擬化C.私有化D.高可靠性

55）考慮這么一種情況：一個對象碰巧與另一個對象相對接近，但

屬于不同的類，因為這兩個對象一般不會共享許多近鄰,所以應(yīng)該選

擇（D）的相似度計算方法。

A.平方歐幾里德距離B.余弦距離

C.直接相似度D.共享最近鄰

56）分析顧客消費行業(yè)，以便有針對性的向其推薦感興趣的服務(wù),

屬于（A）問題。

A.關(guān)聯(lián)規(guī)則挖掘B.分類與回歸C.聚類分析D.時序預(yù)測

57）以下哪個聚類算法不是屬于基于原型的聚類（D）。A.模

糊C均值B.EM算法

C.SOMD.CLIQUE

58）關(guān)于混合模型聚類算法的優(yōu)缺點，下面說法正確的是（B）。

A.當(dāng)簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型

也能很好地處理。B.混合模型比K均值或模糊c均值更一般,因為它

可以使用各種類型的分布。C.混合模型很難發(fā)現(xiàn)不同大小和橢球形

狀的簇。D.混合模型在有噪聲和離群點時不會存在問題。59）以下

哪個聚類算法不屬于基于網(wǎng)格的聚類算法（D）。A.STING

B.WaveCluster

C.MAFIAD.BIRCH

60）一個對象的離群點得分是該對象周圍密度的逆。這是基于

（C）的離群點定義。A.概率B.鄰近度

C.密度D.聚類

61）輿情研判，信息科學(xué)側(cè)重（C），社會和管理科學(xué)側(cè)重突發(fā)

群體事件管理中的群體心

理行為及輿論控制研究，新聞傳播學(xué)側(cè)重對輿論的本體進行規(guī)律

性的探索和研究。A.輿論的本體進行規(guī)律性的探索和研究B.輿論控

制研究

C.互聯(lián)網(wǎng)文本挖掘和分析技術(shù)D.用戶行為分析

62）MapReduce的Map函數(shù)產(chǎn)生很多的（C）

A.key

B.value

D.Hash

63）Mapreduce適用于（D）

A.任意應(yīng)用程序

B.任意可在windowsservet2008上運行的程序C.可以串行處

理的應(yīng)用程序D.可以并行處理的應(yīng)用程序

64）PageRank是一，個函數(shù)，它對Web中的每個網(wǎng)頁賦予一個實數(shù)

值。它的意圖在于網(wǎng)頁的

PageRank越高，那么它就（D）。A.相關(guān)性越高C.相關(guān)性越低

XA.一對一C.多對多

B.越不重要D.越重要B.一對多

D.多對一

65）協(xié)同過濾分析用戶興趣，在用戶群中找到指定用戶的相似

（興趣）用戶，綜合這些用戶對

某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度

（D），并將這些用戶喜歡的項推薦給有相似興趣的用戶。A.相似

C.推薦

B.相同D.預(yù)測

66）大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法透過目前主

流軟件工具,在合理時間內(nèi)達

到擷取、管理、處理、并（B）成為幫助企業(yè)經(jīng)營決策更積極

目的的信息。A.收集C.規(guī)劃

B.整理D.聚集

67）大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中（D）大數(shù)

據(jù)的規(guī)律及其與自然和

社會活動之間的關(guān)系。A.大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程C.規(guī)律和

驗證

B.規(guī)劃建設(shè)運營管理D.發(fā)現(xiàn)和驗證

68）大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、（D）后獲取最大的數(shù)據(jù)

價值

A.算法共享C.數(shù)據(jù)交換

B.共享應(yīng)用D.交叉復(fù)用

69）社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實時和完整的數(shù)據(jù)，同時社交

網(wǎng)絡(luò)也記錄了用戶群體的

（C），通過深入挖掘這些數(shù)據(jù)來了解用戶，然后將這些分析后

的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。

A.地址C.情緒

B.行為D.來源

70）通過數(shù)據(jù)收集和展示數(shù)據(jù)背后的（D），運用豐富的、具有

互動性的可視化手段，

數(shù)據(jù)新聞學(xué)成為新聞學(xué)作為一門新的分支進入主流媒體，即用數(shù)

據(jù)報道新聞。A.數(shù)據(jù)收集C.真相

B.數(shù)據(jù)挖掘

D.關(guān)聯(lián)與模式

71）CRISP-DM模型中Evaluation表示對建立的模型進行評估，

重點具體考慮得出的結(jié)果是

否符合（C）的商業(yè)目的。A.第二步C.第一步

B.第三步D.最后一步

72）發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過以下三個步驟：連接數(shù)據(jù)，

作數(shù)據(jù)準(zhǔn)備；給定最小支持

度和（D），利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則；可視

化顯示、理解、評估關(guān)聯(lián)規(guī)則A.最小興趣度C.最大支持度

B.最小置信度D.最小可信度

73）規(guī)則I->j,“有可能”，等于所有包含T的購物籃中同時包含

J的購物籃的比例，為

（B）oA.置信度C.興趣度

B.可信度

D.支持度

74）如果一個匹配中，任何一個節(jié)點都不同時是兩條或多條邊的

端點,也稱作（C）

A.極大匹配C完美匹配

B.二分匹配D.極小匹配

75）只要具有適當(dāng)?shù)恼咄苿?，大?shù)據(jù)的使用將成為未來提高競

爭力、生產(chǎn)力、創(chuàng)新能力以

及（D）的關(guān)鍵要素。A.提高消費

B.提高GDP

C.提高生活水平D.創(chuàng)造消費者盈余

76）個性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級

商務(wù)智能平臺，以幫助

（D）為其顧客購物提供完全個性化的決策支持和信息服務(wù)。A.

公司

B.各單位

C.跨國企業(yè)D.電子商務(wù)網(wǎng)站

77）云計算是對（D）技術(shù)的發(fā)展與運用

A.并行計算B.網(wǎng)格計算C.分布式計算D.三個選項都是

78）（B）是Google提出的用于處理海量數(shù)據(jù)的并行編程模式

和大規(guī)模數(shù)據(jù)集的并行運

算的軟件架構(gòu)。

A.GFSB.MapReduceC.ChubbyD.BitTable

79）在Bigtable中，（A）主要用來存儲子表數(shù)據(jù)以及一些日

志文件

A.GFSB.ChubbyC.SSTableD.MapReduce

二、判斷題（共40題）

1）分類是預(yù)測數(shù)據(jù)對象的離散類別，預(yù)測是用于數(shù)據(jù)對象的連

續(xù)取值。（對）

2）時序預(yù)測回歸預(yù)測一?樣，也是用已知的數(shù)據(jù)預(yù)測未來的值，

但這些數(shù)據(jù)的區(qū)別是變量所

處時間的不同。（錯）

3）數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則，從而能更

好的完成描述數(shù)據(jù)、預(yù)測數(shù)

據(jù)等任務(wù)。（對）

4）對遺漏數(shù)據(jù)的處理方法主要有：忽略該條記錄；手工填補遺

漏值；利用默認值填補遺漏

值；利用均值填補遺漏值；利用同類別均值填補遺漏值；利用最

可能的值填充遺漏值。（對）

5）神經(jīng)網(wǎng)絡(luò)對噪音數(shù)據(jù)具有高承受能力，并能對未經(jīng)過訓(xùn)練的

數(shù)據(jù)具有分類能力，但其需

要很長的訓(xùn)練時間，因而對于有足夠長訓(xùn)練時間的應(yīng)用更合適。

（對）

6）數(shù)據(jù)分類由兩步過程組成：第一步，建立一個聚類模型，描

述指定的數(shù)據(jù)類集或概念集；

第二步，使用模型進行分類。（錯）

7）聚類是指將物理或抽象對象的集合分組成為由類似的對象組

成的多個類的過程。（對）8）決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。

（錯）

9）數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放（如更換大單位），使之落入

一個特定的區(qū)域（如0-1）

以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有：最大-最小

規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。（對）

10）原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫，它們的結(jié)構(gòu)和規(guī)

則可能是不同的，這將導(dǎo)致

原始數(shù)據(jù)非常的雜亂、不可用，即使在同一個數(shù)據(jù)庫中，也可能

存在重復(fù)的和不完整的數(shù)據(jù)信息，為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘

的要求，提高效率和得到清晰的結(jié)果，必須進行數(shù)據(jù)的預(yù)處理。（對）

11）數(shù)據(jù)取樣時，除了要求抽樣時嚴(yán)把質(zhì)量關(guān)外，還要求抽樣數(shù)

據(jù)必須在足夠范圍內(nèi)有代表

性。（對）

12）分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神

經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳

算法。（對）

13）可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。（錯）

14）孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。

（錯）15）Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。（對）

16）用于分類的離散化方法之間的根本區(qū)別在于是否使用類信

息。（對）17）特征提取技術(shù)并不依賴于特定的領(lǐng)域。（錯）

18）模型的具體化就是預(yù)測公式，公式可以產(chǎn)生與觀察值有相似

結(jié)構(gòu)的輸出，這就是預(yù)測值。

（對）

19）文本挖掘又稱信息檢索，是從大量文本數(shù)據(jù)中提取以前未知

的、有用的、可理解的、可

操作的知識的過程。（錯）

20）定量屬性可以是整數(shù)值或者是連續(xù)值。（對）

21）可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。（錯）

22）0LAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進行分析、轉(zhuǎn)換成輔助決

策信息，是繼數(shù)據(jù)庫技術(shù)發(fā)

展之后迅猛發(fā)展起來的一種新技術(shù)。（對）

23）Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,

它在驗證用戶提出的假設(shè)

過程中提取信息。（錯）

24）關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表

的規(guī)則。（錯）25）利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需

要探查的候選項個數(shù)。（對）26）先驗原理可以表述為：如果一個

項集是頻繁的，那包含它的所有項集也是頻繁的。（錯）27）回歸

分析通常用于挖掘關(guān)聯(lián)規(guī)則。（錯）

28）具有較高的支持度的項集具有較高的置信度。（錯）

29）維歸約可以去掉不重要的屬性，減少數(shù)據(jù)立方體的維數(shù)，從

而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)

量，提高挖掘效率。（對）

30）聚類（clustering）是這樣的過程：它找出描述并區(qū)分數(shù)據(jù)

類或概念的模型（或函數(shù)），

以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。（錯）

31）對于SVM分類算法，待分樣本集中的大部分樣本不是支持向

量，移去或者減少這些樣本

對分類結(jié)果沒有影響。（對）

32）Bayes法是一種在已知后驗概率與類條件概率的情況下的模

式分類方法，待分樣本的分

類結(jié)果取決于各類域中樣本的全體。（錯）

33）在決策樹中，隨著樹中結(jié)點數(shù)變得太大，即使模型的訓(xùn)練誤

差還在繼續(xù)減低，但是檢驗

誤差開始增大，這是出現(xiàn)了模型擬合不足的問題。（錯）

34）在聚類分析當(dāng)中，簇內(nèi)的相似性越大，簇間的差別越大，聚

類的效果就越差。（錯）35）聚類分析可以看作是一種非監(jiān)督的分

類。（對）

36）K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法，簇的個

數(shù)由算法自動地確定。（錯37）基于鄰近度的離群點檢測方法不能

處理具有不同密度區(qū)域的數(shù)據(jù)集。（對）38）如果一個對象不強屬

于任何簇，那么該對象是基于聚類的離群點。（對）39）大數(shù)據(jù)的

4V特點是Volume、Velocity、Variety、Veracity。（對）

40）聚類分析的相異度矩陣是用于存儲所有對象兩兩之間相異

度的矩陣，為一個nn維的單

模矩陣。（對）

三、多選題（共30題）

1）噪聲數(shù)據(jù)的產(chǎn)生原因主要有：（ABCD）

A.數(shù)據(jù)采集設(shè)備有問題

B.在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C.數(shù)據(jù)傳輸過

程中發(fā)生錯誤

D.由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致

2）尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總

結(jié)出數(shù)據(jù)的某一特征的表示，

這個過程包括了以下哪些步驟？（ABCD）A.選擇一個算法過

程使評分函數(shù)最優(yōu)

B.決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞

C.決定要使用的表示的特征和結(jié)構(gòu)

D.決定用什么欄的數(shù)據(jù)管理原則以高效地實現(xiàn)算法3）數(shù)據(jù)挖

掘的預(yù)測建模任務(wù)主要包括哪幾大類問題？（AB）

A.分類B.回歸C.聚類D.關(guān)聯(lián)規(guī)則挖掘

4）下列屬于不同的有序數(shù)據(jù)的有：（ABCD）

A.時序數(shù)據(jù)B.序列數(shù)據(jù)C.時間序列數(shù)據(jù)D.事務(wù)數(shù)據(jù)E.空間

數(shù)據(jù)

5）下面屬于數(shù)據(jù)集的一般特性的有：（BCD）

A.連續(xù)性B,維度C.稀疏性D.分辨率E.相異性

6）下面屬于維歸約常用的處理技術(shù)的有：（AC）

A.主成分分析B.特征提取C.奇異值分解D.特征加權(quán)E.離散

化

7）噪聲數(shù)據(jù)處理的方法主要有：（ABD）

A.分箱B.聚類C.關(guān)聯(lián)分析D.回歸

8）數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析

及（A.挖掘頻繁模式B.分類和預(yù)測

）等方面。ABCD

C.聚類分析D.偏差分析

9）以下各項均是針對數(shù)據(jù)倉庫的不同說法，你認為正確的有

（BCD）o

A.數(shù)據(jù)倉庫就是數(shù)據(jù)庫

B.數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎(chǔ)

C.數(shù)據(jù)倉庫是面向業(yè)務(wù)的，支持聯(lián)機事務(wù)處理（OLTP）D.數(shù)據(jù)

倉庫支持決策而非事務(wù)處理10）聯(lián)機分析處理包括（BCD）基本分析

功能。

A.聚類B.切片C.轉(zhuǎn)軸D.切塊

11）利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的

時間復(fù)雜度。在以下的購物籃中產(chǎn)生支持度不小于3的候選3-項集，

在候選2-項集中需要剪枝的是（BD）

TID12345

A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶

12）下表是一個購物籃，假定支持度閾值為40%,其中（AD）是頻

繁閉項集。

ID12345

項集面包、牛奶、尿布面包、牛奶、尿布、啤酒牛奶、尿布、

雞蛋面包、尿布、啤酒、雞蛋啤酒、雞蛋面包、牛奶面包、尿布、

啤酒、雞蛋牛奶、尿布、啤酒、可樂面包、牛奶、尿布、啤酒面

包、牛奶、尿布、可樂項集

A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、雞

蛋13）Apriori算法的計算復(fù)雜度受（ABCD）影響。

A.支持度閥值B.項數(shù)（維度）C.事務(wù)數(shù)D.事務(wù)平均寬度14）

以下關(guān)于非頻繁模式說法，正確的是（AD）

A.其支持度小于閾值B.都是不讓人感興趣的C.包含負模式和

負相關(guān)模式D.對異常數(shù)據(jù)項敏感15）以下屬于分類器評價或比較尺

度的有：（ACD）

A.預(yù)測準(zhǔn)確度B.召回率C.模型描述的簡潔度I）.計算復(fù)雜度

16）貝葉斯信念網(wǎng)絡(luò)（BBN）有如下哪些特點。（AB）

A.構(gòu)造網(wǎng)絡(luò)費時費力B.對模型的過分問題非常魯棒C.貝葉斯

網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D.網(wǎng)絡(luò)結(jié)構(gòu)確定后，添加變量相當(dāng)麻

煩17）如下哪些不是最近鄰分類器的特點。（C）

A.它使用具體的訓(xùn)練實例進行預(yù)測，不必維護源自數(shù)據(jù)的模型B.

分類一個測試樣例開銷很大C.最近鄰分類器基于全局信息進行預(yù)測

D.可以生產(chǎn)任意形狀的決策邊界18）以下屬于聚類算法的是（AB）。

A.K-MeansB.DBSCAN

C.AprioriD.KNN

19）（CD）都屬于簇有效性的監(jiān)督度量。

A.輪廓系數(shù)B.共性分類相關(guān)系數(shù)

C.焙D.F度量

20）（ABCD）這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。A.

高維性B

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《海量數(shù)據(jù)挖掘技術(shù)及工程實踐》試題

文檔簡介

溫馨提示

最新文檔

評論

《海量數(shù)據(jù)挖掘技術(shù)及工程實踐》試題

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔