大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題和答案及解析_第1頁(yè)
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題和答案及解析_第2頁(yè)
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題和答案及解析_第3頁(yè)
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題和答案及解析_第4頁(yè)
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題和答案及解析_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、海量數(shù)據(jù)挖掘技術(shù)及工程實(shí)踐題目單選題 ( 共 80 題 )1) ( D ) 的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到 和 原始數(shù)據(jù)相同的分析結(jié)果。A. 數(shù)據(jù)清洗B. 數(shù)據(jù)集成C. 數(shù)據(jù)變換D. 數(shù)據(jù)歸約2) 某超市研究銷(xiāo)售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn), 買(mǎi)啤酒的人很大概率也會(huì)購(gòu)買(mǎi)尿布, 這種屬于數(shù)據(jù)挖 掘的哪類(lèi)問(wèn)題 (A)A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B. 聚類(lèi)C. 分類(lèi) D. 自然語(yǔ)言處理3) 以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類(lèi)算法的評(píng)價(jià)標(biāo)準(zhǔn) (A)(a) 警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。(b) 描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A. Precision,Recall

2、 B. Recall,PrecisionA. Precision,ROC D. Recall,ROC4) 將原始數(shù)據(jù)進(jìn)行集成 變換維度分類(lèi)和預(yù)測(cè)A. 頻繁模式挖掘 B.C. 數(shù)據(jù)預(yù)處理D. 數(shù)據(jù)流挖掘可以使用哪種技術(shù)促使帶同類(lèi)標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)聚類(lèi)5) 當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),A. 分類(lèi)C. 關(guān)聯(lián)分析 D. 隱馬爾可夫鏈6) 建立一個(gè)模型,據(jù)相分離 (B)通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的(C)C. 預(yù)測(cè)建模D.尋找模式和規(guī)則A. 根據(jù)內(nèi)容檢索 B. 建模描述7) 下面哪種不屬于數(shù)據(jù)預(yù)處理的方法 (D)C.聚集D.估計(jì)遺漏值8) 假設(shè) 12 個(gè)銷(xiāo)售價(jià)格記錄組

3、已經(jīng)排序如下: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個(gè)箱。等頻( 等深 ) 劃分時(shí), 15 在第幾個(gè)箱子內(nèi) (B)A. 第一個(gè)B.第二個(gè)C.第三個(gè)D. 第四個(gè)9) 下面哪個(gè)不屬于數(shù)據(jù)的屬性類(lèi)型: (D)A. 標(biāo)稱(chēng)B.序數(shù)C.區(qū)間 D. 相異10) 只有非零值才重要的二元屬性被稱(chēng)作: ( C )A. 計(jì)數(shù)屬性 B. 離散屬性 C . 非對(duì)稱(chēng)的二元屬性 D. 對(duì)稱(chēng)屬性11) 以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法: (D)A. 嵌入B.過(guò)濾C.包裝D. 抽樣12) 下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)A

4、. 特征提取 B. 特征修改C. 映射數(shù)據(jù)到新的空間 D. 特征構(gòu)造13) 下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法 (A)A. 傅立葉變換B.特征加權(quán)C. 漸進(jìn)抽樣D.維歸約14) 假設(shè)屬性 income 的最大最小值分別是 12000 元和 98000 元。利用最大最小規(guī)范化的方 法將屬性的值映射到 0 至 1 的范圍內(nèi)。對(duì)屬性 income 的 73600 元將被轉(zhuǎn)化為: (D)15) 一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200 人,二年級(jí)160 人,三年級(jí)130 人,四年 級(jí) 110人。則年級(jí)屬性的眾數(shù)是: (A)A. 一年級(jí)B.二年級(jí)C.三年級(jí)D.四年級(jí)(B)16) 下列哪個(gè)不是專(zhuān)門(mén)用于

5、可視化時(shí)間空間數(shù)據(jù)的技術(shù):A. 等高線(xiàn)圖 B. 餅圖C. 曲面圖 D. 矢量場(chǎng)圖17) 在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是: (D)A. 有放回的簡(jiǎn)單隨機(jī)抽樣B. 無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C. 分層抽樣D 漸進(jìn)抽樣18) 數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的 , 下面的描述不正確的是(C)A. 數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容B. 捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照C . 數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D. 數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù) , 這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合19) 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)A. 粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的

6、詳細(xì)程度和級(jí)別B. 數(shù)據(jù)越詳細(xì) , 粒度就越小 , 級(jí)別也就越高C. 數(shù)據(jù)綜合度越高 , 粒度也就越大, 級(jí)別也就越高D. 粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢(xún)質(zhì)量20) 有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)特點(diǎn) , 不正確的描述是: (A)A. 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)要從數(shù)據(jù)出發(fā)B. 數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開(kāi)發(fā)出去就要明確C. 數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)是一個(gè)不斷循環(huán)的過(guò)程, 是啟發(fā)式的開(kāi)發(fā)D. 在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中 , 并不存在操作型環(huán)境中所固定的和較確切的處理流, 數(shù)據(jù)倉(cāng)庫(kù)中 數(shù)據(jù)分析和處理更靈活, 且沒(méi)有固定的模式21) 關(guān)于 OLAP 的特性,下面正確的是: (D)(1) 快速性 (2) 可分析性 (3) 多維性

7、(4) 信息性 (5) 共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D.(1) (2) (3) (4) (5)22) 關(guān)于 OLAF 和 OLTP 的區(qū)別描述, 不正確的是: ( C)主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與 OTAP 應(yīng)用程序不同8. 與 OLAP 應(yīng)用程序不同 , OLTP 應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù) 的特點(diǎn)在于事務(wù)量大但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的 , 但其最終數(shù)據(jù)來(lái)源與OLTP- 樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng), 兩者 面對(duì)的用戶(hù)是相同的23) 關(guān)于 OLAP 和 OLTP 的說(shuō)法 , 下列不正確

8、的是: (A)事務(wù)量大 , 但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高的最終數(shù)據(jù)來(lái)源與OLTP 不一樣面對(duì)的是決策人員和高層管理人員以應(yīng)用為核心, 是應(yīng)用驅(qū)動(dòng)的24)設(shè)乂=1, 2, 3是頻繁項(xiàng)集,則可由X產(chǎn)生(C )個(gè)關(guān)聯(lián)規(guī)則。25) 考慮下面的頻繁3- 項(xiàng)集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有 5 個(gè)項(xiàng) , 采用 合并策略 , 由候選產(chǎn)生過(guò)程得到 4- 項(xiàng)集不包含( C ),2,3,4,2,3,5,2,4,5,3,4,526) 下面選項(xiàng)中 t 不是 s 的子序列的是( C )=<2,4,3,5,6,8> t=&

9、lt;2,3,6,8>=<2,4,3,5,6,8> t=<2,8>=<1,2,3,4> t=<1,2>=<2,4,2,4> t=<2,4>27) 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu) ,這樣的任務(wù)稱(chēng)為 ( B )A. 頻繁子集挖掘 B. 頻繁子圖挖掘C.頻繁數(shù)據(jù)項(xiàng)挖掘D.頻繁模式挖掘28) ) 下列度量不具有反演性的是 ( D )A. 系數(shù) B. 幾率度量 D. 興趣因子29) 下列(A )不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法A.與同一時(shí)期其他數(shù)據(jù)對(duì)比B.可視化C.基于模板的方法D.主觀興趣度量30) 下面購(gòu)物籃能夠提取

10、的3項(xiàng)集的最大數(shù)量是多少(C)TID項(xiàng)集1牛奶,啤酒,尿布2面包,黃油,牛奶3牛奶,尿布,餅干4面包,黃油,餅干5啤酒,餅干,尿布6牛奶)尿布,面包,黃油7面包,黃油,尿布8啤酒,尿布9牛奶)尿布,面包,黃油10啤酒,餅干31) 以下哪些算法是分類(lèi)算法(B)32) 以下哪些分類(lèi)方法可以較好地避免樣本的不平衡問(wèn)題(A)D.神經(jīng)網(wǎng)絡(luò)33) 決策樹(shù)中不包含一下哪種結(jié)點(diǎn)(C )A.根結(jié)點(diǎn)(root node )B.內(nèi)部結(jié)點(diǎn)(internal node )C.外部結(jié)點(diǎn)(external node )D.葉結(jié)點(diǎn)(leaf node )34) 以下哪項(xiàng)關(guān)于決策樹(shù)的說(shuō)法是錯(cuò)誤的 (C)A. 冗余屬性不會(huì)對(duì)決策

11、樹(shù)的準(zhǔn)確率造成不利的影響B(tài). 子樹(shù)可能在決策樹(shù)中重復(fù)多次C. 決策樹(shù)算法對(duì)于噪聲的干擾非常敏感D. 尋找最佳決策樹(shù)是 NP 完全問(wèn)題35) 在基于規(guī)則分類(lèi)器的中 , 依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排序, 保證每一個(gè)測(cè)試記錄都是由覆蓋它的“最好的”規(guī)格來(lái)分類(lèi), 這種方案稱(chēng)為 (B)A. 基于類(lèi)的排序方案B. 基于規(guī)則的排序方案C. 基于度量的排序方案D. 基于規(guī)格的排序方案。36) 以下哪些算法是基于規(guī)則的分類(lèi)器(A)A. B. KNNC. Naive Bayes D. ANN37) 可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有 ( C) 。A. 決策樹(shù)、對(duì)數(shù)回歸、關(guān)聯(lián)模式B. K 均值法、 SOM 申經(jīng)

12、網(wǎng)絡(luò)C. Apriori 算法、 FP-Tree 算法D. RBF 神經(jīng)網(wǎng)絡(luò)、 K 均值法、決策樹(shù)38) 如果對(duì)屬性值的任一組合,R 中都存在一條規(guī)則加以覆蓋,則稱(chēng)規(guī)則集R 中的規(guī)則為 ( B )A. 無(wú)序規(guī)則 B. 窮舉規(guī)則 C. 互斥規(guī)則 D. 有序規(guī)則39) 用于分類(lèi)與回歸應(yīng)用的主要算法有 : ( D )算法、HotSpot 算法神經(jīng)網(wǎng)絡(luò)、 K 均值法、決策樹(shù)均值法、 SOM 申經(jīng)網(wǎng)絡(luò)D. 決策樹(shù)、 BP 神經(jīng)網(wǎng)絡(luò)、貝葉斯40) 如果允許一條記錄觸發(fā)多條分類(lèi)規(guī)則 , 把每條被觸發(fā)規(guī)則的后件看作是對(duì)相應(yīng)類(lèi)的一次 投票 ,然后計(jì)票確定測(cè)試記錄的類(lèi)標(biāo)號(hào), 稱(chēng)為(A )A. 無(wú)序規(guī)則 B. 窮舉

13、規(guī)則 C. 互斥規(guī)則 D. 有序規(guī)則41)考慮兩隊(duì)之間的足球比賽:隊(duì)0和隊(duì)1。假設(shè)65%的比賽隊(duì)0勝出,剩余的比賽隊(duì)1獲勝隊(duì)0獲勝的比賽中只有30%是在隊(duì)1的主場(chǎng),而隊(duì)1取勝的比賽中75%是主場(chǎng)獲勝。如果下一場(chǎng)比賽在隊(duì)1的主場(chǎng)進(jìn)行隊(duì)1獲勝的概率為(C)以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN的描述錯(cuò)誤的有(A)A.神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B.可以處理冗余特征C.訓(xùn)練ANN是一個(gè)很耗時(shí)的過(guò)程D.至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)43) 通過(guò)聚集多個(gè)分類(lèi)器的預(yù)測(cè)來(lái)提高分類(lèi)準(zhǔn)確率的技術(shù)稱(chēng)為(A)A. 組合(en semble ) B.聚集(aggregate )C.合并(comb in atio n )

14、 D.投票(voti ng )44) 簡(jiǎn)單地將數(shù)據(jù)對(duì)象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)象恰在一個(gè)子集中,這種聚類(lèi)類(lèi)型稱(chēng)作(B )A.層次聚類(lèi)B.劃分聚類(lèi)C.非互斥聚類(lèi)D.模糊聚類(lèi)45) 在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A )的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離C.余弦距離散度46) ( C )是一個(gè)觀測(cè)值,它與其他觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A.邊界點(diǎn)B.質(zhì)心C.離群點(diǎn)D.核心點(diǎn)47) BIRCH 是一種(B)。A.分類(lèi)器B.聚類(lèi)算法C.關(guān)聯(lián)分析算法 D. 特征選擇算法48)檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基

15、于(A )的離群點(diǎn)檢測(cè)。A.統(tǒng)計(jì)方法B.鄰近度C. 密度 D. 聚類(lèi)技術(shù)49 )( C )將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐對(duì)鄰近度, 它是一種凝聚層 次聚 類(lèi)技術(shù)。(單鏈) (全鏈)C. 組平均 方法50 )( D )將兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤差的增量, 它是一種凝聚層次聚類(lèi)技術(shù)。(單鏈) (全鏈)C. 組平均 方法51 ) 下列算法中,不屬于外推法的是( B )。A. 移動(dòng)平均法 B. 回歸分析法C. 指數(shù)平滑法 D. 季節(jié)指數(shù)法52 ) 關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)是: ( C )。A. 均方誤差、均方根誤差B. Kappa 統(tǒng)計(jì)、顯著性檢驗(yàn)C. 支持度、置信度D.

16、 平均絕對(duì)誤差、相對(duì)誤差53 ) 關(guān)于K均值和DBSCA的比較,以下說(shuō)法不正確的是(A )。均值丟棄被它識(shí)別為噪聲的對(duì)象, 而 DBSCA 一般聚類(lèi)所有對(duì)象。均值使用簇的基于原型的概念, 而 DBSCA 使用基于密度的概念。均值很難處理非球形的簇和不同大小的簇QBSCAN 可以處理不同大小和不同形狀的簇。 均值可以發(fā)現(xiàn)不是明顯分離的簇, 即便簇有重疊也可以發(fā)現(xiàn), 但是 DBSCA 會(huì)合并有重疊 的簇。54 ) 從研究現(xiàn)狀上看,下面不屬于云計(jì)算特點(diǎn)的是( C )A. 超大規(guī)模B. 虛擬化C.私有化D. 高可靠性55 ) 考慮這么一種情況:一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近, 但屬于不同的類(lèi), 因?yàn)?/p>

17、這兩個(gè)對(duì)象一般不會(huì)共享許多近鄰 , 所以應(yīng)該選擇(D )的相似度計(jì)算方法。A. 平方歐幾里德距離B. 余弦距離C. 直接相似度D. 共享最近鄰56 )分析顧客消費(fèi)行業(yè),以便有針對(duì)性的向其推薦感興趣的服務(wù),屬于(A )問(wèn)題A. 關(guān)聯(lián)規(guī)則挖掘 B. 分類(lèi)與回歸C.聚類(lèi)分析D.時(shí)序預(yù)測(cè)57 ) 以下哪個(gè)聚類(lèi)算法不是屬于基于原型的聚類(lèi)( D )。A.模糊C均值算法58 ) 關(guān)于混合模型聚類(lèi)算法的優(yōu)缺點(diǎn) , 下面說(shuō)法正確的是( B )。A. 當(dāng)簇只包含少量數(shù)據(jù)點(diǎn) , 或者數(shù)據(jù)點(diǎn)近似協(xié)線(xiàn)性時(shí), 混合模型也能很好地處理B. 混合模型比 K 均值或模糊 c 均值更一般, 因?yàn)樗梢允褂酶鞣N類(lèi)型的分布。C. 混

18、合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇。59)算法(D. 混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問(wèn)題。以下哪個(gè)聚類(lèi)算法不屬于基于網(wǎng)格的聚類(lèi)D )。一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)C )的離群點(diǎn)定義。60)象周?chē)芏鹊哪妗_@是基于(A 概率B 鄰近度C?密度 D ?聚類(lèi)61 ) 輿情研判,信息科學(xué)側(cè)重( C ) , 社會(huì)和管理科學(xué)側(cè)重突發(fā)群體事件管理中的群體心理行為及輿論控制研究,新聞傳播學(xué)側(cè)重對(duì)輿論的本體進(jìn)行規(guī)律性的探索和研究。A. 輿論的本體進(jìn)行規(guī)律性的探索和研究B. 輿論控制研究C. 互聯(lián)網(wǎng)文本挖掘和分析技術(shù)D. 用戶(hù)行為分析62) MapReduc n的Map函數(shù)產(chǎn)生很多的(C )C.<key

19、,value>63 ) Map reduce 適用于( D )A. 任意應(yīng)用程序B. 任意可在 windows servet2008 上運(yùn)行的程序C. 可 以串行處理的應(yīng)用程序D. 可以并行處理的應(yīng)用程序64 ) PageRank 是一個(gè)函數(shù), 它對(duì) Web 中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)值。 它的意圖在于網(wǎng)頁(yè)的PageRank 越高 , 那么它就( D )。A. 相關(guān)性越高B. 越不重要C. 相關(guān)性越低D. 越重要X A. 一對(duì)一B. 一對(duì)多C. 多對(duì)多 D. 多對(duì)一65) 協(xié)同過(guò)濾分析用戶(hù)興趣,在用戶(hù)群中找到指定用戶(hù)的相似 (興趣)用戶(hù),綜合這些用戶(hù)對(duì)某一信息的評(píng)價(jià), 形成系統(tǒng)對(duì)該指定用戶(hù)

20、對(duì)此信息的喜好程度( D ) , 并將這些用 戶(hù)喜歡的A. 相似C. 推66 ) 大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并( B )成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的信息。A. 收集B. 整理C.規(guī)劃D.聚集67) 大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中( D )大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。A. 大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程B. 規(guī)劃建設(shè)運(yùn)營(yíng)管理68):;:Z共享、DC值A(chǔ). 算法共享B. 共享應(yīng)用C. 數(shù)據(jù)交換D. 交叉復(fù)用69 ) 社交網(wǎng)絡(luò)產(chǎn)生了海量用戶(hù)以及實(shí)時(shí)和完整的數(shù)據(jù) , 同時(shí)社交網(wǎng)絡(luò)也記錄了用戶(hù)群體的( C )

21、, 通過(guò)深入挖掘這些數(shù)據(jù)來(lái)了解用戶(hù) , 然后將這些分析后的數(shù)據(jù)信息推給需 要的品牌商家或是微博營(yíng)銷(xiāo)公司。A. 地址B. 行為C. 情緒D. 來(lái)源70通過(guò)數(shù)據(jù)收集和展示數(shù)據(jù)背后的 ( D , 運(yùn)用豐富的、具有互動(dòng)性的可視化手段數(shù)據(jù)新聞學(xué)成為新聞學(xué)作為一門(mén)新的分支進(jìn)入主流媒體, 即用數(shù)據(jù)報(bào)道新聞。71A. 數(shù)據(jù)收集 B. 數(shù)據(jù)挖掘C. 真相 D. 關(guān)聯(lián)與模式CRISP-DM 模型中 Evaluation 表示對(duì)建立的模型進(jìn)行評(píng)估, 重點(diǎn)具體考慮得出的結(jié)果是符合( C 的商業(yè)目的。A. 第二步B. 第三步C.第一步D. 最后一步72發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過(guò)以下三個(gè)步驟:連接數(shù)據(jù) , 作數(shù)據(jù)準(zhǔn)備;

22、給定最小支持度和( D, 利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則A. 最小興趣度B. 最小置信度73C. 最大支持度D. 最小可信度規(guī)則l->j,, 等于所有包含I 的購(gòu)物籃中同時(shí)包含J 的購(gòu)物籃的比例A. 置信度B. 可信度C. 興趣度D. 支持度74如果一個(gè)匹配中, 任何一個(gè)節(jié)點(diǎn)都不同時(shí)是兩條或多條邊的端點(diǎn) , 也稱(chēng)作( C7576A. 極大匹配B. 二分匹配C 完美匹配D.極小匹配只要具有適當(dāng)?shù)恼咄苿?dòng) , 大數(shù)據(jù)的使用將成為未來(lái)提高競(jìng)爭(zhēng)力、生產(chǎn)力、創(chuàng)新能力以D 的關(guān)鍵要素。A. 提高消費(fèi)B. 提高 GDPC. 提高生活水平D. 創(chuàng)造消費(fèi)者盈余個(gè)性化

23、推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)商務(wù)智能平臺(tái), 以幫助 ( D為其顧客購(gòu)物提供完全個(gè)性化的決策支持和信息服務(wù)。A. 公司 B. 各單位C. 跨國(guó)企業(yè)D. 電子商務(wù)網(wǎng)站77 云計(jì)算是對(duì)( D 技術(shù)的發(fā)展與運(yùn)用A. 并行計(jì)算B. 網(wǎng)格計(jì)算C. 分布式計(jì)算D. 三個(gè)選項(xiàng)都是78 ( B 是 Google 提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運(yùn)算的軟件架構(gòu)。79 在 Bigtable 中,( A 主要用來(lái)存儲(chǔ)子表數(shù)據(jù)以及一些日志文件A. GFS B. Chubby二、判斷題(共40 題1 分類(lèi)是預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類(lèi)別,預(yù)測(cè)是用于數(shù)據(jù)對(duì)象的連續(xù)取值。 ( 對(duì)2 時(shí)序預(yù)測(cè)回

24、歸預(yù)測(cè)一樣,也是用已知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。 ( 錯(cuò)3 數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。 ( 對(duì)4 對(duì)遺漏數(shù)據(jù)的處理方法主要有:忽略該條記錄;手工填補(bǔ)遺漏值;利用默認(rèn)值填補(bǔ)遺漏值;利用均值填補(bǔ)遺漏值;利用同類(lèi)別均值填補(bǔ)遺漏值;利用最可能的值填充遺漏值。 (對(duì)5 神經(jīng)網(wǎng)絡(luò)對(duì)噪音數(shù)據(jù)具有高承受能力,并能對(duì)未經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)具有分類(lèi)能力,但其需要很長(zhǎng)的訓(xùn)練時(shí)間,因而對(duì)于有足夠長(zhǎng)訓(xùn)練時(shí)間的應(yīng)用更合適。 ( 對(duì)6 數(shù)據(jù)分類(lèi)由兩步過(guò)程組成: 第一步,建立一個(gè)聚類(lèi)模型, 描述指定的數(shù)據(jù)類(lèi)集或概念集; 第二步,使用模型進(jìn)行

25、分類(lèi)。 ( 錯(cuò)7 聚類(lèi)是指將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程。 ( 對(duì)8 決策樹(shù)方法通常用于關(guān)聯(lián)規(guī)則挖掘。 ( 錯(cuò)9 數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放( 如更換大單位 ,使之落入一個(gè)特定的區(qū)域(如 0-1 以提高數(shù)據(jù)挖掘效率的方法。 規(guī)范化的常用方法有: 最大 - 最小規(guī)范化、零- 均值規(guī)范化、 小數(shù)定標(biāo)規(guī)范化。 ( 對(duì)10 ) 原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能存在重復(fù)的和不完整的 數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求, 提高效率和得到清晰的結(jié)果, 必 須進(jìn)行數(shù)據(jù)

26、的預(yù)處理。 ( 對(duì))11 ) 數(shù)據(jù)取樣時(shí), 除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外, 還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。(對(duì))12 ) 分類(lèi)規(guī)則的挖掘方法通常有:決策樹(shù)法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。(對(duì))13 ) 可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。 ( 錯(cuò))14 ) 孤立點(diǎn)在數(shù)據(jù)挖掘時(shí)總是被視為異常、無(wú)用數(shù)據(jù)而丟棄。 ( 錯(cuò) )15 ) Apriori 算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。 ( 對(duì) )16 ) 用于分類(lèi)的離散化方法之間的根本區(qū)別在于是否使用類(lèi)信息。 (對(duì))17 ) 特征提取技術(shù)并不依賴(lài)于特定的領(lǐng)域。 (錯(cuò))18 ) 模型的具體化就是預(yù)測(cè)公式, 公式可以產(chǎn)生與觀察值有

27、相似結(jié)構(gòu)的輸出, 這就是預(yù)測(cè)值。(對(duì))19 ) 文本挖掘又稱(chēng)信息檢索,是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可 操作的知識(shí)的過(guò)程。 (錯(cuò))20 ) 定量屬性可以是整數(shù)值或者是連續(xù)值。 (對(duì))21 ) 可視化技術(shù)對(duì)于分析的數(shù)據(jù)類(lèi)型通常不是專(zhuān)用性的。 (錯(cuò))22 )OLA 我術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)展之后迅猛發(fā)展起來(lái)的一種新技術(shù)。 (對(duì))23 ) Wet 數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性,它在驗(yàn)證用戶(hù)提出的假設(shè)過(guò)程中提取信息。 (錯(cuò))24 ) 關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿(mǎn)足最小支持度的所有項(xiàng)集代表的規(guī)則。 (錯(cuò))25 ) 利用

28、先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。 (對(duì))26 ) 先驗(yàn)原理可以表述為:如果一個(gè)項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。 (錯(cuò))27 ) 回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。 (錯(cuò))28 ) 具有較高的支持度的項(xiàng)集具有較高的置信度。 (錯(cuò))29 ) 維歸約可以去掉不重要的屬性, 減少數(shù)據(jù)立方體的維數(shù), 從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù) 量, 提高挖掘效率。 (對(duì))30 ) 聚類(lèi)( clustering )是這樣的過(guò)程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型 ( 或函數(shù) ) , 以便能夠使用模型預(yù)測(cè)類(lèi)標(biāo)記未知的對(duì)象類(lèi)。 (錯(cuò))31 ) 對(duì)于 SVM 分類(lèi)算法, 待分樣本集中的大部分樣本

29、不是支持向量, 移去或者減少這些樣本對(duì)分類(lèi)結(jié)果沒(méi)有影響。 (對(duì))32 )Bayes 法是一種在已知后驗(yàn)概率與類(lèi)條件概率的情況下的模式分類(lèi)方法,待分樣本的分類(lèi)結(jié)果取決于各類(lèi)域中樣本的全體。 ( 錯(cuò))33 )在決策樹(shù)中,隨著樹(shù)中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開(kāi)始增大,這是出現(xiàn)了模型擬合不足的問(wèn)題。 (錯(cuò))34 ) 在聚類(lèi)分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類(lèi)的效果就越差。 (錯(cuò))35 ) 聚類(lèi)分析可以看作是一種非監(jiān)督的分類(lèi)。 (對(duì))36 )K均值是一種產(chǎn)生劃分聚類(lèi)的基于密度的聚類(lèi)算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。 (錯(cuò)37 ) 基于鄰近度的離群點(diǎn)檢測(cè)方法不能處

30、理具有不同密度區(qū)域的數(shù)據(jù)集。 (對(duì))38 ) 如果一個(gè)對(duì)象不強(qiáng)屬于任何簇,那么該對(duì)象是基于聚類(lèi)的離群點(diǎn)。 (對(duì))39 ) 大數(shù)據(jù)的 4 特點(diǎn)是 Volume Velocity 、 Variety 、 Veracity 。(對(duì))40 ) 聚類(lèi)分析的相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異度的矩陣,為一個(gè)nn 維的單 模矩陣。(對(duì))三、多選題(共30 題)1 ) 噪聲數(shù)據(jù)的產(chǎn)生原因主要有: (ABCD )A. 數(shù)據(jù)采集設(shè)備有問(wèn)題B. 在數(shù)據(jù)錄入過(guò)程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤C. 數(shù)據(jù)傳輸過(guò)程中發(fā)生錯(cuò)誤D. 由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致2 ) 尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、 方便并且有

31、價(jià)值地總結(jié)出數(shù)據(jù)的某一特征的表示這個(gè)過(guò)程包括了以下哪些步驟( A B C D )A. 選擇一個(gè)算法過(guò)程使評(píng)分函數(shù)最優(yōu)B. 決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C. 決定要使用的表示的特征和結(jié)構(gòu)D. 決定用什么樣的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法3) 數(shù)據(jù)挖掘的預(yù)測(cè)建模任務(wù)主要包括哪幾大類(lèi)問(wèn)題(A B)A. 分類(lèi)B. 回歸C. 聚類(lèi)D. 關(guān)聯(lián)規(guī)則挖掘4) 下列屬于不同的有序數(shù)據(jù)的有: (A B C D)A. 時(shí)序數(shù)據(jù)B. 序列數(shù)據(jù)C. 時(shí)間序列數(shù)據(jù)D. 事務(wù)數(shù)據(jù)E. 空間數(shù)據(jù)5) 下面屬于數(shù)據(jù)集的一般特性的有: ( B C D)A. 連續(xù)性B. 維度C. 稀疏性D. 分辨率E. 相異性6) 下面

32、屬于維歸約常用的處理技術(shù)的有: (A C)A. 主成分分析B. 特征提取C. 奇異值分解D . 特征加權(quán)E. 離散化7) 噪聲數(shù)據(jù)處理的方法主要有: ( ABD )A. 分箱 B. 聚類(lèi)C.關(guān)聯(lián)分析D.回歸)等方面8) 數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢(shì)分析、孤立點(diǎn)分析及( ABCDA . 挖掘頻繁模式 B. 分類(lèi)和預(yù)測(cè)C.聚類(lèi)分析D. 偏差分析9) 以下各項(xiàng)均是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同說(shuō)法 , 你認(rèn)為正確的有 ( BCD ) 。A?數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)庫(kù)B ?數(shù)據(jù)倉(cāng)庫(kù)是一切商業(yè)智能系統(tǒng)的基礎(chǔ)C ?數(shù)據(jù)倉(cāng)庫(kù)是面向業(yè)務(wù)的,支持聯(lián)機(jī)事務(wù)處理(OLTPD ?數(shù)據(jù)倉(cāng)庫(kù)支持決策而非事務(wù)處理10) 聯(lián)機(jī)分析處理包

33、括(BCD )基本分析功能。A.聚類(lèi)B.切片C.轉(zhuǎn)軸D.切塊在以下的購(gòu)物籃中產(chǎn)生支持度不小于TID項(xiàng)集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂(lè)4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂(lè)3的候選3項(xiàng)集,在候選2項(xiàng)集中需要剪枝的是 (BD )A.啤酒、尿布B,啤酒、面包C.面包、尿布D.啤酒、牛奶12)下表是一個(gè)購(gòu)物籃,假定支持度閾值為40%,其中(AD )是頻繁閉項(xiàng)集ID項(xiàng)集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、雞蛋4面包、尿布、啤酒、雞蛋5啤酒、雞蛋A.面包、牛奶、尿布 B,面包、啤酒C.尿布、啤酒D.啤酒、雞蛋ABCD ) 影響。13 ) Apri

34、ori 算法的計(jì)算復(fù)雜度受A. 支持度閥值B. 項(xiàng)數(shù)(維度)C.事務(wù)數(shù)D,事務(wù)平均寬度14 ) 以下關(guān)于非頻繁模式說(shuō)法 , 正確的是( AD )A, 其支持度小于閾值B, 都是不讓人感興趣的 C, 包含負(fù)模式和負(fù)相關(guān)模式 D, 對(duì)異常數(shù)據(jù)項(xiàng)敏感15 ) 以下屬于分類(lèi)器評(píng)價(jià)或比較尺度的有: ( ACD )A, 預(yù)測(cè)準(zhǔn)確度B, 召回率C.模型描述的簡(jiǎn)潔度D,計(jì)算復(fù)雜度16 ) 貝葉斯信念網(wǎng)絡(luò)( BBN )有如下哪些特點(diǎn)。 (ABA, 構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力B , 對(duì)模型的過(guò)分問(wèn)題非常魯棒C, 貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D , 網(wǎng)絡(luò)結(jié)構(gòu)確定后 , 添加變量相當(dāng)麻煩17 ) 如下哪些不是最近鄰分類(lèi)器的特點(diǎn)。( C )A.它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),不必維護(hù)源自數(shù)據(jù)的模型B , 分類(lèi)一個(gè)測(cè)試樣例開(kāi)銷(xiāo)很大C, 最近鄰分類(lèi)器基于全局信息進(jìn)行預(yù)測(cè)D, 可以生產(chǎn)任意形狀的決策邊界18 ) 以下屬于聚類(lèi)算法的是( AB

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論