大數(shù)據時代下的數(shù)據挖掘試題及答案

上傳人：s*** IP屬地：天津上傳時間：2023-03-08 格式：DOCX 頁數(shù)：37 大小：70.97KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

..可修編...可修編.海量數(shù)據挖掘技術及工程實踐》題目一、單選題(共80題)(D)的目的縮小數(shù)據的取值圍，使其更適合于數(shù)據挖掘算法的需要，并且能夠得到和原始數(shù)據相同的分析結果。A?數(shù)據清洗B?數(shù)據集成C.數(shù)據變換D.數(shù)據歸約某超市研究銷售紀錄數(shù)據后發(fā)現(xiàn)，買啤酒的人很大概率也會購買尿布，這種屬于數(shù)據挖掘的哪類問題？(A)關聯(lián)規(guī)則發(fā)現(xiàn)B.聚類C.分類D.自然語言處理以下兩種描述分別對應哪兩種對分類算法的評價標準？(A)警察抓小偷，描述警察抓的人中有多少個是小偷的標準。描述有多少比例的小偷給警察抓了的標準。Precision,RecallB.Recall,PrecisionPrecision,ROCD.Recall,ROC將原始數(shù)據進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務？(C)頻繁模式挖掘B.分類和預測C.數(shù)據預處理D.數(shù)據流挖掘當不知道數(shù)據所帶標簽時，可以使用哪種技術促使帶同類標簽的數(shù)據與帶其他標簽的數(shù)據相分離？(B)分類B.聚類C.關聯(lián)分析C.關聯(lián)分析D.隱馬爾可夫鏈建立一個模型，通過這個模型根據已知的變量值來預測其他某個變量值屬于數(shù)據挖掘的哪一類任務？(c)根據容檢索B.建模描述c.預測建模D.尋找模式和規(guī)則下面哪種不屬于數(shù)據預處理的方法？(D)A?變量代換B.離散化C?聚集D?估計遺漏值假設12個銷售價格記錄組已經排序如下：5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時，15在第幾個箱子？(B)第一個B.第二個C.第三個D.第四個下面哪個不屬于數(shù)據的屬性類型：(D)A?標稱B?序數(shù)C?區(qū)間D?相異只有非零值才重要的二元屬性被稱作：(C)A?計數(shù)屬性B.離散屬性C?非對稱的二元屬性D?對稱屬性以下哪種方法不屬于特征選擇的標準方法：(D)嵌入B.過濾C.包裝D?抽樣下面不屬于創(chuàng)建新屬性的相關方法的是：(B)A?特征提取B?特征修改-.可修編.C.映射數(shù)據到新的空間D?特征構造下面哪個屬于映射數(shù)據到新的空間的方法？(A)A.傅立葉變換B?特征加權C?漸進抽樣D.維歸約假設屬性ine的最大最小值分別是12000元和98000元。利用最大最小規(guī)化的方法將屬性的值映射到0至1的圍。對屬性ine的73600元將被轉化為：(D)0.821B.1.224C.1.458D.0.716一所大學的各年紀人數(shù)分別為：一年級200人，二年級160人，三年級130人，四年級110人。則年級屬性的眾數(shù)是：(A)—年級B.二年級C.三年級D.四年級下列哪個不是專門用于可視化時間空間數(shù)據的技術：(B)A?等高線圖B?餅圖C.曲面圖D.矢量場圖在抽樣方法中，當合適的樣本容量很難確定時，可以使用的抽樣方法是：(D)A?有放回的簡單隨機抽樣無放回的簡單隨機抽樣C?分層抽樣D漸進抽樣數(shù)據倉庫是隨著時間變化的,下面的描述不正確的是(C)A?數(shù)據倉庫隨時間的變化不斷增加新的數(shù)據容捕捉到的新數(shù)據會覆蓋原來的快照-.可修編...可修編...可修編.C?數(shù)據倉庫隨事件變化不斷刪去舊的數(shù)據容D?數(shù)據倉庫中包含大量的綜合數(shù)據，這些綜合數(shù)據會隨著時間的變化不斷地進行重新綜合下面關于數(shù)據粒度的描述不正確的是:(C)A?粒度是指數(shù)據倉庫小數(shù)據單元的詳細程度和級別B?數(shù)據越詳細，粒度就越小,級別也就越高C?數(shù)據綜合度越高，粒度也就越大,級別也就越高D?粒度的具體劃分將直接影響數(shù)據倉庫中的數(shù)據量以及查詢質量有關數(shù)據倉庫的開發(fā)特點,不正確的描述是:(A)數(shù)據倉庫開發(fā)要從數(shù)據出發(fā)數(shù)據倉庫使用的需求在開發(fā)出去就要明確C?數(shù)據倉庫的開發(fā)是一個不斷循環(huán)的過程，是啟發(fā)式的開發(fā)D?在數(shù)據倉庫環(huán)境中，并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據倉庫中數(shù)據分析和處理更靈活,且沒有固定的模式關于OLAP的特性，下面正確的是：(D)(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性(1)(2)(3)(2)(3)(4)(1)(2)(3)(4)(1)(2)(3)(4)(5)關于OLAP和OLTP的區(qū)別描述,不正確的是：(C)A.OLAP主要是關于如何理解聚集的大量不同的數(shù)據?它與OTAP應用程序不同B?與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務OLAP的特點在于事務量大，但事務容比較簡單且重復率高OLAP是以數(shù)據倉庫為基礎的,但其最終數(shù)據來源與OLTP-樣均來自底層的數(shù)據庫系統(tǒng),兩者面對的用戶是相同的關于OLAP和OLTP的說法，下列不正確的是：(A)OLAP事務量大，但事務容比較簡單且重復率高OLAP的最終數(shù)據來源與OLTP不一樣OLTP面對的是決策人員和高層管理人員OLTP以應用為核心，是應用驅動的X={1,2,3}是頻繁項集，則可由X產生(C)個關聯(lián)規(guī)則。4B.56D.7考慮下面的頻繁3-項集的集合：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據集中只有5個項，采用合并策略,由候選產生過程得到4-項集不包含(C)1,2,3,4B.1,2,3,51,2,4,5D.1,3,4,5下面選項中t不是s的子序列的是(C)s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>s=<{2,4},{3,5,6},{8}>t=<{2},{8}>s=<{1,2},{3,4}>t=<{1},{2}>s=<{2,4},{2,4}>t=<{2},{4}>在圖集合中發(fā)現(xiàn)-組公共子結構,這樣的任務稱為(B)A?頻繁子集挖掘B?頻繁子圖挖掘C?頻繁數(shù)據項挖掘D?頻繁模式挖掘下列度量不具有反演性的是(D)系數(shù)B.幾率Cohen度量D.興趣因子下列(A)不是將主觀信息加入到模式發(fā)現(xiàn)任務中的方法。A?與同一時期其他數(shù)據對比可視化C?基于模板的方法主觀興趣度量下面購物藍能夠提取的3-項集的最大數(shù)量是多少(C)TID項集1牛奶,啤酒，尿布2面包，黃油，牛奶3牛奶,尿布，餅干4面包，黃油，餅干5啤酒，餅干，尿布6牛奶，尿布，面包，黃油7面包，黃油，尿布8啤酒，尿布9牛奶，尿布，面包，黃油10啤酒，餅干1B.2C.3D.4以下哪些算法是分類算法(B)DBSCANB.C4.5C.K-MeanD.EM以下哪些分類方法可以較好地避免樣本的不平衡問題(A)KNNB.SVMC.BayesD?神經網絡決策樹中不包含一下哪種結點(C)根結點(rootnode)部結點(internalnode)外部結點(externalnode)葉結點(leafnode)以下哪項關于決策樹的說法是錯誤的(C)冗余屬性不會對決策樹的準確率造成不利的影響子樹可能在決策樹中重復多次決策樹算法對于噪聲的干擾非常敏感尋找最佳決策樹是NP完全問題在基于規(guī)則分類器的中,依據規(guī)則質量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)基于類的排序方案基于規(guī)則的排序方案基于度量的排序方案基于規(guī)格的排序方案。以下哪些算法是基于規(guī)則的分類器(A)-.可修編.C4.5B.KNNNaiveBayesD.ANN37）可用作數(shù)據挖掘分析中的關聯(lián)規(guī)則算法有（C）。決策樹、對數(shù)回歸、關聯(lián)模式K均值法、SOM神經網絡Apriori算法、FP-Tree算法RBF神經網絡、K均值法、決策樹38）如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋，則稱規(guī)則集R中的規(guī)則為（B）A.無序規(guī)則B?窮舉規(guī)則C?互斥規(guī)則D?有序規(guī)則39）用于分類與回歸應用的主要算法有:（D）Apriori算法、HotSpot算法RBF神經網絡、K均值法、決策樹K均值法、S0M神經網絡D?決策樹、BP神經網絡、貝葉斯40）如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應類的一次投票，然后計票確定測試記錄的類標號，稱為（A）A.無序規(guī)則B?窮舉規(guī)則C?互斥規(guī)則D?有序規(guī)則41）考慮兩隊之間的足球比賽：隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為（C）A.0.75B.0.35C.0.4678D.0.573842）以下關于人工神經網絡（ANN）的描述錯誤的有（A）-.可修編...可修編...可修編.A?神經網絡對訓練數(shù)據中的噪聲非常魯棒B?可以處理冗余特征C?訓練ANN是一個很耗時的過程D?至少含有一個隱藏層的多層神經網絡43）通過聚集多個分類器的預測來提高分類準確率的技術稱為（A）A.組合（ensemble）B.聚集（aggregate）C?合并（bination）D.投票（voting）44）簡單地將數(shù)據對象集劃分成不重疊的子集,使得每個數(shù)據對象恰在一個子集中,這種聚類類型稱作（B）A?層次聚類B?劃分聚類C?非互斥聚類D?模糊聚類45）在基本K均值算法里，當鄰近度函數(shù)采用（A）的時候，合適的質心是簇中各點的中位數(shù)。A?曼哈頓距離B?平方歐幾里德距離C.余弦距離D.Bregman散度46）（C）是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產生的。A?邊界點B?質心C.離群點D.核心點47）BIRCH是一種（B）。A.分類器B?聚類算法C?關聯(lián)分析算法D.特征選擇算法48）檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于（A）的離群點檢測。A?統(tǒng)計方法B.鄰近度C?密度D?聚類技術49）（C）將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度，它是一種凝聚層次聚類技術。A.MIN（單鏈）B.MAX（全鏈）C.組平均D.Ward方法50）（D）將兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量,它是一種凝聚層次聚類技術。A.MIN（單鏈）B.MAX（全鏈）C.組平均D.Ward方法51）下列算法中，不屬于外推法的是（B）。A.移動平均法B?回歸分析法C?指數(shù)平滑法D?季節(jié)指數(shù)法52）關聯(lián)規(guī)則的評價指標是：（C）。A.均方誤差、均方根誤差Kappa統(tǒng)計、顯著性檢驗支持度、置信度平均絕對誤差、相對誤差53）關于K均值和DBSCAN的比較，以下說法不正確的是（A）。K均值丟棄被它識別為噪聲的對象，而DBSCAN-般聚類所有對象。K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的

K均值可以發(fā)現(xiàn)不是明顯分離的簇，即便簇有重疊也可以發(fā)現(xiàn)，但是DBSCAN會合并有重疊的簇。54）從研究現(xiàn)狀上看，下面不屬于云計算特點的是（C）A.超大規(guī)模B.虛擬化C.私有化D?高可靠性55）考慮這么一種情況：一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應該選擇（D）的相似度計算方法。A?平方歐幾里德距離B?余弦距離C?直接相似度D.共享最近鄰56）分析顧客消費行業(yè)，以便有針對性的向其推薦感興趣的服務，屬于（A）問題。A?關聯(lián)規(guī)則挖掘B?分類與回歸C.聚類分析D.時序預測57）以下哪個聚類算法不是屬于基于原型的聚類（D）。A?模糊C均值B.EM算法SOMD.CLIQUE58）關于混合模型聚類算法的優(yōu)缺點,下面說確的是（B）。A.當簇只包含少量數(shù)據點,或者數(shù)據點近似協(xié)線性時,混合模型也能很好地處理。B?混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布。C?混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇?；旌夏Ｐ驮谟性肼暫碗x群點時不會存在問題。59）以下哪個聚類算法不屬于基于網格的聚類算法（D）。A.STINGB.WaveClusterC.MAFIABIRCHC.MAFIABIRCH60）一個對象的離群點得分是該對象周圍密度的逆。這是基于（C）的離群點定義。A?概率B.鄰近度C?密度D?聚類61）輿情研判，信息科學側重（C）,社會和管理科學側重突發(fā)群體事件管理中的群體心理行為及輿論控制研究，新聞傳播學側重對輿論的本體進行規(guī)律性的探索和研究。輿論的本體進行規(guī)律性的探索和研究輿論控制研究互聯(lián)網文本挖掘和分析技術用戶行為分析62）MapReduce的Map函數(shù)產生很多的（C）A.keyB.valueC.<key,value>D.Hash63）Mapreduce適用于（D）任意應用程序任意可在windowsservet2008上運行的程序可以串行處理的應用程序可以并行處理的應用程序64）PageRank是一個函數(shù)，它對Web中的每個網頁賦予一個實數(shù)值。它的意圖在于網頁的PageRank越高，那么它就（D）。A?相關性越高B?越不重要C?相關性越低D?越重要XA.一對一B.—對多

C.多對多C.多對多多對一65）協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似（興趣）用戶,綜合這些用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度（D）,并將這些用戶喜歡的項推薦給有相似興趣的用戶。A?相似B.相同C?推薦D.預測66）大數(shù)據指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間達到擷取、管理、處理、并（B）成為幫助企業(yè)經營決策更積極目的的信息。A?收集B?整理C?規(guī)劃D?聚集67）大數(shù)據科學關注大數(shù)據網絡發(fā)展和運營過程中（D）大數(shù)據的規(guī)律及其與自然和社會活動之間的關系。A.社會活動之間的關系。A.大數(shù)據網絡發(fā)展和運營過程C?規(guī)律和驗證68）大數(shù)據的價值是通過數(shù)據共享、（B?規(guī)劃建設運營管理D?發(fā)現(xiàn)和驗證D）后獲取最大的數(shù)據價值A?算法共享B.共享應用C.數(shù)據交換D.交叉復用69）社交網絡產生了海量用戶以及實時和完整的數(shù)據,同時社交網絡也記錄了用戶群體的（C）,通過深入挖掘這些數(shù)據來了解用戶,然后將這些分析后的數(shù)據信息推給需要的品牌商家或是微博營銷公司。A?地址B.行為C?情緒DC?情緒70）通過數(shù)據收集和展示數(shù)據背后的（D）,運用豐富的、具有互動性的可視化手段,數(shù)據新聞學成為新聞學作為一門新的分支進入主流媒體,即用數(shù)據報道新聞。A?數(shù)據收集B?數(shù)據挖掘C?真相D.關聯(lián)與模式71）CRISP-DM模型中Evaluation表示對建立的模型進行評估，重點具體考慮得出的結果是否符合（C）的商業(yè)目的。A.第二步B.第三步C.第一步D.最后一步72）發(fā)現(xiàn)關聯(lián)規(guī)則的算法通常要經過以下三個步驟：連接數(shù)據,作數(shù)據準備；給定最小支持度和（D）,利用數(shù)據挖掘工具提供的算法發(fā)現(xiàn)關聯(lián)規(guī)則；可視化顯示、理解、評估關聯(lián)規(guī)則A.最小興趣度B.最小置信度C.最大支持度D.最小可信度73）規(guī)則I->j,“有可能”，等于所有包含I的購物籃中同時包含J的購物籃的比例，為（B）。A.置信度B.可信度C.興趣度D.支持度74）如果一個匹配中,任何一個節(jié)點都不同時是兩條或多條邊的端點,也稱作（C）A.極大匹配B.二分匹配C完美匹配D.極小匹配75）只要具有適當?shù)恼咄苿?大數(shù)據的使用將成為未來提高競爭力、生產力、創(chuàng)新能力以及D）的關鍵要素。

A?提高消費A?提高消費B?提高GDPC.提高生活水平D?創(chuàng)造消費者盈余76）個性化推薦系統(tǒng)是建立在海量數(shù)據挖掘基礎上的一種高級商務智能平臺,以幫助（D）為其顧客購物提供完全個性化的決策支持和信息服務。A.公司B.各單位C.跨國企業(yè)D.電子商務77)云計算是對（D）技術的發(fā)展與運用A?并行計算B?網格計算C.分布式計算D.三個選項都是78)（B）是Google提出的用于處理海量數(shù)據的并行編程模式和大規(guī)模數(shù)據集的并行運算的軟件架構。A.GFSB.MapReduceC.ChubbyD.BitTable79)在Bigtable中，(A）主要用來存儲子表數(shù)據以及一些日志文件A.GFSB.ChubbyC.SSTableD.MapReduce二、判斷題（共40題）1）分類是預測數(shù)據對象的離散類別，預測是用于數(shù)據對象的連續(xù)取值。（對）2）時序預測回歸預測一樣，也是用已知的數(shù)據預測未來的值，但這些數(shù)據的區(qū)別是變量所處時間的不同。（錯）3）數(shù)據挖掘的主要任務是從數(shù)據中發(fā)現(xiàn)潛在的規(guī)則，從而能更好的完成描述數(shù)據、預測數(shù)..可修編.據等任務。（對）4）對遺漏數(shù)據的處理方法主要有：忽略該條記錄；手工填補遺漏值；利用默認值填補遺漏值；利用均值填補遺漏值；利用同類別均值填補遺漏值；利用最可能的值填充遺漏值。（對）5）神經網絡對噪音數(shù)據具有高承受能力，并能對未經過訓練的數(shù)據具有分類能力，但其需要很長的訓練時間，因而對于有足夠長訓練時間的應用更合適。（對）6）數(shù)據分類由兩步過程組成：第一步，建立一個聚類模型，描述指定的數(shù)據類集或概念集；第二步，使用模型進行分類。（錯）7）聚類是指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。（對）8）決策樹方法通常用于關聯(lián)規(guī)則挖掘。（錯）9）數(shù)據規(guī)化指將數(shù)據按比例縮放（如更換大單位），使之落入一個特定的區(qū)域（如0-1）以提高數(shù)據挖掘效率的方法。規(guī)化的常用方法有：最大-最小規(guī)化、零-均值規(guī)化、小數(shù)定標規(guī)化。（對）10）原始業(yè)務數(shù)據來自多個數(shù)據庫或數(shù)據倉庫，它們的結構和規(guī)則可能是不同的，這將導致原始數(shù)據非常的雜亂、不可用，即使在同一個數(shù)據庫中，也可能存在重復的和不完整的數(shù)據信息，為了使這些數(shù)據能夠符合數(shù)據挖掘的要求，提高效率和得到清晰的結果，必須進行數(shù)據的預處理。（對）11）數(shù)據取樣時，除了要求抽樣時嚴把質量關外，還要求抽樣數(shù)據必須在足夠圍有代表性。（對）12）分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。（對）13）可信度是對關聯(lián)規(guī)則的準確度的衡量。（錯）-.可修編.14）孤立點在數(shù)據挖掘時總是被視為異常、無用數(shù)據而丟棄。（錯）15）Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法。（對）16）用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。（對）17）特征提取技術并不依賴于特定的領域。（錯）18）模型的具體化就是預測公式，公式可以產生與觀察值有相似結構的輸出，這就是預測值。（對）19）文本挖掘又稱信息檢索，是從大量文本數(shù)據中提取以前未知的、有用的、可理解的、可操作的知識的過程。（錯）20）定量屬性可以是整數(shù)值或者是連續(xù)值。（對）21）可視化技術對于分析的數(shù)據類型通常不是專用性的。（錯）22）OLAP技術側重于把數(shù)據庫中的數(shù)據進行分析、轉換成輔助決策信息，是繼數(shù)據庫技術發(fā)展之后迅猛發(fā)展起來的一種新技術。（對）23）Web數(shù)據挖掘是通過數(shù)據庫仲的一些屬性來預測另一個屬性，它在驗證用戶提出的假設過程中提取信息。（錯）24）關聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。（錯）25）利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數(shù)。（對）26）先驗原理可以表述為：如果一個項集是頻繁的，那包含它的所有項集也是頻繁的。（錯）27）回歸分析通常用于挖掘關聯(lián)規(guī)則。（錯）28）具有較高的支持度的項集具有較高的置信度。（錯）29）維歸約可以去掉不重要的屬性，減少數(shù)據立方體的維數(shù)，從而減少數(shù)據挖掘處理的數(shù)據量，提高挖掘效率。（對）30）聚類（clustering）是這樣的過程：它找出描述并區(qū)分數(shù)據類或概念的模型（或函數(shù)），以便能夠使用模型預測類標記未知的對象類。（錯）31）對于SVM分類算法，待分樣本集中的大部分樣本不是支持向量，移去或者減少這些樣本對分類結果沒有影響。（對）32）Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法，待分樣本的分類結果取決于各類域中樣本的全體。（錯）33）在決策樹中，隨著樹中結點數(shù)變得太大，即使模型的訓練誤差還在繼續(xù)減低，但是檢驗誤差開始增大，這是出現(xiàn)了模型擬合不足的問題。（錯）34）在聚類分析當中，簇的相似性越大，簇間的差別越大，聚類的效果就越差。（錯）35）聚類分析可以看作是一種非監(jiān)督的分類。（對）36）K均值是一種產生劃分聚類的基于密度的聚類算法，簇的個數(shù)由算法自動地確定。（錯37）基于鄰近度的離群點檢測方法不能處理具有不同密度區(qū)域的數(shù)據集。（對）38）如果一個對象不強屬于任何簇，那么該對象是基于聚類的離群點。（對）39）大數(shù)據的4V特點是Volume、Velocity、Variety、Veracity。（對）40）聚類分析的相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣，為一個nn維的單模矩陣。（對）三、多選題（共30題）1）噪聲數(shù)據的產生原因主要有：（ABCD）數(shù)據采集設備有問題在數(shù)據錄入過程中發(fā)生了人為或計算機錯誤數(shù)據傳輸過程中發(fā)生錯誤由于命名規(guī)則或數(shù)據代碼不同而引起的不一致-.可修編...可修編...可修編.尋找數(shù)據集中的關系是為了尋找精確、方便并且有價值地總結出數(shù)據的某一特征的表示,這個過程包括了以下哪些步驟？(ABCD)A.選擇一個算法過程使評分函數(shù)最優(yōu)B?決定如何量化和比較不同表示擬合數(shù)據的好壞C?決定要使用的表示的特征和結構決定用什么樣的數(shù)據管理原則以高效地實現(xiàn)算法數(shù)據挖掘的預測建模任務主要包括哪幾大類問題？(AB)分類回歸聚類關聯(lián)規(guī)則挖掘下列屬于不同的有序數(shù)據的有：(ABCD)A.時序數(shù)據B?序列數(shù)據C.時間序列數(shù)據D?事務數(shù)據E?空間數(shù)據下面屬于數(shù)據集的一般特性的有：(BCD)A.連續(xù)性B?維度C.稀疏性D.分辨率相異性6）下面屬于維歸約常用的處理技術的有：（AC）A?主成分分析B?特征提取C.奇異值分解D?特征加權離散化7）噪聲數(shù)據處理的方法主要有：（ABD）A?分箱B?聚類C.關聯(lián)分析D?回歸8）數(shù)據挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及（ABCD）等方面A.挖掘頻繁模式B?分類和預測C?聚類分析D.偏差分析9）以下各項均是針對數(shù)據倉庫的不同說法，你認為正確的有（BCD）。A.數(shù)據倉庫就是數(shù)據庫B?數(shù)據倉庫是一切商業(yè)智能系統(tǒng)的基礎C?數(shù)據倉庫是面向業(yè)務的，支持聯(lián)機事務處理（OLTP）D?數(shù)據倉庫支持決策而非事務處理10）聯(lián)機分析處理包括（BCD）基本分析功能。A?聚類B?切片C?轉軸D?切塊11）利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以下的購物籃中產生支持度不小于3的候選3-項集，在候選2-項集中需要剪枝的是（BD）

TID項集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶下表是一個購物籃,假定支持度閾值為40%,其中(AD)是頻繁閉項集。ID項集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、雞蛋4面包、尿布、啤酒、雞蛋5啤酒、雞蛋A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、雞蛋Apriori算法的計算復雜度受(ABCD)影響。A?支持度閥值B?項數(shù)(維度)C.事務數(shù)D.事務平均寬度以下關于非頻繁模式說法,正確的是(AD)其支持度小于閾值B.都是不讓人感興趣的包含負模式和負相關模式D?對異常數(shù)據項敏感以下屬于分類器評價或比較尺度的有:(ACD)A?預測準確度B.召回率C?模型描述的簡潔度D?計算復雜度貝葉斯信念網絡(BBN)有如下哪些特點。(AB)A?構

人人文庫> 全部分類> 行業(yè)資料 > 信息產業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據時代下的數(shù)據挖掘試題及答案

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據時代下的數(shù)據挖掘試題及答案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔