工程碩士《數(shù)據(jù)挖掘》考試試卷_第1頁
工程碩士《數(shù)據(jù)挖掘》考試試卷_第2頁
工程碩士《數(shù)據(jù)挖掘》考試試卷_第3頁
工程碩士《數(shù)據(jù)挖掘》考試試卷_第4頁
工程碩士《數(shù)據(jù)挖掘》考試試卷_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)挖掘》考試試題一、單項選擇題(本大題共20小題,每小題1分,共20分)在每小題列出的四個備選項中選擇一項符合題目要求的,請將其代碼填寫在題后的括號內(nèi)。錯選、多選或未選均無分。1.下列選項中哪個不屬于在線事務(wù)處理(OLTP)業(yè)務(wù)是()A、在線分析處理(OLAP)B、決策支持(DS)C、數(shù)據(jù)挖掘(DM)D、數(shù)據(jù)采集2.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、探索性數(shù)據(jù)分析B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則3.模式按實際應(yīng)用分類時,下列哪個不包含在內(nèi)()人、描述模式B、關(guān)聯(lián)模式C、聚類模式D、序列模式4.下列那個不是聚類分析的常用方法()A、特征聚類B、CF樹C、決策樹D、隨機(jī)搜索聚類法5.高層數(shù)據(jù)模型應(yīng)該哪種表示方法()A、E-R圖B、物理數(shù)據(jù)模型C、邏輯數(shù)據(jù)模型D、低層數(shù)據(jù)類型6.下列哪個不是星形圖的邏輯實體()A、指標(biāo)8、維度C、詳細(xì)類別D、關(guān)系7.下列哪個不是數(shù)據(jù)倉庫系統(tǒng)的完善工作()A、改正性維護(hù)B、完善性維護(hù)C、預(yù)防性維護(hù)D、應(yīng)用維護(hù)8.以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)?()(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A.Precision,RecallB.Recall,PrecisionC.Precision,ROCD.Recall,ROC9.下列哪個不是包中包含的集合()A、步驟集合B、連接集合C、局部變量集合D、任務(wù)集合10.下列哪個不屬于構(gòu)建數(shù)據(jù)倉庫系統(tǒng)的階段()人、設(shè)想階段B、規(guī)劃階段C、開發(fā)階段D、實施階段11.下列哪個不屬于數(shù)據(jù)挖掘的過程()A、評價階段B、鞏固和運用階段C、挖掘階段D、維護(hù)階段12.用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?()A、根據(jù)內(nèi)容檢索B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則13.假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)?()A、第一個B、第二個C、第三個D、第四個TOC\o"1-5"\h\z14.只有非零值才重要的二元屬性被稱作:()A計數(shù)屬性B離散屬性C非對稱的二元屬性D對稱屬性15.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:()A特征提取B特征修改C映射數(shù)據(jù)到新的空間D特征構(gòu)造16.?dāng)?shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是()數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容;捕捉到的新數(shù)據(jù)會覆蓋原來的快照;數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合.17.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:()粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別;數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高;數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.18.?dāng)?shù)據(jù)挖掘算法以()形式來組織數(shù)據(jù).A行B列C記錄D表格19.企業(yè)成功實施數(shù)據(jù)挖掘,需要以下()知識或技術(shù)A預(yù)先的規(guī)劃B對商業(yè)文體的理解C綜合商業(yè)知識和技能D都需要20.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類C.分類D.自然語言處理二、簡答題(本大題共4小題,每小題10分,共40分)21.解釋說明概念分層與數(shù)據(jù)泛化。答:數(shù)據(jù)泛化是一個從相對低層概念到更高層概念且對數(shù)據(jù)庫中與任務(wù)相關(guān)的大量數(shù)據(jù)進(jìn)行抽象概述的一個分析過程。.聚類分析方法是什么?答:聚類通過把目標(biāo)數(shù)據(jù)放入少數(shù)相對同源的組或“類"(cluster)里。分析表達(dá)數(shù)據(jù),(1)通過一系列的檢測將待測的一組基因的變異標(biāo)準(zhǔn)化,然后成對比較線性協(xié)方差。(2)通過把用最緊密關(guān)聯(lián)的譜來放基因進(jìn)行樣本聚類,例如用簡單的層級聚類(hierarchicalclustering)方法。這種聚類亦可擴(kuò)展到每個實驗樣本,利用一組基因總的線性相關(guān)進(jìn)行聚類。(3)多維等級分析(multidimensionalscalinganalysis,MDS)是一一種在二維Euclidean“距離”中顯示實驗樣本相關(guān)的大約程度。(4)K-means方法聚類,通過重復(fù)再分配類成員來使“類”內(nèi)分散度最小化的方法。.面向?qū)傩詺w納的基本算法的四個步驟答:首先使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù),進(jìn)行概化(通過屬性刪除或者屬性概化)。聚集通過合并相等的廣義元組,并累計他們相應(yīng)的技術(shù)值進(jìn)行。這壓縮了概化后的數(shù)據(jù)集合。結(jié)果廣義關(guān)系可以映射到不同形式,如圖表或規(guī)則,提供用戶。.孤立點分析是什么?答:孤立點是指數(shù)據(jù)集中那些小模式數(shù)據(jù),它可能是度量或執(zhí)行錯誤所導(dǎo)致的,也可能是固有數(shù)據(jù)變異性的結(jié)果。Hawkins給出了其本質(zhì)性定義:孤立點是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。一般的孤立點挖掘中存在兩個基本任務(wù):一是在給定的數(shù)據(jù)集合中定義什么樣的數(shù)據(jù)可以被認(rèn)為不一致的;二是找到一個有效的方法來挖掘這樣的孤立點。目前已有的傳統(tǒng)的孤立點挖掘算法主要包括四類算法基于統(tǒng)計的方法,基于距離的方法,基于密度的方法,基于偏離的方法和基于聚類的挖掘算法。2基工上用推?方拉曜牯原立卓的存斯也十了一蠟as務(wù)始崎區(qū)仲總.斶幺卜5向世照立點控物用殺并加以分析利用窕?為硬可趨岫椎!^立a.研京幫r他盤工立普洋"的不問假誑?開班丁許將品立白他K尊法卜人體_1_津以TF/L類疲立本干更“千方法、某干匹閾的立松.禁于修育的力涉.我囪七敢期的阮立麻原胸、昧于博剛的分類斑二也點皚撾木造m犯于高虛傳孤立"券r摑萬造用槍品在點的拴as作法》5仃皿整劑那用的炭」碼.曲押一-里8Mww.?t姚升am立點現(xiàn)用方誕是當(dāng)口知俄河褒曾m中外痂及?-y如正n:冷■拓,均德,蟒*墓).用不■一at陛心潞德定班立點及苴個但沖力力;"起用于或你葬數(shù)塞〃4達(dá):用于科姐趴摩『四用?[熔和*養(yǎng)數(shù)》5的扭摑.yi于sttiiw瑞立■涇熱直用主募炭取布科期川眸嫉*ti玷*整:ft內(nèi)為叁■旗國「比煙煙很陽酷分布幃征『匹也蛻rum了宜的向用拈境.塞千瞬事的將京點校批方法站知道救出??選取春話的柯瑋痘的威.直通地檢身一切用粗卻怎艮制裝米鼎走如立向『與鉆世的插樓.何翁*的員除曲5網(wǎng)此g證叔.莖下角通的翼立眼掄海揖沖什腦用的拉?。憾谝簧±媚钢g(shù)杷廨巾的比蛟一小姐介中的時合.簫二*鼻梟用了一個□I□hip牝帶I甘方孫太旺一□ITwrwffl/r蝸部于匹陽的,立點珞班內(nèi)法卜以劃海坦存馬班戈:帆按期方也蠢口|發(fā)大京楮Bt立篇饞ME的思等*三、應(yīng)用題(本大題共2小題,每小題20分,共40分).請問這個數(shù)據(jù)挖掘的那種方法?說明這個方法的特點數(shù)據(jù)挖掘統(tǒng)計分析操作指引在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的計劃才能保證資料采礦有條不紊的實施并取得成功U雖然我們把各個步驟按順序排列,但要注意數(shù)據(jù)挖掘過程并不是線性的,要取得好的結(jié)果就要不斷反復(fù)重復(fù)這些步驟.比如在“分析資料”時你可能覺得在',建立數(shù)據(jù)挖掘數(shù)據(jù)庫”時做的不夠好,要往里面添加一些新的資料等等.數(shù)據(jù)挖掘過程主要包括以下幾個方面:定義尚業(yè)問題建立數(shù)據(jù)挖掘庫分析數(shù)據(jù)準(zhǔn)備數(shù)據(jù)肆立模型模型評價模型實施其流程如下圖所示?26.數(shù)據(jù)挖掘項目是一項系統(tǒng)工程,它作為從數(shù)據(jù)庫中自動發(fā)現(xiàn)知識的過程,仍然需要來自不同領(lǐng)域?qū)<夜餐瑓⑴c知識發(fā)現(xiàn)的全部過程。請說明數(shù)據(jù)挖掘人員環(huán)境。答:1.主題領(lǐng)域?qū)<?理解商業(yè)問題。這需要大數(shù)據(jù)科學(xué)家和行業(yè)專業(yè),以及客戶的業(yè)務(wù)專家一起來明確問題。這是整個大數(shù)據(jù)挖掘中最關(guān)鍵的一步。如果不理解業(yè)務(wù)就貿(mào)然開做,最后的項目一定是失敗的。.數(shù)據(jù)專家/數(shù)據(jù)分析專家:分析數(shù)據(jù)。當(dāng)明確了業(yè)務(wù)問題之后,我們就需要去分析數(shù)據(jù),看看到底哪些數(shù)據(jù)能夠支撐我們的業(yè)務(wù),用哪些數(shù)據(jù)去解決問題。在這個階段,我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論