《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習題_第1頁
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習題_第2頁
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習題_第3頁
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習題_第4頁
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習題_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2014-2015-1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末考試題型一、 單項選擇題(每小題2分,共20分)二、 填空題 (每空1分,共20分)三、 簡答題(每題6分,共30分)四、 析題與計算題(共30分)請同學(xué)們在考試時不要將復(fù)習資料帶入考場!單選題1. 某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?(A) A. 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) B. 聚類 C. 分類 D. 自然語言處理2. 以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標準? (A) (a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。 (b)描述有多少比例的小偷給警察抓了的標準。 A. Precision,

2、Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC3. 將原始數(shù)據(jù)進行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?(C) A. 頻繁模式挖掘 B. 分類和預(yù)測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流挖掘4. 當不知道數(shù)據(jù)所帶標簽時,可以使用哪種技術(shù)促使帶同類標簽的數(shù)據(jù)與帶其他標簽的數(shù)據(jù)相分離?(B) A. 分類 B. 聚類 C. 關(guān)聯(lián)分析 D. 隱馬爾可夫鏈5. 什么是KDD? (A) A. 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) B. 領(lǐng)域知識發(fā)現(xiàn) C. 文檔知識發(fā)現(xiàn) D. 動態(tài)知識發(fā)現(xiàn)6. 使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)

3、據(jù)挖掘的哪一類任務(wù)?(A) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則7. 為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B) A. 探索性數(shù)據(jù)分析 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則8. 建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C) A. 根據(jù)內(nèi)容檢索 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)則9. 用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A) A. 根據(jù)內(nèi)容檢索 B. 建模描述 C. 預(yù)測建模 D. 尋找模式和規(guī)

4、則 11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法? (D)A變量代換 B離散化 C 聚集 D 估計遺漏值 12. 假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)? (B)A 第一個 B 第二個 C 第三個 D 第四個 13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里? (A)A 第一個 B 第二個 C 第三個 D 第四個 14.下面哪個不屬于數(shù)據(jù)的屬性類型:(D)A 標稱 B 序數(shù) C 區(qū)間 D相異 15. 在上題中,屬于定量的屬性

5、類型是:(C)A 標稱 B 序數(shù) C區(qū)間 D 相異 16. 只有非零值才重要的二元屬性被稱作:( C )A 計數(shù)屬性 B 離散屬性 C非對稱的二元屬性 D 對稱屬性 17. 以下哪種方法不屬于特征選擇的標準方法: (D)A嵌入 B 過濾 C 包裝 D 抽樣 18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是: (B)A特征提取 B特征修改 C映射數(shù)據(jù)到新的空間 D特征構(gòu)造 19. 考慮值集1、2、3、4、5、90,其截斷均值(p=20%)是 (C)A 2 B 3 C 3.5 D 5 20. 下面哪個屬于映射數(shù)據(jù)到新的空間的方法? (A)A 傅立葉變換 B特征加權(quán) C 漸進抽樣 D維歸約 21. 熵是為消

6、除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是: (B)A 1比特 B 2.6比特 C 3.2比特 D 3.8比特 22. 假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D)A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 問題:

7、使用按箱平均值平滑方法對上述數(shù)據(jù)進行平滑,箱的深度為3。第二個箱子值為:(A)A 18.3 B 22.6 C 26.8 D 27.9 24. 考慮值集12 24 33 2 4 55 68 26,其四分位數(shù)極差是:(A)A 31 B 24 C 55 D 3 25. 一所大學(xué)內(nèi)的各年紀人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是: (A)A 一年級 B二年級 C 三年級 D 四年級 26. 下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù): (B)A 等高線圖 B餅圖 C 曲面圖 D 矢量場圖 27. 在抽樣方法中,當合適的樣本容量很難確定時,可以使用

8、的抽樣方法是: (D)A 有放回的簡單隨機抽樣 B無放回的簡單隨機抽樣 C分層抽樣 D 漸進抽樣28. 數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是 (C)A. 數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容;B. 捕捉到的新數(shù)據(jù)會覆蓋原來的快照;C. 數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;D. 數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合.29. 關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指: (D)A. 基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;B. 基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;C. 基本元數(shù)據(jù)包括日志文件和簡歷執(zhí)行處理的時序調(diào)度信息;

9、D. 基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息.30. 下面關(guān)于數(shù)據(jù)粒度的描述不正確的是: (C)A. 粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別;B. 數(shù)據(jù)越詳細,粒度就越小,級別也就越高;C. 數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高;D. 粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.31. 有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是: (A)A. 數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);B. 數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;C. 數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D. 在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分

10、析和處理更靈活,且沒有固定的模式32. 在有關(guān)數(shù)據(jù)倉庫測試,下列說法不正確的是: (D)A. 在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進行各種測試.測試工作中要包括單元測試和系統(tǒng)測試.B. 當數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進行單元測試.C. 系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能測試和回歸測試.D. 在測試之前沒必要制定詳細的測試計劃.33. OLAP技術(shù)的核心是: (D)A. 在線性;B. 對用戶的快速響應(yīng);C. 互操作性.D. 多維分析;34. 關(guān)于OLAP的特性,下面正確的是: (D)(1)快速性 (2)可分析性 (3)多維性 (4)信息性 (5)共享性A.

11、(1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是: (C)A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).C. OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.D. OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的.36. OLAM技術(shù)一般簡稱為”數(shù)據(jù)聯(lián)機分析挖掘”,下面說法正確的是: (D)A

12、. OLAP和OLAM都基于客戶機/服務(wù)器模式,只有后者有與用戶的交互性;B. 由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.C. 基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.D. OLAM服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對超級立方體作一定的操作.37. 關(guān)于OLAP和OLTP的說法,下列不正確的是: (A)A. OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.B. OLAP的最終數(shù)據(jù)來源與OLTP不一樣.C. OLTP面對的是決策人員和高層管理人員.D. OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的.38. 設(shè)X=1,2,3是頻繁項集,則可由X產(chǎn)生_(C

13、)_個關(guān)聯(lián)規(guī)則。A、4 B、5 C、6 D、7 40. 概念分層圖是_(B)_圖。A、無向無環(huán) B、有向無環(huán) C、有向有環(huán) D、無向有環(huán)41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關(guān)系是: (C)A、頻繁項集 頻繁閉項集 =最大頻繁項集B、頻繁項集 = 頻繁閉項集 最大頻繁項集C、頻繁項集 頻繁閉項集 最大頻繁項集D、頻繁項集 = 頻繁閉項集 = 最大頻繁項集42. 考慮下面的頻繁3-項集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產(chǎn)生過程得到4-項集不包含(C)A、1,2,3,4 B、

14、1,2,3,5 C、1,2,4,5 D、1,3,4,543.下面選項中t不是s的子序列的是 ( C )A、s=<2,4,3,5,6,8> t=<2,3,6,8>B、s=<2,4,3,5,6,8> t=<2,8>C、s=<1,2,3,4> t=<1,2>D、s=<2,4,2,4> t=<2,4>44. 在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為 ( B )A、頻繁子集挖掘 B、頻繁子圖挖掘 C、頻繁數(shù)據(jù)項挖掘 D、頻繁模式挖掘45. 下列度量不具有反演性的是 (D)A、 系數(shù) B、幾率 C、Cohe

15、n度量 D、興趣因子46. 下列_(A)_不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A、與同一時期其他數(shù)據(jù)對比B、可視化C、基于模板的方法D、主觀興趣度量47. 下面購物籃能夠提取的3-項集的最大數(shù)量是多少(C)ID 購買項1 牛奶,啤酒,尿布2 面包,黃油,牛奶3 牛奶,尿布,餅干4 面包,黃油,餅干5 啤酒,餅干,尿布6 牛奶,尿布,面包,黃油7 面包,黃油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黃油10 啤酒,餅干A、1 B、2 C、3 D、448. 以下哪些算法是分類算法,A,DBSCAN B,C4.5 C,K-Mean D,EM (B)49. 以下哪些分類方法可以較好地避免樣本的不

16、平衡問題, A,KNN B,SVM C,Bayes D,神經(jīng)網(wǎng)絡(luò) (A) 50. 決策樹中不包含一下哪種結(jié)點,A,根結(jié)點(root node) B,內(nèi)部結(jié)點(internal node) C,外部結(jié)點(external node) D,葉結(jié)點(leaf node) (C)51. 不純性度量中Gini計算公式為(其中c是類的個數(shù)) (A)A, B, C, D, (A)53. 以下哪項關(guān)于決策樹的說法是錯誤的 (C)A. 冗余屬性不會對決策樹的準確率造成不利的影響 B. 子樹可能在決策樹中重復(fù)多次 C. 決策樹算法對于噪聲的干擾非常敏感 D. 尋找最佳決策樹是NP完全問題54. 在基于規(guī)則分類器的

17、中,依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為 (B)A. 基于類的排序方案 B. 基于規(guī)則的排序方案 C. 基于度量的排序方案 D. 基于規(guī)格的排序方案。 55. 以下哪些算法是基于規(guī)則的分類器 (A) A. C4.5 B. KNN C. Na?ve Bayes D. ANN56. 以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯誤的有 (A)A,神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒 B,可以處理冗余特征 C,訓(xùn)練ANN是一個很耗時的過程 D,至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)57. 通過聚集多個分類器的預(yù)測來提高分類準確率的技術(shù)稱為 (A) A,

18、組合(ensemble) B,聚集(aggregate) C,合并(combination) D,投票(voting)58. 簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作( B ) A、層次聚類 B、劃分聚類 C、非互斥聚類 D、模糊聚類59 在基本K均值算法里,當鄰近度函數(shù)采用( A )的時候,合適的質(zhì)心是簇中各點的中位數(shù)。 A、曼哈頓距離 B、平方歐幾里德距離 C、余弦距離 D、Bregman散度 60.( C )是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產(chǎn)生的。 A、邊界點 B、質(zhì)心 C、離群點 D、核心點填空題第一章

19、(1)數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟: 、 、 、 、 、 和 (2) 數(shù)據(jù)挖掘的性能問題主要包括: 、 和 (3) 當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是: 、 和 (4) 在萬維網(wǎng)(WWW)上應(yīng)用的數(shù)據(jù)挖掘技術(shù)常被稱為: (5) 孤立點是指: 答案:(1)數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)挖掘,模式評估,知識表示(2)算法的效率、可擴展性和并行處理(3)統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和機器學(xué)習(4)WEB挖掘(5)一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)第二章(1)進行數(shù)據(jù)預(yù)處理時所使用的主要方法包括: 、 、 和 (2)處理噪聲數(shù)據(jù)的方法主要包括: 、 、 和 (3)

20、模式集成的主要問題包括: 和 (4)數(shù)據(jù)概化是指: (5)數(shù)據(jù)壓縮可分為: 和 兩種類型。(6)進行數(shù)值歸約時,三種常用的有參方法是: 、 和 (7)數(shù)據(jù)離散度的最常用度量是 、 和 答案:(1) 數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約(2) 分箱、聚類、計算機和人工檢查結(jié)合、回歸(3) 整合不同數(shù)據(jù)源中的元數(shù)據(jù),實體識別問題(4) 沿概念分層向上概化(5) 有損壓縮,無損壓縮(6) 線性回歸方法,多元回歸,對數(shù)線性模型(7) 五數(shù)概括、中間四分位數(shù)區(qū)間、標準差第三章(1)概念分層有四種類型,分別是: 、 、 和 (2)常用的四種興趣度的客觀度量是: 、 、 和 (3)同時滿足 和 的關(guān)聯(lián)規(guī)則

21、稱為強關(guān)聯(lián)規(guī)則。答案:(1)模式分層,集合分組分層,操作導(dǎo)出的分層,基于規(guī)則的分層(2)簡單性、確定性、實用性、新穎性(3)最小置信度臨界值、最小支持度臨界值第四章(1)關(guān)聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是: 和 (2)Aprior算法包括 和 兩個基本步驟(3)項集的頻率是指 (4)大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含兩個過程: 和 (5)根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為: 和 (6)Apriori性質(zhì)是指: (7)挖掘多維關(guān)聯(lián)規(guī)則的技術(shù)可以根據(jù)量化屬性的處理分為三種基本方法: 、 和 (8)對于頻繁項集挖掘,在挖掘過程中使用的約束包括以下五種類型: 、 、 、 和 (9)在多維關(guān)聯(lián)規(guī)則

22、挖掘中,我們搜索的不是頻繁項集,而是 答案:(1)支持度和置信度(2)連接和剪枝(3)包含項集的事務(wù)數(shù)(4)找出所有頻繁項集、由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則(5)布爾關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則(6)頻繁項集的所有非空子集也必須是頻繁的(7)量化屬性的靜態(tài)離散化、量化關(guān)聯(lián)規(guī)則、基于距離的關(guān)聯(lián)規(guī)則(8)反單調(diào)的、單調(diào)的、簡潔的、可轉(zhuǎn)變的、不可轉(zhuǎn)變的(9)頻繁謂詞集第五章(1)通過對數(shù)據(jù)進行預(yù)處理,可以提高分類和預(yù)測過程的 、 和 (2)防止分類中的過分適應(yīng)的兩種方法分別是: 和 答案(1)準確性、有效性和可伸縮性(2)先剪枝、后剪枝第六章(1)在數(shù)據(jù)挖掘中,常用的聚類算法包括: 、 、 、基于網(wǎng)格的方法和基

23、于模型的方法。(2)聚類分析常作為一個獨立的工具來獲得 (3)一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個特征: 和 (4)許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是 和 (5)基于網(wǎng)格的聚類方法的優(yōu)點是: (6)孤立點產(chǎn)生的主要原因包括: 和 (7)在基于統(tǒng)計的孤立點檢測中,常用于不一致性檢驗的參數(shù)包括: 、 和 答案:(1)劃分方法、層次的方法、基于密度的方法(2)數(shù)據(jù)分布的情況(3)高類內(nèi)相似度、低類間相似度(4)數(shù)據(jù)矩陣、相異度矩陣(5)處理數(shù)度快(6)度量或執(zhí)行錯誤、數(shù)據(jù)變異的結(jié)果(7)數(shù)據(jù)分布、分布參數(shù)、預(yù)期的孤立點數(shù)問答題1. 何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不

24、完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。2. 何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉庫的目的有3個:一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度

25、。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。3. 何謂粒度?它對數(shù)據(jù)倉庫有什么影響?按粒度組織數(shù)據(jù)的方式有哪些?粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有: 簡單堆積結(jié)構(gòu) 輪轉(zhuǎn)綜合結(jié)構(gòu) 簡單直接結(jié)構(gòu) 連續(xù)結(jié)構(gòu)4. 何謂聚類?它與分類有什么異同

26、?聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進行;聚類是一種無指導(dǎo)學(xué)習,它不依賴預(yù)先定義的類和帶類標號的訓(xùn)練實例,屬于觀察式學(xué)習,分類則屬于有指導(dǎo)的學(xué)習,是示例式學(xué)習。5. 分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個步驟?分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)

27、進行分類。6. 什么是決策樹?如何用決策樹進行分類?決策樹是用樣本的屬性作為結(jié)點,用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。7. 簡述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素

28、,然后把數(shù)據(jù)分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。主算法包括如下幾步:從訓(xùn)練集中隨機選擇一個既含正例又含反例的子集(稱為窗口);用“建樹算法”對當前窗口形成一棵決策樹;對訓(xùn)練集(窗口除外)中例子用所得決策樹進行類別判定,找出錯判的例子;若存在錯判的例子,把它們插入窗口,重復(fù)步驟,否則結(jié)束。8. 噪聲數(shù)據(jù)的產(chǎn)生原因有哪些?(1)數(shù)據(jù)采集設(shè)備有問題(2)在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤(3)數(shù)據(jù)傳輸過程中發(fā)生錯誤(4)由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。9. 遺傳算法與傳統(tǒng)尋

29、優(yōu)算法相比有什么特點? 遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解; 遺傳算法采用高效有方向的隨機搜索,搜索效率高; 遺傳算法處理的對象是個體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域; 遺傳算法使用適應(yīng)值信息評估個體,不需要導(dǎo)數(shù)或其他輔助信息,運算速度快,適應(yīng)性好; 遺傳算法具有隱含并行性,具有更高的運行效率。10. 請解釋一下在數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中什么是支持度和可信度,以及關(guān)聯(lián)規(guī)則。支持度:規(guī)則AB的支持度指的是所有事件中A與B同地發(fā)生的的概率,即P(AB),是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量??尚哦龋阂?guī)則AB的可信度指的是包含A項集的同時也包含B項集的條件概率P(B

30、|A),是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比??尚哦仁菍﹃P(guān)聯(lián)規(guī)則的準確度的衡量。關(guān)聯(lián)規(guī)則:同時滿足最小支持度閾值和最小可信度閾值的規(guī)則稱之為關(guān)聯(lián)規(guī)則。分析與計算題1. 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑對以上數(shù)據(jù)進行平滑,箱的深度為3。(b) 該數(shù)據(jù)的均值是多少,中位數(shù)是多少?(c) 使用 min-max規(guī)范化,將age值35轉(zhuǎn)換到0.0,1.0區(qū)間。答:(a)已知數(shù)據(jù)元組中 age 的值如下(按遞增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。且箱的深度為 3,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論