數據挖掘考試習題匯總_第1頁
數據挖掘考試習題匯總_第2頁
數據挖掘考試習題匯總_第3頁
數據挖掘考試習題匯總_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章1、數據倉庫就是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數據集合。2、元數據是描述數據倉庫內數據的結構和建立方法的數據,它為訪問數據倉庫提供了一個信息目錄,根據數據用途的不同可將數據倉庫的元數據分為技術元數據和業(yè)務元數據兩類。3、數據處理通常分成兩大類:聯機事務處理和聯機分析處理。4、多維分析是指以“維”形式組織起來的數據(多維數據集)采取切片、切塊、鉆取和旋轉等各種分析動作,以求剖析數據,使擁護能從不同角度、不同側面觀察數據倉庫中的數據,從而深入理解多維數據集中的信息。5、ROLAP是基于關系數據庫的 OLAP實現,而MOLAP是基于多維數據結構組織的 OLAP實現。6、數據

2、倉庫按照其開發(fā)過程,其關鍵環(huán)節(jié)包括數據抽取、數據存儲與管理和數據表現等。7、數據倉庫系統(tǒng)的體系結構根據應用需求的不同,可以分為以下4種類型:兩層架構、獨立型數據集合、以來型數據結合和操作型數據存儲和邏輯型數據集中和實時數據倉庫。8、操作型數據存儲實際上是一個集成的、面向主題的、可更新的、當前值的(但是可“揮發(fā)”的)、企業(yè)級的、詳細的數據庫,也叫運營數據存儲。9、“實時數據倉庫”以為著源數據系統(tǒng)、決策支持服務和倉庫倉庫之間以一個接近實時的速度交換數據和業(yè)務規(guī)則。10、從應用的角度看,數據倉庫的發(fā)展演變可以歸納為5個階段:以報表為主、以分析為主、以預測模型為主、以運營導向為主和以實時數據倉庫和自動

3、決策為主。第二章1、調和數據是存儲在企業(yè)級數據倉庫和操作型數據存儲中的數據。2、抽取、轉換、加載過程的目的是為決策支持應用提供一個單一的、權威數據源。因此,我們要求ETL過程產生的數據(即調和數據層)是詳細的、歷史的、規(guī)范的、可理解的、即時的和質量可控制的。3、數據抽取的兩個常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數據倉庫,增量抽取用于進行數據倉庫的維護。4、粒度是對數據倉庫中數據的綜合程度高低的一個衡量。粒度越小,細節(jié)程度越高,綜合程度越低,回答 查詢的種類越多。5、使用星型模式可以從一定程度上提高查詢效率。因為星型模式中數據的組織已經經過預處理,主要數據都在龐大的事實表中。6、維

4、度表一般又主鍵、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:一種是采用自然鍵,另一種是采用代理鍵。7、雪花型模式是對星型模式維表的進一步層次化和規(guī)范化來消除冗余的數據。8、數據倉庫中存在不同綜合級別的數據。一般把數據分成4個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級和高度綜合級。第三章1、SQL Server SSAS提供了所有業(yè)務數據的同意整合試圖,可以作為傳統(tǒng)報表、在線分析處理、關鍵性能指示器記分卡和數據挖掘的基礎。2、數據倉庫的概念模型通常采用信息包圖法來進行設計,要求將其5個組成部分(包括名稱、維度、類別、層次和度量)全面地描述出來。3、數據倉庫的邏輯模型通常采用星型圖法來進行設計

5、,要求將星型的各類邏輯實體完整地描述出來。4、按照事實表中度量的可加性情況,可以把事實表對應的事實分為4種類型:事務事實、快照事實、線性項目事實和事件事實。5、確定了數據倉庫的粒度模型以后,為提高數據倉庫的使用性能,還需要根據擁護需求設計聚合模型。6、在項目實施時,根據事實表的特點和擁護的查詢需求,可以選用時間、業(yè)務類型、區(qū)域和下屬組織等多種數據分割類型。7、當維表中的主鍵在事實表中沒有與外鍵關聯時,這樣的維稱為退化維。它于事實表并無關系,但有時在 查詢限制條件(如訂單號碼、出貨單編號等)中需要用到。8、維度可以根據其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。9、數據倉庫的數據量

6、通常較大,且數據一般很少更新,可以通過設計和優(yōu)化索引結構來提高數據存取性能。10、數據倉庫數據庫常見的存儲優(yōu)化方法包括表的歸并與簇文件、反向規(guī)范化引入冗余、表的物理分割(分區(qū))。第四章1、關聯規(guī)則的經典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。2、如果 L2=a,b,a,c,a,d,b,c,b,d, 則連接產生的 C3=a,b,c,a,b,d,a,c,d,b,c,d再經過彳修剪,C3=a,b,c,a,b,d3、設定supmin=50%,交易集如則 L1=A , B , CL2=A,CT1ABCT2ACT3ADT4BEF第五章1、分類的過程包括獲

7、取數據、預處理、分類器設計和分類決策。2、分類器設計階段包含三個過程:劃分數據集、分類器構造和分類器測試。3、分類問題中常用的評價準則有精確度、查全率和查準率和集合均值。4、支持向量機中常用的核函數有多項式核函數、徑向基核函數和S型核函數第六章1、聚類分析包括連續(xù)型、二值離散型、多值離散型和混合類型4種類型描述屬性的相似度計算方法。2、連續(xù)型屬性的數據樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、劃分聚類方法對數據集進行聚類時包含三個要點:選種某種距離作為數據樣本減的相似性度量、二| 選擇評價聚類性能的準則函數和選擇某個初始分類,之后用迭代的方法得到聚類結果,使得評價聚類的準則函數取

8、得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。填空題20分,簡答題25分,計算題2個(25分),綜合題30分1、數據倉庫的組成? P2數據倉庫數據庫,數據抽取工具,元數據,訪問工具,數據集市,數據倉庫管理,信息發(fā)布系統(tǒng)2、數據挖掘技術對聚類分析的要求有哪幾個方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現任意形狀聚類的能力;減小對先驗知識和用戶自定義參數 的依賴性;處理噪聲數據的能力;可解釋性和實用性3、數據倉庫在存儲和管理方面的特點與關鍵技術?P7數據倉庫面對的是大量數據的存儲與管理并行處理針對決策支持查詢的優(yōu)化支持多維分析的查詢模式4、常見的聚類算法可以分為幾類?P13

9、2基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網格的聚類算法,基于模型的聚類算法等。5、一個典型的數據倉庫系統(tǒng)的組成?P12數據源、數據存儲與管理、OLAP服務器、前端工具與應用6、數據倉庫常見的存儲優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、數據倉庫發(fā)展演變的 5個階段? P20以報表為主以分析為主以預測模型為主以運行向導為主以實時數據倉庫、自動決策應用為主8、 ID3算法主要存在的缺點? P116(1) ID3算法在選擇根結點和各內部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性

10、可能不會提供太多有價值的信息。(2) ID3算法只能對描述屬性為離散型屬性的數據集構造決策樹。9、簡述數據倉庫ETL軟件的主要功能和對產生數據的目標要求。P30ETL軟件的主要功能:數據的抽取,數據的轉換,數據的加載對產生數據的目標要求:詳細的、歷史的、規(guī)范化的、可理解的、即時的、質量可控制的10、簡述分類器設計階段包含的 3個過程。劃分數據集,分類器構造,分類器測試11、什么是數據清洗? P33數據清洗是一種使用模式識別和其他技術,在將原始數據轉換和移到數據倉庫之前來升級原始數據質量的技術。12、支持度和置信度的計算公式及數據計算(P90)找出所有的規(guī)則X aY,使支持度和置信度分別大于門限

11、支持度:事務中X和丫同時發(fā)生的比例,P(X? Y)置信度:項集X發(fā)生時,Y同時發(fā)生的條件概率 P(Y|X)Example:Beer(0.4, 0.67)Support(X I Y)c(X Y)Milk , Diaper13、利用信息包圖設計數據栩ppo&IX上確定的三方面內容。P57確定指標,確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128輸入:UI練集工未知走標號即數據樣本發(fā)二為). p隔出:樹類標號的教指樣本X的類標號I(1)對于未知類標號的數據樣本露授照下式計蹩它與訓煉集X”由每一個數 據樣本的蛛距用-當 學嗎 /| d瑞-xj, 1=1; 2

12、 :otalP(2)將第(1)步中的所有歐氏距寓接照由小到大的順序進行由序,并且取前k 個距著從而觸#在X3就k楨'假設pm小分睚k個五 鄰中屬于類別MJ,a的樣本就t #(3)如果P廣中外i=l溫”,則K的類標號為C,即虻* ¥15、什么是技術元數據,主要包含的內容? P29技術元數據是描述關于數據倉庫技術細節(jié)的數據,應用于開發(fā)、管理和維護DW,包含:DW結構的描述,如DW的模式、視圖、維、層次結構和導出數據的定義,數據 集市的位置和內容等業(yè)務系統(tǒng)、DW和數據集市的體系結構和模式匯總算法。包括度量和維定義算法,數據粒度、主題領域、聚合、匯總和預定 義的查詢和報告。由操作型業(yè)

13、務環(huán)境到數據倉庫業(yè)務環(huán)境的映射。包括源數據和他們的內容、數據分割、數據提取、清洗、轉換規(guī)則和數據刷新規(guī)則及安全(用戶授權和存取控制)16、業(yè)務元數據主要包含的內容? P29業(yè)務元數據:從業(yè)務角度描述了 DW中的數據,提供了介于使用者和實際系統(tǒng)之間的語義層,主要包括:使用者的業(yè)務屬于所表達的數據模型、對象名和屬性名訪問數據的原則和數據的來源系統(tǒng)提供的分析方法及公式和報表的信息。17、K-means算法的基本操作步驟(包括算法的輸入和輸出) 。P138*輸入;數據集齊值.|所匕2,,totwl),其中的題據樣本只包含描述屬性,不 包含類別屬性f聚類個數ko P總 出:使誤差平方和準則最小的k個聚類

14、. u(1)從數據集衛(wèi)中隨機地選擇k個數據樣本作為聚美的初始代表點,每一個代表 點表示一個類別.J(2)對于冗中的任一數據樣本x.(iWnWtQtal),計算它與k個初始代表點的 距離,并且將它劃分到距離最近的初始代表點所表示的類別中0 +(3)完成毅據樣本的劃分之后,對于每一個聚類,計理其中所有數據樣本的均值, 并且將其作為該聚美的新的代表點,由此得到上個均值代表點. ,(d)對于X中的任一數據樣本x. ( total),計算它與k個均值代表點.的距離,并且將它劃分到距離最近的均值代表點所表示的類別中"()重復步驟(3)和14),直到各個聚類不再發(fā)生變化為止,即誤差平方和準 則函數

15、的值達到最優(yōu).邛18、數據從集結區(qū)加載到數據倉庫中的主要方法?P36SQL 命令(如 Insert 或 Update)由DW供應商或第三方提供專門的加載工具由DW管理員編寫自定義程序19、多維數據模型中的基本概念:維,維類別,維屬性,粒度 P37維:人們觀察數據的特定角度,是考慮問題的一類屬性,如時間維或產品維維類別:也稱維分層。即同一維度還可以存在細節(jié)程度不同的各個類別屬性(如時間維包括年、季度、月等)維屬性:是維的一個取值,是數據線在某維中位置的描述。粒度:DW中數據綜合程度高低的一個衡量。粒度低,細節(jié)程度高,回答查詢的種類多? ? 20、Apriori算法的基本操作步驟 P93*Apriori使用一種稱作逐層搜索的迭代方法,K項集用于探索K+1項集。該方法是基于候選的策略,降低候選數Apriori剪枝原則:若任何項集是非頻繁的,則其超集必然是非頻繁的(不用產生和測試超集)該原則基于以下支持度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論