數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘考試試題_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1、 填空題(15分)1 .數(shù)據(jù)倉庫的特點分別是面向主題、集成、相對穩(wěn)定、反映歷史變化。2 .元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)兩類。3 .OLAP技術(shù)多維分析過程中,多維分析操作包括切片、切塊、鉆取、旋轉(zhuǎn)等。4 .基于依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲的數(shù)據(jù)倉庫體系結(jié)構(gòu)常常被稱為“中心和輻射”架構(gòu),其中企業(yè)級數(shù)據(jù)倉庫是中心,源數(shù)據(jù)系統(tǒng)和數(shù)據(jù)集市在輸入和輸出范圍的兩端。5 .ODS實際上是一個集成的、面向主題的、可更新的、當(dāng)前值的、企業(yè)級的、詳細(xì)的數(shù)據(jù)庫,也叫運營數(shù)據(jù)存儲。2、 多項選擇題(10分)6 .在數(shù)據(jù)挖掘的分析方法中

2、,直接數(shù)據(jù)挖掘包括(ACD)A分類B關(guān)聯(lián)C估值D預(yù)言7 .數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取B數(shù)據(jù)轉(zhuǎn)換C數(shù)據(jù)加載D數(shù)據(jù)稽核8 .數(shù)據(jù)分類的評價準(zhǔn)則包括(ABCD)A精確度B查全率和查準(zhǔn)率CF-MeasureD幾何均值9 .層次聚類方法包括(BCA劃分聚類方法B凝聚型層次聚類方法C分解型層次聚類方法D基于密度聚類方法10 .貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是(AD)A網(wǎng)絡(luò)結(jié)構(gòu)B先驗概率C后驗概率D條件概率表3、 計算題(30分)11 .一個食品連鎖店每周的事務(wù)記錄如下表所示,其中每一條事務(wù)表示在一項收款機(jī)業(yè)務(wù)中賣出的項目,假定supmin=40%confmin=

3、40%使用AprioH算法計算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫掃描時的候選集和大項目集。(15分)事務(wù)項目事務(wù)項目T1面包、果凍、花生醬T4啤酒、面包T2面包、花生醬T5啤酒、牛奶T3面包、牛奶、花生醬解:(1)由I=面包、果凍、花生醬、牛奶、啤酒的所有項目直接產(chǎn)生1-候選G,計算其支持度,取出支持度小于SUPmin的項集,形成1-頻繁集L1,如下表所示:項集G支持度項集Li支持度面包4/5面包4/5花生醬3/5花生醬3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5(2)組合連接Li中的各項目,產(chǎn)生2-候選集G,計算其支持度,取出支持度小于SUpmin的項集,形成2-頻繁集L2,如下表所示:項集G

4、支持度項集L2支持度面包、花生醬3/5面包、花生醬3/5至此,所有頻繁集都被找到,算法結(jié)束,所以,confidence(面色一花生醬)=(4/5)/(3/5)=4/3>confminconfidence(花生醬一面包)=(3/5)/(4/5)=3/4>confmin所以,關(guān)聯(lián)規(guī)則面包一花生醬、花生醬一面包均是強(qiáng)關(guān)聯(lián)規(guī)則。12 .給定以下數(shù)據(jù)集(2,4,10,12,15,3,21),進(jìn)行K-Means聚類,設(shè)定聚類數(shù)為2個,相似度按照歐式距離計算。(15分)解:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點,每一個代表點表示一個類別,由題可知k=2,則可設(shè)m=2,ni=

5、4:(2)對于X中的任意數(shù)據(jù)樣本Xm(1<xm<total),計算它與k個初始代表點的距離,并且將它劃分到距離最近的初始代表點所表示的類別中:當(dāng)m=2時,樣本(2,4,10,12,15,3,21)距離該代表點的距離分別為2,8,10,13,1,19。當(dāng)m=4時,樣本(2,4,10,12,15,3,21)距離該代表點的距離分別為-2,6,8,11,-1,17。最小距離是1或者-1將該元素放入m=2的聚類中,則該聚類為(2,3),另一個(3)完成數(shù)據(jù)樣本的劃分之后,對于每一個聚類,計算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點,由此得到k個均值代表點:m=2.5,m=12:

6、(4)對于X中的任意數(shù)據(jù)樣本xm(1<xm<total),計算它與k個初始代表點的距離,并且將它劃分到距離最近的初始代表點所表示的類別中:當(dāng)m=2.5時,樣本(2,4,10,12,15,3,21)距離該代表點的距離分別為-0.5,0.5,1.5,7.5,9.5,12.5,18.5。當(dāng)m=12時,樣本(2,4,10,12,15,3,21)距離該代表點的距離分別為-10,-9,-8,2,3,9。最小距離是1.5將該元素放入m=2.5的聚類中,則該聚類為(2,3,4),另一個聚類m=12為(10,12,15,21)。(5)完成數(shù)據(jù)樣本的劃分之后,對于每一個聚類,計算其中所有數(shù)據(jù)樣本的均值

7、,并且將其作為該聚類的新的代表點,由此得到k個均值代表點:m=3,m2=14.5:(6)對于X中的任意數(shù)據(jù)樣本xm(1<xm<total),計算它與k個初始代表點的距離,并且將它劃分到距離最近的初始代表點所表示的類別中:當(dāng)m=3時,樣本(2,4,10,12,15,3,21)距離該代表點的距離分別為-1,1,7,9,12,18,o當(dāng)02=14.5時,樣本(2,4,10,12,15,3,21)距離該代表點的距離分別為-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。聚類m=14.5為(10,12,15,21)。至此,各個聚類不再發(fā)生變化為止,即誤差平方和準(zhǔn)則函數(shù)

8、的值達(dá)到最優(yōu)。四.設(shè)計題(45分)13.按照題目給定的3個數(shù)據(jù)文件,任選一個建立數(shù)據(jù)流圖,要求至少包括記錄選項、字段選項、圖形結(jié)點各一個。任選關(guān)聯(lián)規(guī)則Apriori算法、貝葉斯網(wǎng)絡(luò)、K-Means聚類、決策樹C5.0(C4.5)算法、神經(jīng)網(wǎng)絡(luò)中的一個進(jìn)行挖掘,并給出數(shù)據(jù)流圖。(10分)14.對以上數(shù)據(jù)流圖中使用的每個結(jié)點做一簡短說明。(10分)選擇:age>25.過濾:過濾后的字段Region,tenure,age,marital,churn.字段類型值缺失檎查方向regiontenure夕范國FIEJFIPJFFJI一rmimtm+B兀+BFFF1SJ70,10,1入人入入出俺輸輸輸輸

9、15.給出以上數(shù)據(jù)流圖中模型的執(zhí)行結(jié)果(生成模型完全展開后的數(shù)據(jù)),對于執(zhí)行結(jié)果太多的,可節(jié)選部分結(jié)果。(10分)一二七二中電一1二-I曰9至已二r*F-今4日<4。-/呂01>1+1r-r-i&rlt&lCO_4S5葉1t=riJiry<00-000>|上|jfnreaIo>ri一1OO5<>H二日/TL.r*t*卜>04=<冉N.曰N>35r-r-isrl1r&l<0.05T-=iriiljr&<3日>口.o1c父3-1oo*>£>>T=j"C

10、_®i尹至三W-m二曰曰/Hkfc甲00m<o.3&S>年)cf尋initjsr牢口.口。i-宣。"?"Jr&<3-1Th>StVQ口.<i一(口口=tU®>聲江9OliHA一口。三-IDk)r¥i-to-ihair-ii-taIC-in>FF>nrlira丈KQAhF=EArniig口cc<-i=-nnnff>)IS<Z®>口Ftitl16.對以上模型生成的結(jié)果做一簡要的分析,包括算法采用的基本原理、數(shù)學(xué)模型、算法步驟等。(15分)答:k-means聚類算法基本原理:將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)劃分為不同的類別,使得評價聚集類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個聚集類的緊湊,類問獨立。操作步驟:輸入:數(shù)據(jù)集,其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個數(shù)K輸出:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點,每一個代表點表示一個類別(2)對于X中的任意數(shù)據(jù)樣本xm(1<xm<total),計算它與k個初始代表點的距離,并且將它劃分到距離最近的初始代表點所表示的類別中(3)完成數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論