《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》(陳志泊)-習(xí)題答案_第1頁(yè)
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》(陳志泊)-習(xí)題答案_第2頁(yè)
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》(陳志泊)-習(xí)題答案_第3頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題答案第1章數(shù)據(jù)倉(cāng)庫(kù)的概念與體系結(jié)構(gòu)1。面向主題的,相對(duì)穩(wěn)定的。2。技術(shù)元數(shù)據(jù),業(yè)務(wù)元數(shù)據(jù)。3。聯(lián)機(jī)分析處理OLAP。4.切片Slic,鉆取Drildown和Rol—up等5。基于關(guān)系數(shù)據(jù)庫(kù)。6。數(shù)據(jù)抽取,數(shù)據(jù)存儲(chǔ)與管理。7.兩層架構(gòu),獨(dú)立型數(shù)據(jù)集市,依賴(lài)型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ),邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)。8??筛碌?,當(dāng)前值的.9。接近實(shí)時(shí)。10.以報(bào)表為主,以分析為主,以預(yù)測(cè)模型為主,以營(yíng)運(yùn)導(dǎo)向?yàn)橹?11。答:數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)面向主題的(SubjectOriented、集成的(Integrate)(Non-Volatil、反映歷史變化TimeVarian).數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)包含以下幾個(gè)方面:(1);而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)領(lǐng)域部檔案數(shù)據(jù)相關(guān)。(2)集成的.面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互.一旦某個(gè)數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將作為數(shù)據(jù)檔案長(zhǎng)期保存,幾乎不再做修改和刪除操作,也就是說(shuō)針對(duì)數(shù)據(jù)倉(cāng)庫(kù),通常有大量的查詢(xún)操作及少量定期的加載(或刷新)操作。反映歷史變化。操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而(時(shí)點(diǎn))到目前的所有時(shí)期的信息,通過(guò)這些信息,可以對(duì)單位的發(fā)展歷程和未來(lái)趨勢(shì)做出定.12.答:()兩層架構(gòu)GenericTwo-LevelArchitectur。獨(dú)立型數(shù)據(jù)集市(IndependentDataMart).依賴(lài)型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(DependentDataMartandOperationalStor。(4(LogicalDataMartandReal-TimeDataWarehous.13。答:標(biāo)準(zhǔn)化的統(tǒng)一管理,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源可能的變化,使系統(tǒng)更便于管理和維護(hù)。.在這一方面,帶有決策支持?jǐn)U展的并行關(guān)系數(shù)據(jù)庫(kù)將最具發(fā)展?jié)摿?。在?shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計(jì)的算法和功能將普遍集成到聯(lián)機(jī)分析產(chǎn)品中,并與Internet/Web技術(shù)緊密結(jié)合。按行業(yè)應(yīng)用特征細(xì)化的數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)前端軟件將成為產(chǎn)品作為數(shù)14。答:WarehousVEssbase/DB2OLAPServer5.IBMDB2UDB以及來(lái)自第三方的前端數(shù)據(jù)展現(xiàn)工具(如BO和數(shù)據(jù)挖掘工具(如SAVW,Essbase/DB2OLAPServer維Essbase/DB2OLAPServer不是ROLARelational(ROLAPHOLAP,在Essbase完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的DB2UDB數(shù)據(jù)庫(kù)中.它的前端數(shù)據(jù)展現(xiàn)工具可以選擇BusinessObjects的BOLotus的ApproachCognos的Impromptu或IBM的QueryManagementFacility;ArborSoftwareEssbaseIBM(Arbor聯(lián)合開(kāi)發(fā))DB2OLAP服務(wù)器;統(tǒng)計(jì)分析工具采用SAS系統(tǒng)。(2)Oracle數(shù)據(jù)倉(cāng)庫(kù)解決方案主要包括OracleExpress和OracleDiscoverer兩個(gè)部分。OracleExpressExpressServer是一個(gè)MOLAP(多維服務(wù)器,OracleExpressWebAgent通過(guò)CGIWeb插件支持基于Web;OracleExpressObjects(Windows平臺(tái)提供了圖形化建模和假設(shè)分析功能,支持可視化開(kāi)發(fā)和事件驅(qū)動(dòng)編程技術(shù),提供了兼容VisualBasic語(yǔ)法的語(yǔ)言,支持OCX和OLE;OracleExpressAnalyzer(目前僅支Windows平臺(tái)OracleDiscoverer分為最終用戶(hù).OracleExpress中,而將詳細(xì)數(shù)據(jù)存儲(chǔ)在OracleServer通過(guò)構(gòu)SQL語(yǔ)句訪問(wèn)關(guān)系數(shù)據(jù)庫(kù)。(3)Microsoft將OLAP功能集成到SQLServerBIBI終端工具、BI門(mén)戶(hù)和BI應(yīng)用四個(gè)部分,如圖1.1。①BI平臺(tái)是BI解決方案的基礎(chǔ),包括ETL平臺(tái)SQLServer2005IntegrationService(SSI、數(shù)據(jù)倉(cāng)庫(kù)引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎Server2005AnalysisSQLServer2005ReportingService.②BI終端用戶(hù)工具,用戶(hù)通過(guò)終端用戶(hù)工具和AnalysisServiceOLAP據(jù)挖掘服務(wù)進(jìn)行交互來(lái)使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型,終端用戶(hù)通??墒褂妙A(yù)定義報(bào)表、交互式多維分析、即席查詢(xún)、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。③BI門(mén)戶(hù)提供了各種不同用戶(hù)訪問(wèn)BIBI選擇和自己相關(guān)性最強(qiáng)的數(shù)據(jù),提高信息訪問(wèn)和使用的效率。④BI應(yīng)用是建立在BIBI終端用戶(hù)工具和BI滿(mǎn)足某個(gè)特定業(yè)務(wù)需求的應(yīng)用,例如零售業(yè)務(wù)分析、企業(yè)項(xiàng)目管理組合分析等。第2章數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)與處理1.企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)。2。單一的,詳細(xì)的.3。最初填充數(shù)據(jù)倉(cāng)庫(kù)。4.越高,越低,越多。5。提高,預(yù)處理,事實(shí)表。6。自然鍵NaturalKe,代理鍵SurrogateKe。.早期細(xì)節(jié)級(jí),輕度綜合級(jí)。答:簡(jiǎn)單地說(shuō),數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務(wù)處理系統(tǒng)(操作型數(shù)據(jù))流向企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)或操作型數(shù)據(jù)存儲(chǔ)區(qū)(ODS),在這個(gè)過(guò)程中,要根據(jù)企業(yè)(或其他組織)的數(shù)據(jù)模據(jù)層ODS).10。答:數(shù)據(jù)的ETL2.3.1小節(jié)所述,,首次創(chuàng)建時(shí)的原始加載;二是接下來(lái)的定期修改,以保持EDW的當(dāng)前有效性和擴(kuò)展性。整個(gè)過(guò)程由四個(gè)步驟組成:抽取、清洗、轉(zhuǎn)換、加載和索引。事實(shí)上,這些步驟可以進(jìn),通常,,然后將數(shù)據(jù)在源系統(tǒng),以便在以后重新抽取。答:在星模式中,事實(shí)表居中,多個(gè)維表呈輻射狀分布于其四周,并與事實(shí)表連接。位于星縮小訪問(wèn)范圍。每個(gè)維表都有自己的屬性,維表和事實(shí)表通過(guò)關(guān)鍵字相關(guān)聯(lián)。答:因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時(shí)間維來(lái)區(qū)別。第3章數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)在線(xiàn)分析處理分析。信息包圖法,維度,類(lèi)別,度量。3。邏輯模型。4.事務(wù)事實(shí),快照事實(shí),線(xiàn)性項(xiàng)目事實(shí)。5。聚合。6。時(shí)間,區(qū)域。退化維。緩慢變化,劇烈變化。索引。反向規(guī)范化,引入冗余。答:,其中的每行(代表超立方體中的單元格.創(chuàng)建信息包圖時(shí)需要確定最高層和最低層的信息需求,以便最終設(shè)計(jì)出包含各個(gè)層次需要的數(shù)據(jù)倉(cāng)庫(kù)(觀點(diǎn)是通過(guò)與用戶(hù)交流得到的,.12。答:度的選擇與設(shè)計(jì)、數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)方式的設(shè)計(jì)等。13。答:;(2)(3)定義數(shù)據(jù)源;(4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái);(5)從操作型數(shù)據(jù)庫(kù)中抽取、清洗及轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù);,;更新數(shù)據(jù)倉(cāng)庫(kù)。14。答:參考3。3節(jié)的過(guò)程。第4章關(guān)聯(lián)規(guī)則1.apriori,fp—growth,fp-growth。2。{{ab}{abd{acd,{abc{ab}。3。{{a{b}{c}{ac。答:關(guān)聯(lián)規(guī)則挖掘最初由R。Agrawal等人提出,用來(lái)發(fā)現(xiàn)超級(jí)市場(chǎng)中用戶(hù)購(gòu)買(mǎi)的商品之間的隱含關(guān)聯(lián)關(guān)系,并用規(guī)則的形式表示出來(lái),稱(chēng)為關(guān)聯(lián)規(guī)則(AssociationRule)。關(guān)聯(lián)規(guī)則除了可以發(fā)現(xiàn)超市購(gòu)物中隱含的關(guān)聯(lián)關(guān)系之外,還可以應(yīng)用于其他很多領(lǐng)域.關(guān)聯(lián)規(guī)則的應(yīng)用還包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡(luò)故障分析等.答:關(guān)聯(lián)規(guī)則的分類(lèi):(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的?;谝?guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類(lèi)型不同,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。關(guān)聯(lián)規(guī)則挖掘的步驟:找出交易數(shù)據(jù)庫(kù)中所有大于或等于用戶(hù)指定的最小支持度的頻繁項(xiàng)集;生強(qiáng)關(guān)聯(lián)規(guī)則。答:規(guī)則:c=>a,a=>c。7。答:第5章數(shù)據(jù)分類(lèi)1。獲取數(shù)據(jù),預(yù)處理,分類(lèi)器設(shè)計(jì),分類(lèi)決策。,分類(lèi)器測(cè)試。,,S型核函數(shù)。5。答:分類(lèi)是指把數(shù)據(jù)樣本映射到一個(gè)事先定義的類(lèi)中的學(xué)習(xí)過(guò)程量及其對(duì)應(yīng)的類(lèi),用基于歸納的學(xué)習(xí)算法得出分類(lèi)。分類(lèi)問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一生物學(xué)、文本挖掘、因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如,在銀行業(yè)中,分類(lèi)方法可以輔助工作人員將正常信用卡用戶(hù)和欺詐信用卡用戶(hù)進(jìn)行分類(lèi);在因特網(wǎng)篩選中,分類(lèi)方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常6。答:求解過(guò)程請(qǐng)參考例5.1。7.答:1 7 4 1 xx~x,xx4,x3x,x,x,x進(jìn)行分類(lèi)時(shí)x的類(lèi)標(biāo)號(hào)是kx進(jìn)行分類(lèi)時(shí)x的類(lèi)標(biāo)號(hào)是y=+11 7 4 1 第6章數(shù)據(jù)聚類(lèi)1。連續(xù)型,二值離散型,多值離散型,混合類(lèi)型。2.歐氏距離,曼哈頓距離,明考斯基距離。3初始分類(lèi),之后用迭代的方法得到聚類(lèi)結(jié)果,使得評(píng)價(jià)聚類(lèi)的準(zhǔn)則函數(shù)取得最優(yōu)值。.答:聚類(lèi)分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類(lèi)別的過(guò)程中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,而不同類(lèi)別的數(shù)據(jù)樣本之間具有較低的相似度。,并且對(duì)某些特定的類(lèi)別作進(jìn)一步的分析。此外,聚類(lèi)分析還可以作為其他數(shù)據(jù)挖掘技術(shù)(例如分類(lèi)學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等)掘、Web比如對(duì)于衛(wèi)星遙感照片,聚類(lèi)可,從而協(xié)助市場(chǎng)調(diào)整銷(xiāo)售計(jì)劃;在生物學(xué)方面,聚類(lèi)可以幫助研究人員按照基因的相似度對(duì)動(dòng)物和植物的種群進(jìn)行劃分,從而獲得對(duì)種群中固有結(jié)構(gòu)的認(rèn)識(shí);在醫(yī)療診斷中,聚類(lèi)可以對(duì)細(xì)胞進(jìn)行歸類(lèi);在文本挖掘和Web數(shù)據(jù)挖掘領(lǐng)域中,聚類(lèi)可以將網(wǎng)站數(shù)據(jù)按照讀者的興趣度進(jìn)行劃分,從而有助于網(wǎng)站內(nèi)容的改進(jìn)。6。答:參考圖6.1。7.答:參考6.4.2節(jié)的步驟。8。答:根據(jù)給定的數(shù)據(jù)集,設(shè)定數(shù)據(jù)樣本之間的距離采用歐氏距離,聚類(lèi)集合之間的相似性度量采用最小距離,聚類(lèi)結(jié)果如下圖所示。第7章貝葉斯網(wǎng)絡(luò)1.答:SA/0.56566/0.43434;PX,BT發(fā)生/00891/0。910976HA/0.4533/0.5467,P(+BT|+HA)=P(+HA|+BT)/P(+HA)=0。9509×0。0891/0.4533=0.1869。2。答:,""的診斷概率。這是因?yàn)?概率大大降低。3個(gè)主要議題分別是:預(yù)測(cè)、診斷和歷史數(shù)據(jù)訓(xùn)練。答:,可以在歷史數(shù)據(jù)中統(tǒng)計(jì)A,然后統(tǒng)計(jì)在A發(fā)生的數(shù)據(jù)中B發(fā)生的次數(shù)T(A,,條件概率P(B|A)=B)/T(。要訓(xùn)練聯(lián)合條件概P(C|A,B),可以在歷史數(shù)據(jù)中統(tǒng)計(jì)AB共同發(fā)生的次數(shù)T(A,B),AB共同發(fā)生的數(shù)據(jù)中統(tǒng)計(jì)C發(fā)生的次數(shù),聯(lián)合條件概率/A,。以上的符號(hào)、C.答:可以用兩種方式從歷史數(shù)據(jù)中得到各個(gè)節(jié)點(diǎn)的發(fā)生概率1總的數(shù)據(jù)條數(shù),(2)首先,用第一種方法計(jì)算原因節(jié)點(diǎn)的發(fā)生概.第8章粗糙集1.答:粗糙集理論是一種新型處理不完整性和不確定性問(wèn)題的數(shù)學(xué)工具,它能對(duì)不完整資料(數(shù)據(jù))進(jìn)行分析,推理,學(xué)習(xí)和發(fā)現(xiàn),具有很強(qiáng)的知識(shí)獲取能力。2。答:X的下近似集合為x53。答:

。X的上近似集合為x1 2

,x,x,x,x4 5 6

,x。8根據(jù)上近似的定義,R—(X)是一個(gè)非粗糙集,也就是說(shuō),R—(X)是一些等價(jià)類(lèi)的并。所以R-(X)取上近似后,仍然是它自身;R-(X)取下近似后,也仍然是它自身。4.答:1 2 3 6 4 5 (1由R1{x,xx,x}和x,x;由R1 2 3 6 4 5 分是{x1,x,x

,x}和{x,x

形成的等價(jià)類(lèi)劃分是{x,x

、{x

}和{x,x6}。

2 3 6

4 5 3

1 2 3 5 41 2 3 4 5 (2)R{x,x{x},{x},{x},{x}(3)X1 2 3 4 5 的粗糙度為1/3.5。答:辨識(shí)矩陣為:0 R2 R2 R2 0 R2 R2 0 R2 。 0 R2 0 第9章神經(jīng)網(wǎng)絡(luò)1。答:前饋網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò)的本質(zhì)區(qū)別是網(wǎng)絡(luò)的某些輸出是不是循環(huán)作為網(wǎng)絡(luò)的輸入.前饋網(wǎng)絡(luò)的所有輸出都不能作為輸入,而遞歸網(wǎng)絡(luò)的某些輸出可以循環(huán)作為網(wǎng)絡(luò)的輸入。2。答:多層前饋網(wǎng)絡(luò)中隱藏層神經(jīng)元的作用是增強(qiáng)網(wǎng)絡(luò)的適應(yīng)能力。通過(guò)隱藏層,多層前饋網(wǎng)絡(luò)可以逼近系統(tǒng)中任意非線(xiàn)性的成分。3。答:在BP差與網(wǎng)絡(luò)輸出變量之間沒(méi)有中間變量4。答:2:4.8420.32.23.96192710章遺傳算法1。4。2.1000110101,0101001101。3.1001010101,0100101101。4。1101111101,0000000101。5。答:(1)函數(shù)優(yōu)化問(wèn)題(2)組合優(yōu)化問(wèn)題生產(chǎn)調(diào)度問(wèn)題自動(dòng)控制圖像處理人工生命遺傳編程(8)機(jī)器學(xué)習(xí)6.答:SGA的基本流程如下:(1).(2)(3)按選擇概率Ps,執(zhí)行選擇算子,從當(dāng)前種群中選擇部分個(gè)體進(jìn)入下一代種群。按交叉概率Pc,執(zhí)行交叉算子。按變異概率Pm.,則輸出種群中適應(yīng)度最優(yōu)的個(gè)體作為問(wèn)題的最優(yōu)解或滿(mǎn)。7。答:.確定種群大小規(guī)模。.確定選擇的方法及選擇率。(5)確定交叉的方法及交叉率.確定變異的方法及變異率。確定進(jìn)化的終止條件。8。答:存在早成熟收斂,收斂速度慢等缺點(diǎn)。9.答:個(gè)體表10.6適應(yīng)度習(xí)題9所用表格選擇概率累計(jì)概率13280.146037014603724460.198575034461335290。235530.58014249430。4198581第11章統(tǒng)計(jì)分析1。答:參考11.1.1節(jié)的推導(dǎo)過(guò)程。2.答Y例如因變量Y1,因變量Y0時(shí)表示沒(méi)有購(gòu)買(mǎi)產(chǎn)品.量為二分變量時(shí)一般采用Logistic回歸模型(邏輯回歸模型)的形式,用極大似然估計(jì)法(maximumlikelihood3。答:一般來(lái)說(shuō),建立ARIMA模型需要以下幾個(gè)步驟:(1)根據(jù)時(shí)間序列的圖形或者其他方法對(duì)序列的平穩(wěn)性進(jìn)行判斷.包含長(zhǎng)期趨勢(shì)和周期性變化的時(shí)間序列一定是不平穩(wěn)的。階數(shù),即d的取值。,定模型中pq自相關(guān)函數(shù)描述了時(shí)間序列的當(dāng)前序列和滯后的相關(guān)系數(shù)確定了模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論