




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)課后習(xí)題答案
第一章作業(yè)
1.數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)差別是什么?書P2
(1)數(shù)據(jù)庫(kù)用于事務(wù)處理,數(shù)據(jù)倉(cāng)庫(kù)用于決策分析。(2)數(shù)據(jù)庫(kù)保
持事物處理的當(dāng)前狀態(tài),數(shù)據(jù)倉(cāng)庫(kù)即保存過去的數(shù)據(jù)又保存當(dāng)前的數(shù)據(jù)。
(3)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是大量數(shù)據(jù)庫(kù)的集成。(4)對(duì)數(shù)據(jù)庫(kù)的操作比較明
確,操作數(shù)量較小。對(duì)數(shù)據(jù)倉(cāng)庫(kù)操作不明確,操作數(shù)據(jù)量大。
6.
8.定義為關(guān)于數(shù)據(jù)的數(shù)據(jù),描述數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。
9.元數(shù)據(jù)不僅僅是數(shù)據(jù)倉(cāng)庫(kù)的字典,而且還是數(shù)據(jù)倉(cāng)庫(kù)本身功能的
說明數(shù)據(jù),是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心。數(shù)據(jù)字典是關(guān)于數(shù)據(jù)庫(kù)中數(shù)據(jù)的描述,
而不是數(shù)據(jù)本身,數(shù)據(jù)字典是數(shù)據(jù)庫(kù)的元數(shù)據(jù)。
18、統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的不同。
統(tǒng)計(jì)學(xué)主要是對(duì)數(shù)量數(shù)據(jù)或連續(xù)值數(shù)據(jù)進(jìn)行數(shù)值計(jì)算的定量分析,得
到數(shù)量信息。數(shù)據(jù)挖掘主要對(duì)離散數(shù)據(jù)進(jìn)行定性分析,得到規(guī)則知識(shí)。在
統(tǒng)計(jì)學(xué)中有聚類分析和判別分析,它們與數(shù)據(jù)挖掘中的聚類和分類相似。
但是,采用的標(biāo)準(zhǔn)不一樣,統(tǒng)計(jì)學(xué)的聚類采用的“距離”是歐式距離,即
兩點(diǎn)間的坐標(biāo)(數(shù)值)距離。而數(shù)據(jù)挖掘的聚類采用的“距離”是海明距離,
即屬性取值是否相同,相同者距離為0,不相同者距離為1。
總之,統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘是有區(qū)別的,但是,它們之間是相互補(bǔ)充的。
不少數(shù)據(jù)挖掘的著作中均把統(tǒng)計(jì)學(xué)的不少方法引入到數(shù)據(jù)挖掘中,與將機(jī)
器學(xué)習(xí)中不少方法引入到數(shù)據(jù)挖掘中一樣,作為從數(shù)據(jù)獲取知識(shí)的一大類
方法。
19、說明數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的不同。
數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)展起來的。它將大量的數(shù)據(jù)庫(kù)的數(shù)據(jù)
按決策需求進(jìn)行重新組織,以數(shù)據(jù)倉(cāng)庫(kù)的形式進(jìn)行存儲(chǔ),將為用戶提供輔
助決策的隨機(jī)查詢、綜合信息以及隨時(shí)間變化的趨勢(shì)分析信息等。
數(shù)據(jù)倉(cāng)庫(kù)是一種存儲(chǔ)技術(shù),其數(shù)據(jù)存儲(chǔ)量是一般數(shù)據(jù)庫(kù)的100倍,包
含大量的歷史數(shù)據(jù)、當(dāng)前的詳細(xì)數(shù)據(jù)以及綜合數(shù)據(jù)。它能適應(yīng)不同用戶對(duì)
不同決策需要提供所需的數(shù)據(jù)和信息。
數(shù)據(jù)挖掘是從人工智能機(jī)器學(xué)習(xí)中發(fā)展起來的。它研究各種方法和技
術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知識(shí)。最常用的數(shù)據(jù)挖掘方法是
統(tǒng)計(jì)分析方法、神經(jīng)網(wǎng)絡(luò)方法和機(jī)器學(xué)習(xí)中研究的方法。數(shù)據(jù)挖掘中采用
機(jī)器學(xué)習(xí)的方法有歸納學(xué)習(xí)方法(如覆蓋正例排斥反例方法,如AQ系列算
法、決策樹方法等)、遺傳算法、發(fā)現(xiàn)學(xué)習(xí)算法(如公式發(fā)現(xiàn)系統(tǒng)BACON)等。
利用數(shù)據(jù)挖掘的方法和技術(shù)從數(shù)據(jù)倉(cāng)庫(kù)中挖掘的信息和知識(shí),反映了
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的規(guī)律性。用戶利用這些信息和知識(shí)來指導(dǎo)和幫助決策。
例如,利用分類規(guī)則來預(yù)測(cè)未知實(shí)體的類別。
23:數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析出口里、數(shù)據(jù)挖掘在決策支持方面有什么不
同?
1
答:數(shù)據(jù)倉(cāng)庫(kù)視為輔助決策而建立的,單依靠數(shù)據(jù)倉(cāng)庫(kù)達(dá)到輔助決策
的能力是有限的,綜合信息和預(yù)測(cè)信息是數(shù)據(jù)倉(cāng)庫(kù)所獲得的輔助決策信息。
數(shù)據(jù)倉(cāng)庫(kù)中增加聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘等分析工具,能較大的提高輔助
決策能力。數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理幾數(shù)據(jù)挖掘結(jié)合的決策支持系統(tǒng),是
以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,稱為基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)。概括地說:基
于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)是從數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)中獲取輔助決策信息和
知識(shí),為決策提供支持。
25畫出基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)結(jié)構(gòu)圖。如圖:
28.如何理解商業(yè)智能與基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的區(qū)別于聯(lián)
系?
答:可以認(rèn)為,商業(yè)智能是對(duì)商業(yè)信息的搜集、管理和分析過程,目
的是使企業(yè)的各級(jí)決策者獲得知識(shí)或洞察力(insight),促使他們做出對(duì)企
業(yè)更有利的決策。商業(yè)智能一般由數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、
數(shù)據(jù)備份和恢復(fù)等部分組成。商業(yè)智能的實(shí)現(xiàn)涉及到軟件、硬件、咨詢服
務(wù)及應(yīng)用,其基本體系結(jié)構(gòu)包括數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘三個(gè)
部分。
第二章作業(yè)
1.畫出數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)圖,說明各部分內(nèi)容。P18
答:當(dāng)前基本數(shù)據(jù)是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)用戶最感興趣
的部分?jǐn)?shù)據(jù)量大。隨著時(shí)間的推移,有數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間控制機(jī)制轉(zhuǎn)為歷史
數(shù)據(jù),輕度綜合數(shù)據(jù)是從當(dāng)前基本數(shù)據(jù)中提取出來的,最高一層是高度綜
合數(shù)據(jù)層,這一層的數(shù)據(jù)十分精煉,是一種準(zhǔn)決策數(shù)據(jù)。
2.說明數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)圖中包含輕度綜合層與高度綜合數(shù)據(jù)層的作用。
這些數(shù)據(jù)為什么不是臨時(shí)計(jì)算出來的。P18-19
數(shù)據(jù)倉(cāng)庫(kù)除了存儲(chǔ)按主題組織起來的當(dāng)前詳細(xì)數(shù)據(jù)外,還需要存儲(chǔ)綜
合數(shù)據(jù),這是為了適應(yīng)決策需求而增加的。在數(shù)據(jù)庫(kù)中需要得到綜合數(shù)據(jù)
時(shí),采用數(shù)據(jù)立方體的方法對(duì)詳細(xì)數(shù)據(jù)進(jìn)行綜合。在數(shù)據(jù)倉(cāng)庫(kù)中并不采取
臨時(shí)計(jì)算的方式得到綜合數(shù)據(jù),而在用戶提出需要綜合數(shù)據(jù)之前,就預(yù)先
將可能的綜合數(shù)據(jù)利用數(shù)據(jù)立方體計(jì)算好,存入綜合數(shù)據(jù)層中,這種綜合
數(shù)據(jù)層在用戶查詢時(shí),能迅速提供給用戶。
3.說明數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別和聯(lián)系。P20
6.畫出數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)圖,說明把倉(cāng)庫(kù)管理和分析工具作為數(shù)據(jù)倉(cāng)
庫(kù)系統(tǒng)的兩個(gè)獨(dú)立組成部分的原因。圖:P22原因:
倉(cāng)庫(kù)管理:安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理
和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分
割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲(chǔ)管理。
訪問工具:為用戶訪問數(shù)據(jù)倉(cāng)庫(kù)提供手段
9.畫出數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行結(jié)構(gòu)圖,說明三層C/S結(jié)構(gòu)和兩層C/S結(jié)構(gòu)的
不同點(diǎn)。
二層
2
OLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工作,集中和簡(jiǎn)化了數(shù)據(jù)
倉(cāng)庫(kù)服務(wù)器的部分工作,即OLAP服務(wù)器從數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器中抽取數(shù)據(jù),
在OSP服務(wù)器中轉(zhuǎn)換成客戶端要求的多維視圖,并進(jìn)行多維數(shù)據(jù)分析,
將分析結(jié)果傳送給客戶端,這種結(jié)構(gòu)形式工作效率更高。
11.數(shù)據(jù)模型與數(shù)學(xué)模型有什么區(qū)別?
答:數(shù)據(jù)模型是數(shù)據(jù)特征的抽象,數(shù)據(jù)管理教學(xué)的形式框架,數(shù)據(jù)庫(kù)
系統(tǒng)中用以提高信息表示和操作手段的形勢(shì)構(gòu)架。數(shù)據(jù)模型包括數(shù)據(jù)庫(kù)的
數(shù)據(jù)的結(jié)構(gòu)部分、數(shù)據(jù)庫(kù)數(shù)據(jù)的操作部分和數(shù)據(jù)庫(kù)數(shù)據(jù)的約束條件。數(shù)
學(xué)模型是根據(jù)對(duì)研究對(duì)象所觀察到的現(xiàn)象及實(shí)踐經(jīng)驗(yàn),歸結(jié)成的一套反映
其內(nèi)部因素?cái)?shù)量關(guān)系的數(shù)學(xué)公式、邏輯準(zhǔn)則和具體算法。用以描述和研究
客觀現(xiàn)象的運(yùn)動(dòng)規(guī)律。
15.第三范式數(shù)據(jù)模型與星型模型有什么不同?
第三范式不同于星型模型之處在于,把事實(shí)表和維表的屬性作為一個(gè)
實(shí)體都集中在同一數(shù)據(jù)庫(kù)表中,或分成多個(gè)實(shí)體用多個(gè)表來表示,每個(gè)表
按第三范式組織數(shù)據(jù)。它減少了為表中的鍵和不必要的屬性。
17.簡(jiǎn)單說明ETL過程的主要步驟。
ETL過程的主要步驟概括為:(1)決定數(shù)據(jù)倉(cāng)庫(kù)中需要的所有的目標(biāo)
數(shù)據(jù)(2)決定所有的數(shù)據(jù)源,包括內(nèi)部和外部的數(shù)據(jù)源(3)準(zhǔn)備從源數(shù)
據(jù)到目標(biāo)數(shù)據(jù)的數(shù)據(jù)映射關(guān)系(4)建立全面的數(shù)據(jù)抽取規(guī)則(5)決定數(shù)
據(jù)轉(zhuǎn)換和清洗規(guī)則(6)為綜合表制定計(jì)劃(7)組織數(shù)據(jù)緩沖區(qū)域和檢測(cè)
工具(8)為所有的數(shù)據(jù)裝載編寫規(guī)程(9)維度表的抽取、轉(zhuǎn)換和裝載(10)
事實(shí)表的抽取、轉(zhuǎn)換和裝載
18、說明數(shù)據(jù)抽取工作的內(nèi)容。P28
21.數(shù)據(jù)裝載方式與類型有哪些?
答:數(shù)據(jù)倉(cāng)庫(kù)中最基本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)字典。由
于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有很大的不同,因此元數(shù)據(jù)的作用遠(yuǎn)不是數(shù)據(jù)字典所
能相比的。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中有著舉足輕重的作用,它不僅僅定義了數(shù)
據(jù)倉(cāng)庫(kù)有什么,指明了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取
和轉(zhuǎn)換規(guī)則,存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)
的運(yùn)行都是基于元數(shù)據(jù)的,如數(shù)據(jù)的修改,跟蹤,抽取,裝入,綜合等。
23.什么是關(guān)于數(shù)據(jù)源的元數(shù)據(jù)?
答:關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)以及數(shù)據(jù)之
間的關(guān)系,是用戶管理數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。這種元數(shù)據(jù)可以支持從數(shù)據(jù)倉(cāng)庫(kù)
中獲取數(shù)據(jù)。用戶可以提出需要哪些表,系統(tǒng)從中選一個(gè)表,并得到表之
間的關(guān)系。重復(fù)該過程,用戶希望能夠得到希望的數(shù)據(jù)。
24.什么是關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)?
答:關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)以及數(shù)據(jù)間
的關(guān)系,支持用戶從數(shù)據(jù)倉(cāng)庫(kù)中獲取數(shù)據(jù)。
25.什么是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)?
答:關(guān)于數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù),反映了數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)之間
的映射,以及數(shù)據(jù)項(xiàng)是從哪個(gè)特定的數(shù)據(jù)源抽取的,經(jīng)過了哪些轉(zhuǎn)換、變
換和裝載。
第三章作業(yè)
1.聯(lián)機(jī)分析處理(OLAP)的簡(jiǎn)單定義是什么?它體現(xiàn)的特征是什么。
P40
2.OLAP準(zhǔn)則中的主要準(zhǔn)則有哪些?P41
3.什么是維?關(guān)系數(shù)據(jù)庫(kù)是二維數(shù)據(jù)嗎?如何理解多維數(shù)據(jù)?P43
維是人們觀察數(shù)據(jù)的特定角度。關(guān)系數(shù)據(jù)庫(kù)不是二維數(shù)據(jù),只是通過
二維關(guān)系表示了數(shù)據(jù)的多維概念。多維數(shù)據(jù)就是從多個(gè)特定角度來觀察特
定的變量。
4.MDDB(MultiDimensionalDatabase,多維數(shù)據(jù)庫(kù))是以多維的方式
組織數(shù)據(jù),即以維作為坐標(biāo)系,采用類似于數(shù)組的形式存儲(chǔ)數(shù)據(jù)。RDBMS
(relationaldatabasemanagementsystem,關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng))通過數(shù)
據(jù)、關(guān)系和對(duì)數(shù)據(jù)的約束三者組成的數(shù)據(jù)模型來存放和管理數(shù)據(jù)
MDDB特點(diǎn):
1.數(shù)據(jù)庫(kù)中的元素具有相同的數(shù)值
2.多維數(shù)據(jù)庫(kù)表達(dá)清晰,3.占用存儲(chǔ)少
RDBMS的特點(diǎn):
1.數(shù)據(jù)以表格的形式出現(xiàn)
2.每行為各種記錄名稱
3
3.每列為記錄名稱所對(duì)應(yīng)的數(shù)據(jù)域
4.許多的行和列組成一張表單
5.若干的表單組成database
5.1.數(shù)據(jù)存取速度
ROLAP服務(wù)器需要將SQL語句轉(zhuǎn)化為多維存儲(chǔ)語句,臨時(shí)“拼合”出
多維數(shù)據(jù)立方體。因此,ROLAP的響應(yīng)時(shí)間較長(zhǎng)。MOLAP在數(shù)據(jù)存儲(chǔ)速度
上性能好,響應(yīng)速度快。
2.數(shù)據(jù)存儲(chǔ)的容量
ROLAP使用的傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)方法,在存儲(chǔ)容量上基本沒有限
制。
MOLAP通常采用多平面疊加成立體的方式存放數(shù)據(jù)。當(dāng)數(shù)據(jù)量超過操
作系統(tǒng)最大文件長(zhǎng)度時(shí);需要進(jìn)行數(shù)據(jù)分割。多維數(shù)據(jù)庫(kù)的數(shù)據(jù)量級(jí)難以
達(dá)到太大的字節(jié)級(jí)。
3.多維計(jì)算的能力
MOLAP能夠支持高性能的決策支持計(jì)算。ROLAP無法完成多行的計(jì)算
和維之間的計(jì)算。
4.維度變化的適應(yīng)性
MOLAP增加新的維度,則多維數(shù)據(jù)庫(kù)通常需要重新建立。ROLAP對(duì)于
維表的變更有很好的適應(yīng)性。
5.數(shù)據(jù)變化的適應(yīng)性
當(dāng)數(shù)據(jù)頻繁的變化時(shí),MOLAP需要進(jìn)行大量的重新計(jì)算,甚至重新建
立索引乃至重構(gòu)多維數(shù)據(jù)庫(kù)。在ROLAP中靈活性較好,對(duì)于數(shù)據(jù)變化的適
應(yīng)性高。
6.軟硬件平臺(tái)的適應(yīng)性
ROLAP對(duì)軟硬件平臺(tái)的適應(yīng)性很好,而MOLAP相對(duì)較差。
7?元數(shù)據(jù)管理
目前在元數(shù)據(jù)的管理,MOLAP和ROLAP都沒有成形的標(biāo)準(zhǔn)。
6.在HOLAP中,對(duì)最常用的維度和維層次,使用多維數(shù)據(jù)表來存儲(chǔ),
對(duì)于用戶不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來存儲(chǔ)。
7.多維數(shù)據(jù)顯示的兩種方法:關(guān)系數(shù)據(jù)庫(kù)方式和多維數(shù)據(jù)庫(kù)方式。
關(guān)系數(shù)據(jù)庫(kù)可以顯示更多維的數(shù)據(jù),但用事實(shí)表顯示多維數(shù)據(jù)時(shí),重
復(fù)數(shù)據(jù)很多,也很繁瑣;多維數(shù)據(jù)庫(kù)雖然不能同時(shí)顯示三維以上數(shù)據(jù),但
顯示的數(shù)據(jù)很精煉。
11、多維數(shù)據(jù)顯示的經(jīng)驗(yàn)規(guī)則是什么?
答:多維數(shù)據(jù)的顯示只能在平面上展現(xiàn)出來,用多維數(shù)據(jù)庫(kù)顯示時(shí),
不能同時(shí)顯示三維以上數(shù)據(jù),但可以固定一些維成員,重點(diǎn)顯示兩維維數(shù)
據(jù)。最有效表示多維數(shù)據(jù)使用多維類型結(jié)構(gòu)(MTS),即每一維用一條線段
表示,維度中每一個(gè)成員都用線段上的一個(gè)區(qū)間表示。還可以使用行、列
和頁表三個(gè)顯示組來表示。
經(jīng)驗(yàn)規(guī)則:
1.
2.
3.將維度盡量放在頁中,除非確定需要同時(shí)看到一個(gè)維度的多個(gè)成員;
當(dāng)維度嵌套在行貨列中時(shí)、考慮到垂直空間比水平空間更有用,所以講維
度嵌套在列中比嵌套在行中要好;在決定數(shù)據(jù)的屏幕顯示方式前,應(yīng)首
先弄清楚需要查找和分析比較的內(nèi)容;
12、舉例說明OLAP的多維數(shù)據(jù)分析的切片操作。
答:切片就是在某兩個(gè)維上取一定區(qū)間的維成員或全部維成員。
如用三維數(shù)組表示為(地區(qū),時(shí)間,產(chǎn)品,銷售額),如果在地區(qū)維
度上選定一個(gè)維成員,就可以得到在該地區(qū)的一個(gè)切片(關(guān)于時(shí)間和產(chǎn)品
的切片)。
13比如部門銷售數(shù)據(jù)表中部門1的銷售額為900元,對(duì)時(shí)間維進(jìn)行下
鉆操作,可以得到各個(gè)季度分別的銷售額為多少。
14
(1)切片:切片就是在某兩個(gè)維上取一定區(qū)間的為成員或全部維成
員,而在其余的維上選定一個(gè)維成員的操作。切片的作用就是
舍棄一些觀察角度,使人們能在兩個(gè)維上集中觀察數(shù)據(jù)。
(2)切塊:切塊分兩種情況:(1)在多維數(shù)據(jù)的某一個(gè)維上選定某
一區(qū)間的維成員的操作。(2)選定多維數(shù)組的一個(gè)三維子集的
操作。切塊可以看成是在切片的基礎(chǔ)上確定某一個(gè)維成員的區(qū)間得到
的片段,也即由多個(gè)切片疊合起來的。
(3)鉆?。合蛳裸@取是使用戶在多層數(shù)據(jù)中能通過導(dǎo)航信息而獲得
更多的細(xì)節(jié)性數(shù)據(jù),向上鉆取獲取概括性信息。
(4)旋轉(zhuǎn):通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù),旋轉(zhuǎn)操作相當(dāng)于平
面數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)。
15、廣義OLAP功能如何提高多維數(shù)據(jù)分析能力。
廣義OLAP功能主要是通過四個(gè)模型逐層深入從而提高多維數(shù)據(jù)分析
能力。這四個(gè)模型分別是:
4
(1)絕對(duì)模型:它屬于靜態(tài)數(shù)據(jù)分析,通過比較歷史數(shù)據(jù)值或行為來描
述過去發(fā)生的事實(shí)。該模型查詢比較簡(jiǎn)單,綜合路徑是預(yù)先定義好的,用
戶交互少。
(2)解釋模型:它也屬于靜態(tài)數(shù)據(jù)分析,分析人員利用系統(tǒng)已有的多層
次的綜合路徑層層細(xì)化,找出事實(shí)發(fā)生的原因。
⑶思考模型:它屬于動(dòng)態(tài)數(shù)據(jù)分析,旨在說明在一維或多維上引入一組
具體變量或參數(shù)后將會(huì)發(fā)生什么。分析人員在引入確定的變量或公式關(guān)系
時(shí),必須創(chuàng)建大量的綜合路徑。
(4)公式模型:它的動(dòng)態(tài)數(shù)據(jù)分析能力更高,該模型表示在多個(gè)維上,需
要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。
16、說明數(shù)據(jù)立方體的概念
數(shù)據(jù)立方體的概念是1996年,JimGray等首次提出的。數(shù)據(jù)立方體是
實(shí)現(xiàn)多維數(shù)據(jù)查詢與分析的一種重要手段。實(shí)質(zhì)上,數(shù)據(jù)立方體就是數(shù)據(jù)
倉(cāng)庫(kù)結(jié)構(gòu)圖中的綜合數(shù)據(jù)層。從此,基于數(shù)據(jù)立方體的生成方法一直是
OLAP和數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域研究者所關(guān)注的熱點(diǎn)問題。
多數(shù)據(jù)集的屬性分為維屬性和度量屬性。維數(shù)性是觀察數(shù)據(jù)對(duì)象的角
度,而度量屬相則反映數(shù)據(jù)對(duì)象的特征。對(duì)于多維數(shù)據(jù)分析而言,本質(zhì)上
是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過程。在數(shù)據(jù)立方體中,不同維度組合
構(gòu)成了不同的子立方體,不同維值的組合機(jī)器對(duì)應(yīng)的度量值構(gòu)成相應(yīng)的對(duì)
于不同的查詢和分析。因此,數(shù)據(jù)立方體的構(gòu)建和維護(hù)等計(jì)算方法成為了
多維數(shù)據(jù)分析研究的關(guān)鍵問題。
17答:OLAP的邏輯結(jié)構(gòu)由OLAP視圖和數(shù)據(jù)存儲(chǔ)兩部分組成。OLAP
視圖:對(duì)于用戶來說它是數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中數(shù)據(jù)的多維邏輯表示,不
管數(shù)據(jù)怎么存儲(chǔ)和存儲(chǔ)在何處。數(shù)據(jù)存儲(chǔ):要求選擇數(shù)據(jù)實(shí)際存儲(chǔ)方式和
實(shí)際存儲(chǔ)位置,兩種常用的選擇是多維數(shù)據(jù)存儲(chǔ)和關(guān)系數(shù)據(jù)存儲(chǔ)。
18答:OLAP的物理結(jié)構(gòu)包括基于數(shù)據(jù)存儲(chǔ)的兩種方式:多維數(shù)據(jù)存
儲(chǔ)和關(guān)系數(shù)據(jù)存儲(chǔ)。多維數(shù)據(jù)存儲(chǔ)主要有兩種選擇:多維數(shù)據(jù)存儲(chǔ)于客戶
端或。LAP服務(wù)器。在第一種情況,多維數(shù)據(jù)存儲(chǔ)于客戶端,數(shù)據(jù)分析也
在客戶端,這樣形成了“胖”客戶端,這是一種兩層客戶/服務(wù)器的物理結(jié)
構(gòu)。在第二種情況,多維數(shù)據(jù)存儲(chǔ)放在OLAP服務(wù)器中,抽取數(shù)據(jù)倉(cāng)庫(kù)中
的數(shù)據(jù),然后將其轉(zhuǎn)換成多維數(shù)據(jù)結(jié)構(gòu),并把OLAP服務(wù)器傳給客戶端,
這時(shí)客戶端就變成了“瘦”客戶端,這是一種經(jīng)典的三層客戶/服務(wù)器物理
結(jié)構(gòu)。
19.說明濃縮立方體的壓縮方法和效果。
答:濃縮立方體計(jì)算方法的基本原理是,在某些屬性或組合下的一個(gè)
元組相對(duì)于其他元組具有唯一性,則稱為基本單一組(BST),當(dāng)它的超集也
是BST,且都是取同一度量值,在聚集運(yùn)算時(shí),可以把這些屬性的度量值
對(duì)應(yīng)的元組壓縮成一條元組存儲(chǔ)。
一般來說,濃縮立方體的壓縮率可以達(dá)到30%-70%。
20.多維數(shù)據(jù)分析的MDX語言與數(shù)據(jù)庫(kù)的SQL語言有什么不同?
答:MDX語言結(jié)合了多維數(shù)據(jù)集,指定“維度”(ON子句)和“創(chuàng)建表
達(dá)式計(jì)算的新成員”(MEMBER子句),這樣就可以來從多維數(shù)據(jù)集中挖掘
出指定的數(shù)據(jù)。21MDX提供的函數(shù)children來完成這個(gè)操作。Children函
數(shù)返回一個(gè)自然排序的集,該集包含指定成員的子成員。如果指定的成
員沒有子成員,則此函數(shù)返回一個(gè)空集。
示例
下例將返回Geography維度中Geography層次結(jié)構(gòu)的UnitedStates
成員的子成員。
SELECT[Geography],[Geography].[Country],&[United
States],ChildrenON0
FROM[AdventureWorks]
第四章作業(yè)
1.數(shù)據(jù)倉(cāng)庫(kù)的需求分析的任務(wù)是什么?P67
需求分析的任務(wù)是通過詳細(xì)調(diào)查現(xiàn)實(shí)世界要處理的對(duì)象(企業(yè)、部門
用戶等),充分了解源系統(tǒng)工作概況,明確用戶的各種需求,為設(shè)計(jì)數(shù)據(jù)
倉(cāng)庫(kù)服務(wù)。概括地說,需求分析要明確用那些數(shù)據(jù)經(jīng)過分析來實(shí)現(xiàn)用戶的
決策支持需求。
2.數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)需要確定的問題有哪些?P67
3.實(shí)現(xiàn)決策支持所需要的數(shù)據(jù)包括哪些內(nèi)容?P68
(1)源數(shù)據(jù)(2)數(shù)據(jù)轉(zhuǎn)換(3)數(shù)據(jù)存儲(chǔ)(4)決策分析
4.概念:將需求分析過程中得到的用戶需求抽象為計(jì)算機(jī)表示的信
息結(jié)構(gòu),叫做概念模型。
特點(diǎn):(1)能真實(shí)反映現(xiàn)實(shí)世界,能滿足用戶對(duì)數(shù)據(jù)的分析,達(dá)到?jīng)Q
策支持的要求,它是現(xiàn)實(shí)世界的一個(gè)真實(shí)模型。
(2)易于理解,便利和用戶交換意見,在用戶的參與下,能有效地
完成對(duì)數(shù)據(jù)倉(cāng)庫(kù)的成功設(shè)計(jì)。
(3)易于更改,當(dāng)用戶需求發(fā)生變化時(shí),容易對(duì)概念模型修改和擴(kuò)
充。
(4)易于向數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。
5.用長(zhǎng)方形表示實(shí)體,在數(shù)據(jù)倉(cāng)庫(kù)中就表示主題,橢圓形表示主題
的屬性,并用無向邊把主題與其屬性連接起來;
用菱形表示主題之間的聯(lián)系,用無向邊把菱形分別與有關(guān)的主題連接;
若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無向邊連接上。
5
6.數(shù)據(jù)庫(kù)的概念模型設(shè)計(jì)主要采用E-R概念模型的設(shè)計(jì)方法。
數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)主要采用E-R概念模型和面向?qū)ο蟮姆治龇?/p>
法。
7.圖4.1所示的概念模型:商品和客戶是兩個(gè)主題,商品的銷售信息
等同于客戶的購(gòu)物信息,而每個(gè)商品具有本身的商品固有信息和商品號(hào),
還有就是商品的庫(kù)存信息;客戶具有自己的固有信息,還有就是客戶號(hào)。
8.邏輯模型:計(jì)算機(jī)所支持的有E-R圖轉(zhuǎn)換成的數(shù)據(jù)模型,數(shù)據(jù)的邏
輯結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型:星型模型
9.數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型:用來構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)邏輯模型。
在數(shù)據(jù)庫(kù)中,邏輯模型有關(guān)系、網(wǎng)狀、層次,可以清晰的表示各個(gè)關(guān)
系。
10.舉例說明從數(shù)據(jù)倉(cāng)庫(kù)的概念模型到邏輯模型的轉(zhuǎn)換?
概念模型是對(duì)每個(gè)決策與屬性及主體之間的關(guān)系用E-R圖來表示的,
E-R圖能有效的將現(xiàn)實(shí)的世界表示成信息世界,他利于向計(jì)算機(jī)的表示形
式進(jìn)行轉(zhuǎn)化。而邏輯模型設(shè)計(jì)是需求分析主題域,將概念模型E-R圖轉(zhuǎn)化
為邏輯模型,即計(jì)算機(jī)表示的數(shù)據(jù)模型,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型一般采用星
型模型。例如概念模型設(shè)計(jì)時(shí),確定了商品和客戶兩個(gè)主題。其中商品
對(duì)于商場(chǎng)來說是更基本的業(yè)務(wù)對(duì)象,商品的業(yè)務(wù)有銷售、采購(gòu)、庫(kù)存。其
中商品銷售時(shí)最重要的業(yè)務(wù)。它是進(jìn)行決策分析的重要方面。星型模型的
設(shè)計(jì)如下:
確定決策分析需求,數(shù)據(jù)倉(cāng)庫(kù)是面向決策分析的,決策需求是建立多
維數(shù)據(jù)模型的依據(jù)。例如分析銷售額趨勢(shì),對(duì)商品的銷售量,促銷手段對(duì)
銷售的影響。
從需求中識(shí)別出事實(shí),從決策主題確定的情況下,選擇或設(shè)計(jì)反映決
策主體業(yè)務(wù)表。例如在商品主題中,以銷售數(shù)據(jù)為事實(shí)表。確定維,確
定影響事實(shí)的各種因素,對(duì)銷售業(yè)務(wù)的維一般的包括商店,地區(qū),部門,
城市,時(shí)間,商品等。
確定數(shù)據(jù)匯總的水平,存在于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)包括匯總的數(shù)據(jù)。數(shù)
據(jù)倉(cāng)庫(kù)中對(duì)數(shù)據(jù)不同粒度的綜合形成了多層次的數(shù)據(jù)結(jié)構(gòu)。例如對(duì)于時(shí)
間維,可以用年月日不同水平進(jìn)行匯總。
設(shè)計(jì)事實(shí)表和維表,設(shè)計(jì)事實(shí)表和維表的屬性,再事實(shí)表中應(yīng)該記錄
哪些屬性是有維表的數(shù)量來決定的,一般來說,與事實(shí)表相關(guān)的維表的數(shù)
量應(yīng)該適中,太少的維表會(huì)影響查詢的質(zhì)量,用戶得不到需要的數(shù)據(jù),太
多的數(shù)據(jù)會(huì)影響查詢的速度。
11.在數(shù)據(jù)倉(cāng)庫(kù)中為什么考慮數(shù)據(jù)的粒度層次劃分?
答:所謂的粒度是指數(shù)據(jù)倉(cāng)庫(kù)宗數(shù)據(jù)單元的詳細(xì)程度和級(jí)別,數(shù)據(jù)
越詳細(xì),粒度越小,層次級(jí)別九月低;數(shù)據(jù)綜合度越高,粒度越大,層次
級(jí)別就越高。在傳統(tǒng)事務(wù)處理系統(tǒng)中,對(duì)數(shù)據(jù)的處理,操作都是再詳細(xì)數(shù)
據(jù)級(jí)別上的,即最低的粒度。但是數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中主要是分析處理,粒度
的劃分鍵直接影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量以及所適合的查詢類型。一般需要將
數(shù)據(jù)劃分為詳細(xì)數(shù)據(jù),輕度綜合,高度綜合三級(jí)或更多及粒度。不同粒度
級(jí)別的數(shù)據(jù)用于不同類型的分析處理。力度的劃分是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工作的
一項(xiàng)重要內(nèi)容,粒度劃分是否適當(dāng)影響數(shù)據(jù)倉(cāng)庫(kù)性能的一個(gè)重要方面。
12.數(shù)據(jù)倉(cāng)庫(kù)的記錄系統(tǒng)包括什么內(nèi)容,舉例說明?
答:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來源與多個(gè)已經(jīng)存在的事務(wù)處理系統(tǒng)外部系統(tǒng),
由于各個(gè)原系統(tǒng)的數(shù)據(jù)是面向應(yīng)用的,不能完整地描述企業(yè)中的主題域,
并且多個(gè)數(shù)據(jù)源的數(shù)據(jù)存在者許多不一致,因此要從數(shù)據(jù)倉(cāng)庫(kù)的概念模型
出發(fā),結(jié)合主題的多個(gè)表的關(guān)系模式,需要確定現(xiàn)有系統(tǒng)的哪些數(shù)據(jù)能較
好地適應(yīng)數(shù)據(jù)的需求。這就要求選擇最完整的、最及時(shí)的、最準(zhǔn)確的、最
接近外部實(shí)體源的數(shù)據(jù)作為記錄系統(tǒng),同時(shí)這些數(shù)據(jù)所在的表的關(guān)系模式
接近于構(gòu)成主體的多個(gè)標(biāo)的關(guān)系模式。記錄系統(tǒng)的定義要記入數(shù)據(jù)倉(cāng)庫(kù)的
元數(shù)據(jù)。
13、什么是物理模型?數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)包括哪些工作?
答:物理模型就是邏輯模型在計(jì)算機(jī)中的物理結(jié)構(gòu),其中包括存儲(chǔ)結(jié)
構(gòu)和存取方法;數(shù)據(jù)倉(cāng)庫(kù)的物理模型設(shè)計(jì)的工作包括:估計(jì)存儲(chǔ)容量、確
定數(shù)據(jù)的存儲(chǔ)計(jì)劃、確定索引策略、確定數(shù)據(jù)存放位置和確定存儲(chǔ)分配。
14、為什么數(shù)據(jù)倉(cāng)庫(kù)物理模型設(shè)計(jì)中要建立匯總計(jì)劃和確定數(shù)據(jù)分區(qū)
方案?
答:如果數(shù)據(jù)倉(cāng)庫(kù)只存儲(chǔ)最小粒度的數(shù)據(jù),每次查詢遍歷所有的明細(xì)
記錄,然后生成匯總信息,這會(huì)造成很大的開銷,因此要建立匯總計(jì)劃;
分區(qū)可以將表分解成易于管理的小表,對(duì)事實(shí)表的分區(qū)醫(yī)保采用垂直
分區(qū)或水平分區(qū),這樣使得大表被分成小表,因此要建立分區(qū)方案。
16.概念模型:E-R圖;邏輯模型:星型模型
物理模型:存儲(chǔ)結(jié)構(gòu)、索引、數(shù)據(jù)存放位置、存儲(chǔ)分配。
17.(1)位索引技術(shù):①Bit-Wise索引技術(shù);②B-Tree索引技術(shù)
(2)表示技術(shù)
(3)廣義索引
18.答:1、B-Tree只適合于高基數(shù)字段,但對(duì)于低基數(shù)字段毫無價(jià)值。
2、B-Tree索引需占一定的空間和時(shí)間,增加了在數(shù)據(jù)倉(cāng)庫(kù)中構(gòu)造和維
護(hù)索引的代價(jià)。
6
3、數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中常常是復(fù)雜的查詢,并經(jīng)常帶有分組及聚合條件,
此時(shí)B-Tree索引往往無能為力。
19、數(shù)據(jù)倉(cāng)庫(kù)中采用標(biāo)識(shí)技術(shù)有什么好處。
答:使用標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)技術(shù)來儲(chǔ)存數(shù)據(jù)倉(cāng)庫(kù)是非常昂貴的。較好的替
代方法是用基于標(biāo)識(shí)的技術(shù)來儲(chǔ)存數(shù)據(jù)倉(cāng)庫(kù)。
一旦將基于標(biāo)識(shí)的數(shù)據(jù)庫(kù)存放在內(nèi)存中,處理速度會(huì)得到很大的提高。
數(shù)據(jù)越多,標(biāo)識(shí)數(shù)據(jù)比標(biāo)準(zhǔn)的、基于記錄的數(shù)據(jù)更有利。
因?yàn)閿?shù)據(jù)被大量壓縮,所以整個(gè)數(shù)據(jù)庫(kù)可以存放在內(nèi)存中。
可以索引所有的行和所有的列。
21、說明數(shù)據(jù)倉(cāng)庫(kù)開發(fā)的四個(gè)階段和12個(gè)步驟
答:如下圖所示發(fā):分為分析設(shè)計(jì)階段;數(shù)據(jù)獲取階段;決策支持階
段;維護(hù)與評(píng)估階段。
22.數(shù)據(jù)獲取階段包括數(shù)據(jù)抽取,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)裝載3個(gè)步驟。數(shù)
據(jù)抽?。簲?shù)據(jù)抽取主要進(jìn)行數(shù)據(jù)源的確認(rèn),確定數(shù)據(jù)抽取技術(shù),確認(rèn)數(shù)據(jù)
抽取頻率,按照時(shí)間要求抽取數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)抽取得到的數(shù)據(jù)不能
直接存入數(shù)據(jù)倉(cāng)庫(kù)的。數(shù)據(jù)轉(zhuǎn)換工作包括:數(shù)據(jù)格式的修改,字段的解碼,
單個(gè)字段的分離,信息的合并,變量單位的轉(zhuǎn)化,時(shí)間的轉(zhuǎn)化,數(shù)據(jù)匯總
等。數(shù)據(jù)裝載:數(shù)據(jù)裝載包括初始裝載,增量裝載,完全刷新。
23.數(shù)據(jù)倉(cāng)庫(kù)的簡(jiǎn)歷就是要達(dá)到?jīng)Q策支持的目的。決策支持階段包括
信息查詢和知識(shí)探索兩個(gè)步驟。信息查詢:信息查詢者使用數(shù)據(jù)倉(cāng)庫(kù)發(fā)現(xiàn)
目前存在的問題。為適應(yīng)信息查詢者的要求,數(shù)據(jù)倉(cāng)庫(kù)一般采用如下的方
法提高信息查詢效率:創(chuàng)建數(shù)據(jù)陳列,預(yù)連接表格,預(yù)聚集數(shù)據(jù),聚類數(shù)
據(jù)。知識(shí)探索:只是探索者使用數(shù)據(jù)倉(cāng)庫(kù)能對(duì)發(fā)現(xiàn)的問題找出原因。
24.維護(hù)與評(píng)估階段包括數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng),數(shù)據(jù)倉(cāng)庫(kù)維護(hù),數(shù)據(jù)倉(cāng)庫(kù)評(píng)
價(jià)。數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng):數(shù)據(jù)倉(cāng)庫(kù)建立以后,隨著數(shù)據(jù)用戶的不斷增加,時(shí)間
的曾增長(zhǎng),用戶查詢需求更多,數(shù)據(jù)會(huì)迅速增長(zhǎng)。數(shù)據(jù)倉(cāng)庫(kù)維護(hù):數(shù)據(jù)倉(cāng)
庫(kù)維護(hù)包括適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)增長(zhǎng)的維護(hù)和正常系統(tǒng)維護(hù)兩類。數(shù)據(jù)倉(cāng)庫(kù)評(píng)估:
數(shù)據(jù)倉(cāng)庫(kù)評(píng)估包括系統(tǒng)性能評(píng)定,投資回報(bào)分析,數(shù)據(jù)質(zhì)量評(píng)估。
25.概括說明“概念模型、邏輯模型、物理模型”分別是什么樣的數(shù)據(jù)
模型?
答:將需求分析過程中得到的用戶需求抽象為計(jì)算機(jī)表示的信息結(jié)構(gòu),
即概念模型。邏輯模型是由概念模型進(jìn)一步轉(zhuǎn)化成計(jì)算機(jī)支持的數(shù)據(jù)模型。
物理模型是邏輯模型設(shè)計(jì)的數(shù)據(jù)模型適應(yīng)應(yīng)用要求在計(jì)算機(jī)中的存儲(chǔ)結(jié)
構(gòu)和存取方法。
28.當(dāng)有一個(gè)或多個(gè)維表沒有直接連接到事實(shí)表上,而是通過其他維
表連接到事實(shí)表上時(shí);其圖解就像多個(gè)雪花連接在一起,故稱雪花模型。
雪花模型是對(duì)星型模型的擴(kuò)展。它對(duì)星型模型的維表進(jìn)一步層次化,原有
的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的"層次"區(qū)域,這些
被分解的表都連接到主維度表而不是事實(shí)表。
管理大量數(shù)據(jù),數(shù)據(jù)的高效裝入和數(shù)據(jù)壓縮,存儲(chǔ)介質(zhì)的管理,元數(shù)
據(jù)的管理,數(shù)據(jù)倉(cāng)庫(kù)語言,高效索引,多維數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)管理
第五章作業(yè)
1.數(shù)據(jù)倉(cāng)庫(kù)的兩類用戶有什么本質(zhì)的不同?P96
數(shù)據(jù)倉(cāng)庫(kù)的用戶有兩類:信息使用者和探索者。
信息使用者是使用數(shù)據(jù)倉(cāng)庫(kù)的大量用戶,信息使用者以一種可以預(yù)測(cè)
的、重復(fù)性的方式使用數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)。探索者完全不同于信息使用者,他
們有一個(gè)完全不可預(yù)測(cè)的、非重復(fù)性的數(shù)據(jù)使用模式。
2.數(shù)據(jù)倉(cāng)庫(kù)的信息使用者與數(shù)據(jù)庫(kù)的信息使用者有什么不同?
數(shù)據(jù)庫(kù)的信息使用者主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)
庫(kù)的信息使用者關(guān)心企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到
目前的各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨
勢(shì)做出定量分析和預(yù)測(cè)。
3.1非規(guī)格化
規(guī)范化的作用是產(chǎn)生一種完全沒有數(shù)據(jù)冗余的設(shè)計(jì)方法。
7
但是,有時(shí)在數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中引入一些有限的數(shù)據(jù)冗余來提高數(shù)據(jù)訪
問效果。
2創(chuàng)建數(shù)據(jù)陣列
創(chuàng)建數(shù)據(jù)陣列,將相關(guān)類型的數(shù)據(jù)(如:1月、2月、3月等月份中的
數(shù)據(jù))存儲(chǔ)在一起,提高訪問效果。
3預(yù)連接表格
一個(gè)公用鍵和共同使用的數(shù)據(jù)將表格合并在一起。
共享一個(gè)公用鍵,可以將多個(gè)表格合并到一個(gè)物理表格中。這樣做可
以很大程度的提高數(shù)據(jù)訪問效率。
4預(yù)聚集數(shù)據(jù)
根據(jù)“滾動(dòng)概括”結(jié)構(gòu)來組織數(shù)據(jù)。
當(dāng)數(shù)據(jù)被輸入到數(shù)據(jù)倉(cāng)庫(kù)中時(shí)、以每小時(shí)為基礎(chǔ)存儲(chǔ)數(shù)據(jù)。在這一天
結(jié)束時(shí),以每天為基礎(chǔ)存儲(chǔ)累加每小時(shí)的數(shù)據(jù)。在一周結(jié)束時(shí),以每周為
基礎(chǔ)存儲(chǔ)累加每天的數(shù)據(jù)。月末時(shí),則以每月為基礎(chǔ)存儲(chǔ)累加每周的數(shù)據(jù)。
5聚類數(shù)據(jù)
將不同類型的數(shù)據(jù)記錄放置在相同的物理位置。這為用戶查看這些記
錄,可以在同一地點(diǎn)找到它們,提高查詢效率。
6壓縮數(shù)據(jù)
壓縮可以使可讀取的數(shù)據(jù)量極大。
定期凈化數(shù)據(jù)
定期刪除數(shù)據(jù)倉(cāng)庫(kù)中不需要的數(shù)據(jù),可以為每個(gè)用戶提高性能。
7合并查詢
如果查詢定期發(fā)生,那么可以通過把這些查詢合并到同一個(gè)表格中,
從而節(jié)省大量資源。
4.增加一些數(shù)據(jù)冗余,相當(dāng)于增加了某些相同的數(shù)據(jù),這些數(shù)據(jù)往
往是我們很需要的或者是經(jīng)常被使用的,由于這些數(shù)據(jù)所占總量的比例增
加,所以被訪問的概率增加,從而減少了查詢時(shí)間,提高了查詢速度。
5.聚類數(shù)據(jù):基于產(chǎn)生共同信息,將不同類型的數(shù)據(jù)記錄放置在相
同的物理位置。
聚集數(shù)據(jù):即概括數(shù)據(jù),相同的商業(yè)維度和指標(biāo)存儲(chǔ)數(shù)據(jù)。
6.合并查詢:把定期的一些查詢合并到同一個(gè)表格中,來節(jié)省大量
資源,達(dá)到掃描數(shù)據(jù)倉(cāng)庫(kù)表格的次數(shù)最小化。
7.探索者所作的工作有哪些?
答:探索者查看治療和歷史記錄,在多數(shù)情況下,探索者考慮數(shù)據(jù)不
同類型和數(shù)據(jù)具值之間的關(guān)系。探索者要做的工作概括分析,抽取、建模
和分類。
8.數(shù)據(jù)倉(cāng)庫(kù)的探索者的工作與數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘者的工作有什么不
同?
答:數(shù)據(jù)倉(cāng)庫(kù)的探索者是尋找不平常的且有用的商業(yè)運(yùn)作模型的用戶
群,探索者查看詳細(xì)的資料和歷史記錄,他們要做的的工作有概括分析、
抽取、建模和分類;
而數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘者是那些對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)做出歸納和分析的專
業(yè)人士,他們從數(shù)據(jù)庫(kù)的數(shù)據(jù)中提煉出有用的信息和一些數(shù)據(jù)的客觀規(guī)律。
9.說明企業(yè)需要哪些戰(zhàn)略信息與實(shí)現(xiàn)方法。
答:企業(yè)需要的戰(zhàn)略信息有:銷量最好的產(chǎn)品名單、出現(xiàn)問題的地區(qū)、
查找出現(xiàn)問題的原因、對(duì)比其他的數(shù)據(jù)(橫向鉆?。@示最大利潤(rùn)以及
一些警告信息。
實(shí)現(xiàn)方法有:查詢與報(bào)表決策支持、多維分析和原因分析和預(yù)測(cè)未來。
11.數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是面向主題設(shè)計(jì)的。
數(shù)據(jù)庫(kù)一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的一般是歷史數(shù)據(jù)。
數(shù)據(jù)庫(kù)是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是為分析數(shù)據(jù)而設(shè)計(jì),它的兩
個(gè)基本的元素是維表和事實(shí)表。
12.說明如何利用數(shù)據(jù)倉(cāng)庫(kù)發(fā)現(xiàn)問題并找出產(chǎn)生問題的原因
答:主要是通過三個(gè)步驟來完成的:概括分析,抽取,建模。
概括分析是第一步。分析數(shù)據(jù)的完整性和準(zhǔn)確性。抽取是通過概括分
析,所學(xué)數(shù)據(jù)的輪廓已經(jīng)基本顯示出來。數(shù)據(jù)抽取就是將數(shù)據(jù)倉(cāng)庫(kù)中抽取
制定的數(shù)據(jù)并組織起來,進(jìn)一步分析而不影響數(shù)據(jù)倉(cāng)庫(kù)的正常工作。最后
一步是建模,通過以上兩步的得到的數(shù)據(jù)信息進(jìn)行建模從而進(jìn)一步分析數(shù)
據(jù),達(dá)到發(fā)現(xiàn)問題及其問題的原因。
13.說明如何利用數(shù)據(jù)倉(cāng)庫(kù)來進(jìn)行預(yù)測(cè)
答:就是建立相應(yīng)的預(yù)測(cè)模型,利用歷史數(shù)據(jù)建立回歸方程。一般的
預(yù)測(cè)模型有多元回歸模型、三次平滑預(yù)測(cè)模型、生長(zhǎng)曲線預(yù)測(cè)模型。除了
預(yù)測(cè)模型外,采用聚類模型或分類模型也能達(dá)到一定的預(yù)測(cè)效果。
14.臟數(shù)據(jù)是指在數(shù)據(jù)源中抽取、轉(zhuǎn)換和裝載到數(shù)據(jù)倉(cāng)庫(kù)的過程中出現(xiàn)
的多余數(shù)據(jù)和無用數(shù)據(jù)。產(chǎn)生臟數(shù)據(jù)的途徑:1,開始時(shí)定義了一些
8
多余的數(shù)據(jù)或由于一些不合適的轉(zhuǎn)換規(guī)則在轉(zhuǎn)換過程中產(chǎn)生的無用
數(shù)據(jù)。2,來自不同數(shù)據(jù)源的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)編碼、數(shù)據(jù)定義等方
面是不兼容的,在集成這些數(shù)據(jù)時(shí),未對(duì)所有不同情況的數(shù)據(jù)都轉(zhuǎn)成同意
形式,產(chǎn)生遺漏或用了不匹配的轉(zhuǎn)化方法而產(chǎn)生的數(shù)據(jù)。3,輸入的數(shù)據(jù)
已經(jīng)過期。由于工作業(yè)務(wù)的改變,某些前期業(yè)務(wù)的數(shù)據(jù)已經(jīng)過期,仍遺留
在數(shù)據(jù)倉(cāng)庫(kù)中而造成的過期無用數(shù)據(jù)。4,用戶需求的改變或數(shù)據(jù)質(zhì)量有
了新的要求時(shí),那些沒有適應(yīng)改變要求的數(shù)據(jù)成了無用的數(shù)據(jù)。
15.清理臟數(shù)據(jù)的方法有:1,檢查抽取數(shù)據(jù)的定義和數(shù)據(jù)轉(zhuǎn)換規(guī)則的
正確性,對(duì)那些不合適的定義和規(guī)則所造成的臟數(shù)據(jù)進(jìn)行清理。2,在對(duì)
多個(gè)數(shù)據(jù)源進(jìn)行集成時(shí),必須對(duì)所有不同結(jié)構(gòu)、不同編碼、不同定義的數(shù)
據(jù),嚴(yán)格按照同意格式轉(zhuǎn)換后再集成,清楚那些遺留或不匹配方法產(chǎn)生的
臟數(shù)據(jù)。3對(duì)過期數(shù)據(jù),在形成歷史數(shù)據(jù)后,根據(jù)這種數(shù)據(jù)量的大小來決
定是否需要進(jìn)行重新整理。
17.企業(yè)基本情況:
18.沃爾瑪一直是Teradata的大客戶,該公司的Teradata裝機(jī)是全球
最大的數(shù)據(jù)倉(cāng)庫(kù)之一,并且在該公司與各家供應(yīng)商的數(shù)據(jù)共享網(wǎng)絡(luò)(稱為
“零售鏈”)中發(fā)揮著重要作用?,F(xiàn)在還不清楚惠普的勝利對(duì)Teradata會(huì)
產(chǎn)生什么影響,看起來,沃爾瑪不大可能一下子全部放棄在Teradata方
面的投資,不過,惠普公司在數(shù)據(jù)倉(cāng)庫(kù)方面的任何獲勝都會(huì)搶走Teradata
的潛在業(yè)務(wù)。至周三上午為止,惠普和沃爾瑪?shù)墓俜蕉紱]有立即發(fā)布評(píng)論。
19.決策支持系統(tǒng)(decisionsupportsystem,簡(jiǎn)稱dss)是輔助決策者通
過數(shù)據(jù)、模型和知識(shí),以人機(jī)交互方式進(jìn)行半結(jié)構(gòu)化或非結(jié)構(gòu)化決策的計(jì)
算機(jī)應(yīng)用系統(tǒng)。它是管理信息系統(tǒng)(mis)向更高一級(jí)發(fā)展而產(chǎn)生的先進(jìn)信息
管理系統(tǒng)。它為決策者提供分析問題、建立模型、模擬決策過程和方案的
環(huán)境,調(diào)用各種信息資源和分析工具,幫助決策者提高決策水平和質(zhì)量。
決策支持系統(tǒng),是以管理科學(xué)、運(yùn)籌學(xué)、控制論、和行為科學(xué)為基礎(chǔ),以
計(jì)算機(jī)技術(shù)、仿真技術(shù)和信息技術(shù)為手段,針對(duì)半結(jié)構(gòu)化的決策問題,支
持決策活動(dòng)的具有智能作用的人機(jī)系統(tǒng)。該系統(tǒng)能夠?yàn)闆Q策者提供所需的
數(shù)據(jù)、信息和背景資料,幫助明確決策目標(biāo)和進(jìn)行問題的識(shí)別,建立或修
改決策模型,提供各種備選方案,并且對(duì)各種方案進(jìn)行評(píng)價(jià)和傳優(yōu)選,通
過人機(jī)交互功能進(jìn)行分析、比較和判斷,為正確的決策提供必要的支持。
DSS的概念是在20世紀(jì)70年代提出的,并在80年代獲得發(fā)展。它的
產(chǎn)生原因有:傳統(tǒng)的MIS沒有給企業(yè)帶來巨大的效益,人在管理中的積極
作用要得到發(fā)揮;人們對(duì)信息處理規(guī)律認(rèn)識(shí)提高,面對(duì)不斷變化的環(huán)境,
要求更高層次的系統(tǒng)來直接支持決策;計(jì)算機(jī)應(yīng)用技術(shù)的發(fā)展為DSS的發(fā)
展提供了物質(zhì)基礎(chǔ)。
第六章作業(yè)
1.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)兩個(gè)概念有什么不同?P116
2.知識(shí)發(fā)現(xiàn)過程由哪三部分組成?每部分的工作是什么?P116
3.數(shù)據(jù)挖掘的對(duì)象有哪些?他們各自的特點(diǎn)是什么?P118
4.P120
5.聚類是指在沒有類的數(shù)據(jù)中,按“距離”概念聚集成若干類。在同
一類別中,個(gè)體之間的距離較小,而不同類別上的個(gè)體之間的距離偏大。
分類是在聚類的基礎(chǔ)上,對(duì)已確定的類找出該類別的概念描述,它代
表了這類數(shù)據(jù)的整體信息。
6.當(dāng)發(fā)生有丟失的數(shù)據(jù)、觀察不到的數(shù)據(jù),隱藏的數(shù)據(jù)、錄入過程中
發(fā)生錯(cuò)誤的數(shù)據(jù)等情況時(shí),即產(chǎn)生了不完全數(shù)據(jù)。
7兩個(gè)變量X和Y的采樣,其中X是獨(dú)立變量,總有觀測(cè)值;Y是響
應(yīng)變量,可能涉及丟失值。以Y=?代表丟失值,以(X=i,Y=?)代表不
完全的記錄。丟失數(shù)據(jù)模式分別取決于Y=?的概率是否依賴于Y與X的狀
態(tài)。如果這一概率依賴于X但不依賴于Y,則認(rèn)為數(shù)據(jù)是隨機(jī)丟失的。
8兩個(gè)變量X和Y的采樣,其中X是獨(dú)立變量,總有觀測(cè)值;Y是響
應(yīng)變量,可能涉及丟失值。以Y=?代表丟失值,以(X=i,Y=?)代表不
完全的記錄。丟失數(shù)據(jù)模式分別取決于Y=?的概率是否依賴于Y與X的狀
態(tài)。如果Y=?的概率既不依賴于丫也不依賴于X的狀態(tài),則認(rèn)為數(shù)據(jù)是完
全隨機(jī)丟失的。
9
9.那種丟失數(shù)據(jù)的模式可以忽的?
答:丟失數(shù)據(jù)模式分類取決于Y=?的概率是否依賴于Y
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 交易合同履行情況統(tǒng)計(jì)表
- 消防施工方案怎么寫
- 鞋店設(shè)計(jì)施工方案
- 企業(yè)股權(quán)激勵(lì)方案及效果研究的國(guó)內(nèi)外文獻(xiàn)綜述6100字
- 亳州輕型木屋施工方案
- 玻璃展館設(shè)計(jì)施工方案
- 法院旁聽審警示教育活動(dòng)方案
- 菱形吊頂快速施工方案
- DB3707T 136-2025 無籽西瓜秋延遲栽培技術(shù)規(guī)程
- 預(yù)制板墻保溫墻施工方案
- 上海鐵路局入職合同范例
- Profinet(S523-FANUC)發(fā)那科通訊設(shè)置
- 航空器自動(dòng)駕駛
- 《公路橋涵施工技術(shù)規(guī)范》JTG-T3650-2020培訓(xùn)
- 2024年大學(xué)試題(教育學(xué))-課程與教學(xué)論考試近5年真題集錦(頻考類試題)帶答案
- 四年級(jí)數(shù)學(xué)下冊(cè)簡(jiǎn)便運(yùn)算100題及答案
- 緊密型醫(yī)療衛(wèi)生共同體慢性病雙向轉(zhuǎn)診流程圖
- DB34T 1591-2012 茶樹凍害氣象指標(biāo)
- 盤盤轉(zhuǎn)轉(zhuǎn)制作國(guó)風(fēng)標(biāo)簽(課件)六年級(jí)下冊(cè)勞動(dòng)
- 02S515排水檢查井圖集
- 項(xiàng)目班子組成資歷情況
評(píng)論
0/150
提交評(píng)論