數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后答案_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后答案_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后答案_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后答案_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后答案_第5頁
已閱讀5頁,還剩50頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Group 4 Chapterl-3CHI1數(shù)據(jù)庫與數(shù)據(jù)倉庫的本質(zhì)差別是什么?答:數(shù)據(jù)庫用于事務(wù)處理,數(shù)據(jù)倉庫用來決策分析。2從數(shù)據(jù)庫發(fā)展到數(shù)據(jù)倉庫的原因是什么?答:數(shù)據(jù)太多,信息貧乏。異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換和共享。利用數(shù)據(jù)進行爭務(wù)處理轉(zhuǎn)變 為利用數(shù)據(jù)支持決策。3舉例說明數(shù)據(jù)庫與數(shù)據(jù)倉庫的不同 答:數(shù)據(jù)庫(DB)數(shù)據(jù)倉庫(DW)面向應(yīng)用面向主題數(shù)據(jù)是詳細的數(shù)據(jù)是綜合的和歷史的保持當前數(shù)據(jù)保存過去和現(xiàn)在的數(shù)據(jù)數(shù)據(jù)是可更新的數(shù)據(jù)不更新對數(shù)據(jù)操作是重復的對數(shù)據(jù)的操作是啟發(fā)式的操作需求是事先可知的操作需求是臨時決定的一個操作存取一個記錄一個操作存取一個集合數(shù)據(jù)非冗余數(shù)據(jù)時常冗余操作比較頻繁操作相對不頻繁查

2、詢基本是原始數(shù)據(jù)查詢基本是經(jīng)過加工的數(shù)據(jù)事務(wù)處理需要的是當前數(shù)據(jù)決策分析需要過去和現(xiàn)在的數(shù)據(jù)很少有復雜的計算有很多復雜的計算支持事務(wù)處理支持決策分析4.答:Oltp聯(lián)機事務(wù)處理,就是我們通常所說的關(guān)系型數(shù)據(jù)庫,記錄了實時的增刪改查數(shù) 據(jù)。Olap聯(lián)機分析處理,是數(shù)據(jù)倉庫的核心,是對oltp的歷史數(shù)據(jù)進行加工,分析處理,用于 處理商業(yè)智能,決策支持等重要的決策信息。5答:oltp是用戶數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短時間內(nèi)給出處理結(jié)果。 它主要用于包括銀行業(yè)、航空、郵購訂單、超級市場和制造業(yè)等的輸入數(shù)據(jù)和取回交易數(shù)據(jù)。 事務(wù)處理量人,要求多個并行處理,爭務(wù)處理內(nèi)容比較簡單切重復率高。

3、人量的數(shù)據(jù)操作主 要涉及的是一些增刪改查詢等操作,每次操作的數(shù)據(jù)屋不打且多為當前的數(shù)據(jù)。Oltp處理的 數(shù)據(jù)是高度結(jié)構(gòu)化的,數(shù)據(jù)訪問路徑是已知的,至少是固定的。6. 答:l.oltp是明細的數(shù)據(jù),olap是匯總數(shù)據(jù)2.oltp記錄實時的數(shù)據(jù),olap包含2-3年歷史數(shù)據(jù)3.oltp可以進行增刪改查操作,olap只支持查詢,但周期性刷新。4.oltp 一次性處理的數(shù)據(jù)量少,olap 一次處理的數(shù)據(jù)量人5.oltp對響應(yīng)時間要求高,olap響應(yīng)時間合理6.oltp面向應(yīng)用,事務(wù)驅(qū)動,olap面向分析,分析驅(qū)動7. 數(shù)據(jù)庫中數(shù)據(jù)字典包括哪些內(nèi)容? P4-5答:數(shù)據(jù)字典是指對中舉的數(shù)據(jù)項、數(shù)據(jù)結(jié)構(gòu)、數(shù)

4、據(jù)流、數(shù)據(jù)存儲、和處理過程8 元數(shù)據(jù)的定義是什么? P5答:元數(shù)據(jù)為關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data )o元數(shù)據(jù)在數(shù)據(jù)倉庫中式描述數(shù)據(jù)倉庫中數(shù) 據(jù)及其壞境的數(shù)據(jù)。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和壞境,遍及數(shù)據(jù)倉庫的所有方面,是整 個數(shù)據(jù)倉庫的核心。9元數(shù)據(jù)與數(shù)據(jù)字典的關(guān)系是什么? P5答:元數(shù)據(jù)在數(shù)據(jù)倉庫中不僅定義了數(shù)據(jù)倉庫有什么,還指明了數(shù)據(jù)倉庫中信息的內(nèi)容和位 置,刻畫了數(shù)據(jù)的抽取盒轉(zhuǎn)換規(guī)則的說明,存儲了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息,而 且整個數(shù)據(jù)倉庫的運行都是基于元數(shù)據(jù)的,如數(shù)據(jù)的修改、跟蹤、抽取、裝入、綜合以及使 用等。由于元數(shù)據(jù)遍及數(shù)據(jù)倉庫的所有方面,因此它已成為整個數(shù)

5、據(jù)倉庫的核心。10.數(shù)據(jù)倉庫的定義是什么?W.H.Inmon對數(shù)據(jù)倉庫的定義:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù) 集合,用于支持經(jīng)營管理中決策制定過程。SAS軟件研究所的觀點:數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理, 達到有效的決策支持。11數(shù)據(jù)倉庫的特點有哪些?從數(shù)據(jù)倉庫的定義可以看出數(shù)據(jù)倉庫具有如下特點:(1)數(shù)據(jù)倉庫是面向主題的主題是數(shù)據(jù)歸類的標準,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。例如,保險公司的 數(shù)據(jù)倉庫的主題為客戶、政策、保險金、索賠等。(2)數(shù)據(jù)倉庫是集成的數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同的數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和 編碼

6、。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、 字長不一致等??傊?,將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用到面向主題的大轉(zhuǎn)變。(3)數(shù)據(jù)倉庫是穩(wěn)定的數(shù)據(jù)倉庫中包括了人量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進入數(shù)據(jù)倉庫后是極少或根本不更新的。(4)數(shù)據(jù)倉庫是隨時間變化的數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限在510年,故數(shù)據(jù)的鍵碼包含時間項,標明數(shù)據(jù)的歷史時期, 這適合決策分析時進行時間趨勢分析。(5)數(shù)據(jù)倉庫中的數(shù)據(jù)量很大通常的數(shù)據(jù)倉庫的數(shù)據(jù)量為10GB級,相當于一般數(shù)據(jù)庫(約100MB)的100倍,大型 數(shù)據(jù)倉庫是1TB (1000GB)級數(shù)據(jù)量。(6)數(shù)據(jù)倉庫軟硬件要求較高需要一個巨大的硬件平臺和一個并

7、行的數(shù)據(jù)庫系統(tǒng)。12.說明機器學習如何形成人工智能的學科方向。學習是人類具有的智能行為,主要目的在于獲取知識。機器學習是研究使計算機模擬或 實現(xiàn)人類的學習行為,即讓計算機通過算法自動獲取知識。20世紀60年代開始了機器學習的研究。比較典型的成果有:Rosenblate的感知機,它 是最早用神經(jīng)網(wǎng)絡(luò)進行模式識別的方法;Sammel的西洋跳棋程序,它用線性表達式的啟發(fā) 式方法,通過多次人機對弈,自動修改表達式中的系數(shù),使程序逐漸聰明,該程序竟然取得 了勝過作者和州冠軍的成績。20世紀80年代,機器學習取得了較大的成果。Michelski等人的AQ11系統(tǒng)(1980), 能從人量病例中歸納出人豆病癥

8、的判斷規(guī)則。AQU是一個很成功的歸納學習方法;Quiulan 的ID3 (1983)決策樹方法影響很大,實用性很強;Langley等人的BACON系統(tǒng)(1987)能 重新發(fā)現(xiàn)物理學的大量規(guī)律;Rumelhart等人研制的反向傳播神經(jīng)網(wǎng)絡(luò)BP模型(1985)為 神經(jīng)網(wǎng)絡(luò)的學習開創(chuàng)了一個新階段。這些顯著成果的出現(xiàn),使“機器學習”逐漸形成了人工智能的主要學科方向之一。1-13.數(shù)據(jù)庫中每個數(shù)據(jù)記錄的內(nèi)含代表了該記錄的信息。而數(shù)據(jù)挖掘是從數(shù)據(jù)庫中所有數(shù)據(jù)記錄 中歸納總結(jié)出知識。知識的數(shù)量人大少于數(shù)據(jù)記錄量。這些知識代表了數(shù)據(jù)庫中數(shù)據(jù)信息的 規(guī)律,即用少量知識能夠覆蓋數(shù)據(jù)庫中所有的記錄。1-14.OLA

9、P的典型應(yīng)用例子:OLAP平時需要查詢大量的口常商業(yè)活動信息,如每周的布匹購買量、每周布匹的內(nèi)部庫存 以及布匹的銷售屋等。OLAP更需要查詢商業(yè)活動的變化情況,如每周布匹購買量的變化值、 衣服生產(chǎn)量的變化值、衣服銷售價格的變化等。這些變化值對經(jīng)理們制定決策更重要。 經(jīng)理們往往從查詢出的變化值中,通過OLAP追蹤查詢找出存在的原因。例如,經(jīng)理看到利 潤小于預計值的時候,他可能會深入到各個國家,于是他自然就會查看這些國家中不同產(chǎn)品 組的利潤情況,總的目標就是尋找一些比較異常的數(shù)據(jù)來解釋某種現(xiàn)彖。經(jīng)過一番觀察之后, 就會發(fā)現(xiàn)非直接成本在這些國家明顯偏高。進一步對這些非直接成本進行分析,可以發(fā)現(xiàn)近 期

10、對于某些產(chǎn)品的賦稅明顯增加,從而明顯影響了最終利潤。1-15.OLAP是在帶層次的維度和跨維度進行多維數(shù)據(jù)分析的。數(shù)據(jù)挖掘則不同,它是以變量和記 錄為基礎(chǔ)進行分析的。數(shù)據(jù)挖掘任務(wù)在于聚類(如神經(jīng)網(wǎng)絡(luò)聚類)、分類(如決策樹分類)、 預測等。這些是帶有探索性的建模功能。數(shù)據(jù)挖掘在于尋找不平常的且有用的商業(yè)運作模型。 數(shù)據(jù)挖掘用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡單來說,OLAP是由使用者所主導,使用 者先有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立:而數(shù)據(jù)挖掘則是用來幫助使用者產(chǎn) 生假設(shè)。所以在使用03P或其它Query的工具時,使用者是自己在做探索(Exploration), 但數(shù)據(jù)挖掘是用

11、工具在幫助做探索。數(shù)據(jù)挖掘常能挖掘出超越歸納范I韋I的關(guān)系,但OLAP僅能利用人工查詢及可視化的報表來確 認某些關(guān)系,是以數(shù)據(jù)挖掘此種自動找出甚至不會被懷疑過的數(shù)據(jù)模型與關(guān)系的特性,事實 上已超越了我們經(jīng)驗、教育、想象力的限制,OLAP可以和數(shù)據(jù)挖掘互補,但這項特性是數(shù) 據(jù)挖掘無法被OLAP取代的??傊?,數(shù)據(jù)挖掘是智能化的OLAP。16 舉例說明統(tǒng)計學的價值。答:統(tǒng)計學不僅僅限于學術(shù)上的研究,他對于國家發(fā)展,經(jīng)濟,政治,自然等等都有它獨特 的作用。如工業(yè)統(tǒng)計學、農(nóng)業(yè)統(tǒng)計學、生物統(tǒng)計學、醫(yī)藥統(tǒng)計學、人II統(tǒng)計學、空間統(tǒng)計學 等,都發(fā)揮著重要的作用。例如,實驗中研究某種實驗結(jié)果的可靠性,需要用統(tǒng)計

12、學知識來 處理實驗數(shù)據(jù):統(tǒng)計學應(yīng)用于農(nóng)業(yè)實驗的設(shè)計和分析中來研究各種品種的中醫(yī)的增產(chǎn)效果; 在醫(yī)藥學中,關(guān)于吸煙與肺癌發(fā)病率聯(lián)系的分析、關(guān)于某種新藥效果的研究,都普遍使用到 了統(tǒng)計學的知識。例1:在醫(yī)藥學中,關(guān)于吸煙與肺癌發(fā)病率聯(lián)系的分析、關(guān)于某種新藥效果的研究,都普遍 使用統(tǒng)計方法;19世紀中葉基因?qū)W說的創(chuàng)立,也是依賴于統(tǒng)計推斷技術(shù)例2: 2005年3月16 口上證的平均指數(shù)中30支股票的市盈率是21.08。東方電子集團有限 公司的市盈率是17.92。這時,市盈率方面的統(tǒng)計信息顯示:與上證指數(shù)股票的平均收入相 比,東方電子集團有限公司的股票價格較低。因此,投資顧問可以得出結(jié)論:東方電子集團

13、有限公司的現(xiàn)行價格低估了。這一點以及其他有關(guān)東方電子集團有限公司的信息有助于投資 顧問做出買入、賣出還是持股的建議。例3:零售付賬柜臺使用電子掃描儀收集數(shù)據(jù),可供各種營銷研究應(yīng)用。市場調(diào)查公司或營 銷專家需要的各種數(shù)據(jù),都可以從零售商店購買銷售點的掃描記錄中獲得,他們經(jīng)過處理后, 會把這些數(shù)據(jù)的統(tǒng)計匯總信息賣給制造商。產(chǎn)品公司經(jīng)理們町以檢查并評論打描得到的數(shù)據(jù) 以及促銷活動的相關(guān)數(shù)字,從而更好地理解銷售與促銷活動之間的關(guān)系。17說明統(tǒng)計學應(yīng)用于數(shù)據(jù)挖掘中所包含的內(nèi)容。答:(1)常用統(tǒng)計在人量數(shù)據(jù)中求最人值、最小值、總和、平均值等。(2)相關(guān)分析通過求變量間的相關(guān)系數(shù)來確定變量河的相關(guān)程度。(3

14、)回歸分析建立回歸方程以表示變量間的數(shù)量關(guān)系,并利用其來進行預測。(4)假設(shè)檢驗在總體存在某種不確定情況是,為推斷總體的某些性質(zhì),提出關(guān)于總體的某些假設(shè),對此假 設(shè)利用置信區(qū)間來檢驗。(5)聚類分析對樣本或變屋進行聚類的方法。(6)判別分析建立一個或多個判別函數(shù),并確定一個判別標準。(7)主成分分析把多個變量化為少數(shù)的幾個綜合變量,而這幾個綜合變屋可以反映原來多個變量的人量信息。18.說明統(tǒng)計學與數(shù)據(jù)挖掘的不同。答:統(tǒng)計學主要是對數(shù)量數(shù)據(jù)或連續(xù)值數(shù)據(jù)進行數(shù)值計算的定量分析,得到數(shù)屋信息; 數(shù)據(jù)挖掘主要對離散數(shù)據(jù)進行定性分析,得到規(guī)則知識。統(tǒng)計學和數(shù)據(jù)挖掘中聚類分析和判別分析采用的標準不一樣。統(tǒng)

15、計學的聚類采用的“距離” 是歐式距離;而數(shù)據(jù)挖掘的聚類采用的“距離”是漢明距離。19區(qū)別:數(shù)據(jù)倉庫在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的。它將人量的數(shù)據(jù)庫數(shù)據(jù)按決策需求進行重新 組織,以數(shù)據(jù)倉庫的形式進行存儲,為用戶提供輔助決策的隨機查詢、綜合信息以及隨時間 變化的趨勢分析信息等。數(shù)據(jù)倉庫是一種存儲技術(shù),其數(shù)據(jù)存儲量是數(shù)據(jù)庫100倍,包含人量的歷史數(shù)據(jù)、當 前的詳細數(shù)據(jù)以及綜合數(shù)據(jù)。它能適用不同用戶對不同決策需要提供所需的數(shù)據(jù)和信息。數(shù)據(jù)挖掘從人工智能機器學習中發(fā)展起來。研究各種方法和技術(shù),從大量數(shù)據(jù)中挖掘 出有用的信息和知識。數(shù)據(jù)挖掘采用統(tǒng)計分析法。神經(jīng)網(wǎng)絡(luò)方法和機器學習中研究的方法。聯(lián)系:都是決策支持

16、新技術(shù),可以結(jié)合起來以幫助決策用戶挖掘數(shù)據(jù)倉庫數(shù)據(jù)中隱含的規(guī)律性。 數(shù)據(jù)挖掘用于數(shù)據(jù)倉庫實現(xiàn)決策支持,具體表現(xiàn)為:(1)預測客戶購買傾向;(2)進行客戶利潤度貢獻分析;(3)分析欺詐行為;(4)進行銷售渠道優(yōu)化分析等。20數(shù)據(jù)庫是一個長期存儲在計算機內(nèi)的、有組織的、有共享的、統(tǒng)一管理的數(shù)據(jù)集合。數(shù) 據(jù)倉庫,是決策支持系統(tǒng)和聯(lián)機分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從 數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)挖掘的興起是針對數(shù)據(jù)庫的。數(shù)據(jù)倉庫與數(shù)據(jù)庫在數(shù)據(jù)存儲等方面有諸多不同。數(shù)據(jù)倉庫數(shù)據(jù)存儲按決策分析需求, 這種需求是以決策主題為對象的,從而給予數(shù)據(jù)倉庫的數(shù)據(jù)挖掘更加面向主體化,更適合應(yīng) 用與

17、決策分析。數(shù)據(jù)倉庫數(shù)據(jù)存儲量比數(shù)據(jù)庫人很多,按決策主題組織,保留人量歷史數(shù)據(jù),更適合于 預測分析,并且對近期基本數(shù)據(jù)進行了輕度、高度綜合,使得分析效率更高,更便于提取有 用數(shù)據(jù)。數(shù)據(jù)庫使用關(guān)系型二維存儲格式,數(shù)據(jù)倉庫采用多為超立方體結(jié)構(gòu)存儲,相較于二維存 儲可以挖掘多維數(shù)據(jù)知識。21數(shù)據(jù)挖掘從數(shù)據(jù)倉庫中挖掘的信息:(1)哪些商品儀器銷曹好?(2偏愛某類商品的客戶特征是什么?(3)還有那些客戶具有向上述特征?(4)那些商業(yè)事務(wù)處理可能有欺詐性?(5)高價值客戶的共同點是什么?22 數(shù)據(jù)倉庫對數(shù)據(jù)挖掘提出了哪些新要求?答:1)數(shù)據(jù)挖掘需要可擴展性:數(shù)據(jù)挖掘?qū)?shù)據(jù)倉庫的應(yīng)用一般使用的數(shù)據(jù)是詳細數(shù)據(jù),

18、不用綜合數(shù)據(jù),因為綜合 數(shù)據(jù)“平滑” 了數(shù)據(jù)間的差別,從而無法發(fā)現(xiàn)單個數(shù)據(jù)項目之間的微妙相關(guān)性。數(shù)據(jù)倉庫中的數(shù)據(jù)隨著時間的推移逐漸増長。這樣,數(shù)據(jù)挖掘方法就應(yīng)該具有可擴 展性,能夠處理遞增的數(shù)據(jù)量。2)數(shù)據(jù)挖掘方法需要挖掘多維知識:數(shù)據(jù)倉庫中的數(shù)據(jù)模型是多維數(shù)據(jù)知識,它不同于數(shù)據(jù)庫的二維數(shù)據(jù)組織。數(shù)據(jù)挖 掘應(yīng)用到數(shù)據(jù)倉庫時需要能挖掘多維數(shù)據(jù)知識。23.數(shù)據(jù)倉庫與聯(lián)機分析處理、數(shù)據(jù)挖掘在決策支持方面有什么不同?答:聯(lián)機分析處理專門用于支持復雜的分析操作,側(cè)重對分析人員和高層管理人員的決策支 持,可以應(yīng)分析人員的要求快速、靈活地進行大數(shù)據(jù)量的復雜處理,并且以一種直觀易懂的 形式將查詢結(jié)果提供給決策

19、指定人。聯(lián)機分析處理町以使決策者從多方面和多角度,以多維 的形式來觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。聯(lián)機分析處理的功能和算法包括聚合、分配、 比率、乘積等描述性的建模功能。數(shù)據(jù)挖掘在于尋找不平常且有用的商業(yè)運作模型??疾閿?shù)據(jù)的不同類型或者找出變量之 間的關(guān)系。數(shù)據(jù)挖掘需要海量數(shù)據(jù),主要是詳細數(shù)據(jù)和歷史數(shù)據(jù)。數(shù)據(jù)挖搦主要進行聚類、 分類、預測等探索性的建模功能。而數(shù)據(jù)倉庫是一種存儲技術(shù)。數(shù)據(jù)倉庫中存儲著人量輔助決策的數(shù)據(jù),它為不同的用戶 隨時提供各種輔助決策的隨機查詢、綜合信息或趨勢分析信息。用戶利用這些信息和知識來 指導和幫助決策。聯(lián)機分析處理以數(shù)據(jù)倉庫為基礎(chǔ)為決策人員提供快速靈活的數(shù)據(jù)分析:數(shù)

20、據(jù)挖掘則是利 用各種方法和技術(shù)從數(shù)據(jù)倉庫中挖掘出信息和知識,反映數(shù)據(jù)倉庫中數(shù)據(jù)的規(guī)律性??偠?之,聯(lián)機分析處理和數(shù)據(jù)挖掘都是以數(shù)據(jù)倉庫為基礎(chǔ)輔助決策,只是方式不同。24基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的組成是什么?數(shù)據(jù)倉庫(DW)、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(DM廠相結(jié)合的決策支持系統(tǒng), 是以數(shù)據(jù)倉庫為基礎(chǔ)的決策支持系統(tǒng)。25畫出基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的結(jié)構(gòu)圖。26. 說明基于數(shù)據(jù)倉庫的決策支持系統(tǒng)與傳統(tǒng)決策支持系統(tǒng)有什么區(qū)別。解:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)是數(shù)據(jù)倉庫和聯(lián)機分析處理及數(shù)據(jù)挖掘相結(jié)合的決策支持 系統(tǒng),以數(shù)據(jù)倉庫為基礎(chǔ)。綜合信息與預測信息是可以通過數(shù)據(jù)倉庫獲得的輔助決策信息

21、, 而聯(lián)機分析處理能對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維數(shù)據(jù)分析,即多維數(shù)據(jù)的切片、切塊、旋轉(zhuǎn)、 鉆取等,只有通過分析更詳細的數(shù)據(jù),才能得到更深層中的信息和知識。數(shù)據(jù)挖掘則能獲取 關(guān)聯(lián)知識,時序知識,類聚知識,分類知識等。傳統(tǒng)決策支持系統(tǒng)是基于模型和知識的智能決策支持系統(tǒng)。27. 商業(yè)智能概念是什么?解:商業(yè)智能是一種技術(shù),它以數(shù)據(jù)倉庫為基礎(chǔ),通過聯(lián)機分析處理和數(shù)據(jù)挖掘技術(shù)幫助企 業(yè)領(lǐng)導者針對市場變化的壞境,做出快速、準確的決策。商業(yè)智能所體現(xiàn)的智能行為在于, 能夠解決市場壞境中隨機變化的決策問題,其所提供的智能手段表現(xiàn)為聯(lián)機分析處理的任意 切片、切塊和鉆取,以及利用數(shù)據(jù)挖掘技術(shù)所獲得的知識。28、如何

22、理解商業(yè)智能與基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的區(qū)別和聯(lián)系?商業(yè)智能以數(shù)據(jù)倉庫為基礎(chǔ),通過聯(lián)機分析處理和數(shù)據(jù)挖掘技術(shù)幫助企業(yè)領(lǐng)導者針對市場變 化的環(huán)境,做出快速、準確的決策。商業(yè)智能與基于數(shù)據(jù)倉庫的決策支持系統(tǒng)從組成和目標 看來是一致的,但是商業(yè)智能是一種技術(shù),基于數(shù)據(jù)倉庫的決策支持系統(tǒng)是解決實際決策問 題的一個系統(tǒng),即:基于數(shù)據(jù)倉庫的決策支持系統(tǒng)是利用商業(yè)智能技術(shù)來解決實際決策問題 的系統(tǒng)。29、商業(yè)智能在哪些方面改進企業(yè)決策過程?(1)信息共享。有了商業(yè)智能系統(tǒng)就可以實現(xiàn)信息共享,用戶可迅速找到所需要的數(shù)據(jù), 通過對數(shù)據(jù)進行鉆取分析以達到目標。(2)實時反饋分析。商業(yè)智能的運用能夠使員工隨時看到

23、工作的進展程度,并且了解一個 特定的行為對現(xiàn)實目標的效用。如果員工能看到自己的行為如何提升或影響了業(yè)績,那么也 就不需要過于復雜的激勵體系了。(3)鼓勵用戶找到問題的根本原因。根據(jù)初步得到的答案而采取的行動可能未必成功,因為 初步的探索往往沒有發(fā)現(xiàn)根本問題的所在,要找到根本原因就需要對與成功或失敗的相關(guān)諸 多因素進行深度分析。(4)使用主動智能。在數(shù)據(jù)倉庫中設(shè)定預警機制,一旦出現(xiàn)超過預替條件的數(shù)據(jù),就自動 通過各種設(shè)備通知用戶。(5)實時智能。CH21、畫出數(shù)據(jù)倉庫結(jié)構(gòu)圖,說明各部分內(nèi)容。輕膻絳臺敢據(jù)晝當閘基本用史故據(jù)層數(shù)據(jù)倉庫結(jié)構(gòu)包括當前基本數(shù)據(jù)、歷史基本數(shù)據(jù)、輕度綜合數(shù)據(jù)、高度綜合數(shù)據(jù)、元

24、數(shù)據(jù)。當前基本數(shù)據(jù)是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量人。當前基本數(shù)據(jù)隨時間的推移,由數(shù)據(jù)倉庫的時河控制機制轉(zhuǎn)為歷史基本數(shù)據(jù),一般被轉(zhuǎn)存在 介質(zhì)中,如磁帶中。輕度綜合數(shù)據(jù)是從當前基本數(shù)據(jù)中提取出來的,設(shè)計這層數(shù)據(jù)結(jié)構(gòu)時會遇到“綜合處理數(shù)據(jù) 的時間段選取,綜合數(shù)據(jù)包含哪些數(shù)據(jù)屬性和內(nèi)容”等問題。高度綜合數(shù)據(jù)是最高一層,這層數(shù)據(jù)十分精煉,是一種準決策數(shù)據(jù)。整個數(shù)據(jù)倉庫的組織結(jié)構(gòu)是由元數(shù)據(jù)來組織的,它不包含任何業(yè)務(wù)數(shù)據(jù)庫中的實際數(shù)據(jù)信息。 元數(shù)據(jù)在數(shù)據(jù)倉庫中扮演著重要的角色,它包括以下信息:(1)數(shù)據(jù)倉庫的目錄信息(2) 數(shù)據(jù)從數(shù)據(jù)庫壞境想數(shù)據(jù)倉庫壞境轉(zhuǎn)換時對應(yīng)的說明(3)知道

25、從當前基本數(shù)據(jù)到綜合數(shù)據(jù) 的綜合方式的說明(4)指導用戶使用數(shù)據(jù)倉庫。2、說明數(shù)據(jù)倉庫結(jié)構(gòu)圖中包含輕度綜合層和高度綜合數(shù)據(jù)層的作用。這些數(shù)據(jù)為什么不是 臨時計算出來的?在數(shù)據(jù)倉庫中并不采取臨時計算的方式得到綜合數(shù)據(jù),而是在用戶提出需要綜合數(shù)據(jù)之前, 就預先將可能需要的綜合數(shù)據(jù)利用數(shù)據(jù)立方體計算好,存入綜合數(shù)據(jù)層中,這種綜合數(shù)據(jù)層 在用戶查詢時,能迅速提供給用戶。在數(shù)據(jù)倉庫中存儲多種粒度數(shù)據(jù)時為了提高決策分析效果。為了適應(yīng)決策需求。3、說明數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別和聯(lián)系。聯(lián)系:數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價途 徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要

26、針對某個具有戰(zhàn)略意義的應(yīng)用或者具體部 門級的應(yīng)用,支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找到進入新市場的具體解決 方案。區(qū)別:(1)數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題。而數(shù)據(jù) 集市是按照某一特定部門的數(shù)據(jù)模型建立的,由于每個部門有自己特定的需求,因此對數(shù)據(jù) 集市的期望也不一樣。(2)部門的主題與企業(yè)的主題之間可能出在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。數(shù)據(jù)倉庫中存儲整 個企業(yè)內(nèi)非常詳細的數(shù)據(jù),而數(shù)據(jù)集市中數(shù)據(jù)的詳細程度要低一些,包含概要和累加數(shù)據(jù)要 多一些。(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。人型數(shù)據(jù)倉庫的數(shù)據(jù)組織,如NCR公司采用 第三范式。4. 說明數(shù)據(jù)集市的特

27、點。解:(1)規(guī)模是小的:(2)特定的應(yīng)用;(3)面向部門;(4)由業(yè)務(wù)部門定義,設(shè)計和開發(fā);(5)由業(yè)務(wù)部門管理和維護;(6)快速實現(xiàn):(7)價格較低廉:(8)投資快速回收;(9)工具集的緊密集成;(10)更詳細的、預先存在的數(shù)據(jù)倉庫的摘要子集;(11)可升級到完整的數(shù)據(jù)倉庫。5. 畫出數(shù)據(jù)集市的兩種結(jié)構(gòu)圖,說明它們的不同點.解:(1)從屬數(shù)據(jù)集市(圖1)它的數(shù)據(jù)直接來自于中央數(shù)據(jù)倉庫。這種結(jié)構(gòu)仍能保持和數(shù)據(jù)倉庫的一致性。 一般為那些訪問數(shù)據(jù)倉庫十分頻繁的關(guān)鍵業(yè)務(wù)部門建立從屬的數(shù)據(jù)集市,這 樣可以很好地提高查詢的反應(yīng)速度。(2)獨立數(shù)據(jù)集市(圖2)它的數(shù)據(jù)直接來源于各生產(chǎn)系統(tǒng)。許多企業(yè)在計劃

28、實施數(shù)據(jù)倉庫時,往往出于投資方面的考慮,最后建成獨立數(shù)據(jù)集市,用來解決個別部門比較迫切的 決策問題。從這個意義上講,它與企業(yè)數(shù)據(jù)倉庫除了在數(shù)據(jù)量人小和服務(wù)對 象上有所區(qū)別外,邏輯結(jié)構(gòu)并無多大區(qū)別。 t6. 畫出數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)圖,說明把倉庫管理和分析工具作為數(shù)據(jù)倉庫系統(tǒng)的兩個獨立組 成部分的原因。解:1如及1戀獅0奶4 jW譙11 b煤直1倉庫管理包拾數(shù)據(jù)建模;數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL):元數(shù)據(jù)系統(tǒng)管理等四部分。 而由于數(shù)據(jù)倉庫的數(shù)據(jù)量人,因此必須有一套功能很強的分析工具集來實現(xiàn)從數(shù)據(jù)倉庫中提 供輔助決策的信息,完成決策支持系統(tǒng)的各種要求。所以倉庫管理與分析工具要作為兩個獨 立的組成部分。

29、7. 說明倉庫管理包含的具體內(nèi)容。倉庫管理包括數(shù)據(jù)建模:數(shù)據(jù)抽取、轉(zhuǎn)換、裝在(ETL);元數(shù)據(jù);系統(tǒng)管理等四部分。8. 說明分析工具包含的具體內(nèi)容。分析工具包含查詢工具、多維數(shù)據(jù)分析工具(OLAP工具)、數(shù)據(jù)挖掘工具(DM工具)、 客戶/服務(wù)器(C/S)。9. 畫出數(shù)據(jù)倉庫的運行結(jié)構(gòu)圖,說明三層C/S結(jié)構(gòu)與兩層C/S結(jié)構(gòu)的不同點。數(shù)據(jù)倉庫的C/S結(jié)構(gòu):客戶端數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)倉庫采用服務(wù)器結(jié)構(gòu),客戶端所做的工作有客戶交互、格式化查詢、結(jié)果顯示、報 表生成等。數(shù)據(jù)倉庫的三層C/S結(jié)構(gòu):在客戶端和數(shù)據(jù)倉庫服務(wù)器之間多增加一個多維數(shù)據(jù)分析服務(wù)器。OLAP服務(wù)器從數(shù)據(jù)倉庫服務(wù)器中抽取數(shù)據(jù),在OLAP服

30、務(wù)器中轉(zhuǎn)換成客戶端用戶要求的多維視圖,進行多維數(shù) 據(jù)分析。工作效率更高。10. 數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型有哪些?答:數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型是多維結(jié)構(gòu)的數(shù)據(jù)視圖,也稱多維數(shù)據(jù)模型,主要有星型模型、 雪花模型、星網(wǎng)模型、第三范式等。數(shù)據(jù)模型與數(shù)學模型有什么區(qū)別?答:數(shù)據(jù)模型是現(xiàn)實世界數(shù)據(jù)特征的抽象,一般包拾數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)操作。數(shù)學模型是根據(jù)對研究對象所觀察到的現(xiàn)彖及實踐經(jīng)驗,歸結(jié)成的一套反映其內(nèi)部因素 數(shù)量關(guān)系的數(shù)學公式、邏輯準則和具體算法。用以描述和研究客觀現(xiàn)象的運動規(guī)律。數(shù)據(jù)模型側(cè)重于描述數(shù)據(jù)的類型、內(nèi)容、操作等;而數(shù)學模型則是研究數(shù)據(jù)內(nèi)在的數(shù)學 規(guī)律與數(shù)學表達。12 說明星型模型有什么好處?答

31、:星型模型存取數(shù)據(jù)速度快,它對各個維都做了人量的預處理,提高了多維數(shù)據(jù)的查詢速 度。星型模型的設(shè)計模式適用于決策分析應(yīng)用,它比較直觀,便于用戶理解。13時間維是一個有特殊意義的維,可以幫助決策者分析數(shù)據(jù)隨時間的變化趨勢,可以將歷史數(shù) 據(jù)聯(lián)系起來,對決策中的趨勢分析很重要。14雪花模型是對星型模型的擴展,對星型模型的維表進一步層次化。最人限度減少數(shù)據(jù)存 儲量,把較小維表聯(lián)合在一起來改善查詢性能。星網(wǎng)模型是將多個相關(guān)的星型模型通過相同的維表連接起來形成網(wǎng)狀結(jié)構(gòu)。人多數(shù)星網(wǎng) 模型中,各個爭實表共享的維表是時間維。15.第三范式數(shù)據(jù)模型與星型模型有什么不同?答:第三范式數(shù)據(jù)模型把事實表和維表的屬性作為

32、一個實體都集中在同一數(shù)據(jù)庫表中,或分 成多個實體用多個表來表示,每個表按第三范式組織數(shù)據(jù):而每個星型模型都在事實表中保 存了一些指標,為特定的目的服務(wù)。多個相關(guān)的星型模型通過相同的維表連接起來形成網(wǎng)狀 結(jié)構(gòu)。16 說明第三范式與星型模型的優(yōu)缺點。答:星型模型的設(shè)計模式使用于決策分析。星星模型與第三范式存儲的數(shù)據(jù)信息是一樣的, 但它更方便用戶理解數(shù)據(jù),更適合對數(shù)據(jù)的多維查詢操作;星型模型在進行多維數(shù)據(jù)分析時, 在不超過預定義的維度范用內(nèi),速度是很快的。但是,如果超過了預定義的維度,增加維度 將是很困難的事情:第三范式對于海量數(shù)據(jù)且需要處理人量的動態(tài)業(yè)務(wù)分析時比較有優(yōu)勢。 2-17.ETL過程的主

33、要步驟概拾為:(1)決定數(shù)據(jù)倉庫中需要的所有的目標數(shù)據(jù);(2)決定所有的數(shù)據(jù)源,包扌舌內(nèi)部和外部的數(shù)據(jù)源:(3)準備從源數(shù)據(jù)到目的數(shù)據(jù)的數(shù)據(jù)映射關(guān)系;(4)建立全面的數(shù)據(jù)抽取規(guī)則;(5)決定數(shù)據(jù)轉(zhuǎn)換和清洗規(guī)則;(6)為綜合表制定計劃:(7)組織數(shù)據(jù)緩沖區(qū)域和檢測工具;(8)為所有的數(shù)據(jù)裝載編寫規(guī)程:(9)維度表的抽取、轉(zhuǎn)換和裝載:(10)實表的抽取、轉(zhuǎn)換和裝載;2-18.數(shù)據(jù)抽取工作包括以卞內(nèi)容:1. 確定數(shù)據(jù)源該項工作主要包扌舌:(1)列出對事實表的每一個數(shù)據(jù)項和事實;(2)列出每一個維度屬性;(3)對于每個目標數(shù)據(jù)項,找出源數(shù)據(jù)項;(4)數(shù)據(jù)倉庫中一個數(shù)據(jù)元素有多少個來源,選擇最好的來源;

34、(5)確認一個目標字段的多個源字段,建立合并規(guī)則;(6)確認多個目標字段的個一源字段,建立分離規(guī)則:(7)確定默認值;(8)檢查缺失值的源數(shù)據(jù):2. 數(shù)據(jù)抽取技術(shù)(1)進行數(shù)據(jù)抽取時要考慮的兩種情況:當前值周期性的狀態(tài);(2)兩類數(shù)據(jù)的抽取靜態(tài)數(shù)據(jù)的抽取修正數(shù)據(jù)的抽取19. 說明數(shù)據(jù)轉(zhuǎn)換的基本功能。(1)選擇。從原系統(tǒng)中選擇整個記錄或者部分記錄。(2)分離/合并。對原系統(tǒng)中的記錄進行分離操作或者對很多原系統(tǒng)中選擇的部分數(shù)據(jù)進行 合并操作。(3)轉(zhuǎn)化。對字段的轉(zhuǎn)化包括對原系統(tǒng)進行標準化和使字段對用戶來說是可用和可理解的。(4)匯總。數(shù)據(jù)倉庫中需要保存很多匯總數(shù)據(jù)。這需要對最低粒度數(shù)據(jù)進行匯總。(

35、5)清晰化。對單個字段數(shù)據(jù)進行重新分配和簡化的過程,是數(shù)據(jù)倉庫更便利使用。20. 數(shù)據(jù)轉(zhuǎn)換有哪些類型?(1)格式修正。包括數(shù)據(jù)類型和單個字段長度的變化。(2)字段的編碼。對所有晦澀的編碼進行解碼。將它們變成用戶可以理解的值。(3)計算值和導出值。在數(shù)據(jù)倉庫中,有時需要與銷售和成本一起計算出利潤值。導出字 段包括每天的收支差額和相關(guān)比率。(4)單個字段的分離。在舊系統(tǒng)中將客戶名稱、地址存放在人型文本字段中:姓和名存放 在一個字段中:城市、地區(qū)和郵政編碼存放在一個字段中。在數(shù)據(jù)倉庫中卻需要將姓名和地 址放在不同的字段中,便利不同要求的分析工作。(5)信息的合并。例如:一個產(chǎn)品的信息可能從不同的數(shù)據(jù)

36、源中獲得;產(chǎn)品編碼和產(chǎn)品名 從一個數(shù)據(jù)源得到,相關(guān)包裝類型從另一個數(shù)據(jù)源中得到,成本數(shù)據(jù)從第三個數(shù)據(jù)源中得到。 信息合并是產(chǎn)品編碼、產(chǎn)品名、包裝類型和成本的有機組合,是一個新的實體。(6)特征集合轉(zhuǎn)化。例如:在原系統(tǒng)中數(shù)據(jù)采用EBCDIC碼,而數(shù)據(jù)倉庫數(shù)據(jù)采用ASCII碼, 這就需要進行代碼集合的轉(zhuǎn)化。(7)度量單位的轉(zhuǎn)化。使數(shù)據(jù)具有相同的標準度量單位。不少國家有自己的度量單位,需 要在數(shù)據(jù)倉庫中采用標準度量單位。(8)日期/時間轉(zhuǎn)化??谄诤蜁r間的表示應(yīng)該轉(zhuǎn)化成國際標準格式。(9)匯總。這種類型的轉(zhuǎn)換是創(chuàng)建數(shù)據(jù)倉庫的匯總數(shù)據(jù)。匯總數(shù)據(jù)適合于客觀戰(zhàn)略性的查 詢。(10)關(guān)鍵字重新構(gòu)造。在原系統(tǒng)中

37、關(guān)鍵字可能包含很多項的內(nèi)容,如產(chǎn)品編碼包括倉庫代 碼、銷售區(qū)域、產(chǎn)品編碼等多項內(nèi)容。在數(shù)據(jù)倉庫中,關(guān)鍵字要發(fā)生變化,轉(zhuǎn)換成適合于事 實表和維表的普通鍵值。21數(shù)據(jù)裝載方式與類型有哪些? P32答:數(shù)據(jù)裝載方式:(1)基本裝載。(2)追加。 (3)破壞性合并。(4)建設(shè)性合并(1)基本裝載:按照裝載的目標表,將裝換過的數(shù)據(jù)輸入到目標表中去。若目標表中已有 數(shù)據(jù),裝載時會先清除這些數(shù)據(jù),再裝入新數(shù)據(jù)。目標表可以是事實表或維表。(2)追加:如果目標表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù), 當一個輸入數(shù)據(jù)記錄與已經(jīng)存在的記錄重復時,輸入記錄可能可以作為副本增加進去,或者 丟棄新輸

38、入數(shù)據(jù)。(3)破壞性合并:當輸入數(shù)據(jù)記錄的主鍵與一條已經(jīng)存在的記錄的鍵互相匹配時,用新輸 入數(shù)據(jù)更新目標記錄數(shù)據(jù)。如呆輸入記錄是一條新的記錄,沒有任何與之匹配的現(xiàn)存記錄, 那么就將這條輸入記錄添加到目標表中。(4)建設(shè)性合并當輸入記錄主鍵與已有記錄的鍵相匹配時,保留已有的記錄,增加輸入的記錄,并標記為舊 記錄的替代。數(shù)據(jù)裝載類型:(1)最初裝載。(2)增量裝載。(3)完全刷新。(1)最初裝載:這是第一次對整個數(shù)據(jù)倉庫進行裝載。在裝載工作完成以后,建立索引。(2)增量裝載:由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù),這就是增量裝載。在建設(shè)性合并的裝載方式中,對增加的輸入記錄中標記了就記錄的代替

39、。這可以作為增量裝 載的方式。當已裝入的記錄數(shù)據(jù)必須被改正后的數(shù)據(jù)記錄取代后,要采用破壞性合并的裝載方式作為增 量裝載的方式。(3)完全刷新:這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。有時,也可能對一些特定 的表進行刷新。完成刷新與初始裝載比較相似。不同點在于在完全刷新之前,目標表中已經(jīng) 存在數(shù)據(jù)。22 說明數(shù)據(jù)庫中的元數(shù)據(jù)以及數(shù)據(jù)倉庫中元數(shù)據(jù)的不同。答:按照傳統(tǒng)的定義,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中個,元數(shù)據(jù)可以幫助數(shù) 據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便的找到他們所關(guān)心的數(shù)據(jù)。元數(shù)據(jù)是藐視數(shù)據(jù) 倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。23答:關(guān)于數(shù)據(jù)源的元數(shù)據(jù),它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的

40、數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是對 不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項的業(yè)務(wù) 定義。(3)每個數(shù)據(jù)項更新的頻率,以及由誰或那個過程更新的說明。(4)每個數(shù)據(jù)項的有 效值。(5)其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項的清單。24答:關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是 管理和使用數(shù)據(jù)倉庫的基礎(chǔ)。這種元數(shù)據(jù)可以支持用戶從數(shù)據(jù)倉庫中獲取數(shù)據(jù)。用戶可以提 出需要哪些表,系統(tǒng)從中選一個表,并得到表之間的關(guān)系。通過關(guān)系新表,重復該過程。用 戶就可以得到希望的數(shù)據(jù)。25 什么是關(guān)于數(shù)據(jù)倉

41、庫映射的元數(shù)據(jù)?答:這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)之間的映射。反映數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特 定的數(shù)據(jù)源抽取的,經(jīng)過了哪些轉(zhuǎn)換、變換和裝載過程。26 什么是關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)?答:這類元數(shù)據(jù)是對數(shù)據(jù)倉庫中信息使用情況的描述。27.數(shù)據(jù)倉庫中的元數(shù)據(jù)是如何發(fā)揮作用的? P37答:1元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們從哪里來,即如何按主題查看數(shù)據(jù)倉庫的內(nèi) 容。2.元數(shù)據(jù)提供已有的可重復利用的查詢語言信息,如呆某個查詢能夠滿足他們的需求, 或者與他們的愿望相似,他們就可以再次使用這些查詢而不必從頭開始編程。數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)的問題。CH

42、3聯(lián)機分析處理(OLAP)的簡單定義是什么?它體現(xiàn)的特征是什么?答:聯(lián)機分析處理的簡單定義是共享多維信息的快速分析。它體現(xiàn)了四個特征:1)用戶對OLAP的快速反應(yīng)能力有很高的要求。2 )可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。3)多維性:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析,包括對層次維和多重層次維 的完全支持。4)信息性:OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量的信息。2.OLAP準則中主要準則有哪些?答:1)多維概念視圖;2)透明性3可訪問性4) 一致穩(wěn)定的報表性能5)客戶/服務(wù)器體 系結(jié)構(gòu)6)維的等同性7)動態(tài)的桶疏矩陣處理8)多用戶支持能力9)非限定的跨

43、維操作3. 什么是維?關(guān)系數(shù)據(jù)庫是二維數(shù)據(jù)嗎?如何理解多維數(shù)據(jù)?維是人們觀察數(shù)據(jù)的特定角度。關(guān)系數(shù)據(jù)庫是二維數(shù)據(jù)。多維數(shù)據(jù)就是一個多個維數(shù)組, 每個維都選中一個成員時,唯一確定的某一個變量值。比如口用品銷售數(shù)據(jù)有時間、地區(qū)、 銷售渠道這幾個維度,加上銷售額這個變量。如果時間、地區(qū)和銷售渠道都取確定值,銷售 額也能被唯一確定,銷售額就是一個多維數(shù)據(jù)。4. MDDB與RDBMS有什么不同?說明各自的特點。MDDB是以多維方式組織數(shù)據(jù),即以維作為坐標系,采用類似于數(shù)組的形式存儲數(shù)據(jù)。 RDBMS以“屬性一一元祖(記錄)"形式組織數(shù)據(jù)。MDDB比RDBMS表達更清晰且占用的存儲少。5. 比較

44、R0LAP與M0LAP在數(shù)據(jù)存儲、技術(shù)及特點上的不同。解:(1)數(shù)據(jù)存儲:H0LAP:詳細數(shù)據(jù)用關(guān)系表存儲在數(shù)據(jù)倉庫中;各種匯總數(shù)據(jù)保存在多維數(shù)據(jù)庫中;從數(shù)據(jù)倉庫中詢問詳細數(shù)據(jù),從多維數(shù)據(jù)庫中詢問匯總數(shù)據(jù)。ROLAP:全部數(shù)據(jù)以關(guān)系表存儲在數(shù)據(jù)倉庫中;可獲得細節(jié)的和綜合匯總的數(shù)據(jù):有非常大的數(shù)據(jù)容量;從數(shù)據(jù)倉庫中詢問所有的數(shù)據(jù)。(2)技術(shù):MOLAP:由MOLAP引擎創(chuàng)建:預先建立數(shù)據(jù)立方體;多維視圖存儲在陳列中,而不是表格中;可以高速檢索矩陣數(shù)據(jù);利用桶疏矩陣技術(shù)來管理匯總的桶疏數(shù)據(jù)。ROLAP:使用復雜SQL從數(shù)據(jù)倉庫中獲取數(shù)據(jù);ROLAP引擎在分析中創(chuàng)建數(shù)據(jù)立方體;表示層能夠表示多維的視

45、圖。(3)特點:HOLAP:詢問響應(yīng)速度快:能輕松適應(yīng)多維分析;有廣泛的卞鉆和多層次/多視角的查詢能力。ROLAP:在復雜分析功能上有局限性,需要采用優(yōu)化的OLAP:向下鉆取較容易,但是跨維向下鉆取比較困難。6. HOLAP數(shù)據(jù)模型的特點是什么?解:HOLAP即混合OLAP介于MOLAP和ROLAP之間。在HOLAP中,對于最常用的維度和維層 次,使用多維數(shù)據(jù)庫來存儲,對于用戶不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來存儲。 當用戶詢問不常用數(shù)據(jù)時,HOLAP將會把簡化的多維數(shù)據(jù)和星型結(jié)構(gòu)進行拼合,從而得到完 整的多維數(shù)據(jù)。在HOLAP的多維數(shù)據(jù)庫中的數(shù)據(jù)維度少于HOLAP中的維度庫,數(shù)據(jù)存

46、儲容屋也少于MOLAP 方式。但是,HOLAP在數(shù)據(jù)存儲速度上又低于MOLAP。7、舉例說明多維數(shù)據(jù)顯示的兩種不同方法。多維數(shù)據(jù)一般采用多維數(shù)據(jù)庫(MDDB)和關(guān)系數(shù)據(jù)庫(RDBMS)兩種方式存儲。用關(guān)系數(shù)據(jù)庫可以顯示更多維的數(shù)據(jù),即用星型模型的爭實表形式顯示。但是,用爭實表顯 示多維數(shù)據(jù)時,重要數(shù)據(jù)很多,也顯得繁瑣。用多維數(shù)據(jù)顯示時,雖然不能同時顯示三維以上數(shù)據(jù),由于顯示的數(shù)據(jù)很精煉,因此仍然用 多維數(shù)據(jù)庫的方式來顯示多維數(shù)據(jù)。一般在多維數(shù)據(jù)庫中,固定一些維成員,重點顯示兩維 數(shù)據(jù)。關(guān)系數(shù)據(jù)庫:多維數(shù)據(jù)庫:« a « k1月-2 n衣*1002001503001 :8、舉

47、例說明多維類型結(jié)構(gòu)(MTS)表示方法:每一個維度用一條線段來表示。維度中的每一個成員都用線段上的一個單位區(qū)間 來表示。例如,用三個線段分別表示時間、產(chǎn)品和指標三個維的多維類型結(jié)構(gòu)如圖所示。9舉例說明四維數(shù)據(jù)顯示。答:時間(月):1,2,3,4,5,6,7,8,9,10,11,12海拔(米):0-500,500-1000,1000-2000,2000-3000,3000-4000, 4000 以上平均早晚溫差(攝氏度°C): 0-5,510,10-15,15-20,2025,2530,30 以上月 降水量(亳米 mm ): 0-20, 2X40, 4060, 6080, 80T00,

48、100120, 120T40, 140-160, 160 以上10舉例說明六維數(shù)據(jù)顯示。答:時間(月):1,2,3,4,5,6,7,8,9,10,11,12海拔(米):0-500,500-1000,1000-2000,2000-3000,3000-40001 4000 以上平均早晚溫差(攝氏度°C): 0-5,510,10-15,15-20,20-25,25-30,30 以上月降水量(亳米 mm): 020, 2040, 4060, 6080, 80100, 100120, 120T40, 140-160, 160 以上維度(度):010,1020,2030,3040,4050,50

49、60,6070,7080每日日照時間(小時 h): 0-33-6,6-9,9-12,12-15,15-18,18 以上11 答:多維數(shù)據(jù)顯示的經(jīng)驗規(guī)則:(1)將維度盡量放在頁中,除非確定需要同時看到一個維度的多個成員。讓屏幕上的信息 盡量相關(guān)。(2)當維度潛逃在行或者列中時,考慮到垂直空間比水平空間更為有用,所以將維度嵌套 在列中比嵌套在行中要好。一個景點的顯示方法就是在行上有1個維度,而在列上嵌套個維度,而其他的維度則放在頁中。(3)在決定數(shù)據(jù)的屏幕顯示方式之前,應(yīng)該首先弄清楚需要查找和分析比較的內(nèi)容。例如, 如果需要比較某個產(chǎn)品和某類客戶在商品和時間上的實際成本情況,就可以將產(chǎn)品和客戶放

50、在頁面維度中,而在屏幕上則可以按商店和時間來顯示時間成本。12答:選定多維數(shù)組中的一個二維自己的操作叫做切片。切片就是在某兩個維上卻一定區(qū) 間的維成員或全部維成員,而在其余的維上選定一個維成員的操作。例如:一個按產(chǎn)品維、 地區(qū)維和實踐維組織起來的產(chǎn)品銷售數(shù)據(jù),用三維數(shù)組表示為(地區(qū),實踐,產(chǎn)品,銷售額)。 如果在地區(qū)維上選定一個維成員(設(shè)為“上?!保?,就得到了在地區(qū)維上的一個切片(關(guān)于"時 間”和“產(chǎn)品”的切片);在產(chǎn)品維上選定一個維成員(設(shè)為“電視機”),就得到了在產(chǎn)品 維上的一個切片(關(guān)于“時間”和“地區(qū)”的切片)。顯然,切片的書目取決于每個維上維 成員的個數(shù)。13.舉例說明OL

51、AP的多維數(shù)據(jù)分析的鉆取操作。P53-54答:鉆取分為向下鉆取和向上鉆取操作。向下鉆取是使用戶在多層數(shù)據(jù)中能通過導航信息而 獲得更多的細節(jié)性數(shù)據(jù),而向上鉆取獲取概括性的數(shù)據(jù)。例:2009年各部門銷售收入如下表:部門銷售數(shù)據(jù)部門銷曹部門銷售部門1900部門3800部門2600在時間維進行下鉆操作,獲得卞表部門銷售下鉆數(shù)據(jù)2009 年部門季度2季度3季度4季度部門1200200350150部門225050150150部門3200150180270相反的操作為上鉆,鉆取的深度與維所劃分的層次相對應(yīng)。14. 說明四種不同的多維數(shù)據(jù)分析方法的作用。答:切片:維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍

52、棄一些觀察角度,使人們能 在兩個維上集中觀察數(shù)據(jù)。因為人的空間想彖能力畢競有限,一般很難想象四維以上的空間 結(jié)構(gòu)。所以對于維數(shù)較多的多維數(shù)據(jù)空間,數(shù)據(jù)切片是十分有意義的。切塊:切塊可以看成是在切片的基礎(chǔ)上確定某一個維成員的區(qū)間得到的片段,也即由多個切 片疊合起來的。對于時間維的切片(時間取一個確定值),如果將時間維上的取值設(shè)定為一 個區(qū)間,就得到一個數(shù)據(jù)切塊。鉆?。恒@取分為向下鉆取和向上鉆取操作。向下鉆取是使用戶在多層數(shù)據(jù)中能通過導航信息 而獲得更多的細節(jié)性數(shù)據(jù),而向上鉆取獲取概括性的數(shù)據(jù)。旋轉(zhuǎn):通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當于平面數(shù)據(jù)將坐標軸旋轉(zhuǎn)。15. 廣義OLAP功能如何提

53、高多維數(shù)據(jù)分析能力?OLAP的切片、切塊、旋轉(zhuǎn)與鉆取等基本操作是最基本的展示數(shù)據(jù)、獲取數(shù)據(jù)信息的手 段。從廣義上講,任何能夠有助于輔助用戶理解數(shù)據(jù)的技術(shù)或者操作都可以作為OLAP功能, 這些有別于基本OLAP的功能稱為廣義OLAP功能。廣義OLAP主要通過建立數(shù)據(jù)分析模型的方法,提高多位數(shù)據(jù)分析能力。E.F.Codd認為, 以前的數(shù)據(jù)分析主要集中在靜態(tài)數(shù)據(jù)值的相互比較上,有了 OLAP后,可以進行動態(tài)數(shù)據(jù)分 析,需要建立企業(yè)數(shù)據(jù)模型。數(shù)據(jù)分析模型可以分為四類:絕對模型、解釋模型、思考模型 和公式化。絕對模型和解釋模型都屬于靜態(tài)模型分析。前者通過比較歷史數(shù)據(jù)指或行為來描述過去 發(fā)生的事實:后者用

54、于找出事實發(fā)生的原因,由分析人員通過系統(tǒng)已有的多層細的綜合路經(jīng) 層層細化得到。思考模型和公式模型是屬于動態(tài)分析。思考模型旨在說明一維或多維上引入 一組具體變量或參數(shù)后將會發(fā)生什么。分析人員在引入確定的變量或公式關(guān)系時,需創(chuàng)建人 量的綜合路徑。公式模型表示在多個維上需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié) 果。這四種模型一個比一個深入,從描述基本事實到尋找原因,從帶入變量值進行預測到尋 找關(guān)鍵變量。Codd認為OLAP是因企業(yè)動態(tài)分析而產(chǎn)生的,其功能是創(chuàng)建、操作、激活及綜合來自解 釋模型、思考模型及公式化模型中的信息。它可以識別變量間新的或不可預測的關(guān)聯(lián),通過 創(chuàng)建大量的維(綜合路徑)及指出

55、維間計算條件、表達式來處理人量數(shù)據(jù),獲得輔助決策信 息。16. 說明數(shù)據(jù)立方體的概念。數(shù)據(jù)立方體是實現(xiàn)多維數(shù)據(jù)查詢與分析的一種重要手段。實質(zhì)上,數(shù)據(jù)立方體就是數(shù)據(jù) 倉庫結(jié)構(gòu)圖中的綜合數(shù)據(jù)層。數(shù)據(jù)立方體時再奪有可能組合的維上進行分組聚集運算(group by操作)的總和。數(shù)據(jù) 立方體中的每一個元組(立方體的度量屬性)被稱為該立方體上的格,每個格在n維屬性上 有相應(yīng)的值,其中,在未參與group by操作的維屬性上具有All值,而在參與group by操作 的維屬性具有非All值。這些聚集運算與操作結(jié)呆是數(shù)據(jù)倉庫中的一種高度綜合級數(shù)據(jù),實質(zhì)上是進行了數(shù)據(jù)的 濃縮(壓縮),也可成為泛化。最終所獲得的

56、這些數(shù)據(jù)立方體可用于決策支持、知識發(fā)現(xiàn), 或其他許多應(yīng)用。3-17對于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進行數(shù)據(jù)獲取的過程。在數(shù)據(jù)立方體中, 不同維度組合構(gòu)成了不同的子立方體,不同維值的組合及其對應(yīng)的度量值構(gòu)成相應(yīng)的對于不 同的查詢和分析。數(shù)據(jù)立方體是在所有可能組合的維上進行分組聚集運算的總和。聚集函數(shù) 有:sum ()、count ()、average ()等。這些聚集運算與操作結(jié)果是數(shù)據(jù)倉庫中的一種高 度綜合級數(shù)據(jù)、實質(zhì)上是進行了數(shù)據(jù)的濃縮(壓縮),也可稱為泛化。最終所獲得的這些數(shù) 據(jù)立方體可用于決策分析、知識發(fā)現(xiàn)或其他許多應(yīng)用。所以說,數(shù)據(jù)立方體就是數(shù)據(jù)倉庫結(jié) 構(gòu)圖中的綜合數(shù)據(jù)層。3-18OLAP和數(shù)據(jù)倉庫通常預先計算好不同細節(jié)層次和不同維屬性集合的聚集,并把聚集的結(jié)果 存儲到物理磁盤上。把所有可能的聚集都計算出來町以得到最快的系統(tǒng)查詢響應(yīng)時間,即使 不管計算聚集所花費的CPU處理時間,只是隨著維數(shù)的增加,這樣做有可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論