版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第5章基于數據倉庫的決策支持系統(tǒng)
(1)1第5章基于數據倉庫的決策支持系統(tǒng)120世紀90年代中期,國外興起了三項決策支持新技術:數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)。數據倉庫、聯機分析處理、數據挖掘的結合形成了基于數據倉庫的決策支持系統(tǒng)。20世紀90年代中期,國外興起了三項決策支持新技術:2第(1)部分
5.1數據倉庫的基本原理第(1)部分
35.1數據倉庫的基本原理5.1.1數據倉庫產生和數據倉庫的概念5.1.2數據倉庫結構5.1.3數據集市5.1.4元數據5.1.5數據倉庫存儲5.1.6數據倉庫系統(tǒng)5.1數據倉庫的基本原理5.1.1數據倉庫產生和數據倉庫45.1.1數據倉庫產生和數據倉庫的概念數據倉庫的產生蜘蛛網問題隨著數據庫技術的廣泛運用,企業(yè)的運營環(huán)境逐漸轉化為以數據庫為中心的運營環(huán)境。企業(yè)對數據的需求是多方面的,除了在企業(yè)中建立企業(yè)級的數據庫外,常常還要建立部門數據庫。比如,市場人員通常只關心企業(yè)的銷售、市場策劃方面的信息,而不注重企業(yè)研發(fā)、生產等其他環(huán)節(jié)。因此,將銷售、市場策劃方面的信息抽取出來單獨建立部門級的數據庫很有必要,這樣可以提高數據的訪問效率。隨著數據的逐層抽取,很可能形成“蜘蛛網”現象,使數據的抽取和訪問顯得錯綜復雜。一個大型公司每天進行上萬次的數據抽取很普通。這種演變不是人為制造的,而是自然演變的結果,如果不再體系結構上進行調整,“蜘蛛網”問題將越來越嚴重。5.1.1數據倉庫產生和數據倉庫的概念數據倉庫的產生5企業(yè)級數據庫部門級數據個人級抽取程序企業(yè)級數據庫部門級數據個人級抽取程序6數據分析的結果缺乏可靠性如:不同部門根據各自抽取的不同數據對同一個問題得到不同的結果數據處理效率很低由于數據分散在各個數據庫中,因此需要編寫的程序很多。由于企業(yè)中使用的數據庫類型很多,因此需要很多技術來實現。程序的重用性很差,完成的報表不僅時效性很差,數據處理效率也很低數據分析的結果缺乏可靠性7難以將數據轉化為信息如,某電信公司想分析某個大客戶今年的情況和過去三年有什么不同?情況可能包括客戶的呼叫行為、話費情況、咨詢問題等。因此要想比較完整的回答這個問題,實際上需要將客戶多方面的數據綜合成信息。實際數據庫系統(tǒng)中,記錄客戶呼叫行為的數據庫通常只保留客戶最近3個月的呼叫帳單,帳務數據庫只保留客戶今年的繳費情況,客戶咨詢數據庫只保留客戶兩年內的咨詢信息,用戶根本不可能從這些數據中提取比較完整的信息。難以將數據轉化為信息81.數據倉庫的概念W.H.Inmon對數據倉庫的定義為:數據倉庫是面向主題的、集成的、穩(wěn)定的,不同時間的數據集合,用于支持經營管理中決策制定過程。SAS軟件研究所定義:數據倉庫是一種管理技術,旨在通過通暢、合理、全面的信息管理,達到有效的決策支持。1.數據倉庫的概念W.H.Inmon對數據倉庫的定9操作型數據(DB數據)與分析型數據(DW數據)之間的差別為:操作型數據(DB數據)與102、數據倉庫特點(1)數據倉庫是面向主題的主題是數據歸類的標準,每一個主題基本對應一個宏觀的分析領域。例如,銀行的數據倉庫的主題:客戶DW的客戶數據來源:從銀行儲蓄DB、信用卡DB、貸款DB等三個DB中抽取同一客戶的數據整理而成。在DW中分析客戶數據,可決定是否繼續(xù)給予貸款。2、數據倉庫特點(1)數據倉庫是面向主題的11(2)數據倉庫是集成的數據進入數據倉庫之前,必須經過加工與集成。對不同的數據來源進行統(tǒng)一數據結構和編碼。統(tǒng)一原始數據中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等。將原始數據結構做一個從面向應用到面向主題的大轉變。(2)數據倉庫是集成的12(3)數據倉庫是穩(wěn)定的數據倉庫中包括了大量的歷史數據。數據經集成進入數據倉庫后是極少或根本不更新的。(4)數據倉庫是隨時間變化的數據倉庫內的數據時限在5~10年,故數據的鍵碼包含時間項,標明數據的歷史時期,這適合DSS進行時間趨勢分析。而數據庫只包含當前數據,即存取某一時間的正確的有效的數據。(3)數據倉庫是穩(wěn)定的13
(5)數據倉庫的數據量很大
大型DW是一個TB(1000GB)級數據庫問題(一般為10GB級相當于一般數據庫100MB的100倍)(6)數據倉庫軟硬件要求較高
需要一個巨大的硬件平臺需要一個并行的數據庫系統(tǒng)
最好的數據倉庫是大的和昂貴的。(5)數據倉庫的數據量很大14
近期基本數據:是最近時期的業(yè)務數據,是數據倉庫用戶最感興趣的部分,數據量大。
歷史基本數據:近期基本數據隨時間的推移,由數據倉庫的時間控制機制轉為歷史基本數據。
輕度綜合數據:是從近期基本數據中提取出的,這層數據是按時間段選取,或者按數據屬性(attributes)和內容(contents)進行綜合。
高度綜合數據層:這一層的數據是在輕度綜合數據基礎上的再一次綜合,是一種準決策數據。5.1.2數據倉庫結構近期基本數據:是最近時期的業(yè)務數據,是數據倉15第5章:基于數據倉庫的決策支持系統(tǒng)ppt課件16數據倉庫工作范圍和成本常常是巨大的。開發(fā)數據倉庫是代價很高、時間較長的大項目。提供更緊密集成的數據集市就應運產生。目前,全世界對數據倉庫總投資的一半以上均集中在數據集市上。5.1.3數據集市(DataMarts)5.1.3數據集市(DataMarts)17數據集市是一種更小、更集中的數據倉庫,為公司提供分析商業(yè)數據的一條廉價途徑。數據集市是指具有特定應用的數據倉庫,主要針對某個應用或者具體部門級的應用,支持用戶獲得競爭優(yōu)勢或者找到進入新市場的具體解決方案。數據集市概念數據集市概念18數據集市的種類獨立數據集市從屬數據集市數據集市的種類獨立數據集市從屬數據集市19
1、規(guī)模是小的,面向部門2、由業(yè)務部門設計、開發(fā)、管理和維護3、購買較便宜,快速實現,投資快速回收4、數據倉庫的子集5、可升級到完整的數據倉庫數據集市的特性1、規(guī)模是小的,面向部門數據集市的特性20元數據是數據倉庫的重要組成部分。元數據描述了數據倉庫的數據和環(huán)境,即關于數據的數據(metadata)元數據包括四種元數據。5.1.4元數據元數據是數據倉庫的重要組成部分。5.1.4元數據21它是現有的業(yè)務系統(tǒng)的數據源的描述信息。這類元數據是對不同平臺上的數據源的物理結構和含義的描述。具體為:(1)數據源中所有物理數據結構,包括所有的數據項及數據類型。(2)所有數據項的業(yè)務定義。(3)每個數據項更新的頻率,以及由誰或那個過程更新的說明。(4)每個數據項的有效值。1、關于數據源的元數據它是現有的業(yè)務系統(tǒng)的數據源的描述信息。這類元數據是對22
數據倉庫的數據模型是星型模型:星形模式是一種多維的數據關系,它由一個事實表(FactTable)和一組維表(DimensionTable)組成。通常企業(yè)數據模型被用作建立倉庫數據模型的起始點,再對模型加以修改和變換。2、關于數據模型的元數據2、關于數據模型的元數據23
這類元數據是數據源與數據倉庫數據間的映射。當數據源中的一個數據項與數據倉庫建立了映射關系,就應該記下這些數據項發(fā)生的任何變換或變動。即用元數據反映數據倉庫中的數據項是從哪個特定的數據源填充的,經過那些轉換,變換和加載過程。3、關于數據倉庫映射的元數據這類元數據是數據源與數據倉庫數據間的映24
這類元數據是數據倉庫中信息的使用情況描述。
(1)元數據告訴數據倉庫中有什么數據,即如何按主題查看數據倉庫的內容。(2)元數據提供已有的可重復利用的查詢語言信息。關于數據倉庫使用的元數據能幫助用戶到數據倉庫查詢所需要的信息,用于解決企業(yè)問題。4、關于數據倉庫使用的元數據這類元數據是數據倉庫中信息的使用情況描述。4、關于數25
數據倉庫存儲采用多維數據模型。維就是相同類數據的集合,商店、時間和產品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。兩維表,如通常的電子表格。三維構成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。
5.1.5數據倉庫的存儲數據倉庫存儲采用多維數據模型。5.1.526數據倉庫是以多維表型的“維表—事實表”結構形式組織的,共有三種形式:
1、星型模型大多數的數據倉庫都采用“星型模型”。星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成?!笆聦嵄怼敝写娣糯罅筷P于企業(yè)的事實數據(數量數據)。例如:多個時期的數據可能會出現在同一個“事實表”中?!熬S表”中存放描述性數據,維表是圍繞事實表建立的較小的表。
星型模型數據如下圖:數據倉庫是以多維表型的“維表—事實表”結構形式組27第5章:基于數據倉庫的決策支持系統(tǒng)ppt課件28
2、雪花模型雪花模型是對星型模型的擴展,雪花模型對星型模型的維表進一步層次化,原來的各維表可能被擴展為小的事實表,形成一些局部的“層次”區(qū)域。它的優(yōu)點是最大限度地減少數據存儲量,以及把較小的維表聯合在一起來改善查詢性能。在上面星型模型的數據中,對“產品表”“日期表”“地區(qū)表”進行擴展形成雪花模型數據見下圖。3、星網模型
星網模型是將多個星型模型連接起來形成網狀結構。多個星型模型通過相同的維,如時間維,連接多個事實表。2、雪花模型29第5章:基于數據倉庫的決策支持系統(tǒng)ppt課件30
5.1.6數據倉庫系統(tǒng)結構
數據倉庫系統(tǒng)由數據倉庫(DW)、倉庫管理和分析工具三部分組成。5.1.6數據倉庫系統(tǒng)結構311、數據倉庫管理系統(tǒng)(1)定義部分
用于定義和建立數據倉庫系統(tǒng)。它包括:(1)設計和定義數據倉庫的數據庫(2)定義數據來源(3)確定從源數據向數據倉庫復制數據時的清理和增強規(guī)則(2)數據獲取部分
該部件把數據從源數據中提取出來,依定義部件的規(guī)則,抽取、轉化和裝載數據進入數據倉庫。
1、數據倉庫管理系統(tǒng)(1)定義部分32(3)管理部分它用于管理數據倉庫的工作,包括:(1)對數據倉庫中數據的維護(2)把倉庫數據送出給分散的倉庫服務器或DSS用戶(3)對倉庫數據的安全、歸檔、備份、恢復等處理工作(3)管理部分33(4)信息目錄部件(元數據)
數據倉庫的目錄數據是元數據,由三部分組成:
技術目錄:由定義部件生成,關于數據源、目標、清理規(guī)則、變換規(guī)則以及數據源和倉庫之間的映象信息。
業(yè)務目錄:由倉庫管理員生成,關于倉庫數據的來源及當前值;預定義的查詢和報表細節(jié);合法性要求等。
信息引導器:使用戶容易訪問倉庫數據。利用固定查詢或建立新的查詢,生成暫時的或永久的倉庫數據集合的能力等。(4)信息目錄部件(元數據)34分析工具集分兩類工具:(1)查詢工具數據倉庫的查詢不是指對記錄級數據的查詢,而是指對分析要求的查詢。一般包含:
可視化工具:以圖形化方式展示數據,可以幫助了解數據的結構,關系以及動態(tài)性。2、數據倉庫工具集分析工具集分兩類工具:2、數據倉庫工具集35多維分析工具(OLAP工具):通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,這樣便利用戶對數據進行深入的分析和觀察。多維數據的每一維代表對數據的一個特定的觀察視角,如時間、地域、業(yè)務等。第5章:基于數據倉庫的決策支持系統(tǒng)ppt課件36(2)數據挖掘工具
從大量數據中挖掘具有規(guī)律性知識,需要利用數據挖掘(DataMining)工具。(2)數據挖掘工具373、數據倉庫的運行結構數據倉庫應用是一個典型的客戶/服務器(C/S)結構形式。數據倉庫采用服務器結構,客戶端所做
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版木制家具生產加工木工合作合同范本4篇
- 2025版委托檢測合同書-光纖網絡性能檢測技術3篇
- 二零二五版水產品電商平臺大數據分析服務合同2篇
- 2025年度母子公司新能源儲能技術研發(fā)合作合同3篇
- 《吳組緗天下太平》課件
- 單板加工自動化與智能化技術考核試卷
- 2025版互聯網醫(yī)療投資項目融資借款合同3篇
- 《物價上漲時政》課件
- 2025年度木工工具租賃與施工服務承包合同4篇
- 2025年兒童玩具連鎖店加盟合同
- 農民工工資表格
- 【寒假預習】專題04 閱讀理解 20篇 集訓-2025年人教版(PEP)六年級英語下冊寒假提前學(含答案)
- 2024年智能監(jiān)獄安防監(jiān)控工程合同3篇
- 2024年度窯爐施工協議詳例細則版B版
- 幼兒園籃球課培訓
- 【企業(yè)盈利能力探析的國內外文獻綜述2400字】
- 統(tǒng)編版(2024新版)七年級《道德與法治》上冊第一單元《少年有夢》單元測試卷(含答案)
- 100道20以內的口算題共20份
- 高三完形填空專項訓練單選(部分答案)
- 護理查房高鉀血癥
- 項目監(jiān)理策劃方案匯報
評論
0/150
提交評論