數(shù)據(jù)倉庫概述課件_第1頁
數(shù)據(jù)倉庫概述課件_第2頁
數(shù)據(jù)倉庫概述課件_第3頁
數(shù)據(jù)倉庫概述課件_第4頁
數(shù)據(jù)倉庫概述課件_第5頁
已閱讀5頁,還剩173頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章數(shù)據(jù)倉庫概述DW&DM第1章數(shù)據(jù)倉庫概述DW&DM11.l數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變1.3倉庫的應(yīng)用前景數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變數(shù)據(jù)庫的發(fā)展→企業(yè)運(yùn)營環(huán)境→以數(shù)據(jù)庫為中心企業(yè)級數(shù)據(jù)庫市場部→銷售、市場策劃財(cái)務(wù)部→產(chǎn)生財(cái)務(wù)報(bào)表人事部→人員變動情況……蜘蛛網(wǎng)問題(圖1-1)數(shù)據(jù)分析的結(jié)果缺乏可靠性

圖1-2中展示了某電信公司的市場部和計(jì)劃部對業(yè)務(wù)A是否具有市場前景的分析過程和結(jié)果。市場部認(rèn)為“業(yè)務(wù)A的市場前景很好”,而計(jì)劃部卻得到截然相反的結(jié)果“業(yè)務(wù)A沒有市場前景”。作為企業(yè)的最棕決策者,將如何根據(jù)這樣的結(jié)論進(jìn)行決策呢?一、蜘蛛網(wǎng)問題1.l數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變DW&DM第一章數(shù)據(jù)倉庫概述2DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變1.3倉庫的應(yīng)用前景圖1-1企業(yè)中存在的“蜘蛛網(wǎng)”現(xiàn)象企業(yè)級部門極抽取程個人級DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演3DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變1.3倉庫的應(yīng)用前景外部市場信息A分析程序1分析結(jié)果1:業(yè)務(wù)A市場前景很好分析結(jié)果2:業(yè)務(wù)A沒有市場前景外部市場信息B外部市場信息C抽取數(shù)據(jù)的時間不同分析程序2抽取數(shù)據(jù)的內(nèi)容不同外部信息分析程序和內(nèi)容不同圖1-2兩個分析過程的差異企業(yè)級數(shù)據(jù)庫市場部計(jì)劃部DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演4兩個分析的數(shù)據(jù)都來自于企業(yè)數(shù)據(jù)庫,但是結(jié)論卻不同,下面通過分析兩個過程的差異來尋求原因。首先,市場部門和計(jì)劃部門從企業(yè)數(shù)據(jù)庫中抽取的數(shù)據(jù)可能不同,比如,市場部抽取的是在大客戶中對業(yè)務(wù)A的使用情況,而計(jì)劃部抽取的是在普通客戶中對業(yè)務(wù)A的使用情況,二者分析的數(shù)據(jù)存在差異。其次,市場部分析的時間是2001年3月5日,而計(jì)劃部分析的時間是2001年3月25日,兩個分析過程從企業(yè)數(shù)據(jù)庫中抽取數(shù)據(jù)的時間不同,企業(yè)數(shù)據(jù)庫中的內(nèi)容已經(jīng)發(fā)生了變化,這很可能導(dǎo)致分析的結(jié)果不同。再次,分析業(yè)務(wù)的發(fā)展趨勢常常需要引入企業(yè)外部的信息,比如客戶的滿意程度,國家的政策等,市場部門引用的外部信息來源可能與計(jì)劃部不同,而外部信息必然是仁者見仁,智者見智,這也可能是導(dǎo)致最終分析結(jié)果不同。最后,市場部門使用的分析程序可能與計(jì)劃部不同,通過上面的分析,我們可以看出導(dǎo)致兩個分析過程出現(xiàn)截然相反的結(jié)論的根本原因是數(shù)據(jù)的來源部一致,對于不同來源的數(shù)據(jù)的分析結(jié)果顯然是不一致的。兩個分析的數(shù)據(jù)都來自于企業(yè)數(shù)據(jù)庫,但是結(jié)論卻不同,下面通過52.數(shù)據(jù)處理的效率很低

在錯綜復(fù)雜的體系中,不同級別的數(shù)據(jù)庫可能使用不同類型的數(shù)據(jù)庫系統(tǒng),對于有巨型數(shù)據(jù)量的企業(yè)級數(shù)據(jù)庫可能使用IBMDB2,對于中小型數(shù)據(jù)庫可能使用SQLServer。各種數(shù)據(jù)庫的開發(fā)工具和開發(fā)環(huán)境不同,抽取程序應(yīng)用的技術(shù)不同,因而難以集成。如果一個大型企業(yè)的決策者需要一份關(guān)于公司整體運(yùn)營情況的報(bào)表,通常需要動用大量的人力和物力才能達(dá)到,首先,需要確定報(bào)表涉及的內(nèi)容分布在哪個數(shù)據(jù)庫的哪個位置,然后調(diào)動各個部門的程序員\分析員對應(yīng)用進(jìn)行分析,設(shè)計(jì)和編碼。

由于數(shù)據(jù)分散在各個數(shù)據(jù)庫中,因此需要編寫的程序很多。由于在企業(yè)中使用的數(shù)據(jù)庫類型很多,因此可能需要使用多種的技術(shù)來實(shí)現(xiàn)。程序的重用性很差,因?yàn)闆Q策者明天想看的內(nèi)容很可能和今天是不同的??梢姡瑒佑么罅康娜肆?,物力和時間才能完成的報(bào)表不僅實(shí)效性很差,數(shù)據(jù)處理的效率也很低。2.數(shù)據(jù)處理的效率很低

在錯綜復(fù)雜的體系中,不同級別的數(shù)據(jù)6DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變1.3倉庫的應(yīng)用前景以數(shù)據(jù)庫為中心以數(shù)據(jù)庫為中心以數(shù)據(jù)倉庫為中心操作應(yīng)用A操作應(yīng)用B操作應(yīng)用C數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫分析應(yīng)用A分析應(yīng)用B分析應(yīng)用C生產(chǎn)環(huán)境生產(chǎn)環(huán)境應(yīng)用A應(yīng)用B應(yīng)用C以數(shù)據(jù)倉庫為中心圖1-3以數(shù)據(jù)庫為中心的環(huán)境發(fā)展為以數(shù)據(jù)倉庫為中心的環(huán)境的過程示意圖DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演73.難以將數(shù)據(jù)轉(zhuǎn)化成信息除了數(shù)據(jù)處理效率和數(shù)據(jù)的可信度之外,“蜘蛛網(wǎng)”式的結(jié)構(gòu)還難以將數(shù)據(jù)轉(zhuǎn)化為信息。比如,某電力公司想分析某個大客戶今年的情況和過去的3年有什么不同?大客戶的情況可能包括客戶的呼叫行為,話費(fèi)情況,交費(fèi)情況,咨詢問題等。因此想要比較完整的回答這個問題,實(shí)際上需要將客戶多方面的數(shù)據(jù)綜合成信息。在實(shí)際的數(shù)據(jù)庫系統(tǒng)中,記錄客戶呼叫行為的數(shù)據(jù)庫通常只保留客戶最近3個月的呼叫話單,帳務(wù)數(shù)據(jù)庫可能保留客戶今年的交費(fèi)情況,客戶咨詢數(shù)據(jù)庫可能保留客戶2年內(nèi)的咨詢信息,如圖1-4所示。每個數(shù)據(jù)庫由于其數(shù)據(jù)量和業(yè)務(wù)處理的需求不同,對于歷史數(shù)據(jù)的存儲時間也不同,因此以現(xiàn)有的數(shù)據(jù)庫系統(tǒng)難以提供完整的歷史數(shù)據(jù),鑒于這樣的原因,用戶根本不可能從這些數(shù)據(jù)中提取出完整的信息。3.難以將數(shù)據(jù)轉(zhuǎn)化成信息8DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變1.3倉庫的應(yīng)用前景圖1-4現(xiàn)有數(shù)據(jù)庫系統(tǒng)難以提供完整的數(shù)據(jù)歷史數(shù)據(jù)2年1年3個月需要3年的數(shù)據(jù)時間咨詢數(shù)據(jù)庫財(cái)務(wù)數(shù)據(jù)庫呼叫記錄DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演9操作型系統(tǒng)的使用人員通常是企業(yè)的具體操作人員,處理的數(shù)據(jù)通常是企業(yè)業(yè)務(wù)的細(xì)節(jié)信息,其目標(biāo)是實(shí)現(xiàn)企業(yè)的業(yè)務(wù)運(yùn)營;而分析型系統(tǒng)的使用人員通常是企業(yè)的中高層的管理者,或者是從事數(shù)據(jù)分析的工程師。分析型系統(tǒng)包含的信息而非具體的細(xì)節(jié),其目的是為企業(yè)的決策者提供支持信息。操作型系統(tǒng)和分析型系統(tǒng)的劃分如圖1-4所示。操作型處理和分析型處理的分離,劃清了數(shù)據(jù)處理的分析型環(huán)境和操作型環(huán)境之間的界限,從而由原來以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為以數(shù)據(jù)庫為中心的業(yè)務(wù)處理系統(tǒng)和以數(shù)據(jù)倉庫為基礎(chǔ)的分析系統(tǒng)。企業(yè)的生產(chǎn)環(huán)境,也由以數(shù)據(jù)庫為中心的環(huán)境發(fā)展為以數(shù)據(jù)倉庫為中心的環(huán)境,如圖1-5所示。操作型系統(tǒng)的使用人員通常是企業(yè)的具體操作人員,處理的數(shù)據(jù)通常10DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演變1.3倉庫的應(yīng)用前景以數(shù)據(jù)庫為中心以數(shù)據(jù)庫為中心以數(shù)據(jù)倉庫為中心操作應(yīng)用A操作應(yīng)用B操作應(yīng)用C數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫分析應(yīng)用A分析應(yīng)用B分析應(yīng)用C生產(chǎn)環(huán)境生產(chǎn)環(huán)境應(yīng)用A應(yīng)用B應(yīng)用C以數(shù)據(jù)倉庫為中心圖1-5以數(shù)據(jù)庫為中心的環(huán)境發(fā)展為以數(shù)據(jù)倉庫為中心的環(huán)境的過程示意圖DW&DM第一章數(shù)據(jù)倉庫概述1.1數(shù)據(jù)庫到數(shù)據(jù)倉庫的演11DW&DM2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線1.2數(shù)據(jù)倉庫體系結(jié)構(gòu)一、數(shù)據(jù)倉庫體系結(jié)構(gòu)(圖1-6)由于數(shù)據(jù)庫和數(shù)據(jù)倉庫的出發(fā)點(diǎn)不同,數(shù)據(jù)倉庫將獨(dú)立于業(yè)務(wù)數(shù)據(jù)庫系統(tǒng),但是數(shù)據(jù)倉庫又同數(shù)據(jù)庫系統(tǒng)息息相關(guān)。也就是說,數(shù)據(jù)倉庫不是簡單對數(shù)據(jù)進(jìn)行存儲,而是對數(shù)據(jù)進(jìn)行“再組織”。2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)212DW&DM數(shù)據(jù)挖掘系統(tǒng)/數(shù)據(jù)展現(xiàn)系統(tǒng)數(shù)據(jù)集市數(shù)據(jù)提取提取倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)倉庫存儲企業(yè)外部數(shù)據(jù)業(yè)務(wù)操作型數(shù)據(jù)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)數(shù)據(jù)清洗/轉(zhuǎn)換DW&DM數(shù)據(jù)挖掘系統(tǒng)/數(shù)據(jù)展現(xiàn)系統(tǒng)數(shù)據(jù)數(shù)據(jù)提取提取倉庫數(shù)13DW&DM1.3數(shù)據(jù)倉庫重要名詞

數(shù)據(jù)提?。―ataExtraction)——數(shù)據(jù)抽取數(shù)據(jù)倉庫按主題從業(yè)務(wù)數(shù)據(jù)庫提取相關(guān)數(shù)據(jù)的過程。

從數(shù)據(jù)倉庫的角度來看,并不是業(yè)務(wù)數(shù)據(jù)庫中的所有數(shù)據(jù)都是決策支持所必須的。數(shù)據(jù)倉庫按照分析的主題來組織數(shù)據(jù),我們只需要提取出系統(tǒng)分析必須的那一部分?jǐn)?shù)據(jù)。例如:某超市確定以分析客戶的購買行為為主題建立數(shù)據(jù)倉庫,只需將同客戶購買行為相關(guān)的數(shù)據(jù)提取出來,超市員工的數(shù)據(jù)沒有必要放進(jìn)數(shù)據(jù)倉庫。2數(shù)據(jù)清洗(DataCleaning)企業(yè)建立很多不同的數(shù)據(jù)庫數(shù)據(jù)的不一致

是將錯誤的、不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前予以更正或刪除,以免影響DSS決策的正確性。圖2-2所示,客戶數(shù)據(jù)庫中有客戶基本信息表,客戶服務(wù)數(shù)據(jù)庫中有一張客戶咨詢信息表,由于操作人員的失誤,將客戶信息表中的“張山”在客戶咨詢表錄入為“張三”。圖2-3所示,客戶信息表“張三”的手機(jī)狀態(tài)是正常,此時張山去辦理停機(jī),在客戶業(yè)務(wù)變更表中,手機(jī)狀態(tài)修改為“停機(jī)”,如果數(shù)據(jù)刷新不夠?qū)崟r,導(dǎo)致客戶基本信息表和客戶業(yè)務(wù)表變更不同步。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)DW&DM1.3數(shù)據(jù)倉庫重要名詞數(shù)據(jù)提取(DataExtr14DW&DM客戶基本信息表客戶咨詢信息表客戶基本信息表客戶業(yè)務(wù)變更信息表圖1-7操作失誤導(dǎo)致數(shù)據(jù)不一致圖1-8數(shù)據(jù)刷新不時實(shí)導(dǎo)致數(shù)據(jù)不同步客戶號:100姓名:張山年齡:23客戶號:100姓名:張山咨詢問題:…客戶號:100姓名:張山年齡:23手機(jī)服務(wù)狀態(tài):正??蛻籼枺?00姓名:張山業(yè)務(wù)變更:停機(jī)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM客戶基本信息表客戶咨詢信息表客戶基本信息表客戶業(yè)務(wù)15DW&DM3數(shù)據(jù)轉(zhuǎn)化(DataTransformation)(圖2-4)把源數(shù)據(jù)的數(shù)據(jù)格式轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式的過程。也叫:數(shù)據(jù)集成(DataIntegration)

由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫廠商的產(chǎn)品,比如IBMDB2、informix、Sybase.Sqlserver等,各種數(shù)據(jù)庫產(chǎn)品提供的數(shù)據(jù)類型可能不同,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式。4提取倉庫由于業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)和數(shù)據(jù)格式存在不一致的問題,因此在數(shù)據(jù)放進(jìn)數(shù)據(jù)倉庫前需要進(jìn)行緩存,以等待清洗和轉(zhuǎn)換,這些數(shù)據(jù)緩存的位置即提取倉庫。提取日志(ExtractionStore)當(dāng)從業(yè)務(wù)系統(tǒng)提取數(shù)據(jù)時,需要記錄提取數(shù)據(jù)的過程,該過程被記載在提取日志中。提取日志詳細(xì)的記錄了數(shù)據(jù)的來源,數(shù)據(jù)的轉(zhuǎn)化過程等。6數(shù)據(jù)管理員是負(fù)責(zé)數(shù)據(jù)導(dǎo)入時管理數(shù)據(jù)質(zhì)量的專業(yè)人員,還檢閱提取日志,發(fā)現(xiàn)其中數(shù)據(jù)提取的錯誤和源于業(yè)務(wù)系統(tǒng)的錯誤。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM3數(shù)據(jù)轉(zhuǎn)化(DataTransformat16DW&DM圖1-9數(shù)據(jù)格式的不一致2000-2-3…..2000-2-52000-2-42/3/2000…..2/5/20002/4/20002000/2/3…..2000/2/52000/2/42.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM圖1-9數(shù)據(jù)格式的不一致2000-2-3…..217DW&DM7外部數(shù)據(jù)源(ExternalSource)從系統(tǒng)外部獲取的同主題分析相關(guān)的數(shù)據(jù)來源。

例:采購部——(確定采購訂單)采購貨單——產(chǎn)品銷售情況(內(nèi)部)商品的價格水平質(zhì)量水平競爭對手的采購信息(外部)數(shù)據(jù)倉庫存儲用于存放數(shù)據(jù)倉庫數(shù)據(jù)和元數(shù)據(jù)的存儲空間。數(shù)據(jù)存儲方式:多維數(shù)據(jù)集,關(guān)系型數(shù)據(jù)庫以及二者的結(jié)合。數(shù)據(jù)業(yè)務(wù)系統(tǒng)中提取的或者從外部數(shù)據(jù)源中導(dǎo)入的數(shù)據(jù)進(jìn)行清洗,轉(zhuǎn)化后成為數(shù)據(jù)倉庫的原始數(shù)據(jù),它們是數(shù)據(jù)倉庫數(shù)據(jù)的一部分,不是全部。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM7外部數(shù)據(jù)源(ExternalSource)18DW&DM10元數(shù)據(jù)(MetaData)(圖2-5)數(shù)據(jù)是對事物的描述,而元數(shù)據(jù)是對數(shù)據(jù)的描述;它提供了有關(guān)數(shù)據(jù)的環(huán)境。數(shù)據(jù)倉庫中的元數(shù)據(jù)有兩類:第一種是為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),它包括所有源數(shù)據(jù)的名稱,屬性及其在提取倉庫中的轉(zhuǎn)化;第二種是在數(shù)據(jù)倉庫中是用來與最終用戶的多維商業(yè)模型和前端工具之間建立映射的,這種數(shù)據(jù)成為決策支持系統(tǒng)元數(shù)據(jù),包括

(1)數(shù)據(jù)倉庫中的信息的種類,存儲位置,存儲格式(2)信息之間的關(guān)系,信息和業(yè)務(wù)的關(guān)系,數(shù)據(jù)使用的業(yè)務(wù)規(guī)則(3)數(shù)據(jù)模型(4)數(shù)據(jù)模型和數(shù)據(jù)倉庫的關(guān)系。

例如:從customer業(yè)務(wù)數(shù)據(jù)庫的user表中取出3列(user_id,user_name,address),在清洗轉(zhuǎn)換過程中,將user_name從char(20)轉(zhuǎn)化為varchar(50)格式,最終放進(jìn)user維表(User_ID,User_name,Address)中,轉(zhuǎn)換后(User_ID,User_name,Address)3列原始的存放位置、進(jìn)行的清洗轉(zhuǎn)化處理、數(shù)據(jù)最終的存放位置、數(shù)據(jù)格式、數(shù)據(jù)使用的規(guī)則等等都作為元數(shù)據(jù)的一部分,圖2-5所示。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM10元數(shù)據(jù)(MetaData)(圖2-5)19DW&DMChar(20)User_nameVarchar(50)User_NameUser表User_idUser_nameaddress…User_IDUser_NameAddressUser維表圖1-10元數(shù)據(jù)內(nèi)容示例原始數(shù)據(jù)位置數(shù)據(jù)清洗轉(zhuǎn)化數(shù)據(jù)最終存放位置格式轉(zhuǎn)化Customer數(shù)據(jù)庫維表數(shù)據(jù)庫2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DMChar(20)Varchar(50)User20數(shù)據(jù)集市(DataMarket)面向企業(yè)中的某個部門(主題)而在邏輯上或物理上劃分出來的數(shù)據(jù)倉庫中的數(shù)據(jù)子集。

減少數(shù)據(jù)處理量,使信息更快捷,靈活。數(shù)據(jù)集市(DataMarket)21DW&DM權(quán)威定義,WilliamInmon博士90年代初,給出:

數(shù)據(jù)倉庫:通常是一個面向主題的、集成的、隨時間變化的、但信息本身是相對穩(wěn)定的數(shù)據(jù)集合,用于對管理決策過程的支持。1.4數(shù)據(jù)倉庫定義操作型數(shù)據(jù)的特點(diǎn)分析型數(shù)據(jù)的特點(diǎn)細(xì)節(jié)的綜合的、經(jīng)過提煉的在存取的瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新的不可更新操作需求通常事先知道分析需求通常事先不知道生命周期符合SDLC生命周期不同于SDLC對性能(如操作時延)要求高對性能要求較寬一個時刻操作一個數(shù)據(jù)單元一個時刻操作一個數(shù)據(jù)集合事務(wù)驅(qū)動(數(shù)據(jù)驅(qū)動)分析驅(qū)動(模型驅(qū)動)面向應(yīng)用面向分析一次操作數(shù)量小一次操作數(shù)據(jù)量很大支持日常操作需求支持管理需求操作型數(shù)據(jù)和分析型數(shù)據(jù)的特性比較2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM權(quán)威定義,WilliamInmon博士22DW&DM一、數(shù)據(jù)庫的功能和特性數(shù)據(jù)的安全性(以SQLServer為例)用戶DBAPDBMS操作系統(tǒng)數(shù)據(jù)庫身份驗(yàn)證操作權(quán)控制文件操作控制加密存儲與控制計(jì)算機(jī)系統(tǒng)的安全模式數(shù)據(jù)庫數(shù)據(jù)的加密存取——防止有意的非法活動;使用用戶身份驗(yàn)證限制操作權(quán)——控制有意的非法操作;提高系統(tǒng)可靠性數(shù)據(jù)備份——控制無意的損壞2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM一、數(shù)據(jù)庫的功能和特性數(shù)據(jù)的安全性用戶DB23DW&DM2數(shù)據(jù)處理的并發(fā)性事務(wù)T1時間

事務(wù)T2讀A=16T1

T2讀A=16B=B2,寫回B=200A=A-1T3寫回A=15

T4A=A-4寫回A=12(覆蓋了T1對A的修改)丟失數(shù)據(jù)修改2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2數(shù)據(jù)處理的并發(fā)性事務(wù)T124DW&DM事務(wù)T1時間

事務(wù)T2對A加X鎖T1

獲得

讀A=16T2

T3要對A加X鎖等待

修改A=A–1T4等待寫回A=15釋放對A的X鎖T5等待T6獲得對A的X鎖T7讀A=15T8修改A=A–4寫回A=11T9釋放對A的X鎖

沒有丟失數(shù)據(jù)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM沒2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)25DW&DM3事務(wù)處理的可靠性事務(wù)(Transaction):是用戶定義的數(shù)據(jù)操作系列,這些操作可作為一個完整的工作單元。一個事務(wù)內(nèi)的所有語句是一個整體,要么全部執(zhí)行,要么全部不執(zhí)行。例如:A賬戶向B賬戶轉(zhuǎn)帳100元第一個動作——A賬戶—100元第二個動作——B賬戶+100元事務(wù)的特征:(1)原子性(Atomicity)事務(wù)是數(shù)據(jù)庫的邏輯工作單位,其中的操作,要么都進(jìn)行,要么都不進(jìn)行;(2)一致性(Consistency)事務(wù)的執(zhí)行結(jié)果,必須是從數(shù)據(jù)庫的一個一致性狀態(tài)轉(zhuǎn)換到另一個一致性狀態(tài);(3)隔離性(Isolation)一事務(wù)的操作不受其它事務(wù)的干擾,即事務(wù)操作中使用的數(shù)據(jù)是隔離的;(4)持續(xù)性(Durability)事務(wù)一旦提交,對數(shù)據(jù)庫的操作就是永久性(Permanence)的。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM3事務(wù)處理的可靠性事務(wù)(Transacti26DW&DM4數(shù)據(jù)的一致性和完整性二、數(shù)據(jù)倉庫的功能和特性1面向主題

主題:用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重要方面。(如,銷售情況、利潤情況、客戶情況)面向主題:數(shù)據(jù)倉庫中的信息是按主題進(jìn)行組織的,為按主題進(jìn)行決策的過程提供支持。(盡管數(shù)據(jù)仍以表方式存儲,但數(shù)據(jù)組織和建模方法已不同)需要數(shù)據(jù)庫設(shè)計(jì)、應(yīng)用開發(fā)、系統(tǒng)維護(hù)等方面進(jìn)行復(fù)雜的大量工作。由此可見,操作型的環(huán)境涉及到事務(wù)管理,封鎖管理,死鎖管理,數(shù)據(jù)備份恢復(fù),系統(tǒng)日志管理,數(shù)據(jù)存儲管理等一系列復(fù)雜技術(shù)。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM4數(shù)據(jù)的一致性和完整性二、數(shù)據(jù)倉庫的功27DW&DM計(jì)費(fèi)數(shù)據(jù)庫客戶服務(wù)數(shù)據(jù)庫市場信息數(shù)據(jù)庫帳務(wù)數(shù)據(jù)庫收益數(shù)據(jù)客戶數(shù)據(jù)市場數(shù)據(jù)圖1-11數(shù)據(jù)倉庫面向主題的特性現(xiàn)有業(yè)務(wù)系統(tǒng)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM計(jì)費(fèi)數(shù)據(jù)庫客戶服務(wù)數(shù)市場信息數(shù)帳務(wù)數(shù)據(jù)庫收益數(shù)據(jù)客28DW&DM客戶標(biāo)識號客戶姓名客戶年齡客戶地址...客戶基本信息表客戶呼叫記錄表客戶標(biāo)識號客戶呼叫時間客戶呼叫地點(diǎn)客戶呼叫號碼呼叫時長呼叫費(fèi)率......客戶話費(fèi)表客戶標(biāo)識表客戶本月總話費(fèi)本月月租費(fèi)本月通話費(fèi)本月短信費(fèi)...客戶標(biāo)識號客戶咨詢內(nèi)容咨詢答案...客戶咨詢表圖1-12屬于相同主題域的數(shù)據(jù)集合使用相同的公共鍵碼連接2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM客戶標(biāo)識號客戶基本信息表客戶呼叫記錄表客戶標(biāo)識號29DW&DM2數(shù)據(jù)的集成性

OLTP建表的數(shù)據(jù)在多個庫中抽取→蜘蛛網(wǎng)問題OLAP要求數(shù)據(jù)的一致性→集成的(李強(qiáng),李強(qiáng))

圖2-8所示中,示例了一個數(shù)據(jù)集成的例子,某電信公司建立數(shù)據(jù)倉庫時包括了客戶這個主題,公司的業(yè)務(wù)系統(tǒng)中,客戶的信息分散在各個業(yè)務(wù)數(shù)據(jù)庫中,需要從客戶基本信息表,客戶呼叫記錄表,客戶話費(fèi)表,客戶咨詢表等表中將數(shù)據(jù)提取并進(jìn)行集成。圖2-9示例了在實(shí)際問題中可能遇到的需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換的工作。

數(shù)據(jù)的集成性需要對數(shù)據(jù)進(jìn)行ETL,特別是轉(zhuǎn)化和清洗,其中,要注意的問題:⑴數(shù)據(jù)格式⑵測量單位⑶數(shù)據(jù)代碼⑷數(shù)據(jù)名稱數(shù)據(jù)的集成是動態(tài)的,不是靜態(tài)的。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2數(shù)據(jù)的集成性O(shè)LTP建表的30DW&DM客戶基本信息表客戶標(biāo)識號客戶姓名客戶年齡客戶地址...客戶呼叫記錄表客戶標(biāo)識號客戶呼叫時間客戶呼叫地點(diǎn)客戶呼叫號碼呼叫時長呼叫費(fèi)率...客戶話費(fèi)表客戶標(biāo)識號客戶本月總話費(fèi)本月月租費(fèi)本月通話費(fèi)本月短信費(fèi)...客戶咨詢表客戶標(biāo)識號客戶咨詢內(nèi)容咨詢答案...客戶標(biāo)識號客戶姓名客戶年齡客戶地址...客戶標(biāo)識號客戶呼叫時間客戶呼叫地點(diǎn)客戶呼叫號碼呼叫時長呼叫費(fèi)率...客戶標(biāo)識號客戶本月總話費(fèi)本月月租費(fèi)本月通話費(fèi)本月短信費(fèi)...客戶標(biāo)識號客戶咨詢內(nèi)容咨詢答案...圖1-13數(shù)據(jù)從操作型環(huán)境提取到分析型環(huán)境的同時進(jìn)行數(shù)據(jù)集成2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM客戶基本信息表客戶標(biāo)識號客戶呼叫記錄表客戶標(biāo)識號客31DW&DM客戶信息表客戶呼叫記錄表客戶話費(fèi)表客戶咨詢表

1

0

F

M

女男

fmA表通話時長B表通話時長C表通話時長2小時

120分鐘7200秒客戶信息表客戶呼叫記錄表客戶話費(fèi)表客戶咨詢表nameuser_nameUSERNAMENAME客戶信息表客戶呼叫記錄表客戶話費(fèi)表客戶咨詢表姓名姓名姓名姓名char(10)

varchar(10)

char(12)

varchar(20)統(tǒng)一編碼/編碼間轉(zhuǎn)化統(tǒng)一度量單位統(tǒng)一變量命名統(tǒng)一字段格式集成后數(shù)據(jù)圖1-14數(shù)據(jù)集成中數(shù)據(jù)轉(zhuǎn)化的工作2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM客戶信息表客戶呼叫記錄表客戶話費(fèi)表客戶咨詢表132DW&DM任務(wù)調(diào)度:定期進(jìn)行數(shù)據(jù)刷新業(yè)務(wù)系統(tǒng)數(shù)據(jù)清洗,轉(zhuǎn)換整理數(shù)據(jù)倉庫圖1-15數(shù)據(jù)刷新示意進(jìn)一步考慮,決策支持系統(tǒng)需要的不是靜態(tài)的集成,而是動態(tài)的集成。靜態(tài)集成的最大缺點(diǎn)在于數(shù)據(jù)集成后數(shù)據(jù)源中的數(shù)據(jù)發(fā)生了變化,這些變化將不能反映給決策者,導(dǎo)致決策者使用的是過時的數(shù)據(jù)。因此數(shù)據(jù)倉庫必須能夠使集成數(shù)據(jù)以一定的周期(例如24小時)進(jìn)行刷新,使決策者能夠使用新增的數(shù)據(jù),其過程如圖1-15所示。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM任務(wù)調(diào)度:定期進(jìn)行數(shù)據(jù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)清洗,轉(zhuǎn)換整理數(shù)33DW&DM3數(shù)據(jù)的穩(wěn)定性O(shè)LTP中的操作——存入、查詢、修改、刪除OLAP中的操作——存入、查詢(注意:兩個存入的不同)

數(shù)據(jù)倉庫中,數(shù)據(jù)一旦寫入,就不再變化了。所以,也可以把數(shù)據(jù)倉庫看作是一個虛擬的只讀存儲器。我們在圖中演示了一個簡單的例子。例如在3月23日,100號顧客的消費(fèi)金額變成250元,這一信息在業(yè)務(wù)系統(tǒng)中被更新了。但是在數(shù)據(jù)倉庫中(假定數(shù)據(jù)倉庫每天進(jìn)行一次數(shù)據(jù)提?。?,3月23日的數(shù)據(jù)提取結(jié)果是在數(shù)據(jù)倉庫中增加了記錄XXX,說明100號顧客在3月23日的消費(fèi)金額為200元,在執(zhí)行3月24日的數(shù)據(jù)提取工作后,原先記錄的XXX并沒有發(fā)生任何的改變,而是在數(shù)據(jù)倉庫中增加了一條新的紀(jì)錄YYY,說明100號顧客在3月24日的消費(fèi)金額為250元。可見,數(shù)據(jù)倉庫實(shí)際上是為100號顧客的消費(fèi)行為進(jìn)行了定期的拍照,并將快照存儲起來后供后續(xù)的分析工作使用。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM3數(shù)據(jù)的穩(wěn)定性O(shè)LTP中的34DW&DM客戶號:100費(fèi)用(元):200客戶號:100費(fèi)用(元):250記錄號:XXX時間:3月23日客戶號:100費(fèi)用(元):200記錄號:XXX時間:3月23日客戶號:100費(fèi)用(元):200記錄號:YYY時間:3月24日客戶號:100費(fèi)用(元):250業(yè)務(wù)運(yùn)營系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫中增加一個記錄3月23日數(shù)據(jù)抽取3月24日數(shù)據(jù)抽取數(shù)據(jù)更新圖1-16數(shù)據(jù)倉庫的數(shù)據(jù)穩(wěn)定性2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM客戶號:100客戶號:100記錄號:XXX記錄號:35DW&DM4數(shù)據(jù)隨時間變化的特性

OLTP的存入=修改OLAP的存入=增加(數(shù)據(jù)保存大約5—10年)數(shù)據(jù)倉庫——記錄系統(tǒng)的各個瞬態(tài),并通過各個瞬態(tài)的連接形成動畫。

由于在數(shù)據(jù)倉庫中數(shù)據(jù)只增不刪,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時間維度。數(shù)據(jù)倉庫實(shí)際上就是記錄系統(tǒng)的各個瞬間,并通過各個瞬間連接起來形成動畫。從而在數(shù)據(jù)分析的時候再現(xiàn)系統(tǒng)運(yùn)動的全過程。數(shù)據(jù)提取的周期實(shí)際上決定了動畫間隔的時間,數(shù)據(jù)提取的時間短,則動畫的速度快,圖1-17示意了這個特點(diǎn)。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM4數(shù)據(jù)隨時間變化的特性2.1數(shù)據(jù)倉庫的36DW&DM業(yè)務(wù)系統(tǒng)的運(yùn)營數(shù)據(jù)倉庫的快照集合t1t2t3tn圖1-17數(shù)據(jù)倉庫數(shù)據(jù)隨時間變化的特點(diǎn)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM業(yè)務(wù)系統(tǒng)的運(yùn)營數(shù)據(jù)倉庫的快照集合t1t2t3tn圖37DW&DM5多維性數(shù)據(jù)是帶有時間軸的→數(shù)據(jù)是多維的→形成立方體(Cube)

——支持決策三、數(shù)據(jù)倉庫的工作目標(biāo)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)數(shù)據(jù)庫系統(tǒng)中硬件資源利用率曲線數(shù)據(jù)倉庫系統(tǒng)中硬件資源利用率曲線時間時間0%0%100%100%DW&DM5多維性數(shù)據(jù)是帶有時間軸的→數(shù)據(jù)是多維的38DW&DM一、數(shù)據(jù)倉庫的數(shù)據(jù)組織形式數(shù)據(jù)倉庫的數(shù)據(jù)級別:早期細(xì)節(jié)級當(dāng)前細(xì)節(jié)級輕度綜合級高度綜合級1.5數(shù)據(jù)倉庫的數(shù)據(jù)組織2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM一、數(shù)據(jù)倉庫的數(shù)據(jù)組織形式數(shù)據(jù)倉庫的數(shù)據(jù)級別:早39DW&DM后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)高度細(xì)節(jié)級輕度細(xì)節(jié)級當(dāng)前細(xì)節(jié)級早期細(xì)節(jié)級圖1-18數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)圖2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)后備數(shù)據(jù)高度細(xì)節(jié)級輕度細(xì)節(jié)40DW&DM如圖1-19,所示是一個數(shù)據(jù)倉庫數(shù)據(jù)組織的示例。由于客戶的呼叫數(shù)據(jù)的數(shù)據(jù)量很大,并且數(shù)據(jù)倉庫的使用者常常只關(guān)心近期的細(xì)節(jié)數(shù)據(jù),因此我們可以在系統(tǒng)中只保留近三個月的呼叫數(shù)據(jù),而將3個月之前的詳細(xì)數(shù)據(jù)到處到備份設(shè)備中。在數(shù)據(jù)倉庫中,細(xì)節(jié)數(shù)據(jù)可以聚合成輕度和高度綜合級別的數(shù)據(jù),比如按“月”、“季度”、“年”統(tǒng)計(jì),需要說明的是輕度和高度是一種相對的概念,而沒有絕對的邊界,并且在數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度常常有很多的級別。在2001/3時,系統(tǒng)保留了從2001/1~2001/3的呼叫詳細(xì)數(shù)據(jù),等到2001/4月,2001/1的細(xì)節(jié)數(shù)據(jù)被導(dǎo)出,保留的是從2001/2~2001/4的呼叫詳細(xì)數(shù)據(jù)。實(shí)際上綜合數(shù)據(jù)也可能被導(dǎo)出系統(tǒng),比如企業(yè)的管理者認(rèn)為企業(yè)的決策只同企業(yè)近15年來的運(yùn)營數(shù)據(jù)有關(guān),則15年前的綜合數(shù)據(jù)也可以導(dǎo)出。對于高度綜合的數(shù)據(jù),由于其數(shù)據(jù)量已經(jīng)很少,所以一般不考慮它們的導(dǎo)出問題??偟膩碚f,數(shù)據(jù)倉庫的這種組織方式的核心思想是在系統(tǒng)中保留最有可能被客戶使用的數(shù)據(jù),而用戶很少使用的數(shù)據(jù)則備份出系統(tǒng)。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM如圖1-19,所示是一個數(shù)據(jù)倉庫數(shù)41DW&DM當(dāng)前細(xì)節(jié)級輕度綜合級高度綜合級最近3個月(2001年1月-2001年3月)客戶呼叫詳細(xì)數(shù)據(jù)1995-2001年按月統(tǒng)計(jì)的客戶呼叫信息1995-2001年按季度統(tǒng)計(jì)的客戶呼叫信息1995-2001年按年統(tǒng)計(jì)的客戶呼叫信息2001年1月以前的呼叫詳細(xì)數(shù)據(jù)2001/3數(shù)據(jù)倉庫中數(shù)據(jù)的狀態(tài)最近3個月(2001年2月-2001年4月)客戶呼叫詳細(xì)數(shù)據(jù)1995-2001年按月統(tǒng)計(jì)的客戶呼叫信息1995-2001年按季度統(tǒng)計(jì)的客戶呼叫信息1995-2001年按年統(tǒng)計(jì)的客戶呼叫信息2001年2月以前的呼叫詳細(xì)數(shù)據(jù)2001/4數(shù)據(jù)倉庫中數(shù)據(jù)的狀態(tài)圖1-19數(shù)據(jù)倉庫數(shù)據(jù)組織示例2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM當(dāng)前細(xì)節(jié)級輕度綜合級高度綜合級最近3個月1995-42DW&DM二、數(shù)據(jù)的顆粒度數(shù)據(jù)粒度越小→信息越細(xì)節(jié)→數(shù)據(jù)粒度級別越低→數(shù)據(jù)量越大數(shù)據(jù)粒度越大→綜合度越高→數(shù)據(jù)粒度級別越高→數(shù)據(jù)量越小數(shù)據(jù)粒度的兩種形式:⑴是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度的度量

如圖所示的例子,按照每“月”統(tǒng)計(jì)的客戶呼叫數(shù)據(jù)和按照每次呼叫記載的客戶呼叫數(shù)據(jù),兩者的數(shù)據(jù)量相差極大。我們假定每個字段為8個字節(jié),每個用戶一天進(jìn)行5次通話,則一個客戶一個月的呼叫細(xì)節(jié)數(shù)據(jù)的數(shù)據(jù)量為:8×6×30×5=7200字節(jié),而一個客戶1個月的呼叫匯總數(shù)據(jù)的數(shù)據(jù)量為8×4=32字節(jié)。圖1-20所示細(xì)節(jié)數(shù)據(jù)和綜合數(shù)據(jù)用途上的差異。圖1-21所示的細(xì)節(jié)數(shù)據(jù)和綜合數(shù)據(jù)在回答綜合問題上代價的差異。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM二、數(shù)據(jù)的顆粒度數(shù)據(jù)粒度的兩種形式:⑴是對43DW&DM8X630X58X4客戶呼叫記錄表客戶呼叫記錄按月匯總表客戶標(biāo)識號客戶呼叫時間客戶呼叫地點(diǎn)客戶呼叫號碼呼叫時長呼叫費(fèi)率客戶標(biāo)識號月份呼叫總時長呼叫總次數(shù)圖1-20按“月”統(tǒng)計(jì)的客戶呼叫數(shù)據(jù)和按每次呼叫記載的客戶呼叫數(shù)據(jù)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM8X630X58X4客戶呼叫記錄表客戶呼叫記錄客戶44DW&DM細(xì)節(jié)數(shù)據(jù)綜合數(shù)據(jù)綜合數(shù)據(jù)能夠回答的問題:王五這個月打了幾個電話?王五這個月的通話總時長是多少?細(xì)節(jié)數(shù)據(jù)回答的問題:王五這個月3號在北京打了幾個電話?王五這個月3號給李明打過電話媽?通話時間是多少?圖1-21綜合數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)的用途不同2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM細(xì)節(jié)數(shù)據(jù)綜合數(shù)據(jù)綜合數(shù)據(jù)能夠回答的問題:細(xì)節(jié)數(shù)據(jù)回45DW&DM細(xì)節(jié)數(shù)據(jù)綜合數(shù)據(jù)綜合數(shù)據(jù)回答綜合問題,只需在訪問很少的數(shù)據(jù)細(xì)節(jié)數(shù)據(jù)回答綜合問題需要訪問大量的記錄,進(jìn)行大量的計(jì)算。圖1-22綜合數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)回答綜合問題的代價不同2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM細(xì)節(jié)數(shù)據(jù)綜合數(shù)據(jù)綜合數(shù)據(jù)回答綜合問題,只需在訪細(xì)節(jié)46DW&DM從圖中我們可以看出,綜合程度不同的數(shù)據(jù)其用途不同,在數(shù)據(jù)倉庫多重的數(shù)據(jù)粒度是必不可少的,但是由于數(shù)據(jù)倉庫最主要的目的是反映企業(yè)整體信息和DSS分析,回答綜合程度較高的問題。如果為了回答許多細(xì)節(jié)問題,而使系統(tǒng)的數(shù)據(jù)量極度膨脹,從而降低系統(tǒng)的運(yùn)營效率,就背離了系統(tǒng)建設(shè)的初衷,這也是我們在數(shù)據(jù)倉庫數(shù)據(jù)組織方式中說明的,對細(xì)節(jié)數(shù)據(jù)和綜合數(shù)據(jù)采用不同綜合策略的原因。實(shí)際的工程項(xiàng)目中,我們可以將綜合程度較高的數(shù)據(jù)存放在訪問速度較高的磁盤上,而將細(xì)節(jié)數(shù)據(jù)定期導(dǎo)出到低俗的磁帶上。例如,我們將近三個月的呼叫細(xì)節(jié)數(shù)據(jù)和按月綜合的數(shù)據(jù)、按年綜合的數(shù)據(jù)放在高速磁盤上,而將以往的細(xì)節(jié)數(shù)據(jù)放在低俗磁帶上,如圖1-23所示。需要注意的是:從數(shù)據(jù)倉庫中導(dǎo)出的數(shù)據(jù)仍然屬于數(shù)據(jù)倉庫,只是在存儲介質(zhì)上發(fā)生了變化。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM從圖中我們可以看出,綜合程度不47DW&DM3個月內(nèi)的客戶呼叫細(xì)節(jié)數(shù)據(jù)

3個月以前的客戶呼叫細(xì)節(jié)數(shù)據(jù)高速磁盤低速的磁帶設(shè)備5年內(nèi)按月綜合的呼叫數(shù)據(jù)

10年內(nèi)按年綜合的呼叫數(shù)據(jù)

圖1-23不同的數(shù)據(jù)采用不同的存儲介質(zhì)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM3個月內(nèi)的客戶3個月以前的客戶呼叫細(xì)節(jié)數(shù)據(jù)高速磁盤48DW&DM⑵針對數(shù)據(jù)挖掘——統(tǒng)計(jì)中的抽樣樣本空間(數(shù)據(jù)挖掘常常會使用非常負(fù)責(zé)的算法(如神經(jīng)元網(wǎng)絡(luò)),其計(jì)算的復(fù)雜度較高,如果我們將數(shù)據(jù)倉庫中存放的巨量數(shù)據(jù)直接運(yùn)算,則計(jì)算時間和空間復(fù)雜度將太高,以致于系統(tǒng)難以承受。因此我們在進(jìn)行數(shù)據(jù)挖掘時,需要對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行抽樣。粒度的第二種形式是指抽樣率,即以一定的抽樣率對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行抽樣后得到一個樣本數(shù)據(jù)庫,數(shù)據(jù)挖掘?qū)⒃谶@個樣本數(shù)據(jù)庫上進(jìn)行,如圖2-20。這樣抽象的思想是合理的,因?yàn)槲覀冞M(jìn)行數(shù)據(jù)挖掘是為了建立分析模型,反映事務(wù)發(fā)展的規(guī)律和趨勢。由抽樣帶來的模型誤差可以在模型建立之后再次使用源數(shù)據(jù)對模型進(jìn)行校驗(yàn)和調(diào)整,這樣可以大大縮短模型建立的時間,提高模型的精確度。實(shí)際上,數(shù)據(jù)挖掘通過循環(huán)不斷地改進(jìn)分析模型,如圖1-24所示。

2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM⑵針對數(shù)據(jù)挖掘——統(tǒng)計(jì)中的抽樣樣本空間(49DW&DM數(shù)據(jù)倉庫樣本數(shù)據(jù)庫數(shù)據(jù)挖掘算法以一定抽樣率進(jìn)行抽樣圖1-24使用樣本數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM數(shù)據(jù)倉庫樣本數(shù)據(jù)庫數(shù)據(jù)挖掘以一定抽樣率圖1-2450DW&DM數(shù)據(jù)倉庫樣本數(shù)據(jù)庫數(shù)據(jù)挖掘算法(1)以一定抽樣率進(jìn)行抽樣(2)通過挖掘建立模型(3)使用源數(shù)據(jù)進(jìn)行校驗(yàn)(4)再次進(jìn)行循環(huán)分析模型圖1-25數(shù)據(jù)挖掘的循環(huán)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM數(shù)據(jù)倉庫樣本數(shù)據(jù)庫數(shù)據(jù)挖掘算(1)以一定抽樣率進(jìn)行51DW&DM評價抽樣率和抽樣方法是否合適,關(guān)鍵在于抽樣得到的樣本是否能夠反映源數(shù)據(jù)集合的特征,圖1-26所示一種常見的評價方法:通過比較樣本集合間的數(shù)值特征來評價本集合和元數(shù)據(jù)之間的相似性。如:我們使用某種抽樣方法進(jìn)行隨即抽樣,得到樣本1和樣本2,然后比較這兩個樣本集合之間如均值、方差等數(shù)值特征,如果這兩個樣本的數(shù)值特征不類似,則繼續(xù)抽樣。等到抽樣獲得的樣本4,樣本5和樣本6它們的數(shù)值特征非常的相似,則認(rèn)為再繼續(xù)進(jìn)行抽樣的樣本集合的數(shù)值特征也都類似,并且都同數(shù)據(jù)源具有類似的特征,抽樣的過程到此即可以結(jié)束,過程如圖1-26.2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM評價抽樣率和抽樣方法是否合適,關(guān)52DW&DM源數(shù)據(jù)樣本1樣本2樣本3樣本4樣本5樣本6抽樣1抽樣2抽樣3抽樣4抽樣5抽樣6圖1-26數(shù)據(jù)抽樣的評價方法2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM源數(shù)據(jù)樣本1樣本2樣本3樣本4樣本5樣本6抽樣1抽53DW&DM三、數(shù)據(jù)分割:

將數(shù)據(jù)分散到各自的物理單元中,以便能夠獨(dú)立處理,提高數(shù)據(jù)處理的效率,數(shù)據(jù)分割后的數(shù)據(jù)單元成為:分片。數(shù)據(jù)分割沒有固定的標(biāo)準(zhǔn),分割的方法和粒度應(yīng)當(dāng)根據(jù)實(shí)際情況來確定。分割方法常常可以選擇時間、地點(diǎn)、業(yè)務(wù)領(lǐng)域來劃分。如圖1-28所示,顯示了按照地理位置進(jìn)行的一個分割。如果涉及的數(shù)量非常大,可愛按照問題的需求從多個角度進(jìn)行分割,例如按照時間和地理位置兩個角度進(jìn)行分割,如圖1-29。按照時間進(jìn)行分割符合數(shù)據(jù)倉庫數(shù)據(jù)隨時間變化的特點(diǎn),并且分割后數(shù)據(jù)分布比較均勻,所以是最常見的分割方法。

分割使得數(shù)據(jù)可以更容易索引、監(jiān)控和順序掃描,并且重構(gòu)、重組簡單。重構(gòu)是分割的反面,而重組是對分割的數(shù)據(jù)進(jìn)行新的組合,如圖1-27所示。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM三、數(shù)據(jù)分割:將數(shù)據(jù)分散到各自的物理單54DW&DM1995…1996…1997…1998…1999…2000…2001…1995…1997…1999…2001…1996..1998…2000…70,000,000條記錄10,000,000條記錄圖1-27數(shù)據(jù)在時間上的分割2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM199519951997199920011996155DW&DM中國各地區(qū)的產(chǎn)量福建上海寧夏貴州…圖1-28按照地理位置分割1999…2000…2001…1999福建…34340,000條記錄30,000,000條記錄1999廣東…1999山西…………………2000福建…2000廣東…2000山西…2001福建…2001廣東…2001山西…圖1-29按照時間和地理位置分割2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM中國各地區(qū)的福建上海寧夏貴州…圖1-28按照地理56DW&DM1995-20011995199619971998199920012000分割重構(gòu)1996-19971998-20002001重組圖1-30重構(gòu)和重組2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM1995-2001199519961997199857DW&DM四、數(shù)據(jù)倉庫的數(shù)據(jù)組織形式(發(fā)展過程中出現(xiàn))⑴簡單堆積文件數(shù)據(jù)由數(shù)據(jù)庫中提取后逐天存儲簡單直接文件(對數(shù)據(jù)庫進(jìn)行快照(不一定按天),并存儲)(圖1-31)⑵定期綜合文件數(shù)據(jù)存儲單位被分成日、周、旬、月、季、年等多個級別,定期進(jìn)行綜合(圖1-32)

優(yōu)點(diǎn):存儲量??;缺點(diǎn):細(xì)節(jié)在綜合中丟失2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM四、數(shù)據(jù)倉庫的數(shù)據(jù)組織形式(發(fā)展過程中出現(xiàn))⑴58DW&DM2001/1/12001/1/22001/1/3……2001/2/12001/2/22001/2/3業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫快照圖1-31簡單堆積文件……2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2001/1/12001/1/22001/1/3…59DW&DM2001/1/12001/1/2…2001/1/72001年第1周2001年第2周…2001年第7周2001年1月2001年2月…2001年12月2001年1季度2001年2季度…2001年4季度2001年數(shù)據(jù)綜合逐漸增加圖1-32定期綜合文件(丟失細(xì)節(jié)換空間)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2001/1/12001/1/2…2001/1/760DW&DM⑶連續(xù)文件連續(xù)文件保留了簡單堆積和定期綜合的優(yōu)點(diǎn)(圖1-34,1-35,1-36)在簡單堆積文件中,每天的數(shù)據(jù)表中有很多雷同的信息,如圖2-29所示的某商場2001/1和2001/2的兩張采購表,其中“牙膏”和“毛巾”在兩個表都出現(xiàn)了。牙膏在2001/1是從上海購買的,而2001/2是在北京購買,其他的信息都相同。如果能夠記錄兩表之間不同的信息,則既能保留細(xì)節(jié)信息,又能大大減少數(shù)據(jù)量。圖1-35中顯示了對兩張表使用連續(xù)文件的形式進(jìn)行存儲的結(jié)果。對于兩個表中相同的表項(xiàng)“毛巾”,只需在時間列上說明使用范圍是“2001/1-2001/2”,對于兩表不同的表項(xiàng)分別記錄。隨著時間的推移,如果又有新的數(shù)據(jù)表加入,則我們可以使用連續(xù)文件和新的數(shù)據(jù)表進(jìn)行類似的處理,以達(dá)到“兩全其美”的目的。如圖2-31所示,我們將2001年1月~2001年2月的連續(xù)文件和2001年3月的新文件進(jìn)行綜合,而后得到2001年1月~2001年3月的連續(xù)文件。但是,我們應(yīng)當(dāng)指出:連續(xù)文件增加的“時間”列也會為查詢帶來一定的不便。一個系統(tǒng)某些性能的提高,總是通過犧牲其他的性能來獲得的。注意:連續(xù)文件的缺點(diǎn)是給查詢帶來不方便2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM⑶連續(xù)文件注意:連續(xù)文件的缺點(diǎn)是給查詢帶來不方61DW&DM2001/1月采購表2001/2月采購表圖1-34某商場2001/1和2001/2的兩張采購表商品編號商品名購買地點(diǎn)1牙膏上海2毛巾廣州4水杯深圳商品編號商品名

購買地點(diǎn)1牙膏北京2毛巾廣州3筆杭州6褲子寧波2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2001/1月采購表2001/2月采購表圖1-3462DW&DM2001/1月采購表2001/2月采購表1商品編號商品名購買地點(diǎn)121商品編號商品名購買地點(diǎn)124牙膏毛巾水杯上海廣州深圳3毛巾牙膏筆北京廣州杭州6褲子寧波2001/1—2001/2月采購表商品編號112346商品名牙膏牙膏毛巾筆水杯褲子購買地點(diǎn)上海北京廣州杭州深圳寧波時間2001/12001/22002/1-2001/22001/22001/12001/2圖1-35連續(xù)文件示例2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2001/1月采購表2001/2月采購表1商品編號63DW&DM2001/1—2001/2月采購表商品編號112346商品名牙膏牙膏毛巾筆水杯褲子購買地點(diǎn)上海北京廣州杭州深圳寧波時間2001/12001/22002/1-2001/22001/22001/12001/22001/3月采購表1商品編號商品名購買地點(diǎn)123毛巾牙膏筆北京廣州杭州6褲子寧波2001/1—2001/3月采購表商品編號112346商品名牙膏牙膏毛巾筆水杯褲子購買地點(diǎn)上海北京廣州杭州深圳寧波時間2001/12001/2-2001/32002/1-2001/32001/2-2001/32001/12001/2-2001/3圖1-36連續(xù)文件和新的數(shù)據(jù)表的結(jié)合2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2001/1—2001/2月采購表商品編號112364DW&DM五、數(shù)據(jù)倉庫的數(shù)據(jù)追加技術(shù)數(shù)據(jù)組織結(jié)構(gòu)數(shù)據(jù)組織形式解決數(shù)據(jù)存儲問題數(shù)據(jù)倉庫完成數(shù)據(jù)的初始加載后,還需要不斷地增加新數(shù)據(jù)數(shù)據(jù)追加技術(shù)→關(guān)鍵是捕獲數(shù)據(jù)變化→把變化記錄下來⑴時標(biāo)法給(數(shù)據(jù)庫)中的數(shù)據(jù)增加一個時間標(biāo)記,當(dāng)檢索到新的時間標(biāo)記時,把帶有新時間標(biāo)記的記錄作為數(shù)據(jù)倉庫的數(shù)據(jù)追加內(nèi)容。如圖1-37,在完成2001/1的數(shù)據(jù)導(dǎo)入工作后,2001/1/2日數(shù)據(jù)條目(2001/1/1,1,牙膏,上海)發(fā)生了變化,則將其時間標(biāo)記改成2001/1/2,這樣在執(zhí)行2001/1/2的數(shù)據(jù)導(dǎo)入工作時,數(shù)據(jù)庫將會檢索到的具有新時間標(biāo)記的條目(2001/1/2,1,牙膏,北京)作為數(shù)據(jù)追加的內(nèi)容。問題:一般數(shù)據(jù)庫不會增加時間標(biāo)記(因?yàn)闀r間標(biāo)記對于OLTP沒有意義)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM五、數(shù)據(jù)倉庫的數(shù)據(jù)追加技術(shù)數(shù)據(jù)組織結(jié)構(gòu)解決數(shù)據(jù)存儲65DW&DM比較時間標(biāo)記,發(fā)現(xiàn)比2001/1/1更新的時間標(biāo)記的記錄追加進(jìn)數(shù)據(jù)倉庫時間標(biāo)記商品編號商品名購買地點(diǎn)2001/1/12001/1/112牙膏毛巾上海上海時間標(biāo)記2001/1/22001/1/1商品編號12商品名牙膏毛巾購買地點(diǎn)北京上海2001/1/21牙膏北京2001/1/1完成數(shù)據(jù)導(dǎo)入后2001/1/2再次數(shù)據(jù)導(dǎo)入圖1-37時標(biāo)法2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM比較時間標(biāo)記,發(fā)現(xiàn)比2066DW&DM⑵前后映像比較法對數(shù)據(jù)庫進(jìn)行快照,把當(dāng)前快照和原來快照作比較,決定數(shù)據(jù)追加內(nèi)容(圖1-38)。缺點(diǎn):數(shù)據(jù)庫數(shù)據(jù)量大時,全數(shù)據(jù)庫比較無法做到。

⑶DELTA文件法從應(yīng)用程序中記錄修改了哪些數(shù)據(jù),形成DELTA文件,作為數(shù)據(jù)追加內(nèi)容(圖1-39)。(很難使所有應(yīng)用程序都支持DELTA文件功能)⑷日志文件法由數(shù)據(jù)庫服務(wù)器詳細(xì)記錄數(shù)據(jù)操作,形成數(shù)據(jù)庫日志文件,通過分析數(shù)據(jù)庫日志文件,獲取數(shù)據(jù)變化情況,得到數(shù)據(jù)追加內(nèi)容圖1-40中我們示意了一段簡化了的系統(tǒng)日志,它包含操作時間、操作人員、操作內(nèi)容、操作結(jié)果(包括正確和錯誤)等基本信息。我們可以通過對數(shù)據(jù)追加任務(wù)完成后新生成的系統(tǒng)日志進(jìn)行分析,得到追加內(nèi)容。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM⑵前后映像比較法對數(shù)據(jù)庫進(jìn)行快照,把當(dāng)67DW&DM原先業(yè)務(wù)數(shù)據(jù)庫當(dāng)前業(yè)務(wù)數(shù)據(jù)庫快照1快照2比較后追加圖1-38前后映像比較法業(yè)務(wù)數(shù)據(jù)庫應(yīng)用程序DELTA文件:記錄應(yīng)用程序?qū)I(yè)務(wù)數(shù)據(jù)成功的修改對于修改操作圖1-39DELTA文件示意圖2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM原先業(yè)務(wù)數(shù)當(dāng)前業(yè)務(wù)數(shù)快照1快照2比較后追加圖1-368DW&DM應(yīng)用程序a應(yīng)用程序b應(yīng)用程序c數(shù)據(jù)庫服務(wù)器業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)日志:記錄所應(yīng)用程序?qū)I(yè)務(wù)數(shù)據(jù)庫的訪問情況圖1-40日志文件法2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM應(yīng)用程序a應(yīng)用程序b應(yīng)用程序c數(shù)據(jù)庫服務(wù)器業(yè)務(wù)數(shù)69DW&DM2001/1/1:9:00:LiMingUPDATE=‘林沖’WHEREuser_id=100;2002/1/1:9:01:LiMingSELECT*FROMWHEREuser_id>100;2001/1/1:9:02:saUPDATE=‘林勝之’WHEREuser_id=100;2001/1/1:9:03:saCREATETABLEuserinfo………查詢性質(zhì)的操作可以不做處理對user表的兩種操作,只需執(zhí)行第二次刪除操作圖1-41分析日志文件六、清理數(shù)據(jù)倉庫中的數(shù)據(jù)◆數(shù)據(jù)從操作型環(huán)境進(jìn)入分析型環(huán)境;◆數(shù)據(jù)從細(xì)節(jié)數(shù)據(jù)逐漸轉(zhuǎn)換為綜合數(shù)據(jù);◆數(shù)據(jù)從高速磁盤上轉(zhuǎn)移到低速磁帶機(jī)上;◆數(shù)據(jù)失去使用價值,最終被清除?!獢?shù)據(jù)在數(shù)據(jù)倉庫中的生命周期數(shù)據(jù)倉庫中清理的過程如下:2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM2001/1/1:9:00:LiMingUP70DW&DM一、ODS的概念

問題:企業(yè)經(jīng)常會遇到介于OLTP和OLAP之間的業(yè)務(wù)問題

例:超市采購

采購部經(jīng)理——確定進(jìn)貨清單了解商品存貨是否充足商品近期的銷售情況近期的倉儲情況超市的現(xiàn)有資金情況…分析→進(jìn)貨清單數(shù)據(jù)倉庫數(shù)據(jù)量太大→信息檢索時間太長→無法完成問題類型:既要方便分析,又要快速進(jìn)行數(shù)據(jù)檢索,同時,數(shù)據(jù)應(yīng)該是全局一致的信息

用于支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合。1.7操作數(shù)據(jù)存貯ODS(OperationalDataStore)2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)ODS定義ODSDW&DM一、ODS的概念1.7操作數(shù)據(jù)存貯O71DW&DM二、ODS的特性類似于傳統(tǒng)的數(shù)據(jù)庫

引入數(shù)據(jù)是可變的;

數(shù)據(jù)是當(dāng)前或者近期的(ODS市面向全局應(yīng)用的,因此ODS中的數(shù)據(jù)需要面向主題來組織,并且應(yīng)當(dāng)是實(shí)時集成的)有別于分散的操作型系統(tǒng)

數(shù)據(jù)按照主體來組織在企業(yè)級上要求保持一致,因此進(jìn)入ODS的數(shù)據(jù)必須經(jīng)過清洗和整理到達(dá)集成和一致的目的區(qū)別于DW的特性

存放當(dāng)前和近期的數(shù)據(jù),ODS中的數(shù)據(jù)可以進(jìn)行聯(lián)機(jī)修改,包括增加、刪除、更新等操作,而DW的數(shù)據(jù)只增不刪。

2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)DW&DM二、ODS的特性2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.272DW&DM三、ODS應(yīng)用⑴企業(yè)級的OLTP應(yīng)用由于ODS提供的是集成的、企業(yè)級一致的數(shù)據(jù),因此,企業(yè)級的OLTP成為可能。企業(yè)級OLTP:是指在實(shí)際事物的處理中,常常涉及多個部門的數(shù)據(jù),需要通過多個部門的數(shù)據(jù)協(xié)同才能更好的完成任務(wù)。2.1數(shù)據(jù)倉庫的體系結(jié)構(gòu)2.2數(shù)據(jù)倉庫的特點(diǎn)2.3數(shù)據(jù)倉庫的數(shù)據(jù)組織2.4數(shù)據(jù)倉庫建設(shè)的兩條技術(shù)路線2.5操作數(shù)據(jù)存儲ODS2.6外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)實(shí)例:在一個大型國有企業(yè)中存在多個部門:人事處、財(cái)務(wù)處、企業(yè)醫(yī)院、幼兒園等。當(dāng)一個職工工作調(diào)動時,需要辦理企業(yè)規(guī)定的一系列調(diào)動手續(xù)。如圖2-40所示。DW&DM三、ODS應(yīng)用⑴企業(yè)級的OLTP應(yīng)用2.173DW&DM人事處

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論