數(shù)據(jù)倉庫技術(shù)_第1頁
數(shù)據(jù)倉庫技術(shù)_第2頁
數(shù)據(jù)倉庫技術(shù)_第3頁
數(shù)據(jù)倉庫技術(shù)_第4頁
數(shù)據(jù)倉庫技術(shù)_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫技術(shù)Data Warehouse薛濤薛濤 2008.9.8提綱o數(shù)據(jù)倉庫技術(shù)的產(chǎn)生o數(shù)據(jù)倉庫的定義和特征o數(shù)據(jù)倉庫中的數(shù)據(jù)組織n數(shù)據(jù)的粒度n數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)n數(shù)據(jù)的分割n數(shù)據(jù)倉庫的數(shù)據(jù)組織模式nETLo數(shù)據(jù)集市oOLAPn定義和實(shí)例nOLAP的多維數(shù)據(jù)分析nOLTP與OLAPo數(shù)據(jù)倉庫系統(tǒng)(DWS)1 數(shù)據(jù)倉庫技術(shù)的產(chǎn)生數(shù)據(jù)倉庫技術(shù)的產(chǎn)生o數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse)技術(shù)完全是在決策需求的驅(qū)動下產(chǎn)生與發(fā)展起來的。n“數(shù)據(jù)太多,信息不足”的現(xiàn)狀n異構(gòu)環(huán)境的數(shù)據(jù)的轉(zhuǎn)換和共享 n利用數(shù)據(jù)進(jìn)行數(shù)據(jù)處理轉(zhuǎn)換為利用數(shù)據(jù)支持決策o操作型數(shù)據(jù)庫無法滿足決策支持系統(tǒng)

2、對數(shù)據(jù)庫系統(tǒng)的要求o專為決策服務(wù)的數(shù)據(jù)庫系統(tǒng)稱為數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse,簡稱DW)。2.1 數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫的定義o以1992年W.H.Inmon出版Building the Data Warehouse為標(biāo)志,數(shù)據(jù)倉庫速度發(fā)展起來,Inmon也被譽(yù)為 “數(shù)據(jù)倉庫之父”。oW.H.Inmon對數(shù)據(jù)倉庫數(shù)據(jù)倉庫的定義是:“數(shù)據(jù)倉庫是支持決策過程的、面向主題的、集成的、隨時間變化的、持久的數(shù)據(jù)集合。2.2 數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫的特征n是面向主題 (Subject-Orientation) 的;n數(shù)據(jù)倉庫是集成 ( Integration ) 的;n數(shù)據(jù)倉庫是穩(wěn)定/非

3、易失性 ( Nonvolatile ) 的;n是隨時間變化 ( Time Vagrancy ) 的;n是信息的概括和聚集。3 數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)倉庫中的數(shù)據(jù)組織3.1 數(shù)據(jù)的粒度3.2 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)3.3 數(shù)據(jù)的分割3.4 數(shù)據(jù)倉庫的數(shù)據(jù)組織模式3.5 數(shù)據(jù)的追加3.1 粒度粒度o粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或總合程度的級別。o細(xì)化程度越高,粒度級就越小;細(xì)化程度越低,粒度級就越大。o粒度細(xì)節(jié)的級別o粒度的劃分決定了數(shù)據(jù)倉庫中數(shù)據(jù)量的大小和查詢的詳細(xì)程度。o多重粒度粒度的一個例子粒度的一個例子高細(xì)化低細(xì)化每月200個記錄每月40,000個字節(jié)每月一個記錄每月200

4、個字節(jié)通過檢索可以回答無細(xì)節(jié)無法回答詢問某一電話的細(xì)節(jié)3.2 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)元數(shù)據(jù)高度綜合級高度綜合級輕度綜合級輕度綜合級(數(shù)據(jù)集市數(shù)據(jù)集市)銷售細(xì)節(jié)級銷售細(xì)節(jié)級2000-2001操作型轉(zhuǎn)換操作型轉(zhuǎn)換早期細(xì)節(jié)級早期細(xì)節(jié)級每月銷售每月銷售1994-2001每周銷售每周銷售1994-2001當(dāng)前細(xì)節(jié)級當(dāng)前細(xì)節(jié)級銷售細(xì)節(jié)級銷售細(xì)節(jié)級1994-19993.3 分割分割o分割將當(dāng)前細(xì)節(jié)數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率。o分片數(shù)據(jù)分割后的獨(dú)立單元。o數(shù)據(jù)的分割 提高了數(shù)據(jù)管理的靈活性重構(gòu)、索引、重組、恢復(fù)、監(jiān)控o分割的標(biāo)準(zhǔn):日期、地域、

5、業(yè)務(wù)領(lǐng)域。分割的一個例子分割的一個例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保險生命保險健康保險3.4 數(shù)據(jù)倉庫的數(shù)據(jù)組織模式數(shù)據(jù)倉庫的數(shù)據(jù)組織模式o星型模式(star schema)o雪花模式(snowflake schema) o混合模式事實(shí)表事實(shí)表維維量量維表維表中間有一個單一表,沿半徑向外連接到多個表是星型模式的擴(kuò)展,每一個點(diǎn)都沿半徑向外連接到多個點(diǎn)3.5 ETLo數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL)是建立數(shù)據(jù)倉庫的重要步驟,需要花費(fèi)開發(fā)數(shù)據(jù)倉庫70%的工作量。數(shù)據(jù)抽取、轉(zhuǎn)換和裝載數(shù)據(jù)抽取、轉(zhuǎn)換和裝載(ETL)o 數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,主

6、要是企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,主要是企業(yè)內(nèi)部數(shù)據(jù);存檔的歷史數(shù)據(jù);企業(yè)的外部數(shù)據(jù)。這內(nèi)部數(shù)據(jù);存檔的歷史數(shù)據(jù);企業(yè)的外部數(shù)據(jù)。這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng)。源數(shù)據(jù)是以不同的格式存放在不同的數(shù)操作系統(tǒng)。源數(shù)據(jù)是以不同的格式存放在不同的數(shù)據(jù)庫中。據(jù)庫中。o數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝數(shù)據(jù)倉庫需要將這些源數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換和裝載的過程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中??梢哉f,載的過程,存儲到數(shù)據(jù)倉庫的數(shù)據(jù)模型中??梢哉f,數(shù)據(jù)倉庫的數(shù)據(jù)獲取需要經(jīng)過抽取數(shù)據(jù)倉庫的數(shù)據(jù)獲取需要經(jīng)過抽?。‥xtraction)、轉(zhuǎn)換(

7、)、轉(zhuǎn)換(Transform)、裝載)、裝載(Load)三個過程即)三個過程即ETL過程。過程。 3.5.1 數(shù)據(jù)抽取數(shù)據(jù)抽取o確認(rèn)數(shù)據(jù)源確認(rèn)數(shù)據(jù)源1.數(shù)據(jù)抽取技術(shù)數(shù)據(jù)抽取技術(shù)1.確認(rèn)數(shù)據(jù)源確認(rèn)數(shù)據(jù)源o列出對事實(shí)表的每一個數(shù)據(jù)項(xiàng)和事實(shí)列出對事實(shí)表的每一個數(shù)據(jù)項(xiàng)和事實(shí)o列出每一個維度屬性列出每一個維度屬性o對于每個目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng)對于每個目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng)o一個數(shù)據(jù)元素有多個來源,選擇最好的來源一個數(shù)據(jù)元素有多個來源,選擇最好的來源o確認(rèn)一個目標(biāo)字段的多個源字段,建立合并規(guī)則確認(rèn)一個目標(biāo)字段的多個源字段,建立合并規(guī)則o確認(rèn)一個目標(biāo)字段的多個源字段,建立分離規(guī)則確認(rèn)一個目標(biāo)字段的多個

8、源字段,建立分離規(guī)則o確定默認(rèn)值確定默認(rèn)值o檢查缺失值的源數(shù)據(jù)檢查缺失值的源數(shù)據(jù)2.數(shù)據(jù)抽取技術(shù)數(shù)據(jù)抽取技術(shù)o當(dāng)前值。當(dāng)前值。n源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時刻的值。當(dāng)商業(yè)交源系統(tǒng)中存儲的數(shù)據(jù)都代表了當(dāng)前時刻的值。當(dāng)商業(yè)交易時,這些數(shù)據(jù)是會發(fā)生變化的。易時,這些數(shù)據(jù)是會發(fā)生變化的。o周期性的狀態(tài)。周期性的狀態(tài)。n這類數(shù)據(jù)存儲的是每次發(fā)生變化時的狀態(tài)。例如,對于這類數(shù)據(jù)存儲的是每次發(fā)生變化時的狀態(tài)。例如,對于每一保險索賠,都經(jīng)過索賠開始、確認(rèn)、評估和解決等每一保險索賠,都經(jīng)過索賠開始、確認(rèn)、評估和解決等步驟,都要考慮有時間說明。步驟,都要考慮有時間說明。3.5.2 數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換o數(shù)據(jù)轉(zhuǎn)換的

9、基本功能數(shù)據(jù)轉(zhuǎn)換的基本功能o數(shù)據(jù)轉(zhuǎn)換類型數(shù)據(jù)轉(zhuǎn)換類型o數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并o如何實(shí)施轉(zhuǎn)換如何實(shí)施轉(zhuǎn)換1.數(shù)據(jù)轉(zhuǎn)換的基本功能數(shù)據(jù)轉(zhuǎn)換的基本功能o選擇:選擇:從源系統(tǒng)中選擇整個記錄或者部分記錄。從源系統(tǒng)中選擇整個記錄或者部分記錄。 o分離分離/合并:合并:對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。對源系統(tǒng)中的數(shù)據(jù)進(jìn)行分離操作或者合并操作。o轉(zhuǎn)化:轉(zhuǎn)化:對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。對源系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和可理解化。o匯總:匯總:將最低粒度數(shù)據(jù)進(jìn)行匯總。將最低粒度數(shù)據(jù)進(jìn)行匯總。 o清晰:清晰:對單個字段數(shù)據(jù)進(jìn)行重新分配和簡化對單個字段數(shù)據(jù)進(jìn)行重新分配和簡化 。2.數(shù)據(jù)轉(zhuǎn)換類型數(shù)據(jù)轉(zhuǎn)換類型(1)格

10、式修正)格式修正(2)字段的解碼)字段的解碼(3)計算值和導(dǎo)出值)計算值和導(dǎo)出值(4)單個字段的分離)單個字段的分離(5)信息的合并)信息的合并(6)特征集合轉(zhuǎn)化)特征集合轉(zhuǎn)化(7)度量單位的轉(zhuǎn)化)度量單位的轉(zhuǎn)化(8)關(guān)鍵字重新構(gòu)造)關(guān)鍵字重新構(gòu)造(9)匯總)匯總(10)日期)日期/時間轉(zhuǎn)化時間轉(zhuǎn)化3.數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合數(shù)據(jù)整合和合并是將相關(guān)的源數(shù)據(jù)組合成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。成一致的數(shù)據(jù)結(jié)構(gòu),裝入數(shù)據(jù)倉庫。(1)實(shí)體識別問題)實(shí)體識別問題 數(shù)據(jù)來源于多個不同的客戶系統(tǒng),對相同客戶可能分別數(shù)據(jù)來源于多個不同的客戶系統(tǒng),對相同客戶可能分別有不同

11、的鍵碼,將它們組合成一條單獨(dú)的記錄。有不同的鍵碼,將它們組合成一條單獨(dú)的記錄。 (2)多數(shù)據(jù)源相同屬性不同值的問題)多數(shù)據(jù)源相同屬性不同值的問題 不同系統(tǒng)中得到的值存在一些差別不同系統(tǒng)中得到的值存在一些差別 ,需要給出合理的值。,需要給出合理的值。4.如何實(shí)施轉(zhuǎn)換如何實(shí)施轉(zhuǎn)換o自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換自己編寫程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換o使用轉(zhuǎn)換工具使用轉(zhuǎn)換工具3.5.3 數(shù)據(jù)裝載數(shù)據(jù)裝載(1)數(shù)據(jù)裝載方式)數(shù)據(jù)裝載方式(2)數(shù)據(jù)裝載類型)數(shù)據(jù)裝載類型1.數(shù)據(jù)裝載方式數(shù)據(jù)裝載方式o基本裝載基本裝載o按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。按照裝載的目標(biāo)表,將轉(zhuǎn)換過的數(shù)據(jù)輸入到目標(biāo)表中去。 o追加

12、追加o如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù)。加輸入數(shù)據(jù)。 o破壞性合并破壞性合并o用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。 o建設(shè)性合并建設(shè)性合并o保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。保留已有的記錄,增加輸入的記錄,并標(biāo)記為舊記錄的替代。2.數(shù)據(jù)裝載類型數(shù)據(jù)裝載類型o最初裝載最初裝載o這是第一次對整個數(shù)據(jù)倉庫進(jìn)行裝載。這是第一次對整個數(shù)據(jù)倉庫進(jìn)行裝載。 o增量裝載增量裝載o由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。由于源系統(tǒng)的變化,數(shù)據(jù)倉庫需要裝載變化的數(shù)據(jù)。o完

13、全刷新完全刷新o這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。這種類型的數(shù)據(jù)裝載用于周期性重寫數(shù)據(jù)倉庫。 3.5.4 ETL工具工具o數(shù)據(jù)轉(zhuǎn)換引擎數(shù)據(jù)轉(zhuǎn)換引擎o代碼生成器代碼生成器o通過復(fù)制捕獲數(shù)據(jù)通過復(fù)制捕獲數(shù)據(jù)4.1 數(shù)據(jù)集市的概念數(shù)據(jù)集市的概念o數(shù)據(jù)集市(Data Mart)具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個具有戰(zhàn)略意義的應(yīng)用或者具體部門級的應(yīng)用,支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。人力資源數(shù)據(jù)集市人力資源數(shù)據(jù)集市財務(wù)數(shù)據(jù)集市財務(wù)數(shù)據(jù)集市銷售數(shù)據(jù)集市銷售數(shù)據(jù)集市市場數(shù)據(jù)集市等市場數(shù)據(jù)集市等4.2 數(shù)據(jù)集市的種類數(shù)據(jù)集市的種類o獨(dú)立的數(shù)據(jù)集市(Indep

14、endent Data Mart),數(shù)據(jù)直接來源于數(shù)據(jù)源。o從屬的數(shù)據(jù)集市(Dependeant Data Mart),數(shù)據(jù)來源于中央的數(shù)據(jù)倉庫。數(shù)據(jù)源數(shù)據(jù)源分析工具分析工具獨(dú)立數(shù)據(jù)集市兩種數(shù)據(jù)集市兩種數(shù)據(jù)集市分析工具中央數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)源從屬數(shù)據(jù)集市分析工具分析工具5.1 OLAP的定義o聯(lián)機(jī)分析處理是是一種軟件技術(shù),他使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的。o聯(lián)機(jī)分析技術(shù)是共享多維信息的快速分析??焖傩?5秒內(nèi)作出反應(yīng)可分析性 邏輯分析和統(tǒng)計分析多維性 支持多維表信息性 及時獲取信息一個3維的模型,3個維為:部門,時間,銷售。三維立方體,三維表OLA

15、P實(shí)例時間時間部門部門銷售銷售1998 1999汽車家具服裝 銷售量利潤增長%5.2 OLAP的多維數(shù)據(jù)分析o切片和切塊(slice and dice) 固定多維表的某一維或某幾維,使一些列或行不顯示。o鉆取(drill) 各粒度級別(維的層次)之間的訪問。 上鉆(drill up) 下鉆(drill down)o旋轉(zhuǎn)(pivoting) 平面數(shù)據(jù)的坐標(biāo)軸轉(zhuǎn)換。5.3 OLTP與與OLAPoOLTP系統(tǒng)聯(lián)機(jī)事務(wù)處理 On-Line Transaction Processing 事件驅(qū)動,面向應(yīng)用。 如:銀行的儲蓄系統(tǒng)oOLAP系統(tǒng)聯(lián)機(jī)分析處理 On-Line Analytical Proces

16、sing 跨部門,面向主題。oOLTP與OLAP對比 面向分析,分析驅(qū)動面向應(yīng)用,事務(wù)驅(qū)動面向決策人員,支持管理需要面向操作人員,支持日常操作用戶數(shù)量相對較少用戶數(shù)量大響應(yīng)時間合理對響應(yīng)時間要求高一次處理的數(shù)據(jù)量大一次處理的數(shù)據(jù)量小周期性更新經(jīng)常更新歷史數(shù)據(jù)當(dāng)前數(shù)據(jù)綜合性數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)數(shù)據(jù)庫/數(shù)據(jù)倉庫數(shù)據(jù)(分析型)數(shù)據(jù)庫數(shù)據(jù)(操作型)OLAPOLTP6 數(shù)據(jù)倉庫系統(tǒng)(數(shù)據(jù)倉庫系統(tǒng)(DWS)數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)= =數(shù)據(jù)倉庫數(shù)據(jù)倉庫( (DW)+DW)+倉庫管理倉庫管理+ +分析工具分析工具關(guān)系數(shù)據(jù)數(shù)據(jù)文件其它數(shù)據(jù)綜合數(shù)據(jù)當(dāng)前數(shù)據(jù)數(shù)據(jù)倉庫管理工具抽取、轉(zhuǎn)換裝載元數(shù)據(jù)庫數(shù)據(jù)建模工具歷史數(shù)據(jù)用戶

17、查詢工具C/S工具OLAP工具DM工具源數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫分析工具參考書籍o數(shù)據(jù)倉庫(Building the Data Warehouse)W.H.Inmon機(jī)械工業(yè)出版社o數(shù)據(jù)倉庫技術(shù)及聯(lián)機(jī)分析處理王珊等編著科學(xué)出版社 Q & A 謝謝!決策支持系統(tǒng)對數(shù)據(jù)庫系統(tǒng)的要求:決策支持系統(tǒng)對數(shù)據(jù)庫系統(tǒng)的要求:o詳細(xì)數(shù)據(jù)與總結(jié)數(shù)據(jù)總結(jié)數(shù)據(jù)(summary data)o當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)歷史數(shù)據(jù)o數(shù)據(jù)源的異構(gòu)性異構(gòu)性和分布性分布性 o即時更新與按需更新按需更新o聯(lián)機(jī)事務(wù)處理OLTP與聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理OLAP操作型數(shù)據(jù)與分析型數(shù)據(jù)操作型數(shù)據(jù)與分析型數(shù)據(jù)操作型數(shù)據(jù)操作型數(shù)據(jù)分析型數(shù)據(jù)分析

18、型數(shù)據(jù)細(xì)節(jié)的細(xì)節(jié)的綜合的綜合的在存取的瞬間是準(zhǔn)確的在存取的瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)代表過去的數(shù)據(jù)可更新可更新不更新不更新操作需求預(yù)先知道操作需求預(yù)先知道操作需求預(yù)先不知道操作需求預(yù)先不知道事務(wù)驅(qū)動事務(wù)驅(qū)動分析驅(qū)動分析驅(qū)動面向日常業(yè)務(wù)應(yīng)用面向日常業(yè)務(wù)應(yīng)用面向分析決策面向分析決策一次操作數(shù)據(jù)量少一次操作數(shù)據(jù)量少一次操作數(shù)據(jù)量多一次操作數(shù)據(jù)量多對響應(yīng)時間的要求高對響應(yīng)時間的要求高對響應(yīng)時間的要求低對響應(yīng)時間的要求低2.1 面向主題面向主題汽車人壽健康意外傷亡操作性環(huán)境操作性環(huán)境應(yīng)應(yīng) 用用顧客保險單保險費(fèi)索賠數(shù)據(jù)倉庫數(shù)據(jù)倉庫主主 題題主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn)主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn)2.2 集成集成 數(shù)據(jù)庫數(shù)

19、據(jù)庫 應(yīng)用A m,f應(yīng)用B 1,0應(yīng)用C x,y應(yīng)用D 男,女 數(shù)據(jù)倉庫數(shù)據(jù)倉庫 m,f編碼應(yīng)用A 管道cm應(yīng)用B 管道inches應(yīng)用C 管道m(xù)cf應(yīng)用D 管道yds管道cm屬性度量數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成工與集成應(yīng)用A 描述應(yīng)用B 描述應(yīng)用C 描述應(yīng)用D 描述應(yīng)用A char(10)應(yīng)用B dec fixed(9,2)應(yīng)用C pic 9999999應(yīng)用D char(12)多重信息源 ?描述char(12)沖突的鍵碼集成集成操作性數(shù)據(jù)倉庫 J Jones女1945年7月20日。J Jones去年有兩張罰單一次大事故。 J JonesMain大街

20、123號已婚。 J Jones兩個孩子高血壓。人壽保險汽車保險房產(chǎn)保險健康保險J Jones女1945年7月20日出生去年兩張罰單一次大事故已婚兩個孩子高血壓。顧客2.3 非易失性非易失性插入刪除插入修改刪除訪問修改訪問數(shù)據(jù)的逐個記錄方式處理數(shù)據(jù)的逐個記錄方式處理數(shù)據(jù)的批量載入數(shù)據(jù)的批量載入/訪問訪問數(shù)據(jù)庫數(shù)據(jù)倉庫2.4 隨時間變化隨時間變化數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫時間期限:當(dāng)前到6090天 記錄更新鍵碼結(jié)構(gòu)可能包括也可能不 包括時間元素時間期限:510年 數(shù)據(jù)的復(fù)雜快照鍵碼結(jié)構(gòu)包括時間元素粒度粒度細(xì)節(jié)的級別細(xì)節(jié)的級別高細(xì)化低粒度例如:一個顧客一個月內(nèi) 的每個電話的細(xì)節(jié)低細(xì)化高粒度例如:一

21、個顧客一個月內(nèi) 的電話的綜合數(shù)據(jù)的分割數(shù)據(jù)的分割 難以管理容易管理分片分片3.3.1 簡單堆積文件簡單堆積文件 1月1日 1月2日 1月3日 2月1日 2月2日 2月3日 3月1日 3月2日 3月3日 3.3.2 輪轉(zhuǎn)綜合文件輪轉(zhuǎn)綜合文件 星期一 星期二 星期天 第一周 第二周 第五周 一月 二月 十二月 3.3.3 簡化直接文件簡化直接文件數(shù)據(jù)庫快照姓名 顧客號 地址張平 C960100 北京王珂 C960101 上海劉輝 C960102 天津李強(qiáng) C960103 成都 . . . 一月份顧客表操作性數(shù)據(jù)生成簡化直接文件生成簡化直接文件3.3.4 連續(xù)文件連續(xù)文件姓名 顧客號 地址張平 C0

22、20100 北京王珂 C020101 上海張順 C020102 天津李強(qiáng) C020103 成都姓名 顧客號 地址張平 C020100 北京王珂 C020101 上海張順 C020101 廣州李強(qiáng) C020103 成都劉誠 C020105 杭州姓名 顧客號 日期 地址張平 C020100 1-2月 北京王珂 C020101 1-2月 上海張順 C020103 1月 天津張順 C020103 2月 廣州李強(qiáng) C020103 1-2月 成都劉誠 C020105 2月 杭州1月份顧客表2月份顧客表1-2月份顧客表元數(shù)據(jù)(元數(shù)據(jù)(Metadata)o元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、碼、索引等。n元數(shù)據(jù)的內(nèi)容不僅為數(shù)據(jù)倉庫的創(chuàng)建提供必要的信息、描述和定義,還為DSS分析人員訪問數(shù)據(jù)倉庫提供直接的或輔助的信息。數(shù)據(jù)倉庫中元數(shù)據(jù)必須包含的內(nèi)容數(shù)據(jù)倉庫中元數(shù)據(jù)必須包含的內(nèi)容o數(shù)據(jù)倉庫的主題描述: 主題名、主體的公共碼鍵、有關(guān)描述信息等o外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的描述: 外部數(shù)據(jù)源名、存儲地點(diǎn)、存儲內(nèi)容簡述 o記錄系統(tǒng)定義: 主題名、屬性名、數(shù)據(jù)源系統(tǒng)、源表名、源屬性名o邏輯模型的定義: 關(guān)系名、屬性1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論