《數(shù)據(jù)采集與處理技術(shù)》課件-第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成_第1頁
《數(shù)據(jù)采集與處理技術(shù)》課件-第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成_第2頁
《數(shù)據(jù)采集與處理技術(shù)》課件-第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成_第3頁
《數(shù)據(jù)采集與處理技術(shù)》課件-第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成_第4頁
《數(shù)據(jù)采集與處理技術(shù)》課件-第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

6

數(shù)據(jù)倉庫中的數(shù)據(jù)集成目

錄6.1

數(shù)據(jù)倉庫概念6.2

數(shù)據(jù)集成6.3

ETL6.4

CDC6.1數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫的概念01

傳統(tǒng)的數(shù)據(jù)倉庫02

實時主動數(shù)據(jù)倉庫數(shù)據(jù)倉庫概念面向主題集成數(shù)據(jù)倉庫AB反映歷史變化D相對穩(wěn)定C數(shù)據(jù)倉庫的數(shù)據(jù)來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行加工與集成、統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫在構(gòu)建數(shù)據(jù)倉庫時,會每隔一定的時間從數(shù)據(jù)源抽取數(shù)據(jù)并加載到數(shù)據(jù)倉庫,可用來進行商務智能分析數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫是為決策分析提供數(shù)據(jù),所涉及操作主要是數(shù)據(jù)的查詢操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織傳統(tǒng)的數(shù)據(jù)倉庫數(shù)據(jù)倉庫概念1月1日1月31日...分析一個商品在1月內(nèi)銷量變化反映歷史變化數(shù)據(jù)倉庫概念數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫是面向主題設計的數(shù)據(jù)庫是面向事務的設計數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù)數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)數(shù)據(jù)倉庫概念圖

數(shù)據(jù)倉庫體系架構(gòu)數(shù)據(jù)倉庫概念不包含當前數(shù)據(jù)經(jīng)過處理后加載到數(shù)據(jù)倉庫數(shù)據(jù)抽取周期為一個月一次、一周一次、或一天一次01實時主動數(shù)據(jù)倉庫02數(shù)據(jù)倉庫傳統(tǒng)的數(shù)據(jù)倉庫實時捕獲數(shù)據(jù)源中發(fā)生的變化根據(jù)預先設置的規(guī)則做出戰(zhàn)術(shù)決策數(shù)據(jù)倉庫概念圖

實時主動數(shù)據(jù)倉庫的體系結(jié)構(gòu)實時主動數(shù)據(jù)倉庫6.2

數(shù)據(jù)集成數(shù)據(jù)集成01

數(shù)據(jù)集成方式03數(shù)據(jù)集成技術(shù)02數(shù)據(jù)分發(fā)方式數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)

據(jù)

成腳

本ETL數(shù)據(jù)的批量加載CDC

技術(shù)數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)據(jù)集成方式數(shù)據(jù)整合數(shù)據(jù)聯(lián)邦數(shù)據(jù)傳播混合方法使數(shù)據(jù)源中發(fā)生的數(shù)據(jù)變化及時反映到數(shù)據(jù)倉庫中,保證為實時應用提供最新的數(shù)據(jù)實時主動數(shù)據(jù)倉庫集成方法四種數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)據(jù)整合邏輯視圖對外界應用屏蔽數(shù)據(jù)在數(shù)據(jù)源的分布細節(jié),統(tǒng)一數(shù)據(jù)訪問入口集成整合不同應用都使用的數(shù)據(jù)采用數(shù)據(jù)整合的方式進行集成數(shù)據(jù)目標利用ETL工具把數(shù)據(jù)源中的數(shù)據(jù)批量地加載到數(shù)據(jù)倉庫傳播消息在企業(yè)應用集成解決方案中,不同應用可以傳播消息進行交互數(shù)

據(jù)

合數(shù)

據(jù)

聯(lián)

邦數(shù)

據(jù)

播混

式數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)據(jù)分發(fā)方式010203推(push)和拉(pull)周期和非周期一對一和一對多數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式推拉周期非周期一對一一對多數(shù)據(jù)分發(fā)選擇拉非周期一對一請求/響應一對多請求/探測式響應周期一對一輪詢一對多探測式輪詢推非周期一對一-------一對多發(fā)布/訂閱周期一對一發(fā)送電子郵件一對多電子郵件列表不同數(shù)據(jù)分發(fā)方式的組合數(shù)據(jù)集成技術(shù)腳本ETLEAICDC01020304數(shù)據(jù)集成技術(shù)腳

本優(yōu)點使用靈活且比較經(jīng)濟容易著手開發(fā)和進行修改絕大部分DBMS可使用腳本缺點耗費開發(fā)者的時間和精力不好管理和操作不能滿足服務水平協(xié)議數(shù)據(jù)集成技術(shù)ETLETL

任務通常都是在“維護時間窗口”進行,數(shù)據(jù)源默認不會發(fā)生變化數(shù)據(jù)集成技術(shù)EAIEAI解決方案演化成實時數(shù)據(jù)獲取和集成的解決方案,通常和ETL解決方案并存,增強ETL的功能調(diào)用應用分發(fā)命令和消息實現(xiàn)應用的集成數(shù)據(jù)集成技術(shù)CDCCDC

提供連續(xù)變化數(shù)據(jù)的捕捉和分發(fā)能力,且只需要很低的開銷和時間延遲(不到1s)能夠維護數(shù)據(jù)事務的一致性OLTP

系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)集成技術(shù)屬性腳本ETLEAICDC數(shù)據(jù)量中等很高低高頻率間歇性間歇性連續(xù)性連續(xù)性延遲中到高中到高低低數(shù)據(jù)集成無無保證保證轉(zhuǎn)換中度高級基本基本處理開銷高高中等低表

不同數(shù)據(jù)集成技術(shù)的比較6.3ETLETL簡介和基本模塊ETL

工具

ETL

模式ETL

基本模塊ETL

簡介數(shù)據(jù)集成的關(guān)鍵技術(shù)ETL簡介和基本模塊ETL簡介將企業(yè)中的分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)ETL簡介和基本模塊ETL

任務通常都是在“維護時間窗口”進行,數(shù)據(jù)源默認不會發(fā)生變化ETL簡介和基本模塊3其他類型數(shù)據(jù)(消息隊列)2文

件1數(shù)據(jù)庫ETL簡介和基本模塊周期性的“拉”模式ETL支持基于數(shù)據(jù)整合的數(shù)據(jù)集成以批處理的方式工作“拉”模式采用在線方式工作“推”模式事件驅(qū)動的“推”模式ETL簡介和基本模塊0102數(shù)

據(jù)

轉(zhuǎn)

換數(shù)

據(jù)

載數(shù)據(jù)重構(gòu)和整合數(shù)據(jù)內(nèi)容清洗或集成刷新整個目標數(shù)據(jù)存儲對目標數(shù)據(jù)存儲進行增量更新ETL簡介和基本模塊本地數(shù)據(jù)庫和應用接口ODBCJDBCJMSETL簡介和基本模塊從平面文件和關(guān)系數(shù)據(jù)庫中捕捉數(shù)據(jù)→并把這些數(shù)據(jù)整合到數(shù)據(jù)倉庫中ETL簡介和基本模塊遺產(chǎn)數(shù)據(jù)、應用打包XML文件、WEB日志、EAI源、WEB服務和非結(jié)構(gòu)化數(shù)據(jù)額外的數(shù)據(jù)源EAI目標和WEB服務額外的目標用戶自定義EXIT、數(shù)據(jù)剖析和數(shù)據(jù)質(zhì)量管理、支持標準編程語言、DBMS引擎開發(fā)和WEB服務改進的數(shù)據(jù)轉(zhuǎn)換功能工作計劃和追蹤、元數(shù)據(jù)管理和錯誤恢復

更好的管理01020304ETL簡介和基本模塊并行處理、負載平衡、緩存、支持本地DBMS應用和數(shù)據(jù)加載接口更好的性能更好的可視化開發(fā)接口改進的可用性支持外部安全包和外部網(wǎng)增強的安全性支持基于數(shù)據(jù)聯(lián)邦的數(shù)據(jù)集成方法05060708ETL簡介和基本模塊ETL

基本模塊數(shù)據(jù)抽取數(shù)據(jù)清洗與轉(zhuǎn)換數(shù)據(jù)加載ETL簡介和基本模塊ETL

基本模塊ETL簡介和基本模塊數(shù)據(jù)抽取確定數(shù)據(jù)源確定數(shù)據(jù)抽取方法定義數(shù)據(jù)接口ETL簡介和基本模塊數(shù)據(jù)清洗與轉(zhuǎn)換清洗與轉(zhuǎn)換不完整數(shù)據(jù)錯誤數(shù)據(jù)重復數(shù)據(jù)空值處理數(shù)據(jù)標準數(shù)據(jù)拆分數(shù)據(jù)驗證數(shù)據(jù)替換數(shù)據(jù)關(guān)聯(lián)ETL簡介和基本模塊數(shù)據(jù)加載全量方式增量方式ETL

模式觸發(fā)器模式增量字段全量同步日志比對ETL

模式觸發(fā)器模式插

入修

改刪

除ETL

模式源表名稱更新的關(guān)鍵字值更新操作類型增量日志表ETL

模式

123優(yōu)/缺

4數(shù)據(jù)抽取的性能高ETL加載規(guī)則簡單速度快無需修改表結(jié)構(gòu)可實現(xiàn)數(shù)據(jù)的遞增加載要求業(yè)務表建立觸發(fā)器對業(yè)務系統(tǒng)有一定的影響容易對源數(shù)據(jù)庫構(gòu)成威脅ETL

模式增量字段在數(shù)據(jù)表中增加增量字段,時間戳字段就會被修改為相應的系統(tǒng)時間,自增長字段就會增加ETL

模式0102030405抽取性能比較高判斷過程比較簡單ETL系統(tǒng)設計清晰源數(shù)據(jù)抽取相對清楚簡單可以實現(xiàn)數(shù)據(jù)的遞增加載未考慮到增量字段,需要對業(yè)務系統(tǒng)進行改造,有可能出現(xiàn)漏數(shù)據(jù)的情況性

能設

計抽

取ETL

模式全量同步全表刪除插入方式每次抽取前先刪除目標表數(shù)據(jù),抽取時全新加載數(shù)據(jù)ETL

模式不影響已有系統(tǒng)表結(jié)構(gòu)無需修改業(yè)務操作程序管理維護統(tǒng)一,無風險可實現(xiàn)數(shù)據(jù)遞增加載設計復雜,速度慢;被動的進行全表數(shù)據(jù)的比對,性能較差;準確性較差ETL

模式日志比對日

對日志文件結(jié)構(gòu)存在差異性訪

權(quán)

限ETL

模式CDC

技術(shù)捕獲變化數(shù)據(jù)捕獲刪除數(shù)據(jù)新

增更

新刪

除ETL

模式CDC優(yōu)缺點比較優(yōu)

點缺

點010203業(yè)務系統(tǒng)數(shù)據(jù)庫版本與產(chǎn)品不統(tǒng)一難以統(tǒng)一實現(xiàn),實現(xiàn)過程相對復雜12ETL同步效率較高無需修改業(yè)務系統(tǒng)表結(jié)構(gòu)

可實現(xiàn)數(shù)據(jù)的遞增加載ETL

模式四種模式的比較ETL模式兼容性完備性抽取性能源庫壓力源庫改動量實現(xiàn)難度觸發(fā)器模式關(guān)系型數(shù)據(jù)庫高優(yōu)高高容易增量字段關(guān)系型數(shù)據(jù)庫“具有字段”結(jié)構(gòu)的其它數(shù)據(jù)格式低較優(yōu)低高容易全表同步任何數(shù)據(jù)格式高極差中無容易日志比對關(guān)系型數(shù)據(jù)庫高較優(yōu)中中難ETL

具抽

取轉(zhuǎn)

換加

載ETL

具數(shù)據(jù)來自不同的物理主機減少開銷需要將數(shù)據(jù)整理成統(tǒng)一格式數(shù)據(jù)來源復雜處理海量數(shù)據(jù)123會導致數(shù)據(jù)庫資源不足ETLETL

具在選擇ETL工具時考慮因素集成性和開放性43對數(shù)據(jù)源的支持程度2抽取和裝載的性能1對平臺的支持程度管理和調(diào)度的功能65數(shù)據(jù)轉(zhuǎn)換和加工的功能ETL

具市場上主流的ETL工具GoldengateTalendDataxInformaticaDataPipelineKettleETL

具KettleJava編寫,可以在Windows、Linux、Unix上運行,以一種指定的格式流出DataPipeline整合數(shù)據(jù)質(zhì)量分析、質(zhì)量校驗、質(zhì)量監(jiān)控等,保證完整性、一致性、準確性及唯一性Talend可以運行于Hadoop集群之間,直接生成MapReduce代碼供Hadoop運行Informatica包括InformaticaPowerCenter和InformaticaPowerExchangeDatax離線數(shù)據(jù)同步工具,可以實現(xiàn)各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能OracleGoldengate基于日志的結(jié)構(gòu)化數(shù)據(jù)復制軟件,實現(xiàn)大量交易數(shù)據(jù)的實時捕捉、變換和投遞6.4CDCCDC

的特性和組成數(shù)據(jù)集成主動高效實時CDC

的特性和組成01020304CDC的特性CDC的組成CDC具體應用場景需要考慮的問題CDC

的特性和組成CDC

的特性010203沒有宕機時間CDC可在操作型系統(tǒng)運行時進行變化數(shù)據(jù)的分發(fā)減少系統(tǒng)開銷只轉(zhuǎn)移變化的數(shù)據(jù),消耗的資源更少保持數(shù)據(jù)新穎性頻繁甚至是實時地分發(fā)新數(shù)據(jù),提供及時的信息CDC

的特性CDC

的特性和組成CDC

的組成變化捕捉代理變化數(shù)據(jù)服務變化分發(fā)機制CDC

的組成010203CDC

的特性和組成變化分發(fā)機制把變化分發(fā)到變化的消費者那里。變化分發(fā)機制可支持一個或多個消費者負責確定和捕捉發(fā)生在操作型數(shù)據(jù)存儲源系統(tǒng)中的數(shù)據(jù)變化變化捕捉代理變化數(shù)據(jù)服務包括過濾、排序、附加數(shù)據(jù)、生命周期管理和審計CDC

的特性和組成使用數(shù)據(jù)庫觸發(fā)器數(shù)據(jù)日志比較優(yōu)

化對變化捕捉代理進行專門優(yōu)化,使它適用于特定的源系統(tǒng)CDC

的特性和組成變化分發(fā)機制把變化分發(fā)到變化的消費者那里。變化分發(fā)機制可支持一個或多個消費者負責確定和捕捉發(fā)生在操作型數(shù)據(jù)存儲源系統(tǒng)中的數(shù)據(jù)變化變化捕捉代理變化數(shù)據(jù)服務包括過濾、排序、附加數(shù)據(jù)、生命周期管理和審計CDC

的特性和組成功能解釋過濾確保只接收已經(jīng)提交的數(shù)據(jù)排序接收數(shù)據(jù)時基于事務、表或時間戳進行排序附加數(shù)據(jù)為分發(fā)的變化增加一些參考數(shù)據(jù)以便于對數(shù)據(jù)進行進一步的處理生命周期管理在多長時間內(nèi)應用可以得到變化的數(shù)據(jù);多長時間以后丟棄所分發(fā)的數(shù)據(jù)審計允許對系統(tǒng)的端到端行為的監(jiān)聽和對趨勢的檢查CDC

的特性和組成變化分發(fā)機制把變化分發(fā)到變化的消費者那里。變化分發(fā)機制可支持一個或多個消費者負責確定和捕捉發(fā)生在操作型數(shù)據(jù)存儲源系統(tǒng)中的數(shù)據(jù)變化變化捕捉代理變化數(shù)據(jù)服務包括過濾、排序、附加數(shù)據(jù)、生命周期管理和審計CDC

的特性和組成變化分發(fā)機制推方式:用消息中間件實現(xiàn)拉方式:如ODBC或JDBC提供動態(tài)返回和請求舊的變化CDC

具體應用場景及需要考慮的問題CDC的具體應用場景面向批處理的CDC面向?qū)崟r的CDCpullCDCpushCDCCDC

具體應用場景及需要考慮的問題面向批處理的

CDC周期性地請求變化捕捉到的變化一天兩次15分鐘1次數(shù)據(jù)表標準接口CDC

具體應用場景及需要考慮的問題面向批處理的

CDCETL只需要轉(zhuǎn)移變化的數(shù)據(jù)減少資源消耗宕機時間時

延傳統(tǒng)ETLCDC

具體應用場景及需要考慮的問題面向?qū)崟r的CDC變化分發(fā)機制探測到變化push給ETL程序MQSeries零延遲CDC

具體應用場景及需要考慮的問題面向消息面向事件EAI

產(chǎn)品零延遲最新的數(shù)據(jù)CDC

具體應用場景及需要考慮的問題CDC需要考慮的問題23456178變化捕捉方法對操作型系統(tǒng)的入侵程度捕捉延遲過濾和排序服務支持多個消費者失敗和恢復主機和遺產(chǎn)數(shù)據(jù)源和ETL工具的無縫集成CDC

具體應用場景及需要考慮的問題延遲性可擴展性對操作型系統(tǒng)入侵讀取日志文件數(shù)據(jù)庫觸發(fā)器數(shù)據(jù)比較編寫事件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論