版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據倉庫及ETL介紹目錄基礎概念Informatica組件詳解InformaticaKB介紹ETL系統介紹1、數據倉庫數據倉庫是一個:面向主題的(SubjectOriented)集成的(Integrate)相對穩(wěn)定的(Non-Volatile)反映歷史變化(TimeVariant)的數據集合1、數據倉庫數據倉庫是一個:面向主題的(SubjectOriented)集成的(Integrate)相對穩(wěn)定的(Non-Volatile)反映歷史變化(TimeVariant)的數據集合1、數據倉庫的特點面向主題的(SubjectOriented)數據是面向應用程序事務的,而數據倉庫中數據的是按商業(yè)主題存放的,商業(yè)主題會隨著企業(yè)的不同而不同。集成的(Integrate)在將不同來源的數據存入數據倉庫中之前,必須把這些不同的數據元素標準化,對數據進行清洗、轉換等集成操作。相對穩(wěn)定的(Non-Volatile)一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。反映歷史變化(TimeVariant)數據倉庫中的數據通常包含歷史信息,系統記錄了企業(yè)從過去某一時點到目前的各個階段的信。主題與主題域主題面向主題的數據組織方式,就是在較高層次上對分析對象數據的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數據,以及數據之間的聯系。主題域主題域是對某個主題進行分析后確定的主題的邊界主題與主題域主題與主題域:財務:資金籌集、資金配置、資本結構、現金創(chuàng)造、現金管理資產質量、盈利能力、債務風險、成本、費用、差旅人力資源:人員、薪酬、職位、員工關懷、人員流動、技能提升資產:固定資產、資產使用、資產維護、折舊、殘值經營分析:流量、生產保障、精細化管理、運營效率、設施效率主題與主題域2024/3/20維度建模2024/3/20維度建模:其最簡單的描述就是,按照事實表、維度表來構建數據倉庫、數據集市。維度表:
維度表可以看作是用戶來分析數據的窗口,緯度表中包含事實數據表中事實記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實數據表數據,以便為分析者提供有用的信息,維度表包含幫助匯總數據的特性的層次結構。事實表:在多維數據倉庫中,保存度量值的詳細值或事實的表稱為“事實表”。維度建模2024/3/20簡單的說:
1、事實表就是你要關注的內容;
2、維表就是你觀察該事務的角度,是從哪個角度去觀察這個內容的。
星形模型與雪花模型2024/3/20雪花模型2024/3/20星形模型與雪花模型2024/3/20星形模型
一種使用關系數據庫實現多維分析空間的模式,稱為星型模式。星型模式的基本形式必須實現多維空間(常常被稱為方塊),以使用關系數據庫的基本功能。雪花模式不管什么原因,當星型模式的維度需要進行規(guī)范化時,星型模式就演進為雪花模式。星形模型缺點2024/3/20Benefits:SimplerqueriesSimplifiedbusinessreportinglogicQueryperformancegainsExpansibilityDisadvantagesredundancydataHarderComplexQueries
緩慢變化維2024/3/20Supplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoILoriginalNow緩慢變化維處理方式2024/3/20Type0:retainoriginalType1:overwriteType2:addnewrowType3:addnewattributeType4:addhistorytableType6:hybridType2&TYPE32024/3/20Supplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcmeSupplyCoCA01-Jan-200021-Dec-2004124ABCAcmeSupplyCoIL22-Dec-2004NULLSupplier_KeySupplier_CodeSupplier_NameOriginal_Supplier_StateEffective_DateCurrent_Supplier_State123ABCAcmeSupplyCoCA22-Dec-2004ILType4:addhistorytable
2024/3/20Supplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme&JohnsonSupplyCoILSupplier_keySupplier_CodeSupplier_NameSupplier_StateCreate_Date123ABCAcmeSupplyCoCA14-June-2003124ABCAcme&JohnsonSupplyCoIL22-Dec-2004Type62024/3/20Supplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcmeSupplyCoNYCA01-Jan-200021-Dec-2004N124ABCAcmeSupplyCoNYIL22-Dec-200403-Feb-2008N125ABCAcmeSupplyCoNYNY04-Feb-200831-Dec-2009Y代理主鍵2024/3/20代理主鍵:
維度建模理論中,維表里使用原業(yè)務中的主鍵作為主鍵就是業(yè)務鍵(BusinessKey);建立新的主鍵就是代理鍵(SurrogateKey)為什么使用代理主鍵:性能主鍵重復一致性維度2024/3/20一致性維度:當不同的維度表的屬性具有相同列名和領域內容時,稱維度表具有一致性。利用一致性維度屬性與每個事實表關聯,可將來自不同事實表的信息合并到同一報表中。建模四步驟:總線架構2024/3/20數據倉庫架構2024/3/20快速判斷數據倉庫水平2024/3/20有沒有帶緩慢變化維度一致性維度有沒有跨層取數的現象ETL34個子系統抽取在ETL環(huán)境中從源系統收集原始數據并且在任何對數據的重要重構發(fā)生之前都將數據寫入磁盤。子系統1到子系統3都支持抽取過程。清洗和一致化通過ETL系統中的一系列處理步驟發(fā)送源數據,這些步驟提高了從源系統接收數據的質量,并且對兩個或多個源系統中的數據進行了合并,創(chuàng)建并強化了一致性維度和一致性度量。子系統4到子系統8描述了支持清洗和一致化過程所需的架構。ETL34個子系統提交從物理上將數據組織和裝載到呈現服務器的目標維度模型中。子系統9到子系統21提供了若干種將數據提交到服務器上的功能。管理用一致的方式來管理ETL環(huán)境中的相關系統和過程。子系統22到子系統34都描述了支持ETL系統現行管理所需的組件。27抽取子系統1--數據探查子系統2--變化數據捕捉系統審計列定時抽取完全差異比較數據庫日志刮取消息隊列監(jiān)視28抽取子系統3--抽取系統文件FTPWEBSERVICE數據庫接口數據的清洗和一致化子系統4--數據清洗系統對數據質量問題的早期診斷和鑒別分類:
完整性、一致性、準確性、及時性讓源系統和集成工作提供更優(yōu)質的數據具有為ETL過程中遇到的數據錯誤提供特定描述的功能具有能夠隨著時間推移捕捉所有數據質量錯誤和度量數據質量的框架對最終數據的質量可信度進行度量的附加功能數據的清洗和一致化2024/3/20子系統5--錯誤事件模式子系統6--審計維裝配器數據的清洗和一致化2024/3/20子系統7--重復數據刪除系統子系統8--一致化系統子系統9--向呈現層交付數據子系統9--緩慢變化維管理器子系統10--代理鍵生成器子系統11--層次管理器數據的清洗和一致化2024/3/20子系統12--專用維度管理器日期/時間維雜項維微型維(視圖維度)小型靜態(tài)維用戶維護的維度子系統13--事實表構建器事務處理粒度事實表裝載器周期快照事實表裝載器累積快照事實表裝載器數據的清洗和一致化2024/3/20子系統14--代理鍵管道子系統15--多值維度橋接表構建器子系統16--延遲到達數據處理器子系統17--維度管理系統子系統18--事實提供系統子系統19--聚集構建器子系統20--OLAP多維數據集構建器子系統21--數據傳播管理器管理ETL環(huán)境子系統22--作業(yè)調度器子系統23--備份系統子系統24--恢復和重啟系統子系統25--版本控制系統子系統26--版本遷移系統子系統27--工作流監(jiān)視器子系統28--排序系統?子系統29--沿襲和依賴分析器子系統30--問題自動調整系統子系統31--并行/管道系統子系統32--安全系統子系統33--合規(guī)性管理器管理ETL環(huán)境子系統34--元數據知識庫管理器技術元數據業(yè)務元數據運行元數據Informatica整體架構兩個服務器端和五個客戶端組件服務器端RepositoryServerInformatcaServer客戶端RepositoryManagerDesignerWorkflowManagerWorkflowMonitorRepositoryServerAdministrationConsole五個客戶端組件的作用RepositoryManager
元數據資料庫,依賴分析,安全性管理等。Designer定義源和目標數據結構,設計轉換規(guī)則,生成ETL映射。WorkflowManager
合理地實現復雜的ETL工作流,基于時間或事件的作業(yè)調度。WorkflowMonitor監(jiān)控workflow和session,生成工作日志及報告。RepositoryServerAdministrationConsole
Repository的建立與維護INFA安裝配置依賴:OracleDB2或SQLSERVER的DBA權限安裝配置過程:點擊Server軟件包setup.exe完成安裝登錄控制臺創(chuàng)建RS,IS,把RS由獨占模式改為普通模式點擊Client軟件包setup.exe配置連接信息,連接到服務器端客戶端和服務端端組件服務器端RepositoryServerInformatcaServer客戶端RepositoryManagerDesignerWork
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 感恩老師心得體會15篇
- 國土分局業(yè)務知識
- 醫(yī)務人員洗手相關知識
- 正頜手術加速康復外科臨床路徑指標體系構建及對術后康復效果影響
- 基于深度學習的PMU異常數據檢測方法研究
- 二零二五年度綠色環(huán)保消防設施安裝與維護合同協議書3篇
- 2025版水果種植基地與冷鏈物流企業(yè)合作協議范本3篇
- 臭氧水療聯合皮膚科特色護理治療濕疹患兒的價值
- 快遞行業(yè)培訓計劃
- xx市科創(chuàng)孵化器項目可行性研究報告
- 2025-2030年中國草莓市場競爭格局及發(fā)展趨勢分析報告
- 第二章《有理數的運算》單元備課教學實錄2024-2025學年人教版數學七年級上冊
- 華為智慧園區(qū)解決方案介紹
- 奕成玻璃基板先進封裝中試線項目環(huán)評報告表
- 廣西壯族自治區(qū)房屋建筑和市政基礎設施全過程工程咨詢服務招標文件范本(2020年版)修訂版
- 2024新版有限空間作業(yè)安全大培訓
- GB/T 44304-2024精細陶瓷室溫斷裂阻力試驗方法壓痕(IF)法
- 年度董事會工作計劃
- 《退休不褪色余熱亦生輝》學校退休教師歡送會
- 02R112拱頂油罐圖集
- 一例蛇串瘡患者個案護理課件
評論
0/150
提交評論