![數(shù)據(jù)倉庫概述和設(shè)計_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/25/090e5da3-e7cc-4597-a8da-74c032eff8af/090e5da3-e7cc-4597-a8da-74c032eff8af1.gif)
![數(shù)據(jù)倉庫概述和設(shè)計_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/25/090e5da3-e7cc-4597-a8da-74c032eff8af/090e5da3-e7cc-4597-a8da-74c032eff8af2.gif)
![數(shù)據(jù)倉庫概述和設(shè)計_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/25/090e5da3-e7cc-4597-a8da-74c032eff8af/090e5da3-e7cc-4597-a8da-74c032eff8af3.gif)
![數(shù)據(jù)倉庫概述和設(shè)計_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/25/090e5da3-e7cc-4597-a8da-74c032eff8af/090e5da3-e7cc-4597-a8da-74c032eff8af4.gif)
![數(shù)據(jù)倉庫概述和設(shè)計_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/25/090e5da3-e7cc-4597-a8da-74c032eff8af/090e5da3-e7cc-4597-a8da-74c032eff8af5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、5/25/2022大數(shù)據(jù)培訓(xùn)-數(shù)據(jù)倉庫概述v講師:楊勇 v2015年7月v電話:133820447285/25/2022數(shù)據(jù)倉庫提綱v 數(shù)據(jù)倉庫概念v 數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件v 數(shù)據(jù)倉庫設(shè)計v 數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)5/25/2022基本概念數(shù)據(jù)倉庫產(chǎn)生背景v 數(shù)據(jù)倉庫技術(shù)是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫技術(shù)基礎(chǔ)之上發(fā)展而來的,其主要目的就是為決策提供支持為決策提供支持,為為OLAP、數(shù)據(jù)挖掘深層次的分析提供、數(shù)據(jù)挖掘深層次的分析提供平臺平臺。v 數(shù)據(jù)倉庫是一個和實際應(yīng)用密不可分的研究領(lǐng)域,與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫不僅引入了許多新的概念,而且在體系結(jié)構(gòu)、數(shù)據(jù)
2、組織體系結(jié)構(gòu)、數(shù)據(jù)組織等方面,均有其自身的特點。5/25/2022基本概念數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented )、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,主要用于支持管理決策和信息的全局共享。 -數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”(建立數(shù)據(jù)倉庫) 5/25/2022基本概念數(shù)據(jù)倉庫特征Inmon,1996v 面向主題u 一個主題領(lǐng)域的表來源于多個操作型應(yīng)用(如:客戶主題
3、,來源于:定單處理;應(yīng)收帳目;應(yīng)付帳目;)u 典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目u 主題領(lǐng)域以一組相關(guān)的表來具體實現(xiàn)u 相關(guān)的表通過公共的鍵碼聯(lián)系起來(如:顧客標(biāo)識號Customer ID)u 每個鍵碼都有時間元素(從日期到日期;每月累積;單獨日期)u 主題內(nèi)數(shù)據(jù)可以存儲在不同介質(zhì)上(綜合級,細節(jié)級,多粒度)v 集成 數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載v 穩(wěn)定性 批處理增加,倉庫已經(jīng)存在的數(shù)據(jù)不會改變v 隨時間而變化(時間維)v 管理決策支持5/25/2022基本概念Data Mart, ODSvData Mart 數(shù)據(jù)集市 - 小型的,面向部門或工作組級數(shù)據(jù)倉庫。vOperation Data
4、Store 操作數(shù)據(jù)存儲 ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境, 是DW 擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject -Oriented)、集成的、可變的、 當(dāng)前或接近當(dāng)前的。5/25/2022基本概念ETL, 元數(shù)據(jù),粒度,分割vETL(也有ELT) ETL(Extract/Transformation/Load)數(shù)據(jù)裝載、轉(zhuǎn)換、抽取工具。Microsoft DTS; IBM Visual Warehouse etc.v元數(shù)據(jù) 關(guān)于數(shù)據(jù)的數(shù)據(jù),用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。v粒度 數(shù)據(jù)倉庫的數(shù)據(jù)單位中
5、保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度越小。v分割 數(shù)據(jù)分散到各自的物理單元中去,它們能獨立地處理。5/25/2022數(shù)據(jù) 數(shù)據(jù)倉庫是一個建設(shè)過程,而不是一個產(chǎn)品。數(shù)據(jù)倉庫數(shù)據(jù)倉庫是通過對來自不同的數(shù)據(jù)源進行統(tǒng)一處理及管理,通過靈活的展現(xiàn)是通過對來自不同的數(shù)據(jù)源進行統(tǒng)一處理及管理,通過靈活的展現(xiàn)方法來幫助決策支持。方法來幫助決策支持。數(shù)據(jù)倉庫最新理解數(shù)據(jù)數(shù)據(jù)信息信息知識知識決策決策獲取管理使用5/25/2022數(shù)據(jù)倉庫提綱v 數(shù)據(jù)倉庫概念v 數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件v 數(shù)據(jù)倉庫設(shè)計v 數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)5/25/2022數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件v 體系結(jié)構(gòu)v ETL工具
6、v 元數(shù)據(jù)庫(Repository)及元數(shù)據(jù)管理v 數(shù)據(jù)訪問和分析工具5/25/2022體系結(jié)構(gòu) 源數(shù)據(jù)庫系統(tǒng)源數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換加載數(shù)據(jù)抽取、轉(zhuǎn)換加載WarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadata數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)訪問與分析數(shù)據(jù)訪問與分析中央數(shù)據(jù)倉庫中央數(shù)據(jù)倉庫Central DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchang
7、eMDBDataCleansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS5/25/2022帶ODS的體系結(jié)構(gòu)源數(shù)據(jù)庫系統(tǒng)源數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)抽取、轉(zhuǎn)換、加載數(shù)據(jù)抽取、轉(zhuǎn)換、加載WarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadata數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)訪問與分析數(shù)據(jù)訪問與分析中央數(shù)據(jù)倉庫和中央數(shù)據(jù)倉庫和ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLoc
8、al MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-UserDW Tools5/25/2022一個實際的數(shù)據(jù)倉庫的完整架構(gòu)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換中央數(shù)據(jù)倉庫中央數(shù)據(jù)倉庫信息展現(xiàn)信息展現(xiàn)業(yè)務(wù)用戶業(yè)務(wù)用戶源數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)獲取數(shù)據(jù)管理數(shù)據(jù)管理數(shù)據(jù)使用數(shù)據(jù)使用項目管理 數(shù)據(jù)倉庫實施指導(dǎo)方法論業(yè)務(wù)規(guī)劃 信息評估 邏輯數(shù)據(jù) 模型設(shè)計 物理數(shù)據(jù)模型設(shè)計數(shù)據(jù)庫管理 元數(shù)據(jù)管理 應(yīng)用開發(fā) 顧問咨詢 知識轉(zhuǎn)移
9、營銷系統(tǒng)營銷系統(tǒng)財務(wù)系統(tǒng)財務(wù)系統(tǒng)物資系統(tǒng)物資系統(tǒng)PMS系統(tǒng)系統(tǒng)抽取轉(zhuǎn)化過濾加載隨即查詢隨即查詢報表報表多維分析多維分析數(shù)據(jù)挖掘數(shù)據(jù)挖掘Portal集成集成RelationalTransformationOLAPData Mining數(shù)據(jù)集市企業(yè)級企業(yè)級EDW直接用戶直接用戶(客戶端客戶端)Olap用戶用戶Web用戶用戶應(yīng)用應(yīng)用服務(wù)器服務(wù)器決策者分析員研究員查詢?nèi)藛T5/25/2022數(shù)據(jù)倉庫的焦點問題-數(shù)據(jù)的獲得、存儲和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse D
10、atamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool5/25/2022ETL工具v 去掉操作型數(shù)據(jù)庫中的不需要的數(shù)據(jù)v 統(tǒng)一轉(zhuǎn)換數(shù)據(jù)的名稱和定義v 計算匯總數(shù)據(jù)和派生數(shù)據(jù)v 估計遺失數(shù)據(jù)的缺省值v 調(diào)節(jié)源數(shù)據(jù)的定義變化 5/25/2022ETL工具體系結(jié)構(gòu)5/25/2022元數(shù)據(jù)庫及元數(shù)據(jù)管理v元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉庫操作型信息。-Alex Berson etc, 1999v技術(shù)元數(shù)據(jù) 包括為數(shù)據(jù)倉庫設(shè)計人員和管理員使用的數(shù)據(jù)倉庫數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉庫開發(fā)和管理
11、任務(wù)。包括: 數(shù)據(jù)源信息 轉(zhuǎn)換描述(從操作數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射方法,以及轉(zhuǎn)換數(shù)據(jù)的算法) 目標(biāo)數(shù)據(jù)的倉庫對象和數(shù)據(jù)結(jié)構(gòu)定義 數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則 數(shù)據(jù)映射操作 訪問權(quán)限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問,等等5/25/2022元數(shù)據(jù)庫及元數(shù)據(jù)管理v 商業(yè)元數(shù)據(jù) 給用戶易于理解的信息,包括: 主題區(qū)和信息對象類型,包括查詢、報表、圖像、音頻、視頻等 Internet主頁 支持數(shù)據(jù)倉庫的其它信息,例如對于信息傳輸系統(tǒng)包括預(yù)約信息、調(diào)度信息、傳送目標(biāo)的詳細描述、商業(yè)查詢對象,等v數(shù)據(jù)倉庫操作型信息 例如,數(shù)據(jù)歷史(快照,版本),擁有權(quán),抽取的審計軌跡,數(shù)據(jù)用法 5/25
12、/2022數(shù)據(jù)訪問和分析工具v 報表v OLAPv 數(shù)據(jù)挖掘5/25/2022數(shù)據(jù)倉庫設(shè)計v 自上而下(Top-Down)v 自底而上(Bottom Up)v 混合的方法v 數(shù)據(jù)倉庫建模5/25/2022自上而下設(shè)計方法v 建立企業(yè)數(shù)據(jù)倉庫H通用數(shù)據(jù)模型通用數(shù)據(jù)模型H數(shù)據(jù)重新執(zhí)行數(shù)據(jù)重新執(zhí)行H減少冗余和不一致減少冗余和不一致 H詳細和歷史數(shù)據(jù)詳細和歷史數(shù)據(jù); 全局數(shù)據(jù)知識發(fā)現(xiàn)全局數(shù)據(jù)知識發(fā)現(xiàn)v 根據(jù)企業(yè)數(shù)據(jù)倉庫(EDW)建立數(shù)據(jù)集市H部門級數(shù)據(jù)倉庫部門級數(shù)據(jù)倉庫H主要為匯總數(shù)據(jù)主要為匯總數(shù)據(jù)H直接依賴有效的數(shù)據(jù)倉庫直接依賴有效的數(shù)據(jù)倉庫外部數(shù)據(jù)外部數(shù)據(jù)操作數(shù)據(jù)操作數(shù)據(jù)企業(yè)數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫5
13、/25/2022自底而上設(shè)計方法l創(chuàng)建部門的數(shù)據(jù)集市l(wèi)范圍局限于一個主題區(qū)域范圍局限于一個主題區(qū)域l快速的快速的 ROI - 局部的商業(yè)需求得局部的商業(yè)需求得到滿足到滿足l本部門自治本部門自治 - 設(shè)計上具有靈活性設(shè)計上具有靈活性l對其他部門數(shù)據(jù)集市是一個好的對其他部門數(shù)據(jù)集市是一個好的指導(dǎo)指導(dǎo)l容易復(fù)制到其他部門容易復(fù)制到其他部門 l需要為每個部門做數(shù)據(jù)重建需要為每個部門做數(shù)據(jù)重建l有一定級別的冗余和不一致性有一定級別的冗余和不一致性l一個切實可行的方法一個切實可行的方法l擴大到企業(yè)數(shù)據(jù)倉庫l 創(chuàng)建創(chuàng)建EDB作為一個長期的目標(biāo)作為一個長期的目標(biāo)局部數(shù)據(jù)集市局部數(shù)據(jù)集市外部數(shù)據(jù)外部數(shù)據(jù)操作型數(shù)
14、據(jù)操作型數(shù)據(jù) (全部全部)操作型數(shù)據(jù)操作型數(shù)據(jù)(局部局部)操作型數(shù)據(jù)操作型數(shù)據(jù)(局部局部)局部數(shù)據(jù)集市局部數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫EDB5/25/2022數(shù)據(jù)倉庫建模 星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCust銷售事實表 Date Product Store Customer unit_sales dollar_sales Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore5/25/2022數(shù)據(jù)倉庫建模 雪花模式 DateMonthDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sales度量ProductNoProdNameProdDescCategoryQOH
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年山東公務(wù)員考試申論試題(B卷)
- 系統(tǒng)設(shè)備安裝工作承攬合同(3篇)
- 2025年崗?fù)べ徺I合同示范文本
- 2025年協(xié)調(diào)解除合同指導(dǎo)
- 2025年工程勘察服務(wù)項目規(guī)劃申請報告模板
- 2025年企業(yè)零成本用車服務(wù)合同范本
- 2025年苯噻草胺項目立項申請報告模式
- 2025年二手奢侈品交易平臺合作協(xié)議
- 2025年協(xié)議書保證金實務(wù)指導(dǎo)
- 2025年體育場館租賃預(yù)付款協(xié)議
- 室內(nèi)裝飾拆除專項施工方案
- 醫(yī)院院外會診申請單、醫(yī)師外出會診審核表、醫(yī)師外出會診回執(zhí)
- 鋼筋工程精細化管理指南(中建內(nèi)部)
- 核酸的分離與純化技術(shù)
- 2024年山西省高考考前適應(yīng)性測試 (一模)英語試卷(含答案詳解)
- 教科版六年級下冊科學(xué)第三單元《宇宙》教材分析及全部教案(定稿;共7課時)
- 2024年中國鐵路投資集團有限公司招聘筆試參考題庫含答案解析
- 干部人事檔案數(shù)字化 制度
- 經(jīng)營開發(fā)部工作目標(biāo)責(zé)任書
- 小班繪本教學(xué)《藏在哪里了》課件
- 滄州師范學(xué)院學(xué)士學(xué)位論文寫作指南2020版
評論
0/150
提交評論