元數(shù)據(jù)在數(shù)據(jù)倉庫的建設(shè)過程不同工具間的集成共享_第1頁
元數(shù)據(jù)在數(shù)據(jù)倉庫的建設(shè)過程不同工具間的集成共享_第2頁
元數(shù)據(jù)在數(shù)據(jù)倉庫的建設(shè)過程不同工具間的集成共享_第3頁
元數(shù)據(jù)在數(shù)據(jù)倉庫的建設(shè)過程不同工具間的集成共享_第4頁
元數(shù)據(jù)在數(shù)據(jù)倉庫的建設(shè)過程不同工具間的集成共享_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、元數(shù)據(jù)在數(shù)據(jù)倉庫的建設(shè)過程不同工具間的集成共享蘇家怡2004年 6月數(shù)據(jù)倉庫之路原創(chuàng)資料一、 元數(shù)據(jù)概述元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。 應用程序在正確訪問、 操作處理和顯示數(shù)據(jù)時需要參考元數(shù) 據(jù)。元數(shù)據(jù)是對數(shù)據(jù)進行統(tǒng)一管理的基礎(chǔ),是各種數(shù)據(jù)庫和應用共享企業(yè)信息的關(guān)鍵。 把適當?shù)脑獢?shù)據(jù)提供給適當?shù)挠脩? 對于數(shù)據(jù)倉庫工作的成功是至關(guān)重要的。 在數(shù)據(jù)抽 取過程中, 元數(shù)據(jù)可以清楚地描述源數(shù)據(jù)庫、 應用和其它數(shù)據(jù)源的來源、 位置、 種類等信息, 同 時 也制定 數(shù)據(jù)的 流向 、數(shù)據(jù)的 轉(zhuǎn)換規(guī)則 、數(shù)據(jù) 目標 和數(shù)據(jù)的版 本及 數(shù)據(jù)的描述信息等等。 數(shù)據(jù)倉庫 系 統(tǒng)的建 設(shè) 過程 (從設(shè)計到發(fā)布 一 般涉及

2、有三個階段 :需 求 建 模 , ETL 開發(fā) , 前 端 應用 展 示。 以 目 前數(shù)據(jù)倉庫的 技術(shù)現(xiàn)狀而言 ,在 上 述的 三個階段 中,需要 不同 的 廠 商 的各類工 具 的 集 成一 起協(xié)同 工作, 完 成數(shù)據(jù)的抽取、 轉(zhuǎn)換 和 加載 , OLAP 分析 和數(shù)據(jù) 挖 掘 等。 與上 述 階段 對應的數(shù)據(jù)倉庫工 具大致 可 分為三 類 :建 模 工 具:數(shù)據(jù)庫 設(shè)計 和業(yè) 務 建 模 工 具 。 如 Sysbase 的 PowerDesigner , CA 的 Erwin 和 Rational 的 Rose 等 ;ETL 工 具:把業(yè) 務系 統(tǒng)中的數(shù)據(jù)抽取、 轉(zhuǎn)換 、清 洗到 數(shù)據(jù)倉庫

3、中的工 具 。 如Informatica 的 PowerMart , Ascential 的 DataStage, SAS的 Data Builder.前 端展 示工 具:包括報表 , OLAP 分析 和 商 業(yè) 智能 工 具 等。 如 BRIO , BO ,Cognos 的 PowerPlay 等 ;在 擁有不同廠商 、 不同 功 能 和 不同 元數(shù)據(jù) 知識 庫的數(shù)據(jù)倉庫的 環(huán)境下 , 如何 使 這些 工 具 有效 地 協(xié)同 工作 起 來, 實現(xiàn)從 一種 產(chǎn)品獲得 元數(shù)據(jù), 映射到另外 一種 產(chǎn)品 中, 實現(xiàn)不同產(chǎn)品 之間 的元數(shù)據(jù) 同步 , 跨越不同環(huán)境 的元數(shù)據(jù) 能夠 共享 ? 能 迅速

4、收 集 、 傳播 知識 , 然后通 過 這 些知識 的重 復利 用, 節(jié)省了 工作時 間 , 減少了 信息 交 流 成 本 ? 這些 對數(shù)據(jù)倉庫過程 開發(fā)實 施 的工作,對 后續(xù) 開發(fā) 和 維護 等 都會 提供 很 大 的 幫助 。二、 元數(shù)據(jù)的獲得和使用元數(shù)據(jù)是 將 各類工 具 連接 起 來的 “黏合劑” 。在 這 里我們主 要 介紹 數(shù)據(jù)倉庫 系 統(tǒng)建 設(shè) 過程中元數(shù)據(jù)的 獲得 和使用 實 例 。 在 實 際 的 系 統(tǒng)中, 建 模 工 具 使用 Sybase 的 PowerDesigner , ETL 工 具 使用 Informatica 的 PowerMart ,前 端開發(fā) 工 具 使

5、用 Brio 。2.1 元數(shù)據(jù)的獲得和使用項 目 中元數(shù)據(jù) 主 要 通 過以 下 途徑 獲得 和使用 步 驟 :1 在 項 目 的 邏輯 設(shè)計階段 ,使用 PowerDesinger 進行需 求 建 模 , 構(gòu) 建數(shù)據(jù)倉庫 模 型 的 結(jié)構(gòu) 和 定 義 , 包括 倉庫 模 式 、 視圖 、 維 、 層次結(jié)構(gòu) ,數(shù)據(jù)類 型 等,使用 特 定 業(yè) 務 相 關(guān)的 語義 來 定 義 業(yè) 務術(shù) 語 ; 此 處 獲得 的 包括技術(shù) 元數(shù)據(jù)和業(yè) 務 元數(shù)據(jù)。 Sysbase 可 以把 這階段 收 集 的元數(shù)據(jù) 集 中 保存 到 自己 的一 個知識 庫中 (Repository ;2 在 ETL 的 開發(fā)階段

6、 , 通 過 Informatica PowerMart 的 Designer 設(shè)計 工 具 中的 Import From Database 功 能 可以 方便 獲 取 OLTP 數(shù)據(jù)源的元數(shù)據(jù) ; 此 處 獲得 的是 技術(shù) 元數(shù)據(jù)。 另外 可以 也 通 過 Informatica 元數(shù)據(jù) 導入 工 具 (Metadata Exchage 把 存儲 在 Sysbase 的 知識 庫中的 目標 數(shù)據(jù)倉庫元數(shù)據(jù) 寫入 Informatica 的元數(shù)據(jù)的 知識 庫中, 并通 過 Infor matica 的 Designer 設(shè)計 工 具 進行關(guān) 系映射 , 獲 取 目標 庫的數(shù)據(jù) 結(jié)構(gòu) 和 定 義

7、 , 以 實現(xiàn)產(chǎn)品間 元數(shù)據(jù)的信息 同步 。 此 處 獲得 的是 技術(shù) 元數(shù)據(jù)和業(yè) 務 元數(shù)據(jù)。3 通 過 PowerMart Designer定 義 數(shù)據(jù)的 映射 、 轉(zhuǎn)換規(guī)則 , 此 處 為技術(shù) 元數(shù)據(jù) ;4 通 過 PowerMart Server Engine定 義所 有定 義 的數(shù)據(jù) 轉(zhuǎn)換 清 洗 的 調(diào)度 規(guī)則 , 此 處 為 操作元數(shù)據(jù) ;上 述 2 , 3 , 4步 收 集 的元數(shù)據(jù) 會保存 在 Informatica 的元數(shù)據(jù)的 知識 庫中, 它在關(guān) 系 型 的數(shù)據(jù)庫中建 立了 一 系 列 用作元數(shù)據(jù)管理的 表 , 利 用元數(shù)據(jù)來 驅(qū)動 數(shù)據(jù) 的 整合 過程。 通 過 該 產(chǎn)

8、品 的 相 關(guān) 組 件來 瀏覽 和管理 知識 庫中 所 有 的元數(shù)據(jù)。 由 于 Informatica 的元數(shù)據(jù)的 知識 庫中是建 立 在 開 放 的關(guān) 系 數(shù)據(jù)庫中, 這 時 我們編寫 程序, 使用 SQL 或動態(tài) SQL , 通 過 ODBC 或 JDBC 等來訪問 相 關(guān)的元數(shù)據(jù)。5 在前 端 應用 開發(fā)階段 , 通 過 Brio 前 端 工 具 來訪問元數(shù)據(jù), 從而 屏蔽 業(yè) 務 人員 對數(shù) 據(jù)庫 物 理 結(jié)構(gòu) 的理 解 , 讓 業(yè) 務 人員 可以 根 據(jù) 自己 熟悉 的業(yè) 務術(shù) 語 來操 縱 數(shù)據(jù)倉庫中 的數(shù)據(jù)。 此 處 獲得 是 為 業(yè) 務 元數(shù)據(jù) ; 通 過 Brio 可以訪問

9、存儲 在 Informatica 的元數(shù)據(jù) 的 知 識 庫 中 的 業(yè) 務 元 數(shù) 據(jù) 和 技 術(shù) 元 數(shù) 據(jù) 。 Brio 為 元 連 接 向 導 添 加 OEM Informatica MX (Meta eXchange 元 定 義 以訪問在 Oracle , DB2, SQL SERVER , Sybase 等數(shù)據(jù)庫的基礎(chǔ) Informatica 知識 庫的共享庫。2.2 元數(shù)據(jù)使用實例在 POWER DESIGNER 中建 立 數(shù)據(jù)倉庫的數(shù)據(jù) 模 型 。 根 據(jù)業(yè) 務分析 需 求 , 進行建 模; 建 立 數(shù)據(jù)倉庫的數(shù)據(jù) 模 型 (星 型結(jié)構(gòu) ; 把 設(shè)計完 成的數(shù)據(jù) 模 型 的 保存

10、 到 SYSBASE 的 REPOSITORY 中 ; 圖 11、建立源和目標INFOMA TICA 的 POWERMART DESIGNER提供 了 數(shù)據(jù) 結(jié)構(gòu) 的提取 , 裝 載 程序, 能 夠 自動 地 將 業(yè) 務 源數(shù)據(jù)庫中的各 表 的數(shù)據(jù) 結(jié)構(gòu) (如 字 段 名 , 字 段 類 型 , 數(shù)據(jù)描述信息等 傳 遞 到 DESIGNER 中 ;這 就避免 了 重 復 輸 入結(jié)構(gòu) 和 維護結(jié)構(gòu) 的工作,對數(shù)據(jù) 結(jié)構(gòu) 的 轉(zhuǎn) 換 保 證 了 一 致 性 與 可 靠性 。另外 我們 可以 利 用 INFORMA TICA MA TADA TE EXCHANGE 工 具 把建 模 工 具 (POW

11、ERDESIGNER 保存 的 知識 庫中的元數(shù)據(jù)信息來建 立 數(shù)據(jù)抽取 轉(zhuǎn)換 過程中的元 數(shù)據(jù),把數(shù)據(jù) 模 型 的元數(shù)據(jù) 倒 入 Informatica 的 知識 庫中 保存 ;如 圖 2: 圖 2讀 取 Informatica 知識 庫中 目標 區(qū)域 的數(shù)據(jù) 模 型 。 如 圖 3:圖 32、使用 Powermart 產(chǎn)品 建 立 這個 銷售 主 題 的 整 個 ETL 過程 ; 圖 4使用前 端 工 具如 BRIO 來 展 示數(shù)據(jù)時, 幫助 用戶 了解 數(shù)據(jù)倉庫中 有 什么樣 的數(shù)據(jù), 按 商 業(yè)用 語 的 習慣 來使用數(shù)據(jù)。1 首 先 建 立 一 個 與 INFORMA TICA 的 知 識 庫 的 連 接 inforep.oce ; 筆 者 的 INFORMA TICA 的 知識 庫是建 立 在 SQLSERVER2000上 的。 如:ODBC SQLSERVER2000 2 再 建 立 一 個與目標 數(shù)據(jù)庫 (testtgt 的一 個 連接 文件 (tbc_testtg.OCE , 利 用 INFORMATICA 的 知識 庫中的元數(shù)據(jù)來 幫助 用戶使用 該 數(shù)據(jù)倉庫的數(shù)據(jù) ; 3 使用元數(shù)據(jù)的 連接 文件 : 4 選擇 INF

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論