已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫中的元數(shù)據(jù),元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù); 描述數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、碼、索引等信息。 元數(shù)據(jù)的重要性 元數(shù)據(jù)的內(nèi)容,元數(shù)據(jù)的重要性,管理人員做分析時(shí),往往先從元數(shù)據(jù)入手。 例如:從元數(shù)據(jù)中查廣義索引,再進(jìn)一步搜索 支持?jǐn)?shù)據(jù)轉(zhuǎn)換:DB環(huán)境的數(shù)據(jù)DW環(huán)境的數(shù)據(jù)元數(shù)據(jù)描述“轉(zhuǎn)換”;元數(shù)據(jù)本身具有良好的靈活性,適應(yīng)變化。 例如:不同時(shí)期,數(shù)據(jù)結(jié)構(gòu)是變化的 支持對數(shù)據(jù)倉庫中數(shù)據(jù)的理解 例如:結(jié)構(gòu)、粒度層次、分片策略、索引等,元數(shù)據(jù)的分類,技術(shù)元數(shù)據(jù) 是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。 商業(yè)元數(shù)據(jù) 從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表;業(yè)務(wù)的關(guān)注點(diǎn),比如銷售量,客戶購買情況,維度建模方法,維度建模,維度建模的相關(guān)概念 維度建模的基本步驟,多維數(shù)據(jù)模型,直觀的表示現(xiàn)實(shí)中的復(fù)雜關(guān)系 基本組成 維 度量(變量、指標(biāo)) 立方體,Example:,計(jì)算每一個(gè)商場,每一產(chǎn)品銷售額,產(chǎn)品、商場交叉表,聯(lián)機(jī)分析(OLAP)維度模型,多維數(shù)據(jù)模型的組成,維(Dimension) 維層次路徑、維層次、維成員(維實(shí)例)、維層次屬性 事實(shí)(Fact) 度量(Measure) 數(shù)據(jù)立方體(Cube),維,維:對數(shù)據(jù)進(jìn)行分類的一種結(jié)構(gòu),以用于從特定的角度觀察數(shù)據(jù)。(例如:時(shí)間、地區(qū)、產(chǎn)品) 維的兩個(gè)用途 選擇針對期望詳細(xì)程度的層次的數(shù)據(jù) 分組對細(xì)節(jié)數(shù)據(jù)綜合(聚集)到相應(yīng)的詳細(xì)程度的數(shù)據(jù)層次,維,維的組織方式:維層次路徑(HIERARCHY ) 維層次路徑由代表不同詳細(xì)程度的維層次(Level)組成。 維的層次:特定角度的不同細(xì)節(jié)程度,維層級,層級是維度屬性組內(nèi)屬性之間的兩級或多級結(jié)構(gòu)。高一級的屬性(組)構(gòu)成的維度完全包含低一級的一個(gè)或多個(gè)屬性(組)構(gòu)成的維度。,事實(shí)(度量),度量(指標(biāo)):數(shù)據(jù)的實(shí)際意義,一般是一個(gè)數(shù)值度量指標(biāo) 例如:銷售量、銷售額, 而具體數(shù)據(jù)(如“10000”)是變量的一個(gè)值 事實(shí): 存儲一個(gè)多維數(shù)據(jù) 表達(dá)期望分析的主題(目的、感興趣的事情、事件或者指標(biāo)等) 具有一定的粒度,粒度的大小與維層次相關(guān) 一個(gè)事實(shí)中通常包含一個(gè)或者多個(gè)度量 一個(gè)度量的兩個(gè)組件 數(shù)字型指標(biāo) 聚集函數(shù),立方體(CUBE),按照一定維層次結(jié)構(gòu)和度量(事實(shí))的邏輯上的組織 其邏輯上相當(dāng)于一個(gè)多維數(shù)組,多維數(shù)組,多維數(shù)組: 一個(gè)多維數(shù)組表示為: (維1 ,維2 ,.,維n,變量) 例如: (時(shí)間、地區(qū)、銷售渠道、銷售額) 可擴(kuò)展維數(shù):如 (時(shí)間、地區(qū)、銷售渠道、商品類型、銷售額),數(shù)據(jù)單元(Cell),數(shù)據(jù)單元(單元格):多維數(shù)組的取值 可表示為: (維1維成員,維2維成員,.,維n維成員,變量的值) 例如: (1997年1月,北京,批發(fā),10000),多維分析,多維的切片(slice) 從多維數(shù)組選定一個(gè)二維子集,切出一個(gè)“平面” 多維的切塊(dice) 從多維數(shù)組選定一個(gè)三維子集,切出一個(gè)“立方體”,切片,切片和切塊,多維分析,旋轉(zhuǎn) 改變一個(gè)報(bào)告(或頁面)顯示的維方向,旋轉(zhuǎn),鉆取 根據(jù)維層次,改變數(shù)據(jù)的粒度 “上卷” (roll_up)是指沿某一個(gè)維的概念分層向上歸約 ; “下鉆” (drill_down)是上卷的逆向操作,它是沿某一個(gè)維的概念分層向下或引入新的維來實(shí)現(xiàn);,其它OLAP操作 “鉆過”(Drill Across)是指對多個(gè)事實(shí)表進(jìn)行查詢; “鉆透”(Drill Through)是指對立方體操作時(shí),利用數(shù)據(jù)庫關(guān)系,鉆透立方體的底層,進(jìn)入后端的關(guān)系表。 OLAP的其它操作還有統(tǒng)計(jì)表中最高值和最低值的項(xiàng)數(shù),計(jì)算平均值、增長率、利潤、投資回報(bào)率等統(tǒng)計(jì)計(jì)算。,多維數(shù)據(jù)模型的實(shí)現(xiàn),Relational OLAP (ROLAP)(關(guān)系數(shù)據(jù)庫) 利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù)和聚合數(shù)據(jù),并利用一些中間件來支持缺失數(shù)據(jù)的處理,具有良好的可擴(kuò)展性 Multidimensional OLAP (MOLAP) 利用多維數(shù)據(jù)庫來存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù),其中需要對稀疏矩陣處理技術(shù) 對預(yù)綜合的數(shù)據(jù)進(jìn)行快速索引 Hybrid OLAP (HOLAP) 利用關(guān)系數(shù)據(jù)庫來存儲和管理基本數(shù)據(jù),利用多維數(shù)據(jù)庫來存儲和管理聚合數(shù)據(jù)。,多維數(shù)據(jù)的組織存放(細(xì)節(jié)數(shù)據(jù)),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)組織,多維數(shù)據(jù)庫中的數(shù)據(jù)組織,MDB方法的優(yōu)點(diǎn)(細(xì)節(jié)數(shù)據(jù)),清晰簡明,占用存儲少 性能好,尤其像“冰箱銷售總量是多少?”的查詢 RDB方法:找出有關(guān)“冰箱”的記錄,再對銷售 MDB方法:找到有關(guān)“冰箱”的行,按行求和,多維數(shù)據(jù)的組織存放(綜合數(shù)據(jù)),RDB中數(shù)據(jù)組織,MDB中數(shù)據(jù)組織,MDB方法的優(yōu)點(diǎn)(綜合數(shù)據(jù)),多維概念表達(dá)清晰,占用存儲少 對數(shù)據(jù)進(jìn)行綜合的速度快(只需按行/列累加) 在RDB中,“總和”作為某個(gè)域上的取值(屬性 值)與列定義語義不符,用關(guān)系結(jié)構(gòu)表示多維數(shù)據(jù),關(guān)系數(shù)據(jù)庫使用廣泛,相當(dāng)成熟 用二維表表達(dá)多維概念 用兩類表來表示多維結(jié)構(gòu): 事實(shí)表,維表 事實(shí)(fact)表 用來存儲變量值和各維的碼值 維表 用來存儲維的描述信息(元數(shù)據(jù)),包括層次和類等,維度模型,一種非規(guī)范化的關(guān)系模型 由一組屬性構(gòu)成的表所組成 表與表之間的關(guān)系通過關(guān)鍵字和外鍵來定義 以良好的可理解性和方便的產(chǎn)生報(bào)表來進(jìn)行組織,很少考慮修改的性能 通過MDX或相關(guān)的工具實(shí)現(xiàn)數(shù)據(jù)的查詢和維護(hù),E-R模型和維度模型,星形模型,Fact Table,每一個(gè)事實(shí)表通常包含了處理所關(guān)心的一系列的度量值 每一個(gè)事實(shí)表的行包括 具有可加性的數(shù)值型的度量值 與維表相連接的外鍵,事實(shí)表(fact table),事實(shí)表討論,假設(shè),以上案例中marketing campaign 維有8個(gè)成員,year維度有6個(gè)成員,product type維度有4個(gè)成員,sales region維有4個(gè)成員, buyers age維有6個(gè)成員,事實(shí)表中的記錄數(shù)可達(dá)到: 8 6 4 4 6 or 4608 rows in the SalesFact table. 度量組(measure group),事實(shí)表的特征 非常大 列數(shù)較少 經(jīng)常發(fā)生(數(shù)據(jù)追加)變化 事實(shí)表的使用 各類度量值的聚集計(jì)算,Dimension Table,每一張維表對應(yīng)現(xiàn)實(shí)世界中的一個(gè)對象或者概念 例如:客戶、產(chǎn)品、日期、地區(qū) 維表的特征 包含了眾多描述性的列 通常情況下,跟事實(shí)表相比,行數(shù)相對較少 內(nèi)容相對固定,維表的應(yīng)用 基于維屬性的過濾(切片、切塊等) 基于維屬性的個(gè)中聚集操作(上卷、下鉆) 報(bào)表中各類標(biāo)簽的主要來源 事實(shí)表通過維表進(jìn)行應(yīng)用,Snowflake Schema Model,Time Table Week_id Period_id Year_id,Dept Table Dept_id Dept_desc Mgr_id,Mgr Table Dept_id Mgr_id Mgr_name,Product Table Product_id Product_desc,Item Table Item_id Item_desc Dept_id,Sales Fact Table Item_id Store_id Product_id Week_id Sales_amount Sales_units,Store Table Store_id Store_desc District_id,District Table District_id District_desc,慢變維(SCD),相對與事實(shí)表,維表的內(nèi)容穩(wěn)定 新的事務(wù)或交易不斷產(chǎn)生 新產(chǎn)品的加入?yún)s相對較少 新商場的開張更少 有些維度內(nèi)容盡管變化相當(dāng)緩慢,但維度屬性可能隨著時(shí)間發(fā)生變化 客戶地址發(fā)生變化 商場根據(jù)地域進(jìn)行分組,或者由于企業(yè)重組,地域的劃分也隨之改變,數(shù)據(jù)倉庫的生成,(Extract)數(shù)據(jù)的抽取 (Transform)數(shù)據(jù)的轉(zhuǎn)換 (Clean)數(shù)據(jù)的清洗 (Load)數(shù)據(jù)的裝載,數(shù)據(jù)抽取、轉(zhuǎn)換和加載 (ETL),“Effective data extract, transform and load (ETL) processes represent the number one success factor for your data warehouse project and can absorb up to 70 percent of the time spent on a typical data warehousing project.” DM Review, March 2001,抽取、轉(zhuǎn)換和加載(ETL)過程,抽取源數(shù)據(jù) 轉(zhuǎn)換/清除數(shù)據(jù) 索引和相加 加載數(shù)據(jù)到數(shù)據(jù)倉庫 檢測修改 更新數(shù)據(jù),Operational systems,ETL: 任務(wù)、重要性和費(fèi)用,Operational systems,相關(guān)性 實(shí)用性 可靠性 準(zhǔn)確性 操作性,Data Warehouse,ETL,抽取 清洗 整合 重構(gòu) 裝載 維持 更新,Warehouse database,抽取數(shù)據(jù),Source systems Data from various data sources in various formats Extraction Routines Developed to select data fields from sources Consist of business rules, audit trails, error correction facilities,檢查源數(shù)據(jù),產(chǎn)生 歸檔的 內(nèi)部的 外部的,抽取技術(shù),Programs: C, C+, COBOL, PL/SQL, Java Gateways: transparent database access Tools: In-house developed tools Vendors data extraction tools,抽取方法,Logical Extraction methods: Full Extraction Incremental Extraction Physical Extraction methods: Online Extraction Offline Extraction,抽取工具,轉(zhuǎn)換,Transformation eliminates anomalies from operational data: Cleans and standardizes Presents subject-oriented data,轉(zhuǎn)換技術(shù),Merging data Adding a Date Stamp Adding Keys to Data,轉(zhuǎn)換工具,Third-party tools(第三方工具) SQL*Loader(結(jié)構(gòu)化查詢語句) In-house developed programs(高級語言自己寫程序),加載數(shù)據(jù)到數(shù)據(jù)倉庫,Loading moves the data into the warehouse Loading can be time-consuming: Consider the load window Schedule and automate the loading Initial load moves large volumes of data Subsequent refresh moves smaller volumes of data,加載技術(shù),Tools(工具) Customized copy programs FTP Manual,數(shù)據(jù)倉庫的使用和維護(hù),DSS應(yīng)用開發(fā)的步驟,數(shù)據(jù)倉庫的使用及維護(hù),理解需求、完善系統(tǒng) 增加主題(如:在商場DW中增加“顧客”主題) 調(diào)整粒度層次 增加屬性(如對“商品”主題增加“商品檔次”屬性) DW維護(hù) 數(shù)據(jù)裝入(刷新當(dāng)前詳細(xì)數(shù)據(jù),將過時(shí)數(shù)據(jù)轉(zhuǎn)化為歷史數(shù)據(jù)) 清除不再使用的數(shù)據(jù) 追加數(shù)據(jù)(確定刷新頻率) 管理元數(shù)據(jù),Inmon提出的設(shè)計(jì)步驟,Data Marts,數(shù)據(jù)倉庫(事實(shí)和匯總)數(shù)據(jù)的一個(gè)子集。 BI環(huán)境中的大部分分析活動(dòng)均在數(shù)據(jù)集市中進(jìn)行。每個(gè)數(shù)據(jù)集市中的數(shù)據(jù)通常是為特定的功能(或部門)所定制,不必對其他的使用有效。,Data Warehouses Versus Data Marts,Dependent Data Mart,Independent Data Mart,Sales or Marketing,External Data,案例分析,案例背景,經(jīng)過三年快速的增長,MAXMIN公司的業(yè)務(wù)增長了300%,基于原有信息系統(tǒng)的報(bào)表系統(tǒng)只能提供細(xì)節(jié)型的信息,并且難以提供多種視角的靈活分析方式。 同時(shí),在同產(chǎn)品領(lǐng)域的競爭非常激烈,公司為了應(yīng)對競爭需要進(jìn)行有效的決策,而現(xiàn)有現(xiàn)有系統(tǒng)架構(gòu)下難以滿足。 基于以上兩點(diǎn),公司決定開發(fā)一種真正的商務(wù)智能系統(tǒng)。,當(dāng)前系統(tǒng),業(yè)務(wù)需求,基于每天、每臺機(jī)器、每種產(chǎn)品、每一批次的合格品數(shù)量 基于每天、每臺機(jī)器、每種產(chǎn)品、每一批次的次品數(shù)量 基于每天、每臺機(jī)器、每種產(chǎn)品、每一批次的注塑和固化時(shí)間 基于每天、每臺機(jī)器、每種產(chǎn)品、每一批次的處理和噴繪時(shí)間 產(chǎn)品能夠按照產(chǎn)品子類別、產(chǎn)品類別進(jìn)行上卷和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《證券基本知識培訓(xùn)》課件
- 七年級英語Peopleandwork課件
- 2025年寫人要抓住特點(diǎn)
- 大學(xué)計(jì)算機(jī)專業(yè)介紹
- 《試驗(yàn)室管理》課件
- 單位管理制度集粹選集【職員管理篇】
- 單位管理制度范例選集人員管理十篇
- 單位管理制度呈現(xiàn)合集人員管理十篇
- 單位管理制度呈現(xiàn)大合集人事管理篇
- (高頻選擇題50題)第1單元 中華人民共和國的成立和鞏固(解析版)
- 南京大學(xué)《宏觀經(jīng)濟(jì)學(xué)》習(xí)題庫及答案
- 敞開式硬巖TBM掘進(jìn)操作參數(shù)的控制 方志威
- (中職)《電子商務(wù)基礎(chǔ)》第1套試卷試題及答案
- 汽車三維建模虛擬仿真實(shí)驗(yàn)
- 無人機(jī)智慧旅游解決方案
- 行車起重作業(yè)風(fēng)險(xiǎn)分析及管控措施
- 健康管理主題PPT模板-健康管理
- 山西事業(yè)單位專業(yè)技術(shù)職務(wù)聘任管理
- 110kV及以上電力電纜敷設(shè)施工方法要點(diǎn)
- 國家開放大學(xué)電大??啤缎谭▽W(xué)(1)》期末題庫及答案
- 消防安全承諾書[新].doc
評論
0/150
提交評論