數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

作業(yè)4理解數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織要求和方法掌握數(shù)據(jù)倉(cāng)庫(kù)的星型模型、雪化模型的設(shè)計(jì)方法理解元數(shù)據(jù)的類型及其作用6/9/20231數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘內(nèi)容提要數(shù)據(jù)模型元數(shù)據(jù)數(shù)據(jù)的粒度數(shù)據(jù)模型傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型不同于數(shù)據(jù)庫(kù)的數(shù)據(jù)模型在于數(shù)據(jù)倉(cāng)庫(kù)只為決策分析用,數(shù)據(jù)倉(cāng)庫(kù)的增加了時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)模型。6/9/20233數(shù)據(jù)倉(cāng)庫(kù)概念模型1.數(shù)據(jù)倉(cāng)庫(kù)模型的概念數(shù)據(jù)倉(cāng)庫(kù)概念模型的設(shè)計(jì)需要給出一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的粗略藍(lán)本,以此為工具來確認(rèn)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)者是否已經(jīng)正確的了解數(shù)據(jù)倉(cāng)庫(kù)最終用戶的信息需求。(1)概念數(shù)據(jù)模型

在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的概念模型時(shí),可以采用在業(yè)務(wù)數(shù)據(jù)處理系統(tǒng)中經(jīng)常應(yīng)用的企業(yè)數(shù)據(jù)模型——ER圖。這是一種描述組織業(yè)務(wù)概況的藍(lán)圖,包括整個(gè)組織系統(tǒng)中各個(gè)部門的業(yè)務(wù)處理及其業(yè)務(wù)處理數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)一樣,也存在高層模型(ERD,實(shí)體關(guān)系層)、中層模型(DIS,邏輯層)和低層模型(物理層)3個(gè)層次數(shù)據(jù)模型。6/9/20234企業(yè)數(shù)據(jù)模型(舉例)財(cái)務(wù)部門銷售收入帳應(yīng)收帳應(yīng)付帳成本帳銷售部門銷售計(jì)劃銷售合同銷售統(tǒng)計(jì)人事部門員工業(yè)績(jī)記錄員工技能情況員工薪酬表財(cái)務(wù)人事銷售…….……..…..企業(yè)數(shù)據(jù)模型6/9/20235數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)采用多維數(shù)據(jù)模型。果汁可樂牛奶商品維奶油浴巾香皂北京上海長(zhǎng)沙1234567城市維日期維維就是相同類數(shù)據(jù)的集合,商店、時(shí)間和產(chǎn)品都是維。各個(gè)商店的集合是一維,時(shí)間的集合是一維,商品的集合是一維。每一個(gè)商店、每一段時(shí)間、每一種商品就是某一維的一個(gè)成員。每一個(gè)銷售事實(shí)由一個(gè)特定的商品、一個(gè)特定的時(shí)間、一個(gè)特定的商品組成。兩維表,如通常的電子表格。三維構(gòu)成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。6/9/20236星型數(shù)據(jù)模型大多數(shù)的數(shù)據(jù)倉(cāng)庫(kù)都采用“星型模型”。星型模型是由“事實(shí)表”(大表)及多個(gè)“維表”(小表)所組成。“事實(shí)表”中存放大量關(guān)于企業(yè)的事實(shí)數(shù)據(jù)(數(shù)量數(shù)據(jù))。例如:多個(gè)時(shí)期的數(shù)據(jù)可能會(huì)出現(xiàn)在同一個(gè)“事實(shí)表”中。“維表”中存放描述性數(shù)據(jù),維表是圍繞事實(shí)表建立的較小的表。維度表維度表維度表維度表事實(shí)表維度表6/9/20237星型模型舉例6/9/20238訂貨表客戶表銷售員表事實(shí)表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)存儲(chǔ)情況示意圖6/9/20239星型模型模型的核心是事實(shí)表,維表通過主鍵與事實(shí)表和其他維表鏈接事實(shí)表中的數(shù)據(jù)不允許修改,新數(shù)據(jù)只是簡(jiǎn)單的增加非規(guī)范化程度高,如不同時(shí)期的同類數(shù)據(jù)可能出現(xiàn)在同一維表中,數(shù)據(jù)冗余大存取速度快,以增加空間換取較快的訪問速度難于適應(yīng)業(yè)務(wù)需求的變化6/9/202310雪花數(shù)據(jù)模型雪花模型是對(duì)星型模型的維表進(jìn)一步層次化,原來的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次”區(qū)域在上面星型模型的數(shù)據(jù)中,對(duì)“產(chǎn)品表”“日期表”“地區(qū)表”進(jìn)行擴(kuò)展形成雪花模型數(shù)據(jù)見下圖。維度表維度表維度表維度表維度表事實(shí)表詳細(xì)類別表詳細(xì)類別表6/9/202311雪花模型舉例6/9/202312星網(wǎng)模型星網(wǎng)模型是將多個(gè)星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個(gè)星型模型通過相同的維,如時(shí)間維,連接多個(gè)事實(shí)表。6/9/202313數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型與物理模型數(shù)據(jù)倉(cāng)庫(kù)(中間層)邏輯模型中間層數(shù)據(jù)模型亦可稱為邏輯模型,它是對(duì)高層數(shù)據(jù)概念模型的細(xì)分,在高層數(shù)據(jù)模型中所標(biāo)識(shí)的每個(gè)主題域或指標(biāo)實(shí)體都需要與一個(gè)邏輯模型相對(duì)應(yīng)。物理數(shù)據(jù)模型是依據(jù)中間層的邏輯數(shù)據(jù)模型而創(chuàng)建的,它通過確定模型的鍵碼屬性和模型的物理特性,擴(kuò)展中間層數(shù)據(jù)模型而建立。此時(shí),物理數(shù)據(jù)模型就由一系列表所構(gòu)成,其中最主要的是事實(shí)表模型和維表模型。物理模型中的事實(shí)表來源于邏輯模型,它依據(jù)數(shù)據(jù)倉(cāng)庫(kù)具體的應(yīng)用而建立。事實(shí)表是星型模型結(jié)構(gòu)的核心。6/9/202314維模型維度表模型也需要根據(jù)邏輯模型設(shè)計(jì),在設(shè)計(jì)過程中考慮維度表模型是用戶分析數(shù)據(jù)的窗口。維度表應(yīng)該含有商業(yè)項(xiàng)目的文字描述,維度的設(shè)計(jì)提供了維度屬性的定義。這些屬性應(yīng)具有這樣一些特征:A.可用文字描述。B.離散值。C.有規(guī)定的限制。D.在分析過程中可以提供行標(biāo)題。6/9/2023151.元數(shù)據(jù)的定義元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)、運(yùn)行中有著重要的作用,它表述了數(shù)據(jù)倉(cāng)庫(kù)中的各對(duì)象,遍及數(shù)據(jù)倉(cāng)庫(kù)的所有方面,是數(shù)據(jù)倉(cāng)庫(kù)中所有管理、操作、數(shù)據(jù)的數(shù)據(jù),是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心。元數(shù)據(jù)是關(guān)于數(shù)據(jù)、操縱數(shù)據(jù)的進(jìn)程和應(yīng)用程序的結(jié)構(gòu)和意義的描述信息,其主要目標(biāo)是提供數(shù)據(jù)資源的全面指南。其范圍可以是某個(gè)特別的數(shù)據(jù)庫(kù)管理系統(tǒng)中從現(xiàn)實(shí)世界的概念上的一般概括,到詳細(xì)的物理說明。

元數(shù)據(jù)及其作用6/9/202316在數(shù)據(jù)庫(kù)中,元數(shù)據(jù)是對(duì)數(shù)據(jù)庫(kù)中各個(gè)對(duì)象的描述。關(guān)系數(shù)據(jù)庫(kù)中,這種描述就是對(duì)表、列、數(shù)據(jù)庫(kù)和其他對(duì)象的定義。從廣義上講,元數(shù)據(jù)代表定義數(shù)據(jù)倉(cāng)庫(kù)的任何對(duì)象,無論它是一個(gè)表、一個(gè)列、一個(gè)查詢、一個(gè)業(yè)務(wù)規(guī)則,或者是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部的數(shù)據(jù)轉(zhuǎn)移等等。6/9/202317元數(shù)據(jù)舉例6/9/202318舉例:全國(guó)文化信息資源共享工程中的元數(shù)據(jù)疾病描述:

顯示器件:

縮寫:ILLNE

名字空間URI:

/ndcnc/elements/ILLNE附屬標(biāo)記:

20030729135551

疾病名稱

疾病分類

疾病簡(jiǎn)介

癥狀

病因及發(fā)病機(jī)制

病理變化

診斷

治療

預(yù)防

預(yù)后

主題詞或關(guān)鍵詞

相關(guān)藥物

相關(guān)疾病

相關(guān)文獻(xiàn)

相關(guān)指標(biāo)

相關(guān)書目

相關(guān)專家

相關(guān)機(jī)構(gòu)

圖片

視頻

音頻

6/9/202319舉例:全國(guó)文化信息資源共享工程中的元數(shù)據(jù)6/9/202320舉例:全國(guó)文化信息資源共享工程中的元數(shù)據(jù)描述:

顯示器件:

縮寫:

WEAPO名字空間URI:

/ndcnc/elements/WEAPO附屬標(biāo)記:

20030729135519兵器名稱

研制國(guó)別

研制機(jī)構(gòu)

研制時(shí)間

分類

關(guān)鍵詞

簡(jiǎn)介

圖片

視頻

音頻

相關(guān)書目

6/9/202321元數(shù)據(jù)的作用(1)元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必需的(2)元數(shù)據(jù)定義的語義層可以幫助最終用戶理解數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)(3)元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵(4)元數(shù)據(jù)可以支持需求變化6/9/202322元數(shù)據(jù)的分類1.按元數(shù)據(jù)的類型分類關(guān)于基本數(shù)據(jù)的元數(shù)據(jù):包括數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和應(yīng)用程序管理的所有數(shù)據(jù)。用于數(shù)據(jù)處理的元數(shù)據(jù)關(guān)于企業(yè)的組織結(jié)構(gòu)的元數(shù)據(jù)2.按對(duì)象級(jí)別分類(1)概念級(jí)(2)邏輯級(jí)(3)物理級(jí)6/9/2023233.從用戶的角度分類(1)業(yè)務(wù)元數(shù)據(jù),具體包括以下內(nèi)容:A.企業(yè)概念模型B.多維數(shù)據(jù)模型C.業(yè)務(wù)概念模型和物理數(shù)據(jù)之間的依賴關(guān)系D.支持面向業(yè)務(wù)概念的瀏覽、導(dǎo)航E.支持動(dòng)態(tài)立即查詢F.數(shù)據(jù)挖掘(2)技術(shù)元數(shù)據(jù)6/9/2023244.從來源的角度分類(1)工具產(chǎn)生的元數(shù)據(jù)(2)源提供的元數(shù)據(jù)(3)企業(yè)模型(4)系統(tǒng)導(dǎo)入的元數(shù)據(jù)(5)特定的用戶產(chǎn)生的元數(shù)據(jù)6/9/2023255.從元數(shù)據(jù)的目的角度分類一般可以通過一種更粗的方法來區(qū)分元數(shù)據(jù):(1)用于信息的元數(shù)據(jù)(2)用于控制的元數(shù)據(jù)6/9/2023266.按照產(chǎn)生/使用的時(shí)間分類根據(jù)獲取或生成的時(shí)間,可以分為:A.設(shè)計(jì)時(shí)收集的元數(shù)據(jù)B.構(gòu)建時(shí)生成的元數(shù)據(jù)C.運(yùn)行時(shí)生成的元數(shù)據(jù)根據(jù)使用的時(shí)間,可以分為:A.設(shè)計(jì)時(shí)使用的元數(shù)據(jù)B.構(gòu)建使使用的元數(shù)據(jù)C.運(yùn)行時(shí)使用的元數(shù)據(jù)6/9/202327元數(shù)據(jù)管理的現(xiàn)狀數(shù)據(jù)共享領(lǐng)域的某些趨勢(shì)說明數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)需求正逐步增加,這些趨勢(shì)包括:A.數(shù)據(jù)模型處理的對(duì)象由傳統(tǒng)的字符型和數(shù)值型擴(kuò)展到多種媒體類型。B.支持一家企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展到支持多個(gè)組織多個(gè)企業(yè)共享的數(shù)據(jù)倉(cāng)庫(kù)。C.信息流控制由過去的從源系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的單向流動(dòng)擴(kuò)展到由數(shù)據(jù)倉(cāng)庫(kù)向源系統(tǒng)的反饋。D.各個(gè)廠家的專用數(shù)據(jù)格式向公共開放標(biāo)準(zhǔn)元數(shù)據(jù)交換格式轉(zhuǎn)換,以提高其信息捕獲能力。元數(shù)據(jù)管理之所以困難,一個(gè)很重要的原因就是缺乏統(tǒng)一的標(biāo)準(zhǔn)。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(MetaDataCoalition)的開放信息模型OIM(OpenInformationModel)和OMG組織的公共倉(cāng)庫(kù)模型CWM(CommonWarehouseModel)標(biāo)準(zhǔn)的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉(cāng)庫(kù)廠商提供了統(tǒng)一的標(biāo)準(zhǔn),從而為元數(shù)據(jù)管理鋪平了道路。6/9/202328元數(shù)據(jù)管理標(biāo)準(zhǔn)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中兩個(gè)最主要的元數(shù)據(jù)標(biāo)準(zhǔn):MDC的OIM標(biāo)準(zhǔn)和OMG的CWM標(biāo)準(zhǔn)。元數(shù)據(jù)聯(lián)合會(huì)MDC建于1995年,是一個(gè)致力于建立與廠商無關(guān)的、不依賴于具體技術(shù)的企業(yè)元數(shù)據(jù)管理標(biāo)準(zhǔn)的非贏利技術(shù)聯(lián)盟,目的是提供標(biāo)準(zhǔn)化的元數(shù)據(jù)交互。該聯(lián)盟有150多個(gè)會(huì)員,其中包括微軟和IBM等著名軟件廠商。1999年7月MDC接受了微軟的建議,將OIM作為元數(shù)據(jù)標(biāo)準(zhǔn)。MDC于1996年開發(fā)了MDIS(MetaDataInterchangeSpecification)并完成了MDC-OIM的技術(shù)評(píng)審,MDC-OIM基于微軟的開放信息模型OIM,是一個(gè)獨(dú)立于技術(shù)的、以廠商為核心的信息模型。OIM是微軟的元數(shù)據(jù)管理產(chǎn)品MicrosoftRepository的一部分。由微軟和其它20多家公司共同開發(fā)的,作為微軟開放過程的一部分,經(jīng)過了300多個(gè)公司的評(píng)審。6/9/202329元數(shù)據(jù)管理標(biāo)準(zhǔn)OMG是一個(gè)擁有500多會(huì)員的國(guó)際標(biāo)準(zhǔn)化組織。在1995年采用了MOF(MetaObjectFacility),并不斷完善之。1997年采用了UML,2000年,OMG又采用了CWM。公共倉(cāng)庫(kù)元模型(CommonWarehouseMetamodel)的主要目的是在異構(gòu)環(huán)境下,幫助不同的數(shù)據(jù)倉(cāng)庫(kù)工具、平臺(tái)和元數(shù)據(jù)知識(shí)庫(kù)進(jìn)行元數(shù)據(jù)交換。2001年3月,OMG頒布了CWM1.0標(biāo)準(zhǔn)。CWM模型既包括元數(shù)據(jù)存儲(chǔ),也包括元數(shù)據(jù)交換,它是基于以下三個(gè)工業(yè)標(biāo)準(zhǔn)制定的:

(1)UML:它對(duì)CWM模型進(jìn)行建模。

(2)MOF(元對(duì)象設(shè)施):它是OMG元模型和元數(shù)據(jù)的存儲(chǔ)標(biāo)準(zhǔn),提供在異構(gòu)環(huán)境下對(duì)元數(shù)據(jù)知識(shí)庫(kù)的訪問接口。

(3)XMI(XML元數(shù)據(jù)交換):它可以使元數(shù)據(jù)以XML文件流的方式進(jìn)行交換。OMG的UML、MOF和CWM形成了OMG建模和元數(shù)據(jù)管理、交換結(jié)構(gòu)的基礎(chǔ),推動(dòng)了元數(shù)據(jù)標(biāo)準(zhǔn)化的快速發(fā)展。為了推動(dòng)元數(shù)據(jù)標(biāo)準(zhǔn)化的發(fā)展,MDC和OMG在元數(shù)據(jù)標(biāo)準(zhǔn)的制定上協(xié)同工作。1999年4月,MDC成為OMG的成員,而OMG也同時(shí)成為MDC的成員。MDC中使用了OMG的UML,而MDC-OIM中的數(shù)據(jù)倉(cāng)庫(kù)部分被用來作為OMG的公共倉(cāng)庫(kù)元數(shù)據(jù)交互(CWMI:CommonWarehouseMetadataInterchange)的設(shè)計(jì)參考。在兩個(gè)組織的技術(shù)力量的合作努力下,元數(shù)據(jù)標(biāo)準(zhǔn)將逐步一致化。

6/9/202330數(shù)據(jù)粒度粒度問題是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)最重要方面。粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小;相反,細(xì)化程度越低,粒度級(jí)就越大。數(shù)據(jù)的粒度一直是一個(gè)設(shè)計(jì)問題。在早期建立的操作型應(yīng)用系統(tǒng)中,當(dāng)詳細(xì)的數(shù)據(jù)被更新時(shí),幾乎總是把它存放在最低粒度級(jí)上。但在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,對(duì)粒度不作假設(shè)。數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中粒度的設(shè)計(jì)要在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小、查詢的效率及詳細(xì)程度之間要作出權(quán)衡。6/9/202331數(shù)據(jù)粒度6/9/202332數(shù)據(jù)粒度1.數(shù)據(jù)粒度的劃分適當(dāng)劃分粒度的第一步是估算數(shù)據(jù)倉(cāng)庫(kù)中將來使用的數(shù)據(jù)行數(shù)和所需的直接存取存儲(chǔ)設(shè)備數(shù)在計(jì)算出數(shù)據(jù)倉(cāng)庫(kù)所需要占用的存儲(chǔ)空間以后,需要根據(jù)所需要的存儲(chǔ)空間大小確定是否劃分粒度,如果需要?jiǎng)澐?,又?yīng)該怎樣劃分。6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論