




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)倉庫基礎(chǔ)數(shù)據(jù)倉庫基礎(chǔ)1主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型設(shè)計數(shù)據(jù)倉庫設(shè)計多維模型主題商業(yè)智能技術(shù)2商業(yè)智能的體系商業(yè)智能技術(shù)體系(BI——BusinessIntelligence)在線分析處理技術(shù)(OLAP:OnlineAnalyticalProcessing)數(shù)據(jù)挖掘技術(shù)(DataMining)數(shù)據(jù)倉庫技術(shù)(DataWarehousing)數(shù)據(jù)整合集成各系統(tǒng)的歷史數(shù)據(jù),建立面向主題的企業(yè)數(shù)據(jù)中心數(shù)據(jù)分析靈活、動態(tài)、快速的多維分析、隨機查詢、即席報表知識發(fā)現(xiàn)通過數(shù)學(xué)模型發(fā)現(xiàn)隱藏的、潛在的規(guī)律,以輔助決策更加全面、深入的分析形成知識庫指導(dǎo)決策、再分析商業(yè)智能的體系商業(yè)智能技術(shù)體系(BI——BusinessI3數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫就是面向主題的、集成的、不同時間的、穩(wěn)定的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。什么是數(shù)據(jù)倉庫??數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫的概念什么是數(shù)據(jù)倉庫??4數(shù)據(jù)倉庫的特點面向主題集成性—企業(yè)數(shù)據(jù)框架歷史性、穩(wěn)定性數(shù)據(jù)倉庫的特點面向主題5數(shù)據(jù)倉庫與業(yè)務(wù)數(shù)據(jù)庫的比較數(shù)據(jù)倉庫與業(yè)務(wù)數(shù)據(jù)庫的比較6什么是聯(lián)機分析處理(OLAP)?OLAP的定義 OLAP是使分析人員、管理人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映數(shù)據(jù)維特性的信息,進行快速、一致、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。什么是聯(lián)機分析處理(OLAP)?OLAP的定義7OLAP的特征OLAP的核心——指標、維OLAP的目標——多維分析OLAP的特點靈活、動態(tài)多角度、多層次的視角快速OLAP的特征OLAP的核心——指標、維8OLAP的基本功能商業(yè)語義層的定義上鉆和下鉆(RolluporDrilldown)切片和切塊(SliceandDice)旋轉(zhuǎn)(Pivoting)強大的復(fù)雜計算能力時間智能豐富的數(shù)據(jù)展現(xiàn)方式OLAP的基本功能商業(yè)語義層的定義9OLAP功能示意按機構(gòu)鉆取濟南地區(qū)維時間維行業(yè)維青島OLAP功能示意按機構(gòu)鉆取濟南地區(qū)維時間維行業(yè)維青島10數(shù)據(jù)挖掘技術(shù)(DataMining)DM的定義數(shù)據(jù)挖掘(DataMining)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。也就是說,從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。DM的特點涉及數(shù)據(jù)庫、統(tǒng)計分析、人工智能多種技術(shù)預(yù)測和驗證功能特征和規(guī)律描述數(shù)據(jù)挖掘技術(shù)(DataMining)DM的定義11主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設(shè)計多維模型設(shè)計主題商業(yè)智能技術(shù)12數(shù)據(jù)倉庫與多維模型概述多維模型與數(shù)據(jù)倉庫 多維模型通過組織和匯總數(shù)據(jù)倉庫中的數(shù)據(jù)而為分析查詢提供一種多維的表現(xiàn)方式。 數(shù)據(jù)倉庫是多維數(shù)據(jù)集的數(shù)據(jù)基礎(chǔ),其結(jié)構(gòu)的設(shè)計會影響多維數(shù)模型的設(shè)計和建立的難易程度。
數(shù)據(jù)倉庫與多維模型概述多維模型與數(shù)據(jù)倉庫13主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設(shè)計多維模型設(shè)計主題商業(yè)智能技術(shù)14數(shù)據(jù)倉庫設(shè)計原則(一)模型構(gòu)架
盡量使用星型架構(gòu),使用雪花架構(gòu)的目的是使事實表第一級的維表數(shù)量達到最小。設(shè)計方法 將常識規(guī)范化方法應(yīng)用于維度表設(shè)計。例如,不相關(guān)的數(shù)據(jù)不應(yīng)組合到單一維度表中,而且在多個維度表中數(shù)據(jù)不應(yīng)重復(fù)。維表設(shè)計 設(shè)計維表應(yīng)包含需要分析的有關(guān)事實的有意義信息,例如產(chǎn)品的顏色和大小。事實表設(shè)計 不要在事實數(shù)據(jù)表中進行過度的匯總,以保證在必要時可以進行所需粒度的數(shù)據(jù)訪問。數(shù)據(jù)倉庫設(shè)計原則(一)模型構(gòu)架15數(shù)據(jù)倉庫設(shè)計原則(二)數(shù)據(jù)存儲方式 在必要時可以把要在同一個多維數(shù)據(jù)集中使用的數(shù)據(jù)存儲在多個事實數(shù)據(jù)表中,條件是這些事實數(shù)據(jù)表必須具有相同的結(jié)構(gòu)。索引 在關(guān)鍵字段上創(chuàng)建索引,以提高處理多維數(shù)據(jù)集的性能。特殊要求 根據(jù)所選的OLAP引擎特殊需要,確保數(shù)據(jù)諸如完整性等的特殊要求。增量更新 必須考慮數(shù)據(jù)增量和更新的策略,以保證多維數(shù)據(jù)集中有所需的數(shù)據(jù)。數(shù)據(jù)倉庫設(shè)計原則(二)數(shù)據(jù)存儲方式16數(shù)據(jù)倉庫基本元素(一)關(guān)系型數(shù)據(jù)庫 關(guān)系數(shù)據(jù)庫是建立數(shù)據(jù)倉庫的基礎(chǔ)引擎平臺,它為數(shù)據(jù)倉庫提供臨時存儲、清理和轉(zhuǎn)換傳入的數(shù)據(jù),容納和管理數(shù)據(jù)倉庫中的大量數(shù)據(jù),并支持數(shù)據(jù)倉庫的功能。數(shù)據(jù)源 數(shù)據(jù)源是數(shù)據(jù)倉庫用于分析的數(shù)據(jù)來源,是建立數(shù)據(jù)倉庫時必須聚集和合并的不同來源的數(shù)據(jù)。數(shù)據(jù)倉庫基本元素(一)關(guān)系型數(shù)據(jù)庫17數(shù)據(jù)倉庫基本元素(二)事實表 事實表是用于存放經(jīng)過匯總的歷史信息,也就是事實數(shù)據(jù)的表,是星型架構(gòu)或雪花型架構(gòu)的中心。每個數(shù)據(jù)倉庫或數(shù)據(jù)集市都包括一個或多個事實表。事實表一般不包含描述性信息,具有可以聚合的特點。維表 維度表是存儲描述事實表中事實數(shù)據(jù)特性的表,每個維表都是獨立于其它維表的,并且包含了事實特性的層次結(jié)構(gòu)信息。索引 與在任何關(guān)系數(shù)據(jù)庫中一樣,索引對提高數(shù)據(jù)倉庫性能和處理多維數(shù)據(jù)集性能的起著重大作用,是數(shù)據(jù)倉庫中不可或缺的部分。數(shù)據(jù)倉庫基本元素(二)事實表18數(shù)據(jù)倉庫組織形式(一)星型模型 星型模型是由單個事實數(shù)據(jù)表和一些維度表組成的構(gòu)架模型。在這種模型中每個維度表均聯(lián)接到事實數(shù)據(jù)表上。事實表稅務(wù)機關(guān)維表行業(yè)維表經(jīng)濟性質(zhì)維表時間維表稅種維表數(shù)據(jù)倉庫組織形式(一)星型模型事稅務(wù)機關(guān)維表行業(yè)維表經(jīng)濟性質(zhì)19數(shù)據(jù)倉庫組織形式(二)雪花型模型 雪花型架構(gòu)比星型模型增加了次要維表,有一個或多個維表是聯(lián)接到其它維表上,而非事實數(shù)據(jù)表上。事實表機構(gòu)維表行業(yè)維表地市維表時間維表省份維表地區(qū)維數(shù)據(jù)倉庫組織形式(二)雪花型模型事機構(gòu)維表行業(yè)維表地市維表時20數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表設(shè)計 每個事實數(shù)據(jù)表都應(yīng)該由兩個部分組成,一個由多個部分組成的索引和一些由這些索引所描述的數(shù)據(jù)。索引部分 索引部分包含著與描述事實數(shù)據(jù)特征的維表相關(guān)聯(lián)的外鍵信息。數(shù)據(jù)部分 數(shù)據(jù)部分是事實表中真正要存放的事實數(shù)據(jù)。數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表設(shè)計21數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表示例: 前五列為索引部分,后三列是事實數(shù)據(jù)部分列描述time_id時間維表Dim_time的外鍵swbm_id稅務(wù)機關(guān)維表Dim_swbm的外鍵jjxz_id經(jīng)濟性質(zhì)維表Dim_jjxz的外鍵szsm_id稅種維表Dim_szsm的外鍵hy_id行業(yè)維表Dim_hy的外鍵Yzsj包含本月應(yīng)征稅款的列Djs包含抵繳數(shù)的列Jms包含免數(shù)/退庫數(shù)的列…………數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表示例:列描述time_22數(shù)據(jù)倉庫設(shè)計(一)——事實表設(shè)計事實表應(yīng)注意的問題事實表中一般不應(yīng)包含描述性信息,也不應(yīng)包含除事實表與維表中間對應(yīng)的關(guān)聯(lián)字段之外的任何數(shù)據(jù)。事實表中的數(shù)據(jù)應(yīng)該是經(jīng)過適當聚合的數(shù)據(jù)事實表中數(shù)據(jù)的粒度應(yīng)該是一致的事實表的設(shè)計應(yīng)該考慮增量數(shù)據(jù)更新的需要,例如是否需要增加時間戳字段等。數(shù)據(jù)倉庫設(shè)計(一)——事實表設(shè)計事實表應(yīng)注意的問題23數(shù)據(jù)倉庫設(shè)計(二)——維表維表設(shè)計 維表設(shè)計中由于維度類型的不同,其維表結(jié)構(gòu)也會相應(yīng)有不同特點。維度分類普通維 普通維是基于一個維表的維度,由維表中的不同列來表示維度中的不同級別。雪花維 雪花維是基于多個維表的維度,各個維表間以外鍵關(guān)聯(lián),分別存儲同一維度中不同級別的成員列值。父子維 父子維是基于兩個維表列的維度,由維表中的兩列來共同定義各個成員的隸屬關(guān)系。一列稱為成員鍵列,標識每個成員;另一列稱為父鍵列,標識每個成員的父代。數(shù)據(jù)倉庫設(shè)計(二)——維表維表設(shè)計24數(shù)據(jù)倉庫設(shè)計(二)——維表普通維 普通維中的層次是根據(jù)維表的列而定義的,所以維表中列的定義會直接影響到維度中層次的定義。設(shè)計普通維度的維表必須充分考慮維度的擴展性。示例: 例如下圖中典型的時間維度如左圖所示,則每一個層次在維表中均應(yīng)有對應(yīng)的列。第1季度2000年第2季度1月份2月份3月份第3季度4季度月份列值季度列值時間維表年季度月份數(shù)據(jù)倉庫設(shè)計(二)——維表普通維第1季度2000年第2季度25數(shù)據(jù)倉庫設(shè)計(二)——維表雪花維 由于雪花維是基于不同維表建立的,所以針對雪花維而設(shè)計的維表必然有多個,各維表分別存儲維度中不同級別的成員值,維表間以外鍵關(guān)聯(lián)。示例: 例如,典型的地區(qū)維中地市維表可以存儲全國所有的城市名稱和編碼,以及所屬省份的編碼,而在省份維表中則只存儲省份名稱和編碼,兩維表以省份編碼關(guān)聯(lián)。地市維表City_idProvince_idCity_Name省份維表Province_NameProvince_Id數(shù)據(jù)倉庫設(shè)計(二)——維表雪花維地市維表City_id省份26數(shù)據(jù)倉庫設(shè)計(二)——維表父子維 由于父子維中的層次關(guān)系是由維表中的兩個列來共同定義的,所以其維度層次結(jié)構(gòu)是由維表中的列值決定的,且維度層次分布是不均衡的。示例: 例如,典型的機構(gòu)維中除了最上層的機構(gòu)外其它機構(gòu)都具有其本身機構(gòu)信息和上級機構(gòu)信息兩項屬性。由此,維表中也必須包含此兩項信息的設(shè)計。機構(gòu)維表機構(gòu)編碼機構(gòu)名稱上級機構(gòu)編碼數(shù)據(jù)倉庫設(shè)計(二)——維表父子維機構(gòu)維表機構(gòu)編碼27數(shù)據(jù)倉庫設(shè)計(三)——索引索引 與在其它關(guān)系數(shù)據(jù)庫中一樣,索引對數(shù)據(jù)倉庫的性能具有重要作用。每個維度表都必須在主鍵上建立索引。在其它列(如標識層次結(jié)構(gòu)級別的列)上,索引對某些專用查詢的性能也很有用。事實數(shù)據(jù)表必須在由維度表外鍵構(gòu)成的組合主鍵上建立索引。 由于星型架構(gòu)和雪花型架構(gòu)很簡單,大多數(shù)數(shù)據(jù)倉庫應(yīng)用程序所需的索引主要就是這些。對于特殊查詢和創(chuàng)建報表,則可能需要其它索引。數(shù)據(jù)倉庫設(shè)計(三)——索引索引28數(shù)據(jù)倉庫設(shè)計(四)——增量機制增量更新機制 在數(shù)據(jù)倉庫設(shè)計中還必須注意的一個問題就是數(shù)據(jù)倉庫結(jié)構(gòu)對數(shù)據(jù)更新(增量)的影響。數(shù)據(jù)倉庫設(shè)計(四)——增量機制增量更新機制29主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設(shè)計多維模型設(shè)計主題商業(yè)智能技術(shù)30多維模型設(shè)計基本元素維度級別成員度量值(指標)計算值(計算成員)存儲方式角色權(quán)限和安全機制多維模型設(shè)計基本元素維度31維度設(shè)計維度 維度的設(shè)計包括根據(jù)分析的需求選擇維度的類型、設(shè)計維度的層次結(jié)構(gòu)和是否共享等權(quán)限考慮。選擇維度類型
根據(jù)維度所描述的事物特征選擇適合的維度類型。設(shè)計維度層次結(jié)構(gòu)
根據(jù)分析的實際需要設(shè)計維度的分層和級別等結(jié)構(gòu)。維度共享 確定該維度是否可以為其它模型所應(yīng)用,如果是常用維度,則一般設(shè)計為共享維度。維度設(shè)計維度32維度選型維度選型 維度選型必須根據(jù)維度所描述的事物特征來進行選擇。普通維 適用于層次分布均衡,等級關(guān)系固定,不易發(fā)生變化的維度,例如時間、年齡分布等維度雪花維 適用于層次分布均衡,等級關(guān)系固定,但成員個數(shù)較多,或維度層次由一定擴充性的維度。例如地區(qū)維度。父子維 適用于層次分布不均衡,有明顯隸屬關(guān)系的分析角度。例如機構(gòu)等維度。維度選型維度選型33維度的層次結(jié)構(gòu)設(shè)計級別 級別是維度層次結(jié)構(gòu)的一個元素。級別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高(匯總程度最大)級別直到最低(最詳細)級別。劃分維度級別時必須充分考慮此后進行分析的具體要求,級別劃分必須清晰,有邏輯上的可匯總性。成員 組成維度的所有列值就是維度的成員。設(shè)計維度成員時必須考慮分析的充分可擴展性,照顧到分析的每一種可能性,也就是必須保證維度的完整性。維度的層次結(jié)構(gòu)設(shè)計級別34度量值與計算成員度量值 度量值是多維數(shù)據(jù)集中的一組值,是所分析的多維數(shù)據(jù)集關(guān)注的中心。這些值通常為數(shù)字,具有可聚合的特性。同時,由于度量值是生成計算成員的基礎(chǔ),所以度量值應(yīng)該是最基礎(chǔ)的數(shù)據(jù),具有充分的可擴展考慮。計算成員 計算成員是基于度量值而定義的運算表達式,其計算結(jié)果一般不進行存儲,而是在運行時臨時計算的所得。不同的OLAP引擎所能夠提供的基本函數(shù)和計算方法會有所不同,性能上也會有一定的影響,在設(shè)計時應(yīng)充分考慮OLAP引擎的特性。度量值與計算成員度量值35多維模型的安全性設(shè)計多維模型的安全性 根據(jù)OLAP引擎的不同,其所能夠提供的安全機制也有所不同,除了使用方面的權(quán)限(可讀、可寫等)外,根據(jù)多維模型的粒度可將權(quán)限劃分如下:主題級別的權(quán)限 粒度最大的安全權(quán)限,即對整個多維模型的使用權(quán)限。維度級別權(quán)限: 維度級別的安全權(quán)限,可限定用戶瀏覽多維數(shù)據(jù)集時所能查看的維度成員。單元級別權(quán)限: 單元級別的安全權(quán)限,可以限定多維數(shù)據(jù)集中特定單元訪問。其它級別權(quán)限: 不同OLAP引擎所提供的特屬功能的權(quán)限。例如,鉆取權(quán)限等多維模型的安全性設(shè)計多維模型的安全性36存儲方式的選擇(一)多維存儲方式(MOLAP) 將聚合和分區(qū)源數(shù)據(jù)的一個復(fù)本存儲到分析服務(wù)器計算機中的多維結(jié)構(gòu)中的存儲方式。特點查詢性能較好占用的存儲空間較大存儲方式的選擇(一)多維存儲方式(MOLAP)37存儲方式的選擇(二)關(guān)系數(shù)據(jù)庫存儲方式(ROLAP) 將聚合存儲在一個關(guān)系型結(jié)構(gòu)中,并把分區(qū)的源數(shù)據(jù)保留在它現(xiàn)有的關(guān)系型結(jié)構(gòu)中的存儲方式。特點查詢性能較不如MOLAP方式占用的存儲空間較少存儲方式的選擇(二)關(guān)系數(shù)據(jù)庫存儲方式(ROLAP)38存儲方式的選擇(三)混合存儲方式(HOLAP)
將聚合存儲到分析服務(wù)器計算機上的多維結(jié)構(gòu)中,并將分區(qū)的源數(shù)據(jù)保留在它現(xiàn)有的關(guān)系型結(jié)構(gòu)中的存儲方式。特點查詢性能介于以上兩種方式之間占用的存儲空間介于以上兩種方式之間適用于在對基于大量基本數(shù)據(jù)的匯總進行查詢時需要快速響應(yīng)的多維數(shù)據(jù)集存儲方式的選擇(三)混合存儲方式(HOLAP)39數(shù)據(jù)倉庫基礎(chǔ)課件40數(shù)據(jù)倉庫基礎(chǔ)數(shù)據(jù)倉庫基礎(chǔ)41主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型設(shè)計數(shù)據(jù)倉庫設(shè)計多維模型主題商業(yè)智能技術(shù)42商業(yè)智能的體系商業(yè)智能技術(shù)體系(BI——BusinessIntelligence)在線分析處理技術(shù)(OLAP:OnlineAnalyticalProcessing)數(shù)據(jù)挖掘技術(shù)(DataMining)數(shù)據(jù)倉庫技術(shù)(DataWarehousing)數(shù)據(jù)整合集成各系統(tǒng)的歷史數(shù)據(jù),建立面向主題的企業(yè)數(shù)據(jù)中心數(shù)據(jù)分析靈活、動態(tài)、快速的多維分析、隨機查詢、即席報表知識發(fā)現(xiàn)通過數(shù)學(xué)模型發(fā)現(xiàn)隱藏的、潛在的規(guī)律,以輔助決策更加全面、深入的分析形成知識庫指導(dǎo)決策、再分析商業(yè)智能的體系商業(yè)智能技術(shù)體系(BI——BusinessI43數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫就是面向主題的、集成的、不同時間的、穩(wěn)定的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。什么是數(shù)據(jù)倉庫??數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫的概念什么是數(shù)據(jù)倉庫??44數(shù)據(jù)倉庫的特點面向主題集成性—企業(yè)數(shù)據(jù)框架歷史性、穩(wěn)定性數(shù)據(jù)倉庫的特點面向主題45數(shù)據(jù)倉庫與業(yè)務(wù)數(shù)據(jù)庫的比較數(shù)據(jù)倉庫與業(yè)務(wù)數(shù)據(jù)庫的比較46什么是聯(lián)機分析處理(OLAP)?OLAP的定義 OLAP是使分析人員、管理人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映數(shù)據(jù)維特性的信息,進行快速、一致、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。什么是聯(lián)機分析處理(OLAP)?OLAP的定義47OLAP的特征OLAP的核心——指標、維OLAP的目標——多維分析OLAP的特點靈活、動態(tài)多角度、多層次的視角快速OLAP的特征OLAP的核心——指標、維48OLAP的基本功能商業(yè)語義層的定義上鉆和下鉆(RolluporDrilldown)切片和切塊(SliceandDice)旋轉(zhuǎn)(Pivoting)強大的復(fù)雜計算能力時間智能豐富的數(shù)據(jù)展現(xiàn)方式OLAP的基本功能商業(yè)語義層的定義49OLAP功能示意按機構(gòu)鉆取濟南地區(qū)維時間維行業(yè)維青島OLAP功能示意按機構(gòu)鉆取濟南地區(qū)維時間維行業(yè)維青島50數(shù)據(jù)挖掘技術(shù)(DataMining)DM的定義數(shù)據(jù)挖掘(DataMining)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。也就是說,從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。DM的特點涉及數(shù)據(jù)庫、統(tǒng)計分析、人工智能多種技術(shù)預(yù)測和驗證功能特征和規(guī)律描述數(shù)據(jù)挖掘技術(shù)(DataMining)DM的定義51主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設(shè)計多維模型設(shè)計主題商業(yè)智能技術(shù)52數(shù)據(jù)倉庫與多維模型概述多維模型與數(shù)據(jù)倉庫 多維模型通過組織和匯總數(shù)據(jù)倉庫中的數(shù)據(jù)而為分析查詢提供一種多維的表現(xiàn)方式。 數(shù)據(jù)倉庫是多維數(shù)據(jù)集的數(shù)據(jù)基礎(chǔ),其結(jié)構(gòu)的設(shè)計會影響多維數(shù)模型的設(shè)計和建立的難易程度。
數(shù)據(jù)倉庫與多維模型概述多維模型與數(shù)據(jù)倉庫53主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設(shè)計多維模型設(shè)計主題商業(yè)智能技術(shù)54數(shù)據(jù)倉庫設(shè)計原則(一)模型構(gòu)架
盡量使用星型架構(gòu),使用雪花架構(gòu)的目的是使事實表第一級的維表數(shù)量達到最小。設(shè)計方法 將常識規(guī)范化方法應(yīng)用于維度表設(shè)計。例如,不相關(guān)的數(shù)據(jù)不應(yīng)組合到單一維度表中,而且在多個維度表中數(shù)據(jù)不應(yīng)重復(fù)。維表設(shè)計 設(shè)計維表應(yīng)包含需要分析的有關(guān)事實的有意義信息,例如產(chǎn)品的顏色和大小。事實表設(shè)計 不要在事實數(shù)據(jù)表中進行過度的匯總,以保證在必要時可以進行所需粒度的數(shù)據(jù)訪問。數(shù)據(jù)倉庫設(shè)計原則(一)模型構(gòu)架55數(shù)據(jù)倉庫設(shè)計原則(二)數(shù)據(jù)存儲方式 在必要時可以把要在同一個多維數(shù)據(jù)集中使用的數(shù)據(jù)存儲在多個事實數(shù)據(jù)表中,條件是這些事實數(shù)據(jù)表必須具有相同的結(jié)構(gòu)。索引 在關(guān)鍵字段上創(chuàng)建索引,以提高處理多維數(shù)據(jù)集的性能。特殊要求 根據(jù)所選的OLAP引擎特殊需要,確保數(shù)據(jù)諸如完整性等的特殊要求。增量更新 必須考慮數(shù)據(jù)增量和更新的策略,以保證多維數(shù)據(jù)集中有所需的數(shù)據(jù)。數(shù)據(jù)倉庫設(shè)計原則(二)數(shù)據(jù)存儲方式56數(shù)據(jù)倉庫基本元素(一)關(guān)系型數(shù)據(jù)庫 關(guān)系數(shù)據(jù)庫是建立數(shù)據(jù)倉庫的基礎(chǔ)引擎平臺,它為數(shù)據(jù)倉庫提供臨時存儲、清理和轉(zhuǎn)換傳入的數(shù)據(jù),容納和管理數(shù)據(jù)倉庫中的大量數(shù)據(jù),并支持數(shù)據(jù)倉庫的功能。數(shù)據(jù)源 數(shù)據(jù)源是數(shù)據(jù)倉庫用于分析的數(shù)據(jù)來源,是建立數(shù)據(jù)倉庫時必須聚集和合并的不同來源的數(shù)據(jù)。數(shù)據(jù)倉庫基本元素(一)關(guān)系型數(shù)據(jù)庫57數(shù)據(jù)倉庫基本元素(二)事實表 事實表是用于存放經(jīng)過匯總的歷史信息,也就是事實數(shù)據(jù)的表,是星型架構(gòu)或雪花型架構(gòu)的中心。每個數(shù)據(jù)倉庫或數(shù)據(jù)集市都包括一個或多個事實表。事實表一般不包含描述性信息,具有可以聚合的特點。維表 維度表是存儲描述事實表中事實數(shù)據(jù)特性的表,每個維表都是獨立于其它維表的,并且包含了事實特性的層次結(jié)構(gòu)信息。索引 與在任何關(guān)系數(shù)據(jù)庫中一樣,索引對提高數(shù)據(jù)倉庫性能和處理多維數(shù)據(jù)集性能的起著重大作用,是數(shù)據(jù)倉庫中不可或缺的部分。數(shù)據(jù)倉庫基本元素(二)事實表58數(shù)據(jù)倉庫組織形式(一)星型模型 星型模型是由單個事實數(shù)據(jù)表和一些維度表組成的構(gòu)架模型。在這種模型中每個維度表均聯(lián)接到事實數(shù)據(jù)表上。事實表稅務(wù)機關(guān)維表行業(yè)維表經(jīng)濟性質(zhì)維表時間維表稅種維表數(shù)據(jù)倉庫組織形式(一)星型模型事稅務(wù)機關(guān)維表行業(yè)維表經(jīng)濟性質(zhì)59數(shù)據(jù)倉庫組織形式(二)雪花型模型 雪花型架構(gòu)比星型模型增加了次要維表,有一個或多個維表是聯(lián)接到其它維表上,而非事實數(shù)據(jù)表上。事實表機構(gòu)維表行業(yè)維表地市維表時間維表省份維表地區(qū)維數(shù)據(jù)倉庫組織形式(二)雪花型模型事機構(gòu)維表行業(yè)維表地市維表時60數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表設(shè)計 每個事實數(shù)據(jù)表都應(yīng)該由兩個部分組成,一個由多個部分組成的索引和一些由這些索引所描述的數(shù)據(jù)。索引部分 索引部分包含著與描述事實數(shù)據(jù)特征的維表相關(guān)聯(lián)的外鍵信息。數(shù)據(jù)部分 數(shù)據(jù)部分是事實表中真正要存放的事實數(shù)據(jù)。數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表設(shè)計61數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表示例: 前五列為索引部分,后三列是事實數(shù)據(jù)部分列描述time_id時間維表Dim_time的外鍵swbm_id稅務(wù)機關(guān)維表Dim_swbm的外鍵jjxz_id經(jīng)濟性質(zhì)維表Dim_jjxz的外鍵szsm_id稅種維表Dim_szsm的外鍵hy_id行業(yè)維表Dim_hy的外鍵Yzsj包含本月應(yīng)征稅款的列Djs包含抵繳數(shù)的列Jms包含免數(shù)/退庫數(shù)的列…………數(shù)據(jù)倉庫設(shè)計(一)——事實表事實表示例:列描述time_62數(shù)據(jù)倉庫設(shè)計(一)——事實表設(shè)計事實表應(yīng)注意的問題事實表中一般不應(yīng)包含描述性信息,也不應(yīng)包含除事實表與維表中間對應(yīng)的關(guān)聯(lián)字段之外的任何數(shù)據(jù)。事實表中的數(shù)據(jù)應(yīng)該是經(jīng)過適當聚合的數(shù)據(jù)事實表中數(shù)據(jù)的粒度應(yīng)該是一致的事實表的設(shè)計應(yīng)該考慮增量數(shù)據(jù)更新的需要,例如是否需要增加時間戳字段等。數(shù)據(jù)倉庫設(shè)計(一)——事實表設(shè)計事實表應(yīng)注意的問題63數(shù)據(jù)倉庫設(shè)計(二)——維表維表設(shè)計 維表設(shè)計中由于維度類型的不同,其維表結(jié)構(gòu)也會相應(yīng)有不同特點。維度分類普通維 普通維是基于一個維表的維度,由維表中的不同列來表示維度中的不同級別。雪花維 雪花維是基于多個維表的維度,各個維表間以外鍵關(guān)聯(lián),分別存儲同一維度中不同級別的成員列值。父子維 父子維是基于兩個維表列的維度,由維表中的兩列來共同定義各個成員的隸屬關(guān)系。一列稱為成員鍵列,標識每個成員;另一列稱為父鍵列,標識每個成員的父代。數(shù)據(jù)倉庫設(shè)計(二)——維表維表設(shè)計64數(shù)據(jù)倉庫設(shè)計(二)——維表普通維 普通維中的層次是根據(jù)維表的列而定義的,所以維表中列的定義會直接影響到維度中層次的定義。設(shè)計普通維度的維表必須充分考慮維度的擴展性。示例: 例如下圖中典型的時間維度如左圖所示,則每一個層次在維表中均應(yīng)有對應(yīng)的列。第1季度2000年第2季度1月份2月份3月份第3季度4季度月份列值季度列值時間維表年季度月份數(shù)據(jù)倉庫設(shè)計(二)——維表普通維第1季度2000年第2季度65數(shù)據(jù)倉庫設(shè)計(二)——維表雪花維 由于雪花維是基于不同維表建立的,所以針對雪花維而設(shè)計的維表必然有多個,各維表分別存儲維度中不同級別的成員值,維表間以外鍵關(guān)聯(lián)。示例: 例如,典型的地區(qū)維中地市維表可以存儲全國所有的城市名稱和編碼,以及所屬省份的編碼,而在省份維表中則只存儲省份名稱和編碼,兩維表以省份編碼關(guān)聯(lián)。地市維表City_idProvince_idCity_Name省份維表Province_NameProvince_Id數(shù)據(jù)倉庫設(shè)計(二)——維表雪花維地市維表City_id省份66數(shù)據(jù)倉庫設(shè)計(二)——維表父子維 由于父子維中的層次關(guān)系是由維表中的兩個列來共同定義的,所以其維度層次結(jié)構(gòu)是由維表中的列值決定的,且維度層次分布是不均衡的。示例: 例如,典型的機構(gòu)維中除了最上層的機構(gòu)外其它機構(gòu)都具有其本身機構(gòu)信息和上級機構(gòu)信息兩項屬性。由此,維表中也必須包含此兩項信息的設(shè)計。機構(gòu)維表機構(gòu)編碼機構(gòu)名稱上級機構(gòu)編碼數(shù)據(jù)倉庫設(shè)計(二)——維表父子維機構(gòu)維表機構(gòu)編碼67數(shù)據(jù)倉庫設(shè)計(三)——索引索引 與在其它關(guān)系數(shù)據(jù)庫中一樣,索引對數(shù)據(jù)倉庫的性能具有重要作用。每個維度表都必須在主鍵上建立索引。在其它列(如標識層次結(jié)構(gòu)級別的列)上,索引對某些專用查詢的性能也很有用。事實數(shù)據(jù)表必須在由維度表外鍵構(gòu)成的組合主鍵上建立索引。 由于星型架構(gòu)和雪花型架構(gòu)很簡單,大多數(shù)數(shù)據(jù)倉庫應(yīng)用程序所需的索引主要就是這些。對于特殊查詢和創(chuàng)建報表,則可能需要其它索引。數(shù)據(jù)倉庫設(shè)計(三)——索引索引68數(shù)據(jù)倉庫設(shè)計(四)——增量機制增量更新機制 在數(shù)據(jù)倉庫設(shè)計中還必須注意的一個問題就是數(shù)據(jù)倉庫結(jié)構(gòu)對數(shù)據(jù)更新(增量)的影響。數(shù)據(jù)倉庫設(shè)計(四)——增量機制增量更新機制69主題商業(yè)智能技術(shù)數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設(shè)計多維模型設(shè)計主題商業(yè)智能技術(shù)70多維模型設(shè)計基本元素維度級別成員度量值(指標)計算值(計算成員)存儲方式角色權(quán)限和安全機制多維模型設(shè)計基本元素維度71維度設(shè)計維度 維度的設(shè)計包括根據(jù)分析的需求選擇維度的類型、設(shè)計維度的層次結(jié)構(gòu)和是否共享等權(quán)限考慮。選擇維度類型
根據(jù)維度所描述的事物特征選擇適合的維度類型。設(shè)計維度層次結(jié)構(gòu)
根據(jù)分析的實際需要設(shè)計維度的分層和級別等結(jié)構(gòu)。維度共享 確定該維度是否可以為其它模型所應(yīng)用,如果是常用維度,則一般設(shè)計為共享維度。維度設(shè)計維度72維度選型維度選型 維度選型必須根據(jù)維度所描述的事物特征來進行選擇。普通維 適用于層次分布均衡,等級關(guān)系固定,不易發(fā)生變化的維度,例如時間、年齡分布等維度雪花維 適用于層次分布均衡,等級關(guān)系固定,但成員個數(shù)較多,或維度層次由一定擴充性的維
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 管理門店的方法
- 醫(yī)美風險合同范例
- 《小老鼠》(教學(xué)設(shè)計)-2024-2025學(xué)年一年級上冊綜合實踐活動山東科學(xué)技術(shù)版
- 語文教研組個人總結(jié)個人工作總結(jié)
- 司機帶貨合同范例
- 續(xù)訂勞動合同申請書范本2篇
- 廈門廠房購買合同范例
- 農(nóng)村平房購房合同范例
- 廚房雕花出售合同范例
- 世貿(mào)股合同范例
- GB/T 7939.2-2024液壓傳動連接試驗方法第2部分:快換接頭
- DZ∕T 0175-2014 煤田地質(zhì)填圖規(guī)范(1:50 000 1:25 000 1:10 000 1:5 000)(正式版)
- 《阿Q正傳》《邊城》比較閱讀課件高中語文選擇性必修下冊
- 內(nèi)燃機車司機技師考試題(強化練習(xí))
- 電化學(xué)儲能電站并網(wǎng)運行與控制技術(shù)規(guī)范 第3 部分:并網(wǎng)運行驗收
- 鄂爾多斯市騰遠煤炭有限責任公司礦山地質(zhì)環(huán)境保護與土地復(fù)墾方案
- 氨重大危險源危險化學(xué)品安全告知牌安全告知牌
- 工人屋面貼磚合同
- 高考作文評分標準及評分細則
- 企業(yè)培訓(xùn)課件開發(fā)獎勵
- 春季如何預(yù)防過敏課件
評論
0/150
提交評論