數(shù)據(jù)倉庫與決策支持系統(tǒng)2015.10.12_第1頁
數(shù)據(jù)倉庫與決策支持系統(tǒng)2015.10.12_第2頁
數(shù)據(jù)倉庫與決策支持系統(tǒng)2015.10.12_第3頁
數(shù)據(jù)倉庫與決策支持系統(tǒng)2015.10.12_第4頁
免費預(yù)覽已結(jié)束,剩余14頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與決策支持系統(tǒng)2015.10.12- 2 -一、數(shù)據(jù)倉庫數(shù)據(jù)倉庫:面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合面向主題指數(shù)據(jù)倉庫的建立有一個主體的對象,而非單一的事務(wù)集成表示數(shù)據(jù)倉庫是將圍繞該主題的各類數(shù)據(jù)集成在一起而形成穩(wěn)定意味著不可更新隨時間變化指對應(yīng)不同時間點,有不同批次的數(shù)據(jù)- 3 -一、數(shù)據(jù)倉庫數(shù)據(jù)倉庫VS數(shù)據(jù)庫比較內(nèi)容數(shù)據(jù)倉庫數(shù)據(jù)庫目標Online Analytical Processing Online Transaction Processing 作用面向主題面向過程活動分析事務(wù)處理構(gòu)成集成分散內(nèi)容不可更改可更改系統(tǒng)需求事先可以不知道事先已知數(shù)據(jù)量一次操作數(shù)據(jù)量大一

2、次操作數(shù)據(jù)量小時間性時序性當前基礎(chǔ)結(jié)構(gòu)多維型關(guān)系型關(guān)系結(jié)構(gòu)星型、雪花3NF終端用戶管理者、決策者事務(wù)操作人員- 4 -一、數(shù)據(jù)倉庫分析型處理VS事務(wù)型處理比較內(nèi)容分析型處理事務(wù)型處理性能特性運行時間較長、消耗大量系統(tǒng)資源數(shù)據(jù)存取頻率高、處理時間短數(shù)據(jù)集成問題需要大量的、集成的數(shù)據(jù)作為分析基礎(chǔ)大多數(shù)應(yīng)用數(shù)據(jù)是分散的、不一致的動態(tài)集成需要集成數(shù)據(jù)的周期性更新僅在開始階段對數(shù)據(jù)進行靜態(tài)集成歷史數(shù)據(jù)問題許多分析方法要以大量的歷史數(shù)據(jù)為依據(jù)一般只需要當前或短期數(shù)據(jù)數(shù)據(jù)綜合問題主要關(guān)注綜合性數(shù)據(jù)積累了大量的細節(jié)數(shù)據(jù)- 5 -一、數(shù)據(jù)倉庫數(shù)據(jù)倉庫體系結(jié)構(gòu)- 6 -一、數(shù)據(jù)倉庫元數(shù)據(jù)(Metadata):關(guān)于

3、數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便地找到他們 所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它主要包括以下信息:數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、

4、匯總、預(yù)定義的查詢與報告;由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。- 7 -一、數(shù)據(jù)倉庫業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的 數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達的數(shù)據(jù)模型、對象名和屬性名;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法以及公式和報 表的信息;具體包括以下信息:企業(yè)概念模型:這是業(yè)務(wù)元數(shù)據(jù)所應(yīng)提供的重要的信息,它表示企業(yè)數(shù)據(jù)模型的高層信息、整個企業(yè)的業(yè)務(wù)概念和相

5、互關(guān)系。以這個企業(yè)模型為基礎(chǔ),不懂數(shù)據(jù)庫技術(shù)和SQL語句的業(yè)務(wù)人員對數(shù)據(jù)倉庫中的數(shù)據(jù)也能做到心中有數(shù)。多維數(shù)據(jù)模型:這是企業(yè)概念模型的重要組成部分,它告訴業(yè)務(wù)分析人員在數(shù)據(jù)集市當中有哪些維、維的類別、數(shù)據(jù)立方體以及數(shù)據(jù)集市中的聚合規(guī)則。這里的數(shù)據(jù)立方體表示某主題領(lǐng)域業(yè)務(wù)事實表和維表的多維組織形式。- 8 -一、數(shù)據(jù)倉庫元數(shù)據(jù)的作用在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機制主要支持以下五類系統(tǒng)管理功能:描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中;定義要進入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生 的數(shù)據(jù);記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排;記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;衡量數(shù)據(jù)質(zhì)量。- 9 -二、數(shù)據(jù)倉

6、庫在決策支持系統(tǒng)中的應(yīng)用- 10 -二、數(shù)據(jù)倉庫在決策支持系統(tǒng)中的應(yīng)用決策支持系統(tǒng)中的模型庫可以為決策者提供推理、比較、選擇和分析的工具。模型庫中一般包含兩類模型:數(shù)學模型圖形與報表模型由上述兩者可以集成為規(guī)劃模型、推理模型、分析模型、預(yù)測模型、優(yōu)化模型與評價模型而這些模型的建立、仿真與訓練都需要大量的數(shù)據(jù)來解析與驗證。- 11 -二、數(shù)據(jù)倉庫在決策支持系統(tǒng)中的應(yīng)用決策支持系統(tǒng)中使用的大量數(shù)據(jù)通常為多維數(shù)據(jù),需要利用切片,切塊,鉆取等操作從多個角度進行觀察,并把結(jié)果用直觀的表格或圖形展現(xiàn)出來,以支持決策。故需要引入數(shù)據(jù)挖掘的相關(guān)算法(之一)關(guān)聯(lián)規(guī)則- 12 -三、關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是數(shù)據(jù)一種簡單

7、實用的規(guī)則,而關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值的描述數(shù)據(jù)項之間相互聯(lián)系的信息以下是關(guān)聯(lián)規(guī)則相關(guān)的一些概念關(guān)聯(lián)規(guī)則:設(shè)I=I1,I2,I3,Im為數(shù)據(jù)項集合;設(shè)D為與任務(wù)相關(guān)的數(shù)據(jù)集合,也就是一個交易數(shù)據(jù)庫;其中每個交易T是一個數(shù)據(jù)項子集,即T包含于I;每個交易均包含一個識別編號TID。設(shè)A為另一個數(shù)據(jù)項集合,當且僅當A包含于T時稱交易T包含A。一個關(guān)聯(lián)規(guī)則就是具有“A=B”的蘊含式;其中有A包含于I,B包含于I且A與B交集非空。規(guī)則A=B在交易數(shù)據(jù)集D中成立,且具有S支持度與C信任度,也就意味著交易數(shù)據(jù)集D中有S比例的交易T包含A或B的數(shù)據(jù)項,且D中有C比例的交易T滿足“若包含A就包

8、含B(B|A)”滿足最小支持度閾值和最小信任度閾值的關(guān)聯(lián)規(guī)則稱為強規(guī)則- 13 -三、關(guān)聯(lián)規(guī)則可信度:設(shè)事務(wù)集D中支持物品集X的事務(wù)中,有C%的事務(wù)同時支持物品集Y,則C%稱為關(guān)聯(lián)規(guī)則X、Y的可信度,簡單來說,可信度是指在出現(xiàn)了項集X的事務(wù)T中,項集Y也同時出現(xiàn)的概率- 14 -三、關(guān)聯(lián)規(guī)則支持度:事務(wù)集D中有S%的事務(wù)同時支持物品集X,Y,則稱S%為關(guān)聯(lián)規(guī)則的支持度,即支持度描述了X與Y的并集在所有事務(wù)中出現(xiàn)的頻率- 15 -三、關(guān)聯(lián)規(guī)則頻繁項集:一個數(shù)據(jù)項的集合就稱為項集,包含K個數(shù)據(jù)項的項集稱為K-項集。 一個項集的出現(xiàn)頻度就是整個交易數(shù)據(jù)集D中包含該項集的交易記錄數(shù),也稱為該項集的支持

9、度。 若一個項集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中的記錄數(shù),那么就稱該項集滿足最小支持度閾值; 而滿足最小支持度閾值所對應(yīng)的交易記錄數(shù)稱為最小支持頻度; 滿足最小閾值的項集稱為頻繁項集- 16 -三、關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘的步驟: 發(fā)現(xiàn)所有事務(wù)中支持度大于最小支持度的項集,即頻繁項集 根據(jù)所獲得的頻繁項集,產(chǎn)生相應(yīng)的強關(guān)聯(lián)規(guī)則(對于兩個頻繁項集,由于本事具有大于最小支持度的支持度,故所組成的關(guān)聯(lián)規(guī)則的支持度必然大于最小支持度)可以看出,如果找到頻繁項集,那么很容易得出關(guān)聯(lián)規(guī)則,因此第一步是關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵。對于第二步,只需要在已經(jīng)挖掘出的頻繁項集上列出所有可能的關(guān)聯(lián)規(guī)則,然后用最小

10、支持度閾值和最小可信度閾值來衡量這些關(guān)聯(lián)規(guī)則,并取出我們感興趣的關(guān)聯(lián)規(guī)則即可。對于第一步,介紹一下經(jīng)典的頻繁項集挖掘算法Apriori算法- 17 -四、Apriori算法Apriori算法首先計算所有1-項集C1,找出所有頻繁1-項集L1,然后根據(jù)頻繁1-項集確定候選2-項集C2,從C2中找出所有頻繁2-項集L2,在L2中選出C3,以此類推,直到不再有候選項集為止。其過程如下: Lk:所有頻繁k項集的集合;Ck:所有候選k項集的集合 通過單趟遍歷數(shù)據(jù)庫D,計算出各個1-項集的支持度,構(gòu)成L1 在Lk中,用聯(lián)合(join)運算生成候選項集Ck+1 聯(lián)合運算:若p,q包含于Lk,p=p1,p2,.,pk-1,q=q1,q2,qk-1,且當1ik-1時有pi=qi,當i=k-1時有pk-1qk-1,則p與q的并集是候選項集Ck+1中的一個項集。 計算Ck中的支持度,將小于最小支持度的候選集刪除,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論