數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.ppt_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第12章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘,基本概念,數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫是一個面向決策主題的、集成的、時變的、非易失、以讀為主的數(shù)據(jù)集合。 數(shù)據(jù)倉庫系統(tǒng)的分類 Web數(shù)據(jù)倉庫;并行數(shù)據(jù)倉庫;多維數(shù)據(jù)倉庫;壓縮數(shù)據(jù)倉庫等。 OLAP定義 OLAP是針對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運營情況展現(xiàn)給用戶。,面向決策主題的 數(shù)據(jù)倉庫圍繞一些主題,排除對于決策無用的數(shù)據(jù),提供特定主體的簡明視圖。 集成的 構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性。 時變的 數(shù)據(jù)存儲從歷史的角度提供信息.在數(shù)據(jù)倉庫,隱式或顯式地包

2、含時間元素。 非易失的 數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理,恢復(fù)和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。 以讀為主的 數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進行查詢,一般不一定都需要即時更新,可以定期刷新或按需刷新。,數(shù)據(jù)倉庫基本特性,數(shù)據(jù)倉庫項目流程管理及系統(tǒng)性能管理和監(jiān)控,OLTP,數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市,數(shù)據(jù)采集及整合,數(shù)據(jù)的映射規(guī)則、模型,。,(元數(shù)據(jù)管理),數(shù)據(jù)展現(xiàn)及決策,生產(chǎn),財務(wù),結(jié)算,外部,地區(qū),分析,總量,分析,市場,分析,E T L,數(shù)據(jù)分析、DM,終端用戶,終端用戶,數(shù)據(jù)倉庫體系結(jié)構(gòu),數(shù)據(jù)倉庫的結(jié)構(gòu),早期細節(jié)級

3、,當前細節(jié)級,輕度綜合級 數(shù)據(jù)集市,高度綜合級,元數(shù)據(jù),操作型轉(zhuǎn)換,數(shù)據(jù)倉庫中的幾個重要概念,ETL ETL(Extract/Transformation/Load)用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。 元數(shù)據(jù) 關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標定義、轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。 Data Mart 數(shù)據(jù)集市 - 小型的,面向部門或工作組級數(shù)據(jù)倉庫。,Operation Data Store 操作數(shù)據(jù)存儲 ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是

4、不同于DB的一種新的數(shù)據(jù)環(huán)境, 是DW 擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject -Oriented)、集成的、可變的、 當前或接近當前的。 粒度 數(shù)據(jù)倉庫的數(shù)據(jù)單元中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越??;相反,細化程度越低,粒度級就越大。 分割 結(jié)構(gòu)相同的數(shù)據(jù)可以被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。,數(shù)據(jù)倉庫中的幾個重要概念 (續(xù)),操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別,操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機事務(wù)處理OLTP 數(shù)據(jù)倉庫在數(shù)據(jù)分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱為聯(lián)機分析處理OLAP,基本數(shù)據(jù)模式,星型模式,日期維表

5、 TimeID Day Month Year,銷售事實表 TimeID ProductID RegionID Sales Quantity,產(chǎn)品維表 ProductID ProductName ClassID ClassName CategoryID CategoryName,地區(qū)維表 RegionD City Province Country,基本數(shù)據(jù)模式(續(xù)1),雪花模式,銷售事實表 TimeID ProductID RegionID Sales Quantity,基本數(shù)據(jù)模式(續(xù)2),多維模型 Cube(D1,D2, Dn , M1 , M2 , , Mm ),數(shù)據(jù)倉庫的主要應(yīng)用,信息處

6、理 支持查詢和基本的統(tǒng)計分析,并使用表或圖進行報告。 分析處理 支持基本的OLAP操作,在匯總的和細節(jié)的歷史數(shù)據(jù)上操作。 數(shù)據(jù)挖掘 支持知識發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進行分類和預(yù)測,并用可視化工具提供挖掘結(jié)果.,OLAP發(fā)展背景,60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進了聯(lián)機事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。1993年,E.F.Codd提出了OLAP概念,認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,

7、而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。 OLTP數(shù)據(jù) OLAP數(shù)據(jù) 原始數(shù)據(jù) 導出數(shù)據(jù) 細節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大 面向應(yīng)用,事務(wù)驅(qū)動 面向分析,分析驅(qū)動 面向操作人員,支持日常操作 面向決策人員,支持管理需要,什么是OLAP?,定義1 :OLAP(聯(lián)機分析處理)是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。 定義2 :OLAP(

8、聯(lián)機分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會的定義) OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。,OLAP相關(guān)基本概念,1)維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。 2)維的層次:人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:日期、月

9、份、季度、年)。 3)維的成員:維的一個取值。是數(shù)據(jù)項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述) 4)多維數(shù)組:維和變量的組合表示。一個多維數(shù)組可以表示為:(維1,維2,維n,變量)。(時間,地區(qū),產(chǎn)品,銷售額) 5)數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000),OLAP特性,(1)快速性:用戶對OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對用戶的大部分分析要求做出反應(yīng)。 (2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。 (3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,

10、包括對層次維和多重層次維的完全支持。 (4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。,OLAP基本操作,上卷操作:通過維層次,在數(shù)據(jù)立方體上進行聚集。 下鉆操作:是上卷操作的逆操作,由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù)。 切片和切塊:切片在給定的數(shù)據(jù)立方體的一個維上進行選擇,切塊則是在兩個或兩個以上的維進行選擇。 旋轉(zhuǎn)操作:是改變維度的位置關(guān)系,使最終用戶可以從其他視角來觀察多維數(shù)據(jù)。,OLTP和OLAP的區(qū)別,用戶和系統(tǒng)的面向性: OLTP是面向顧客的,用于事務(wù)和查詢處理; OLAP是面向市場的,用于數(shù)據(jù)分析。 數(shù)據(jù)內(nèi)容: OLTP系統(tǒng)管理

11、當前數(shù)據(jù); OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制。 數(shù)據(jù)庫設(shè)計: OLTP采用實體-聯(lián)系ER模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計; OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計。,視圖: OLTP主要關(guān)注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù); OLAP則相反,不僅關(guān)注本企業(yè)或組織內(nèi)部的當前數(shù)據(jù),而且更多地涉及到歷史數(shù)據(jù)和其他組織的數(shù)據(jù)。 訪問模式: OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成,這種系統(tǒng)需要并行和恢復(fù)機制。 OLAP系統(tǒng)的訪問大部分是只讀操作。,OLTP和OLAP的區(qū)別(續(xù)),OLAP的分析方法(一)切片、切塊,OLAP的分析方法(二)鉆取,按時間維向下鉆取,按時間維向上鉆取,60,OLAP的分析方法(三)旋轉(zhuǎn),OLAP服務(wù)器類型,關(guān)系OLAP(ROLAP)模型 使用關(guān)系或擴充關(guān)系DBMS存放并管理數(shù)據(jù)倉庫。 多維OLAP(MOLAP)服務(wù)器 這些服務(wù)器通過基于數(shù)組的多維存儲,支持數(shù)組的多維視圖。 混合OLAP(HOLAP)服務(wù)器 結(jié)合ROLAP和MOLAP技術(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論