邊數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)ёx_第1頁
邊數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)ёx_第2頁
邊數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)ёx_第3頁
邊數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)ёx_第4頁
邊數(shù)據(jù)倉庫和數(shù)據(jù)挖掘?qū)ёx_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘邊雪芬共六十八頁 第一(dy)部分 數(shù)據(jù)倉庫2022/7/202HD-bxf共六十八頁數(shù)據(jù)倉庫1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2 什么(shn me)是數(shù)據(jù)倉庫1.3 DBMS vs. DWMS1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)問題1.5 數(shù)據(jù)倉庫的相關(guān)概念 1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫2022/7/203HD-bxf共六十八頁1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫Why數(shù)據(jù)倉庫數(shù)據(jù)庫:主要用于事務(wù)處理。數(shù)據(jù)庫技術(shù)一直力圖使自己能勝任從事務(wù)處理、批處理到分析處理的各種類型的信息處理任務(wù)。但它對分析處理的支持一直不能令人滿意,尤其是當(dāng)以事務(wù)處理為主的OLTP(on-line transactio

2、n processing ,聯(lián)機(jī)事務(wù)處理 )應(yīng)用與以分析處理為主的DSS(Decision Support System ,決策支持系統(tǒng))應(yīng)用共存于同一個數(shù)據(jù)庫系統(tǒng)中時,這兩種類型的處理發(fā)生了明顯(mngxin)的沖突。2022/7/204HD-bxf共六十八頁1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫Why數(shù)據(jù)倉庫“蜘蛛網(wǎng)”問題為了避免企業(yè)中各部門或各用戶間的沖突和簡化用戶的數(shù)據(jù)視圖,一種稱作“抽取程序”的方法目前被廣泛地應(yīng)用。不加控制的連續(xù)抽取最終導(dǎo)致系統(tǒng)內(nèi)的數(shù)據(jù)間形成了錯綜復(fù)雜的網(wǎng)狀結(jié)構(gòu),人們形象地稱為“蜘蛛網(wǎng)”。企業(yè)的規(guī)模越大,“蜘蛛網(wǎng)”問題就越嚴(yán)重。雖然網(wǎng)上的任意兩個節(jié)點的數(shù)據(jù)可能歸根結(jié)底是從一個原

3、始庫中抽取出來的,但它們的數(shù)據(jù)沒有統(tǒng)一的時間基準(zhǔn),抽取算法各不相同,抽取級別也不相同,并且可能參考不同的外部數(shù)據(jù)。因而對同一問題的分析(fnx),不同節(jié)點卻會產(chǎn)生不同甚至截然相反的結(jié)果。這當(dāng)然使決策者無從下手。2022/7/205HD-bxf共六十八頁1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫事務(wù)型系統(tǒng)和分析型系統(tǒng)的分離事務(wù)型系統(tǒng)處理以傳統(tǒng)的數(shù)據(jù)庫為中心進(jìn)行企業(yè)的日常業(yè)務(wù)處理例如:電信行業(yè)的記費數(shù)據(jù)庫、銀行(ynhng)數(shù)據(jù)庫使用人員為企業(yè)的具體操作人員處理的數(shù)據(jù)為企業(yè)業(yè)務(wù)的細(xì)節(jié)信息目標(biāo)是實現(xiàn)企業(yè)的業(yè)務(wù)運營分析型系統(tǒng)分析數(shù)據(jù)背后的關(guān)聯(lián)和規(guī)律,為企業(yè)的決策提供可靠有效的依據(jù)。例如:對高校大學(xué)生就業(yè)信息進(jìn)行分析,

4、以幫助學(xué)校指定招生計劃并合理設(shè)置專業(yè)。使用人員為企業(yè)的中高層管理者或從事數(shù)據(jù)分析的工程師處理的數(shù)據(jù)為企業(yè)的宏觀信息目標(biāo)是為企業(yè)決策者提供信息支持2022/7/206HD-bxf共六十八頁1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫事務(wù)型系統(tǒng)和分析(fnx)型系統(tǒng)的分離可見,在事務(wù)型環(huán)境中直接構(gòu)建分析型應(yīng)用是不合適的。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨的分析處理環(huán)境。數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。 2022/7/207HD-bxf共六十八頁1.

5、1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫對數(shù)據(jù)的處理分兩類:操作型處理(OLTP on-line transaction processing )操作型處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短; 數(shù)據(jù)庫系統(tǒng)分析型處理(OLAP on-line analytical processing )在分析處理環(huán)境中,某個DSS應(yīng)用程序可能需要連續(xù)幾個小時,從而消耗大量(dling)的系統(tǒng)資源。數(shù)據(jù)倉庫系統(tǒng)2022/7/208HD-bxf共六十八頁第一章 數(shù)據(jù)倉庫概述(i sh)1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2 什么是數(shù)據(jù)倉庫1.3 DBMS vs. DWMS1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)問題(wnt)1.5 數(shù)

6、據(jù)倉庫的相關(guān)概念 1.2 什么是數(shù)據(jù)倉庫2022/7/209HD-bxf共六十八頁什么是數(shù)據(jù)倉庫 “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process.” W.H.Inmon. 1992 數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定(wndng)的、隨時間變化的數(shù)據(jù)集合,用于支持管理決策過程。 1.2 什么(shn me)是數(shù)據(jù)倉庫2022/7/2010HD

7、-bxf共六十八頁Data Warehouse PropertiesSubjectOrientedIntegratedTime VariantNon VolatileDataWarehouse2022/7/2011HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的四個主要特征數(shù)據(jù)倉庫是面向主題的(Subject-Oriented)操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個抽象的概念,指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。是對各分析對象所涉及的操作數(shù)據(jù)

8、庫中的數(shù)據(jù)的集成,是更高級別的數(shù)據(jù)抽象。典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目數(shù)據(jù)倉庫圍繞一些主題,排除對于決策無用(w yn)的數(shù)據(jù),提供特定主體的簡明視圖。2022/7/2012HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的四個主要特征數(shù)據(jù)倉庫是面向(min xin)主題的(Subject-Oriented)例如,若企業(yè)決策人員預(yù)分析客戶的財務(wù)信息,則需要把關(guān)于客戶的各種財務(wù)信息綜合在“Customer Financial ”這一主題中。 2022/7/2013HD-bxf共六十八頁 Operational SystemsSavingsSharesLoansInsu

9、ranceEquityPlansCustomerFinancial InformationData Warehouse Subject Area2022/7/2014HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫2022/7/2015HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的四個主要特征數(shù)據(jù)倉庫是集成的(Integrated)數(shù)據(jù)倉庫的數(shù)據(jù)來自于多個不同的數(shù)據(jù)源。多個數(shù)據(jù)源經(jīng)常是異種或異構(gòu)的,存在數(shù)據(jù)重復(fù)和語義不一致問題。 不是(b shi)對這些數(shù)據(jù)源中某些數(shù)據(jù)的復(fù)制,而是對這些數(shù)據(jù)源中數(shù)據(jù)的進(jìn)一步抽象。它需要按照統(tǒng)一的結(jié)構(gòu)、一致的格式、一致的度量單

10、位、一致的語義,從不同的數(shù)據(jù)源提取數(shù)據(jù)并進(jìn)行清洗、轉(zhuǎn)換、綜合、抽象,最后集成為面向主題的數(shù)據(jù)集合,確保數(shù)據(jù)的綜合性、宏觀性和一致性。 2022/7/2016HD-bxf共六十八頁J Jones女1945年7月20日J(rèn) Jones去年有兩張罰單一次大事故人壽保險汽車保險J JonesMain大街123號已婚房產(chǎn)保險J Jones兩個孩子高血壓健康保險J Jones女1945年7月20日出生去年有兩張罰單一次大事故Main大街123號已婚兩個孩子高血壓顧客2022/7/2017HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的四個主要特征數(shù)據(jù)倉庫是隨時間不斷變化的(Time-V

11、ariant)數(shù)據(jù)倉庫中的歷史數(shù)據(jù)應(yīng)該隨時間的延長不斷增加新的數(shù)據(jù)內(nèi)容(周期性更新)。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來(wili)趨勢做出定量分析和預(yù)測。隨時間不斷的延長,數(shù)據(jù)倉庫中一些數(shù)據(jù)的歷史將越來越久。一般情況下,歷史久遠(yuǎn)的數(shù)據(jù)將不再被決策者關(guān)心。所以,數(shù)據(jù)倉庫的數(shù)據(jù)超過一定的期限,就要被刪除。數(shù)據(jù)倉庫中大量數(shù)據(jù)都是綜合數(shù)據(jù)。這些綜合數(shù)據(jù)一般都與時間有關(guān),如按照時間段進(jìn)行綜合的數(shù)據(jù)。這些綜合數(shù)據(jù)要隨著時間的延長而不斷地變化。 2022/7/2018HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫DataTime01/201202/ 201203/ 2012Data f

12、or JanuaryData for FebruaryData for MarchData Warehouse2022/7/2019HD-bxf共六十八頁1.2 什么(shn me)是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的四個主要特征數(shù)據(jù)倉庫是非易失的(Non-Volatile)數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,很少進(jìn)行修改,所涉及的數(shù)據(jù)操作主要有兩類:數(shù)據(jù)加載數(shù)據(jù)查詢和聯(lián)機(jī)分析 數(shù)據(jù)倉庫的數(shù)據(jù)一般都是歷史數(shù)據(jù),是對多個不同數(shù)據(jù)源進(jìn)行統(tǒng)計、綜合和重組后導(dǎo)出的數(shù)據(jù)。只要(zhyo)數(shù)據(jù)源中與數(shù)據(jù)倉庫相關(guān)的數(shù)據(jù)不發(fā)生改變,數(shù)據(jù)倉庫中的數(shù)據(jù)就不應(yīng)該被改變。一般來說,無需事務(wù)管理、并發(fā)控制與恢復(fù)等機(jī)制2022/7/2

13、020HD-bxf共六十八頁Typically data in the data warehouse is not updated or deleted.ReadLoadINSERT ReadUPDATEDELETEOperational DatabasesWarehouse Database2022/7/2021HD-bxf共六十八頁Changing DataOperational DatabasesWarehouse DatabaseFirst time loadRefreshRefreshRefreshPurgeorArchive2022/7/2022HD-bxf共六十八頁1.2 什么(

14、shn me)是數(shù)據(jù)倉庫數(shù)據(jù)倉庫的其它特征數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大。級,級數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉庫一般還是應(yīng)用數(shù)據(jù)庫管理(gunl)系統(tǒng)來管理(gunl)其中的數(shù)據(jù)。數(shù)據(jù)倉庫的使用人員較少。2022/7/2023HD-bxf共六十八頁第一章 數(shù)據(jù)倉庫概述(i sh)1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2 什么是數(shù)據(jù)倉庫1.3 DBMS vs. DWMS1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)問題(wnt)1.5 數(shù)據(jù)倉庫的相關(guān)概念 1.3 DBMS vs. DWMS2022/7/2024HD-bxf共六十八頁1.3 DBMS vs. DWMS OLTP (聯(lián)機(jī)事務(wù)處理(c

15、hl))On-Line Transaction ProcessingMajor task of traditional relational DBMSDay-to-day operations: 采購, 庫存, 銀行業(yè), 制造業(yè), 工資發(fā)放, 注冊系統(tǒng), 賬目管理等。2022/7/2025HD-bxf共六十八頁1.3 DBMS vs. DWMS OLAP (聯(lián)機(jī)分析(fnx)處理)On-Line Analytical ProcessingMajor task of data warehouse systemData analysis and decision making2022/7/2026

16、HD-bxf共六十八頁1.3 DBMS vs. DWMS 2022/7/2027HD-bxf共六十八頁1.3 DBMS vs. DWMS DBMSDWMS具有功能OLTPOLAP數(shù)據(jù)視圖當(dāng)前的歷史的細(xì)粒度的綜合的局部的集成的設(shè)計目的面向應(yīng)用面向分析查詢90%事先可知道 90%是ad hoc的updateread-only but complex queries一次操作所涉及的數(shù)據(jù)量小一次操作所涉及的數(shù)據(jù)量大開發(fā)周期需求驅(qū)動數(shù)據(jù)驅(qū)動ad hoc:機(jī)動(jdng)的;臨時的;特設(shè)的 2022/7/2028HD-bxf共六十八頁第一章 數(shù)據(jù)倉庫概述(i sh)1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2 什么(

17、shn me)是數(shù)據(jù)倉庫1.3 DBMS vs. DWMS1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)問題1.5 數(shù)據(jù)倉庫的相關(guān)概念 1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)問題2022/7/2029HD-bxf共六十八頁1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)(xinggun)問題E: ExtractT: TransformL: LoadData MartData Mart數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)Data SourcesMulti-Tiered ArchitectureData StorageFront-End Tools2022/7/2030HD-bxf共六十八頁數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)數(shù)據(jù)源(DataSource)數(shù)據(jù)(shj)倉

18、庫的數(shù)據(jù)(shj)存儲(DataStorage)應(yīng)用工具(ApplicationTools)可視化用戶界面(Visualization)。1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)(xinggun)問題2022/7/2031HD-bxf共六十八頁1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)(xinggun)問題相關(guān)問題數(shù)據(jù)倉庫數(shù)據(jù)模型邏輯數(shù)據(jù)結(jié)構(gòu)代數(shù)操作數(shù)據(jù)倉庫數(shù)據(jù)定義與操作語言數(shù)據(jù)倉庫存儲與索引結(jié)構(gòu)OLAP操作實現(xiàn)算法OLAP查詢處理與優(yōu)化數(shù)據(jù)提取、轉(zhuǎn)換(zhunhun)與加載數(shù)據(jù)維護(hù)2022/7/2032HD-bxf共六十八頁第一章 數(shù)據(jù)倉庫概述(i sh)1.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2 什么(shn me)

19、是數(shù)據(jù)倉庫1.3 DBMS vs. DWMS1.4 數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)與相關(guān)問題1.5 數(shù)據(jù)倉庫的相關(guān)概念 1.5 數(shù)據(jù)倉庫的相關(guān)概念2022/7/2033HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念ETL:extract/transformation/loadETL工具就是進(jìn)行數(shù)據(jù)(shj)的抽取、轉(zhuǎn)換和“凈化提煉”處理?!皟艋釤挕奔磳亩鄠€不同業(yè)務(wù)數(shù)據(jù)(shj)庫所抽取的數(shù)據(jù)(shj),進(jìn)行數(shù)據(jù)(shj)項名稱的統(tǒng)一、位數(shù)的統(tǒng)一、編碼的統(tǒng)一和形式的統(tǒng)一,消除重復(fù)數(shù)據(jù)(shj)。ETL工具包括:data extract, data transform, data cleaning, d

20、ata loading.2022/7/2034HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)抽?。―ata Extraction) 從數(shù)據(jù)倉庫的角度來看,并不是業(yè)務(wù)數(shù)據(jù)庫中的所有數(shù)據(jù)都是決策支持所必需的。通常,數(shù)據(jù)倉庫按照分析的主題來組織數(shù)據(jù),我們只需提取出系統(tǒng)分析必需的那一部分?jǐn)?shù)據(jù)。例如,某超市確定以分析客戶的購買行為為主題建立數(shù)據(jù)倉庫,則我們只需將同客戶購買行為相關(guān)的數(shù)據(jù)提取出來,而超市服務(wù)員工(yungng)的數(shù)據(jù)就沒有必要放進(jìn)數(shù)據(jù)倉庫。 2022/7/2035HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)清洗(Data Cleaning)將錯誤的、不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫

21、之前予以更正或刪除,以免(ymin)影響決策支持系統(tǒng)決策的正確性。2022/7/2036HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)清洗(Data Cleaning)企業(yè)常常為不同的應(yīng)用對象建立不同的業(yè)務(wù)數(shù)據(jù)庫,這些業(yè)務(wù)系統(tǒng)中可能包含(bohn)重復(fù)的信息,存在數(shù)據(jù)不一致現(xiàn)象。例:2022/7/2037HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)清洗(Data Cleaning)由于冗余的數(shù)據(jù)存放在不同(b tn)的數(shù)據(jù)庫中,如果不同(b tn)數(shù)據(jù)庫間的數(shù)據(jù)刷新不是實時的,則可能出現(xiàn)數(shù)據(jù)不同(b tn)步的情況。例:2022/7/2038HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫

22、的基本概念數(shù)據(jù)(shj)轉(zhuǎn)換(Data Transformation)由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫廠商的產(chǎn)品,各種數(shù)據(jù)庫產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。例:2022/7/2039HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)裝載將數(shù)據(jù)按照物理數(shù)據(jù)模型定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉庫,包括(boku)清空數(shù)據(jù)域、填充空格、有效性檢查等。2022/7/2040HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)倉庫存儲(Data Repository) 數(shù)據(jù)倉庫存儲就是用于存放(cnfng)數(shù)據(jù)倉庫數(shù)據(jù)和元數(shù)據(jù)的存儲空間。數(shù)據(jù)的存儲方式主要有3 種:多維

23、數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫這兩種存儲方式的結(jié)合。 2022/7/2041HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)業(yè)務(wù)系統(tǒng)中提取的或者從外部數(shù)據(jù)源中導(dǎo)入的數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)化后成為數(shù)據(jù)倉庫的原始數(shù)據(jù)。由于需要數(shù)據(jù)倉庫進(jìn)行 OLAP 分析和數(shù)據(jù)挖掘,因此需要在原始數(shù)據(jù)的基礎(chǔ)上增加(zngji)冗余信息,比如進(jìn)行大量的預(yù)運算,建立多維數(shù)據(jù)庫,以求迅速的展現(xiàn)數(shù)據(jù)。2022/7/2042HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念元數(shù)據(jù)(Metadata)數(shù)據(jù)是對事物的描述,“元數(shù)據(jù)”就是描述數(shù)據(jù)的數(shù)據(jù),它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持(wich)、管理和使用數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的元數(shù)據(jù)主要包

24、含兩類數(shù)據(jù):第一種是為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),它包括所有源數(shù)據(jù)項的名稱、屬性及其在提取倉庫中的轉(zhuǎn)化;第二種元數(shù)據(jù)在數(shù)據(jù)倉庫中是用來與最終用戶的多維商業(yè)模型和前端工具之間建立映射的。2022/7/2043HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念在轉(zhuǎn)換后,(User_ID,User_Name,Address)3 列原始的存放位置、進(jìn)行的清洗轉(zhuǎn)化(zhunhu)處理、數(shù)據(jù)最終的存放位置、數(shù)據(jù)格式、數(shù)據(jù)使用的規(guī)則等等都將作為元數(shù)據(jù)的一部分。2022/7/2044HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念主題(Subject)主題(Subject)是一個在較高層次上

25、將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。面向主題的數(shù)據(jù)組織方式(fngsh),就是在較高層次上對分析對象數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。2022/7/2045HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念維度(dimension)維()是指人們觀察(gunch)事物的角度。在數(shù)據(jù)倉庫中比較常用的維主要有:時間維、客戶維、產(chǎn)品維、地區(qū)維等。人們從某個維的角度觀察數(shù)據(jù),還可以根據(jù)細(xì)節(jié)程度的不同形成多個描述層次,該多個描述層次就稱為維層次。2022/7/2046HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)立

26、方體數(shù)據(jù)倉庫中維的概念類似于關(guān)系表的屬性。數(shù)據(jù)立方體是指由兩個或更多個屬性即兩個或更多個維來描述或分類的數(shù)據(jù)。在三維的情況下以圖形來表示,該類數(shù)據(jù)具有立方體結(jié)構(gòu),一般稱為數(shù)據(jù)立方體。雖然我們通常從幾何意義的角度將立方體理解為三維的,但是(dnsh)在數(shù)據(jù)倉庫中數(shù)據(jù)立方體是一個 維的概念。“某產(chǎn)品在某個月份在某個地區(qū)的銷售收入是多少”2022/7/2047HD-bxf共六十八頁1.5 數(shù)據(jù)倉庫的基本概念聯(lián)機(jī)分析處理(OLAP)OLAP是使分析人員、管理人員、或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)(shj)的更深入了解的一類軟件技術(shù)。OLAP技術(shù)的目的是滿足決策支持

27、或者滿足在多維環(huán)境下特定的查詢和報表需求,技術(shù)核心為“維”。2022/7/2048HD-bxf共六十八頁2022/7/2049HD-bxf共六十八頁 第二(d r)部分 數(shù)據(jù)挖掘2022/7/2050HD-bxf共六十八頁數(shù)據(jù)挖掘為什么要進(jìn)行數(shù)據(jù)挖掘什么(shn me)是數(shù)據(jù)挖掘數(shù)據(jù)挖掘在什么類型的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘方法的分類如何度量挖掘結(jié)果數(shù)據(jù)挖掘的主要問題是什么2022/7/2051HD-bxf共六十八頁 Necessity Is the Mother of InventionData explosion problem Automated data collection t

28、ools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases, data warehouses, and other information repositories We are drowning in data, but starving for knowledge! Solution: Data warehousing and data miningData warehousing and on-line analy

29、tical processingMining interesting knowledge (rules, regularities, patterns, constraints) from data in large databases2022/7/2052HD-bxf共六十八頁Data mining applicationsThe Google system uses a mathematical algorithm calledPageRank to estimate the relative importance of individual web pages based on link

30、 patternsThe Advanced Scout system analyzes the logs of NBA games to uncover interesting pieces of information (e.g., “when player X is on the floor, player Ys shot accuracy decreases from 75% to 30%.”) As of 1997 the system was in use by several NBA teamsMotivation: Why data mining?PR是英文Pagerank 的縮

31、寫形式,Pagerank取自Google的創(chuàng)始人LarryPage,它是Google排名運算法則(排名公式)的一部分,Pagerank是Google對網(wǎng)頁重要性的評估,是Google用來衡量一個網(wǎng)站(wn zhn)的好壞的唯一標(biāo)準(zhǔn)。PR值的級別從1到10級,10級為滿分。PR值越高說明該網(wǎng)頁越受歡迎。Google把自己的網(wǎng)站的PR值定到9,這說明Google這個網(wǎng)站是非常受歡迎的,也可以說這個網(wǎng)站非常重要。一個PR值為1的網(wǎng)站表明這個網(wǎng)站不太具有流行度,而PR值為7到10則表明這個網(wǎng)站非常受歡迎。2022/7/2053HD-bxf共六十八頁Motivation: Why data mining

32、?Applications電信公司股票信息超市(cho sh):尿布和啤酒Other ApplicationsText mining (news group, email, documents) and Web miningStream data mining2022/7/2054HD-bxf共六十八頁什么(shn me)是數(shù)據(jù)挖掘Data mining is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from h

33、uge volume of data 從大量數(shù)據(jù)中抽取出隱含的、有潛在用途的、未知的、人們可以理解的、有價值的信息和模式的過程(guchng)。這些新發(fā)現(xiàn)的規(guī)律、模式、信息和概念具有潛在使用價值。2022/7/2055HD-bxf共六十八頁數(shù)據(jù)挖掘是知識發(fā)現(xiàn)(fxin)的同義詞數(shù)據(jù)挖掘是知識發(fā)現(xiàn)中必不可少的一個步驟什么(shn me)是數(shù)據(jù)挖掘2022/7/2056HD-bxf共六十八頁什么(shn me)是數(shù)據(jù)挖掘Data preprocessingData in the real world is dirty不完整的存在空值, 缺少感興趣的屬性(shxng)或僅包含聚集數(shù)據(jù)含有噪聲的含有錯

34、誤或存在偏離期望的孤立點值e.g., Salary=“-10”不一致的數(shù)據(jù)值存在偏差e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records數(shù)據(jù)預(yù)處理可以改進(jìn)數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)挖掘的精度2022/7/2057HD-bxf共六十八頁Major Tasks in Data PreprocessingData cleaningFill in missing values, smooth noisy data

35、, identify or remove outliers, and resolve inconsistenciesData integrationIntegration of multiple databases, data cubes, or filesData transformationNormalization and aggregationData reductionObtains reduced representation in volume but produces the same or similar analytical resultsData discretizati

36、onPart of data reduction but with particular importance, especially for numerical data2022/7/2058HD-bxf共六十八頁Forms of data preprocessing 2022/7/2059HD-bxf共六十八頁2022/7/2060HD-bxf共六十八頁2022/7/2061HD-bxf共六十八頁數(shù)據(jù)挖掘在什么類型(lixng)的數(shù)據(jù)上進(jìn)行Relational databaseData warehouseTransactional databaseAdvanced database and

37、 information repositoryObject-relational databaseSpatial and temporal dataTime-series data Stream dataMultimedia databaseHeterogeneous and legacy(遺產(chǎn)(ychn) databaseText databases & WWW2022/7/2062HD-bxf共六十八頁數(shù)據(jù)挖掘的功能(gngnng)Concept description: Characterization(描述) and discrimination(區(qū)別)Generalize(歸納(gu

38、n), summarize(總結(jié)), and contrast data characteristics, e.g., dry vs. wet regionsAssociation (correlation and causality)Diaper Beer 0.5%, 75%Classification and Prediction ClassificationTo find a model for predicting the class labels of unseen dataPresentation: decision-tree, classification rule, neural ne

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論