BI技術(shù)白皮書_第1頁
BI技術(shù)白皮書_第2頁
BI技術(shù)白皮書_第3頁
BI技術(shù)白皮書_第4頁
BI技術(shù)白皮書_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商業(yè)智能 技 術(shù) 白 皮 書 1 第一章、 數(shù)據(jù)倉庫技術(shù) . 1 一、 數(shù)據(jù)倉庫的背景和歷史 . 1 二、什么是數(shù)據(jù)倉庫 . 1 三、 數(shù)據(jù)倉庫的組織結(jié)構(gòu) . 2 3.1、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu) . 2 3.2、數(shù)據(jù)倉庫系統(tǒng) . 2 四、 數(shù)據(jù)倉庫的物理存儲形式 . 3 4.1、基于關(guān)系數(shù)據(jù)庫的存儲形式 . 3 4.2、多維數(shù)據(jù)庫存儲形式 . 4 4.3、虛擬存儲方式 . 5 4.4、幾種存儲形式的比較 . 5 五、數(shù)據(jù)集市 . 5 5.1、 數(shù)據(jù)集市的產(chǎn)生 . 5 5.2、 數(shù)據(jù)集市的概念 . 5 5.3、 數(shù)據(jù)集市的特征 . 5 六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗( ETL) . 6 6.1、 ETL 的重要性及概念 . 6 6.2 ETL 階段的問題 . 6 第二章、 聯(lián)機分析技術(shù) (OLAP). 8 一、什么是 OLAP . 8 1.1 、 OLAP 的起源 . 8 1.2 、 OLAP 的概念 . 8 1.3、 OLAP 的分類 . 8 二、 OLAP 的多維數(shù)據(jù)結(jié)構(gòu) . 9 2.1、 OLAP 的多維數(shù)據(jù)數(shù)據(jù)概念 . 9 2.2、 OLAP 的多維數(shù)據(jù)結(jié)構(gòu) . 9 三、 OLAP 的特點 . 11 四、 OLAP 的功能 . 11 第三章、 數(shù)據(jù)挖掘技術(shù) . 12 一、什么是數(shù)據(jù)挖掘 . 12 二、數(shù)據(jù)挖掘的步驟 . 13 三、數(shù)據(jù)挖掘的模式 . 13 四、數(shù)據(jù)挖掘的方法 . 14 第四章、各種技術(shù)的結(jié)合 . 16 1 第一章、 數(shù)據(jù)倉庫技術(shù) 一、 數(shù)據(jù)倉庫的背景和歷史 隨著計算機技術(shù)的迅速發(fā)展 ,信息處理技術(shù)也得到了長足的發(fā)展。計算機系統(tǒng)的功能從數(shù)值計算擴展到信息管理距今已有三十多年了,從 70 年代中期的 MIS 系統(tǒng)發(fā)展到現(xiàn)代的數(shù)據(jù)倉庫 (Data Warehouse)技術(shù),用辯證的眼光來看,實際上是信息管理的一種回歸,是螺旋式的上升。 二十多年來,大量新技術(shù)、新思路涌現(xiàn)出來并被用于關(guān)系數(shù)據(jù)庫系統(tǒng)的開發(fā)和實現(xiàn),使得關(guān)系數(shù)據(jù)庫系統(tǒng)的處理能力毫不遜色于傳統(tǒng)封閉的數(shù)據(jù)庫系統(tǒng) , SQL 的使 用更使這一切成為不可阻擋的潮流,加上近些年來計算機硬件的處理能力呈數(shù)量級的遞增,關(guān)系數(shù)據(jù)庫最終成為聯(lián)機事務處理系統(tǒng)的主宰。整個 80 年代直到 90 年代初,聯(lián)機事務處理一直是數(shù)據(jù)庫應用的主流。然而,應用在不斷地進步。當聯(lián)機事務處理系統(tǒng)應用到一定階段的時候,企業(yè)家們便發(fā)現(xiàn)單靠擁有聯(lián)機事務處理系統(tǒng)已經(jīng)不足以獲得市場競爭的優(yōu)勢,他們需要對其自身業(yè)務的運作以及整個市場相關(guān)行業(yè)的態(tài)勢進行分析,而做出有利的決策。這種決策需要對大量的業(yè)務數(shù)據(jù)包括歷史業(yè)務數(shù)據(jù)進行分析才能得到。在如今這樣激烈的市場競爭環(huán)境下,這種基于業(yè)務數(shù)據(jù)的決 策分析 我們把它稱之為聯(lián)機分析處理 比以往任何時候都顯得更為重要。 其實,將大量的業(yè)務數(shù)據(jù)應用于分析和統(tǒng)計原本是一個非常簡單和自然的想法。但在實際的操作中,人們卻發(fā)現(xiàn)要獲得有用的信息并非如想像的那么容易:第一,所有聯(lián)機事務處理強調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。聯(lián)機分析和事務處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上難以做到兩全;第二,業(yè)務數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境中,不易統(tǒng)一查詢訪問,而且還有大量的歷史數(shù)據(jù)處于脫機狀態(tài),形同虛設;第 三,業(yè)務數(shù)據(jù)的模式針對事 務處理系統(tǒng)而設計,數(shù)據(jù)的格式和描述方式并不適合非計算機專業(yè)人員進行業(yè)務上的分析和統(tǒng)計。因此有人感嘆: 20 年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了,而今天查詢不到數(shù)據(jù)是因為數(shù)據(jù)太多了。針對這一問題,人們設想專門為業(yè)務的統(tǒng)計分析建立一個數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機的事務處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、從脫機的歷史業(yè)務數(shù)據(jù)中來。這個數(shù)據(jù)中心是一個聯(lián)機的系統(tǒng),它是專門為分析統(tǒng)計和決策支持應用服務的,通過它可滿足決策支持和聯(lián)機分析應用所要求的一切。這個數(shù)據(jù)中心就叫做數(shù)據(jù)倉庫。 二、什么是數(shù)據(jù)倉庫 數(shù)據(jù)倉庫的概念在 90 年代初被 提出來,以 Prism Solutions 公司副總裁 W.H.Inmon 在 1990 年出版的建立數(shù)據(jù)倉庫 (Building the Data Warehouse)一書為標志。 W. H. Inmon 對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。這也就是說:數(shù)據(jù)倉庫就是一個作為決策支持系統(tǒng)和聯(lián)機分析應用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫所要研究和解決的問題就是從數(shù)據(jù)庫中獲取信息的問題。 主題是數(shù)據(jù)倉庫中數(shù)據(jù)歸類的標準,每個主題對應一個客觀分析領(lǐng)域,如客戶、商店等, 它可為輔助決策集成多個部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成后進入數(shù)據(jù)倉庫 的數(shù)據(jù)是極少更新的。 數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應用向面向主題的轉(zhuǎn)變。數(shù)據(jù)倉庫的穩(wěn)定性是指數(shù)據(jù)經(jīng)加工和集成進入數(shù)據(jù)倉庫后是極少或根本不修改的。數(shù)據(jù)倉庫是不同時間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉庫中的數(shù)據(jù)保存時限能滿足進行決策分析的需要。 從數(shù)據(jù)組織的角度來說, 數(shù)據(jù)倉庫是存儲數(shù)據(jù)的一種組織形式,它從傳統(tǒng)數(shù)據(jù)庫中獲得原始 數(shù)據(jù),先按輔助決策的主題要求形成當前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜合層和高度綜合層)。 其最根本的特點是物理地存放數(shù)據(jù),但這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)庫。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限為 5 年至 10 年,主要用于進行時間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大,一般為 10GB 左右。它是一般數(shù)據(jù)庫( 100MB)數(shù)據(jù)量的 100 倍,大型數(shù)據(jù)倉庫達到 TB 級。 三、 數(shù)據(jù)倉庫的組織結(jié)構(gòu) 3.1、數(shù)據(jù)倉庫的邏輯及物理結(jié)構(gòu) 數(shù)據(jù)倉庫作為存儲數(shù)據(jù)的一種組織形式,隨著時間的推移,數(shù)據(jù)倉庫的時間控制機制將當前 基 本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。可見數(shù)據(jù)倉庫中邏輯結(jié)構(gòu)數(shù)據(jù)由 3 層到 4 層數(shù)據(jù)組成,它們均由元數(shù)據(jù)( Meta Data)組織而成。數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲形式有多維數(shù)據(jù)庫組織形式(空間超立方體形式)和基于關(guān)系數(shù)據(jù)庫組織形式(由關(guān)系型事實表和維表組成)。以下是數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)圖 3.2、數(shù)據(jù)倉庫系統(tǒng) 數(shù)據(jù)倉庫系統(tǒng)( DWS)由源數(shù)據(jù)、倉庫管理和分析工具三部分組成。如下圖: 信息目錄模塊 數(shù)據(jù)倉庫之元數(shù)據(jù) 數(shù)據(jù)管理員模塊 數(shù)據(jù)倉庫之數(shù)據(jù) 數(shù)據(jù)獲取模塊 數(shù)據(jù)傳遞模塊 中間件 模塊 數(shù)據(jù)訪 問模塊 設計模塊 管理模塊 外部元數(shù)據(jù) 源數(shù)據(jù) 外部數(shù)據(jù) 源數(shù)據(jù) 倉庫管理 分析工具 源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個數(shù)據(jù)源,包括企業(yè)內(nèi)部數(shù)據(jù)、市場調(diào)查報告及各種文檔之類的外部數(shù)據(jù)。 倉庫管理:在確定數(shù)據(jù)倉庫信息需求后,首先進行數(shù)據(jù)建模,然后確定從源數(shù)據(jù)到數(shù)據(jù)倉庫的 數(shù)據(jù)抽取、清理和轉(zhuǎn)換過程,最后劃分維數(shù)及確定數(shù)據(jù)倉庫的物理存儲結(jié)構(gòu)。元數(shù)據(jù)是數(shù)據(jù)倉庫的核心,它用于存儲數(shù)據(jù)模型和定義數(shù)據(jù)結(jié)構(gòu)、轉(zhuǎn)換規(guī)劃、倉庫結(jié)構(gòu)、控制信息等。倉庫管理包括對數(shù)據(jù)的安全、歸檔、備份、維護、恢復等工作,這些工作需要利用數(shù)據(jù)庫管理系統(tǒng) (DBMS)的功能。 分析工具:用于完成實際決策問題所需的各種 查詢檢索工具、多維數(shù)據(jù)的 OLAP 分析工具、數(shù)據(jù)開采 DM 工具等,以實現(xiàn)決策支持系統(tǒng)的各種要求。 四、 數(shù)據(jù)倉庫的物理存儲形式 數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲形式分為:基于關(guān)系數(shù)據(jù)庫存儲形式(由關(guān)系型事實表和維表組成)、多維數(shù)據(jù)庫存儲形式(空間超立方體形式)和虛擬存儲形式。 4.1、基于關(guān)系數(shù)據(jù)庫的存儲形式 基于關(guān)系數(shù)據(jù)庫的存儲形式就是將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表 : 一類是事實表 , 用來存儲數(shù)據(jù)和維關(guān)鍵字 ; 另一類是維表 , 即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系 在一起 , 形成“星型模式 ”。對于層次復雜的維 , 為避免冗余數(shù)據(jù)占用過大的存儲空間 , 可以使用多個表來描述 , 這種星型模式的擴展稱為“雪花模式 ”。 星型模式 (StarSchema)存在數(shù)據(jù)冗余、多維操作速度慢的缺點。但這種方式是主流方案,大多數(shù)數(shù)據(jù)倉庫集成方案都采用這種形式。如下圖: 星型模式 雪花模式 (Snowflake Schema)的優(yōu)點是:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復雜性。如下圖: 雪花模型 4.2、多維數(shù)據(jù)庫存儲形式 多維數(shù)據(jù)庫( MultiDimesional Database, MDDB)存儲形式就是以多維的方式存儲數(shù)據(jù) , 以多維的方式來顯示數(shù)據(jù),即將數(shù)據(jù)存放在一個 n 維數(shù)組中,而不是像關(guān)系數(shù)據(jù)庫那樣以記錄的形式存放?!熬S ”是人們觀察客觀世界的角度 , 是一種高層次的類型劃分?!熬S ”一般包含著層次關(guān)系。多維數(shù)據(jù)在存儲中將形成“超立方塊( Hypercube) ”的結(jié)構(gòu)。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。 當使用 多維數(shù)據(jù)庫作為數(shù)據(jù)倉庫的基本數(shù)據(jù)存儲形式時,其最主要的特點是:大大減少了以維為 基本框架的存儲空間,針對多維數(shù)據(jù)組織的操作算法,極大地提高了多維分析操作的效率。 4.3、虛擬存儲方式 虛擬存儲方式是虛擬數(shù)據(jù)倉庫的數(shù)據(jù)組織形式。它沒有專門的數(shù)據(jù)倉庫來存儲數(shù)據(jù),只是把指針存儲于中心位置 , 而數(shù)據(jù)仍然在源數(shù)據(jù)庫中,只是根據(jù)用戶的多維需求及形成的多維視圖,臨時在源數(shù)據(jù)庫中找出所需要的數(shù)據(jù),完成多維分析,數(shù)據(jù)源可以被實時地組合、傳輸和顯示 , 而不必進行數(shù)據(jù)移動和復制 , 對于數(shù)據(jù)源也無須做任何改變。它讓用戶既能實時地看到歷史 數(shù)據(jù) , 同時也能實時地看到當前數(shù)據(jù) , 而不是像過去那樣只看到歷史數(shù)據(jù)。 4.4、幾種存儲形式的比較 多維數(shù)據(jù)庫對多維概念表達清楚 , 占用的存儲空間較小 , 而且數(shù)據(jù)的綜合速度高 , 這些方面具有關(guān)系數(shù)據(jù)庫無法比擬的優(yōu)勢,它也存在一些缺點 : 一是多維數(shù)據(jù)庫管理系統(tǒng)缺乏標準;另一個問題是多維數(shù)據(jù)庫管理大規(guī)模數(shù)據(jù)庫的能力不夠強大。 基于關(guān)系數(shù)據(jù)庫的存儲形式 , 在靈活性和處理大規(guī)模數(shù)據(jù)的能力上完全可以滿足數(shù)據(jù)倉庫的需要。其不足在于數(shù)據(jù)庫中存放了大量的細節(jié)數(shù)據(jù)和相對較少的綜合數(shù)據(jù) , 需要以犧牲效率為代價動態(tài)地綜合數(shù)據(jù)。 虛擬存儲形式雖然 較簡單、花費少、使用靈活,但同時它也存在一個致命的缺點,即只有當源數(shù)據(jù)庫的數(shù)據(jù)組織比較規(guī)范、沒有數(shù)據(jù)不完備及冗余,同時又比較接近多維數(shù)據(jù)模型時,虛擬數(shù)據(jù)倉庫的多維語義層才容易定義,在實際中這種方式很難建立起有效的決策服務數(shù)據(jù)支持。 由于多維數(shù)據(jù)庫管理系統(tǒng)及虛擬數(shù)據(jù)倉庫技術(shù)的相對不成熟 , 關(guān)系數(shù)據(jù)庫系統(tǒng)的廣泛應用 , 目前在數(shù)據(jù)倉庫市場上基于關(guān)系數(shù)據(jù)庫的存儲形式占據(jù)著主流地位。 五、數(shù)據(jù)集市 5.1、 數(shù)據(jù)集市的產(chǎn)生 數(shù)據(jù)倉庫的工作范圍和成本常常是巨大的。信息技術(shù)部門必須針對所有的用戶并以整個企業(yè)的眼光對待 任何一次決策分析。這樣就形成了代價很高、時間較長的大項目。因此更緊湊集成的、擁有完整圖形接口且價格更具吸引力的工具即數(shù)據(jù)集市( Data Marts)應運而生。目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。 5.2、 數(shù)據(jù)集市的概念 數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。它是具有特定應用的數(shù)據(jù)倉庫,主要針對某個具有戰(zhàn)略意義的應用或具體部門級的應用,它支持客戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或找到進入新市場的解決方案。 5.3、 數(shù)據(jù)集市的特征 數(shù) 據(jù)集市的特征包括:規(guī)模??;有特定的應用;面向部門;由業(yè)務部門定義、設計和開發(fā);業(yè)務部門管理和維護;能快速實現(xiàn);購買較便宜;投資快速回收;工具集的緊密集成;提供更詳細的、預先存在的、數(shù)據(jù)倉庫的摘要子集;可升級到完整的數(shù)據(jù)倉庫。 六、數(shù)據(jù)抽取、轉(zhuǎn)換、清洗( ETL) 6.1、 ETL 的重要性及概念 我們可以這樣給 ETL 下個定義,即 ETL 是數(shù)據(jù)抽?。?Extract)、轉(zhuǎn)換( Transform)、清洗( Cleansing)、裝載( Load)的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗 ,最終 按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。它關(guān)系到數(shù)據(jù)倉庫的 持續(xù)發(fā)展問題,因為當數(shù)據(jù)倉庫進一步發(fā)展時, 如果完善、精確、可預見的數(shù)據(jù)來源得不到保障的話,就 將成為阻礙數(shù)據(jù)倉庫發(fā)展的最大的障礙 。 6.2 ETL 階段的問題 整個數(shù)據(jù)倉庫的建設 如果 按照其不同性質(zhì), 可獎 它分為三個截然不同的部分,分別是:源數(shù)據(jù)、數(shù)據(jù)準備、以及數(shù)據(jù)呈現(xiàn) ,而 ETL 橫跨數(shù)據(jù)源和數(shù)據(jù)準備,而我們常說的 的 OLAP 分析和決策支持等,都是屬于數(shù)據(jù)呈現(xiàn)的部分 。在 ETL 階段,需要經(jīng)過許多步驟,如下圖所示: 在 ETL 階段,有幾個重要 的問題: 數(shù)據(jù)的有效性檢查 為避免數(shù)據(jù)冗余,要認識到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,應該對數(shù)據(jù)進行有效性檢查,這是很重要的。如果沒有進行數(shù)據(jù)的有效性檢查,就有可能破壞依賴于數(shù)據(jù)倉庫的商務分析的完整性,幫助檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專家。源系統(tǒng)專家包括具有技術(shù)專業(yè)知識和非技術(shù)知識的人士。 清除和轉(zhuǎn)換數(shù)據(jù) 有效性檢查是決定是否符合給定標準的過程。標準是依賴于制訂的,為某個站點開發(fā)和執(zhí)行的標準可能在其他地方毫無意義。如果數(shù)據(jù)不在給定的界限之內(nèi),它就成為我們稱作 scrubbing(清除)過程的對象。清除數(shù)據(jù)包括對 那些在給定范圍之外的數(shù)據(jù)采取糾正措施。 數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務數(shù)據(jù)源,這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng),因而數(shù)據(jù)以不同的格式存在不同的數(shù)據(jù)庫中。如何向數(shù)據(jù)倉庫中加載這些數(shù)量大、種類多的數(shù)據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一個關(guān)鍵問題。 在轉(zhuǎn)換結(jié)構(gòu)中,確保能找出一種最好的方法保證數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)存儲器到數(shù)據(jù)倉庫的同步。同步結(jié)構(gòu)應當把重點放在轉(zhuǎn)換語言的標準化、數(shù)據(jù)移動平臺、通信策略和支持策略方面。數(shù)據(jù)倉庫與操作數(shù)據(jù)存儲器之間的同步過程能夠采取不同的結(jié)構(gòu)。 除尋找自動化轉(zhuǎn) 換操作的工具之外,還應估計數(shù)據(jù)轉(zhuǎn)換的復雜性。大多數(shù)傳統(tǒng)的數(shù)據(jù)存儲方法缺乏標準,常常有些不規(guī)則的東西讓開發(fā)員摸不著頭腦。工具正在不斷改進以有助于轉(zhuǎn)換過程的自動化,包括復雜問題,如掩匿的數(shù)據(jù)、傳統(tǒng)標準的缺乏及不統(tǒng)一的關(guān)鍵數(shù)據(jù)。 我們可以定義數(shù)據(jù)變換的幾個基本類型,每一類都有自己的特點和表現(xiàn)形式: 簡單變換 顧名思義,它是數(shù)據(jù)變換中最簡單的形式,這些變換一次改變一個數(shù)據(jù)屬性而不考慮該屬性的背景或與它相關(guān)的其他信息。包括數(shù)據(jù)類型轉(zhuǎn)換,日期 /時間格式的轉(zhuǎn)換,字段解碼。 清潔和刷洗 清潔和刷洗是兩個可互換的術(shù)語, 指的是比簡單變換更復雜的一種數(shù)據(jù)變換。在這種變換中,要檢查的是字段或字段組的實際內(nèi)容而不僅是存儲格式。一種清潔是檢查數(shù)據(jù)字段中的有效值。這可以通過范圍檢驗、枚舉清單和相關(guān)檢驗來完成,重新格式化也是一個主要方法。 集成 要把從全然不同的數(shù)據(jù)源中得到的業(yè)務數(shù)據(jù)結(jié)合在一起,真正的困難在于將它們集成為一個緊密結(jié)合的數(shù)據(jù)模型。這是因為數(shù)據(jù)必須從多個數(shù)據(jù)源中提取出來,并結(jié)合成為一個新的實體。這些數(shù)據(jù)來源往往遵守的不是同一套業(yè)務規(guī)則,在生成新數(shù)據(jù)時,必須考慮到這一差異。 聚集和概括 大多數(shù)數(shù)據(jù)倉庫都要用到數(shù)據(jù)的某種聚 集和概括。這通常有助于將某一實體的實例數(shù)目減少到易于駕馭的水平,也有助于預先計算出廣泛應用的概括數(shù)字,以使每個查詢不必計算它們。概括是指按照一個或幾個業(yè)務維將相近的數(shù)值加在一起。聚集指將不同業(yè)務元素加在一起或為一個公共總數(shù)。在數(shù)據(jù)倉庫中它們是以相同的方式進行的。 數(shù)據(jù)倉庫中存放的最具體的數(shù)據(jù)不與業(yè)務系統(tǒng)中存放的細節(jié)數(shù)據(jù)一樣聚集。這時,就有必要在變換業(yè)務數(shù)據(jù)的過程中加入一些數(shù)據(jù)聚集功能。這可以減少存儲在數(shù)據(jù)倉庫中的行數(shù)。 聚集還可以去除數(shù)據(jù)倉庫中的過時細節(jié)。在許多情況下,數(shù)據(jù)在一定時期內(nèi)要以很具體的水平存 放著,一旦數(shù)據(jù)到了某一時限,對所有這些細節(jié)的需求就大大減弱了。此時,這些非常具體的數(shù)據(jù)應該傳送到離線存儲器或近線存儲器中,而數(shù)據(jù)的概括形式則可以存放在數(shù)據(jù)倉庫中。 目前可以得到的數(shù)據(jù)刷洗工具中,許多都已內(nèi)置了概括功能,尤其是在時間維上進行聚集的功能。當然,不管如何做到這一點,重要的是用戶能夠輕松地訪問元數(shù)據(jù),了解生成總和數(shù)據(jù)所用的標準。 移動數(shù)據(jù) 將數(shù)據(jù)移出操作系統(tǒng)一般包括:在數(shù)據(jù)最終復制到數(shù)據(jù)倉庫之前,將它們拷貝到一個中間位置。理想狀況下,拷貝數(shù)據(jù)的過程應該在操作系統(tǒng)不忙時進行。確保了解自己的商務及其支 持系統(tǒng)。如果還未完成大量的更新,就不應該移動數(shù)據(jù)。如果數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個相互關(guān)聯(lián)的操作系統(tǒng),就應該保證在這些系統(tǒng)同步工作時移動數(shù)據(jù)。 1 第二章、 聯(lián)機分析技術(shù) (OLAP) 一、什么是 OLAP 1.1 、 OLAP 的起源 聯(lián)機分析處理 (On-Line Analytical Process OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父 E.F.Codd 于 1993年提出的。當時 ,Codd 認為聯(lián)機事務處理 (OLTP)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要 ,SQL 對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析 需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果 ,而查詢的結(jié)果并不能滿足決策者提出的需求。因此 Codd 提出了多維數(shù)據(jù)庫和多維分析的概念 ,即 OLAP。 到 90 年代中期,數(shù)據(jù)倉庫已經(jīng)形成潮流。在美國,數(shù)據(jù)倉庫已成為緊次于 Internet 之后的又一技術(shù)熱點。隨著數(shù)據(jù)倉庫的發(fā)展, OLAP 也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù);而 OLAP 則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。 OLAP 的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。 OLAP 技術(shù) 中比較典型的應用是對多維數(shù)據(jù)的切片和切塊、鉆取、旋轉(zhuǎn)等,它便于使用者從不同角度提取有關(guān)數(shù)據(jù)。OLAP 技術(shù)還能夠利用分析過程對數(shù)據(jù)進行深入分析和加工。例如,關(guān)鍵指標數(shù)據(jù)常常用代數(shù)方程進行處理,更復雜的分析則需要建立模型進行計算 1.2 、 OLAP 的概念 根據(jù) OLAP 委員會的定義 , OLAP 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取 , 從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。 OLAP 技術(shù)是對由語義動態(tài)對象建立的 、以動態(tài)微立方結(jié)構(gòu)形式存儲的表進行向下鉆取、向上鉆取、跨越鉆取、切片和切塊等操作。 OLAP 的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求 , 它的技術(shù)核心是“維 ”這個概念 , 因此 OLAP 也可以說是多維數(shù)據(jù)分析工具的集合,是數(shù)據(jù)倉庫中大容量數(shù)據(jù)得以有效利用的重要保障。其基本思想是:企業(yè)的決策者應能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化。 1.3、 OLAP 的分類 可以在兩個層面上對 OLAP 進行分類,按照存儲方式的不同,可將 OLAP 分成 ROLAP、 MOLAP和 HOLAP;按照處理地點的不同,可將 OLAP 分成 Server OLAP 和 Client OLAP。 ROLAP 基于 Codd 的 12 條準則,各個軟件開發(fā)廠家見仁見智,其中一個流派,認為可以沿用關(guān)系型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)( starschema)就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的 OLAP 稱為 Relational OLAP,簡稱 ROLAP。代表產(chǎn)品有 Informix Metacube、 Microsoft SQL Server OLAP Services.。 ROLAP 采用 星型模式 來組織關(guān)系數(shù)據(jù)庫數(shù)據(jù)很好地解決多維分析的問題。 星型模式 只不過是數(shù)據(jù)庫設計中數(shù)據(jù)表之間的一種關(guān)聯(lián)形式,它的巧妙之處在于能夠 找到一個固定的算法將用戶的多維查詢請求轉(zhuǎn)換成針對該數(shù)據(jù)模式的標準 SQL 語句,而且該語句是最優(yōu)化的。 星型模式 的應用為關(guān)系數(shù)據(jù)庫在數(shù)據(jù)倉庫領(lǐng)域大開綠燈。是數(shù)據(jù)倉庫處理大規(guī)模的數(shù)據(jù)提供了極大的伸縮性。 ROLAP 的優(yōu)勢:沒有大小限制;現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用;可以通過 SQL 實現(xiàn)詳細數(shù)據(jù)與概要數(shù)據(jù)的儲存;現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對 OLAP 做了很多優(yōu) 化,包括并行存儲、并行查詢、并行 數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、 SQl 的 OLAP 擴展等大大提高了 ROALP 的速度;可以針對 SMP 或 MPP 的結(jié)構(gòu)進行查詢優(yōu)化。 ROLAP 的缺點:一般比 MDD 響應速度慢;只讀、不支持有關(guān)預算的讀寫操作; SQL 無法完成部分計算,主要是無法完成多行的計算,無法完成維之間的計算。 MOLAP 嚴格遵照 Codd 的定義,自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機分析系統(tǒng)數(shù)據(jù)。 Arbor Software,開創(chuàng)了多維數(shù)據(jù)存儲的先河,后來的很多家公司紛紛采用多維數(shù)據(jù)存儲。被人們稱為 MuiltDimension OLAP,簡稱 MOLAP,代表產(chǎn)品有 Hyperion(原 Arbor software) Essbase、 Showcase STRATEGY 等。 MOLAP在針對小型的多維分析應用有較好的效果,但它缺少關(guān)系數(shù)據(jù)庫所擁有的并行處理及大規(guī)模數(shù)據(jù)管理擴展性,因此難以承擔大型數(shù)據(jù)倉庫應用。 MOLAP 的優(yōu)勢:性能好、響應速度快;專為 OLAP 所設計;支持高性能的決策支持計算;復雜的跨維計算;多用戶的讀寫操作;行級的計算。 MOLAP 的缺點:增加系統(tǒng)復雜度,增加系統(tǒng)培訓與維護費用;受操作系統(tǒng)平臺中文件 大小的限制,難以達到 TB 級;需要進行預計算,可能導致數(shù)據(jù)爆炸;無法支持維的動態(tài)變化;缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標準。 HOLAP 鑒于 ROLAP 和 MOLAP 都有這樣那樣的缺點,于是產(chǎn)生了 HOLAP 這種 OLAP 模型,它綜合了 ROLAP和 MOLAP的優(yōu)點。它將常用的數(shù)據(jù)存儲為 MOLAP,不常用或臨時的數(shù)據(jù)存儲為 ROLAP,這樣就兼顧了 ROLAP 的伸縮性和 MOLAP 的靈活、純粹的特點。 ClientOLAP 又稱 DiskOLAP 相對于 Server OLAP 而言。部分分析工具廠家建議把部分數(shù)據(jù)下載到本地,為用戶提 供本地的多維分析。代表產(chǎn)品有 Brio Designer, Business Object.ClientOLAP 提供了有別以傳統(tǒng) OLAP 的實時性和極大的靈活 . 二、 OLAP 的多維數(shù)據(jù)結(jié)構(gòu) 2.1、 OLAP 的多維數(shù)據(jù)數(shù)據(jù)概念 多維結(jié)構(gòu)是 OLAP 的核心。 OLAP 展現(xiàn)在用戶面前的是一幅幅多維視圖。 1、維 假定某某是個百貨零售商,有一些因素會影響他的銷售業(yè)務,如商品、時間、商店或流通渠道,更具體一點,如品牌、月份、地區(qū)等。對某一給定的商品,也許他想知道該商品在哪個商店和哪段時間的銷售情況。對某一商店, 也許他想知道哪個商品在哪段時間的銷售情況。在某一時間,也許他想知道哪個商店哪種產(chǎn)品的銷售情況。因此,他需要決策支持來幫助制定銷售政策。 這里,商店、時間和產(chǎn)品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。維就是相同類數(shù)據(jù)的集合,也可以理解為變量。而每個商店、每段時間、每種商品都是某一維的一個成員。每個銷售事實由一個特定的商店、特定的時間和特定的商品組成。 維有自己固有的屬性,如層次結(jié)構(gòu)(對數(shù)據(jù)進行聚合分析時要用到)、排 序(定義變量時要用到)、計算邏輯(是基于矩陣的算法,可有效地指定規(guī)則)。這些屬性對進行決策支持是非常有用的。 2、多維性 人們很容易理解一個二維表 (如通常的電子表格 ),對于三維立方體同樣也容易理解。 OLAP 通常將三維立方體的數(shù)據(jù)進行切片,顯示三維的某一平面。如一個立方體有時間維、商品維、收入維,其圖形很容易在屏幕上顯示出來并進行切片。但是要加一維(如加入商店維),則圖形很難想象,也不容易在屏幕上畫出來。要突破三維的障礙,就必須理解邏輯維和物理維的差異。 OLAP 的多維分析視圖就是沖破了物理的三維概念, 采用了旋轉(zhuǎn)、嵌套、切片、鉆取和高維可視化技術(shù),在屏幕上展示多維視圖的結(jié)構(gòu),使用戶直觀地理解、分析數(shù)據(jù),進行決策支持。 2.2、 OLAP 的多維數(shù)據(jù)結(jié)構(gòu) 數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此, OLAP 系統(tǒng)的開發(fā)者要設法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多 方法可以構(gòu)造多維數(shù)據(jù)。 1超立方結(jié)構(gòu) 超立方結(jié)構(gòu)( Hypercube)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各 個部分都有相同的維屬性。 這種結(jié)構(gòu)可應用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的 OLAP 系統(tǒng)中,其主要特點是簡化終端用戶的操作。 超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。 2多立方結(jié)構(gòu) 在多立方結(jié)構(gòu)( Multicube)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應用對維進行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性,提高了數(shù)據(jù)(特別是稀疏數(shù)據(jù))的分析效率。 一般來說,多立方結(jié) 構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。終端用戶更容易接近超立方結(jié)構(gòu),它可以提供高水平的報告和多維視圖。但具有多維分析經(jīng)驗的 MIS 專家更喜歡多立方結(jié)構(gòu),因為它具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統(tǒng)及預先建立的通用應用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應用需求。 許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進行計算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。 3 活動數(shù)據(jù)的存儲 用戶對某個應用所提取的數(shù)據(jù)稱為活動數(shù)據(jù),它的存儲有以下三種形式: ( 1)關(guān)系數(shù)據(jù)庫 如果數(shù)據(jù)來源于關(guān)系數(shù)據(jù)庫,則活動數(shù)據(jù)被存儲在關(guān)系數(shù)據(jù)庫中。在大部分情況下,數(shù)據(jù)以星型結(jié)構(gòu)或雪花結(jié)構(gòu)進行存儲。如下圖: ( 2)多維數(shù)據(jù)庫 在這種情況下,活動數(shù)據(jù)被存儲在服務器上的多維數(shù)據(jù)庫中,包括來自關(guān)系數(shù)據(jù)庫和終端用戶的數(shù)據(jù)。通常,數(shù)據(jù)庫存儲在硬盤上,但為了獲得更高的性能,某些產(chǎn)品允許多維數(shù)據(jù)結(jié)構(gòu)存儲在 RAM 上。有些數(shù)據(jù)被提前計算,計算結(jié)果以數(shù)組形式進行存儲。如下圖: ( 3)基于客戶的文件 在這種情況下,可以提取相對少的數(shù)據(jù)放在客戶機的文件上。這些數(shù)據(jù)可預先建立,如 Web 文件。 與服務器上的多維數(shù)據(jù)庫一樣,活動數(shù)據(jù)可放在磁盤或 RAM 上。 這三種存儲形式有不同的性能,其中關(guān)系數(shù)據(jù)庫的處理速度大大低于其他兩種。 4 OLAP 數(shù)據(jù)的處理方式 OLAP 有三種數(shù)據(jù)處理方法。事實上,多維數(shù)據(jù)計算不需要在數(shù)據(jù)存儲位置上進行。 ( 1)關(guān)系數(shù)據(jù)庫 即使活動的 OLAP 數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,采用在關(guān)系數(shù)據(jù)庫上完成復雜的多維計算也不是較好的選擇。因為 SQL 的單語句并不具備完成多維計算的能力,要獲得哪怕是最普通的多維計算功能也需要多重 SQL。在許多情況下,一些 OLAP 工具用 SQL 做一些計算,然后將計算結(jié)果作為多維引擎輸入。多維引擎在客戶機或中層服務器上做大部分的計算工作,這樣就可以利用 RAM 來存儲數(shù)據(jù),提高響應速度。 ( 2)多維服務引擎 大部分 OLAP 應用在多維服務引擎上完成多維計算,并且具有良好的性能。因為這種方式可以同時優(yōu)化引擎和數(shù)據(jù)庫,而服務器上充分的內(nèi)存為有效地計算大量數(shù)組提供了保證。 ( 3)客戶機 在客戶機上進行計算,要求 用戶具備性能良好的 PC 機,以此完成部分或大部分的多維計算。對于日益增多的瘦型客戶機, OLAP 產(chǎn)品將把基于客戶機的處理移到新的 Web 應用服務器上 三、 OLAP 的特點 3.1 快速性 用戶對 OLAP 的快速反應能力有很高的要求。系統(tǒng)應能在 5 秒內(nèi)對用戶的大部分分析要求做出反應。如果終端用戶在 30 秒內(nèi)沒有得到系統(tǒng)響應就會變得不耐煩,因而可能失去分析主線索,影響分析質(zhì)量。對于大量的數(shù)據(jù)分析要達到這個速度并不容,因此就更需要一些技術(shù)上的支持,如專門的數(shù)據(jù)存儲格式、大量的事先運算、特別的硬件設計等。 3.2 可分析性 OLAP 系統(tǒng)應能處理與應用有關(guān)的任何邏輯分析和統(tǒng)計分析。盡管系統(tǒng)需要事先編程,但并不意味著系統(tǒng)已定義好了所有的應用。用戶無需編程就可以定義新的專門計算,將其作為分析的一部分,并以用戶理想的方式給出報告。用戶可以在 OLAP 平臺上進行數(shù)據(jù)分析,也可以連接到其他外部分析工具上,如時間序列分析工具、成本分配工具、意外報警、數(shù)據(jù)開采等。 3.3 多維性 多維性是 OLAP 的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析,包括對層次維和多重層次維的完全支持。事實上,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是 OLAP 的靈魂。 3.4 信息性 不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處, OLAP 系統(tǒng)應能及時獲得信息,并且管理大容量信息。這里有許多因素需要考慮,如數(shù)據(jù)的可復制性、可利用的磁盤空間、 OLAP 產(chǎn)品的性能及與數(shù)據(jù)倉庫的結(jié)合度等。 四、 OLAP 的功能 4.1、 對數(shù)據(jù)的多維分析 多維觀察是實際業(yè)務模型固有的要求, OLAP 應用能夠從一種自然的、合乎人的思維心理的角度來靈活地觀察、訪問多維數(shù)據(jù) , 為對事情的分析處理提供良好的基礎(chǔ)。產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)就是“旋轉(zhuǎn) ”、“切塊 ”、“切片 ”、“上鉆”和“下鉆”等。 旋轉(zhuǎn)( Pivoting): 即將表格的橫、縱坐標交換 (x, y) (y, x),通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。 切片和切塊( Slice and Dice): 主要根據(jù)維的限定做投影、選擇等數(shù)據(jù)庫操作從而獲取數(shù)據(jù)。 上鉆和下鉆( Roll up or Drill down):鉆取是用戶獲得詳細數(shù)據(jù)的手段。它一般能回答為什么的問題。 一層一層的鉆取使我們能快速而準確的定位到問題所在。 鉆取的深度與維所劃分的層次相對應 。 4.2、復雜的計算能力 對分析過程來說 , 常需要對數(shù)據(jù)進行深入的加工 , 把數(shù)據(jù)簡單陳列給管理人員是不夠 的。 OLAP 系 統(tǒng)能夠提供豐富多樣、功能強大的計算工具 , 但同時方法又簡單明了 , 并且是非過程 (non-procedural)的,從而可以及時完成系統(tǒng)的改變訪問到即時信息。 4.3、時間智能 對任何分析應用程序來說 , 時間都是不可缺少的一個因素。時間只有一維 , 因為它只能從前往后延伸。 OLAP 系統(tǒng)能夠很好的理解時間的這種序列特性。由于 OLAP 系統(tǒng)中對時間的智能管理 , 從而使得不同年份的同期比較和同一年份的期間比較等,成為很容易定義的事情。 第三章、 數(shù)據(jù)挖掘技術(shù) 一、什么是數(shù)據(jù)挖掘 1.1、數(shù)據(jù)挖掘的歷史 近十幾年來 ,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高 ,千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學研究和工程開發(fā)等等 ,這一勢頭仍將持續(xù)發(fā)展下去。于是 ,一個新的挑戰(zhàn)被提了出來 :在這被稱之為信息爆炸的時代 ,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒 ,從中及時發(fā)現(xiàn)有用的知識 ,提高信息利用率呢 ?要想使數(shù)據(jù)真正成為一個公司的資源 ,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行 ,否則大量的數(shù)據(jù)可能成為包袱 ,甚至成為垃圾。因此 ,面對 人們被數(shù)據(jù)淹沒 ,人們卻饑餓于知識 的挑戰(zhàn)。另一方面計算機技術(shù) 的另一領(lǐng)域 人工智能自 1956年誕生之后取得了重大進展。經(jīng)歷了博弈時期、自然語言理解、知識工程等階段,目前的研究 熱點是機器學習。機器學習是用計算機模擬人類學習的一門科學,比較成熟的算法有神經(jīng)網(wǎng)絡、遺傳算法等。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學習的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn) (KDD: Knowledge Discovery in Databases)的產(chǎn)生,因此,數(shù)據(jù)挖掘和知識發(fā)現(xiàn) (DMKD)技術(shù)應運而生 ,并得以蓬勃發(fā)展 ,越來越顯示出其強大的生命力。 數(shù)據(jù) 挖掘又稱從數(shù)據(jù)庫中發(fā)現(xiàn)知識 (KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合 (Data Fusion)以及決策支持。 KDD一詞首次出現(xiàn)在 1989 年 8 月舉行的第 11 屆國際聯(lián)合人工智能學術(shù)會議上。隨后在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論