版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于數(shù)據(jù)倉庫的決策支持系統(tǒng)
(1)1
第5章基于數(shù)據(jù)倉庫的決策支持系統(tǒng)1第5章20世紀(jì)90年代中期,國外興起了三項(xiàng)決策支持新技術(shù):
數(shù)據(jù)倉庫(DW)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DM)。數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的結(jié)合形成了基于數(shù)據(jù)倉庫的決策支持系統(tǒng)。20世紀(jì)90年代中期,國外興起了三項(xiàng)決策支持新技術(shù):第(1)部分
5.1數(shù)據(jù)倉庫的基本原理第(1)部分
5.1數(shù)據(jù)倉庫的基本原理5.1.1數(shù)據(jù)倉庫概念5.1.2數(shù)據(jù)倉庫結(jié)構(gòu)5.1.3數(shù)據(jù)集市5.1.4元數(shù)據(jù)5.1.5數(shù)據(jù)倉庫存儲5.1.6數(shù)據(jù)倉庫系統(tǒng)5.1數(shù)據(jù)倉庫的基本原理5.1.1數(shù)據(jù)倉庫概念5.1.1數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫(DataWarehouse)是W.H.Inmon在《建立數(shù)據(jù)倉庫》中提出的。從目前的形勢看,數(shù)據(jù)倉庫技術(shù)已緊跟Internet而上,成為信息社會中獲得企業(yè)競爭優(yōu)勢的又一關(guān)鍵技術(shù)。5.1.1數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫(DataWarehous1.數(shù)據(jù)倉庫的概念W.H.Inmon對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的,不同時(shí)間的數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定過程。
SAS軟件研究所定義:數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理,達(dá)到有效的決策支持。1.數(shù)據(jù)倉庫的概念W.H.Inmon對數(shù)據(jù)倉庫的定
傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫操作型處理,是指對數(shù)據(jù)庫聯(lián)機(jī)進(jìn)行日常操作,即對一個(gè)或一組記錄的查詢和修改,主要為企業(yè)特定的應(yīng)用服務(wù)的。用戶關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性。數(shù)據(jù)倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(tǒng)(DSS)的基礎(chǔ)。傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫操作型處理,是指對數(shù)據(jù)庫操作型數(shù)據(jù)(DB數(shù)據(jù))與分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:操作型數(shù)據(jù)(DB數(shù)據(jù))與2、數(shù)據(jù)倉庫特點(diǎn)(1)數(shù)據(jù)倉庫是面向主題的主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題基本對應(yīng)一個(gè)宏觀的分析領(lǐng)域。例如,銀行的數(shù)據(jù)倉庫的主題:客戶
DW的客戶數(shù)據(jù)來源:從銀行儲蓄DB、信用卡DB、貸款DB等三個(gè)DB中抽取同一客戶的數(shù)據(jù)整理而成。
在DW中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款。2、數(shù)據(jù)倉庫特點(diǎn)(1)數(shù)據(jù)倉庫是面向主題的(2)數(shù)據(jù)倉庫是集成的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同的數(shù)據(jù)來源進(jìn)行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等。將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。(2)數(shù)據(jù)倉庫是集成的(3)數(shù)據(jù)倉庫是穩(wěn)定的數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉庫后是極少或根本不更新的。(4)數(shù)據(jù)倉庫是隨時(shí)間變化的數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)限在5~10年,故數(shù)據(jù)的鍵碼包含時(shí)間項(xiàng),標(biāo)明數(shù)據(jù)的歷史時(shí)期,這適合DSS進(jìn)行時(shí)間趨勢分析。而數(shù)據(jù)庫只包含當(dāng)前數(shù)據(jù),即存取某一時(shí)間的正確的有效的數(shù)據(jù)。(3)數(shù)據(jù)倉庫是穩(wěn)定的
(5)數(shù)據(jù)倉庫的數(shù)據(jù)量很大
大型DW是一個(gè)TB(1000GB)級數(shù)據(jù)庫問題(一般為10GB級相當(dāng)于一般數(shù)據(jù)庫100MB的100倍)(6)數(shù)據(jù)倉庫軟硬件要求較高
需要一個(gè)巨大的硬件平臺需要一個(gè)并行的數(shù)據(jù)庫系統(tǒng)
最好的數(shù)據(jù)倉庫是大的和昂貴的。(5)數(shù)據(jù)倉庫的數(shù)據(jù)量很大
近期基本數(shù)據(jù):是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。
歷史基本數(shù)據(jù):近期基本數(shù)據(jù)隨時(shí)間的推移,由數(shù)據(jù)倉庫的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù)。
輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時(shí)間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進(jìn)行綜合。
高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準(zhǔn)決策數(shù)據(jù)。5.1.2數(shù)據(jù)倉庫結(jié)構(gòu)近期基本數(shù)據(jù):是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)庫是代價(jià)很高、時(shí)間較長的大項(xiàng)目。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運(yùn)產(chǎn)生。目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。5.1.3數(shù)據(jù)集市(DataMarts)5.1.3數(shù)據(jù)集市(DataMarts)數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個(gè)應(yīng)用或者具體部門級的應(yīng)用,支持用戶獲得競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。數(shù)據(jù)集市概念數(shù)據(jù)集市概念獨(dú)立數(shù)據(jù)集市從屬數(shù)據(jù)集市數(shù)據(jù)集市的種類獨(dú)立數(shù)據(jù)集市數(shù)據(jù)集市的種類
1、規(guī)模是小的,面向部門2、由業(yè)務(wù)部門設(shè)計(jì)、開發(fā)、管理和維護(hù)3、購買較便宜,快速實(shí)現(xiàn),投資快速回收4、數(shù)據(jù)倉庫的子集5、可升級到完整的數(shù)據(jù)倉庫數(shù)據(jù)集市的特性1、規(guī)模是小的,面向部門數(shù)據(jù)集市的特性
元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境,即關(guān)于數(shù)據(jù)的數(shù)據(jù)(metadata)
元數(shù)據(jù)包括四種元數(shù)據(jù)。5.1.4元數(shù)據(jù)元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分。5.1.4元數(shù)據(jù)
它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。(3)每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰或那個(gè)過程更新的說明。(4)每個(gè)數(shù)據(jù)項(xiàng)的有效值。1、關(guān)于數(shù)據(jù)源的元數(shù)據(jù)它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是是
數(shù)據(jù)倉庫的數(shù)據(jù)模型是星型模型。通常企業(yè)數(shù)據(jù)模型被用作建立倉庫數(shù)據(jù)模型的起始點(diǎn),再對模型加以修改和變換。2、關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)2、關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)
這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。當(dāng)數(shù)據(jù)源中的一個(gè)數(shù)據(jù)項(xiàng)與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項(xiàng)發(fā)生的任何變換或變動。即用元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項(xiàng)是從哪個(gè)特定的數(shù)據(jù)源填充的,經(jīng)過那些轉(zhuǎn)換,變換和加載過程。3、關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映
這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。
(1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容。(2)元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題。4、關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。4、關(guān)于數(shù)
數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。維就是相同類數(shù)據(jù)的集合,商店、時(shí)間和產(chǎn)品都是維。各個(gè)商店的集合是一維,時(shí)間的集合是一維,商品的集合是一維。每一個(gè)商店、每一段時(shí)間、每一種商品就是某一維的一個(gè)成員。每一個(gè)銷售事實(shí)由一個(gè)特定的商品、一個(gè)特定的時(shí)間、一個(gè)特定的商品組成。兩維表,如通常的電子表格。三維構(gòu)成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。
5.1.5數(shù)據(jù)倉庫的存儲數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。5.1.5
數(shù)據(jù)倉庫是以多維表型的“維表—事實(shí)表”結(jié)構(gòu)形式組織的,共有三種形式:
1、星型模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實(shí)表”(大表)以及多個(gè)“維表”(小表)所組成。
“事實(shí)表”中存放大量關(guān)于企業(yè)的事實(shí)數(shù)據(jù)(數(shù)量數(shù)據(jù))。例如:多個(gè)時(shí)期的數(shù)據(jù)可能會出現(xiàn)在同一個(gè)“事實(shí)表”中。“維表”中存放描述性數(shù)據(jù),維表是圍繞事實(shí)表建立的較小的表。
星型模型數(shù)據(jù)如下圖:數(shù)據(jù)倉庫是以多維表型的“維表—事實(shí)表”結(jié)構(gòu)形式組基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件
2、雪花模型雪花模型是對星型模型的擴(kuò)展,雪花模型對星型模型的維表進(jìn)一步層次化,原來的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次”區(qū)域。它的優(yōu)點(diǎn)是最大限度地減少數(shù)據(jù)存儲量,以及把較小的維表聯(lián)合在一起來改善查詢性能。在上面星型模型的數(shù)據(jù)中,對“產(chǎn)品表”“日期表”“地區(qū)表”進(jìn)行擴(kuò)展形成雪花模型數(shù)據(jù)見下圖。
3、星網(wǎng)模型
星網(wǎng)模型是將多個(gè)星型模型連接起來形成網(wǎng)狀結(jié)構(gòu)。多個(gè)星型模型通過相同的維,如時(shí)間維,連接多個(gè)事實(shí)表。2、雪花模型基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件
5.1.6數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成。5.1.6數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)1、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分
用于定義和建立數(shù)據(jù)倉庫系統(tǒng)。它包括:
(1)設(shè)計(jì)和定義數(shù)據(jù)倉庫的數(shù)據(jù)庫
(2)定義數(shù)據(jù)來源
(3)確定從源數(shù)據(jù)向數(shù)據(jù)倉庫復(fù)制數(shù)據(jù)時(shí)的清理和增強(qiáng)規(guī)則(2)數(shù)據(jù)獲取部分
該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件的規(guī)則,抽取、轉(zhuǎn)化和裝載數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫。
1、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分(3)管理部分它用于管理數(shù)據(jù)倉庫的工作,包括:(1)對數(shù)據(jù)倉庫中數(shù)據(jù)的維護(hù)(2)把倉庫數(shù)據(jù)送出給分散的倉庫服務(wù)器或DSS用戶(3)對倉庫數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等處理工作(3)管理部分(4)信息目錄部件(元數(shù)據(jù))
數(shù)據(jù)倉庫的目錄數(shù)據(jù)是元數(shù)據(jù),由三部分組成:
技術(shù)目錄:由定義部件生成,關(guān)于數(shù)據(jù)源、目標(biāo)、清理規(guī)則、變換規(guī)則以及數(shù)據(jù)源和倉庫之間的映象信息。
業(yè)務(wù)目錄:由倉庫管理員生成,關(guān)于倉庫數(shù)據(jù)的來源及當(dāng)前值;預(yù)定義的查詢和報(bào)表細(xì)節(jié);合法性要求等。
信息引導(dǎo)器:使用戶容易訪問倉庫數(shù)據(jù)。利用固定查詢或建立新的查詢,生成暫時(shí)的或永久的倉庫數(shù)據(jù)集合的能力等。(4)信息目錄部件(元數(shù)據(jù))
分析工具集分兩類工具:(1)查詢工具數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。一般包含:
可視化工具:以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動態(tài)性。2、數(shù)據(jù)倉庫工具集分析工具集分兩類工具:2、數(shù)據(jù)倉庫工具集
多維分析工具(OLAP工具):
通過對信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對數(shù)據(jù)進(jìn)行深入的分析和觀察。多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、地域、業(yè)務(wù)等?;跀?shù)據(jù)倉庫的決策支持系統(tǒng)課件(2)數(shù)據(jù)挖掘工具
從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(DataMining)工具。(2)數(shù)據(jù)挖掘工具3、數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)
數(shù)據(jù)倉庫應(yīng)用是一個(gè)典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式。數(shù)據(jù)倉庫采用服務(wù)器結(jié)構(gòu),客戶端所做的工作有:客戶交互、格式化查詢、結(jié)果顯示、報(bào)表生成等。服務(wù)器端完成各種輔助決策的SQL查詢、復(fù)雜的計(jì)算和各類綜合功能等?,F(xiàn)在,越來越普通的一種形式是三層C/S結(jié)構(gòu)形式,即在客戶與數(shù)據(jù)倉庫服務(wù)器之間增加一個(gè)多維數(shù)據(jù)分析(OLAP)服務(wù)器。3、數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)數(shù)據(jù)倉庫應(yīng)用是一個(gè)典型的客戶/
OLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工作,集中和簡化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。這種結(jié)構(gòu)形式工作效率更高。三層C/S結(jié)構(gòu)OLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工習(xí)題1,2,4,7,13,14,15習(xí)題基于數(shù)據(jù)倉庫的決策支持系
(2)39
第5章基于數(shù)據(jù)倉庫的決策支持系39第5章第(2)部分
405.2聯(lián)機(jī)分析處理
5.3數(shù)據(jù)倉庫的決策支持第(2)部分
405.2聯(lián)機(jī)分析處理5.2聯(lián)機(jī)分析處理415.2.1基本概念5.2.2OLAP數(shù)據(jù)組織5.2.3OLAP的決策支持:多維數(shù)據(jù)分析5.2.4OLAP的應(yīng)用實(shí)例5.2聯(lián)機(jī)分析處理415.2.1基本概念42
聯(lián)機(jī)分析處理(OnLineAnalyticalProcessing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。
在數(shù)據(jù)倉庫系統(tǒng)中,聯(lián)機(jī)分析處理是重要的數(shù)據(jù)分析工具。
OLAP的基本思想是從多方面和多角度以多維的形式來觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。5.2.1基本概念42聯(lián)機(jī)分析處理(OnLineAnalyticalP43
OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的。
OLTP是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)的查詢和增、刪、改等進(jìn)行處理。
OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。它有兩個(gè)特點(diǎn):一是在線性(OnLine),由客戶機(jī)/服務(wù)器這種體系結(jié)構(gòu)來完成的;二是多維分析,這也是OLAP的核心所在。43OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的。1、OLAP的定義
聯(lián)機(jī)分析處理是共享多維信息的快速分析。它體現(xiàn)了四個(gè)特征:(1)快速性:用戶對OLAP的快速反應(yīng)能力有很高的要求(2)可分析性:OLAP系統(tǒng)應(yīng)能處理任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:系統(tǒng)必須提供對數(shù)據(jù)分析的多維視圖和分析(4)信息性:OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量的信息。
1、OLAP的定義聯(lián)機(jī)分析處理是共享多維45
1993年,E.F.Codd提出OLAP的12條準(zhǔn)則,其主要的準(zhǔn)則有:多維數(shù)據(jù)分析;客戶/服務(wù)器結(jié)構(gòu);多用戶支持;一致的報(bào)表性能等。
2、OLAP準(zhǔn)則
451993年,E.F.Codd提出OLAP的12條1.多維概念視圖46企業(yè)的數(shù)據(jù)空間本身就是多維的。因此OLAP的概念模型也應(yīng)是多維的。用戶可以對多維數(shù)據(jù)模型進(jìn)行切片、切塊、旋轉(zhuǎn)坐標(biāo)或進(jìn)行多維的聯(lián)合(概括和聚集)分析。1.多維概念視圖46企業(yè)的數(shù)據(jù)空間本身就是多維的。因此OLA4.穩(wěn)定的報(bào)表性能
47
報(bào)表操作不應(yīng)隨維數(shù)增加而削弱,即當(dāng)數(shù)據(jù)維數(shù)和數(shù)據(jù)的綜合層次增加時(shí),提供的報(bào)表能力和響應(yīng)速度不應(yīng)該有明顯的降低。
4.穩(wěn)定的報(bào)表性能47報(bào)表操作不應(yīng)隨維數(shù)增加而削弱5.客戶/服務(wù)器體系結(jié)構(gòu)
48
OLAP是建立在客戶/服務(wù)器體系結(jié)構(gòu)上的。要求多維數(shù)據(jù)庫服務(wù)器能夠被不同的應(yīng)用和工具所訪問。5.客戶/服務(wù)器體系結(jié)構(gòu)48OLAP是建立在客戶/498.多用戶支持
當(dāng)多個(gè)用戶要在同一分析模式上并行工作,需要這些功能的支持。
11.靈活的報(bào)表生成
報(bào)表必須充分反映數(shù)據(jù)分析模型的多維特征,并可按用戶需要的方式來顯示它。498.多用戶支持OLAP是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。
(1)變量:變量是數(shù)據(jù)的實(shí)際意義,即描述數(shù)據(jù)“是什么”。
(2)維:維是人們觀察數(shù)據(jù)的特定角度。如產(chǎn)品維、顧客維、時(shí)間維等。
(3)維的層次:數(shù)據(jù)的細(xì)節(jié)不同程度為維的層次。如日、月、季、年是時(shí)間維的層次。
(4)維成員:維的一個(gè)取值稱為該維的一個(gè)維成員。如“某年某月某日”是時(shí)間維的一個(gè)成員。
3、OLAP的基本概念
OLAP是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。3、OLAP(5)多維數(shù)組:一個(gè)多維數(shù)組可以表示為:(維1,維2,……,維n,變量)
一個(gè)5維的結(jié)構(gòu),即(產(chǎn)品,地區(qū),時(shí)間,銷售渠道,銷售額)(6)數(shù)據(jù)單元(單元格):多維數(shù)組的取值稱為數(shù)據(jù)單元。如:5維數(shù)據(jù)單元(牙膏,上海,1998年12月,批發(fā),銷售額為100000)。
(5)多維數(shù)組:一個(gè)多維數(shù)組可以表示為:(1)OLTPOLTP是低層人員利用計(jì)算機(jī)網(wǎng)絡(luò)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行查詢、增、刪、改等操作,以完成事務(wù)處理工作。OLTP利用數(shù)據(jù)庫快速地處理具體業(yè)務(wù)。OLTP應(yīng)用要求多個(gè)查詢并行。
4、OLAP與OLTP的關(guān)系與比較(1)OLTP4、OLAP與OLTP的關(guān)系與比較(2)OLAPOLAP是高層人員對數(shù)據(jù)倉庫進(jìn)行信息分析處理。
①存取大量的數(shù)據(jù)
②包含聚集的數(shù)據(jù)
③按層次對比不同時(shí)間周期的聚集數(shù)據(jù)
④以不同的方式來表現(xiàn)數(shù)據(jù)
⑤要包含數(shù)據(jù)元素之間的復(fù)雜的計(jì)算
⑥能夠快速的響應(yīng)用戶的查詢
(2)OLAP(3)OLAP與OLTP對比(對比表)OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理用戶數(shù)量大用戶相對較少面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)
5.2.2OLAP的數(shù)據(jù)組織
55
MOLAP和ROLAP是OLAP的兩種具體形式:
ROLAP是基于關(guān)系數(shù)據(jù)庫存儲方式建立的OLAP。多維數(shù)據(jù)映射成平面型的關(guān)系表。采用星型模型。5.2.2OLAP的數(shù)據(jù)組織55M56MOLAP是基于多維數(shù)據(jù)庫存儲方式建立的OLAP;表現(xiàn)為“超立方”結(jié)構(gòu),類似于多維數(shù)組的結(jié)構(gòu)。在分析中,需要“旋轉(zhuǎn)”數(shù)據(jù)立方體以及“切片”、“切塊”等操作。56MOLAP是基于多維數(shù)據(jù)庫存儲方式建立的OLAMOLAP和ROLAP的對比表MOLAPROLAP固定維可變維維交叉計(jì)算多維視圖行級計(jì)算超大型數(shù)據(jù)庫讀-寫應(yīng)用維數(shù)據(jù)變化速度快數(shù)據(jù)集市數(shù)據(jù)倉庫MOLAP和ROLAP的對比表MOLAPROLAP固定維可變58例如,以“產(chǎn)品、城市、時(shí)間”三維數(shù)據(jù),如圖
5.2.3OLAP的決策支持:OLAP多維數(shù)據(jù)分析58例如,以“產(chǎn)品、城市、時(shí)間”三維數(shù)據(jù),如圖5.2.3591、切片和切塊
對三維數(shù)據(jù),通過“切片”,分別從城市和產(chǎn)品等不同的角度觀察銷售情況:
591、切片和切塊對三維數(shù)據(jù),通過“切片”,分別從602、鉆取鉆取:例如,2005年各部門銷售收入表如下:部門銷售數(shù)據(jù)表602、鉆取鉆?。豪?,2005年各部門銷售收入表如下:部61對時(shí)間維進(jìn)行下鉆到季度操作,獲得新表如下:61對時(shí)間維進(jìn)行下鉆到季度操作,獲得新表如下:3.旋轉(zhuǎn)62通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當(dāng)于平面數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)?;蚴前秧撁骘@示中的一個(gè)維和頁面外的維進(jìn)行交換(令其成為新的行或列中的一個(gè))3.旋轉(zhuǎn)62通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當(dāng)于平63旋轉(zhuǎn)時(shí)間維產(chǎn)品維產(chǎn)品維時(shí)間維(a)行列交換旋轉(zhuǎn)以改變顯示布局時(shí)間維地區(qū)維產(chǎn)品維時(shí)間維產(chǎn)品維地區(qū)維63旋轉(zhuǎn)時(shí)間維產(chǎn)品維產(chǎn)品維時(shí)間維(a)行列交換旋轉(zhuǎn)以改變時(shí)64旋轉(zhuǎn)前的數(shù)據(jù)實(shí)例64旋轉(zhuǎn)前的數(shù)據(jù)實(shí)例65旋轉(zhuǎn)后的數(shù)據(jù)65旋轉(zhuǎn)后的數(shù)據(jù)66旋轉(zhuǎn)后再切片66旋轉(zhuǎn)后再切片2、廣義OLAP功能
67
1、基本代理操作
“代理”是一些智能性代理,當(dāng)系統(tǒng)處于某種特殊狀態(tài)時(shí)提醒分析員。
(1)示警報(bào)告
定義一些條件,一但條件滿足,系統(tǒng)會提醒分析員去做分析。如每日報(bào)告完成或月定貨完成等通知分析員作分析。
(2)異常報(bào)告
當(dāng)超出邊界條件時(shí)提醒分析員。如銷售情況已超出預(yù)定義閾值的上限或下限時(shí)提醒分析員。2、廣義OLAP功能671、基本代理操作68
2、計(jì)算能力
計(jì)算引擎用于特定需求的計(jì)算或某種復(fù)雜計(jì)算。
3、模型計(jì)算
增加模型,如增加系統(tǒng)優(yōu)化、統(tǒng)計(jì)分析、趨勢分析等模型,以提高決策分析能力。682、計(jì)算能力69
假設(shè)有一個(gè)5維數(shù)據(jù)模型,5個(gè)維分別為:商店,方案,部門,時(shí)間,銷售。
1.三維表查詢
在指定“商店=ALL,方案=現(xiàn)有”情況的三維表(行為部門,列為時(shí)間和銷售量)5.2.4、OLAP的應(yīng)用實(shí)例
69假設(shè)有一個(gè)5維數(shù)據(jù)模型,5個(gè)維分別為:商店,
20082009%增長率銷售量利潤增長%銷售量利潤增長%銷售量利潤增長服裝234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽車375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三維表
20082009%增長率銷售量利潤增長%銷售量利潤增長%銷
20082009%增長率銷售利潤增長%銷售利潤增長%銷售利潤增長汽車375,09822.4325,40227.2(13.2)21.4維修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,54547.55.38.2音樂63,7678.222,07114.2(63.4)7.3
2、向下鉆取對汽車部門向下鉆取出具體項(xiàng)目的銷售情況和利潤增長情況。
20082009%增長率銷售利潤增長%銷售利潤增長%銷售利
2009Sales服裝381,102家具66,005汽車325,402所有其它306,6773、切片表切片(Slice)操作是除去一些列或行不顯示
2009Sales服裝381,102家具66,005汽車3
2009銷售量現(xiàn)有計(jì)劃差量差量%服裝381,102350,00031.18.9家具66,00569,000(2,995)(4.3)汽車325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74、旋轉(zhuǎn)表這次旋轉(zhuǎn)操作得到2009年的交叉表方案為:現(xiàn)有、計(jì)劃、差量、差量%。
2009銷售量現(xiàn)有計(jì)劃差量差量%服裝381,102350,74
5.3.1查詢與報(bào)表
5.3.2多維分析與原因分析
5.3.3預(yù)測未來
5.3.4實(shí)時(shí)決策
5.3.5自動決策5.3數(shù)據(jù)倉庫的決策支持745.3.1查詢與報(bào)表5.3數(shù)據(jù)倉庫的決策支持5.3.1查詢與報(bào)表75查詢和報(bào)表是數(shù)據(jù)倉庫的最基本、使用的最多的決策支持方式。通過查詢和報(bào)表使決策者了解“目前發(fā)生了什么”。5.3.1查詢與報(bào)表75查詢和報(bào)表是數(shù)據(jù)倉庫的最基本、使用查詢服務(wù)
76(1)查詢定義。能夠容易地將商業(yè)需求轉(zhuǎn)換成適當(dāng)?shù)牟樵冋Z句。(2)查詢簡化。讓用戶能夠簡單地查看數(shù)據(jù)的結(jié)構(gòu)和屬性。(3)導(dǎo)航。用戶能夠使用元數(shù)據(jù)在數(shù)據(jù)倉庫中瀏覽數(shù)據(jù)。(4)結(jié)果顯示。能夠以各種方法顯示查詢結(jié)果。(5)對聚集的查詢。能夠?qū)⒉樵冎匦露x到聚集表格上,以加快檢索速度。查詢服務(wù)76(1)查詢定義。能夠容易地將商業(yè)需求轉(zhuǎn)換成適當(dāng)2、報(bào)表77(1)預(yù)格式化報(bào)表。用戶能夠容易選擇他們需要的報(bào)表。(2)參數(shù)驅(qū)動的預(yù)定義報(bào)表。用戶必須有能力來設(shè)置它們自己的參數(shù),用預(yù)定義格式創(chuàng)建報(bào)表。(3)簡單的報(bào)表開發(fā)。用戶能夠利用報(bào)表語言撰寫工具來開發(fā)他們自己的報(bào)表。(4)多數(shù)據(jù)操作選項(xiàng)。用戶通過交換行和列變量來實(shí)現(xiàn)結(jié)果的旋轉(zhuǎn),在結(jié)果中增加小計(jì)和最后的總計(jì),以及改變結(jié)果的排列順序等操作。(5)多種展現(xiàn)方式選項(xiàng)。提供多種類型的選項(xiàng),包括圖表、表格、柱形格式、字體、風(fēng)格、大小和地圖等。2、報(bào)表77(1)預(yù)格式化報(bào)表。用戶能夠容易選擇他們需要的報(bào)5.3.2多維分析與原因分析78
多維分析與原因分析能讓決策者了解“為什么會發(fā)生”。1、多維分析獲得在各種不同維度下的實(shí)際商業(yè)活動值(如銷售量等),特別是他們的變化值和差值,達(dá)到輔助決策效果。2、原因分析查找問題出現(xiàn)的原因是一項(xiàng)很重要的決策支持任務(wù),一般通過多維數(shù)據(jù)分析的鉆取操作來完成。
5.3.2多維分析與原因分析78多維分析與原因分析能讓決79例如,某公司從分析報(bào)表中得知最近幾個(gè)月來整個(gè)企業(yè)的利潤在急速下滑,通過人機(jī)交互找出該企業(yè)利潤下滑的原因。具體步驟如下:(1)查詢整個(gè)公司最近3個(gè)月來各個(gè)月份的銷售額和利潤,通過檢索數(shù)據(jù)倉庫中的數(shù)據(jù)顯示銷售額正常,但利潤下降。(2)通過多維數(shù)據(jù)的切塊,查詢?nèi)澜绺鱾€(gè)區(qū)域每個(gè)月的銷售額和利潤,顯示歐洲地區(qū)銷售額下降,利潤急劇下降,其它地區(qū)正常。79例如,某公司從分析報(bào)表中得知最近幾個(gè)月來整個(gè)企業(yè)的利潤在80(3)通過對多維數(shù)據(jù)的鉆取,查詢歐洲各國銷售額和利潤。顯示一些國家利潤率上升,一些國家持平,歐盟國家利潤率急劇下降。(4)通過對多維數(shù)據(jù)的鉆取,查詢歐盟國家中的直接和間接成本。得到歐盟國家的直接成本沒有問題,但間接成本提高了。(5)通過鉆取查看詳細(xì)數(shù)據(jù),查詢間接成本的詳細(xì)情況。得出企業(yè)征收了額外附加稅,使利潤下降。通過以上的原因分析,得到企業(yè)利潤下滑的真正原因是歐盟國家征收了額外附加稅造成。80(3)通過對多維數(shù)據(jù)的鉆取,查詢歐洲各國銷售額和利潤。顯5.3.3預(yù)測未來81預(yù)測未來使決策者了解“將要發(fā)生什么”。從歷史數(shù)據(jù)中找出變化規(guī)律,將可以用來預(yù)測未來。需要用到一些預(yù)測模型。最常用的預(yù)測方法是采用回歸模型。預(yù)測時(shí),代入預(yù)測的時(shí)間到回歸方程中去就能得到預(yù)測值。一般的預(yù)測模型有:多元回歸模型、三次平滑預(yù)測模型,生長曲線預(yù)測模型等。5.3.3預(yù)測未來81預(yù)測未來使決策者了解“將要發(fā)生什么”。5.3.4實(shí)時(shí)決策82
數(shù)據(jù)倉庫的第4種決策支持是企業(yè)需要準(zhǔn)確了解“正在發(fā)生什么”,從而需要建立動態(tài)數(shù)據(jù)倉庫(實(shí)時(shí)數(shù)據(jù)庫),用于支持戰(zhàn)術(shù)型決策,即實(shí)時(shí)決策。有效地解決當(dāng)前的實(shí)際問題。
第1到第3種決策支持的數(shù)據(jù)倉庫都以支持企業(yè)內(nèi)部戰(zhàn)略性決策為重點(diǎn),幫助企業(yè)制定發(fā)展戰(zhàn)略。
第4種決策支持側(cè)重在戰(zhàn)術(shù)性決策支持。
動態(tài)數(shù)據(jù)倉庫能夠逐項(xiàng)產(chǎn)品、逐個(gè)店鋪、逐秒地作出最佳決策支持。5.3.4實(shí)時(shí)決策82數(shù)據(jù)倉庫的第4種決策支持是企5.3.5自動決策83
數(shù)據(jù)倉庫的第5種決策支持是由事件觸發(fā),利用動態(tài)數(shù)據(jù)庫自動決策,達(dá)到“希望發(fā)生什么”。例如,電子貨架標(biāo)簽技術(shù)結(jié)合動態(tài)數(shù)據(jù)倉庫,可以幫助企業(yè)按照自己的意愿,實(shí)現(xiàn)復(fù)雜的價(jià)格管理自動化;對于庫存過大的季節(jié)性貨物,這項(xiàng)技術(shù)會自動實(shí)施復(fù)雜的降價(jià)策略,以便以最低的損耗售出最多的存貨。
5.3.5自動決策83數(shù)據(jù)倉庫的第5種決策支持是由5.4.3數(shù)據(jù)倉庫應(yīng)用實(shí)例
84
NCR公司成功地開發(fā)了很多實(shí)際數(shù)據(jù)倉庫系統(tǒng),在此介紹一例典型的數(shù)據(jù)倉庫系統(tǒng)。實(shí)例:金融業(yè)數(shù)據(jù)倉庫解決方案
數(shù)據(jù)倉庫是金融銀行機(jī)構(gòu)實(shí)現(xiàn)客戶關(guān)系管理(CustomerRelationshipManagement)的核心技術(shù),也是金融銀行業(yè)競爭優(yōu)勢的來源,主要的應(yīng)用業(yè)務(wù)部門為信用卡部、信貸部、市場部和零售業(yè)務(wù)部等,應(yīng)用領(lǐng)域是以客戶為中心的的分銷渠道管理、客戶利潤分析、客戶關(guān)系優(yōu)化、風(fēng)險(xiǎn)評估和管理。5.4.3數(shù)據(jù)倉庫應(yīng)用實(shí)例84NCR公司成功地開85
銀行只有通過以客戶為中心(CustomerCentric)的數(shù)據(jù)倉庫決策支持系統(tǒng),才能使用科學(xué)的方法實(shí)現(xiàn)個(gè)性化服務(wù)。數(shù)據(jù)倉庫系統(tǒng)存放每一位客戶同銀行往來的詳細(xì)的歷史交易明細(xì)數(shù)據(jù),對客戶有統(tǒng)一的視圖。能幫助銀行業(yè)務(wù)用戶以科學(xué)的手段快速地分析、模擬和預(yù)測客戶的個(gè)性化需求,進(jìn)而設(shè)計(jì)符合客戶需求的產(chǎn)品或服務(wù)。通過客戶喜好的渠道完成交易,是增強(qiáng)商業(yè)銀行競爭能力最有效的手段。
85銀行只有通過以客戶為中心(CustomerCe86
什么是個(gè)性化服務(wù)呢?可以從客戶和銀行的觀點(diǎn)來看。
客戶認(rèn)為個(gè)性化服務(wù)是:銀行知道我(Who)在什么時(shí)間(When)、需要什么產(chǎn)品或服務(wù)(What)、以我可以接受的價(jià)格(HowMuch)、經(jīng)由我喜好的分銷渠道(Where),對我提供銷售。86什么是個(gè)性化服務(wù)呢?可以從客戶和銀行的觀點(diǎn)來看87
銀行的定義是:以有競爭性的產(chǎn)品或服務(wù)(What)、在適當(dāng)?shù)臅r(shí)間(When)、通過適當(dāng)?shù)姆咒N渠道(Where)、對信用好風(fēng)險(xiǎn)低的客戶(Who)、以合理的價(jià)格(HowMuch)和利潤(Profitable)完成銷售。
兩者都是在精打細(xì)算的前提下,以達(dá)成各自的需求和目標(biāo)。
87銀行的定義是:以有競爭性的產(chǎn)品或服務(wù)(What)1、分銷渠道的分析和管理
88
銀行通過分析知道客戶、渠道、產(chǎn)品或服務(wù)三者之間的關(guān)系;了解客戶的購買行為;客戶或渠道對業(yè)務(wù)收入的貢獻(xiàn);哪些客戶比較喜好經(jīng)由什么渠道在何時(shí)和銀行打交道;目前的分銷渠道的服務(wù)能力如何;需要增加哪些分銷渠道才能達(dá)到預(yù)期的服務(wù)水平。1、分銷渠道的分析和管理
88銀行通過分析知道客戶、2、利潤評價(jià)模型
89
建立所有客戶的每一個(gè)帳號的利潤評價(jià)模型,以便了解每一位客戶對銀行的總利潤貢獻(xiàn)度。銀行可以依客戶的利潤貢獻(xiàn)度安排合適的分銷渠道提供服務(wù)和銷售,知道哪些有利潤的客戶需要留住,采用什么方法留住客戶,交叉銷售改善客戶的利潤貢獻(xiàn)度,那些客戶應(yīng)該爭取。另外,銀行可以模擬和預(yù)測,新產(chǎn)品對銀行利潤的貢獻(xiàn)度,或是新政策對銀行會產(chǎn)生什么樣的財(cái)務(wù)影響,或是客戶流失或留住對銀行的整體利潤的影響。2、利潤評價(jià)模型
89建立所有客戶的每一個(gè)帳號的利潤3、
客戶關(guān)系優(yōu)化
90
客戶在每一筆交易中都能主動地告訴銀行需要什么產(chǎn)品和服務(wù),如定期存款是希望退休養(yǎng)老使用等;銀行利用客戶購買傾向模型、渠道喜好模型等主動地和客戶溝通,達(dá)到留住客戶和增加利潤的目標(biāo)。
3、
客戶關(guān)系優(yōu)化
90客戶在每一筆交易中都能主動地4、
風(fēng)險(xiǎn)評估和管理91
風(fēng)險(xiǎn)評估和管理主要利用各種數(shù)學(xué)模型進(jìn)行分析,模擬風(fēng)險(xiǎn)和利潤間的關(guān)系。銀行實(shí)現(xiàn)了以客戶為中心的個(gè)性化服務(wù)數(shù)據(jù)倉庫決策支持系統(tǒng),就可以在滿足高利潤低風(fēng)險(xiǎn)客戶需求的前提下,達(dá)成銀行收益的極大化。4、
風(fēng)險(xiǎn)評估和管理91風(fēng)險(xiǎn)評估和管理主要利用各種數(shù)習(xí)題9218,23,24,26習(xí)題92基于數(shù)據(jù)倉庫的決策支持系統(tǒng)
(3)93
第5章基于數(shù)據(jù)倉庫的決策支持系統(tǒng)93第(3)部分5.4數(shù)據(jù)挖掘5.5數(shù)據(jù)挖掘的決策支持5.5.1數(shù)據(jù)挖掘的決策支持分類5.5.2決策樹與決策規(guī)則樹的挖掘及其應(yīng)用第(3)部分5.4數(shù)據(jù)挖掘5.4數(shù)據(jù)挖掘5.4.1知識發(fā)現(xiàn)與數(shù)據(jù)挖掘概念5.4.2數(shù)據(jù)挖掘方法和技術(shù)5.4.3數(shù)據(jù)挖掘的知識表示5.4數(shù)據(jù)挖掘5.4.1知識發(fā)現(xiàn)與數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘的興起(1)80年在美國召開了第一屆國際機(jī)器學(xué)習(xí)研討會;(2)89年8月于美國底特律市召開的第一屆KDD國際學(xué)術(shù)會議;(3)95年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會議;(4)我國于87年召開了第一屆全國機(jī)器學(xué)習(xí)研討會。數(shù)據(jù)挖掘的興起(1)80年在美國召開了第一屆國際機(jī)5.4.1知識發(fā)現(xiàn)與數(shù)據(jù)挖掘概念知識發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個(gè)過程。數(shù)據(jù)挖掘(DM):KDD過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。KDD過程定義:
從大量數(shù)據(jù)中提取出可信的、新穎的、有用的并能被人理解的模式的高級處理過程。
“模式”可以看成是“知識”的雛形,經(jīng)過驗(yàn)證、完善后形成知識。5.4.1知識發(fā)現(xiàn)與數(shù)據(jù)挖掘概念知識發(fā)現(xiàn)(KDD):從數(shù)據(jù)數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標(biāo)數(shù)據(jù)預(yù)處理后數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)模式知識數(shù)據(jù)選擇預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換結(jié)果表達(dá)和解釋數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)和解釋KDD過程數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標(biāo)數(shù)據(jù)預(yù)處理后轉(zhuǎn)換數(shù)據(jù)模式知識數(shù)據(jù)選擇預(yù)5.4.2數(shù)據(jù)挖掘方法和技術(shù)(一)歸納學(xué)習(xí)方法分為兩大類:信息論方法(決策樹方法)和集合論方法。
1、信息論方法(決策樹方法)利用信息論的原理建立決策樹或者是決策規(guī)則樹。
(1)ID3方法:Quiulan研制的ID3方法是利用信息論中互信息建立決策樹。
(2)IBLE方法:我們研制的IBLE方法,是利用信息論中信道容量,尋找數(shù)據(jù)庫中信息量大的多個(gè)字段的取值建立決策規(guī)則樹。5.4.2數(shù)據(jù)挖掘方法和技術(shù)(一)歸納學(xué)習(xí)方法2、集合論方法
(1)粗糙集(RoughSet)方法
對數(shù)據(jù)庫中的條件屬性集與決策屬性集建立上下近似關(guān)系,對下近似集合建立確定性規(guī)則,對上近似集合建立不確定性規(guī)則(含可信度)。
(2)關(guān)聯(lián)規(guī)則挖掘在交易事務(wù)數(shù)據(jù)庫中,挖掘出不同商品集的關(guān)聯(lián)關(guān)系,即發(fā)現(xiàn)哪些商品頻繁地被顧客同時(shí)購買。(3)覆蓋正例排斥反例方法
它是利用覆蓋所有正例,排斥所有反例的思想來尋找規(guī)則。比較典型的有AQ11方法、AQ15方法以及AE5方法。2、集合論方法(二)仿生物技術(shù)仿生物技術(shù)典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。
1、神經(jīng)網(wǎng)絡(luò)方法:包括:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)等多個(gè)神經(jīng)網(wǎng)絡(luò)方法。
2、遺傳算法:這是模擬生物進(jìn)化過程的算法。它由三個(gè)基本算子組成:繁殖(選擇)、交叉(重組)、變異(突變)遺傳算法起到產(chǎn)生優(yōu)良后代的作用,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。(二)仿生物技術(shù)(三)公式發(fā)現(xiàn)
在工程和科學(xué)數(shù)據(jù)庫中對若干數(shù)據(jù)項(xiàng)(變量)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。
1.物理定律發(fā)現(xiàn)系統(tǒng)BACON
BACON發(fā)現(xiàn)系統(tǒng)完成了物理學(xué)中大量定律的重新發(fā)現(xiàn)。
2.經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FDD
我們研制了FDD發(fā)現(xiàn)系統(tǒng),尋找由數(shù)據(jù)項(xiàng)的初等函數(shù)或復(fù)合函數(shù)組合成的經(jīng)驗(yàn)公式。
(三)公式發(fā)現(xiàn)(四)統(tǒng)計(jì)分析方法
利用統(tǒng)計(jì)學(xué)原理通過對總體中的樣本數(shù)據(jù)進(jìn)行分析得出描述和推斷該總體信息和知識的方法。(五)模糊數(shù)學(xué)方法
利用模糊集合理論進(jìn)行數(shù)據(jù)挖掘,如模糊聚類、模糊分類等。(六)可視化技術(shù)
利用可視化技術(shù)分析數(shù)據(jù)庫,找到潛在的有用信息。(四)統(tǒng)計(jì)分析方法5.4.3數(shù)據(jù)挖掘的知識表示主要有:規(guī)則、決策樹、知識基、網(wǎng)絡(luò)權(quán)值、公式。1、規(guī)則規(guī)則知識由前提條件和結(jié)論兩部分組成前提條件由字段項(xiàng)(屬性)的取值的合?。ㄅc)和析?。ɑ颍┙M合而成。
結(jié)論為決策字段項(xiàng)(屬性)的取值或者類別組成。5.4.3數(shù)據(jù)挖掘的知識表示主要有:規(guī)則、決策樹、知識基、基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件2、決策樹例如:上例的人群數(shù)據(jù)庫,按ID3方法得到的決策樹如下:2、決策樹3、知識基(濃縮數(shù)據(jù))
例如上例的人群數(shù)據(jù)庫,通過計(jì)算可以得出身高是不重要的字段,刪除它后,再合并相同數(shù)據(jù)元組,得到濃縮數(shù)據(jù)如下表:3、知識基(濃縮數(shù)據(jù))4、網(wǎng)絡(luò)權(quán)值
神經(jīng)網(wǎng)絡(luò)方法經(jīng)過對訓(xùn)練樣本的學(xué)習(xí)后,所得到的知識是網(wǎng)絡(luò)連接權(quán)值和結(jié)點(diǎn)的閾值。Zy2x1x2
1y1
T1T2
w12w21
w11w22
2
,φ=0.5
4、網(wǎng)絡(luò)權(quán)值Zy2y1T15、公式例如,太陽系行星運(yùn)動數(shù)據(jù)中包含行星運(yùn)動周期(旋轉(zhuǎn)一周所需時(shí)間,天),以及它與太陽的距離(圍繞太陽旋轉(zhuǎn)的橢圓軌道的長半軸,百萬公里),數(shù)據(jù)如下表:發(fā)現(xiàn)的公式為:d3/p2=255、公式發(fā)現(xiàn)的公式為:d3/p2=255.5數(shù)據(jù)挖掘的決策支持
5.5.1數(shù)據(jù)挖掘的決策支持分類5.5.2決策樹與決策規(guī)則樹的挖掘及其應(yīng)用5.5.3關(guān)聯(lián)規(guī)則的挖掘及其應(yīng)用5.5數(shù)據(jù)挖掘的決策支持5.5.1數(shù)據(jù)挖掘的決策支持分5.5.1數(shù)據(jù)挖掘的決策支持分類數(shù)據(jù)挖掘的分類:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測、預(yù)測。1、關(guān)聯(lián)分析若兩個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的取值之間重復(fù)出現(xiàn)且概率很高時(shí),它就存在某種關(guān)聯(lián),可以建立起這些數(shù)據(jù)項(xiàng)的關(guān)聯(lián)規(guī)則。2、時(shí)序模式通過時(shí)間序列搜索出重復(fù)發(fā)生概率較高的模式。這里強(qiáng)調(diào)時(shí)間序列的影響。
5.5.1數(shù)據(jù)挖掘的決策支持分類數(shù)據(jù)挖掘的分類:3、聚類:在數(shù)據(jù)庫中找出一系列有意義的子集,即類。
4、分類:對數(shù)據(jù)庫中的類,找出該類別的概念描述規(guī)則。
5、偏差檢測:
在數(shù)據(jù)庫中找出異常數(shù)據(jù)。6、預(yù)測:利用歷史數(shù)據(jù)找出變化規(guī)律的模型,并用此模型預(yù)測未來。3、聚類:在數(shù)據(jù)庫中找出一系列有意義的子集,即類。5.5.2決策樹的挖掘及其應(yīng)用(一)1、決策樹概念:決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。
決策樹方法的原理是信息論,信息論是C.E.Shannon為解決信息傳遞(通信)過程問題而建立的理論,也稱為統(tǒng)計(jì)通信理論。5.5.2決策樹的挖掘及其應(yīng)用(一)1、決策樹概念:2、ID3算法當(dāng)前國際上最有影響的示例學(xué)習(xí)方法首推J.R.Quinlan的ID3。ID3引進(jìn)了信息論中的互信息,他將其稱為信息增益(informationgain),作為特征判別能力的度量,并且將建樹的方法嵌在一個(gè)迭代的中。2、ID3算法當(dāng)前國際上最有影響的示例學(xué)習(xí)方法首推J.R.Q一、ID3基本思想某天早晨氣候描述為:
天氣:多云
氣溫:冷
濕度:正常
風(fēng):無風(fēng)
在一實(shí)體世界中,每個(gè)實(shí)體用多個(gè)特征來描述。每個(gè)特征限于在一個(gè)離散集中取互斥的值。例如,設(shè)實(shí)體是某天早晨,分類任務(wù)是關(guān)于氣候的類型,特征為:
天氣取值為:晴,多云,雨
氣溫取值為:冷,適中,熱
濕度取值為:高,正常
風(fēng)取值為:有風(fēng),無風(fēng)一、ID3基本思想某天早晨氣候描述為:在一實(shí)體世界中它屬于哪類氣候(能否打高爾夫球)呢?每個(gè)實(shí)體屬于不同的類別,為簡單起見,假定僅有兩個(gè)類別,分別為P,N。在這種兩個(gè)類別的歸納任務(wù)中,P類和N類的實(shí)體分別稱為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓(xùn)練集。下表給出一個(gè)訓(xùn)練集。由ID3算法得出一棵正確分類訓(xùn)練集中每個(gè)實(shí)體的決策樹,見圖。它屬于哪類氣候(能否打高爾夫球)呢?基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件天氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決策樹天氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決策決策樹葉子為類別名,即P或者N。其它結(jié)點(diǎn)由實(shí)體的特征組成,每個(gè)特征的不同取值對應(yīng)一分枝。若要對一實(shí)體分類,從樹根開始進(jìn)行測試,按特征的取值分枝向下進(jìn)入下層結(jié)點(diǎn),對該結(jié)點(diǎn)進(jìn)行測試,過程一直進(jìn)行到葉結(jié)點(diǎn),實(shí)體被判為屬于該葉結(jié)點(diǎn)所標(biāo)記的類別。決策樹葉子為類別名,即P或者N。其它結(jié)點(diǎn)由實(shí)體的特征組成,用圖來判本節(jié)開始處的具體例子,得該實(shí)體的類別為P類。
ID3方法就是要從表的訓(xùn)練集構(gòu)造圖這樣的決策樹。實(shí)際上,能正確分類訓(xùn)練集的決策樹不止一棵。
Quinlan的ID3算法能得出結(jié)點(diǎn)最少的決策樹。用圖來判本節(jié)開始處的具體例子,得該實(shí)體的類別為P類。二、ID3算法(一)主算法1、從訓(xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集(稱為"窗口");2、用“建樹算法”對當(dāng)前窗口形成一棵決策樹;3、對訓(xùn)練集(窗口除外)中例子用所得決策樹進(jìn)行類別判定,找出錯(cuò)判的例子;4、若存在錯(cuò)判的例子,把它們插入窗口,轉(zhuǎn)2,否則結(jié)束。二、ID3算法(一)主算法主算法流程用下圖表示。其中PE、NE分別表示正例集和反例集,它們共同組成訓(xùn)練集。PE’,PE’’和NE’,NE’’分別表示正例集和反例集的子集。主算法中每迭代循環(huán)一次,生成的決策樹將會不相同。主算法流程用下圖表示。其中PE、NE分別表示正例集和反例集,訓(xùn)練集PE、NE取子集建窗口窗口PE`、NE`生成決策樹測試PE、NE擴(kuò)展窗口PE`=PE`+PE``NE`=NE`+NE``此決策樹為最后結(jié)果存在錯(cuò)判的PE``,NE``嗎是否ID3主算法流程訓(xùn)練集取子集建窗口窗口生成測試擴(kuò)展窗口此決策樹為最后結(jié)果存在(二)建樹算法
1、對當(dāng)前例子集合,計(jì)算各特征的互信息;
2、選擇互信息最大的特征Ak;
3、把在Ak處取值相同的例子歸于同一子集,Ak取幾個(gè)值就得幾個(gè)子集;
4、對既含正例又含反例的子集,遞歸調(diào)用建樹算法;
5、若子集僅含正例或反例,對應(yīng)分枝標(biāo)上P或N,返回調(diào)用處。(二)建樹算法3、ID3方法應(yīng)用實(shí)例對于氣候分類問題進(jìn)行具體計(jì)算有:⒈信息熵的計(jì)算信息熵:3、ID3方法應(yīng)用實(shí)例對于氣候分類問題進(jìn)行具體計(jì)算有:類別出現(xiàn)概率:|S|表示例子集S的總數(shù),|ui|表示類別ui的例子數(shù)。對9個(gè)正例和5個(gè)反例有:P(u1)=9/14 P(u2)=5/14H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit類別出現(xiàn)概率:條件熵:⒉條件熵計(jì)算屬性A1取值vj時(shí),類別ui的條件概率:條件熵:⒉條件熵計(jì)算屬性A1取值vj時(shí),類別ui的A1=天氣取值v1=晴,v2=多云,v3=雨在A1處取值晴的例子5個(gè),取值多云的例子4個(gè),取值雨的例子5個(gè),故:
P(v1)=5/14P(v2)=4/14P(v3)=5/14取值為晴的5個(gè)例子中有2個(gè)正例、3個(gè)反例,故:
P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4,P(u2/v2)=0
P(u1/v3)=2/5,P(u2/v3)=3/5H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4)+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3))=0.694bitA1=天氣取值v1=晴,v2=多云,v3=雨⒊互信息計(jì)算對A1=天氣處有:
I(天氣)=H(U)-H(U|V)=0.94-0.694=0.246bit
類似可得:I(氣溫)=0.029bitI(濕度)=0.151bitI(風(fēng))=0.048bit⒋建決策樹的樹根和分枝
ID3算法將選擇互信息最大的特征天氣作為樹根,在14個(gè)例子中對天氣的3個(gè)取值進(jìn)行分枝,3個(gè)分枝對應(yīng)3個(gè)子集,分別是:
F1={1,2,8,9,11},F(xiàn)2={3,7,12,13},F(xiàn)3={4,5,6,10,14}
其中F2中的例子全屬于P類,因此對應(yīng)分枝標(biāo)記為P,其余兩個(gè)子集既含有正例又含有反例,將遞歸調(diào)用建樹算法。⒊互信息計(jì)算⒌遞歸建樹分別對F1和F3子集利用ID3算法,在每個(gè)子集中對各特征(仍為四個(gè)特征)求互信息.
(1)F1中的天氣全取晴值,則H(U)=H(U|V),有I(U|V)=0,在余下三個(gè)特征中求出濕度互信息最大,以它為該分枝的根結(jié)點(diǎn),再向下分枝。濕度取高的例子全為N類,該分枝標(biāo)記N。取值正常的例子全為P類,該分枝標(biāo)記P。
(2)在F3中,對四個(gè)特征求互信息,得到風(fēng)特征互信息最大,則以它為該分枝根結(jié)點(diǎn)。再向下分枝,風(fēng)取有風(fēng)時(shí)全為N類,該分枝標(biāo)記N。取無風(fēng)時(shí)全為P類,該分枝標(biāo)記P。
這樣就得到圖的決策樹⒌遞歸建樹4、C4.5算法
ID3算法在數(shù)據(jù)挖掘中占有非常重要的地位。但是,在應(yīng)用中,ID3算法不能夠處理連續(xù)屬性、計(jì)算信息增益時(shí)偏向于選擇取值較多的屬性等不足。C4.5是在ID3基礎(chǔ)上發(fā)展起來的決策樹生成算法,由J.R.Quinlan在1993年提出。C4.5克服了ID3在應(yīng)用中存在的不足。
4、C4.5算法ID3算法在數(shù)據(jù)挖掘中占有非常
C4.5的進(jìn)步
(1)用信息增益率來選擇屬性,它克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;
(2)在樹構(gòu)造過程中或者構(gòu)造完成之后,進(jìn)行剪枝;
(3)能夠完成對連續(xù)屬性的離散化處理;
(4)能夠?qū)τ诓煌暾麛?shù)據(jù)的處理,例如未知的屬性值;
(5)C4.5采用的知識表示形式為決策樹,并最終可以形成產(chǎn)生式規(guī)則。C4.5的進(jìn)步C4.5構(gòu)造決策樹的算法Quinlan在ID3中使用信息論中的信息增益(gain)來選擇屬性,而C4.5采用屬性的信息增益率(gainratio)來選擇屬性。信息增益率
C4.5對ID3改進(jìn)是用信息增益率來選擇屬性。理論和實(shí)驗(yàn)表明,采用“信息增益率”(C4.5方法)比采用“信息增益”(ID3方法)更好,主要是克服了ID3方法選擇偏向取值多的屬性。C4.5構(gòu)造決策樹的算法Quinlan在ID3中使用5.5.2決策規(guī)則樹的挖掘及應(yīng)用(二)我們于91年研制的IBLE方法
IBLE方法是利用信息論中信道容量來選擇屬性,比互信息更好。
IBLE方法建決策規(guī)則樹,每個(gè)結(jié)點(diǎn)由多個(gè)屬性取值組成,各特征的正例標(biāo)準(zhǔn)值由譯碼函數(shù)決定。結(jié)點(diǎn)中判別正反例的閾值是由實(shí)例中權(quán)值變化的規(guī)律來確定的。5.5.2決策規(guī)則樹的挖掘及應(yīng)用(二)我們于91年研制的決策規(guī)則樹規(guī)則1規(guī)則2規(guī)則n
u1
u1
u1u2
u2
u2決策規(guī)則樹規(guī)則1規(guī)則2規(guī)則nu1
決策規(guī)則樹結(jié)點(diǎn)(1)規(guī)則表示形式?jīng)Q策規(guī)則樹中非葉結(jié)點(diǎn)均為規(guī)則。規(guī)則表示為:特征:A1,A2,...,.Am權(quán)值:W1,W2,...,.Wm標(biāo)準(zhǔn)值:V1,V2,...,.Vm閾值:Sp,Sn決策規(guī)則樹結(jié)點(diǎn)該規(guī)則可形式描述為:(1)sum:=0;(2)對i:=1到m作:若(Ai)=Vi,則sum:=sum+wi;(3)若sumsn,則該例為N類;(4)若sumsp,則該例為P類;(5)若sn<sum<sp,則該例暫不能判,轉(zhuǎn)下一條規(guī)則判別。其中sum表示權(quán)和,(Ai)表示特征Ai的取值。該規(guī)則可形式描述為:(2)舉例設(shè)問題空間中例子有10個(gè)特征(屬性),特征編號從1到10。每個(gè)特性取值為{no,yes},用{0,1}表示,規(guī)則是由重要特征組成的,對每個(gè)特征求出權(quán)值以表示其重要程度,刪除不重要特征得規(guī)則如下:特征:13467權(quán)值:1009010550040標(biāo)準(zhǔn)值:10110閾值:220,100
(2)舉例現(xiàn)有三個(gè)測試?yán)樱豪?:(1,0,0,0,1,0,0,1,1,1)例子2:(0,1,0,0,1,0,0,0,1,0)例子3:(0,1,0,0,1,0,1,0,1,1)例子1的權(quán)和sum=230,有sum>220,判定例子1屬于u1類。例子2的權(quán)和sum=130,有100<sum<220,認(rèn)為例子2不能判,例子3有權(quán)和sum=90,有sum<100,判例子3的類別為u2類。現(xiàn)有三個(gè)測試?yán)樱阂?guī)則中:
A1,A2,...,Am為組成規(guī)則的特征
W1,W2,...,Wm為對應(yīng)的權(quán)值
V1,V2,...,Vm為對應(yīng)特征取正例的標(biāo)準(zhǔn)值測試?yán)釉谠撎卣魈幦≈蹬c標(biāo)準(zhǔn)值相同,則sum(權(quán)和)加上對應(yīng)權(quán)值,否則不加。Sp,Sn是判是、判非、不能判的閾值。測試?yán)拥臋?quán)和為sum:sum≥Sp時(shí)判為是類(u1類)sumSn時(shí)判為非類(u2類)Sn<sum<Sp時(shí)認(rèn)為不能判規(guī)則中:IBLE算法由四部分組成:預(yù)處理;建決策樹算法;建規(guī)則算法;類別判定算法。以上算法見書中說明.基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件
IBLE方法實(shí)例
配隱形眼鏡問題基于數(shù)據(jù)倉庫的決策支持系統(tǒng)課件(1)患者配隱形眼鏡的類別患者是否應(yīng)配隱形眼鏡有三類:
@1:患者應(yīng)配隱形眼
@2:患者應(yīng)配軟隱形眼鏡
@3:患者不適合配隱形眼鏡(2)患者眼鏡診斷信息(屬性)a:患者的年紀(jì)
(1)年輕;(2)前老光眼;(3)老光眼b:患者的眼睛診斷結(jié)果
(1)近視;(2)遠(yuǎn)視c:是否散光
(1)是:(2)否d:患者的淚腺
(1)不發(fā)達(dá);(2)正?;跀?shù)據(jù)倉庫的決策支持系統(tǒng)課件配隱形眼鏡患者實(shí)例表配隱形眼鏡患者實(shí)例表利用IBLE算法得出的各類決策規(guī)則樹和邏輯公式(1)@1類的決策規(guī)則樹
規(guī)則1a=1b=1c=2d=20.210.0480.2820.282s1=0.5639
≤s1
>s1
非@1類@1類等價(jià)規(guī)則為:c=2∧d=2∧a=1→@1c=2∧d=2∧b=1→@1利用IBLE算法得出的各類決策規(guī)則樹和邏輯公式苯等八類化合物的分類問題對八類化合物,IBLE的平均預(yù)測正確率為93.967%。
苯等八類化合物的分類問題對八類化合物,IBLE的平均預(yù)測正確IBLE與ID3的比較預(yù)測正確率IBLE比ID3高出近10個(gè)百分點(diǎn)。
IBLE與ID3的比較預(yù)測正確率IBLE比ID3高出近10個(gè)原因分析IBLE的預(yù)測正確率之所以比ID3高的原因在于:IBLE用信道容量作為特征選擇量,而ID3用互信息,信道容量不依賴于正、反例的比例,互信息依賴訓(xùn)練集中正反例的比例。ID3在建樹過程中,每次選擇一個(gè)特征作為結(jié)點(diǎn),不能較好地體現(xiàn)特征間的相關(guān)性。IBLE在建樹過程中每次循環(huán)選擇多個(gè)特征構(gòu)成規(guī)則,變量間的相關(guān)性得到較好的體現(xiàn)。原因分析IBLE的預(yù)測正確率之所以比ID3高的原因在于:IBLE決策規(guī)則樹的特點(diǎn)
IBLE的決策規(guī)則樹中的規(guī)則在表示和內(nèi)容上與專家知識具有較高的一致性。第一條規(guī)則指出在m/e=27,50-52,62-65,74-78,89-92,104-105處應(yīng)有峰。有關(guān)文獻(xiàn)中認(rèn)為含苯化合物的重要系列應(yīng)是m/e=38-39,50-52,63-65,75-78,91,105,119,113等。
比較一下知道,在列出的這16個(gè)峰中第一條規(guī)則就包含了12個(gè),而且都是權(quán)值較大的峰。IBLE決策規(guī)則樹的特點(diǎn)IBLE決策規(guī)則樹的特點(diǎn)
在訓(xùn)練集中,若正、反例數(shù)目變化較大,IBLE得到的規(guī)則具有較好的穩(wěn)定性。IBLE得出的各決策規(guī)則樹中第一條規(guī)則,都含有相同的41個(gè)特征。在相同的變化下ID3的決策樹頭兩層7個(gè)重要質(zhì)量中,無共同的特征。IBLE決策規(guī)則樹的特點(diǎn)在訓(xùn)練集中,若正、反例數(shù)目變化較大習(xí)題29,31,32,34,36,37,39,42習(xí)題29,31,32,34,基于數(shù)據(jù)倉庫的決策支持系統(tǒng)(4)152
第5章基于數(shù)據(jù)倉庫的決策支持系統(tǒng)152第5章5.5數(shù)據(jù)挖掘的決策支持5.5.3關(guān)聯(lián)規(guī)則的挖掘及其應(yīng)用基本原理Apriori算法3.實(shí)例5.5數(shù)據(jù)挖掘的決策支持5.5.3關(guān)聯(lián)規(guī)則的挖掘及其應(yīng)用關(guān)聯(lián)規(guī)則(AssociationRule)挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫中項(xiàng)集之間的關(guān)聯(lián)關(guān)系。從大量商業(yè)事務(wù)中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商業(yè)決策的制定,如分類設(shè)計(jì)、交叉購物等。Agrawal等人于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題。
關(guān)聯(lián)規(guī)則(AssociationRule)挖掘是發(fā)現(xiàn)大量數(shù)1.關(guān)聯(lián)規(guī)則的挖掘原理
關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項(xiàng))之間的聯(lián)系,這些規(guī)則找出顧客購買行為模式。例1:在購買鐵錘的顧客當(dāng)中,有70%的人同時(shí)購買了鐵釘。
1.關(guān)聯(lián)規(guī)則的挖掘原理關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同
例2:年齡在40歲以上,工作在A區(qū)的投保人當(dāng)中,有45%的人曾經(jīng)向保險(xiǎn)公司索賠過??梢钥闯鰜?,A區(qū)可能污染比較嚴(yán)重,環(huán)境比較差,索賠率也相對比較高。例2:年齡在40歲以上,工作在A區(qū)的投保人當(dāng)中,(1)
基本原理設(shè)I={i1,i2,…,im}是項(xiàng)(Item)的集合。記D為事務(wù)(Transaction)的集合,事務(wù)T是項(xiàng)的集合,并且TI。設(shè)A是I中一個(gè)項(xiàng)集,如果AT,稱事務(wù)T包含A。定義1:關(guān)聯(lián)規(guī)則是形如AB的蘊(yùn)涵式,這里AI,BI,并且AB=。(1)基本原理設(shè)I={i1,i2,…,im}是項(xiàng)(Item定義2:規(guī)則的支持度。規(guī)則AB在數(shù)據(jù)庫D中具有支持度S,表示S是D中事務(wù)同時(shí)包含AB的百分比,它是概率P(AB),即:
其中|D|表示事務(wù)數(shù)據(jù)庫D的個(gè)數(shù),表示A、B兩個(gè)項(xiàng)集同時(shí)發(fā)生的事務(wù)個(gè)數(shù)。定義2:規(guī)則的支持度。定義3:規(guī)則的可信度規(guī)則AB具有可信度C,表示C是包含A項(xiàng)集的同時(shí)也包含B項(xiàng)集,相對于包含A項(xiàng)集的百分比,這是條件概率P(B|A),即:
其中表示數(shù)據(jù)庫中包含項(xiàng)集A的事務(wù)個(gè)數(shù)。定義3:規(guī)則的可信度定義4:閾值。在事務(wù)數(shù)據(jù)庫中找出有用的關(guān)聯(lián)規(guī)則,需要由用戶確定兩個(gè)閾值:最小支持度(min_sup)和最小可信度(min_conf)。定義5:項(xiàng)的集合稱為項(xiàng)集(Itemset),包含k個(gè)項(xiàng)的項(xiàng)集稱之為k-項(xiàng)集。如果項(xiàng)集滿足最小支持度,則它稱之為頻繁項(xiàng)集(FrequentItemset)。定義4:閾值。定義6:關(guān)聯(lián)規(guī)則。同時(shí)滿足最小支持度(min_sup)和最小可信度(min_conf)的規(guī)則稱之為關(guān)聯(lián)規(guī)則,即成立時(shí),規(guī)則稱之為關(guān)聯(lián)規(guī)則,也可以稱為強(qiáng)關(guān)聯(lián)規(guī)則。定義6:關(guān)聯(lián)規(guī)則。(2)關(guān)聯(lián)規(guī)則挖掘過程關(guān)聯(lián)規(guī)則的挖掘一般分為兩個(gè)過程:
1)找出所有的頻繁項(xiàng)集:找出支持度大于最小支持度的項(xiàng)集,即頻繁項(xiàng)集。
2)由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小可信度。(2)關(guān)聯(lián)規(guī)則挖掘過程關(guān)聯(lián)規(guī)則的挖掘一般分為兩個(gè)過程:(3)關(guān)聯(lián)規(guī)則的興趣度例子:討論不購買商品與購買商品的關(guān)系。設(shè),交易集D,經(jīng)過對D的分析,得到表格:
(3)關(guān)聯(lián)規(guī)則的興趣度例子:討論不購買商品與購買商品的關(guān)系設(shè)定minsupp=0.2,minconf=0.6,得到如下的關(guān)聯(lián)規(guī)則:
買牛奶→買咖啡s=0.2c=0.8即80%的人買了牛奶就會買咖啡。同時(shí)得到結(jié)論:90%的人肯定會買咖啡。關(guān)聯(lián)規(guī)則:
買咖啡→不買牛奶s=0.7c=0.78支持度和可信度分別為0.7和0.78,更具有商業(yè)銷售的指導(dǎo)意義。設(shè)定minsupp=0.2,minconf=0.6,得到定義7:興趣度:
公式反映了項(xiàng)集A與項(xiàng)集B的相關(guān)程度。若即表示項(xiàng)集A出現(xiàn)和項(xiàng)集B是相互獨(dú)立的。若表示A出現(xiàn)和B出現(xiàn)是負(fù)相關(guān)的。若表示A出現(xiàn)和B出現(xiàn)是正相關(guān)的。意味著A的出現(xiàn)蘊(yùn)含B的出現(xiàn)。定義7:興趣度:一條規(guī)則的興趣度越大于1說明我們對這條規(guī)則越感興趣(即其實(shí)際利用價(jià)值越大);一條規(guī)則的興趣度越小于1說明我們對這條規(guī)則的反面規(guī)則越感興趣(即其反面規(guī)則的實(shí)際利用價(jià)值越大);興趣度I不小于0。一條規(guī)則的興趣度越大于1說明我們對這條規(guī)則越感興趣(即其實(shí)際所有可能的關(guān)聯(lián)規(guī)則
所有可能的關(guān)聯(lián)規(guī)則討論I1﹑I2﹑I3﹑I6共4條規(guī)則:由于I1、I2<1,在實(shí)際中它的價(jià)值不大;I3、I6>1,規(guī)則才有價(jià)值。興趣度也稱為作用度(Lift),表示關(guān)聯(lián)規(guī)則A→B的“提升”。如果作用度(興趣度)不大于1,則此關(guān)聯(lián)規(guī)則就沒有意義了。
討論I1﹑I2﹑I3﹑I6共4條規(guī)則:概括地說:可信度是對關(guān)聯(lián)規(guī)則地準(zhǔn)確度的衡量。支持度是對關(guān)聯(lián)規(guī)則重要性的衡量。支持度說明了這條規(guī)則在所有事務(wù)中有多大的代表性。有些關(guān)聯(lián)規(guī)則可信度雖然很高,但支持度卻很低,說明該關(guān)聯(lián)規(guī)則實(shí)用的機(jī)會很小,因此也不重要。興趣度(作用度)描述了項(xiàng)集A對項(xiàng)集B的影響力的大小。興趣度(作用度)越大,說明項(xiàng)集B受項(xiàng)集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 部編版五年級語文下冊第13課《人物描寫一組》精美課件
- 施工總承包管理及協(xié)調(diào)
- 自考《勞動法(00167)》考前強(qiáng)化考試題庫(含答案)
- 畜牧法規(guī)知識考試題庫及答案
- 2025年正德職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年晉中職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 2025年攀枝花攀西職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年常考版參考題庫含答案解析
- 中班數(shù)學(xué)主題活動策劃方案模板五篇
- 藥品運(yùn)輸合同
- 林業(yè)承包合同標(biāo)準(zhǔn)范本
- 2025民政局離婚協(xié)議書范本(民政局官方)4篇
- 2024年03月四川農(nóng)村商業(yè)聯(lián)合銀行信息科技部2024年校園招考300名工作人員筆試歷年參考題庫附帶答案詳解
- 小學(xué)一年級數(shù)學(xué)上冊口算練習(xí)題總匯
- 潤滑油知識-液壓油
- 2024年江蘇省中醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 臨床思維能力培養(yǎng)
- 人教版高中物理必修第三冊第十章靜電場中的能量10-1電勢能和電勢練習(xí)含答案
- ISO17025經(jīng)典培訓(xùn)教材
- 東南大學(xué)宣講介紹
- 九年級下冊-2023年中考?xì)v史總復(fù)習(xí)知識點(diǎn)速查速記(部編版)
- GB/T 18103-2022實(shí)木復(fù)合地板
評論
0/150
提交評論