數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩96頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘的發(fā)展動力

---需要是發(fā)明之母數(shù)據(jù)爆炸問題自動數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫技術使得大量的數(shù)據(jù)被收集,存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中以待分析。我們擁有豐富的數(shù)據(jù),但卻缺乏有用的信息

解決方法:數(shù)據(jù)倉庫技術和數(shù)據(jù)挖掘技術數(shù)據(jù)倉庫(DataWarehouse)和在線分析處理(OLAP)數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)

從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識

挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個精確的用詞)數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘:數(shù)據(jù)庫中的知識挖掘(KDD)數(shù)據(jù)挖掘——知識挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫Knowledge任務相關數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19KDD的步驟從KDD對數(shù)據(jù)挖掘的定義中可以看到當前研究領域對數(shù)據(jù)挖掘的狹義和廣義認識數(shù)據(jù)清理:(這個可能要占全過程60%的工作量)數(shù)據(jù)集成數(shù)據(jù)選擇數(shù)據(jù)變換數(shù)據(jù)挖掘(選擇適當?shù)乃惴▉碚业礁信d趣的模式

—狹義)6.模式評估7.知識表示(如圖形等表示方法)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19典型數(shù)據(jù)挖掘系統(tǒng)的體系結構數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)集成數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進行多種復雜的處理。機器學習系統(tǒng),數(shù)據(jù)統(tǒng)計分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于數(shù)據(jù)的查詢處理。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關注更廣的范圍,是一個多學科的融合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘關系數(shù)據(jù)庫數(shù)據(jù)倉庫事務數(shù)據(jù)庫高級數(shù)據(jù)庫系統(tǒng)和信息庫空間數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向對象數(shù)據(jù)庫和對象-關系數(shù)據(jù)庫異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘的主要功能

——可以挖掘哪些模式?一般功能描述性的數(shù)據(jù)挖掘預測性的數(shù)據(jù)挖掘通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會在數(shù)據(jù)挖掘中應用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區(qū)分關聯(lián)分析分類和預測聚類分析孤立點分析趨勢和演變分析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念/類描述:特性化和區(qū)分概念描述:為數(shù)據(jù)的特征化和比較產生描述(當所描述的概念所指的是一類對象時,也稱為類描述)特征化:提供給定數(shù)據(jù)集的簡潔匯總。例:對AllElectronic公司的“大客戶”(年消費額$1000以上)的特征化描述:40-50歲,有固定職業(yè),信譽良好,等等區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。例:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關聯(lián)分析關聯(lián)規(guī)則挖掘:從事務數(shù)據(jù)庫,關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。廣泛的用于購物籃或事務數(shù)據(jù)分析。例:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19分類和預測1、分類在商業(yè)上應用最多,其目的是找出一組能夠描述數(shù)據(jù)集合典型特征的模型和函數(shù)。2、數(shù)據(jù)分類實際上就是從數(shù)據(jù)庫對象中發(fā)現(xiàn)共性,并將數(shù)據(jù)對象分成不同類別的過程。3、分類的目標首先是對訓練數(shù)據(jù)進行分析,使用數(shù)據(jù)的某些特征屬性,給出每個類的準確描述,然后使用這些描述,對數(shù)據(jù)庫中的其他數(shù)據(jù)進行分類。4、分類通常和預測聯(lián)系起來,這是因為分類可以用來預測數(shù)據(jù)對象的類標記,也可以用來預測不知道的數(shù)據(jù)值,當被預測的值是數(shù)值數(shù)據(jù)時,通常稱之為預測。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19分類和預測例:通過訓練數(shù)據(jù)獲得了如下規(guī)則:IF年齡=“31..40”AND收入=“較高”THEN信用程度=“優(yōu)秀”規(guī)則的含義:年齡在31到40之間,收入較高的情況下,這類顧客群的信用程度被認為是“優(yōu)秀”IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19聚類分析聚類分析:將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。最大化類內的相似性和最小化類間的相似性例:對WEB日志的數(shù)據(jù)進行聚類,以發(fā)現(xiàn)相同的用戶訪問模式聚類分析與分類分析相反,首先輸入的是一組沒有被標記的記錄,系統(tǒng)按照一定的規(guī)則合理地劃分記錄集合(相當于給記錄打標記,只不過分類標準不是用戶指定的),然后可以采用分類分析法進行數(shù)據(jù)分析,并根據(jù)分析的結果重新對原來的記錄集合(沒有被標記的記錄集合)進行劃分,進而再一次進行分類分析,如此循環(huán)往復,直到獲得滿意的分析結果為止。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19孤立點分析孤立點分析孤立點:一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結論。應用信用卡欺詐檢測移動電話欺詐檢測客戶劃分醫(yī)療分析(異常)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19趨勢和演變分析是針對事件或對象行為隨時間變化的規(guī)律或趨勢,并以此來建立模型。例如:對股票市場交易數(shù)據(jù)進行時序演變分析,則可能得到這樣的規(guī)則:AT&T股票連續(xù)上漲兩天且DEC股票不下跌,那么第三天IBM股票上漲的可能性為75%。趨勢和偏差:回歸分析序列模式匹配:周期性分析基于類似性的分析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19所有模式都是有趣的嗎?數(shù)據(jù)挖掘可能產生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對于新的或測試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結構和關于它們的統(tǒng)計,比如:支持度、置信度等等主觀度量:基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動的等等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19能夠產生所有有趣模式并且僅產生有趣模式嗎?找出所有有趣的模式:數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產生所有有趣的模式嗎?試探搜索vs.窮舉搜索關聯(lián)vs.分類vs.聚類只搜索有趣的模式:數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘:多個學科的融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學其他學科算法機器學習可視化數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘系統(tǒng)的分類(1)數(shù)據(jù)挖掘的多學科融合的特性,決定了數(shù)據(jù)挖掘的研究將產生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫分類關系數(shù)據(jù)庫,事務數(shù)據(jù)庫,流式數(shù)據(jù),面向對象數(shù)據(jù)庫,對象關系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時序數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構數(shù)據(jù)庫,歷史數(shù)據(jù)庫數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)挖掘系統(tǒng)的分類(2)根據(jù)挖掘的知識類型特征分析,區(qū)分,關聯(lián)分析,分類聚類,孤立點分析/演變分析,偏差分析等等.多種方法的集成和多層機挖掘根據(jù)挖掘所用的技術面向數(shù)據(jù)庫的挖掘、數(shù)據(jù)倉庫、OLAP、機器學習、統(tǒng)計學、可視化等等.根據(jù)挖掘所用的應用金融,電信,銀行,欺詐分析,DNA分析,股票市場,Web挖掘等等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19第二節(jié):數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預處理步驟數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識發(fā)現(xiàn)分類預測關聯(lián)聚集數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的定義與基本特性1.數(shù)據(jù)倉庫的定義

WilliamH.Inmon在1993年所寫的論著《BuildingtheDataWarehouse》首先系統(tǒng)地闡述了關于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉庫定義為:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.

一個面向主題的、集成的、非易失性的、隨時間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關鍵特征一——面向主題

面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)由數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。例如,企業(yè)中的客戶、產品、供應商等都可以作為主題看待。從信息管理的角度看,主題就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進行綜合、歸類所形成的分析對象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對分析對象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關系。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關鍵特征二——數(shù)據(jù)集成一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)源來構造的。關系數(shù)據(jù)庫,一般文件,聯(lián)機事務處理記錄(OLTP)使用數(shù)據(jù)清理和數(shù)據(jù)集成技術。確保命名約定、編碼結構、屬性度量等的一致性。當數(shù)據(jù)被移到數(shù)據(jù)倉庫時,它們要經過轉化。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關鍵特征三——隨時間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個關鍵結構都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關鍵結構可能就不包括時間元素盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務數(shù)據(jù)庫那樣反映業(yè)務處理的實際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10年前的數(shù)據(jù)進行決策分析,那決策所帶來的后果將是十分可怕的。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19因此,數(shù)據(jù)倉庫必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,也就是說在數(shù)據(jù)倉庫中必須不斷的生成主題的新快照,以滿足決策分析的需要。數(shù)據(jù)新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。

例如,如果分析企業(yè)近幾年的銷售情況,那快照可以每隔一個月生成一次;如果分析一個月的暢銷產品,那快照生成間隔就需要每天一次。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進行更新處理,而是一旦數(shù)據(jù)進入數(shù)據(jù)倉庫以后,就會保持一個相當長的時間。因為數(shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務系統(tǒng)中的數(shù)據(jù)庫那樣,要經常進行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。數(shù)據(jù)倉庫關鍵特征四——數(shù)據(jù)不易丟失數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫關鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。不需要事務處理,恢復,和并發(fā)控制等機制(大大提高了處理速度)只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的構建與使用數(shù)據(jù)倉庫的構建包括一系列的數(shù)據(jù)預處理過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)倉庫的使用熱點是商業(yè)決策行為,例如:增加客戶聚焦產品重定位尋找獲利點客戶關系管理數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫與操作數(shù)據(jù)庫系統(tǒng)操作數(shù)據(jù)庫系統(tǒng)的主要任務是聯(lián)機事務處理OLTP日常操作:購買,庫存,銀行,制造,工資,注冊,記帳等數(shù)據(jù)倉庫的主要任務是聯(lián)機分析處理OLAP數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿足不同的用戶需要數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAPVS.OLTP(1)用戶和系統(tǒng)的面向性面向顧客(事務)VS.面向市場(分析)數(shù)據(jù)內容當前的、詳細的數(shù)據(jù)(如超市一個月的數(shù)據(jù))VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫設計實體-聯(lián)系模型(ER)和面向應用的數(shù)據(jù)庫設計VS.星型/雪花模型和面向主題的數(shù)據(jù)庫設計數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAPVS.OLTP(2)數(shù)據(jù)視圖當前的、企業(yè)內部的數(shù)據(jù)VS.經過演化的、集成的數(shù)據(jù)訪問模式事務操作(如查詢、寫入、修改)VS.只讀查詢(但很多是復雜的查詢)任務單位簡短的事務VS.復雜的查詢訪問數(shù)據(jù)量數(shù)十個VS.數(shù)百萬個數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAPVS.OLTP(3)用戶數(shù)數(shù)千個VS.數(shù)百個(復雜查詢,消耗資源)數(shù)據(jù)庫規(guī)模100M-數(shù)GB(因此一般關注近期數(shù)據(jù))VS.100GB-數(shù)TB設計優(yōu)先性高性能、高可用性VS.高靈活性、端點用戶自治度量事務吞吐量VS.查詢吞吐量、響應時間數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19為什么需要一個分離的數(shù)據(jù)倉庫?“既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”,“為什么不直接在這種數(shù)據(jù)庫上進行聯(lián)機分析處理,而是另外花費時間和資源去構造一個分離的數(shù)據(jù)倉庫?”分離的主要原因是提高兩個系統(tǒng)的性能DBMS是為OLTP而設計的:存儲方式,索引,并發(fā)控制,恢復(OLAP不需要)數(shù)據(jù)倉庫是為OLAP而設計:復雜的OLAP查詢,多維視圖,匯總數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19為什么需要一個分離的數(shù)據(jù)倉庫?兩個系統(tǒng)提供不同的功能和處理不同的數(shù)據(jù):歷史數(shù)據(jù):

決策支持需要歷史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫中一般不會去維護數(shù)據(jù)匯總:決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)數(shù)據(jù)質量:

不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對這些數(shù)據(jù)進行有效的分析需要將他們轉化后進行集成由于兩個系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護分離的數(shù)據(jù)庫。然而,許多關系數(shù)據(jù)庫管理系統(tǒng)賣主正開始優(yōu)化這種系統(tǒng),使之支持OLAP查詢。隨著這一趨勢的繼續(xù),OLTP和OLAP系統(tǒng)之間的分離可望消失。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP與OLTP對比總結數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP的幾個基本概念1、維:維是關于一個組織想要記錄的視角或觀點。每個維都有一個表與之相關聯(lián),稱為維表。

同一個問題可以從不同維度進行觀察分析。如:超市分析某一個時期內營業(yè)額的變化,是從時間維角度分析。按所處地區(qū)對連鎖店的營業(yè)額分析,是從地理維角度分析。2、維的層次:在同一維度上存在多個程度不同的細節(jié)。3、維的成員:是指某個維的某個具體取值。4、多維數(shù)組:如果一個數(shù)據(jù)集合可以從多個角度進行觀察,則根據(jù)這些維度將數(shù)據(jù)組織所構成的數(shù)組,就是多維數(shù)組.多維數(shù)組可以用圖形化來表示,也可以用表格表示數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAP的幾個基本概念

當維度的數(shù)量不超過3時,采用圖形的方法可以很直觀的表達出該數(shù)組的內涵,但超三維的結構,圖形方式無能為力。如增加客戶類別維。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘OLAP的幾個基本概念超三維數(shù)據(jù)的表格表示數(shù)據(jù)倉庫與數(shù)據(jù)挖掘多維數(shù)據(jù)模型(1)數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型(OLTP基于什么?)在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(datacube)的形式存在數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實定義維是關于一個組織想要記錄的視角或觀點。每個維都有一個表與之相關聯(lián),稱為維表。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實表表示事實表包括事實的名稱或度量以及每個相關維表的關鍵字事實指的是一些數(shù)字度量數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19多維數(shù)據(jù)模型(2)——示例

time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的概念模型最流行的數(shù)據(jù)倉庫概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實星座模式的形式存在。星型模式(Starschema):事實表在中心,周圍圍繞地連接著維表(每維一個),事實表含有大量數(shù)據(jù),沒有冗余。雪花模式(Snowflakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加表中。結果,模式圖形成類似于雪花的形狀。事實星座(Factconstellations):

多個事實表共享維表,這種模式可以看作星型模式集,因此稱為星系模式(galaxyschema),或者事實星座(factconstellation)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表星型模式實例數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19雪花模式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19雪花模型是在星形模型的基礎上發(fā)展起來的,它在事實表和維度表的基礎上,增加了一類新的表——詳細類別表。在星形表中事實表的規(guī)范化程度較高,但是對于維度表的冗余度未加限制,雪花模型引入詳細類別表就是為了將維度表的數(shù)據(jù)進一步分解,以提高數(shù)據(jù)模型的規(guī)范化程度,具有較低的粒度。在實際運用中使用星形模型較多雪花模式實例數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19事實星座模式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念分層(1)一個概念分層(concepthierarchy)定義一個映射序列,將低層概念映射到更一般的高層概念E.g.表示location的概念:杭州

浙江

中國

亞洲概念分層允許我們在各種抽象級審查和處理數(shù)據(jù)概念分層可以由系統(tǒng)用戶、領域專家、知識工程師人工的提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計分析自動的產生數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念分層(2):location維的一個概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層的定義隱含在數(shù)據(jù)庫的模式中。比如:location維的定義,office<city<country<region;這些屬性按一個全序相關,形成一個層次結構:yeardayquartermonthweekTime維的屬性也可以組成一個偏序,形成一個格。例如,維time基于屬性day,week,month,quarter和year就是一個偏序“day<{month<quarter;week}<year”數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19概念分層(3)——使用概念分層為不同級別上的數(shù)據(jù)匯總提供了一個良好的基礎綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對數(shù)據(jù)獲得更深入的洞察力通過在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得用戶在不同的維上從不同的層次對數(shù)據(jù)進行觀察成為可能。多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對數(shù)據(jù)進行觀察成為可能,而概念分層則提供了從不同層次對數(shù)據(jù)進行觀察的能力;結合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19多維數(shù)據(jù)模型上的OLAP操作(1)上卷(roll-up):匯總數(shù)據(jù)(實例圖)通過一個維的概念分層向上攀升或者通過維規(guī)約當用維歸約進行上卷時,一個或多個維由給定的數(shù)據(jù)立方體刪除下鉆(drill-down):上卷的逆操作由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實現(xiàn)(為給定數(shù)據(jù)添加更多細節(jié))切片和切塊(sliceanddice)切片操作在給定的數(shù)據(jù)立方體的一個維上進行選擇,導致一個子方切塊操作通過對兩個或多個維進行選擇,定義子方數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19多維數(shù)據(jù)模型上的OLAP操作(2)轉軸(pivot)立方體的重定位,可視化,或將一個3維立方體轉化為一個2維平面序列轉軸是一種可視化操作,通過轉動當前數(shù)據(jù)的視圖來提供一個數(shù)據(jù)的替代表示數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19知識點回顧1、試比較OLAP與OLTP的區(qū)別。2、數(shù)據(jù)倉庫的概念模型有哪些?各有什么特點?3、多維數(shù)據(jù)模型上的OLAP操作有哪些?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的結構

數(shù)據(jù)倉庫的數(shù)據(jù)級別(粒度)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19早期細節(jié)數(shù)據(jù)

存儲過去的詳細數(shù)據(jù),反映真實的歷史情況,這類數(shù)據(jù)隨著時間增加,數(shù)據(jù)量很大,使用頻率低,一般存儲在轉換介質中。(例如磁帶中)當前細節(jié)數(shù)據(jù)

存儲最近時期的業(yè)務數(shù)據(jù),反映當前業(yè)務的情況,數(shù)據(jù)量大,是數(shù)據(jù)倉庫用戶最感興趣的部分。隨著時間的推移,當前細節(jié)數(shù)據(jù)由數(shù)據(jù)倉庫的時間控制機制轉為早期細節(jié)數(shù)據(jù)。輕度綜合數(shù)據(jù)

從當前基本數(shù)據(jù)中提取出來,通常以較小的時間段(粒度)統(tǒng)計而成的數(shù)據(jù),其數(shù)據(jù)量較細節(jié)及數(shù)據(jù)少得多。高度綜合數(shù)據(jù)

這一層的數(shù)據(jù)十分精煉,是一種準決策數(shù)據(jù)。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫設計:一個商務分析框架(1)數(shù)據(jù)倉庫給商業(yè)分析專家提供了什么?通過提供相關數(shù)據(jù)與信息,獲得競爭優(yōu)勢通過有效的收集精確的描述組織的數(shù)據(jù),獲得生產力的提高通過提供不同級別(部門、市場、商業(yè))的客戶視圖,協(xié)助客戶關系管理通過追蹤長期趨勢、異常等,降低成本有效構建數(shù)據(jù)倉庫的關鍵:理解和分析商業(yè)需求通過提供一個商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫設計:一個商務分析框架(2)數(shù)據(jù)倉庫設計的四種視圖自頂向下視圖使得我們可以選擇數(shù)據(jù)倉庫所需的相關信息。數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫系統(tǒng)所捕獲、存儲和管理的信息數(shù)據(jù)倉庫視圖由事實表和維表所組成商務查詢視圖從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫設計:一個商務分析框架(3)數(shù)據(jù)倉庫的構建與使用涉及多種技能商業(yè)技能理解系統(tǒng)如何存儲和管理數(shù)據(jù)數(shù)據(jù)如何提取數(shù)據(jù)如何刷新技術方面的技能如何通過使用各種數(shù)據(jù)或量化的信息,導出可以提供決策支持的模式、趨勢、判斷等如何通過審查歷史數(shù)據(jù),分析發(fā)展趨勢等計劃管理技能如何通過與不同的技術、廠商、用戶交互,來及時、有效、經濟的提交結果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的設計過程(1)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設計和規(guī)劃開始當技術成熟并已掌握,對必須解決的商務問題清楚并已很好理解時,這種方法是有用的。自底向上法:以實驗和原型開始在商務建模和技術開發(fā)的早期階段,這種方法是有用的。這樣可以以相當?shù)偷拇鷥r前進,在作出重要承諾之前評估技術的利益?;旌戏椒ǎ荷鲜鰞烧叩慕Y合從軟件過程的觀點瀑布式方法:在進行下一步前,每一步都進行結構化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產生,相繼版本之間間隔很短。對于數(shù)據(jù)集市的開發(fā),這是一個好的選擇。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫的設計過程(2)典型的數(shù)據(jù)倉庫設計過程選取待建模的商務過程找到所構建的數(shù)據(jù)倉庫的主題,比如:銷售、貨運、訂單等等選取商務處理的粒度。對于處理,該粒度是基本的、在事實表中是數(shù)據(jù)的原子級。例如,單個事務、一天的快照等。選取用于每個事實表記錄的維。典型的維是時間、商品、顧客、供應商、倉庫、事務類型和狀態(tài)。選取將安放在事實表中的度量常用的數(shù)字度量包括:售價、貨物數(shù)量等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19三層數(shù)據(jù)倉庫架構(1)數(shù)據(jù)倉庫提取清理轉換裝入刷新OLAP服務器查詢報告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)倉庫服務器OLAP服務器數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19三層數(shù)據(jù)倉庫架構(2)底層:數(shù)據(jù)倉庫的數(shù)據(jù)庫服務器關注的問題:如何從這一層提取數(shù)據(jù)來構建數(shù)據(jù)倉庫(通過Gateway(ODBC,JDBC,OLE/DB等)來提取)中間層:OLAP服務器關注的問題:OLAP服務器如何實施(關系型OLAP(ROLAP),多維MOLAP(MOLAP)等)前端客戶工具層關注的問題:查詢工具、報表工具、分析工具、挖掘工具等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19三種數(shù)據(jù)倉庫模型從體系結構的角度去看,數(shù)據(jù)倉庫模型可以有以下兩種:企業(yè)倉庫搜集了關于主題的所有信息,跨越整個組織數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個子集,對于特定的客戶是有用的。其范圍限于選定的主題,比如一個商場的數(shù)據(jù)集市獨立的數(shù)據(jù)集市VS.非獨立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉庫)與企業(yè)倉庫的差異在于數(shù)據(jù)集市應采用星形模式,而企業(yè)倉庫應采用事實星座模式數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫開發(fā):困難與方法數(shù)據(jù)倉庫開發(fā)上的困難自頂向下開發(fā)企業(yè)倉庫是一種系統(tǒng)的解決方法,并能最大限度地減少集成問題。但它費用高,需要長時間開發(fā),并且缺乏靈活性,因為整個組織的共同數(shù)據(jù)模型達到一致是困難的。自底向上設計、開發(fā)、配置獨立的數(shù)據(jù)集市方法提供了靈活性、低花費,并能快速回報投資。然而,將分散的數(shù)據(jù)集市集成,形成一個一致的企業(yè)數(shù)據(jù)倉庫時,可能導致問題。解決方法:使用遞增性、演化性的開發(fā)方法(見后圖)高層數(shù)據(jù)模型

企業(yè)倉庫和數(shù)據(jù)集市并行開發(fā)

通過分布式模型集成各數(shù)據(jù)集市

多層數(shù)據(jù)倉庫數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫開發(fā)——一個推薦的方法定義高層數(shù)據(jù)模型數(shù)據(jù)集市數(shù)據(jù)集市分布式數(shù)據(jù)集市多層數(shù)據(jù)倉庫企業(yè)數(shù)據(jù)倉庫模型提煉模型提煉數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAP服務器類型(1)OLAP服務器為商務用戶提供來自數(shù)據(jù)倉庫或數(shù)

據(jù)集市的多維數(shù)據(jù),而不必關心數(shù)據(jù)如何存放和存放在何處。然而,OLAP服務器的物理結構和實現(xiàn)必須考慮數(shù)據(jù)存放問題。關系OLAP服務器(ROLAP)使用關系數(shù)據(jù)庫或擴展的關系數(shù)據(jù)庫存放并管理數(shù)據(jù)倉庫的數(shù)據(jù),而用OLAP中間件支持其余部分。數(shù)據(jù)和聚合表都存在關系數(shù)據(jù)庫。包括每個DBMS后端優(yōu)化,聚集導航邏輯的實現(xiàn),附加的工具和服務Microstrategy的DSS和Informix的Metacube都采用ROLAP方法數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19OLAP服務器類型(2)多維OLAP服務器(MOLAP)通過基于數(shù)組的多維存儲引擎,支持數(shù)據(jù)的多維視圖。Arbor的Essbase是一個MOLAP服務器。數(shù)據(jù)和聚合表都存在多維數(shù)據(jù)結構中。混合OLAP服務器(HOLAP)結合ROLAP和MOLAP技術,得益于ROLAP較大的規(guī)模性和MOLAP的快速計算。例如,HOLAP服務器允許將大量詳細數(shù)據(jù)存放在關系數(shù)據(jù)庫中,而聚集保持在分離的MOLAP存儲中。微軟的SQLServer7.0OLAP服務支持混合OLAP服務器。數(shù)據(jù)保存在關系數(shù)據(jù)庫,聚合存在多維結構中。特殊的SQL服務器在星型和雪花模型上支持SQL查詢數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19元數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,元數(shù)據(jù)就是定義數(shù)據(jù)倉庫對象的數(shù)據(jù)。有以下幾種:數(shù)據(jù)倉庫結構的描述倉庫模式、視圖、維、層次結構、導出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉庫的映射關于系統(tǒng)性能的數(shù)據(jù)索引,profiles,數(shù)據(jù)刷新、更新或復制事件的調度和定時商務元數(shù)據(jù)商務術語和定義、數(shù)據(jù)擁有者信息、收費政策等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19元數(shù)據(jù)的使用元數(shù)據(jù)與數(shù)據(jù)一起,構成了數(shù)據(jù)倉庫中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個模型的結構方面的信息。在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對數(shù)據(jù)倉庫的內容定義作為數(shù)據(jù)倉庫和操作性數(shù)據(jù)庫之間進行數(shù)據(jù)轉換時的映射標準用于指導當前細節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫后端工具和程序數(shù)據(jù)倉庫后端工具主要指的是用來裝入和刷新數(shù)據(jù)的工具,包括:數(shù)據(jù)提?。和ǔ?,由多個、異種、外部數(shù)據(jù)源收集數(shù)據(jù)。數(shù)據(jù)清理檢測數(shù)據(jù)種的錯誤并作可能的訂正數(shù)據(jù)變換將數(shù)據(jù)由歷史或主機的格式轉化為數(shù)據(jù)倉庫的格式裝載排序、匯總、合并、計算視圖,檢查完整性,并建立索引和分區(qū)刷新將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉庫中數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的應用數(shù)據(jù)倉庫的三種應用信息處理支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖標和圖進行報表處理聯(lián)機分析處理對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維數(shù)據(jù)分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉軸等數(shù)據(jù)挖掘從隱藏模式中發(fā)現(xiàn)知識支持關聯(lián)分析,構建分析性模型,分類和預測,并用可視化工具呈現(xiàn)挖掘的結果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的應用三種應用間的差別:1、信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。它不反映復雜的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。因此,信息處理不是數(shù)據(jù)挖掘。2、聯(lián)機分析處理向數(shù)據(jù)挖掘走近了一步,OLAP和數(shù)據(jù)挖掘的功能可以視為不交的:OLAP是數(shù)據(jù)匯總/聚集工具,它幫助簡化數(shù)據(jù)分析;而數(shù)據(jù)挖掘自動地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式和有趣知識。OLAP工具的目標是簡化和支持交互數(shù)據(jù)分析;而數(shù)據(jù)挖掘的目標是盡可能自動處理。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19數(shù)據(jù)倉庫的應用3、數(shù)據(jù)挖掘的涵蓋面要比簡單的OLAP操作寬得多,因為它不僅執(zhí)行數(shù)據(jù)匯總和比較,而且執(zhí)行關聯(lián)、分類、預測、聚類、時間序列分析和其它數(shù)據(jù)分析任務。4、數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉庫中的數(shù)據(jù)。它可以分析現(xiàn)存的、比數(shù)據(jù)倉庫提供的匯總數(shù)據(jù)粒度更細的數(shù)據(jù)。它也可以分析事務的、文本的、空間的和多媒體數(shù)據(jù),這些數(shù)據(jù)很難用現(xiàn)有的多維數(shù)據(jù)庫技術建模。在這種意義下,數(shù)據(jù)挖掘涵蓋的數(shù)據(jù)挖掘功能和處理的數(shù)據(jù)復雜性要比OLAP大得多。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19從聯(lián)機分析處理到聯(lián)機分析挖掘OLAM聯(lián)機分析挖掘(OLAM,也稱OLAP挖掘)將聯(lián)機分析處理與數(shù)據(jù)挖掘以及在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識集成在一起,為什么要聯(lián)機分析挖掘數(shù)據(jù)倉庫中有高質量的數(shù)據(jù)數(shù)據(jù)倉庫中存放著整合的、一致的、清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉庫的信息處理結構存取、集成、合并多個異種數(shù)據(jù)庫的轉換,ODBC/OLEDB連接,Web訪問和訪問工具等基于OLAP的探測式數(shù)據(jù)分析使用上卷、下鉆、切片、轉軸等技術進行數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能的聯(lián)機選擇多種數(shù)據(jù)挖掘功能、算法和任務的整合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘聯(lián)機分析挖掘的體系結構數(shù)據(jù)倉庫元數(shù)據(jù)多維數(shù)據(jù)庫OLAM引擎OLAP引擎用戶圖形界面API數(shù)據(jù)方體API數(shù)據(jù)庫API數(shù)據(jù)清理數(shù)據(jù)集成第三層OLAP/OLAM第二層多維數(shù)據(jù)庫第一層數(shù)據(jù)存儲第四層用戶界面數(shù)據(jù)的過濾、集成過濾數(shù)據(jù)庫基于約束的數(shù)據(jù)挖掘挖掘結果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第三節(jié):大型數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19什么是關聯(lián)規(guī)則挖掘?關聯(lián)規(guī)則挖掘:從事務數(shù)據(jù)庫,關系數(shù)據(jù)庫和其他信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關聯(lián)和相關性。應用:購物籃分析、分類設計、捆綁銷售等數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19“尿布與啤酒”——典型關聯(lián)分析案例采用關聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,超市也因此發(fā)現(xiàn)了一個規(guī)律,在購買嬰兒尿布的年輕父親們中,有30%~40%的人同時要買一些啤酒。超市隨后調整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。同樣的,我們還可以根據(jù)關聯(lián)規(guī)則在商品銷售方面做各種促銷活動。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19購物籃分析如果問題的全域是商店中所有商品的集合,則對每種商品都可以用一個布爾量來表示該商品是否被顧客購買,則每個購物籃都可以用一個布爾向量表示;而通過分析布爾向量則可以得到商品被頻繁關聯(lián)或被同時購買的模式,這些模式就可以用關聯(lián)規(guī)則表示。關聯(lián)規(guī)則的兩個興趣度度量支持度置信度數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19購物籃分析

以上關聯(lián)規(guī)則的支持度2%,意味分析事務的2%同時購買計算機和財務管理軟件。置信度60%意味購買計算機的顧客60%也購買財務管理軟件。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關聯(lián)規(guī)則:基本概念

關聯(lián)規(guī)則挖掘對象主要是事務型數(shù)據(jù)庫,也可以是其它領域內的關系型數(shù)據(jù)庫。關聯(lián)規(guī)則挖掘涉及到以下幾個基本概念。1、項。對于一個數(shù)據(jù)表而言,表的每個字段都具有一個或多個不同的值,字段的每種取值都是一個項。2、項集。項的集合稱為項集。包含K個項的項集被稱為K項集,K表示項集中項的數(shù)目。由所有的項所構成的集合是最大的項集,一般用符號I表示。I={i1,i2,...,in}數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關聯(lián)規(guī)則:基本概念3、事務。事務是項的集合。一個事務就是事實表中的一條記錄。事務的集合稱為事務集,也就是事務數(shù)據(jù)庫,一般用D表示。對銷售數(shù)據(jù)而言,事務數(shù)據(jù)庫的記錄一般由事物處理時間,一組顧客購買的物品,顧客標示號幾部分組成。每個事務都有一個唯一的標示,記作TID。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19基本概念——示例項的集合I={A,B,C,D,E,F}每個事務T由事務標識符TID標識,它是項的集合比如:TID(2000)={A,B,C}任務相關數(shù)據(jù)D是數(shù)據(jù)庫事務的集合D數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19規(guī)則度量:支持度和置信度CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer對所有滿足最小支持度和置信度的關聯(lián)規(guī)則支持度s是指事務集D中包含的百分比置信度c是指D中同時包含A和B的事務數(shù)與只包含A的事務數(shù)的比值假設最小支持度為50%,最小置信度為50%,則有如下關聯(lián)規(guī)則A

C(50%,66.6%)C

A(50%,100%)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘知識點回顧1、何為企業(yè)倉庫、數(shù)據(jù)集市?二者有何區(qū)別?2、請分析數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關系。3、請解釋如下關聯(lián)規(guī)則:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19知識點回顧2、請分析數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的關系聯(lián)機分析處理和數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之上的增值技術。OLAP側重于與用戶的交互、快速的響應速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息。OLAP的分析結果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展OLAP分析的深度,可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復雜、細致的信息。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19大型數(shù)據(jù)庫關聯(lián)規(guī)則挖掘(1)1、項的集合稱為項集。包含k個項的項集稱為k-項集。集合{computer,financial_management_software}是一個2-項集。2、項集的出現(xiàn)頻率是包含項集的事務數(shù),簡稱為項集的頻率、支持計數(shù)或計數(shù)。3、同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強規(guī)則。4、支持度大于等于支持度閾值的項集稱為頻繁項集。含有K個項的項集稱為K-項集,或頻繁K-項集。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19最小支持度和最小可信度

為了發(fā)現(xiàn)有意義的關聯(lián)規(guī)則,通過由用戶或數(shù)據(jù)挖掘系統(tǒng)給定兩個閾值:最小支持度和最小可信度。

最小支持度表示了項集在統(tǒng)計意義上須滿足的最低程度。最小可信度反應了關聯(lián)規(guī)則需滿足的最低程度。

如果不考慮關聯(lián)規(guī)則的支持度和可信度,那么在D中則存在過多的關聯(lián)規(guī)則。人們一般只對滿足一定的支持度和置信度的關聯(lián)規(guī)則感興趣。因此,使用兩個閾值的作用可以限制數(shù)據(jù)挖掘系統(tǒng)輸出的關聯(lián)規(guī)則的數(shù)量,盡可能給用戶提供有意義的關聯(lián)規(guī)則。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19大型數(shù)據(jù)庫關聯(lián)規(guī)則挖掘(2)

“如何由大型數(shù)據(jù)庫挖掘關聯(lián)規(guī)則?”關聯(lián)規(guī)則的挖掘是一個兩步的過程:1.找出所有頻繁項集:根據(jù)定義,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持計數(shù)一樣。(最小支持度)2.由頻繁項集產生強關聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。

如果愿意,也可以使用附加的興趣度度量。這兩步中,第二步最容易。挖掘關聯(lián)規(guī)則的總體性能由第一步決定。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘2025/1/19關聯(lián)規(guī)則挖掘分類(1)關聯(lián)規(guī)則有多種分類:根據(jù)規(guī)則中所處理的值類型布爾關聯(lián)規(guī)則如果規(guī)則描述的是量化的項或屬性之間的關聯(lián),則它是量化關聯(lián)規(guī)則。在這種規(guī)則中,項或屬性的量化值劃分為區(qū)間。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘關聯(lián)規(guī)則挖掘分類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論