數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡介PPT課件_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡介PPT課件_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡介PPT課件_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡介PPT課件_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘簡介PPT課件_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、目錄 一、 數(shù)據(jù)庫相關(guān) 1.1 數(shù)據(jù)庫技術(shù)的發(fā)展 1.2 數(shù)據(jù)庫應(yīng)用中存在的問題 1.3 海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析工具 二、數(shù)據(jù)倉庫 2.1 什么是數(shù)據(jù)倉庫DW ( data warehouse )? 2.2 數(shù)據(jù)倉庫的主要特征 2.3 DW概念總結(jié) 2.4 操作型數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別 2.5 數(shù)據(jù)倉庫的數(shù)據(jù)模型 2.6 OLTP和OLAP的主要區(qū)別第1頁/共53頁目錄 2.7數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是分離的? 2.8 多維數(shù)據(jù)模型 三、數(shù)據(jù)挖掘 3.1 什么是數(shù)據(jù)挖掘? 3.2 數(shù)據(jù)挖掘的特點(diǎn) 3.3 數(shù)據(jù)挖掘的分類 3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系 3.6 數(shù)據(jù)挖掘?qū)嵗?頁/

2、共53頁一、 數(shù)據(jù)庫相關(guān)1.1 數(shù)據(jù)庫技術(shù)的發(fā)展 收集和數(shù)據(jù)庫創(chuàng)建 ( 20世紀(jì)60年代和更早 ) -原始文件處理 數(shù)據(jù)庫管理系統(tǒng)(20世紀(jì)70年代) -層次、網(wǎng)狀、關(guān)系數(shù)據(jù)庫系統(tǒng) -數(shù)據(jù)建模工具:實(shí)體-聯(lián)系(ER)模型等 -索引和數(shù)據(jù)組織技術(shù) -查詢語言:SQL 、用戶界面:表單、報告等 -查詢處理和查詢優(yōu)化、事務(wù)并發(fā)控制等 -聯(lián)機(jī)事務(wù)處理(OLTP)第3頁/共53頁1.1 數(shù)據(jù)庫技術(shù)的發(fā)展 高級數(shù)據(jù)庫系統(tǒng) ( 80年代中期現(xiàn)在 ) -高級數(shù)據(jù)模型: 擴(kuò)充關(guān)系、面向?qū)ο蟆ο?關(guān)系 -面向應(yīng)用:空間的、時間的、多媒體的、主動的、科學(xué)的、知識庫 (80年代后期現(xiàn)在) -數(shù)據(jù)倉庫和OLAP技術(shù)

3、-數(shù)據(jù)挖掘和知識發(fā)現(xiàn) 基于Web的數(shù)據(jù)庫系統(tǒng) (90年代現(xiàn)在) -基于XML的數(shù)據(jù)庫系統(tǒng) -Web 挖掘第4頁/共53頁1.2 數(shù)據(jù)庫應(yīng)用中存在的問題 “”。存儲了大量數(shù)據(jù)的數(shù)據(jù)庫變成了“數(shù)據(jù)墳?zāi)埂彪y以再訪問的數(shù)據(jù)檔案; 在大型數(shù)據(jù)庫中快速增長著海量數(shù)據(jù),;往往,因?yàn)?;若在?dāng)前運(yùn)行的操作數(shù)據(jù)庫中獲取信息,則影響數(shù)據(jù)庫的使用和性能第5頁/共53頁1.3 海量數(shù)據(jù)要求強(qiáng)有力的數(shù)據(jù)分析工具依賴用戶或某領(lǐng)域的專家人工地將知識輸入知識庫;這一過程常常有偏差和錯誤,并且耗時、費(fèi)用高; 使用數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析;可以,對商務(wù)決策、知識庫、科學(xué)和醫(yī)學(xué)研究作出了巨大貢獻(xiàn); 數(shù)據(jù)和信息之間的差距,要求系統(tǒng)地開

4、發(fā)數(shù)據(jù)挖掘工具,。第6頁/共53頁二、數(shù)據(jù)倉庫2.1 什么是數(shù)據(jù)倉庫DW ( data warehouse )? 數(shù)據(jù)倉庫可以看作是一種特殊的關(guān)系數(shù)據(jù)庫。 DW是一個的、的、的、的數(shù)據(jù)集合,用于支持管理部門的決策過程。允許在一起為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺,對信息處理、決策提供支持。第7頁/共53頁2.2 數(shù)據(jù)倉庫的主要特征面向主題的 ( subject oriented ) :(1) 所謂(宏觀領(lǐng)域),如顧客、供應(yīng)商、產(chǎn)品和銷售組織;是在高層次上將企業(yè)IS中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,為按決策的過程提供信息。 (2) DW關(guān)注決策者的

5、,而傳統(tǒng)數(shù)據(jù)庫是面向應(yīng)用的,集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。(3) DW排除對于決策無用的數(shù)據(jù),。 第8頁/共53頁2.2 數(shù)據(jù)倉庫的主要特征 (4) 傳統(tǒng)數(shù)據(jù)庫使用,進(jìn)行數(shù)據(jù)組織時考慮記錄每一筆業(yè)務(wù)的情況; 數(shù)據(jù)倉庫使用,進(jìn)行數(shù)據(jù)分析處理,以主題為單位組織數(shù)據(jù),例如:供應(yīng)商、商品、顧客等。 (5) 面向主題的數(shù)據(jù)組織方式要求,各主題域之間有明確的界限(獨(dú)立性),在某一主題內(nèi)的數(shù)據(jù)應(yīng)該包括分析處理所要求的一切數(shù)據(jù)(完備性)。第9頁/共53頁2.2 數(shù)據(jù)倉庫的主要特征集成的(integrated): (1) 構(gòu)造數(shù)據(jù)倉庫是將,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄,在一起。 (2) 將多個

6、系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算和整理,保證的數(shù)據(jù)是、的、的。 使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性等的數(shù)據(jù)結(jié)構(gòu)。 保證各數(shù)據(jù)源中的。第10頁/共53頁2.2 數(shù)據(jù)倉庫的主要特征不更新的 (nonvolatile): (1)訪問數(shù)據(jù)倉庫主要是兩種方式:。修改和刪除操作很少 。 (2) DW的與操作環(huán)境下的應(yīng)用數(shù)據(jù)。因此,數(shù)據(jù)倉庫不需要在操作環(huán)境下事務(wù)處理、恢復(fù)和并發(fā)控制等機(jī)制。第11頁/共53頁2.2 數(shù)據(jù)倉庫的主要特征隨時間變化的(time-variant):(1)記錄了從,通過這些信息,可以表明發(fā)展歷程并對未來的趨勢作出定量分析和預(yù)測。 (2) DW的數(shù)據(jù)結(jié)構(gòu),隱式或顯式地包含時間元

7、素;其包含的大量綜合數(shù)據(jù)也與時間相關(guān),例如:月產(chǎn)量。(3) DW;(例如:510年)。第12頁/共53頁2.3 DW概念總結(jié)DW概念總結(jié): 數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲體系結(jié)構(gòu); DW是決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息; DW通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起構(gòu)造而成; 完成各種數(shù)據(jù)查詢、信息分析報告和決策支持。 第13頁/共53頁2.4 操作型數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別 操作型數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是,稱為聯(lián)機(jī)事務(wù)處理 () 系統(tǒng)。它涵蓋了一個組織的大部分日常操作,如采購、制造、庫存、銷售、財(cái)務(wù)、銀行等事務(wù)。在數(shù)據(jù)分析和決策方面為決策者提供服務(wù)??梢杂貌煌母袷饺ソM

8、織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為()系統(tǒng)。 第14頁/共53頁2.5 數(shù)據(jù)倉庫的數(shù)據(jù)模型 數(shù)據(jù)倉庫和OLAP通常是基于。 該模型將數(shù)據(jù)看作(data cube)形式。 數(shù)據(jù)立方體由維和事實(shí)來定義;。 是關(guān)于一個組織想要記錄的透視或?qū)嶓w。 是面向某一主題的數(shù)據(jù)度量,它表示了多個 分析維之間的分析結(jié)果。 通常有和兩種形式。 第15頁/共53頁2.5 數(shù)據(jù)倉庫的數(shù)據(jù)模型 1. 維是人們觀察數(shù)據(jù)的特定角度。例如:時間維是商品銷售隨時間推移發(fā)生的變化;地理維是商品在不同地區(qū)的銷售分布情況。2. 某個維以下存在的對細(xì)節(jié)的多個描述方面,例如:時間維有年、季度、月、日等不同層次。3.

9、 維的一個取值是該維的一個成員。第16頁/共53頁2.5 數(shù)據(jù)倉庫的數(shù)據(jù)模型 4. 一個多維數(shù)組可以表示為(維1,維2,維3,維n, 變量);例如:(地區(qū)、時間、銷售渠道、銷售額)5. 多維數(shù)組的取值是數(shù)據(jù)單元。例如:(上海,2002年2月,批發(fā),2188)第17頁/共53頁2.6 OLTP和OLAP的主要區(qū)別: OLTP是的,用于辦事員、客戶和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。 OLAP是的,用于經(jīng)理、主管和信息分析人員的數(shù)據(jù)分析。:OLTP系統(tǒng)管理。這種數(shù)據(jù)太瑣碎,難以用于決策。 OLAP系統(tǒng)管理大量,提供匯總和聚集機(jī)制,并在不同的粒度級別上存儲和管理信息。數(shù)據(jù)易于用作中、高層的決策過程。

10、第18頁/共53頁2.6 OLTP和OLAP的主要區(qū)別 數(shù)據(jù)庫設(shè)計(jì): OLTP系統(tǒng)采用E-R(Entity Relationship Diagram)實(shí)體-聯(lián)系模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì)。 OLAP系統(tǒng)采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì) 視圖: OLTP系統(tǒng)主要關(guān)注一個企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。 OLAP系統(tǒng)由于組織的變化常??缭綌?shù)據(jù)庫模式的多個版本。 OLAP系統(tǒng)也處理來自不同組織的信息,由多個數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP數(shù)據(jù)也存放在多個存儲介質(zhì)上。第19頁/共53頁2.6 OLTP和OLAP的主要區(qū)別: 對OLTP系統(tǒng)的訪問主要由短的

11、原子事務(wù)組成。這種系統(tǒng)需要并行控制和恢復(fù)機(jī)制。 對OLAP系統(tǒng)的訪問大部分是只讀操作(由于大部分?jǐn)?shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當(dāng)前數(shù)據(jù)),盡管許多可能是復(fù)雜的查詢。 OLTP和OLAP的: 包括數(shù)據(jù)庫大小、操作的頻繁程度、性能度量等。 第20頁/共53頁OLTP系統(tǒng)和OLAP系統(tǒng)的比較表 特 性 OLTP OLAP特征 操作處理 信息處理面向 事務(wù) 分析用戶 辦事員、客戶、數(shù)據(jù)庫專業(yè)人員 經(jīng)理、主管、分析員功能 日常操作 長期信息需求,決策支持DB設(shè)計(jì) 基于E-R,面向應(yīng)用 星型/雪花,面向主題數(shù)據(jù) 當(dāng)前的,確保最新 歷史的,跨時間維護(hù)匯總 原始的,高度詳細(xì) 匯總的,統(tǒng)一的視圖 詳細(xì),一般關(guān)系

12、匯總的,多維的工作單位 短的,簡單事務(wù) 復(fù)雜查詢存取 讀/寫 大多為讀關(guān)注 數(shù)據(jù)輸入、存儲 信息輸出操作 主關(guān)鍵字上索引/散列 大量掃描訪問記錄數(shù)量 數(shù)十個 數(shù)百萬用戶數(shù) 數(shù)千 數(shù)百DB規(guī)模 100MB到GB 100GB到TB優(yōu)先 高性能,高可用性 高靈活性,端點(diǎn)用戶自治度量 事務(wù)吞吐量 查詢吞吐量,響應(yīng)時間 第21頁/共53頁2.7數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是分離的? 操作型數(shù)據(jù)庫存放了大量數(shù)據(jù),為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時間和資源去構(gòu)造一個與之分離的數(shù)據(jù)倉庫?是提高兩個系統(tǒng)的性能。 是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,如使用主關(guān)鍵字索引,檢索特定的記錄和優(yōu)化查詢; 的

13、查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級的計(jì)算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實(shí)現(xiàn)方法。第22頁/共53頁2.7數(shù)據(jù)倉庫與操作數(shù)據(jù)庫為什么是分離的?支持多事務(wù)的并行處理,需要加鎖和日志等并行控制和恢復(fù)機(jī)制,以確保數(shù)據(jù)的一致性和完整性。對數(shù)據(jù)記錄進(jìn)行只讀訪問,以進(jìn)行匯總和聚集。 如果OLTP和OLAP都在操作型數(shù)據(jù)庫上運(yùn)行,會大大降低數(shù)據(jù)庫系統(tǒng)的吞吐量。 總之,數(shù)據(jù)倉庫與操作數(shù)據(jù)庫分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。第23頁/共53頁 兩種系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、內(nèi)容和用法都不相同 一般不維護(hù)歷史數(shù)據(jù),其數(shù)據(jù)很多,但對于決策是遠(yuǎn)遠(yuǎn)不夠的。用于決策支持需要?dú)v史數(shù)據(jù),將不同

14、來源的數(shù)據(jù)統(tǒng)一(如聚集和匯總),產(chǎn)生高質(zhì)量、一致和集成的數(shù)據(jù)。只維護(hù)詳細(xì)的原始數(shù)據(jù)(如事務(wù)),這些數(shù)據(jù)在進(jìn)行分析之前需要統(tǒng)一。 由于兩個系統(tǒng)提供很不相同的,需要不同類型的,因此需要維護(hù)的數(shù)據(jù)庫。第24頁/共53頁2.8 多維數(shù)據(jù)模型 據(jù)倉庫和OLAP基于。該模型將數(shù)據(jù)看作數(shù)據(jù)立方體(data cube)形式。 數(shù)允許以多維對數(shù)據(jù)建模和觀察。它由維和事實(shí)定義。是關(guān)于一個組織想要記錄的視圖或?qū)嶓w。 例如,商店可能創(chuàng)建一個數(shù)據(jù)倉庫sales,記錄商店的銷售,涉及維 time,item(商品類),branch(分店)和 location(地點(diǎn))。這些維使得商店能夠記錄商品的月銷售,銷售商品的分店和地點(diǎn)

15、。第25頁/共53頁2.8 多維數(shù)據(jù)模型 : 多維數(shù)據(jù)模型圍繞中心主題(例如sales)組織。 主題用事實(shí)表表示。是用數(shù)值度量的。根據(jù)它們分析維之間的關(guān)系。例如,sales銷售數(shù)據(jù)倉庫的事實(shí)包括dollars_sold(銷售的款項(xiàng)),units_sold(銷售量)和amount_budgeted(預(yù)銷量)。包括事實(shí)的名稱,以及每個相關(guān)維表的關(guān)鍵字。第26頁/共53頁2.8 多維數(shù)據(jù)模型 例:某連鎖商店的銷售數(shù)據(jù)按照time季度, item商品類的2-D視圖(其中銷售數(shù)據(jù)是取自Location=“Vancouver”的所有分店,銷售金額單位是1000美元)。 item(商品類) _ 季度 家庭娛

16、樂 計(jì)算機(jī) 電 話 安全設(shè)備 Q1 605 825 14 400 Q2 680 952 31 512 Q3 812 1023 30 501 Q4 927 1038 38 580 第27頁/共53頁2.8 多維數(shù)據(jù)模型 以三維角度觀察該連鎖商店的銷售數(shù)據(jù)。例如,根據(jù)time,item和location城市觀察數(shù)據(jù)。 location是Chicago, New York,Toronto和Vancouver。 location“Chicago” ;location“New York” . (該市上述二維表 略) (該市上述二維表 略)第28頁/共53頁2.8 多維數(shù)據(jù)模型 多維數(shù)據(jù)庫模型: 星型、雪

17、花型廣泛使用。數(shù)據(jù)庫模式由實(shí)體的集合和它們之間的聯(lián)系組成。這種數(shù)據(jù)模型適用于聯(lián)機(jī)事務(wù)處理。 數(shù)據(jù)倉庫需要簡明的、,便于聯(lián)機(jī)數(shù)據(jù)分析。 數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型。這種模型有、等。第29頁/共53頁2.8 多維數(shù)據(jù)模型 是數(shù)據(jù)倉庫最常見的數(shù)據(jù)模型,其中包括: (1)包含大批數(shù)據(jù)和不含冗余的中心表; (2)一組小的附屬表( 維表 ),每一維一個。維表圍繞中心表顯示在連線上。 例:某連鎖商店的星型模式如下圖所示。sales有四個維,分別是time,item,branch(分店)和location。該模式包含一個中心事實(shí)表sales,它包含四個維的關(guān)鍵字和兩個度量dollars_sold銷售的款項(xiàng)

18、和units_sold銷售量。第30頁/共53頁2.8 多維數(shù)據(jù)模型 在星型模式中,每一維只用一個表表示,每個表包含一組屬性。例如,location維表包含屬性集location_key, street, city, province_or_state, country。 第31頁/共53頁2.8 多維數(shù)據(jù)模型 sales 數(shù)據(jù)倉庫的星型模式 time item 維表 維表 time_key - time_key item_name day item_key - item_key day_of_the_week units_sold brand month dollars_sold type

19、quarter location_key supplier_type year branch_key | | | branch維表 location維表 branch_key location_key branch_name street branch_type city province_or_state country 第32頁/共53頁2.8 多維數(shù)據(jù)模型雪花模型(snowflake schema) 雪花模型是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中。結(jié)果,模型圖形成類似于雪花的形狀。 雪花模型和星型模型的在于,雪花模型的維表可能是規(guī)范化形式,以便減少冗余

20、。 這種表,并,因?yàn)楫?dāng)維結(jié)構(gòu)作為列包含在內(nèi)時,大維表可能非常大。 由于執(zhí)行查詢需要更多的連接操作,雪花模型可能降低瀏覽的性能。數(shù)據(jù)倉庫系統(tǒng)的性能可能受到影響。在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模式使用廣泛。 第33頁/共53頁2.8 多維數(shù)據(jù)模型 雪花模型(snowflake schema) 該連鎖商店sales的雪花模型在下圖給出。這里,sales事實(shí)表與上面的星型模型相同。兩個模式的主要不同是維表。 星型模型中的item的單個維表在雪花模型中被規(guī)范化,導(dǎo)致新的item表和supplier供應(yīng)商表。例如,現(xiàn)在item維表包含屬性item_key, item_name, brand ,type

21、和supplier_key,supplier_key連接到supplier維表。而supplier維表包含信息supplier_key和supplier_type。 類似地,星型模型中l(wèi)ocation的單個維表被規(guī)范化成兩個表:新的location和city。新的location表中的location_key現(xiàn)在連接到city維。根據(jù)需要雪花模型還可以進(jìn)一步規(guī)范化。 第34頁/共53頁2.8 多維數(shù)據(jù)模型 sales數(shù)據(jù)倉庫的雪花模式timeitem維表維表time_key - time_key item_nameday item_key -item_keyday_of_the_week un

22、its_sold brandmonth dollars_sold type supplier 維表quarter location_key supplier_type - supplier_keyyear branch_key | (規(guī)范化)supplier_type | | branch維表 location維表 (規(guī)范化) branch_key location_key branch_name street city維表 branch_type city - city_key province_or_state country 第35頁/共53頁三、數(shù)據(jù)挖掘3.1 什么是數(shù)據(jù)挖掘?是。這些

23、規(guī)則蘊(yùn)含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,為經(jīng)營決策、市場策劃、金融預(yù)測等提供依據(jù)。 通過數(shù)據(jù)挖掘,有價值的知識、規(guī)則或高層次的信息能就從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫作為一個豐富可靠的資源為知識管理服務(wù)。第36頁/共53頁3.1 什么是數(shù)據(jù)挖掘?在一些文獻(xiàn)中也有其他名稱,如數(shù)據(jù)開采、知識挖掘、知識抽取、知識考察等。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)KDD的一個,它包括特定的數(shù)據(jù)挖掘算法,具有可接受的計(jì)算效率,生成特殊的模式。 KDD是利用數(shù)據(jù)挖掘算法,按指定方式和閾值抽取有價值的知識,包括數(shù)據(jù)挖掘前對數(shù)據(jù)的預(yù)處理、抽樣及轉(zhuǎn)換和數(shù)據(jù)挖掘后對知識的評價解

24、釋過程。 第37頁/共53頁3.2 數(shù)據(jù)挖掘的特點(diǎn) 所處理的數(shù)據(jù)規(guī)模十分巨大。尋找決策所需的信息。數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則。數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)主要基于大樣本的統(tǒng)計(jì)規(guī)律,發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),當(dāng)達(dá)到某一時便可認(rèn)為有此規(guī)律。第38頁/共53頁3.3 數(shù)據(jù)挖掘的分類 根據(jù)所開采的數(shù)據(jù)庫類型、發(fā)現(xiàn)的知識類型、采用的技術(shù)類型,數(shù)據(jù)挖掘有不同的分類方法。 (1) 按數(shù)據(jù)庫類型分類 從關(guān)系數(shù)據(jù)庫中發(fā)現(xiàn)知識; 從面向?qū)ο髷?shù)據(jù)庫中發(fā)現(xiàn)知識; 從多媒體數(shù)據(jù)庫、空間數(shù)據(jù)庫、歷史數(shù)據(jù)庫、Web數(shù)據(jù)庫中發(fā)現(xiàn)知識。 第39頁/共53頁3.3 數(shù)據(jù)挖掘的分類(2) 按挖掘的知識類型分類 可分為

25、關(guān)聯(lián)規(guī)則、特征規(guī)則、分類規(guī)則、偏差規(guī)則、聚集規(guī)則、判別式規(guī)則及時序規(guī)則等。 可分為歸納知識、原始級知識、多層次知識。一個靈活的規(guī)則挖掘系統(tǒng)能夠在多個層次上發(fā)現(xiàn)知識。第40頁/共53頁3.3 數(shù)據(jù)挖掘的分類(3) 按利用的技術(shù)類型分類分為自發(fā)知識開采、數(shù)據(jù)驅(qū)動開采、查詢驅(qū)動開采和交互式數(shù)據(jù)開采。分為基于歸納的開采、基于模式的開采、基于統(tǒng)計(jì)和數(shù)學(xué)理論的開采及集成開采等。第41頁/共53頁3.3 數(shù)據(jù)挖掘的分類(4) 按挖掘的深度分類 在上,利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢/檢索及報表功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行 OLAP,從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)。 在上,從數(shù)據(jù)庫中發(fā)現(xiàn)前所未知

26、的、隱含的知識。的出現(xiàn)早于數(shù)據(jù)挖掘,兩者都是從數(shù)據(jù)庫中抽取有用信息的方法,就決策支持的需要而言兩者可以起到相輔相承的作用。OLAP可以作為一種廣義的數(shù)據(jù)挖掘方法,它旨在簡化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的目的是使這一過程盡可能自動化。 第42頁/共53頁:(1)/。用數(shù)據(jù)庫的若干已知字段預(yù)測或驗(yàn)證其他未知字段值; (2)指找到描述數(shù)據(jù)的可理解模式。第43頁/共53頁3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系 是指識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的、最終可理解的、模式的、非平凡過程。 的整個過程包括在指定的數(shù)據(jù)庫中用數(shù)據(jù)挖掘算法提取模型,以及圍繞數(shù)據(jù)挖掘進(jìn)行的預(yù)處理和結(jié)果表達(dá)等一系列的計(jì)算步驟

27、。盡管數(shù)據(jù)挖掘是整個過程的中心,但它通常只占整個過程15%25%的工作量。是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而則是此全過程的一個特定的關(guān)鍵步驟 第44頁/共53頁3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系 KDD的步驟:1 熟悉應(yīng)用領(lǐng)域、背景知識及用戶的KDD任務(wù)性質(zhì);2 數(shù)據(jù)的選擇:確定與發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)集合;3 數(shù)據(jù)清理和預(yù)處理,包括除去錯誤和冗余數(shù)據(jù)、處理丟失數(shù)據(jù)、更新數(shù)據(jù)和時序信息并將其準(zhǔn)備成數(shù)據(jù)挖掘工具所需的表達(dá)式;4 數(shù)據(jù)縮減和投影,尋找依賴于發(fā)現(xiàn)目標(biāo)的、表達(dá)數(shù)據(jù)的有用特征,通過降低維數(shù)和數(shù)據(jù)轉(zhuǎn)換以縮減數(shù)據(jù)規(guī)模;降低數(shù)據(jù)復(fù)雜性;5 確定KDD目標(biāo),選擇合適的算法如聚集、分類、線性回歸等;第4

28、5頁/共53頁3.5 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的聯(lián)系6 選擇數(shù)據(jù)挖掘算法,選擇適當(dāng)?shù)哪P秃蛥?shù);7 執(zhí)行數(shù)據(jù)挖掘過程,發(fā)現(xiàn)模式并表達(dá)成易理解的 形式如分類規(guī)則等;8 評價和解釋發(fā)現(xiàn)的模式,必要時反復(fù)執(zhí)行步驟 1到7;9 將模式提交給用戶或應(yīng)用到系統(tǒng)中。 KDD整個過程是一個以知識工作者為中心、人機(jī)交互的探索過程。第46頁/共53頁3.6 數(shù)據(jù)挖掘?qū)嵗祟愑屑s10萬個基因。一個基因通常由成百個核苷按一定次序組織而成。核苷按不同的次序和序列可以形成不同的基因,幾乎是不計(jì)其數(shù)。 具有挑戰(zhàn)性的問題是從中找出導(dǎo)致各種疾病的。 由于在數(shù)據(jù)挖掘中己經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具第47頁/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論