版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第九章知識發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)庫中知識發(fā)現(xiàn)
史忠植中科院計算所2023/1/171知識發(fā)現(xiàn)關(guān)聯(lián)規(guī)則數(shù)據(jù)倉庫知識發(fā)現(xiàn)工具2023/1/172知識發(fā)現(xiàn)知識發(fā)現(xiàn)是指從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟、工業(yè)、農(nóng)業(yè)、軍事、社會數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識可以表示成各種形式 規(guī)則、科學規(guī)律、方程或概念網(wǎng)。2023/1/173數(shù)據(jù)庫知識發(fā)現(xiàn)
目前,關(guān)系型數(shù)據(jù)庫技術(shù)成熟、應用廣泛。因此,數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)的研究非?;钴S。
該術(shù)語于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”
2023/1/174不同的術(shù)語名稱
知識發(fā)現(xiàn)是一門來自不同領域的研究者關(guān)注的交叉性學科,因此導致了很多不同的術(shù)語名稱。
知識發(fā)現(xiàn):人工智能和機器學習界。數(shù)據(jù)挖掘(datamining): 統(tǒng)計界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界知識抽取(informationextraction)、信息發(fā)現(xiàn)(informationdiscovery)、智能數(shù)據(jù)分析(intelligentdataanalysis)、探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(informationharvesting)
數(shù)據(jù)考古(dataarcheology)2023/1/1752023/1/176知識發(fā)現(xiàn)的任務(1)數(shù)據(jù)總結(jié):對數(shù)據(jù)進行總結(jié)與概括。傳統(tǒng)的最簡單的數(shù)據(jù)總結(jié)方法是計算出數(shù)據(jù)庫的各個字段上的求和值、平均值、方差值等統(tǒng)計值,或者用直方圖、餅狀圖等圖形方式表示。分類: 根據(jù)分類模型對數(shù)據(jù)集合分類。分類屬于有導師學習,一般需要有一個訓練樣本數(shù)據(jù)集作為輸入。聚類:
根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類。無導師學習2023/1/177知識發(fā)現(xiàn)的任務(2)相關(guān)性分析:發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系 關(guān)聯(lián)規(guī)則偏差分析:
基本思想是尋找觀察結(jié)果與參照量之間的有意義的差別。通過發(fā)現(xiàn)異常,可以引起人們對特殊情況的加倍注意。建模: 構(gòu)造描述一種活動或狀態(tài)的數(shù)學模型2023/1/178知識發(fā)現(xiàn)的方法(1)統(tǒng)計方法:
傳統(tǒng)方法: 回歸分析、判別分析、聚類分析、探索性分析模糊集(fuzzyset)Zadeh1965支持向量機(SupportVectorMachine)Vapnik90年代初粗糙集(RoughSet)Pawlak80年代初2023/1/179知識發(fā)現(xiàn)的方法(2)機器學習:
規(guī)則歸納:AQ算法決策樹:ID3、C4.5范例推理:CBR遺傳算法:GA貝葉斯信念網(wǎng)絡2023/1/1710知識發(fā)現(xiàn)的方方法(3)神經(jīng)計算:神經(jīng)網(wǎng)絡是指指一類新的計計算模型,它它是模仿人腦腦神經(jīng)網(wǎng)絡的的結(jié)構(gòu)和某些些工作機制而而建立的一種種計算模型。。常用的模型型:Hopfield網(wǎng)多層感知機自組織特征映映射反傳網(wǎng)絡可視化:2023/1/111KDD的技術(shù)難點動態(tài)變化的數(shù)數(shù)據(jù)噪聲數(shù)據(jù)不完整冗余信息數(shù)據(jù)稀疏超大數(shù)據(jù)量2023/1/112關(guān)聯(lián)規(guī)則屬于知識發(fā)現(xiàn)現(xiàn)任務中的相相關(guān)性分析由于條形碼技技術(shù)的發(fā)展,零售部門可可以利用前端端收款機收集集存儲大量的的售貨數(shù)據(jù)。。因此,如果果對這些歷史史事務數(shù)據(jù)進進行分析,則則可對顧客的的購買行為提提供極有價值值的信息。例例如,可以幫幫助如何擺放放貨架上的商商品(如把顧顧客經(jīng)常同時時買的商品放放在一起),幫助如何規(guī)規(guī)劃市場(怎怎樣相互搭配配進貨)。2023/1/113關(guān)聯(lián)規(guī)則的的表示關(guān)聯(lián)規(guī)則的的形式如“在購買面包包顧客中,有70%的人同時時也買了黃黃油”,可可以表示成成:面包→黃油油。用于關(guān)聯(lián)規(guī)規(guī)則發(fā)現(xiàn)的的主要對象象是事務型型數(shù)據(jù)庫,其中針對對的應用則則是售貨數(shù)數(shù)據(jù),也稱稱貨籃數(shù)據(jù)據(jù)。一個事事務一般由由如下幾個個部分組成成:事務處處理時間,一組顧顧客購買的的物品,有有時也有顧顧客標識號號(如信用用卡號)。。2023/1/114關(guān)聯(lián)規(guī)則的的相關(guān)概念念(1)設R={I1,I2……Im}是一組物品品集,W是一組事務務集。W中的每個事事務T是一組物品品,TR。假設有一個個物品集A,一個事務T,如果AT,則稱事務T支持物品集集A。關(guān)聯(lián)規(guī)則是是如下形式式的一種蘊蘊含:A→B,其中A、B是兩組物品品,AI,BI,且A∩B=。2023/1/115關(guān)聯(lián)規(guī)則的的相關(guān)概念念(2)支持度物品集A的支持度::稱物品集集A具有大小為為s的支持度,如果D中有s%的事務支持持物品集XP(A)1000個顧客購物物,其中200個顧客購買買了面包,,支持度就是是20%(200/1000)。關(guān)聯(lián)規(guī)則A→B的支持度::關(guān)聯(lián)規(guī)則則A→B在事務數(shù)據(jù)據(jù)庫W中具有大小小為s的支持度,如果物品品集A∪B的支持度為為s100個顧客購買買了面包和和黃油,則則面包→黃油10%%2023/1/116關(guān)聯(lián)聯(lián)規(guī)規(guī)則則的的相相關(guān)關(guān)概概念念(3)可信信度度設W中支支持持物物品品集集A的事事務務中中,,有有c%%的事事務務同同時時也也支支持持物物品品集集B,,c%%稱為為關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則A→→B的可可信信度度。。P(B|A)1000個顧顧客客購購物物,,200個顧客購購買了面面包,其其中140個買買了黃油油,則可可信度是是70%(140/200)。2023/1/117關(guān)聯(lián)規(guī)則則的相關(guān)關(guān)概念(4)最小支持持度minsup用戶規(guī)定定的關(guān)聯(lián)聯(lián)規(guī)則必必須滿足足的最小小支持度度。最小可信信度minconf用戶規(guī)定定的關(guān)聯(lián)聯(lián)規(guī)則必必須滿足足的最小小可信度度。大項集(大項集集、大物物品集largeitemset)支持度不不小于最最小支持持度minsup的物品集集2023/1/118關(guān)聯(lián)規(guī)則則發(fā)現(xiàn)任任務給定一個個事務數(shù)數(shù)據(jù)庫D,求出所有有滿足最最小支持持度和最最小可信信度的關(guān)關(guān)聯(lián)規(guī)則則。該問問題可以以分解為為兩個子子問題::求出D中滿足最最小支持持度的所所有大項項集;利用大項項集生成成滿足最最小可信信度的所所有關(guān)聯(lián)聯(lián)規(guī)則。。對于每每個大項項集A,若BA,B≠≠φ,且Confidence(B(AB))minconf,則構(gòu)成關(guān)關(guān)聯(lián)規(guī)則則B(AB)2023/1/119關(guān)聯(lián)規(guī)規(guī)則發(fā)發(fā)現(xiàn)的的基本本思路路第2個個子問問題比比較容容易。。目前前大多多數(shù)研研究集集中在在第一一個子子問題題上,,即如如何高高效地地求出出大項項集。。首先生生成長長度為為1的的大項項集((即單單個物物品)),記記為L[1];;在L[k]的基礎礎上生生成候候選物物品集集C[k+1],,候選物物品集集必須須保證證包括括所有有的大大項集集。用事務務數(shù)據(jù)據(jù)庫D中的事事務對對C[k+1]進行支支持度度測試試以生生成長長度為為k+1的大項項集L[k+1],,計算每每個候候選物物品集集的支支持度度,如如果大大于minsup,,則加入入到L[k+1]中。如果L[k+1]為空集集,則則結(jié)束束,L[1]∪∪L[2]∪……即為結(jié)結(jié)果;;否則則轉(zhuǎn)(2),繼繼續(xù)。。2023/1/120思路的的正確確性利用了了大物物品集集向下下封閉閉性,,即大大物品品集X的任意意子集集一定定是大大物品品集,,反過過來說說,如如果X有一子子集不不是大大項集集,則則X肯定不不是。。是寬度度優(yōu)先先算法法2023/1/121經(jīng)典的Apriori算法(1)L[1]={large1-itemsets};(2)for(k=2;L[k-1]不為為空空;k++)dobegin(3)C[k]=apriori-gen(L[k-1]);//新候候選選物物品品集集(4)Foralltransactionst∈Ddobegin(5)C=subset(C[k],t);//t中的的候候選選物物品品集集(6)Forallcandidatesc∈Cdo(7)c.count++;(8)end;(9)L[k]={c∈C[k]|c.count>=minsup};(10)end;(11)Answer=L[1]∪L[2]∪…2023/1/122apriori-gen(L[k-1])分成成兩兩步步::join算法法::從從兩兩個個L[k-1]物品品集集生生成成候候選選物物品品集集C[k]insertintoC[k]selectp.item1,p.item2,...,p.item(k-1),q.item(k-1)fromL[k-1]p,L[k-1]qwherep.item1=q.item1,...,p.item(k-2)=q.item(k-2),p.item(k-1)<q.item(k-1)2023/1/123Prune算法:從從C[k]中除去大大小為k-1且不在L[k-1]中的子集集(1)Forallitemsetsc∈C[k]do(2)Forall(k-1)-subsetssofcdo(3)if(sL[k-1])(4)thendeletecfromC[k]2023/1/124舉例:L[3]為{{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4}}經(jīng)過join后,C[4]={{1,2,3,4},{1,3,4,5}}由于{1,3,4,5}有子子集{1,4,5}不在L[3]中,所以經(jīng)過prune后,得到L[4]={{1,2,3,4}}2023/1/1252023/1/1262023/1/1272023/1/1282023/1/129關(guān)聯(lián)規(guī)規(guī)則發(fā)發(fā)現(xiàn)注注意的的問題題充分理理解數(shù)數(shù)據(jù)目標明明確數(shù)據(jù)準準備工工作要要做好好選取適適當?shù)牡淖钚⌒〉闹еС侄榷群涂煽尚哦榷群芎玫氐乩斫饨怅P(guān)聯(lián)聯(lián)規(guī)則則2023/1/130關(guān)聯(lián)規(guī)則則發(fā)現(xiàn)使使用步驟驟連接數(shù)據(jù)據(jù),做數(shù)數(shù)據(jù)準備備給定最小小支持度度和最小小可信度度,利用用知識發(fā)發(fā)現(xiàn)工具具提供的的算法發(fā)發(fā)現(xiàn)關(guān)聯(lián)聯(lián)規(guī)則可視化顯顯示、理理解、評評估關(guān)聯(lián)聯(lián)規(guī)則2023/1/131關(guān)聯(lián)規(guī)則則在保險險業(yè)務中中的應用用最小支持持度1%,最小小可信度度為50%2023/1/1322023/1/1332023/1/1342023/1/135數(shù)據(jù)倉庫在過去幾十年年,數(shù)據(jù)庫技技術(shù),特別是是OLTP(聯(lián)機事務處理理),主要是是為自動化生生產(chǎn)、精簡工工作任務和高高速采集數(shù)據(jù)據(jù)服務。它是是事務驅(qū)動的的、面向應用用的。20世紀80年代,人們們要利用現(xiàn)有有的數(shù)據(jù),進進行分析和推推理,從而為為決策提供依依據(jù)。這種需需求既要求聯(lián)聯(lián)機服務,又又涉及大量用用于決策的數(shù)數(shù)據(jù)。而傳統(tǒng)統(tǒng)的數(shù)據(jù)庫系系統(tǒng)已無法滿滿足這種需求求:所需歷史數(shù)據(jù)據(jù)量很大,而而傳統(tǒng)數(shù)據(jù)庫庫一般只存儲儲短期數(shù)據(jù)。。涉及許多部門門的數(shù)據(jù),而而不同系統(tǒng)的的數(shù)據(jù)難以集集成。對大量數(shù)據(jù)的的訪問性能明明顯下降2023/1/136數(shù)據(jù)倉庫的定定義信息處理技術(shù)術(shù)的發(fā)展趨勢勢是:從大量量的事務型數(shù)數(shù)據(jù)庫中抽取取數(shù)據(jù),并將將其清理、轉(zhuǎn)轉(zhuǎn)換為新的存存儲格。隨著著此過程的發(fā)發(fā)展和完善,,這種九十年年代初出現(xiàn)的的支持決策的的、特殊的數(shù)數(shù)據(jù)存儲即被被稱為數(shù)據(jù)倉倉庫(DataWarehouse)。。Inmon將數(shù)據(jù)倉庫明明確定義為::數(shù)據(jù)倉庫(DataWarehouse)是面向主題的的,集成的,,內(nèi)容相對穩(wěn)穩(wěn)定的、不同同時間的數(shù)據(jù)據(jù)集合,用以以支持經(jīng)營管管理中的決策策制定過程。。2023/1/137數(shù)據(jù)倉倉庫的的特征征(1)數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是面向向主題題的與傳統(tǒng)統(tǒng)數(shù)據(jù)據(jù)庫面面向應應用相相對應應的。。主題題是一一個在在較高高層次次將數(shù)數(shù)據(jù)歸歸類的的標準準,每每一個個主題題基本本對應應一個個宏觀觀的分分析領領域數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是集成成的在數(shù)據(jù)據(jù)進入入數(shù)據(jù)據(jù)倉庫庫之前前,必必然要要經(jīng)過過加工工與集集成。。要統(tǒng)統(tǒng)一原原始數(shù)數(shù)據(jù)中中的所所有矛矛盾之之處,,還要要進行行數(shù)據(jù)據(jù)綜合合和計計算2023/1/138數(shù)據(jù)倉庫庫的特征征(2)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)是穩(wěn)穩(wěn)定的數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)主要供供決策分分析之用用,所涉涉及的操操作主要要是數(shù)據(jù)據(jù)查詢,,一般不不進行修修改操作作數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)又是是隨時間間不斷變變化的數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)不是實實時更新新的,但但并不是是永遠不不變的,,也要隨隨著時間間的變化化不斷地地更新、、增刪和和重新綜綜合。更新周期期2023/1/139元數(shù)數(shù)據(jù)據(jù)元數(shù)數(shù)據(jù)據(jù)((Metadata))是關(guān)關(guān)于于數(shù)數(shù)據(jù)據(jù)的的數(shù)數(shù)據(jù)據(jù),,它它描描述述了了數(shù)數(shù)據(jù)據(jù)的的結(jié)結(jié)構(gòu)構(gòu)、、內(nèi)內(nèi)容容、、編編碼碼、、索索引引等等內(nèi)內(nèi)容容。。傳傳統(tǒng)統(tǒng)數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)字字典典是是一一種種元元數(shù)數(shù)據(jù)據(jù),,但但在在數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中,,元元數(shù)數(shù)據(jù)據(jù)的的內(nèi)內(nèi)容容比比數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)字字典典更更加加豐豐富富和和復復雜雜。。設設計計一一個個描描述述能能力力強強、、內(nèi)內(nèi)容容完完善善的的元元數(shù)數(shù)據(jù)據(jù),,是是有有效效管管理理數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的具具有有決決定定意意義義的的重重要要前前提提2023/1/140元數(shù)數(shù)據(jù)據(jù)的的重重要要性性數(shù)據(jù)據(jù)倉倉庫庫使使用用者者往往往往將將使使用用元元數(shù)數(shù)據(jù)據(jù)作作為為分分析析的的第第一一步步。。元元數(shù)數(shù)據(jù)據(jù)如如同同數(shù)數(shù)據(jù)據(jù)指指示示圖圖,,指指出出了了數(shù)數(shù)據(jù)據(jù)倉倉庫庫內(nèi)內(nèi)各各種種信信息息的的位位置置和和含含義義從操操作作型型數(shù)數(shù)據(jù)據(jù)環(huán)環(huán)境境到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換是是復復雜雜的的、、多多方方面面的的,,是是數(shù)數(shù)據(jù)據(jù)倉倉庫庫建建設設的的關(guān)關(guān)鍵鍵性性步步驟驟,,元元數(shù)數(shù)據(jù)據(jù)要要包包含含對對這這種種轉(zhuǎn)轉(zhuǎn)換換的的清清晰晰描描述述,,保保證證這這種種轉(zhuǎn)轉(zhuǎn)換換是是正正確確、、適適當當和和合合理理的的,,并并且且是是靈靈活活可可變變的的元數(shù)數(shù)據(jù)據(jù)還還管管理理粒粒度度的的劃劃分分、、索索引引的的建建立立以以及及抽抽取取更更新新的的周周期期等等,,以以便便管管理理好好數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中的的大大規(guī)規(guī)模模數(shù)數(shù)據(jù)據(jù)2023/1/141數(shù)據(jù)據(jù)倉倉庫庫的的相相關(guān)關(guān)概概念念事實實表表(Fact))::存儲儲用用戶戶需需要要查查詢詢分分析析的的數(shù)數(shù)據(jù)據(jù),,事事實實表表中中一一般般包包含含多多個個維維((Dimension))和度度量量((Measurement))。。維::代表表了了用用戶戶觀觀察察數(shù)數(shù)據(jù)據(jù)的的特特定定視視角角,,如如::時時間間維維、、地地區(qū)區(qū)維維、、產(chǎn)產(chǎn)品品維維等等。。每每一一個個維維可可劃劃分分為為不不同同的的層層次次來來取取值值,,如如時時間間維維的的值值可可按按年年份份、、季季度度、、月月份份來來劃劃分分,,描描述述了了不不同同的的查查詢詢層層次次。。度量:是是數(shù)據(jù)的的實際意意義,描描述數(shù)據(jù)據(jù)“是什什么”,,即一個個數(shù)值的的測量指指標,如如:人數(shù)數(shù)、單價價、銷售售量等。。2023/1/142數(shù)據(jù)倉倉庫的的建模模模型型度量的的實際際數(shù)據(jù)據(jù)存放放在事事實表表中。。維的的詳細細信息息,如如不同同的層層次劃劃分和和相應應數(shù)據(jù)據(jù)等在在維表表中存存儲,,事實實表中中存放放各個個維的的標識識碼鍵鍵。事事實表表和維維表將將通過過這些些鍵關(guān)關(guān)聯(lián)起起來,,構(gòu)成成一種種星型模模型對于層層次復復雜的的維,為避避免冗冗余數(shù)數(shù)據(jù)占占用過過大的的存儲儲空間間,可可以使使用多多個表表來描描述,這種種星型型模式式的擴擴展稱稱為雪花模模型2023/1/143OLAP數(shù)據(jù)倉庫技技術(shù)中,多多維數(shù)據(jù)分分析(MultidimensionalDataAnalysis))方法是一種重重要的技術(shù),,也稱作聯(lián)機機分析處理((On-LineAnalyticalProcessing,簡稱OLAP)或數(shù)據(jù)立方體體(DataCube)方法,主要是指通過過各種即席復復雜查詢,對對數(shù)據(jù)倉庫中中存儲的數(shù)據(jù)據(jù)進行各種統(tǒng)統(tǒng)計分析的應應用數(shù)據(jù)倉庫是面面向決策支持持的,決策的的前提是數(shù)據(jù)據(jù)分析。在數(shù)數(shù)據(jù)分析中經(jīng)經(jīng)常要用到諸諸如求和、總總計、平均、、最大、最小小等匯集操作作,這類操作作的計算量特特別大。2023/1/144OLAP的類型ROLAP::數(shù)據(jù)保留在原原有的關(guān)系型型結(jié)構(gòu)中,并并且將聚合表表也存儲在關(guān)關(guān)系數(shù)據(jù)庫,在技術(shù)成熟及及各方面的適適應性上較之之MOLAP占有一定的優(yōu)優(yōu)勢,性能較較差MOLAP:數(shù)據(jù)和聚合都都存儲在多維維結(jié)構(gòu)中,效率較高,便于進行優(yōu)優(yōu)化操作。維維數(shù)多數(shù)據(jù)量量大時,存儲儲是難點。HOALP:數(shù)據(jù)保留在原原有的關(guān)系型型結(jié)構(gòu)中,聚聚合存儲在多多維結(jié)構(gòu)。結(jié)結(jié)合ROLAP和MOLAP兩者的優(yōu)點2023/1/145OLAP的分析操作OLAP的基本多維分分析操作有鉆鉆?。╮ollup和drilldown))、切片(slice))和切塊(dice)、、以及旋轉(zhuǎn)(pivot)等。鉆取是改變維維的層次,變變換分析的粒粒度。它包括括向上鉆取和和向下鉆取。rollup是在某一維上上將低層次的的細節(jié)數(shù)據(jù)概概括到高層次次的匯總數(shù)據(jù)據(jù);而drilldown則相反,它從從匯總數(shù)據(jù)深深入到細節(jié)數(shù)數(shù)據(jù)進行觀察察切片和切塊是是在一部分維維上選定值后后,關(guān)心度量量數(shù)據(jù)在剩余余維上的分布布。如果剩余余的維只有兩兩個,則是切切片,否則是是切塊旋轉(zhuǎn)是變換維維的方向,即即在表格中重重新安排維的的放置(例如如行列互換2023/1/146數(shù)據(jù)倉倉庫和和知識識發(fā)現(xiàn)現(xiàn)技術(shù)術(shù)的結(jié)結(jié)合(1)知識發(fā)發(fā)現(xiàn)成成為數(shù)數(shù)據(jù)倉倉庫中中進行行數(shù)據(jù)據(jù)深層層分析析的一一種必必不可可少的的手段段數(shù)據(jù)倉倉庫是是面向向決策策分析析的,,數(shù)據(jù)據(jù)倉庫庫從事事務型型數(shù)據(jù)據(jù)抽取取并集集成得得到的的分析析型數(shù)數(shù)據(jù)后后,需需要各各種決決策分分析工工具對對這些些數(shù)據(jù)據(jù)進行行分析析和挖挖掘,,得到到有用用的決決策信信息。。而知知識發(fā)發(fā)現(xiàn)技技術(shù)具具備從從大量量數(shù)據(jù)據(jù)中發(fā)發(fā)現(xiàn)有有用信信息的的能力力。2023/1/147數(shù)據(jù)倉倉庫和和知識識發(fā)現(xiàn)現(xiàn)技術(shù)術(shù)的結(jié)結(jié)合(2)數(shù)據(jù)倉倉庫為為知識識發(fā)現(xiàn)現(xiàn)提供供經(jīng)過過良好好預處處理的的數(shù)據(jù)據(jù)源知識發(fā)發(fā)現(xiàn)往往往依依賴于于經(jīng)過過良好好組織織和預預處理理的數(shù)數(shù)據(jù)源源,數(shù)數(shù)據(jù)的的好壞壞直接接影響響知識識發(fā)現(xiàn)現(xiàn)的效效果。。數(shù)據(jù)倉倉庫具具有從從各種種數(shù)據(jù)據(jù)源中中抽取取數(shù)據(jù)據(jù),并并對數(shù)數(shù)據(jù)進進行清清洗、、聚集集和轉(zhuǎn)轉(zhuǎn)換等等各種種處理理的能能力2023/1/148一、數(shù)據(jù)挖挖掘概念----發(fā)發(fā)展1989IJCAI會議:數(shù)數(shù)據(jù)庫中的的知識發(fā)現(xiàn)現(xiàn)討論專題題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及及SIGKDDExplorations數(shù)據(jù)挖掘方方面更多的的國際會議議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.2023/1/149二、數(shù)據(jù)挖掘掘軟件的發(fā)展展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成
多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網(wǎng)絡計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設備的數(shù)據(jù)聯(lián)合
多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型RobertGrossman,,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀點2023/1/150二、數(shù)據(jù)挖掘掘軟件的發(fā)展展第一代數(shù)據(jù)挖挖掘軟件2023/1/151二、、數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件的的發(fā)發(fā)展展第一一代代數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件CBA新加加坡坡國國立立大大學學。?;谟陉P(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則的的分分類類算算法法,,能能從從關(guān)關(guān)系系數(shù)數(shù)據(jù)據(jù)或或者者交交易易數(shù)數(shù)據(jù)據(jù)中中挖挖掘掘關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則,,使使用用關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則進進行行分分類類和和預預測測2023/1/152二、數(shù)據(jù)挖挖掘軟件的的發(fā)展第二代數(shù)據(jù)據(jù)挖掘軟件件特點與數(shù)據(jù)庫管管理系統(tǒng)((DBMS))集成支持數(shù)據(jù)庫庫和數(shù)據(jù)倉倉庫,和它它們具有高高性能的接接口,具有有高的可擴擴展性能夠挖掘大大數(shù)據(jù)集、、以及更復復雜的數(shù)據(jù)據(jù)集通過支持數(shù)數(shù)據(jù)挖掘模模式(dataminingschema)和數(shù)據(jù)挖掘掘查詢語言言增加系統(tǒng)統(tǒng)的靈活性性典型的系統(tǒng)統(tǒng)如DBMiner,能通過DMQL挖掘語言進進行挖掘操操作缺陷只注重模型型的生成,,如何和預預言模型系系統(tǒng)集成導導致了第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年北師大版九年級生物上冊階段測試試卷
- 2025年人教版(2024)九年級地理下冊月考試卷含答案
- 2025年教科新版高一地理上冊階段測試試卷含答案
- 2025年粵人版九年級地理下冊階段測試試卷含答案
- 2025年中圖版八年級歷史上冊月考試卷
- 2025年蘇人新版九年級歷史下冊月考試卷
- 2025年人教版(2024)九年級歷史下冊階段測試試卷
- 2025年粵教新版選擇性必修3歷史下冊階段測試試卷含答案
- 2025年人教A新版九年級歷史上冊階段測試試卷含答案
- 2025版牛舍智能化溫控系統(tǒng)安裝工程承包合同4篇
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標數(shù)字見證服務規(guī)范
- 人教版2024-2025學年八年級上學期數(shù)學期末壓軸題練習
- 江蘇省無錫市2023-2024學年八年級上學期期末數(shù)學試題(原卷版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 2022年湖南省公務員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護理匯報
- 哪吒之魔童降世
- 2022年上海市各區(qū)中考一模語文試卷及答案
- 2024年全國統(tǒng)一高考數(shù)學試卷(新高考Ⅱ)含答案
- 我國無菌包裝行業(yè)消費量已超千億包-下游需求仍存擴容潛力
評論
0/150
提交評論