版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2023/10/231第九章知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)
2023/10/232知識(shí)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則數(shù)據(jù)倉(cāng)庫(kù)知識(shí)發(fā)現(xiàn)工具2023/10/233知識(shí)發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)是指從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟(jì)、工業(yè)、農(nóng)業(yè)、軍事、社會(huì)數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號(hào)、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識(shí)可以表示成各種形式 規(guī)則、科學(xué)規(guī)律、方程或概念網(wǎng)。2023/10/234數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)
目前,關(guān)系型數(shù)據(jù)庫(kù)技術(shù)成熟、應(yīng)用廣泛。因此,數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)的研究非?;钴S。
該術(shù)語(yǔ)于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程”
2023/10/235不同的術(shù)語(yǔ)名稱(chēng)
知識(shí)發(fā)現(xiàn)是一門(mén)來(lái)自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語(yǔ)名稱(chēng)。
知識(shí)發(fā)現(xiàn):人工智能和機(jī)器學(xué)習(xí)界。數(shù)據(jù)挖掘(datamining): 統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)和管理信息系統(tǒng)界知識(shí)抽取(informationextraction)、信息發(fā)現(xiàn)(informationdiscovery)、智能數(shù)據(jù)分析(intelligentdataanalysis)、探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(informationharvesting)
數(shù)據(jù)考古(dataarcheology)2023/10/2362023/10/237知識(shí)發(fā)現(xiàn)的任務(wù)(1)數(shù)據(jù)總結(jié):對(duì)數(shù)據(jù)進(jìn)行總結(jié)與概括。傳統(tǒng)的最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫(kù)的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。分類(lèi): 根據(jù)分類(lèi)模型對(duì)數(shù)據(jù)集合分類(lèi)。分類(lèi)屬于有導(dǎo)師學(xué)習(xí),一般需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。聚類(lèi):
根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類(lèi)。無(wú)導(dǎo)師學(xué)習(xí)2023/10/23高級(jí)人工智能史忠植8知識(shí)發(fā)現(xiàn)的任務(wù)(2)相關(guān)性分析:發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴(lài)關(guān)系 關(guān)聯(lián)規(guī)則偏差分析:
基本思想是尋找觀(guān)察結(jié)果與參照量之間的有意義的差別。通過(guò)發(fā)現(xiàn)異常,可以引起人們對(duì)特殊情況的加倍注意。建模: 構(gòu)造描述一種活動(dòng)或狀態(tài)的數(shù)學(xué)模型2023/10/23高級(jí)人工智能史植9知識(shí)發(fā)現(xiàn)的方法(1)統(tǒng)計(jì)方法:
傳統(tǒng)方法: 回歸分析、判別分析、聚類(lèi)分析、探索性分析模糊集(fuzzyset)Zadeh1965支持向量機(jī)(SupportVectorMachine)Vapnik90年代初粗糙集(RoughSet)Pawlak80年代初2023/10/23高級(jí)人工智能史忠植10知識(shí)發(fā)現(xiàn)的方法(2)機(jī)器學(xué)習(xí):
規(guī)則歸納:AQ算法決策樹(shù):ID3、C4.5范例推理:CBR遺傳算法:GA貝葉斯信念網(wǎng)絡(luò)2023/10/2311知識(shí)發(fā)現(xiàn)的方法(3)神經(jīng)計(jì)算:
神經(jīng)網(wǎng)絡(luò)是指一類(lèi)新的計(jì)算模型,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種計(jì)算模型。常用的模型:Hopfield網(wǎng)多層感知機(jī)自組織特征映射反傳網(wǎng)絡(luò)可視化: 2023/10/2312KDD的技術(shù)難點(diǎn)動(dòng)態(tài)變化的數(shù)據(jù)噪聲數(shù)據(jù)不完整冗余信息數(shù)據(jù)稀疏超大數(shù)據(jù)量2023/10/2313關(guān)聯(lián)規(guī)則屬于知識(shí)發(fā)現(xiàn)任務(wù)中的相關(guān)性分析由于條形碼技術(shù)的發(fā)展,零售部門(mén)可以利用前端收款機(jī)收集存儲(chǔ)大量的售貨數(shù)據(jù)。因此,如果對(duì)這些歷史事務(wù)數(shù)據(jù)進(jìn)行分析,則可對(duì)顧客的購(gòu)買(mǎi)行為提供極有價(jià)值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經(jīng)常同時(shí)買(mǎi)的商品放在一起),幫助如何規(guī)劃市場(chǎng)(怎樣相互搭配進(jìn)貨)。2023/10/2314關(guān)聯(lián)規(guī)則的表示關(guān)聯(lián)規(guī)則的形式如
“在購(gòu)買(mǎi)面包顧客中,有70%的人同時(shí)也買(mǎi)了黃油”,可以表示成:面包→黃油。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對(duì)象是事務(wù)型數(shù)據(jù)庫(kù),其中針對(duì)的應(yīng)用則是售貨數(shù)據(jù),也稱(chēng)貨籃數(shù)據(jù)。一個(gè)事務(wù)一般由如下幾個(gè)部分組成:事務(wù)處理時(shí)間,一組顧客購(gòu)買(mǎi)的物品,有時(shí)也有顧客標(biāo)識(shí)號(hào)(如信用卡號(hào))。2023/10/2315關(guān)聯(lián)規(guī)則的相關(guān)概念(1)設(shè)R={I1,I2……Im}是一組物品集,W是一組事務(wù)集。W中的每個(gè)事務(wù)T是一組物品,T
R。假設(shè)有一個(gè)物品集A,一個(gè)事務(wù)T,如果A
T,則稱(chēng)事務(wù)T支持物品集A。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含:A→B,其中A、B是兩組物品,A
I,B
I,且A∩B=
。2023/10/2316關(guān)聯(lián)規(guī)則的相關(guān)概念(2)支持度物品集A的支持度:稱(chēng)物品集A具有大小為s的支持度,如果D中有s%的事務(wù)支持物品集XP(A)1000個(gè)顧客購(gòu)物,其中200個(gè)顧客購(gòu)買(mǎi)了面包,支持度就是20%(200/1000)。
關(guān)聯(lián)規(guī)則A→B的支持度:關(guān)聯(lián)規(guī)則A→B在事務(wù)數(shù)據(jù)庫(kù)W中具有大小為s的支持度,如果物品集A∪B的支持度為s100個(gè)顧客購(gòu)買(mǎi)了面包和黃油,則面包→黃油10%2023/10/2317關(guān)聯(lián)規(guī)則的相關(guān)概念(3)可信度設(shè)W中支持物品集A的事務(wù)中,有c%的事務(wù)同時(shí)也支持物品集B,c%稱(chēng)為關(guān)聯(lián)規(guī)則A→B的可信度。
P(B|A)1000個(gè)顧客購(gòu)物,200個(gè)顧客購(gòu)買(mǎi)了面包,其中140個(gè)買(mǎi)了黃油,則可信度是70%(140/200)。2023/10/2318關(guān)聯(lián)規(guī)則的相關(guān)概念(4)最小支持度minsup用戶(hù)規(guī)定的關(guān)聯(lián)規(guī)則必須滿(mǎn)足的最小支持度。最小可信度minconf用戶(hù)規(guī)定的關(guān)聯(lián)規(guī)則必須滿(mǎn)足的最小可信度。大項(xiàng)集(大項(xiàng)集、大物品集largeitemset)支持度不小于最小支持度minsup的物品集2023/10/2319關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù)給定一個(gè)事務(wù)數(shù)據(jù)庫(kù)D,求出所有滿(mǎn)足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。該問(wèn)題可以分解為兩個(gè)子問(wèn)題:求出D中滿(mǎn)足最小支持度的所有大項(xiàng)集;利用大項(xiàng)集生成滿(mǎn)足最小可信度的所有關(guān)聯(lián)規(guī)則。對(duì)于每個(gè)大項(xiàng)集A,若B
A,B≠φ,且Confidence(B
(A
B))
minconf,則構(gòu)成關(guān)聯(lián)規(guī)則B
(A
B)2023/10/2320關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的基本思路
第2個(gè)子問(wèn)題比較容易。目前大多數(shù)研究集中在第一個(gè)子問(wèn)題上,即如何高效地求出大項(xiàng)集。
首先生成長(zhǎng)度為1的大項(xiàng)集(即單個(gè)物品),記為L(zhǎng)[1];在L[k]的基礎(chǔ)上生成候選物品集C[k+1],候選物品集必須保證包括所有的大項(xiàng)集。用事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)對(duì)C[k+1]進(jìn)行支持度測(cè)試以生成長(zhǎng)度為k+1的大項(xiàng)集L[k+1],計(jì)算每個(gè)候選物品集的支持度,如果大于minsup,則加入到L[k+1]中。如果L[k+1]為空集,則結(jié)束,L[1]∪L[2]∪…即為結(jié)果;否則轉(zhuǎn)(2),繼續(xù)。2023/10/2321思路的正確性利用了大物品集向下封閉性,即大物品集X的任意子集一定是大物品集,反過(guò)來(lái)說(shuō),如果X有一子集不是大項(xiàng)集,則X肯定不是。是寬度優(yōu)先算法2023/10/2322經(jīng)典的Apriori算法(1)L[1]={large1-itemsets};(2)for(k=2;L[k-1]不為空;k++)dobegin(3)C[k]=apriori-gen(L[k-1]);//新候選物品集(4)Foralltransactionst∈Ddobegin(5)C=subset(C[k],t);//t中的候選物品集(6)Forallcandidatesc∈Cdo(7)c.count++;(8)end;(9)L[k]={c∈C[k]|c.count>=minsup};(10)end;(11)Answer=L[1]∪L[2]∪…2023/10/2323apriori-gen(L[k-1])分成兩步:join算法:從兩個(gè)L[k-1]物品集生成候選物品集C[k]insertintoC[k]selectp.item1,p.item2,...,p.item(k-1),q.item(k-1)fromL[k-1]p,L[k-1]qwherep.item1=q.item1,...,p.item(k-2)=q.item(k-2),p.item(k-1)<q.item(k-1)2023/10/2324Prune算法:從C[k]中除去大小為k-1且不在L[k-1]中的子集(1)Forallitemsetsc∈C[k]do(2)Forall(k-1)-subsetssofcdo(3)if(s
L[k-1])(4)thendeletecfromC[k]2023/10/2325舉例:L[3]為{{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4}}經(jīng)過(guò)join后,C[4]={{1,2,3,4},{1,3,4,5}}由于{1,3,4,5}有子集{1,4,5}不在L[3]中,所以經(jīng)過(guò)prune后,得到L[4]={{1,2,3,4}}2023/10/23262023/10/23272023/10/23282023/10/23292023/10/2330關(guān)聯(lián)規(guī)則發(fā)現(xiàn)注意的問(wèn)題充分理解數(shù)據(jù)目標(biāo)明確數(shù)據(jù)準(zhǔn)備工作要做好選取適當(dāng)?shù)淖钚〉闹С侄群涂尚哦群芎玫乩斫怅P(guān)聯(lián)規(guī)則2023/10/2331關(guān)聯(lián)規(guī)則發(fā)現(xiàn)使用步驟連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備給定最小支持度和最小可信度,利用知識(shí)發(fā)現(xiàn)工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則2023/10/2332關(guān)聯(lián)規(guī)則在保險(xiǎn)業(yè)務(wù)中的應(yīng)用最小支持度1%,最小可信度為50%2023/10/23332023/10/23342023/10/23352023/10/2336數(shù)據(jù)倉(cāng)庫(kù)在過(guò)去幾十年,數(shù)據(jù)庫(kù)技術(shù),特別是OLTP(聯(lián)機(jī)事務(wù)處理),主要是為自動(dòng)化生產(chǎn)、精簡(jiǎn)工作任務(wù)和高速采集數(shù)據(jù)服務(wù)。它是事務(wù)驅(qū)動(dòng)的、面向應(yīng)用的。20世紀(jì)80年代,人們要利用現(xiàn)有的數(shù)據(jù),進(jìn)行分析和推理,從而為決策提供依據(jù)。這種需求既要求聯(lián)機(jī)服務(wù),又涉及大量用于決策的數(shù)據(jù)。而傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)已無(wú)法滿(mǎn)足這種需求:所需歷史數(shù)據(jù)量很大,而傳統(tǒng)數(shù)據(jù)庫(kù)一般只存儲(chǔ)短期數(shù)據(jù)。涉及許多部門(mén)的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成。對(duì)大量數(shù)據(jù)的訪(fǎng)問(wèn)性能明顯下降
2023/10/2337數(shù)據(jù)倉(cāng)庫(kù)的定義信息處理技術(shù)的發(fā)展趨勢(shì)是:從大量的事務(wù)型數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲(chǔ)格。隨著此過(guò)程的發(fā)展和完善,這種九十年代初出現(xiàn)的支持決策的、特殊的數(shù)據(jù)存儲(chǔ)即被稱(chēng)為數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)。Inmon將數(shù)據(jù)倉(cāng)庫(kù)明確定義為:數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是面向主題的,集成的,內(nèi)容相對(duì)穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。
2023/10/2338數(shù)據(jù)倉(cāng)庫(kù)的特征(1)
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題的
與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)的。主題是一個(gè)在較高層次將數(shù)據(jù)歸類(lèi)的標(biāo)準(zhǔn),每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀(guān)的分析領(lǐng)域
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是集成的
在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必然要經(jīng)過(guò)加工與集成。要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,還要進(jìn)行數(shù)據(jù)綜合和計(jì)算2023/10/2339數(shù)據(jù)倉(cāng)庫(kù)的特征(2)
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是穩(wěn)定的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供決策分析之用,所涉及的操作主要是數(shù)據(jù)查詢(xún),一般不進(jìn)行修改操作
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)又是隨時(shí)間不斷變化的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不是實(shí)時(shí)更新的,但并不是永遠(yuǎn)不變的,也要隨著時(shí)間的變化不斷地更新、增刪和重新綜合。更新周期 2023/10/2340元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、編碼、索引等內(nèi)容。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)字典是一種元數(shù)據(jù),但在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)的內(nèi)容比數(shù)據(jù)庫(kù)中的數(shù)據(jù)字典更加豐富和復(fù)雜。設(shè)計(jì)一個(gè)描述能力強(qiáng)、內(nèi)容完善的元數(shù)據(jù),是有效管理數(shù)據(jù)倉(cāng)庫(kù)的具有決定意義的重要前提2023/10/2341元數(shù)據(jù)的重要性數(shù)據(jù)倉(cāng)庫(kù)使用者往往將使用元數(shù)據(jù)作為分析的第一步。元數(shù)據(jù)如同數(shù)據(jù)指示圖,指出了數(shù)據(jù)倉(cāng)庫(kù)內(nèi)各種信息的位置和含義從操作型數(shù)據(jù)環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)轉(zhuǎn)換是復(fù)雜的、多方面的,是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的關(guān)鍵性步驟,元數(shù)據(jù)要包含對(duì)這種轉(zhuǎn)換的清晰描述,保證這種轉(zhuǎn)換是正確、適當(dāng)和合理的,并且是靈活可變的元數(shù)據(jù)還管理粒度的劃分、索引的建立以及抽取更新的周期等,以便管理好數(shù)據(jù)倉(cāng)庫(kù)中的大規(guī)模數(shù)據(jù)2023/10/2342數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)概念事實(shí)表(Fact):存儲(chǔ)用戶(hù)需要查詢(xún)分析的數(shù)據(jù),事實(shí)表中一般包含多個(gè)維(Dimension)和度量(Measurement)。維:代表了用戶(hù)觀(guān)察數(shù)據(jù)的特定視角,如:時(shí)間維、地區(qū)維、產(chǎn)品維等。每一個(gè)維可劃分為不同的層次來(lái)取值,如時(shí)間維的值可按年份、季度、月份來(lái)劃分,描述了不同的查詢(xún)層次。度量:是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)“是什么”,即一個(gè)數(shù)值的測(cè)量指標(biāo),如:人數(shù)、單價(jià)、銷(xiāo)售量等。
2023/10/2343數(shù)據(jù)倉(cāng)庫(kù)的建模模型度量的實(shí)際數(shù)據(jù)存放在事實(shí)表中。維的詳細(xì)信息,如不同的層次劃分和相應(yīng)數(shù)據(jù)等在維表中存儲(chǔ),事實(shí)表中存放各個(gè)維的標(biāo)識(shí)碼鍵。事實(shí)表和維表將通過(guò)這些鍵關(guān)聯(lián)起來(lái),構(gòu)成一種星型模型對(duì)于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過(guò)大的存儲(chǔ)空間,可以使用多個(gè)表來(lái)描述,這種星型模式的擴(kuò)展稱(chēng)為雪花模型2023/10/2344OLAP數(shù)據(jù)倉(cāng)庫(kù)技術(shù)中,多維數(shù)據(jù)分析(MultidimensionalDataAnalysis)方法是一種重要的技術(shù),也稱(chēng)作聯(lián)機(jī)分析處理(On-LineAnalyticalProcessing,簡(jiǎn)稱(chēng)OLAP)或數(shù)據(jù)立方體(DataCube)方法,主要是指通過(guò)各種即席復(fù)雜查詢(xún),對(duì)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行各種統(tǒng)計(jì)分析的應(yīng)用
數(shù)據(jù)倉(cāng)庫(kù)是面向決策支持的,決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類(lèi)操作的計(jì)算量特別大。2023/10/2345OLAP的類(lèi)型ROLAP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,并且將聚合表也存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù),在技術(shù)成熟及各方面的適應(yīng)性上較之MOLAP占有一定的優(yōu)勢(shì),性能較差MOLAP:數(shù)據(jù)和聚合都存儲(chǔ)在多維結(jié)構(gòu)中,效率較高,便于進(jìn)行優(yōu)化操作。維數(shù)多數(shù)據(jù)量大時(shí),存儲(chǔ)是難點(diǎn)。HOALP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,聚合存儲(chǔ)在多維結(jié)構(gòu)。結(jié)合ROLAP和MOLAP兩者的優(yōu)點(diǎn)2023/10/23高級(jí)人工智能史忠植46OLAP的分析操作OLAP的基本多維分析操作有鉆取(rollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。rollup是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù);而drilldown則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀(guān)察切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片,否則是切塊旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換2023/10/2347數(shù)據(jù)倉(cāng)庫(kù)和知識(shí)發(fā)現(xiàn)技術(shù)的結(jié)合(1)
知識(shí)發(fā)現(xiàn)成為數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)深層分析的一種必不可少的手段數(shù)據(jù)倉(cāng)庫(kù)是面向決策分析的,數(shù)據(jù)倉(cāng)庫(kù)從事務(wù)型數(shù)據(jù)抽取并集成得到的分析型數(shù)據(jù)后,需要各種決策分析工具對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,得到有用的決策信息。而知識(shí)發(fā)現(xiàn)技術(shù)具備從大量數(shù)據(jù)中發(fā)現(xiàn)有用信息的能力。2023/10/2348數(shù)據(jù)倉(cāng)庫(kù)和知識(shí)發(fā)現(xiàn)技術(shù)的結(jié)合(2)
數(shù)據(jù)倉(cāng)庫(kù)為知識(shí)發(fā)現(xiàn)提供經(jīng)過(guò)良好預(yù)處理的數(shù)據(jù)源
知識(shí)發(fā)現(xiàn)往往依賴(lài)于經(jīng)過(guò)良好組織和預(yù)處理的數(shù)據(jù)源,數(shù)據(jù)的好壞直接影響知識(shí)發(fā)現(xiàn)的效果。數(shù)據(jù)倉(cāng)庫(kù)具有從各種數(shù)據(jù)源中抽取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行清洗、聚集和轉(zhuǎn)換等各種處理的能力2023/10/2349一、數(shù)據(jù)挖掘概念----發(fā)展1989IJCAI會(huì)議:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專(zhuān)題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專(zhuān)題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國(guó)際會(huì)議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會(huì)議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.2023/10/2350二、數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成
多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合
多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀(guān)點(diǎn)2023/10/2351二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法
挖掘向量數(shù)據(jù)(vector-valueddata)
數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理
典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)()
缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿(mǎn)足需求。2023/10/2352二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件CBA新加坡國(guó)立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類(lèi)算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類(lèi)和預(yù)測(cè)2023/10/2353二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度男方不履行家庭責(zé)任女方主張離婚及賠償合同3篇
- 2025年度大學(xué)生畢業(yè)論文保密協(xié)議與知識(shí)產(chǎn)權(quán)交易合同
- 2025年度畜產(chǎn)品溯源體系建設(shè)合同4篇
- 2025年度茶樓合伙經(jīng)營(yíng)協(xié)議合同范本全新升級(jí)版4篇
- 2025年度船舶動(dòng)力系統(tǒng)維修與改造專(zhuān)項(xiàng)合同4篇
- 翡翠代銷(xiāo)與全球市場(chǎng)拓展合作合同(二零二五年度)2篇
- 2025年度二零二五農(nóng)機(jī)購(gòu)置補(bǔ)貼項(xiàng)目采購(gòu)合同范本4篇
- 2025年度汽車(chē)租賃與救援服務(wù)合同2篇
- 2025年度個(gè)人對(duì)個(gè)人創(chuàng)業(yè)投資短期借款合同模板
- 2025年度大型活動(dòng)場(chǎng)地租賃與設(shè)備安裝合同范本2篇
- 2024公路瀝青路面結(jié)構(gòu)內(nèi)部狀況三維探地雷達(dá)快速檢測(cè)規(guī)程
- 2024年高考真題-地理(河北卷) 含答案
- 中國(guó)高血壓防治指南(2024年修訂版)解讀課件
- 2024風(fēng)力發(fā)電葉片維保作業(yè)技術(shù)規(guī)范
- 《思想道德與法治》課程教學(xué)大綱
- 2024光儲(chǔ)充一體化系統(tǒng)解決方案
- 處理后事授權(quán)委托書(shū)
- 封條(標(biāo)準(zhǔn)A4打印封條)
- 中醫(yī)治療“濕疹”醫(yī)案72例
- 2023年大學(xué)生《思想道德與法治》考試題庫(kù)附答案(712題)
- 清代文學(xué)緒論
評(píng)論
0/150
提交評(píng)論