數(shù)據(jù)挖掘技術(shù)2015B_第1頁(yè)
數(shù)據(jù)挖掘技術(shù)2015B_第2頁(yè)
數(shù)據(jù)挖掘技術(shù)2015B_第3頁(yè)
數(shù)據(jù)挖掘技術(shù)2015B_第4頁(yè)
數(shù)據(jù)挖掘技術(shù)2015B_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘技術(shù)

王志海zhhwang@辦公室:北502電話:51683859計(jì)算機(jī)與信息技術(shù)學(xué)院DataMiningTechniquesDr.ZhihaiWang(Prof.)BeijingJiaotongUniversityOffice:North502Tel.:51683859zhhwang@DataMiningTechniques研究背景基本定義

DM過(guò)程

DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,20153DataMining的研究背景數(shù)據(jù)庫(kù)的規(guī)模(大數(shù)據(jù))

摩爾定律(Moore’sLaw)可知,計(jì)算機(jī)的性能每18個(gè)月就會(huì)提高1倍。而且,在數(shù)據(jù)存儲(chǔ)領(lǐng)域中,在價(jià)格固定的前提下,數(shù)據(jù)存儲(chǔ)能力每9個(gè)月就會(huì)提高1倍分析能力潛在價(jià)值

?ZhihaiWANG,20154DataMining的研究背景分析能力潛在價(jià)值

驅(qū)動(dòng)數(shù)據(jù)庫(kù)發(fā)現(xiàn)知識(shí)研究的基本動(dòng)機(jī)主要是在許多機(jī)構(gòu)中數(shù)據(jù)庫(kù)是非常龐大的信息寶庫(kù),可從中發(fā)現(xiàn)具有潛在價(jià)值的概念、模式和聯(lián)系。這些知識(shí)可以有效地應(yīng)用在許多方面,如商業(yè)決策、數(shù)據(jù)庫(kù)模式精化、完整性實(shí)施、語(yǔ)義查詢(xún)優(yōu)化以及智能查詢(xún)處理等。?ZhihaiWANG,20155大數(shù)據(jù)的潛在價(jià)值潛在價(jià)值超市的商品擺放智能搜索引擎網(wǎng)上購(gòu)物向?qū)сy行用戶(hù)信用等級(jí)評(píng)估數(shù)據(jù)庫(kù)逆向工程………?ZhihaiWANG,20156DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

DM過(guò)程

DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,20157DataMining(KDD)的基本定義

W.J.Frawley,GPiatetsky-Shapiro,C.J.Matheus(1991)

KDDisthenontrivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstand-ablepatternsindata.

KDD是從大量數(shù)據(jù)中提取出1)有效的、2)新穎的、3)有潛在作用的、并4)能最終理解的模式的非平凡的處理過(guò)程。?ZhihaiWANG,20158DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過(guò)程

DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,20159DataMining過(guò)程概述UsamaM.Fayyadet.al.(1996)1)數(shù)據(jù)準(zhǔn)備6)挖掘算法確定2)數(shù)據(jù)選擇7)數(shù)據(jù)挖掘3)數(shù)據(jù)預(yù)處理8)模式解釋4)數(shù)據(jù)縮減9)知識(shí)評(píng)價(jià)5)DM目標(biāo)確定?ZhihaiWANG,201510數(shù)據(jù)挖掘的基本過(guò)程(1)數(shù)據(jù)準(zhǔn)備了解DM相關(guān)領(lǐng)域的有關(guān)情況,包括應(yīng)用中的預(yù)先知識(shí)和目標(biāo),熟悉有關(guān)的背景知識(shí),并弄清楚用戶(hù)的要求。?ZhihaiWANG,201511DataMining過(guò)程(2)數(shù)據(jù)選擇

根據(jù)用戶(hù)要求從數(shù)據(jù)庫(kù)中提取與DM相關(guān)的數(shù)據(jù),在此過(guò)程中,會(huì)利用一些數(shù)據(jù)庫(kù)操作對(duì)數(shù)據(jù)進(jìn)行處理,建立一個(gè)目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。?ZhihaiWANG,201512DataMining過(guò)程(3)數(shù)據(jù)預(yù)處理

對(duì)所選擇的數(shù)據(jù)進(jìn)行再加工,主要檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)缺損的數(shù)據(jù)(Missing,丟失的?不合理的?不知道的?)可以利用統(tǒng)計(jì)方法進(jìn)行填補(bǔ),去除噪聲或無(wú)關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)變化等。?ZhihaiWANG,201513DataMining過(guò)程(4)數(shù)據(jù)轉(zhuǎn)換

對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù),根據(jù)知識(shí)發(fā)現(xiàn)的任務(wù)對(duì)數(shù)據(jù)進(jìn)行再處理,主要通過(guò)投影或數(shù)據(jù)庫(kù)中的其他操作減少數(shù)據(jù)量或找到數(shù)據(jù)的不變式。?ZhihaiWANG,201514DataMining過(guò)程(5)確定DM的目標(biāo)

根據(jù)用戶(hù)的要求,確定DM是發(fā)現(xiàn)何種類(lèi)型的知識(shí),因?yàn)閷?duì)DM的不同要求會(huì)在具體的知識(shí)發(fā)現(xiàn)過(guò)程中采用不同的知識(shí)發(fā)現(xiàn)算法。?ZhihaiWANG,201515DataMining過(guò)程(6)確定知識(shí)發(fā)現(xiàn)算法

根據(jù)所確定的任務(wù),選擇合適的知識(shí)發(fā)現(xiàn)算法(如匯總、分類(lèi)、聚類(lèi)等),這包括選取合適的模型和參數(shù),并使得知識(shí)發(fā)現(xiàn)算法與整個(gè)DM&KD的評(píng)判標(biāo)準(zhǔn)相一致。?ZhihaiWANG,201516DataMining過(guò)程(7)實(shí)施數(shù)據(jù)挖掘(DataMining)

運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,搜索或產(chǎn)生一個(gè)特定的感興趣的模式或數(shù)據(jù)集,從數(shù)據(jù)中提取出用戶(hù)所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示,如產(chǎn)生式規(guī)則等。?ZhihaiWANG,201517DataMining過(guò)程(8)模式解釋

對(duì)發(fā)現(xiàn)的模式進(jìn)行解釋?zhuān)サ舳嘤嗟牟磺蓄}意的模式,轉(zhuǎn)換成某個(gè)有用的模式,以使用戶(hù)明白。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面處理步驟中的某些步以反復(fù)提取,從而提取出更有效的知識(shí)。?ZhihaiWANG,201518DataMining過(guò)程(9)知識(shí)評(píng)價(jià)

將發(fā)現(xiàn)的知識(shí)以用戶(hù)能了解的方式呈現(xiàn)給用戶(hù)。這期間也包含對(duì)知識(shí)的一致性的檢查,以確信本次發(fā)現(xiàn)的知識(shí)與以前發(fā)現(xiàn)的知識(shí)不相抵觸。?ZhihaiWANG,201519DataMining過(guò)程圖示?ZhihaiWANG,201520DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過(guò)程

數(shù)據(jù)挖掘的任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201521兩種主要的數(shù)據(jù)庫(kù)處理技術(shù)數(shù)據(jù)庫(kù)技術(shù)關(guān)系型數(shù)據(jù)庫(kù)DatabasesDataBaseManagementSystem(商品?)數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)在線事務(wù)處理(OLTP)SQL選擇、聯(lián)接、投影數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在線分析處理(

OLAP)商業(yè)化:SAS、SPSS?ZhihaiWANG,201522數(shù)據(jù)挖掘的基本任務(wù)兩種基本任務(wù):預(yù)測(cè)(未來(lái)):運(yùn)用數(shù)據(jù)描述(數(shù)據(jù)庫(kù)的關(guān)系模式)的一些變量和字段去預(yù)測(cè)未知的感興趣的變量的值。描述(過(guò)去):尋找可以理解的描述數(shù)據(jù)的適當(dāng)模式。?ZhihaiWANG,201523DataMining的任務(wù)與方法(1)分類(lèi)(Classification):

將數(shù)據(jù)歸于一系列已知類(lèi)中的某一分類(lèi)的過(guò)程。分類(lèi)的目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)(也常常稱(chēng)作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。

分類(lèi)模型?ZhihaiWANG,201524ClassificationinDataMiningMethodandTheory

lDatabaseTheorylStatisticslMachineLearninglComputationalIntelligence?ZhihaiWANG,201525ClassificationinDataMiningDatabase/DataWarehouse

lRelationalDatabaselTextlWeb-BasedDatalMulti-Media?ZhihaiWANG,201526ClassificationinDataMiningInstances:X={x1,x2,…,xm}Attributes:A={A1,A2,…,An}ClassLabel:CC=ci,W=(a1,a2,…,an)ClassificationAlgorithmClusteringAlgorithm?ZhihaiWANG,201527ClassificationinDataMiningClassificationAlgorithmlDecisionTreelNeuralNetworklGeneticAlgorithmlBayesianLearninglSupportedVectorMachine?ZhihaiWANG,201528DataMining的任務(wù)與方法(2)

聚類(lèi)(Clustering):

根據(jù)客體屬性對(duì)一系列未分類(lèi)客體進(jìn)行類(lèi)別的識(shí)別,把一組個(gè)體按照相似性歸成若干類(lèi)別,即“物以類(lèi)聚”。有監(jiān)督的學(xué)習(xí)無(wú)監(jiān)督的學(xué)習(xí)?ZhihaiWANG,201529TwoLearningStrategiesEagerLearningLazyLearningTrainingTimeClassificationTime?ZhihaiWANG,201530DataMining的任務(wù)與方法(3)特征提取(Characterization):

將與任務(wù)相關(guān)的數(shù)據(jù)集概括或抽象為某種泛化關(guān)系(generalized

relation)或特征規(guī)則(characterization

rule)。

概念層次結(jié)構(gòu)(概念格ConceptLattice)區(qū)分提取(Discrimination):

發(fā)現(xiàn)分辨目標(biāo)類(lèi)(targetclass)與對(duì)照類(lèi)(contrastingclasses)的特征與性質(zhì)。區(qū)分規(guī)則(discriminationrule)?ZhihaiWANG,201531DataMining的任務(wù)與方法(4)

關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(AssociationRulesMining):

發(fā)現(xiàn)客體的任意屬性子集合之間的相互關(guān)系。關(guān)聯(lián)規(guī)則的形式:

A1A2...Ai

B1B2...Bj注意:關(guān)聯(lián)規(guī)則和分類(lèi)規(guī)則的區(qū)別?ZhihaiWANG,201532DataMining的任務(wù)與方法(5)

序貫?zāi)J桨l(fā)現(xiàn)(SequentialPatternsMining):

在多個(gè)數(shù)據(jù)序列中發(fā)現(xiàn)尋找所有的頻繁序列或所有的最長(zhǎng)頻繁序列。情節(jié)發(fā)現(xiàn)(Episodesmining):

在事件序列中發(fā)現(xiàn)頻繁情節(jié)(frequentepisodes)。情節(jié)是指在給定長(zhǎng)度的時(shí)間區(qū)間內(nèi)出現(xiàn)的事件的有序集合。偏離發(fā)現(xiàn)(Deviationmining):

在與時(shí)間相關(guān)數(shù)據(jù)庫(kù)中某客體的偏離模式的發(fā)現(xiàn)與評(píng)估。?ZhihaiWANG,201533DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的任務(wù)與方法

數(shù)據(jù)挖掘的相關(guān)理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201534與DataMining的相關(guān)的理論

統(tǒng)計(jì)學(xué)數(shù)據(jù)庫(kù)理論機(jī)器學(xué)習(xí)理論

神經(jīng)網(wǎng)絡(luò)計(jì)算智能FuzzySetandRoughSetTheory支持向量機(jī)理論(SVM)?ZhihaiWANG,201535DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的任務(wù)與方法數(shù)據(jù)挖掘的相關(guān)理論

重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201536

DataMining&KnowledgeDiscovery

研究背景基本定義DM過(guò)程DM任務(wù)與方法與DM相關(guān)的理論

重要的學(xué)術(shù)會(huì)議與期刊?ZhihaiWANG,201537重要的學(xué)術(shù)會(huì)議與期刊(1)1989年8月在美國(guó)底特律召開(kāi)的第11屆國(guó)際人工智能聯(lián)合學(xué)術(shù)會(huì)議(IJCAI)上首次舉辦了以KDD為主題的研討會(huì)(WorkshoponKnowledgeDiscoveryinDatabases)AAAI-91(WorkshoponKnowledgeDiscoveryinDatabases)Piatetsky-ShapiroG,FrawleyWJeds.

KnowledgeDiscoveryinDatabasesMenloPark,California:AAAIPress/TheMITPress,1991?ZhihaiWANG,201538重要的學(xué)術(shù)會(huì)議與期刊(2)WorkshoponKnowledgeDiscoveryinDatabases1993Piatetsky-ShapiroG(Ed.).

ProceedingsofAAAI-93WorkshoponKnowledgeDiscoveryinDatabases.Washington:AAAIPress,1993?ZhihaiWANG,201539重要的學(xué)術(shù)會(huì)議與期刊(3)FirstInternationalConferenceonKnowledgeDiscoveryandDataMining,Montreal,Canada,1995FayyadUM,Piatetsky-ShapiroG,SmythP,UthurusamyR.

AdvancesinKnowledgeDiscoveryandDataMiningMenloPark,California:AAAIPress/TheMITPress,1996?ZhihaiWANG,201540重要的學(xué)術(shù)會(huì)議與期刊(4)亞太地區(qū)(PAKDD):1997Singapore首屆研討會(huì)1998Melbourne,Australia

第2屆1999Beijing 2000Kuwait2001Japan 2002Taiwan2003Korea 2004Sydney,Australia2005Vietnam第9屆?ZhihaiWANG,201541重要的學(xué)術(shù)會(huì)議與期刊(5)RoughSetTheoryZiarkoWPed.

RoughSets,andFuzzySetsandKnowledgeDiscovery(RSKD’93)London:Springer-Verlag,1994第2屆?ZhihaiWANG,201542重要的學(xué)術(shù)會(huì)議與期刊(6)IJCAIACM&AAAI-KDDIEEEICDM(2000)IEEEICDEPAKDD&EKDDICML&ECMLVLDBACM-SIGMOD?ZhihaiWANG,201543重要的學(xué)術(shù)會(huì)議與期刊(7)JournalIEEETransactionsonKnowledgeandDataEngineeringMachineLearningArtificialIntelligenceData&KnowledgeEngineeringDM&KD第一本專(zhuān)門(mén)的國(guó)際學(xué)術(shù)雜志《DataMiningandKnowledgeDiscovery》于1997年創(chuàng)刊。?ZhihaiWANG,201544DataMiningTechniques

研究背景

數(shù)據(jù)挖掘的基本定義

數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的任務(wù)與方法數(shù)據(jù)挖掘的相關(guān)理論重要的學(xué)術(shù)會(huì)議與期刊

澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201545AustralianUniversities40UniversitiesSydney:UniversityofNewSouthWalesSydneyUniversityCanberra:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論