版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)
王志海zhhwang@辦公室:北502電話:51683859計(jì)算機(jī)與信息技術(shù)學(xué)院DataMiningTechniquesDr.ZhihaiWang(Prof.)BeijingJiaotongUniversityOffice:North502Tel.:51683859zhhwang@DataMiningTechniques研究背景基本定義
DM過(guò)程
DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,20153DataMining的研究背景數(shù)據(jù)庫(kù)的規(guī)模(大數(shù)據(jù))
摩爾定律(Moore’sLaw)可知,計(jì)算機(jī)的性能每18個(gè)月就會(huì)提高1倍。而且,在數(shù)據(jù)存儲(chǔ)領(lǐng)域中,在價(jià)格固定的前提下,數(shù)據(jù)存儲(chǔ)能力每9個(gè)月就會(huì)提高1倍分析能力潛在價(jià)值
?ZhihaiWANG,20154DataMining的研究背景分析能力潛在價(jià)值
驅(qū)動(dòng)數(shù)據(jù)庫(kù)發(fā)現(xiàn)知識(shí)研究的基本動(dòng)機(jī)主要是在許多機(jī)構(gòu)中數(shù)據(jù)庫(kù)是非常龐大的信息寶庫(kù),可從中發(fā)現(xiàn)具有潛在價(jià)值的概念、模式和聯(lián)系。這些知識(shí)可以有效地應(yīng)用在許多方面,如商業(yè)決策、數(shù)據(jù)庫(kù)模式精化、完整性實(shí)施、語(yǔ)義查詢(xún)優(yōu)化以及智能查詢(xún)處理等。?ZhihaiWANG,20155大數(shù)據(jù)的潛在價(jià)值潛在價(jià)值超市的商品擺放智能搜索引擎網(wǎng)上購(gòu)物向?qū)сy行用戶(hù)信用等級(jí)評(píng)估數(shù)據(jù)庫(kù)逆向工程………?ZhihaiWANG,20156DataMiningTechniques
研究背景
數(shù)據(jù)挖掘的基本定義
DM過(guò)程
DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,20157DataMining(KDD)的基本定義
W.J.Frawley,GPiatetsky-Shapiro,C.J.Matheus(1991)
KDDisthenontrivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstand-ablepatternsindata.
KDD是從大量數(shù)據(jù)中提取出1)有效的、2)新穎的、3)有潛在作用的、并4)能最終理解的模式的非平凡的處理過(guò)程。?ZhihaiWANG,20158DataMiningTechniques
研究背景
數(shù)據(jù)挖掘的基本定義
數(shù)據(jù)挖掘的基本過(guò)程
DM任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,20159DataMining過(guò)程概述UsamaM.Fayyadet.al.(1996)1)數(shù)據(jù)準(zhǔn)備6)挖掘算法確定2)數(shù)據(jù)選擇7)數(shù)據(jù)挖掘3)數(shù)據(jù)預(yù)處理8)模式解釋4)數(shù)據(jù)縮減9)知識(shí)評(píng)價(jià)5)DM目標(biāo)確定?ZhihaiWANG,201510數(shù)據(jù)挖掘的基本過(guò)程(1)數(shù)據(jù)準(zhǔn)備了解DM相關(guān)領(lǐng)域的有關(guān)情況,包括應(yīng)用中的預(yù)先知識(shí)和目標(biāo),熟悉有關(guān)的背景知識(shí),并弄清楚用戶(hù)的要求。?ZhihaiWANG,201511DataMining過(guò)程(2)數(shù)據(jù)選擇
根據(jù)用戶(hù)要求從數(shù)據(jù)庫(kù)中提取與DM相關(guān)的數(shù)據(jù),在此過(guò)程中,會(huì)利用一些數(shù)據(jù)庫(kù)操作對(duì)數(shù)據(jù)進(jìn)行處理,建立一個(gè)目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。?ZhihaiWANG,201512DataMining過(guò)程(3)數(shù)據(jù)預(yù)處理
對(duì)所選擇的數(shù)據(jù)進(jìn)行再加工,主要檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)缺損的數(shù)據(jù)(Missing,丟失的?不合理的?不知道的?)可以利用統(tǒng)計(jì)方法進(jìn)行填補(bǔ),去除噪聲或無(wú)關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)變化等。?ZhihaiWANG,201513DataMining過(guò)程(4)數(shù)據(jù)轉(zhuǎn)換
對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù),根據(jù)知識(shí)發(fā)現(xiàn)的任務(wù)對(duì)數(shù)據(jù)進(jìn)行再處理,主要通過(guò)投影或數(shù)據(jù)庫(kù)中的其他操作減少數(shù)據(jù)量或找到數(shù)據(jù)的不變式。?ZhihaiWANG,201514DataMining過(guò)程(5)確定DM的目標(biāo)
根據(jù)用戶(hù)的要求,確定DM是發(fā)現(xiàn)何種類(lèi)型的知識(shí),因?yàn)閷?duì)DM的不同要求會(huì)在具體的知識(shí)發(fā)現(xiàn)過(guò)程中采用不同的知識(shí)發(fā)現(xiàn)算法。?ZhihaiWANG,201515DataMining過(guò)程(6)確定知識(shí)發(fā)現(xiàn)算法
根據(jù)所確定的任務(wù),選擇合適的知識(shí)發(fā)現(xiàn)算法(如匯總、分類(lèi)、聚類(lèi)等),這包括選取合適的模型和參數(shù),并使得知識(shí)發(fā)現(xiàn)算法與整個(gè)DM&KD的評(píng)判標(biāo)準(zhǔn)相一致。?ZhihaiWANG,201516DataMining過(guò)程(7)實(shí)施數(shù)據(jù)挖掘(DataMining)
運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,搜索或產(chǎn)生一個(gè)特定的感興趣的模式或數(shù)據(jù)集,從數(shù)據(jù)中提取出用戶(hù)所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示,如產(chǎn)生式規(guī)則等。?ZhihaiWANG,201517DataMining過(guò)程(8)模式解釋
對(duì)發(fā)現(xiàn)的模式進(jìn)行解釋?zhuān)サ舳嘤嗟牟磺蓄}意的模式,轉(zhuǎn)換成某個(gè)有用的模式,以使用戶(hù)明白。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面處理步驟中的某些步以反復(fù)提取,從而提取出更有效的知識(shí)。?ZhihaiWANG,201518DataMining過(guò)程(9)知識(shí)評(píng)價(jià)
將發(fā)現(xiàn)的知識(shí)以用戶(hù)能了解的方式呈現(xiàn)給用戶(hù)。這期間也包含對(duì)知識(shí)的一致性的檢查,以確信本次發(fā)現(xiàn)的知識(shí)與以前發(fā)現(xiàn)的知識(shí)不相抵觸。?ZhihaiWANG,201519DataMining過(guò)程圖示?ZhihaiWANG,201520DataMiningTechniques
研究背景
數(shù)據(jù)挖掘的基本定義
數(shù)據(jù)挖掘的基本過(guò)程
數(shù)據(jù)挖掘的任務(wù)與方法與DM相關(guān)的理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201521兩種主要的數(shù)據(jù)庫(kù)處理技術(shù)數(shù)據(jù)庫(kù)技術(shù)關(guān)系型數(shù)據(jù)庫(kù)DatabasesDataBaseManagementSystem(商品?)數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)在線事務(wù)處理(OLTP)SQL選擇、聯(lián)接、投影數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在線分析處理(
OLAP)商業(yè)化:SAS、SPSS?ZhihaiWANG,201522數(shù)據(jù)挖掘的基本任務(wù)兩種基本任務(wù):預(yù)測(cè)(未來(lái)):運(yùn)用數(shù)據(jù)描述(數(shù)據(jù)庫(kù)的關(guān)系模式)的一些變量和字段去預(yù)測(cè)未知的感興趣的變量的值。描述(過(guò)去):尋找可以理解的描述數(shù)據(jù)的適當(dāng)模式。?ZhihaiWANG,201523DataMining的任務(wù)與方法(1)分類(lèi)(Classification):
將數(shù)據(jù)歸于一系列已知類(lèi)中的某一分類(lèi)的過(guò)程。分類(lèi)的目的是學(xué)會(huì)一個(gè)分類(lèi)函數(shù)(也常常稱(chēng)作分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。
分類(lèi)模型?ZhihaiWANG,201524ClassificationinDataMiningMethodandTheory
lDatabaseTheorylStatisticslMachineLearninglComputationalIntelligence?ZhihaiWANG,201525ClassificationinDataMiningDatabase/DataWarehouse
lRelationalDatabaselTextlWeb-BasedDatalMulti-Media?ZhihaiWANG,201526ClassificationinDataMiningInstances:X={x1,x2,…,xm}Attributes:A={A1,A2,…,An}ClassLabel:CC=ci,W=(a1,a2,…,an)ClassificationAlgorithmClusteringAlgorithm?ZhihaiWANG,201527ClassificationinDataMiningClassificationAlgorithmlDecisionTreelNeuralNetworklGeneticAlgorithmlBayesianLearninglSupportedVectorMachine?ZhihaiWANG,201528DataMining的任務(wù)與方法(2)
聚類(lèi)(Clustering):
根據(jù)客體屬性對(duì)一系列未分類(lèi)客體進(jìn)行類(lèi)別的識(shí)別,把一組個(gè)體按照相似性歸成若干類(lèi)別,即“物以類(lèi)聚”。有監(jiān)督的學(xué)習(xí)無(wú)監(jiān)督的學(xué)習(xí)?ZhihaiWANG,201529TwoLearningStrategiesEagerLearningLazyLearningTrainingTimeClassificationTime?ZhihaiWANG,201530DataMining的任務(wù)與方法(3)特征提取(Characterization):
將與任務(wù)相關(guān)的數(shù)據(jù)集概括或抽象為某種泛化關(guān)系(generalized
relation)或特征規(guī)則(characterization
rule)。
概念層次結(jié)構(gòu)(概念格ConceptLattice)區(qū)分提取(Discrimination):
發(fā)現(xiàn)分辨目標(biāo)類(lèi)(targetclass)與對(duì)照類(lèi)(contrastingclasses)的特征與性質(zhì)。區(qū)分規(guī)則(discriminationrule)?ZhihaiWANG,201531DataMining的任務(wù)與方法(4)
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(AssociationRulesMining):
發(fā)現(xiàn)客體的任意屬性子集合之間的相互關(guān)系。關(guān)聯(lián)規(guī)則的形式:
A1A2...Ai
B1B2...Bj注意:關(guān)聯(lián)規(guī)則和分類(lèi)規(guī)則的區(qū)別?ZhihaiWANG,201532DataMining的任務(wù)與方法(5)
序貫?zāi)J桨l(fā)現(xiàn)(SequentialPatternsMining):
在多個(gè)數(shù)據(jù)序列中發(fā)現(xiàn)尋找所有的頻繁序列或所有的最長(zhǎng)頻繁序列。情節(jié)發(fā)現(xiàn)(Episodesmining):
在事件序列中發(fā)現(xiàn)頻繁情節(jié)(frequentepisodes)。情節(jié)是指在給定長(zhǎng)度的時(shí)間區(qū)間內(nèi)出現(xiàn)的事件的有序集合。偏離發(fā)現(xiàn)(Deviationmining):
在與時(shí)間相關(guān)數(shù)據(jù)庫(kù)中某客體的偏離模式的發(fā)現(xiàn)與評(píng)估。?ZhihaiWANG,201533DataMiningTechniques
研究背景
數(shù)據(jù)挖掘的基本定義
數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的任務(wù)與方法
數(shù)據(jù)挖掘的相關(guān)理論重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201534與DataMining的相關(guān)的理論
統(tǒng)計(jì)學(xué)數(shù)據(jù)庫(kù)理論機(jī)器學(xué)習(xí)理論
神經(jīng)網(wǎng)絡(luò)計(jì)算智能FuzzySetandRoughSetTheory支持向量機(jī)理論(SVM)?ZhihaiWANG,201535DataMiningTechniques
研究背景
數(shù)據(jù)挖掘的基本定義
數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的任務(wù)與方法數(shù)據(jù)挖掘的相關(guān)理論
重要的學(xué)術(shù)會(huì)議與期刊澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201536
DataMining&KnowledgeDiscovery
研究背景基本定義DM過(guò)程DM任務(wù)與方法與DM相關(guān)的理論
重要的學(xué)術(shù)會(huì)議與期刊?ZhihaiWANG,201537重要的學(xué)術(shù)會(huì)議與期刊(1)1989年8月在美國(guó)底特律召開(kāi)的第11屆國(guó)際人工智能聯(lián)合學(xué)術(shù)會(huì)議(IJCAI)上首次舉辦了以KDD為主題的研討會(huì)(WorkshoponKnowledgeDiscoveryinDatabases)AAAI-91(WorkshoponKnowledgeDiscoveryinDatabases)Piatetsky-ShapiroG,FrawleyWJeds.
KnowledgeDiscoveryinDatabasesMenloPark,California:AAAIPress/TheMITPress,1991?ZhihaiWANG,201538重要的學(xué)術(shù)會(huì)議與期刊(2)WorkshoponKnowledgeDiscoveryinDatabases1993Piatetsky-ShapiroG(Ed.).
ProceedingsofAAAI-93WorkshoponKnowledgeDiscoveryinDatabases.Washington:AAAIPress,1993?ZhihaiWANG,201539重要的學(xué)術(shù)會(huì)議與期刊(3)FirstInternationalConferenceonKnowledgeDiscoveryandDataMining,Montreal,Canada,1995FayyadUM,Piatetsky-ShapiroG,SmythP,UthurusamyR.
AdvancesinKnowledgeDiscoveryandDataMiningMenloPark,California:AAAIPress/TheMITPress,1996?ZhihaiWANG,201540重要的學(xué)術(shù)會(huì)議與期刊(4)亞太地區(qū)(PAKDD):1997Singapore首屆研討會(huì)1998Melbourne,Australia
第2屆1999Beijing 2000Kuwait2001Japan 2002Taiwan2003Korea 2004Sydney,Australia2005Vietnam第9屆?ZhihaiWANG,201541重要的學(xué)術(shù)會(huì)議與期刊(5)RoughSetTheoryZiarkoWPed.
RoughSets,andFuzzySetsandKnowledgeDiscovery(RSKD’93)London:Springer-Verlag,1994第2屆?ZhihaiWANG,201542重要的學(xué)術(shù)會(huì)議與期刊(6)IJCAIACM&AAAI-KDDIEEEICDM(2000)IEEEICDEPAKDD&EKDDICML&ECMLVLDBACM-SIGMOD?ZhihaiWANG,201543重要的學(xué)術(shù)會(huì)議與期刊(7)JournalIEEETransactionsonKnowledgeandDataEngineeringMachineLearningArtificialIntelligenceData&KnowledgeEngineeringDM&KD第一本專(zhuān)門(mén)的國(guó)際學(xué)術(shù)雜志《DataMiningandKnowledgeDiscovery》于1997年創(chuàng)刊。?ZhihaiWANG,201544DataMiningTechniques
研究背景
數(shù)據(jù)挖掘的基本定義
數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的任務(wù)與方法數(shù)據(jù)挖掘的相關(guān)理論重要的學(xué)術(shù)會(huì)議與期刊
澳大利亞大學(xué)簡(jiǎn)介?ZhihaiWANG,201545AustralianUniversities40UniversitiesSydney:UniversityofNewSouthWalesSydneyUniversityCanberra:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年園林景觀照明系統(tǒng)設(shè)計(jì)與安裝合同3篇
- 2024年版新員工勞動(dòng)協(xié)議模板指導(dǎo)樣例版B版
- 音樂(lè)教學(xué)工作計(jì)劃
- 2021后勤工作總結(jié)范文
- 全年工作計(jì)劃集合六篇
- 2021員工辭職報(bào)告集錦15篇
- 公司的活動(dòng)總結(jié)感悟10篇
- 公司技術(shù)員個(gè)人工作總結(jié)例文8篇
- 教導(dǎo)工作計(jì)劃四篇
- 遠(yuǎn)程培訓(xùn)總結(jié)(15篇)
- 鼻竇炎-疾病研究白皮書(shū)
- 污泥( 廢水)運(yùn)輸服務(wù)方案(技術(shù)方案)
- 2019北師大版高中英語(yǔ)選修一UNIT 3 單詞短語(yǔ)句子復(fù)習(xí)默寫(xiě)單
- 大班春季班級(jí)工作計(jì)劃范文
- 《新媒體導(dǎo)論》(第二版)-課件 第5、6章 新媒體的社交化:社會(huì)化媒體的發(fā)展及其應(yīng)用、新媒體的移動(dòng)化:新時(shí)空下的新傳播
- 橋梁檢修通道施工方案
- 英文寫(xiě)作課件:段落的寫(xiě)作
- 魯科版(五四制)八年級(jí)上冊(cè)《第三章 光現(xiàn)象》章節(jié)練習(xí)(含解析)
- 產(chǎn)業(yè)園運(yùn)營(yíng)合作協(xié)議
- 16J607-建筑節(jié)能門(mén)窗
- 理解詞語(yǔ)句子的方法PPT
評(píng)論
0/150
提交評(píng)論