數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)課件_第1頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)課件_第2頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)課件_第3頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)課件_第4頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)課件_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第六章數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)第1頁,共94頁。提 綱知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘方法和技術(shù)數(shù)據(jù)挖掘的知識(shí)表示第2頁,共94頁。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的基本概念知識(shí)發(fā)現(xiàn)的定義知識(shí)發(fā)現(xiàn)的研究問題知識(shí)發(fā)現(xiàn)的過程知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)第3頁,共94頁。知識(shí)發(fā)現(xiàn)的定義(KDD,Knowledge Discovery in Database)知識(shí)發(fā)現(xiàn)是用一種簡(jiǎn)潔的方式從大量數(shù)據(jù)中抽取信息的一種技術(shù),所抽取的信息是隱含的、未知的,并且具有潛在應(yīng)用價(jià)值。知識(shí)發(fā)現(xiàn)可看成是一種有價(jià)值信息的搜尋過程,它不必預(yù)先假設(shè)或提出問題,仍然能夠找到那些非預(yù)期的令人關(guān)注的信息,這些信息表示了不同研究對(duì)象之間的關(guān)系和模式。它還能通過

2、全面的信息發(fā)現(xiàn)與分析,找到有價(jià)值的商業(yè)規(guī)則。知識(shí)發(fā)現(xiàn)意味著在數(shù)據(jù)倉(cāng)庫或數(shù)據(jù)集市的幾千兆、幾萬兆字節(jié)數(shù)據(jù)中尋找預(yù)先未知的商業(yè)模式與事實(shí)。第4頁,共94頁。知識(shí)發(fā)現(xiàn)的研究問題定性知識(shí)和定量知識(shí)的發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)方法知識(shí)發(fā)現(xiàn)的應(yīng)用第5頁,共94頁。知識(shí)發(fā)現(xiàn)的過程數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果的解釋和評(píng)估第6頁,共94頁。知識(shí)發(fā)現(xiàn)的過程數(shù)據(jù)準(zhǔn)備數(shù)據(jù)集成:對(duì)數(shù)據(jù)進(jìn)行合并處理、數(shù)據(jù)檢查和清洗工作數(shù)據(jù)選擇:縮小處理數(shù)據(jù)的范圍,提高數(shù)據(jù)挖掘的質(zhì)量數(shù)據(jù)預(yù)處理:削減數(shù)據(jù)維數(shù)或降維,克服數(shù)據(jù)挖掘工具的局限性第7頁,共94頁。知識(shí)發(fā)現(xiàn)的過程數(shù)據(jù)挖掘探索性數(shù)據(jù)分析:利用圖形化方式對(duì)數(shù)據(jù)進(jìn)行探索描述建模:描述數(shù)據(jù)的所有特征預(yù)測(cè)建模:建

3、立一個(gè)根據(jù)已知變量預(yù)測(cè)其它變量的模型分類回歸尋找模式和規(guī)則:進(jìn)行模式探測(cè)根據(jù)內(nèi)容檢索:根據(jù)用戶感興趣的模式建立相似的模式第8頁,共94頁。知識(shí)發(fā)現(xiàn)的過程結(jié)果的解釋和評(píng)估結(jié)果的解釋結(jié)果不滿足用戶要求,換一種挖掘方法結(jié)果非常抽象,換一種容易理解的方法結(jié)果的評(píng)估所采用的數(shù)據(jù)挖掘技術(shù)的有效性用于挖掘的數(shù)據(jù)質(zhì)量和數(shù)量第9頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)知識(shí)發(fā)現(xiàn)系統(tǒng)管理器知識(shí)庫和商業(yè)分析員數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫接口數(shù)據(jù)庫數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第10頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)知識(shí)發(fā)現(xiàn)系統(tǒng)管理器:作用是

4、控制并管理整個(gè)知識(shí)發(fā)現(xiàn)過程 商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫接口數(shù)據(jù)庫數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第11頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)知識(shí)庫和商業(yè)分析員知識(shí)庫包含了源于各方面的知識(shí)。商業(yè)分析員要按一種有效的方式指導(dǎo)關(guān)注信息的發(fā)現(xiàn)。商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第12頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)庫接口知識(shí)發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)庫接口可以直接與數(shù)據(jù)倉(cāng)庫通信。商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第13頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)選擇確定從數(shù)據(jù)

5、倉(cāng)庫中需要抽取的數(shù)據(jù)及數(shù)據(jù)結(jié)構(gòu)商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第14頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)知識(shí)發(fā)現(xiàn)引擎將知識(shí)庫中的抽取算法提供給數(shù)據(jù)選擇構(gòu)件抽取的數(shù)據(jù)商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第15頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)知識(shí)發(fā)現(xiàn)評(píng)價(jià)有助于商業(yè)分析員篩選模式,選出那些關(guān)注性的信息商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第16頁,共94頁。知識(shí)發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)知識(shí)發(fā)現(xiàn)描述發(fā)現(xiàn)、評(píng)價(jià)并輔助商業(yè)分析員在知識(shí)庫中保存關(guān)注性發(fā)現(xiàn)

6、結(jié)果以備將來引用,并保持知識(shí)發(fā)現(xiàn)與管理人員的通信商業(yè)分析員數(shù)據(jù)倉(cāng)庫知識(shí)庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識(shí)發(fā)現(xiàn)引擎知識(shí)發(fā)現(xiàn)評(píng)價(jià)知識(shí)發(fā)現(xiàn)描述知識(shí)發(fā)現(xiàn)管理器第17頁,共94頁。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的對(duì)象數(shù)據(jù)挖掘與專家系統(tǒng)的區(qū)別第18頁,共94頁。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的對(duì)象數(shù)據(jù)挖掘與專家系統(tǒng)的區(qū)別第19頁,共94頁。數(shù)據(jù)挖掘的進(jìn)化歷程進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM, CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)

7、訪問(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息數(shù)據(jù)倉(cāng)庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉(cāng)庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?”高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、

8、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測(cè)性的信息第20頁,共94頁。數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的范圍 數(shù)據(jù)庫可以由此拓展深度和廣度 第21頁,共94頁。數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的范圍 數(shù)據(jù)庫可以由此拓展深度和廣度 第22頁,共94頁。數(shù)據(jù)挖掘的范圍“數(shù)據(jù)挖掘”這個(gè)名字來源于它有點(diǎn)類似于在山脈中挖掘有價(jià)值的礦藏在商業(yè)應(yīng)用里,它就表現(xiàn)為在大型數(shù)據(jù)庫里面搜索有價(jià)值的商業(yè)信息這兩種過程都需要對(duì)巨量的材料進(jìn)行詳細(xì)地過濾,并且需要智能且精確地定位潛在價(jià)值的所在。對(duì)于給定了大小的數(shù)據(jù)庫,數(shù)據(jù)挖掘技術(shù)可以用它如下的超能力產(chǎn)生巨大的商業(yè)機(jī)會(huì):自動(dòng)趨勢(shì)預(yù)測(cè) 自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式第23頁,共94

9、頁。數(shù)據(jù)挖掘的范圍“數(shù)據(jù)挖掘”這個(gè)名字來源于它有點(diǎn)類似于在山脈中挖掘有價(jià)值的礦藏在商業(yè)應(yīng)用里,它就表現(xiàn)為在大型數(shù)據(jù)庫里面搜索有價(jià)值的商業(yè)信息這兩種過程都需要對(duì)巨量的材料進(jìn)行詳細(xì)地過濾,并且需要智能且精確地定位潛在價(jià)值的所在。對(duì)于給定了大小的數(shù)據(jù)庫,數(shù)據(jù)挖掘技術(shù)可以用它如下的超能力產(chǎn)生巨大的商業(yè)機(jī)會(huì):自動(dòng)趨勢(shì)預(yù)測(cè) 自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式第24頁,共94頁。自動(dòng)趨勢(shì)預(yù)測(cè)數(shù)據(jù)挖掘能自動(dòng)在大型數(shù)據(jù)庫里面找尋潛在的預(yù)測(cè)信息。傳統(tǒng)上需要很多專家來進(jìn)行分析的問題,現(xiàn)在可以快速而直接地從數(shù)據(jù)中間找到答案。一個(gè)典型的利用數(shù)據(jù)挖掘進(jìn)行預(yù)測(cè)的例子就是目標(biāo)營(yíng)銷。數(shù)據(jù)挖掘工具可以根據(jù)過去郵件推銷中的大量數(shù)據(jù)找出其中最

10、有可能對(duì)將來的郵件推銷作出反應(yīng)的客戶。 第25頁,共94頁。數(shù)據(jù)挖掘的范圍“數(shù)據(jù)挖掘”這個(gè)名字來源于它有點(diǎn)類似于在山脈中挖掘有價(jià)值的礦藏在商業(yè)應(yīng)用里,它就表現(xiàn)為在大型數(shù)據(jù)庫里面搜索有價(jià)值的商業(yè)信息這兩種過程都需要對(duì)巨量的材料進(jìn)行詳細(xì)地過濾,并且需要智能且精確地定位潛在價(jià)值的所在。對(duì)于給定了大小的數(shù)據(jù)庫,數(shù)據(jù)挖掘技術(shù)可以用它如下的超能力產(chǎn)生巨大的商業(yè)機(jī)會(huì):自動(dòng)趨勢(shì)預(yù)測(cè) 自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式第26頁,共94頁。自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式數(shù)據(jù)挖掘工具掃描整個(gè)數(shù)據(jù)庫并辨認(rèn)出那些隱藏著的模式,比如通過分析零售數(shù)據(jù)來辨別出表面上看起來沒聯(lián)系的產(chǎn)品,實(shí)際上有很多情況下是一起被售出的情況。數(shù)據(jù)挖掘技術(shù)可以讓

11、現(xiàn)有的軟件和硬件更加自動(dòng)化,并且可以在升級(jí)的或者新開發(fā)的平臺(tái)上執(zhí)行。當(dāng)數(shù)據(jù)挖掘工具運(yùn)行于高性能的并行處理系統(tǒng)上的時(shí)候,它能在數(shù)分鐘內(nèi)分析一個(gè)超大型的數(shù)據(jù)庫。這種更快的處理速度意味著用戶有更多的機(jī)會(huì)來分析數(shù)據(jù),讓分析的結(jié)果更加準(zhǔn)確可靠,并且易于理解。 第27頁,共94頁。數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的范圍 數(shù)據(jù)庫可以由此拓展深度和廣度 第28頁,共94頁。數(shù)據(jù)庫可以由此拓展深度和廣度深度上,允許有更多的列存在。以往,在進(jìn)行較復(fù)雜的數(shù)據(jù)分析時(shí),專家們限于時(shí)間因素,不得不對(duì)參加運(yùn)算的變量數(shù)量加以限制,但是那些被丟棄而沒有參加運(yùn)算的變量有可能包含著另一些不為人知的有用信息?,F(xiàn)在,高性能的數(shù)據(jù)挖掘工具讓用

12、戶對(duì)數(shù)據(jù)庫能進(jìn)行通盤的深度遍歷,并且任何可能參選的變量都被考慮進(jìn)去,再不需要選擇變量的子集來進(jìn)行運(yùn)算了。廣度上,允許有更多的行存在。更大的樣本讓產(chǎn)生錯(cuò)誤和變化的概率降低,這樣用戶就能更加精確地推導(dǎo)出一些雖小但頗為重要的結(jié)論。 第29頁,共94頁。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的對(duì)象數(shù)據(jù)挖掘與專家系統(tǒng)的區(qū)別第30頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第31頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第32頁,共94頁。關(guān)聯(lián)分析在數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)之間發(fā)掘關(guān)聯(lián)關(guān)系,某些數(shù)據(jù)項(xiàng)的出現(xiàn)預(yù)示著該記錄中其它一些

13、數(shù)據(jù)項(xiàng)出現(xiàn)的可能。面包和牛奶的故事第33頁,共94頁。關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則的形式:支持度Support: 表示該規(guī)則所代表的事例占全部事例的百分比置信度Confidence: 表示該規(guī)則所代表事例占滿足前提條件事例的百分比第34頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第35頁,共94頁。時(shí)序模式給定一段時(shí)間內(nèi)的數(shù)據(jù)記錄,發(fā)掘記錄間的相關(guān)性,當(dāng)前記錄中某些數(shù)據(jù)項(xiàng)的出現(xiàn)預(yù)示著其它數(shù)據(jù)項(xiàng)在隨后記錄中出現(xiàn)的可能性??v向的關(guān)聯(lián)第36頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第37頁,共94頁。聚類將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。第3

14、8頁,共94頁。聚類聚類原則:同一類別的對(duì)象間距離盡可能??;不同類別的對(duì)象間距離盡可能大。考慮對(duì)象間的相似性問題第39頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第40頁,共94頁。分類給定屬于不同類型的數(shù)據(jù)記錄,根據(jù)記錄中數(shù)據(jù)項(xiàng)的特征為每種類型生成分類模型。分類模型用于預(yù)測(cè)新的數(shù)據(jù)記錄所屬類型。汽車銷售的例子必須事先給出分類的標(biāo)號(hào)第41頁,共94頁。分類決策樹分類:規(guī)則分類: IF () Then () Else ()第42頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第43頁,共94頁。偏差檢測(cè)在數(shù)據(jù)分析中發(fā)現(xiàn)有很多異常情況存在于數(shù)據(jù)庫中,我們可以根據(jù)

15、這種異常情況獲得很多有用的信息用于統(tǒng)計(jì)試驗(yàn)檢測(cè)信用卡欺騙的例子第44頁,共94頁。數(shù)據(jù)挖掘的任務(wù)關(guān)聯(lián)分析時(shí)序模式聚類分類偏差檢測(cè)預(yù)測(cè)第45頁,共94頁。預(yù)測(cè)利用歷史數(shù)據(jù)或數(shù)據(jù)分布依據(jù)一定的模型計(jì)算出數(shù)值數(shù)據(jù)或識(shí)別出未來分布趨勢(shì)等。用于分類的預(yù)測(cè)和用于回歸的預(yù)測(cè)第46頁,共94頁。數(shù)據(jù)挖掘的算法關(guān)聯(lián)分析Apriori, AprioriTid序列分析AprioriAll, AprioriSome, DynamicSome數(shù)據(jù)分類RIPPER, ID3, C4.5, Naive Bayes, 第47頁,共94頁。知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的進(jìn)化歷程數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘的對(duì)象

16、數(shù)據(jù)挖掘與專家系統(tǒng)的區(qū)別第48頁,共94頁。數(shù)據(jù)挖掘的分類數(shù)據(jù)挖掘數(shù)據(jù)庫技術(shù)信息科學(xué)可視化統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)其他學(xué)科第49頁,共94頁。數(shù)據(jù)挖掘的分類根據(jù)挖掘的數(shù)據(jù)庫類型分類 根據(jù)挖掘的知識(shí)類型分類 根據(jù)應(yīng)用分類 根據(jù)所用的方法和技術(shù)分類 第50頁,共94頁。數(shù)據(jù)挖掘的分類根據(jù)挖掘的數(shù)據(jù)庫類型分類 根據(jù)挖掘的知識(shí)類型分類 根據(jù)應(yīng)用分類 根據(jù)所用的方法和技術(shù)分類 第51頁,共94頁。根據(jù)挖掘的數(shù)據(jù)庫類型分類與數(shù)據(jù)庫匹配的數(shù)據(jù)挖掘技術(shù)分類關(guān)系數(shù)據(jù)挖掘非關(guān)系型數(shù)據(jù)挖掘處理的數(shù)據(jù)的特定類型分類空間的數(shù)據(jù)挖掘時(shí)間序列的數(shù)據(jù)挖掘文本的數(shù)據(jù)挖掘多媒體的數(shù)據(jù)挖掘第52頁,共94頁。數(shù)據(jù)挖掘的分類根據(jù)挖掘的數(shù)據(jù)庫類

17、型分類 根據(jù)挖掘的知識(shí)類型分類 根據(jù)應(yīng)用分類 根據(jù)所用的方法和技術(shù)分類 第53頁,共94頁。根據(jù)挖掘的知識(shí)類型分類關(guān)聯(lián)時(shí)序聚類分類偏差檢測(cè)預(yù)測(cè)分析第54頁,共94頁。數(shù)據(jù)挖掘的分類根據(jù)挖掘的數(shù)據(jù)庫類型分類 根據(jù)挖掘的知識(shí)類型分類 根據(jù)應(yīng)用分類 根據(jù)所用的方法和技術(shù)分類 第55頁,共94頁。根據(jù)應(yīng)用分類金融行業(yè)的數(shù)據(jù)挖掘電信行業(yè)的數(shù)據(jù)挖掘保險(xiǎn)行業(yè)的數(shù)據(jù)挖掘醫(yī)藥行業(yè)的數(shù)據(jù)挖掘稅務(wù)部門的數(shù)據(jù)挖掘第56頁,共94頁。數(shù)據(jù)挖掘的分類根據(jù)挖掘的數(shù)據(jù)庫類型分類 根據(jù)挖掘的知識(shí)類型分類 根據(jù)應(yīng)用分類 根據(jù)所用的方法和技術(shù)分類 第57頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析

18、法模糊數(shù)學(xué)法可視技術(shù)法第58頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析法模糊數(shù)學(xué)法可視技術(shù)法第59頁,共94頁。歸納學(xué)習(xí)法歸納學(xué)習(xí)是符號(hào)學(xué)習(xí)中研究得最為廣泛得一種方法。給定關(guān)于某個(gè)概念的一系列已知的正例和反例,其任務(wù)是從中歸納出一個(gè)通用的概念描述歸納學(xué)習(xí)能夠獲得新的概念,創(chuàng)立新的規(guī)則,發(fā)現(xiàn)新的理論它的一般操作是泛化(generalization)和特化(specialization)泛化用來擴(kuò)展一假設(shè)的語義信息,以使其能夠包含更多的正例,應(yīng)用于更多的情況特化是泛化的相反的操作,用于限制概念描述的應(yīng)用范圍第60頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿

19、生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析法模糊數(shù)學(xué)法可視技術(shù)法第61頁,共94頁。仿生物技術(shù)法神經(jīng)網(wǎng)絡(luò)方法類遺傳算法類第62頁,共94頁。神經(jīng)網(wǎng)絡(luò)方法類所謂人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural network)是指利用工程技術(shù)手段模擬人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的一種技術(shù)系統(tǒng)。它是一種大規(guī)模并行的非線性動(dòng)力學(xué)系統(tǒng),簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)人腦是由大量的神經(jīng)元通過及其豐富和完善的聯(lián)接而形成的一個(gè)靈活多變的、錯(cuò)綜復(fù)雜的神經(jīng)網(wǎng)絡(luò)第63頁,共94頁。神經(jīng)網(wǎng)絡(luò)方法類-理論基礎(chǔ) 神經(jīng)元結(jié)構(gòu)圖樹突軸突突觸 第64頁,共94頁。神經(jīng)網(wǎng)絡(luò)方法類 人工神經(jīng)元結(jié)構(gòu)模型圖 w1 w2 wn ui Yix1 x2 xnf 第65頁,

20、共94頁。神經(jīng)網(wǎng)絡(luò)方法類人工神經(jīng)元:又稱為處理單元、節(jié)點(diǎn)或短期記憶 xi : 神經(jīng)元的輸入wi : 突觸連接強(qiáng)度即權(quán)值ui : 神經(jīng)元的內(nèi)部狀態(tài) : 閾值 Yi : 神經(jīng)元的輸出, 規(guī)定神經(jīng)元在一定輸入的作用下,超過某一閾值,神經(jīng)元才興奮,才能引起輸出是一簡(jiǎn)單非線性激活又稱為神經(jīng)元的功能函數(shù)第66頁,共94頁。仿生物技術(shù)法神經(jīng)網(wǎng)絡(luò)方法類遺傳算法類第67頁,共94頁。遺傳算法類遺傳算法是模擬生物進(jìn)化過程的算法:分別由繁殖(選擇)、交叉(重組)、變異三個(gè)基本算子第68頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析法模糊數(shù)學(xué)法可視技術(shù)法第69頁,共94頁。公式發(fā)現(xiàn)法該

21、類對(duì)若干變量進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。由物理定律發(fā)現(xiàn)系統(tǒng)BACON和經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FDD構(gòu)成。物理定律發(fā)現(xiàn)系統(tǒng)BACON是對(duì)數(shù)據(jù)項(xiàng)進(jìn)行初等數(shù)學(xué)運(yùn)算形成組合數(shù)據(jù)項(xiàng),若它的值為常數(shù)項(xiàng),我們就得到了組合數(shù)據(jù)項(xiàng)等于常數(shù)的公式,該系統(tǒng)有BACON.1BACON.5五個(gè)版本。 經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FDD是對(duì)兩個(gè)數(shù)據(jù)項(xiàng)交替取初等函數(shù)后與另一數(shù)據(jù)項(xiàng)的線性組合若為直線時(shí),就找到了數(shù)據(jù)項(xiàng)的初等函數(shù)的線性組合公式第70頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析法模糊數(shù)學(xué)法可視技術(shù)法第71頁,共94頁。統(tǒng)計(jì)分析法求目標(biāo)數(shù)據(jù)的最大值、最小值、總和和平均值等的常用統(tǒng)計(jì):求相

22、關(guān)系數(shù)來度量變量間的相關(guān)程度的相關(guān)分析;求回歸方程(線性或非線性)來表示變量間的數(shù)量關(guān)系的回歸分析;從樣本統(tǒng)計(jì)量的值得出差異,來確定總體參數(shù)之間是否存在差異(假設(shè)檢驗(yàn))的差異分析;直接比較樣本中各樣本之間的距離,將距離較近的歸為一類。而將距離較遠(yuǎn)的分在不同類中的聚類分析;建立一個(gè)或多個(gè)判別函數(shù),并確定一個(gè)判別標(biāo)準(zhǔn)。 第72頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析法模糊數(shù)學(xué)法可視技術(shù)法第73頁,共94頁。模糊數(shù)學(xué)法模糊聚類模糊分類模糊關(guān)聯(lián)規(guī)則 第74頁,共94頁。根據(jù)所用的方法和技術(shù)分類歸納學(xué)習(xí)法仿生物技術(shù)法公式發(fā)現(xiàn)法統(tǒng)計(jì)分析法模糊數(shù)學(xué)法可視技術(shù)法第75頁,

23、共94頁??梢暭夹g(shù)法可視化技術(shù)是對(duì)數(shù)據(jù)挖掘過程及結(jié)果的圖形顯示技術(shù)??梢暬夹g(shù)在數(shù)據(jù)挖掘中的廣泛應(yīng)用已形成了可視化數(shù)據(jù)挖掘類的多種方法。應(yīng)用:提取幾何圖形繪制顯示和演放 第76頁,共94頁。數(shù)據(jù)挖掘的對(duì)象關(guān)系數(shù)據(jù)庫文本圖像與視頻數(shù)據(jù)WEB數(shù)據(jù)第77頁,共94頁。數(shù)據(jù)挖掘方法和技術(shù)歸納學(xué)習(xí)方法仿生物技術(shù)公式發(fā)現(xiàn)統(tǒng)計(jì)分析方法模糊數(shù)學(xué)方法可視化技術(shù)第78頁,共94頁。數(shù)據(jù)挖掘與專家系統(tǒng)的區(qū)別相同點(diǎn):都是利用已有信息來解決問題區(qū)別:數(shù)據(jù)挖掘是從海量已有數(shù)據(jù)中發(fā)現(xiàn)隱藏的、潛在的知識(shí)來進(jìn)行決策支持;專家系統(tǒng)是利用專家知識(shí)或啟發(fā)性知識(shí),按一定的推理規(guī)則來幫助人們解決問題。數(shù)據(jù)挖掘強(qiáng)調(diào)事實(shí)第一、惟數(shù)據(jù);專家系

24、統(tǒng)強(qiáng)調(diào)經(jīng)驗(yàn)第一、惟專家第79頁,共94頁。數(shù)據(jù)挖掘的知識(shí)表示規(guī)則決策樹知識(shí)基(濃縮數(shù)據(jù))網(wǎng)絡(luò)權(quán)值公式第80頁,共94頁。規(guī) 則規(guī)則知識(shí)由前提條件和結(jié)論兩部分組成 前提條件 由字段項(xiàng)(屬性)的取值的 合取(與,) 和析取(或,) 組合而成結(jié)論為決策字段項(xiàng)(屬性)的取值或者類別組成 第81頁,共94頁。類型身高頭發(fā)HR附第一類人矮金色藍(lán)色高紅色藍(lán)色高金色藍(lán)色矮金色灰色第二類人高金色黑色矮黑色藍(lán)色高黑色藍(lán)色高黑色灰色矮金色黑色規(guī)則的例子IF(發(fā)色=金色紅色) (眼睛=藍(lán)色灰色) THEN 第一類人 IF(發(fā)色=黑色)(眼睛=黑色)THEN 第二類人 規(guī)則知識(shí) 第82頁,共94頁。決策樹ID3決策樹的建立方法:首先由信息量最大的字段(屬性)作為根結(jié)點(diǎn)接著根的各個(gè)取值為分枝,對(duì)各個(gè)分枝所劃分的數(shù)據(jù)元組(記錄)子集,重復(fù)建樹過程,擴(kuò)展決策樹最后得到相同類別的子集,以該類別作為葉結(jié)點(diǎn) 第83頁,共94頁。決策樹的例子1商店個(gè)數(shù)位置規(guī)模檔次經(jīng)營(yíng)效果10市中心大高一般15市中心大一般成功8市中心一般高成功6城鄉(xiāng)結(jié)合部大一般一般6城鄉(xiāng)結(jié)合部一般一般成功10市中心一般一般一般商店定位決策樹 第84頁,共94頁。天氣溫度濕度風(fēng)況運(yùn)動(dòng)晴8585無不適合晴8090有不適合多云8378無適合有雨7096無適合有雨6880無適合有雨6570有不適合多云6465有適合晴729

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論