數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)_第1頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)_第2頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)_第3頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)_第4頁
數(shù)據(jù)挖掘研究生課件--知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第二章第二章 知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu) 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項(xiàng)目的過程化管理 n數(shù)據(jù)挖掘語言介紹 如何學(xué)習(xí)本章內(nèi)容n在上一章我們指出,數(shù)據(jù)挖掘有廣義和狹義兩種理解。為了避免混淆,本章寧愿使用知識發(fā)現(xiàn)而把數(shù)據(jù)挖掘限制在上面所描述的狹義概念上。n雖然不同企業(yè)會有不同的業(yè)務(wù)邏輯,解決問題的具體方法有所差異,但是它們進(jìn)行知識發(fā)現(xiàn)的目的和基本思路是一致的。因此,本章首先對知識發(fā)現(xiàn)的基本過程進(jìn)行分析,旨在使讀者從總體上掌握知識發(fā)現(xiàn)的基本步驟和技術(shù)。然后對目前比較流行的KDD過程處理模型進(jìn)行剖析,使讀者

2、了解KDD系統(tǒng)的應(yīng)用體系結(jié)構(gòu)。通過對KDD系統(tǒng)的基本技術(shù)環(huán)境和主要部件功能分析,使讀者對KDD系統(tǒng)的體系結(jié)構(gòu)有一個(gè)更深入的了解。在此基礎(chǔ)上對KDD軟件和工具進(jìn)行歸納、舉例和分析,幫助讀者在實(shí)際應(yīng)用中學(xué)會選擇和使用相應(yīng)的軟件和工具。n本章也對KDD系統(tǒng)項(xiàng)目的過程化管理、交互式數(shù)據(jù)挖掘過程以及通用的KDD原型系統(tǒng)進(jìn)行討論,使讀者從軟件項(xiàng)目管理角度來更好地理解KDD過程。最后對數(shù)據(jù)挖掘語言的類型和特點(diǎn)進(jìn)行介紹。知識發(fā)現(xiàn)是一個(gè)系統(tǒng)化的工作n從源數(shù)據(jù)中發(fā)現(xiàn)有用知識是一個(gè)系統(tǒng)化的工作。首先必須對可以利用的源數(shù)據(jù)進(jìn)行分析,確定合適的挖掘目標(biāo)。然后才能著手系統(tǒng)的設(shè)計(jì)和開發(fā)。n完成從大型源數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值知識的

3、過程可以簡單地概括為:首先從數(shù)據(jù)源中抽取感興趣的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,調(diào)用相應(yīng)的算法生成所需的知識;最后對生成的知識模式進(jìn)行評估,并把有價(jià)值的知識集成到企業(yè)的智能系統(tǒng)中。n一般地說,KDD是一個(gè)多步驟的處理過程,一般分為問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及模式評估等基本階段。 問題定義階段的功能問題定義階段的功能n KDD是為了在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此發(fā)現(xiàn)何種知識就成為整個(gè)過程中第一個(gè)也是最重要的一個(gè)階段。n在問題定義過程中,數(shù)據(jù)挖掘人員必須和領(lǐng)域?qū)<乙约白罱K用戶緊密協(xié)作n一方面了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識,弄清用戶要求,確定挖掘的

4、目標(biāo)等要求;n另一方面通過對各種學(xué)習(xí)算法的對比進(jìn)而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準(zhǔn)備都是在此基礎(chǔ)上進(jìn)行的。數(shù)據(jù)抽取與集成數(shù)據(jù)抽取與集成n數(shù)據(jù)抽取與集成是知識發(fā)現(xiàn)的關(guān)鍵性工作。早期的數(shù)據(jù)抽取是依靠手工編程來實(shí)現(xiàn)的,現(xiàn)在可以通過高效的抽取工具來實(shí)現(xiàn)。即使是使用抽取工具,數(shù)據(jù)抽取和和裝載仍然是一件很艱苦的工作。n源數(shù)據(jù)庫的選取以及從中抽取數(shù)據(jù)的原則和具體規(guī)則必須依據(jù)系統(tǒng)的任務(wù)來界定。主要任務(wù)是設(shè)計(jì)存儲新數(shù)據(jù)的結(jié)構(gòu)和準(zhǔn)確定義它與源數(shù)據(jù)的轉(zhuǎn)換和裝載機(jī)制,以便正確地從每個(gè)數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結(jié)構(gòu)和轉(zhuǎn)換信息應(yīng)該作為元數(shù)據(jù)(Metadata)被存儲起來。n來自不同源的數(shù)據(jù)可能有模式定義

5、上的差異,也可能存在因數(shù)據(jù)冗余而無法確定有效數(shù)據(jù)的情形。此外,還要考慮數(shù)據(jù)庫系統(tǒng)本身可能存在不兼容的情況 數(shù)據(jù)清洗與預(yù)處理數(shù)據(jù)清洗與預(yù)處理 n在開始一個(gè)知識發(fā)現(xiàn)項(xiàng)目之前必須清晰地定義挖掘目標(biāo)。雖然挖掘的最后結(jié)果是不可預(yù)測的,但是要解決或探索的問題應(yīng)該是可預(yù)見的。盲目性地挖掘是沒有任何意義的。如果所集成的數(shù)據(jù)不正確,數(shù)據(jù)挖掘算法輸出的結(jié)果也必然不正確,這樣形成的決策支持是不可靠的。因此,要提高挖掘結(jié)果的準(zhǔn)確率,數(shù)據(jù)預(yù)處理是不可忽視的一步。n對數(shù)據(jù)進(jìn)行預(yù)處理,一般需要對源數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進(jìn)行平滑,對丟失的數(shù)據(jù)進(jìn)行填補(bǔ),消除“臟”數(shù)據(jù),消除重復(fù)記錄等。

6、n數(shù)據(jù)清洗是指去除或修補(bǔ)源數(shù)據(jù)中的不完整、不一致、含噪音的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰、甚至為了保密使系統(tǒng)設(shè)計(jì)人員無法得到某些數(shù)據(jù)項(xiàng)的數(shù)據(jù)。假如這個(gè)數(shù)據(jù)項(xiàng)正是知識發(fā)現(xiàn)系統(tǒng)所關(guān)心的,那么這類不完整的數(shù)據(jù)就需要修補(bǔ)。n常見的不完整數(shù)據(jù)的修補(bǔ)辦法有:n使用一個(gè)全局值來填充(如“unknown”、估計(jì)的最大數(shù)或最小數(shù))。n統(tǒng)計(jì)該屬性的所有非空值,并用平均值來填充空缺項(xiàng)。n只使用同類對象的屬性平均值填充。n利用回歸或工具預(yù)測最可能的值,并用它來填充。n數(shù)據(jù)不一致可能是由于源數(shù)據(jù)庫中對同樣屬性所使用的數(shù)據(jù)類型、度量單位等不同而導(dǎo)致的。因此需要定義它們的轉(zhuǎn)換規(guī)則,并在挖掘前統(tǒng)一成一個(gè)形式。噪音數(shù)據(jù)是

7、指那些明顯不符合邏輯的偏差數(shù)據(jù)(如某雇員200歲),這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性。數(shù)據(jù)的選擇與整理n沒有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結(jié)果。為了得到一個(gè)高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方面需要通過數(shù)據(jù)清洗來消除干擾性數(shù)據(jù),另一方面也需要針對挖掘目標(biāo)進(jìn)行數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)采掘的質(zhì)量。數(shù)據(jù)選擇可以使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務(wù)相關(guān)的數(shù)據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖掘的準(zhǔn)確性。n利用數(shù)據(jù)變換或規(guī)約等技術(shù)可以將數(shù)據(jù)整理成適合進(jìn)一步挖掘的數(shù)據(jù)格式。數(shù)據(jù)變換可以根據(jù)需要構(gòu)造出新的屬性以幫助理解分析數(shù)據(jù)的特點(diǎn),或者將數(shù)據(jù)規(guī)范

8、化,使之落在一個(gè)特定的數(shù)據(jù)區(qū)間中。數(shù)據(jù)歸約則是在盡可能保證數(shù)據(jù)完整性的基礎(chǔ)上,將數(shù)據(jù)以其他方式進(jìn)行表示,以減少數(shù)據(jù)存儲空間,使挖掘過程更有效。常用的歸約策略有:數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮和離散化等。數(shù)據(jù)挖掘階段的功能數(shù)據(jù)挖掘階段的功能n運(yùn)用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示。n選擇數(shù)據(jù)挖掘算法有兩個(gè)考慮因素:n一是不同的數(shù)據(jù)有不同的特點(diǎn),因此需要用與之相關(guān)的算法來挖掘;n二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶可能希望獲取描述型的(Descriptive)、容易理解的知識(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有

9、的用戶只是希望獲取預(yù)測準(zhǔn)確度盡可能高的預(yù)測型(Predictive)知識,并不在意獲取的知識是否易于理解。知識評估階段的功能知識評估階段的功能n數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,經(jīng)過評估,可能存在冗余或無關(guān)的模式,這時(shí)需要將其剔除;也有可能模式不滿足用戶要求,這時(shí)則需要整個(gè)發(fā)現(xiàn)過程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等等。nKDD由于最終是面向人類用戶的,因此可能要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示。所以知識評估階段是KDD一個(gè)重要的必不可少的階段,它不僅擔(dān)負(fù)著將KDD系統(tǒng)發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn),而且根據(jù)需要進(jìn)行知識

10、評價(jià),如果和用戶的挖掘目標(biāo)不一致就需要返回前面相應(yīng)的步驟進(jìn)行螺旋式處理以最終獲得可用的知識。知識發(fā)現(xiàn)需要多方合作n實(shí)施這樣的項(xiàng)目不僅需要充足的資金,而且需要有良好的技術(shù)和人員儲備。在整個(gè)的知識發(fā)現(xiàn)過程中,需要有不同專長的技術(shù)人員支持。n業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。n數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為知識發(fā)現(xiàn)的各步操作,并為每步操作選擇合適的模型或工具。n數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并負(fù)責(zé)從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。第二章第二章 知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)知識發(fā)現(xiàn)過程與應(yīng)用結(jié)

11、構(gòu) 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項(xiàng)目的過程化管理 n數(shù)據(jù)挖掘語言介紹 階梯處理過程模型n多階段流水處理模型: 螺旋處理過程模型n它強(qiáng)調(diào)領(lǐng)域?qū)<覅⑴c的重要性,并以問題的定義為中心循環(huán)評測挖掘的結(jié)果。當(dāng)結(jié)果不令人滿意時(shí),就需要重新定義問題,開始新的處理循環(huán)。每次循環(huán)都使問題更清晰,結(jié)果更準(zhǔn)確,因此是一個(gè)螺旋式上升過程。 以用戶為中心的處理模型nBrachman和Anand從用戶的角度對KDD處理過程進(jìn)行了分析。他們認(rèn)為數(shù)據(jù)庫中的知識發(fā)現(xiàn)應(yīng)該更著重于對用戶進(jìn)行知識發(fā)現(xiàn)的整個(gè)過程的支持,而不是僅僅限于在數(shù)據(jù)挖掘的一個(gè)階段上。

12、該模型強(qiáng)調(diào)對用戶與數(shù)據(jù)庫的交互的支持。聯(lián)機(jī)KDD模型n實(shí)現(xiàn)聯(lián)機(jī)交互式KDD需要可視化技術(shù)支撐。這種可視化需要從數(shù)據(jù)挖掘過程可視化、數(shù)據(jù)可視化、模型可視化和算法可視覺化等方面來理解。nOLAM(On Line Analytical Mining:聯(lián)機(jī)分析挖掘)的概念是OLAP的發(fā)展。An OLAM ArchitectureData WarehouseMeta DataMDDBOLAMEngineOLAPEngineUser GUIAPIData Cube APIDatabase APIData cleaningData integrationL2OLAP/OLAML1MDDBL0Data Rep

13、ositoryL3User InterfaceFiltering&IntegrationFilteringDatabasesMining queryMining result支持多數(shù)據(jù)源多知識模式的支持多數(shù)據(jù)源多知識模式的KDDKDD處理模型處理模型n數(shù)據(jù)與方法相對獨(dú)立。數(shù)據(jù)不是針對某一特定知識模式,而是針對某一類問題來抽取。經(jīng)過預(yù)處理后,這些數(shù)據(jù)對于某些挖掘算法來說可能存在屬性冗余、與目標(biāo)無關(guān)等問題,因此在后面的階段再進(jìn)行相關(guān)的數(shù)據(jù)清洗和選擇工作,這樣使得解決同一類問題的不同算法可以在統(tǒng)一的KDD平臺上完成。 模式評估模式評估數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)選擇數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗模式選擇數(shù)據(jù)集成

14、數(shù)據(jù)抽取數(shù)據(jù)抽取問題定義Web/TEXTDBDWDB/DW源數(shù)據(jù)備選數(shù)據(jù)Cube目標(biāo)數(shù)據(jù)DB知識庫用戶知識模式庫第二章第二章 知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu) 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項(xiàng)目的過程化管理 n數(shù)據(jù)挖掘語言介紹 知識發(fā)現(xiàn)軟件的發(fā)展n雖然市場上已經(jīng)有許多所謂的知識發(fā)現(xiàn)系統(tǒng)或工具,但是,這些工具只能用來輔助技術(shù)人員進(jìn)行設(shè)計(jì)和開發(fā),而且知識發(fā)現(xiàn)軟件本身也正處于發(fā)展階段,仍然存在各種各樣需要解決的問題。n粗略地說,知識發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨(dú)立的知識發(fā)現(xiàn)軟件、橫向的知識發(fā)現(xiàn)工具集和縱向的知識發(fā)現(xiàn)

15、解決方案三個(gè)主要階段,其中后面兩種反映了目前知識發(fā)現(xiàn)軟件的兩個(gè)主要發(fā)展方向。獨(dú)立的知識發(fā)現(xiàn)軟件獨(dú)立的知識發(fā)現(xiàn)軟件n獨(dú)立的知識發(fā)現(xiàn)軟件出現(xiàn)在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)研究的早期。當(dāng)研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法后,就在此基礎(chǔ)上形成軟件原型。這些原型系統(tǒng)經(jīng)過完善被嘗試使用。n這類軟件要求用戶必須對具體的數(shù)據(jù)挖掘技術(shù)和算法有相當(dāng)?shù)牧私?,還要手工負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。橫向的知識發(fā)現(xiàn)工具橫向的知識發(fā)現(xiàn)工具n集成化的知識發(fā)現(xiàn)輔助工具集,屬于通用輔助工具范疇,可以幫助用戶快速完成知識發(fā)現(xiàn)的不同階段處理工作。n一些有代表性的原型系統(tǒng)或工具介紹。名稱研究機(jī)構(gòu)或公司主要特點(diǎn)DBMiner1Simon Fra

16、ser以O(shè)LAM引擎為核心的聯(lián)機(jī)挖掘原型系統(tǒng);包含多特征/序列/關(guān)聯(lián)等多模式。Quest75IBM Almaden面向大數(shù)據(jù)集的多模式(關(guān)聯(lián)規(guī)則/分類等)挖掘工具。IBM Intelligent Miner76IBM包含多種技術(shù)(神經(jīng)網(wǎng)絡(luò)/統(tǒng)計(jì)分析/聚類等)的輔助挖掘工具集。Darwin76Thinking Machines基于神經(jīng)網(wǎng)絡(luò)的輔助挖掘工具。ReMindCognitive System基于實(shí)例推理和歸納邏輯的輔助挖掘工具??v向的知識發(fā)現(xiàn)解決方案n隨著橫向的數(shù)據(jù)挖掘工具集的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)據(jù)挖掘算法的專家才能熟練使用。如果對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)及其算法不了解

17、,就難以開發(fā)出好的應(yīng)用 。n縱向的數(shù)據(jù)挖掘解決方案的核心是針對特定的應(yīng)用提供完整的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)解決方案。由于和具體的商業(yè)邏輯相結(jié)合,因此,數(shù)據(jù)挖掘技術(shù)專門為了解決某些特定的問題被使用,成為企業(yè)應(yīng)用系統(tǒng)中一部分。n許多廠商或研究機(jī)構(gòu)可以提供縱向數(shù)據(jù)挖掘的解決方案。因此,數(shù)據(jù)挖掘技術(shù)在最近幾年開始在一些領(lǐng)域得到應(yīng)用。例如,證券系統(tǒng)的趨勢預(yù)測、銀行和電信行業(yè)的欺詐行為檢測、在CRM中的應(yīng)用、在基因分析系統(tǒng)中用于DNA識別等。n特定領(lǐng)域的數(shù)據(jù)挖掘工具針對性比較強(qiáng),只能用于一種應(yīng)用;也正因?yàn)獒槍π詮?qiáng),往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實(shí)現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。 第二章第二章

18、知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu) 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項(xiàng)目的過程化管理 n數(shù)據(jù)挖掘語言介紹 知識發(fā)現(xiàn)項(xiàng)目的過程化管理問題n開發(fā)一個(gè)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)項(xiàng)目需要各方面協(xié)同合作而且極易出現(xiàn)問題,因此它的質(zhì)量管理問題的討論是重要而困難的。n近幾年,有一些針對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)項(xiàng)目的過程化管理所開展的工作,其中一個(gè)典型的模型三被稱作強(qiáng)度挖掘(Intension Mining)的I-MIN過程模型。nI-MIN過程模型把KDD過程分成IM1、IM2、IM6等步驟處理,在每個(gè)步驟里,集中討論幾個(gè)問題,并按一定的

19、質(zhì)量標(biāo)準(zhǔn)來控制項(xiàng)目的實(shí)施。IM1IM1的任務(wù)與目的的任務(wù)與目的n它是KDD項(xiàng)目的計(jì)劃階段,需要確定企業(yè)的挖掘目標(biāo),選擇知識發(fā)現(xiàn)模式,編譯知識發(fā)現(xiàn)模式得到的元數(shù)據(jù)。其目的是將企業(yè)的挖掘目標(biāo)嵌入到對應(yīng)的知識模式中。n對數(shù)據(jù)挖掘研究人員來說,往往把主要精力用在改進(jìn)現(xiàn)有算法和探索新算法上。但是在真正調(diào)用挖掘算法之前,必須對企業(yè)的決策機(jī)制和流程進(jìn)行充分調(diào)研,理解企業(yè)急需解決的問題。需要準(zhǔn)確地確定挖掘目標(biāo)和可交付系統(tǒng)的指標(biāo)等。IM2IM2的任務(wù)與目標(biāo)的任務(wù)與目標(biāo)n它是KDD的預(yù)處理階段,可以用IM2a、IM2b、IM2c等分別對應(yīng)于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等階段。其目的是生成高質(zhì)量的目標(biāo)數(shù)據(jù)。n知識發(fā)

20、現(xiàn)項(xiàng)目的數(shù)據(jù)預(yù)處理是一個(gè)費(fèi)時(shí)費(fèi)力的工作。事實(shí)上,數(shù)據(jù)挖掘的成功與否,數(shù)據(jù)預(yù)處理起到了至關(guān)重要的作用。只有好的預(yù)處理,才能避免GIGO(垃圾進(jìn)垃圾出)的現(xiàn)象發(fā)生。IM3IM3的任務(wù)與目標(biāo)的任務(wù)與目標(biāo)n它是KDD的挖掘準(zhǔn)備階段,數(shù)據(jù)挖掘工程師進(jìn)行挖掘?qū)嶒?yàn),反復(fù)測試和驗(yàn)證模型的有效性。其目的是通過實(shí)驗(yàn)和訓(xùn)練得到濃縮知識(Knowledge Concentrate),為最終用戶提供可使用的模型。IM4IM4的任務(wù)與目標(biāo)的任務(wù)與目標(biāo)n它是KDD的數(shù)據(jù)挖掘階段,用戶通過指定數(shù)據(jù)挖掘算法得到對應(yīng)的知識。 IM5IM5的任務(wù)與目標(biāo)的任務(wù)與目標(biāo)n它是KDD的知識表示階段,按指定要求形成規(guī)格化的知識。IM6IM6

21、的任務(wù)與目標(biāo)的任務(wù)與目標(biāo)n它是KDD的知識解釋與使用階段,其目的是根據(jù)用戶要求直觀地輸出知識或集成到企業(yè)的知識庫中。第二章第二章 知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu) 內(nèi)容提要內(nèi)容提要n知識發(fā)現(xiàn)的基本過程 n數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型n知識發(fā)現(xiàn)軟件或工具的發(fā)展n知識發(fā)現(xiàn)項(xiàng)目的過程化管理 n數(shù)據(jù)挖掘語言介紹 數(shù)據(jù)挖掘語言概述n設(shè)計(jì)理想的數(shù)據(jù)挖掘語言是一個(gè)巨大的挑戰(zhàn)。這是因?yàn)閿?shù)據(jù)挖掘覆蓋的任務(wù)寬、包含知識形式廣(如數(shù)據(jù)特征化、關(guān)聯(lián)規(guī)則、數(shù)據(jù)分類、聚集等等)。每個(gè)任務(wù)都有不同的需求,每種知識表示形式都有不同內(nèi)涵。一個(gè)有效的數(shù)據(jù)挖掘語言設(shè)計(jì)需要對各種不同的數(shù)據(jù)挖掘任務(wù)的能力、約束以及運(yùn)行機(jī)

22、制有深入地理解。n眾所周知,關(guān)系查詢語言的標(biāo)準(zhǔn)化,發(fā)生在關(guān)系型數(shù)據(jù)庫開發(fā)的早期階段。經(jīng)過不懈的努力,以SQL為代表的關(guān)系型數(shù)據(jù)庫查詢語言的標(biāo)準(zhǔn)化被成功解決。同樣,一個(gè)好的數(shù)據(jù)挖掘語言可以有助于數(shù)據(jù)挖掘系統(tǒng)平臺的標(biāo)準(zhǔn)化進(jìn)程,甚至可以象HTML推動Internet的發(fā)展一樣,推動數(shù)據(jù)挖掘行業(yè)的開發(fā)和發(fā)展。n數(shù)據(jù)挖掘語言的發(fā)展大致經(jīng)歷了兩個(gè)階段:第一個(gè)階段是研究單位和公司自行研究和開發(fā)階段;第二階段是研究單位和公司組成聯(lián)盟,研制和開發(fā)數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)化的階段。 數(shù)據(jù)挖掘語言概述n根據(jù)功能和側(cè)重點(diǎn)不同,數(shù)據(jù)挖掘語言可以分為三種類型:n數(shù)據(jù)挖掘查詢語言:希望以一種像SQL這樣的數(shù)據(jù)庫查詢語言完成數(shù)據(jù)挖掘

23、的任務(wù)。 n數(shù)據(jù)挖掘建模語言:對數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語言,設(shè)計(jì)一種標(biāo)準(zhǔn)的數(shù)據(jù)挖掘建模語言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標(biāo)準(zhǔn)可以遵循。n通用數(shù)據(jù)挖掘語言:通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點(diǎn),既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互式挖掘。通用數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。數(shù)據(jù)挖掘查詢語言nJ. W. Han等開發(fā)的數(shù)據(jù)挖掘系統(tǒng)DBMiner中數(shù)據(jù)挖掘查詢語言DMQL(Data Mining Query Language)是這類挖掘語言的典型代表。數(shù)據(jù)挖掘查詢語言DMQL由數(shù)據(jù)挖掘原語組成,數(shù)據(jù)挖掘原語用

24、來定義一個(gè)數(shù)據(jù)挖掘任務(wù)。用戶使用數(shù)據(jù)挖掘原語與數(shù)據(jù)挖掘系統(tǒng)通信,使得知識發(fā)現(xiàn)更有效。n這些原語有以下幾個(gè)種類:n數(shù)據(jù)庫部分以及用戶感興趣的數(shù)據(jù)集(包括感興趣的數(shù)據(jù)庫屬性或數(shù)據(jù)倉庫的維度);n挖掘知識的種類;在指導(dǎo)挖掘過程中有用的背景知識;n模式估值的興趣度測量;挖掘出的知識如何可視化表示。n數(shù)據(jù)挖掘查詢的基本單位是數(shù)據(jù)挖掘任務(wù),通過數(shù)據(jù)挖掘查詢語言,數(shù)據(jù)挖掘任務(wù)可以通過查詢的形式輸入到數(shù)據(jù)挖掘系統(tǒng)中。一個(gè)數(shù)據(jù)挖掘查詢由五種基本的數(shù)據(jù)挖掘原語定義。 數(shù)據(jù)挖掘建模語言n數(shù)據(jù)挖掘建模語言是對數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語言。n預(yù)言模型標(biāo)記語言”(Predictive Model Markup Lan

25、guage,PMML)被一個(gè)稱作數(shù)據(jù)挖掘協(xié)會(The Data Mining Group,DMG)的組織開發(fā)。PMML是一種基于XML的語言,用來定義預(yù)言模型。PMML允許應(yīng)用程序和聯(lián)機(jī)分析處理(OLAP)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨(dú)自開發(fā)數(shù)據(jù)挖掘模塊。nPMML的模型定義由以下幾部分組成:n頭文件(Header);n數(shù)據(jù)模式(Data Schema);n數(shù)據(jù)挖掘模式(Data Mining Schema);n預(yù)言模型模式(Predictive Model Schema);n預(yù)言模型定義(Definitions for Predictive Models);n全體模型定義(Defin

26、itions for Ensembles of Models);n選擇和聯(lián)合模型和全體模型的規(guī)則(Rules for Selecting and Combining Models and Ensembles of Models);n異常處理的規(guī)則(Rules for Exception Handling)通用數(shù)據(jù)挖掘語言n通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點(diǎn),既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互式挖掘。通用數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。n2000年3月,微軟公司推出了一個(gè)數(shù)據(jù)挖掘語言,稱作OLE DB for Dat

27、a Mining(DM),是通用數(shù)據(jù)挖掘語言中最具代表性的嘗試。微軟此舉的目的是為數(shù)據(jù)挖掘提供行業(yè)標(biāo)準(zhǔn)。只要符合這個(gè)標(biāo)準(zhǔn),都能容易地嵌入應(yīng)用程序中。nOLE DB for DM支持多種流行的數(shù)據(jù)挖掘算法。使用OLE DB for DM,數(shù)據(jù)挖掘應(yīng)用能夠通過OLE DB生產(chǎn)者接進(jìn)任何表格式的數(shù)據(jù)源。DMQL挖掘查詢語言介紹nDMQLDMQL語言的頂層語法語言的頂層語法DMQL:=;:=|n數(shù)據(jù)挖掘聲明(數(shù)據(jù)挖掘聲明(Data_Mining_StatementData_Mining_Statement)語句相關(guān)項(xiàng)說明)語句相關(guān)項(xiàng)說明:=use database | use data warehou

28、se use hierarchy for from where in relevance to order by group by having n例子:use databaseuse database AllElecronics_dbin relevance toin relevance to I.name,I.price,C.income,C.agefrom from customer C, item I, purchases P, items_sold Swherewhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada”group bygroup by P.date;DMQL挖掘查詢語言介紹(續(xù))n挖掘知識指定(挖掘知識指定(Mine_Knowledge_SpecificationMine_K

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論