




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、面向領(lǐng)域的數(shù)據(jù)驅(qū)動的數(shù)據(jù)挖掘一個新的理解數(shù)據(jù)挖掘抽象:最近,在計算機、通訊、數(shù)據(jù)存儲技術(shù)、高通量數(shù)據(jù)采集技術(shù)上的進步使得收集和存儲令人難以置信的海量數(shù)據(jù)成為可能。為從數(shù)據(jù)庫中發(fā)現(xiàn)大量知識創(chuàng)造了前所未有的機遇。數(shù)據(jù)挖掘是一種為處理大量的數(shù)據(jù)提供了新的理論,技術(shù)和工具的新興領(lǐng)域的計算智能,例如:數(shù)據(jù)分析、決策等等。有許多研究人員從事于設(shè)計有效的數(shù)據(jù)挖掘技術(shù)、方法和算法。不幸的是,大多數(shù)的數(shù)據(jù)挖掘研究人員把重心放在了發(fā)展數(shù)據(jù)挖掘的模式和方法上,只有一小部分致力于數(shù)據(jù)挖掘的基本問題。本文中我們會提出一個新的數(shù)據(jù)挖掘的理解,那就是面向領(lǐng)域的數(shù)據(jù)驅(qū)動的數(shù)據(jù)挖掘(3DM)模型。數(shù)據(jù)驅(qū)動的數(shù)據(jù)挖掘算法在我們的
2、實驗室開發(fā)出來同時提出來以顯示她的有效性。1. 介紹數(shù)據(jù)挖掘是被我們從巨大的數(shù)據(jù)集總獲取知識的渴望刺激的產(chǎn)物。它使用機器學(xué)習(xí),統(tǒng)計和可視化技術(shù)去發(fā)現(xiàn)數(shù)據(jù)中的知識,并且以一種很容易為用戶理解和使用的形式表現(xiàn)出來。許多數(shù)據(jù)挖掘方法是基于機器學(xué)習(xí)算法、統(tǒng)計方法的擴展、組合和調(diào)整和知識的提取和抽象。在過去的二十年里,許多技術(shù)被應(yīng)用在數(shù)據(jù)挖掘中,例如人工神經(jīng)網(wǎng)絡(luò),模糊集,粗糙集,決策樹,遺傳算法,最近鄰方法,基于統(tǒng)計規(guī)則歸納法,線性回歸,線性預(yù)測編碼等等。對于數(shù)據(jù)挖掘的研究有很多觀點?,F(xiàn)有的大量研究可以被粗略的分為三種觀點,不管在數(shù)據(jù)挖掘的研究中采取的哪種觀點,大多數(shù)的數(shù)據(jù)挖掘人員對發(fā)展數(shù)據(jù)挖掘模式和方
3、法的技術(shù)問題投入的大量的精力,只有少數(shù)的人關(guān)注數(shù)據(jù)挖掘的基本問題。什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的產(chǎn)物是什么?我們這數(shù)據(jù)挖掘中在做什么?我們在數(shù)據(jù)挖掘中應(yīng)該遵守的規(guī)則是什么?數(shù)據(jù)領(lǐng)域?qū)<业南闰炛R和知識豐富的頭腦直接的關(guān)系式什么?為了回答以上問題,我們需要研究數(shù)據(jù)挖掘的過程。首先,大量相關(guān)的研究已經(jīng)被證實,一個三層的概念框架被Yao提出,它包括哲學(xué)層,技術(shù)層和應(yīng)用層。這個框架的層代表了知識利用的理解,發(fā)現(xiàn)和區(qū)分。Peng為數(shù)據(jù)挖掘和知識的發(fā)現(xiàn)領(lǐng)域提出了一個系統(tǒng)框架,它的目的就是區(qū)分數(shù)據(jù)挖掘領(lǐng)域和知識發(fā)現(xiàn)。此外,國際上還舉辦了有關(guān)數(shù)據(jù)挖掘基礎(chǔ)的研討會。遺憾的是,仍然沒有被完全認可和沒有爭議的答案對于之
4、前提到的問題。在本文中,我們將會對基于概念上的數(shù)據(jù)挖掘模式提出一種新的理解。我們的答案將會是“數(shù)據(jù)挖掘是知識轉(zhuǎn)型的一個過程”。我們工作中關(guān)于數(shù)據(jù)挖掘技術(shù)的最經(jīng)的成果也會給以介紹以展示3DM模式的合理性。2、面向領(lǐng)域的數(shù)據(jù)驅(qū)動的數(shù)據(jù)挖掘模式2.1 數(shù)據(jù)驅(qū)動的數(shù)據(jù)挖掘數(shù)據(jù)挖掘是對數(shù)據(jù)中隱含的之前未知的潛在的有用知識的非一般的提取。知識可以以許多不同的方式表現(xiàn)出來,對于編碼知識有很多種形式,最簡單的格式或許是象征性的格式像公式、法則、定理等。對于人們來說以這種格式來理解和應(yīng)用是很簡單的,這些格式經(jīng)常被用在書籍、論文甚至專業(yè)系統(tǒng)中,書籍也是針對于編碼知識的人造格式。近期在計算機、通信,數(shù)字存儲技術(shù),以
5、及高吞吐量的數(shù)據(jù)采集技術(shù)上的進步使得收集和存儲令人難以置信的大量的數(shù)據(jù)成為可能。在很多領(lǐng)域都有大量的數(shù)據(jù)產(chǎn)生,每天許多自然現(xiàn)象、法則甚至人類的經(jīng)驗都被記錄在數(shù)據(jù)庫中。不幸的是人們無法讀到、理解或者用到這些數(shù)據(jù)中包含的知識。因此我們認為,在數(shù)據(jù)挖掘過程中,知識以一種人類無法理解的數(shù)據(jù)形式被轉(zhuǎn)化成另外一種難以理解的抽象格式如規(guī)則、公式、定理等等。在數(shù)據(jù)挖掘中不會有新的知識產(chǎn)生,也就是說,我們只是在不產(chǎn)生新知識的過程中把知識從一種形式轉(zhuǎn)化為另外一種形式。并且,在不同 的系統(tǒng)中對于知識的轉(zhuǎn)化有許多種渠道和方式。Fig.l是知識轉(zhuǎn)化過程中的一個插曲。 從Fig.l,人們可以看到數(shù)據(jù)挖掘只是一種知識轉(zhuǎn)化過
6、程對于從數(shù)據(jù)形式到抽象形式的知識轉(zhuǎn)化。因此,在數(shù)據(jù)挖掘過程沒有新的知識產(chǎn)生?;跀?shù)據(jù)挖掘的這種理解,我們可以得到Fig.2的基于數(shù)據(jù)挖掘的數(shù)據(jù)轉(zhuǎn)化框架。 從Fig.2我們可以發(fā)現(xiàn),知識可以被編輯成自然形式、數(shù)據(jù)形式、抽象形式和神經(jīng)連接形式。那就是說,數(shù)據(jù)可以存儲在自然世界系統(tǒng)、數(shù)據(jù)系統(tǒng)、或者生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)。知識以任何一種形式表示都有有一些內(nèi)涵,那就是P/s。在不同形式中的知識應(yīng)該有一些聯(lián)系,為了保證在數(shù)據(jù)挖掘過程中知識不會被改變,知識的內(nèi)涵應(yīng)該在知識的轉(zhuǎn)化過程中保持不變。否則,在知識的轉(zhuǎn)化過程中就會產(chǎn)生一些錯誤。在數(shù)據(jù)挖掘過程中,數(shù)據(jù)形式的知識的內(nèi)涵不能改變。這個信息應(yīng)該為數(shù)據(jù)挖掘的算法提供
7、一些指導(dǎo),他同樣有助于我們在數(shù)據(jù)挖掘過程中保持數(shù)據(jù)形式的知識不會發(fā)生改變。因此,為了保持知識在數(shù)據(jù)挖掘過程中不發(fā)生改變,我們需要了解一些數(shù)據(jù)形式的知識的內(nèi)涵,并且在保持不變的同時用他去控制數(shù)據(jù)挖掘過程,這是數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘的關(guān)鍵點。設(shè)計數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘算法的過程如下:步驟1:選擇一種對于被學(xué)習(xí)的領(lǐng)域問題來說合適的典型的知識代表形式。步驟2:選擇一些知識的內(nèi)涵可以以數(shù)據(jù)形式和典型形式衡量的。步驟3:以數(shù)據(jù)形式和典型形式衡量知識的內(nèi)涵。步驟4:利用內(nèi)容區(qū)控制數(shù)據(jù)挖掘過程并保持不變。知識的內(nèi)容可以以兩種不同的系統(tǒng)來衡量,數(shù)據(jù)系統(tǒng)和抽象系統(tǒng),這也許是一個問題。以數(shù)據(jù)形式和抽象形式衡量的結(jié)果是可以比較的
8、嗎?如果不是,我們怎么知道在數(shù)據(jù)挖掘過程中他有沒有改變呢?因此,需要提出一種可比對于選擇的內(nèi)容進行較衡量的方法。也就是說,我們需要建立一些數(shù)據(jù)形式和抽象時間知識內(nèi)容的聯(lián)系。22 用戶驅(qū)動(域驅(qū)動)數(shù)據(jù)挖掘許多真實世界的數(shù)據(jù)挖掘任務(wù),例如資本市場的數(shù)據(jù)挖掘,高度的約束前提和面向領(lǐng)域。因此,它旨在可操作的知識發(fā)現(xiàn),可以以負擔(dān)的起的重要基礎(chǔ)執(zhí)行適當(dāng)?shù)男袆?。在最近幾年,一些針對于這類工作的域驅(qū)動或者說用戶驅(qū)動數(shù)據(jù)挖掘方法已經(jīng)得到發(fā)展。張、曹、林為資本市場的金融數(shù)據(jù)挖掘提出了域驅(qū)動的深度模式發(fā)掘框架。姚、趙也利用顆粒網(wǎng)絡(luò)提出了交互式用戶為導(dǎo)向的分類方法。Kuntz、Guillet、Lehn和Briand
9、為了發(fā)現(xiàn)關(guān)聯(lián)規(guī)則開發(fā)出了以人為本的過程,用戶被認為是一種引導(dǎo)通過適應(yīng)良好的接口驅(qū)動挖掘算法。Han和Lakshmanan把基于制約和多維挖掘融合到一個框架里,為有效和高效的數(shù)據(jù)分析與挖掘提供了一個互動的探索環(huán)境。為了創(chuàng)造詞匯知識的基礎(chǔ),Patrick,Palko,Munro和Zappavigna 提出了一個半自動的方法,采用訓(xùn)練從一個有豐富經(jīng)驗的用戶去識別詞典文本流中的結(jié)構(gòu)元素。Dorado,Pedrycz和Izquierdo利用一些問題分類領(lǐng)域的知識作為訓(xùn)練程序的一部分在語義的圖像分類中。用戶驅(qū)動或者說域驅(qū)動,數(shù)據(jù)挖掘方法有一些共同的基礎(chǔ)概念:1、 一個用戶驅(qū)動數(shù)據(jù)挖掘程序是基于約束的。2、
10、 在一個用戶驅(qū)動程序中用戶的興趣被考慮到。3、 在一個用戶驅(qū)動程序中域?qū)<抑暗慕?jīng)驗是必要的。4、 在一個用戶驅(qū)動程序中用戶和機器的交互是必要的。2.3 有向域數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘和用戶驅(qū)動(或者域驅(qū)動)之間會沖突嗎?它們可以融入到一個系統(tǒng)里嗎?我們在這章討論這些問題!在一個數(shù)據(jù)庫管理系統(tǒng)中,不同的用戶可以根據(jù)自己的視圖操作整個數(shù)據(jù)庫系統(tǒng)中不同的數(shù)據(jù)。如果數(shù)據(jù)是以一種知識收集格式獲取的,數(shù)據(jù)庫也可以被當(dāng)做一種知識基礎(chǔ)收集。因此,不同的用戶可以找到并使用整個知識基礎(chǔ)對不同任務(wù)的不同子集。那就是說,通過他們的視圖,一個用戶可以以數(shù)據(jù)的形式利用知識的子集并且把他從數(shù)據(jù)形式變成另外一種需要
11、的形式。每一個用戶都可以進行知識轉(zhuǎn)變?nèi)匀灰砸环N數(shù)據(jù)驅(qū)動方法。在一域驅(qū)動數(shù)據(jù)挖掘過程中,用戶的興趣、約束和早期的領(lǐng)域知識都很重要。用戶和機器間的合作是必要的。數(shù)據(jù)挖掘過程可能被用戶控制。由于這個原因,這種挖掘過程的知識資源包括數(shù)據(jù)和用戶,不僅僅數(shù)據(jù)。因此,早期的領(lǐng)域知識同樣是數(shù)據(jù)挖掘過程的資源。一個用戶對數(shù)據(jù)挖掘過程的控制同樣被當(dāng)做一種數(shù)據(jù)挖掘過程的動態(tài)輸入被采用。這樣,一個數(shù)據(jù)挖掘過程不僅僅從數(shù)據(jù)中也從人中采集知識。數(shù)據(jù)不是知識的唯一資源,插圖Fig.3就是這種想法。從以上討論,我們知道域驅(qū)動數(shù)據(jù)挖掘和數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘不沖突。它們可以融入一個系統(tǒng)中,為了提高例如面向領(lǐng)域數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘過程仍然
12、有很多工作要做,1.設(shè)計一種格式編譯早期域知識。2.設(shè)計一種格式為特殊的任務(wù)編譯用戶的興趣和限制。3.設(shè)計一種格式編譯用戶的控制。4.設(shè)計一種數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘方法可以把數(shù)據(jù)早期域知識,用戶的興趣,用戶的限制,用戶的控制收集在一起當(dāng)做它的輸入。這里,最初的數(shù)據(jù),針對特殊任務(wù)的早期域知識,用戶興趣和限制可以被當(dāng)做一個3DM系統(tǒng)的靜態(tài)輸入進行收集,增長數(shù)據(jù)和用戶控制當(dāng)做它的動態(tài)輸入。3 數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘方法基于知識的不確定行根據(jù)以上對3DM模式的討論,數(shù)據(jù)挖掘是知識轉(zhuǎn)化的過程和在這個過程中知識的屬性應(yīng)該保持不變。因此,知識的屬性可以為設(shè)計數(shù)據(jù)挖掘算法庫提供一些指導(dǎo)。知識的不確定性是知識的一種重要屬性
13、,wang測量并比較知識的不確定性分別以數(shù)據(jù)形式在決策表和象征性的方式在決策規(guī)則。這證明了從決策表中的局部少量確定性可以表現(xiàn)出決策表的不確定性并且可以控制規(guī)則的產(chǎn)生進程。為了證實3DM模式在此文提議的有效行,我們提出了一些數(shù)據(jù)驅(qū)動數(shù)據(jù)挖掘方法,例如,數(shù)據(jù)驅(qū)動的默認規(guī)則生成算法中,數(shù)據(jù)驅(qū)動決策樹預(yù)剪枝運算法則和從概念格子框架數(shù)據(jù)驅(qū)動知識的獲取。在這些數(shù)據(jù)挖掘方法中,知識不確定性被當(dāng)做一種知識特性使用來控制數(shù)據(jù)挖掘過程。在數(shù)據(jù)驅(qū)動的默認規(guī)則生成算法中,根據(jù)一個決策表的條件屬性集,決策表的條件等級并且要首先計算對決策表局部最小值的確定a(a 是對決策表局部最小值的確定)。因此,a作為閾值使用Skow
14、ron的命題默認規(guī)則生成算法來生成一個規(guī)則系統(tǒng)。使用22型UCI數(shù)據(jù)傳輸轉(zhuǎn)換器,我們測試了數(shù)據(jù)驅(qū)動的默認規(guī)則生成算法。實驗結(jié)果表明,當(dāng)從l到a的降低時隨著門檻的降低,正確識別率迅速增加,然而,在門檻從a到0的進一步增長之后,正確識別率發(fā)生一些變化。在本規(guī)則生成過程,從一個生成較少規(guī)則的數(shù)據(jù)集中,得到了較高的正確識別率。根據(jù)一個決策樹定義的不確定性,可以在數(shù)據(jù)驅(qū)動的決策樹中學(xué)習(xí)算法基于知識的不確定性,全局確定性決策表與一個給定的條件屬性作為分裂屬性選擇的度量,并控制其預(yù)剪枝過程決策樹的生長。如果一個條件類用于生成決策樹節(jié)點的確定性不低于本樹節(jié)點的決策表的全局確定性,我們應(yīng)該停止進一步分裂這個節(jié)點
15、并且為它生成一個葉子節(jié)點。換句話說,如果一個用來生成決策樹節(jié)點的條件類的確定性大于參考其分裂屬性的決策表的父節(jié)點的完全確定性,這個節(jié)點可以被當(dāng)做葉子節(jié)點采用。用這種方法創(chuàng)建的決策樹有很高的精確性但是樹會很小。使用14型UCI數(shù)據(jù)傳輸轉(zhuǎn)換器,我們測試了基于知識的不確定性的數(shù)據(jù)驅(qū)動的決策樹學(xué)習(xí)算法,它與預(yù)剪枝算法j-pruning和后剪枝方法減少錯誤修剪的比較。實驗結(jié)果證明這種算法有更高的測試準(zhǔn)確性并且相對于算法j-pruning和REP產(chǎn)生了更小的樹。Tapio Elomaa 證明了考慮到驗證集的問題REP算法可以產(chǎn)生有最少錯誤的最小樹。因此,如果訓(xùn)練集和驗證集可以很好的代對象,對于生成一個決策
16、樹來說REP算法是一個完美的方法。從實驗結(jié)果我們可以發(fā)現(xiàn),基于知識的不確定性的數(shù)據(jù)驅(qū)動決策樹學(xué)習(xí)算法甚至比REP更好。從這個觀點出發(fā),基于知識的不確定性的數(shù)據(jù)驅(qū)動決策樹學(xué)習(xí)算法有比REP更好的適應(yīng)性。進一步講,該算法不需要利用設(shè)置在每個修剪過程驗證的可行性驗證,并且不需要再結(jié)束學(xué)習(xí)進程之前產(chǎn)生一個總樹。因此,相對于REP算法來說需要更少的時間和更小的空間。在基于概念格數(shù)據(jù)驅(qū)動知識收集中,利用一個決策表和決策規(guī)則的不確定因素,決策表,決策規(guī)則和概念格三種表示模型的知識不確定因素的關(guān)系被發(fā)現(xiàn)通過分析它們的知識表示方式。那也證明了a也可以被視為一種門檻對于從概念格中獲取不確定規(guī)則。此外,一個規(guī)則定義的新穎性也是用來修剪冗余規(guī)則的算法。UCI的八種資料組被用來測試這種算法并且與LACS做比較。試驗機構(gòu)證明對于不同的數(shù)據(jù)集,算法LACS的價值觀念的純度和概念的強度也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 華科數(shù)控技術(shù)課件網(wǎng)址
- 健康老齡化課件
- 杭州高中模擬數(shù)學(xué)試卷
- 湖南8年級下冊數(shù)學(xué)試卷
- 2024-2030年中國冬棗行業(yè)市場深度分析及發(fā)展趨勢預(yù)測報告
- 2021-2026年中國EHPS電液泵市場深度分析及投資戰(zhàn)略咨詢報告
- 健康科普知識課件
- 健康科學(xué)減脂課件
- 2023-2028年中國混合云管理行業(yè)市場全景評估及投資規(guī)劃建議報告
- 2025年中國三角車屬行業(yè)市場深度分析及投資戰(zhàn)略研究報告
- 裝飾施工現(xiàn)場匯報
- 貴州2023年高中學(xué)業(yè)水平合格性考試地理試卷真題(含答案詳解)
- 乙烯 - 辛烯溶液共聚反應(yīng)機理及聚合物鏈結(jié)構(gòu)調(diào)控策略探究
- 煤礦隱蔽致災(zāi)因素普查成果礦井自查表
- 2025至2030年中國橢偏儀行業(yè)市場研究分析及發(fā)展趨向研判報告
- 2025年全國統(tǒng)一高考語文試卷(全國二卷)含答案
- 2025年高考全國二卷數(shù)學(xué)高考真題解析 含參考答案
- 鐵路營銷考試題目及答案
- 商場人員出入管理制度
- 工程監(jiān)理資料管理制度
- 員工做法人協(xié)議書
評論
0/150
提交評論