數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述

上傳人：q*** IP屬地：江蘇上傳時(shí)間：2022-03-11 格式：DOC 頁(yè)數(shù)：15 大?。?0KB 積分：7.2 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第2頁(yè)

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第3頁(yè)

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第4頁(yè)

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第5頁(yè)

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述<DIVid=content><scriptsrc="/mx/baid.js"><DIVid=viewad><scriptsrc="/a/lw.js">摘要文章對(duì)數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了綜述。對(duì)模糊邏輯、遺傳算法、神經(jīng)網(wǎng)絡(luò)、粗集等軟計(jì)算方法，以及它們的混合算法的特點(diǎn)進(jìn)行了分析，并對(duì)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類。關(guān)鍵詞數(shù)據(jù)挖掘；軟計(jì)算；模糊邏輯；遺傳算法；神經(jīng)網(wǎng)絡(luò)；粗集 1 引言在過(guò)去的數(shù)十年中，隨著計(jì)算機(jī)軟件和硬件的發(fā)展，我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高

2、。許多領(lǐng)域的大量數(shù)據(jù)集中或分布的存儲(chǔ)在數(shù)據(jù)庫(kù)中12，這些領(lǐng)域包括商業(yè)、金融投資業(yè)、生產(chǎn)制造業(yè)、醫(yī)療衛(wèi)生、科學(xué)研究，以及全球信息系統(tǒng)的萬(wàn)維網(wǎng)。數(shù)據(jù)存儲(chǔ)量的增長(zhǎng)速度是驚人的。大量的、未加工的數(shù)據(jù)很難直接產(chǎn)生效益。這些數(shù)據(jù)的真正價(jià)值在于從中找出有用的信息以供決策支持。在許多領(lǐng)域，數(shù)據(jù)分析都采用傳統(tǒng)的手工處理方法。一些分析軟件在統(tǒng)計(jì)技術(shù)的幫助下可將數(shù)據(jù)匯總，并生成報(bào)表。隨著數(shù)據(jù)量和多維數(shù)據(jù)的進(jìn)一步增加，高達(dá)109的數(shù)據(jù)庫(kù)和103的多維數(shù)據(jù)庫(kù)已越來(lái)越普遍。沒(méi)有強(qiáng)有力的工具，理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。所有這些顯示我們需要智能的數(shù)據(jù)分析工具，從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖

3、掘就是指從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù)，選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個(gè)過(guò)程中支持人機(jī)交互的模式3。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到發(fā)展，并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、模糊推理、專家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計(jì)算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和方法，已成功應(yīng)用在超市、金融、銀行4、生產(chǎn)企業(yè)5和電信，并有很好的表現(xiàn)。軟計(jì)算是能夠處理現(xiàn)實(shí)環(huán)境中一種或多種復(fù)雜信息的方法集合。軟計(jì)算的指導(dǎo)原則是開發(fā)利用那些不精確性、不確定性和部分真實(shí)數(shù)據(jù)的容忍技術(shù)，以獲得易處理、魯棒性好、低求解成本和更好地與實(shí)際融合的

4、性能。通常，軟計(jì)算試圖尋找對(duì)精確的或不精確表述問(wèn)題的近似解6。它是創(chuàng)建計(jì)算智能系統(tǒng)的有效工具。軟計(jì)算包括模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗集理論。2 數(shù)據(jù)挖掘中的軟計(jì)算方法目前，已有多種軟計(jì)算方法被應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)中，來(lái)處理一些具有挑戰(zhàn)性的問(wèn)題。軟計(jì)算方法主要包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗糙集等。這些方法各具優(yōu)勢(shì)，它們是互補(bǔ)的而非競(jìng)爭(zhēng)的，與傳統(tǒng)的數(shù)據(jù)分析技術(shù)相比，它能使系統(tǒng)更加智能化，有更好的可理解性，且成本更低。下面主要對(duì)各種軟計(jì)算方法及其混合算法做系統(tǒng)性的闡述，并著重強(qiáng)調(diào)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用情況。2.1模糊邏輯模糊邏輯是1965年由澤德引入的，它為處理不確定和不精確的問(wèn)題提供了一

5、種數(shù)學(xué)工具。模糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算方法，模糊集技術(shù)在數(shù)據(jù)挖掘領(lǐng)域也占有重要地位。從數(shù)據(jù)庫(kù)中挖掘知識(shí)主要考慮的是發(fā)現(xiàn)有興趣的模式并以簡(jiǎn)潔、可理解的方式描述出來(lái)。模糊集可以對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)和過(guò)濾，提供了在高抽象層處理的便利。同時(shí)，數(shù)據(jù)挖掘中的數(shù)據(jù)分析經(jīng)常面對(duì)多種類型的數(shù)據(jù)，即符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)。Nauck7研究了新的算法，可以從同時(shí)包含符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)中生成混合模糊規(guī)則。數(shù)據(jù)挖掘中模糊邏輯主要應(yīng)用于以下幾個(gè)方面：（1）聚類。將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。聚類分析是一種重要的人類行為，通過(guò)聚類，人能夠識(shí)別密集的和稀疏的區(qū)域，因而發(fā)現(xiàn)全局

6、的分布模式，以及數(shù)據(jù)屬性之間有趣的關(guān)系。模糊集有很強(qiáng)的搜索能力，它對(duì)發(fā)現(xiàn)的結(jié)構(gòu)感興趣，這會(huì)幫助發(fā)現(xiàn)定性或半定性數(shù)據(jù)的依賴度。在數(shù)據(jù)挖掘中，這種能力可以幫助阻止搜到無(wú)用和微不足道的知識(shí)。研究者為此發(fā)展了模糊聚類算法，并得到了廣泛應(yīng)用8。在高維數(shù)據(jù)挖掘中有太多的屬性要考慮，因此知識(shí)簡(jiǎn)約就非常的必要。屬性聚類的實(shí)質(zhì)就是知識(shí)簡(jiǎn)約，所謂知識(shí)約簡(jiǎn)，就是在保持知識(shí)庫(kù)的分類或者決策能力不變的條件下，刪除不重要的或冗余的知識(shí)，最小約簡(jiǎn)（含有最小屬性）是人們所期望的，且約簡(jiǎn)結(jié)果是不確定的。所以模糊聚類成為知識(shí)簡(jiǎn)約的有力工具。（2）關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘重要的一點(diǎn)是關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)，關(guān)聯(lián)規(guī)則挖掘是尋找給定數(shù)據(jù)集中屬性間

7、的關(guān)聯(lián)。其中，布爾關(guān)聯(lián)規(guī)則考慮的是關(guān)聯(lián)的屬性在與不在的二維特征，概化關(guān)聯(lián)規(guī)則描述的是屬性的分層關(guān)系，量化關(guān)聯(lián)規(guī)則描述的是量化的屬性（既離散化的屬性）間的關(guān)聯(lián)9。由于使用模糊概念表示的規(guī)則更符合人的思維和表達(dá)習(xí)慣，增強(qiáng)了規(guī)則的可理解性，所以模糊技術(shù)已成為數(shù)據(jù)挖掘系統(tǒng)中的關(guān)鍵技術(shù)。文獻(xiàn)10中用模糊分類開拓了概化關(guān)聯(lián)規(guī)則。（3）數(shù)據(jù)概化。概化發(fā)現(xiàn)是數(shù)據(jù)挖掘重要部分之一。它將大的數(shù)據(jù)集從較低的概念層抽象到較高的概念層，用可理解的信息來(lái)表達(dá)數(shù)據(jù)庫(kù)中最重要的部分，并提供給用戶。大數(shù)據(jù)集的語(yǔ)言概化通過(guò)有效的程度來(lái)獲得，參考的標(biāo)準(zhǔn)內(nèi)容在挖掘任務(wù)中。系統(tǒng)由概述、一致性程度真實(shí)和有效性組成。已經(jīng)發(fā)現(xiàn)的最有興趣的

8、語(yǔ)言概化并不瑣碎，卻很人性化。實(shí)際上，它并不能自動(dòng)地進(jìn)行概化，需要人的操作。Kacprzyk和Zadrozny11發(fā)展了功能依賴度，語(yǔ)言概化使用了自然和可理解性的詞匯，它支持模糊元素，包括屬性間模糊的、重要的相互作用。首先，用戶必須制定概化興趣度，然后系統(tǒng)從數(shù)據(jù)庫(kù)中獲得記錄，并計(jì)算每個(gè)概化的有效性，最后，選擇最適合的語(yǔ)言概化。此方法通過(guò)網(wǎng)絡(luò)瀏覽器已用在因特網(wǎng)上。模糊值、模糊聯(lián)系和語(yǔ)言量都通過(guò)JAVA來(lái)定義。（4）Web應(yīng)用。通過(guò)Web日志的挖掘，來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式。通過(guò)分析Web日志記錄中的規(guī)律，可以識(shí)別電子商務(wù)的潛在客戶，增強(qiáng)對(duì)最終用戶的Internet信息服務(wù)的質(zhì)量和交付，并

9、改進(jìn)Web服務(wù)器系統(tǒng)的性能。還可以進(jìn)一步獲得用戶訪問(wèn)的附加信息（包括Web服務(wù)器緩沖區(qū)中用戶瀏覽Web頁(yè)面的序列等），以便于做更為詳細(xì)的Web日志分析。如通過(guò)用戶訪問(wèn)模式的學(xué)習(xí)改進(jìn)其自身的Web站點(diǎn)，有助于建立針對(duì)個(gè)體用戶的定制Web服務(wù)。為了挖掘出較完全的興趣模式,吳瑞12提出一種新的結(jié)構(gòu)類型-FLAAT,它可發(fā)現(xiàn)那些被忽略的用戶瀏覽偏愛(ài)路徑。同時(shí)引進(jìn)模糊集來(lái)處理停留在網(wǎng)頁(yè)上的時(shí)間,以形成語(yǔ)義術(shù)語(yǔ)使挖掘出的用戶瀏覽偏愛(ài)路徑更自然、更易理解。算法能準(zhǔn)確地反映用戶的瀏覽興趣。（5）圖像檢索。隨著近來(lái)由多種媒體數(shù)據(jù)構(gòu)成的多媒體信息倉(cāng)庫(kù)數(shù)據(jù)的增加，基于內(nèi)容的圖像檢索開始活躍在這個(gè)領(lǐng)域。和傳統(tǒng)數(shù)據(jù)庫(kù)

10、中基于精確匹配的關(guān)鍵字來(lái)檢索信息不同，基于內(nèi)容的圖像檢索系統(tǒng)的信息是一個(gè)圖像的可視特征。如顏色、紋理、形狀等。由于檢索中查詢要求往往是根據(jù)人的主觀性所決定，因此很大程度上帶有模糊性。對(duì)于圖像紋理，習(xí)慣于用“很粗”、“中等”、“弱”這樣的一些模糊概念來(lái)描述；形狀一般用“幾何形的”、“立體形的”或“似長(zhǎng)方形的”、“正方形的”等概念描述；顏色特征通常用“很艷”、“一般”、“暗淡”或“大紅”、“紫紅”、“紅”這樣的模糊概念來(lái)描述。所以基于內(nèi)容是圖像檢索是基于圖像的相似特征來(lái)檢索的。2.2 神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)挖掘的困難主要存在于三個(gè)方面：首先，巨量數(shù)據(jù)集的性質(zhì)往往非常復(fù)雜，非線性、時(shí)序性與噪音普遍存在；其次

11、，數(shù)據(jù)分析的目標(biāo)具有多樣性，而復(fù)雜目標(biāo)無(wú)論在表述還是在處理上均與領(lǐng)域知識(shí)有關(guān)；第三，在復(fù)雜目標(biāo)下，對(duì)巨量數(shù)據(jù)集的分析，目前還沒(méi)有現(xiàn)成的且滿足可計(jì)算條件的一般性理論與方法。研究者們主要是將符號(hào)型機(jī)器學(xué)習(xí)方法與數(shù)據(jù)庫(kù)技術(shù)相結(jié)合，但由于真實(shí)世界的數(shù)據(jù)關(guān)系相當(dāng)復(fù)雜，非線性程度相當(dāng)高，而且普遍存在著噪音數(shù)據(jù)，因此這些方法在很多場(chǎng)合都不適用。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的黑箱問(wèn)題，在數(shù)據(jù)挖掘的初期并不看好，然而，神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性，以及它對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的能力，非常適合解決數(shù)據(jù)挖掘中存在的以上問(wèn)題，因此近年來(lái)越來(lái)越受到人們的關(guān)注。規(guī)則抽取方法是解決“

12、黑箱問(wèn)題”的有效手段。神經(jīng)網(wǎng)絡(luò)規(guī)則抽取的研究最早開始于80年代末。1988年，Gallant13設(shè)計(jì)了一個(gè)可以用if-then規(guī)則解釋推理結(jié)論的神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)。根據(jù)設(shè)計(jì)思想的不同，目前的規(guī)則提取方法大致可以分成兩大類，即基于結(jié)構(gòu)分析的方法和基于性能分析的方法。基于結(jié)構(gòu)分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法把規(guī)則抽取視為一個(gè)搜索過(guò)程，其基本思想是把已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)映射成對(duì)應(yīng)的規(guī)則。由于搜索過(guò)程的計(jì)算復(fù)雜度和神經(jīng)網(wǎng)絡(luò)輸入分量之間呈指數(shù)級(jí)關(guān)系，當(dāng)輸入分量很多時(shí)，會(huì)出現(xiàn)組合爆炸。因此，此類算法一般采用剪枝聚類等方法來(lái)減少網(wǎng)絡(luò)中的連接以降低計(jì)算復(fù)雜度。RX算法14首先用權(quán)衰減方法構(gòu)造BP網(wǎng)絡(luò)（該網(wǎng)絡(luò)中連接

13、權(quán)的大小反映了連接的重要程度），然后對(duì)網(wǎng)絡(luò)進(jìn)行修剪，在預(yù)測(cè)精度不變的情況下刪除次要連接，在對(duì)網(wǎng)絡(luò)進(jìn)行充分簡(jiǎn)化的條件下，對(duì)隱藏層結(jié)點(diǎn)的激活值進(jìn)行聚類，根據(jù)不同的隱藏層結(jié)點(diǎn)激活值用窮舉搜索的辦法來(lái)尋找從輸入層到隱藏層和從隱藏層到輸出層的規(guī)則. 與基于結(jié)構(gòu)分析的方法不同，基于性能分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法并不對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析和搜索，而是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)整體來(lái)處理，這類方法更注重的是抽取出的規(guī)則在功能上對(duì)網(wǎng)絡(luò)的重現(xiàn)能力，即產(chǎn)生一組可以替代原網(wǎng)絡(luò)的規(guī)則。較有代表性的算法是Sestito等人提出的相似權(quán)值法15，這種方法將輸出節(jié)點(diǎn)添加到輸入層去與輸入節(jié)點(diǎn)進(jìn)行比較。1994年，Craven和Shav

14、lik16為神經(jīng)網(wǎng)絡(luò)規(guī)則抽取任務(wù)下了一個(gè)定義：給定一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)以及用于其訓(xùn)練的訓(xùn)練集，為網(wǎng)絡(luò)產(chǎn)生一個(gè)簡(jiǎn)潔而精確的符號(hào)描述。在文獻(xiàn)16的基礎(chǔ)上，1996年，Craven和Shavlik17提出了TREPAN算法。該算法首先用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)示例集進(jìn)行分類，然后將該集合作為訓(xùn)練集提供給決策樹學(xué)習(xí)算法，從而構(gòu)造出一棵與原網(wǎng)絡(luò)功能接近的、使用MOFN表達(dá)式作為內(nèi)部劃分的決策樹。TREPAN的計(jì)算量較低。1997年，Craven和Shavlik18將TREPAN用于一個(gè)噪音時(shí)序任務(wù)，即美元馬克匯率預(yù)測(cè)，取得了比現(xiàn)有方法更好的效果。2.3遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜

15、索算法，是一種仿生全局優(yōu)化方法。它是美國(guó)Michigan大學(xué)的Holland教授于1975年首先提出的。遺傳算法中包含了5個(gè)基本要素：參數(shù)編碼；初始群體的設(shè)定；適應(yīng)度函數(shù)的設(shè)計(jì)；遺傳操作設(shè)計(jì)；控制參數(shù)設(shè)定。遺傳算法具有十分頑強(qiáng)的魯棒性、自適應(yīng)性，其在解決大空間、多峰值、非線性、全局優(yōu)化等復(fù)雜度高的問(wèn)題時(shí)具有獨(dú)特的優(yōu)勢(shì)。因此，遺傳算法在數(shù)據(jù)挖掘技術(shù)越來(lái)越顯示出其重要的地位。數(shù)據(jù)挖掘最初應(yīng)用進(jìn)化計(jì)算從給定的目標(biāo)集中挖掘有趣數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述(2)<DIVid=content><scriptsrc="/mx/baid.js"><DIVi

16、d=viewad><scriptsrc="/a/lw.js">的規(guī)則19，其強(qiáng)調(diào)從面向?qū)ο蟮臄?shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)集的共有特性。遺傳算法也應(yīng)用于其他方面如從多媒體數(shù)據(jù)庫(kù)中挖掘多媒體數(shù)據(jù)。遺傳算法在數(shù)據(jù)挖掘中主要應(yīng)用于數(shù)據(jù)回歸和關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。 (1)回歸。除了發(fā)現(xiàn)可解釋的模式之外，數(shù)據(jù)挖掘的另外一個(gè)重要的任務(wù)就是預(yù)測(cè)，即通過(guò)數(shù)據(jù)庫(kù)中的一些變量發(fā)掘其超未來(lái)的趨勢(shì)值。傳統(tǒng)的線性回歸需要先假設(shè)這些屬性間沒(méi)有相關(guān)性，而遺傳算法則可以很好的處理有相關(guān)性的變量。Xu20曾設(shè)計(jì)了一個(gè)多輸入單輸出的系統(tǒng)，應(yīng)用遺傳算法從訓(xùn)練數(shù)據(jù)集中進(jìn)行非線性多元回歸。 (2)關(guān)聯(lián)規(guī)則。遺傳學(xué)習(xí)首

17、先創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體。每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示的if-than類型。通過(guò)全局搜索，形成由當(dāng)前群體中最適合的規(guī)則組成新的群體。遺傳算法可以單獨(dú)用于數(shù)據(jù)倉(cāng)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘，還可以和其他的數(shù)據(jù)挖掘技術(shù)相結(jié)合，例如，用于進(jìn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以得到結(jié)構(gòu)簡(jiǎn)單、性能優(yōu)良的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)21；用于特征子集選擇22；應(yīng)用于決策樹、分類器和模糊規(guī)則的獲取等等。2.4粗集粗集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出，是一種處理含糊和不確定問(wèn)題的新型數(shù)學(xué)工具。粗集理念基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立。給定現(xiàn)實(shí)世界數(shù)據(jù)，通常有些類不能被可用的屬性區(qū)分。粗集可以用來(lái)近似定義這種

18、類，將問(wèn)題的數(shù)據(jù)集進(jìn)行劃分，然后對(duì)劃分的每一部分確定其對(duì)某一概念的支持程度：即肯定支持此概念，肯定不支持此概念，并分別用下近似和上近似集合來(lái)表示為正域、負(fù)域。它能有效地分析不精確、不一致、不完整等各種不完備的信息，還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理，從中發(fā)現(xiàn)隱含的知識(shí)和潛在的規(guī)律。同時(shí)，粗集理論在處理大數(shù)據(jù)量，消除冗余信息等方面有著良好的效果，因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、規(guī)則生成等方面。 (1)數(shù)據(jù)約簡(jiǎn)。粗集理論可提供有效方法用于對(duì)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)在數(shù)據(jù)挖掘系統(tǒng)的預(yù)處理階段，通過(guò)粗集理論刪除數(shù)據(jù)中的冗余信息（屬性、對(duì)象以及屬性值等），可大大提高系統(tǒng)的運(yùn)算速度。文獻(xiàn)23使用粗集方法對(duì)信息

19、系統(tǒng)進(jìn)行屬性及屬性域的約簡(jiǎn)，然后使用神經(jīng)網(wǎng)絡(luò)對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行分類，從而在網(wǎng)絡(luò)分類精度沒(méi)有明顯下降的前提下使網(wǎng)絡(luò)的學(xué)習(xí)速度提高到約簡(jiǎn)前的4.72倍。 (2)規(guī)則抽取。與其它方法（如神經(jīng)網(wǎng)絡(luò)）相比，使用粗集理論生成規(guī)則是相對(duì)簡(jiǎn)單和直接的，信息系統(tǒng)中的每一個(gè)對(duì)象既對(duì)應(yīng)一條規(guī)則。粗集方法生成規(guī)則的一般步驟為：得到條件屬性的一個(gè)約簡(jiǎn)，刪去冗余屬性；冊(cè)去每條規(guī)則的冗余屬性值；對(duì)剩余規(guī)則進(jìn)行合并目前己經(jīng)產(chǎn)生了許多基于粗集理論的方法用于從信息系統(tǒng)中抽取規(guī)則24。粗集理論存在對(duì)錯(cuò)誤描述的確定性機(jī)制過(guò)于簡(jiǎn)單，而且在約簡(jiǎn)的過(guò)程中缺乏交互驗(yàn)證功能，因此，粗集理論與其它方法如神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊數(shù)學(xué)、決策樹等相

20、結(jié)合可以發(fā)揮各自的優(yōu)勢(shì)，大大增強(qiáng)數(shù)據(jù)挖掘的效率。文獻(xiàn)25提出了一種融合粗集理論和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘新方法，應(yīng)用于大型數(shù)據(jù)庫(kù)的分類規(guī)則挖掘。其主要思想是首先由粗糙集理論對(duì)數(shù)據(jù)庫(kù)進(jìn)行初步約簡(jiǎn)，然后借助于神經(jīng)網(wǎng)絡(luò)在自學(xué)習(xí)過(guò)程中完成對(duì)數(shù)據(jù)庫(kù)的進(jìn)一步屬性約簡(jiǎn)，并過(guò)濾數(shù)據(jù)中的噪聲數(shù)據(jù)，最后由粗糙集理論對(duì)約簡(jiǎn)后的數(shù)據(jù)庫(kù)進(jìn)行規(guī)則抽取。粗集理論的使用提高了系統(tǒng)的運(yùn)算速度，同時(shí)神經(jīng)網(wǎng)絡(luò)則使產(chǎn)生的規(guī)則集泛化能力提高。2.5混合方法綜合軟計(jì)算的主要算法可產(chǎn)生在并行化、容錯(cuò)、自適應(yīng)性和不定性管理方面更好的系統(tǒng)?；旌舷到y(tǒng)可使許多應(yīng)用中的自動(dòng)化自適應(yīng)系統(tǒng)成為現(xiàn)實(shí)。模糊系統(tǒng)的推理能力，當(dāng)與神經(jīng)網(wǎng)絡(luò)和遺傳算法的學(xué)習(xí)能力結(jié)合時(shí)

21、，導(dǎo)致得到體現(xiàn)合理有效的認(rèn)識(shí)系統(tǒng)（可學(xué)習(xí)和推理的系統(tǒng)）的新產(chǎn)品和新過(guò)程。Banerjee25利用粗糙集、神經(jīng)網(wǎng)絡(luò)和模糊邏輯相結(jié)合的方法設(shè)計(jì)了數(shù)據(jù)挖掘系統(tǒng)，其中用粗糙集方法在決策表中進(jìn)行約簡(jiǎn)。而用模糊集方法挖掘出未經(jīng)加工的知識(shí)，最后由神經(jīng)網(wǎng)絡(luò)根據(jù)依賴度進(jìn)行取舍。3 結(jié)束語(yǔ) 目前，數(shù)據(jù)挖掘中算法和可視化的研究越來(lái)越顯得重要。因?yàn)閺臄?shù)據(jù)庫(kù)中很容易就可以發(fā)現(xiàn)大量的模式，而這些模式中很多是很顯而易見(jiàn)的、冗余的、無(wú)用的，或是對(duì)用戶來(lái)說(shuō)沒(méi)有趣的?，F(xiàn)在就需要能夠過(guò)濾這些模式而提供給用戶有用或有趣的模式的挖掘技術(shù)。軟計(jì)算方法包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗集和混合方法近來(lái)用于解決這些問(wèn)題。軟計(jì)算具有以低求

22、解成本、快速的方法解決復(fù)雜問(wèn)題。本文對(duì)數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了一個(gè)綜合性闡述。對(duì)它們的特點(diǎn)進(jìn)行了分析，并對(duì)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類。模糊集為這個(gè)過(guò)程中的處理不確定性提供了一個(gè)自然框架，神經(jīng)網(wǎng)絡(luò)和粗集廣泛應(yīng)用于分類和規(guī)則生成。遺傳算法應(yīng)用于各種優(yōu)化和搜索過(guò)程中，如優(yōu)化排序和模式選擇。參考文獻(xiàn) 1U.FayyadandR.Uthurusamy,“Dataminingandknowledgediscoveryindatabases,”Commun.ACM,vol.39,pp.2427,1996. 2W.H.Inmon,“Thedatawarehouseanddatamining,”Co

23、mmun.ACM,vol.39,pp.4950,1996. 3楊會(huì)志.數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向.河北科技大學(xué)學(xué)報(bào)J2000，21（3）：77-80 4J.A.MajorandD.R.Riedinger,“EFDAhybridknowledgestatisticalbased工作systemforthedetectionoffraud,”Int.J.Intell.Syst.,vol.7,pp.687703,1992. 5R.Heider,TroubleshootingCFM56-3EnginesfortheBoeing737UsingCBRandData-Mining,Spinger-

24、Verlag,NewYork,vol.1168,pp.512523,1996.LectureNotesinComputerScience. 6ZadehL，F(xiàn)uzzvlogic，neuralnetworkandsoftcomputingCommunicationsofthe ACM，1994,37(3)：77-84 7D.Nauck,“Usingsymbolicdatainneuro-fuzzyclassification,”inProc.NAFIPS99,NewYork,June1999,pp.536540. 8湯效琴，戴汝源.數(shù)據(jù)挖掘中變量聚類方法的應(yīng)用研究.計(jì)算機(jī)工程與應(yīng)用J.2004，

25、40（24）：171-173. 9范明,孟小峰譯.數(shù)據(jù)挖掘：概念與技術(shù)M.北京：機(jī)械工業(yè)出版社，2001. 10Q.WeiandG.Chen,“Mininggeneralizedassociationruleswithfuzzytaxonomicstructures,”inProc.NAFIPS99,NewYork,June1999,pp.477481. 11J.KacprzykandS.Zadrozny,“Dataminingvialinguisticsummariesofdata:Aninteractiveapproach,”inProc.IIZUKA98,Fukuoka,Japan,Oc

26、t.1998,pp.668671. 12吳瑞基于FLAAT模糊的WEB挖掘算法武漢科技大學(xué)學(xué)報(bào)（自然科學(xué)版）J.2005,28（3）：270-272. 13S.I.Gallant.NeuralNeworkLearningandExpertSystems.Cambridge,MA:MITpress,1993. 14RudySetiono,LiuH.Understandingneuralnetworksviaruleextraction.In:Procofthe14thInternationalJointConferenceonArtificialIntelligence,Montreal,199

27、5.pp.480-485 15SestitoS,DillonT.Knowledgeacquisitionofconjunctiverulesusingmultilayeredneuralnetworks.InternationalJournalofIntellSys,1993,8(7):779805 16M.W.Craven,J,W,Shavlik.Usingsamplingandqueriestoextractrulesfromtrainedneuralnetworks.In:Procofthe7thInt'lConfonMathineLearning,NewBrunswick,1994.pp.3745 17M.W.Craven,J,W,Shavlik.Extractingtree-structuredrepresentationsoftrainednetworks.Cam

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔