![數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/1b602659-5f3e-41fb-a419-f3b6286e20c3/1b602659-5f3e-41fb-a419-f3b6286e20c31.gif)
![數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/1b602659-5f3e-41fb-a419-f3b6286e20c3/1b602659-5f3e-41fb-a419-f3b6286e20c32.gif)
![數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/1b602659-5f3e-41fb-a419-f3b6286e20c3/1b602659-5f3e-41fb-a419-f3b6286e20c33.gif)
![數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/1b602659-5f3e-41fb-a419-f3b6286e20c3/1b602659-5f3e-41fb-a419-f3b6286e20c34.gif)
![數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/1b602659-5f3e-41fb-a419-f3b6286e20c3/1b602659-5f3e-41fb-a419-f3b6286e20c35.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述<DIVid=content><scriptsrc="/mx/baid.js"><DIVid=viewad><scriptsrc="/a/lw.js">摘 要 文章對(duì)數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了綜述。對(duì)模糊邏輯、遺傳算法、神經(jīng)網(wǎng)絡(luò)、粗集等軟計(jì)算方法,以及它們的混合算法的特點(diǎn)進(jìn)行了分析,并對(duì)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類。 關(guān)鍵詞數(shù)據(jù)挖掘;軟計(jì)算;模糊邏輯;遺傳算法;神經(jīng)網(wǎng)絡(luò);粗集 1 引言 在過(guò)去的數(shù)十年中,隨著計(jì)算機(jī)軟件和硬件的發(fā)展,我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高
2、。許多領(lǐng)域的大量數(shù)據(jù)集中或分布的存儲(chǔ)在數(shù)據(jù)庫(kù)中12,這些領(lǐng)域包括商業(yè)、金融投資業(yè)、生產(chǎn)制造業(yè)、醫(yī)療衛(wèi)生、科學(xué)研究,以及全球信息系統(tǒng)的萬(wàn)維網(wǎng)。數(shù)據(jù)存儲(chǔ)量的增長(zhǎng)速度是驚人的。大量的、未加工的數(shù)據(jù)很難直接產(chǎn)生效益。這些數(shù)據(jù)的真正價(jià)值在于從中找出有用的信息以供決策支持。在許多領(lǐng)域,數(shù)據(jù)分析都采用傳統(tǒng)的手工處理方法。一些分析軟件在統(tǒng)計(jì)技術(shù)的幫助下可將數(shù)據(jù)匯總,并生成報(bào)表。隨著數(shù)據(jù)量和多維數(shù)據(jù)的進(jìn)一步增加,高達(dá)109的數(shù)據(jù)庫(kù)和103的多維數(shù)據(jù)庫(kù)已越來(lái)越普遍。沒(méi)有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。所有這些顯示我們需要智能的數(shù)據(jù)分析工具,從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。 數(shù)據(jù)挖
3、掘就是指從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個(gè)過(guò)程中支持人機(jī)交互的模式3。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到發(fā)展,并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、模糊推理、專家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計(jì)算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和方法,已成功應(yīng)用在超市、金融、銀行4、生產(chǎn)企業(yè)5和電信,并有很好的表現(xiàn)。 軟計(jì)算是能夠處理現(xiàn)實(shí)環(huán)境中一種或多種復(fù)雜信息的方法集合。軟計(jì)算的指導(dǎo)原則是開發(fā)利用那些不精確性、不確定性和部分真實(shí)數(shù)據(jù)的容忍技術(shù),以獲得易處理、魯棒性好、低求解成本和更好地與實(shí)際融合的
4、性能。通常,軟計(jì)算試圖尋找對(duì)精確的或不精確表述問(wèn)題的近似解6。它是創(chuàng)建計(jì)算智能系統(tǒng)的有效工具。軟計(jì)算包括模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗集理論。2 數(shù)據(jù)挖掘中的軟計(jì)算方法 目前,已有多種軟計(jì)算方法被應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)中,來(lái)處理一些具有挑戰(zhàn)性的問(wèn)題。軟計(jì)算方法主要包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗糙集等。這些方法各具優(yōu)勢(shì),它們是互補(bǔ)的而非競(jìng)爭(zhēng)的,與傳統(tǒng)的數(shù)據(jù)分析技術(shù)相比,它能使系統(tǒng)更加智能化,有更好的可理解性,且成本更低。下面主要對(duì)各種軟計(jì)算方法及其混合算法做系統(tǒng)性的闡述,并著重強(qiáng)調(diào)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用情況。2.1模糊邏輯 模糊邏輯是1965年由澤德引入的,它為處理不確定和不精確的問(wèn)題提供了一
5、種數(shù)學(xué)工具。模糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算方法,模糊集技術(shù)在數(shù)據(jù)挖掘領(lǐng)域也占有重要地位。從數(shù)據(jù)庫(kù)中挖掘知識(shí)主要考慮的是發(fā)現(xiàn)有興趣的模式并以簡(jiǎn)潔、可理解的方式描述出來(lái)。模糊集可以對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)和過(guò)濾,提供了在高抽象層處理的便利。同時(shí),數(shù)據(jù)挖掘中的數(shù)據(jù)分析經(jīng)常面對(duì)多種類型的數(shù)據(jù),即符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)。Nauck7研究了新的算法,可以從同時(shí)包含符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)中生成混合模糊規(guī)則。數(shù)據(jù)挖掘中模糊邏輯主要應(yīng)用于以下幾個(gè)方面: (1)聚類。將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。聚類分析是一種重要的人類行為,通過(guò)聚類,人能夠識(shí)別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局
6、的分布模式,以及數(shù)據(jù)屬性之間有趣的關(guān)系。模糊集有很強(qiáng)的搜索能力,它對(duì)發(fā)現(xiàn)的結(jié)構(gòu)感興趣,這會(huì)幫助發(fā)現(xiàn)定性或半定性數(shù)據(jù)的依賴度。在數(shù)據(jù)挖掘中,這種能力可以幫助阻止搜到無(wú)用和微不足道的知識(shí)。研究者為此發(fā)展了模糊聚類算法,并得到了廣泛應(yīng)用8。在高維數(shù)據(jù)挖掘中有太多的屬性要考慮,因此知識(shí)簡(jiǎn)約就非常的必要。屬性聚類的實(shí)質(zhì)就是知識(shí)簡(jiǎn)約,所謂知識(shí)約簡(jiǎn),就是在保持知識(shí)庫(kù)的分類或者決策能力不變的條件下,刪除不重要的或冗余的知識(shí),最小約簡(jiǎn)(含有最小屬性)是人們所期望的,且約簡(jiǎn)結(jié)果是不確定的。所以模糊聚類成為知識(shí)簡(jiǎn)約的有力工具。 (2)關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘重要的一點(diǎn)是關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),關(guān)聯(lián)規(guī)則挖掘是尋找給定數(shù)據(jù)集中屬性間
7、的關(guān)聯(lián)。其中,布爾關(guān)聯(lián)規(guī)則考慮的是關(guān)聯(lián)的屬性在與不在的二維特征,概化關(guān)聯(lián)規(guī)則描述的是屬性的分層關(guān)系,量化關(guān)聯(lián)規(guī)則描述的是量化的屬性(既離散化的屬性)間的關(guān)聯(lián)9。由于使用模糊概念表示的規(guī)則更符合人的思維和表達(dá)習(xí)慣,增強(qiáng)了規(guī)則的可理解性,所以模糊技術(shù)已成為數(shù)據(jù)挖掘系統(tǒng)中的關(guān)鍵技術(shù)。文獻(xiàn)10中用模糊分類開拓了概化關(guān)聯(lián)規(guī)則。 (3)數(shù)據(jù)概化。概化發(fā)現(xiàn)是數(shù)據(jù)挖掘重要部分之一。它將大的數(shù)據(jù)集從較低的概念層抽象到較高的概念層,用可理解的信息來(lái)表達(dá)數(shù)據(jù)庫(kù)中最重要的部分,并提供給用戶。大數(shù)據(jù)集的語(yǔ)言概化通過(guò)有效的程度來(lái)獲得,參考的標(biāo)準(zhǔn)內(nèi)容在挖掘任務(wù)中。系統(tǒng)由概述、一致性程度真實(shí)和有效性組成。已經(jīng)發(fā)現(xiàn)的最有興趣的
8、語(yǔ)言概化并不瑣碎,卻很人性化。實(shí)際上,它并不能自動(dòng)地進(jìn)行概化,需要人的操作。Kacprzyk和Zadrozny11發(fā)展了功能依賴度,語(yǔ)言概化使用了自然和可理解性的詞匯,它支持模糊元素,包括屬性間模糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統(tǒng)從數(shù)據(jù)庫(kù)中獲得記錄,并計(jì)算每個(gè)概化的有效性,最后,選擇最適合的語(yǔ)言概化。此方法通過(guò)網(wǎng)絡(luò)瀏覽器已用在因特網(wǎng)上。模糊值、模糊聯(lián)系和語(yǔ)言量都通過(guò)JAVA來(lái)定義。 (4)Web應(yīng)用。通過(guò)Web日志的挖掘,來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式。通過(guò)分析Web日志記錄中的規(guī)律,可以識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的Internet信息服務(wù)的質(zhì)量和交付,并
9、改進(jìn)Web服務(wù)器系統(tǒng)的性能。還可以進(jìn)一步獲得用戶訪問(wèn)的附加信息(包括Web服務(wù)器緩沖區(qū)中用戶瀏覽Web頁(yè)面的序列等),以便于做更為詳細(xì)的Web日志分析。如通過(guò)用戶訪問(wèn)模式的學(xué)習(xí)改進(jìn)其自身的Web站點(diǎn),有助于建立針對(duì)個(gè)體用戶的定制Web服務(wù)。為了挖掘出較完全的興趣模式,吳瑞12提出一種新的結(jié)構(gòu)類型-FLAAT,它可發(fā)現(xiàn)那些被忽略的用戶瀏覽偏愛(ài)路徑。同時(shí)引進(jìn)模糊集來(lái)處理停留在網(wǎng)頁(yè)上的時(shí)間,以形成語(yǔ)義術(shù)語(yǔ)使挖掘出的用戶瀏覽偏愛(ài)路徑更自然、更易理解。算法能準(zhǔn)確地反映用戶的瀏覽興趣。 (5)圖像檢索。隨著近來(lái)由多種媒體數(shù)據(jù)構(gòu)成的多媒體信息倉(cāng)庫(kù)數(shù)據(jù)的增加,基于內(nèi)容的圖像檢索開始活躍在這個(gè)領(lǐng)域。和傳統(tǒng)數(shù)據(jù)庫(kù)
10、中基于精確匹配的關(guān)鍵字來(lái)檢索信息不同,基于內(nèi)容的圖像檢索系統(tǒng)的信息是一個(gè)圖像的可視特征。如顏色、紋理、形狀等。由于檢索中查詢要求往往是根據(jù)人的主觀性所決定,因此很大程度上帶有模糊性。對(duì)于圖像紋理,習(xí)慣于用“很粗”、“中等”、“弱”這樣的一些模糊概念來(lái)描述;形狀一般用“幾何形的”、“立體形的”或“似長(zhǎng)方形的”、“正方形的”等概念描述;顏色特征通常用“很艷”、“一般”、“暗淡”或“大紅”、“紫紅”、“紅”這樣的模糊概念來(lái)描述。所以基于內(nèi)容是圖像檢索是基于圖像的相似特征來(lái)檢索的。2.2 神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)挖掘的困難主要存在于三個(gè)方面:首先,巨量數(shù)據(jù)集的性質(zhì)往往非常復(fù)雜,非線性、時(shí)序性與噪音普遍存在;其次
11、,數(shù)據(jù)分析的目標(biāo)具有多樣性,而復(fù)雜目標(biāo)無(wú)論在表述還是在處理上均與領(lǐng)域知識(shí)有關(guān);第三,在復(fù)雜目標(biāo)下,對(duì)巨量數(shù)據(jù)集的分析,目前還沒(méi)有現(xiàn)成的且滿足可計(jì)算條件的一般性理論與方法。研究者們主要是將符號(hào)型機(jī)器學(xué)習(xí)方法與數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,但由于真實(shí)世界的數(shù)據(jù)關(guān)系相當(dāng)復(fù)雜,非線性程度相當(dāng)高,而且普遍存在著噪音數(shù)據(jù),因此這些方法在很多場(chǎng)合都不適用。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的黑箱問(wèn)題,在數(shù)據(jù)挖掘的初期并不看好,然而,神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性,以及它對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的能力,非常適合解決數(shù)據(jù)挖掘中存在的以上問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。 規(guī)則抽取方法是解決“
12、黑箱問(wèn)題”的有效手段。神經(jīng)網(wǎng)絡(luò)規(guī)則抽取的研究最早開始于80年代末。1988年,Gallant13設(shè)計(jì)了一個(gè)可以用if-then規(guī)則解釋推理結(jié)論的神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)。根據(jù)設(shè)計(jì)思想的不同,目前的規(guī)則提取方法大致可以分成兩大類,即基于結(jié)構(gòu)分析的方法和基于性能分析的方法。 基于結(jié)構(gòu)分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法把規(guī)則抽取視為一個(gè)搜索過(guò)程,其基本思想是把已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)映射成對(duì)應(yīng)的規(guī)則。由于搜索過(guò)程的計(jì)算復(fù)雜度和神經(jīng)網(wǎng)絡(luò)輸入分量之間呈指數(shù)級(jí)關(guān)系,當(dāng)輸入分量很多時(shí),會(huì)出現(xiàn)組合爆炸。因此,此類算法一般采用剪枝聚類等方法來(lái)減少網(wǎng)絡(luò)中的連接以降低計(jì)算復(fù)雜度。RX算法14首先用權(quán)衰減方法構(gòu)造BP網(wǎng)絡(luò)(該網(wǎng)絡(luò)中連接
13、權(quán)的大小反映了連接的重要程度),然后對(duì)網(wǎng)絡(luò)進(jìn)行修剪,在預(yù)測(cè)精度不變的情況下刪除次要連接,在對(duì)網(wǎng)絡(luò)進(jìn)行充分簡(jiǎn)化的條件下,對(duì)隱藏層結(jié)點(diǎn)的激活值進(jìn)行聚類,根據(jù)不同的隱藏層結(jié)點(diǎn)激活值用窮舉搜索的辦法來(lái)尋找從輸入層到隱藏層和從隱藏層到輸出層的規(guī)則. 與基于結(jié)構(gòu)分析的方法不同,基于性能分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法并不對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析和搜索,而是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)整體來(lái)處理,這類方法更注重的是抽取出的規(guī)則在功能上對(duì)網(wǎng)絡(luò)的重現(xiàn)能力,即產(chǎn)生一組可以替代原網(wǎng)絡(luò)的規(guī)則。較有代表性的算法是Sestito等人提出的相似權(quán)值法15,這種方法將輸出節(jié)點(diǎn)添加到輸入層去與輸入節(jié)點(diǎn)進(jìn)行比較。1994年,Craven和Shav
14、lik16為神經(jīng)網(wǎng)絡(luò)規(guī)則抽取任務(wù)下了一個(gè)定義:給定一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)以及用于其訓(xùn)練的訓(xùn)練集,為網(wǎng)絡(luò)產(chǎn)生一個(gè)簡(jiǎn)潔而精確的符號(hào)描述。在文獻(xiàn)16的基礎(chǔ)上,1996年,Craven和Shavlik17提出了TREPAN算法。該算法首先用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)示例集進(jìn)行分類,然后將該集合作為訓(xùn)練集提供給決策樹學(xué)習(xí)算法,從而構(gòu)造出一棵與原網(wǎng)絡(luò)功能接近的、使用MOFN表達(dá)式作為內(nèi)部劃分的決策樹。TREPAN的計(jì)算量較低。1997年,Craven和Shavlik18將TREPAN用于一個(gè)噪音時(shí)序任務(wù),即美元馬克匯率預(yù)測(cè),取得了比現(xiàn)有方法更好的效果。2.3遺傳算法 遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜
15、索算法,是一種仿生全局優(yōu)化方法。它是美國(guó)Michigan大學(xué)的Holland教授于1975年首先提出的。遺傳算法中包含了5個(gè)基本要素:參數(shù)編碼;初始群體的設(shè)定;適應(yīng)度函數(shù)的設(shè)計(jì);遺傳操作設(shè)計(jì);控制參數(shù)設(shè)定。遺傳算法具有十分頑強(qiáng)的魯棒性、自適應(yīng)性,其在解決大空間、多峰值、非線性、全局優(yōu)化等復(fù)雜度高的問(wèn)題時(shí)具有獨(dú)特的優(yōu)勢(shì)。因此,遺傳算法在數(shù)據(jù)挖掘技術(shù)越來(lái)越顯示出其重要的地位。數(shù)據(jù)挖掘最初應(yīng)用進(jìn)化計(jì)算從給定的目標(biāo)集中挖掘有趣數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述(2)<DIVid=content><scriptsrc="/mx/baid.js"><DIVi
16、d=viewad><scriptsrc="/a/lw.js">的規(guī)則19,其強(qiáng)調(diào)從面向?qū)ο蟮臄?shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)集的共有特性。遺傳算法也應(yīng)用于其他方面如從多媒體數(shù)據(jù)庫(kù)中挖掘多媒體數(shù)據(jù)。遺傳算法在數(shù)據(jù)挖掘中主要應(yīng)用于數(shù)據(jù)回歸和關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。 (1)回歸。除了發(fā)現(xiàn)可解釋的模式之外,數(shù)據(jù)挖掘的另外一個(gè)重要的任務(wù)就是預(yù)測(cè),即通過(guò)數(shù)據(jù)庫(kù)中的一些變量發(fā)掘其超未來(lái)的趨勢(shì)值。傳統(tǒng)的線性回歸需要先假設(shè)這些屬性間沒(méi)有相關(guān)性,而遺傳算法則可以很好的處理有相關(guān)性的變量。Xu20曾設(shè)計(jì)了一個(gè)多輸入單輸出的系統(tǒng),應(yīng)用遺傳算法從訓(xùn)練數(shù)據(jù)集中進(jìn)行非線性多元回歸。 (2)關(guān)聯(lián)規(guī)則。遺傳學(xué)習(xí)首
17、先創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體。每個(gè)規(guī)則可以用一個(gè)二進(jìn)制位串表示的if-than類型。通過(guò)全局搜索,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體。遺傳算法可以單獨(dú)用于數(shù)據(jù)倉(cāng)庫(kù)中關(guān)聯(lián)規(guī)則的挖掘,還可以和其他的數(shù)據(jù)挖掘技術(shù)相結(jié)合,例如,用于進(jìn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以得到結(jié)構(gòu)簡(jiǎn)單、性能優(yōu)良的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)21;用于特征子集選擇22;應(yīng)用于決策樹、分類器和模糊規(guī)則的獲取等等。2.4粗集 粗集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出,是一種處理含糊和不確定問(wèn)題的新型數(shù)學(xué)工具。粗集理念基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立。給定現(xiàn)實(shí)世界數(shù)據(jù),通常有些類不能被可用的屬性區(qū)分。粗集可以用來(lái)近似定義這種
18、類,將問(wèn)題的數(shù)據(jù)集進(jìn)行劃分,然后對(duì)劃分的每一部分確定其對(duì)某一概念的支持程度:即肯定支持此概念,肯定不支持此概念,并分別用下近似和上近似集合來(lái)表示為正域、負(fù)域。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí)和潛在的規(guī)律。同時(shí),粗集理論在處理大數(shù)據(jù)量,消除冗余信息等方面有著良好的效果,因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、規(guī)則生成等方面。 (1)數(shù)據(jù)約簡(jiǎn)。粗集理論可提供有效方法用于對(duì)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)在數(shù)據(jù)挖掘系統(tǒng)的預(yù)處理階段,通過(guò)粗集理論刪除數(shù)據(jù)中的冗余信息(屬性、對(duì)象以及屬性值等),可大大提高系統(tǒng)的運(yùn)算速度。文獻(xiàn)23使用粗集方法對(duì)信息
19、系統(tǒng)進(jìn)行屬性及屬性域的約簡(jiǎn),然后使用神經(jīng)網(wǎng)絡(luò)對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行分類,從而在網(wǎng)絡(luò)分類精度沒(méi)有明顯下降的前提下使網(wǎng)絡(luò)的學(xué)習(xí)速度提高到約簡(jiǎn)前的4.72倍。 (2)規(guī)則抽取。與其它方法(如神經(jīng)網(wǎng)絡(luò))相比,使用粗集理論生成規(guī)則是相對(duì)簡(jiǎn)單和直接的,信息系統(tǒng)中的每一個(gè)對(duì)象既對(duì)應(yīng)一條規(guī)則。粗集方法生成規(guī)則的一般步驟為:得到條件屬性的一個(gè)約簡(jiǎn),刪去冗余屬性;冊(cè)去每條規(guī)則的冗余屬性值;對(duì)剩余規(guī)則進(jìn)行合并目前己經(jīng)產(chǎn)生了許多基于粗集理論的方法用于從信息系統(tǒng)中抽取規(guī)則24。 粗集理論存在對(duì)錯(cuò)誤描述的確定性機(jī)制過(guò)于簡(jiǎn)單,而且在約簡(jiǎn)的過(guò)程中缺乏交互驗(yàn)證功能,因此,粗集理論與其它方法如神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊數(shù)學(xué)、決策樹等相
20、結(jié)合可以發(fā)揮各自的優(yōu)勢(shì),大大增強(qiáng)數(shù)據(jù)挖掘的效率。文獻(xiàn)25提出了一種融合粗集理論和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘新方法,應(yīng)用于大型數(shù)據(jù)庫(kù)的分類規(guī)則挖掘。其主要思想是首先由粗糙集理論對(duì)數(shù)據(jù)庫(kù)進(jìn)行初步約簡(jiǎn),然后借助于神經(jīng)網(wǎng)絡(luò)在自學(xué)習(xí)過(guò)程中完成對(duì)數(shù)據(jù)庫(kù)的進(jìn)一步屬性約簡(jiǎn),并過(guò)濾數(shù)據(jù)中的噪聲數(shù)據(jù),最后由粗糙集理論對(duì)約簡(jiǎn)后的數(shù)據(jù)庫(kù)進(jìn)行規(guī)則抽取。粗集理論的使用提高了系統(tǒng)的運(yùn)算速度,同時(shí)神經(jīng)網(wǎng)絡(luò)則使產(chǎn)生的規(guī)則集泛化能力提高。2.5混合方法 綜合軟計(jì)算的主要算法可產(chǎn)生在并行化、容錯(cuò)、自適應(yīng)性和不定性管理方面更好的系統(tǒng)?;旌舷到y(tǒng)可使許多應(yīng)用中的自動(dòng)化自適應(yīng)系統(tǒng)成為現(xiàn)實(shí)。模糊系統(tǒng)的推理能力,當(dāng)與神經(jīng)網(wǎng)絡(luò)和遺傳算法的學(xué)習(xí)能力結(jié)合時(shí)
21、,導(dǎo)致得到體現(xiàn)合理有效的認(rèn)識(shí)系統(tǒng)(可學(xué)習(xí)和推理的系統(tǒng))的新產(chǎn)品和新過(guò)程。Banerjee25利用粗糙集、神經(jīng)網(wǎng)絡(luò)和模糊邏輯相結(jié)合的方法設(shè)計(jì)了數(shù)據(jù)挖掘系統(tǒng),其中用粗糙集方法在決策表中進(jìn)行約簡(jiǎn)。而用模糊集方法挖掘出未經(jīng)加工的知識(shí),最后由神經(jīng)網(wǎng)絡(luò)根據(jù)依賴度進(jìn)行取舍。3 結(jié)束語(yǔ) 目前,數(shù)據(jù)挖掘中算法和可視化的研究越來(lái)越顯得重要。因?yàn)閺臄?shù)據(jù)庫(kù)中很容易就可以發(fā)現(xiàn)大量的模式,而這些模式中很多是很顯而易見(jiàn)的、冗余的、無(wú)用的,或是對(duì)用戶來(lái)說(shuō)沒(méi)有趣的?,F(xiàn)在就需要能夠過(guò)濾這些模式而提供給用戶有用或有趣的模式的挖掘技術(shù)。軟計(jì)算方法包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗集和混合方法近來(lái)用于解決這些問(wèn)題。 軟計(jì)算具有以低求
22、解成本、快速的方法解決復(fù)雜問(wèn)題。本文對(duì)數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了一個(gè)綜合性闡述。對(duì)它們的特點(diǎn)進(jìn)行了分析,并對(duì)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類。模糊集為這個(gè)過(guò)程中的處理不確定性提供了一個(gè)自然框架,神經(jīng)網(wǎng)絡(luò)和粗集廣泛應(yīng)用于分類和規(guī)則生成。遺傳算法應(yīng)用于各種優(yōu)化和搜索過(guò)程中,如優(yōu)化排序和模式選擇。參考文獻(xiàn) 1U.FayyadandR.Uthurusamy,“Dataminingandknowledgediscoveryindatabases,”Commun.ACM,vol.39,pp.2427,1996. 2W.H.Inmon,“Thedatawarehouseanddatamining,”Co
23、mmun.ACM,vol.39,pp.4950,1996. 3楊會(huì)志.數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向.河北科技大學(xué)學(xué)報(bào)J2000,21(3):77-80 4J.A.MajorandD.R.Riedinger,“EFDAhybridknowledgestatisticalbased工作systemforthedetectionoffraud,”Int.J.Intell.Syst.,vol.7,pp.687703,1992. 5R.Heider,TroubleshootingCFM56-3EnginesfortheBoeing737UsingCBRandData-Mining,Spinger-
24、Verlag,NewYork,vol.1168,pp.512523,1996.LectureNotesinComputerScience. 6ZadehL,F(xiàn)uzzvlogic,neuralnetworkandsoftcomputingCommunicationsofthe ACM,1994,37(3):77-84 7D.Nauck,“Usingsymbolicdatainneuro-fuzzyclassification,”inProc.NAFIPS99,NewYork,June1999,pp.536540. 8湯效琴,戴汝源.數(shù)據(jù)挖掘中變量聚類方法的應(yīng)用研究.計(jì)算機(jī)工程與應(yīng)用J.2004,
25、40(24):171-173. 9范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)M.北京:機(jī)械工業(yè)出版社,2001. 10Q.WeiandG.Chen,“Mininggeneralizedassociationruleswithfuzzytaxonomicstructures,”inProc.NAFIPS99,NewYork,June1999,pp.477481. 11J.KacprzykandS.Zadrozny,“Dataminingvialinguisticsummariesofdata:Aninteractiveapproach,”inProc.IIZUKA98,Fukuoka,Japan,Oc
26、t.1998,pp.668671. 12吳瑞基于FLAAT模糊的WEB挖掘算法武漢科技大學(xué)學(xué)報(bào)(自然科學(xué)版)J.2005,28(3):270-272. 13S.I.Gallant.NeuralNeworkLearningandExpertSystems.Cambridge,MA:MITpress,1993. 14RudySetiono,LiuH.Understandingneuralnetworksviaruleextraction.In:Procofthe14thInternationalJointConferenceonArtificialIntelligence,Montreal,199
27、5.pp.480-485 15SestitoS,DillonT.Knowledgeacquisitionofconjunctiverulesusingmultilayeredneuralnetworks.InternationalJournalofIntellSys,1993,8(7):779805 16M.W.Craven,J,W,Shavlik.Usingsamplingandqueriestoextractrulesfromtrainedneuralnetworks.In:Procofthe7thInt'lConfonMathineLearning,NewBrunswick,1994.pp.3745 17M.W.Craven,J,W,Shavlik.Extractingtree-structuredrepresentationsoftrainednetworks.Cam
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球初級(jí)沖擊式破碎機(jī)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 座次禮儀健康管理系施怡寧講解
- 2025個(gè)人借款樓房抵押合同范本
- 2025標(biāo)準(zhǔn)材料采購(gòu)合同范本
- 打灰工班組承包合同
- 生活污水處理合同書范本年
- 墻面廣告租賃合同
- 提高人際溝通與協(xié)調(diào)的技巧
- 建筑工程施工總承包合同
- 活動(dòng)板房工程合同范本
- 《民航服務(wù)溝通技巧》教案第16課民航服務(wù)人員平行溝通的技巧
- 深圳市物業(yè)專項(xiàng)維修資金管理系統(tǒng)操作手冊(cè)(電子票據(jù))
- 2023年鐵嶺衛(wèi)生職業(yè)學(xué)院高職單招(數(shù)學(xué))試題庫(kù)含答案解析
- 呆死帳的發(fā)生與預(yù)防課件
- 10000中國(guó)普通人名大全
- 起重機(jī)械安裝吊裝危險(xiǎn)源辨識(shí)、風(fēng)險(xiǎn)評(píng)價(jià)表
- 華北理工兒童口腔醫(yī)學(xué)教案06兒童咬合誘導(dǎo)
- 中國(guó)建筑項(xiàng)目管理表格
- 高一3班第一次月考總結(jié)班會(huì)課件
- 公共政策分析導(dǎo)論教學(xué)課件匯總完整版電子教案
- 我國(guó)油菜生產(chǎn)機(jī)械化技術(shù)(-119)
評(píng)論
0/150
提交評(píng)論