（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf

上傳人：伐*** IP屬地：寧夏上傳時(shí)間：2019-12-19 格式：PDF 頁(yè)數(shù)：48 大?。?.46MB 積分：10.8 舉報(bào) 版權(quán)申訴

（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf_第2頁(yè)

（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf_第3頁(yè)

（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf_第4頁(yè)

（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf_第5頁(yè)

已閱讀5頁(yè)，還剩43頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)，是從大量數(shù)據(jù)中用非平凡的方法發(fā)現(xiàn)有用的知識(shí)。分類是數(shù)據(jù)挖掘中的一項(xiàng)非常重要的任務(wù)，在商業(yè)、金融、電訊、d n a 分析、科學(xué)研究等諸多領(lǐng)域具有廣泛的應(yīng)用。統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng) 域的研究者提出了很多分類方法，大部分算法是內(nèi)存駐留算法，適用于小型數(shù)據(jù) 集。隨著數(shù)據(jù)集的數(shù)據(jù)量和維數(shù)的增加，建立高效的、適用于大型數(shù)據(jù)集的分類法已成為數(shù)據(jù)挖掘的一個(gè)挑戰(zhàn)性任務(wù)。基于顯露模式( e m e 蟛n g p a t c e m ，e p ) 的分類方法是針對(duì)大型數(shù)據(jù)集的分類提出的，e p 是gd o n g 和j “提出的一種新的知識(shí)模式，這些模式能夠捕獲目標(biāo)類和非目標(biāo)類上多組屬性之間的不同，具有很好的分類性能。第一個(gè)基于e p 的分類算法是gd o n g 等提出的c a e p 算法，此后相繼提出了j e p c l a s s i f i e r 、 b c e p 和d e e p s 等一系列基于e p 的分類算法。相關(guān)研究表明，基于e p 的分類算法的平均分類準(zhǔn)確率優(yōu)于決策樹等傳統(tǒng)算法，顯示了e p 在分類方面的優(yōu)越性。本文提出了一種可調(diào)整權(quán)值的基于e p 的分類方法c e p a w 。c e p a w 使用基本顯露模式( e e p ) 并聚合e e p 的區(qū)分能力建立分類器。在聚合e e p 的區(qū)分能力時(shí)，e e p 的權(quán)值通過(guò)訓(xùn)練自適應(yīng)地選取。訓(xùn)練分為兩個(gè)階段：第一階段的主要任務(wù)是挖掘e e p s ，構(gòu)造初始分類器。在e p 的選取以及評(píng)分函數(shù)方面。我們都采用了不同于以往的基于e p 的分類算法的方法。第二階段是權(quán)值的自適應(yīng)調(diào)整。丌始，所有e p 的權(quán)值相同。反復(fù)地使用初始分類器對(duì)訓(xùn)練樣本進(jìn)行分類，并通過(guò)考察每個(gè)e p 對(duì)訓(xùn)練樣本的分類效果調(diào)整e p 的權(quán)值，直到分類器的分類準(zhǔn)確率不能再提高。為了測(cè)試算法的分類性能，使用了u c i 機(jī)器學(xué)習(xí)庫(kù)中的1 2 個(gè)數(shù)據(jù)集作為實(shí) 驗(yàn)數(shù)據(jù)集，并將實(shí)驗(yàn)結(jié)果與n b 、c 5 o 、c a e p 、l b 以及b c e p 算法進(jìn)行比較。結(jié)果表明，c e p a w 具有更好的分類準(zhǔn)確率，自適應(yīng)地選取e p 的權(quán)值比以支持度為權(quán)值的評(píng)分策略更加合理。當(dāng)數(shù)據(jù)分布發(fā)生輕微變化時(shí)，通過(guò)再訓(xùn)練，調(diào)整 e p 的權(quán)值，c e p a w 可以較好地適應(yīng)新的數(shù)據(jù)分布。關(guān)鍵字：機(jī)器學(xué)習(xí)，數(shù)據(jù)挖掘，分類，顯露模式 a b s 8 c t a b s t r a c t d a t am i l l i n g ，a l s oh l o w n 鶴i ( i l o w l e d g ee 畦8 c o v e r yi nd a t a b a s e ，r e f b r st o m i n i n g k n o w l e d g e 丘d md a t a i nv e r yl a r g ed a t a b 嬲e si nn 0 枷v i a lm e m o d s c 1 a s s i f i 訓(xùn)o n ，a sa l li m p o n a f l tt l l e m ei nd a t a 嘶n i n 島h a sb e e nr 鼯e 盯c h e de d i 盯i n s t a t i s t i c s ，m a c h i n el e a r i l i n & n e u r a ln e t w o r k ，e x p e ns y s t e i t l s ，e t c b u tm o s ta 1 9 0 r i t l l m s a r ec o n 6 n e d m e m o r y ，t y p i c a l l y 鵲s u m i n gas m a l ld a t as i z c w i t h 也eg r o w t ho fd a t ai n v o l 啪ea i l dd i m e l l s i o m l i t y ，i ti ss m lac h a l l e l l g et ob u i l de f f t i v ec l a s s m e r sf o rl a r g e d a t a b a s e s m e t l l o d sf o rc l a s s i f i c a t i o nb ye m e f g i n gp a t t e m s ( e p s ) w e r ep m p o s e di no r d e rt o c l a s s 母l a r g ed a t a s e t s e p sa r en e wl 【i n do fl ( 1 l o w l e d g ep a t c 鋤p r e s e n 硼b ygd o n g a n dj “i n1 9 9 9 ，w h i c hc a nc 印m r cm ei n h 刪l td i s d n c t i o n sb c t w e e nd i f f 旨t c l a s s e so f d a t a s oe p sa r cu s e 如l 衙b u i l d i n ga c c u 墻t ec l a s s i f i e r s c a e ew 】i i c hw a s p m p o s e db yl i ， d o n ga 1 1 dr 鋤鋤o h 柚啪oi n l9 9 9 ，i st h ef i r s te p - b a s e d c l a s s m c a t i o na l g o r i l i n a f t e rt l l a t ，as 商e so fe p _ b a s c dd 髂s 湎e r sw e r ep m p o s e do n e a f t e ra i l o m e rs u c ha sb c e p ，j e p d a s s m d e e p s ，e t c i th a ss h o w nm a te p _ b a s e d c l a s s i 矗e ri sb e t t e rt l l a ns o m ec l a s s i cc l a s s i f i c a t i o nm e l o d ss u c ha sd e c i s i o nt r e e s t h i sd i s s e r t a t i o np r o p o s e san o v e le p - b 踮c dc l a s s i f i c a t i o nm e t h o d ， c a l l e d c l a s s 硪c a d o nb ye m e r g i n gp a t t e m s 麗t ha d j u s t a b l ew e i 曲t s ( c e p a w ) i nt h e 響n i n g p h a s e ，c e p a wu s e sas p e c i a lk i n do fe p s ，c a l l e de s s e n t i a l 鋤e r g i n gp a t t c i n s ( e e p s ) ， a n da g 爭(zhēng)e g a t e sd i 彘r e n t i a t i n gp o w e r so fe e p st oc o n s m 】c tc l a s s i f i e r s i no r d e rt o a g 掣g a t ed i 丘孤t i a t i n gp o w c r so fe e p s ，e a c he e pi sa s s o c i a t e dw i t ha na d j u s t a b l e w e i 曲tt h a ti sc h o s e nb y 仃a 岫i n 呂t r a i n i n gi sd i v i d e di n t o 伽op h a s e s i nt h ef i r s t p h a s c ，e e p sa r em i n e da n da ni n i t i a ld a s s m e ri sc o n s t m c t e d o l l ra 1 9 0 r i t l l mi s d i 丘旨e n tf b mt l l ep r e v i o u se p _ b a s e da l g o r i t h m s 、v i 出r e s p e c tt ot h ek i n do fe pa 1 1 dt h e s c o r i r 喀矗m c t i o n i nm es e c o n dp h a s e ，m ew e i g h t so fc e p sa r ca d j u s t a b l eb yt r a i n i n g f i r s t l y ，w e i g h t so f a l le e p sa r es e te q u a l ly b yu s i n gm ei n i t i a ld a s s m e rt oc l a s s i 毋l e t r a i n i n gs 鋤p l e si t e r a t i v e l y ，w ea d j u s tt h ew e i g h t so fe p sa c c o r d i n gt ot i l er e s u l t so f c l a s s i f 弭n g 吼t i lt h ea c c u r a c yr a t ec a nn o tb ei n c r e a s e d i no r d e rt oe s t i m a t e 廿l ea c c u 豫c yo fo u ra l g o t h m s ，o u re x p e m e n ts t u d yc 謝e d o n1 2b 髑曲m a 出d a l 夠e t 8 臺(tái)o m 乜弛u c 【m a c b i n ek ；蛐皿gr e p o s i t o r ys h o w st l l a t c e p a wp e r f o m l c 鼯c o m p a r a b l y 麗t l ld t l l 盯s t a t e - o f m e - a r td 鵲s i 丘c a t i o nm c l l l o d s s u c ha sn b ，c 5 o ，c b a ，c m a 咒c a e p 趾db c e pi nt e 肌so fo v e r a l lp r e d i c t i v e a c 咖c y - c o m p a r i n g 謝t l im c t l l o d s1 1 8 i n gs u p p o r t s 嬲w e i g h t s ，e x p 甜m e n t sh a v es h 嗍 t 1 1 a tc e p a wc a nc h o o s em o f er e 黯叩a b l ew e i 曲t st oa g 筍e g a l ed i 氆洲1 t i a t i n gp o w e 礙 o fe e p s w h e nt h ed a l ad i s m b u t i o nc h a i l g e ss l i 曲n y ，c e p a wc a i ia d a p tt ot l l en c w d a 協(xié)d i s m b u t i o nb yn 刪i l i n g k e y w o r d s ：m a c i l i n el e 秈i n g ，d a t am i n i g ，c i a s s m c a t i o n ，e m e 唔n gp a t t e h l 鄭重聲明本學(xué)位論文是在導(dǎo)師指導(dǎo)下獨(dú)立撰寫并完成的。除文中已經(jīng)注明引用的內(nèi)容外，本論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過(guò)的作品或成果。學(xué)位論文沒有剽竊、抄襲等違反學(xué)術(shù)道德、學(xué)術(shù)規(guī)范的侵權(quán)行為，否則，本人愿意承擔(dān) 由此產(chǎn)生的一切責(zé)任和法律后果。特此鄭重聲明。學(xué)位論文作者( 簽名) ：啦筆餒口多年6 月年同第一章緒論第一章緒論數(shù)據(jù)收集和數(shù)據(jù)存儲(chǔ)技術(shù)的快速進(jìn)步使得組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。然而海量數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)了人的駕馭能力，人們面臨著“數(shù)據(jù)豐富，但信息貧乏”的尷尬境地。因此，提取有用的信息成為巨大的挑戰(zhàn)。通常，由于數(shù)據(jù)量太大，無(wú)法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處理它們。有時(shí)，即使數(shù)據(jù)集相對(duì)較小，由于數(shù) 據(jù)本身的非傳統(tǒng)特點(diǎn)，也不能使用傳統(tǒng)的方法。在其他情況下，需要回答的問(wèn)題也不能使用已有的數(shù)據(jù)分析技術(shù)來(lái)解決。這樣，就需要開發(fā)新的方法。數(shù)據(jù)挖掘是一種技術(shù)，它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖掘也為探查和分析新的數(shù)據(jù)類型，為使用新的方法分析原有的數(shù) 據(jù)類型提供了機(jī)會(huì)。 1 1 什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)中，自動(dòng)地發(fā)現(xiàn)有用信息的過(guò)程。數(shù)據(jù)挖掘技術(shù) 用來(lái)探查大型數(shù)據(jù)庫(kù)，以發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還提供了一些機(jī)制，用于預(yù)測(cè)未來(lái)的觀測(cè)結(jié)果。許多人把數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn) ( k n o w l e d g ed i s c o v e r yi nd a t a b 8 s e s ，簡(jiǎn)稱k d d ) 看作是等價(jià)的概念a 在這種觀點(diǎn)下，一種比較公認(rèn)的定義是wj f r a w l e y ，gp i a t e t s k y s h 印i r o 等人提出的，其描述為： “數(shù)據(jù)挖掘，即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)( k d d ) ，是一個(gè)在數(shù)據(jù)中提取模式的過(guò)程，這些模式是有效的、新穎的、有潛在實(shí)用價(jià)值的和易于理解的?！?而另一些人把k d d 看作發(fā)現(xiàn)知識(shí)的完整過(guò)程，數(shù)據(jù)挖掘只是這個(gè)過(guò)程中關(guān) 鍵的一個(gè)部分。這種觀點(diǎn)對(duì)數(shù)據(jù)挖掘的定義是： “數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)( k d d ) 過(guò)程中的一個(gè)步驟，這個(gè)步驟由一些特定的數(shù)據(jù)挖掘算法組成，這些算法的任務(wù)是在滿足一定計(jì)算效率的約束條件下，從數(shù)據(jù)中提取有效的模式?！?1 2 數(shù)據(jù)挖掘的任務(wù) 通常，數(shù)據(jù)挖掘任務(wù)分兩大類：預(yù)測(cè)任務(wù)這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值，預(yù)測(cè)特定屬性的值。被預(yù) 第一章緒論測(cè)的屬性一般稱目標(biāo)( t a i 酣) 或依賴變量( d e p 姐d tv a r i 曲l e ) ，而用來(lái)做預(yù)測(cè) 的屬性稱解釋( e x p l a l l a t o r y ) 或獨(dú)立變量( i n d 印e i l d e n ta 州a b l e ) 。搖述任務(wù)這里，目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式( 相關(guān)、聚類、軌道和異常) 。本質(zhì)上，描述性數(shù)據(jù)挖掘通常是探查，并且常常需要后處理技術(shù)驗(yàn) 證和解釋結(jié)果。預(yù)測(cè)建模( p r 耐i c t i v em o d e 觸g ) 涉及用函數(shù)為目標(biāo)變量建立模型。有兩類預(yù)測(cè)建模任務(wù)：分類( c l a s s 壤c a t i o n ) ，用于離散的目標(biāo)變量；回歸( r e 掣e s s i o n ) ，用于連續(xù)的目標(biāo)變量。兩項(xiàng)任務(wù)目標(biāo)都是訓(xùn)練一個(gè)模型，它最小化目標(biāo)變量預(yù)測(cè) 值與實(shí)際值之間的誤差。預(yù)測(cè)建模可以用來(lái)確定顧客對(duì)產(chǎn)品促銷活動(dòng)的反應(yīng)，預(yù) 測(cè)地球生態(tài)系統(tǒng)的擾動(dòng)，或根據(jù)檢查結(jié)果判定病人是否患有某種特定的疾病。關(guān)聯(lián)分析( a s s o c i a 廿蛆蚰a l y s i s ) 用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。所發(fā)現(xiàn)的模式通常用蘊(yùn)涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)的，關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。關(guān)聯(lián)分析的應(yīng)用包括找出具有相關(guān)功能的基因組，識(shí)別一起訪問(wèn)的w 曲頁(yè)面，理解地球氣候系統(tǒng)不同元素之間的聯(lián)系。聚類分析( d u s t 盯蚰a l y s i s ) 旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群，使得與屬于不同簇的觀測(cè)值相比，屬于同一簇的觀測(cè)值相互之間盡可能類似。聚類用來(lái)對(duì)相關(guān)的顧客分組，找出顯著影響地球氣候的海洋區(qū)域，壓縮數(shù)據(jù)。異常檢測(cè)( a n o m a l yd e t e c d o n ) 的任務(wù)是識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)( a n o m a l y ) 或離群點(diǎn)( o u t l i e r ) 。異常檢測(cè)算法的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn)，而避免錯(cuò)誤地將證常的對(duì)象標(biāo)注為異常點(diǎn)。換言之，一個(gè)好的異常檢測(cè)器必須具有高檢測(cè)率和低誤報(bào)率。異常檢測(cè)的應(yīng)用包括欺詐檢測(cè)、網(wǎng)絡(luò)攻擊、疾病的不尋常模式、生態(tài)系統(tǒng)擾動(dòng)。 1 3 數(shù)據(jù)挖掘算法的研究及應(yīng)用概況近十幾年來(lái)，數(shù)據(jù)挖掘算法研究取得豐碩的成果，數(shù)據(jù)挖掘算法的主要研究成果概要如下：在關(guān)聯(lián)規(guī)則研究方面的主要成果有：尋找頻繁項(xiàng)集的a p r i o r i 算法、 f p g m w t l l 算法1 2 】針對(duì)不同情況設(shè)計(jì)的多維關(guān)聯(lián)規(guī)則挖掘方法哪】和多層關(guān)聯(lián)規(guī) 則挖掘方法【5 】等。第一章緒論在分類研究方面產(chǎn)生了多種分類方法和算法【6 】= 決策樹分類算法、源于關(guān)聯(lián) 規(guī)則的分類方法、貝葉斯分類方法、k 最i 臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法等多種類型的分類方法。此外，還提出了以裝袋( b a g g i n g ) 和提升( b o o s t i i l g ) 為代表的可以有效提升某些算法分類準(zhǔn)確率的組合分類思想。這些算法雖然來(lái)自不同領(lǐng)域并且具有各自不同的背景和特性，但是這些算法都在一定的領(lǐng)域內(nèi)取得了很大的成功。盡管我們把算法分為上述幾個(gè)類型，但是這些方法并不是孤立的，一個(gè)有效的分類算法可能是綜合上述多種思想設(shè)計(jì)完成的。關(guān)于分類研究的問(wèn)題我們將在以后的章節(jié)做進(jìn)一步的論述。在聚類研究方面也存在多種算法：基于劃分的聚類方法有k - m e a n s ， k m c d o i s 、和c i ，a r a 、c l a m n 等算法。層次聚類算法有a g n e s 算法、d i a n a 算法、b m t h 【”、c u r e 8 】、r o c k 9 1 、c h 柵d c o n 等算法?；诿芏鹊木垲愃?法有d b s c a 州1 ”、o p t i c s 、d e n c l u f l3 1 ?；诰W(wǎng)格的聚類方法有s t i n g 【1 4 】、 w a v e c l u s t 一15 1 、c l i o ue f l 6 等算法?；谀Ｐ偷木垲愃惴ㄓ薪y(tǒng)計(jì)學(xué)方法 c o b w e b 【17 1 、c l a s s i t 、a u t o c l a s s 和神經(jīng)網(wǎng)絡(luò)方法 2 0 0 ”。其他研究方向也取得了豐碩的研究成果，如序列模式的挖掘有 g s p 吲( g e n c r a l i z c ds e q u e n t i a lp a t t e m s ) 算法和 p r c f i x s p a n 吲( p r e f i x p 刪e c t s e q u e n t i a lp a t t 鋤i i l i m n 曲算法。w e b 挖掘研究有尋找權(quán)威頁(yè)面的p a g c r a n k 【2 4 1 和 h i t s 2 5 1 算法( 目前g o o 掣e 搜索引擎使用該算法) 。總之，不同研究領(lǐng)域的研究者都結(jié)合特定領(lǐng)域的應(yīng)用背景和需求，成功的丌發(fā)出了多種類型的數(shù)據(jù)挖掘算法。 1 4 本文的內(nèi)容與組織本文第一章簡(jiǎn)要介紹了數(shù)據(jù)挖掘的概貌。我們從數(shù)據(jù)挖掘概念的提出、研究動(dòng)態(tài)、應(yīng)用概況，多個(gè)方面闡述了數(shù)據(jù)挖掘算法研究廣闊的前景和很高的應(yīng)用價(jià) 值，充分展示了本課題研究背景和意義。本文的貢獻(xiàn)主要包括以下幾個(gè)方面：本文提出了種可調(diào)整權(quán)值的基于e p 的分類方法c e p a w ( c l a s s i f i c a t i o nb ye m e r g i n gp a t t e m sw i t h a d j u s t a b l ew e i 曲t s ) 。 c e p a w 使用基本顯露模式( e e p ) 并聚合e e p 的區(qū)分能力建立分類器。在聚合 e e p 的區(qū)分能力時(shí)，e e p 的權(quán)值通過(guò)訓(xùn)練自適應(yīng)地選取。與以支持度為權(quán)值的方法相比，c e p a w 可以選取更合理的權(quán)值來(lái)聚合e e p 的區(qū)分能力。與現(xiàn)有的基于第一章緒論 e p 的分類算法不同，本文所采用的初始分類器采用了增長(zhǎng)率與e p 權(quán)值相結(jié)合的評(píng)分策略。實(shí)驗(yàn)表明c e p a w 算法具有很高的分類準(zhǔn)確率。本文的其他部分將按如下結(jié)構(gòu)組織：在本文的第二章，我們將詳細(xì)討論分類的基本概念、常見的分類方法、分類模型的準(zhǔn)確性評(píng)估等問(wèn)題。在本章將定義和闡明分類問(wèn)題的最基本的概念以及分類研究的一般過(guò)程，為我們下文深入探討分類問(wèn)題奠定基礎(chǔ)。在本文的第三章，我們?cè)敿?xì)介紹顯露模式的概念以及現(xiàn)有基于e p 的分類算法。通過(guò)本章的討論，我們首先闡明e p 的概念、性質(zhì)以及e p 的挖掘等問(wèn)題。其次通過(guò)對(duì)現(xiàn)有基于e p 的分類算法的介紹，可以更清楚的表明c e p a w 算法與現(xiàn)有的基于e p 的分類算法之間的聯(lián)系和區(qū)別。在本文的第四章，我們介紹了一種可調(diào)整權(quán)值的基于e p 的分類方法 c e p a w 。在訓(xùn)練階段，c e p a w 使用e e p 建立分類器，并在聚合e p 的區(qū)分能力時(shí)通過(guò)訓(xùn)練自適應(yīng)地確定e p 的權(quán)值。因?yàn)橛?xùn)練分類器分為兩個(gè)階段，我們分兩部分詳細(xì)討論了c e p a w 算法。首先介紹了初始分類器的構(gòu)造，在e p 的選取以及評(píng)分函數(shù)方面我們的初始分類器都不同于以往的基于e p 的分類算法。在訓(xùn)練的第二部分，我們主要介紹了權(quán)值的自適應(yīng)選取策略。在本文的五章，我們給出了c e p a w 算法在u c i 機(jī)器學(xué)習(xí)庫(kù)上的實(shí)驗(yàn)結(jié)果以及與其他算法的對(duì)比分析。通過(guò)實(shí)驗(yàn)數(shù)據(jù)我們進(jìn)一步討論了c e p a w 算法的分類特性，對(duì)算法進(jìn)行了更深入的探討。第二章分類第二章分類數(shù)年來(lái)，分類問(wèn)題一直是機(jī)器學(xué)習(xí)、模式識(shí)別和統(tǒng)計(jì)學(xué)領(lǐng)域的一個(gè)重要研究課題，目前也成為數(shù)據(jù)挖掘的一個(gè)重要任務(wù)，當(dāng)數(shù)據(jù)庫(kù)中包含的實(shí)例能夠作為將來(lái)制定決策的基礎(chǔ)時(shí)，分類特別有用，比如用于評(píng)估信用風(fēng)險(xiǎn)、醫(yī)療診斷、科學(xué) 數(shù)據(jù)分析等等。 2 1 分類概念能夠?qū)W習(xí)如何把一個(gè)對(duì)象劃分到預(yù)定義的類被認(rèn)為是智能的一個(gè)重要特征，在人工智能、機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等方面都有廣泛的應(yīng)用，這類任務(wù)被稱作分類。分類是一種有指導(dǎo)的學(xué)習(xí)，即學(xué)習(xí)過(guò)程是在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的 “指導(dǎo)”下進(jìn)行的。分類問(wèn)題可以描述為：數(shù)據(jù)是一張標(biāo)準(zhǔn)關(guān)系表，它包含個(gè)記錄，這些記錄通常稱作元組( m p l e s ) 、實(shí)例( i n s t a l l c e ) 或樣本( e x 鋤p l e ) 。每一個(gè)實(shí)例用固定數(shù)目的度量標(biāo)準(zhǔn)描述，這種度量標(biāo)準(zhǔn)稱作屬性( a t t r i b u t e ) 。每一個(gè)屬性都有一個(gè)合法的取值范圍，稱作該屬性的域( d o m a i n ) 。如果屬性域是實(shí)數(shù)域，那么則稱該屬性為數(shù)值屬性( n u m c r i c a la 州b 1 1 t e ) 或連續(xù)屬性( c o n t i n u o l l sa t 城b u t e ) 。如果屬性域是有限的，那么則稱該屬性為分類屬性( c a t e g o r i c a la t t r i b u t e ) 或離散屬性( d i s c r e t e a t 塒b u t e ) 。這些屬性中有一個(gè)區(qū)別于其他的稱作類標(biāo)號(hào)( d a s sl a b e l ) ，類標(biāo)號(hào)指示元組所屬的類。除了類標(biāo)號(hào)之外的其他屬性是預(yù)測(cè)未知樣本類型的依據(jù)，因此也稱作預(yù)測(cè)屬性( p r e d i c t o ra t 讎b u t e s ) 。在分類研究中，數(shù)據(jù)集通常被分成訓(xùn)練集和測(cè)試集。訓(xùn)練集用來(lái)構(gòu)造分類器，測(cè)試集用來(lái)評(píng)估分類器的預(yù)測(cè)準(zhǔn)確度。因?yàn)閷W(xué)習(xí)算法可能對(duì)數(shù)據(jù)的過(guò)分特化，所以使用訓(xùn)練數(shù)據(jù)構(gòu)造分類模型，然后用同樣的數(shù)據(jù)集評(píng)估分類模型可能導(dǎo)致過(guò)于樂(lè)觀的估計(jì)。因此，通常采用測(cè)試集來(lái)評(píng)估分類模型。在分類研究中，通常采用 u c i 機(jī)器學(xué)習(xí)庫(kù)例( u c im a c h i n el e a r i l i n gr 印o s i t o 啪中的數(shù)據(jù)集評(píng)估不同的分類模型。這些數(shù)據(jù)集來(lái)自廣泛的應(yīng)用領(lǐng)域，并且不同數(shù)據(jù)集的規(guī)模、目標(biāo)類的個(gè)數(shù) 和屬性個(gè)數(shù)變化很大，能夠比較全面的反映算法的分類性能。分類過(guò)程可以描述為如下兩個(gè)步驟：第一步是建立一個(gè)模型，描述預(yù)定的數(shù)據(jù)類或概念集。訓(xùn)練階段的目的是建第二章分類立分類器，即從訓(xùn)練數(shù)據(jù)集中獲取可以進(jìn)一步指導(dǎo)未知數(shù)據(jù)分類的專家知識(shí)。不同的分類模型可能用不同的形式描述用于指導(dǎo)分類的知識(shí)，如分類規(guī)則、決策樹或數(shù)學(xué)公式等。這些分類模型以不同的形式描述了某個(gè)類區(qū)別其他類的特征概念集。從另一個(gè)角度來(lái)看，也可以認(rèn)為分類模型是以某種特定的形式描述了訓(xùn)練集的數(shù)據(jù)分布特征。如果訓(xùn)練集能夠代表整體數(shù)據(jù)分布特征，那么由訓(xùn)練集獲得的特征概念集就可以用來(lái)指導(dǎo)對(duì)未知數(shù)據(jù)的預(yù)測(cè)。第二步，使用模型進(jìn)行分類。在使用分類模型對(duì)未知類標(biāo)號(hào)的實(shí)例或?qū)ο蠓?類之前，首先要使用測(cè)試集評(píng)估分類模型的分類準(zhǔn)確率。如果分類準(zhǔn)確率是可以接受的，那么我們才可以真正把該模型用于指導(dǎo)未知元組的分類。有多種技術(shù)用來(lái)評(píng)估分類模型的準(zhǔn)確性，關(guān)于模型的評(píng)估的問(wèn)題，本文在本章第3 節(jié)做進(jìn)一步論述。 2 2 基本的分類技術(shù) 分類技術(shù)在不同領(lǐng)域有廣泛應(yīng)用，因此，統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng) 域的研究者提出了很多的分類方法。這些算法來(lái)自不同的領(lǐng)域、工作原理差別很大，但是都在相應(yīng)的領(lǐng)域取得了成功。本節(jié)將簡(jiǎn)要介紹分類的基本技術(shù)?，F(xiàn)有的分類技術(shù)主要有：基于決策樹的分類、貝葉斯分類、基于案例的推理、基于源自關(guān)聯(lián)規(guī)則挖掘概念分類、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊集和粗糙集方法等。 2 2 1 基于決策樹的分類決策樹學(xué)習(xí)【2 7 0 8 1 是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式，首先選擇訓(xùn)練樣本的一個(gè)子集形成一顆決策樹，在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷該結(jié)點(diǎn)向下的分支，在決策樹的葉結(jié)點(diǎn)得到結(jié)論。所以從根到葉子節(jié)點(diǎn)的一條路徑對(duì)應(yīng)著一條合取規(guī)則，整個(gè)樹就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則?；跊Q策樹學(xué)習(xí)算法的一個(gè)最大優(yōu)點(diǎn)是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)( 同時(shí)這也是它的最大缺點(diǎn)) ，只要訓(xùn)練例子能夠用屬性一結(jié)論式的方式表達(dá)出來(lái)，就能使用該算法來(lái)學(xué)習(xí)?；跊Q策樹的分類方法是一種監(jiān)督學(xué)習(xí)的方法，樹的數(shù)量決定于分類的精度和樹的大小，決策樹的構(gòu)造過(guò)程也就是假設(shè)特化的過(guò)程?；跊Q策樹的分類算法很多，比較有影響的有i d 3 、第二章分類 c 4 5 、c a r t 、s u o 、s p r t 、b o a t 和c ir 0 1 j d s 等算法和r 血l f 嘴t 框架。 i d 3 算法【2 冊(cè)是國(guó)際上最早、最有影響力的決策樹算法。該算法是j r d s s q 1 1 瑚蛆在1 9 8 6 年提出的。d 3 算法是基于信息熵、使用增量式學(xué)習(xí)技術(shù)的決策樹分類算法，根據(jù)屬性集的取值選擇實(shí)例的類別。它采用自頂向下不可返回的策略，搜索出全部空間的一部分，它確保決策樹的建立最簡(jiǎn)單、每次所做的測(cè)試數(shù) 據(jù)最少。l d 3 算法構(gòu)造的決策樹平均深度較小，分類速度較快。但是i d 3 算法本身也存在些不足，如：m 3 算法偏向于選擇屬性值較多的屬性，學(xué)習(xí)簡(jiǎn)單的邏輯表達(dá)能力較差等。由于i d 3 算法的廣泛應(yīng)用，研究人員圍繞該算法做了大量富有成效的研究工作。1 9 9 6 年，j r o s sq u i n l a l l 對(duì)i d 3 算法進(jìn) 行了補(bǔ)充和改進(jìn)，提出了c 4 5 算法1 3 0 l 。c 4 5 算法不但解決了連續(xù)值數(shù)據(jù)的學(xué)習(xí) 問(wèn)題，而且能夠?qū)Q策樹轉(zhuǎn)化為等價(jià)的規(guī)則表示。但是c 4 5 算法同樣存在一些不足之處，如：c 4 5 算法采用分而治之的策略所得到?jīng)Q策樹不一定是最優(yōu)的，決策樹的結(jié)構(gòu)調(diào)整、性能改善較困難等。大部分決策樹都限定訓(xùn)練樣本駐留內(nèi)存，這一限制制約了算法的可伸縮性。在數(shù)據(jù)挖掘應(yīng)用中，包含數(shù)以百萬(wàn)記的訓(xùn)練樣本的非常大的訓(xùn)練集是很普通的。因此，在這些算法用于非常大的、現(xiàn)實(shí)世界中的數(shù)據(jù)庫(kù)的挖掘時(shí)，算法的有效性和可伸縮性成為值得關(guān)注的問(wèn)題。對(duì)于大型數(shù)據(jù)庫(kù)構(gòu)造決策樹，研究者提出不同的解決方案。如：對(duì)連續(xù)屬性離散化，在每個(gè)結(jié)點(diǎn)對(duì)數(shù)據(jù)選樣。但是這種方法仍然假定處理后的訓(xùn)練集可以放在主存中。另外一種解決方案是：將樣本劃分成多個(gè)子集，使得每個(gè)子集可以放在內(nèi)存中；然后，由每個(gè)子集構(gòu)造一棵決策樹；最后，輸出的分類法將出每個(gè)子集得到的分類法組合在一起。盡管浚方法可以用于大數(shù)據(jù)集的分類，但是可能會(huì) 降低分類準(zhǔn)確性。針對(duì)算法的可伸縮性，最近提出了適用于大的訓(xùn)練數(shù)據(jù)集進(jìn)行決策樹歸納的算法。主要包括s l i o 、s p r i n t 和r a i l l f o r e s t 判定樹歸納框架。這些方法著重解決當(dāng)訓(xùn)練數(shù)據(jù)量無(wú)法全部放入內(nèi)存時(shí)，如何高速準(zhǔn)確地生成決策樹。s l i o 和 s p r 礬t 都是用了預(yù)排序技術(shù)，同時(shí)定義了新的數(shù)據(jù)結(jié)構(gòu)，以利于決策樹的構(gòu)造。 s l i q 算法 3 1 】首先采用預(yù)排序技術(shù)，對(duì)非常大而不能放入內(nèi)存的駐留磁盤的數(shù)據(jù)集進(jìn)行排序。同時(shí)s l i q 使用了若干個(gè)駐留磁盤的屬性表和單一的駐留內(nèi)存第二章分類的類表。類表的第n 項(xiàng)存放第n 條記錄的類標(biāo)號(hào)，所以類表的大小隨訓(xùn)練集中元組數(shù)目成比例增長(zhǎng)。每個(gè)屬性則對(duì)應(yīng)一個(gè)屬性表，由記錄標(biāo)志號(hào)建立索引。每個(gè) 元組由一個(gè)從每個(gè)屬性表的一個(gè)表目到類表的一個(gè)表目的鏈接表示，而類表的每一個(gè)表目都鏈接到它在決策樹中對(duì)應(yīng)的葉子節(jié)點(diǎn)。類表在決策樹構(gòu)造和剪枝過(guò)程中需要頻繁訪問(wèn)，因此應(yīng)該駐留內(nèi)存。當(dāng)類表不能放在內(nèi)存時(shí)，算法性能會(huì)急劇下降。 s p r i n t 算法舊也需要使用預(yù)排序技術(shù)，它利用屬性表存放類和記錄標(biāo)志符信息。當(dāng)節(jié)點(diǎn)分裂時(shí)，屬性表被相應(yīng)劃分。s p r d 盯消除了所有內(nèi)存限制，但仍然需要使用正比于訓(xùn)練集的散列樹。隨著訓(xùn)練集的增長(zhǎng)，這可能使代價(jià)變得昂貴。 s p r i n t 的設(shè)計(jì)易于并行化，這進(jìn)一步增強(qiáng)了算法的可伸縮性。 r 啦! f o r e s t 框架【3 ，l 是用于可伸縮的決策樹歸納的框架，它采用a v c 集 ( a t m b u t e 一u e c l 船sl a b d ，屬性一值和類標(biāo)號(hào)) 指示數(shù)據(jù)每個(gè)屬性類分布，能夠使生成的決策樹的質(zhì)量?jī)H取決于具體的決策樹算法，而與本框架無(wú)關(guān)。它旨在提高決策樹算法的伸縮性，陔框架可運(yùn)用于大多數(shù)決策樹算法( 例如s p 硎【n t 和 s l i q ) ，使算法獲得的結(jié)果與全部的數(shù)據(jù)放置于內(nèi)存所得到的結(jié)果一致，但是在運(yùn)行時(shí)可以使用較少的內(nèi)存。決策樹算法因?yàn)榫哂薪Y(jié)果容易被人理解、分類模式易于轉(zhuǎn)化成分類規(guī)則、輸入?yún)?shù)少、能處理多種類型數(shù)據(jù)( 連續(xù)值和離散值) 、能夠設(shè)計(jì)出具有良好伸縮性的算法等優(yōu)點(diǎn)，因此在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等領(lǐng)域具有廣泛的應(yīng)用。決策樹歸納算法也可能面臨一些問(wèn)題，主要是碎片、重復(fù)和復(fù)制：碎片是指通過(guò)重復(fù)劃分?jǐn)?shù)據(jù)集可能導(dǎo)致一些葉子包含的樣本數(shù)目太少而失去統(tǒng)計(jì)意義。這些葉子對(duì)應(yīng)的是問(wèn)題空間中不具有一般意義的規(guī)則或是噪音數(shù)據(jù)引起的過(guò)適應(yīng)。重復(fù)是一個(gè)屬性沿樹的一個(gè)給定分枝重復(fù)測(cè)試。復(fù)制是復(fù)制了決策樹中已經(jīng)存在的子樹。這三個(gè)問(wèn)題不但使決策樹變得更龐大，同時(shí)影響決策樹的分類準(zhǔn)確度。因此，為了防止過(guò)分適應(yīng)訓(xùn)練數(shù)據(jù)集、構(gòu)造具有更高分類準(zhǔn)確度的決策樹，需要采用一些應(yīng)對(duì)策略，如剪枝、屬性構(gòu)造等。 2 2 2 貝葉斯方法對(duì)于分類問(wèn)題，有些情況下，輸入特征向量唯一對(duì)應(yīng)著一個(gè)類別，這種問(wèn)題稱為確定性的分類問(wèn)題；而更多的情況是，來(lái)自于不同類別的樣本在外觀特征是一8 一第一二章分類具有極大的相似性的，我們必須為它選擇一個(gè)類別。貝葉斯方法能夠很好地處理這類不確定性問(wèn)題，其特點(diǎn)是以概率表示所有形式的不確定性，學(xué)習(xí)或其他形式的推理都用概率規(guī)則來(lái)實(shí)現(xiàn)。貝葉斯學(xué)習(xí)的結(jié)果表示為隨機(jī)變量的概率分布，其解釋為我們對(duì)不同可能性的信任程度。基于貝葉斯的分類過(guò)程可以這樣描述：假定有足個(gè)類c ，白c k ，給定未知數(shù)據(jù)樣本z 可以用一個(gè)維向量描述為j = 缸l ，娩靠，分類器將預(yù)測(cè)未知樣本工屬于在各屬性取值為工條件下的后驗(yàn)概率最高的類。即選擇能夠使p ( c f l 最大化的c ；作為未知樣本所屬的類 p ( a z ) p ( g i j ) ，1 ，k ，f 依據(jù)貝葉斯定理尸( gl x ) = ! 竺掣其中，p ( 西對(duì)于所有的類都是常數(shù)，只需p 傭c i ) p ( c f ) 最大，而如果類的先驗(yàn)概率未知，通常假定這些類是等概率的，即p 刊= 尸r j 列= = j d r c p 。類的先驗(yàn) 概率也可阻用尸( c p = 側(cè)“習(xí)，其中| s i | 是訓(xùn)練集中c f 類的樣本數(shù)，i s i 是訓(xùn)練集的樣本總數(shù)。因此，如何獲得p f 硼c 砂成為基于貝葉斯的分類算法的關(guān)鍵問(wèn)題。樸素貝葉斯分類算法( n a 如eb a y e s i a n ，n b ) 做了一個(gè)簡(jiǎn)單的假定：對(duì)于給定的c f 類，所有屬性是相互獨(dú)立的。在屬性值相互條件獨(dú)立的前提下，尸( 圈c f ) 的計(jì)算可以簡(jiǎn)化為：p ( 工jc f ) = 兀p ( 工，lc j ) 。概率坼“q ，p 阢i q 一，p 阢i 咧 j = l 可以通過(guò)訓(xùn)練集估算。樸素貝葉斯分類法的假設(shè)是為了簡(jiǎn)化計(jì)算，但是這種假設(shè)在現(xiàn)實(shí)世界中不是總成立的，因?yàn)楦鱾€(gè)屬性之間總存在著或多或少地相互依賴。貝葉斯信念網(wǎng)絡(luò) ( b a y e s i a l lb e l i e f n e 押o r k s ) 說(shuō)明聯(lián)合條件概率分布，它允許在變量的子集間定義類條件獨(dú)立性。還能夠表示屬性子集問(wèn)的依賴。它提供一種因果關(guān)系的圖形，可以在其上進(jìn)行學(xué)習(xí)。貝葉斯網(wǎng)絡(luò)的知識(shí)表示為判別函數(shù)，與數(shù)據(jù)挖掘中的其他知識(shí)表示的方法如規(guī)則表示、決策樹、人工神經(jīng)網(wǎng)絡(luò)等相比，貝葉斯網(wǎng)絡(luò)在知識(shí)表示方面具有以下優(yōu)點(diǎn)：貝葉斯網(wǎng)絡(luò)能夠很方便地處理不完全數(shù)據(jù)。貝葉斯網(wǎng)絡(luò)能夠?qū)W習(xí)變量間的因果關(guān)系。貝葉斯方法與其他模型相結(jié)合，通?？梢杂行У谋苊饬藬?shù)據(jù)的過(guò)分?jǐn)M 第二章分類 a 2 2 3 近鄰學(xué)習(xí)方法( a r e s t i g h b o r ) 最近鄰分類是基于類比的學(xué)習(xí)。訓(xùn)練樣本用n 維數(shù)值屬性描述，每個(gè)樣本代表n 維空間的一個(gè)點(diǎn)。這樣，所有的訓(xùn)練樣本都存放在n 維模式空間中。給定一個(gè)未知樣本，k 近鄰分類法搜索模式空間，找出最接近未知樣本的k 個(gè)訓(xùn)練樣本。這k 個(gè)訓(xùn)練樣本是未知樣本的k 個(gè)“近鄰”?！芭R近性”有不同的定義方式，最簡(jiǎn)單的就是歐幾罩德的距離定義，即根據(jù)兩個(gè)點(diǎn)之間的距離來(lái)確定二者的臨近性。未知樣本被分配到k 個(gè)最臨近者中最公共的類，如果這些點(diǎn)屬于不同的類，則可以通過(guò)某種判斷策略( 如多數(shù)表決方式) 來(lái)確定該未知樣本的最終歸屬。近鄰分類是基于要求的或懶散的學(xué)習(xí)法，即它存放所有的訓(xùn)練樣本，并且直到新的( 未標(biāo)記的) 樣本需要分類時(shí)才建立分類。而急切學(xué)習(xí)法( 如決策樹歸納或后向傳播) 則在接受新的樣本之前構(gòu)造一個(gè)一般模型。懶散學(xué)習(xí)法的所有計(jì)算都推遲到分類預(yù)測(cè)時(shí)進(jìn)行，因此如果訓(xùn)練集很大，可能的臨近者數(shù)量也很大，懶散的學(xué)習(xí)法可能導(dǎo)致很高的計(jì)算開銷，使分類過(guò)程變得緩慢。 2 2 4 神經(jīng)網(wǎng)絡(luò)分類神經(jīng)網(wǎng)絡(luò)f 州最早是出心理學(xué)家和神經(jīng)生物學(xué)家提出的，旨在尋求開發(fā)和測(cè) 試神經(jīng)的計(jì)算模擬。神經(jīng)網(wǎng)絡(luò)是一組相互連接的輸入輸出單元，每個(gè)連接都與一個(gè)權(quán)值相連。在學(xué)習(xí)階段，通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)，使網(wǎng)絡(luò)能夠正確預(yù)測(cè)輸入樣本的類標(biāo)號(hào)來(lái)學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)需要很長(zhǎng)的訓(xùn)練時(shí)問(wèn)，而且需要大量的參數(shù)，這些參數(shù)主要靠經(jīng)驗(yàn) 確定，如網(wǎng)絡(luò)拓?fù)浠蚪Y(jié)構(gòu)。人們很難解釋蘊(yùn)涵在學(xué)習(xí)權(quán)之中的符號(hào)的含義，因此神經(jīng)網(wǎng)絡(luò)很難被理解和解釋，神經(jīng)網(wǎng)絡(luò)的行為也像一個(gè)“黑盒子”。神經(jīng)網(wǎng)絡(luò)也有一些其他算法所不具備的優(yōu)點(diǎn)，如對(duì)噪聲數(shù)據(jù)的高承受能力，以及它對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的優(yōu)秀表現(xiàn)。由于最近提出一些從訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)提取規(guī)則的算法。這些因素推動(dòng)了神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘分類方面的應(yīng)用。 2 2 5 粗糙集方法現(xiàn)實(shí)生活中存在著許多不能簡(jiǎn)單地用真、假值來(lái)表示的含糊現(xiàn)象，如何表示 1 0 一第二章分類和處理這些現(xiàn)象就成為一個(gè)研究領(lǐng)域。 1 9 6 5 年z a d c i l 提出了模糊集，但遺憾的是模糊集是不可計(jì)算的，即沒有給出數(shù)學(xué)公式描述這一含糊概念。直至2 0 世紀(jì)8 0 年代，波蘭的p a _ w l a k 提出了粗糙集( r o u 曲s e t ) 。粗糙集理論可以用于分類，發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或者噪聲數(shù)據(jù)內(nèi) 在的結(jié)構(gòu)聯(lián)系，該理論基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立。形成等價(jià)類的所有數(shù)據(jù)樣本是不加區(qū)分的，即對(duì)于描述數(shù)據(jù)的屬性，這些樣本是等價(jià)的。給定現(xiàn) 實(shí)世界數(shù)據(jù)，通常有些類不能被可用的屬性區(qū)分。粗糙集可以用來(lái)近似或“粗略地”定義這種類。給定類c 的粗糙集定義有兩個(gè)集合近似：c 的下近似和c 的上近似。c 的下近似有一些這樣的樣本組成，根據(jù)關(guān)于屬性的知識(shí)，它們毫無(wú)疑問(wèn)屬于c 。c 的上近似由所有這樣的樣本組成，根據(jù)關(guān)于屬性的知識(shí)，它們不可能被認(rèn)為不屬于c 。粗糙集方法的知識(shí)表示是產(chǎn)生式規(guī)則。例如，給定一個(gè)顧客信用信息的數(shù)據(jù) 庫(kù)，可以學(xué)習(xí)分類規(guī)則，根據(jù)他們的信譽(yù)度優(yōu)良或相當(dāng)好來(lái)識(shí)別顧客。這樣的規(guī) 則可以用來(lái)為以后的數(shù)據(jù)樣本分類，也能對(duì)數(shù)據(jù)庫(kù)的內(nèi)容提供更好的理解。粗糙集理論的主要優(yōu)勢(shì)之一是它不需要任何預(yù)備的或額外的有關(guān)數(shù)據(jù)的信息，比如統(tǒng)計(jì)學(xué)中的概率分布、d e m p s t e 卜s h a f e r 理論中的基本概率賦值，或模糊集理論中的隸屬度或概率值。當(dāng)然了，該理論也不是萬(wàn)能的，對(duì)建模而言，盡管粗糙集論對(duì)知識(shí)不完全的處理是有效的，但是，由于這個(gè)理論沒有包含處理不精確或不確定原始數(shù)據(jù)的機(jī)制。因此，單純地使用這個(gè)理論不一定能有效地描述不精確或不準(zhǔn)確的實(shí)際問(wèn)題，這就意味著需要其他方法的補(bǔ)充( 如與證據(jù)理論和模糊集理論的結(jié)合) 。 2 2 6 源于關(guān)聯(lián)規(guī)則的分類關(guān)聯(lián)規(guī)則【”，3 6 1 挖掘是數(shù)據(jù)挖掘研究的一個(gè)重要的、高度活躍的領(lǐng)域。最近，數(shù)據(jù)挖掘技術(shù)業(yè)已將關(guān)聯(lián)規(guī)則挖掘用于分類問(wèn)題，我們將依次討論c b a 、c m a r 和c p a r 算法。基于關(guān)聯(lián)規(guī)則的分類( c l a s s i f i c a t i o nb a s e do na s s o c i a t i o n ，c b a ) 算法采用和 a d r i o r i s 算法類似的候選項(xiàng)產(chǎn)生測(cè)試的方法挖掘所有滿足最小支持度和最小置信度閩值的規(guī)則，然后使用數(shù)據(jù)覆蓋的概念來(lái)選擇一個(gè)規(guī)則集來(lái)建立分類器。c b a 使用形如j ，_ y 的關(guān)聯(lián)規(guī)則，其中z 是一個(gè)屬性值的集合而y 是類標(biāo)號(hào)這樣的 1 1 第二章分類規(guī)則被稱作類規(guī)則( c l a 船a s c i 撕o nr u l 錙，c a r s ) 。由于產(chǎn)生的c a j 塔總數(shù)很大，所以c b a 采用啟發(fā)式的剪枝策略，使用一個(gè)可以覆蓋所有元組的最有效的規(guī)則集來(lái)構(gòu)造分類器。在預(yù)測(cè)未知元組的時(shí)，c b a 在規(guī)則集中從最有效規(guī)則開始的按有效性順序搜索分類規(guī)則，并用第一個(gè)匹配的規(guī)則預(yù)測(cè)未知元組的類標(biāo)號(hào)。 c b a 在u c i 機(jī)器學(xué)習(xí)庫(kù)上的平均分類準(zhǔn)確性比c 4 5 高，并且分類器的構(gòu)造具有線性可伸縮性。 c m a r 算法( c l a s s 語(yǔ)c a t i o nb a s e do nm 1 l l t i p l ea s s o c i a t i o nr u l e s ，c m a r ) 擴(kuò) 展了f p 骶e ，在每個(gè)節(jié)點(diǎn)上添加了類信息，并使用f p g r o w l 算法產(chǎn)生完整的關(guān)聯(lián)規(guī)則集。并把這些規(guī)則存儲(chǔ)在一個(gè)稱作壓縮規(guī)則樹( c o m p r e s s e dr u l e 仃， c r 仃e e l 的數(shù)據(jù)結(jié)構(gòu)上，剪除置信度低的規(guī)則并依據(jù)關(guān)聯(lián)分析和數(shù)據(jù)覆蓋做進(jìn)一步剪枝。預(yù)測(cè)未知元組的類標(biāo)號(hào)時(shí)，和c b a 僅使用一條規(guī)則做判斷的方法不同， c m a r 使用所有匹配的規(guī)則共同預(yù)測(cè)的預(yù)測(cè)未知元組所屬的類。為了解決不同規(guī)則預(yù)測(cè)的類標(biāo)號(hào)不同而造成的沖突，c m a r 為每一個(gè)關(guān)聯(lián)規(guī)則給定一個(gè)權(quán)值。 u c i 機(jī)器學(xué)習(xí)庫(kù)測(cè)試表明，c m a r 算法的分類準(zhǔn)確度優(yōu)于c 4 5 和c b a ，并且 c m a r 比c b a 使用更少的內(nèi)存具有更好的可伸縮性。 c p a r 算、法f 3 8 1 是基于預(yù)測(cè)規(guī)則的分類算法( c l a s s m c a t i o nb 船e do np r e d i c t i v e a s s o c i a t i o nr u l e s ，c p a r ) ，它使用預(yù)測(cè)規(guī)則挖掘算法( p r e d i c t i v em l em i m n g ，p r m ) 產(chǎn)生預(yù)測(cè)規(guī)則。p r m 算法繼承了f o l l 算法的基本思想，c p a r 采用貪婪算法從訓(xùn)練集直接產(chǎn)生預(yù)測(cè)規(guī)則，而不象傳統(tǒng)的基于關(guān)聯(lián)規(guī)則的分類算法那樣需要產(chǎn) 生大量候選規(guī)則。但是和傳統(tǒng)的基于規(guī)則的分類算法相比，c p a r 產(chǎn)生并測(cè)試更多的規(guī)則。這是因?yàn)閜 r m 和f o l l 不同，它在發(fā)現(xiàn)一個(gè)實(shí)例被規(guī)則覆蓋之后并不刪除它，而是降低它的權(quán)重。因此，p r m 算法產(chǎn)生更多規(guī)則并且每個(gè)實(shí)例通常被多個(gè)規(guī)則覆蓋。并且不是僅僅選用最好的一條規(guī)則而是選擇所有接近最好的規(guī)則的策略可以避免丟失重要的規(guī)則。c 隊(duì)r 在預(yù)測(cè)過(guò)程中用預(yù)期準(zhǔn)確度來(lái)度量每一個(gè)規(guī)則的貢獻(xiàn)，使用最好的五個(gè)規(guī)則共同決定未知樣本的所屬類別。測(cè)試結(jié)果顯示，c 隊(duì)r 取得了更好的分類精度和速度。 2 2 7 基于e p 的分類算法 1 9 9 9 年，d o n g 和l i 提出了一種新的知識(shí)模式，即顯露模式【3 9 1 4 0 】( e m e r

人人文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

（計(jì)算機(jī)軟件與理論專業(yè)論文）訓(xùn)練基于ep的分類器算法.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔