隨機(jī)森林分類性能比較_第1頁
隨機(jī)森林分類性能比較_第2頁
隨機(jī)森林分類性能比較_第3頁
隨機(jī)森林分類性能比較_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

隨機(jī)森林分類性能比較

0randomsof概述分類是研究領(lǐng)域最重要的問題之一。作為解決問題的工具,分類器一直是研究的重點(diǎn)。常用的分類器有決策樹、邏輯回歸、貝葉斯、神經(jīng)網(wǎng)絡(luò)等,這些分類器都有各自的性能特點(diǎn)。本文研究的隨機(jī)森林(RandomForests,RF)是由Breiman提出的一種基于CART決策樹的組合分類器。其優(yōu)越的性能使其在國外的生物、醫(yī)學(xué)、經(jīng)濟(jì)、管理等眾多領(lǐng)域到了廣泛的應(yīng)用,而國內(nèi)對其的研究和應(yīng)用還比較少。為了使國內(nèi)學(xué)者對該方法有一個(gè)更深入的了解,本文將其與分類性能優(yōu)越的支持向量機(jī)(SupportVectorMachine,SVM)進(jìn)行數(shù)據(jù)實(shí)驗(yàn)比較,客觀地展示其分類性能。本文選取了UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的20個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),通過大量的數(shù)據(jù)實(shí)驗(yàn),從泛化能力、噪聲魯棒性和不平衡分類三個(gè)主要方面進(jìn)行比較,為研究者選擇和使用分類器提供有價(jià)值的參考。1分類器的配置1.1ntear東南角的生長與分化隨機(jī)森林作為一種組合分類器,其算法由以下三步實(shí)現(xiàn):1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的大小約為原始數(shù)據(jù)集的三分之二。2.為每一個(gè)bootstrap訓(xùn)練集分別建立分類回歸樹(ClassificationandRegressionTree,CART),共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”,這些決策樹均不進(jìn)行剪枝(unpruned)。在每棵樹生長過程中,并不是選擇全部M個(gè)屬性中的最優(yōu)屬性作為內(nèi)部節(jié)點(diǎn)進(jìn)行分支(split),而是從隨機(jī)選擇的mtry≤M個(gè)屬性中選擇最優(yōu)屬性進(jìn)行分支。3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票(voting)的方式?jīng)Q定新樣本的類別。隨機(jī)森林在訓(xùn)練過程中的每次bootstrap抽樣,將有約三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外(out-ofbag)數(shù)據(jù)。隨機(jī)森林利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì),產(chǎn)生OOB誤差(out-of-bagerror)。Breiman通過實(shí)驗(yàn)證明,OOB誤差是無偏估計(jì),近似于交叉驗(yàn)證得到的誤差。隨機(jī)森林分類器利用基于Breiman隨機(jī)森林理論的R語言軟件包randomForest4.6-6來實(shí)現(xiàn)。需要設(shè)置三個(gè)主要的參數(shù):森林中決策樹的數(shù)量(ntree)、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇屬性的個(gè)數(shù)(mtry)及終節(jié)點(diǎn)的最小樣本數(shù)(nodesize)。1.2支持向量機(jī)設(shè)計(jì)支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,已在眾多領(lǐng)域得到了廣泛的應(yīng)用。支持向量機(jī)最初是為了求解二分類問題而誕生的,其基本思想可以表述如下。目標(biāo)是尋找一個(gè)最優(yōu)分類超平面(separatinghyperplane),使兩類間相鄰最近的樣本點(diǎn)之間的邊緣(margin)最大化。在最大化邊緣邊界上的樣本點(diǎn)被稱為支持向量(supportvectors),邊緣的中間切面為最優(yōu)分類超平面。被邊緣誤分的點(diǎn),其權(quán)重將被降低,以減少其影響。當(dāng)數(shù)據(jù)線性不可分時(shí),通過核函數(shù)將數(shù)據(jù)點(diǎn)映射到高維空間,使其線性可分。尋找超平面的過程可以轉(zhuǎn)化為求解一個(gè)二次規(guī)劃問題。支持向量機(jī)分類器采用R語言軟件包e10711.6實(shí)現(xiàn),該軟件包是以臺灣大學(xué)林智仁教授的libsvm源代碼為基礎(chǔ)開發(fā)的。libsvm包含了四種主要的核函數(shù):線性核函數(shù)(Linear)、多項(xiàng)式核函數(shù)(Polynomial)、徑向基核函數(shù)(RadialBasisFunction,RBF)以及Sigmoid核函數(shù)。本文采用徑向基核函數(shù),原因有四方面:(1)線性核函數(shù)只能處理線性關(guān)系,且被證明是徑向基核函數(shù)的一個(gè)特例;(2)Sigmoid核函數(shù)在某些參數(shù)上近似徑向基核函數(shù)的功能,徑向基核函數(shù)取一定參數(shù)也可得到Sigmoid核函數(shù)的性能;(3)多項(xiàng)式核函數(shù)參數(shù)較多,不易于參數(shù)優(yōu)選;(4)本文實(shí)驗(yàn)數(shù)據(jù)均非高維數(shù)據(jù),徑向基核函數(shù)可以適用。徑向基核函數(shù)支持向量機(jī)包含兩個(gè)重要的參數(shù):懲罰參數(shù)Cost和核參數(shù)Gamma。此外,libsvm可用于多分類問題,采用的是“一對一”(one-against-one)的策略,即每兩類建立一個(gè)支持向量機(jī)分類器,共建立k(k-1)/2個(gè)分類器,k為類別數(shù),最后采用投票的方式?jīng)Q定新樣本的類別。2隨機(jī)森林參數(shù)優(yōu)選實(shí)驗(yàn)將從三個(gè)主要方面比較兩個(gè)分類器的性能:泛化能力、噪聲魯棒性和不平衡分類。選取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的20個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)集信息見表1,編號1到10的數(shù)據(jù)集為二分類,11到20為多分類。為了更好地比較,對兩個(gè)分類器均進(jìn)行參數(shù)優(yōu)選。隨機(jī)森林參數(shù)優(yōu)選過程分兩步:(1)在整個(gè)訓(xùn)練集上訓(xùn)練,根據(jù)OOB誤差選擇ntree和nodesize,選擇標(biāo)準(zhǔn)是使總誤差或目標(biāo)類別誤差降到足夠低且穩(wěn)定;(2)采用訓(xùn)練集十折交叉驗(yàn)證(Cross-validation)對參數(shù)mtry進(jìn)行遍歷確定最優(yōu)值,參數(shù)選擇標(biāo)準(zhǔn)可根據(jù)實(shí)際問題確定,最低誤差或最大AUC(AreaunderROCCurve)。支持向量機(jī)采用訓(xùn)練集十折交叉驗(yàn)證對參數(shù)Cost和Gamma進(jìn)行網(wǎng)格尋優(yōu)(Grid-search)確定最優(yōu)值,參數(shù)選擇標(biāo)準(zhǔn)同上。兩個(gè)分類器在每個(gè)數(shù)據(jù)集上均進(jìn)行10次參數(shù)優(yōu)選。為了判斷兩個(gè)分類器是否有顯著差異,引入了非參數(shù)置換檢驗(yàn)(PermutationTest)進(jìn)行統(tǒng)計(jì)比較,顯著性水平設(shè)置為0.05。全部實(shí)驗(yàn)均在R2.14.1軟件平臺上完成。2.1關(guān)于隨機(jī)森林與測試集交叉驗(yàn)證誤差的比較采用泛化誤差作為泛化能力的評價(jià)標(biāo)準(zhǔn)。先在訓(xùn)練集上確定最優(yōu)參數(shù),然后在整個(gè)訓(xùn)練集上訓(xùn)練模型,最后利用測試集計(jì)算泛化誤差,該過程迭代10次??紤]到對數(shù)據(jù)進(jìn)行預(yù)處理可能影響分類器的性能,分別在預(yù)處理前后的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)。預(yù)處理的方法主要為異常值歸約、0-1歸一化等。實(shí)驗(yàn)結(jié)果見表2和表3,表2為二分類數(shù)據(jù)實(shí)驗(yàn)結(jié)果,表3為多分類。表中給出的誤差值為10次迭代的平均值,粗體的數(shù)值為各分類器的最優(yōu)值,“前”和“后”表示數(shù)據(jù)預(yù)處理前后,名義勝者是比較兩分類器最優(yōu)值得出的結(jié)果。從表2和表3可以得到以下信息:(1)數(shù)據(jù)預(yù)處理的影響。兩種分類器的訓(xùn)練集交叉驗(yàn)證誤差在預(yù)處理前后的差異都不大,而從測試集預(yù)測誤差在預(yù)處理前后的結(jié)果可以看出兩者的明顯差異。數(shù)據(jù)預(yù)處理對隨機(jī)森林基本沒有影響,而對支持向量機(jī)影響較大,數(shù)據(jù)預(yù)處理使支持向量機(jī)在二分類數(shù)據(jù)上的泛化誤差平均降低27.3%,多分類平均降低29.1%。因此,在使用隨機(jī)森林時(shí),可以不對數(shù)據(jù)進(jìn)行預(yù)處理,而在使用支持向量機(jī)時(shí),有必要進(jìn)行數(shù)據(jù)的預(yù)處理。(2)二分類泛化誤差比較。從表2訓(xùn)練集交叉驗(yàn)證誤差這欄可以看出,支持向量機(jī)在5個(gè)數(shù)據(jù)集上顯著優(yōu)于隨機(jī)森林,而隨機(jī)森林沒有在任何一個(gè)數(shù)據(jù)集上顯著優(yōu)于支持向量機(jī)。對10個(gè)數(shù)據(jù)集訓(xùn)練集交叉驗(yàn)證誤差進(jìn)行置換檢驗(yàn),得到的P值為0.135,未達(dá)到設(shè)定的顯著性水平0.05,認(rèn)為兩個(gè)分類器在訓(xùn)練集上的泛化誤差不存在顯著差異。重點(diǎn)考慮測試集預(yù)測誤差這一欄,隨機(jī)森林在4個(gè)數(shù)據(jù)上顯著優(yōu)于支持向量機(jī),支持向量機(jī)只在2個(gè)數(shù)據(jù)集上顯著優(yōu)于隨機(jī)森林。由10個(gè)數(shù)據(jù)集測試集預(yù)測誤差的置換檢驗(yàn)得到的P值為0.459,從而認(rèn)為在二分類問題上兩種分類器的泛化能力不存在顯著差異。(3)多分類泛化誤差比較。分析同上,在訓(xùn)練集交叉驗(yàn)證誤差的比較上,二者沒有顯著差異,但在測試集預(yù)測誤差的比較上,隨機(jī)森林顯著優(yōu)于支持向量機(jī)。因此,認(rèn)為隨機(jī)森林泛化能力在多分類問題上優(yōu)于支持向量機(jī)。2.2實(shí)驗(yàn)結(jié)果與分析數(shù)據(jù)噪聲包括屬性噪聲和類別噪聲,本文主要從分類器對類別噪聲的魯棒性來進(jìn)行比較。從20個(gè)數(shù)據(jù)集中選取了10個(gè)數(shù)據(jù)集的訓(xùn)練集,二分類和多分類數(shù)據(jù)各5個(gè),兩種分類器根據(jù)表2和表3的訓(xùn)練集交叉驗(yàn)證誤差最優(yōu)值,確定是否采用預(yù)處理后數(shù)據(jù)。隨機(jī)抽取每個(gè)訓(xùn)練集5%的樣本,打亂其類別,人為制造類別噪聲。在含噪聲的數(shù)據(jù)上進(jìn)行十折交叉驗(yàn)證,得到的交叉驗(yàn)證誤差與表2和表3的訓(xùn)練集交叉驗(yàn)證誤差最優(yōu)值進(jìn)行比較,計(jì)算交叉驗(yàn)證誤差的增加值,該過程迭代10次。實(shí)驗(yàn)結(jié)果見表4,表中誤差值為10次迭代的平均值,名義勝者為誤差增加較小的分類器。由表4可得,噪聲使兩種分類器的交叉驗(yàn)證誤差均提高了。隨機(jī)森林在3個(gè)數(shù)據(jù)集上的誤差增加值顯著低于支持向量機(jī),支持向量機(jī)在1個(gè)數(shù)據(jù)集上的誤差增加值顯著低于隨機(jī)森林,二者在其他數(shù)據(jù)集上均沒有顯著差異。10個(gè)數(shù)據(jù)集的置換檢驗(yàn)得到的P值為0.1641,沒有達(dá)到要求的顯著性水平,因而兩種分類器在噪聲魯棒性方面是沒有顯著差異的。2.3分類器性能比較不平衡數(shù)據(jù)是指數(shù)據(jù)中某一類的樣本數(shù)目明顯少于其他類樣本的數(shù)目。本文選取10個(gè)二分類數(shù)據(jù)的作為實(shí)驗(yàn)數(shù)據(jù),以不平衡度(小類樣本數(shù):大類樣本數(shù))小于0.5來界定不平衡數(shù)據(jù),對于不平衡度大于0.5的原始數(shù)據(jù)集,通過隨機(jī)刪減小類樣本以達(dá)到理想的不平衡度。以實(shí)驗(yàn)數(shù)據(jù)集上的十折交叉驗(yàn)證AUC值來比較分類器性能,相應(yīng)參數(shù)尋優(yōu)也以最大AUC值為目標(biāo),每個(gè)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行10次迭代。實(shí)驗(yàn)結(jié)果見表5,表中AUC值為10次迭代的平均值,名義勝者為能得到較大AUC值的分類器。從表5的實(shí)驗(yàn)結(jié)果可以明顯地看出,隨機(jī)森林在不平衡分類性能上顯著遜色于支持向量機(jī)。本實(shí)驗(yàn)是在未設(shè)置類權(quán)重的情況進(jìn)行的,我國學(xué)者李建更等對加權(quán)隨機(jī)森林(WeightedRandomForest,WRF)進(jìn)行了實(shí)驗(yàn)研究,結(jié)果表明對不平衡數(shù)據(jù)進(jìn)行權(quán)重設(shè)置在大多數(shù)情況下能取得優(yōu)于普通隨機(jī)森林的結(jié)果,其在研究中還就權(quán)重的設(shè)置提出幾點(diǎn)很有價(jià)值的規(guī)律,詳見文獻(xiàn)。此外,還可以通過數(shù)據(jù)層面的處理來提高分類器的性能,常用的技術(shù)有欠抽樣(undersampling)、過抽樣(oversamp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論