翻譯Class imbalance methods for translation initiation site recognition in DNA sequences_第1頁
翻譯Class imbalance methods for translation initiation site recognition in DNA sequences_第2頁
翻譯Class imbalance methods for translation initiation site recognition in DNA sequences_第3頁
翻譯Class imbalance methods for translation initiation site recognition in DNA sequences_第4頁
翻譯Class imbalance methods for translation initiation site recognition in DNA sequences_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、對(duì)于在序列中翻譯初始地點(diǎn)識(shí)別的分類不平衡方法摘要翻譯初始地點(diǎn)()識(shí)別是基因結(jié)構(gòu)預(yù)測(cè)的第一步驟之一,也是任何基因識(shí)別系統(tǒng)的普遍構(gòu)成之一。許多轉(zhuǎn)錄序列在辨別TIS的方法已經(jīng)在文獻(xiàn)中被形容,比如MRNA,EST和cDNA序列。但是TIS和DNA序列的識(shí)別仍是一個(gè)挑戰(zhàn),而且目前為止,在DNA 序列中轉(zhuǎn)錄而描述的方法還沒什么結(jié)果。大多數(shù)方法可以在生物特征上解釋問題。本文中,我們嘗試一個(gè)不同的角度,把這個(gè)分類問題完全看做一個(gè)單純的機(jī)器學(xué)習(xí)。從機(jī)器學(xué)習(xí)的角度來看,TIS識(shí)別是分類不平衡問題。因此,本文中我們從這個(gè)角度接近TIS識(shí)別,并應(yīng)用不同的已經(jīng)被發(fā)展用來解決不平衡數(shù)據(jù)的方法。提出的方法有兩個(gè)優(yōu)點(diǎn)。第一,

2、它提高了用標(biāo)準(zhǔn)分類方法的水平。第二,它拓寬了分類算法可用的集合,如一些分類不平衡方法(比如采樣不足)也被用作放大數(shù)據(jù)挖掘算法,如它們減少數(shù)據(jù)的大小。在種方法,分類器不能應(yīng)用于全體數(shù)據(jù)(因?yàn)殚L訓(xùn)練時(shí)間或者大量的記憶要),可以被用在要使用采樣不足方法時(shí)。結(jié)果顯示一個(gè)分類不平衡方法的優(yōu)勢(shì),【同時(shí)同樣的但沒有考慮分類不平衡的自然問題的方法應(yīng)用】。應(yīng)用方法也可以在文獻(xiàn)中提到的最好的方法下提高結(jié)果的獲得,這基于尋找下一個(gè)來自于推定一定被預(yù)測(cè)的框架內(nèi)的終止密碼子。. 介紹識(shí)別組成以識(shí)別起始密碼子,ATG(在大多數(shù)基因中標(biāo)志轉(zhuǎn)錄的開始)。大多數(shù)之前的方法已經(jīng)致力于在轉(zhuǎn)錄中識(shí)別TIS。但是,在基因組序列中識(shí)別T

3、IS是不同的,而且更困難的工作。全長或部分轉(zhuǎn)錄經(jīng)常包括1或0,而且沒有基因內(nèi)區(qū)。另一方面,在一個(gè)一般的基因組序列中,我們可以找到密碼子,然后一個(gè)可能在任何地方的推定的。在本文中,我們考慮分析基因序列最為不同的問題,它包括廢棄DNA,外顯子,基因內(nèi)區(qū)和非翻譯區(qū)終止區(qū)(URTs)。后者還包括轉(zhuǎn)錄。識(shí)別TIS在轉(zhuǎn)錄和基因組序列中不同的特點(diǎn)被在每一個(gè)問題不同的預(yù)測(cè)表現(xiàn)中闡明。TISMiner1是最好的TIS在轉(zhuǎn)錄中的識(shí)別的項(xiàng)目,在靈敏度為80%時(shí)可以明確的實(shí)現(xiàn)98%。但是,當(dāng)測(cè)試放在基因組序列中時(shí),在同樣靈敏度水平下結(jié)果的實(shí)現(xiàn)降到50%。從生物的觀點(diǎn),在基因序列中的TIS識(shí)別有一些特殊性,這將使得問題

4、比在RNA序列中更為困難2:掃描模型不能被應(yīng)用在基因序列中除非轉(zhuǎn)錄起始點(diǎn)已知,這不是我們要解決的問題;轉(zhuǎn)錄特別的包括0或1TIS,它會(huì)明顯的促進(jìn)識(shí)別;基因組數(shù)據(jù)包括基因內(nèi)區(qū),它破壞編碼結(jié)構(gòu)TIS下游而且真核基因組包括百萬計(jì)的候選TIS,這要求TIS預(yù)測(cè)系統(tǒng)可以被有效的計(jì)算實(shí)現(xiàn)。在基因組序列TIS預(yù)測(cè)中最重要的特征之一是消極的實(shí)例遠(yuǎn)多于積極的實(shí)例。在機(jī)器學(xué)習(xí)理論中,這被稱作分類不平衡問題3,4。大多數(shù)的學(xué)習(xí)算法期望一個(gè)無論怎樣在不同的分類間平衡的分布。已經(jīng)顯示經(jīng)歷歪斜分布的學(xué)習(xí)算法與分類不平衡相聯(lián)系。大多數(shù)TIS識(shí)別沒有考慮從分類不平衡方法中解決這個(gè)問題。但是,問題是可以高度不平衡的。在我們的檢

5、測(cè)數(shù)據(jù)中,我們積極/消極的比例是1:25,1:93和1:123.在低水平的編纂的序列中,比如人類21號(hào)染色體??梢赃_(dá)到1:4912的比例。本文中,我們把TIS識(shí)別當(dāng)做一個(gè)分類不平衡問題。我們檢測(cè)分類不平衡問題是否能對(duì)于那些針對(duì)為從生物角度進(jìn)行TIS識(shí)別而設(shè)計(jì)的方法實(shí)現(xiàn)同樣的表現(xiàn)。該工作還檢測(cè)一些最廣泛使用的分類不平衡方法在一個(gè)困難的現(xiàn)實(shí)問題中的使用情況。因此,這給予這些方法在困難問題的應(yīng)用上一個(gè)有趣的評(píng)價(jià)。本文的組織如下:第二部分概述了分類不平衡問題最重要的方向和我們將使用到的方法;第三部分展示實(shí)驗(yàn)步驟;第四部分展示所得結(jié)果;最后第五部分說明我們工作的結(jié)果和未來的研究路線。. 分類不平衡問題在

6、類的訓(xùn)練實(shí)例中大多數(shù)分類法是不平衡分布這一點(diǎn)已經(jīng)被反復(fù)顯示5?!敬蠖鄶?shù)學(xué)習(xí)算法期待一個(gè)在不同程度上不同類的大概的甚至分配的實(shí)例】。解決分類不平衡問題是很困難的,而且一個(gè)非常相關(guān)的問題,如許多大多數(shù)有著非常不平衡分布的有趣且有挑戰(zhàn)性的的像是問題,比如基因識(shí)別,指令發(fā)覺,網(wǎng)絡(luò)挖掘等。大多數(shù)這類問題表現(xiàn)為兩類數(shù)據(jù)。一類【interesting】,積極的類,在數(shù)據(jù)中沒有被高度表現(xiàn),另一類是有許多實(shí)例的消極類。在高度不平衡問題中,正負(fù) 比例可以達(dá)到1:1000或1:10000。許多算法和方法已經(jīng)打算改善分類不平衡對(duì)學(xué)習(xí)算法表現(xiàn)的影響。主要有三種不同的方法:1(1) 內(nèi)部作用于算法。這個(gè)方法修改學(xué)習(xí)算法來

7、解決不平衡問題。它們可以改編結(jié)果臨界值來創(chuàng)造對(duì)少數(shù)類的偏向或者引入學(xué)習(xí)過程中的損失來補(bǔ)償少數(shù)類。(2) 外部作用于數(shù)據(jù)。這個(gè)算法作用與數(shù)據(jù)而不是學(xué)習(xí)方法。 它的優(yōu)點(diǎn)在于獨(dú)立于分類器的使用。這里用兩個(gè)基本的途徑,過多對(duì)少數(shù)類采樣或過少對(duì)多數(shù)類采樣。(3) 結(jié)合基于推進(jìn)8考慮訓(xùn)練集合不平衡的方法。這個(gè)方法修改基本推進(jìn)方法來解決少數(shù)類在數(shù)據(jù)集中的不被表現(xiàn)。 【sampling against cost sensitive methods】有兩個(gè)主要的優(yōu)勢(shì)。第一,采樣法更加普通因?yàn)樗粫?huì)有改編一個(gè)有著分類損耗的已有算法的可能性。第二,學(xué)習(xí)算法不被修改(修改會(huì)造成許多困難而且要添加額外的參數(shù)來調(diào)整)。數(shù)

8、據(jù)調(diào)動(dòng)算法可以被廣泛的分類兩組。多數(shù)類采樣過少和少數(shù)類采樣過多。也有一些算法結(jié)合兩種處理方法。采樣過少和采樣過多都被隨機(jī)做到,或者一個(gè)更復(fù)雜的的處理搜索最少/最多的游泳有用數(shù)據(jù)。早期的工作已經(jīng)顯示多數(shù)類采樣過少經(jīng)常導(dǎo)向一個(gè)比少數(shù)類采樣過多更好的結(jié)果,至少在過量采樣代替少數(shù)類時(shí)結(jié)果是這樣的。然后少數(shù)類過多采樣和多數(shù)類過少采樣結(jié)合使用沒有多數(shù)類過少采樣結(jié)果好。少數(shù)類采樣過多表現(xiàn)更差的一個(gè)可能的原因是沒有新的信息在訓(xùn)練集里被引入,因?yàn)椴蓸舆^量必須依賴于增加已經(jīng)在數(shù)據(jù)集里的新的少數(shù)類實(shí)例的復(fù)制品。2.1過少采樣和探究過少采樣對(duì)于平衡數(shù)據(jù)集的第一種方法是過少采樣多數(shù)類指導(dǎo)兩類有相同的實(shí)例數(shù)量。我們沒有用

9、過多采樣少數(shù)量因?yàn)榇蠖鄶?shù)前期的功過認(rèn)為過少采樣比過多采樣表現(xiàn)更好。但是,有些工作呈現(xiàn)了相反的發(fā)現(xiàn)11。此外,當(dāng)我們解決非常大的數(shù)據(jù)集時(shí)過多采樣會(huì)讓數(shù)據(jù)集是原來的兩倍。防止一些最有趣的分類器的使用,比如支持向量機(jī)器。隨機(jī)的過少采樣隨機(jī)由來自多數(shù)類的隨機(jī)移除實(shí)例組成(移除直到達(dá)到一個(gè)確定的標(biāo)準(zhǔn))。在大多數(shù)工作中,實(shí)例被移除直到兩類有相同的實(shí)例數(shù)。一些研究比較復(fù)雜的過少采樣和隨機(jī)的過少采樣,沒有成功找到前者的明顯優(yōu)勢(shì)。因此,在這個(gè)問題上我們考慮先隨機(jī)過少采樣。但是隨機(jī)過少采樣會(huì)讓許多可能有用的樣本被忽略。這樣,在多數(shù)/少數(shù)的比例很大時(shí),隨機(jī)過少采樣的表現(xiàn)會(huì)被削弱。而且,當(dāng)少數(shù)類的數(shù)量非常少時(shí),我們還

10、要解決訓(xùn)練數(shù)據(jù)少的問題。Liu.et al.13提出兩個(gè)結(jié)合過少采樣和助推的全體方法來避免這個(gè)問題。這個(gè)方法被叫叫做過少采樣探究過少采樣。兩個(gè)提及的方法被叫做EasyEnsemble(EE)和BalanceCascade(BC)。我們?cè)趯?shí)驗(yàn)兩者后對(duì)這兩種方法有更細(xì)節(jié)的描述。EE由被反復(fù)應(yīng)用的對(duì)于多數(shù)類的不同樣本的標(biāo)準(zhǔn)全體方法ADABOOST14組成。算法1顯示了EE法。EE法背后的想法是從多數(shù)類產(chǎn)生T平衡子問題采樣。EE一個(gè)探索消極實(shí)例集的無監(jiān)督策略,N,沒有應(yīng)用到前期的全體中成員分類表現(xiàn)的信息的一種采樣。另一方面,BC法在監(jiān)督下探索N,從多數(shù)類中移除的實(shí)例已經(jīng)在之前加在總體中的分類器真確的分

11、類過了。BC法如算法2所示:2.2 SMOTE-N過多采樣的一個(gè)問題是它僅僅做了少數(shù)類樣本的拷貝而沒有加入新的數(shù)據(jù)集,而且學(xué)習(xí)方法不能明顯的提高分類的少數(shù)類。為了解決這個(gè)問題,Chawla et al.5提出了一個(gè)方法叫做SMOT,它可以結(jié)合多數(shù)類過少取樣和少數(shù)類過多取樣。但是,代替了少數(shù)類過多取樣只是拷貝了少數(shù)類的樣本,SMOT從少數(shù)類里已有的實(shí)例里形成了綜合實(shí)例。綜合樣本生成如下:考慮特征向量(樣本)間的不同和它的鄰近者。將這些不同隨機(jī)乘上0和1,并把這些考慮的特征向量加起來。這會(huì)造成在沿著線兩個(gè)特征分割隨機(jī)點(diǎn)的選擇。我們可以形成新的樣本,這些樣本分享了更多稠密數(shù)據(jù)集的現(xiàn)實(shí)實(shí)例的主要特點(diǎn)。

12、原始的算法提及了數(shù)值屬性。但是,一個(gè)叫做SMOTE-N的算法也我們問題中的所謂的屬性。形成這個(gè)綜合樣本子集SMOTE-N的程序如算法3所示。SMOTE-N與標(biāo)準(zhǔn)的SMOTE的不同在于使用了VDM的改進(jìn)版本(由Cost和Salzherg15形成),而不是Euclidean距離,如我們的實(shí)例,DNA蘇冽,只用名義上的屬性。2.3 評(píng)估措施精度對(duì)于不平衡數(shù)據(jù)來說不是一個(gè)有用的量度,特別是當(dāng)實(shí)例中的少數(shù)類與多數(shù)類相比非常小的時(shí)候。如果比例為1:100,那么分給所有多數(shù)類實(shí)例的分類器的精度為99%。一些方法6已經(jīng)被發(fā)展用來問題的不平衡屬性。給出true positive(TP), false posit

13、ive(FPP), true negative(TN), 和false negative(FN)的比例,我們可以給出一些方法。大概最常用的方法是true positive() 率,recall(R)或者sinsitivity(Sn):如果我們只對(duì)積極類的表現(xiàn)感興趣的話它將有很大的作用;true negative 率()和specificity(SP):除了這些基本的方法中,其他方法也被提及,比如F法,或者如果我們同時(shí)考慮獻(xiàn)計(jì)和積極類在G平均17上的表現(xiàn):許多有著一些理解值的分類器可以多變的來實(shí)現(xiàn)以上方法的不同值。對(duì)于這種分類器接收者操作特征(ROC)曲線可以被構(gòu)造。一個(gè)ROC曲線,是一種反對(duì)(

14、1-或者)對(duì)二元分類器系統(tǒng)的圖線,它的區(qū)分臨界值是多變的。完美的模型可以實(shí)現(xiàn)TP率為1而FP率為0。一個(gè)隨機(jī)的猜想將被用一個(gè)包括(0,0)和(1,1)的線表示。ROC曲線是一個(gè)評(píng)價(jià)分類器表現(xiàn)的好方法。進(jìn)而,從這個(gè)曲線中,一個(gè)新數(shù)據(jù),曲線下的面積(AUC),可以被獲得。AUC可以建立一個(gè)分類器之間的主導(dǎo)關(guān)系。如果ROC曲線是交叉的,全部的AUC是一個(gè)模型18間的平均比較.在我們的實(shí)驗(yàn)中,我們將使用ROC曲線作為只要的比較工具。數(shù)值方法我們可以選擇從梯形數(shù)值計(jì)算法獲得的AUC值。Saeys et al.2發(fā)展了現(xiàn)行的最好的模型并且比較在使用其他方法得到靈敏性為80%的特異性時(shí)它們的建議。為了可以很

15、好的比較這些方法,我們也將使用靈敏度為80%并且展示一定的特異性的數(shù)據(jù)。 . 驗(yàn)步驟 在解決分類不平衡的不同方法中,我們已經(jīng)在文中選擇了一些成功率最高的方法,如我們?cè)谥暗牟糠炙岬降?。我們用隨機(jī)過少采樣,SMOTE-N,BC和EE。其他的方法嘗試下來會(huì)有較差的結(jié)果。我們必須考慮前兩個(gè)是單獨(dú)的分類器方法,而后兩個(gè)是全體方法。由于它們?cè)黾拥膹?fù)雜性,BC和EE必定會(huì)得到一個(gè)與過少采樣和SMOTE-N向比明顯更好的結(jié)果。我們用C4.5決策樹19,一個(gè)支撐向量機(jī)制(SVM)20和一個(gè)k-nearst鄰居(k-NN)分類器作為基本學(xué)習(xí)者。一些非常有理的學(xué)習(xí)算法將可以被得到。盡管還有許多其他方法可用,這三

16、個(gè)通常來說在大多數(shù)關(guān)于分類的論文中最好的。當(dāng)然也有其它原因。我們使用決策樹因?yàn)樗梢栽跀?shù)值上很快的得到結(jié)果,而且是全體的很好的學(xué)習(xí)者。SVMs被包括,因?yàn)樗鼈兺ǔ碚f是在分類問題中最好的方法,特別對(duì)于分為兩類的問題,而且對(duì)于有許多輸出的問題也很有效。最后k-NN法被用到因?yàn)樗啙嵱行?,而且在其他現(xiàn)實(shí)實(shí)例中得到了很好的結(jié)果,比如計(jì)算機(jī)圖形學(xué)21和其他生物信息學(xué)領(lǐng)域22。我們做實(shí)驗(yàn)用k-重疊-交叉-確認(rèn)法來設(shè)置參數(shù)值,k=10。對(duì)于每一個(gè)用到的分類器,我們得到一組不同的最好參數(shù)。對(duì)于SVMs,我們嘗試一個(gè)的線性核心,和一個(gè)的Gaussian核心,檢驗(yàn)所有的21種可能性。對(duì)于C4.5我們檢驗(yàn)1和10

17、個(gè)實(shí)驗(yàn)并且減輕它們的臨界值一嘗試所有的4個(gè)可能組合。對(duì)于k-NN,k的值用間距為10的重疊-交叉-確認(rèn)法得到。重疊-交叉-確認(rèn)法還被用來設(shè)置如下參數(shù):每次一個(gè)被訓(xùn)練的分類器,訓(xùn)練組被分為k部分。然后每一組的參數(shù)被這k部分標(biāo)準(zhǔn)k-重疊-交叉-確認(rèn)法評(píng)估。這樣,為了評(píng)估每一個(gè)子集的參數(shù),每一個(gè)k部分被用來檢測(cè)參數(shù)表現(xiàn)然后剩下的k-1部分用來訓(xùn)練數(shù)據(jù)。當(dāng)所有的參數(shù)集被評(píng)估后,選出最好的一組然后訓(xùn)練數(shù)據(jù)在所有訓(xùn)練集和參數(shù)集下訓(xùn)練。G平均被用做評(píng)估每一組參數(shù)的方法。所有的評(píng)估都被用來檢驗(yàn)錯(cuò)誤然后得到最好的參數(shù)集如圖1所示(k=10)。原始資料編碼,在C而且在下可同行,為所有的方法和數(shù)據(jù)組所用,在作者的要

18、求下都是可得的。補(bǔ)充使用的圖書館。.數(shù)據(jù)組我們用了三組數(shù)據(jù)組來檢驗(yàn)所述方法的結(jié)果。數(shù)據(jù)組被從一致數(shù)據(jù)庫中編譯。工程是一個(gè)被精確的注釋的對(duì)于編譯和辨別人類基因核的相關(guān)的成就。注釋是手動(dòng)和自動(dòng)的結(jié)合注釋。包括個(gè)消極樣本和個(gè)積極樣本,積極/消極是1:25。Ustilago數(shù)據(jù)集是一組編碼和未編碼的來自真菌Ustilago maydis(U)排序的基因序列標(biāo)識(shí)符。序列首先在Broad Institution得到,然后通過給蛋白質(zhì)序列的Munich 信息中心(MIPS)完善。Ustilago數(shù)據(jù)組包括607696個(gè)消極樣本和6515個(gè)積極樣本,其比為1:93。Arabidopsis (A)數(shù)據(jù)集包含植物

19、Arabidopsis thaliana編碼和未編碼的標(biāo)識(shí)符從“Arabidopsis信息資源”(TAIR)獲得。這個(gè)數(shù)據(jù)集包括27342個(gè)積極實(shí)例和3369875個(gè)消極實(shí)例,不平衡比例為1:123。 為了估計(jì)實(shí)驗(yàn)的錯(cuò)誤,我們使用k-重疊-交叉-確認(rèn)法。在這個(gè)方法中,可得的數(shù)據(jù)被分為k個(gè)大致相等的子集。然后,方法被學(xué)習(xí)k次,k子集中的數(shù)據(jù)輪流使用作為檢驗(yàn)組,剩下的k-1個(gè)子集作為訓(xùn)練組。估計(jì)的錯(cuò)誤是k個(gè)子集的平均檢驗(yàn)錯(cuò)誤。我們是一個(gè)標(biāo)準(zhǔn)值k,k=10。 我們的目標(biāo)是在不同的數(shù)據(jù)集下檢驗(yàn)提出的方法來研究問題更困難是不是取決于生物體。因此,我們用三種完全不同物種的數(shù)據(jù)集。CCDS數(shù)據(jù)集包括人類DN

20、A,因此它有很長的基因,有許多外顯子和潛在的基因內(nèi)區(qū)。另一方面,U的數(shù)據(jù)集包括更短的基因,有很少的外顯子,通常只有1-2個(gè),或者少而且短的基因內(nèi)區(qū)。A的復(fù)雜性來在兩者之間。在這樣的數(shù)據(jù)集下,我們可以學(xué)習(xí)在不同環(huán)境下提出的方法的行為。 對(duì)所有的數(shù)據(jù)集,我們考慮一個(gè)有著每個(gè)ATG密碼子上下游都有500bps的序列。分類器可以解決所謂的屬性,C4.5和k-NN,我們使用原始的序列。對(duì)于那些需要數(shù)值屬性的分類器,SVMs,我們用1/4編纂,序列上每一個(gè)元素總共有4012輸出。對(duì)于k-NN分類器,我們用海明距離,然后為每一個(gè)相鄰值的選票已經(jīng)賦有權(quán)重。這樣,對(duì)于一個(gè)已給的疑問實(shí)例x,第i個(gè)鄰近值的選票,得

21、到權(quán)重,根據(jù):. 實(shí)驗(yàn)結(jié)果在第一步,我們想要建立過少采樣的實(shí)用性。圖2-4分別展示了C4.5,k-NN和SVM分類器對(duì)于所有數(shù)據(jù)集的ROC曲線。這些曲線展示出一個(gè)在使用所有數(shù)據(jù)集的分類方法和相同分類器使用隨機(jī)過少采樣之間的比較。ROC曲線展示了標(biāo)準(zhǔn)分類器方法在面對(duì)分類不平衡數(shù)據(jù)時(shí)的問題。對(duì)于U的數(shù)據(jù)集,C4.5不能在兩類里面分類所有的實(shí)例得到有用的數(shù)值依賴于使用的臨界值。對(duì)于CCDS,C4.5得到了更好的結(jié)果,盡管和我們將要展示的其他方法相比沒有競爭力。對(duì)于A,結(jié)果比U的更好,但是反對(duì)采樣過少的話可以得到一個(gè)很大的提高。采樣過少在U和A上對(duì)于提高結(jié)果又很大的幫助。CDDS的也更好,但是區(qū)別分有

22、那么明顯,但比沒有過少采樣的C4.5有更好的表現(xiàn)。k-NN的ROC的曲線展示更明顯的區(qū)別。過少采用堅(jiān)實(shí)的提高了k-NN的表現(xiàn)。對(duì)于CDDS,不同是很明顯的,得到了更高的靈敏性。對(duì)于U,表現(xiàn)就更好了。過少采樣讓k-NN從一個(gè)很一般的水平變成對(duì)這些數(shù)據(jù)集來說表現(xiàn)最好的算法之一。對(duì)于A的觀察也是這樣,有一個(gè)很顯著的提高。對(duì)于SVM,對(duì)所有實(shí)例SVM下的表更好,但是過少采樣仍對(duì)它有一個(gè)顯著的提高,特別是對(duì)于CCDS和A。SVM的表現(xiàn)在U上也很顯著,幾乎與AUC下的過少采樣相一致。我們的第二步是比較過少采樣和之前描述的更復(fù)雜的方法SMOTE-N的表現(xiàn)。我們想要檢驗(yàn)增加SMOTE-N的復(fù)雜性是否會(huì)提高表現(xiàn)

23、。 圖5-7比較了用過少采樣和SMOTE-N對(duì)所有分類器的結(jié)果。用C4.5和SVM的表現(xiàn)是一樣的。這兩個(gè)分類器的結(jié)果在過少采樣和SMOTE-N下沒有多大不同,都有更好的表現(xiàn)在每一個(gè)依賴于數(shù)據(jù)集和分類器的方法上。對(duì)于k-NN,結(jié)果有些不同,SMOTE-N總是比過少采樣結(jié)果差,盡管差別不大。因此得到一個(gè)一般的規(guī)律,SMOTE-N不能提高標(biāo)準(zhǔn)過少采樣的結(jié)果。這并不意味著SMOTE-N沒有用,盡管我們可以得出結(jié)論數(shù)值屬性的版本不是很有效。4.1全體方法我們實(shí)驗(yàn)的下一步致力于全體法。在之前的實(shí)驗(yàn)中我們已經(jīng)展示了過少采樣和SMOTE-N在提高分類器表現(xiàn)的效果。在這一部分,我們展示兩個(gè)如上應(yīng)用全體方法的結(jié)果

24、。參數(shù)的選取跟從作者13的建議。為了簡化和平衡落下的全體,我們構(gòu)造4ADABOOST全體,T=4,十個(gè)分類器。這兩個(gè)方法應(yīng)用C4.5和SVM作為基本學(xué)習(xí)者。K-NN沒有什么用,如顯示的那樣這個(gè)分類器不想一個(gè)全體成員那樣有效。圖8展示了簡化和平衡下落的全體的ROC曲線。我們包括了C4.5和SVM在最好分類不平衡方法,過少采樣或SMOTE-N,對(duì)每一個(gè)數(shù)據(jù)集的表現(xiàn)圖線作為比較。對(duì)于C4.5,兩個(gè)方法的表現(xiàn)對(duì)于這三個(gè)數(shù)據(jù)集來說非常相近。我們可以看到,這些全體方法的表現(xiàn)明顯的比C4.5在過少采樣或SMOTE-N下像的平衡數(shù)據(jù)一樣使用時(shí)的結(jié)果要好。但是,也必須考慮到它們的復(fù)雜性更高,因?yàn)檫@些全體是由40

25、個(gè)分類器組成的。我們?cè)囍鴶U(kuò)大全體,但是增加分類器不能明顯的提高表現(xiàn)。事實(shí)上25,全體的表現(xiàn)在一開始的幾個(gè)分類器被訓(xùn)練之后就不會(huì)改變了即使我們?cè)黾恿烁嗟姆诸惼?。?duì)于SVM,結(jié)果是的EE比BC好好。但是兩個(gè)全體法都比過少采樣或SMOTE-N明顯的要差。已經(jīng)顯示SVMs作為全體的成員并不像決策樹表現(xiàn)的那么好26。我們的結(jié)果證實(shí)了這個(gè)事實(shí)。4.2 與state-of-the-art方法的比較一旦我們建立了過少采樣和SMOTE-N的功能,我們還想比較這些方法是否能提高目前為止表現(xiàn)最好的終止密碼子法2的結(jié)果。這個(gè)方法考慮終止密碼子頻率TIS的下游。這個(gè)方法的基本原理如下:TIS被它們表現(xiàn)起始外顯子描繪,

26、所以我們知道起始外顯子的讀取框架。總的來說起始外顯子有最小的長度,而且這將是在TIS下游最小的序列,不包含一個(gè)框架內(nèi)的終止密碼子。另一方面假冒的TIS不會(huì)有這個(gè),因此,一個(gè)框架內(nèi)的終止密碼子可以被用來區(qū)分真假TIS。一個(gè)簡單的預(yù)測(cè)可以被構(gòu)造,考慮跟著一個(gè)有著框架內(nèi)終止密碼子假定TIS的區(qū)域??蚣軆?nèi)終止密碼子越早在這個(gè)區(qū)域出現(xiàn),這個(gè)推定的TIS越不可能是真正的TIS。為了得到一個(gè)簡單的在的構(gòu)造觀察外的分類器的得分方程,Saeys et al.計(jì)算(積累)了對(duì)于訓(xùn)練集積極例子觀察到一個(gè)框架內(nèi)終止密碼子的可能性。結(jié)果顯示,在兩個(gè)數(shù)據(jù)集框架內(nèi)終止密碼子積累區(qū)分由很大的不同。然后,對(duì)于每一個(gè)實(shí)驗(yàn)例子,方

27、法掃描了序列的下游部直到找到一個(gè)框架內(nèi)的終止密碼子。對(duì)這個(gè)首先出現(xiàn)的一個(gè)框架內(nèi)的終止密碼子,方位x被記錄,然后模型檢查來找到在x處有一個(gè)第一框架內(nèi)終止密碼子跟隨者一個(gè)真的TIS的可能性。這個(gè)最后的比較現(xiàn)實(shí)提出的方法和基于將終止密碼子頻率作為底線的方法的結(jié)果的比較。我們還想檢驗(yàn)終止密碼子方法的原理是否適用于和人類基因組不同的U和A。圖9-11展示了底線終止密碼子法和表現(xiàn)最好的方法在每個(gè)分類器上的比較。我們用拉領(lǐng)個(gè)數(shù)值進(jìn)行比較。首先,我們考慮檢驗(yàn)錯(cuò)誤。為了比較這兩個(gè)不同的方法,我們?cè)O(shè)置靈敏性為80%并且測(cè)量在這個(gè)靈敏性水平下的特征。我們選擇合個(gè)靈敏性水平因?yàn)檫@也是saeys et al2使用的。圖

28、12展示了對(duì)于所有方法特征的一組圖線和數(shù)值。作為第二種方法,我們使用ROC曲線的AUC展示如上。如之前描述的,AUC是一個(gè)比較不同算法全部行為的不錯(cuò)的數(shù)值。AUC的數(shù)值和一組圖線結(jié)果如圖13所示。第一個(gè)有趣的結(jié)果是終止密碼子方法對(duì)于U和A數(shù)據(jù)集表現(xiàn)很好,這種方法也的到CCDS的很好的結(jié)果。兩個(gè)值都有相同的表現(xiàn)。我們看到終止密碼子法是在這些結(jié)果中如果我們考慮它是一個(gè)很簡單的方法的話最成功的一個(gè)。這些值也證明在沒有不平衡分類法下的分類器應(yīng)用表現(xiàn)不好。另一方面,使用即使是最簡單的采樣過少也能很顯著的提高表現(xiàn)。事實(shí)上,采樣過少的SVM或者SMOTE-N可以在三個(gè)數(shù)據(jù)集的AUC數(shù)值上打敗終止密碼子法。K-NN在采樣過少或者SMOTE-N下在U數(shù)據(jù)集上打敗終止密碼子法。盡管采樣過少也對(duì)C4.5分類器有用,在沒有采樣過少下C4.5糟糕的結(jié)果令C4.5和采樣過少或SMOTE-N不那么有用(即使有所提高)。當(dāng)我們使用決策樹作為基本學(xué)習(xí)者時(shí),全體法對(duì)提高基本分類器的表現(xiàn)可別有用。簡單和平衡的額疊層全體,于CCDS和U數(shù)據(jù)集的終止密碼子相聯(lián)系,都能得到很好的表現(xiàn),而且很明顯的比他們的基本分類器C4.5的表現(xiàn)要好。為了比較AUC的使用,我們還表現(xiàn)了一個(gè)統(tǒng)計(jì)學(xué)的檢測(cè)來確定是否觀察到的不同在統(tǒng)計(jì)學(xué)上有意義。由于我們對(duì)比在同樣的問題上使用10-重疊-交叉-確認(rèn)法的不同結(jié)果,我們選擇修正的重新取樣t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論