版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、細菌特征分析的革蘭氏陰陽性判別算法;要:自然界中細菌無處不在,細菌的革蘭/0性和陰性的有效分類對于臨床治療具有重要意義.現(xiàn)有的細菌的革蘭/陰0 性分類主要依賴于革蘭/染色法.這種方法借助細菌細胞壁結(jié)構(gòu)的不同引起的染色性的差異來進行分類,然而涂片的厚薄和脫 色時間的掌握制約著革蘭/染色法的準確性,并且實驗需要花費一定時間.本文提出一種用計算機智能分析的細菌革蘭/陰0 性判別方法一基于蛋白質(zhì)序列特征分析的細菌革蘭/陰0性判別算法GCBPS.該算法首先挖掘出閉合鄰接序列模式 (!%或&)集合并對大量已知陰0性的細菌蛋白質(zhì)序列特征進行提取,然后先利用賦參的余弦相似度距離計算方法來衡量待測 細菌蛋白質(zhì)序
2、列與0性細菌特征集之間的距離來初步判別是否為0性,再通過去假陰性等處理后得到最終的細菌革蘭/陰0 性判別結(jié)果.該算法已在標注的1591條革蘭/陰性菌以及576條革蘭0性菌的標準數(shù)據(jù)集上進行評估,實驗結(jié)果表明,判別的 平均正確率F1值可達到95.4%.關(guān)鍵詞:革蘭氏陰陽性判別;蛋白質(zhì)序列分析;閉合序列模式Gram-negative and Gram-positive Discriminating Algorithm for Bacterial Characteristic AnalysisAbstract: Bacteria are ubiquitous in nature, and effec
3、tive classification of Gram -positive and Gram -negative bacteria is important for clinical treatment. Gram legative and Gram-positive classification of existing bacteria mainly relies on Gram staining. This method uses the differences in staining caused by the structure of the bacterial cell wall t
4、o classify. However,the thickness of the smear and the grasp of the decolorization time limit the accuracy of the Gram staining method,and the experiment takes some time. This paper presents a method for distinguishing gram legative and gram-positive bacteria by computer intelligence analysis-GCBPS
5、, a gram legative and g ram-positive discrimination algorithm for bacteria based on protein sequence feature analysis. The algorithm first mines a closed adjacency sequence pattern( !CioConSP) set and extracts a large number of known Gramlegative and Gram -positive bacterial protein se quence featur
6、es. Then it uses the cosine similarity distance calculation method with parameters to measure the distance between the bacterial protein sequence and the Gram-positive bacteria feature set to determine whether it is Gram-positive, and then remove the false Gramlegative treatment to obtain the final
7、bacteria Gramlegative and Gram-positive Judgment result. The algorithm has been e valuated on a standard data set of labeled 1591 g ram-neg ative bacteria and 576 g ram-positive bacteria. The ex perimental results show that the average accuracy rate of discrimination F1 can reach 95.4% .Key words: G
8、ram legative and Gram-positive classification; protein sequence analysis; closed sequential pattern1引言自然界存在多種多樣的病菌,如何有效地將人類新發(fā)現(xiàn) 的細菌快速加以鑒別、分類,以便選擇有效藥物進行治療,在 生物醫(yī)學領(lǐng)域具有重要意義.革蘭氏染色法用于鑒別細 ;E,可以把眾多的細菌分為兩大類,革蘭氏陽性菌和革蘭 氏陰性菌大多數(shù)化膿性球菌屬于革蘭氏陽性菌,它們能 產(chǎn)生外毒素使人致病,而大多數(shù)腸道菌屬于革蘭氏陰性菌,它 們產(chǎn)生內(nèi)毒素,靠內(nèi)毒素使人致病.在治療上,大多數(shù)革蘭氏 陽性菌都對青霉素敏感,而
9、革蘭氏陰性菌則對青霉素不敏感, 卻對鏈霉素、氯霉素等敏感.所以區(qū)分出病原菌是革蘭氏陽性 菌還是陰性;,在選擇抗生素方面意義重大.目前細菌分類方法主要是革蘭氏染色法.然而,染色時會 發(fā)現(xiàn)某些革蘭氏陽性菌褪色,某些革蘭氏陰性菌會由于菌齡 或培養(yǎng)基的不同而產(chǎn)生黑色的染色粒,同時染色程序較為復 雜,由于細胞培養(yǎng)時間過長可能導致部分細胞發(fā)生死亡或自 溶,從而導致染色結(jié)果為假陰性.革蘭氏染色法借助細菌不同 的細胞壁結(jié)構(gòu)引起的染色性差異來進行分類,但是涂片的厚 薄和脫色時間的掌握制約著該方法的準確性,這已成為未知 細菌的準確和快速分類的瓶頸.隨著第3代測序技術(shù)和質(zhì)譜 技術(shù)的成熟,大家已能夠很方便和快速地獲得
10、細菌的蛋白質(zhì) 序列.因此,本文開創(chuàng)性地研究了利用計算機對細菌的蛋白質(zhì) 序列進行特征分析和提取來進行細菌的革蘭氏陰陽性判別的 算法,經(jīng)實驗證明效果良好.本文主要完成以下3項工作:1)提出利用細菌蛋白質(zhì)序列進行細菌的革蘭氏陰陽性 判別算法GCBPS算法;2)用實驗驗證選用閉合鄰接序列模式(Fcwcmp)的GCBPS 算法進行細菌革蘭氏陰陽性判別的準確性以及可行性;3) 用替代GCBPS算法中的Con&P 后生成GCBPS- 算法,比較GCBPS和GCBPS-的準確性,以及Fc*g 相比Fc$%&的精簡性,驗證GCBPS算法的優(yōu)化性.2相關(guān)工作目前對細菌的分類方法主要有以下幾種,其中由丹麥醫(yī) 生革蘭
11、于1884年發(fā)明的革蘭氏染色法為主要的鑒別染色 法E .革蘭氏染色法根據(jù)細菌;內(nèi)含有特殊的核蛋白質(zhì)鎂鹽 與多糖的復合物與燃料的吸附性進行分類,但是,該方法結(jié)果 容易受許多因素的影響,比如菌齡和乙醇脫色時間對染色結(jié) 果的影響.針對革蘭氏染色法操作復雜以及容易脫色的缺點, 有一些可克服上述缺點的輔助方法,如氨肽酶法、Z橙染色 法.此外還有利用氫氧化鉀溶液對細菌進行分類a3b,此類輔 助方法相比革蘭氏染色法而言操作更加簡便,時間較快.此 外,基于聲光可調(diào)濾光片(AOTF)的高光譜顯微鏡成像 (HMI)方法具有從細胞水平上快速鑒定微菌落中食源性致 病細菌的潛力,文獻4利用高光譜顯微鏡成像方法對革蘭 氏
12、陽性和革蘭氏陰性食源性致病菌進行分類以及文獻5利 用利用拉曼光譜法對革蘭氏陰陽性細胞結(jié)構(gòu)所接受的拉曼散 射強度不同來進行細菌對革蘭氏陰陽性判別.鑒于序列特征 研究的廣泛應用回,為了更快速、方便地實現(xiàn)細菌的革蘭氏 陰陽性判別,本文研究對細菌的蛋白質(zhì)序列進行智能分析來 判別其革蘭氏陰陽性的算法.近年來,利用序列來分類在很多領(lǐng)域應用頗多,尤其在基 因組研究中引起了廣泛的關(guān)注78,比如,利用樸素貝葉斯對 rRNA序列進行分類;歸到Bergey的原核生物分類大綱. 在一條生物序列中,每一項(核酸或氨基酸)都有著不同的關(guān) 系,并不同以往的頻繁項集與關(guān)聯(lián)規(guī)則中的項出現(xiàn)的順 序項,這種序列分析工作又被稱為序列
13、模式挖掘,主要研究 如何有效地發(fā)現(xiàn)序列中能代表核心特征的一般序列模式 (General Sequential Pattern)或精簡序列模式(Compact Sequential Pattern) 11,12.由于,精簡序列模式可以產(chǎn)生相對少量 但分類效果、信息承載能力與一般序列模式相當?shù)男蛄心?式13,14.所以本文采用精簡序列模式來分析蛋白質(zhì)序列.在精簡序列模式分析下?本文提出 了基于蛋白質(zhì)序列特 征分析的細菌革蘭氏陰陽性判別算法(Gram Classification algorithm for Bacteria based on Protein Sequences,GCBPS),從而
14、實現(xiàn)對蛋白質(zhì)序列進行精簡序列模式的挖掘和特征的提取以 及對革蘭氏陰陽性的判別.此算法僅需對細菌的蛋白質(zhì)序列 進行計算機軟件處理,無需再進行生物實驗.該方法對硬件條 件要求低,判別時間短,準確性較高.3相關(guān)定義與問題陳述3.1相關(guān)定義定義1.(鄰接子序列)若序列&1 二 _(1(2 %,&2 二 _ %1 %2 j ?若序列 當 存在整數(shù)+1,+2,+),滿足1 ! +1 + 2 ,并且滿足 (1 =%+,(2 = %+2,,,()= %+).則 &1 為 &2 的一個片段,也稱 &1 為&2的鄰接子序列,表示為&1 &2 (如果&1 #&2則寫成S1 $ &2 ).定義2.(鄰接序列模式)指定
15、一個支持度閾值!若一個鄰接子序列S滿足 S-P/ ( s) %!,其中S-P/ ( s)表示S支持度,則S為鄰接序列模式.定義3.(閉合鄰接模式)若一個鄰接序列模式,滿足不存在一個鄰接序列模式 ,1,同時使S $,1和S-P/( S)= S-P/ (,1 )成立,則S為閉合鄰 接序列模式.定義4.(前后子序列)給定兩個序列,1 = 和,2 = ,如 果,1是,2的前子序列,則需同時滿足1的長度1“2的長 度比S 1的長度大1 ,并且01 = 11 ,02 = 12 , ,0) = 1* a1.相應地, 如果,1是,2的后子序列,則需同時滿足,1的長度%1,并且 ,2的長度比,1的長度大1以及0
16、1 = 12 ,02 = 1?,0) = 1*.前 子序列和后子序列統(tǒng)稱為前后子序列.3.2問題陳述需解決的問題如下:采用第3代測序技術(shù)和質(zhì)譜技術(shù)可輕松得到細菌的蛋白 質(zhì)序列,因此先把若干已知陰陽性的細菌蛋白質(zhì)序列組成序 列數(shù)據(jù)庫Seq,,如表1中1條蛋白質(zhì)短序列組成的序列數(shù) 據(jù)庫Seq-/所示(第1列為序列的ID,第2列為某細菌的蛋 白質(zhì)序列.示例中的序列由A、B、C ,3種不同項(核酸或氨基 酸)組成,長度為13.)然后挖掘Seq-/中的精簡序列模式,找 出細菌的革蘭氏陰陽性判別的特征?并提出細菌的革蘭氏陰 陽性判別算法.表1含一個序列的數(shù)據(jù)庫Seq-/樣例Table 1 An examp
17、le sequence database Seq-/序列ID序列一1CBABACBACBBAC精簡序列模式又分為頻繁模式(FSP)、鄰接序列模式 (Fg)、/合鄰接模式(Fgp) 3種.若設定支持度!為2,分別用上述3種模式對表1中的序列進行挖掘,結(jié)果如表2最終的陰陽性判定結(jié)果.所示.其中第2列中,具體的模式項以及模式對應的支持度以分隔,各模式項間用,”分隔,其有17個模式項, Fy有7個模式項,而有5個,由以上結(jié)果可見,同一 支持度下,F&的模式項數(shù)目最多,F CloConSP 的模式項數(shù)目最少.由一般經(jīng)驗可知,3種序列模式中,所包含的模式項數(shù)目 越多其保留的特征也越多,故應選擇FSP來分析
18、.但是從表2 可看出FSP的模式項數(shù)目遠大于其它兩種模式,而表2所分數(shù)據(jù)預處理(S.id.S)序列數(shù)據(jù)庫SeqD訓練集數(shù)據(jù)庫Seq-D|Seq-D+,序列I候選模式生成剪枝操作 E7合性檢測|待測序列|Table 2 Comparison of three sequential patterns模式類型模式集合FSPN: 4,AC: 3,NCB: 2,BNCB: 2,ACA: 2, AB: 3, ABA:2,AA: 2,B:4,BB: 2,BA: 4,C: 4,CC: 2,CB: 3,CBB:FCo nSPFC loCon SP2?CBA: 4?CA: 4CB: 3?BA: 4?AC : 4?
19、CBA: 2?BAC : 3?ACB : 2?BACB: 2CB: 3?BA: 4?CBA: 2?BAC: 3?BACB: 2表2 3種序列模式對比陰陽序 列特征 庫生成序列(據(jù)庫 閉合鄰接模式集合|陰性閉合鄰| 接模式集合|陽性閉合鄰|接模式集合鄰接序列|模式集合!向量化待測序列刪除訓練集t向量化長度為2的模式陽性訓練集向量化特征.向量N陽性訓練集 模式標準化陰性訓練集 模式標準化析的序列只包含了 3種氨基酸,長度只有13,實際的蛋白質(zhì) 序列的氨基酸可多達20種,一個序列長度可能長達上.可 想而知,選擇FSP分析序列,后續(xù)的計算量巨大,這不是一種 好的選擇.因此,若能保證正確率的情況下,選擇
20、更精簡和有 效的模式,即性價比更高的序列模式,其處理時間短,更具有 實用價值.故考慮從Fc$%&或Fci$c,%&產(chǎn)生的模式項中尋找特 征完成判別.Fc$%&的數(shù)據(jù)量大于F% ConSP, 若F% ConSP 數(shù)據(jù)無 法支撐準確性,則需考慮FconSP .若FconSP和F loConSP 均能保證 準確性,則選擇FgSP更優(yōu).本文經(jīng)過大量實驗,最終設計了 使用FgSP模式的數(shù)據(jù)分析的判別算法.4 GCBPS算法GCBPS算法的流程圖如圖1所示.該算法先對給定的已知陰陽性的序列數(shù)據(jù)庫Seq-D進行 數(shù)據(jù)預處理,將Seq,中的序列處理為特定的數(shù)據(jù)結(jié)構(gòu) (S.id,S),然后針對蛋白質(zhì)序列分析的特
21、點改進了閉合鄰接 模式的挖掘算法CCSpan,對訓練集數(shù)據(jù)庫中每條序列通過候 選集生成、剪枝操作、閉合性篩選來挖掘Fcgp,可以分別累 計得到陰性的訓練集閉合鄰接模式特征集合和陽性的訓練集 閉合鄰接模式特征集合.接著對陽性訓練集特征集合進行標 準化和向量化,得到陽性特征向量.對待測蛋白質(zhì)序列進行挖掘FgSP ,得到待測鄰接序列 模式特征集合,再經(jīng)過向量化處理得到待測序列特征向量.先 計算待測向量與陽性特征向量的相似度,結(jié)果若在區(qū)間 0.8,1 ,則待測序列為陽性.若相似性結(jié)果不在此區(qū)間,則 初步判定為陰性,其實這些序列并不一定全是陰性,還存在假 陰性(陽性).因此,需進行;假陰性處理.經(jīng)實驗發(fā)
22、現(xiàn)直接把 待測序列向量與前述方法得出的陰性特征向量比對,其正確 率受限,因此經(jīng)過大量試驗后修正了陰性特征庫,即把原求出 的陰性特征集中長度為2的模式項去掉作為修正的陰性特征 集合,再進行標準化和向量化,得到陰性特征向量.將非陽性 待測向量與陰性特征向量進行相似度計算?若相似性結(jié)果在 區(qū)間0.8,1 ,則為陰性序列,否則為陽性序列.由此可得出陰陽性 判別|向量相R度計算IU0,8,l陰性訓練集 |特征向量化I向量相似度計算I0,8,11Y,., IV測序列3陽性HI待測序列為陰性I I序 L圖1 GCBPS算法流程圖Fig. 1 GCBPS algorithm flow chart4.1陰陽序列
23、特征庫生成CCSpan算法15用于挖掘一個序列數(shù)據(jù)庫的指定支持度 模式集合,GCBPS算法中的序列模式挖掘部分引入了 CCSpan 算法的主要思想,與原CCSpan算法不同的是,GCBPS算 法只挖掘單條序列的FcoconSP,更有利于保持源序列庫中每條 序列的特征.在取得Seq-D中每條序列的Fclog后,依次輸 入該序列數(shù)據(jù)庫中的下一條序列繼續(xù)挖掘,直至該序列數(shù)據(jù) 庫循環(huán)結(jié)束.此算法設計了以下幾種特殊的數(shù)據(jù)結(jié)構(gòu),便于實 驗計算:作為輸入的序列數(shù)據(jù)庫Seq-D由一個二元結(jié)構(gòu)(S.id, S)組成,其中S. id為此序列的ID編號,&則為序列本身.閉合鄰接序列模式與非閉合鄰接序列模式以一個三元
24、 結(jié)構(gòu)組成(S ,s. count,B),其中/表示模式,-.count表示該模 式在序列數(shù)據(jù)庫D上的頻數(shù),即實際支持度,而B中有兩種 值代表模式/合,代表非閉合模式.一條序列F可以分割成若干個不相交的子集合,即 ( F,( F2 , F%,其中n是最大的模式長度,F中每 個子集僅僅包含單一長度(”)的模式.本文通過以下3步來實現(xiàn)F“ConSP的挖掘:Step 1.取數(shù)據(jù)庫SeqD的每一個序列S( S.id,S)按照設 定的切分長度切分成一系列的片段,這些片段中所有的項均 保持原有的順序和鄰接屬性.初始切分長度為2,當一輪切分 片段結(jié)束后,再把上一輪切分長度+1進行下一輪切分,一直(1)到切分
25、長度等于原始序列長度時,切分結(jié)束.得到的片段為候 選片段.此時切分序列產(chǎn)生的集合為( !, !, !% ,其中每個子片段為鄰接序列模式,其結(jié)構(gòu)為(,礦 count,B).Step 2.采用CCSpan算法中的剪枝方法(前后子序列剪 枝、支持度剪枝)對Step 1產(chǎn)生的候選片段進行剪枝,刪除已 經(jīng)出現(xiàn)過的片段和不滿足支持度要求(count !)的片段. 經(jīng)剪枝后的候選片段仍為鄰接序列模式.Step 3.對Step 2得到的鄰接序列模式進行閉合性檢 查15,則篩選出所有的非閉合鄰接序列模式并標識即(,. count,B)B標識為“,目的是在計算過程中,通過參數(shù) 對模式的頻數(shù)進 行篩選,過濾不必要的
26、模式,降低了數(shù)據(jù)的計算時間復雜度, 如公式(1)所示.經(jīng)過大量的實驗計算得出,當 為每組訓練 集中所有模式項的頻數(shù)的中位數(shù)時,刪掉頻數(shù)小于 的模式 項后的精簡訓練集集合參加判別更準確.在訓練集中,與待測 序列的鄰接序列模式取交集(若訓練集中無此模式,則頻數(shù) 置為0),并以模式頻數(shù)構(gòu)建向量,利用公式(1)可計算待測序 列向量與該組陰(陽)性訓練集的余弦相似度.n/、=10)1)cos( 0 ,1)=!&n=1(0)2 -!&n=1 (1)2 其中0,1為待比較的兩個向量.4.2.2 陰陽性判別主要步驟Step 1.統(tǒng)計得到陰陽性訓練集特征庫中的模式項頻數(shù) 的中位數(shù) ,并過濾陰陽性特征庫中模式項頻
27、數(shù)小于 的模 式項,即對=CioConSP中S) count !( 1 !)!n)的模式刪除,從而 進行標準化.Step 2.將標準化后的陽性訓練集集合與待測序列取交 集,若訓練集中無此模式,則頻數(shù)置為0,并以訓練集集合以 及待測序列集合中模式/數(shù)(S) count)分別向量化,即T = s1 count, s 2 count, s3 count;,sn. count ,利用公式(1)求 得待測序列與陽性訓練集向量的余弦相似度,結(jié)果若在 0.8,1則判定為陽性.Step 3得到第1步判別結(jié)果后,對于相似性結(jié)果在0, 0.8)的序列,會出現(xiàn)假陰性性狀.因此先將陰性特征訓練集 集合刪除模式長度為2
28、的模式,然后進行Step 2中標準化以 及向量化得到陰性訓練集向量,最后利用公式(1)求得待測 序列與陰性訓練集向量的余弦相似度?結(jié)果若在0. 8?1 則 判定為陰性,否則為陽性.綜合兩步判別結(jié)果得到最終待測序 列的陰陽性.此部分的主要函數(shù)為:函數(shù)Cosin-S():用于對向量化后的訓練集以 值進行標 準化,并得到測試集與陰陽性訓練集的余弦相似度Cosme_ sun.其中,T、Tp為陰陽性訓練集的向量,%測試集中單條 序列的向量.4.3算法過程GCBPS算法主要由兩部分組成:1)為陰陽性訓練集與測 試集模式集合挖掘;2)為測試序列與陰陽性訓練集的相似性 計算.以下為GCBPS算法偽代碼,其中:
29、原始的序列數(shù)據(jù)庫為 Seq-D,最小支持度為!. F存儲所有的鄰接序列模式乩存儲 長度為 n 的序列模式. F1 存儲模式長度為 1 的頻繁模式. 模 式集合F = s ,s count, B f: count% b為所挖掘頻繁模式 的訓練集集合.集合 LcioConSPs = ( s ,s count, B) # count%! 存儲序列數(shù)據(jù)庫中全部序列挖掘的FdoConSp. L?est = ( s ,S count, B) /count%!存儲一條待測序列的Fy集合.陰性 訓練集向量為 T ?陽性訓練集向量為 TP ?測試集向量為 TTest . 算法GCBPS: 輸入:由待測序列組成的
30、序列數(shù)據(jù)庫SeqD,以及支持度! 輸出:Seq-D中各序列的Scd與該序列革蘭氏陰陽性判別 結(jié)果Begin:F ; /以 F 存儲 CloConSPsFn以Fn存儲長度為n的ConSPsF1 snip / / ( Seq -D ,!) / /獲得 1 -sequences1. for( n =2; Fn_1 #; n + + ) do2- Pn/以Pn存儲當前切分長度片段for each sequence S( Seq-D and l( S) % n dofor each con subsequence s( S and l( s) = n doConSP-snip( Seq-D ,s ,Fn
31、_1 ,Pn,& )6,!); /獲得 ConSPsend forend forend forend forFn_ i ClCnSPrnip( Fn_ 5 ,!%) ; /獲得 CloConSPs-1 Fn-1 ;end forLioConSPs,匾s.CountPatterns( F) II獲得模式集合?p foConSPs II訓練集集合向量化T?est SI測試序列模式集合向量化Cosine_simCosin-S( Tp,T8心)11相似度計算if Cosine_sim( 0. 8,1 :待測序列為陽性else: T刪除LioConSP-中長度為2的模式Cosine_simCosin-1
32、 (T ,)if Cosine_sim e 0.8,1:待測序列為陰性else:待測序列為陽性End5實驗為了驗證GCBPS算法的準確性、可行性及優(yōu)化性,設計 和完成了以下兩個實驗.5.1實驗設置論文選取蛋白質(zhì)序列公開數(shù)據(jù)集PSORTb V3.01.該數(shù)據(jù) 集中包含1591條革蘭氏陰性菌蛋白質(zhì)序列和576條革蘭氏 陽性菌蛋白質(zhì)序列.本文實驗選取10折交叉驗證,即1將數(shù) 據(jù)集分成10組,輪流將其中9組做訓練1組做驗證,10次所 得結(jié)果均值為算法精度的估計.本實驗中,采用精準率、( )率B、值F1 -score作為實驗的主要評價指標17,計算方法 如公式(2):公式(4)所示.其中:TP:表示測試
33、集中正確的把 陰(陽)性菌預測為陰(陽)性的序列個數(shù);FN:表示測試集中 錯誤的把陰性菌預測為陽性的序列個數(shù);FP:表示測試集中 錯誤的把陽性菌預測為陰性的序列個數(shù).F1值為綜合度量準 確率和召回率的指標.P TP(2) TP + FPTP(3)R =TP + FN廠2P - R( 4)F1 = P + R5.2實驗及結(jié)果分析實驗將數(shù)據(jù)集中的1591條革蘭氏陰性菌蛋白質(zhì)序列和 576條革蘭氏陽性菌蛋白質(zhì)序列放入1個數(shù)據(jù)庫中,再將數(shù) 據(jù)集均勻分為10組,每組包含革蘭氏陽性菌約57條,革蘭氏 陰性菌約159條,其中1組作為測試集,余下9組作為訓練 集,依次進行10組實驗.實驗1?驗證GCBPS算法
34、的準確性與可行性實驗的步驟為:Step 1.取1組序列作為測試組,從中取1條未測序列作 為待測序列,剩下9組數(shù)據(jù)序列,放入GCBPS的序列數(shù)據(jù)庫 Seq-D;Step 2.按GCBPS的方法判別出序列的陰陽性,即把數(shù) 據(jù)帶入事先編寫好的算法程序運行得出結(jié)果;Step 3.記錄算法得出的序列陰陽性結(jié)果與實際的陰陽 性結(jié)果;Step 4.若測試組的序列未測試完,則重復Step 1-Step 3. 若測試完,則計算該組評估指標(P、R、F1 -core),并進入 Step 5;Step 5.依次更換其余9組輪流作為測試組,重復Step 1- Step4,得到10組的評估指標,并計算平均值,如表3所示
35、.用GCBPS算法對細菌進行革蘭氏陰陽性判別結(jié)果的實 驗評價指標如表3所示.本實驗在支持度! =2的條件下,分 別從10組實驗的精確率、召回率以及F1值來判斷該算法的 準確性及可行性.表3 GCBPS 算法 10 組實驗評價指標Table 3 GCBPS algorithm 10 groups ofexperimental evaluation indicatorsP( %)R( %)F1 ( % )196. 8496. 2396. 53296. 8496. 2396. 53399. 3798. 7499. 05499. 3494. 9797. 11594. 0198. 7496. 32694
36、. 4886. 1690. 13795. 3088. 7591. 91897. 3291. 1994. 16999. 3292. 4595. 771098. 6894. 3496. 46Nvg97. 1593. 7895. 40F1是綜合度量準確率和召回率的指標,由表3可看出第 3組實驗F1值最高為99.05% ,10組的平均F1值為95.40% , 所以GCBPS算法判別細菌的革蘭氏陰陽性的結(jié)果較準確. 因此可以得出:不進行生物實驗,直接采用實現(xiàn)GCBPS算法 的計算機軟件進行細菌的革蘭氏陰陽性判別方法是準確的和 可行的.實驗2.驗證GCBPS中選擇FdoConSP的精簡性與優(yōu)化性 本組實驗
37、選取支持度! =2,用Fco%sp替代GCBPS算法中 對訓練集進行特征提取的步驟,其余步驟相同,為以示區(qū)別, 后稱為GCBPS-算法.其實驗步驟為:Step 1.按實驗1的方法步驟并跳過5.1中的Step 3后運行;Step 2.記錄GCBPS-X算法的評估結(jié)果;Step 3.統(tǒng)計GCBPS算法中產(chǎn)生的FcSp訓練集特征 庫模式項的種類及個數(shù).Step 4.統(tǒng)計GCBPS-X算法中產(chǎn)生的Fg訓練集特征 庫模式項的種類及個數(shù).由實驗可得FconSP下的10組實驗的評價指標由表4可 見,圖2-ffl 4分別為GCBPS算法與GCBPS-X算法兩種模式 準確率、召回率、F1值對比.由表3可知,GC
38、BPS判別實驗F1值均值為95.40% ;由 表4可知,GCBPSX判別實驗F1值均值為94.26%.因此, GCBPS算法比GCBPS-X算法綜合準確率高.由圖2可知有 6組實驗的準確率是GCBPS高于GCBPS-X;由圖3可知有8組實驗的召回率是GCBPS高于GCBPS-C;由圖4可知有6 組實驗的Fl值是GCBPS高于GCBPS成,由此可見GCBPS 比GCBPS-X的判別準確率更高.表4 GCBPS-X算法10組實驗評價指標 Table 4 GCBPS-X algorithm 10 groups ofexperimental evaluation indicatorsP( %)B( %
39、)F1( %)196. 8496. 2396. 53298. 0996. 8697. 47399. 3697. 4898. 41498. 6692. 4595. 45595. 1298. 1196. 59690. 2881. 7685. 81793. 7985. 0089. 18898. 6390. 5794. 439100. 0088. 6894. 001098. 6491. 1994. 77Nvg97. 0191. 8394. 26接下來進行兩種算法中模式項的精簡性對比.圖5為革 蘭氏陰性菌GCBPS與GCBPS-X兩種算法中模式項數(shù)目的 對比圖,其中橫坐標為模式項的長度,縱坐標為模式項的數(shù) 目.在陰性菌序列數(shù)據(jù)庫中共有130978個模式項, 有11064個模式項,由此可見,! CloConSP 的數(shù)目遠遠小 于.由圖5可以看出兩條曲線在同一支持度下(! = 2) 呈下降趨勢牌5的模式項主要集中在長度為3和4之 間,分別占比46. 74%與39. 34%,而在Fy 中,長度為3與 長度為4的模式僅占4.09%與4.88%.隨著模式長度增長的 同時,F(xiàn)5中模式長度較長的模式為0.相比而言,GCBPS 中的Fcg更為精簡.圖6為革蘭氏陽性菌GCBPS與GCBP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年環(huán)保節(jié)能建筑鋼筋采購合同范本3篇
- 2025版小轎車租賃及長途駕駛服務合同2篇
- 2025年度合伙購房合同范本:共享房產(chǎn)增值收益2篇
- 2025版林業(yè)生態(tài)修復項目承包協(xié)議書3篇
- 二零二五年度奶牛場信息化管理平臺建設合同
- 二零二五年度出租車庫信息化改造合同4篇
- 二零二五年度別墅租賃合同含別墅周邊親子游樂園租賃3篇
- 二零二五年度農(nóng)村綜合服務平臺農(nóng)藥購買合同2篇
- 二零二五版木門安裝及維護服務合同2篇
- 二零二五年平面模特肖像權(quán)授權(quán)與使用合同
- 2025年度杭州市固廢處理與資源化利用合同3篇
- 2024年安徽省公務員錄用考試《行測》真題及答案解析
- 部編版二年級下冊《道德與法治》教案及反思(更新)
- 充電樁項目運營方案
- 退休人員出國探親申請書
- 高中物理競賽真題分類匯編 4 光學 (學生版+解析版50題)
- 西方經(jīng)濟學-高鴻業(yè)-筆記
- 幼兒園美術(shù)教育研究策略國內(nèi)外
- 2024屆河南省五市高三第一次聯(lián)考英語試題及答案
- 孕婦學校品管圈課件
- 《愿望的實現(xiàn)》交流ppt課件2
評論
0/150
提交評論