基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第1頁
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第2頁
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第3頁
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第4頁
基于基因表達(dá)譜的腫瘤識(shí)別方法的研究_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、全國第七屆研究生數(shù)學(xué)建模競賽題 目 基于基因表達(dá)譜的腫瘤識(shí)別方法的研究摘 要:本文基于基因表達(dá)譜討論了腫瘤識(shí)別方法的問題。首先建立分類數(shù)學(xué)模型對(duì)樣本分類識(shí)別:即在對(duì)原始數(shù)據(jù)進(jìn)行處理的基礎(chǔ)上,利用主成分分析的方法進(jìn)行降維處理;并將提取的主成分?jǐn)?shù)據(jù)輸入支持向量機(jī)模型訓(xùn)練學(xué)習(xí),從而實(shí)現(xiàn)對(duì)樣本的有效分類。其中模型對(duì)樣本正確分類識(shí)別率接近90%,并且對(duì)模型進(jìn)行敏感性和穩(wěn)定性檢驗(yàn)測試。其次,通過relief算法對(duì)基因進(jìn)行排序和篩選,在此基礎(chǔ)上運(yùn)用留一交叉檢驗(yàn)法確定了一組“基因標(biāo)簽”,并利用隨機(jī)重復(fù)試驗(yàn)檢驗(yàn)了“基因標(biāo)簽”的樣本分類能力。在上述模型運(yùn)算分析結(jié)果的基礎(chǔ)上分析了影響腫瘤識(shí)別效果的噪聲來源,對(duì)數(shù)據(jù)中

2、存在的噪聲樣本和重復(fù)數(shù)據(jù)進(jìn)行降噪,建立了噪聲模型,進(jìn)而得到了一組新的基因“標(biāo)簽”,從而使腫瘤識(shí)別精度提高到了92.65%;最后融入臨床生物學(xué)信息,綜合運(yùn)用支持向量機(jī)等數(shù)學(xué)理論建立了腫瘤診斷識(shí)別的數(shù)學(xué)模型,腫瘤識(shí)別率提高到了99.8%。關(guān)鍵詞:基因表達(dá)譜 腫瘤 支持向量機(jī) 主成分分析 relief算法參賽密碼 (由組委會(huì)填寫) 參賽隊(duì)號(hào) 10224003 隊(duì)員姓名 楊振華 劉愛蘭 邢秉昆 中山大學(xué)承辦一、問題重述癌癥起源于正常組織在物理或化學(xué)致癌物的誘導(dǎo)下基因組發(fā)生的突變,即基因在結(jié)構(gòu)上發(fā)生堿基對(duì)的組成或排列順序的改變,因而改變了基因原來的正常分布。所以探討基因分布的改變與癌癥發(fā)生之間的關(guān)系具有

3、深遠(yuǎn)的意義。從dna芯片所測量的成千上萬個(gè)基因中,找出決定樣本類別的一組基因“標(biāo)簽”取出“信息基因”是正確識(shí)別腫瘤類型、給出可靠診斷和簡化實(shí)驗(yàn)分析的關(guān)鍵所在,同時(shí)也為抗癌藥物的研制提供了捷徑。下面我們參考基因表達(dá)譜及腫瘤識(shí)別問題方面的研究成果,利用附件所給數(shù)據(jù)并結(jié)合相關(guān)資料,就提取基因圖譜信息方法研究如下問題:1、由于基因表示之間存在著很強(qiáng)的相關(guān)性,所以對(duì)于某種特定的腫瘤,似乎會(huì)有大量的基因都與該腫瘤類型識(shí)別相關(guān),但一般認(rèn)為與一種腫瘤直接相關(guān)的突變基因數(shù)目很少。對(duì)于給定的數(shù)據(jù),如何從上述觀點(diǎn)出發(fā),選擇最好的分類因素?2、相對(duì)于基因數(shù)目,樣本往往很小,如果直接用于分類會(huì)造成小樣本的學(xué)習(xí)問題,如何

4、減少用于分類識(shí)別的基因特征是分類問題的核心,事實(shí)上只有當(dāng)這種特征較少時(shí),分類的效果才更好些。對(duì)于給定的結(jié)腸癌數(shù)據(jù)如何從分類的角度確定相應(yīng)的基因“標(biāo)簽”?3、基因表達(dá)譜中不可避免地含有噪聲(見1999 年golub在science發(fā)表的文章),有的噪聲強(qiáng)度甚至較大,對(duì)含有噪聲的基因表達(dá)譜提取信息時(shí)會(huì)產(chǎn)生偏差。通過建立噪聲模型,分析給定數(shù)據(jù)中的噪聲能否對(duì)確定基因標(biāo)簽產(chǎn)生有利的影響?4、在腫瘤研究領(lǐng)域通常會(huì)已知若干個(gè)信息基因與某種癌癥的關(guān)系密切,建立融入了這些有助于診斷腫瘤信息的確定基因“標(biāo)簽”的數(shù)學(xué)模型。比如臨床有下面的生理學(xué)信息:大約90%結(jié)腸癌在早期有5號(hào)染色體長臂apc基因的失活,而只有40

5、%50%的ras相關(guān)基因突變。二、問題分析2.1尋找與腫瘤相關(guān)的突變基因的分類因素我們認(rèn)為“分類因素” 可理解為由基因的某種組合得到的潛在因素。針對(duì)這一問題,我們?cè)O(shè)計(jì)了一種有效的算法作為樣本分類識(shí)別的依據(jù)。具體內(nèi)容如下:首先利用修正后的信噪比公式對(duì)原始數(shù)據(jù)中的無關(guān)基因進(jìn)行剔除,同時(shí)對(duì)保留下來的基因進(jìn)行主成分分析,既可以實(shí)現(xiàn)有效的降維,同時(shí)便于計(jì)算;然后引入支持向量機(jī)分類器,對(duì)提取的主成分進(jìn)行學(xué)習(xí)訓(xùn)練,得到基于支持向量機(jī)的分類模型。在此基礎(chǔ)上,我們對(duì)算法進(jìn)行了敏感性檢驗(yàn)和穩(wěn)定性檢驗(yàn)。2.2從分類的角度確定基因“標(biāo)簽”相對(duì)于基因個(gè)數(shù)來說62個(gè)樣本非常小,如果直接用于分類會(huì)造成小樣本的學(xué)習(xí)問題。我們

6、用relief算法為每個(gè)基因賦予一個(gè)權(quán)重,然后設(shè)定相應(yīng)的閾值,高于這個(gè)閾值的基因被留下;然后用留一交叉檢驗(yàn)法來檢驗(yàn)我們?cè)O(shè)定的閾值的合理性,通過檢驗(yàn)不斷地調(diào)整閾值,最終確定哪些基因被留下,而這些基因便是我們分類所依據(jù)的基因“標(biāo)簽”。2.3基因表達(dá)譜中噪聲模型的建立基因表達(dá)譜中不可避免地含有噪聲,對(duì)含有噪聲的基因表達(dá)譜提取信息會(huì)產(chǎn)生偏差。為了解決這個(gè)問題,我們分析發(fā)現(xiàn)genbank acc name中含有存在重復(fù)數(shù)據(jù)的基因,運(yùn)用方差分析來對(duì)這種基因的normal樣本和cancer樣本分別進(jìn)行顯著性檢驗(yàn),發(fā)現(xiàn)該種基因在同類樣本間存在顯著差異,進(jìn)而推斷其顯著性差異并不直接作用于樣本的分類,應(yīng)予以剔除。

7、同時(shí),在對(duì)第二問中得到的“基因標(biāo)簽”的檢驗(yàn)過程中,發(fā)現(xiàn)來源于樣本的噪聲,故對(duì)這些樣本進(jìn)行去噪處理。最后,應(yīng)用第二問的模型對(duì)去噪后的數(shù)據(jù)重新進(jìn)行運(yùn)算,得到新的“基因標(biāo)簽”并對(duì)其進(jìn)行檢驗(yàn)。2.4融入臨床信息的診斷腫瘤確定基因標(biāo)簽的數(shù)學(xué)模型的建立在確定某種腫瘤的基因標(biāo)簽時(shí)如能融入與臨床問題相關(guān)的主要生理學(xué)信息,也許可以糾正現(xiàn)有研究中基因低水平表達(dá)、差異不大的表達(dá)被忽略的傾向。我們利用問題三中經(jīng)過降噪處理后的樣本數(shù)據(jù),利用最終篩選出的基因標(biāo)簽和所給數(shù)據(jù)中的apc基因和ras相關(guān)基因建立數(shù)學(xué)模型,希望能進(jìn)一步提高腫瘤識(shí)別的正確率。三、模型假設(shè)及符號(hào)說明3.1模型假設(shè)1、假設(shè)統(tǒng)計(jì)數(shù)據(jù)真實(shí)可靠,沒有實(shí)驗(yàn)室誤

8、差。2、假設(shè)樣本具有普遍性,此樣本對(duì)分類效果沒有特別影響。3、假設(shè)與一種腫瘤相關(guān)的突變基因數(shù)目很少。3.2符號(hào)說明-分類特征基因集合-算法篩選出的基因數(shù)-relief算法中的閾值四、模型的建立與解答由樣本數(shù)據(jù)可知,有些基因的標(biāo)號(hào)相同(即屬于同一種基因),故取這些基因表達(dá)水平的均值,合并為一種基因。問題一:尋找與腫瘤相關(guān)的突變基因的分類因素由于基因表示之間存在著很強(qiáng)的相關(guān)性,且相對(duì)于較少的樣本數(shù)而言,過多的基因數(shù)既無益于樣本類型的判定,也會(huì)對(duì)以后統(tǒng)計(jì)方法的使用產(chǎn)生不良影響。因此,在分析樣本之前需要對(duì)基因進(jìn)行篩選。本文引入修正后的信噪比公式作為篩選依據(jù)來衡量基因表達(dá)差異的顯著程度;然后利用主成分分

9、析將相關(guān)性顯著的基因組合成具有某種特征的基因組合來降低維數(shù),進(jìn)而利用支持向量機(jī)進(jìn)行訓(xùn)練學(xué)習(xí)來尋找識(shí)別腫瘤的最好的分類因素。4.1.1算法流程圖我們基于各種方法尋找與腫瘤相關(guān)的突變基因的分類因素的算法過程如圖1所示:樣本數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理訓(xùn)練集測試集基因篩選和降維處理癌癥識(shí)別訓(xùn)練好的svm分類器svm的訓(xùn)練訓(xùn)練是否已結(jié)束是否圖1:算法流程圖4.1.2基因篩選1、修正后的信噪比公式1,式中,和,分別是第個(gè)基因在正常人和癌癥患者兩類樣本中的均值和均方差。其中,公式的第一部分來源于golub等人提出的“信噪比”指標(biāo),后一部分體現(xiàn)了表達(dá)水平分布方差的不同對(duì)樣本分類的貢獻(xiàn)。2、篩選結(jié)果利用修正后的信噪比公式

10、將每個(gè)基因賦以相應(yīng)的權(quán)重,根據(jù)實(shí)驗(yàn)設(shè)定相應(yīng)的閾值,之后從中初步篩選出可能與腫瘤相關(guān)的基因。由于目前仍沒有關(guān)于使用多少基因來構(gòu)造分類器這一問題的最優(yōu)答案,故我們根據(jù)修正后的信噪比計(jì)算公式分別篩選出m為25個(gè)、50個(gè)、100個(gè)、200個(gè)基因來構(gòu)造分類器。4.1.3降維處理1、主成分分析的基本思想主成分分析(pca)的目的是為了降維,即設(shè)法將原來眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無關(guān)的綜合指標(biāo)。這些轉(zhuǎn)化生成的綜合指標(biāo)稱作主成分,其中每個(gè)主成分都是原始變量的線性組合,體現(xiàn)原有變量的綜合效果,且各個(gè)主成分之間互不相關(guān),從而在進(jìn)行定量分析的過程中涉及的變量較少,而得到的信息量較多2。2、主成分

11、分析的實(shí)現(xiàn)我們利用修正后的信噪比公式篩選出的基因在matlab中進(jìn)行主成分分析。根據(jù)修正后的信噪比計(jì)算公式分別篩選出的25個(gè)、50個(gè)、100個(gè)、200個(gè)基因?qū)Ω戒浿?2個(gè)樣本數(shù)據(jù)進(jìn)行主成分分析,結(jié)果如表1所示:表1:主成分分析的結(jié)果m選取主成分個(gè)數(shù)累計(jì)貢獻(xiàn)率25389.80%50486.16%100587.26%200585.46%其中,m為篩選出的基因數(shù)4.1.4支持向量機(jī)111.支持向量機(jī)的基本思想 支持向量機(jī)(svm,support vector machine)是由vapnik首先提出的,可用于模式分類和非線性回歸。支持向量機(jī)的主要思想是建立一個(gè)分類超平面作為決策曲面,使得正例和反例之

12、間的隔離邊緣被最大化。支持向量機(jī)算法旨在改善傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法的理論弱點(diǎn),根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的泛化能力。3,42、支持向量機(jī)的數(shù)學(xué)模型在分類問題中,支持向量機(jī)分類效果主要受核函數(shù)的選擇以及參數(shù)的選擇的影響。支持向量機(jī)常用的核函數(shù)有線性、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、s形核函數(shù)。考慮到徑向基核函數(shù)可以實(shí)現(xiàn)非線性分類同時(shí)其只有一個(gè)控制參數(shù),而其它核函數(shù)均有比徑向基核函數(shù)更多的核參數(shù)。綜合考慮,本文選擇徑向基函數(shù)作為核函數(shù)4,其表達(dá)形式如下:其中是徑向基核函數(shù)的參數(shù),下文用來表示。關(guān)于svm參數(shù)的優(yōu)化選取,目前常用的方法就是讓懲罰參數(shù)和核參數(shù)在一

13、定的范圍內(nèi)取值,對(duì)于取定的和把訓(xùn)練集作為原始數(shù)據(jù)集利用kfold cross validation (kcv)方法得到在此組和下訓(xùn)練集驗(yàn)證分類準(zhǔn)確率,最終取使得訓(xùn)練集驗(yàn)證分類準(zhǔn)確率最高的那組和作為最佳的參數(shù),當(dāng)有多組和對(duì)應(yīng)于最高驗(yàn)證分類準(zhǔn)確率時(shí),這里采用的手段是選取能夠達(dá)到最高驗(yàn)證分類準(zhǔn)確率中參數(shù)最小的那組和作為最佳參數(shù)。這樣做的原因是:過高的會(huì)導(dǎo)致過學(xué)習(xí)狀態(tài),即訓(xùn)練集分類準(zhǔn)確率很高而測試集分類準(zhǔn)確率很低(分類器泛化能力降低),所以在能夠達(dá)到最高驗(yàn)證分類準(zhǔn)確率中的所有的成對(duì)的和中認(rèn)為較小的懲罰參數(shù)是更佳的選擇對(duì)象。4.1.5尋求分類因素算法的matlab實(shí)現(xiàn)本文中將上一步選取的相應(yīng)主成分作為支

14、持向量機(jī)模型的輸入,以徑向基函數(shù)作為核函數(shù),樣本的類別作為輸出,以kfold cross validation (kcv)計(jì)算最佳參數(shù)和,構(gòu)建支持向量機(jī)訓(xùn)練模型。樣本數(shù)據(jù)svm樣本類別圖2:分類因素算法圖以下給出參數(shù)優(yōu)化過程中參數(shù)和和準(zhǔn)確率的等高線圖和3d圖,能更直觀的看到和組合對(duì)準(zhǔn)確率的影響,如圖3所示: 圖3:參數(shù)尋優(yōu)等高線圖及3d圖4.1.6算法的檢驗(yàn)91、算法對(duì)參數(shù)選擇的敏感性分析參數(shù)敏感性分析的目的在于檢驗(yàn)分析過程中選擇不同的m是否會(huì)對(duì)算法的判定效果產(chǎn)生較大影響。故采用隨機(jī)重復(fù)的方法:將62個(gè)樣本數(shù)據(jù)隨機(jī)分成42個(gè)樣本的訓(xùn)練集(15 normal,27 cancer)和20個(gè)樣本的測

15、試集(7 normal,13 cancer),運(yùn)用上述算法對(duì)測試集進(jìn)行分類,重復(fù)100次并計(jì)算平均正確識(shí)別個(gè)數(shù)。表2:分類因素算法對(duì)隨機(jī)測試集的平均正確識(shí)別個(gè)數(shù)m2550100200平均正確識(shí)別個(gè)數(shù)平均正確識(shí)別率(%)18.0190.0517.8589.2517.4087.0017.5587.75在m分別為25、50、100、200時(shí),采用該算法對(duì)樣本數(shù)據(jù)隨機(jī)測試集的平均正確識(shí)別個(gè)數(shù)在17.4018.01個(gè)之間,這表明該算法的識(shí)別效果較為穩(wěn)定,不因m的變化而發(fā)生劇烈波動(dòng),即當(dāng)參數(shù)m為25、50、100、200時(shí),該算法對(duì)m并不敏感。2、算法穩(wěn)定性分析算法的穩(wěn)定性主要體現(xiàn)在對(duì)不同的訓(xùn)練集和測試集

16、,最終的預(yù)測結(jié)果沒有產(chǎn)生較大波動(dòng)。據(jù)此,同樣采用隨機(jī)重復(fù)的方法,將62個(gè)樣本數(shù)據(jù)隨機(jī)分成42個(gè)樣本的訓(xùn)練集(15 normal,27 cancer)和20個(gè)樣本的測試集(7 normal,13 cancer),運(yùn)用上述算法對(duì)測試集進(jìn)行分類并重復(fù)100次。改算法對(duì)隨機(jī)劃分的樣本數(shù)據(jù)的分類結(jié)果如圖4所示:m=25m=200m=100m=50圖4:分類因素算法對(duì)隨機(jī)劃分的樣本數(shù)據(jù)的分類結(jié)果從分類識(shí)別的結(jié)果看,該算法對(duì)含有20個(gè)樣本的測試集的正確識(shí)別個(gè)數(shù)主要集中在1719個(gè)樣本之間,其預(yù)測結(jié)果總體上比較穩(wěn)定,并沒有因?yàn)橛?xùn)練集的變化而使最終預(yù)測結(jié)果產(chǎn)生劇烈波動(dòng)。結(jié)論一:從以上分析與檢驗(yàn)可以看出,我們采用

17、的以主成分分析構(gòu)造的分類因素對(duì)樣本是正常還是癌變具有很好的識(shí)別效果,其識(shí)別率均達(dá)到90%左右;并且此尋找分類因素的算法對(duì)參數(shù)的選擇并不敏感,具有非常好的穩(wěn)定性。問題二:從分類的角度確定“基因標(biāo)簽”從分類的角度來說,我們的目的是在眾多基因中找出決定樣本類別的一組基因作為分類特征基因。由于與一種腫瘤直接相關(guān)的突變基因數(shù)目很少,故只有少數(shù)基因與樣本類別相關(guān),且大部分基因?qū)⒈灰曌鳠o關(guān)基因而剔除。4.2.1分類特征基因的選取1、relif算法的基本思想relief算法是一種屬性重要性排序的機(jī)器學(xué)習(xí)算法,其基本思想是以屬性區(qū)分相似樣本的能力來作為評(píng)估屬性重要程度的標(biāo)準(zhǔn),并據(jù)此給出屬性的分類權(quán)重(具體原理見

18、參考文獻(xiàn)810)。relief算法通過求取分類特征的屬性分類權(quán)重,來選取具有最大分類權(quán)重的一組屬性作為決定樣本分類的特征基因。所以基因的分類權(quán)重越大,其含有的樣本分類信息越多,對(duì)樣本的分類能力就越強(qiáng)。5,6,72、基因的排序根據(jù)relief算法,本文計(jì)算出每個(gè)基因的分類權(quán)重。如圖5給出了基因分類權(quán)重的分布情況:圖5:基因分類權(quán)重的分布圖由上圖可知各基因的分類權(quán)重,按照從大到小的順序進(jìn)行排序,從而得到有序基因組合,即,滿足:,且。4.2.2確定“基因標(biāo)簽”1、留一交叉檢驗(yàn)法(loocv)8留一交叉檢驗(yàn)法是交叉檢驗(yàn)方法的擴(kuò)展,用來進(jìn)行樣本類型的識(shí)別,基本思想是在測試集上每次保留一個(gè)不同的樣本作為測

19、試樣本,其余樣本作為svm的訓(xùn)練樣本,不斷重復(fù)這個(gè)過程,直到所有訓(xùn)練樣本都被測試了一次為止。將所有被錯(cuò)誤分類的樣本數(shù)作為該方法的分類錯(cuò)誤數(shù)。2、“基因標(biāo)簽”的確定我們運(yùn)用留一交叉檢驗(yàn)法(loocv)來對(duì)基因組合中的基因進(jìn)行分類能力檢驗(yàn),以期進(jìn)一步縮小具有分類特征基因(“基因標(biāo)簽”)的范圍。(1)由于基因的分類權(quán)重越大,其對(duì)樣本的分類能力也就越強(qiáng),因此我們?cè)O(shè)定閾值,按照從大到小的順序選取基因組合中分類權(quán)重最大的53個(gè)基因開始研究其分類能力。在這里我們定義53個(gè)基因組合,其中初始時(shí)刻為,將中的基因作為分類特征基因,其值作為svm模型的輸入,記錄其對(duì)訓(xùn)練樣本的分類誤差。(2)接下來將中分類權(quán)重最小的

20、基因剔除,利用中的基因作為svm模型的輸入研究其分類能力。如此循環(huán)下去,選取分類權(quán)重最大的個(gè)基因,得到分類特征基因組合用于分類,從而得到了有關(guān)于基因組合,與其分類誤差的關(guān)系曲線(如圖6)。由該曲線不僅可以得到不同基因組合的分類能力,而且也能看出分類能力隨基因個(gè)數(shù)的變化而變化的趨勢。根據(jù)錯(cuò)誤分類個(gè)數(shù)最小原則,確定出一個(gè)最佳分類基因組合(“基因標(biāo)簽”)。010203040506056789101112基因個(gè)數(shù)錯(cuò)誤分類個(gè)數(shù)圖6:分類誤差曲線圖由上圖可知,基因個(gè)數(shù)介于1235之間的分類基因組合的錯(cuò)誤分類個(gè)數(shù)最少,但對(duì)于基因個(gè)數(shù)大于35的組合來說,其走勢并不穩(wěn)定,錯(cuò)誤分類個(gè)數(shù)隨著基因個(gè)數(shù)的增加而升高。我

21、們認(rèn)為,造成這一結(jié)果的原因在于小樣本學(xué)習(xí)問題,即相對(duì)于有限的樣本數(shù)來說,過多基因數(shù)目的選取影響了對(duì)樣本類別(正常人和癌癥患者)的判定。鑒于此,我們重新對(duì)篩選基因的閾值進(jìn)行設(shè)定,以縮小基因組合的范圍,即當(dāng)時(shí),按照從大到小的順序選取基因組合中分類權(quán)重最大的18個(gè)基因進(jìn)行分類能力的研究,研究方法仍為留一交叉檢驗(yàn)法,這里不多贅述。經(jīng)過分析,得到新的分類誤差曲線,如圖7所示:圖7:分類誤差曲線圖由此圖可以清晰的看出:基因個(gè)數(shù)大于12的基因組合其錯(cuò)誤分類數(shù)最低,且隨著基因數(shù)的擴(kuò)大一直保持穩(wěn)定的分類識(shí)別率,從而確定具有樣本分類特征的“基因標(biāo)簽”為基因組合。4.2.3“基因標(biāo)簽”樣本分類能力的顯著性檢驗(yàn)8為檢

22、驗(yàn)上述確定的“基因標(biāo)簽”確實(shí)具有區(qū)分正常人與癌癥患者的良好樣本分類能力,在有限樣本的情況下,本文采用隨機(jī)交互檢驗(yàn)的方法對(duì)中基因的樣本分類能力進(jìn)行檢驗(yàn)。具體做法如下:(1)樣本抽樣:在保證訓(xùn)練集中每種不同類型的組織樣本數(shù)不變(即訓(xùn)練集(15 normal,27 cancer)的前提下,在原始樣本集的22個(gè)正常人和40個(gè)癌癥患者樣本中進(jìn)行無重復(fù)抽樣,以形成新的訓(xùn)練集,剩余樣本形成新的測試集。(2)樣本識(shí)別:以中的基因作為分類特征,利用新形成的訓(xùn)練集構(gòu)造svm分類器,對(duì)測試集中的樣本進(jìn)行類型識(shí)別,記錄分類結(jié)果(svm分類模型的參數(shù)設(shè)置同第一問)。上述兩個(gè)過程稱為一次隨機(jī)測試實(shí)驗(yàn),本文共做了100次這

23、樣的實(shí)驗(yàn),由此得到100次隨機(jī)測試實(shí)驗(yàn)的平均分類正確率達(dá)90.1%??紤]到中基因是作為正常人和癌癥患者的分類特征基因,那么即使采用非限制性抽樣,即不考慮訓(xùn)練集和測試集內(nèi)部樣本的構(gòu)成情況直接接進(jìn)行完全隨機(jī)抽樣形成新的訓(xùn)練集和測試集,中的基因也應(yīng)具有良好的樣本分類能力。為此,我們采用非限制性抽樣同樣做了100次隨機(jī)測試實(shí)驗(yàn),得到測試集的平均分類正確率為90.45%。這一結(jié)果同上面限制訓(xùn)練集樣本構(gòu)成的隨機(jī)測試實(shí)驗(yàn)的分類結(jié)果(90.1%)相當(dāng)。結(jié)論二:綜上所述,基因“標(biāo)簽”=r87126,h08393,m63391,x12671,z50753,r36977,j02854,j05032,m26383,m

24、22382,x63629,m76378中的基因識(shí)別正常和患癌樣本的識(shí)別率達(dá)到了90%左右,檢驗(yàn)證明其具有很好的分類能力,“基因標(biāo)簽”的確定具有合理性。問題三:基因表達(dá)譜中噪聲模型的建立4.3.1噪聲的去除基因表達(dá)譜中不可避免的含有噪聲,充分消除噪聲數(shù)據(jù)的影響有利于“基因標(biāo)簽”更精確的給出?!霸肼暋币话銇碓从谠肼晿颖?、無用基因和基因數(shù)據(jù)的方差波動(dòng)等方面。我們認(rèn)為應(yīng)該針對(duì)第二問中確定的“基因標(biāo)簽”()中的基因數(shù)據(jù)進(jìn)行噪聲處理。1、實(shí)驗(yàn)數(shù)據(jù)去噪在第二問得到的“基因標(biāo)簽”=r87126,h08393,m63391,x12671,z50753,r36977,j02854,j05032,m26383,m2

25、2382,x63629,m76378中,我們發(fā)現(xiàn)基因m76378在原始數(shù)據(jù)表中存在重復(fù)出現(xiàn)的現(xiàn)象,這可能是由于實(shí)驗(yàn)誤差造成的。其原始數(shù)據(jù)如表3所示:表3:基因m76378的原始數(shù)據(jù)genbank acc nonormal1normal2normal22cancer1cancer2cancer40m7637810.68699.17152810.27688.892637.7088727.579983m7637810.741649.22337110.174438.8800967.617927.786257m7637810.797659.4986529.1009128.6064617.3639815.

26、726695針對(duì)基因m76378,利用spss軟件分別對(duì)其normal樣本和cancer樣本進(jìn)行方差分析,結(jié)果如表4和表5所示:anova表4:normal樣本數(shù)據(jù)sum of squaresdfmean squarefsig.between groups122.490215.83327.288.000within groups9.40544.214total131.89665anova表5:cancer樣本數(shù)據(jù)sum of squaresdfmean squarefsig.between groups92.377392.3695.802.000within groups32.65880.40

27、8total125.035119分析結(jié)果表明,基因m76378的normal樣本和cancer樣本之間都存在著顯著的差異性。因此有理由推斷,基因m76378的顯著差異來源于同類樣本自身,并不直接作用于樣本分類。所以應(yīng)該將基因m76378從“基因標(biāo)簽”中予以刪除。2、噪聲樣本的識(shí)別與剔除由第二問中的分類誤差曲線圖(圖8和圖9)可以看出,所有特征分類基因組合的最小錯(cuò)誤分類個(gè)數(shù)為5,還沒有一個(gè)基因組合的正確分類識(shí)別率達(dá)到100% 。這表示作為分類特征的“基因標(biāo)簽”仍然有進(jìn)一步精確的空間。通過進(jìn)一步分析我們發(fā)現(xiàn),在各基因組合進(jìn)行樣本分類識(shí)別的過程中有5個(gè)樣本經(jīng)常被錯(cuò)判,且這正好與基因組合的最小錯(cuò)誤分類

28、數(shù)相同。因此我們猜想,是否是這5個(gè)樣本的存在導(dǎo)致基因組合的正確識(shí)別率始終無法達(dá)到100% 。為了驗(yàn)證這一猜想,我們從樣本的角度出發(fā),對(duì)各個(gè)樣本在分類識(shí)別過程(包括在和兩種情況下的留一交叉檢驗(yàn))中的錯(cuò)誤識(shí)別率進(jìn)行了具體分析,如圖 8和圖9所示:圖8:的留一交叉檢驗(yàn)中各樣本的錯(cuò)誤識(shí)別率圖9:的留一交叉檢驗(yàn)中各樣本的錯(cuò)誤識(shí)別率從圖中可以非常直觀的看到:在這兩個(gè)分類識(shí)別的過程中,都有5個(gè)樣本被嚴(yán)重錯(cuò)判,且都是同樣的5個(gè)樣本。它們分別是:normal18,normal20,cancer52,cancer55,cancer58。這些樣本嚴(yán)重干擾了“基因標(biāo)簽”對(duì)樣本的正確分類,影響了“基因標(biāo)簽”的選取,故應(yīng)

29、該刪去。綜上所述,在對(duì)基因組合的原始數(shù)據(jù)進(jìn)行去噪后,得到了新的基因組合r87126,h08393,m63391,x12671,z50753,r36977,j02854,j05032,m26383,m22382,x63629,而這些基因的原始數(shù)據(jù)樣本也由62個(gè)變?yōu)?7個(gè)(包括20個(gè)normal樣本和37個(gè)cancer樣本)。4.3.2去噪后的“基因標(biāo)簽”確定我們將去噪后的數(shù)據(jù)重新帶入第二問的“基因標(biāo)簽”確定模型,得到新的“基因標(biāo)簽”=r87126,m63391,j02854 。4.3.3“基因標(biāo)簽”樣本分類能力的顯著性檢驗(yàn)我們采用非限制性抽樣同樣做了100次隨機(jī)測試實(shí)驗(yàn)(方法同4.2.3),得到

30、測試集的平均分類正確識(shí)別率為92.65% ,即基因“標(biāo)簽”具有良好的樣本分類能力。結(jié)論三:綜上所述,與第二問中得到的基因標(biāo)簽相比,去噪后得到的基因“標(biāo)簽”=r87126,m63391,j02854 其基因組合所含基因數(shù)大大減少,且平均正確識(shí)別率達(dá)到92.64%,高于的識(shí)別精度。由此我們認(rèn)為無論是來源于哪個(gè)方面的噪聲對(duì)基因“標(biāo)簽”的影響都是不利的,所以對(duì)基因表達(dá)譜無論是在實(shí)驗(yàn)階段還是在數(shù)據(jù)處理階段都必須考慮噪聲的影響,從而提高識(shí)別腫瘤的正確率,為臨床及醫(yī)學(xué)研究提供精確的依據(jù)。問題四:融入臨床信息的診斷腫瘤確定基因標(biāo)簽的數(shù)學(xué)模型的建立目前診斷腫瘤主要依靠臨床的生理學(xué)信息,但有些情況下臨床信息會(huì)難以

31、確定甚至出現(xiàn)錯(cuò)誤,這就為腫瘤的早期診斷和及時(shí)治療帶來了很多困難。而近年來迅速發(fā)展并日益成熟的基因表達(dá)譜可以清晰地表現(xiàn)腫瘤樣本與正常樣本的差別,據(jù)此可以更精確地識(shí)別腫瘤。遺憾的是,基于基因表達(dá)譜的研究還沒有進(jìn)入臨床實(shí)踐。如果能把基于基因表達(dá)譜的腫瘤識(shí)別方法與臨床生理學(xué)信息結(jié)合起來建立確定基因標(biāo)簽的數(shù)學(xué)模型將會(huì)為腫瘤的識(shí)別與診斷帶來更可靠的依據(jù)。我們嘗試在這一問中建立這樣一個(gè)數(shù)學(xué)模型。4.4.1 apc基因和ras相關(guān)基因由apc基因和ras相關(guān)基因的原始數(shù)據(jù)得到其各自的樣本表達(dá)水平趨勢圖,如圖10所示:apcras(m28214) ras(t70197) ras(l33075)ras(r5394

32、1) ras(h42477) ras(t71207)ras(x54871) ras(r22779) ras(z29677)圖10:樣本表達(dá)水平趨勢圖4.4.2腫瘤識(shí)別基因信息圖考慮到這樣的臨床生理學(xué)信息:大約90%結(jié)腸癌在早期有5號(hào)染色體長臂apc基因的失活,而只有40%-50%的ras相關(guān)基因突變,結(jié)合4.3.2確定的基因標(biāo)簽,我們給出了融入臨床信息的診斷腫瘤確定基因標(biāo)簽的結(jié)構(gòu)圖,如圖11所示:腫瘤識(shí)別基因標(biāo)簽臨床生理學(xué)信息r87126m63391j02854apc基因ras相關(guān)基因圖11:腫瘤識(shí)別基因信息圖4.4.3構(gòu)造融入臨床信息的腫瘤識(shí)別模型1、數(shù)據(jù)說明此模型使用的數(shù)據(jù)為基于第三問去噪

33、后的57個(gè)樣本數(shù)據(jù),而原始數(shù)據(jù)中有6個(gè)ras相關(guān)基因的數(shù)據(jù),由于它們的表達(dá)水平相似,故取其均值作為ras相關(guān)基因的表達(dá)數(shù)據(jù)。我們構(gòu)造的訓(xùn)練集中包含38個(gè)樣本(13 normal,25cancer),測試集包含19個(gè)樣本(7normal,12cancer)。2、svm訓(xùn)練學(xué)習(xí)我們構(gòu)造一個(gè)svm分類器來實(shí)現(xiàn)此模型(其具體思想見4.1.5)。在此模型中,輸入為基因標(biāo)簽中三個(gè)基因的表達(dá)水平值和由題設(shè)可知的apc基因、ras相關(guān)基因在結(jié)腸癌中發(fā)生與否的概率關(guān)系;經(jīng)過圖12中的svm進(jìn)行訓(xùn)練學(xué)習(xí)后輸出代表樣本類別。樣本數(shù)據(jù)樣本類別svmapcras圖12:模型結(jié)構(gòu)圖3、模型檢驗(yàn)經(jīng)過500次的重復(fù)隨機(jī)實(shí)驗(yàn),

34、此模型的正確分類識(shí)別率達(dá)到99.8%,如圖12所示:圖12:融入臨床信息的腫瘤識(shí)別模型的正確識(shí)別個(gè)數(shù)結(jié)論四:綜上所述,考慮了apc基因和ras相關(guān)基因的腫瘤識(shí)別模型精度上有了大幅度提高,有利于我們對(duì)樣本進(jìn)行分類。由此可見,在基因表達(dá)譜的分析過程中融入臨床生理學(xué)信息,對(duì)于提高腫瘤的診斷效果具有非常重要的貢獻(xiàn)。五、模型的評(píng)價(jià)與改進(jìn)設(shè)想本文基于基因表達(dá)譜討論了腫瘤識(shí)別方法的問題。我們主要使用支持向量機(jī)和relief算法等方法,找到了區(qū)分正常與腫瘤的較好的分類方法,其正確識(shí)別率達(dá)到90%;然后進(jìn)一步從分類的角度找出了正確識(shí)別率達(dá)到92.46%的基因標(biāo)簽;在此基礎(chǔ)上,我們建立了噪聲模型,對(duì)來源于三個(gè)方面

35、的噪聲進(jìn)行了剔除,包括找出了假陰性和假陽性的樣本,得出了噪聲對(duì)確定基因標(biāo)簽不利的結(jié)論;最后,我們?nèi)谌肓伺R床生理學(xué)信息,建立了更加精確的腫瘤識(shí)別模型,其正確率達(dá)到99.8%。由于時(shí)間倉促,本文不可避免地會(huì)存在一些不足,而各個(gè)模型也有改進(jìn)的必要,例如噪聲模型我們可以把所給的對(duì)數(shù)化處理的數(shù)據(jù)還原回去,利用樣本間的倍數(shù)關(guān)系來計(jì)算它的表達(dá)水平的上調(diào)和下調(diào),進(jìn)而可以更加精確地尋求噪聲對(duì)我們所建立的模型的影響。另外,融入臨床信息的模型的建立可以再考慮更多的其它信息,這樣可以使模型的正確識(shí)別率更進(jìn)一步地提高,最好能穩(wěn)定地達(dá)到100%,進(jìn)而在臨床廣泛推廣,這是未來基因表達(dá)譜的研究方向。32六、參考文獻(xiàn)1 李穎新

36、,阮曉鋼.基于基因表達(dá)譜的腫瘤亞型識(shí)別與分類特征基因選取研究j .電子學(xué)報(bào).2005年4月第4期:6522何曉群.多元統(tǒng)計(jì)分析m.第二版.北京:中國人民大學(xué)出版社,2002.152-174.3svmeb/ol4張小艷,李強(qiáng).基于svm的分類方法綜述j .科技信息. 2008年第28期:3445吳艷文,胡學(xué)鋼,陳效軍.基于relief算法的特征學(xué)習(xí)聚類j .合肥學(xué)院學(xué)報(bào)(自然科學(xué)版).2008年5月.第18卷第2期:456賴冰凌,王新宇.relief算法在關(guān)門車故障自動(dòng)識(shí)別中的應(yīng)用j .鐵路(計(jì)算機(jī)應(yīng)用).第16卷第1期.vol.16 no.1:227吳浩苗,尹中航,孫富春.relief算法在筆

37、跡識(shí)別中的應(yīng)用j.第26卷第1期.2006年1月:1748阮曉鋼,李穎新,李建更,龔道雄,王金蓮.基于基因表達(dá)譜的腫瘤特異基因表達(dá)模式研究.中國科學(xué)c輯生命科學(xué).2006,36(1):86-969王翼飛,史定華.生物信息學(xué)-智能化算法及其應(yīng)用.北京:化學(xué)工業(yè)出版社.2006年7月:237-24310李穎新,李建更,阮曉鋼.腫瘤基因表達(dá)譜分類特征基因選取問題及分析方法研究j.計(jì)算機(jī)學(xué)報(bào).2006年2月第29卷第2期:325-32611matlab中文論壇.matlab神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析m.北京:北京航空航天大學(xué)出版社.2010年4月:112-141附錄第一問程序function s,bs,x

38、zs,xzbinameno,xzxzbinameno,bnameno,sortk,sortxzbixu=fenlei_a1(x1,x2)%利用信噪比、修正信噪比、巴式距離對(duì)基因進(jìn)行分類%mx1,nx1=size(x1);mx2,nx2=size(x2);miu1=mean(x1);miu2=mean(x2);xigema1=std(x1);xigema2=std(x2);xinzaobi=abs(miu1-miu2)./(xigema1+xigema2);index1=find(xinzaobi=0.2&xinzaobi=0.4&xinzaobi=0.6&xinzaobi=0.8);s1=le

39、ngth(index1);s2=length(index2);s3=length(index3);s4=length(index4);s5=length(index5);s=s1,s2,s3,s4,s5;xzbinameno=index1,index2,index3,index4,index5;figurebar(0.1 0.3 0.5 0.7 0.9,s1,s2,s3,s4,s5)title(信噪比)% 修正信噪比temp=log(xigema1.*xigema1+xigema2.*xigema2)./(2*(xigema1.*xigema2);xzxinzaobi=abs(miu1-miu

40、2)./(xigema1+xigema2)+temp;xzindex1=find(xzxinzaobi=0.2&xzxinzaobi=0.4&xzxinzaobi=0.6&xzxinzaobi=0.8);xzs1=length(xzindex1);xzs2=length(xzindex2);xzs3=length(xzindex3);xzs4=length(xzindex4);xzs5=length(xzindex5);xzs=xzs1,xzs2,xzs3,xzs4,xzs5;xzxzbinameno=xzindex1,xzindex2,xzindex3,xzindex4,xzindex5;s

41、ortxzbixu,sortk=sort(xzxinzaobi);figurebar(0.1 0.3 0.5 0.7 0.9,xzs1,xzs2,xzs3,xzs4,xzs5)title(修正信噪比)% 巴氏距離bashi=(miu1-miu2).2)./(4*(xigema1.*xigema1+xigema2.*xigema2)+0.5*temp;bindex1=find(bashi=0.1&bashi=0.2&bashi=0.4&bashi=0.5&bashi=0.6&bashi=0.8);bs1=length(bindex1);bs2=length(bindex2);bs3=length

42、(bindex3);bs4=length(bindex4);bs5=length(bindex5);bs6=length(bindex6);bs7=length(bindex7);bs=bs1,bs2,bs3,bs4,bs5,bs6,bs7;bnameno=bindex1,bindex2,bindex3,bindex4,bindex5,bindex6,bindex7;figurebar(0.1 0.2 0.3 0.4 0.5 0.6 0.7,bs1,bs2,bs3,bs4,bs5,bs6,bs7)title(巴氏距離)%function pc_m,gxlv,score_m=funpca(gai

43、data,m)% 選取不同的基因,主成分分析的程序gd=gaidata;x1=gd(:,1:22);x2=gd(:,23:end);s,bs,xzs,xzbinameno,xzxzbinameno,bnameno,sortk,sortxzbixu=fenlei_a1(x1,x2);index_m=sortk(1991-m+1:1991);data_m=gd(index_m,:);stdr_m=std(data_m);sr=data_m./stdr_m(ones(m,1),:);pc_m,score_m,latent_m,tsquare_m = princomp(sr);gxlv=cumsum(

44、latent_m)./sum(latent_m);function ptest_label,test_accuracy,ptrain_label,train_accuracy,bestacc,bestc,bestg=fun_svm_class(train_x,train_data_labels,test_x,test_data_labels)% % 利用支持向量機(jī)進(jìn)行分類% for classificatonformat compact;% 原始數(shù)據(jù)可視化% figure;% boxplot(train_data,orientation,horizontal);% grid on;% titl

45、e(visualization for original data);% figure;% for i = 1:length(train_data(:,1)% plot(train_data(i,1),train_data(i,2),r*);% hold on;% end% grid on;% title(visualization for 1st dimension & 2nd dimension of original data);% 歸一化預(yù)處理train_final,test_final = scaleforsvm(train_x,test_x,0,1);% 歸一化后可視化% figu

46、re;% for i = 1:length(train_final(:,1)% plot(train_final(i,1),train_final(i,2),r*);% hold on;% end% grid on;% title(visualization for 1st dimension & 2nd dimension of scale data);% 降維預(yù)處理(pca)% train_final,test_final = pcaforsvm(train_final,test_final,97);% dct% train_final,test_final = dctforsvm(tra

47、in_final,test_final);% ica% train_final,test_final = fasticaforsvm(train_final,test_final);% feature selection% using ga,.,etc.% 參數(shù)c和g尋優(yōu)選擇bestcvaccuracy,bestc,bestg = svmcgforclass(train_data_labels,train_final);% ga_option.maxgen = 100;% ga_option.sizepop = 20; % ga_option.ggap = 0.9;% ga_option.cb

48、ound = 0,100;% ga_option.gbound = 0,100;% ga_option.v = 5;% bestacc,bestc,bestg = gasvmcgforclass(train_data_labels,train_final,ga_option)% pso_option.c1 = 1.5;% pso_option.c2 = 1.7;% pso_option.maxgen = 100;% pso_option.sizepop = 20;% pso_option.k = 0.6;% pso_option.wv = 1;% pso_option.wp = 1;% pso

49、_option.v = 3;% pso_option.popcmax = 100;% pso_option.popcmin = 0.1;% pso_option.popgmax = 100;% pso_option.popgmin = 0.1;% bestacc,bestc,bestg = psosvmcgforclass(train_data_labels,train_final,pso_option);cmd = -c ,num2str(bestc), -g ,num2str(bestg);% bestc =% 1.2714% bestg =% 1.8047% cmd = -c 147.0

50、334 -g 16% 分類預(yù)測model = svmtrain(train_data_labels, train_final,cmd);ptrain_label, train_accuracy = svmpredict(train_data_labels, train_final, model);% train_accuracyptest_label, test_accuracy = svmpredict(test_data_labels, test_final, model);% test_accuracy% toc;function meanstest,meanstrain,lv,zqgs

51、=zuijia(score,l,method)% % 第一問 得到主成分后的分類檢驗(yàn)程序% 和第二問中重復(fù)檢驗(yàn)%method=2 為非限制 method=1是限制性隨機(jī)試驗(yàn)if method=2 stest=0; strain=0; zqgs=zeros(1,100); lv=zeros(1,100); zonglabel=zeros(1,57); for k=1:500 randnum=randperm(57); ind=find(randnum20); x_label=zonglabel; x_label(ind)=1; trainno=randnum(1:38); testno=randnum(39:57); x=score(:,1:l); train_x=x(trainno,:); train_label=x_label(1:38); test_x=x(testno,:); test_label=x_label(41:end); ptest_label,test_accuracy,ptrain_label,train_acc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論