




已閱讀5頁(yè),還剩88頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算數(shù)學(xué)專業(yè)論文)生物序列的圖形表示及其應(yīng)用.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
摘要 本文以生物序列的比較分析為背景,提出了一些新的圖形表示,為生物序列的分類、 分析、比較和儲(chǔ)存等研究提供新的方法另外,還展示了這些表示法在生物序列的相似 性分析和構(gòu)建進(jìn)化樹等問題上的具體應(yīng)用本文主要研究?jī)?nèi)容可以概括如下: 1 將d n a 序列和氨基酸序列轉(zhuǎn)化為2 - d 圖形表示d n a 序列和氨基酸序列轉(zhuǎn)化的 二維圖形類似于分子結(jié)構(gòu)圖,由此我們借助化學(xué)計(jì)量學(xué)方法計(jì)算了在經(jīng)過轉(zhuǎn)換所得圖的 基礎(chǔ)上衍生出圖的不變量( 數(shù)學(xué)不變量) 一b a l a b a n 指數(shù)和信息分布指數(shù)以及圖對(duì)應(yīng)的圖 論距離矩陣的平均頻帶寬度。并利用這些拓?fù)渲笖?shù)作為d n a 序列和氨基酸序列的不變量 分析了9 個(gè)物種的伊球蛋白( g l o b i n ) 基因的第一個(gè)外顯子d n a 序列和6 種y a r 0 2 9 w 等 氨基酸序列的相似性和非相似性 2 用1 - d 隨機(jī)游動(dòng)來(lái)描述d n a 序列,得到了d n a 序列對(duì)應(yīng)的兩個(gè)隨機(jī)序列 y 。 和 ) ,進(jìn)而驗(yàn)證了兩個(gè)隨機(jī)序列 y 。) 和 x 。 都具有馬爾可夫性,同時(shí)也得到了d n a 序列的1 - d 游動(dòng)曲線表示基于d n a 序列的圖形表示以及馬爾可夫鏈的轉(zhuǎn)移概率分布、 信息熵和隨機(jī)序列的數(shù)字特征( 均協(xié)方差) 得到了d n a 序列的一些新的數(shù)學(xué)不變量,進(jìn) 而利用這些數(shù)學(xué)不變量來(lái)比較了9 個(gè)不同物種的伊球蛋白基因的第一個(gè)外顯子的d n a 序列的相似性。 3 現(xiàn)有的方法一般是基于多個(gè)序列的比對(duì)來(lái)構(gòu)建物種進(jìn)化樹,我們提出了一種新的 方法:在d n a 序列的三維圖形表示的基礎(chǔ)上,利用圖的不變量給出了序列之間的距離度 量,進(jìn)而定義了物種進(jìn)化距離,并利用基于距離法的n j 算法構(gòu)建了生物系統(tǒng)進(jìn)化樹。選 取3 0 個(gè)物種線粒體d n a 序列為材料,得到的結(jié)果與傳統(tǒng)的根據(jù)物種形態(tài)和其他方法構(gòu) 建的系統(tǒng)進(jìn)化樹基本一致 4 在復(fù)平面上用二維隧機(jī)游動(dòng)來(lái)描述了r n a 二級(jí)結(jié)構(gòu)序列,得到了對(duì)應(yīng)的隨機(jī)游動(dòng) 曲線和隨機(jī)復(fù)數(shù)字序列在6 - d 空間中定義了使核苷酸集與點(diǎn)集之間一一對(duì)應(yīng)的函數(shù), 進(jìn)而利用這個(gè)函數(shù)在6 - d 空間中得到了r n a 二級(jí)結(jié)構(gòu)的6 - d 表示,然后基于6 - d 表示 把它轉(zhuǎn)化為矩陣表示和特征向量表示并利用r n a 二級(jí)結(jié)構(gòu)對(duì)應(yīng)的隨機(jī)復(fù)數(shù)字序列的 數(shù)字特征:模和相位,以及矩陣不變量:矩陣的最大特征值,特征向量來(lái)表征序列井且 分析了a i m v 3 等9 種病毒的r n a 二級(jí)結(jié)構(gòu)序列的相似性 5 給出了把r n a 二級(jí)結(jié)構(gòu)序列映射為“波譜線”和“z 型曲線”表示的三個(gè)遞歸公 式利用這三個(gè)遞歸公式給出了r n a 二級(jí)結(jié)構(gòu)序列的1 - d 、2 - d 和3 - d 圖形表示,進(jìn)一 步利用1 - d 圖形表示給出了關(guān)于r n a 二級(jí)結(jié)構(gòu)序列頻譜分析的方法 6 在d n a 三聯(lián)體密碼子表示的基礎(chǔ)上,在半復(fù)平面上給出了蛋白質(zhì)序列的非退化 的2 - d 圖形表示,同時(shí)利用復(fù)向量的主要特征一模和相位,給出了蛋白質(zhì)序列的一種數(shù) 值刻劃進(jìn)一步在3 - d 空間里,把2 0 種氨基酸分別分配給正1 2 面體的2 0 個(gè)頂點(diǎn),根據(jù) 正1 2 面體的對(duì)稱性得到了2 0 種氨基酸的3 - d 表示,進(jìn)而得到了蛋白質(zhì)序列的3 - d 圖形 表示和對(duì)應(yīng)的數(shù)字序列,并利用圖的不變量和數(shù)字序列的特征比較了9 種動(dòng)物的神經(jīng)元 基因序列的相似性并構(gòu)建了一組細(xì)胞色素c 蛋白質(zhì)的序列進(jìn)化樹。 關(guān)鍵詞:d n a 序列;蛋白質(zhì);r n a 二級(jí)結(jié)構(gòu);特征數(shù)值;圖形表示;距離矩陣;最大特 征值;序列不變量;進(jìn)化樹 i i a b s t r a c t t h i sd i s s e r t a t i o nm a i n l ys t u d i e ds o l n en e wg r a p h i c a lr e p r e s e n t a t i o n so fb i o l o g i c a ls e q u e n c e s b a s e do nb i o l o g i c a lb a c k g r o u n da n ds t r u c t u r e so fb i o l o g i c a ls e q u e n c e s ,p r o v i d e dn e wm e t h o d f o rc l a s s r i n g ,a n a l y z i n g ,c o m p a r i n ga n ds t o r i n go fb i o l o g i c a ls e q u e n c e s ,e t c a n dd i s c u s s e d c o n c r e t ea p p l i c a t i o n so ft h e s er e p r e s e n t a t i o nm e t h o d st oa n a l y s i so fs i m i l a r i t yc o n s t r u c t i o n s o fe v o l u t i o n a r yt r e ep r o b l e m so fb i o l o g i c a ls e q u e n c e s ,e t c t h em a i nr e s u l t s ,o b t a i n e di nt h i s d i s s e r t a t i o n m a yb es u m m a r i z e da sl b l l o w s : 1 t h ed n as e q u e n c e sa n da m i n oa c i ds e q u e n c e sh a v eb e e nt r a n s l a t e di n t o2 - dg r a p h i c a l r e p r e s e n t a t i o n s t h e2 - dg r a p h i c a lr e p r e s e n t a t i o n so fd n as e q u e n c e sa n da m i n oa c i ds e q u e n c e s a r es i m i l a rt ot h em o l e c u l a rs t r u c t u r e 鏟a p h s t h e r e f o r ew em a k eu s eo fc h e m i s t r ym e t r o l o g y m e t h o dt oc o m p u t ei n v a r i a n t so fg r a p h s - b a l a b a ni n d e x ,d i s t r i b u t i o ni n d e xa n dt h ea v e r a g e b a n d w i d t h so fc o r r e s p o n d i n gd i s t a n c em a t r i xa n dc o n s i d e rt h e ma sas e to fi n v a r i a n t sf o rt h e d n ap r i m a r ys e q u e n c e sa n da m i n oa c i ds e q u e n c e s s i m i l a r i t ya n dd i s s i m i l a r i t ya n a l y s i sb a s e d o ni n v a c i a n t so fd n ap r i m a r ys e q u e n c e sa n dd n i n oa c i ds e q u e n c e sa c eg i v e nf o rt h ef i r s te x o n g e n e so f 口g l o b i no fn i n es p e c i e s :h u m a n ,g o a t ,g a l l u s ,o p o s s u m ,l e m u r ,m o u s e ,r a b b i t ,r a t , g o r i l l aa n ds i xy a r 0 2 9 we t c 2 w ed e s c r i b et h ed n ap r i m a r ys e q u e n c e ar a n d o mw a l k w i t ht h ed e s c r i p t i o n ,t w o r a n d o ms e q u e n c e s y m ) a n d x n ) c o r r e s p o n dt oad n as e q u e n c e ,a n dg r a p h i c a lr e p r e s e n t a t i o n s o f d n as e q u e n c e s a r e g i v e n 踮w e l l w e f u r t h e r p r o v e t h a t t w or a n d o m s e q u e n c e s y m ) a n d x n ) h a v et h eq u a l i t yo fm a c k o vc h a i n s b a s e do ht h eg r a p h i c a lr e p r e s e n t a t i o n so fd n a ,t r a n s i t i o n p r o b a b i l i t yd i s t r i b u t i o n s ,c o r r e l a t i o n sa n dn u m e r i c a lc h a r a c t e r i z a t i o n so fr a n d o ms e q u e n c e sa r e g i v e n w ei n t r o d u c es e i n en e wi n v a c i a n t sf o rt h ed n ap r i m a r ys e q u e n c e sa l s o t h e nu s i n gt h e s e i n v a r i a n t s w ec o m p a r e dp r i m a r ys e q u e n c e sf o re x o n - 1o ff l - g l o b i ng e n e st h a tb e l o n gt on i n e s p e c i e sf o ra n a l y z i n gt h es i m i l a r i t ya n dd i s s i m i l a r i t y 3 c o n s t r u c t i o no fp h y l o g e n e t i ct r e e si sk e ym e a n si nm o l e c u l a re v o l u t i o n a r ys t u d i e s w e p r o p o s ean e wm e t h o df o rp h y l o g e n e t i ca n a l y s i s ,b a s e do ng r a p h i cr e p r e s e n t a t i o n so fd n a s e q u e n c e s u t i l i z i n gt h ei n v a c i a n t so fg r a p h s ,w eg i v et h ed i s t a n c em e a s u r eo fd n as e q u e n c e s a n dd e f i n et h ed i s t a n c eb e t w e e ns p e c i e s w eh a v ec h o s e nm i t o c h o n d r i a ld n as e q u e n c e so f 3 0s p e c i e sa n dc o n s t r u c t e dt h e i rp h y l o g e n e t i ct r e e ss u c c e s s f u l l y t h em e t h o dd o e sn o tr e q u i r e s e q u e n c ea l i g n m e n ta n di st o t a l l ya u t o m a t i c 4 t h es e q u e n c e so fr n as e c o n d a r ys t r u c t u r eo nt h ec o m p l e xp l a n ea r ed e s c r i b e da s2 - d r a n d o mw a l k s ar a n d o mw a l kc u r v ea n dar a n d o mc o m p l e xn u m e r i c a ls e q u e n c ea r eo b t a i n e d w ed e f i n eaf u n c t i o nb e t w e e nt h en u e l e o t i d es e t sa n dt h ep o i n ts e t si nt h e6 - ds p a c e t h e r e f o r e , w eg e tt h e6 - d i m e n s i o n a lr e p r e s e n t a t i o no fr n as e c o n d a r ys t r u c t u r ei nt h e6 - ds p a c eb yt h i s f u n c t i o n f u r t h e r m o r e ,w et r a n s f o r mt h er e p r e s e n t a t i o n si n t om a t r i c e sa n dc h a r a c t e r i s t i cv e c t o r s i i i w ea n a l y z et h es i m i l a r i t yo ft h er n as e c o n d a r ys t r u c t u r e so fa i m v - 3a n dt h eo t h e r8k i n d so f v i r u s e sb yu s i n gt h en u m e r i c a lr e p r e s e n t a t i o no fr a n d o mc o m p l e xn u m e r i c a ls e q u e n c e :m o d u l e , p h a s e ,a n dt h em a t r i xi n v a r i a n t - t h el e a d i n ge i g e n v a l u e so ft h em a t r i xa n dt h ed i s t a n c e sb e t w e e n t h ec h a r a c t e r i s t i cv e c t o r s ,w h i c hd e s c r i b et h es e q u e n c e s 5 t h er n ae e c o n d u r ys t r u c t u r es e q u e n c e sa r et r a n s l a t e di n t o ”s p e c t r u m l i k e ”a n d z i g z a gc u r v e ”r e p r e s e n t a t i o n s lf r o mw h i c hw eg e tt h r e er e c u r s i v ef o r m u l a ,a n do b t a i ni - d t2 - d a n d3 - dg r a p h i c a lr e p r e s e n t a t i o n so fr n as e c o n d a r ys t r u c t u r es e q u e n c e sb yt h et h r e er e c u r s i v e f o r m u l a f u r t h e r m o r eu s i n gt h e1 - dg r a p h i c a lr e p r e s e n t a t i o n ,w ep r o p o s ef r e q u e n c y d o m a i n a n a l y s i sm e t h o do fr n as e c o n d a r ys t r u c t u r es e q u e n c e s 6 。w eg i v ean e w2 - dg r a p h i c a lr e p r e s e n t a t i o no fp r o t e i ns e q u e n c e eb a s e do nn u c l e o t i d e t r i p l e tc o d o n si nt h eh a l fc o m p l e xp l a n e ,w h i c hh a sn od e g e n e r a c y m e a n w h i l eu s i n gm a i n c h a r a c t e r i z a t i o no fc o m p l e xv e e t o r :m o d u l ea n dp h a s e ,w eg i v eak i n do fn u m e r i c a ld e s c r i p t i o n o fp r o t e i ns e q u e n c e s a l s oi nt h e3 - ds p a c e ,w ea s s i g nt h e2 0a m i n oa c i d st o2 0v e r t i c e so ft h e d o d e c a h e d r o n b yt h es y m m e t r yo ft h ed o d e c a h e d r o nw eo b t a i n3 - dr e p r e s e n t a t i o no f2 0a m i n o a c i d s ,a n d3 - dg r a p h i c a lr e p r e s e n t a t i o na n dt h ec o r r e s p o n d i n gn u m e r i c a ls e q u e n c eo fp r o t e i n s e q u e n c e s a n ds i m i l a r i t ya n dd i s s i m i l a r i t ya n a l y s i sb a s e do nt h ei n v a r i a n t so fg r a p h sa n d c h a r a c t e r i s t i c so fn u m e r i c a ls e q u e n c e sa r eg i v e nf o rn i n er n as e c o n d a r ys t r u c t u r e so fr n a 一3o f v i r u s w ec o n s t r u c ts e q u e n c ep h y l o g e n e t i ct r e eo fag r o u po fc y t o c h r o m e scp r o t e i n k e y w o r d s :d n as e q u e n c e s ;p r o t e i n ;r n as e c o n d a r ys t r u c t u r e ;n u m e r i c a lc h a r a c t e r i z a t i o n ; g r a p h i c a lr e p r e s e n t a t i o n ;d i s t a n c em a t r i x ;l e a d i n ge i g e n v a l u e ;s e q u e n c ei n v a r i a n t ;p h y l o g e n e t i c t r e e i v 1 緒論 本章介紹了生物序列研究的背景、理論意義及應(yīng)用價(jià)值、生物序列的圖形表示 研究概況以生物序列的比較分析為背景,介紹了圖形表示在生物信息學(xué)和計(jì)算分 子生物學(xué)中的廣泛應(yīng)用。同時(shí)列出本文取得的主要結(jié)果。 1 1 生物序列研究的背景、理論意義及應(yīng)用價(jià)值 隨著人類基因組測(cè)序計(jì)劃的完成,人們的研究重點(diǎn)由測(cè)序轉(zhuǎn)向功能基因組的研究。 同樣,生物信息學(xué)也經(jīng)歷了由最初主要將基因組測(cè)序計(jì)劃完成的序列數(shù)據(jù)通過數(shù)據(jù)庫(kù)進(jìn) 行存儲(chǔ),到有效利用包括生物大分子的三維結(jié)構(gòu)、代謝途徑和基因表達(dá)等各類數(shù)據(jù)的發(fā) 展過程現(xiàn)在和將來(lái),科學(xué)家們將著重于研究d n a 序列信息,蛋白質(zhì)結(jié)構(gòu)信息,以及它 們之間的相互作用。破譯每一水平的生物信息提出了與基因或蛋白質(zhì)有關(guān)的統(tǒng)計(jì)和組合 數(shù)學(xué)問題生物信息的急劇增長(zhǎng)也帶來(lái)了對(duì)計(jì)算機(jī)科學(xué)的挑戰(zhàn)。為此,計(jì)算分子生物學(xué) 和生物信息學(xué)便應(yīng)運(yùn)而生。 生物信息學(xué)大量地在生物學(xué)中引入了數(shù)學(xué)模型,它標(biāo)志著生物學(xué)已經(jīng)從實(shí)驗(yàn)科學(xué)向 理論學(xué)科轉(zhuǎn)變。對(duì)于生物學(xué)本身而言,這就是一次從量變到質(zhì)變的飛躍。在生物信息學(xué) 形成以前,一切的生物學(xué)理論的發(fā)展都是通過大量的實(shí)驗(yàn)證據(jù)所得到的經(jīng)典理論,然而 生物信息學(xué)的加入之后,生物學(xué)理論的研究用于指導(dǎo)、驗(yàn)證試驗(yàn)生物學(xué)這將會(huì)使得試 驗(yàn)生物學(xué)的目的更加明確,并且也將會(huì)大大縮短試驗(yàn)周期 生物信息學(xué)的產(chǎn)生將生物學(xué)、信息學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、物理學(xué)等多門學(xué)科有機(jī) 的整合為個(gè)新興學(xué)科,這一學(xué)科領(lǐng)域的建設(shè)必然會(huì)推動(dòng)上述諸多學(xué)科的進(jìn)一步發(fā)展。 與此同時(shí),在生物信息學(xué)建設(shè)的過程中,又以此為基礎(chǔ)萌生出一系列分支科學(xué),如d n a 計(jì)算等。所有的這一切,其最直接的意義便是給各個(gè)領(lǐng)域帶來(lái)了無(wú)限的商機(jī),孕育了一 個(gè)美好的市場(chǎng)。另一方面,伴隨生物信息學(xué)的發(fā)展,人類必將揭示更多的生命活動(dòng)本質(zhì) 規(guī)律,其中當(dāng)然會(huì)有很多是與人類自身健康、疾病、衰老等相關(guān)的生物信息,而它們的 發(fā)展必然導(dǎo)致新藥物的設(shè)計(jì)與研發(fā)周期大幅度變短以及基因治療的最終實(shí)現(xiàn),從而徹底 地改變?nèi)祟愖陨淼拿\(yùn),這無(wú)疑是人類文明的又一次飛躍。當(dāng)然,在這一過程中產(chǎn)生的 巨大經(jīng)濟(jì)效益是現(xiàn)在無(wú)法估量的 生物信息學(xué)主要研究生物信息的采集、處理、存儲(chǔ)、傳播、分析和解釋等方面內(nèi)容 的- - n 學(xué)科它利用生物學(xué)、計(jì)算機(jī)科學(xué)和信息技術(shù)綜合分析大量而復(fù)雜的生物數(shù)據(jù), 揭示其所蘊(yùn)涵的生物學(xué)意義具體地說,生物信息學(xué)是把基因組d n a 序列信息分析作為 源頭,在獲得蛋白質(zhì)編碼區(qū)的信息后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè),最后依據(jù)特定蛋 白質(zhì)的功能進(jìn)行必要的藥物設(shè)計(jì) 大連理工大學(xué)博士學(xué)位論文:生物序列的圖形表示及其應(yīng)用 計(jì)算分子生物學(xué)不僅是生物信息學(xué)的前身,更是生物信息學(xué)的核心部分。可以說, 對(duì)生物信息學(xué)的研究中數(shù)學(xué)技術(shù)發(fā)揮著重要作用。隨著生物信息學(xué)算法的不斷完善,已 能進(jìn)行生物序列家族或同源性分析;進(jìn)行生物序列的聚類,建立進(jìn)化樹并確定生物序列 間的進(jìn)化關(guān)系;進(jìn)行代謝途徑相關(guān)基因的同源性分析,以及獲取其它生物代謝途徑的相 關(guān)信息等。其中生物序列的比較是生物信息學(xué)中最基本的問題,因?yàn)閷?duì)于d n a 序列,即 使我們考慮他的一個(gè)很短的片斷,我們也不可能直接得出它表示的對(duì)象所具有的全部信 息。然而如果我們比較不同的生物序列就有可能得到某些重要信息。然而這個(gè)問題非常 復(fù)雜,至今還有許多未解決的問題總之,對(duì)生物序列進(jìn)行分析和比較是生物信息學(xué)的 最基本也是最重要的課題之一,同時(shí)對(duì)生命科學(xué)的研究具有深遠(yuǎn)的意義f 1 3 0 1 3 9 1 。 1 2 生物序列的圖形表示研究概況 生物序列一般是指d n a 、r n a 序列或蛋白質(zhì)序列。而d n a 、r n a 和蛋白質(zhì)序列 都是由較小的單元組成的無(wú)分枝的線性聚合體大分子。對(duì)于d n a ,這些單元是a ( 腺嘌 呤) 、c ( 胞嘧啶) 、g ( 鳥嘌呤) 和t ( 胸腺嘧啶) 這4 種核苷酸殘基;對(duì)于r n a ,這些單 元是a ,c ,g 和u ( 尿嘧啶) 這4 種核苷酸殘基;對(duì)于蛋白質(zhì)這些單元是2 0 種氨基酸,即 a ( 丙氨酸) 、c ( 半胱氨酸) 、d ( 天冬氨酸) 、e ( 谷氨酸) 、f ( 苯丙氨酸) 、g ( 甘氨酸) 、 h ( 組氨酸) 、i ( 異亮氨酸) 、k ( 賴氨酸) 、l ( 虐氨酸) ,m ( 甲硫氨酸) 、n ( 天冬酰氨酸) 、 p ( 脯氨酸) 、q c 谷氨酰胺酸) r ( 精氨酸) 、s ( 絲氨酸) 、t ( 蘇氨酸) 、v ( 纈氨酸) 、w ( 色 氨酸) 和y ( 酪氨酸) 。這樣,一個(gè)d n a ( r n a ) 序列可以看作是在一個(gè)有4 個(gè)字母的字母 表 廠= a ,c ,g ,t ( u ) ) 上的字( w o r d ) ,同樣,蛋白質(zhì)序列也可以看作是一個(gè)在2 0 個(gè)字 母表m = 協(xié),c ,d ,e ,f ,g ,h ,i ,k ,l ,m ,n ,eq ,r ,s ,t ,v ,w ,y 上的字( w o r d ) 。而 r n a ( d n a ) 二級(jí)結(jié)構(gòu)是由自由基( f r e eb a s e ) 和基對(duì)a u ( a t ) 和c g 組成的,在一定 程度上,r n a ( d n a ) 二級(jí)結(jié)構(gòu)經(jīng)過處理后都可以轉(zhuǎn)化為線性序列, 生物信息學(xué)的理論分析已成為生物信息學(xué)又一種主要的研究手段,是生物學(xué)家獲取 信息的另一途徑和生物信息學(xué)顯示其價(jià)值的窗口,也是大的基因組研究中必不可少的。 如前所述,生物序列的傳統(tǒng)表示是由字母來(lái)表示的,這種表示具有自身的優(yōu)點(diǎn),但是隨 著計(jì)算機(jī)技術(shù)的發(fā)展和可視化要求的提高,它固有的缺點(diǎn)也隨之暴露出來(lái)在生物序列 的研究分析中,對(duì)生物序列的有效表示,發(fā)揮很大的作用。自從1 9 8 3 年由e h a m o r i 和 j r u s k i n 1 】提出了d n a 序列圖形表示的思想一將d n a 序列表示為一條平面或空間中 的睦線,把d n a 序列的研究帶進(jìn)了一個(gè)新的研究領(lǐng)域。自此國(guó)內(nèi)外不少化學(xué)專家如m r a n d i c ,a n a n d y 以及國(guó)內(nèi)郭曉峰、廖波和王天明等人提出了生物序列的眾多的不同維 的圖形表示 7 - 1 6 】, 1 7 2 3 】,f 2 5 - 2 7 ,【2 s - 3 1 , 3 2 ,4 3 ,4 4 ,6 6 ,7 7 】, 9 4 1 2 1 ,【1 2 3 - 1 2 5 1 m r a n d i c 等人還基于他們的圖形表示,將d n a 序列轉(zhuǎn)化為矩陣等數(shù)學(xué)表示,進(jìn)一步用矩 陣不變量來(lái)研究d n a 序列,取得了很好的結(jié)果 7 3 1 ,1 2 0 生物序列的圖形表示主要 應(yīng)用在序列相似性分析和基因識(shí)別等方面 2 8 3 1 ,3 3 ,1 0 0 1 0 5 】。我國(guó)著名理論物理專家 張春霆院士也提出了一種d n a 序列的幾何圖形表示一z 曲線,z 曲線是表示d n a 序列 的一個(gè)等價(jià)的三維空間曲線【4 9 】通過對(duì)z 鹽線的研究來(lái)對(duì)基因組序列進(jìn)行研究是一種 幾何學(xué)的途徑,這種新穎的學(xué)術(shù)觀點(diǎn)為引進(jìn)更多的數(shù)學(xué)工具來(lái)分析生物序列提供了廣闊 2 第1 章縫論 的前景天津大學(xué)生物信息中心用這種思路研究了真核和原核基因組中若干重要問題, 這樣的思路是切實(shí)可行的原則上說,基因組中的許多問題都可以通過這種途徑加以解 決,這種獨(dú)樹一幟別開生面的研究思路已經(jīng)得到國(guó)內(nèi)外學(xué)術(shù)界的普遍好評(píng)和認(rèn)可,越來(lái) 越多的學(xué)者,加入到對(duì)z 曲線研究的符列中來(lái)( 4 6 5 q 可以蕷見,用幾何學(xué)方法研究基 因組將會(huì)有一個(gè)廣闊的發(fā)展空同。 d n a 是攜帶生物遺傳信息的主要大分子,但r n a 是大部分病毒的遺傳物質(zhì),并且 r n a 還參與蛋白質(zhì)的合成,與細(xì)胞分化,代謝,記憶的儲(chǔ)存等有重要關(guān)系正是由于r a c a 具有的這些特殊屬性,目前越來(lái)越多的人開始關(guān)注r n a ,最近,廖波和王天明鑒于現(xiàn)有 比較r n a 二級(jí)結(jié)構(gòu)相似性的算法受不帶很鍺的限制,首次提出用幾何圖形表示r n a = 級(jí)結(jié)構(gòu) 1 0 1 一x 0 5 根據(jù)k n a = 級(jí)結(jié)構(gòu)組成和核苷酸a ,c ,g ,u 的化學(xué)結(jié)構(gòu)分類,他們 給出了k n a 二級(jí)結(jié)構(gòu)的種3 _ d 圖形表示和6 - d 圖形表示法,井利用這些表示的數(shù)據(jù) 特征來(lái)比較r n a 二級(jí)結(jié)構(gòu)的相似性。 以上這些表示都還有各自的缺陷,主要表現(xiàn)在以下幾點(diǎn):( 1 ) 有退化現(xiàn)象;( 2 ) 對(duì)完 整序列麗言,使甩的數(shù)學(xué)不變量計(jì)算太復(fù)雜,有鵠甚至還沒有算法解決;( 3 ) 缺乏表征 生物序列特征的更多的靈敏度足夠好的數(shù)學(xué)不變量。另有關(guān)生物序列( d n a 序列、砌i a 序列和蛋白質(zhì)序列) 的圖形表示的應(yīng)用研究還很少 1 3 本文的主要工作 計(jì)算分子生物學(xué)的研究對(duì)象是與基因和蛋白序列有關(guān)的組臺(tái)和計(jì)算問題計(jì)算分子 生物學(xué)的主要課題有:序列組合,序列分析,生物信息資料庫(kù),基因認(rèn)定,種族樹的構(gòu) 建以及結(jié)構(gòu)預(yù)測(cè)等從計(jì)算理論的角度來(lái)講,它們都是難處理的;換句話講,我們并不知 道是否存在有效的算法去解決這些問題目前的研究集中在設(shè)計(jì)好的近似算法或概率算 法;這些算法雖然并不能對(duì)有關(guān)向題的每一個(gè)實(shí)例都能求出好的解,但對(duì)大多數(shù)實(shí)僦卻 行之有效本文就針對(duì)某些算法的缺陷性,我們考慮用其他方法來(lái)試圖解決問題比如我 們更進(jìn)一步的用新的幾何圖形表示的方法( 理論分析方法) 來(lái)比較生物序列的相似性等 本文主要給出了生物序列的一些新的圖形表示,并利用生物序列的圖形表示尋求新 的特征數(shù)值,利用這些特征數(shù)值來(lái)比較和分析了生物序列( 主要是相似性) 。進(jìn)而將相似性 轉(zhuǎn)化為距離記分構(gòu)建物種進(jìn)化樹、構(gòu)造蛋白質(zhì)序列進(jìn)化樹等方面做了一些砑究和探討。 本文的主要內(nèi)容如下: 在第= 章將d n a 序列和氨基酸序列轉(zhuǎn)化為2 - d 圖形表示,d n a 序列和氨基酸序 列轉(zhuǎn)化的二維圖形類似于分子結(jié)構(gòu)圖,由此我們借助化學(xué)計(jì)量學(xué)方法計(jì)算了在經(jīng)轉(zhuǎn)換所 得圖的基礎(chǔ)上衍生出圖的不變量( 數(shù)學(xué)不變量) i = i a l a b a n 指數(shù) 2 4 1 和信息分布指數(shù)以及圖 對(duì)應(yīng)的匿論距離矩陣的平均頻帶寬度并利用這些拓 指數(shù)作為d n a 序列的不變量分 析了h u m a 吼g d a t g a l l u s ,o p o s s u m ,l e m u r ,i n o l l s e ,r a b b i t ,r a t ,g o r i l l a 等9 個(gè)物種的口- 堪蛋 白( # 如b i ) 基因的第一個(gè)外顯子d n a 序列和6 種y a r 0 2 9 w 等氨基酸序列的相似性和非相 似性。 在第三章里,用1 - d 隨機(jī)游動(dòng)來(lái)描述d n a 序列,得到了d n a 序列對(duì)應(yīng)的兩個(gè)隨機(jī) 序列 y 小和 x 。) ,進(jìn)而驗(yàn)證了兩個(gè)隨機(jī)序列 y 。) 和 x 。) 都是馬爾可夫鏈,同時(shí)也 3 大連理工大學(xué)博士學(xué)位論文:生物序列的圖形表示及其應(yīng)用 得到了d n a 序列的1 - d 游動(dòng)曲線表示?;赿 n a 序列的圖形表示以及馬爾可夫鏈的轉(zhuǎn) 移概率分布、信息熵和隨機(jī)序列的數(shù)字特征得到了d n a 序列的一些新的數(shù)學(xué)不變量,進(jìn) 而利用這些數(shù)學(xué)不變量來(lái)比較了9 個(gè)不同物種的盧球蛋白基因的第一個(gè)外顯子的d n a 序列的相似性 現(xiàn)有的方法一般是基于多個(gè)序列比對(duì)的最大節(jié)約法( m a x i m u mp a r s i m o n y ,m p ) 、最大 似然法( m a x i m u ml i k e l i h o o d ,m l ) 和距離法。一種稱為貝葉斯推斷的統(tǒng)計(jì)學(xué)方法也開始使 用。在第四章,我們基于距離法的n j 算法提出了一種新的方法:在張春霆、廖波和王天 明等提出的d n a 序列3 - d 圖形表示的基礎(chǔ)上 4 9 ,3 0 ,利用圖的不變量給出了序列之間 的距離度量,進(jìn)而定義了物種進(jìn)化距離,把它應(yīng)用到基于d n a 序列分析的生物系統(tǒng)進(jìn)化 樹構(gòu)建的研究中選取人類等3 0 個(gè)物種線粒體d n a 序列為材料,得到的結(jié)果與傳統(tǒng)的 根據(jù)物種形態(tài)和其他方法構(gòu)建的系統(tǒng)進(jìn)化樹基本一致。 在第五章,在廖波提出的r n a 二級(jí)結(jié)構(gòu)特征序列【1 0 2 和張春霆的z 曲線表示 4 9 的基礎(chǔ)上,根據(jù)r n a 二級(jí)結(jié)構(gòu)中自由基和基對(duì)的化學(xué)結(jié)構(gòu)分類,在復(fù)平面上用二維隨 機(jī)游動(dòng)來(lái)描述了r n a 二級(jí)結(jié)構(gòu)序列,得到了對(duì)應(yīng)的隨機(jī)游動(dòng)曲線和隨機(jī)復(fù)數(shù)字序列。在 6 - d 空間中定義了使核苷酸集與點(diǎn)集之間一一對(duì)應(yīng)的函數(shù),進(jìn)而利用這個(gè)函數(shù)在6 - d 空 間中得到了r n a 二級(jí)結(jié)構(gòu)的6 - d 表示,然后基于6 - d 表示把它轉(zhuǎn)化為矩陣q 表示和特 征向量表示。并利用r n a 二級(jí)結(jié)構(gòu)對(duì)應(yīng)的隨機(jī)復(fù)數(shù)字序列的數(shù)字特征:模和相位,以及 0 矩陣不變量:矩陣的最大特征值,特征向量作為序列不變量來(lái)分析了a i m v 3 等9 種 病毒的r n a 二級(jí)結(jié)構(gòu)序列的相似性 在第六章,結(jié)合z u p a n 和r a n d i c 提出的把d n a 序列映射為“波譜線”和“z 型” 的1 - d 、2 - d 和3 - d 圖形表示的運(yùn)算法則 9 4 】,給出了把r n a 二級(jí)結(jié)構(gòu)的特征序列映射 為“波譜線”和“z 型曲線”表示的三個(gè)遞歸公式: 砟m ) = 塾掣 r ( x i + i , m ) = 墮盟雩型型 r ( x i + l , y i + l , z i + 1 ) = 塑型監(jiān)摯劍 其中,d 為任意非零實(shí)數(shù)。利用這三個(gè)遞歸公式同樣給出了r n a 二級(jí)結(jié)構(gòu)序列的1 - d 、 2 - d 和3 - d 圖形表示,進(jìn)一步利用1 - d 圖形表示給出了關(guān)于r n a 二級(jí)結(jié)構(gòu)序列頻譜分析 的方法 在第七章,在d n a 蘭聯(lián)體密碼子表示的基礎(chǔ)上,在半復(fù)平面上給出了蛋白質(zhì)序列的 非退化的2 - d 圖形表示,同時(shí)利用復(fù)向量的主要特征一模和相位,給出了蛋白質(zhì)序列的 一種數(shù)值刻劃。還有在3 - d 空間里,把2 0 種氨基酸分別分配給正1 2 面體的2 0 個(gè)頂點(diǎn), 根據(jù)正1 2 面體的對(duì)稱性得到了2 0 種氨基酸的3 - d 表示,進(jìn)而得到了蛋白質(zhì)序列的3 - d 圖形表示和對(duì)應(yīng)的數(shù)字序列,并利用圖的不變量和數(shù)字序列的特征:自相關(guān)系數(shù)和自協(xié) 方差系數(shù)來(lái)比較了9 種動(dòng)物的神經(jīng)元基因序列的相似性以及構(gòu)建了一組細(xì)胞色素c 蛋白 質(zhì)的序列進(jìn)化樹。 4 第t 章緒論 本文的主要內(nèi)容是作者近期獲得的一些結(jié)果,我們希望由此能在將來(lái)的工作中探討 數(shù)學(xué)與生物兩大學(xué)科的匯合點(diǎn)。由這些內(nèi)容的討論看到,許多數(shù)學(xué)理論與工具可在分析 生物序列領(lǐng)域內(nèi)應(yīng)用,這些問題數(shù)據(jù)豐富,背景明確,將成為研究生物信息學(xué)的有力工 具。但由于生物序列結(jié)構(gòu)的復(fù)雜性,許多問題遠(yuǎn)遠(yuǎn)沒有解決,因此繼續(xù)深入研究的發(fā)展 空間巨大。 5 2 拓?fù)渲笖?shù)的應(yīng)用:生物序羅的比較方法 本章在生物序列的二維圖形表示的基礎(chǔ)上,利用b a l a b a n 糟數(shù)和信息分布櫥敖 以及矩陣不變量一距離矩陣主對(duì)角線以外的次對(duì)角蛻之和的平均值,比較了生物序 列的相似性我們以包括人類等9 個(gè)物種的球蛋白向如b 打一基因的第一個(gè)外顯 子d n a 序列和y a r 0 2 9 w 等f(wàn) 種蛋白質(zhì)序列為例來(lái)說明談方法的應(yīng)用。 2 1 引言 在計(jì)算分子生物學(xué)中序列比較是最重要和最常用的原始操作,是許多其他更復(fù)雜操 作的基礎(chǔ)粗略地講,這一操作包括發(fā)現(xiàn)序列的類同與序列的不同兩方面,最常見的比 較是蛋白質(zhì)j 芋剮之間和核酸序列之間的兩兩比較生物序列的相似性分析是通過生物序 列的比較來(lái)實(shí)現(xiàn)的,但又不同于符號(hào)序列的序列比對(duì),其理論基礎(chǔ)是進(jìn)化學(xué)說,如果兩 個(gè)序列之間具有足夠的相似性,就推測(cè)二者可能有共同的進(jìn)化祖先,經(jīng)過序列內(nèi)殘基的 替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程演化而米。注意,序列相 似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源 需要有進(jìn)化事實(shí)的驗(yàn)證序列之閫的相似程度是數(shù)量上的多或少的判斷,而序列的同源 性判斷是質(zhì)的判斷,序列之間要么同源要么不同源 在生物信息學(xué)中,序列的比較是通過將兩個(gè)或多個(gè)核酸序列或蛋白質(zhì)序列進(jìn)行比對(duì)。 通過比對(duì)未知序列與已知序列( 尤其是功能和結(jié)梅已知的序列) 之間的相似性得到它們的 回源性來(lái)預(yù)測(cè)未知序列的功能序列比較的常用方法有:動(dòng)態(tài)規(guī)劃算法,壓縮矩陣方法, 圖形表示的數(shù)值刻劃方法所有這些方法只考慮了序列的組成( 由四種核苷酸組成的字 符串) 必及每個(gè)基的位置然而,d n a 序列的表示,儲(chǔ)存,比較都應(yīng)當(dāng)體現(xiàn)每個(gè)基的自 身的化學(xué)性質(zhì)和化學(xué)結(jié)構(gòu),傳統(tǒng)的動(dòng)態(tài)規(guī)劃算法就存在這方面的缺陷。 序列比對(duì)的基本問題是比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性或不相似性序列比 對(duì)是生物信息學(xué)的基礎(chǔ),非常重要兩個(gè)序列的比對(duì)有較成熟的動(dòng)態(tài)規(guī)劃算法有時(shí)兩 個(gè)序列總體并不很相似,但某些局部片斷相似性很高s m i t h 一、m e r i u a 算法| 3 7 是解 決局部比對(duì)的好算法缺點(diǎn)是速度較慢a l i g m e a t 算法自s m i t h w a t e r m a n 提出以來(lái), 已經(jīng)有數(shù)十種a l i g m e n t 1 3 7 算法被提出和應(yīng)用然而應(yīng)用動(dòng)態(tài)規(guī)劃算法的最大困難之一 是罰分參數(shù)的選擇在某些情況下,核酸或氨基酸的權(quán)重或插入刪除函數(shù)的微小變化在 所到的比對(duì)中產(chǎn)生很大的改變。在另一些情況下,比對(duì)對(duì)于算法參數(shù)的改變是非常穩(wěn)健 的沒有一組“正確”參數(shù):對(duì)一對(duì)序列來(lái)說,能夠找到對(duì)一種統(tǒng)計(jì)特性的有意義匹配參 數(shù),對(duì)另一種類型匹配沒有用。所以,對(duì)一大組參數(shù)值考慮序列的比較是有意義的理 7 大連理工大學(xué)博士學(xué)位論文:生物序列的圖形表示及其應(yīng)用 想情況是要對(duì)所有可能數(shù)值計(jì)算最優(yōu)比對(duì)這樣一來(lái)需要大量的計(jì)算。 壓縮矩陣最早是由r a n d i c 等人提出來(lái)的 1 4 】它來(lái)源于計(jì)算化學(xué)中化學(xué)指標(biāo)計(jì)算。 他的基本思想是先構(gòu)造一個(gè)適當(dāng)?shù)木仃噥?lái)表示一個(gè)序列,這樣序列之間的比較就轉(zhuǎn)化為 矩陣之間的比較,而且如果矩陣是數(shù)值矩陣就可以選擇一個(gè)適當(dāng)?shù)牟蛔兞窟M(jìn)而把矩陣之 問的比較轉(zhuǎn)化為比較這些不變量。這使得把復(fù)雜的問題簡(jiǎn)單化了。 利用壓縮矩陣方法來(lái)比較生物序列,不同于比對(duì)方法去直接比較生物序列,而是去 考慮這些生物序列的不變量這些不變量是從生物序列對(duì)應(yīng)的矩陣中提取出來(lái),即把初 始的生物序列轉(zhuǎn)化為數(shù)值序列,而這些數(shù)值序列的長(zhǎng)度可以依靠被選擇的不變量的性質(zhì) 并按照自己不同的需要進(jìn)行修改另外一個(gè)優(yōu)點(diǎn)在于不變量的刻劃非常簡(jiǎn)單,兩個(gè)生物 序列的比較被轉(zhuǎn)換成了生物序列對(duì)應(yīng)的數(shù)學(xué)對(duì)象的比較然而他所付出的代價(jià)是在用不 變量來(lái)刻劃和比較生物序列時(shí)同時(shí)會(huì)伴隨著某些結(jié)構(gòu)方面的信息的丟失所以如何能找 到一些更適當(dāng)?shù)膮?shù)來(lái)刻劃生物序列的特征,進(jìn)而比較和分析生物序列是值得進(jìn)一步研 究的課題 由于序列比對(duì)的動(dòng)態(tài)規(guī)劃方法和壓縮矩陣方法有如上所述的一些缺陷,使得很多人 試圖尋找其他的方法來(lái)比較生物序列最近r a n d i c f 7 9 ,1 2 ,1 4 ,1 6 1 ,n d y 1 8 2 3 ,等人 提出了一種新的方法來(lái)進(jìn)行序列的比較,這就是所謂的壓縮矩陣的不變量方法也有不 少學(xué)者給出了一些圖形表示方法如,張春霆院士【4 9 給出了一種3 - d 圖形表示一z 曲 線,廖波和王夭明提出了和他們不同的幾何圖形表示法 2 8 - 3 1 雖然這些表示不一樣, 但他們有個(gè)共同的思想就是:將生物序列轉(zhuǎn)化為圖形( 曲線) ,利用圖形構(gòu)造矩陣,再利 用矩陣不變量( 如最大特征值,次對(duì)角線上所有元素和的平均值,最大( 小) 行和,矩陣的 跡等) 來(lái)比較生物序列的相似性。賀平安和王軍【39 l 給出了d n a 的一種0 ,1 特征序列表 示法這些方法考慮了每個(gè)基的自身的化學(xué)性質(zhì)和化學(xué)結(jié)構(gòu),且這些方法的直觀性和實(shí) 用性,受到了計(jì)算分子生物學(xué)家的高度重視 拓?fù)渲笖?shù)在分子相似性比較中一直是個(gè)非?;钴S的領(lǐng)域用a n a n d y 1 7 的方法把 生物序列轉(zhuǎn)化的二維圖形類似于分子結(jié)構(gòu)圖,由此可借助化學(xué)計(jì)量學(xué)方法在轉(zhuǎn)換所得圖 的基礎(chǔ)上衍生出諸多圖的不變量( 即參數(shù)) ,因此,本章中我們把圖的不變量一拓?fù)渲笖?shù) 作為生物序列的特征數(shù)值應(yīng)用于d n a 序列和蛋白質(zhì)序列的相似性比較以下我們都以9 個(gè)不同物種的盧球蛋白基因的第一個(gè)外顯子和y a r 0 2 9 w 等6 種蛋白質(zhì)作為研究對(duì)象,見 表2 1 、表2 2 相似性的計(jì)算通常有如下三種方法;( 1 ) 計(jì)算向量終點(diǎn)之間的歐氏距離,如果兩個(gè) 向量( 它們表示序列) 的終點(diǎn)距離較小就認(rèn)為這兩個(gè)比較相似( 2 ) 計(jì)算兩向量之間的夾 角,如果兩個(gè)向量所成角比較小就認(rèn)為這兩個(gè)序列比較相似( 3 ) 計(jì)算兩向量夾角的余 弦值,如果兩個(gè)向量所成角的余弦比較大就認(rèn)為這兩個(gè)序列比較相似 8 第2 章拓?fù)渲笖?shù)的應(yīng)用:生物序列的比較方法 表2 1 :9 個(gè)不同物種的爭(zhēng)球蛋白基因的第一個(gè)外顯子堿基序列 s p e c i e sc o d i n gs e q u e n c e h u m a na t g g t g c a c c t g a c t c c t g a g g a g a a g t c t g c c g t t a c t g c c c t g t g g g g c a a g g t g a a c g t g g a t t a a g t t g g t g g t g a g g c c c t g g g c a g g o a ta t g c
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司茶藝活動(dòng)策劃方案
- 公司春節(jié)游園活動(dòng)方案
- 公司聚會(huì)創(chuàng)意活動(dòng)方案
- 公司無(wú)人文關(guān)懷活動(dòng)方案
- 公司端午宣傳活動(dòng)方案
- 公司舞會(huì)活動(dòng)方案
- 公司春節(jié)留守活動(dòng)方案
- 公司景區(qū)活動(dòng)策劃方案
- 公司熱極年會(huì)活動(dòng)方案
- 公司知識(shí)闖關(guān)活動(dòng)方案
- (2024年)面神經(jīng)炎課件完整版
- 《水電工程水土保持生態(tài)修復(fù)技術(shù)規(guī)范》
- 《茶食品與健康》課件
- 70歲以上的換領(lǐng)駕駛證三力測(cè)試題答案
- 藥品售后服務(wù)承諾書
- 露天礦防火安全知識(shí)講座
- 2024年山東煙臺(tái)財(cái)金集團(tuán)招聘筆試參考題庫(kù)含答案解析
- GB/T 43234-2023成型模斜導(dǎo)柱
- 馬工程版《中國(guó)經(jīng)濟(jì)史》各章思考題答題要點(diǎn)及詳解
- 中建公路工程10T龍門吊安拆方案
- 2023年石獅市國(guó)企招聘考試基礎(chǔ)題庫(kù)
評(píng)論
0/150
提交評(píng)論