第十八章生物信息學(xué)導(dǎo)論_第1頁
第十八章生物信息學(xué)導(dǎo)論_第2頁
第十八章生物信息學(xué)導(dǎo)論_第3頁
第十八章生物信息學(xué)導(dǎo)論_第4頁
第十八章生物信息學(xué)導(dǎo)論_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十八章生物信息學(xué)導(dǎo)論第一頁,共九十四頁,2022年,8月28日主要內(nèi)容生物信息學(xué)概述基因組信息學(xué)

第二頁,共九十四頁,2022年,8月28日生物信息學(xué)概述本節(jié)主要內(nèi)容什么是生物信息學(xué)基因組、轉(zhuǎn)錄組、蛋白質(zhì)組生物信息學(xué)有什么用

生物信息學(xué)的起源

生物信息學(xué)往哪里去

第三頁,共九十四頁,2022年,8月28日概述什么是生物信息學(xué)

生物信息學(xué)是生物學(xué)和信息科學(xué)與技術(shù)的結(jié)合所派生出來的一門新興學(xué)科,包括了用來管理、分析和操作大規(guī)模生物數(shù)據(jù)集的任何計(jì)算方法和工具,也就是說生物信息學(xué)是一個(gè)為現(xiàn)代生物學(xué)的各個(gè)分支,如生物學(xué)、分子生物學(xué)、生物化學(xué)、生物物理學(xué)等,服務(wù)的數(shù)學(xué)和計(jì)算機(jī)科學(xué)與技術(shù)的整合平臺(tái)。

第四頁,共九十四頁,2022年,8月28日概述基因組、轉(zhuǎn)錄組、蛋白質(zhì)組

現(xiàn)在,生物學(xué)研究的范式已經(jīng)發(fā)生了變化,生物學(xué)家已經(jīng)不像上世紀(jì)60-80年代的同行那樣滿足于研究單個(gè)基因和蛋白質(zhì),而是對(duì)一類細(xì)胞或組織中的所有基因和蛋白質(zhì)同時(shí)感興趣,希望了解這些生物分子之間是通過什么樣的途徑實(shí)現(xiàn)生命過程的。第五頁,共九十四頁,2022年,8月28日概述基因組、轉(zhuǎn)錄組、蛋白質(zhì)組

基因組是一個(gè)細(xì)胞或組織內(nèi)全部基因的集合;轉(zhuǎn)錄組是一個(gè)細(xì)胞或組織內(nèi)全部RNA(核糖核酸)的集合;蛋白質(zhì)組是一個(gè)細(xì)胞或組織內(nèi)所有類型蛋白質(zhì)的集合。以此類推,我們還可以定義其它的“組”,例如蛋白質(zhì)相互作用組就是一個(gè)細(xì)胞或組織內(nèi)蛋白質(zhì)間所有相互作用的集合。第六頁,共九十四頁,2022年,8月28日概述基因組、轉(zhuǎn)錄組、蛋白質(zhì)組

各種組學(xué)的發(fā)展與高通量檢測(cè)與測(cè)量方法密切關(guān)聯(lián)?!案咄俊本褪谴罅康男畔⒒驑颖驹谕粫r(shí)間內(nèi)通過系統(tǒng)的任何過程。目前,這一概念被廣泛應(yīng)用于計(jì)算系統(tǒng)、藥物發(fā)現(xiàn)、組合化學(xué)以及基因組和蛋白組學(xué)。

第七頁,共九十四頁,2022年,8月28日概述生物信息學(xué)有什么用

自1990年以來,在生物醫(yī)學(xué)科學(xué)領(lǐng)域,生物信息學(xué)已經(jīng)成為生命科學(xué)研究和發(fā)展整體中的一個(gè)重要組成部分。無論是處理由高通量實(shí)驗(yàn)技術(shù)產(chǎn)生的基因組、轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),還是組織、分析和管理由傳統(tǒng)的生物技術(shù)收集到的數(shù)據(jù),生物信息學(xué)都扮演著極其重要的角色。第八頁,共九十四頁,2022年,8月28日概述生物信息學(xué)有什么用

上世紀(jì)80-90年代建立的,以核苷酸或氨基酸序列為基礎(chǔ)的,分析單個(gè)基因和蛋白質(zhì)的方法被用于分析大量的基因和蛋白質(zhì),例如用于關(guān)聯(lián)基因簇的分析和蛋白質(zhì)相互作用網(wǎng)絡(luò)的鑒定。當(dāng)我們手中完整的基因組序列越來越多時(shí),生物信息學(xué)就能夠?yàn)樘剿骷?xì)胞和組織的系統(tǒng)功能與行為提供原理基礎(chǔ)和常用方法。第九頁,共九十四頁,2022年,8月28日概述生物信息學(xué)的起源

分子序列數(shù)據(jù)的指數(shù)性增長(zhǎng)始于20世紀(jì)80年代。當(dāng)時(shí),DNA測(cè)序技術(shù)已趨完善,并作為常規(guī)實(shí)驗(yàn)手段得到廣泛的應(yīng)用,測(cè)序得到的數(shù)據(jù)被收集到數(shù)據(jù)庫(kù)中。比如目前仍有廣泛影響力的三個(gè)生物信息學(xué)一級(jí)數(shù)據(jù)庫(kù)GenBank,EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室核苷酸序列數(shù)據(jù)庫(kù)),和DDBJ(日本DNA數(shù)據(jù)銀行)。另外PIR(蛋白信息資源)和SWISS-PROT是蛋白質(zhì)方面非常重要的數(shù)據(jù)庫(kù)。數(shù)據(jù)的提取與分析的計(jì)算方法的發(fā)展是并行的。計(jì)算方法包括序列相似性比較與搜尋算法、結(jié)構(gòu)與功能預(yù)測(cè)方法等等。

第十頁,共九十四頁,2022年,8月28日概述生物信息學(xué)的起源

現(xiàn)今的“生物信息學(xué)”始于上世紀(jì)80年代計(jì)算生物學(xué)。后者主要包括DNA和蛋白質(zhì)的序列分析以及蛋白質(zhì)的三維結(jié)構(gòu)分析。上世紀(jì)最后十年的基因組計(jì)劃所形成的沖擊不僅是序列數(shù)據(jù)的增加,還包括了分子生物數(shù)據(jù)的多樣性。一個(gè)基因組序列所展示的不僅是一個(gè)完整的基因集合和它們?cè)谌旧w中的精確定位,而且包括基因組和跨物種間的基因相似性關(guān)聯(lián)。第十一頁,共九十四頁,2022年,8月28日概述生物信息學(xué)的起源DNA自動(dòng)測(cè)序構(gòu)成過巨大的沖擊,因?yàn)樗?jīng)是各種生物學(xué)數(shù)據(jù)高通量產(chǎn)出的前沿陣地。像表達(dá)序列標(biāo)簽(ESTs),單核苷多態(tài)性(SNPs)都和基因序列密切相關(guān)。隨后發(fā)展的研究基因表達(dá)模式(profile)的DNA微陣列技術(shù)、用于探測(cè)蛋白質(zhì)相互作用的酵母雙雜交系統(tǒng)、以及質(zhì)譜技術(shù)極大地讓生命科學(xué)類數(shù)據(jù)庫(kù)飛速膨脹。結(jié)構(gòu)基因組學(xué)方面的新技術(shù)還不能大規(guī)模地產(chǎn)生數(shù)據(jù),但它們正在導(dǎo)致蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)的增加。

第十二頁,共九十四頁,2022年,8月28日概述生物信息學(xué)的起源除了積累各種生物化學(xué)與分子生物學(xué)數(shù)據(jù)的實(shí)驗(yàn)技術(shù)的不斷發(fā)展,二十世紀(jì)后十年同樣見證了信息技術(shù)的發(fā)展。單項(xiàng)最重要的事件是互聯(lián)網(wǎng)時(shí)代的到來。人們用它來傳遞、訪問數(shù)據(jù),瀏覽公共出版物等。生物信息學(xué)的興起很大程度上歸功于需要用復(fù)雜的方法處理與分析大規(guī)模生物學(xué)數(shù)據(jù),但是互聯(lián)網(wǎng)也是功臣,因?yàn)樗陌l(fā)明使得用戶訪問數(shù)據(jù)與軟件的開發(fā)比過去容易了許多。

第十三頁,共九十四頁,2022年,8月28日概述生物信息學(xué)往哪里去盡管最近十年來,高通量檢測(cè)技術(shù)與信息技術(shù)的結(jié)合讓人們認(rèn)識(shí)了大量的基因和蛋白質(zhì),但是和物理學(xué)、化學(xué)相比較,生物學(xué)仍舊是一門不成熟的學(xué)科,因?yàn)閷?duì)于生命過程,我們無法根據(jù)一般性原理做出像衛(wèi)星軌道那樣精確的預(yù)測(cè)。隨著數(shù)據(jù)的不斷膨脹和知識(shí)的積累,也借助于生物信息學(xué),這種情形很有可能發(fā)生改變。

第十四頁,共九十四頁,2022年,8月28日概述生物信息學(xué)往哪里去生物信息學(xué)正在逐漸演變成為一門基礎(chǔ)學(xué)科。生物信息學(xué)的最終目標(biāo)是從大規(guī)模數(shù)據(jù)中抽象出知識(shí)與原理;提出細(xì)胞以至于整個(gè)生物體的完整數(shù)學(xué)與計(jì)算機(jī)表示;進(jìn)而預(yù)測(cè)高度復(fù)雜的生物系統(tǒng)的行為,例如,預(yù)測(cè)在細(xì)胞過程中相互作用網(wǎng)絡(luò)和整個(gè)生物體的表型。表18-1簡(jiǎn)要概括了生物信息學(xué)的過去,現(xiàn)在和將來。

第十五頁,共九十四頁,2022年,8月28日概述生物信息學(xué)往哪里去

表18-1生物信息學(xué)的過去、現(xiàn)在和將來

主要內(nèi)容目的二十世紀(jì)90年代的生物信息學(xué)大規(guī)?;蚪M學(xué)與蛋白質(zhì)組學(xué)的實(shí)驗(yàn)數(shù)據(jù)形成的一級(jí)數(shù)據(jù)庫(kù)及其相應(yīng)的分析方法與工具了解單個(gè)基因和蛋白質(zhì)的功能與用途當(dāng)前的生物信息學(xué)由一級(jí)數(shù)據(jù)庫(kù)分類、歸納、注釋得到的基因組學(xué)與蛋白質(zhì)組學(xué)二級(jí)數(shù)據(jù)庫(kù)(知識(shí)庫(kù))及其相應(yīng)的分析方法與工具在分子、細(xì)胞和生物體水平了解功能與用途未來的生物信息學(xué)細(xì)胞和生物體的完全計(jì)算機(jī)表示了解生物系統(tǒng)高度復(fù)雜性的基本原理第十六頁,共九十四頁,2022年,8月28日主要內(nèi)容概述基因組信息學(xué)

第十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)基因組信息學(xué)是生物信息學(xué)的源頭,是到目前為止發(fā)展得比較完善的部分,也是應(yīng)用最為廣泛的部分。本節(jié)內(nèi)容將重點(diǎn)概述基因組生物信息學(xué)的主要特征。

第十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)本節(jié)主要內(nèi)容了不起的BLAST

BLAST已經(jīng)不夠用了

相互作用網(wǎng)絡(luò)具有更高階功能

生物信息數(shù)據(jù)庫(kù)

序列比對(duì)的動(dòng)態(tài)程序算法復(fù)雜生物系統(tǒng)

第十九頁,共九十四頁,2022年,8月28日基因組信息學(xué)

了不起的BLAST

在二十世紀(jì)后十年,生物信息學(xué)的第一個(gè)大突破是序列數(shù)據(jù)庫(kù)快速搜尋工具BLAST的引入。這個(gè)搜尋工具不僅比80年代發(fā)展起來的FASTA更有效,而且以不同的原理為基礎(chǔ)。數(shù)據(jù)庫(kù)搜尋就是將查詢的系列與序列數(shù)據(jù)庫(kù)中的每一個(gè)序列作兩兩比對(duì)。美國(guó)國(guó)家生物科技信息中心,/,提供了BLAST鏈接。第二十頁,共九十四頁,2022年,8月28日基因組信息學(xué)

了不起的BLAS

傳統(tǒng)上,比對(duì)通過優(yōu)化查詢進(jìn)行。即通過相同字母數(shù)目的最大化,或者采用氨基酸突變矩陣,使相似分?jǐn)?shù)最大化,得出優(yōu)化系列比對(duì)。當(dāng)允許間隙時(shí),對(duì)于做比對(duì)的兩個(gè)序列,具有可能性的比對(duì)數(shù)量巨大。然而,通過“動(dòng)態(tài)程序”算法,總能找到優(yōu)化的比對(duì)。動(dòng)態(tài)程序算法系統(tǒng)地修剪含有各種可能比隊(duì)的搜尋樹的數(shù)枝,不幸的是,這種算法十分耗時(shí),不適合大規(guī)模數(shù)據(jù)庫(kù)。所以,F(xiàn)ASTA的策略是采用一個(gè)被稱之為“hash”的數(shù)據(jù)結(jié)構(gòu),對(duì)兩個(gè)系列的匹配區(qū)域先做一個(gè)快速、粗略的搜尋,然后再對(duì)該區(qū)域的近鄰起用動(dòng)態(tài)程序算法。

第二十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)了不起的BLAST不同于FASTA遵循結(jié)合優(yōu)化的傳統(tǒng),BLAST之于數(shù)學(xué)統(tǒng)計(jì)與人類直覺的耦合。例如,當(dāng)人用肉眼對(duì)兩個(gè)系列作比較時(shí),我們絕對(duì)不會(huì)檢查所有可能的細(xì)節(jié),而是尋找兩個(gè)系列共同的特征,然后再嘗試擴(kuò)展這些特征得到更長(zhǎng)的匹配,因?yàn)槲覀冎狸P(guān)聯(lián)的系列傾向于含有保守的系列模體(motifs)。這就是BLAST所采取的策略。它以可靠的數(shù)學(xué)基礎(chǔ)為依據(jù),計(jì)算高分片段對(duì)(HSPs)的統(tǒng)計(jì)。高分片段對(duì)指的是分?jǐn)?shù)不可能由系列的擴(kuò)充或剪除改善的無間隙序列的局部比對(duì)。對(duì)于給定的查詢序列的組合、被搜尋的數(shù)據(jù)庫(kù)和打分系統(tǒng),可以估計(jì)打分為s的高分片段對(duì)的概率極值(Extremevalue),及所謂的E值。目前,E值已經(jīng)廣泛用來作為系列相似性統(tǒng)計(jì)顯著性估計(jì)的標(biāo)準(zhǔn)度量。第二十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)

了不起的BLAST

大約在BLAST發(fā)展的同一時(shí)期,研究人員開始收集一種不同類型的數(shù)據(jù)—以基因?yàn)榛A(chǔ)的表達(dá)序列標(biāo)簽位點(diǎn)或ESTs。該數(shù)據(jù)的收集對(duì)數(shù)據(jù)庫(kù)特征產(chǎn)生了非常大的影響。對(duì)于捕獲具體細(xì)胞或組織中表達(dá)基因的完整序列,低質(zhì)量和碎塊序列的大量收集是一條捷徑。在此方案中,無論對(duì)于在已存在的數(shù)據(jù)庫(kù)中搜尋相似性,還是對(duì)數(shù)據(jù)庫(kù)中所有的序列進(jìn)行比較以建立相似序列的簇(cluster),BLAST都是一個(gè)可選的工具。第二十三頁,共九十四頁,2022年,8月28日基因組信息學(xué)BLAST已經(jīng)不夠用了二十世紀(jì)90年代中期,人們看到了完全不同類型的大量序列數(shù)據(jù)的收集,也就是為細(xì)胞生物體的全基因組建立數(shù)據(jù)庫(kù)。目前已有100多種生物體的完全基因組序列已經(jīng)通過實(shí)驗(yàn)測(cè)定。更多生物體全基因組序列的測(cè)定正在進(jìn)行中。第二十四頁,共九十四頁,2022年,8月28日基因組信息學(xué)BLAST已經(jīng)不夠用了如果系列分析的工具不更新與改進(jìn),大規(guī)模序列數(shù)據(jù)的增加并不必然導(dǎo)致生物學(xué)知識(shí)的增加。為了增加相似序列搜尋的靈敏度,人們已經(jīng)精心設(shè)計(jì)了相應(yīng)的方法。其中最成功的有PSI-BLAST和隱馬爾柯夫模型(HMMs)。對(duì)于搜尋微弱的相似性,PSI-BLAST是極其靈敏的方法。PSI-BLAST的核心是迭代算法,從而在程序運(yùn)行過程中由標(biāo)準(zhǔn)BLAST搜尋產(chǎn)生的位置特異性打分矩陣不斷地得到改善。第二十五頁,共九十四頁,2022年,8月28日基因組信息學(xué)BLAST已經(jīng)不夠用了隱馬爾柯夫模型根據(jù)多重序列比對(duì)構(gòu)建。多重序列比對(duì)的結(jié)果可能是由ClustalW或者ClustalX產(chǎn)生的,但是它們顯含插入或刪除概率,并且能夠搜尋HMM庫(kù)以探測(cè)微妙的序列特征。另外一些成功的序列分析方法是建立在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,它極大的改善了諸如蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè);或建立在以規(guī)則為基礎(chǔ)的系統(tǒng)上,例如用于蛋白質(zhì)定位的PSORT,并被用來預(yù)測(cè)蛋白質(zhì)的各種功能特征。

第二十六頁,共九十四頁,2022年,8月28日基因組信息學(xué)BLAST已經(jīng)不夠用了尤其是,HMMs和PSI-BLAST為蛋白質(zhì)域數(shù)據(jù)庫(kù)的發(fā)展提供了便利。該數(shù)據(jù)庫(kù)可以用來對(duì)蛋白質(zhì)的分子結(jié)構(gòu)和相應(yīng)的功能單元進(jìn)行識(shí)別。通過一級(jí)數(shù)據(jù)庫(kù)所做的相似性搜尋能夠用來預(yù)測(cè)基因或蛋白質(zhì)的功能,只要該數(shù)據(jù)庫(kù)被充分注釋。由于日益增加的序列數(shù)據(jù)庫(kù),為維持?jǐn)?shù)據(jù)庫(kù)的先進(jìn)性和對(duì)數(shù)據(jù)進(jìn)行充分的注釋越來越困難,從而,就顧客來說,對(duì)二級(jí)數(shù)據(jù)庫(kù)的依賴程度越來越高。二級(jí)數(shù)據(jù)庫(kù)含有蛋白質(zhì)域和功能位點(diǎn),就這一點(diǎn)來說,這些二級(jí)庫(kù)頗像是含有“序列語言”詞匯與句子的詞典。第二十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)

BLAST已經(jīng)不夠用了隨著可以用作比較研究的基因組全序列數(shù)目的增加,人們發(fā)展了不同類型的功能預(yù)測(cè)概念與方法。著名的有“基因語境”(genecontext)和“基因內(nèi)容”(content)分析。如果將基因組看成是一串基因,那么基因語境就相當(dāng)于基因的位置關(guān)聯(lián)。基因語境分析,包括基因順序的比較和正?;蚪M的基因融合(Fusion),可探測(cè)蛋白質(zhì)的功能關(guān)聯(lián),例如探測(cè)物理相互作用亞單元、相同通路、酶、和它的調(diào)控子(regulator)的數(shù)目。

第二十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)

BLAST已經(jīng)不夠用了與基因語境分析相反,基因內(nèi)容分析是跨基因組間基因指令系統(tǒng)的比較。當(dāng)不同生物體之間兩個(gè)基因的某種相互關(guān)聯(lián)的方式出現(xiàn)或消失時(shí),這兩個(gè)基因之間或許有某種功能上的聯(lián)系。對(duì)于這種分析的一個(gè)預(yù)先要求是建立直向同源關(guān)系,即起源于共同祖先的功能相同的基因。實(shí)際上,直向同源由序列的相似性定義。常常,在基因組兩兩比對(duì)中,直向同源內(nèi)雙向最好打擊(bidirectionalbesthits)準(zhǔn)確定義。在完全測(cè)序的基因組中,對(duì)于直向同源組,在知識(shí)組織方面,COG是較早的和取得最突出成就的數(shù)據(jù)庫(kù)之一。第二十九頁,共九十四頁,2022年,8月28日基因組信息學(xué)相互作用網(wǎng)絡(luò)具有更高階功能

如果將人類基因組圖譜主要工作的完成作為后基因組時(shí)代開始的標(biāo)志,那么后基因組信息學(xué)還處在幼年期。但是這是一個(gè)具有旺盛生命力的超級(jí)嬰兒。本節(jié)將重點(diǎn)概述后基因組生物信息學(xué)的相關(guān)發(fā)展。本節(jié)會(huì)提到生物分子網(wǎng)絡(luò),下一節(jié)將對(duì)網(wǎng)絡(luò)生物學(xué)作更詳細(xì)的論述。第三十頁,共九十四頁,2022年,8月28日基因組信息學(xué)相互作用網(wǎng)絡(luò)具有更高階功能◆基因調(diào)控與微陣列技術(shù)◆蛋白質(zhì)相互作用◆Go,KEGG◆生物信息學(xué)家都是網(wǎng)蟲

◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)

第三十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因調(diào)控與微陣列技術(shù)二十世紀(jì)90年代后期,各種類型高通量實(shí)驗(yàn)數(shù)據(jù)的獲得已經(jīng)豐富了生物信息學(xué)的角色,使分析涉及各種各樣細(xì)胞過程的高階功能更加方便。例如,大名鼎鼎的寡核苷酸微陣列或包含全基因組中每個(gè)基因的cDNA微陣列,對(duì)于測(cè)量不同條件下,整個(gè)細(xì)胞或組織的基因表達(dá)是一個(gè)非常強(qiáng)有力的工具。除了染色體中序列的相似性和相近性,兩個(gè)基因由于它們?cè)谀硞€(gè)特殊的時(shí)間點(diǎn)或某一特別受控條件下表達(dá)模式的相似性而相互關(guān)聯(lián)。根據(jù)基因表達(dá)數(shù)據(jù),共調(diào)控(co-regulated)基因簇能被探測(cè)到,其過程在本質(zhì)上類似于COG中探測(cè)直向同源基因簇,或基因語境分析中位置關(guān)聯(lián)基因簇。這些基因表達(dá)簇可用來鑒別特殊生理過程中潛在基因組的數(shù)目。從復(fù)雜的基因表達(dá)數(shù)據(jù)中提取生物學(xué)本質(zhì)特征也促進(jìn)了自組織圖譜、支持向量機(jī)等信息技術(shù)在生物學(xué)領(lǐng)域中的應(yīng)用。

第三十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆蛋白質(zhì)相互作用

蛋白質(zhì)-蛋白質(zhì)相互作用代表了另外一類實(shí)驗(yàn)數(shù)據(jù)。高通量雙雜交系統(tǒng)分析已用來檢測(cè)酵母基因組編碼的所有蛋白質(zhì)對(duì)之間的相互作用。質(zhì)譜技術(shù)已被用來系統(tǒng)地鑒別分離純化了的蛋白質(zhì)復(fù)合體的成分。這些數(shù)據(jù)集為已有的基因組(序列相似性和基因語境)、轉(zhuǎn)錄組(表達(dá)相似性)數(shù)據(jù)集賦予有關(guān)蛋白質(zhì)(相互作用)方面的附加信息層。所有這些數(shù)據(jù)集可以看成是二進(jìn)制關(guān)系,即兩個(gè)個(gè)體之間的關(guān)系,這就是允許整合分析,從而更加精確地抽象出生物學(xué)特征。當(dāng)酵母的不同數(shù)據(jù)集結(jié)合在一起時(shí),通常會(huì)發(fā)現(xiàn)成對(duì)的東西更具生物學(xué)意義。具有更高階功能的數(shù)據(jù)通常有更高的誤差率,注釋可能含有許多缺陷,從而要求更加嚴(yán)格的標(biāo)準(zhǔn)。

第三十三頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆Go,KEGG

直到最近,對(duì)于不同的功能還沒有一個(gè)共同的術(shù)語。對(duì)于蛋白質(zhì)功能,走向共同詞匯的第一步已經(jīng)由基因本體論協(xié)會(huì)(Geneontologyconsortium)邁出,從而可以更準(zhǔn)確地比較與描述基因與蛋白質(zhì)的功能特征?;虮倔w論協(xié)會(huì)將目前收集到的動(dòng)態(tài)變化中的知識(shí)歸類為三個(gè)系統(tǒng)術(shù)語或“本體”,分別是單個(gè)蛋白質(zhì)的“分子功能”、介入蛋白的“生物學(xué)過程”和使蛋白質(zhì)在其中發(fā)揮功能的“細(xì)胞組分”。

第三十四頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆Go,KEGG

為增加對(duì)來自于基因組信息的細(xì)胞過程的了解,途徑(pathway)數(shù)據(jù)庫(kù),例如KEGG和EcoCyc,已經(jīng)在過去的十年中建立起來。當(dāng)大多數(shù)數(shù)據(jù)庫(kù)集中了分子特性(例如,序列、三維結(jié)構(gòu)、模塊和基因表達(dá))的時(shí)候,這些數(shù)據(jù)庫(kù)側(cè)重于細(xì)胞的特性,例如代謝、信號(hào)傳導(dǎo)和細(xì)胞周期。這類庫(kù)以路徑圖形式儲(chǔ)存相應(yīng)的分子相互作用網(wǎng)絡(luò)。第三十五頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆Go,KEGG

為增加對(duì)來自于基因組信息的細(xì)胞過程的了解,途徑(pathway)數(shù)據(jù)庫(kù),例如KEGG和EcoCyc,已經(jīng)在過去的十年中建立起來。當(dāng)大多數(shù)數(shù)據(jù)庫(kù)集中了分子特性(例如,序列、三維結(jié)構(gòu)、模塊和基因表達(dá))的時(shí)候,這些數(shù)據(jù)庫(kù)側(cè)重于細(xì)胞的特性,例如代謝、信號(hào)傳導(dǎo)和細(xì)胞周期。這類庫(kù)以路徑圖形式儲(chǔ)存相應(yīng)的分子相互作用網(wǎng)絡(luò)。毋庸質(zhì)疑,從過去許多年出版的文獻(xiàn)中收集由生物學(xué)傳統(tǒng)研究所獲得的知識(shí)是十分必要的。至少,就代謝途徑來說,這些已經(jīng)有的知識(shí)被較好地組織成數(shù)據(jù)庫(kù)中的數(shù)據(jù),也為注釋基因組,篩選微陣列與其他高通量實(shí)驗(yàn)數(shù)據(jù)提供了參考數(shù)據(jù)。

第三十六頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆Go,KEGG

序列只是簡(jiǎn)單的一維對(duì)象,與此相反,相互作用的分子網(wǎng)絡(luò)是由一些復(fù)雜的圖對(duì)象表示的。數(shù)學(xué)上,圖是節(jié)點(diǎn)與邊的集合。根據(jù)節(jié)點(diǎn)所代表的事物的不同,所定義的圖的對(duì)象的類型也不同。例如,蛋白質(zhì)系列是由肽鍵(邊)連接在一起的氨基酸(節(jié)點(diǎn))的圖對(duì)象。為了解更高階功能,必須考慮更高的圖的對(duì)象。KEGG含有3個(gè)這樣的圖對(duì)象,分別是“蛋白質(zhì)網(wǎng)絡(luò)”,“基因世界”和“化學(xué)世界”,其節(jié)點(diǎn)也就分別對(duì)應(yīng)于蛋白質(zhì),基因和化學(xué)對(duì)象。第三十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆Go,KEGG

這些數(shù)據(jù)庫(kù)為發(fā)展圖算法鋪平了道路。算法包括在途徑、表達(dá)模式和基因語境中探測(cè)局域圖相似性。在BLAST搜尋中,E值的概念建立在數(shù)據(jù)庫(kù)是獨(dú)立的對(duì)象(序列)的集合這一觀念基礎(chǔ)上,與此相關(guān),KEGG數(shù)據(jù)庫(kù)或其它任何相互作用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)含有圖對(duì)象,它們是節(jié)點(diǎn)(蛋白質(zhì),基因或化合物)以及把這些節(jié)點(diǎn)關(guān)聯(lián)在一起的不同類型的邊的集合。因此,相似性統(tǒng)計(jì)和圖的其它特征必須被注解,并被轉(zhuǎn)換成新的E值,以使得網(wǎng)絡(luò)分析更加聰明有效。這有些類似于FASTA向BLAST的轉(zhuǎn)變。第三十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

后基因組生物醫(yī)學(xué)研究的一個(gè)關(guān)鍵目標(biāo)是對(duì)活體細(xì)胞內(nèi)的所有分子和它們之間的相互作用進(jìn)行系統(tǒng)地歸類,了解這些分子以及它們之間的相互作用是怎樣決定細(xì)胞這一極其復(fù)雜的機(jī)器的功能。細(xì)胞可能是孤立的,也可能被其他細(xì)胞包圍著,研究結(jié)果表明細(xì)胞網(wǎng)絡(luò)被普適的定律所控制。飛速發(fā)展的網(wǎng)絡(luò)細(xì)胞生物學(xué)已經(jīng)有了一個(gè)全新的概念框架,它可能革新我們對(duì)生物學(xué)和病理學(xué)的觀念。第三十九頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

統(tǒng)治生物學(xué)研究長(zhǎng)達(dá)一個(gè)世紀(jì)的簡(jiǎn)化論為我們提供了單細(xì)胞組分與它們的功能方面的極其豐富的知識(shí)。盡管簡(jiǎn)化論取得了巨大的成功,但是越來越清楚地看到多樣化的生物學(xué)功能幾乎不可能歸功于單一的分子。相反,大多數(shù)生物學(xué)的特性起源于細(xì)胞眾多要素之間的復(fù)雜的相互作用,這些要素包括DNA、RNA和小分子。因此在21世紀(jì),生物學(xué)所面臨的關(guān)鍵挑戰(zhàn)是了解決定活體細(xì)胞結(jié)構(gòu)與功能的細(xì)胞內(nèi)復(fù)雜相互作用網(wǎng)絡(luò)的結(jié)構(gòu)與動(dòng)力學(xué)。第四十頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

高通量數(shù)據(jù)聚集技術(shù)的發(fā)展,例如微陣列芯片的廣泛應(yīng)用,允許人們隨時(shí)對(duì)細(xì)胞組分的狀態(tài)進(jìn)行探測(cè)。新的技術(shù)平臺(tái),像蛋白質(zhì)芯片或半自動(dòng)酵母雙雜交技術(shù),能幫助我們了解生物分子什么時(shí)候怎樣發(fā)生相互作用。各種類型的相互作用網(wǎng)絡(luò)(包括蛋白質(zhì)-蛋白質(zhì)相互作用、代謝、信號(hào)以及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò))來源于這些相互作用的集合。相互作用網(wǎng)絡(luò)不是互相獨(dú)立的,相反它們是某一更大網(wǎng)絡(luò)的子網(wǎng)絡(luò)。完整的網(wǎng)絡(luò)對(duì)細(xì)胞的功能負(fù)責(zé)。當(dāng)前生物學(xué)的一個(gè)主要挑戰(zhàn)是整合理論的和實(shí)驗(yàn)的步驟,以制定、了解和定量模擬控制細(xì)胞行為的各種網(wǎng)絡(luò)的拓?fù)渑c動(dòng)力學(xué)特征。第四十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

過去幾年里,復(fù)雜網(wǎng)絡(luò)理論正在迅速發(fā)展,所提供的方法已經(jīng)為揭示控制各種各樣復(fù)雜的技術(shù)與社會(huì)網(wǎng)絡(luò)的組織原理做出了貢獻(xiàn)。這一研究正在沖擊細(xì)胞生物學(xué)的研究。人們已經(jīng)開始認(rèn)識(shí)到細(xì)胞內(nèi)分子相互作用的網(wǎng)絡(luò)結(jié)構(gòu)特征在極大程度上與其它復(fù)雜的網(wǎng)絡(luò)相同或相似。這些網(wǎng)絡(luò)有互聯(lián)網(wǎng)、計(jì)算機(jī)芯片、社會(huì)網(wǎng)絡(luò)等等。這個(gè)出乎人們意料之外的普適性表明相似的定律或許控制著自然界中的大多數(shù)復(fù)雜網(wǎng)絡(luò),這就允許借鑒已經(jīng)被很好地了解的大型非生物學(xué)網(wǎng)絡(luò)的經(jīng)驗(yàn),以刻畫控制細(xì)胞功能的錯(cuò)綜復(fù)雜的關(guān)系。第四十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

網(wǎng)絡(luò)理論有效的工具提供了理解細(xì)胞內(nèi)部組織和進(jìn)化的末期預(yù)料到的可能性,這將從根本上改變我們關(guān)于細(xì)胞生物學(xué)的觀念。一些研究成果正在使人們認(rèn)識(shí)到,盡管單個(gè)分子的重要性不可輕視,細(xì)胞的功能源于大量細(xì)胞構(gòu)件間相互作用的精確定量模式的關(guān)聯(lián)。盡管揭示細(xì)胞網(wǎng)絡(luò)的一般組織原理是將細(xì)胞作為一個(gè)系統(tǒng)了解的基礎(chǔ),為實(shí)驗(yàn)生物學(xué)者發(fā)展相關(guān)方法,幫助他們闡明在各種各樣細(xì)胞過程中細(xì)胞網(wǎng)絡(luò)所扮演的角色同樣是必須的。第四十三頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

各種各樣復(fù)雜系統(tǒng)的相互作用網(wǎng)絡(luò),例如,互聯(lián)網(wǎng)、社會(huì)網(wǎng)絡(luò)、代謝網(wǎng)絡(luò),還有基因網(wǎng)絡(luò)以及其它各種生物學(xué)網(wǎng)絡(luò)擁有網(wǎng)絡(luò)拓?fù)鋵W(xué)的共同特征。其中一個(gè)特征就是“小世界網(wǎng)絡(luò)”,其中任何兩個(gè)節(jié)點(diǎn)都可由幾個(gè)步驟連接在一起,這是因?yàn)橥耆?guī)則和完全隨機(jī)之間的中間拓?fù)?。另一特征是“無標(biāo)度”(scalefree)網(wǎng)絡(luò),其中節(jié)點(diǎn)連接度服從冪率分布,這很可能意味著高度被連接的節(jié)點(diǎn)(hubs)的存在。在不斷擴(kuò)大的互聯(lián)網(wǎng)和社會(huì)網(wǎng)絡(luò)中,這些特征與新節(jié)點(diǎn)連接到更大的連接器(hubs)相關(guān)聯(lián)。在生物學(xué)網(wǎng)絡(luò)中,這一特征和功能與進(jìn)化密切相關(guān)。例如,無標(biāo)度律似乎與網(wǎng)絡(luò)抵抗隨機(jī)誤差的穩(wěn)定性相關(guān)。這是一種進(jìn)化所喜歡的特征。盡管不同類型的復(fù)雜網(wǎng)絡(luò)分享普遍的特征,當(dāng)檢查簡(jiǎn)單的網(wǎng)絡(luò)單元(motifs)時(shí),它們之間是有區(qū)別的。第四十四頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

必定地,網(wǎng)絡(luò)拓?fù)涞膹?fù)雜性起源于連接(相互作用)的復(fù)雜模式,而不是簡(jiǎn)單地來自網(wǎng)絡(luò)的尺寸(由網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)度量),這可能是有生物學(xué)上的意義,尤其當(dāng)我們看到人類基因組中幾個(gè)令人吃驚的基因時(shí)。在自然界,節(jié)點(diǎn)連接的圖與模式是定態(tài)的。代謝重建已經(jīng)完成了這樣的圖。預(yù)測(cè)網(wǎng)絡(luò)動(dòng)力學(xué)遠(yuǎn)比簡(jiǎn)單地預(yù)測(cè)連接模式復(fù)雜。通過設(shè)計(jì)高通量實(shí)驗(yàn),實(shí)驗(yàn)中系統(tǒng)地?cái)_動(dòng)動(dòng)力學(xué)環(huán)境并收集足夠的實(shí)驗(yàn)數(shù)據(jù),網(wǎng)絡(luò)動(dòng)力學(xué)或許會(huì)變得可計(jì)算,至少對(duì)小的環(huán)境擾動(dòng)的響應(yīng)動(dòng)力學(xué)可以計(jì)算。第四十五頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)

在過去的一個(gè)年代里,生物信息學(xué)的主要標(biāo)志是創(chuàng)造性地發(fā)展計(jì)算方法以便為大規(guī)模數(shù)據(jù)的產(chǎn)生與分析提供幫助,以及為直接來自源于大規(guī)模數(shù)據(jù)分析所得到的生物學(xué)知識(shí)建立二級(jí)數(shù)據(jù)庫(kù)。懂得隱藏在細(xì)胞和生物體中的基本原理是生物信息學(xué)的最終目標(biāo),1990年代的生物信息學(xué)只是通向這一階段目標(biāo)的起點(diǎn)。生物學(xué)不再局限于列舉與建立分子成分的表列,也就是說不再受限于基因(基因組)、信使核糖核酸(轉(zhuǎn)錄組)、蛋白質(zhì)(蛋白質(zhì)組)和代謝組份(代謝組)。延伸的表列包括相互作用組,它是蛋白質(zhì)-蛋白質(zhì)相互作用的集合,還有定位組、它是蛋白質(zhì)亞細(xì)胞器定位的集合。不同表列的指令系統(tǒng)隨著高通量實(shí)驗(yàn)技術(shù)的建立與擴(kuò)充不斷增長(zhǎng)。第四十六頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)

當(dāng)然,來自于基因組和蛋白質(zhì)組的從底層到頂層的方案不足以理解生物系統(tǒng)的高度復(fù)雜性。無論是基因本體論的控制性詞匯或KEGG的圖表示,對(duì)于復(fù)雜的細(xì)胞特征都會(huì)簡(jiǎn)化基因組數(shù)據(jù)的計(jì)算圖譜,這些成果也可用來探測(cè)基因組和高階特性之間的經(jīng)驗(yàn)關(guān)系。盡管該領(lǐng)域正在期盼“系統(tǒng)生物學(xué)”與整個(gè)細(xì)胞的模擬,或許更多的努力必須付諸于抓住更高的特征,例如人類疾病的本體論和細(xì)胞網(wǎng)絡(luò)的計(jì)算機(jī)表示。另外,功能對(duì)處境(例如實(shí)驗(yàn)條件、細(xì)胞狀態(tài)和環(huán)境)的依賴目前基本上沒有受到重現(xiàn)。換句話說,在我們對(duì)作為一系列復(fù)雜信息系統(tǒng)的生命有更基本了解之前,必須考慮一些其它高度復(fù)雜性問題。

第四十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲

統(tǒng)治生物學(xué)研究長(zhǎng)達(dá)一個(gè)世紀(jì)的簡(jiǎn)化論為我們提供了單細(xì)胞組分與它們的功能方面的極其豐富的知識(shí)。盡管簡(jiǎn)化論取得了巨大的成功,但是越來越清楚地看到多樣化的生物學(xué)功能幾乎不可能歸功于單一的分子。相反,大多數(shù)生物學(xué)的特性起源于細(xì)胞眾多要素之間的復(fù)雜的相互作用,這些要素包括DNA、RNA和小分子。因此在21世紀(jì),生物學(xué)所面臨的關(guān)鍵挑戰(zhàn)是了解決定活體細(xì)胞結(jié)構(gòu)與功能的細(xì)胞內(nèi)復(fù)雜相互作用網(wǎng)絡(luò)的結(jié)構(gòu)與動(dòng)力學(xué)。第四十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)生物信息數(shù)據(jù)庫(kù)

目前,生物信息學(xué)主要由三個(gè)部分組成,它們分別是建立可以存放和管理大量生物信息數(shù)據(jù)集的數(shù)據(jù)庫(kù);發(fā)展從生物學(xué)數(shù)據(jù)中找出各個(gè)成員之間相互關(guān)系的計(jì)算方法和相應(yīng)的工具;使用這些算法和工具來挖掘、分析和解釋不同類型的生物學(xué)數(shù)據(jù),包括:基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、結(jié)構(gòu)組、代謝途徑、信號(hào)通路和調(diào)控網(wǎng)絡(luò)等。對(duì)于任何一個(gè)數(shù)據(jù)庫(kù),最需要關(guān)心的事情包括:從數(shù)據(jù)庫(kù)中提取信息的速度;存貯大規(guī)模數(shù)據(jù)的能力;更新數(shù)據(jù)的能力。當(dāng)前流行的數(shù)據(jù)庫(kù)基本上都是面向?qū)ο蟮南嚓P(guān)數(shù)據(jù)庫(kù)。通過分析含有序列和三維結(jié)構(gòu)的一級(jí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)所獲得的生物學(xué)知識(shí)被儲(chǔ)存在二級(jí)數(shù)據(jù)庫(kù)中。二級(jí)數(shù)據(jù)庫(kù)可以按目的或功能分類。表18-2列出了部分二級(jí)數(shù)據(jù)庫(kù)。

第四十九頁,共九十四頁,2022年,8月28日表18-2生物知識(shí)數(shù)據(jù)庫(kù)

知識(shí)數(shù)據(jù)庫(kù)網(wǎng)址蛋白質(zhì)功能位點(diǎn)PROSITEhttp://

www.expasy.ch/prositeBLOCKSPRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTSProDomhttp://prodes.toulous.inra.fr/prodom/doc/prodom.htmlPfam/SMARThttp://smart.embl-heidelberg.deTIGRFAMS/TIGRFAMS蛋白質(zhì)三維折疊SCOPhttp://scop.mrc-lmb.cam.ac.uk/scopCATHhttp://www.biochem.ucl.ac.uk/bsm/cath_new第五十頁,共九十四頁,2022年,8月28日

轉(zhuǎn)錄因子TRANSFAChttp://transfac.gbf.dc/TRANSFAC/蛋白質(zhì)相互作用BINDhttp://www.bind.ca/DIP/蛋白途徑KEGGhttp://www.genome.ad.jp/keggEcoCyc/直系同源組COG/COG基因本體論協(xié)會(huì)GO/第五十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆主要序列倉(cāng)庫(kù)

計(jì)算生物學(xué)和生物信息學(xué)的許多應(yīng)用是以核苷和蛋白質(zhì)序列為基礎(chǔ)的。三個(gè)主要倉(cāng)庫(kù)中含有所有已知的核苷和蛋白質(zhì)序列。通過國(guó)際核苷序列數(shù)據(jù)庫(kù)聯(lián)盟,它們彼此間信息共享。這三個(gè)數(shù)據(jù)倉(cāng)庫(kù)是:目前,GenBank含有32億多個(gè)核苷堿基,代表十萬多個(gè)物種中的2千8百多萬個(gè)序列,這就表明大量的數(shù)據(jù)需要儲(chǔ)存。瞧一眼過去20年,尤其是過去8年來GeneBank的增長(zhǎng),我們就可以看到序列數(shù)據(jù)的爆炸。第五十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)

核苷序列信息也可以按基因組數(shù)據(jù)庫(kù)的方式組織與存貯。最廣泛使用的基因組數(shù)據(jù)源之一是UCSC基因組瀏覽器,它含有大鼠、小鼠和人類基因組的全部序列和相應(yīng)的注釋。另一個(gè)廣泛使用的數(shù)據(jù)源是Ensembl基因?yàn)g覽器。另外一些基因組數(shù)據(jù)庫(kù)還包括:WormBase,它含有C.elegans和C.briggsae蠕蟲的基因組;AceDB,它含有C.elegans、S.pombe和H.sapiens的基因組;CMR含有95種完成的微生物基因組;FlyBase-Drosophilamelanogaster基因組;HIV-艾滋病毒基因組;MosDB-水稻基因組數(shù)據(jù)庫(kù);MGD-老鼠基因組數(shù)據(jù)庫(kù);酵母基因組數(shù)據(jù)庫(kù);TAIR-Arabidopsis信息庫(kù);ArkDB-動(dòng)物基因組數(shù)據(jù)庫(kù);還有其它許多未列出的數(shù)據(jù)庫(kù)。

第五十三頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)

第五十四頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)

ArkDB:/第五十五頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)

目前有不少基因和相關(guān)聯(lián)的結(jié)構(gòu)數(shù)據(jù)庫(kù)。其中最大的一個(gè)就是NCBI(美國(guó)國(guó)家生物技術(shù)中心)所屬的RefSeq數(shù)據(jù)庫(kù)。它是一個(gè)充分注釋了的非冗余mRNA信息庫(kù)。其它的基因和基因結(jié)構(gòu)數(shù)據(jù)庫(kù)還有:AllGenes,其人類和老鼠的基因指數(shù)整合了基因、轉(zhuǎn)錄和蛋白質(zhì)注釋;ASAP;ExInt,基因的外顯子-內(nèi)含子結(jié)構(gòu);IDB/IEDB,內(nèi)含子序列和進(jìn)化;SpliceDB,Canonical和非Canonical哺乳動(dòng)物剪接位點(diǎn);GDB和GenAtlas,人類基因和基因組圖譜;HS3D,人類外顯子、內(nèi)含子和剪接區(qū)。第五十六頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)

第五十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)

/

第五十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)

目前有不少基因和相關(guān)聯(lián)的結(jié)構(gòu)數(shù)據(jù)庫(kù)。其中最大的一個(gè)就是NCBI(美國(guó)國(guó)家生物技術(shù)中心)所屬的RefSeq數(shù)據(jù)庫(kù)。它是一個(gè)充分注釋了的非冗余mRNA信息庫(kù)。其它的基因和基因結(jié)構(gòu)數(shù)據(jù)庫(kù)還有:AllGenes,其人類和老鼠的基因指數(shù)整合了基因、轉(zhuǎn)錄和蛋白質(zhì)注釋;ASAP;ExInt,基因的外顯子-內(nèi)含子結(jié)構(gòu);IDB/IEDB,內(nèi)含子序列和進(jìn)化;SpliceDB,Canonical和非Canonical哺乳動(dòng)物剪接位點(diǎn);GDB和GenAtlas,人類基因和基因組圖譜;HS3D,人類外顯子、內(nèi)含子和剪接區(qū)。第五十九頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)

第六十頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)

/第六十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆單核苷多態(tài)性數(shù)據(jù)源ASAP(交互剪接基因)在人類的基因序列中,對(duì)于不同的個(gè)體,大約每2000個(gè)堿基中會(huì)有一個(gè)堿基不同。這一看起來不顯眼的數(shù)字,在人群中產(chǎn)生了一百六十多萬個(gè)單核苷多態(tài)性。SNPs在個(gè)體的差異性方面扮演了極其重要的角色,同時(shí)也是許多疾病產(chǎn)生的原因(著名的有鐮刀細(xì)胞貧血)。單核苷多態(tài)性的主要數(shù)據(jù)庫(kù)有:rSNP指南(調(diào)控基因SNPs):http://util.bionet/nsc.ru/databases/rsnp.html

第六十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆表達(dá)序列標(biāo)簽庫(kù)表達(dá)序列標(biāo)簽(EST,expressedsequencetags)是一些mRNA的片斷拷貝。通過它們可以獲得基因剪接的模式。常見的表達(dá)序列標(biāo)簽庫(kù)包括:第六十三頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆結(jié)合位點(diǎn),啟動(dòng)子除了基因組中基因的定位,了解基因表達(dá)開關(guān)的位置同樣是非常重要的。下面列出一些啟動(dòng)子和轉(zhuǎn)錄因子的數(shù)據(jù)庫(kù):EPD(真核生物PolⅡ啟動(dòng)子):第六十四頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆蛋白質(zhì)數(shù)據(jù)庫(kù)

DNA->RNA->蛋白質(zhì)是分子生物學(xué)的中心法則。蛋白質(zhì)的數(shù)據(jù)庫(kù)非常多,對(duì)于不同的蛋白質(zhì)家族可以創(chuàng)立不同的數(shù)據(jù)庫(kù)。下面列出幾個(gè)廣泛使用的數(shù)據(jù)庫(kù):第六十五頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆蛋白質(zhì)序列模體(Motifs)

蛋白質(zhì)序列模體是蛋白質(zhì)中的一些保守的區(qū)域。儲(chǔ)存這些信息的數(shù)據(jù)庫(kù)包括:ProtoMap:第六十六頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆結(jié)構(gòu)數(shù)據(jù)庫(kù)

當(dāng)?shù)鞍踪|(zhì)的序列確立后,剩下的事就是確定它的結(jié)構(gòu)和功能。蛋白質(zhì)的三維結(jié)構(gòu)一般通過核磁共振或X射線衍射光子學(xué)方法確定。一些大規(guī)模結(jié)構(gòu)數(shù)據(jù)庫(kù)包括:第六十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因表達(dá)數(shù)據(jù)庫(kù)(微陣列實(shí)驗(yàn))一旦基因的定位和序列已知,下一個(gè)步驟就是確定它們的功能。目前DNA微陣列仍舊是基因表達(dá)方面最重要的高通量試驗(yàn)技術(shù)。實(shí)驗(yàn)得到的圖像、基因表達(dá)的模式、實(shí)驗(yàn)結(jié)果的分析和代謝途徑等結(jié)果存放在相應(yīng)的數(shù)據(jù)庫(kù)中,下面列出其中部分?jǐn)?shù)據(jù)庫(kù)的網(wǎng)址:HugeIndex/第六十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆基因表達(dá)數(shù)據(jù)庫(kù)(微陣列實(shí)驗(yàn))一旦基因的定位和序列已知,下一個(gè)步驟就是確定它們的功能。目前DNA微陣列仍舊是基因表達(dá)方面最重要的高通量試驗(yàn)技術(shù)。實(shí)驗(yàn)得到的圖像、基因表達(dá)的模式、實(shí)驗(yàn)結(jié)果的分析和代謝途徑等結(jié)果存放在相應(yīng)的數(shù)據(jù)庫(kù)中,下面列出其中部分?jǐn)?shù)據(jù)庫(kù)的網(wǎng)址:HugeIndex/第六十九頁,共九十四頁,2022年,8月28日基因組信息學(xué)MetaCyc/

第七十頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆其它數(shù)據(jù)庫(kù)

當(dāng)基因的功能已知后,就能夠?qū)⒛切┡c疾病相關(guān)的基因分類。突變數(shù)據(jù)庫(kù)包括:第七十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)

序列比對(duì)的動(dòng)態(tài)程序算法

◆序列比對(duì)的目的給定一個(gè)、一對(duì)、或若干個(gè)核苷酸或氨基酸序列,立即擺在我們面前的一個(gè)問題就是序列之間是否有關(guān)聯(lián)。序列比對(duì)的目的就是要回答這個(gè)問題。具體說來就是要通過比較序列之間的相似性程度回答序列所代表的對(duì)象間,功能、結(jié)構(gòu)、及其進(jìn)化關(guān)聯(lián)。如果給定的是單個(gè)序列,就是通過將該序列和自身比對(duì),找出整個(gè)序列中重復(fù)的序列片斷。成對(duì)序列之間的比對(duì)叫做序列的兩兩比對(duì)(pairwisealignment),兩個(gè)以上序列之間的比對(duì)被稱之為序列多重比對(duì)。序列兩兩比對(duì)或多重比對(duì)中,如果是比較序列間的整體相似性,就叫做全局比對(duì)(globalalignment);如果是比較序列間的局部相似性,就是局部比對(duì)(localalignment)。下文著重序列間的兩兩比對(duì)。第七十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆序列的全局比對(duì)對(duì)兩個(gè)序列做全局比對(duì)時(shí),序列兩兩比對(duì)的動(dòng)態(tài)規(guī)劃(dynamicprogramming)算法,被稱之為Needleman-Wunsch算法。該算法由五步構(gòu)成:1.確定打分方案;2.比對(duì)矩陣的初始化;3.確定比對(duì)矩陣每一個(gè)單元的分值;4.從比對(duì)矩陣的右下角開始追溯分值路徑(traceback);5.根據(jù)4的結(jié)果確定比對(duì)方案。第七十三頁,共九十四頁,2022年,8月28日◆序列的全局比對(duì)打分方案:

其中,s(ai,bj)是序列1第i個(gè)位點(diǎn)的字母(核苷酸或氨基酸殘基),ai與序列2第j個(gè)位點(diǎn)的字母bj一致或不一致時(shí)所賦的分值,w是間隙(gap)罰分。這些分值取多少并無確切的值,比方說,可以給定如下方案:基因組信息學(xué)如果如果空位罰分第七十四頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆序列的全局比對(duì)下面用一個(gè)例子來說明具體的操作步驟。假定兩個(gè)序列分別是:序列1:GAATTCAGTTA序列2:GGATCGA

第七十五頁,共九十四頁,2022年,8月28日1.比對(duì)矩陣的初始化:

基因組信息學(xué),從而

第七十六頁,共九十四頁,2022年,8月28日2.確定比對(duì)矩陣每一個(gè)單元的分值:

基因組信息學(xué)第七十七頁,共九十四頁,2022年,8月28日基因組信息學(xué)第七十八頁,共九十四頁,2022年,8月28日基因組信息學(xué)

箭頭所指是分值的來源。

第七十九頁,共九十四頁,2022年,8月28日3.從比對(duì)矩陣的最右下角開始追溯分值路徑(traceback);基因組信息學(xué)第八十頁,共九十四頁,2022年,8月28日基因組信息學(xué)◆序列的局部比對(duì)對(duì)兩個(gè)序列做局部比對(duì)時(shí),序列兩兩比對(duì)的動(dòng)態(tài)規(guī)劃(dynamicprogramming)算法被稱之為Smith-Waterman算法。該算法與Needleman-Wunsch算法類似,只需要將最小分值取零值。追溯分值路徑(traceback)不是從矩陣的最右下角開始,而是從整個(gè)矩陣的最高分元素開始,到零時(shí)終止。其它與序列全局比對(duì)相同,這里不再贅述。第八十一頁,共九十四頁,2022年,8月28日基因組信息學(xué)復(fù)雜生物系統(tǒng)

◆引言

研究生物系統(tǒng)的高階行為正在成為生物學(xué)研究領(lǐng)域的主流。其實(shí)從NorbertWeiner時(shí)代起,從系統(tǒng)論的觀點(diǎn)出發(fā)研究細(xì)胞、生物體的系統(tǒng)功能就已經(jīng)受科學(xué)家關(guān)注的問題。它在今天重新受到高度重視的主要原因就是分子生物學(xué)取得的進(jìn)步。尤其是,在基因測(cè)序和高通量測(cè)量方法的突破,使我們能夠系統(tǒng)地收集到廣泛的數(shù)據(jù)集,并從中獲得潛在分子的信息,在Weiner的時(shí)期,這絕對(duì)不可能,那時(shí)分子生物學(xué)還是一個(gè)新興的學(xué)科。第八十二頁,共九十四頁,2022年,8月28日基因組信息學(xué)復(fù)雜生物系統(tǒng)

◆復(fù)雜系統(tǒng)的表示

復(fù)雜系統(tǒng)由系統(tǒng)中的成員和成員之間的相互作用組成。表18-3列舉了一些復(fù)雜的生物系統(tǒng)。如圖18-1所示,系統(tǒng)中的成員用節(jié)點(diǎn)表示,節(jié)點(diǎn)之間的相互作用用連接也就是邊表示。節(jié)點(diǎn)和邊構(gòu)成圖,也就是說,在生物信息學(xué)上,一個(gè)復(fù)雜生物系統(tǒng)被抽象為由一張由節(jié)點(diǎn)和邊構(gòu)成的網(wǎng)絡(luò)圖,例如,圖18-2所示是酵母蛋白質(zhì)-蛋白質(zhì)相互作用連鎖圖。第八十三頁,共九十四頁,2022年,8月28日基因組信息學(xué)系統(tǒng)節(jié)點(diǎn)邊(相互作用)蛋白質(zhì)三

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論