




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
生物信息學(xué)導(dǎo)論
IntroductiontoBioinformaticsEmail:Tel:2022/11/271生物信息學(xué)導(dǎo)論
IntroductiontoBioinf張舉華北京理工大學(xué)生命科學(xué)與技術(shù)學(xué)院
生物信息學(xué)導(dǎo)論2022/11/272張舉華北京理工大學(xué)生物信息學(xué)導(dǎo)論2022/1主要內(nèi)容生物信息學(xué)概述基因組信息學(xué)
2022/11/273主要內(nèi)容2022/11/263生物信息學(xué)概述本節(jié)主要內(nèi)容什么是生物信息學(xué)基因組、轉(zhuǎn)錄組、蛋白質(zhì)組生物信息學(xué)有什么用
生物信息學(xué)的起源
生物信息學(xué)往哪里去
2022/11/274生物信息學(xué)概述本節(jié)主要內(nèi)容2022/11/264概述
什么是生物信息學(xué)
生物信息學(xué)是生物學(xué)和信息科學(xué)與技術(shù)的結(jié)合所派生出來(lái)的一門新興學(xué)科,包括了用來(lái)管理、分析和操作大規(guī)模生物數(shù)據(jù)集的任何計(jì)算方法和工具,也就是說(shuō)生物信息學(xué)是一個(gè)為現(xiàn)代生物學(xué)的各個(gè)分支,如生物學(xué)、分子生物學(xué)、生物化學(xué)、生物物理學(xué)等,服務(wù)的數(shù)學(xué)和計(jì)算機(jī)科學(xué)與技術(shù)的整合平臺(tái)。
2022/11/275概述什么是生物信息學(xué)2022/11/265
概述
基因組、轉(zhuǎn)錄組、蛋白質(zhì)組
現(xiàn)在,生物學(xué)研究的范式已經(jīng)發(fā)生了變化,生物學(xué)家已經(jīng)不像上世紀(jì)60-80年代的同行那樣滿足于研究單個(gè)基因和蛋白質(zhì),而是對(duì)一類細(xì)胞或組織中的所有基因和蛋白質(zhì)同時(shí)感興趣,希望了解這些生物分子之間是通過(guò)什么樣的途徑實(shí)現(xiàn)生命過(guò)程的。2022/11/276概述基因組、轉(zhuǎn)錄組、蛋白質(zhì)組2022/11
概述
基因組、轉(zhuǎn)錄組、蛋白質(zhì)組
基因組是一個(gè)細(xì)胞或組織內(nèi)全部基因的集合;轉(zhuǎn)錄組是一個(gè)細(xì)胞或組織內(nèi)全部RNA(核糖核酸)的集合;蛋白質(zhì)組是一個(gè)細(xì)胞或組織內(nèi)所有類型蛋白質(zhì)的集合。以此類推,我們還可以定義其它的“組”,例如蛋白質(zhì)相互作用組就是一個(gè)細(xì)胞或組織內(nèi)蛋白質(zhì)間所有相互作用的集合。2022/11/277概述基因組、轉(zhuǎn)錄組、蛋白質(zhì)組2022/11
概述
基因組、轉(zhuǎn)錄組、蛋白質(zhì)組
各種組學(xué)的發(fā)展與高通量檢測(cè)與測(cè)量方法密切關(guān)聯(lián)?!案咄俊本褪谴罅康男畔⒒驑颖驹谕粫r(shí)間內(nèi)通過(guò)系統(tǒng)的任何過(guò)程。目前,這一概念被廣泛應(yīng)用于計(jì)算系統(tǒng)、藥物發(fā)現(xiàn)、組合化學(xué)以及基因組和蛋白組學(xué)。
2022/11/278概述基因組、轉(zhuǎn)錄組、蛋白質(zhì)組2022/11
概述
生物信息學(xué)有什么用
自1990年以來(lái),在生物醫(yī)學(xué)科學(xué)領(lǐng)域,生物信息學(xué)已經(jīng)成為生命科學(xué)研究和發(fā)展整體中的一個(gè)重要組成部分。無(wú)論是處理由高通量實(shí)驗(yàn)技術(shù)產(chǎn)生的基因組、轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),還是組織、分析和管理由傳統(tǒng)的生物技術(shù)收集到的數(shù)據(jù),生物信息學(xué)都扮演著極其重要的角色。2022/11/279概述生物信息學(xué)有什么用2022/11/26
概述
生物信息學(xué)有什么用
上世紀(jì)80-90年代建立的,以核苷酸或氨基酸序列為基礎(chǔ)的,分析單個(gè)基因和蛋白質(zhì)的方法被用于分析大量的基因和蛋白質(zhì),例如用于關(guān)聯(lián)基因簇的分析和蛋白質(zhì)相互作用網(wǎng)絡(luò)的鑒定。當(dāng)我們手中完整的基因組序列越來(lái)越多時(shí),生物信息學(xué)就能夠?yàn)樘剿骷?xì)胞和組織的系統(tǒng)功能與行為提供原理基礎(chǔ)和常用方法。2022/11/2710概述生物信息學(xué)有什么用2022/11/26
概述
生物信息學(xué)的起源
分子序列數(shù)據(jù)的指數(shù)性增長(zhǎng)始于20世紀(jì)80年代。當(dāng)時(shí),DNA測(cè)序技術(shù)已趨完善,并作為常規(guī)實(shí)驗(yàn)手段得到廣泛的應(yīng)用,測(cè)序得到的數(shù)據(jù)被收集到數(shù)據(jù)庫(kù)中。比如目前仍有廣泛影響力的三個(gè)生物信息學(xué)一級(jí)數(shù)據(jù)庫(kù)GenBank,EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室核苷酸序列數(shù)據(jù)庫(kù)),和DDBJ(日本DNA數(shù)據(jù)銀行)。另外PIR(蛋白信息資源)和SWISS-PROT是蛋白質(zhì)方面非常重要的數(shù)據(jù)庫(kù)。數(shù)據(jù)的提取與分析的計(jì)算方法的發(fā)展是并行的。計(jì)算方法包括序列相似性比較與搜尋算法、結(jié)構(gòu)與功能預(yù)測(cè)方法等等。
2022/11/2711概述生物信息學(xué)的起源2022/11/2611
概述
生物信息學(xué)的起源
現(xiàn)今的“生物信息學(xué)”始于上世紀(jì)80年代計(jì)算生物學(xué)。后者主要包括DNA和蛋白質(zhì)的序列分析以及蛋白質(zhì)的三維結(jié)構(gòu)分析。上世紀(jì)最后十年的基因組計(jì)劃所形成的沖擊不僅是序列數(shù)據(jù)的增加,還包括了分子生物數(shù)據(jù)的多樣性。一個(gè)基因組序列所展示的不僅是一個(gè)完整的基因集合和它們?cè)谌旧w中的精確定位,而且包括基因組和跨物種間的基因相似性關(guān)聯(lián)。2022/11/2712概述生物信息學(xué)的起源2022/11/2612
概述
生物信息學(xué)的起源
DNA自動(dòng)測(cè)序構(gòu)成過(guò)巨大的沖擊,因?yàn)樗?jīng)是各種生物學(xué)數(shù)據(jù)高通量產(chǎn)出的前沿陣地。像表達(dá)序列標(biāo)簽(ESTs),單核苷多態(tài)性(SNPs)都和基因序列密切相關(guān)。隨后發(fā)展的研究基因表達(dá)模式(profile)的DNA微陣列技術(shù)、用于探測(cè)蛋白質(zhì)相互作用的酵母雙雜交系統(tǒng)、以及質(zhì)譜技術(shù)極大地讓生命科學(xué)類數(shù)據(jù)庫(kù)飛速膨脹。結(jié)構(gòu)基因組學(xué)方面的新技術(shù)還不能大規(guī)模地產(chǎn)生數(shù)據(jù),但它們正在導(dǎo)致蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)的增加。
2022/11/2713概述生物信息學(xué)的起源2022/11/2613
概述
生物信息學(xué)的起源除了積累各種生物化學(xué)與分子生物學(xué)數(shù)據(jù)的實(shí)驗(yàn)技術(shù)的不斷發(fā)展,二十世紀(jì)后十年同樣見(jiàn)證了信息技術(shù)的發(fā)展。單項(xiàng)最重要的事件是互聯(lián)網(wǎng)時(shí)代的到來(lái)。人們用它來(lái)傳遞、訪問(wèn)數(shù)據(jù),瀏覽公共出版物等。生物信息學(xué)的興起很大程度上歸功于需要用復(fù)雜的方法處理與分析大規(guī)模生物學(xué)數(shù)據(jù),但是互聯(lián)網(wǎng)也是功臣,因?yàn)樗陌l(fā)明使得用戶訪問(wèn)數(shù)據(jù)與軟件的開發(fā)比過(guò)去容易了許多。
2022/11/2714概述生物信息學(xué)的起源2022/11/2614
概述
生物信息學(xué)往哪里去盡管最近十年來(lái),高通量檢測(cè)技術(shù)與信息技術(shù)的結(jié)合讓人們認(rèn)識(shí)了大量的基因和蛋白質(zhì),但是和物理學(xué)、化學(xué)相比較,生物學(xué)仍舊是一門不成熟的學(xué)科,因?yàn)閷?duì)于生命過(guò)程,我們無(wú)法根據(jù)一般性原理做出像衛(wèi)星軌道那樣精確的預(yù)測(cè)。隨著數(shù)據(jù)的不斷膨脹和知識(shí)的積累,也借助于生物信息學(xué),這種情形很有可能發(fā)生改變。
2022/11/2715概述生物信息學(xué)往哪里去2022/11/2615
概述
生物信息學(xué)往哪里去生物信息學(xué)正在逐漸演變成為一門基礎(chǔ)學(xué)科。生物信息學(xué)的最終目標(biāo)是從大規(guī)模數(shù)據(jù)中抽象出知識(shí)與原理;提出細(xì)胞以至于整個(gè)生物體的完整數(shù)學(xué)與計(jì)算機(jī)表示;進(jìn)而預(yù)測(cè)高度復(fù)雜的生物系統(tǒng)的行為,例如,預(yù)測(cè)在細(xì)胞過(guò)程中相互作用網(wǎng)絡(luò)和整個(gè)生物體的表型。表18-1簡(jiǎn)要概括了生物信息學(xué)的過(guò)去,現(xiàn)在和將來(lái)。
2022/11/2716概述生物信息學(xué)往哪里去2022/11/2616
概述
生物信息學(xué)往哪里去
表18-1生物信息學(xué)的過(guò)去、現(xiàn)在和將來(lái)
主要內(nèi)容目的二十世紀(jì)90年代的生物信息學(xué)大規(guī)?;蚪M學(xué)與蛋白質(zhì)組學(xué)的實(shí)驗(yàn)數(shù)據(jù)形成的一級(jí)數(shù)據(jù)庫(kù)及其相應(yīng)的分析方法與工具了解單個(gè)基因和蛋白質(zhì)的功能與用途當(dāng)前的生物信息學(xué)由一級(jí)數(shù)據(jù)庫(kù)分類、歸納、注釋得到的基因組學(xué)與蛋白質(zhì)組學(xué)二級(jí)數(shù)據(jù)庫(kù)(知識(shí)庫(kù))及其相應(yīng)的分析方法與工具在分子、細(xì)胞和生物體水平了解功能與用途未來(lái)的生物信息學(xué)細(xì)胞和生物體的完全計(jì)算機(jī)表示了解生物系統(tǒng)高度復(fù)雜性的基本原理2022/11/2717概述生物信息學(xué)往哪里去二十世紀(jì)90年代的生物信息學(xué)
主要內(nèi)容概述基因組信息學(xué)
2022/11/2718主要內(nèi)容2022/11/2618基因組信息學(xué)
基因組信息學(xué)是生物信息學(xué)的源頭,是到目前為止發(fā)展得比較完善的部分,也是應(yīng)用最為廣泛的部分。本節(jié)內(nèi)容將重點(diǎn)概述基因組生物信息學(xué)的主要特征。
2022/11/2719基因組信息學(xué)基因組信息學(xué)是生物信息學(xué)的源頭,是到目基因組信息學(xué)
本節(jié)主要內(nèi)容了不起的BLAST
BLAST已經(jīng)不夠用了
相互作用網(wǎng)絡(luò)具有更高階功能
生物信息數(shù)據(jù)庫(kù)
序列比對(duì)的動(dòng)態(tài)程序算法復(fù)雜生物系統(tǒng)
2022/11/2720基因組信息學(xué)基因組信息學(xué)
了不起的BLAST
在二十世紀(jì)后十年,生物信息學(xué)的第一個(gè)大突破是序列數(shù)據(jù)庫(kù)快速搜尋工具BLAST的引入。這個(gè)搜尋工具不僅比80年代發(fā)展起來(lái)的FASTA更有效,而且以不同的原理為基礎(chǔ)。數(shù)據(jù)庫(kù)搜尋就是將查詢的系列與序列數(shù)據(jù)庫(kù)中的每一個(gè)序列作兩兩比對(duì)。美國(guó)國(guó)家生物科技信息中心,,提供了BLAST鏈接。2022/11/2721基因組信息學(xué)了不起的BLAST2022/11/2621基因組信息學(xué)
了不起的BLAS
傳統(tǒng)上,比對(duì)通過(guò)優(yōu)化查詢進(jìn)行。即通過(guò)相同字母數(shù)目的最大化,或者采用氨基酸突變矩陣,使相似分?jǐn)?shù)最大化,得出優(yōu)化系列比對(duì)。當(dāng)允許間隙時(shí),對(duì)于做比對(duì)的兩個(gè)序列,具有可能性的比對(duì)數(shù)量巨大。然而,通過(guò)“動(dòng)態(tài)程序”算法,總能找到優(yōu)化的比對(duì)。動(dòng)態(tài)程序算法系統(tǒng)地修剪含有各種可能比隊(duì)的搜尋樹的數(shù)枝,不幸的是,這種算法十分耗時(shí),不適合大規(guī)模數(shù)據(jù)庫(kù)。所以,F(xiàn)ASTA的策略是采用一個(gè)被稱之為“hash”的數(shù)據(jù)結(jié)構(gòu),對(duì)兩個(gè)系列的匹配區(qū)域先做一個(gè)快速、粗略的搜尋,然后再對(duì)該區(qū)域的近鄰起用動(dòng)態(tài)程序算法。
2022/11/2722基因組信息學(xué)了不起的BLAS2022/11/2622基因組信息學(xué)
了不起的BLAST
不同于FASTA遵循結(jié)合優(yōu)化的傳統(tǒng),BLAST之于數(shù)學(xué)統(tǒng)計(jì)與人類直覺(jué)的耦合。例如,當(dāng)人用肉眼對(duì)兩個(gè)系列作比較時(shí),我們絕對(duì)不會(huì)檢查所有可能的細(xì)節(jié),而是尋找兩個(gè)系列共同的特征,然后再嘗試擴(kuò)展這些特征得到更長(zhǎng)的匹配,因?yàn)槲覀冎狸P(guān)聯(lián)的系列傾向于含有保守的系列模體(motifs)。這就是BLAST所采取的策略。它以可靠的數(shù)學(xué)基礎(chǔ)為依據(jù),計(jì)算高分片段對(duì)(HSPs)的統(tǒng)計(jì)。高分片段對(duì)指的是分?jǐn)?shù)不可能由系列的擴(kuò)充或剪除改善的無(wú)間隙序列的局部比對(duì)。對(duì)于給定的查詢序列的組合、被搜尋的數(shù)據(jù)庫(kù)和打分系統(tǒng),可以估計(jì)打分為s的高分片段對(duì)的概率極值(Extremevalue),及所謂的E值。目前,E值已經(jīng)廣泛用來(lái)作為系列相似性統(tǒng)計(jì)顯著性估計(jì)的標(biāo)準(zhǔn)度量。2022/11/2723基因組信息學(xué)了不起的BLAST2022/11/2623基因組信息學(xué)
了不起的BLAST
大約在BLAST發(fā)展的同一時(shí)期,研究人員開始收集一種不同類型的數(shù)據(jù)—以基因?yàn)榛A(chǔ)的表達(dá)序列標(biāo)簽位點(diǎn)或ESTs。該數(shù)據(jù)的收集對(duì)數(shù)據(jù)庫(kù)特征產(chǎn)生了非常大的影響。對(duì)于捕獲具體細(xì)胞或組織中表達(dá)基因的完整序列,低質(zhì)量和碎塊序列的大量收集是一條捷徑。在此方案中,無(wú)論對(duì)于在已存在的數(shù)據(jù)庫(kù)中搜尋相似性,還是對(duì)數(shù)據(jù)庫(kù)中所有的序列進(jìn)行比較以建立相似序列的簇(cluster),BLAST都是一個(gè)可選的工具。2022/11/2724基因組信息學(xué)了不起的BLAST2022/11/2624基因組信息學(xué)BLAST已經(jīng)不夠用了二十世紀(jì)90年代中期,人們看到了完全不同類型的大量序列數(shù)據(jù)的收集,也就是為細(xì)胞生物體的全基因組建立數(shù)據(jù)庫(kù)。目前已有100多種生物體的完全基因組序列已經(jīng)通過(guò)實(shí)驗(yàn)測(cè)定。更多生物體全基因組序列的測(cè)定正在進(jìn)行中。2022/11/2725基因組信息學(xué)BLAST已經(jīng)不夠用了2022/11/262基因組信息學(xué)BLAST已經(jīng)不夠用了如果系列分析的工具不更新與改進(jìn),大規(guī)模序列數(shù)據(jù)的增加并不必然導(dǎo)致生物學(xué)知識(shí)的增加。為了增加相似序列搜尋的靈敏度,人們已經(jīng)精心設(shè)計(jì)了相應(yīng)的方法。其中最成功的有PSI-BLAST和隱馬爾柯夫模型(HMMs)。對(duì)于搜尋微弱的相似性,PSI-BLAST是極其靈敏的方法。PSI-BLAST的核心是迭代算法,從而在程序運(yùn)行過(guò)程中由標(biāo)準(zhǔn)BLAST搜尋產(chǎn)生的位置特異性打分矩陣不斷地得到改善。2022/11/2726基因組信息學(xué)BLAST已經(jīng)不夠用了2022/11/2626基因組信息學(xué)BLAST已經(jīng)不夠用了隱馬爾柯夫模型根據(jù)多重序列比對(duì)構(gòu)建。多重序列比對(duì)的結(jié)果可能是由ClustalW或者ClustalX產(chǎn)生的,但是它們顯含插入或刪除概率,并且能夠搜尋HMM庫(kù)以探測(cè)微妙的序列特征。另外一些成功的序列分析方法是建立在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,它極大的改善了諸如蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè);或建立在以規(guī)則為基礎(chǔ)的系統(tǒng)上,例如用于蛋白質(zhì)定位的PSORT,并被用來(lái)預(yù)測(cè)蛋白質(zhì)的各種功能特征。
2022/11/2727基因組信息學(xué)BLAST已經(jīng)不夠用了2022/11/262基因組信息學(xué)BLAST已經(jīng)不夠用了尤其是,HMMs和PSI-BLAST為蛋白質(zhì)域數(shù)據(jù)庫(kù)的發(fā)展提供了便利。該數(shù)據(jù)庫(kù)可以用來(lái)對(duì)蛋白質(zhì)的分子結(jié)構(gòu)和相應(yīng)的功能單元進(jìn)行識(shí)別。通過(guò)一級(jí)數(shù)據(jù)庫(kù)所做的相似性搜尋能夠用來(lái)預(yù)測(cè)基因或蛋白質(zhì)的功能,只要該數(shù)據(jù)庫(kù)被充分注釋。由于日益增加的序列數(shù)據(jù)庫(kù),為維持?jǐn)?shù)據(jù)庫(kù)的先進(jìn)性和對(duì)數(shù)據(jù)進(jìn)行充分的注釋越來(lái)越困難,從而,就顧客來(lái)說(shuō),對(duì)二級(jí)數(shù)據(jù)庫(kù)的依賴程度越來(lái)越高。二級(jí)數(shù)據(jù)庫(kù)含有蛋白質(zhì)域和功能位點(diǎn),就這一點(diǎn)來(lái)說(shuō),這些二級(jí)庫(kù)頗像是含有“序列語(yǔ)言”詞匯與句子的詞典。2022/11/2728基因組信息學(xué)BLAST已經(jīng)不夠用了2022/11/262基因組信息學(xué)
BLAST已經(jīng)不夠用了隨著可以用作比較研究的基因組全序列數(shù)目的增加,人們發(fā)展了不同類型的功能預(yù)測(cè)概念與方法。著名的有“基因語(yǔ)境”(genecontext)和“基因內(nèi)容”(content)分析。如果將基因組看成是一串基因,那么基因語(yǔ)境就相當(dāng)于基因的位置關(guān)聯(lián)?;蛘Z(yǔ)境分析,包括基因順序的比較和正常基因組的基因融合(Fusion),可探測(cè)蛋白質(zhì)的功能關(guān)聯(lián),例如探測(cè)物理相互作用亞單元、相同通路、酶、和它的調(diào)控子(regulator)的數(shù)目。
2022/11/2729基因組信息學(xué)BLAST已經(jīng)不夠用了2022/11/262基因組信息學(xué)
BLAST已經(jīng)不夠用了與基因語(yǔ)境分析相反,基因內(nèi)容分析是跨基因組間基因指令系統(tǒng)的比較。當(dāng)不同生物體之間兩個(gè)基因的某種相互關(guān)聯(lián)的方式出現(xiàn)或消失時(shí),這兩個(gè)基因之間或許有某種功能上的聯(lián)系。對(duì)于這種分析的一個(gè)預(yù)先要求是建立直向同源關(guān)系,即起源于共同祖先的功能相同的基因。實(shí)際上,直向同源由序列的相似性定義。常常,在基因組兩兩比對(duì)中,直向同源內(nèi)雙向最好打擊(bidirectionalbesthits)準(zhǔn)確定義。在完全測(cè)序的基因組中,對(duì)于直向同源組,在知識(shí)組織方面,COG是較早的和取得最突出成就的數(shù)據(jù)庫(kù)之一。2022/11/2730基因組信息學(xué)BLAST已經(jīng)不夠用了2022/11/263基因組信息學(xué)
相互作用網(wǎng)絡(luò)具有更高階功能
如果將人類基因組圖譜主要工作的完成作為后基因組時(shí)代開始的標(biāo)志,那么后基因組信息學(xué)還處在幼年期。但是這是一個(gè)具有旺盛生命力的超級(jí)嬰兒。本節(jié)將重點(diǎn)概述后基因組生物信息學(xué)的相關(guān)發(fā)展。本節(jié)會(huì)提到生物分子網(wǎng)絡(luò),下一節(jié)將對(duì)網(wǎng)絡(luò)生物學(xué)作更詳細(xì)的論述。2022/11/2731基因組信息學(xué)相互作用網(wǎng)絡(luò)具有更高階功能2022/11/基因組信息學(xué)
相互作用網(wǎng)絡(luò)具有更高階功能◆基因調(diào)控與微陣列技術(shù)◆蛋白質(zhì)相互作用◆Go,KEGG◆生物信息學(xué)家都是網(wǎng)蟲
◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)
2022/11/2732基因組信息學(xué)相互作用網(wǎng)絡(luò)具有更高階功能2022/11/基因組信息學(xué)◆基因調(diào)控與微陣列技術(shù)二十世紀(jì)90年代后期,各種類型高通量實(shí)驗(yàn)數(shù)據(jù)的獲得已經(jīng)豐富了生物信息學(xué)的角色,使分析涉及各種各樣細(xì)胞過(guò)程的高階功能更加方便。例如,大名鼎鼎的寡核苷酸微陣列或包含全基因組中每個(gè)基因的cDNA微陣列,對(duì)于測(cè)量不同條件下,整個(gè)細(xì)胞或組織的基因表達(dá)是一個(gè)非常強(qiáng)有力的工具。除了染色體中序列的相似性和相近性,兩個(gè)基因由于它們?cè)谀硞€(gè)特殊的時(shí)間點(diǎn)或某一特別受控條件下表達(dá)模式的相似性而相互關(guān)聯(lián)。根據(jù)基因表達(dá)數(shù)據(jù),共調(diào)控(co-regulated)基因簇能被探測(cè)到,其過(guò)程在本質(zhì)上類似于COG中探測(cè)直向同源基因簇,或基因語(yǔ)境分析中位置關(guān)聯(lián)基因簇。這些基因表達(dá)簇可用來(lái)鑒別特殊生理過(guò)程中潛在基因組的數(shù)目。從復(fù)雜的基因表達(dá)數(shù)據(jù)中提取生物學(xué)本質(zhì)特征也促進(jìn)了自組織圖譜、支持向量機(jī)等信息技術(shù)在生物學(xué)領(lǐng)域中的應(yīng)用。
2022/11/2733基因組信息學(xué)◆基因調(diào)控與微陣列技術(shù)2基因組信息學(xué)◆蛋白質(zhì)相互作用
蛋白質(zhì)-蛋白質(zhì)相互作用代表了另外一類實(shí)驗(yàn)數(shù)據(jù)。高通量雙雜交系統(tǒng)分析已用來(lái)檢測(cè)酵母基因組編碼的所有蛋白質(zhì)對(duì)之間的相互作用。質(zhì)譜技術(shù)已被用來(lái)系統(tǒng)地鑒別分離純化了的蛋白質(zhì)復(fù)合體的成分。這些數(shù)據(jù)集為已有的基因組(序列相似性和基因語(yǔ)境)、轉(zhuǎn)錄組(表達(dá)相似性)數(shù)據(jù)集賦予有關(guān)蛋白質(zhì)(相互作用)方面的附加信息層。所有這些數(shù)據(jù)集可以看成是二進(jìn)制關(guān)系,即兩個(gè)個(gè)體之間的關(guān)系,這就是允許整合分析,從而更加精確地抽象出生物學(xué)特征。當(dāng)酵母的不同數(shù)據(jù)集結(jié)合在一起時(shí),通常會(huì)發(fā)現(xiàn)成對(duì)的東西更具生物學(xué)意義。具有更高階功能的數(shù)據(jù)通常有更高的誤差率,注釋可能含有許多缺陷,從而要求更加嚴(yán)格的標(biāo)準(zhǔn)。
2022/11/2734基因組信息學(xué)◆蛋白質(zhì)相互作用2022基因組信息學(xué)◆Go,KEGG
直到最近,對(duì)于不同的功能還沒(méi)有一個(gè)共同的術(shù)語(yǔ)。對(duì)于蛋白質(zhì)功能,走向共同詞匯的第一步已經(jīng)由基因本體論協(xié)會(huì)(Geneontologyconsortium)邁出,從而可以更準(zhǔn)確地比較與描述基因與蛋白質(zhì)的功能特征。基因本體論協(xié)會(huì)將目前收集到的動(dòng)態(tài)變化中的知識(shí)歸類為三個(gè)系統(tǒng)術(shù)語(yǔ)或“本體”,分別是單個(gè)蛋白質(zhì)的“分子功能”、介入蛋白的“生物學(xué)過(guò)程”和使蛋白質(zhì)在其中發(fā)揮功能的“細(xì)胞組分”。
2022/11/2735基因組信息學(xué)◆Go,KEGG2022基因組信息學(xué)◆Go,KEGG
為增加對(duì)來(lái)自于基因組信息的細(xì)胞過(guò)程的了解,途徑(pathway)數(shù)據(jù)庫(kù),例如KEGG和EcoCyc,已經(jīng)在過(guò)去的十年中建立起來(lái)。當(dāng)大多數(shù)數(shù)據(jù)庫(kù)集中了分子特性(例如,序列、三維結(jié)構(gòu)、模塊和基因表達(dá))的時(shí)候,這些數(shù)據(jù)庫(kù)側(cè)重于細(xì)胞的特性,例如代謝、信號(hào)傳導(dǎo)和細(xì)胞周期。這類庫(kù)以路徑圖形式儲(chǔ)存相應(yīng)的分子相互作用網(wǎng)絡(luò)。2022/11/2736基因組信息學(xué)◆Go,KEGG2022/11/263基因組信息學(xué)◆Go,KEGG
為增加對(duì)來(lái)自于基因組信息的細(xì)胞過(guò)程的了解,途徑(pathway)數(shù)據(jù)庫(kù),例如KEGG和EcoCyc,已經(jīng)在過(guò)去的十年中建立起來(lái)。當(dāng)大多數(shù)數(shù)據(jù)庫(kù)集中了分子特性(例如,序列、三維結(jié)構(gòu)、模塊和基因表達(dá))的時(shí)候,這些數(shù)據(jù)庫(kù)側(cè)重于細(xì)胞的特性,例如代謝、信號(hào)傳導(dǎo)和細(xì)胞周期。這類庫(kù)以路徑圖形式儲(chǔ)存相應(yīng)的分子相互作用網(wǎng)絡(luò)。毋庸質(zhì)疑,從過(guò)去許多年出版的文獻(xiàn)中收集由生物學(xué)傳統(tǒng)研究所獲得的知識(shí)是十分必要的。至少,就代謝途徑來(lái)說(shuō),這些已經(jīng)有的知識(shí)被較好地組織成數(shù)據(jù)庫(kù)中的數(shù)據(jù),也為注釋基因組,篩選微陣列與其他高通量實(shí)驗(yàn)數(shù)據(jù)提供了參考數(shù)據(jù)。
2022/11/2737基因組信息學(xué)◆Go,KEGG2022/11/263基因組信息學(xué)◆Go,KEGG
序列只是簡(jiǎn)單的一維對(duì)象,與此相反,相互作用的分子網(wǎng)絡(luò)是由一些復(fù)雜的圖對(duì)象表示的。數(shù)學(xué)上,圖是節(jié)點(diǎn)與邊的集合。根據(jù)節(jié)點(diǎn)所代表的事物的不同,所定義的圖的對(duì)象的類型也不同。例如,蛋白質(zhì)系列是由肽鍵(邊)連接在一起的氨基酸(節(jié)點(diǎn))的圖對(duì)象。為了解更高階功能,必須考慮更高的圖的對(duì)象。KEGG含有3個(gè)這樣的圖對(duì)象,分別是“蛋白質(zhì)網(wǎng)絡(luò)”,“基因世界”和“化學(xué)世界”,其節(jié)點(diǎn)也就分別對(duì)應(yīng)于蛋白質(zhì),基因和化學(xué)對(duì)象。2022/11/2738基因組信息學(xué)◆Go,KEGG2022/11/263基因組信息學(xué)◆Go,KEGG
這些數(shù)據(jù)庫(kù)為發(fā)展圖算法鋪平了道路。算法包括在途徑、表達(dá)模式和基因語(yǔ)境中探測(cè)局域圖相似性。在BLAST搜尋中,E值的概念建立在數(shù)據(jù)庫(kù)是獨(dú)立的對(duì)象(序列)的集合這一觀念基礎(chǔ)上,與此相關(guān),KEGG數(shù)據(jù)庫(kù)或其它任何相互作用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)含有圖對(duì)象,它們是節(jié)點(diǎn)(蛋白質(zhì),基因或化合物)以及把這些節(jié)點(diǎn)關(guān)聯(lián)在一起的不同類型的邊的集合。因此,相似性統(tǒng)計(jì)和圖的其它特征必須被注解,并被轉(zhuǎn)換成新的E值,以使得網(wǎng)絡(luò)分析更加聰明有效。這有些類似于FASTA向BLAST的轉(zhuǎn)變。2022/11/2739基因組信息學(xué)◆Go,KEGG2022/11/263基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
后基因組生物醫(yī)學(xué)研究的一個(gè)關(guān)鍵目標(biāo)是對(duì)活體細(xì)胞內(nèi)的所有分子和它們之間的相互作用進(jìn)行系統(tǒng)地歸類,了解這些分子以及它們之間的相互作用是怎樣決定細(xì)胞這一極其復(fù)雜的機(jī)器的功能。細(xì)胞可能是孤立的,也可能被其他細(xì)胞包圍著,研究結(jié)果表明細(xì)胞網(wǎng)絡(luò)被普適的定律所控制。飛速發(fā)展的網(wǎng)絡(luò)細(xì)胞生物學(xué)已經(jīng)有了一個(gè)全新的概念框架,它可能革新我們對(duì)生物學(xué)和病理學(xué)的觀念。2022/11/2740基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
統(tǒng)治生物學(xué)研究長(zhǎng)達(dá)一個(gè)世紀(jì)的簡(jiǎn)化論為我們提供了單細(xì)胞組分與它們的功能方面的極其豐富的知識(shí)。盡管簡(jiǎn)化論取得了巨大的成功,但是越來(lái)越清楚地看到多樣化的生物學(xué)功能幾乎不可能歸功于單一的分子。相反,大多數(shù)生物學(xué)的特性起源于細(xì)胞眾多要素之間的復(fù)雜的相互作用,這些要素包括DNA、RNA和小分子。因此在21世紀(jì),生物學(xué)所面臨的關(guān)鍵挑戰(zhàn)是了解決定活體細(xì)胞結(jié)構(gòu)與功能的細(xì)胞內(nèi)復(fù)雜相互作用網(wǎng)絡(luò)的結(jié)構(gòu)與動(dòng)力學(xué)。2022/11/2741基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
高通量數(shù)據(jù)聚集技術(shù)的發(fā)展,例如微陣列芯片的廣泛應(yīng)用,允許人們隨時(shí)對(duì)細(xì)胞組分的狀態(tài)進(jìn)行探測(cè)。新的技術(shù)平臺(tái),像蛋白質(zhì)芯片或半自動(dòng)酵母雙雜交技術(shù),能幫助我們了解生物分子什么時(shí)候怎樣發(fā)生相互作用。各種類型的相互作用網(wǎng)絡(luò)(包括蛋白質(zhì)-蛋白質(zhì)相互作用、代謝、信號(hào)以及轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò))來(lái)源于這些相互作用的集合。相互作用網(wǎng)絡(luò)不是互相獨(dú)立的,相反它們是某一更大網(wǎng)絡(luò)的子網(wǎng)絡(luò)。完整的網(wǎng)絡(luò)對(duì)細(xì)胞的功能負(fù)責(zé)。當(dāng)前生物學(xué)的一個(gè)主要挑戰(zhàn)是整合理論的和實(shí)驗(yàn)的步驟,以制定、了解和定量模擬控制細(xì)胞行為的各種網(wǎng)絡(luò)的拓?fù)渑c動(dòng)力學(xué)特征。2022/11/2742基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
過(guò)去幾年里,復(fù)雜網(wǎng)絡(luò)理論正在迅速發(fā)展,所提供的方法已經(jīng)為揭示控制各種各樣復(fù)雜的技術(shù)與社會(huì)網(wǎng)絡(luò)的組織原理做出了貢獻(xiàn)。這一研究正在沖擊細(xì)胞生物學(xué)的研究。人們已經(jīng)開始認(rèn)識(shí)到細(xì)胞內(nèi)分子相互作用的網(wǎng)絡(luò)結(jié)構(gòu)特征在極大程度上與其它復(fù)雜的網(wǎng)絡(luò)相同或相似。這些網(wǎng)絡(luò)有互聯(lián)網(wǎng)、計(jì)算機(jī)芯片、社會(huì)網(wǎng)絡(luò)等等。這個(gè)出乎人們意料之外的普適性表明相似的定律或許控制著自然界中的大多數(shù)復(fù)雜網(wǎng)絡(luò),這就允許借鑒已經(jīng)被很好地了解的大型非生物學(xué)網(wǎng)絡(luò)的經(jīng)驗(yàn),以刻畫控制細(xì)胞功能的錯(cuò)綜復(fù)雜的關(guān)系。2022/11/2743基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
網(wǎng)絡(luò)理論有效的工具提供了理解細(xì)胞內(nèi)部組織和進(jìn)化的末期預(yù)料到的可能性,這將從根本上改變我們關(guān)于細(xì)胞生物學(xué)的觀念。一些研究成果正在使人們認(rèn)識(shí)到,盡管單個(gè)分子的重要性不可輕視,細(xì)胞的功能源于大量細(xì)胞構(gòu)件間相互作用的精確定量模式的關(guān)聯(lián)。盡管揭示細(xì)胞網(wǎng)絡(luò)的一般組織原理是將細(xì)胞作為一個(gè)系統(tǒng)了解的基礎(chǔ),為實(shí)驗(yàn)生物學(xué)者發(fā)展相關(guān)方法,幫助他們闡明在各種各樣細(xì)胞過(guò)程中細(xì)胞網(wǎng)絡(luò)所扮演的角色同樣是必須的。2022/11/2744基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
各種各樣復(fù)雜系統(tǒng)的相互作用網(wǎng)絡(luò),例如,互聯(lián)網(wǎng)、社會(huì)網(wǎng)絡(luò)、代謝網(wǎng)絡(luò),還有基因網(wǎng)絡(luò)以及其它各種生物學(xué)網(wǎng)絡(luò)擁有網(wǎng)絡(luò)拓?fù)鋵W(xué)的共同特征。其中一個(gè)特征就是“小世界網(wǎng)絡(luò)”,其中任何兩個(gè)節(jié)點(diǎn)都可由幾個(gè)步驟連接在一起,這是因?yàn)橥耆?guī)則和完全隨機(jī)之間的中間拓?fù)?。另一特征是“無(wú)標(biāo)度”(scalefree)網(wǎng)絡(luò),其中節(jié)點(diǎn)連接度服從冪率分布,這很可能意味著高度被連接的節(jié)點(diǎn)(hubs)的存在。在不斷擴(kuò)大的互聯(lián)網(wǎng)和社會(huì)網(wǎng)絡(luò)中,這些特征與新節(jié)點(diǎn)連接到更大的連接器(hubs)相關(guān)聯(lián)。在生物學(xué)網(wǎng)絡(luò)中,這一特征和功能與進(jìn)化密切相關(guān)。例如,無(wú)標(biāo)度律似乎與網(wǎng)絡(luò)抵抗隨機(jī)誤差的穩(wěn)定性相關(guān)。這是一種進(jìn)化所喜歡的特征。盡管不同類型的復(fù)雜網(wǎng)絡(luò)分享普遍的特征,當(dāng)檢查簡(jiǎn)單的網(wǎng)絡(luò)單元(motifs)時(shí),它們之間是有區(qū)別的。2022/11/2745基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
必定地,網(wǎng)絡(luò)拓?fù)涞膹?fù)雜性起源于連接(相互作用)的復(fù)雜模式,而不是簡(jiǎn)單地來(lái)自網(wǎng)絡(luò)的尺寸(由網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)度量),這可能是有生物學(xué)上的意義,尤其當(dāng)我們看到人類基因組中幾個(gè)令人吃驚的基因時(shí)。在自然界,節(jié)點(diǎn)連接的圖與模式是定態(tài)的。代謝重建已經(jīng)完成了這樣的圖。預(yù)測(cè)網(wǎng)絡(luò)動(dòng)力學(xué)遠(yuǎn)比簡(jiǎn)單地預(yù)測(cè)連接模式復(fù)雜。通過(guò)設(shè)計(jì)高通量實(shí)驗(yàn),實(shí)驗(yàn)中系統(tǒng)地?cái)_動(dòng)動(dòng)力學(xué)環(huán)境并收集足夠的實(shí)驗(yàn)數(shù)據(jù),網(wǎng)絡(luò)動(dòng)力學(xué)或許會(huì)變得可計(jì)算,至少對(duì)小的環(huán)境擾動(dòng)的響應(yīng)動(dòng)力學(xué)可以計(jì)算。2022/11/2746基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)
在過(guò)去的一個(gè)年代里,生物信息學(xué)的主要標(biāo)志是創(chuàng)造性地發(fā)展計(jì)算方法以便為大規(guī)模數(shù)據(jù)的產(chǎn)生與分析提供幫助,以及為直接來(lái)自源于大規(guī)模數(shù)據(jù)分析所得到的生物學(xué)知識(shí)建立二級(jí)數(shù)據(jù)庫(kù)。懂得隱藏在細(xì)胞和生物體中的基本原理是生物信息學(xué)的最終目標(biāo),1990年代的生物信息學(xué)只是通向這一階段目標(biāo)的起點(diǎn)。生物學(xué)不再局限于列舉與建立分子成分的表列,也就是說(shuō)不再受限于基因(基因組)、信使核糖核酸(轉(zhuǎn)錄組)、蛋白質(zhì)(蛋白質(zhì)組)和代謝組份(代謝組)。延伸的表列包括相互作用組,它是蛋白質(zhì)-蛋白質(zhì)相互作用的集合,還有定位組、它是蛋白質(zhì)亞細(xì)胞器定位的集合。不同表列的指令系統(tǒng)隨著高通量實(shí)驗(yàn)技術(shù)的建立與擴(kuò)充不斷增長(zhǎng)。2022/11/2747基因組信息學(xué)◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)2022/11基因組信息學(xué)◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)
當(dāng)然,來(lái)自于基因組和蛋白質(zhì)組的從底層到頂層的方案不足以理解生物系統(tǒng)的高度復(fù)雜性。無(wú)論是基因本體論的控制性詞匯或KEGG的圖表示,對(duì)于復(fù)雜的細(xì)胞特征都會(huì)簡(jiǎn)化基因組數(shù)據(jù)的計(jì)算圖譜,這些成果也可用來(lái)探測(cè)基因組和高階特性之間的經(jīng)驗(yàn)關(guān)系。盡管該領(lǐng)域正在期盼“系統(tǒng)生物學(xué)”與整個(gè)細(xì)胞的模擬,或許更多的努力必須付諸于抓住更高的特征,例如人類疾病的本體論和細(xì)胞網(wǎng)絡(luò)的計(jì)算機(jī)表示。另外,功能對(duì)處境(例如實(shí)驗(yàn)條件、細(xì)胞狀態(tài)和環(huán)境)的依賴目前基本上沒(méi)有受到重現(xiàn)。換句話說(shuō),在我們對(duì)作為一系列復(fù)雜信息系統(tǒng)的生命有更基本了解之前,必須考慮一些其它高度復(fù)雜性問(wèn)題。
2022/11/2748基因組信息學(xué)◆從數(shù)據(jù)驅(qū)動(dòng)到原理驅(qū)動(dòng)2022/11基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲
統(tǒng)治生物學(xué)研究長(zhǎng)達(dá)一個(gè)世紀(jì)的簡(jiǎn)化論為我們提供了單細(xì)胞組分與它們的功能方面的極其豐富的知識(shí)。盡管簡(jiǎn)化論取得了巨大的成功,但是越來(lái)越清楚地看到多樣化的生物學(xué)功能幾乎不可能歸功于單一的分子。相反,大多數(shù)生物學(xué)的特性起源于細(xì)胞眾多要素之間的復(fù)雜的相互作用,這些要素包括DNA、RNA和小分子。因此在21世紀(jì),生物學(xué)所面臨的關(guān)鍵挑戰(zhàn)是了解決定活體細(xì)胞結(jié)構(gòu)與功能的細(xì)胞內(nèi)復(fù)雜相互作用網(wǎng)絡(luò)的結(jié)構(gòu)與動(dòng)力學(xué)。2022/11/2749基因組信息學(xué)◆生物信息學(xué)家都是網(wǎng)蟲2022/11基因組信息學(xué)
生物信息數(shù)據(jù)庫(kù)
目前,生物信息學(xué)主要由三個(gè)部分組成,它們分別是建立可以存放和管理大量生物信息數(shù)據(jù)集的數(shù)據(jù)庫(kù);發(fā)展從生物學(xué)數(shù)據(jù)中找出各個(gè)成員之間相互關(guān)系的計(jì)算方法和相應(yīng)的工具;使用這些算法和工具來(lái)挖掘、分析和解釋不同類型的生物學(xué)數(shù)據(jù),包括:基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、結(jié)構(gòu)組、代謝途徑、信號(hào)通路和調(diào)控網(wǎng)絡(luò)等。對(duì)于任何一個(gè)數(shù)據(jù)庫(kù),最需要關(guān)心的事情包括:從數(shù)據(jù)庫(kù)中提取信息的速度;存貯大規(guī)模數(shù)據(jù)的能力;更新數(shù)據(jù)的能力。當(dāng)前流行的數(shù)據(jù)庫(kù)基本上都是面向?qū)ο蟮南嚓P(guān)數(shù)據(jù)庫(kù)。通過(guò)分析含有序列和三維結(jié)構(gòu)的一級(jí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)所獲得的生物學(xué)知識(shí)被儲(chǔ)存在二級(jí)數(shù)據(jù)庫(kù)中。二級(jí)數(shù)據(jù)庫(kù)可以按目的或功能分類。表18-2列出了部分二級(jí)數(shù)據(jù)庫(kù)。
2022/11/2750基因組信息學(xué)生物信息數(shù)據(jù)庫(kù)2022/11表18-2生物知識(shí)數(shù)據(jù)庫(kù)
知識(shí)數(shù)據(jù)庫(kù)網(wǎng)址蛋白質(zhì)功能位點(diǎn)PROSITEhttp://
BLOCKSPRINTSProDomPfamSMARTTIGRFAMS蛋白質(zhì)三維折疊SCOPCATH2022/11/2751表18-2生物知識(shí)數(shù)據(jù)庫(kù)知識(shí)數(shù)據(jù)庫(kù)網(wǎng)址PROSITEht
轉(zhuǎn)錄因子TRANSFAC蛋白質(zhì)相互作用BINDDIP蛋白途徑KEGGEcoCyc直系同源組COG基因本體論協(xié)會(huì)GO2022/11/2752轉(zhuǎn)錄因子TRANSFAC蛋白質(zhì)相互作用BIND基因組信息學(xué)◆主要序列倉(cāng)庫(kù)
計(jì)算生物學(xué)和生物信息學(xué)的許多應(yīng)用是以核苷和蛋白質(zhì)序列為基礎(chǔ)的。三個(gè)主要倉(cāng)庫(kù)中含有所有已知的核苷和蛋白質(zhì)序列。通過(guò)國(guó)際核苷序列數(shù)據(jù)庫(kù)聯(lián)盟,它們彼此間信息共享。這三個(gè)數(shù)據(jù)倉(cāng)庫(kù)是:日本DNA數(shù)據(jù)銀行(DDBJ):EMBL核苷序列數(shù)據(jù)庫(kù):GenBank:
目前,GenBank含有32億多個(gè)核苷堿基,代表十萬(wàn)多個(gè)物種中的2千8百多萬(wàn)個(gè)序列,這就表明大量的數(shù)據(jù)需要儲(chǔ)存。瞧一眼過(guò)去20年,尤其是過(guò)去8年來(lái)GeneBank的增長(zhǎng),我們就可以看到序列數(shù)據(jù)的爆炸。2022/11/2753基因組信息學(xué)◆主要序列倉(cāng)庫(kù)2022/11/2基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)
核苷序列信息也可以按基因組數(shù)據(jù)庫(kù)的方式組織與存貯。最廣泛使用的基因組數(shù)據(jù)源之一是UCSC基因組瀏覽器,它含有大鼠、小鼠和人類基因組的全部序列和相應(yīng)的注釋。另一個(gè)廣泛使用的數(shù)據(jù)源是Ensembl基因?yàn)g覽器。另外一些基因組數(shù)據(jù)庫(kù)還包括:WormBase,它含有C.elegans和C.briggsae蠕蟲的基因組;AceDB,它含有C.elegans、S.pombe和H.sapiens的基因組;CMR含有95種完成的微生物基因組;FlyBase-Drosophilamelanogaster基因組;HIV-艾滋病毒基因組;MosDB-水稻基因組數(shù)據(jù)庫(kù);MGD-老鼠基因組數(shù)據(jù)庫(kù);酵母基因組數(shù)據(jù)庫(kù);TAIR-Arabidopsis信息庫(kù);ArkDB-動(dòng)物基因組數(shù)據(jù)庫(kù);還有其它許多未列出的數(shù)據(jù)庫(kù)。
2022/11/2754基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)2022/11/基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)
Ensembl基因組瀏覽器:UCSC基因組瀏覽器:WormBase:AceDB:CMR:CMR2/CMRHomePage.spl2022/11/2755基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)2022/11/基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)
FlyBase:HIV序列數(shù)據(jù)庫(kù):MOsDB水稻數(shù)據(jù)庫(kù):MGD小鼠基因組數(shù)據(jù)庫(kù):RGD大鼠基因組數(shù)據(jù)庫(kù):酵母基因組數(shù)據(jù)庫(kù):Saccharomyces/Arabidopsis信息庫(kù):ArkDB:2022/11/2756基因組信息學(xué)◆基因組數(shù)據(jù)庫(kù)2022/11/基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)
目前有不少基因和相關(guān)聯(lián)的結(jié)構(gòu)數(shù)據(jù)庫(kù)。其中最大的一個(gè)就是NCBI(美國(guó)國(guó)家生物技術(shù)中心)所屬的RefSeq數(shù)據(jù)庫(kù)。它是一個(gè)充分注釋了的非冗余mRNA信息庫(kù)。其它的基因和基因結(jié)構(gòu)數(shù)據(jù)庫(kù)還有:AllGenes,其人類和老鼠的基因指數(shù)整合了基因、轉(zhuǎn)錄和蛋白質(zhì)注釋;ASAP;ExInt,基因的外顯子-內(nèi)含子結(jié)構(gòu);IDB/IEDB,內(nèi)含子序列和進(jìn)化;SpliceDB,Canonical和非Canonical哺乳動(dòng)物剪接位點(diǎn);GDB和GenAtlas,人類基因和基因組圖譜;HS3D,人類外顯子、內(nèi)含子和剪接區(qū)。2022/11/2757基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)
RefSeq(NCBI參考序列項(xiàng)目):AllGenes:GDBGenAtlas:Genew(被批準(zhǔn)的基因名字):bin/nomenclature/searchgenes.pl2022/11/2758基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)
ASAP(交互剪接基因):ExInt:IDB/IEDB:SpliceDB:HS3D:/
2022/11/2759基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)
目前有不少基因和相關(guān)聯(lián)的結(jié)構(gòu)數(shù)據(jù)庫(kù)。其中最大的一個(gè)就是NCBI(美國(guó)國(guó)家生物技術(shù)中心)所屬的RefSeq數(shù)據(jù)庫(kù)。它是一個(gè)充分注釋了的非冗余mRNA信息庫(kù)。其它的基因和基因結(jié)構(gòu)數(shù)據(jù)庫(kù)還有:AllGenes,其人類和老鼠的基因指數(shù)整合了基因、轉(zhuǎn)錄和蛋白質(zhì)注釋;ASAP;ExInt,基因的外顯子-內(nèi)含子結(jié)構(gòu);IDB/IEDB,內(nèi)含子序列和進(jìn)化;SpliceDB,Canonical和非Canonical哺乳動(dòng)物剪接位點(diǎn);GDB和GenAtlas,人類基因和基因組圖譜;HS3D,人類外顯子、內(nèi)含子和剪接區(qū)。2022/11/2760基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)
RefSeq(NCBI參考序列項(xiàng)目):AllGenes:GDBGenAtlas:Genew(被批準(zhǔn)的基因名字):2022/11/2761基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)
ASAP(交互剪接基因):ExInt:IDB/IEDB:SpliceDB:HS3D:/2022/11/2762基因組信息學(xué)◆基因數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆單核苷多態(tài)性數(shù)據(jù)源ASAP(交互剪接基因)在人類的基因序列中,對(duì)于不同的個(gè)體,大約每2000個(gè)堿基中會(huì)有一個(gè)堿基不同。這一看起來(lái)不顯眼的數(shù)字,在人群中產(chǎn)生了一百六十多萬(wàn)個(gè)單核苷多態(tài)性。SNPs在個(gè)體的差異性方面扮演了極其重要的角色,同時(shí)也是許多疾病產(chǎn)生的原因(著名的有鐮刀細(xì)胞貧血)。單核苷多態(tài)性的主要數(shù)據(jù)庫(kù)有:
dbSNP(單核苷多態(tài)性數(shù)據(jù)庫(kù)):SNP(單核苷多態(tài)性本體論數(shù)據(jù)庫(kù)):rSNP指南(調(diào)控基因SNPs):
2022/11/2763基因組信息學(xué)◆單核苷多態(tài)性數(shù)據(jù)源ASAP(交基因組信息學(xué)◆表達(dá)序列標(biāo)簽庫(kù)表達(dá)序列標(biāo)簽(EST,expressedsequencetags)是一些mRNA的片斷拷貝。通過(guò)它們可以獲得基因剪接的模式。常見(jiàn)的表達(dá)序列標(biāo)簽庫(kù)包括:
dbESTGRL(基因源定位子):HUNT(已注釋的人類全長(zhǎng)cDNA序列):Sputnik(聚類植物表達(dá)序列標(biāo)簽注釋):STACK(無(wú)冗余面向基因的聚類):TIGR:UniGene:2022/11/2764基因組信息學(xué)◆表達(dá)序列標(biāo)簽庫(kù)2022/11/基因組信息學(xué)◆結(jié)合位點(diǎn),啟動(dòng)子除了基因組中基因的定位,了解基因表達(dá)開關(guān)的位置同樣是非常重要的。下面列出一些啟動(dòng)子和轉(zhuǎn)錄因子的數(shù)據(jù)庫(kù):
EPD(真核生物PolⅡ啟動(dòng)子):
PromEC(大腸桿菌mRNA啟動(dòng)子):TRANSFAC(轉(zhuǎn)錄因子和結(jié)合位點(diǎn)):2022/11/2765基因組信息學(xué)◆結(jié)合位點(diǎn),啟動(dòng)子2022/11基因組信息學(xué)◆蛋白質(zhì)數(shù)據(jù)庫(kù)
DNA->RNA->蛋白質(zhì)是分子生物學(xué)的中心法則。蛋白質(zhì)的數(shù)據(jù)庫(kù)非常多,對(duì)于不同的蛋白質(zhì)家族可以創(chuàng)立不同的數(shù)據(jù)庫(kù)。下面列出幾個(gè)廣泛使用的數(shù)據(jù)庫(kù):
InterPro(蛋白質(zhì)家族和域):EXProt(功能被實(shí)驗(yàn)證實(shí)的蛋白質(zhì)):PIR(蛋白質(zhì)信息庫(kù)):SWISS-PROT/TrEMBL(已注釋的蛋白質(zhì)序列)
2022/11/2766基因組信息學(xué)◆蛋白質(zhì)數(shù)據(jù)庫(kù)2022/11/2基因組信息學(xué)◆蛋白質(zhì)序列模體(Motifs)
蛋白質(zhì)序列模體是蛋白質(zhì)中的一些保守的區(qū)域。儲(chǔ)存這些信息的數(shù)據(jù)庫(kù)包括:
BLOCKS(保守域的多重比對(duì)):
CDD:eMOTIF:Pfam:PRINTS:ProDom:PROSITE:ProtoMap:2022/11/2767基因組信息學(xué)◆蛋白質(zhì)序列模體(Motifs)基因組信息學(xué)◆結(jié)構(gòu)數(shù)據(jù)庫(kù)
當(dāng)?shù)鞍踪|(zhì)的序列確立后,剩下的事就是確定它的結(jié)構(gòu)和功能。蛋白質(zhì)的三維結(jié)構(gòu)一般通過(guò)核磁共振或X射線衍射光子學(xué)方法確定。一些大規(guī)模結(jié)構(gòu)數(shù)據(jù)庫(kù)包括:
ASTRALPDBSCOPMMDB2022/11/2768基因組信息學(xué)◆結(jié)構(gòu)數(shù)據(jù)庫(kù)2022/11/26基因組信息學(xué)◆基因表達(dá)數(shù)據(jù)庫(kù)(微陣列實(shí)驗(yàn))
一旦基因的定位和序列已知,下一個(gè)步驟就是確定它們的功能。目前DNA微陣列仍舊是基因表達(dá)方面最重要的高通量試驗(yàn)技術(shù)。實(shí)驗(yàn)得到的圖像、基因表達(dá)的模式、實(shí)驗(yàn)結(jié)果的分析和代謝途徑等結(jié)果存放在相應(yīng)的數(shù)據(jù)庫(kù)中,下面列出其中部分?jǐn)?shù)據(jù)庫(kù)的網(wǎng)址:
ArrayExpressBodyMapHugeIndex
小鼠Atlas和基因表達(dá)數(shù)據(jù)庫(kù):NetAffx
斯坦福微陣列數(shù)據(jù)庫(kù):KEGGKlotho2022/11/2769基因組信息學(xué)◆基因表達(dá)數(shù)據(jù)庫(kù)(微陣列實(shí)驗(yàn))2基因組信息學(xué)◆基因表達(dá)數(shù)據(jù)庫(kù)(微陣列實(shí)驗(yàn))
一旦基因的定位和序列已知,下一個(gè)步驟就是確定它們的功能。目前DNA微陣列仍舊是基因表達(dá)方面最重要的高通量試驗(yàn)技術(shù)。實(shí)驗(yàn)得到的圖像、基因表達(dá)的模式、實(shí)驗(yàn)結(jié)果的分析和代謝途徑等結(jié)果存放在相應(yīng)的數(shù)據(jù)庫(kù)中,下面列出其中部分?jǐn)?shù)據(jù)庫(kù)的網(wǎng)址:
ArrayExpressBodyMapHugeIndex
小鼠Atlas和基因表達(dá)數(shù)據(jù)庫(kù):2022/11/2770基因組信息學(xué)◆基因表達(dá)數(shù)據(jù)庫(kù)(微陣列實(shí)驗(yàn))2基因組信息學(xué)NetAffx斯坦福微陣列數(shù)據(jù)庫(kù):KEGGKlothoMetaCyc
2022/11/2771基因組信息學(xué)NetAffx2022/11基因組信息學(xué)◆其它數(shù)據(jù)庫(kù)
當(dāng)基因的功能已知后,就能夠?qū)⒛切┡c疾病相關(guān)的基因分類。突變數(shù)據(jù)庫(kù)包括:
OMIM:OMIA:HGMD:
腫瘤基因家族數(shù)據(jù)庫(kù):
最廣泛使用的文獻(xiàn)資源是PubMed:
2022/11/2772基因組信息學(xué)◆其它數(shù)據(jù)庫(kù)2022/11/26基因組信息學(xué)
序列比對(duì)的動(dòng)態(tài)程序算法
◆序列比對(duì)的目的給定一個(gè)、一對(duì)、或若干個(gè)核苷酸或氨基酸序列,立即擺在我們面前的一個(gè)問(wèn)題就是序列之間是否有關(guān)聯(lián)。序列比對(duì)的目的就是要回答這個(gè)問(wèn)題。具體說(shuō)來(lái)就是要通過(guò)比較序列之間的相似性程度回答序列所代表的對(duì)象間,功能、結(jié)構(gòu)、及其進(jìn)化關(guān)聯(lián)。如果給定的是單個(gè)序列,就是通過(guò)將該序列和自身比對(duì),找出整個(gè)序列中重復(fù)的序列片斷。成對(duì)序列之間的比對(duì)叫做序列的兩兩比對(duì)(pairwisealignment),兩個(gè)以上序列之間的比對(duì)被稱之為序列多重比對(duì)。序列兩兩比對(duì)或多重比對(duì)中,如果是比較序列間的整體相似性,就叫做全局比對(duì)(globalalignment);如果是比較序列間的局部相似性,就是局部比對(duì)(localalignment)。下文著重序列間的兩兩比對(duì)。2022/11/2773基因組信息學(xué)序列比對(duì)的動(dòng)態(tài)程序算法2022/11/2基因組信息學(xué)◆序列的全局比對(duì)對(duì)兩個(gè)序列做全局比對(duì)時(shí),序列兩兩比對(duì)的動(dòng)態(tài)規(guī)劃(dynamicprogram)算法,被稱之為Needleman-Wunsch算法。該算法由五步構(gòu)成:
1.確定打分方案;
2.比對(duì)矩陣的初始化;
3.確定比對(duì)矩陣每一個(gè)單元的分值;
4.從比對(duì)矩陣的右下角開始追溯分值路徑(traceback);
5.根據(jù)4的結(jié)果確定比對(duì)方案。2022/11/2774基因組信息學(xué)◆序列的全局比對(duì)2022/11/2◆序列的全局比對(duì)打分方案:
其中,s(ai,bj)是序列1第i個(gè)位點(diǎn)的字母(核苷酸或氨基酸殘基),ai與序列2第j個(gè)位點(diǎn)的字母bj一致或不一致時(shí)所賦的分值,w是間隙(gap)罰分。這些分值取多少并無(wú)確切的值,比方說(shuō),可以給定如下方案:基因組信息學(xué)如果如果
空位罰分2022/11/2775◆序列的全局比對(duì)基因組信息學(xué)如果如果空位罰分20基因組信息學(xué)◆序列的全局比對(duì)下面用一個(gè)例子來(lái)說(shuō)明具體的操作步驟。假定兩個(gè)序列分別是:序列1:GAATTCAGTTA
序列2:GGATCGA
2022/11/2776基因組信息學(xué)◆序列的全局比對(duì)2022/11/26761.比對(duì)矩陣的初始化:
基因組信息學(xué),從而
2022/11/27771.比對(duì)矩陣的初始化:基因組信息學(xué),從而2022/112.確定比對(duì)矩陣每一個(gè)單元的分值:
基因組信息學(xué)2022/11/27782.確定比對(duì)矩陣每一個(gè)單元的分值:基因組信息學(xué)2022/基因組信息學(xué)2022/11/2779基因組信息學(xué)2022/11/2679基因組信息學(xué)
箭頭所指是分值的來(lái)源。
2022/11/2780基因組信息學(xué)箭頭所指是分值的來(lái)源。2022/3.從比對(duì)矩陣的最右下角開始追溯分值路徑(traceback);基因組信息學(xué)2022/11/27813.從比對(duì)矩陣的最右下角開始追溯分值路徑(traceba基因組信息學(xué)◆序列的局部比對(duì)對(duì)兩個(gè)序列做局部比對(duì)時(shí),序列兩兩比對(duì)的動(dòng)態(tài)規(guī)劃(dynamicprogram)算法被稱之為Smith-Waterman算法。該算法與Needleman-Wunsch算法類似,只需要將最小分值取零值。追溯分值路徑(traceback)不是從矩陣的最右下角開始,而是從整個(gè)矩陣的最高分元素開始,到零時(shí)終止。其它與序列全局比對(duì)相同,這里不再贅述。2022/11/2782基因組信息學(xué)◆序列的局部比對(duì)2022/11/2682基因組信息學(xué)
復(fù)雜生物系統(tǒng)
◆引言
研究生物系統(tǒng)的高階行為正在成為生物學(xué)研究領(lǐng)域的主流。其實(shí)從NorbertWeiner時(shí)代起,從系統(tǒng)論的觀點(diǎn)出發(fā)研究細(xì)胞、生物體的系統(tǒng)功能就已經(jīng)受科學(xué)家關(guān)注的問(wèn)題。它在今天重新受到高度重視的主要原因就是分子生物學(xué)取得的進(jìn)步。尤其是,在基因測(cè)序和高通量測(cè)量方法的突破,使我們能夠系統(tǒng)地收集到廣泛的數(shù)據(jù)集,并從中獲得潛在分子的信息,在Weiner的時(shí)期,這絕對(duì)不可能,那時(shí)分子生物學(xué)還是一個(gè)新興的學(xué)科。2022/11/2783基因組信息學(xué)復(fù)雜生物系統(tǒng)◆基因組信息學(xué)
復(fù)雜生物系統(tǒng)
◆復(fù)雜系統(tǒng)的表示
復(fù)雜系統(tǒng)由系統(tǒng)中的成員和成員之間的相互作用組成。表18-3列舉了一些復(fù)雜的生物系統(tǒng)。如圖18-1所示,系統(tǒng)中的成員用節(jié)點(diǎn)表示,節(jié)點(diǎn)之間的相互作用用連接也就是邊表示。節(jié)點(diǎn)和邊構(gòu)成圖,也就是說(shuō),在生物信息學(xué)上,一個(gè)復(fù)雜生物系統(tǒng)被抽象為由一張由節(jié)點(diǎn)和邊構(gòu)成的網(wǎng)絡(luò)圖,例如,圖18-2所示是酵母蛋白質(zhì)-蛋白質(zhì)相互作用連鎖圖。2022/11/2784基因組信息學(xué)復(fù)雜生物系統(tǒng)◆基因組信息學(xué)系統(tǒng)節(jié)點(diǎn)邊(相互作用)蛋白質(zhì)三維結(jié)構(gòu)原子原子間相互作用生物體分子分子間相互作用大腦神經(jīng)細(xì)胞細(xì)胞間相互作用生態(tài)系統(tǒng)生物體生物體間相互作用文明人人際關(guān)系表18-3一些復(fù)雜的生物系統(tǒng)
2022/11/2785基因組信息學(xué)系統(tǒng)節(jié)點(diǎn)邊(相互作用)蛋白質(zhì)三維結(jié)構(gòu)原子原子間基因組信息學(xué)復(fù)雜系統(tǒng)節(jié)點(diǎn)相互作用節(jié)點(diǎn)節(jié)點(diǎn)非線性即使單個(gè)節(jié)點(diǎn)行為簡(jiǎn)單,系統(tǒng)集體行為也可能非常復(fù)雜圖18-1復(fù)雜系統(tǒng)的抽象化表示
2022/11/2786基因組信息學(xué)復(fù)雜系統(tǒng)節(jié)點(diǎn)相互作用節(jié)點(diǎn)節(jié)點(diǎn)非線性即使單個(gè)節(jié)點(diǎn)行基因組信息學(xué)圖18-2酵母蛋白質(zhì)-蛋白質(zhì)相互作用連鎖圖
2022/11/2787基因組信息學(xué)圖18-2酵母蛋白質(zhì)-蛋白質(zhì)相互作用連鎖圖基因組信息學(xué)
復(fù)雜生物系統(tǒng)◆分子相互作用網(wǎng)路分子相互作用網(wǎng)絡(luò)節(jié)點(diǎn)(元素)相互作用(二元關(guān)系)分子相互作用網(wǎng)絡(luò)途徑(pathway)代謝途徑信號(hào)傳導(dǎo)途徑細(xì)胞循環(huán)途徑發(fā)育途徑基因調(diào)控網(wǎng)絡(luò)蛋白質(zhì)相互作用網(wǎng)絡(luò)亞細(xì)胞器圖18-3復(fù)雜生物系統(tǒng)中的分子相互作用網(wǎng)路2022/11/2788基因組信息學(xué)復(fù)雜生物系統(tǒng)分子相互作用網(wǎng)絡(luò)節(jié)點(diǎn)(元素)相互基因組信息學(xué)
復(fù)雜生物系統(tǒng)
◆分子相互作用網(wǎng)路
如圖18-3所示,生物系統(tǒng)中,生物分子之間相互作用構(gòu)成生物分子網(wǎng)絡(luò)。網(wǎng)絡(luò)中的節(jié)點(diǎn)是分子,節(jié)點(diǎn)-節(jié)點(diǎn)之間的兩兩相互作用構(gòu)成二元關(guān)系。表18-4所示是二元關(guān)系的一些例子。2022/11/2789基因組信息學(xué)復(fù)雜生物系統(tǒng)◆基因組信息學(xué)關(guān)系類型內(nèi)容舉例事實(shí)關(guān)系數(shù)據(jù)庫(kù)錄入數(shù)據(jù)的鏈接事實(shí)數(shù)據(jù)和文獻(xiàn)信息,核苷酸序列和氨基酸序列,蛋白質(zhì)序列和三維結(jié)構(gòu)相似性關(guān)系計(jì)算相似性計(jì)算互補(bǔ)性序列相似性;三維結(jié)構(gòu)相似性;三維結(jié)構(gòu)互補(bǔ)性功能關(guān)系分子反應(yīng)分子相互作用遺傳相互作用染色體關(guān)系進(jìn)化關(guān)系底物-產(chǎn)物關(guān)系分子通路;分子復(fù)合物;正向共表達(dá)基因;反向共表達(dá)基因;基因位置的相關(guān)性;直向同源和共生同源基因表18-4二元關(guān)系實(shí)例
2022/11/2790基因組信息學(xué)關(guān)系類型內(nèi)容舉例事實(shí)數(shù)據(jù)和文獻(xiàn)信息,計(jì)算相似性序基因組信息學(xué)
復(fù)雜生物系統(tǒng)
◆系統(tǒng)生物學(xué)中的關(guān)鍵問(wèn)題
1.系統(tǒng)結(jié)構(gòu)它包括基因相互作用和生化途徑網(wǎng)絡(luò),以及這些相互作用調(diào)節(jié)細(xì)胞內(nèi)、細(xì)胞間結(jié)構(gòu)的物理性質(zhì)的機(jī)制。
2.系統(tǒng)動(dòng)力學(xué)通過(guò)代謝分析、敏感性分析、動(dòng)力學(xué)分析方法如相位圖、分歧分析及其特定行為的基本機(jī)制的識(shí)別來(lái)理解系統(tǒng)在不同條件下隨時(shí)間如何變化。分歧分析跟蹤多維空間中系統(tǒng)狀態(tài)隨時(shí)間的變化,其中每一維代表所包含的生化因素的一個(gè)特定的集合。2022/11/2791基因組信息學(xué)復(fù)雜生物系統(tǒng)◆基因組信息學(xué)
復(fù)雜生物系統(tǒng)
◆系統(tǒng)生物學(xué)中的關(guān)鍵問(wèn)題
3.控制方法調(diào)整控制細(xì)胞狀態(tài)的機(jī)制,減少故障的發(fā)生,為疾病的治療提供潛在的治療目標(biāo)。
4.設(shè)計(jì)方法基于明確的設(shè)計(jì)原則和仿真,而不是盲目的試驗(yàn)(trial-and-error)來(lái)提供設(shè)計(jì)策略,修改和構(gòu)造生物學(xué)系統(tǒng),使其具備預(yù)期的特性。2022/11/2792基因組信息學(xué)復(fù)雜生物系統(tǒng)◆系統(tǒng)生物學(xué)中的基因組信息學(xué)
以上任何一個(gè)領(lǐng)域的進(jìn)展需要我們對(duì)計(jì)算機(jī)科學(xué)、基因組學(xué)、蛋白質(zhì)組學(xué)、測(cè)量技術(shù)的整合,及其新發(fā)現(xiàn)與已有知識(shí)的整合上有所突破。基因調(diào)控邏輯以及生化網(wǎng)絡(luò)的識(shí)別將是主要挑戰(zhàn)。生成一個(gè)網(wǎng)絡(luò)模型的傳統(tǒng)方法是通過(guò)一系列的實(shí)驗(yàn),從而識(shí)別特定的相互作用,進(jìn)而進(jìn)行廣泛的文獻(xiàn)調(diào)研。對(duì)生成基因調(diào)控、生化網(wǎng)絡(luò)的大規(guī)模綜合性數(shù)據(jù)庫(kù),已經(jīng)取得了進(jìn)展。盡管那些數(shù)據(jù)庫(kù)是有用的知識(shí)源,很多網(wǎng)絡(luò)結(jié)構(gòu)仍需要識(shí)別。在基因表達(dá)特征模式的研究中,聚類分析被用來(lái)標(biāo)識(shí)與已知功能基因共同表達(dá)的基因。
2022/11/2793基因組信息學(xué)以上任何一個(gè)領(lǐng)域的進(jìn)展需要我們對(duì)計(jì)基因組信息學(xué)
盡管聚類分析提供了基因和生物學(xué)現(xiàn)象的關(guān)聯(lián),但它并未揭示調(diào)控關(guān)系中的因果關(guān)系。已有幾種方法可以僅基于基因芯片數(shù)據(jù)來(lái)揭示調(diào)控關(guān)系。現(xiàn)在這些方法使用來(lái)自mRNA豐度的信息,因此基于轉(zhuǎn)錄調(diào)控推斷因果關(guān)系范圍有限。當(dāng)數(shù)據(jù)量巨大時(shí),調(diào)控的后轉(zhuǎn)錄和后翻譯機(jī)制可結(jié)合進(jìn)來(lái),但仍有很多特性需要在高通量高精度的測(cè)量。盡管將所有要求的數(shù)據(jù)結(jié)合進(jìn)自動(dòng)測(cè)量系統(tǒng)是不可能的,但轉(zhuǎn)錄調(diào)控的分析可以提供十分有用的信息,這是因?yàn)樗梢蕴峁┘僭O(shè)來(lái)允許我們推斷網(wǎng)絡(luò)結(jié)構(gòu)。一般而言,當(dāng)自動(dòng)測(cè)量分析生成多個(gè)假設(shè)的話,就表明信息仍然不足。
2022/11/2794基因組信息學(xué)盡管聚類分析提供了基因和生物學(xué)現(xiàn)象北京理工大學(xué)生命科學(xué)與技術(shù)學(xué)院謝謝!2022/11/2795北京理工大學(xué)謝謝!2022/11/2695DefinitionBioinformaticsisanintegrationofmathematical,statistical,andcomputermethodstoacquire,manage,annotate,andanalyzebiological,biochemicalandbiophysicaldata.2022/11/2796DefinitionBioinformaticsisanWhatisBioinformatics?biochemistryStructuralbiologymolecularbiologygenomicsproteomicsControltheorymathematicsstatisticsComputersciencebioinformatics2022/11/2797WhatisBioinformatics?biochem2022/11/27982022/11/26982022/11/27992022/11/26992022/11/271002022/11/26100Whyisbioinformaticshot?Supply/demand:fewpeopleadequatelytrainedinbothbiologyandcomputerscienceGenomics,proteomics,etcleadtolargeamountsofdatatobeanalyzedLeadstoimportantdiscoveriesSavestimeandmoney2022/11/27101Whyisbioinformaticshot?Supp….ACGTGGTTAAATCGTATGCTTAGCTACCCACGTGGTTAAATCGTATGCTTAGCTAGTTACGTGGTTAAATCGTATGCTTAGCTAGCCACGTGGTTAAATCGTATGCTTAGCTATTTACGTGGTTAAATCGTATGCTTAGCTACGCACGTGGTTAAATCGTATGCTTAGCTA………DNALocation:NucleusofEveryCellComposition:Nucleotides4TypesofNucleotideBases:A,G,C,THuman:3millionkilobasesDNA,1metreinlength90%JunkDNA;10%Genes2022/11/27102….ACGTGGTTAAATCGTATGCTTAGCTACCTranscription
intoRNA…..ACGTGGTTAAATCGTA……….UGCACCAAUUUAGCAU……T->UModifications2022/11/27103Transcription
intoRNA…..ACGTGTranslation
intoProtein3Nucleotides1aminoacid20AminoacidsPost-TranslationalModifications2022/11/27104Translation
intoProtein3NuclProteinFolding2022/11/27105ProteinFolding2022/11/26105WhatisaGene?thephysicalandfunctionalunitofhereditythatcarriesinformationfromonegenerationtothenextDNAsequencenecessaryforthesynthesisofafunctionalproteinorRNAmolecule
2022/11/27106WhatisaGene?thephysicalanGenomechromosomalDNAofanorganismnumberofchromosomesandgenomesizevariesquitesignificantlyfromoneorganismtoanotherGenomesizeandnumberofgenesdoesnotnecessarilydetermineorganismcomplexity2022/11/27107GenomechromosomalDNAofanorORGANISMCHROMOSOMESGENOMESIZEGENESHomosapiens(Humans)233,200,000,000~30,000Musmusculus(Mouse)202,600,000,000~30,000Drosophilamelanogaster
(FruitFly)4180,000,000~18,000Saccharomycescerevisiae(Yeast)1614,000,000~6,000Zeamays(Corn)102,400,000,000???GenomeComparison2022/11/27108ORGANISMCHROMOSOMESGENOMESIZETranscriptomecompletecollectionofallpossiblemRNAs(includingsplicevariants)ofanorganism.regionsofanorganism’sgenomethatgettranscribedintomessengerRNA.transcriptomecanbeextendedtoincludealltranscribedelements,includingnon-codingRNAsusedforstructuralandregulatorypurposes.2022/11/27109TranscriptomecompletecollectiProteomethecompletecollectionofproteinsthatcanbeproducedbyanorganism.canbestudiedeitherasstatic(sumofallproteinspossible)ordynamic(allproteinsfoundataspecifictimepoint)entity2022/11/27110ProteomethecompletecollectioReviewofProteinsProteins:polypeptideswithathreedimensionalstructure
Primarystructure–sequenceofaminoacidsconstitutingpolypeptidechainSecondarystructure–localorganizationofpolypeptidechainintosecondarystructuressuchashelicesandsheets2022/11/27111ReviewofProteinsProteins:poReviewofProteinsTertiarystructure–threedimensionalarrangementsofaminoacidsastheyreacttooneanotherduetopolarityandinteractionsbetweensidechainsQuaternarystructure–Interactionofseveralproteinsubunits
2022/11/27112ReviewofProteinsTertiarystrProteinStructureProteins:chainsofaminoacidsjoinedbypeptidebondsAminoAcids:Polar(separatepositiveandnegativelychargedregions)freeC=Ogroup(CARBOXYL),canactashydrogenbondacceptorfreeNHgroup(AMINYL),canactashydrogenbonddonor2022/11/27113ProteinStructureProteins:chaProteinStructure2022/11/27114ProteinStructure2022/11/26114ProteinStructu
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北師大版三年級(jí)信息技術(shù)下冊(cè)教學(xué)計(jì)劃
- 教科版三年級(jí)下冊(cè)科學(xué)課程學(xué)習(xí)計(jì)劃
- 生活用紙項(xiàng)目績(jī)效評(píng)估報(bào)告
- 小學(xué)英語(yǔ)教學(xué)質(zhì)量提升的方法
- 財(cái)務(wù)會(huì)計(jì)類專業(yè)實(shí)習(xí)總結(jié)范文
- 中國(guó)電纜用聚氯乙烯阻燃料行業(yè)市場(chǎng)規(guī)模及投資前景預(yù)測(cè)分析報(bào)告
- 小學(xué)班級(jí)管理中的心理輔導(dǎo)措施
- 藥品研發(fā)新冠肺炎職業(yè)暴露處理流程
- 中國(guó)香豆素項(xiàng)目創(chuàng)業(yè)計(jì)劃書
- 銀川濾光鏡項(xiàng)目可行性研究報(bào)告范文
- 擋煙垂壁施工合同
- 社工招聘筆試題目及答案
- JGJ46-2024施工現(xiàn)場(chǎng)臨時(shí)用電安全技術(shù)標(biāo)準(zhǔn)宣講課件
- 2024北京西城區(qū)三年級(jí)(下)期末語(yǔ)文試題及答案
- 初中化學(xué)跨學(xué)科教學(xué)實(shí)踐活動(dòng)設(shè)計(jì)與實(shí)施研究
- GB/T 15180-2025重交通道路石油瀝青
- 勞動(dòng)合同正規(guī)版(2025年版)
- 神經(jīng)外科醫(yī)師職業(yè)發(fā)展計(jì)劃
- 高磷血癥的飲食護(hù)理
- 中國(guó)清潔服務(wù)行業(yè)發(fā)展運(yùn)行現(xiàn)狀及投資潛力預(yù)測(cè)報(bào)告
- 2025年基礎(chǔ)會(huì)計(jì)試題庫(kù)及答案
評(píng)論
0/150
提交評(píng)論