生物信息學(xué)課堂_第1頁
生物信息學(xué)課堂_第2頁
生物信息學(xué)課堂_第3頁
生物信息學(xué)課堂_第4頁
生物信息學(xué)課堂_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.1 緒論 v什么是生物信息學(xué)? v生物信息學(xué)的產(chǎn)生 v生物信息學(xué)發(fā)展過程 v生物信息學(xué)的基本方法 v生物信息學(xué)的研究內(nèi)容 v生物信息學(xué)的應(yīng)用 v基因組信息學(xué)的首要任務(wù) v生物信息學(xué)的重要研究課題 v生物信息學(xué)的商業(yè)價(jià)值 v通過學(xué)習(xí)應(yīng)逐漸掌握的內(nèi)容 .2 產(chǎn)生產(chǎn)生(分子生物學(xué)研究中獲得的大量數(shù)據(jù)) 收集收集(數(shù)據(jù)庫) 維護(hù)維護(hù)(產(chǎn)生高質(zhì)量數(shù)據(jù)) 傳播傳播(互聯(lián)網(wǎng),搜索引擎) 分析分析(主要研究內(nèi)容) 應(yīng)用應(yīng)用(多個(gè)領(lǐng)域) 什么是生物信息學(xué)? 主要由數(shù)據(jù)庫、計(jì)算機(jī)網(wǎng)絡(luò)和應(yīng)用軟件三大部分構(gòu)成 .3 定義 v收集、維護(hù)、傳播、分析以及利用在分子生物學(xué)研究中獲得的大量數(shù)據(jù)。 生物信息學(xué)(bioinfo

2、rmatics)是生物學(xué)與計(jì)算機(jī)科學(xué)以及應(yīng)用數(shù)學(xué)等學(xué) 科相互交叉而形成的一門新興學(xué)科。它通過對(duì)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取、 加工、存儲(chǔ)、檢索與分析,進(jìn)而達(dá)到揭示數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義的目 的。由于當(dāng)前生物信息學(xué)發(fā)展的主要推動(dòng)力來自分子生物學(xué),生物信息 學(xué)的研究主要集中于核苷酸和氨基酸序列的存儲(chǔ)、分類、檢索和分析等 方面,所以目前生物信息學(xué)可以狹義地定義為:將計(jì)算機(jī)科學(xué)和數(shù)學(xué)應(yīng) 用于生物大分子信息的獲取、加工、存儲(chǔ)、分類、檢索與分析,以達(dá)到 理解這些生物大分子信息的生物學(xué)意義的交叉學(xué)科?,F(xiàn)代分子生物學(xué)的 發(fā)展,特別是人基因組計(jì)劃的實(shí)施,使生物學(xué)家所面對(duì)的數(shù)據(jù)不再是實(shí) 驗(yàn)記錄本上或文獻(xiàn)上的幾行簡(jiǎn)單數(shù)字,

3、而是公共數(shù)據(jù)庫中數(shù)以千兆計(jì)的 記錄。 .4 v基因組信息是生物信息中最基本的表達(dá)形式,并且 基因組信息量在生物信息量中占有極大的比重,但 是,生物信息并不僅限于基因組信息,生物信息學(xué) 也不等于是基因組信息學(xué)。廣義的說,生物信息不 僅包括基因組信息,如基因的DNA序列、染色體定 位,也包括基因產(chǎn)物(蛋白質(zhì)或RNA)的結(jié)構(gòu)和功 能及各生物種間的進(jìn)化關(guān)系等其他信息資源。 定義 .5 生物信息學(xué)的產(chǎn)生產(chǎn)生 v80年代未人類基因組計(jì)劃(Human genome project)的啟動(dòng) v生物實(shí)驗(yàn)和衍生數(shù)據(jù)的大量儲(chǔ)存 v涉及生物學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和工程學(xué),依賴于計(jì)算機(jī)科 學(xué)、工程學(xué)和應(yīng)用數(shù)學(xué)的基礎(chǔ) v建

4、立、更新生物數(shù)據(jù)庫及獲取生物數(shù)據(jù)而聯(lián)合使用多項(xiàng)計(jì)算 機(jī)科學(xué)技術(shù)的應(yīng)用性學(xué)科 v不僅僅是只限于生物信息學(xué)這一概念的理論性學(xué)科。事實(shí)上, 它是一門理論概念與實(shí)踐應(yīng)用并重的學(xué)科 vbioinformatics這一名詞在1991年左右才在文獻(xiàn)中出現(xiàn),還 只是出現(xiàn)在電子出版物的文本中。 .6 生物信息學(xué)的產(chǎn)生產(chǎn)生 v世紀(jì)后期,生物科學(xué)技術(shù)迅猛發(fā)展,無論從數(shù)量上還是從質(zhì)量上都 極大地豐富了生物科學(xué)的數(shù)據(jù)資源。數(shù)據(jù)資源的急劇膨脹迫使人們尋求 一種強(qiáng)有力的工具去組織這些數(shù)據(jù),以利于儲(chǔ)存、加工和進(jìn)一步利用。 而海量的生物學(xué)數(shù)據(jù)中必然蘊(yùn)含著重要的生物學(xué)規(guī)律,這些規(guī)律將是解 釋生命之謎的關(guān)鍵,人們同樣需要一種強(qiáng)有力

5、的工具來協(xié)助人腦完成對(duì) 這些數(shù)據(jù)的分析工作。 v另一方面,以數(shù)據(jù)分析、處理為本質(zhì)的計(jì)算機(jī)科學(xué)技術(shù)和網(wǎng)絡(luò)技術(shù)迅猛 發(fā)展,并日益滲透到生物科學(xué)的各個(gè)領(lǐng)域。于是,一門嶄新的、擁有巨 大發(fā)展?jié)摿Φ男聦W(xué)科生物信息學(xué)悄然興起。 生物信息學(xué)=生物學(xué)數(shù)據(jù)+計(jì)算機(jī)科學(xué)技術(shù)+網(wǎng)絡(luò)技術(shù) .7 生物信息學(xué)發(fā)展過程 v早在年,在美國田納西州蓋特林堡召開的首次“生物學(xué)中的信 息理論研討會(huì)”上,便產(chǎn)生了生物信息學(xué)的概念。 v20世紀(jì)50年代末 數(shù)學(xué)模型、統(tǒng)計(jì)學(xué)方法和計(jì)算機(jī)處理宏觀生物學(xué)數(shù)據(jù)。 數(shù)量分類學(xué)、數(shù)學(xué)生態(tài)。 v年,這一學(xué)科被正式命名為“生物信息學(xué)”(bioinformatics)。 此后,其內(nèi)涵隨著研究的深入和現(xiàn)實(shí)

6、需要的變化而幾經(jīng)更迭。 v應(yīng)用于分子生物學(xué):分子生物學(xué)數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)分析與預(yù)測(cè)。 v年,在美國人類基因組計(jì)劃第一個(gè)五年總結(jié)報(bào)告中,給出了一 個(gè)較為完整的生物信息學(xué)定義 v人類基因組計(jì)劃(human genome project,HGP):1990年啟動(dòng),10年 時(shí)間完成草圖(3x10e9個(gè)堿基對(duì),并對(duì)30,000多個(gè)基因進(jìn)行了注釋)。 v越來越多的微生物和其他模式生物也完成了全基因組測(cè)序工作。 .8 生物信息學(xué)的發(fā)展過程 大致經(jīng)歷了3個(gè)階段: v前基因組時(shí)代-生物數(shù)據(jù)庫的建立、檢索工具的開 發(fā)、DNA和蛋白質(zhì)序列分析、全局和局部的序列對(duì) 位排列; v基因組時(shí)代-基因?qū)ふ液妥R(shí)別、網(wǎng)絡(luò)數(shù)據(jù)庫系

7、統(tǒng)的 建立、交互界面的開發(fā); v后基因組時(shí)代-大規(guī)?;蚪M分析、蛋白質(zhì)組分析。 .9 生物信息學(xué)的重要性重要性 v生物信息學(xué)不僅是一門學(xué)科,更是一種重要的研究開發(fā)工具。 v從科學(xué)的角度來講,生物信息學(xué)是一門研究生物和生物相關(guān) 系統(tǒng)中信息內(nèi)容與信息流向的綜合系統(tǒng)科學(xué)。只有通過生物 信息學(xué)的計(jì)算處理,人們才能從眾多分散的生物學(xué)觀測(cè)數(shù)據(jù) 中獲得對(duì)生命運(yùn)行機(jī)制的系統(tǒng)理解。 v從工具的角度來講,生物信息學(xué)幾乎是今后所有生物(醫(yī)藥) 研究開發(fā)所必需的工具。只有根據(jù)生物信息學(xué)對(duì)大量數(shù)據(jù)資 料進(jìn)行分析后,人們才能選擇該領(lǐng)域正確的研發(fā)方向。 v生物信息學(xué)不僅具有重大的科學(xué)意義,而且具有巨大的經(jīng)濟(jì) 效益。它的許多

8、研究成果可以較快地產(chǎn)業(yè)化,成為價(jià)值很高 的產(chǎn)品。 .10 生物信息學(xué)的基本方法: v建立生物數(shù)據(jù)庫:核苷酸順序數(shù)據(jù)庫(GENBANK)、Protein Data Bank(PDB)、氨基酸順序數(shù)據(jù)庫(SWISS-PRO)、酵母基因組數(shù)據(jù)庫 (YEASTS)、美國種質(zhì)保藏中心(ATCC)、美國專利局?jǐn)?shù)據(jù)庫(USPO)。 v數(shù)據(jù)庫檢索:Blast v序列分析:序列對(duì)位排列、同源比較、進(jìn)化分析。 v統(tǒng)計(jì)模型:如隱馬爾可夫模型(hidden Markov model, HMM)-基因識(shí)別、 藥物設(shè)計(jì)。最大似然模型(maximun likelihood model, ML)、 最大簡(jiǎn)約法 (Maximu

9、n Parsimony, MP)-分子進(jìn)化分析。 v算法:如自動(dòng)序列拼接、外顯子預(yù)測(cè)和同源比較、遺傳算法、人工神經(jīng) 網(wǎng)絡(luò)(artificial neural network)。 .11 生物信息學(xué)的研究內(nèi)容 v對(duì)基因組研究相關(guān)生物信息的獲取、加工、存儲(chǔ)、分配、分 析和解釋: v一是對(duì)海量數(shù)據(jù)的收集、整理與服務(wù),即管理好這些數(shù)據(jù); v二是從中發(fā)現(xiàn)新的規(guī)律,也就是使用好這些數(shù)據(jù)。 v具體地說,生物信息學(xué)是把基因組(脫氧核糖核酸) 序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和 (核糖核酸)基因的編碼區(qū)。同時(shí),闡明基因組中大量 存在的非編碼區(qū)的信息實(shí)質(zhì),破譯隱藏在序列中的遺 傳語言規(guī)律。在此基礎(chǔ)

10、上,歸納、整理與基因組遺傳信息釋 放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白質(zhì)譜的數(shù)據(jù),從而認(rèn)識(shí)代謝、 發(fā)育、分化、進(jìn)化等的規(guī)律。 .12 生物信息學(xué)的研究內(nèi)容 v獲取人和各種生物的完整基因組 v基因組注釋:新基因、單核苷酸多態(tài)(SNP). v基因組中非編碼區(qū)信息結(jié)構(gòu)分析 v在基因組水平研究生物進(jìn)化 v完整基因組的比較研究 v從功能基因組到系統(tǒng)生物學(xué) v蛋白質(zhì)結(jié)構(gòu)模擬與藥物設(shè)計(jì) .13 生物信息學(xué)的研究內(nèi)容 v獲取人和各種生物的完整基因組 基因組研究的首要目標(biāo)是獲得人的整套遺傳密碼。人 的遺傳密碼有億個(gè)堿基,而現(xiàn)在的測(cè)序 儀每個(gè)反應(yīng)只能讀取幾百到上千個(gè)堿基。這樣,要 得到人的全部遺傳密碼,首先要把人的基因組

11、打碎, 測(cè)完一個(gè)個(gè)小段的序列后再把它們重新拼接起來。 而基因組大規(guī)模測(cè)序的每一個(gè)環(huán)節(jié),都同信息分析 緊密相關(guān),每一步都緊密依賴于生物信息學(xué)的軟件 和數(shù)據(jù)庫。 .14 生物信息學(xué)的研究內(nèi)容 實(shí)驗(yàn)數(shù)據(jù) -轉(zhuǎn)換為-計(jì)算機(jī)信息 v高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)的獲得、加工和整理如何將實(shí)驗(yàn)室中 得到的生物學(xué)信息轉(zhuǎn)化為計(jì)算機(jī)能夠處理的數(shù)字信息,是生 物信息學(xué)的一個(gè)重要課題。這種轉(zhuǎn)化大量地體現(xiàn)在各種自動(dòng) 化分子生物學(xué)儀器應(yīng)用上,如DNA測(cè)序儀,PCR儀等。這類 儀器將實(shí)驗(yàn)所得的物理化學(xué)信號(hào)轉(zhuǎn)化為數(shù)字信息,并對(duì)其作 簡(jiǎn)單分析,再將分析結(jié)果用于實(shí)驗(yàn)條件的控制,完成高度自 動(dòng)化的實(shí)驗(yàn)過程。從事大規(guī)模EST測(cè)序和DNA物理圖

12、譜構(gòu)建 的實(shí)驗(yàn)室都已建立起高度自動(dòng)化的機(jī)器人系統(tǒng)來完成大部分 的實(shí)驗(yàn)工作。 .15 數(shù)據(jù)管理系統(tǒng) v伴隨著實(shí)驗(yàn)過程的高度自動(dòng)化甚至工廠化,從事大規(guī)模分子生物學(xué)項(xiàng)目 的實(shí)驗(yàn)室,每天需要存儲(chǔ)的數(shù)據(jù)可以輕易地超過幾千兆字節(jié)。這樣大的 數(shù)據(jù)量必須用專門的實(shí)驗(yàn)室數(shù)據(jù)管理系統(tǒng)進(jìn)行處理,以自動(dòng)完成包括實(shí) 驗(yàn)進(jìn)程和數(shù)據(jù)的記錄,常規(guī)數(shù)據(jù)分析,數(shù)據(jù)質(zhì)量檢測(cè)和問題的自動(dòng)查找, 常規(guī)的數(shù)據(jù)說明和數(shù)據(jù)輸人數(shù)據(jù)庫在內(nèi)的各項(xiàng)工作。由于不同實(shí)驗(yàn)室需 處理的數(shù)據(jù)類型各不相同,很多實(shí)驗(yàn)室都是各自開發(fā)自己的系統(tǒng)。隨著 測(cè)序逐漸成為實(shí)驗(yàn)室的常規(guī)工作,對(duì)這種系統(tǒng)的需求會(huì)越來越大。 生物信息學(xué)的研究內(nèi)容 .16 生物信息學(xué)的研究內(nèi)容 序

13、列片段的拼接 DNA自動(dòng)測(cè)序儀每個(gè)反應(yīng)只能測(cè)序500bP左右。如何將這些序列片段拼 接成完整的DNA順序就成為接下來的一個(gè)重要工作。傳統(tǒng)的測(cè)序技術(shù)通 常將克隆進(jìn)行亞克隆并對(duì)亞克隆進(jìn)行排序。這些工作需要大量的人力物 力?,F(xiàn)在生物信息學(xué)提供了自動(dòng)而高速地拼接序列的算法,即根據(jù) Lander-Waterman模型利用鳥槍法進(jìn)行測(cè)序,再將大量隨機(jī)測(cè)序的片段 用計(jì)算機(jī)進(jìn)行自動(dòng)拼接。這種技術(shù)不僅避免了亞克隆排序所需的大量繁 瑣的工作,還使序列具有一定的冗余性以保證序列中每個(gè)堿基的準(zhǔn)確性。 序列拼接算法的進(jìn)一步發(fā)展,需要在以下方面進(jìn)行改進(jìn):1將已知的基因 組知識(shí)應(yīng)用與拼接算法,以進(jìn)一步提高拼接真核基因組的有

14、效性。2自動(dòng) 處理自動(dòng)測(cè)序造成的差錯(cuò),特別是對(duì)差錯(cuò)傾向的EST順序更是如此。 .17 v目前最為常見的基因測(cè)序方法是鳥槍法(Shotgun method)。鳥槍法測(cè)序的結(jié)果使我們只能得到大量的隨機(jī) 的基因片段 v更廉價(jià)和更高效的新一代測(cè)序技術(shù),基因片段越來越短,基 本上是25-30個(gè)堿基對(duì)的片段,與以前的長達(dá)幾百幾千的基 因拼接在算法上就有了差異性。為了能夠在超短序列上拼接 出完整的基因序列,就必須加大測(cè)序的覆蓋率,這樣將會(huì)導(dǎo) 致龐大的初始序列文件,通常達(dá)到了GB級(jí)別。最新的序列 拼接軟件ALLPATHS V3.0 需要至少32GB的內(nèi)存,這種昂貴 的代價(jià)是一般機(jī)器無法提供的。 v超短基因片段

15、導(dǎo)致了大量的overlap(重疊區(qū)域),這將是傳 統(tǒng)的拼接算法所無法承受的計(jì)算量。還有大量的repeat(重 復(fù)區(qū)域)也將使傳統(tǒng)的算法更加的不可靠。同時(shí)初始文件的 龐大導(dǎo)致傳統(tǒng)的內(nèi)存算法已經(jīng)不再適用。 生物信息學(xué)的研究內(nèi)容 序列片段的拼接 .18 基因區(qū)域的預(yù)測(cè)(基因注釋) v在完成序列的拼接后,我們得到的是很長的DNA序列,甚至 可能是整個(gè)基因組的序列。這些序列中包含著許多未知的基 因,下一步就是將基因區(qū)域從這些長序列中找出來。 v所謂基因區(qū)域的預(yù)測(cè),一般是指預(yù)測(cè)DNA順序中編碼蛋白質(zhì) 的部分,即外顯子部分。不過目前基因區(qū)域的預(yù)測(cè)已從單純 外顯子預(yù)測(cè)發(fā)展到整個(gè)基因結(jié)構(gòu)的預(yù)測(cè)。這些預(yù)測(cè)綜合各種

16、 外顯子預(yù)測(cè)的算法和人們對(duì)基因結(jié)構(gòu)信號(hào)(如TATA box和加 尾信號(hào))的認(rèn)識(shí),預(yù)測(cè)出可能的完整基因。 生物信息學(xué)的研究內(nèi)容 .19 基因組注釋 有了完整基因組,人類對(duì)自身的認(rèn)識(shí)就更為細(xì)致、更為精確。 比如:發(fā)現(xiàn)在我們的基因組中真正編碼蛋白質(zhì)(稱為外顯子) 等的部分很少,只占11;外顯子與外顯子之間的區(qū)域 (稱為內(nèi)含子)占了24;而基因與基因之間的間隔序列卻 占了75,也就是說在人類基因組中不編碼蛋白質(zhì)的區(qū)域占 了絕大部分。發(fā)現(xiàn)人類編碼蛋白的基因較之其它生物體的基 因更為復(fù)雜,有更為豐富的剪接方式。發(fā)現(xiàn)基因組中片段重 復(fù)現(xiàn)象很普遍。發(fā)現(xiàn)人的第13號(hào)染色體比較穩(wěn)定,而男性的 第12號(hào)染色體和女性

17、的第16號(hào)染色體是易變的,等等。 生物信息學(xué)的研究內(nèi)容 .20 發(fā)現(xiàn)新基因 發(fā)現(xiàn)新基因是當(dāng)前國際上基因組研究的熱點(diǎn),使用生物信息 學(xué)的方法是發(fā)現(xiàn)新基因的重要手段。比如:啤酒酵母完整基 因組所包含的約6000個(gè)基因,大約60是通過信息分析得 到的。 生物信息學(xué)的研究內(nèi)容 Example: Take a protein sequence and use it as a query in a blastp search of the nr database at NCBI If there is a match with less than 100% identity If there is a m

18、atch with100% identity, but to a different species .21 發(fā)現(xiàn)新基因 -(1)基因的電腦克隆 利用 E ST數(shù)據(jù)庫發(fā)現(xiàn)新基因也被稱為基因的電腦克隆。 E ST序列是基因表達(dá)的短 c DNA序列,它們攜帶著完整基因 的某些片段的信息。到2001年10月,GenBank的EST數(shù)據(jù) 庫中人類 E ST序列已超過380萬條,它大約覆蓋了人類基因 的90以上。 我國早在1996年就開始了通過電腦克隆尋找新基因的研究。 它的原理非常簡(jiǎn)單,就是找到屬于同一基因的所有 E ST片 段,再把它們連接起來。由于 E ST序列是全世界很多實(shí)驗(yàn) 室隨機(jī)產(chǎn)生的,所以

19、屬于同一基因的很多 E ST序列間必然 有大量重復(fù)小片段,利用這些小片段作為標(biāo)志就可以把不同 的 E ST連起來,直到發(fā)現(xiàn)了它們的全長,這樣我們就可以 說通過電腦克隆找到了一個(gè)基因。如果這個(gè)基因以前未曾發(fā) 現(xiàn)過,那我們就找到了一個(gè)新基因。但是進(jìn)行電腦克隆程序 設(shè)計(jì)是復(fù)雜的,計(jì)算量是巨大的。 生物信息學(xué)的研究內(nèi)容 .22 發(fā)現(xiàn)新基因 -(2)從基因組 DNA序列中預(yù)測(cè)新基因 從基因組序列預(yù)測(cè)新基因,本質(zhì)上是把基因組上編碼蛋白質(zhì) 的區(qū)域和非編碼蛋白質(zhì)的區(qū)域區(qū)分開來。對(duì)于理論方法來講 就是要找到在編碼區(qū)和非編碼區(qū)哪些數(shù)學(xué)、物理學(xué)特征是不 一樣的。將這些序列與已知基因數(shù)據(jù)庫進(jìn)行比較,就可以發(fā) 現(xiàn)新的基

20、因了。 發(fā)現(xiàn)了新基因就會(huì)使我們對(duì)生命活動(dòng)的認(rèn)識(shí)加深一步。1999 年12月2日自然雜志,人的第22號(hào)染色體數(shù)據(jù)已鑒定出 679個(gè)基因,其中55的基因是未知的。有35種疾病與該染 色體突變相關(guān),像免疫系統(tǒng)疾病、先天性心臟病和精神分裂 癥。但是,要將人類的所有基因及其相應(yīng)的蛋白質(zhì)以及與它 們相關(guān)的功能完整而正確地整合到一個(gè)索引中,依然是一個(gè) 十分重要、十分艱巨的任務(wù)。 生物信息學(xué)的研究內(nèi)容 .23 發(fā)現(xiàn)單核苷酸多態(tài)(S NP) 有的人吸煙喝酒卻長壽,也有人自幼就病痛纏身;同一種治療 腫瘤的藥物對(duì)一些人非常有效,對(duì)另一些人則完全無效。這 是為什么?答案有可能是他們基因組中存在的差異。這種差 異很多表

21、現(xiàn)為單個(gè)堿基上的變異,也就是單核苷酸的多態(tài)性 (SNP)。 現(xiàn)在普遍認(rèn)為 SNP研究是人類基因組計(jì)劃走向應(yīng)用的重要步驟。 這主要是因?yàn)?SNP將提供一個(gè)強(qiáng)有力的工具,用于高危群 體的發(fā)現(xiàn)、疾病相關(guān)基因的鑒定、藥物的設(shè)計(jì)和測(cè)試以及生 物學(xué)的基礎(chǔ)研究等。 SNP在基因組中分布相當(dāng)廣泛,近來 的研究表明在人類基因組中每300堿基對(duì)就出現(xiàn)一次。大量 存在的 SNP位點(diǎn),使人們有機(jī)會(huì)發(fā)現(xiàn)與各種疾病,包括腫 瘤相關(guān)的基因組突變;從實(shí)驗(yàn)操作來看,通過 SNP發(fā)現(xiàn)疾 病相關(guān)基因突變要比通過家系來得容易;有些 SNP并不直 接導(dǎo)致疾病基因的表達(dá),但由于它與某些疾病基因相鄰,而 成為重要的標(biāo)記。 SNP在基礎(chǔ)研究

22、中也發(fā)揮了巨大的作用。 生物信息學(xué)的研究內(nèi)容 .24 基因組中非編碼區(qū)信息結(jié)構(gòu)分析 近年來的研究表明,在細(xì)菌這樣的微生物中,非編碼蛋白質(zhì)的區(qū)域只占整 個(gè)基因組序列的10到20。隨著生物由低等到高等,非編碼區(qū)越來越 多,在高等生物和人的基因組中非編碼序列已占到基因組序列的絕大部 分。這表明:這些非編碼序列必定具有重要的生物功能。普遍的認(rèn)識(shí)是, 它們與基因的表達(dá)調(diào)控有關(guān)。 對(duì)人類基因組來說,迄今為止,人們真正掌握規(guī)律的只有 D NA上的編碼蛋 白質(zhì)的區(qū)域(基因),最新資料說明這部分序列只占基因組的11。 僅占人類基因組11的編碼區(qū)的相關(guān)研究已經(jīng)締造了數(shù)十名諾貝爾獎(jiǎng) 獲得者,98非編碼區(qū)蘊(yùn)含的成果數(shù)

23、量將是十分可觀的,因此尋找這些 區(qū)域的編碼特征、信息調(diào)節(jié)與表達(dá)規(guī)律是未來相當(dāng)長時(shí)間內(nèi)的熱點(diǎn)課題, 是取得重要成果的源泉。 生物信息學(xué)的研究內(nèi)容 .25 基因功能預(yù)測(cè) v序列同源比較; v尋找蛋白質(zhì)家族保守順序; v蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)。 生物信息學(xué)的研究內(nèi)容 .26 基因功能預(yù)測(cè) mRNA芯片分析 多倫多大學(xué)的Tim Hughes和同事利用一種先前只用于簡(jiǎn)單生物體(如酵母 和線蟲)的技術(shù)對(duì)小鼠的基因組進(jìn)行了研究。在酵母和其它簡(jiǎn)單有機(jī)體 中,具有相同功能的基因的表達(dá)往往具有同步調(diào)節(jié)的特征。在這些有機(jī) 體中,確定已知和未知基因的相關(guān)聯(lián)的表達(dá)能夠幫助預(yù)測(cè)一個(gè)新基因的 功能。一直以來人們認(rèn)為這種技術(shù)無法用

24、在哺乳動(dòng)物上,同一個(gè)組織中 表達(dá)的基因最有可能具有一種功能上的聯(lián)系并因此產(chǎn)生了組織特異性。 在新的研究中,Hughes和同事創(chuàng)造出了含有在55種組織中表達(dá)的40000個(gè) 已知的小鼠mRNA的芯片并對(duì)其進(jìn)行分析。分析結(jié)果表明來自同一個(gè) GO-BP(Gene Ontology Biological Process)類別的基因在轉(zhuǎn)錄水平 上被協(xié)同調(diào)節(jié)而不取決于它們?cè)诤畏N組織中表達(dá)。 生物信息學(xué)的研究內(nèi)容 .27 分子進(jìn)化的研究:分子進(jìn)化的研究: v通過上述種種方法我們可以預(yù)測(cè)出一個(gè)新基因的可能具有的 功能。然而預(yù)測(cè)新基因只是生物信息學(xué)研究的一個(gè)方面,這 門學(xué)科的根本目標(biāo)是探究隱藏在生物數(shù)據(jù)后面的生物

25、學(xué)知識(shí)。 對(duì)于基因組研究來說,一個(gè)重要的研究方向就是分子序列的 進(jìn)化。通過比較不同生物基因組中各種結(jié)構(gòu)成分的異同,可 以大大加深我們對(duì)生物進(jìn)化的認(rèn)識(shí)。這種研究已逐步形成一 個(gè)稱為比較基因組學(xué)的新學(xué)科。從各種基因結(jié)構(gòu)與成分的進(jìn) 化,密碼子使用的進(jìn)化,到進(jìn)化樹的構(gòu)建,各種理論上和實(shí) 驗(yàn)上的課題都等待生物信息學(xué)家的研究。 生物信息學(xué)的研究內(nèi)容 .28 分子進(jìn)化的研究:分子進(jìn)化的研究: v科學(xué)家們對(duì)處于不同進(jìn)化階段物種的基因組 結(jié)構(gòu)和功能進(jìn)行比較分析,企圖最終弄清人 類10 萬個(gè)基因的起源和進(jìn)化、結(jié)構(gòu)和功能的 演變,發(fā)現(xiàn)其間的親緣關(guān)系,像元素周期表 那樣把基 因和蛋白質(zhì)分類、排序,得到生物 學(xué)的周期表

26、,根據(jù)基因在進(jìn)化樹上的位置, 或一小段核苷 酸序列,或蛋白質(zhì)的基序、模 塊、折疊等,即可預(yù)測(cè)其來源、結(jié)構(gòu)、功能 等。這項(xiàng)浩大的工 程顯然需要大量生物信息 學(xué)家長期不懈努力才能完成。 生物信息學(xué)的研究內(nèi)容 .29 v在基因組水平研究生物進(jìn)化 隨著基因組序列數(shù)據(jù)的大量增加,對(duì)序列差異和進(jìn)化關(guān)系的爭(zhēng)論也越來越 激烈。首先發(fā)現(xiàn)同一種群基于不同分子序列所重構(gòu)出的進(jìn)化樹可能不同。 同時(shí),對(duì)“垂直進(jìn)化”和“水平演化”之間關(guān)系的討論正逐漸引起人們 的重視。也就是近年來發(fā)現(xiàn)了基因的“橫向遷移現(xiàn)象”。即:基因可以 在同時(shí)存在的種群間遷移,其結(jié)果雖可導(dǎo)致序列差異,但這種差異與進(jìn) 化無關(guān)。甚至,對(duì)人類基因組的分析發(fā)現(xiàn)

27、,有幾十個(gè)人的基因只與細(xì)菌 基因相似,而在果蠅、線蟲中都不存在。如果以人的這些基因序列來研 究進(jìn)化將會(huì)得到荒謬的結(jié)論。所以在當(dāng)前的分子進(jìn)化研究中必須選擇垂 直進(jìn)化的分子作為樣本。特別是:在分子進(jìn)化分析中,“相似性”和 “同源性”是兩個(gè)不同的概念。相似性只反映兩者類似,并不包含任何 與進(jìn)化相關(guān)的暗示。同源性則是與共同祖先相關(guān)的相似性。 生物信息學(xué)的研究內(nèi)容 .30 v完整基因組的比較研究 在后基因組時(shí)代,完整基因組數(shù)據(jù)越來越多,有了這些資料人們就能對(duì)若 干重大生物學(xué)問題進(jìn)行分析研究,如:生命是從哪里起源的?生命是如 何進(jìn)化的?遺傳密碼是如何起源的?估計(jì)最小獨(dú)立生活的生物體至少需 要多少基因?這些

28、基因是如何使生物體活起來的?等等。這些重大的問 題估計(jì)只有在基因組水平上才能回答。舉例來說,鼠和人的基因組大小 相似,都含有約30億堿基對(duì),基因的數(shù)目也類似,且大部同源??墒鞘?和人差異卻如此之大,這是為什么?同樣,有的科學(xué)家估計(jì)不同人種間 基因組的差別僅為01;人猿間差別約為1。但他們表型間的差異 十分顯著。因此,這種差異不僅應(yīng)從基因、 D NA序列找原因,也應(yīng)考 慮到整個(gè)基因組、考慮染色體組織上的差異。這一工作開創(chuàng)了比較基因 組學(xué)。 生物信息學(xué)的研究內(nèi)容 .31 v完整基因組的比較研究 科學(xué)家們發(fā)現(xiàn):全部基因可以按照功能和系統(tǒng)發(fā)生分為若干類,其中包括 與復(fù)制、轉(zhuǎn)錄、翻譯、分子伴娘、能量產(chǎn)生

29、、離子轉(zhuǎn)運(yùn)、各種代謝相關(guān) 的基因。當(dāng)我們比較鼠和人的基因組就會(huì)發(fā)現(xiàn),盡管兩者基因組大小和 基因數(shù)目類似,但基因組的組織卻差別很大。例如存在于鼠1號(hào)染色體上 的基因已分布到人的1、2、5、6、8、13、18號(hào)7個(gè)染色體上了。研究表 明在同一界中,某些核糖體蛋白排列順序的差異能反映出物種間的親緣 關(guān)系,親緣關(guān)系越近,基因排列順序越接近。這樣就可以通過比較基因 的排列順序來研究物種間的系統(tǒng)發(fā)育關(guān)系。 生物信息學(xué)的研究內(nèi)容 .32 v從功能基因組到系統(tǒng)生物學(xué) 在不同的組織中表達(dá)基因的數(shù)目差別是很大的,腦中基因表達(dá)的數(shù)目最多, 約有34萬個(gè)轉(zhuǎn)錄子,有的組織中只有幾十或幾百個(gè)基因表達(dá)。同一組 織在不同的個(gè)

30、體生長發(fā)育階段,表達(dá)基因的種類、數(shù)量也是不同的,有 些基因是在幼年時(shí)期表達(dá)的,有些是中年階段表達(dá)的,有些要到老年時(shí) 期才表達(dá)。我們不僅需要了解基因的序列,還要了解基因的功能,也就 是要了解在不同的時(shí)間、不同的組織中基因的表達(dá)譜。這就是通常所說 的功能基因組研究。 為了得到基因的表達(dá)譜,國際上在核酸和蛋白質(zhì)兩個(gè)層次上都發(fā)展了新技 術(shù)。這就是在核酸層次上的基因芯片(或稱 D NA芯片)技術(shù)和在蛋白 質(zhì)層次上的大規(guī)模蛋白質(zhì)分離和序列鑒定技術(shù),也稱蛋白質(zhì)組技術(shù)。由 于芯片上樣品點(diǎn)的密度很大,可以達(dá)到每片幾十萬,因此表達(dá)譜數(shù)據(jù)挖 掘和知識(shí)發(fā)現(xiàn)就成了該研究成功與否的關(guān)鍵。無論是生物芯片還是蛋白 質(zhì)組技術(shù)的

31、發(fā)展,都更強(qiáng)烈地依賴于生物信息學(xué)的理論、技術(shù)與數(shù)據(jù)庫。 下一步,功能基因組研究將朝著復(fù)雜系統(tǒng)的方向發(fā)展,即:探討生物系 統(tǒng)中各部分、各層次的相互作用,從而進(jìn)入系統(tǒng)生物學(xué)的領(lǐng)域。 生物信息學(xué)的研究內(nèi)容 .33 v蛋白質(zhì)結(jié)構(gòu)模擬與藥物設(shè)計(jì) 蛋白的空間結(jié)構(gòu)模擬和藥物設(shè)計(jì)已有二三十年的歷史。 隨著人類基因組研究的飛速發(fā)展,這一領(lǐng)域面臨著 新的態(tài)勢(shì),即:在找到人類34萬個(gè)基因的堿基序 列并確定它們表達(dá)產(chǎn)物的氨基酸順序后,如何預(yù)測(cè) 這些蛋白的空間結(jié)構(gòu),進(jìn)而實(shí)現(xiàn)針對(duì)性的藥物設(shè)計(jì)。 (蛋白質(zhì)的功能和它們的空間結(jié)構(gòu)密切相關(guān) ) 生物信息學(xué)的研究內(nèi)容 .34 生物信息學(xué)的應(yīng)用: v基因組分析 v基因芯片 v藥物開

32、發(fā) v其他 .35 生物信息學(xué)的應(yīng)用 基因組(測(cè)序組裝): v基因組研究的首要目標(biāo)是獲得人的整套遺傳密碼。人的遺傳 密碼有億個(gè)堿基,而現(xiàn)在的測(cè)序儀每個(gè)反應(yīng)只能 讀取幾百到上千個(gè)堿基。這樣,要得到人的全部遺傳密碼, 首先要把人的基因組打碎,測(cè)完一個(gè)個(gè)小段的序列后再把它 們重新拼接起來。而基因組大規(guī)模測(cè)序的每一個(gè)環(huán)節(jié),都同 信息分析緊密相關(guān),每一步都緊密依賴于生物信息學(xué)的軟件 和數(shù)據(jù)庫。 .36 基因組分析 將已知的序列與功能聯(lián)系在一起、從基于常規(guī)克隆的 基因分類轉(zhuǎn)向基于序列及功能的分析的基因分類、 從單個(gè)基因致病機(jī)制的研究轉(zhuǎn)向多個(gè)基因致病機(jī)制 的研究、從組織與組織之間的比較來研究功能基因 組和蛋

33、白質(zhì)組、 從基因組和蛋白質(zhì)組的結(jié)構(gòu)與功能 關(guān)系來預(yù)測(cè)三級(jí)結(jié)構(gòu)和功能,并從三級(jí)結(jié)構(gòu)和功能 反推可能的序列、通過比較不同生物物種的基因組 來進(jìn)行分子進(jìn)化研究。 生物信息學(xué)的應(yīng)用 .37 生物信息學(xué)的應(yīng)用 蛋白質(zhì)組:蛋白質(zhì)組: v基因組對(duì)生命體的整體控制必須通過它所表達(dá)的全部蛋白質(zhì)來執(zhí)行。由 于基因芯片技術(shù)只能反映從基因組到的轉(zhuǎn)錄水平上的表達(dá)情況, 而從到蛋白質(zhì)還有許多中間環(huán)節(jié)的影響,這樣,僅憑基因芯片技 術(shù)人們還不能最終掌握生物功能的具體執(zhí)行者蛋白質(zhì)的整體表達(dá)狀 況。因此,近年在發(fā)展基因芯片的同時(shí),人們還發(fā)展了一套研究基因組 所有蛋白質(zhì)產(chǎn)物表達(dá)情況的技術(shù)蛋白質(zhì)組研究技術(shù),包括二維凝膠 電泳技術(shù)和質(zhì)

34、譜測(cè)序技術(shù)。然而,最重要的是如何運(yùn)用生物信息學(xué)的方 法去分析獲得的海量數(shù)據(jù),從中還原出生命運(yùn)轉(zhuǎn)和調(diào)控的整體系統(tǒng)的分 子機(jī)制。 .38 生物信息學(xué)的應(yīng)用: 1.基因組分析 人類基因組計(jì)劃人類基因組計(jì)劃(HGP): v人類基因組計(jì)劃(Human Genome Project,簡(jiǎn)稱HGP)是美 國科學(xué)家在1985年率先提出的,其目的在于闡明人類基因組 DNA3109核苷酸序列,破譯人類全部遺傳信息,HGP于 1990年正式啟動(dòng)。隨著HGP產(chǎn)生的數(shù)據(jù)爆炸,一門新興學(xué) 科-生物信息學(xué)應(yīng)運(yùn)而生。生物信息學(xué)是以計(jì)算機(jī)為主要 工具,開發(fā)各種軟件,對(duì)日益增長的DNA和蛋白質(zhì)的序列和 結(jié)構(gòu)等相關(guān)信息進(jìn)行收集、儲(chǔ)存

35、、發(fā)行、提取、加工、分析 和研究,同時(shí)建立理論模型,指導(dǎo)實(shí)驗(yàn)研究,它由數(shù)據(jù)庫、 計(jì)算機(jī)網(wǎng)絡(luò)和應(yīng)用軟件三大部分構(gòu)成,在基因組計(jì)劃中發(fā)揮 不可替代的作用。 .39 生物信息學(xué)的應(yīng)用: 1.基因組分析 人類基因組計(jì)劃人類基因組計(jì)劃(HGP): vHGP目的之一,就是找到人類基因組中的所有基因。除功能 克隆和定位克隆策略之外,生物信息學(xué)為分子生物學(xué)家提供 了一條尋找和研究新基因的新思路,即從高度自動(dòng)化的實(shí)驗(yàn) 出發(fā),經(jīng)過數(shù)據(jù)的獲取與處理、序列片段的拼接、可能基因 的尋找、基因功能的預(yù)測(cè)一直到基因的分子進(jìn)化研究。這個(gè) 過程的每一個(gè)環(huán)節(jié),都是生物信息學(xué)研究的重要內(nèi)容。 .40 生物信息學(xué)的應(yīng)用: 1.基因組

36、分析 人類基因組計(jì)劃人類基因組計(jì)劃(HGP)HGP的目標(biāo)大致如下: v(1)建立一高分辨力的人體基因組圖譜。(2)建立 某 些選擇性模型機(jī)體(如大腸桿菌、線蟲等)的 DNA和人體染色體的基因物質(zhì)圖譜。(3)測(cè)定這 些人體和選擇性機(jī)體的DNA序列,以俾更好了解正 常基因調(diào)控、基因遺傳性疾病及其演化過程。(4) 建立軟件和數(shù)據(jù)庫以提高應(yīng)用和判斷這些基因信息 的效能。(5)發(fā)明有關(guān)的創(chuàng)新技術(shù)。(6)建立 HGP的倫理學(xué)、法律和社會(huì)參與的程序。 .41 生物信息學(xué)的應(yīng)用: 2.基因芯片基因微陣列或DNA芯片(gene microarray 或DNA chips)的原理是將幾萬個(gè) 寡核苷酸或DNA作為探針,密集排列于硅片 等固相支持物上,將研究樣品標(biāo)記后與微點(diǎn) 陣雜交并進(jìn)行檢測(cè)。根據(jù)雜交信號(hào)強(qiáng)弱及探 針位置和序列,可以確定靶DNA的表達(dá)情況 以及突變和多態(tài)性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論