生物信息學序列分析利用生物信息學進行功能基因的電子隆技術_第1頁
生物信息學序列分析利用生物信息學進行功能基因的電子隆技術_第2頁
生物信息學序列分析利用生物信息學進行功能基因的電子隆技術_第3頁
生物信息學序列分析利用生物信息學進行功能基因的電子隆技術_第4頁
生物信息學序列分析利用生物信息學進行功能基因的電子隆技術_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1生物信息學序列分析利用生物信息學進生物信息學序列分析利用生物信息學進行功能基因的電子隆技術行功能基因的電子隆技術鏈鏈cDNA雜交,以選擇性除去二者間的雜交體。雜交,以選擇性除去二者間的雜交體。2.4 扣除雜交或抑制消減雜交法(扣除雜交或抑制消減雜交法(SSH Suppression Subtractive Hybridization)其依據(jù)的技術主要有兩點:消減雜交和抑制性其依據(jù)的技術主要有兩點:消減雜交和抑制性PCR,利用鏈內(nèi)退火優(yōu)于鏈間退火利用鏈內(nèi)退火優(yōu)于鏈間退火,比鏈間退火更穩(wěn)定,從而使非目的序列片段兩端反向重復序列在退火時產(chǎn)生類似,比鏈間退火更穩(wěn)定,從而使非目的序列片段兩端反向

2、重復序列在退火時產(chǎn)生類似于于“平底鍋平底鍋”的結構,無法與引物配對,選擇性地抑制了非目的基因片段的擴增;的結構,無法與引物配對,選擇性地抑制了非目的基因片段的擴增;同時根據(jù)復性動力學原理,即濃度高的單鏈同時根據(jù)復性動力學原理,即濃度高的單鏈cDNA在退火時產(chǎn)生同源雜交的速度要在退火時產(chǎn)生同源雜交的速度要快于濃度低的單鏈快于濃度低的單鏈cDNA,從而使原來在濃度上有差別的單鏈從而使原來在濃度上有差別的單鏈cDNA相對含量達到相對含量達到基本一致?;疽恢?。 其特點是:速度快、效率高,可同時分離幾十或上百個差異表達的基因;假其特點是:速度快、效率高,可同時分離幾十或上百個差異表達的基因;假陽性率低

3、,其陽性率高達陽性率低,其陽性率高達94%;敏感程度較;敏感程度較DD和和RDA高,一些低豐度表達的高,一些低豐度表達的cDNA可被檢出;并可以大量特異擴增那些代表了有差別表達的可被檢出;并可以大量特異擴增那些代表了有差別表達的cDNA片段,片段,減少了實驗結果的復雜性。減少了實驗結果的復雜性。2.5 基因表達系列分析基因表達系列分析(Serial Analysis of Gene Expression,SAGE)技術技術 細胞或組織的細胞或組織的RNA逆轉錄為逆轉錄為cDNA,分別使用錨酶及標簽酶酶分別使用錨酶及標簽酶酶切,分離出每個切,分離出每個cDNA上的標簽上的標簽(tag),經(jīng)連接成

4、雙標簽經(jīng)連接成雙標簽(ditag),分析其組成,去除變形體后,經(jīng)分析其組成,去除變形體后,經(jīng)PCR擴增、酶切后,串聯(lián)擴增、酶切后,串聯(lián)ditag,對照基因文庫,查出不同對照基因文庫,查出不同tag代表的不同基因及可能的代表的不同基因及可能的基因產(chǎn)物,如果在文庫中無匹配的序列,就有可能發(fā)現(xiàn)了新的基因產(chǎn)物,如果在文庫中無匹配的序列,就有可能發(fā)現(xiàn)了新的基因;同時還可利用基因;同時還可利用SAGE tag的豐度確定基因表達豐度。但的豐度確定基因表達豐度。但是由于是由于SAGE技術所得到的標簽信息量少,對未搜索到的匹配技術所得到的標簽信息量少,對未搜索到的匹配序列的標簽鑒定存在困難,因此該技術主要局限于

5、序列的標簽鑒定存在困難,因此該技術主要局限于GenBank、EST數(shù)據(jù)豐富的生物,如人類、小鼠、大鼠等。數(shù)據(jù)豐富的生物,如人類、小鼠、大鼠等。2.6 cDNA微陣列或芯片微陣列或芯片(DNA microarray or chip)技術技術近年發(fā)展起來的又一新的分子生物學研究技術,其實驗近年發(fā)展起來的又一新的分子生物學研究技術,其實驗包括包括6個步驟:將個步驟:將cDNA克隆加工為可供點印的材料;將克隆加工為可供點印的材料;將cDNA克隆克隆(或寡核苷酸或寡核苷酸)點印到載體上;樣品點印到載體上;樣品RNA的分離的分離(總總RNA或或mRNA);探針的制備探針的制備(例如例如cDNA的合成和標的

6、合成和標記記);標記的探針;標記的探針DNA與載體上的與載體上的DNA雜交;雜交結果的雜交;雜交結果的成像和圖象分析。主要應用于:基因表達水平的檢測;成像和圖象分析。主要應用于:基因表達水平的檢測;通過比較組織細胞基因的表達譜差異,可以發(fā)現(xiàn)新的可通過比較組織細胞基因的表達譜差異,可以發(fā)現(xiàn)新的可能致病基因或疾病相關基因;可進行基因點突變、多態(tài)能致病基因或疾病相關基因;可進行基因點突變、多態(tài)性檢測及染色體結構研究。其最為主要的優(yōu)點是:可自性檢測及染色體結構研究。其最為主要的優(yōu)點是:可自動、高效、同時檢測目的材料中大量基因的表達情況;動、高效、同時檢測目的材料中大量基因的表達情況;并幾乎可用于所有核

7、酸雜交技術的領域。并幾乎可用于所有核酸雜交技術的領域。3. 圖位克隆圖位克隆(map-based cloning)上世紀上世紀90年代初期圖位克隆應運而生,成功完成了諸如人年代初期圖位克隆應運而生,成功完成了諸如人NPCI等基因的克隆,其等基因的克隆,其大致原理是根據(jù)功能基因在基因組中存在相對較穩(wěn)定的基因座,在利用分子標記大致原理是根據(jù)功能基因在基因組中存在相對較穩(wěn)定的基因座,在利用分子標記技術對目的基因進行精確定位的基礎上,用與目的基因緊密連鎖的分子標記篩選技術對目的基因進行精確定位的基礎上,用與目的基因緊密連鎖的分子標記篩選DAN文庫文庫(如如YAC、BAC或或Cosmid文庫文庫),構建

8、出目的基因區(qū)域的物理圖譜,再通,構建出目的基因區(qū)域的物理圖譜,再通過染色體步行過染色體步行(chromosome walking)逐步逼近候選區(qū)域或通過染色體登陸逐步逼近候選區(qū)域或通過染色體登陸(chromosome landing)的方法,的方法, 最終找到包含該目的基因的克隆進而克隆該基因。定位克隆理論上適用于一切最終找到包含該目的基因的克隆進而克隆該基因。定位克隆理論上適用于一切基因,但也存在應用上的一些不足:構建疊跨克隆群可能存在著困難;精細作基因,但也存在應用上的一些不足:構建疊跨克隆群可能存在著困難;精細作圖成本很高;定位克隆不能提供基因功能的相關信息,需借助其他手段。圖成本很高;

9、定位克隆不能提供基因功能的相關信息,需借助其他手段。 4. 轉座子標簽轉座子標簽(transposon tagging)技術技術轉座子是染色體上一段可以移動的轉座子是染色體上一段可以移動的DNA序列,它可以從一個基因座位轉移到另一個序列,它可以從一個基因座位轉移到另一個基因座位,當轉座子插入到某個功能基因內(nèi)部或鄰近位點時,就會使插入位置的基基因座位,當轉座子插入到某個功能基因內(nèi)部或鄰近位點時,就會使插入位置的基因失活并誘導產(chǎn)生突變型,通過遺傳分析可以確定某基因的突變是否由轉座子引起因失活并誘導產(chǎn)生突變型,通過遺傳分析可以確定某基因的突變是否由轉座子引起,由轉座子引起的突變可用轉座子,由轉座子引

10、起的突變可用轉座子DNA為探針,從突變株的基因組文庫中釣取含該為探針,從突變株的基因組文庫中釣取含該轉座子的轉座子的DNA片段,獲得含有部分突變株片段,獲得含有部分突變株DNA序列的克隆,序列的克隆, 然后以該然后以該DNA序列為探針,篩選野生型植株的基因組文庫,最終得到完整的序列為探針,篩選野生型植株的基因組文庫,最終得到完整的目的基因。該技術主要用于植物基因的克隆,由于可供利用的轉座子的種類太目的基因。該技術主要用于植物基因的克隆,由于可供利用的轉座子的種類太少,而轉座子在不同的植物中轉座的頻率和活性相差很大,并且需要篩選大量少,而轉座子在不同的植物中轉座的頻率和活性相差很大,并且需要篩選

11、大量的個體來鑒定轉座子突變個體,限制了轉座子標簽法的應用范圍。的個體來鑒定轉座子突變個體,限制了轉座子標簽法的應用范圍。(一)、電子克隆的特點:(一)、電子克隆的特點:挖掘和克隆功能基因是利用基因工程技術進行植物品種改良、挖掘和克隆功能基因是利用基因工程技術進行植物品種改良、有效利用基因資源的基礎?;蚩寺〉膫鹘y(tǒng)方法主要是圖位克有效利用基因資源的基礎?;蚩寺〉膫鹘y(tǒng)方法主要是圖位克隆和轉座子標簽法克隆等,但這些方法操作技術復雜,成本高隆和轉座子標簽法克隆等,但這些方法操作技術復雜,成本高,實驗周期長,在基因克隆中并沒有能得到非常廣泛的運用。,實驗周期長,在基因克隆中并沒有能得到非常廣泛的運用。

12、最近發(fā)展起來的最近發(fā)展起來的mRNA差異顯示技術、抑制差減雜交技術和基差異顯示技術、抑制差減雜交技術和基因表達系列分析技術由于其操作相對簡便、效率高,已成為功因表達系列分析技術由于其操作相對簡便、效率高,已成為功能基因克隆的重要手段,在許多實驗室得到應用,但其主要缺能基因克隆的重要手段,在許多實驗室得到應用,但其主要缺點是得到的點是得到的cDNA都不是全長都不是全長cDNA,必須通過必須通過cDNA文庫篩文庫篩選或選或RACE的方法才能獲得全長的方法才能獲得全長cDNA,進一步用于基因的功進一步用于基因的功能分析和轉基因研究。能分析和轉基因研究。電子克隆電子克隆(in silico cloni

13、ng)是近年來伴隨著基因組計劃和是近年來伴隨著基因組計劃和EST(expressing sequence tag)計劃發(fā)展起來的基因克隆新方法,它的主要原理是利用日益發(fā)展計劃發(fā)展起來的基因克隆新方法,它的主要原理是利用日益發(fā)展的生物信息學技術,借助電子計算機的巨大運算能力,通過的生物信息學技術,借助電子計算機的巨大運算能力,通過EST或基因組的序列或基因組的序列組裝和拼接,利用組裝和拼接,利用RT-PCR的方法快速獲得功能基因,具有投入低、速度快、技的方法快速獲得功能基因,具有投入低、速度快、技術要求低和針對性強等優(yōu)點。術要求低和針對性強等優(yōu)點。 (二)二)EST簡介簡介1 1 什么是表達序列

14、標簽(什么是表達序列標簽(Expression sequence tag ,EST )?)?短短 cDNA序列,完整基因的某些片段。單次文庫測序產(chǎn)生的序列,完整基因的某些片段。單次文庫測序產(chǎn)生的cDNA,一般在一般在400-600 bp,GenBank中大約中大約70是是EST。 2 EST如何產(chǎn)生?如何產(chǎn)生?從特定的狀態(tài)的組織或細胞中分離從特定的狀態(tài)的組織或細胞中分離 RNA,將將RNA逆轉錄成逆轉錄成cDNA亞克隆到亞克隆到載體中,利用載體上的引物對插入片段測序載體中,利用載體上的引物對插入片段測序 測序出來的片段結果即稱為測序出來的片段結果即稱為E S T s ( e x p r e s

15、 s e d s e q u e n c e t a g s ) 。 3 使用使用EST時應該注意的問題:時應該注意的問題:(1)由于是單次測序結果,序列的精確度較低,存在較多錯誤。)由于是單次測序結果,序列的精確度較低,存在較多錯誤。(大約大約 2% error,HGP錯誤率標準是錯誤率標準是0.01%),表現(xiàn)在:,表現(xiàn)在:缺失、替代、插入等錯誤(與缺失、替代、插入等錯誤(與mRNA相比)。相比)。測序中的錯誤引發(fā)大約測序中的錯誤引發(fā)大約1.5%的利用的利用oligo T產(chǎn)生的產(chǎn)生的EST無法無法與已知的與已知的mRNA的的3端比對上。端比對上。倒置(倒置(5端和端和3端弄反,插入克隆載體時

16、出錯)。端弄反,插入克隆載體時出錯)。嵌合嵌合EST (5端和端和3端來自不同端來自不同mRNA)。)。隨著人類基因組計劃的實施,已有研究人員利用電子克隆的方法克隆了很多人的隨著人類基因組計劃的實施,已有研究人員利用電子克隆的方法克隆了很多人的功能基因。由于受到序列資料的限制,植物基因的電子克隆還鮮有報道。目前在功能基因。由于受到序列資料的限制,植物基因的電子克隆還鮮有報道。目前在GenBank中已經(jīng)登錄了大量的中已經(jīng)登錄了大量的EST數(shù)據(jù),而且數(shù)據(jù),而且EST每天還在高速地增長。例如,每天還在高速地增長。例如,在在2002年初,我國華大基因公司和瑞士年初,我國華大基因公司和瑞士Syngent

17、a公司同時公布了水稻基因組的序公司同時公布了水稻基因組的序列框架圖,因此可以利用生物信息學技術全面開展分析和鑒定水稻等植物的功能列框架圖,因此可以利用生物信息學技術全面開展分析和鑒定水稻等植物的功能基因。基因。(三)國際上(三)國際上3大核酸數(shù)據(jù)庫大核酸數(shù)據(jù)庫 (含有大量的(含有大量的EST數(shù)據(jù))數(shù)據(jù))數(shù)據(jù)庫數(shù)據(jù)庫 (Database) 網(wǎng)址網(wǎng)址 (Address)EMBL GenBank DDBJ www.ebi.ac.uk/embl /GenBank www.ddbj.nig.ac.jp 國際上三大核酸數(shù)據(jù)庫國際上三大核酸數(shù)據(jù)庫EMBL:歐洲分子生物

18、學實驗室歐洲分子生物學實驗室(European Molecular Biology Laboratory, 其其下有下有European Bioinformatics Centre),主要位于英國劍橋主要位于英國劍橋Cambridge和德國漢堡和德國漢堡Hamburg。GenBank:由美國國家生物技術信息中心由美國國家生物技術信息中心(National Center for Biotechnology Information, NCBI)建立。該中心隸屬于美國國家醫(yī)學圖書館,位于美建立。該中心隸屬于美國國家醫(yī)學圖書館,位于美國家衛(wèi)生研究院國家衛(wèi)生研究院(NIH)內(nèi)。內(nèi)。DDBJ:日本日本DN

19、A數(shù)據(jù)庫數(shù)據(jù)庫(DNA Data Bank of Japan), 由由the National Institute of Genetics, NIG主管。主管。這這3個大型數(shù)據(jù)庫于個大型數(shù)據(jù)庫于1988年達成協(xié)議,組成合作聯(lián)合體。它們每天交換信息,并對數(shù)年達成協(xié)議,組成合作聯(lián)合體。它們每天交換信息,并對數(shù)據(jù)庫據(jù)庫DNA序列記錄的統(tǒng)一標準達成一致。每個機構負責收集來自不同地理分布的數(shù)據(jù)序列記錄的統(tǒng)一標準達成一致。每個機構負責收集來自不同地理分布的數(shù)據(jù)(EMBL負責歐洲,負責歐洲,GenBank負責美洲,負責美洲,DDBJ負責亞洲等),然后來自各地的所有負責亞洲等),然后來自各地的所有信息匯總在一

20、起,信息匯總在一起,3個數(shù)據(jù)庫的數(shù)據(jù)共享并向世界開放,故這個數(shù)據(jù)庫的數(shù)據(jù)共享并向世界開放,故這3個數(shù)據(jù)庫又被稱為公共個數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫(序列數(shù)據(jù)庫(Public Sequence Database)。)。所以從理論上說,這所以從理論上說,這3個數(shù)據(jù)庫所擁個數(shù)據(jù)庫所擁有的有的DNA序列數(shù)據(jù)是完全相同的。你可以從中選擇一個你喜歡的數(shù)據(jù)庫;但是如果你序列數(shù)據(jù)是完全相同的。你可以從中選擇一個你喜歡的數(shù)據(jù)庫;但是如果你的研究需要實時的研究需要實時(24小時以內(nèi)小時以內(nèi))的,則要注意這些數(shù)據(jù)庫間的記錄是會有差異的。的,則要注意這些數(shù)據(jù)庫間的記錄是會有差異的。 北京大學生物信息學中心北京大學生物

21、信息學中心(Centre of Bioinformatics, Peking University):北京華大基因研究中心:北京華大基因研究中心:http:/ :我國主要的相關研究機構我國主要的相關研究機構(四)利用(四)利用EST數(shù)據(jù)庫信息進行電子克隆數(shù)據(jù)庫信息進行電子克隆利用利用EST數(shù)據(jù)庫信息進行功能基因的電子克隆是目前最常用的手段。首先選擇感興趣數(shù)據(jù)庫信息進行功能基因的電子克隆是目前最常用的手段。首先選擇感興趣的的EST作為查詢探針,搜索作為查詢探針,搜索dbEST數(shù)據(jù)庫,找到部分重疊的數(shù)據(jù)庫,找到部分重疊的EST進行拼接,然后再以進行拼接,然后再以拼接好的拼接好的EST重疊群重疊群(

22、EST contig)為新的查詢探針,繼續(xù)搜索為新的查詢探針,繼續(xù)搜索dbEST庫,直到?jīng)]有新庫,直到?jīng)]有新的的EST可供拼接為止,最后根據(jù)拼接好的完整序列設計可供拼接為止,最后根據(jù)拼接好的完整序列設計PCR引物,通過引物,通過RT-PCR的方的方法獲得目的法獲得目的cDNA克隆并進行序列測定驗證??寺〔⑦M行序列測定驗證。 目前利用目前利用EST序列拼接獲得水稻等植物的完整序列拼接獲得水稻等植物的完整cDNA的研究的研究已經(jīng)有一些報道。已經(jīng)有一些報道。例如,南京農(nóng)業(yè)大學的黃驥等以來源于水稻鹽脅迫例如,南京農(nóng)業(yè)大學的黃驥等以來源于水稻鹽脅迫cDNA文文庫的庫的1個個500bp的的ESTS121為

23、信息探針搜索位于為信息探針搜索位于GenBank的的水稻水稻EST庫,發(fā)現(xiàn)有庫,發(fā)現(xiàn)有2個個EST與與S121部分序列一致,經(jīng)過拼部分序列一致,經(jīng)過拼接組裝獲得了接組裝獲得了1個個886bp的全長的全長cDNA序列,同源性比較的結序列,同源性比較的結果表明其可能編碼一個新的水稻鋅指蛋白基因,根據(jù)拼接好果表明其可能編碼一個新的水稻鋅指蛋白基因,根據(jù)拼接好的序列設計的序列設計PCR引物,通過引物,通過RT-PCR的方法成功分離了該基的方法成功分離了該基因的完整因的完整cDNA克隆,命名為克隆,命名為OsZFP,該鋅指蛋白可能涉及該鋅指蛋白可能涉及到水稻幼苗的鹽脅迫應答反應。到水稻幼苗的鹽脅迫應答反

24、應。 此外,對某種植物來說,除了利用其自身的此外,對某種植物來說,除了利用其自身的ESTEST作查詢探針外,還可以選擇其他作查詢探針外,還可以選擇其他物種尤其是親緣關系較近的物種全長或物種尤其是親緣關系較近的物種全長或ESTEST作為查詢探針,搜索作為查詢探針,搜索dbESTdbEST庫,進而拼庫,進而拼接成完整的接成完整的cDNAcDNA序列。其主要理論依據(jù)是不同物種同類基因之間存在序列保守序列。其主要理論依據(jù)是不同物種同類基因之間存在序列保守性。性。唐向榮等發(fā)現(xiàn)唐向榮等發(fā)現(xiàn)2 2個水稻個水稻ESTEST片段與大白菜片段與大白菜BcpLHBcpLH基因的雙鏈基因的雙鏈RNARNA結合結構域結

25、合結構域( (dsRBD)dsRBD)有同源區(qū)域,根據(jù)同源片段設計引物有同源區(qū)域,根據(jù)同源片段設計引物,用,用RT-PCRRT-PCR的方法從水稻愈傷組織中擴增得到了的方法從水稻愈傷組織中擴增得到了1.81.8kbkb的的cDNAcDNA片段,該片段,該cDNAcDNA含有完整的編碼區(qū),有兩個典型的含有完整的編碼區(qū),有兩個典型的dsRBDdsRBD,與大白菜與大白菜BcpLHBcpLH基因的基因的dsRBDdsRBD在氨基酸水平上相似性在氨基酸水平上相似性為為75%75%左右。左右。 黃驥等以玉米全長黃驥等以玉米全長6-6-磷酸葡萄糖酸脫氫酶磷酸葡萄糖酸脫氫酶cDNAcDNA為查詢探針,為查詢

26、探針,搜索水稻搜索水稻dbESTdbEST數(shù)據(jù)庫,發(fā)現(xiàn)了幾十條高度同源的水稻數(shù)據(jù)庫,發(fā)現(xiàn)了幾十條高度同源的水稻ESTEST,通過序列組裝和拼接獲得了通過序列組裝和拼接獲得了1.8 1.8 kbkb左右的左右的cDNAcDNA序列,進一步序列,進一步用用RT-PCRRT-PCR的方法克隆了水稻的的方法克隆了水稻的6-6-磷酸葡萄糖酶基因。磷酸葡萄糖酶基因。 (六)利用基因組信息進行電子克?。├没蚪M信息進行電子克隆 的策略的策略在在GenBank中已經(jīng)登錄了龐大的小鼠、大鼠和人類等多種生物的中已經(jīng)登錄了龐大的小鼠、大鼠和人類等多種生物的EST數(shù)據(jù)資料數(shù)據(jù)資料,所以利用,所以利用EST拼接它

27、們的全長拼接它們的全長cDNA序列相對容易些。同時,基因組信息也在序列相對容易些。同時,基因組信息也在迅速增加,如在迅速增加,如在2002年初,中國華大公司將水稻基因組序列的測序結果無償?shù)啬瓿?,中國華大公司將水稻基因組序列的測序結果無償?shù)卦谠贗nternet上公布,供全世界免費使用,這無疑促進了水稻等植物功能基因的電上公布,供全世界免費使用,這無疑促進了水稻等植物功能基因的電子克隆。子克隆。 利用基因組信息資料進行電子克隆的最大優(yōu)點就是基因的克隆不受作物發(fā)育時期利用基因組信息資料進行電子克隆的最大優(yōu)點就是基因的克隆不受作物發(fā)育時期或特殊環(huán)境條件的限制,可以用來源于任何時期或組織的水稻和其他物種

28、的或特殊環(huán)境條件的限制,可以用來源于任何時期或組織的水稻和其他物種的EST或全長或全長cDNA序列作為信息探針搜索位于序列作為信息探針搜索位于GenBank或者我國華大公布的水稻基因或者我國華大公布的水稻基因組序列,隨后根據(jù)內(nèi)含子組序列,隨后根據(jù)內(nèi)含子“GU.AG”的規(guī)則通過人工拼接或相應的計算機軟件預的規(guī)則通過人工拼接或相應的計算機軟件預測,可以得到該基因完整的開放讀碼框測,可以得到該基因完整的開放讀碼框(ORFopen reading frame),根據(jù)拼接根據(jù)拼接的序列結果設計的序列結果設計PCR引物,進一步采取引物,進一步采取RT-PCR的方法獲得目的基因的的方法獲得目的基因的cDNA

29、克隆克隆并進行序列測定。并進行序列測定。 事實上,電子克隆往往是結合以上兩個方面即事實上,電子克隆往往是結合以上兩個方面即EST數(shù)據(jù)庫和基因組信息資料同時進數(shù)據(jù)庫和基因組信息資料同時進行的。因為行的。因為EST數(shù)據(jù)直接代表的是表達序列,所以在電子克隆的拼接中占有非常重數(shù)據(jù)直接代表的是表達序列,所以在電子克隆的拼接中占有非常重要的地位。一般策略是對于任何一個感興趣的序列首先進行要的地位。一般策略是對于任何一個感興趣的序列首先進行EST拼接,無法繼續(xù)拼拼接,無法繼續(xù)拼接后再進行基因組比較和外顯子預測,以判斷接后再進行基因組比較和外顯子預測,以判斷EST拼接的完整性。當然序列拼接只拼接的完整性。當然

30、序列拼接只是在計算機上的是在計算機上的“虛擬克隆虛擬克隆”,還需要通過,還需要通過RT-PCR、序列測定和序列測定和Northern雜交等雜交等方法進行驗證和基因表達水平的鑒定。方法進行驗證和基因表達水平的鑒定。隨著生物信息學的迅猛發(fā)展,隨著生物信息學的迅猛發(fā)展,Internet上已經(jīng)開發(fā)了一些上已經(jīng)開發(fā)了一些EST拼接和基因結構分析拼接和基因結構分析的軟件,其中大多數(shù)都是免費提供,大大加快了電子克隆的速度。的軟件,其中大多數(shù)都是免費提供,大大加快了電子克隆的速度。EST拼接軟件的拼接軟件的原理是,計算機程序自動將用戶提供的原理是,計算機程序自動將用戶提供的EST序列與序列與EST數(shù)據(jù)庫比較,

31、構建數(shù)據(jù)庫比較,構建EST重疊重疊群,得到盡可能長的群,得到盡可能長的EST拼接的序列反饋給用戶。基因結構分析包括外顯子預測、拼接的序列反饋給用戶。基因結構分析包括外顯子預測、啟動子預測等。啟動子預測等。 外顯子預測主要指從外顯子預測主要指從DNA中找到編碼蛋白質(zhì)的部分即外顯子部分。因為不同的物中找到編碼蛋白質(zhì)的部分即外顯子部分。因為不同的物種在外顯子剪接、啟動子序列上存在一些難以確定的差異,所以不同的程序其外種在外顯子剪接、啟動子序列上存在一些難以確定的差異,所以不同的程序其外顯子的預測效果也不盡相同。在利用基因組拼接的過程中,為了分析基因的啟動顯子的預測效果也不盡相同。在利用基因組拼接的過

32、程中,為了分析基因的啟動子區(qū)域可以使用啟動子預測軟件,以確定啟動子的位置以及更準確地確定基因結子區(qū)域可以使用啟動子預測軟件,以確定啟動子的位置以及更準確地確定基因結構預測的結果。構預測的結果。 另外還有一些預測轉錄起始位點、另外還有一些預測轉錄起始位點、Poly(A)加尾信號、轉錄因子結合位點的軟件,加尾信號、轉錄因子結合位點的軟件,都可以驗證基因組拼接的結果,并對自己感興趣的序列作出結構和功能的預測。當都可以驗證基因組拼接的結果,并對自己感興趣的序列作出結構和功能的預測。當然,利用網(wǎng)上程序預測的基因結構不可能是然,利用網(wǎng)上程序預測的基因結構不可能是100%可靠的,應該同時利用幾個程序可靠的,

33、應該同時利用幾個程序預測的結果并結合自己的拼接經(jīng)驗綜合考慮,確定最有可能的基因結構。預測的結果并結合自己的拼接經(jīng)驗綜合考慮,確定最有可能的基因結構。 (七)電子克隆中電子延伸是其中最為重要(七)電子克隆中電子延伸是其中最為重要的一步,電子延伸系統(tǒng)應該有以下幾個部分的一步,電子延伸系統(tǒng)應該有以下幾個部分組成:組成:預處理預處理(preprocessing)、聚類聚類(clustering)、拼接拼接(assembly) 和分析和分析(analysis)。 預處理預處理1. 除去載體序列除去載體序列2 . 將將 E S Ts 序 列 將 與 人 重 復 序 列 庫序 列 將 與 人 重 復 序 列

34、 庫 ( R e p B a s e , / ) 比較,除去重復序列,這樣可以比較,除去重復序列,這樣可以提高拼接的效率。提高拼接的效率。 3.其它潛在的污染序列其它潛在的污染序列(如線粒體、核糖體如線粒體、核糖體DNA 序列等序列等) 4.還有幾種污染屬于研究前沿,至今沒有很好的解決。還有幾種污染屬于研究前沿,至今沒有很好的解決。包括:如果是包括:如果是ESTEST序列,要去除來自基因組序列,要去除來自基因組DNA的污染、來的污染、來自自pre-mRNA的污染、跨越非常規(guī)內(nèi)含子(不是以的污染、跨越非常規(guī)內(nèi)含子(不是以GT或或GC開頭和開頭和AG結尾的

35、內(nèi)含子)的結尾的內(nèi)含子)的EST,這些都會影響拼接的成這些都會影響拼接的成功率和正確率。功率和正確率。 聚類聚類在對大量在對大量ESTs數(shù)據(jù)進行分析時,數(shù)據(jù)進行分析時, 情況比較復雜,從概念上區(qū)分情況比較復雜,從概念上區(qū)分“聚類聚類”和和“拼接拼接”是必要的。聚類過程的目的是將標記同一基因相同轉錄本的、具有重疊是必要的。聚類過程的目的是將標記同一基因相同轉錄本的、具有重疊部分部分(overlapping)的的ESTs整合至單一的簇整合至單一的簇(cluster)中。中。拼接拼接使用生物信息學軟件進行,如:使用生物信息學軟件進行,如:PHRAP(phragment assembly progra

36、m)/index.htmlCAP3該軟件是該軟件是CAP(contig assembly programme)的改進版的改進版本,可在線進行。本,可在線進行。 CAP3 CAP3在線服務:在線服務:/aat/sas.html /aat/sas.html TIGR assembler zEST assembler MIRA2: /mira_downloads.htmlG

37、igAssembler: /learithe/browse/goldenPath/algo.html 分析及文庫構建分析及文庫構建如果要驗證拼接是否正確,或同時想經(jīng)過比對對結果再進行延伸,就需要與轉錄組如果要驗證拼接是否正確,或同時想經(jīng)過比對對結果再進行延伸,就需要與轉錄組數(shù)據(jù)庫和蛋白質(zhì)組數(shù)據(jù)庫進行比對數(shù)據(jù)庫和蛋白質(zhì)組數(shù)據(jù)庫進行比對 。(八)電子克隆中的一些常見問題(八)電子克隆中的一些常見問題和對策和對策 電子克隆雖然在執(zhí)行速度上有很大的優(yōu)勢,但在實際應用中常常會碰到一些非常棘電子克隆雖然在執(zhí)行速度上有很大的優(yōu)勢,但在實際應用中常常會碰到一些非常棘

38、手的問題,針對這些問題,列出了以下解決方案。手的問題,針對這些問題,列出了以下解決方案。(1) 有時難以獲得完整的有時難以獲得完整的5端序列。這是電子克隆中遇到的最主要問題。因為植物基端序列。這是電子克隆中遇到的最主要問題。因為植物基因的因的5端保守性一般比較低,在以基因組序列為基礎的電子克隆中尤其難以確定。端保守性一般比較低,在以基因組序列為基礎的電子克隆中尤其難以確定。根據(jù)根據(jù)Kozak規(guī)則以及我們的經(jīng)驗,對于完整規(guī)則以及我們的經(jīng)驗,對于完整ORF的的5的完整性一般有以下幾條原則的完整性一般有以下幾條原則:(2)對于通過基因組結構預測獲得的基因,有時候難以確定其對于通過基因組結構預測獲得的

39、基因,有時候難以確定其表達的時期,給表達的時期,給RT-PCR驗證帶來困難。一般可以根據(jù)其功能驗證帶來困難。一般可以根據(jù)其功能預測或查找相關的文獻資料確定該基因的表達時期,也可以預測或查找相關的文獻資料確定該基因的表達時期,也可以同時測定各個時期和不同組織的表達譜加以判斷。同時測定各個時期和不同組織的表達譜加以判斷。(3)有些查詢探針是來自與水稻同源關系較遠的物種,給基因有些查詢探針是來自與水稻同源關系較遠的物種,給基因結構的人工分析帶來困難。這種情況下可以借助于基因結構結構的人工分析帶來困難。這種情況下可以借助于基因結構預測軟件,使得結構分析變得簡單而且準確。由于水稻基因預測軟件,使得結構分

40、析變得簡單而且準確。由于水稻基因的基因組序列平均只有的基因組序列平均只有4.5kb,只要將該基因估計的基因組序只要將該基因估計的基因組序列列(10kb)進行預測,一般都能得到比較準確的結果。進行預測,一般都能得到比較準確的結果。 (九)電子克隆技術的展望(九)電子克隆技術的展望 電子克隆技術是隨著基因組和電子克隆技術是隨著基因組和EST計劃的發(fā)展而產(chǎn)生的,開始計劃的發(fā)展而產(chǎn)生的,開始主要應用于人類。主要應用于人類。2002年年初我國水稻基因組序列資料的發(fā)布年年初我國水稻基因組序列資料的發(fā)布使得水稻基因的電子克隆成為可能。相信電子克隆很快就會在使得水稻基因的電子克隆成為可能。相信電子克隆很快就會

41、在水稻的基因克隆中占有非常重要甚至主導性地位。水稻的基因克隆中占有非常重要甚至主導性地位。與傳統(tǒng)的基因克隆方法相比,電子克隆主要有以下優(yōu)點:與傳統(tǒng)的基因克隆方法相比,電子克隆主要有以下優(yōu)點: 1) 速速度快。包括同源性比較、序列拼接組裝等工作在計算機上完成度快。包括同源性比較、序列拼接組裝等工作在計算機上完成,只需,只需RT-PCR序列驗證即可。序列驗證即可。 2) 投入低。電子克隆只需能夠投入低。電子克隆只需能夠上網(wǎng)的計算機和上網(wǎng)的計算機和PCR儀等儀器即可進行,實驗成本較低。儀等儀器即可進行,實驗成本較低。 3) 技技術要求低。實驗室工作只涉及到術要求低。實驗室工作只涉及到RNA抽提、反轉

42、錄、抽提、反轉錄、PCR擴增擴增等分子生物學的基本實驗,研究人員很容易掌握。等分子生物學的基本實驗,研究人員很容易掌握。 4) 針對性強針對性強。 擬克隆基因的生物學功能大都比較明確,一旦獲得即可直接應用于轉基因技術進行擬克隆基因的生物學功能大都比較明確,一旦獲得即可直接應用于轉基因技術進行作物品種改良。隨著遺傳圖譜與以序列為基礎的物理圖譜的整合,直接將目的基因作物品種改良。隨著遺傳圖譜與以序列為基礎的物理圖譜的整合,直接將目的基因與連鎖標記的遺傳距離轉換為物理圖距后的電子克隆有可能成為取代傳統(tǒng)的圖位克與連鎖標記的遺傳距離轉換為物理圖距后的電子克隆有可能成為取代傳統(tǒng)的圖位克隆的重要措施;而對于

43、采用抑制差減雜交、差異顯示或基因表達系列分析等方法得隆的重要措施;而對于采用抑制差減雜交、差異顯示或基因表達系列分析等方法得到的到的EST采取電子克隆的方法獲得全長采取電子克隆的方法獲得全長cDNA的策略,則可成為取代的策略,則可成為取代RACE或或cDNA文庫篩選的最佳方案。文庫篩選的最佳方案。 電子克隆技術的產(chǎn)生很可能從此改變植物基因研究的策略,電子克隆技術的產(chǎn)生很可能從此改變植物基因研究的策略,人們關注的焦點更多地集中于克隆基因的功能研究,在很多人們關注的焦點更多地集中于克隆基因的功能研究,在很多規(guī)模較小的實驗室可以輕易地建立起基因克隆規(guī)模較小的實驗室可以輕易地建立起基因克隆-轉基因功能

44、研轉基因功能研究的實驗體系,使得水稻基因工程的內(nèi)部聯(lián)系更加緊密。除究的實驗體系,使得水稻基因工程的內(nèi)部聯(lián)系更加緊密。除此之外,人們還可以利用電子克隆技術,以水稻為研究對象此之外,人們還可以利用電子克隆技術,以水稻為研究對象在基因水平上研究某些復雜事件或途徑的機制。綜上所述,在基因水平上研究某些復雜事件或途徑的機制。綜上所述,電子克隆在今后的基因克隆中將起到不可替代的作用。伴隨電子克隆在今后的基因克隆中將起到不可替代的作用。伴隨著基因組計劃出現(xiàn)的電子克隆必將大大加速基因結構、功能著基因組計劃出現(xiàn)的電子克隆必將大大加速基因結構、功能研究的進程,推動比較基因組學的發(fā)展和水稻基因的進化、研究的進程,推

45、動比較基因組學的發(fā)展和水稻基因的進化、起源方面的研究,使得我們賴以生存的水稻更好地造福于人起源方面的研究,使得我們賴以生存的水稻更好地造福于人類。類。 EST walking基于染色體基于染色體DNA序列的電子克隆序列的電子克隆53ESTSearch in EST databaseSearch in EST databaseSearch in ESTdatabaseSearch in ESTdatabase53Complete cDNASeed EST (start EST)AU184451RICR2584A99AS825D004D07C25822RICS1291AAAAAAAD004D07A

46、AAAAA99AS825AU184451RICR2584AC25822RICS1291AATGTAA一個一個EST walking的示例的示例蘋果酸脫氫酶同功酶基因的拼接蘋果酸脫氫酶同功酶基因的拼接EST, partial cdsSearch in genomic sequence databaseGenomic sequence of ESTgene annotationHomolog search based on a.a sequenceSearch in EST databaseCorrect annotated gene By EST and homologpredicted gen

47、eDesign 5-, 3-primers based on predicted sequnceRT-PCR for cDNAcloning and sequencingEST walking 的優(yōu)點和局限的優(yōu)點和局限優(yōu)點優(yōu)點:快速,無須實驗操作快速,無須實驗操作局限局限:1. EST庫不均一;庫不均一;2. EST庫測序精度不高庫測序精度不高3. EST庫中有不完全剪切產(chǎn)物庫中有不完全剪切產(chǎn)物水稻水稻emf2基因的注釋和校讀示例基因的注釋和校讀示例EST walking的技巧的技巧1.如何鑒定片段重疊和篩選最佳目的如何鑒定片段重疊和篩選最佳目的EST?2. 如何選擇合適的片段用于檢索如何選擇

48、合適的片段用于檢索EST文庫?文庫?CLONE INFO CLONE INFO Clone Id: S20127_2Z Clone Id: S20127_2Z DNA type: cDNA DNA type: cDNA RIMERS PolyA Tail: Unknown RIMERS PolyA Tail: Unknown SEQUENCE SEQUENCE GATATGCGGCTANTATAGCCAGCATGCCATATGAGGGGCTTTTAGCATTAGAAGAGCAGA GATATGCGGCTANTATAGCCAGCATGCCATATGAGGGGCTTTTAGCATTAGAAGAGC

49、AGA TTGGNGATGTAAATACTGGTCTGGCAAAAAGCTACATTGTAGAGAAATTGAAGACTAGCT TTGGNGATGTAAATACTGGTCTGGCAAAAAGCTACATTGTAGAGAAATTGAAGACTAGCT TATTTGTNCCAGGATCATCCTGCATGTCTAATAAGTCTTCTGAATCTTCCATGGAGAATG TATTTGTNCCAGGATCATCCTGCATGTCTAATAAGTCTTCTGAATCTTCCATGGAGAATG ATGCTTGCATAATATGCCAGGAAGAGTATCAGGTTAAAGAATGCATTGGAAC

50、CCTTGACT ATGCTTGCATAATATGCCAGGAAGAGTATCAGGTTAAAGAATGCATTGGAACCCTTGACT GTGGCCACAGGTACCACGAAGATTGCATAAAACAATGGTTGATGGTAAAGAATTTATGCC GTGGCCACAGGTACCACGAAGATTGCATAAAACAATGGTTGATGGTAAAGAATTTATGCC CCATCTGCAAGACGACAGCTTTGTCAACCGGAAGAAGAAGTGGATAACGAACAGGAATAA CCATCTGCAAGACGACAGCTTTGTCAACCGGAAGAAGAAGTGGATAA

51、CGAACAGGAATAA TCTTATTAGTTATTTACTTCCGACAAATATTCAGCTCAATTTTGTATATAAGAAACGGTA TCTTATTAGTTATTTACTTCCGACAAATATTCAGCTCAATTTTGTATATAAGAAACGGTA GACCATTCTGCTACCTGTATTTGTTGCTCACTTTGTTGTGATCCGGGAGTAACTCAGCTT GACCATTCTGCTACCTGTATTTGTTGCTCACTTTGTTGTGATCCGGGAGTAACTCAGCTT CCTAAACTGTACAGCCATAACATTGATCATTTTCTTCGGTGT

52、AGAATATTTTAAATTACT CCTAAACTGTACAGCCATAACATTGATCATTTTCTTCGGTGTAGAATATTTTAAATTACT CAGTTCGCCCCCATCTGTATCATAAGGCGGACCGACAAAAAAACTCACAATGTCATTTCT CAGTTCGCCCCCATCTGTATCATAAGGCGGACCGACAAAAAAACTCACAATGTCATTTCT AGGCAAACATTGTATCTACCATCAGATTAAAAATCAGAACAGAACATGTGCTCTTCTGTN AGGCAAACATTGTATCTACCATCAGATTAAAAATCAG

53、AACAGAACATGTGCTCTTCTGTN CAAAAAAAAAAAAAAAAAAAAAAAAAAAA CAAAAAAAAAAAAAAAAAAAAAAAAAAAA Genomic DNA* * *cDNAEST homologa.a homologGene annotationpredicted gene優(yōu)點:優(yōu)點:1.充分利用現(xiàn)有的信息資源充分利用現(xiàn)有的信息資源 A. 基因組測序結基因組測序結 B. 其他物種的其他物種的EST、cDNA信息信息2.基因組測序精度遠高于基因組測序精度遠高于EST測序精度測序精度缺點和局限缺點和局限:1. 必須經(jīng)實驗驗證必須經(jīng)實驗驗證2. 不適用以下種類的基因預測不適用以下種類的基因預測 A. 種間保守性差的基因種間保守性差的基因 B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論