人類基因組計劃的啟動_第1頁
人類基因組計劃的啟動_第2頁
人類基因組計劃的啟動_第3頁
人類基因組計劃的啟動_第4頁
人類基因組計劃的啟動_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

人類基因組計劃的啟動

1995年7月,《科學(xué)與變革》首次發(fā)布了以新測序方法(即基礎(chǔ)研究)為基礎(chǔ)的流行性碳腐敗桿菌的完整序列和組成文章。這是人類對第一個細(xì)胞微生物(即整個組建序列)的測量,表明組建序列是人類完成的。單細(xì)胞微生物基因組學(xué)研究主要源于人類基因組計劃的實施。1990年10月開始實施的人類基因組計劃,是希望用15年時間,完成人類全部23對染色體的遺傳圖譜、序列圖譜和轉(zhuǎn)錄圖譜,同時還對大腸桿菌(Escherichiacoli)、酵母(Saccharomycescerevisiae)、美麗線蟲(Caenorhabditiselegans)、果蠅(Drosophilamelanogaster)和老鼠(Musmusculus)等5種模式生物的全基因組序列進行測定。人類基因組約有30億個bp,編碼5-10萬個基因,以當(dāng)時的技術(shù)水平要在15年內(nèi)完成這一計劃,是相當(dāng)艱巨的。如何采用新技術(shù)和新方法進行DNA序列測定以及基因功能的表達模式的確定,成為人們積極探索的問題。以J.C.Venter領(lǐng)導(dǎo)的基因組研究所(TIGR)的科學(xué)家們于1991年首先提出了EST(expressedsequencetags)的概念,并利用這一方法成功地尋找和鑒定了在細(xì)胞組織中表達的基因,即通過構(gòu)建細(xì)胞組織的cDNA文庫,隨機選擇cDNA克隆,利用載體引物一次測定插入片段的3′端和5′端約300~500bp,這些cDNA的部分序列即為EST,通過與GeneBank等數(shù)據(jù)庫所收集到的基因的EST比較,可鑒定出細(xì)胞組織中的功能基因。由于專門計算機軟件的發(fā)展,已能夠處理大量的DNA資料并進行高質(zhì)量的序列組合,科學(xué)家們考慮能否借鑒EST的策略來進行微生物的全基因組序列測定。1994年4月,JohnsHopkins大學(xué)的H.O.Smith和J.C.Venter等人合作,開始利用基因組鳥槍測序法對H.influenzae進行全基因組序列測定,不到1年時間,即完成了這一項工作。接著,TIGR的Fraser等人利用這一方法用不到6個月時間也完成了尿道支原體(Mycoplasmagenitalium)的全基因組測序工作。這表明鳥槍測序法是成功的、快速準(zhǔn)確的測序策略。1認(rèn)定的堿基數(shù)為5時,m鳥槍測序法基本原理是在基因組隨機文庫的基礎(chǔ)上,直接對隨機文庫的各個克隆進行測序,即對質(zhì)粒載體中所插入的DNA片段,同時從3′和5′兩端進行測序,獲得大量的兩端序列已知而中間部分未知的克隆群,然后通過專門的計算機軟件將測得的序列拼接成連續(xù)的序列圖。各克隆片段中間未測定的總堿基數(shù),即缺口(gap)與測定的總堿基數(shù)有關(guān),其規(guī)律遵從泊松(poisson)公式的一個推論:P0=e-m,P0為基因組中某個堿基未被測定到的概率,m為所測定的堿基總數(shù)與基因組堿基總數(shù)相比的倍數(shù)。m越大,P0值越小。那么,當(dāng)所測定的堿基數(shù)越大,基因組中未被測定到的堿基數(shù)就越少。當(dāng)m=1時,P0=e-1=0.37即基因組中有37%的堿基未測定到。當(dāng)m=5時,P0=e-5=0.0067,即當(dāng)所測定的堿基數(shù)是基因組總堿基數(shù)的5倍時,基因組中有0.67%的堿基未被測定到。同時,當(dāng)基因組DNA總長度為L,測定的隨機克隆的插入片段數(shù)為n時,總?cè)笨陂L度為Le-m,每個缺口平均大小為L/n?;谝陨显?單細(xì)胞微生物基因組鳥槍測序法的主要過程為:第一,基因文庫的構(gòu)建?;蛭膸斓母叨入S機性是測序的基礎(chǔ),構(gòu)建的文庫克隆數(shù)要達到一定數(shù)量,以保證經(jīng)末端測序的克隆片段的堿基總數(shù)大于基因組堿基總數(shù)的5倍以上。第二,測序。利用正向及反向引物,在質(zhì)粒模板上進行測序反應(yīng),對所測定的克隆的插入片段通過一次反應(yīng)對3′和5′兩端測序。第三,序列拼接。將所測得的序列通過專門的計算機軟件進行序列組合,序列片段按嚴(yán)格標(biāo)準(zhǔn)連接成數(shù)個連鎖群(contig),然后對連鎖群進行排序和缺口填補。物理缺口(沒有模板DNA與之對應(yīng)的缺口)的填補有4種策略:印跡法、肽鏈連接法、λ克隆排序法和PCR確定連鎖群等。序列缺口用引物步移法來填補。在填平缺口,獲得全基因組序列之后,再用專門軟件進行建立序列的圖形交互界面、基因組數(shù)據(jù)組合編輯等工作。與傳統(tǒng)測序法相比,鳥槍法測序省去了許多中間步驟,能快速準(zhǔn)確地對基因組進行測序。傳統(tǒng)測序法是采用克隆到克隆(Clone-by-clone)的策略,即是對基因組BAC文庫中各克隆進行測序,在每個克隆的測序過程中,先對每一個克隆進行亞克隆,然后對每個克隆的各個亞克隆進行直接測序,將各個亞克隆的序列拼接成一個克隆的序列圖,然后再將各克隆的序列拼接成一個連續(xù)的序列圖。這一方法中間步驟多,測序速度慢,在測序前要首先對擬測序的區(qū)域進行物理圖譜的構(gòu)建。2堿基組成的圖譜分析在基因組序列測序完成,得到全基因組序列圖譜后,工作的重點即是分析這一條由數(shù)百萬個4種堿基對線性排列而成的長鏈所包含的遺傳信息。目前的工作主要是以下兩個方面:2.1回復(fù)突變體的gc結(jié)構(gòu)分析和序列分析獲得全基因組序列圖譜后,首先是分析基因組中GC含量百分比,然后考察各個區(qū)域DNA的GC含量,不同DNA區(qū)域的GC含量并非一致,GC富含區(qū)或AT富含區(qū)可能意味著該區(qū)域具有特殊功能。在H.influenzae中,GC富含區(qū)內(nèi)對應(yīng)著6個rRNA操縱子(operon)和一個隱藏的類似Mu噬菌體。在M.genitalium中,rRNA操縱子的GC含量為44%,tRNA操縱子GC含量為52%,均較其基因組平均GC含量的32%要高得多。這表明富含GC對rRNA和tRNA形成正確的二級結(jié)構(gòu)是必需的。在以后的單細(xì)胞微生物基因組分析中,也發(fā)現(xiàn)類似情況。嗜熱高溫菌Aquifexaeolicus和嗜熱菌Thermotogamaritima的16S-23S-5SrRNA操縱子的GC含量比其基因組GC含量高得多,16S-23S-5SrRNA高GC含量是嗜熱細(xì)菌的特征之一。在B.subtilis的幾個GC含量低的區(qū)域,即AT富含區(qū),則含有前噬菌體或其它插入序列。考察DNA區(qū)域的G-C/(G+C)比率,當(dāng)這一比率發(fā)生顯著變化時,表明該區(qū)域可能含有DNA復(fù)制起點。這在B.subtilis和古細(xì)菌M.jannaschii中均得到證實。這表明在復(fù)制的先導(dǎo)鏈和后續(xù)鏈間核苷的組成不均勻。但在T.maritima中卻沒有在具有這一特征的區(qū)域發(fā)現(xiàn)復(fù)制始點。通過對基因組分析,發(fā)現(xiàn)基因組內(nèi)存在重復(fù)序列、插入因子、前噬菌體和前噬菌體部分殘余DNA。B.subtilis基因組中至少包含10個前噬菌體或前噬菌體的部分殘余DNA。E.coli的基因組也發(fā)現(xiàn)多個前噬菌體?;蚪M中的前噬菌體已經(jīng)失去溶源生長所必需的基因,但仍然攜帶有具有一些其它功能的基因。這表明在物種進化過程中前噬菌體對基因水平轉(zhuǎn)移起重要作用?;蚪M中的重復(fù)單位的大小可以是由數(shù)十個bp至數(shù)百個bp不等,重復(fù)次數(shù)也是大小不同。2.2功能未知的orf分析在進行某種生物基因組的轉(zhuǎn)錄翻譯水平分析前,首先對該物種已知的基因所編碼的蛋白質(zhì)進行分析,考察其密碼表,設(shè)定起始密碼子和終止密碼子,然后利用專門軟件,從整個基因組中尋找開放閱讀框(ORF)即蛋白質(zhì)的可能編碼區(qū)域。在對H.influenzae的ORF的考察中獲得令人驚訝的結(jié)果,在1743個ORF中,通過與GenBank數(shù)據(jù)庫中其它物種的已知基因比較,僅有1007個ORF的功能是已知的,另有736個ORF所編碼的蛋白質(zhì)功能是未知的,這些未知的ORF一部分是在GenBank等數(shù)據(jù)庫找到相應(yīng)的蛋白質(zhì)序列與之匹配,但蛋白質(zhì)功能未知,另一部分則是在數(shù)據(jù)庫中找不到相應(yīng)的蛋白質(zhì)與之匹配。在以后的基因組ORF分析中,均有相當(dāng)一部分ORF功能未知。E.coli的4288個ORF有1630個是功能未知的,占其ORF總數(shù)的38%;而在B.subtilis的4100個ORF中,有1722個ORF功能未知,占其ORF總數(shù)的42%;即使是基因組最小的M.genitalium,在其470個ORF中,也有96個在GenBank中沒有找到任何其它生物體的已知的蛋白質(zhì)序列與之匹配。對于已知功能的ORF,根據(jù)其生物學(xué)功能,按Riley分類法進行功能類群分類,共分為14個類群,或者按照COD法(ClustersofOrthologousGroups)將所有ORF分為18個功能類群。在ORF的起始密碼子中,使用頻率最高的是ATG,78%的B.subtilis和85%的E.coli的ORF均以ATG為起始密碼子,TTG、GTG的使用頻率較低,在B.subtilis中這兩種起始密碼子的使用頻率分別為13%和9%,在E.coli中則分別為3%和14%。另外,E.coli中還發(fā)現(xiàn)有15個ORF使用稀有起始密碼子ATT和CTG。3生物遺傳機制人們通過對基因組的研究,可以了解生物體各種代謝過程,遺傳機制和生命活動所需的基本條件以及生物特殊功能如致病性的遺傳基礎(chǔ)。在微生物全基因組序列的測定與注釋完成后,基因組學(xué)的研究工作主要集中在以下幾方面內(nèi)容:3.1功能結(jié)構(gòu)與功能研究在全基因組測序和分析完成后,人們最關(guān)心的自然是基因的功能問題。在所有的已完成測序的單細(xì)胞微生物基因組的ORF中,都有相當(dāng)部分ORF功能是未知的,其中的一部分ORF沒有在GenBank中找到任何與之匹配的蛋白質(zhì)。如此之多的ORF所編碼的蛋白質(zhì)結(jié)構(gòu)和功能不為人所知,究竟是這些ORF所編碼的蛋白質(zhì)在生物體內(nèi)存在的時間極短,很快就被降解掉?還是這些基因所編碼的蛋白質(zhì)及其功能一直未被人們發(fā)現(xiàn)呢?如果是后者,則表明盡管人們已經(jīng)對細(xì)胞的結(jié)構(gòu)與功能進行近一個世紀(jì)的研究,但還有將近一半的細(xì)胞生物學(xué)和生物化學(xué)的功能仍未被人們所認(rèn)識。全基因組序列的測定與分析以及功能基因組的研究,為人們研究基因功能提供極好機會和手段。目前通過基因缺失和平行分析的方法,正對S.cerevisiaeORF的功能進行深入研究。3.2古細(xì)菌與真核生物的親緣關(guān)系基因組學(xué)研究的一個重要內(nèi)容就是基因組間的比較研究。人們在DNA水平上對不同生物體進行比較研究,可以了解生物物種間的進化關(guān)系以及不同生物體生命活動的異同。70年代以前,生物主要分為原核生物和真核生物兩大類,1977年,C.R.Wose等通過對200多種原核生物16SrRNA和真核生物18SrRNA的寡核苷酸序列分析比較,從中發(fā)現(xiàn)了生命的第三種形式——古細(xì)菌。1978年,R.H.Whittaker等提出了三原界學(xué)說,將生物分為三個原界:古細(xì)菌原界、真細(xì)菌原界和真核生物原界。按照這一學(xué)說,在生物進化過程的早期,存在一類各種生物的共同祖先,由它分三條路線進化分別形成三個原界。微生物全基因組的分析和基因組的比較研究,為三個原界學(xué)說提供有力支持。通過對古細(xì)菌M.jannaschii、真細(xì)菌H.influenzae和真核生物S.cerevisiae基因組的比較研究,發(fā)現(xiàn)古細(xì)菌M.jannaschii在產(chǎn)能、固氮以及細(xì)胞分裂方面的有關(guān)基因與真細(xì)菌H.influenzae有很高的同源性,而在轉(zhuǎn)錄翻譯系統(tǒng)以及分泌系統(tǒng)方面的有關(guān)基因與真核生物S.cerevisiae的關(guān)系更近。這說明古細(xì)菌與真核生物的親緣關(guān)系較與原核生物的親緣關(guān)系更近??梢灶A(yù)計隨著越來越多的全基因組被分析和基因組間的比較研究,人們將可以重新繪制生物的系統(tǒng)進化樹。3.3基因是否可擴充其內(nèi)容基因組學(xué)的研究,使人們更全面深入地了解微生物致病性和致病機理。H.influenzae全基因組的分析研究發(fā)現(xiàn),編碼細(xì)胞膜上脂多糖的DNA序列中至少有9個有關(guān)的位點含有多個銜接重復(fù)的4核苷酸,這些重復(fù)序列的缺失或增加,可導(dǎo)致轉(zhuǎn)錄信號或閱讀框架的改變,使其可以逃避人體免疫監(jiān)視系統(tǒng)。病原菌N.meningitidis和H.influenzae基因組的比較研究發(fā)現(xiàn),盡管兩種病原菌均生長于人的鼻咽并能引起髓膜炎,但它們的代謝方式有很大不同。H.influenzae缺乏TCA循環(huán)和ED途徑,缺少吸收離子的運輸系統(tǒng),與N.meningitidis相比,僅有少部分的基因與電子傳遞有關(guān),但卻有相當(dāng)多的基因與氨基酸和碳水化合物的吸收有關(guān)。這表明H.influenzae更多地依賴底物磷酸化途徑而不是氧化磷酸化途徑獲取生命活動所必需的能量。代謝途徑的顯著差別,可能與這兩種病原菌在人體寄主不同生理條件下而表現(xiàn)不同致病能力有關(guān)。3.4基因組織特點基因水平轉(zhuǎn)移即基因在兩個同時存在的物種之間轉(zhuǎn)移,但一直沒有令人信服的證據(jù)。單細(xì)胞微生物全基因組測序的完成為人們研究基因水平轉(zhuǎn)移提供了極好的研究機會。基因水平轉(zhuǎn)移在多種微生物的基因組學(xué)研究中已得到證實。基因組中具有一些基因水平轉(zhuǎn)移的輔助證據(jù):基因的GC含量突然與相鄰區(qū)域的DNA序列的GC含量非常不同,基因組中殘存著插入序列的部分序列以及含有前噬菌體和前噬菌體殘存的部分序列。通過對N.Meningitidis基因組的分析,已鑒定了三個主要的基因水平轉(zhuǎn)移區(qū)域,其中兩個包含有與其致病性有關(guān)的基因。對E.coli基因組的進一步研究發(fā)現(xiàn),其4288個ORF中的755個即與基因水平轉(zhuǎn)移有關(guān)。T.maritima是從高溫環(huán)境下的海底淤泥中分離到的一種進化非常緩慢的嗜熱真細(xì)菌,通過對其基因組的比較研究,發(fā)現(xiàn)其52%的基因與真細(xì)菌非常相似,24%的基因與古細(xì)菌非常相似,并且其中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論