第2章人類基因組計劃_第1頁
第2章人類基因組計劃_第2頁
第2章人類基因組計劃_第3頁
第2章人類基因組計劃_第4頁
第2章人類基因組計劃_第5頁
已閱讀5頁,還剩84頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、人類基因組計劃 人類基因組計劃(human genome project, HGP)自1990年正式啟動,取得了豐碩的研究成果,公布了高精度的人類基因組圖譜,模式生物基因組的研究也取得了重要的進展,越來越多生物的基因組序列已經(jīng)完成或正在測序,盡管仍有部分測序工作需要進行,人類基因組序列總體上比預(yù)定計劃提前兩年,己于北京時間2003年4月15日宣布完成。與此同時,功能基因組,蛋白質(zhì)組等相關(guān)研究已經(jīng)開始,由于人類基因組計劃的巨大成就,生命及醫(yī)藥等學(xué)科正面臨一場深刻的變革。回首過去,雖然HGP走過的是一條充滿艱辛的道路,但所取得的成果已獲得了廣泛的應(yīng)用,并且正在快速地推進生命科學(xué)及相關(guān)學(xué)科的發(fā)展。

2、第一節(jié) 人類基因組計劃產(chǎn)生的科學(xué)背景 一、基因組的概念 基因組(genome)是指細(xì)胞或生物體的整套DNA,對于細(xì)菌和噬菌體及動、植物病毒而言,它們的基因組是指單個染色體上所含的全部DNA,而二倍體及多倍體真核生物的基因組是指維持單倍體最基本的一套染色體DNA。人的基因組分為細(xì)胞核內(nèi)的核基因組和線粒體的線粒體基因組,如不加指明,則指核基因組。線粒體基因組DNA全長為 16569bp,為環(huán)形分子(圖4-1),線粒體DNA的變異與癲癇。感覺神經(jīng)性耳聾,致死性新生兒肌病、非胰島素依賴性糖尿病等疾病有關(guān)。 通常所說的基因組研究主要是指核基因組研究,人的基因組由22條常染色體加上X、Y性染色體的DNA組

3、成(表4-1),大小約為2.9-3.2Gb (Gb,gigabase pair,10億堿基對)。 人的體細(xì)胞除了成熟的紅細(xì)胞以外,都具有一套完整的基因組DNA。 生物的基因組大小并不總是與生物在進化中的復(fù)雜程度呈正相關(guān)。例如人類的基因組大小為釀酒酵母的200倍,但變形蟲(Ameeba dubth)的基因組卻比人的大200倍 (international human genome sequencing consortium,2001)。變形蟲 河豚的基因數(shù)量與人類似,基因組只有人的1/10. 對于人類線粒體的研究向傳統(tǒng)的人類進化觀點提出了挑戰(zhàn),考古學(xué)根據(jù)化石分析認(rèn)為人類起源于非洲,由直立人(ho

4、mo erectus)于100萬-200萬年前走出非洲,分布于世界各地,并獨立進化為現(xiàn)代智人(homo sapiens)。1987年, Cann等通過對來自全球不同人種的147個人的線粒體進行RFLP分析,繪制了進化樹,結(jié)果支持了非洲起源的觀點,但認(rèn)為走出非洲的時間應(yīng)該是在20萬年前,并提出了“走出非洲”(out of Africa)的觀點,認(rèn)為現(xiàn)代智人源于非洲,然后于13.7萬年之間分布到世界各地(Cann RL, et al, 1987; Vigiland et al, 1991)。 二、基因組計劃的醞釀和提出 由于眾多科學(xué)家的貢獻(xiàn),人們在20世紀(jì)前半葉已經(jīng)積累了一些關(guān)于遺傳規(guī)律的基本認(rèn)識

5、。20世紀(jì)后半葉之初,Watson和Crick揭示了DNA的雙螺旋結(jié)構(gòu),這一成果為分子遺傳學(xué)的誕生和發(fā)展奠定了基石。隨著分子遺傳學(xué)及相關(guān)技術(shù)的發(fā)展,到80年代初期人們已經(jīng)對DNA等遺傳物質(zhì)的性質(zhì)有了越來越深刻的認(rèn)識,為人類基因組計劃的準(zhǔn)備和實施提供了較為充分的理論依據(jù)和技術(shù)儲備。 1984年12月美國能源部(department of energy,DOE) 和ICPEMC(Commition for protectjon Against EnvironmentaI Mutagens and Caroinogens )在Alta召開會議,重點是討論重組DNA技術(shù)的發(fā)展問題。盡管Alta會議并非

6、專門討論人類基因組的作圖或測序工作,而主要是關(guān)于遺傳疾病的檢測,但會議中的許多思路都對后來提出人類基因組研究計劃有所啟迪。在這次會議上Charles脈沖場電泳技術(shù),大腸桿菌基因組的大尺度限制性酶切圖譜,這些都意味著通過酶切和脈沖場電泳分離等技術(shù)制備全基因組的物理圖譜已經(jīng)成為可能。 1987年,美國能源部與美國國立衛(wèi)生研究院開始為人類基因組計劃撥出部分經(jīng)費,1988年DNA雙螺旋結(jié)構(gòu)發(fā)現(xiàn)者之一沃森任國家人類基因組研究辦公室的首任主任,國家人類基因組辦公室于1989年升級成為國家人類基因組研究中心。1993年沃森辭職,由弗朗西斯柯林斯(Francis Collins) 繼任。 1988年,歐共體就

7、提出了可預(yù)測醫(yī)學(xué)計劃(predictive medicine programme)。一些歐共體國家包括德國, 丹麥等認(rèn)為這一研究會帶來許多倫理問題,尤其是德國認(rèn)為該研究可能帶來的優(yōu)生問題與以前納粹政策類似而招致激烈反對。1990年,該研究計劃的提議被修訂為人類基因組分析計劃(human genome analysis programme)。 在HGP (human genome project ) 提出之初,曾遭到了許多人的反對。由于基因組中存在大量的非編碼序列,“垃圾”DNA(Junk-DNA),不少人認(rèn)為HGP耗時費力,不可能完成,并且也沒有想象的那么重要,是“平庸的”,“可怕的”,“荒唐

8、的”研究計劃。也有人指責(zé)HGP是發(fā)現(xiàn)性的工作,而不是探索性的研究。當(dāng)然,HGP的成果已經(jīng)證明了他們的看法是錯誤的,HGP的實施對理解生命本質(zhì),人類進化,生物遺傳,個體差異,發(fā)病機制,疾病防治,新藥開發(fā),健康長壽等問題都具有重要而深遠(yuǎn)的影響。 1993年我國自然科學(xué)基金委員會在無錫召開換屆會議,第一次討論了人類基因組研究計劃,并于1994年初啟動了HGP研究,1998年在上海成立了國家人類基因組南方研究中心,1999年在北京成立了國家人類基因組北方研究中心。 中國科學(xué)家從1999年開始在人類基因組測序中承擔(dān)并完成了3號染色體短臂端粒到D3s3610的測序任務(wù)(圖4-2),從而使中國成為共同參與和

9、完成人類基因組計劃的六個國家之一(international human genomesequencing consortium, IHGsC 2001)。中國科學(xué)家還通過作圖法克隆了神經(jīng)性耳聾、短指征、乳光牙本質(zhì)以及兒童白內(nèi)障等疾病的致病基因。 1完成遺傳圖譜的制作,在1995年之前完成圖距為25cM遺傳圖譜的制作,發(fā)展進行快速基因分型的技術(shù),建立和發(fā)展新的作圖技術(shù)。 2制作一份人類基因組的物理圖,完成分辨率為100kb的STS (sequence tagged site)物理圖譜的制作。 3發(fā)展高效的DNA測序技術(shù),使測序能力在1998年前達(dá)到每年50Mb。 4進行基因鑒定和研究,發(fā)展自動

10、化操作技術(shù)。 5建立模式生物研究系統(tǒng)。 6發(fā)展相關(guān)的信息學(xué)技術(shù)。 7研究HGP將帶來的倫理,法律和社會問題。 8進行相關(guān)的技術(shù)培訓(xùn)。 9技術(shù)轉(zhuǎn)移,鼓勵基因組測序中心和其他研究機構(gòu)之間的技術(shù)的相互交流。 10與世界其他的測序?qū)嶒炇疫M行資源共享。 三、人類基因組計劃的研究目標(biāo)人類基因組計劃主要目標(biāo)就是要測定人基因組的全序列。第一個5年計劃的目標(biāo)有: 人類基因組計劃組織圓滿地完成了當(dāng)初制定的第一個5年計劃制定的研究目標(biāo)。1998年NIH和DOE又共同制定了下一個5年計劃(Collins FS, et al, 1998),提出了8個目標(biāo),以完成人類基因組的測序任務(wù),并進一步擴展研究范圍,對遺傳變異和基

11、因組功能展開研究。 1完成人類基因組的序列測定,這是該5年計劃的重點目標(biāo)。由于大規(guī)模測序相關(guān)技術(shù)的發(fā)展和測序經(jīng)驗的積累,在2003年以前完成人類基因組高精確度的序列圖譜已經(jīng)具有可能性,最終將比預(yù)期的2005年提前約兩年完成。在這5年中,NIH和DOE將繼續(xù)投資60-70用于基因組測序的經(jīng)費,其他測序工作主要由英國的Sanger中心負(fù)責(zé)實施,由英國的Wellcome Trust提供資助;其他一些國家也在測序工作中發(fā)揮各自不同的作用。 2進一步發(fā)展測序技術(shù),繼續(xù)增加測序通量,降低測序成本,支持測序技術(shù)的革新研究。 3研究人類基因組中的單核苷酸多態(tài)SNPs。 4發(fā)展研究功能基因組的相關(guān)技術(shù),建立人及

12、其他模式生物的全長cDNA資源庫,支持對基因組中非蛋白編碼區(qū)域的功能研究,發(fā)展大規(guī)模分析基因表達(dá)的方法,改進產(chǎn)生基因組范圍基因突變的方法,發(fā)展蛋白質(zhì)組的研究方法。 5開展比較基因組研究,完成線蟲,果蠅,小鼠的基因組測序,建立模式生物的遺傳圖和物理圖譜數(shù)據(jù)庫,建立更多的不同組織和發(fā)育時期轉(zhuǎn)錄的cDNA數(shù)據(jù)資源,在2005年之前完成小鼠的基因組測序,測定更多模式生物的基因組序列,為理解和研究人類基因組結(jié)構(gòu)和功能提供幫助。 6研究與人類基因組相關(guān)的倫理學(xué),法律和社會應(yīng)用。 7發(fā)展生物信息學(xué)和計算機生物學(xué)。 8培養(yǎng)相關(guān)的專業(yè)人才,培養(yǎng)基因組分析方面的人才,鼓勵科研院所提供相關(guān)的就業(yè)機會,吸引其他有關(guān)學(xué)

13、科的優(yōu)秀人才參與基因組研究,培養(yǎng)通曉基因組學(xué)、遺傳學(xué)和倫理學(xué)、法律及社會學(xué)問題的復(fù)合型人才。 人類基因組作圖主要是繪制人類基因組的遺傳圖譜,物理圖譜,轉(zhuǎn)錄圖譜和序列圖譜。 地圖是對地理位點的位置及位點之間的距離進行描述,與此類似,基因組作圖(genome mapping)是指通過遺傳作圖,物理作圖等作圖方法,對基因及各種標(biāo)記(marker)進行位置及標(biāo)記之間的距離描述。第二節(jié) 人類基因組作圖、測序及相關(guān)技術(shù) 由于迄今測序技術(shù)仍只能允許人們每次測定數(shù)百堿基對(base pair,bp)的序列,因此在開始全基因組大規(guī)模測序之前,必須將待測序的大片段DNA(50-1000kb)裝入克隆載體,繼而構(gòu)建

14、成較長區(qū)段的,彼此相連的克隆重疊群。這些克隆載體可容納很大的外源DNA片段,但不能直接用于測序分析,因此要對如此大的插入片段進行測序還必須進行亞克隆。 從短到長測序: 20世紀(jì)80年代早期最大容量的克隆載體是粘粒,當(dāng)時人們設(shè)想在對大量較小片段的DNA克?。ㄕ沉?,噬菌體等)進行測序的基礎(chǔ)上,根據(jù)克隆的DNA片段的重疊關(guān)系組裝成整個染色體乃至全基因組序列。 這種“從短到長”(bottomup)的方法要大量地重復(fù)測定序列,效率很低。 從長到短:大容量的酵母人工染色體(YAC)和細(xì)菌人工染色體(BAC)克隆技術(shù)的問世,給物理圖譜的制作帶來了極大的方便,從而可以采用“從長到短”(topdown)的策略:

15、先構(gòu)建大的DNA克隆,將它們按所來源的染色體進行分組,然后根據(jù)這些長DNA片段克隆在染色體上的相應(yīng)位置進行排序,繼而將每個大DNA片段亞克隆成為適合測序的小片段進行測序,當(dāng)測定完來自某條染色體上所有的DNA克隆序列后,就可以按亞克隆的來源進行分別拼接,而后依據(jù)長DNA片段克隆的排列順序,依次組裝出整個染色體的DNA序列(趙壽元等, 1996)。一、基因組研究中主要的克隆載體要對基因進行作圖,首先要有研究對象(均一的一段要對基因進行作圖,首先要有研究對象(均一的一段DNA序列),這就序列),這就需要載體。還要對需要載體。還要對DNA序列進行識別,這就需要標(biāo)記。序列進行識別,這就需要標(biāo)記。載體載體

16、(vector ):將:將DNA片段(目的基因)轉(zhuǎn)移至受體細(xì)胞的一種能自我片段(目的基因)轉(zhuǎn)移至受體細(xì)胞的一種能自我復(fù)制的復(fù)制的DNA分子。三種最常用的載體是細(xì)菌質(zhì)粒、噬菌體和細(xì)菌病毒和分子。三種最常用的載體是細(xì)菌質(zhì)粒、噬菌體和細(xì)菌病毒和動植物病毒。動植物病毒。標(biāo)記(標(biāo)記(marker):已知的指示基因位置的核苷酸序列。):已知的指示基因位置的核苷酸序列。()噬菌體載體( phage vector) 噬菌體基因組DNA長約50kb,在噬菌體內(nèi),基因組DNA分子為一條線狀雙鏈分子(圖4-3),末端是長12個核苷酸的互補單鏈,稱為cos位點(cohesion end粘性末端)。當(dāng)噬菌體進入宿主細(xì)胞

17、后,DNA分子的粘性末端進行堿基配對而結(jié)合,經(jīng)宿主體內(nèi)的DNA連接酶將切口封閉而形成環(huán)形DNA分子,并在感染早期充當(dāng)轉(zhuǎn)錄模板。 phage 不能容納比噬菌體基因組本身大得多的DNA分子,所以 phage載體只適合作較小的外源DNA片段的載體。charon 28可容納大致20kb的插入片段,EMBL3可容納23kb的插入片段。 (二)粘粒(cosmid) 粘粒載體本身是一種質(zhì)粒,包含噬菌體cos位點,在宿主體內(nèi)則具有噬菌體生長和復(fù)制的特性。這種克隆截體可容納3545kb的外源DNA片段,最大可至45kb(圖4-4)。由于YAC克隆不適合測序,所以用粘粒克隆來構(gòu)建較小的重疊群,以便于構(gòu)建直接用于測

18、序的亞克隆。 (三)酵母人工染色體(YAC) 20世紀(jì)80年代中期,由于技術(shù)的局限人們尚不能對大分子DNA進行分離,后來由于脈沖場電泳技術(shù)的問世,可將很大的DNA分子分離開來,以供進一步研究。 1983年Murray構(gòu)建了最早的酵母人工染色體(yeast artificial chromosome,YAC),1987年5月,華盛頓大學(xué)的Burke,Olson和Caile等將YAC技術(shù)用于人類基因組分子庫的構(gòu)建,使插入片段的長度比以往的克隆方法擴大了10倍。 YAC作為克隆載體,能攜帶100-1000kb的外源DNA分子(圖4-5),因此可用于物理圖譜制作過程中克隆重疊群的制備,由于YAC容量大

19、,因此使用較少的克隆數(shù)便可覆蓋整個基因組。 YAC也存在一些不足,主要是在外源DNA插入片斷之間易發(fā)生重組而產(chǎn)生嵌合克隆。不夠穩(wěn)定及操作不便等。人們發(fā)現(xiàn)最初用于人基因組DNA片段重疊群構(gòu)建的幾個YAC分子庫中,約60的YAC克隆是嵌合的,但不清楚重組是發(fā)生在體外連接過程中,還是發(fā)生在轉(zhuǎn)入酵母細(xì)胞后。在轉(zhuǎn)化酵母細(xì)胞時要除去酵母細(xì)胞的細(xì)胞壁,這一過程可能刺激酵母細(xì)胞在有絲分裂過程中發(fā)生重組。改進后的轉(zhuǎn)化方法因為不破壞細(xì)胞壁,而使嵌合克隆的比例大為減少。在酵母細(xì)胞中YAC克隆也不夠穩(wěn)定,發(fā)生缺失的頻率很高。此外,酵母細(xì)胞分裂一次YAC才復(fù)制一次,因此拷貝數(shù)不高。還有一點就是從酵母中將YAC與酵母的染

20、色體DNA進行分離也比較困難。 (四)P1克隆載體、細(xì)菌人工染色體(BAC)和噬菌體人工染色體(PAC) 1992年9月,加州理工大學(xué)的Simon小組發(fā)明了細(xì)菌人工染色體技術(shù)(bacterial artificial chromosome,BAC),使大規(guī)??寺〕蔀榭赡埽⊿hizuya H,et al, 1992)。而P1噬菌體克隆,BAC克隆和由Pl載體衍生出的PAC(Pl-derived artificial chromosome)等載體都可克服YAC的不足,因此采用BAC和PAC制作的大尺度物理圖譜是對YAC克隆圖譜的補充(圖4-6)。 噬菌體Pl載體與噬菌體載體較為相似,通過將噬菌體基

21、因組中的一段區(qū)域缺失而具備容納外源插入片段的能力,其容量取決于缺失區(qū)域的大小和噬菌體顆粒所能容納的空間,P1載體可容納的插入片段為70100kb。 BAC是基于F因子建立起來的單拷貝的大腸桿菌載體,BAC一般可容納100-150kb的插入片段,甚至可容納300kb的插入片段而仍穩(wěn)定復(fù)制。BAC的穩(wěn)定性非常好,因此適合用于克隆大片段的DNA分子,構(gòu)建基因組文庫。BACs廣泛用于較大的基因組測序的DNA克隆制備。 盡管BAC載體與YAC載體相比更具優(yōu)勢,但由于BAC技術(shù)出現(xiàn)較遲,人類基因組的重疊群大都用YAC構(gòu)建,BAC庫只起到了補充的作用。 PAC載體結(jié)合了Pl載體與BAC的優(yōu)點,可容納100-

22、300kb的插入片段。PAC和BAC均為低拷貝復(fù)制載體。 除了上述的使用較為廣泛的載體以外,人們還發(fā)展出了以大腸桿菌小F因子為基礎(chǔ)構(gòu)建的MiniF based Plasmid 載體、具有F因子和粘粒特征的Fosmid載體和哺乳動物人工染色體MAC ( mammalian artificial chromosome)等載體。 二、基因組作圖技術(shù) ()遺傳圖譜的繪制 遺傳圖(genetics map)也稱遺傳連鎖圖(genetic linkage map) 以具有遺傳多態(tài)性的遺傳標(biāo)記作為位標(biāo),以遺傳學(xué)距離(genetic distance)作為圖距,的基因組圖。遺傳學(xué)距離(cM)=一次重組/ 10

23、0次減數(shù)分裂(2個連鎖基因在100次減數(shù)分裂中發(fā)生一次重組,重組的機會與距離呈正比)。 遺傳多態(tài)性指在一個基因座位上有一個以上的等位基因(復(fù)等位基因),可以作為遺傳圖的位標(biāo)。 1911年在摩爾根實驗室工作的Alfred構(gòu)建了世界上第一張遺傳圖譜果蠅X染色體的遺傳圖譜。人的遺傳圖譜對于確定疾病相關(guān)基因在染色體上的相對位置具有重要作用。撲克游戲中的連鎖道理 一條染色體上有許多基因,分別決定著生物體不同的性狀,在減數(shù)分裂中這些基因并非是獨立分配的,而是存在程度不同的連鎖關(guān)系。通常用來研究基因之間連鎖關(guān)系的方法是進行側(cè)交,用雙隱性純合個體作為親本與野生型個體雜交,然后分析子代中出現(xiàn)重組型的頻率或交換值

24、來確定基因間的連鎖程度,也就是基因在染色體上的相對位置與距離。遺傳圖以厘摩(。cM,centi-Mogan)為圖距,用以紀(jì)念遺傳學(xué)的奠基人摩爾根(Morgan)。 1%交換值為1cM,人類遺傳圖中這一圖距大約相當(dāng)于1000kb。繪制遺傳圖譜所用的第一代標(biāo)記是DNA限 制 性 片 段 長 度 多 態(tài) 性 標(biāo) 記 ( r e s t r i c t i o n fragment length polymorphism;RFLP)限制性內(nèi)切酶可在特定的核苷酸位置切割DNA。DNA序列的改變甚至是一個堿基的改變,都可能改變限制性內(nèi)切酶酶切片段的長度,通過凝膠電泳可以方便地檢測這種長度的“多態(tài)性”。RF

25、LP在整個基因組中都存在,根據(jù)對RFLP片段的多態(tài)性分析,可對某些疾病進行診斷并將與疾病有關(guān)的基因進行定位,但RFLP提供的信息量相對較少。 第二代遺傳標(biāo)記是短串聯(lián)重復(fù)序列多態(tài)STRPs (short tandem repeat polymorphism) 在檢測RFLP的過程中,發(fā)現(xiàn)有一種類型是由于DNA重復(fù)序列造成的。這些DNA重復(fù)序列在人類基因組中有很多拷貝,它們可以頭-頭或頭-尾的方式串聯(lián)成簇,分布于基因組的各個位點。 在某一位點上,數(shù)量可變重復(fù)序列(VNTR)也可以提供不同的片段長度多態(tài)。有的VNTR重復(fù)單位長度為612個堿基,稱為小衛(wèi)星;有的(VNTR)重復(fù)單位為2-6個堿基,稱為

26、微衛(wèi)星或短串聯(lián)重復(fù)STR。STR具有高度多態(tài)性,同一遺傳位點數(shù)目變化很大,在群體中也可形成多達(dá)幾十種的等位基因,這是其他遺傳標(biāo)記所不能比擬的。至1996年初,所建立的人的遺傳圖已含有6000多個以STR為主體的遺傳標(biāo)記,平均分辨率即兩個遺傳標(biāo)記間的平均距離為0.7cM,這個距離大致對應(yīng)于0.7Mb的物理距離。這些遺傳標(biāo)記作為“位標(biāo)”,把基因組分成6000多個區(qū)域,只要以連鎖分析的方法,找到某一表現(xiàn)型的基因與其中一種遺傳標(biāo)記鄰近(即緊密連鎖)的證據(jù),就可以把這一基因定位于標(biāo)記所界定的區(qū)域內(nèi)。這樣,如果想確定與某種已知疾病有關(guān)的基因,可以根據(jù)決定疾病性狀的位點與選定的遺傳標(biāo)記間的遺傳距離來確定與疾

27、病相關(guān)的基因在基因組中的位置。 第三代遺傳標(biāo)記是單核苷酸多態(tài)(single nucleotide polymorphism,SNP)。由于STRPs 在基因組中約每Mb出現(xiàn)一次,因此分辨率仍然不夠高,而SNPs在基因組中約每lkb就出現(xiàn)一次,所以用作遺傳標(biāo)記較RFLP和STRP更具優(yōu)勢(Collins Fs, et al,1998)。一個SNP反映了一個堿基位點在人群中存在兩種或兩種以上核苷酸,其頻率一般等于或大于l。SNPs中占優(yōu)勢的堿基出現(xiàn)頻率一般小于70,而等位的核苷酸則大于30%,這樣的頻率可以很好地滿足連鎖分析和其他研究。 總的說來,遺傳圖的分辨率太低。在低等生物當(dāng)中,想制作較高分辨

28、率的遺傳圖并不存在問題,因為低等生物可以大量培養(yǎng)和交配,從而制作出分辨率達(dá)到kb級的圖譜。例如,在1990年的大腸桿菌基因組測序工作開始前,獲得的最精良版本的大腸桿菌的遺傳圖譜分辨率為每33kb就有一個標(biāo)記,整個基因組共有1400個標(biāo)記。這樣的遺傳圖譜對于指導(dǎo)測序工作已經(jīng)足夠了。類似地,釀酒酵母測序前也已有了非常精細(xì)的遺傳圖譜,大約有1150個標(biāo)記,平均分辨率為10kb。 但是,在人及其他較高等的真核生物中要繪制高分辨率的遺傳圖就要復(fù)雜得多,因為不可能以人為實驗材料任意婚配,并且難以獲得大量的子代,因而只能根據(jù)有限的減數(shù)分裂進行分析。在上個世紀(jì)80年代中期,當(dāng)人類基因組計劃的提議受到關(guān)注時,人

29、們認(rèn)為要進行HGP研究必須要擁有一張分辨率達(dá)到1Mb的基因組圖譜,但當(dāng)時只可能提供分辨率為2-5Mb的遺傳圖譜,難以滿足基因組測序工作的需要,因此仍需發(fā)展新的作圖技術(shù)。 上個世紀(jì)30年代,Sturtevant提出假設(shè)認(rèn)為染色體交換是隨機發(fā)生的,現(xiàn)在看來這一觀點并不完全正確,因為在染色體上存在重組的熱點區(qū)域,發(fā)生交換的可能性比其他區(qū)域要高。這會對遺傳圖的準(zhǔn)確性產(chǎn)生直接影響。1992年,當(dāng)釀酒酵母的3號染色體的測序工作完成后,人們第一次能夠比較遺傳圖和序列的真實位置來分析遺傳圖的準(zhǔn)確性,結(jié)果發(fā)現(xiàn)存在一些比較顯著的偏差,甚至發(fā)現(xiàn)標(biāo)記glk I和cha I 通過遺傳圖推斷出的位置關(guān)系是錯誤的(圖4-7

30、)。 既然結(jié)構(gòu)簡單的酵母的遺傳圖都發(fā)生了錯誤和偏差,那么在更為復(fù)雜生物的遺傳圖譜中可能會隱藏更多的錯誤。遺傳圖的這兩個缺陷意味著在開始大規(guī)模基因組測序前,許多真核生物的遺傳圖都必須經(jīng)過進一步的校驗,并采用其他圖譜進行補充。 (二)物理圖譜的繪制 基因組物理圖譜(physical map)是指一套經(jīng)過排序的覆蓋整個基因組的DNA克隆。這些克隆之間存在重疊,形成連續(xù)的排列,稱作重疊群(contig),用來指示這些克隆之間的重疊及距離的參照物稱作標(biāo)記(marker),如限制性內(nèi)切酶的酶切位點,基因、STSs、ESTs等,標(biāo)記間的距離以物理長度為單位(如染色體顯帶技術(shù)顯示的區(qū)帶,核苷酸的數(shù)目等)。 物

31、理圖譜除了圖距單位與遺傳圖譜不同外,更重要的是物理圖的構(gòu)建不需作大量雜交和子代性狀的分析,而可用物理,化學(xué)技術(shù)直接確定標(biāo)記在染色體上的位置,因此更加精確。物理圖是基因組計劃中制作的第二張圖譜。物理圖與遺傳圖相互參照就可以把遺傳學(xué)的信息轉(zhuǎn)化為物理學(xué)信息,如某一區(qū)域的cM值可以近似換算為某一區(qū)域大小為多少kb。物理圖譜整合了DNA序列在基因組中的實際位置,繪制物理圖需要篩選大量的物理標(biāo)記以及進行大量復(fù)雜和繁瑣的分析。 1大尺度限制性酶切作圖 不同類型的內(nèi)切酶可以分別識別和切割不同的靶序列,這些靶序列有的為4堿基對,有的為5個堿基對,有的為6個堿基對,甚至還有的是7個(如sap I識別5GCTCTT

32、C3)或8個堿基對。限制酶切割DNA 還有一些限制性內(nèi)切酶的識別和切割序列在基因中十分罕見,像5CG3連續(xù)序列在基因組中就很少見,因為在CG序列中,胞嘧啶常被甲基化。BssHII識別位點為5GCGCGC3,在基因組中平均約390kb存在一個切點,而Not I的識別位點是5GCGGCCGC3,這一位點極為罕見,大約10Mb才存在一個(Brown TA,1998)。 在基因組DNA中位點罕見的內(nèi)切酶由于酶切位點很少且不具多態(tài)性,因而不可用于RFLP作圖,但可以通過這些位點來增加基因組圖譜中的標(biāo)記的密度。 到1998年,人們已經(jīng)分離了約2500種II型內(nèi)切酶,實驗室中常用的就有300種之多。由于限制

33、性內(nèi)切酶的發(fā)現(xiàn),DannaK和Nathans 在1971年就繪制出了病毒SV40基因組的物理圖譜(Danna K, et d, 1971),這是人類繪制的第一張基因組物理圖。 酶切圖譜制圖是用具有稀有酶切位點的限制性內(nèi)切酶切割整條染色體所產(chǎn)生的大片段DNA分子進行排序,并標(biāo)明酶切位點(圖4-8)。對普通的線性電場電泳來說,小于50kb的片段還是可以分離的,分離更大的片段則非常困難?;蚪MDNA經(jīng)罕見位點的限制性內(nèi)切酶處理后得到的DNA分子很大,如果沿用普通的電泳,是無法將這些片段分離開來的。要分離大分子DNA,必須采用脈沖場電泳。通過脈沖場電泳就可以達(dá)到分離大分子DNA的目的。 限制性酶切作圖

34、技術(shù)的建立最初是用于線蟲和酵母的作圖,但是采用該方法最成功范例卻是大腸桿菌的物理圖譜。1987年Kohara等為繪制大腸桿菌的物理圖譜建立了大腸桿菌基因組DNA的噬菌體文庫,每個克隆分別被用8種限制性酶不完全消化,消化產(chǎn)物通過瓊脂糖電泳分離,每塊膠都在轉(zhuǎn)印后進行雜交,使用的探針是載體的一段序列,電泳圖譜采用與測序膠類似的方法讀取指紋信息。從1025個可用克隆開始,每個克隆的限制性酶切指紋都與其他的所有克隆進行比較,重疊克隆是根據(jù)至少有5個一致酶切位點來確定的,采用這一方法,文庫的1025個克隆共被分類成70群,其中包含了7個單獨的克隆,這些克隆的插入片段從20180kb不等,總共是4.4Mb,

35、約覆蓋基因組的94。 2光學(xué)作圖(optical mapping) (1)光學(xué)作圖:除了使用脈沖場電泳外,其他一些方法也可以用于罕見酶切片段DNA的檢測與鑒定。用限制性內(nèi)切酶處理分離的染色體后,可通過顯微鏡直接觀察經(jīng)酶切的DNA片段,這稱為光學(xué)作圖。 (2)染色體原位雜交作圖:原位雜交(in siiu hybridizaiion, ISH)也屬于光學(xué)作圖,早期的原位雜交是用同位素標(biāo)記探針的,后來從1980年開始則多采用熒光物質(zhì)進行熒光原位雜 交 ( f l u o r e s c e n t i n s i t u hybridization,F(xiàn)ISH)。在光學(xué)作圖中,圖譜標(biāo)記是酶切位點,而在

36、FISH中,圖譜標(biāo)記則是一段DNA序列,由于采用熒光標(biāo)記而更便于觀察。 (3)DNA片段的陣列雜交作圖:雜交作圖也是從制備文庫開始,鑒定出那些只含有非重復(fù)的單拷貝DNA的克隆,然后從這些含有單拷貝序列的克隆中隨機挑選作為探針,用以檢測與之重疊的克隆,而那些未顯示陽性信號的單拷貝序列克隆則作為下一輪篩選的探針。如此不停地進行多輪雜交直到所有的克隆至少都出現(xiàn)一次陽性的雜交信號。 (4)輻射雜種(RH)細(xì)胞作圖: RH (radiation hybrid)是帶有其他生物染色體的嚙齒類動物的細(xì)胞。 1、人的體細(xì)胞在經(jīng)受3000-8000輻射劑量的X線照射后會引起染色體的斷裂。這樣的輻射處理對于人的體細(xì)

37、胞來說是致死的。 2、如果那些斷裂的染色體片段與末經(jīng)輻射處理的嚙齒類動物細(xì)胞融合,并且染色體片段重組到嚙齒類細(xì)胞的基因組中,則這些重組的片段能夠復(fù)制,融合細(xì)胞也能夠傳代。通過化學(xué)藥劑如聚乙二醇(PEG)或者用仙臺病毒處理可以使細(xì)胞進行融合。 3、在進行細(xì)胞融合時,并非所有的鼠細(xì)胞都與人的細(xì)胞發(fā)生融合,因此要采用適當(dāng)?shù)臈l件進行篩選以去除未融合的鼠細(xì)胞,常用HAT選擇系統(tǒng)。 (5)序列標(biāo)記位點(STS)作圖:要制備基因組詳盡的物理圖譜,限制酶切作圖及FISH作圖兩種方法都不合適。限制性酶切作圖可以快速簡單地提供詳細(xì)的酶切位點和位點之間長度的信息,但不適合用于大范圍或大規(guī)模的基因組分析。FISH作圖

38、不能提供可供進一步研究的克隆。因此要盡快繪制出實用的物理圖譜,還必須發(fā)展和建立新的技術(shù)方法。 STS作圖可采用雜交或者PCR,但PCR的運用更為廣泛,因為PCR操作更為方便,快速,并可采用自動化操作。如果兩個STS經(jīng)常出現(xiàn)于同一個克隆中,說明這兩個位點毗鄰程度高,如果距離較遠(yuǎn),則兩個標(biāo)記同時出現(xiàn)的頻率就低些。因此可用類似于遺傳圖譜的方法來初步推斷STSs標(biāo)記間的距離。 STS是長約200-300bp的單拷貝DNA片段,每個STS的序列在基因組中應(yīng)該是惟一的,不能在其他地方存在重復(fù),如果兩個克隆含有同樣的STSs,那么這兩個克隆必然重疊,重疊部分也必然含有這些STSs位點。 (6)表達(dá)序列標(biāo)簽(

39、EST)作圖:在含有大量重復(fù)片段的生物基因組中尋找足夠數(shù)量的STSs費時費力,工作量很大。Venter等于1991年建議采用ESTs作圖方法,這一方法的原理是基于經(jīng)過剪接的mRNA很少含有重復(fù)序列這一現(xiàn)象(Adams D, et al,1991)。 cDNA的部分序列ESTs就可以作為STSs。 (7)基因組物理圖譜的組裝:用不同方法制備的圖譜最終必須被整合起來,以提供完整的信息。大多數(shù)的作圖方法都相對地將兩類目標(biāo)排列整合成為一個,這兩個研究目標(biāo)就是“斷點 ” ( b r e a k p o i n t s ) 和 “ 標(biāo) 記 (markers)。 斷點:也代表基因組中的一部分,受不同的實驗室

40、不同的系統(tǒng)情況決定; 標(biāo)記(位標(biāo)):每個標(biāo)記則是基因組中的惟一位點,是獨立于不同的實驗系統(tǒng)的。盡管斷點和標(biāo)記對作圖都很重要,但圖譜本身要通過標(biāo)記來確定,標(biāo)記中最為詳盡的形式則是DNA序列。標(biāo)記是恒定的。 3DNA序列圖 序列圖是人類基因組在分子水平上最高層次,最為詳盡的物理圖。人基因組DNA連接起來總長度可達(dá)lM,測定基因組全序列是基因組計劃中最明確,最艱巨的任務(wù)。 基因組DNA序列圖繪制原理1、把染色體分成平均長度在400kb的長片段,每段克隆到一個YAC上,所有YAC克隆都按照其在染色體上的實際位置進行排序(根據(jù)STS),我們就得到了一個能夠覆蓋整個染色體的YAC文庫。2、把每一個YAC克

41、隆攜帶的染色體片段經(jīng)部分酶切形成一系列有重疊區(qū)域的40kb左右的片段克隆到粘粒上,得到粘粒文庫。3、每個粘粒上的染色體片段再經(jīng)酶切形成4kb左右的片段克隆到測序?qū)S玫馁|(zhì)粒載體上。4、測序質(zhì)粒上攜帶的4kb的片段就可以用現(xiàn)在常規(guī)測序的方法進行測序了。 5、把所有質(zhì)??寺〉腄NA片段序列讀出,再按照各個片段在染色體上的實際位置進行排列,最后就可以得到染色體的全部核苷酸堿基對序列質(zhì)??寺NA 測序原理:把待測序的DNA分子進行處理,得到每個只差1個核苷酸的一系列逐步縮短的DNA分子的混合物,通過凝膠電泳把這些DNA分子分離開來,形成階梯狀排列的條帶,然后逐個讀出DNA的堿基序列。測序圖 全基因組鳥

42、槍法最早由Venter等提出,該方法在測序時直接將基因組DNA分解成為約2kb的小片段進行隨機測序,同時對一些10kb大小的克隆和BACs克隆的末端(STCs進行測序,然后利用超級計算機分析以發(fā)現(xiàn)重疊區(qū)域,并組裝成連續(xù)而完整的序列,最終對大片段的DNA定序。這就是“從短到長”的作圖測序策略。從理論上來講,一個任意大小的基因組只要其中不包含重復(fù)序列,都可以通過鳥槍法測序,全基因組鳥槍法已成功用于重復(fù)序列較少的病毒,細(xì)菌,果蠅及水稻基因組序列的測定。第二種基因組測序策略是“基于BAC連續(xù)克隆系的測序”,也稱為“map based”策略,該方法是在已獲得詳細(xì)物理圖譜的基礎(chǔ)上,將待測序的BACs克隆切

43、成1.5-2.0kb的小片段,并裝入載體進行測序。然后通過計算機將讀出的序列組裝出整個克隆的序列,再通過圖譜提供的信息將克隆序列組裝成基因組序列。這就是 “從長到短”的測序策略。 第三節(jié) 人類基因組計劃的進程及主要成就 一、人類基因組的特征 ()人類基因組計劃的進程 人類基因組計劃啟動之后,已取得了許多重大成果,幾乎所有新的進展都在世界頂級刊物上報道。由于在實施過程中相關(guān)新技術(shù)的發(fā)明,使得實際進程遠(yuǎn)遠(yuǎn)超過預(yù)定計劃。 (二)人類基因組輪廓人類基因組大小約為2.9-3.2GB;不同個體之間99.99的基因序列是相同的;人類SNPs在基因組中的出現(xiàn)頻率為l1250bp,基因組共有約140萬個SNP;

44、整個基因組中GC堿基含量偏低,僅占38,其中2號染色體中GC的含量最高;人的基因組中約有30 00040 000個基因,遠(yuǎn)少于原先10萬個基因的估計,僅是線蟲或果蠅基因數(shù)量的兩倍,人有而鼠沒有的基因只有300個;人的基因組序列估計與進化上親緣關(guān)系最近的黑猩猩的基因組序列差異只有約1%。如此少的基因數(shù)目,而能產(chǎn)生如此復(fù)雜的功能,因此基因組的大小和基因的數(shù)量并不總是與生命進化的程度呈平行關(guān)系。人類基因的平均大?。ê瑑?nèi)含子和外顯子)為27kb,19號染色體是含基因最豐富的染色體,而13號染色體含基因量最少。人類基因的大小差異較大,從100bp到2000kb不等,tRNA、snRNA、snoRNA基因

45、最小,只有6575bP。很小的蛋白編碼基因如編碼組蛋白H4的基因只有406bP,目前發(fā)現(xiàn)最大的基因是編碼dystrophy的基因,大小為2400kb,僅外顯子就達(dá)79個之多,其中的編碼序列只占整個基因的06。 蛋白編碼基因的分類 人的基因組中有26000多個功能基因,對其中蛋白編碼基因的編碼產(chǎn)物按照功能進行初步分類(圖4-17)發(fā)現(xiàn)其中有42的基因的功能尚不清楚。在初步知曉 功 能 的 蛋 白 中 酶 占1028,核酸酶占7.5,信號傳導(dǎo)相關(guān)蛋白占12.2%,轉(zhuǎn)錄因子占60,信號分子占1.2,受體蛋白占5.3,選擇性調(diào)節(jié)分子占3.5。發(fā)現(xiàn)并了解這些功能基因的作用,對于基因功能的深入研究和新藥篩

46、選都具有重要的意義。(三)人類基因組的組織結(jié)構(gòu)人類基因組中存在“熱點”和大片“荒漠”,前者指染色體上有基因成簇密集分布的區(qū)域,后者指染色體上大片的Junk-DNA區(qū)域,分布著3O0多萬個長片斷重復(fù)序列?;蚪M中所謂的Junk-DNA絕不是無用的,其中蘊含著人類DNA序列的未知功能,包含著人類演化和差異的信息。人類基因組中,編碼蛋白的序列不足5,在非編碼序列中重復(fù)序列則至少占基因組的50,這些重復(fù)序列一般可分為五類:來自轉(zhuǎn)座子的重復(fù)序列(也稱作transposon-derived repeats),約占基因組的25;部分失活的基因反轉(zhuǎn)座拷貝(inactive(partially) retropo

47、sed copies of cellular genes),包括蛋白編碼基因和一些小的結(jié)構(gòu)RNA的編碼基因,也稱作加工過的假基因;簡單重復(fù)序列;大片段單重復(fù)序列(segmental duplications),一般為10-300kb,由染色體的一個區(qū)域復(fù)制到另一個區(qū)域; 區(qū)域的串聯(lián)重復(fù)序列(blocks of tandeluly repeated sequences),如端粒。著絲粒、近端著絲粒染色體的短臂及核糖體蛋白基因簇。散在重復(fù)序列包括長散在核元件LINEs(long interspersed nuclear elements)。短散在重復(fù)核元件SINEs(short intersper

48、sed nuclear elements)、LTRs反轉(zhuǎn)座元件及DNA轉(zhuǎn)座子。 人體基因組中廣泛存在的Alu序列屬于SINEs, Alu家族成員的序列之間并不完全相同,但相似度很高,它們的平均長度約為280bP,人的基因組中約有70萬一100萬個Alu重復(fù)單元(圖4-18和圖4-19)。 第四節(jié) 人類基因組計劃的延伸 一、模式生物的基因組學(xué) 人類疾病相關(guān)的許多基礎(chǔ)研究工作,尤其是發(fā)育生物學(xué)領(lǐng)域的研究無法或難以利用人體組織材料進行。由于進化的原因,細(xì)胞生命在發(fā)育的基本模式方面具有相當(dāng)大的同一性,所以利用位于生物復(fù)雜性階梯較低級位置上的物種來研究發(fā)育共同規(guī)律是可能的。因為這些生物的細(xì)胞數(shù)量更少,分

49、布相對單一,變化也較好觀察,而對這些生物的研究有助于人們理解生命世界的一般規(guī)律,所以這些生物被稱為“模式生物”。 在人類基因組計劃啟動之初的第一個5年計劃里,人們提出了在測定人類基因組全序列的同時,要研究一些模式生物基因組的設(shè)想。 開展模式生物基因組測序的重要原因有兩個:首先,簡單、較低等的生物為非常復(fù)雜的人類基因組的測序工作提供了改進技術(shù)和完善測序策略的機會;其次,許多基因在進化過程中都是在不同物種中廣泛保守的,模式生物基因組的研究將對人類基因組的功能研究提供多方面的線索。 使用的較多的為模式生物: 酵母、線蟲、果蠅和小鼠 二、功能基因組學(xué)(functional genomics) 要詳盡闡

50、述人類基因及非編碼序列DNA的功能,僅靠測定基因序列是遠(yuǎn)遠(yuǎn)不夠的,還需要通過所謂的“后基因組(post genome)”研究去揭示,事實上幾乎在HGP剛開始啟動時,關(guān)于基因功能研究的“后基因組”研究就已經(jīng)開始進行。就研究任務(wù)而言,人類基因組計劃的 核心目標(biāo)是解讀人類基因組DNA的序列,而后基因組計劃的主要研究內(nèi)容是功能基因組(functional genomics)研究。形象他說,基因組序列信息告訴人們細(xì)胞或生物體的基因組能夠做什么,而轉(zhuǎn)錄本組(transcriptome)告訴人們可能會發(fā)生什么,而蛋白質(zhì)組(proteome)則告訴人們細(xì)胞和生物體正在發(fā)生的事件。在基因組,轉(zhuǎn)錄本組和蛋白質(zhì)組中,蛋白質(zhì)組與生物體的生理功能具有最為直接的關(guān)系,在生物工程及制藥等產(chǎn)業(yè)中也有著十分廣闊的前景。研究蛋白對于理解細(xì)胞的功能與疾病機制具有重要作用,蛋白質(zhì)組研究是艱巨而長遠(yuǎn)的任務(wù),研究基因功能的蛋白質(zhì)組學(xué)需要 眾多學(xué)科的共同參與,才能最終解釋基因組的奧秘。 現(xiàn)象反映本質(zhì)功能反映結(jié)構(gòu)。功能基因組學(xué),就是在基因組的層次上,研究所有基因表達(dá)、調(diào)控與功能。轉(zhuǎn)錄圖就是最初步的人類基因組圖。 基因的功能首先反映在基因的轉(zhuǎn)錄、表達(dá)。基因的轉(zhuǎn)錄具有組織和發(fā)育階段特異性,并

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論