人類基因組概況_第1頁
人類基因組概況_第2頁
人類基因組概況_第3頁
人類基因組概況_第4頁
人類基因組概況_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DepartmentofMicrobiology

FuquanHoo

人類基因組概要

OutlineofHumanGenome

有科學(xué)史以來的過去幾百年中,人們對于人類基因組的認(rèn)識大多限于染色體和個別基因的認(rèn)識。真正對于人類基因組有“整體序列水平”的認(rèn)識是在人類基因組計(jì)劃完成之后。因此,我們要討論人類基因組就不得不先談一談“人類基因組計(jì)劃”(HumanGenomeProject,HGP)1.什么是人類基因組計(jì)劃?HGP是研究人類基因組(及相關(guān)的大腸桿菌、酵母、線蟲、果蠅及擬南芥基因組)的、宏大的跨國科研計(jì)劃,它可與阿波羅計(jì)劃媲美。HGP在20世紀(jì)80年代中期提出,自1990年正式開始,計(jì)劃用15年時間,耗資30億美元,完成人類基因組的測序和基本注釋,完成4套圖譜:遺傳圖譜、物理圖譜、序列圖譜及基因圖譜。一.人類基因組計(jì)劃

美國馬薩諸塞州的Cambridge基因組研究中心的

WhiteheadInstitute英國劍橋的SangerCenter美國密蘇里的WashingtonUniversity美國加州的DOE聯(lián)合基因組研究所美國得州的BaylorCollegeOfMedicine美國的一些其它單位中國、德國、法國、日本2.哪些國家和單位參加了HGP?3.誰的DNA被用來測序?

在構(gòu)建文庫實(shí)驗(yàn)室附近刊登了為HGP捐獻(xiàn)DNA的廣告,選擇了不同人種的健康捐獻(xiàn)者。采集樣品經(jīng)匿名處理:取樣實(shí)驗(yàn)室撕去所有樣品標(biāo)記,記以隨機(jī)號碼,交樣品處理室。樣品處理室再撕去原標(biāo)記并重新標(biāo)記。最終使用的每一樣品大約收集了5~10個樣本。捐獻(xiàn)者與DNA樣品之間不再有任何聯(lián)系,所以捐獻(xiàn)者的身份是不被知道的。而Celera的測序樣本來自5個人:分別屬于西班牙裔、亞洲裔、非洲裔、美洲裔和高加索裔(2男3女),是從21個志愿者樣本中挑選的。

最后公布的序列圖譜中還標(biāo)記了140萬個SNP位點(diǎn),因此,它不是某一個確定人物的圖譜,而是“人類”的圖譜。4.HGP的目標(biāo)

determinethesequencesofthe3billionchemicalbasepairsthatmakeuphumanDNA,identifyallthegenesinhumanDNA,storethisinformationindatabases,improvetoolsfordataanalysis,transferrelatedtechnologiestotheworldpublicaddresstheethical,legal,andsocialissues(ELSI)thatmayarisefromtheproject.兩個“人類基因組計(jì)劃”

前面提到的由多個國家合作進(jìn)行的計(jì)劃,稱為“國際合作”計(jì)劃。這個計(jì)劃是由國家撥款資助,自1990年開始,轟轟烈烈干了整8年,做了大量艱苦、細(xì)致的工作,也使得測序方法得到相當(dāng)?shù)耐晟疲笠?guī)模自動化測序儀已經(jīng)出現(xiàn),不用做遺傳圖和物理圖的“鳥槍法測序”技術(shù)于1995年在流感嗜血桿菌中獲得成功.1998年有一個私人公司Celera突然宣布,要用3年時間搶在“國際合作組織”之前完成人類基因組測序計(jì)劃,并將人類基因?qū)@浴?/p>

私人公司的介入,引入了競爭機(jī)制,迫使“公共合作組織”不得不加大投資、加快速度。結(jié)果兩個計(jì)劃都在2001年完成了“草圖”。TheHGPconsortiumpublisheditsworkingdraftinNature409(15February).CelerapublishesitsworkingdraftinScience(16February).“草圖”(DraftGenomeSequence)意味著什么?“草圖”還不是完成圖,還有1000多個“缺口”,缺口主要集中在異染色質(zhì)區(qū)域。目前,沒有一個真核生物的基因組被測序到100%。有一些區(qū)域-通常是高度重復(fù)區(qū)域-用當(dāng)今的技術(shù)很難或根本不可能被克隆或測序。但是,公布的草圖中,90%~93%常染色質(zhì)區(qū)域(富含基因區(qū))已經(jīng)被測序。

2003年,人類基因組計(jì)劃完成它的“完成圖”,98%以上的基因編碼區(qū)已被測序,精度達(dá)99.99%,至此,人類基因組計(jì)劃宣告它的完成。這一年,正值JamesWatsonandFrancisCrick發(fā)表DNA雙螺旋結(jié)構(gòu)50周年。人類基因組計(jì)劃的完成為50周年慶典送了一份大禮!Nature和Science分別發(fā)表了專文,介紹了人類基因組計(jì)劃在2001~2003這兩年中又取得的進(jìn)展及人類基因組學(xué)今后的發(fā)展方向。

基因組的完成圖1.BarbaraR.JasnyandLeslieRoberts:

Introduction,ScienceApr112003:277。2.FrancisS.Collins,MichaelMorgan,AristidesPatrinos:TheHumanGenomeProject:LessonsfromLarge-ScaleBiology。ScienceApr112003:286。3.MarvinE.Frazier,GaryM.Johnson,DavidG.Thomassen,CarlE.Oliver,AristidesPatrinos:RealizingthePotentialoftheGenomeRevolution:TheGenomestoLifeProgram。ScienceApr112003:290。4.FrancisS.Collins,EricD.Green,AlanE.Guttmacher,MarkS.Guyer

:AVisionfortheFutureofGenomicsResearch.Ablueprintforthegenomicera.NatureApr242003:835.5.SeanB.Carroll:GeneticsandtheMakingofHomosapiens.NatureApr242003:849.

6.JonathanArnold,NelsonHilton:GenomeSequencing:RevelationsfromaBreadMould.NatureApr242003:821.

Itisessentiallyimmoralnottogetit(thehumangenomesequence)doneasfastaspossible.

JamesWatson

人類基因組計(jì)劃的完成,使得我們今天有可能來探討基因組的概,但我們?nèi)匀粺o法來談?wù)摷?xì)節(jié)?;谖覀?nèi)祟惤裉熘R的局限性,目前我們還無法完全讀懂這本天書基于我們個人的知識局限性,沒有任何一個人能完全讀懂這本天書既使是集人類集體之智慧,我們也無法將目前人類能夠認(rèn)識到的有關(guān)基因組的全部知識集中到一篇論文中來。因此,今天只能討論有關(guān)基因組的概況。二.人類基因組概況(對草圖的統(tǒng)計(jì))基因組大小2.91GbpA+T含量54%G+C含量38%不能確定的堿基9%重復(fù)序列(不含異染色質(zhì))35%編碼序列(基因)數(shù)目26588功能未知基因比例42%外顯子最多的基因Titin(234)SNP數(shù)量約300萬個SNP密度1/12500bp最長的染色體2(240Mbp)最短的染色體Y(19Mbp)基因最多的染色體1(2453)基因最少的染色體Y(104)基因密度最大的染色體19(23/Mb)基因密度最小的染色體13,Y(5/Mb)重復(fù)序列含量最高的染色體19(57%)重復(fù)序列含量最低的染色體2,8,10,13,18(36%)編碼外顯子序列的比例1.1~1.4%基因的平均長度27Kb女平均男染色體上距著絲粒越遠(yuǎn),重組率越高

在遺傳作圖中,各遺傳標(biāo)記之間的距離是用重組率來表示的,將遺傳標(biāo)記距著絲粒的實(shí)際距離對重組率作圖,不難看出下述關(guān)系:

著絲粒附近的重組受到抑制,距著絲粒序列距離越遠(yuǎn),重組率越高染色體長臂的平均重組率為1cM/Mb染色體短臂的平均重組率為2cM/Mb女性染色體重組率比男性高三.人類基因組GC含量與CpG島人類基因組的GC含量圍繞平均含量41%長距離波動。存在GC富含區(qū)及GC貧乏區(qū)。GC富含區(qū)及GC貧乏區(qū)具有不同的生物學(xué)意義。

GC富含區(qū)與基因密度程正相關(guān)

GC貧乏區(qū)存在大量重復(fù)序列染色體深色G帶對應(yīng)的是低GC含量區(qū)染色體淺色G帶對應(yīng)的是高GC含量區(qū)

GC含量的“板塊”變化是由于基因組進(jìn)化過程中轉(zhuǎn)座事件導(dǎo)致的“區(qū)域鑲嵌”。GC含量與基因密度呈正相關(guān)

基因組序列GC含量直方圖(20Kb窗口)基因組中的CpG島人類基因組中的CpG島出現(xiàn)率很低。預(yù)計(jì)值:胞嘧啶與嘌呤的比列的乘積,約4%

實(shí)際值:約0.8%這是因?yàn)?基因組中大多數(shù)二核苷酸CpG中的胞嘧啶是甲基化的,被脫氨基成為胸腺嘧啶T,即CpGTpGCpG多出現(xiàn)于基因的5‘端,故對于預(yù)測基因很有意義?;蚪M內(nèi)有CpG島50267個重復(fù)序列內(nèi)的CpG島21377個,一般不具功能非重復(fù)序列內(nèi)的CpG島28890個

CpG島的分布密度與染色體上的基因密度高度相關(guān)染色體上的CpG島數(shù)量與基因數(shù)程正比四.人類基因組中的重復(fù)序列生物學(xué)中的一個困惑現(xiàn)象是基因組的大小與物種復(fù)雜性的不一致,如人基因組比Amoebadubia小200倍。其中一個解釋是基因組中含有大量重復(fù)序列。重復(fù)序列是指基因組中不編碼蛋白質(zhì)且有多個拷貝的序列,是人類基因中的主要成分,占據(jù)全基因組的大部分區(qū)域。重復(fù)序列的生物學(xué)意義有待闡明重復(fù)序列是一種重要的分子標(biāo)記。散在插入重復(fù)序列:多由轉(zhuǎn)座子插入引起的重復(fù)大片段復(fù)制性重復(fù):約10~300Kb,基因組不同區(qū)域間重復(fù)串聯(lián)重復(fù):高度重復(fù)的串聯(lián)重復(fù),也稱衛(wèi)星DNA,多存在于著絲粒、端粒、近著絲粒短臂等位置。人類基因組中的散布重復(fù)序列類型家族單位長度拷貝數(shù)總長度比例SINEAlu0.13kb1百萬288Mb9.9MIR40萬66Mb2.3LINELINE10.8kb35萬466Mb16.1LINE20.25kb27萬LTRHERV1.3kb5萬155Mb5.3RTLV,LTR0.5kb20萬DNATnMER,THE等0.25kb20萬50Mb1.7總記1025Mb35.3SINE:shortinterspersednuclearelements.LINE:longinterspersednuclearelements.Alu:含AGCT.MIR:mammalian-wideinterspersedrepeats.LTR:longterminalrepeat.HERV:humanendogenousretroviruses.RTLV:retrovirus-likeelements.MER:mediumreiterationfrequencysequence.THE:transposablehumanelement.轉(zhuǎn)座子來源的重復(fù)序列人類的大多數(shù)重復(fù)序列(包括LINE,SINE,LTR)都是來源于轉(zhuǎn)座單元,在進(jìn)化歷程中,基因組的45%都來源于轉(zhuǎn)座。人類DNA轉(zhuǎn)座子類似細(xì)菌轉(zhuǎn)座子,含有末端反向重復(fù),編碼一個轉(zhuǎn)座酶,該酶在可以在反向重復(fù)處通過剪切和粘貼實(shí)現(xiàn)轉(zhuǎn)座。轉(zhuǎn)座子不僅在基因組內(nèi)部轉(zhuǎn)移,還常常橫向轉(zhuǎn)移到新的基因組。反向重復(fù)G1轉(zhuǎn)座酶G2G3反向重復(fù)

這是指非同源染色體之間的片段復(fù)制性重復(fù),大小約1Kb~200Kb。這種現(xiàn)象在非同源染色體之間是廣泛存在的現(xiàn)象。

可以發(fā)生在染色體之間:如Xq28位置上的一個9.5Kb片段被復(fù)制重復(fù)到2,10,16和22號染色著絲粒的附近區(qū)域。

也可發(fā)生在染色體之內(nèi):如17號染色體上有一個200Kb的片段被復(fù)制三次(中間間隔5Mb),另一個24Kb片段被復(fù)制兩次(中間間隔1.5Mb)著絲粒周邊和端粒附近是片段復(fù)制性重復(fù)存在的區(qū)域,可占據(jù)該區(qū)域中90%的序列。“片段復(fù)制性重復(fù)”(segmentalduplication).染色體內(nèi)外重復(fù)序列比例染色體染色體內(nèi)(%)染色體間(%)全部(%)簡單重復(fù)序列(singlesequencerepeat,SSR)簡單重復(fù)序列是基因組重復(fù)序列中的特殊類型。也稱為衛(wèi)星DNA,進(jìn)一步分為:

微衛(wèi)星DNA:

重復(fù)單位較短(n=1~13)

小衛(wèi)星DNA:重復(fù)單位較長(n=14~500)二核苷酸重復(fù)有:AC(50%),AT(35%),AG(15%),GC(0.1)三核苷酸重復(fù)有:AAT(33%),AAC(21%),ACC(4%),AGC(2.2)多聚A可是通過逆轉(zhuǎn)錄進(jìn)入染色體中的其他各種SSR是復(fù)制過程中的滑動造成的約437個/Mb.重復(fù)序列較之于編碼序列,由于不經(jīng)受功能選擇的壓力,故較編碼序列更穩(wěn)定。在不同物種基因組中,可以出現(xiàn)同一重復(fù)序列,但可能個別或某些堿基發(fā)生了替換(突變)。根據(jù)堿基替換率和替換堿基的數(shù)目,可以計(jì)算出該重復(fù)序列的進(jìn)化年代。因此,重復(fù)序列提供了進(jìn)化歷程中的“化石記錄”。五.人類基因組中的基因人類基因組中到底有多少基因?根據(jù)脊椎動物組織mRNA的復(fù)雜度,估計(jì)有10000~20000個基因,故推算人類應(yīng)當(dāng)有40000個基因20世紀(jì)80年代,Gilbert根據(jù)典型基因長度為30Kb,基因組約30億bp,故估計(jì)人類有100000個基因,雖缺乏直接證據(jù),但它是一個令人滿意和被接受的數(shù)字。HGP揭示:人類基因組約有24500個基因,42%功能未知。擬南芥:28000個基因線蟲:18500個基因果蠅:13500個基因國際合作組織的初步推定了大約32000條基因,其中大約15000個是已知基因,17000個是預(yù)測基因(predicatedgene),預(yù)測的敏感性約60%,還有6800條(17000的40%)可能不是基因或者是“假基因”,因此,人類基因約24500左右(32000-6800)。非編碼RNA(noncodingRNA,ncRNA)非編碼RNA是指它們不編碼蛋白質(zhì),但同樣是基因,包括:tRNA:適配器,轉(zhuǎn)運(yùn)氨基酸rRNA:

構(gòu)成核糖體,蛋白譯制中心,最近X-線晶體衍射研究顯示肽鍵的形成有rRNA催化完成,而非蛋白質(zhì)。snoRNA(smallnucleolarRNA):小核仁RNA,擔(dān)負(fù)核仁中RNA加工與堿基修飾。snRNA(smallnuclearRNA):小核RNA,剪接體,參與把mRNA前體中的內(nèi)含子剪切掉。VaultRNA:

以核糖核蛋白形式存在,質(zhì)量是核糖體的3倍,功能未知。關(guān)于tRNA基因:在人類基因組中找到497個tRNA基因,還有324個tRNA來源的假基因。過去估計(jì)人類tRNA基因有1310個,這個數(shù)據(jù)高估了。一是把假基因估計(jì)在內(nèi)了,二是早前對基因組的大小高估了。1號和6號染色體上含有超過半數(shù)(280)的tRNA基因。其余tRNA基因分布于其他各染色體。但22和Y染色體上沒有tRNA基因。已知基因的特性許多基因長度超過100Kb,最常的基因(肌營養(yǎng)不良蛋白基因,DMD)長2.4Mb肌連蛋白基因(Titingene)含有最大編碼序列80780bp,外顯子數(shù)量最多(178),最長單外顯子(17106bp)人體基因外顯子平均長度145bp.分析了53295個內(nèi)含子,98.12%的內(nèi)含子的剪切位點(diǎn)是GC-AT模式人類許多基因存在選擇性剪接:22號染色體:642個轉(zhuǎn)錄子(in245gene),2.6個轉(zhuǎn)錄子/基因19號染色體:1859個轉(zhuǎn)錄子(in544gene)3.2個轉(zhuǎn)錄子/基因人類基因組編碼序列的功能六.人類基因組的單核苷酸多態(tài)性

(singlenucleotidepolymorphisms,SNP)

什么是SNP?

將來自兩個不同個體的兩條DNA序列進(jìn)行“對位比較”(alignmentpositionbyposition),在大面積相同的背景下,出現(xiàn)了單個核苷酸的差異,這種差異以一定的頻率出現(xiàn)在群體中,這就是SNP.物種SNP反映的是進(jìn)化歷史上點(diǎn)突變帶來的遺傳進(jìn)化標(biāo)志,對于研究人種進(jìn)化非常有用。許多基因變異造成的人類表型變化可以追述到SNP的變異。個體特性、疾病易感性以及對特定藥物的敏感性等特質(zhì)都與SNP相關(guān)。SNP數(shù)量巨大

SNP的出現(xiàn)頻率約1/1000~1/2000,也就是說在32億堿基對中存在約3.2M個SNP。這還僅僅是兩套基因組之間的比較,多套基因組進(jìn)行比較,SNP位點(diǎn)肯定要大得多。目前估計(jì)人類基因組中的SNP會超過7百萬。如果兩、三萬個基因不足以解釋人類個體的多樣性,那么巨大數(shù)量的SNP的存在是足以解

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論