檢驗(yàn)分子水平自然選擇的方法_第1頁
檢驗(yàn)分子水平自然選擇的方法_第2頁
檢驗(yàn)分子水平自然選擇的方法_第3頁
檢驗(yàn)分子水平自然選擇的方法_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、檢驗(yàn)分子水平自然選擇的方法在選擇主義與中性主義的爭論中,中性理論提出了很多的假設(shè),其中的許多涉及到群體內(nèi)等位基因頻率分布,以及種內(nèi)-種間遺傳變異的關(guān)系。因此,可以利用統(tǒng)計(jì)學(xué)模型來驗(yàn)證中性學(xué)說的正確性,即把中性理論作為統(tǒng)計(jì)學(xué)檢驗(yàn)的零假設(shè)(null hypothesis),非中性選擇作為選擇性假設(shè)(alternative hypothesis),如果這個(gè)零假設(shè)被顯著地拒絕(significantly rejected),那么中性假設(shè)將被認(rèn)為是不合適的(Kimura and Ohta 1971)。關(guān)于在分子水平驗(yàn)證選擇的方法,Garrigan和Hedrick(2003)認(rèn)為可以按照種群的當(dāng)前世代,種

2、群的短期歷史和物種的長期演化歷史三種時(shí)間尺度來劃分為三類。然而,選擇是一個(gè)長期作用的過程,種群的當(dāng)前世代體現(xiàn)出來的臨時(shí)狀態(tài)無法真實(shí)反映選擇的作用;并且這種時(shí)間尺度的劃分也不利于尋找種內(nèi)-種間遺傳變異所反映的選擇信號(hào)。Nielsen(2005)則把選擇檢驗(yàn)分為群體遺傳學(xué)檢驗(yàn)(population genetic approaches)和比較數(shù)據(jù)檢驗(yàn)(comparative data approaches)。Biswas和Akey(2006)從基因組學(xué)的角度出發(fā),將選擇檢驗(yàn)的方法分為種內(nèi)多態(tài)性,種內(nèi)多態(tài)性與種間分歧,和種間檢驗(yàn)三類。事實(shí)上,不論如何劃分,不同的檢驗(yàn)方法都有不同的數(shù)據(jù)類型作為檢驗(yàn)對象

3、。因此,在這篇綜述里我將按照數(shù)據(jù)類型的不同對目前常用的統(tǒng)計(jì)檢驗(yàn)方法進(jìn)行整理和歸納。(1)基于群體內(nèi)等位基因頻率分布的中性檢驗(yàn)在核酸的堿基測序時(shí)代之前,群體遺傳多樣性的研究手段主要是對遺傳標(biāo)記的電泳圖譜進(jìn)行分析,其中等位基因的雜合度(allele heterozygosity)曾經(jīng)是一個(gè)普遍用于描述遺傳多樣性的指標(biāo)。以某單一等位基因位點(diǎn)為例,在一個(gè)個(gè)體數(shù)為1000的群體里,如果其中50個(gè)個(gè)體在該位點(diǎn)是雜合子,那么我們可以簡單地把(Ho)=50/1000=0.05作為該位點(diǎn)的表觀雜合度;說明該種群在以這個(gè)位點(diǎn)為遺傳標(biāo)記時(shí)得到的遺傳多樣性程度不高,即仍有95%的個(gè)體是純合子。這種評估方式適用于小片段

4、的蛋白質(zhì)或核酸序列(如幾十或者幾百個(gè)氨基酸或堿基),但不適用于較長片段的研究。事實(shí)上,在自然狀態(tài)下,核酸水平上的變異是比較豐富的,尤其從大片段的尺度來看。例如比較兩條長度為10,000 bp的等位基因,如此長度的序列幾乎可以肯定他們是雜合的,因?yàn)樾蛄性介L,里面的變異越豐富,那么可以想象該位點(diǎn)在群體里雜合度Ho接近1。因此,在對核酸序列進(jìn)行群體遺傳多樣性分析時(shí),考慮兩條序列間存在多少差異所獲得的遺傳多樣性信息要遠(yuǎn)遠(yuǎn)大于判斷他們是純合子還是雜合子(Li 1997)。在后來發(fā)展起來的群體遺傳學(xué)研究中,有三個(gè)重要指標(biāo)被運(yùn)用于評估核酸遺傳多樣性(Nei 1987; Li 1997)。第一個(gè)是,即將所研究

5、群體的所有核酸序列中任意兩條不同序列的堿基差異數(shù)取平均值;這個(gè)指標(biāo)對等位基因頻率依賴很大。第二個(gè)是K,即分離位點(diǎn)數(shù)(number of segregating sites),現(xiàn)在也被稱為SNP(single nucleotide polymorphism),是指所有序列排列比對后存在變異的堿基位點(diǎn)數(shù)目;這個(gè)指標(biāo)依賴于等位基因數(shù)目而與等位基因頻率無關(guān)。第三個(gè)是Na,即等位基因數(shù)(number of alleles)。此外,有一個(gè)非常關(guān)鍵的反映種群動(dòng)態(tài)的參數(shù)將以上三個(gè)指標(biāo)在數(shù)學(xué)上聯(lián)系起來;這里=4Ne,其中Ne為有效種群大小,為每一代的序列突變率(Watterson 1975; Tajima 19

6、83)。有兩種公認(rèn)的估值,一個(gè)是Watterson估值(Wattersons estimator, W),把與K聯(lián)系起來,即W=K/a,其中a=1+1/2+1/3+ ? +1/(n1)(Watterson 1975);另一個(gè)是Tajima估值(Tajimas estimator, T),即T=(Tajima 1983)。從理論上說,在中性條件下,應(yīng)當(dāng)有T=W=4Ne的平衡狀態(tài)。因此,Tajima(1989)設(shè)計(jì)了D值檢驗(yàn)(Tajimas D),即D=(TW)/Var(TW),通過統(tǒng)計(jì)學(xué)模型來驗(yàn)證中性突變假說。Tajimas D值檢驗(yàn)的作用原理是(Tajima 1989):在原有的平衡狀態(tài)中(T

7、=W=4Ne),所以D=0。但是,如果群體中存在許多低頻率的等位基因(稀有等位基因),可以期望K/a不斷增大而并未受到嚴(yán)重影響,因?yàn)楹笳咧饕怯筛哳l率等位基因決定的。于是有TW,則DW,D0。Tajima(1989) 把過多低頻率等位基因的存在歸咎為定向選擇時(shí),選擇性清除下選擇性清除會(huì)削弱原有等位基因的在群體中的頻率,而使新等位基因以低頻率補(bǔ)充進(jìn)來成為稀有等位 基因。相反,如果是中等頻率的等位基因占主導(dǎo),則可能是平衡選擇的結(jié)果,或者是種群大小在經(jīng)歷瓶頸時(shí)使稀有等位基因丟失。因此,當(dāng)Tajimas D顯著大于0時(shí),可用于推斷瓶頸效應(yīng)和平衡選擇;當(dāng)Tajimas D顯著小于0時(shí),可用于推斷群體規(guī)模

8、放大和定向選擇。由于平衡選擇與定向選擇都屬于正選擇的范疇,因此,只要D值顯著背離0,就可能是自然選擇的結(jié)果;而當(dāng)D值不顯著背離0時(shí),則中性零假說則不能被排除。之后,F(xiàn)u和Li(1993)提出了與Tajimas D略為不同的方法來檢驗(yàn)中性進(jìn)化,即Fu and Lis D & F test。他們考慮的是可以獲得外類群的情況,因而對一組給定的等位基因序列可以構(gòu)建一顆有根樹。在這棵樹上,總突變數(shù)為y,內(nèi)部分枝突變數(shù)為yi,外部分枝的突變數(shù)目為ye,則y=yi+ye。這里y和ye的數(shù)學(xué)期望值分別為E(y)=a*,E(ye)= ,其中a=1+1/2+1/3+ ? +1/(n1)。如果發(fā)生了選擇作用,那么外

9、部分枝突變數(shù)將會(huì)偏離期望值,而內(nèi)部分枝突變數(shù)并未受到嚴(yán)重影響。因此,可根據(jù)與Tajimas D類似的策略,構(gòu)建統(tǒng)計(jì)模型來驗(yàn)證中性零假說。此外,F(xiàn)ay和Wu(2000)構(gòu)建了H檢驗(yàn)(Fay and Wus H test),用以測試高頻率變異與中等頻率變異的差異。他們認(rèn)為在中性占主流的狀態(tài)下,并不期望會(huì)出現(xiàn)很多高頻率的變異,因而僅僅根據(jù)少數(shù)存在的高頻率的變異就可以推斷“搭車效應(yīng)”。在果蠅的一些低頻重組的區(qū)域中,H檢驗(yàn)觀察到了許多高頻率變異,因此,F(xiàn)ay和Wu(2000)推斷果蠅中的這些高頻變異可能是由于“搭車效應(yīng)”時(shí)正選擇保留了有利變異并使其以高頻率在群體中存在。到目前為止,Tajimas D,F(xiàn)

10、u and Lis D & F test和Fay and Wus H test,可能是針對群體內(nèi)的等位基因頻率被運(yùn)用得最廣泛的中性檢驗(yàn)?zāi)P停∟ielsen 2005)。(2)基于連鎖不平衡的中性檢驗(yàn)這里面首先涉及的參數(shù)是等位基因頻率(allele frequency),基因型頻率(genotype frequency)和單倍型頻率(haplotype frequency)。在無視連鎖的情況下,最簡單的單一位點(diǎn)模型是“哈迪溫伯格平衡”(HardyWeinberg equilibrium)模式。假設(shè)在單一位點(diǎn)上有兩種等位基因A和a,那么該群體存在三種基因型:AA,Aa和aa。如果用p表示A的等位基

11、因頻率,q表示a的等位基因頻率,那么在經(jīng)典的Mendel的基因分離定律和獨(dú)立分配定律下,p2為AA的基因型頻率,2pq為Aa的基因型頻率,q2為aa的基因型頻率,則有p2+2pq + q2=1。哈迪溫伯格平衡模式認(rèn)為(Hardy 1908; Weinberg 1908),對于一個(gè)理想群體,即無窮大的隨機(jī)交配且沒有任何進(jìn)化壓力的群體,基因型頻率將以p2,2pq和q2的比例存在于隨機(jī)交配后的各代中,等位基因頻率不會(huì)逐代發(fā)生改變,故而這個(gè)基因座位的基因庫不會(huì)發(fā)生進(jìn)化。事實(shí)上,當(dāng)兩對性狀或者考慮兩個(gè)等位基因座位時(shí),我們必須考慮有可能的連鎖和重組現(xiàn)象。假設(shè)研究對象為兩個(gè)基因座位A和B,每個(gè)座位上的等位基

12、因分別是A1和A2,B1和B2,那么用x來表示四種單倍型的頻率:A1B1:x11 A1B2:x12 A2B1:x21 A2B2:x22 而每一個(gè)等位基因的頻率表示為: A1: p1 = x11 + x12 A2 :p2 = x21 + x22 B1: q1 = x11 + x21 B2: q2 = x12 + x22假設(shè)兩個(gè)座位上的等位基因是自由地獨(dú)立地分配到后代中去,那么以A1B1為例,我們可以期望x11 (e)= p1q1。這時(shí)單倍型頻率的觀察值x11 (o)與期望值x11 (e)之間的差異,就可以用來反映連鎖不平衡(linkage disequilibrium, LD):D= x11 (

13、o) p1q1。連鎖平衡(linkage equilibrium, LE)指的就是這種兩個(gè)座位上的等位基因是自由地獨(dú)立地分配到后代中去的現(xiàn)象,A與B的組合是完全隨機(jī)的,因此有D=0,即LD為零的狀態(tài)。我們其實(shí)可以把LE看作是雙位點(diǎn)版本的“哈迪溫伯格平衡”,只不過這里是單倍型頻率而不是基因型頻率。當(dāng)D0時(shí),觀察值與期望值不符,我們就說這兩個(gè)等位基因處于連鎖不平衡狀態(tài)。事實(shí)上,重組能打斷連鎖關(guān)系而使在很多代以后LD趨向于0。假設(shè)c(0c1)為兩位點(diǎn)間的充重組率,則在第二代時(shí)A1B1的單倍型頻率為:x11=(1c)x11+c p1q1,也可以寫成 x11p1q1=(1c) (x11p1q1),即 D

14、1=(1c)D0。擴(kuò)展到第n代時(shí),有Dn=(1c)nD0。如果n趨向于+,則(1c)n趨向于0,這時(shí)Dn=0。如果兩位點(diǎn)在物理距離上越接近,連鎖越緊密,被重組的可能性就越低,則Dn0的速率就越慢。在前面提到的“搭車效應(yīng)”中,當(dāng)一個(gè)有利突變開始產(chǎn)生時(shí),它是處于完全LD狀態(tài)的,即可視為與其構(gòu)成單倍型的所有基因完全連鎖,而其他單倍型因?yàn)椴淮嬖谶@個(gè)突變而被選擇性清除所消滅(Ennis 2007)。因此,搭車效應(yīng),正選擇,選擇性清除,連鎖不平衡,基因重組以及群體結(jié)構(gòu)相聯(lián)系組成了一種情況極為復(fù)雜的局面,使得基于LD檢驗(yàn)統(tǒng)計(jì)模型的設(shè)計(jì)成為一個(gè)難度極高的挑戰(zhàn)。盡管如此,近幾年,已經(jīng)發(fā)展出了一些檢驗(yàn)方法用于檢測

15、與LD相關(guān)聯(lián)的自然選擇,包括LRH test(Sabeti et al. 2002),iHS test (Voight et al. 2006),LDD test (Wang et al. 2006)等。然而,這些檢驗(yàn)效力如何,還需要更多的研究結(jié)果來提供證據(jù)。(3)基于種群分化的檢驗(yàn)Wright(1931)首先給出了群體遺傳分化系數(shù)Fst的計(jì)算公式,用以評估亞群體的分化程度。Cavalli-Sforza(1966)認(rèn)為自然選擇可能會(huì)對群體亞分化形成貢獻(xiàn),因此首次建議用群體間的分化程度來推斷自然選擇的作用。隨后,基于這一想法,大致有兩種類型的方法被用于自然選擇的測試。一種是Lewontin-Kr

16、akauer test(Lewontin and Krakauer 1973),其作用原理是:群體間的基因流(gene flow)會(huì)使大多數(shù)位點(diǎn)形成較為平均的遺傳分化程度,除了一些明顯的異常值(outliers)。大體上,這些異常值可以反映兩個(gè)方向上的選擇:適應(yīng)性選擇能在某些位點(diǎn)上產(chǎn)生異常的高水平遺傳分化,而平衡選擇則有可能產(chǎn)生低于平均水平的遺傳分化。因此,從異常位點(diǎn)與正常位點(diǎn)的遺傳分化程度的比較可以推斷自然選擇。然而,最初的這種Lewontin-Krakauer test被Nei和Maruyama(1975)以及Robertson(1975)所批評,認(rèn)為在許多群體模型中,該檢驗(yàn)中Fst的期望

17、方差無效。盡管如此,這種思想近年來有逐漸抬頭的勢態(tài),尤其在運(yùn)用到基因組大尺度數(shù)據(jù)的時(shí)候。例如Akey等(2002)在基因組尺度對人類不同群體的Fst進(jìn)行了測算推斷其中的選擇作用;Beaumont與他的同事(Beaumont and Nichols 1996; Beaumont and Balding 2004)則設(shè)計(jì)了更為復(fù)雜的統(tǒng)計(jì)學(xué)模型來檢測群體亞分化水平上的異常基因位點(diǎn)。另一種方法是檢測不同位點(diǎn)在不同種群中的雜合度水平。例如Schlotterer等(1997)和Schlotterer(2002) 認(rèn)為在不同種群中通過比較多位點(diǎn)的雜合度,可以把選擇的作用和種群統(tǒng)計(jì)學(xué)效應(yīng)區(qū)分開來。兩個(gè)不同群體

18、大小的種群,小種群在基因組上的期望變異水平都應(yīng)低于 大種群。但是受到選擇的單位點(diǎn)的變異程度則可能會(huì)比基因組水平的差異更低。因此,把群體結(jié)構(gòu)與多個(gè)單位點(diǎn)變異聯(lián)合考慮,則可能推斷出基因組上的哪些區(qū)域有 可能受到了選擇。以上的基于種群分化的檢驗(yàn)盡管還沒有得到非常普及地應(yīng)用,但事實(shí)上,最近的一些研究表明(Nielsen 2005),“選擇性清除”會(huì)強(qiáng)烈地影響群體的亞分化水平,尤其是當(dāng)“選擇性清除”沒有來得及涉及到所有研究群體的時(shí)候,這種作用更明顯。因此,基于群體分化程度來尋找自然選擇的信號(hào),仍然是一種可行的思路。(4)基于種內(nèi)多態(tài)性和種間分歧度之間數(shù)據(jù)比較的檢驗(yàn)中性理論預(yù)言,在中性狀態(tài)下,種內(nèi)多態(tài)性(

19、intraspecific polymorphism)與種間分歧度(interspecific divergence)之間呈正相關(guān)?;谶@種預(yù)測,有兩種檢驗(yàn)方法先后被提出,分別是HudsonKreitmanAguade (HKA) test和McDonald-Kreitman (MK) test。HKA檢驗(yàn)認(rèn)為(Hudson et al. 1987),在中性狀態(tài)下,對于不同的基因或者基因位點(diǎn)而言,即使他們之間的變異程度不同,但他們各自的種內(nèi)多態(tài)性與種間分歧度之間的比率將是相同的。例如,組蛋白基因(histone) 是一個(gè)相當(dāng)保守的基因,突變率很低,因此組蛋白基因種內(nèi)多態(tài)性程度很低,其種間變異度

20、也很低。而對于某些非編碼序列來說,其突變率很高,不論在種內(nèi)種間都 體現(xiàn)了很高的變異水平。但是,在中性條件下,不論對于組蛋白基因還是非編碼序列,他們的種內(nèi)多態(tài)性與種間分歧度之間的比率將是相當(dāng)?shù)摹H绻匀贿x擇發(fā)生了 作用,那么受選擇的基因,其種內(nèi)多態(tài)性與種間分歧度之間的比率將偏離中性狀態(tài)下的期望值。因此,通過同時(shí)比較兩個(gè)或者多個(gè)基因各自的種內(nèi)多態(tài)性與種間分歧 度之比,HKA檢驗(yàn)可以檢測到自然選擇的作用。但是,HKA的一個(gè)很大的限制就是所研究的基因或者基因位點(diǎn)之間必須是相互獨(dú)立的,即不存在連鎖關(guān)系。因?yàn)橐恍┭芯堪l(fā)現(xiàn),連鎖位點(diǎn)所受到的選擇作用,影響的是種內(nèi)多態(tài)性而不是種間的分歧度水平(Maynard-

21、Smith and Haigh 1974; Birky and Walsh 1988),因此,除了選擇作用之外,任何非中性的影響(如搭車效應(yīng)或選擇性清除)都會(huì)使種內(nèi)多態(tài)性偏離期望值。也就是說,HKA所檢測到的自然選擇信號(hào),有可能是所研究位點(diǎn)受到了選擇,也有可能是與其連鎖的位點(diǎn)受到了選擇而通過某些非中性效應(yīng)使所研究位點(diǎn)多態(tài)性發(fā)生了變化,盡管所研究位點(diǎn)仍然是遵循中性進(jìn)化的。 隨后發(fā)展起來的MK檢驗(yàn)則避免了多基因或者多位點(diǎn)有可能存在的連鎖效應(yīng)所帶來的假陽性信號(hào)。MK檢驗(yàn)的基本原理是(McDonald and Kreitman 1991):僅僅考查某一基因分別在種內(nèi)和種間的非同義(nonsynonym

22、ous)與同義突變(synonymous)的比值。具體而言,針對A與B這兩個(gè)近緣物種,我們把基因G在這兩個(gè)物種里能發(fā)現(xiàn)的所有等位基因進(jìn)行匯總和排列比對后,關(guān)注其中存在變異的核苷酸替換位點(diǎn)而忽略無變異位點(diǎn),即關(guān)注分離位點(diǎn)(segregating sites)或SNP(single nucleotide polymorphism)位點(diǎn)。在這些所有的變異位點(diǎn)中,假設(shè)某一位點(diǎn)如果在來自物種A的所有等位基因里都是堿基C,而在來自物種B的所有等位基因里都是堿基T,那么針對A與B這兩個(gè)近緣物種而言,這個(gè)變異位點(diǎn)我們定義為被固定的替換位點(diǎn)(fixed substitution site);其余的變異位點(diǎn)稱為多態(tài)性位點(diǎn)(polymorphic site)。如果用Sf,Nf,Sp和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論