




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Structure 2.3使用手冊(cè)Jonathan K. PritchardaXiaoquan WenaDaniel Falushb 1 2 3a芝加哥大學(xué)人類遺傳學(xué)系b牛津大學(xué)統(tǒng)計(jì)學(xué)系軟件來自/structure.html 2010年2月2日1我們?cè)赟tructure項(xiàng)目中的其他的同事有Peter Donnelly、Matthew Stephens和Melissa Hubisz。2開發(fā)這個(gè)程序的第一版時(shí)作者(JP、MS、PD)在牛津大學(xué)統(tǒng)計(jì)系。3關(guān)于Structure的討論和問題請(qǐng)發(fā)給在線的論壇上:structure-software
2、。 在郵遞問題之前請(qǐng)查對(duì)這個(gè)文檔并搜索以前的討論。1 引言程序Structure使用由不連鎖的標(biāo)記組成的基因型數(shù)據(jù)實(shí)施基于模型的聚類方法來推斷群體結(jié)構(gòu)。這種方法由普里查德(Pritchard)、斯蒂芬斯(Stephens)和唐納利(Donnelly)(2000a)在一篇文章中引入,由Falush、斯蒂芬斯(Stephens)和普里查德(Pritchard)(2003a,2007)在續(xù)篇中進(jìn)行了擴(kuò)展。我們的方法的應(yīng)用包括證明群體結(jié)構(gòu)的存在,鑒定不同的遺傳群體,把個(gè)體歸到群體,以及鑒定移居者和摻和的個(gè)體。簡(jiǎn)言之,我們假定有K個(gè)群體(這里K可能是未知的)的一個(gè)模型,每個(gè)群體在每個(gè)位點(diǎn)上由一組等位基因
3、頻率來刻畫。樣本內(nèi)的個(gè)體被(按照概率)分配到群體,或共同分配到兩個(gè)或更多個(gè)群體,如果它們的基因型表明它們是混和的。假定在群體內(nèi),位點(diǎn)處于哈迪-溫伯格平衡和連鎖平衡。不精確地講,個(gè)體被按達(dá)到這一點(diǎn)那樣的方法指定到群體。我們的模型不假定一個(gè)特別的突變過程,并且它可以應(yīng)用于大多數(shù)通常使用的遺傳標(biāo)記,包括微衛(wèi)星(microsatellites)、SNP和RFLP。模型假定在亞群體內(nèi)標(biāo)記不處于連鎖不平衡(LD),因此我們不能處理極其靠近的標(biāo)記。從2.0版開始,我們現(xiàn)在能夠處理弱連鎖的標(biāo)記。雖然這里實(shí)現(xiàn)的計(jì)算方法是相當(dāng)強(qiáng)有力的,但是為了保證明智的答案,在運(yùn)行程序的過程中還是需要謹(jǐn)慎。例如,不可能從理論上確
4、定合適的運(yùn)行長(zhǎng)度(時(shí)間),這需要用戶自己做一些實(shí)驗(yàn)。這份資料描述軟件的使用和解釋,并補(bǔ)充發(fā)表的文章,這些文章提供了對(duì)方法的更正式的描述和評(píng)價(jià)。1.1 概述軟件包Structure由幾個(gè)部分組成。程序的計(jì)算部分用C語(yǔ)言編寫。我們發(fā)布源碼和用于各種平臺(tái)(目前有蘋果機(jī),Windows,Linux,Sun)的可執(zhí)行文件。C可執(zhí)行文件讀取用戶提供的一個(gè)數(shù)據(jù)文件。還有一個(gè)Java前端為用戶提供各種有幫助的工具,包括對(duì)輸出的簡(jiǎn)單的處理。你也可以從命令行調(diào)用Structure而不是使用前端。這份資料包括關(guān)于怎樣格式化數(shù)據(jù)文件、怎樣選擇合適的模型、以及怎樣解釋結(jié)果的信息。它也有關(guān)于使用兩種界面(命令行和前端)的
5、細(xì)節(jié)以及各種用戶定義的參數(shù)的匯總。1.2 在2.3版中有哪些更新?2.3版(2009年4月發(fā)布)引入了新的模型用于改進(jìn)數(shù)據(jù)集結(jié)構(gòu)的推論,其中(1)數(shù)據(jù)對(duì)于通常的結(jié)構(gòu)模型來說信息不夠,不足以提供準(zhǔn)確的推論,但是(2)抽樣的地點(diǎn)與群體歸屬關(guān)系(population membership)相關(guān)。在這種情形下,通過明確利用抽樣地點(diǎn)信息,我們使結(jié)構(gòu)得到改善,經(jīng)常允許性能提高很多(Hubisz et al., 2009)。我們希望在下幾個(gè)月釋放更進(jìn)一步的改進(jìn)。 表1:實(shí)例數(shù)據(jù)文件。這里MARKERNAMES = 1, LABEL = 1, POPDATA = 1, NUMINDS = 7, NUMLOCI
6、 = 5, MISSING = -9, POPFLAG = 0, LOCDATA = 0, PHENOTYPE = 0, EXTRACOLS = 0。第2列顯示個(gè)體的地理取樣位置。我們也可以把數(shù)據(jù)存儲(chǔ)為每個(gè)個(gè)體一行(ONEROWPERIND = 1),在這種情況下第一行為“George 1 -9 -9 145 -9 66 64 0 0 92 94”。Loc_a Loc_b Loc_c Loc_d Loc_e 喬治1-9 14566092喬治1-9 -9 64094保拉110614268192保拉110614864094馬修2110145-9 092馬修2110148661-9 鮑勃210814
7、264194鮑勃2-9 142-9 094Anja 1112142-9 1-9 Anja 111414266194彼得1-9 145660-9 彼得1110145-9 1-9 卡斯坦2108145620-9 卡斯坦2110145641922 數(shù)據(jù)文件的格式基因型數(shù)據(jù)的格式顯示在表2中(表1顯示一個(gè)例子)?;旧?,整個(gè)數(shù)據(jù)集被作為一個(gè)矩陣安排在單個(gè)文件里,其中個(gè)體的數(shù)據(jù)在行里,位點(diǎn)在列里。用戶能對(duì)格式做出若干選擇,大多數(shù)這些數(shù)據(jù)(除基因型外!)是可選擇的。對(duì)于一個(gè)二倍體生物,每個(gè)個(gè)體的數(shù)據(jù)可以是作為連續(xù)的2行被儲(chǔ)存,其中每個(gè)位點(diǎn)在一列,或者在一行中,其中每個(gè)位點(diǎn)在連續(xù)的兩列。除非你打算使用連鎖模
8、型(見下面),否則單個(gè)個(gè)體的等位基因的次序并不重要。預(yù)基因型(pre-genotype)數(shù)據(jù)列(見下面)對(duì)每個(gè)體記錄兩次。(更一般地,對(duì)于n倍體生物來說,每個(gè)個(gè)體的數(shù)據(jù)被儲(chǔ)存在n個(gè)連續(xù)的行中,除非ONEROWPERIND選項(xiàng)被使用。) 2.1 數(shù)據(jù)文件的組成部分:輸入文件的要素如下所列。如果給出,它們一定按以下順序,然而大多數(shù)是可選的并且可以被完全刪除。用戶必須指明哪些數(shù)據(jù)被給出,或者在前端里(front end),或者(當(dāng)從命令行運(yùn)行Structure時(shí))在一個(gè)單獨(dú)的文件mainparams里。同時(shí),用戶也要指定個(gè)體和位點(diǎn)的數(shù)目。2.2 行1. 標(biāo)記名稱(可選擇;字符串) 文件的第一行可以包
9、含數(shù)據(jù)集里的每個(gè)標(biāo)記的標(biāo)識(shí)符的一個(gè)列表。這一行包含整數(shù)或字母的L個(gè)字符串,其中L是位點(diǎn)的數(shù)目。2. 隱性等位基因(僅用于有顯性的標(biāo)記數(shù)據(jù);整數(shù))SNP或者微衛(wèi)星數(shù)據(jù)一般將不包括這一行。但是如果選項(xiàng)RECESSIVEALLELES被設(shè)置為1,則程序要求有這一行來表明每個(gè)標(biāo)記上哪個(gè)等位基因(如果有的話)是隱性的。關(guān)于更多的信息請(qǐng)參閱第4.1節(jié)。該選項(xiàng)用于象AFLP那樣的數(shù)據(jù),以及用于多倍體的情形,其中基因型可能是含糊的。3. 標(biāo)記之間的距離(可選擇;實(shí)數(shù))文件里的下一行是一個(gè)標(biāo)記之間距離的集合,供有連鎖的位點(diǎn)使用。這些應(yīng)該是遺傳距離(例如,厘摩),或者是這種距離的一些替代,基于(例如)物理距離。如
10、果標(biāo)記距離(粗略地)與重組率成正比,則距離的實(shí)際單位不是那么重要 。前端從數(shù)據(jù)估計(jì)一個(gè)合適的尺度,但是命令行版本的用戶必須在文件extraparams里設(shè)置LOG10RMIN、LOG10RMAX和LOG10RSTART。標(biāo)記必須按照連鎖群中的圖譜次序排列。當(dāng)連續(xù)的標(biāo)記來自不同的連鎖群(例如,不同的染色體)時(shí),這應(yīng)該用數(shù)值-1注明。第一個(gè)標(biāo)記也被賦值為-1。所有其他的距離都是非負(fù)的。這一行包含L個(gè)實(shí)數(shù)。4. 連鎖相信息(可選擇;僅用于二倍體數(shù)據(jù);在范圍0, 1內(nèi)的實(shí)數(shù))。這只供連鎖模型使用。這是L個(gè)概率的一行,出現(xiàn)在每個(gè)個(gè)體的基因型數(shù)據(jù)之后。如果連鎖相是完全知道的,或者沒有連鎖相信息可用,則這些
11、行是不必要的。當(dāng)有來自家系數(shù)據(jù)的部分連鎖相信息,或者當(dāng)來自雄性的單倍體X染色體數(shù)據(jù)和二倍體常染色體數(shù)據(jù)被一起輸入時(shí),它們可能是有用的。對(duì)于連鎖相信息有兩種可選擇的表示:(1)個(gè)體的兩行數(shù)據(jù)被假設(shè)為分別與父本的和母本的相對(duì)應(yīng)。連鎖相行表明當(dāng)前標(biāo)記上的排序正確的概率(設(shè)置MARKOVPHASE = 0);(2)連鎖相行表明與以前的等位基因有關(guān)的一個(gè)等位基因的連鎖相是正確的概率(設(shè)置MARKOVPHASE = 1)。第一項(xiàng)應(yīng)該填入0.5,以便把這行填寫到L項(xiàng)。例如下列數(shù)據(jù)輸入表示來自一個(gè)男性的信息,有5個(gè)連鎖相未知的常染色體微衛(wèi)星位點(diǎn),后面是3個(gè)X染色體位點(diǎn),使用母本/父本相模型:102156165
12、101143105104101100148163101143 -9 -9 -90.5 0.5 0.5 0.5 0.5 1.0 1.0 1.0其中-9表示“缺失數(shù)據(jù)”,這里缺失是由第二X染色體缺乏造成的,0.5表明常染色體位點(diǎn)的連鎖相是未知的,1.0表明X染色體位點(diǎn)由母本遺傳的概率為1.0,因此其連鎖相是已知的。相同的信息可以用markovphase模型來描述。這樣的話輸入文件將讀為:102156165101143105104101 100148163101143-9-9-9 0.5 0.5 0.5 0.5 0.5 0.5 1.0 1.0這里,2 1.0 s 表明那個(gè)第1 和第2,其次和第3 個(gè)
13、X染色體位點(diǎn)彼此完全同相。注意站點(diǎn)以站點(diǎn)產(chǎn)量在這些2 模式下將不同。在第一例子中,Structure將輸出母親和父親染色體的任務(wù)可能發(fā)生的事件。在第2 個(gè)情況下,它將輸出在輸入文件里列舉的每等位基因的可能發(fā)生的事件。5. 個(gè)體/ 基因型數(shù)據(jù)(必需的)取樣的每一個(gè)個(gè)體的數(shù)據(jù)象在下面描述的那樣安排成一行或多行。2.3 個(gè)體/基因型數(shù)據(jù)個(gè)體數(shù)據(jù)的每一行包含下列要素。這些形成數(shù)據(jù)文件里的列。1. Label(標(biāo)簽)(可選擇;字符串) 一串整數(shù)或者字母,用來指明樣本中的每個(gè)個(gè)體。2. PopData(可選擇;整數(shù))一個(gè)整數(shù),指明一個(gè)用戶定義的群體,從其中獲得個(gè)體(例如這些整數(shù)可以指明個(gè)體取樣的地理位置)
14、。在默認(rèn)的模型中,這個(gè)信息不被聚類算法使用,但是能用來幫助組織輸出(例如,將來自相同的預(yù)定義群體的個(gè)體彼此緊挨著繪圖)。3. PopFlag(可選擇;0或者1)一個(gè)布爾標(biāo)簽,表明使用學(xué)習(xí)樣本時(shí)是否使用PopData(見USEPOPINFO,在下面)。(注:布爾(Boolean)變量(標(biāo)簽)是取值為TRUE或FALSE的變量,在這里分別用整數(shù)1(使用PopData)和0(不使用PopData)表示。) 4. LocData(可選擇;整數(shù))一個(gè)整數(shù),為每個(gè)個(gè)體指明一個(gè)用戶定義的取樣地點(diǎn)(或者其他特性,例如一個(gè)分享的表現(xiàn)型)。當(dāng)LOCPRIOR模型被打開時(shí),這個(gè)信息用來幫助聚類。如果你僅僅希望使用L
15、OCPRIOR模型的PopData,那么你可以省略LocData列,并設(shè)置LOCISPOP = 1(這告訴程序使用PopData來設(shè)置地點(diǎn))。5. Phenotype(可選擇;整數(shù)) 一個(gè)整數(shù),為每個(gè)個(gè)體指明一個(gè)所關(guān)心的表現(xiàn)型的值(表中的f(i))。(表現(xiàn)型信息實(shí)際上沒有用于Structure。這里用來允許與關(guān)聯(lián)作圖程序STRAT有一個(gè)平滑的接口。) 6. Extra Columns(可選擇;字符串) 用戶把被程序忽略的附加數(shù)據(jù)包括在輸入文件里可能是方便的。這些數(shù)據(jù)就在這里輸入,可以是由整數(shù)或字符組成的串。7. Genotype Data(必需的;整數(shù)) 一個(gè)給定位點(diǎn)上的每個(gè)等位基因應(yīng)該由一個(gè)
16、獨(dú)特的整數(shù)來編碼(例如微衛(wèi)星重復(fù)得分)。2.4 缺失的基因型數(shù)據(jù)缺失數(shù)據(jù)應(yīng)該用沒在數(shù)據(jù)中的其他地方出現(xiàn)過的一個(gè)數(shù)字來標(biāo)明(按照慣例經(jīng)常使用-9)。這個(gè)數(shù)字也可以用于有單倍體和二倍體數(shù)據(jù)混合的地方(例如男性中的X和常染色體位點(diǎn))。缺失數(shù)據(jù)值是與描述數(shù)據(jù)集特性的其它參數(shù)一起被設(shè)置的。2.5 格式化的錯(cuò)誤。我們已經(jīng)進(jìn)行了相當(dāng)仔細(xì)的錯(cuò)誤檢查,以保證數(shù)據(jù)集的格式正確,并且程序?qū)⒃噲D提供一些關(guān)于存在的任何問題的性質(zhì)的提示。前端要求在每行的結(jié)束回車,不允許在行內(nèi)回車;Structure的命令行版本以與處理空格或制表符(Tab)同樣的方式處理回車??赡艹霈F(xiàn)的一個(gè)問題是,在將數(shù)據(jù)導(dǎo)入Structure之前用來組
17、裝數(shù)據(jù)的編輯程序可能引入隱藏的格式化字符,經(jīng)常在行的末尾,或者在文件的末尾。前端能自動(dòng)除去大多數(shù)這些錯(cuò)誤,但是當(dāng)數(shù)據(jù)文件好像處于正確的格式時(shí),這類問題可能對(duì)錯(cuò)誤負(fù)責(zé)。如果你正在把數(shù)據(jù)導(dǎo)入到一個(gè)Unix系統(tǒng),dos2unix功能可能對(duì)徹底清理這些錯(cuò)誤有幫助。3 用戶的建模決策3.1 祖先模型個(gè)體的祖先有4個(gè)主要模型:(1) 非混合模型(個(gè)體離散地來自一個(gè)群體或者另一個(gè)群體);(2)混合模型(每個(gè)個(gè)體從K個(gè)群體中的每一個(gè)抽取他/她的基因組的一部分);(3)連鎖模型(象混合模型一樣,但是連鎖的位點(diǎn)更可能來自相同的群體);(4)有先驗(yàn)信息的模型(允許Structure使用關(guān)于取樣地點(diǎn)的信息:或者幫助用
18、弱的數(shù)據(jù)進(jìn)行的聚類,發(fā)現(xiàn)遷移者,或者預(yù)定義一些群體)。關(guān)于模型1、2 、4的詳情見Pritchard等(2000a)和Hubisz 等(2009),關(guān)于模型3的詳情見Falush等(2003a)。1. 非混合模型。每個(gè)體完全來自K個(gè)群體之一。輸出報(bào)告?zhèn)€體i來自群體k的后驗(yàn)概率。每個(gè)群體的先驗(yàn)概率是1 / K。這個(gè)模型適合于研究完全離散的群體,并且經(jīng)常比混合模型在檢測(cè)微妙的結(jié)構(gòu)方面更強(qiáng)有力。2. 混合模型。個(gè)體可能具有混合的祖先。這可以表述為個(gè)體i從群體k中的祖先那里繼承了他的/她的基因組的一部分。輸出記錄這些比例的后驗(yàn)平均估計(jì)值。以祖先向量q(i)為條件,每個(gè)等位基因的起源是獨(dú)立的。我們推薦這
19、個(gè)模型作為大多數(shù)分析的起始點(diǎn)。這是處理真實(shí)群體的大多數(shù)復(fù)雜性的一個(gè)相當(dāng)靈活的模型?;旌鲜钦鎸?shí)數(shù)據(jù)的一個(gè)普通特征,如果你使用非混合模型,你或許不會(huì)發(fā)現(xiàn)它。混合模型也能以一種自然的方式處理混合的區(qū)域(hybrid zones)。表2:數(shù)據(jù)文件的格式,為兩行的格式。大多數(shù)這些組成部分是可選的(欲了解詳細(xì)信息,參見正文)。Ml是標(biāo)記l的標(biāo)識(shí)符。rl表明哪個(gè)等位基因,如果有的話,在每個(gè)標(biāo)記上是隱性的(僅針對(duì)顯性的基因型數(shù)據(jù))。Di,i+1是標(biāo)記i和i + 1之間的距離。ID(i)是個(gè)體i的標(biāo)簽,g(i)是個(gè)體i的一個(gè)預(yù)先定義的群體索引(PopData);f(i)是一個(gè)被用來合并學(xué)習(xí)樣品的標(biāo)簽(PopFl
20、ag);l(i)是個(gè)體i的取樣地點(diǎn)(LocData);f(i)可以儲(chǔ)存?zhèn)€體i的表現(xiàn)型;y1(i), ., yn(i)用于儲(chǔ)存額外的數(shù)據(jù)(這些數(shù)據(jù)會(huì)被程序忽略);(xli,1, xli,2)儲(chǔ)存?zhèn)€體i在位點(diǎn)l上的基因型。pi(l)是個(gè)體i中的標(biāo)記l的連鎖相的信息。3. 連鎖模型。這實(shí)質(zhì)上是將混合模型推廣,來處理“混合連鎖不平衡”,即,在最近混和的群體中的連鎖標(biāo)記之間出現(xiàn)的相關(guān)性。Falush等(2003a)描述了該模型和更詳細(xì)的計(jì)算?;镜哪P褪牵^去的t個(gè)世代,有一次混合事件,將K個(gè)群體混合了。如果你考慮單個(gè)染色體,它由一系列“塊(chunk)”組成,這些“塊”是從混合時(shí)的祖先那里作為離散的單
21、位遺傳來的。出現(xiàn)混合LD是因?yàn)檫B鎖的等位基因經(jīng)常在相同的塊上,因此來自相同的祖先群體。塊的大小被假設(shè)為獨(dú)立的指數(shù)隨機(jī)變量,具有平均長(zhǎng)度1/t(以摩爾根為單位)。在實(shí)踐中我們估計(jì)“重組率”r,所用的數(shù)據(jù)對(duì)應(yīng)于從現(xiàn)在的塊切換到新的塊的比率。個(gè)體i里的每個(gè)塊以概率qk(i)獨(dú)立地來自群體k,其中qk(i)是那個(gè)個(gè)體的祖先來自群體k的比例??偲饋恚履P捅A袅嘶旌夏P偷闹饕?,但是在單個(gè)塊上的全部等位基因必須來自相同的群體。新的MCMC算法結(jié)合了可能的塊大小和斷點(diǎn)。它對(duì)于每個(gè)體報(bào)告總的祖先,考慮連鎖,并且也能報(bào)告染色體的每一點(diǎn)兒的起源的可能性,如果用戶想要的話。當(dāng)使用連鎖的位點(diǎn)來研究混合的群體時(shí),這
22、個(gè)新模型表現(xiàn)得比原先的混合模型更好。它得到對(duì)祖先向量的更準(zhǔn)確的估計(jì),并且能從數(shù)據(jù)中抽出更多的信息。這對(duì)混合作圖應(yīng)該是有用的。該模型不是用于處理非常緊密連鎖的標(biāo)記之間的背景LD的。顯然,這個(gè)模型是大多數(shù)混合群體的復(fù)雜現(xiàn)實(shí)的大大的簡(jiǎn)化。不過,混合的主要的效應(yīng)是在連鎖的標(biāo)記之間建立長(zhǎng)遠(yuǎn)的相關(guān)性,因此我們這里的目的是在一個(gè)相當(dāng)簡(jiǎn)單的模型中將那個(gè)特征包括進(jìn)來。計(jì)算比混合模型的要慢一點(diǎn),特別對(duì)于大的K和不知道連鎖相的數(shù)據(jù)。不過,它們對(duì)于數(shù)千個(gè)位點(diǎn)和個(gè)體以及多個(gè)群體來說還是切實(shí)可行的。如果有關(guān)于標(biāo)記的相對(duì)位置的信息(通常是一張遺傳圖譜),則只能使用該模型。4. 使用先驗(yàn)的群體信息。Structure的默認(rèn)模
23、式只使用遺傳學(xué)的信息來了解群體結(jié)構(gòu)。不過,經(jīng)常有可以與聚類相關(guān)的附加信息(例如,取樣的個(gè)體的物理特性或者取樣的地理位置)。目前,Structure可以用3種方式使用這種信息: LOCPRIOR模型:利用取樣位置作為先驗(yàn)信息來輔助聚類用于結(jié)構(gòu)信號(hào)比較弱的數(shù)據(jù)集。有一些數(shù)據(jù)集,其中有真實(shí)的群體結(jié)構(gòu)(例如,取樣位置之間的顯著的FST),但是信號(hào)太弱,標(biāo)準(zhǔn)的Structure模型不能發(fā)現(xiàn)。對(duì)于標(biāo)記很少、個(gè)體很少或者非常弱的Structure,經(jīng)常是這樣的情況。在這種情形下,為了提高性能,Hubisz等(2009)發(fā)展了新模型,利用地點(diǎn)信息來輔助聚類。對(duì)于這樣的數(shù)據(jù)集,其中結(jié)構(gòu)的信號(hào)太弱以致使用標(biāo)準(zhǔn)的S
24、tructure模型不能被發(fā)現(xiàn),新模型經(jīng)常能提供群體結(jié)構(gòu)和個(gè)體祖先的準(zhǔn)確的推斷。簡(jiǎn)言之,LOCPRIOR模型的基本原理如下。通常,Structure假定個(gè)體的所有部分都大約是先驗(yàn)等可能的。因?yàn)榭赡艿牟糠值臄?shù)目非常巨大,對(duì)于Structure來說,需要信息非常豐富的數(shù)據(jù)來斷定個(gè)體的任何特定的部分被聚類到群具有強(qiáng)的統(tǒng)計(jì)支持。相反,LOCPRIOR模型認(rèn)為實(shí)際上,來自相同的取樣位置的個(gè)體經(jīng)常來自相同的群體。因此,建立LOCPRIOR模型以期望取樣的位置可能關(guān)于祖先是信息豐富的。如果數(shù)據(jù)表明位置是信息豐富的,那么LOCPRIOR模型允許Structure使用這種信息。Hubisz等(2009)發(fā)展了一
25、對(duì)LOCPRIOR模型:一種用于沒有混合的情況,一種用于有混合的情況。在兩種情況中,內(nèi)在的模型(以及似然函數(shù))與標(biāo)準(zhǔn)版本相同。關(guān)鍵的差別是允許structure使用地點(diǎn)信息來幫助聚類(即,通過修改先驗(yàn)信息來得到與位置有關(guān)的更偏愛的聚類解決方案)。LOCPRIOR模型具有合乎需要的特性:(i)當(dāng)不存在結(jié)構(gòu)時(shí),它們不傾向于發(fā)現(xiàn)結(jié)構(gòu);(ii)當(dāng)個(gè)體的祖先與取樣位置不相關(guān)時(shí),他們能夠忽視取樣的信息;(iii)當(dāng)群體結(jié)構(gòu)的信號(hào)非常強(qiáng)大時(shí),舊模型和新模型基本上給出相同的答案。因此,我們建議在大多數(shù)數(shù)據(jù)數(shù)量非常有限的情形下使用新模型,特別是當(dāng)標(biāo)準(zhǔn)的Structure模型不提供一個(gè)Structure的清晰信號(hào)
26、時(shí)。但是,因?yàn)楝F(xiàn)在已經(jīng)積累了標(biāo)準(zhǔn)的Structure模型的很多經(jīng)驗(yàn),我們建議對(duì)于信息非常豐富的數(shù)據(jù)集將基本模型作為默認(rèn)(Hubisz 等等,2009)。為了運(yùn)行LOCPRIOR模型,用戶必須首先為每個(gè)個(gè)體指定“取樣地點(diǎn)”,作為一個(gè)整數(shù)編碼。即,我們假定樣品是在一組分離的位置收集的,并且我們不使用關(guān)于地點(diǎn)的任何空間信息。(我們認(rèn)識(shí)到,在一些研究中,每個(gè)個(gè)體可能在一個(gè)不同的地點(diǎn)收集,因此將個(gè)體塞進(jìn)一套更小的分離的地點(diǎn)可能不是對(duì)數(shù)據(jù)的理想的代表。) “地點(diǎn)”也可以代表一個(gè)表現(xiàn)型、生態(tài)型(ecotype)或者民族團(tuán)體(ethnic group)。地點(diǎn)被鍵入到輸入文件中,要么在PopData列(設(shè)置LO
27、CISPOP = 1)中,要么作為一個(gè)單獨(dú)的LocData列(參閱第2.3節(jié))。為了使用LOCPRIOR 模型,你必須首先指定或者用混合模型用非混合的模型。如果你使用的是圖形用戶界面版本,則勾選“use sampling locations as prio”(用取樣位置作為先驗(yàn)信息)框。如果你使用的是命令行版本,則設(shè)置LOCPRIOR = 1。(注意,LOCPRIOR與連鎖模型不兼容。) 我們迄今的經(jīng)驗(yàn)是當(dāng)不存在結(jié)構(gòu)時(shí),LOCPRIOR模型不偏向于檢測(cè)到假的結(jié)構(gòu)。你可以把相同的診斷用于是否有真的結(jié)構(gòu),當(dāng)你沒使用LOCPRIOR時(shí)。另外查看r的值可能有幫助,它確定由位置攜帶的信息的數(shù)量。r的值接
28、近1,或者<1,表明位置是信息豐富的。r的更大的值表明或者沒有群體結(jié)構(gòu),或者結(jié)構(gòu)不依賴位置。USEPOPINFO模型:使用取樣位置來對(duì)移居者或者雜交種進(jìn)行檢驗(yàn)供信息非常豐富的數(shù)據(jù)數(shù)據(jù)集使用。在一些數(shù)據(jù)集里,用戶可能發(fā)現(xiàn)預(yù)確定的組(例如取樣位置)幾乎正好與結(jié)構(gòu)聚類相對(duì)應(yīng),除了少數(shù)似乎被錯(cuò)誤歸類的個(gè)體以外。Pritchard等(2000a)提出了正式的Bayesian檢驗(yàn),用于評(píng)價(jià)是否在這個(gè)樣品內(nèi)的任何個(gè)體是他們認(rèn)為的群體的移民,或者具有新近的移民祖先。注意這個(gè)模型假定被預(yù)先規(guī)定的群體通常是正確的。它采用十分強(qiáng)大的數(shù)據(jù)來克服先驗(yàn)的錯(cuò)誤分類。在使用USEPOPINFO模型之前,你也應(yīng)該在沒有群
29、體信息的情況下運(yùn)行程序,以保證預(yù)確定的群體與遺傳學(xué)的信息粗略一致。為了使用這模型,把USEPOPINFO設(shè)置為1,并且選擇MIGRPRIOR的一個(gè)值(在Pritchard等(2000a)中它是v)。你可以在0.001到0.1的范圍內(nèi)為v選擇一個(gè)值。每個(gè)個(gè)體的預(yù)確定的群體被設(shè)置在輸入數(shù)據(jù)文件中(見PopData)。用這種方式,在輸入文件里被分配到群體k的個(gè)體在Structure算法中將被分配到群k。因此,被預(yù)先規(guī)定的群體應(yīng)該是在1和MAXPOPS (K)之間的整數(shù)。如果任何個(gè)體的PopData超出這個(gè)范圍,它們的q將按正常的方式被更新(即沒有先驗(yàn)的群體信息,根據(jù)將被使用的模型,如果USEPOPI
30、NFO被關(guān)上的話。)USEPOPINFO模型:預(yù)先指定一些個(gè)體的起源的群體來幫助未知起源的個(gè)體的祖先估計(jì)。使用USEPOPINFO模型的第二個(gè)方法是定義“學(xué)習(xí)樣本”(learning samples),它被預(yù)定義為來自特定的群。然后用Structure來聚類剩下的個(gè)體。注意:在前端里,這個(gè)選項(xiàng)使用“Update allele frequencies using only individuals with POPFLAG=1”選項(xiàng)被打開,位于“Advanced Tab”標(biāo)簽下。學(xué)習(xí)樣品是利用數(shù)據(jù)文件里的PopFlag列實(shí)現(xiàn)的。預(yù)先規(guī)定的群體被用于那些個(gè)體,它們的PopFlag = 1(并且它們的
31、PopData在(1.K)中)。對(duì)于PopFlag = 0的個(gè)體,PopData值被忽略。如果數(shù)據(jù)文件里沒有PopFlag列,那么當(dāng)USEPOPINFO被開啟時(shí),PopFlag被為全部個(gè)體設(shè)置為1。具有PopFlag = 0的或者PopData不在(1.K)中的個(gè)體的祖先,根據(jù)混合或者沒有混合的模型被更新,象由用戶指定的那樣。如上所述,如果有很少的個(gè)體沒有預(yù)先規(guī)定的群體,將a設(shè)置成一個(gè)明智的值來可能是有幫助的。USEPOPINFO的應(yīng)用可能在幾個(gè)方面有幫助。例如,可能有一些個(gè)體的來源是已知的,我們的目標(biāo)是對(duì)未知來源的另外的個(gè)體進(jìn)行歸類。例如,我們可能從一群已知品種(編號(hào)為1 . . .K)的狗
32、中收集數(shù)據(jù),然后使用Structure為未知的(也許是雜交種)起源的另外的狗估計(jì)祖先。通過預(yù)先設(shè)置群體數(shù)目,我們可以保證Structure聚類對(duì)應(yīng)于預(yù)先確定的品種,這使輸出更可解釋,并且能改進(jìn)推論的準(zhǔn)確性。(當(dāng)然,如果兩個(gè)預(yù)先確定的品種在遺傳上是相同的,那么未知起源的狗可能被推斷為具有混合的祖先。USEPOPINFO的另一種用途是用于這樣一種情況:用戶想要只使用個(gè)體的一個(gè)子集來更新等位基因頻率。通常,Structure分析使用全部可得到的個(gè)體來更新等位基因頻率估計(jì)值。但是有一些情況,在那里你可能想對(duì)于一些個(gè)體估計(jì)祖先,沒有那些個(gè)體會(huì)影響等位基因頻率的估計(jì)。例如你可以有學(xué)習(xí)樣品的一個(gè)標(biāo)準(zhǔn)的收集,
33、然后周期性地你想要為新的一批基因型化的個(gè)體估計(jì)祖先。使用默認(rèn)的選項(xiàng),個(gè)體的祖先估計(jì)(稍微)取決于它們所在的批次。通過使用PFROMPOPFLAGONLY,你可以保證等位基因頻率估計(jì)值只依賴于PopFlag = 1的那些樣品。在不同的情況下,Murgia等(2006)想要確定一套無性系的狗瘤的起源。那些瘤如此緊密有關(guān)以至于使用的缺省設(shè)置時(shí)瘤形成它們自己的一類。通過使用PFROMPOPFLAGONLY,Murgia等迫使瘤與其他canid聚類分在一組。意見:我們建議首先運(yùn)行Structure的基本的版本,以便證實(shí)被預(yù)先規(guī)定的標(biāo)簽確實(shí)的確符合實(shí)際的遺傳學(xué)群體。其次,當(dāng)使用學(xué)習(xí)樣品時(shí),通過設(shè)置比0大的
34、MIGRPRIOR來允許一些錯(cuò)誤的分類可能是明智的。3.2 等位基因頻率模型對(duì)于等位基因頻率有兩個(gè)基本的模型。一個(gè)模型假定每個(gè)群體內(nèi)的等位基因頻率是獨(dú)立的,從一個(gè)分布中抽取,這個(gè)分布由參數(shù)l指定。那是用于Pritchard等(2000a)種的原先的模型。通常我們?cè)O(shè)置l = 1;這是缺省設(shè)置。Falush等(2003a)實(shí)施了一個(gè)模型,具有相關(guān)的等位基因頻率。這個(gè)模型標(biāo)明不同群體中的頻率很可能是相似的(或許由于遷移或者由于共有的祖先)。更詳細(xì)的資料如下。獨(dú)立的模型對(duì)于很多數(shù)據(jù)集表現(xiàn)不錯(cuò)。粗略地說,這最先說我們期望在不同的群體中的等位基因頻率彼此不同。相關(guān)的頻率模型說它們實(shí)際上可能十分相似。對(duì)于親
35、緣關(guān)系近的群體,這經(jīng)常改進(jìn)聚類,但是可能增加過高估計(jì)的K的危險(xiǎn)(如下)。如果一個(gè)群體與其他群體分歧較大,則當(dāng)那個(gè)群體被除去時(shí),相關(guān)的模型有時(shí)可以取得更好的推論。估計(jì)l: 固定l = 1對(duì)于大多數(shù)數(shù)據(jù)是一個(gè)好主意,但是在一些情況下,例如SNP數(shù)據(jù),其中大多數(shù)次要的等位基因是稀少的,這時(shí)候較小的數(shù)值可能工作得更好。對(duì)于這個(gè)原因,你可以讓程序?yàn)槟愕臄?shù)據(jù)估計(jì)l。你可能想要這樣做一次,或許對(duì)于K = 1來說,然后將l固定在被估計(jì)的值上,因?yàn)樵谠噲D同時(shí)國(guó)際太多的假設(shè)參數(shù)(l, a, F)時(shí)對(duì)于非識(shí)別性(non-identifiability)好像有一些問題。相關(guān)的等位基因頻率模型: 如同F(xiàn)alush等(2
36、003a)描述的那樣,相關(guān)的頻率模型使用一個(gè)(多維的)矢量,PA,它記錄假設(shè)的“祖先”群體中的等位基因頻率。假定在我們的樣品中代表的K個(gè)群體每個(gè)都已經(jīng)經(jīng)歷過與這些祖先頻率的獨(dú)立的漂移,速率分別用參數(shù)F1, F2, F3, ., FK表示。除歸因于有點(diǎn)不同的模型的差別和估計(jì)的差別外,被估計(jì)的Fk值應(yīng)該數(shù)量上類似于FST值。此外,對(duì)于具有許多混合的數(shù)據(jù)要準(zhǔn)確地估計(jì)Fk很難。PA被假設(shè)為具有Dirichlet先驗(yàn),具有與上面的群體頻率使用的相同的形式:pAl· D(l1, l2, . . . , ), (1)對(duì)每個(gè)l獨(dú)立。然后,群體k中的頻率的先驗(yàn)為, (2)對(duì)每個(gè)k和l獨(dú)立。在這個(gè)模型里
37、,F(xiàn)與遺傳學(xué)距離FST有密切的關(guān)系。按照FST的標(biāo)準(zhǔn)的參數(shù)化方法,每個(gè)群體中的期望頻率由總的平均頻率給出,當(dāng)?shù)任换虻目傤l率為p時(shí),跨越亞群體的頻率的方差為p(1 p)FST。這里的模型幾乎一樣,除了我們對(duì)模型稍微做了推廣以外,通過允許每個(gè)群體以一個(gè)不通的速率(Fk)漂離祖先群體,如同群體具有不同的大小時(shí)可能被期望的那樣。我們也試圖估計(jì)“祖先頻率”,而不是使用平均的頻率。我們將獨(dú)立的先驗(yàn)(prior)放于Fk上,與平均數(shù)為0.01、標(biāo)準(zhǔn)差為0.05的分布成正比(但是有PrFk ³ 1 = 0)。先驗(yàn)分布的參數(shù)可以由用戶修改。一些實(shí)驗(yàn)表明,0.01的先驗(yàn)平均值對(duì)應(yīng)于非常低細(xì)分的水平,對(duì)
38、于獨(dú)立頻率模型的數(shù)據(jù)經(jīng)常導(dǎo)致好的表現(xiàn)。在其他的問題中(其中群體之間的差別更加明顯),好像數(shù)據(jù)通常壓倒了這個(gè)Fk的先驗(yàn)。3.3 程序要運(yùn)行多長(zhǎng)時(shí)間? 程序從一個(gè)隨機(jī)的配置啟動(dòng),從那里采取一系列步驟穿過參數(shù)空間,每個(gè)步驟(只)依賴于前一個(gè)步驟的參數(shù)值。這個(gè)程序在運(yùn)行期間引起不同的點(diǎn)上的Markov鏈的狀態(tài)之間的相關(guān)性。希望是通過運(yùn)轉(zhuǎn)模擬足夠久,相關(guān)性將可以被忽視。有兩個(gè)問題要擔(dān)心:(1) burnin長(zhǎng)度:在收集數(shù)據(jù)使啟動(dòng)配置的影響減到最小之前模擬要運(yùn)行多久,(2)在burnin以得到準(zhǔn)確的參數(shù)估計(jì)之后模擬要運(yùn)行多久。要選擇合適的burnin長(zhǎng)度,看看由這個(gè)程序打印的歸納統(tǒng)計(jì)量的值是真的有幫助的(
39、例如(a,F(xiàn),在群體之間的分歧距離Di,j,以及似然),以便了解它們是否已經(jīng)收斂。通常10000100000的burnin非常足夠了。要選擇適當(dāng)?shù)倪\(yùn)行長(zhǎng)度,你需要在每個(gè)K上做幾次運(yùn)行,也許長(zhǎng)度不同,看看你是否得到一致的答案。通常,利用10000100000步運(yùn)行你能得到參數(shù)(P和Q)的好的估計(jì),但是Pr(X|K)的準(zhǔn)確的估計(jì)可能需要更長(zhǎng)時(shí)間的運(yùn)行。實(shí)際上,你的運(yùn)行時(shí)間的長(zhǎng)度可能決定于你的計(jì)算機(jī)速度和耐心。如果你正處理極其大的數(shù)據(jù)集,并且被運(yùn)行時(shí)間阻止,你可以試著修剪運(yùn)行的長(zhǎng)度和標(biāo)記/個(gè)體的數(shù)量,至少為探索的分析。前端提供了幾個(gè)主要參數(shù)的時(shí)間序列曲線。在burnin階段結(jié)束之前你應(yīng)該看看這些曲線
40、,以便了解這些曲線是否看起來達(dá)到了平衡。如果在burnin階段結(jié)束時(shí)數(shù)值仍然在增加或者減少,你需要增加burnin長(zhǎng)度。如果在整個(gè)運(yùn)行期間(即,不只是在burnin期間)a的估計(jì)值變化非常大,你可以通過增大ALPHAPROPSD來得到對(duì)Pr(X|K)的更準(zhǔn)確的估計(jì),這改進(jìn)了在那種形勢(shì)下的混合。(見在第5節(jié)的一個(gè)有關(guān)的問題)。4 缺失數(shù)據(jù),無效的等位基因和顯性標(biāo)記當(dāng)不斷改進(jìn)Q和P時(shí),程序忽略缺失的基因型數(shù)據(jù)。當(dāng)在一個(gè)特別的位點(diǎn)有漏缺數(shù)據(jù)的可能性與個(gè)體在那里有什么等位基因無關(guān)時(shí),這種方法是正確的。當(dāng)具有漏缺數(shù)據(jù)的個(gè)體的Q的估計(jì)不那么準(zhǔn)確時(shí),沒有特別的原因阻止這樣的個(gè)體參加分析,除非他們根本幾乎沒有
41、數(shù)據(jù)。當(dāng)數(shù)據(jù)以系統(tǒng)的方式遺漏時(shí),出現(xiàn)一個(gè)嚴(yán)重的問題,如同用無效等位基因那樣。這些不適合假設(shè)的模型,即使沒有群體結(jié)構(gòu),也能夠?qū)е旅黠@的違背哈迪-溫伯格。人們不應(yīng)該期望假設(shè)的模型對(duì)這類破壞是穩(wěn)健的。但是如果無效的等位基因可能是一個(gè)重要的問題的話,則顯性標(biāo)記模型(下面)可以被使用。在樣本中有多名家庭成員也會(huì)破壞模型假定。這有時(shí)會(huì)導(dǎo)致K的過高估計(jì),特別對(duì)于相關(guān)的頻率模型(Falush等,2003a),但是當(dāng)K固定時(shí),這對(duì)將個(gè)體分配給群體的影響很小。4.1 顯性標(biāo)記、無效等位基因和多倍體基因型對(duì)一些類型的遺傳學(xué)標(biāo)記(例如AFLP)來說,區(qū)分全部基因型是不可能的。其它類型的標(biāo)記可能導(dǎo)致模棱兩可的基因型,如
42、果由于附近序列的變化導(dǎo)致PCR產(chǎn)物不能擴(kuò)增,一部分等位基因?yàn)椤盁o效”。從2.2版開始,我們實(shí)現(xiàn)了一個(gè)模型,處理與顯性標(biāo)記相關(guān)的基因型的模糊性??傊?,我們假定在任何特定的位點(diǎn)可能有對(duì)全部其他等位基因(例如A)為隱性的單個(gè)的等位基因,而全部其他的標(biāo)記是共顯性的。因此AB和BB將作為“表現(xiàn)型”B出現(xiàn)在未加工的基因型數(shù)據(jù)中,AC和CC將被記錄為C,而BC將被記錄為BC。當(dāng)有模糊性時(shí),模型在可能的基因型上求和。全部的細(xì)節(jié)在Falush等(2007)里給出。 為了執(zhí)行這些計(jì)算,必須告訴算法每個(gè)位點(diǎn)上的哪個(gè)等位基因(如果有的話)是隱性的。這通過設(shè)置RECESSIVEALLELES=1來進(jìn)行,并且在輸入文件頂
43、上包括一行單L整數(shù),在標(biāo)記名稱和圖譜距離的(可選的)行之間,表明在數(shù)據(jù)集里的L個(gè)位點(diǎn)的每個(gè)上面的隱性等位基因。如果一個(gè)給定的位點(diǎn)上的全部標(biāo)記是共顯性的,那么那個(gè)位點(diǎn)上的隱性值必須被調(diào)整成MISSING(缺失的)數(shù)據(jù)值。相反,如果隱性等位基因從未在純合狀態(tài)被觀察到,但是你認(rèn)為它可能存在(例如可能有無效的等位基因),那么就把隱性值設(shè)置成在那個(gè)位點(diǎn)沒被觀察到的等位基因(而不是MISSING!) . 編碼基因型數(shù)據(jù):如果表現(xiàn)型是不含糊的,那么它被在Structure輸入文件里按照它本來的樣子編碼。如果它是含糊的,那么它被作為顯性等位基因的純合體編碼。例如,表現(xiàn)型A 被編碼為AA,B被編碼為BB,BC被
44、編碼為BC,等等。如果標(biāo)記是其他方面為二倍體的一個(gè)個(gè)體中的單倍體(例如男性中的X染色體),那么第2個(gè)等位基因被象以前一樣編碼為MISSING(缺失)。當(dāng)A是隱性的時(shí),基因型AB、AC等等在輸入文件里是不合法的。當(dāng)RECESSIVEALLELES被用來處理無效的等位基因時(shí),看起來是無效的純合體(homozygote null)的基因型應(yīng)該作為隱性等位基因的純合體而不是作為缺失數(shù)據(jù)被輸入。在實(shí)踐中可能不確定是否一個(gè)失敗的基因型真的歸因于純合的無效等位基因。Structure應(yīng)該對(duì)這些編碼為缺失的數(shù)據(jù)是穩(wěn)健的,除非無效等位基因在一個(gè)位點(diǎn)上的頻率很高。在多倍體(PLOIDY>2)中形勢(shì)更復(fù)雜,因
45、為甚至對(duì)共顯性標(biāo)記都可能有基因型的含糊。在雜合體中準(zhǔn)確地識(shí)別出基因型經(jīng)常是困難的。例如在三倍體中,表現(xiàn)型AB可能是AAB或者ABB。如果Structure在RECESSIVEALLELES=0的條件下運(yùn)行,那么就假定沒有含糊。對(duì)于多倍體,當(dāng)RECESSIVEALLELES=1時(shí),Structure允許數(shù)據(jù)包含具有基因型模糊和不具有基因型模糊的位點(diǎn)。如果一些位點(diǎn)不含糊那么設(shè)置代碼NOTAMBIGUOUS為一個(gè)整數(shù),這個(gè)整數(shù)不與數(shù)據(jù)內(nèi)的的任何等位基因相匹配,并且不等于MISSING(缺失)。然后在輸入文件頂上的隱性等位基因的行里為不含糊的位點(diǎn)放置NOTAMBIGUOUS代碼。如果不是那樣,而是在一
46、個(gè)特定的位點(diǎn)上等位基因全部是共顯性的,但是有關(guān)于每個(gè)的數(shù)目(例如為在四倍體里的微衛(wèi)星)含糊,那么就把隱性等位基因代碼設(shè)置為MISSING。最后,如果有隱性等位基因,并且還有關(guān)于每個(gè)等位基因的數(shù)目的含糊性,則設(shè)置隱性等位基因代碼來表明哪個(gè)等位基因是隱性的。存在拷貝數(shù)含糊性的等位基因的編碼與存在顯性標(biāo)記的那些相似。因此,舉例來說,在四倍體中,觀察到3個(gè)共顯性位點(diǎn)B、C和D,這應(yīng)該被編碼為B C D D或者等效地B B C D或者任何包括3個(gè)等位基因中的每一個(gè)的其他組合。它不應(yīng)該被編碼為B C D (MISSING),因?yàn)檫@表明該特定的個(gè)體在所指的位點(diǎn)是三倍體。如果在這個(gè)位點(diǎn)上存在一個(gè)隱性等位基因A
47、,它也不能被編碼為B C D A。Pr(K)的估計(jì): 當(dāng)RECESSIVEALLELES被用于二倍體時(shí),Markov鏈的每個(gè)步驟上的似然值是通過在可能的基因型上求和來計(jì)算的。為了便于編碼,當(dāng)要么PLOIDY>2要么使用了連鎖模型時(shí),我們以當(dāng)前推算的(imputed)基因型為條件。這減小似然值,并且好像大大地?cái)U(kuò)大似然值的方差。有限的經(jīng)驗(yàn)表明在后一種情況下這導(dǎo)致對(duì)K的估計(jì)效果變差,你應(yīng)該把K的這種估計(jì)看做是不可靠的。5 K(群體數(shù)目)的估計(jì)在描述這個(gè)程序的我們的文章里,我們指出這個(gè)問題應(yīng)該被小心對(duì)待,由于兩個(gè)原因:(1)要獲得對(duì)Pr(X|K)的準(zhǔn)確估計(jì)在計(jì)算上是困難的,我們的方法僅僅提供一個(gè)
48、專門的(ad hoc)近似;(2)K的生物學(xué)解釋可能不是簡(jiǎn)單的。在我們的經(jīng)驗(yàn)里我們發(fā)現(xiàn)真正的困難在于第2個(gè)問題。我們的用于估計(jì)K的程序一般在具有少量離散的群體的數(shù)據(jù)集中計(jì)算效果較好。不過,很多現(xiàn)實(shí)世界的數(shù)據(jù)集并不準(zhǔn)確地符合Structure模型(例如,由于通過距離或者近交而產(chǎn)生的隔離)。在那些情況里對(duì)于什么是K的正確值可能沒有一個(gè)自然的答案。或許由于這種原因,在真實(shí)的數(shù)據(jù)中我們的模型選擇標(biāo)準(zhǔn)的值隨著增加的K而繼續(xù)增加是不稀有的。那么集中于捕獲數(shù)據(jù)中的大多數(shù)結(jié)構(gòu)的K的值通常是講得通的,這在生物學(xué)上似乎是合理的。5.1估計(jì)K的步驟1. (命令行版本)在文件extraparams里把COMPUTEP
49、ROBS和INFERALPHA設(shè)置為1。(前端版本)確保a允許改變。2. 對(duì)不同的MAXPOPS (K)值運(yùn)行MCMC方案。最后它將輸出一行“Estimated Ln Prob of Data”。這是ln Pr(X|K)的估計(jì)。你應(yīng)該對(duì)每個(gè)K獨(dú)立地運(yùn)行幾次,以便證實(shí)不同運(yùn)行得到的估計(jì)值是一致的。如果與不同的K獲得的估計(jì)值的變異性相比,一個(gè)給定的K的不同運(yùn)行的變異性是顯著的,那么你可能需要使用更長(zhǎng)的運(yùn)行或者更長(zhǎng)的burnin時(shí)期。如果lnPr(X|K)看起來是雙峰的(bimodal)或者多峰的(multimodal),則MCMC方案可能找到不同的答案。你可以對(duì)此進(jìn)行驗(yàn)證,通過比較在單個(gè)K上的不同
50、運(yùn)行的Q。(參看Pritchard et al. (2000a)的數(shù)據(jù)集2A(Data Set 2A),也見下面有關(guān)多峰性(Multimodality)的部分,)。3. 計(jì)算K的后驗(yàn)概率。例如,對(duì)于論文中的數(shù)據(jù)集2A(這里K是2),我們得到K ln Pr(X|K)1 -43562 -39833 -39824 -39835 -4006我們一開始可以假定一個(gè)關(guān)于K = 1, ., 5的均勻先驗(yàn)分布。然后根據(jù)貝葉斯定理,Pr(K = 2)由下式給出: (3)如果我們將該式簡(jiǎn)化為下面的公式,計(jì)算就會(huì)更容易 (4)5.2 輕微的違背模型可能導(dǎo)致過高估計(jì)K 當(dāng)存在真正的群體結(jié)構(gòu)時(shí),這導(dǎo)致不連鎖的位點(diǎn)之間的
51、LD,以及違背哈迪溫伯格比例。粗略地說,這是被Structure算法使用的信號(hào)。但是模型的一些違背也能導(dǎo)致哈迪溫伯格或連鎖不平衡。這些包括近交和基因型鑒定錯(cuò)誤(例如偶然的、未被發(fā)現(xiàn)的無效的等位基因)。即使在沒有群體結(jié)構(gòu)的情況下,對(duì)于K >1,這些類型的因素也可能導(dǎo)致弱的統(tǒng)計(jì)信號(hào)。從2版本開始,我們提出相關(guān)的等位基因頻率模型(correlated allele frequency model)應(yīng)該被用作默認(rèn),因?yàn)樗诶щy的問題上經(jīng)常實(shí)現(xiàn)更好的執(zhí)行,但是用戶應(yīng)該意識(shí)到,在這樣的設(shè)置中可能更容易過高估計(jì)K,與獨(dú)立的頻率模型下相比(Falush et al. (2003a))。 下一節(jié)討論怎樣確
52、定推斷的結(jié)構(gòu)是否是真實(shí)的。5.3 關(guān)于選擇K的非正式提示;結(jié)構(gòu)是真實(shí)的嗎?有兩個(gè)非正式的提示,可能有助于選擇K。第一個(gè)是,對(duì)于比合適的值(有效零)更小的K,Pr(K)常常是非常小的,對(duì)于更大的K,則有或多或少的高原,如同上面顯示的數(shù)據(jù)集2A的例子中那樣。在這種情形中(其中K的幾個(gè)值給出log Pr(X|K)的相似的估計(jì)下),似乎這些估計(jì)中最小的常常是正確的。對(duì)于我們通過“或多或少的高原”所表示的東西,要提供一個(gè)堅(jiān)固的規(guī)則有點(diǎn)難。對(duì)于小數(shù)據(jù)集來說,這可能意味著log Pr(X|K)的值在5-10的范圍內(nèi),但是Daniel Falush寫道“在非常大的數(shù)據(jù)集中,K = 3和K = 4之間的差別可能
53、是50,但是如果K = 3和K = 2之間的差別是5 000,那么我將肯定選擇K = 3”。想要使用更正式的標(biāo)準(zhǔn)(這種標(biāo)準(zhǔn)將這一點(diǎn)納入了考慮)的讀者可能對(duì)Evanno等(2005)的方法感興趣。我們認(rèn)為考慮這一點(diǎn)的一種明智的方法是就模型選擇而言。即,我們可能不總是能知道K的真值,但是我們應(yīng)該致力于捕獲數(shù)據(jù)里的主要結(jié)構(gòu)的K的最小的值。第二提示是,如果真的有單獨(dú)的群體,那個(gè),通常有許多有關(guān)a的值的信息,一旦Markov 鏈?zhǔn)諗?,a通常將相對(duì)恒定(范圍經(jīng)常為0.2或更少)。不過,如果沒有任何真正的結(jié)構(gòu),在運(yùn)行過程中a通常變化很大。這一點(diǎn)的一個(gè)必然的結(jié)果是當(dāng)沒有群體結(jié)構(gòu)時(shí),你將通常將看到分配給每個(gè)群體
54、的樣本的比例是大致勻稱的(每個(gè)群體中1/K),大多數(shù)個(gè)體將被公平地混和。如果一些個(gè)體被強(qiáng)烈地分配到一群體或者另一個(gè),以及如果分配給每組的比例不對(duì)稱,那么這是你有真正的群體結(jié)構(gòu)的強(qiáng)的跡象。假定你有兩個(gè)清楚的群體,但是你試圖決定是否這些中之一是更進(jìn)一步再分(例如,Pr(X|K = 3)的值類似于P(X|K = 2),或者也許比P(X|K = 2)還大一點(diǎn))。那么,你能嘗試的一件事情是只使用你懷疑可能被再分的群體內(nèi)的個(gè)體來運(yùn)行Structure,看看是否有一個(gè)如上所述的強(qiáng)信號(hào)。總之,你應(yīng)該對(duì)根據(jù)小的Pr(K)的差別推斷的群體結(jié)構(gòu)持懷疑態(tài)度,如果(1)對(duì)于分派沒有清楚的生物學(xué)解釋,(2)對(duì)全部群體的分
55、派大致勻稱,沒有個(gè)體被強(qiáng)烈地分配。5.4 通過距離數(shù)據(jù)的隔離通過距離的隔離指的是這樣的想法:個(gè)體可能跨越一些地區(qū)呈空間分布,帶有本地分散的。在這種形勢(shì)下,等位基因頻率跨越地區(qū)逐漸變化?;A(chǔ)的Structure模型對(duì)來自這種情況的數(shù)據(jù)不很適合。當(dāng)這發(fā)生時(shí),推斷的K 的值,以及在每組中的相應(yīng)的等位基因頻率可能相當(dāng)任意。取決于取樣的計(jì)劃,大多數(shù)個(gè)體可能在多個(gè)組中具有混合的成員身份。即,算法將嘗試使用K的不同組分的加權(quán)平均數(shù)來對(duì)跨越地區(qū)的等位基因頻率建模。在這樣的形勢(shì)下,結(jié)果的解釋可能具有挑戰(zhàn)性。6 背景LD和其他miscellania 6.1 序列數(shù)據(jù),緊密連鎖的SNP和單體型數(shù)據(jù)Structure
56、模型假定位點(diǎn)在群體內(nèi)是獨(dú)立的(即,在群體內(nèi)不處于LD)。序列數(shù)據(jù)或者來自非重組區(qū)域的(比如Y染色體或者mtDNA)的數(shù)據(jù)很可能違反這個(gè)假定。如果你有序列數(shù)據(jù)或來自多個(gè)獨(dú)立區(qū)域的密集的SNP數(shù)據(jù),那么盡管數(shù)據(jù)不完全適合模型,Structure實(shí)際上可能表演得想當(dāng)好。粗略地說,這將發(fā)生,倘若跨越不同的區(qū)域有足夠的獨(dú)立性,以至于區(qū)域內(nèi)的LD不在數(shù)據(jù)中占優(yōu)勢(shì)。當(dāng)有足夠的獨(dú)立區(qū)域時(shí),區(qū)域內(nèi)的依賴性(dependence)的主要代價(jià)將是Structure在特別的個(gè)體的分派中低估不確定性。例如,F(xiàn)alush等(2003b)把Structure用于來自H. pylori的MLST(多位點(diǎn)序列)數(shù)據(jù),以了解H.
57、 pylori的群體結(jié)構(gòu)和遷移歷史。在那種情況下,在區(qū)域內(nèi)有足夠的重組以至于群體結(jié)構(gòu)的信號(hào)超過了背景LD。(關(guān)于MLST數(shù)據(jù)的更多情況,也見第10節(jié))。在人類的應(yīng)用中,Conrad等(2006)發(fā)現(xiàn)來自36個(gè)連鎖的區(qū)域的3000個(gè)SNP生產(chǎn)明智(但是嘈雜)的答案,在一個(gè)全世界的樣本中,基本上與基于微衛(wèi)星的以前的結(jié)果一致見他們的Supplementary Methods Figure SM2。然而,如果數(shù)據(jù)被一個(gè)或者少數(shù)非重組的或在低重組的區(qū)域主導(dǎo),那么,Structure可能被嚴(yán)重地誤導(dǎo)。例如,如果數(shù)據(jù)只由Y染色體數(shù)據(jù)組成,那么估計(jì)的結(jié)構(gòu)大概將反映出關(guān)于Y染色體樹的某些事情,而非群體結(jié)構(gòu)本身。使用這樣的數(shù)據(jù)的影響很可能是:(1)算法低估祖先估計(jì)中的不確定性的程度,在最壞的情況下,可能是有偏的或者不準(zhǔn)確的;(2)K的估計(jì)不可能表演得好。如果你有Y或者mtDNA數(shù)據(jù)加上許多核標(biāo)記,一個(gè)安全和有效的解決辦法是重新編碼來自每個(gè)連鎖區(qū)域的單體型,以至于單體型被描述為一個(gè)具有n等位基因的單個(gè)位點(diǎn)。如果有許多單體型,則可以把相關(guān)的單體型歸類到一起。注意連鎖模型不一定比(非)混合模型對(duì)于處理這些問題更好。連鎖模型不是設(shè)計(jì)來處理群體內(nèi)的背景LD的,并且很可能被類似地干擾。6.2 多峰性Structure算法在參數(shù)空間中的一個(gè)隨機(jī)的地方開始,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國(guó)高山滑雪裝備行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030中國(guó)高合油市場(chǎng)營(yíng)銷渠道與發(fā)展前景預(yù)測(cè)研究報(bào)告
- 2025-2030中國(guó)高功率放大器行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
- 客戶需求管理在物流中的重要性試題及答案
- 2025-2030中國(guó)骨釘骨板行業(yè)市場(chǎng)現(xiàn)狀分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告
- 2025-2030中國(guó)駕駛服裝行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 投資收益與風(fēng)險(xiǎn)的動(dòng)態(tài)評(píng)估試題及答案
- 2025-2030中國(guó)香氛型身體乳市場(chǎng)消費(fèi)格局與未來經(jīng)營(yíng)效益研究研究報(bào)告
- 2025-2030中國(guó)飼料級(jí)維生素和礦物質(zhì)預(yù)混料行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析研究報(bào)告
- 2025-2030中國(guó)飲用水箱行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 海氏崗位價(jià)值評(píng)估法教程、數(shù)據(jù)表及案例解析
- 小學(xué)創(chuàng)客課件智能臺(tái)燈
- 江蘇省蘇州市2023-2024學(xué)年高二合格考政治模擬試題(含答案)
- SYT 0447-2014《 埋地鋼制管道環(huán)氧煤瀝青防腐層技術(shù)標(biāo)準(zhǔn)》
- 《現(xiàn)代漢語(yǔ)》語(yǔ)音教學(xué)上課用課件
- 齊齊哈爾課件
- 信息化建設(shè)情況調(diào)查表
- 2019電網(wǎng)配電運(yùn)維班組標(biāo)準(zhǔn)化管理手冊(cè)
- 《小學(xué)語(yǔ)文略讀課文教學(xué)策略》講座 全國(guó)獲獎(jiǎng)
- 第二章 民事權(quán)益保護(hù)追求幸福的基石
- 風(fēng)電場(chǎng)工程可行性研究報(bào)告
評(píng)論
0/150
提交評(píng)論