全基因組關(guān)聯(lián)分析的原理和方法題庫_第1頁
全基因組關(guān)聯(lián)分析的原理和方法題庫_第2頁
全基因組關(guān)聯(lián)分析的原理和方法題庫_第3頁
全基因組關(guān)聯(lián)分析的原理和方法題庫_第4頁
全基因組關(guān)聯(lián)分析的原理和方法題庫_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、全基因組關(guān)聯(lián)分析(Genome-wide association study;GWAS)是應(yīng)用基因組中 數(shù)以百萬計的單核苷酸多態(tài)性(single nucleotide ploymorphism,SNP)為分子 遺傳標記,進行全基因組水平上的對照分析或相關(guān)性分析,通過比較發(fā)現(xiàn)影響復(fù) 雜性狀的基因變異的一種新策略。隨著基因組學(xué)研究以及基因芯片技術(shù)的發(fā)展,人們已通過GWAS方法發(fā)現(xiàn)并 鑒定了大量與復(fù)雜性狀相關(guān)聯(lián)的遺傳變異。近年來,這種方法在農(nóng)業(yè)動物重要經(jīng) 濟性狀主效基因的篩查和鑒定中得到了應(yīng)用。全基因組關(guān)聯(lián)方法首先在人類醫(yī)學(xué)領(lǐng)域的研究中得到了極大的重視和應(yīng)用, 尤其是其在復(fù)雜疾病研究領(lǐng)域中的應(yīng)用,使

2、許多重要的復(fù)雜疾病的研究取得了突 破性進展,因而,全基因組關(guān)聯(lián)分析研究方法的設(shè)計原理得到重視。人類的疾病分為單基因疾病和復(fù)雜性疾病。單基因疾病是指由于單個基因的 突變導(dǎo)致的疾病,通過家系連鎖分析的定位克隆方法,人們已發(fā)現(xiàn)了囊性纖維化、 亨廷頓病等大量單基因疾病的致病基因,這些單基因的突變改變了相應(yīng)的編碼蛋 白氨基酸序列或者產(chǎn)量,從而產(chǎn)生了符合孟德爾遺傳方式的疾病表型。復(fù)雜性疾 病是指由于遺傳和環(huán)境因素的共同作用引起的疾病。目前已經(jīng)鑒定出的與人類復(fù) 雜性疾病相關(guān)聯(lián)的SNP位點有439個。全基因組關(guān)聯(lián)分析技術(shù)的重大革新及其應(yīng) 用,極大地推動了基因組醫(yī)學(xué)的發(fā)展。(2005年,Science雜志首次報

3、道了年齡相關(guān) 性視網(wǎng)膜黃斑變性GWAS結(jié)果,在醫(yī)學(xué)界和遺傳學(xué)界引起了極大的轟動,此后一系列GWAS陸 續(xù)展開。2006年,波士頓大學(xué)醫(yī)學(xué)院聯(lián)合哈佛大學(xué)等多個研究機構(gòu)報道了基于佛明翰心臟 研究樣本關(guān)于肥胖的GWAS結(jié)果(Herbert等.2006);2007年,Saxena等多個研究組聯(lián)合報 道了與2型糖尿?。═2D )關(guān)聯(lián)的多個位點,Samani等則發(fā)表了冠心病GWAS結(jié)果(Samani 等.2007); 2008年,Barrett 等通過 GWAS 發(fā)現(xiàn)了 30 個與克羅恩?。–rohns disrease) 相關(guān)的易感位點;2009年,W e is s等通過GWAS發(fā)現(xiàn)了與具有高度遺傳性的

4、神經(jīng)發(fā)育疾 病一一自閉癥關(guān)聯(lián)的染色體區(qū)域。我國學(xué)者則通過對12 000多名漢族系統(tǒng)性紅斑狼瘡患者 以及健康對照者的GWAS發(fā)現(xiàn)了 5個紅斑狼瘡易感基因,并確定了 4個新的易感位點(Han 等.2009)。截至2009年10月,已經(jīng)陸續(xù)報道了關(guān)于人類身高、體重、血壓等主要性狀, 以及視網(wǎng)膜黃斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖癥、糖尿病、精神分 裂癥、風(fēng)濕性關(guān)節(jié)炎等幾十種威脅人類健康的常見疾病的GWAS結(jié)果,累計發(fā)表了近萬篇 論文,確定了一系列疾病發(fā)病的致病基因、相關(guān)基因、易感區(qū)域和SNP變異。)標記基因的選擇:Hap Map是展示人類常見遺傳變異的一個圖譜,第1階段完成后提供了 4 個人

5、類種族 Yoruban ,Northern and Western European , and Asian (Chinese and Japanese) 共 269個個體基因組,超過100萬個SNP (約 1 SNP / 3kb )及連鎖不平衡區(qū)域(linkage disequilibrium, LD )關(guān) 系的圖譜。第二階段增加了其它的人類種族數(shù)據(jù)。基于Hap Map可以選 擇500 000到1 000 000個覆蓋全基因組的SNP?;蚪M拷貝數(shù)變異(copy number variations ,CNV )是20世紀80 年代發(fā)現(xiàn)的在人類基因組中存在的多種類型的染色體數(shù)目和結(jié)構(gòu)變異。 是

6、指與參考序列相比,基因組中1 kb的DNA 片段插入、缺失和/或 擴增,及其互相組合衍生的復(fù)雜染色體結(jié)構(gòu)變異。與SNP相似,部分CNV 在不同人群中以不同頻率分離并具有顯著性差異,并可能影響基因表達 和表型改變,因此CNV也是一種引起疾病或增加復(fù)雜疾病發(fā)病風(fēng)險的重 要遺傳變異。GWAS采用的研究方式與傳統(tǒng)的候選基因病例一對照(case-control)關(guān)聯(lián)分 析一致,即如果人群基因組中一些SNP與某種疾病相關(guān)聯(lián),理論上這些疾病相 關(guān)SNP等位基因頻率在某種疾病患者中應(yīng)高于未患病對照人群。動物重要經(jīng)濟性狀即復(fù)雜性狀GWAS分析方法的原理是,借助于SNP分子遺 傳標記,進行總體關(guān)聯(lián)分析,在全基因組

7、范圍內(nèi)選擇遺傳變異進行基因分型,比 較異常和對照組之間每個遺傳變異及其頻率的差異,統(tǒng)計分析每個變異與目標性 狀之間的關(guān)聯(lián)性大小,選出最相關(guān)的遺傳變異進行驗證,并根據(jù)驗證結(jié)果最終確 認其與目標性狀之間的相關(guān)性。GWAS的具體研究方法與傳統(tǒng)的候選基因法相類似:單階段方法,即選擇足夠多的樣本,一次性地在所有研究對象中對目標 SNP進行基因分型,然后分析每個SNP與目標性狀的關(guān)聯(lián),統(tǒng)計分析關(guān)聯(lián)強度和 OR值(計算出的OR值等于1時,則該因素的疾病發(fā)生不起任何作用;大于1時, 該因素為危險因素;小于1時,該因素為保護因素。)。目前GWAS研究主要采用兩階段方法/多階段方法。第一階段用覆蓋全基因組范圍的S

8、NP進行對照分析,統(tǒng)計分析后篩選出較少 數(shù)量的陽,性SNP進行??梢砸詡€體為單位,也可以采用DNA pooling的方法(后 者可大大降低及基因分型的成本和工作量)。但是DNA pooling的基因分型 結(jié)果與對所有個體進行基因分型的結(jié)果仍有一定差異,DNA pooling估計的等位 基因頻率標準差在1 % 4%的范圍,因而若單獨以DNApooling來估計等位基 因頻率,那么這種誤差對全基因組的病例一對照研究的檢驗效能(power of test )有重要影響。第二階段或隨后的多階段中采用更大樣本的對照樣本群進行基因分型,然后 結(jié)合兩階段或多階段的結(jié)果進行分析。這種設(shè)計需要保證第一階段篩選與

9、目標性 狀相關(guān)SNP的敏感性和特異,性,盡量減少分析的假陽性或假陰,性,并在第二階段 應(yīng)用大量樣本群進行基因分型驗證。結(jié)果的統(tǒng)計和分析:在GWAS用于病例-對照研究設(shè)計時,比較病例和對照組中每個SNP等位 基因頻率差別多采用4格表的卡方檢驗(chi-square test )并計算 OR及其95%的可信區(qū)間(confidence interval , CI),歸因分數(shù)(attributable fraction , AF)和歸因危險度(attributable risk , AR);同時需對如年齡、性別等主要混雜因素采用Logistic回歸分析, 以基因型和混雜因素作為自變量,研究對象患病狀態(tài)

10、為因變量進行分析。GWAS用于研究隨機人群的SNP與某一數(shù)量性狀關(guān)聯(lián)時(如身高、體重、 血壓等),主要應(yīng)用單因素方差分析(one-way ANOVA )比較SNP位點3 種基因型與所研究的數(shù)量性狀水平的關(guān)系,需要調(diào)整混雜因素時則采用 協(xié)方差分析(analysis o f covariance)或線性回歸引起結(jié)果誤差的主要原因有人群分層和多重假設(shè)檢驗調(diào)整。無論是GWAS兩階段 /多階段設(shè)計,還是采用Bonferroni校正等遺傳統(tǒng)計方法,都難以解決人群分 層及多重比較導(dǎo)致的假陽性或假陰性問題。GWAS不能僅憑P值判斷某個SNP 是否與疾病真正關(guān)聯(lián),多種族、多群體、大樣本的重復(fù)驗證研究(repli

11、cation) 才是提高檢驗效能、確保發(fā)現(xiàn)真正疾病關(guān)聯(lián)SNP的關(guān)鍵?!纠咳蚪M關(guān)聯(lián)分析在乳腺癌易感位點篩選的應(yīng)用2007 年 6 月,乳腺癌關(guān)聯(lián)協(xié)作組(Breast Cancer Association Consortium BCAC)首先報告了乳腺癌GWAS的結(jié)果,該研究共包括三個階段:第一階段:408例家族性乳腺癌患者和400名對照,266 722個SNP;第二階段:3990例乳腺癌患者和3916名對照,12 711個SNP;第三階段:22例病例-對照研究,合計21 860例患者和22 578名對照, 30個SNP。研究結(jié)果最終發(fā)現(xiàn)了5個乳腺癌的易感性位點,4個 位于已知基因:FGFR

12、2 ( rs2981582)、TNRC9 /LOC643714(rsl2443621 )、MAP3K1( rs889312)和 LSPl (rs3817198) 而rsl3281615位于染色體8q24。雖然GWAS結(jié)果在很大程度上增加了對復(fù)雜性狀分子遺傳機制的理解,但也 顯現(xiàn)出很大的局限,性。首先,通過統(tǒng)計分析遺傳因素和復(fù)雜性狀的關(guān)系,確定與 特定復(fù)雜性狀關(guān)聯(lián)的功能性位點存在一定難度。通過GWAS發(fā)現(xiàn)的許多SNP位點 并不影響蛋白質(zhì)中的氨基酸,甚至許多SNP位點不在蛋白編碼開放閱讀框(open reading frame ,ORF)內(nèi),這為解釋SNP位點與復(fù)雜性狀之間的關(guān)系造成了困難。 而且

13、,就目前來說GWAS難以檢測的部分可能主要集中在最小等位基因頻(minor allele frequency ,MAF)介于 0 . 5 % 5 %之間的少見變異,或者 MAF 0.5% 的罕見變異,現(xiàn)有的基因分型芯片較難有效地發(fā)現(xiàn)這些遺傳變異但是,由于復(fù)雜性狀很大程度上是由數(shù)量性狀的微效多基因決定的,SNP位 點可能通過影響基因表達量對這些數(shù)量性狀產(chǎn)生輕微的作用,它們在RNA的轉(zhuǎn)錄 或翻譯效率上發(fā)揮作用,可能在基因表達上產(chǎn)生短暫的或依賴時空的多種影響, 刺激調(diào)節(jié)基因的轉(zhuǎn)錄表達或影響其RNA剪接方式。因此,在找尋相關(guān)變異時應(yīng)同 時注意到編碼區(qū)和調(diào)控區(qū)位點變異的重要性。其次,等位基因結(jié)構(gòu)(數(shù)量、

14、類型、 作用大小和易感性變異頻率)在不同性狀中可能具有不同的特征。在GWAS研究后要確定一個基因型-表型因果關(guān)系還有許多困難,由于連鎖不 平衡的原因,相鄰的SNP之間會有連鎖現(xiàn)象發(fā)生。同樣,在測序時同樣存在連鎖 不平衡現(xiàn)象,而且即使測序的費用降到非常低的水平,要想如GWAS研究一般地 獲得大量樣本的基因組數(shù)據(jù)還是非常困難的。*llumina宣布HiSeq X Ten測序系統(tǒng)將會于1月份重磅回歸,該技術(shù)的早期運用還需要等 待一段時間,然而GEN預(yù)測了 I lluminaXTen在2015年可能會實現(xiàn)的6大應(yīng)用。Illumina XTen的測序功能非常強大,一臺機器一年能完成18000個人類基因組

15、測序,盡管大規(guī)模基 因組測序還會面臨一系列挑戰(zhàn),但是現(xiàn)在可以將這些顧慮暫時擱置,思考一下科學(xué)家們可以 利用該技術(shù)完成哪些有趣的工作呢?下面就是GEN預(yù)測的6大應(yīng)用。1新生兒與兒科疾病預(yù)測新生兒重癥監(jiān)護病房和兒童醫(yī)院每年都會收治大量患有嚴重疾病的患兒,而其中很多致命的 疾病都存在其遺傳基礎(chǔ)。其中有一些是已知的遺傳疾病,能夠通過臨床基因檢測確診。然而 還有大量的疾病無法通過基因檢測查出來,卻嚴重地影響兒童健康。目前有很多試點計劃, 像是NIH的“未確診疾病計劃”就是通過外顯子測序來實現(xiàn)檢測,外顯子測序平均能揭示 25-30%的病理性突變。然而,全基因組測序能夠發(fā)現(xiàn)難以捕捉的外顯子區(qū)域,還能夠發(fā)現(xiàn)結(jié)

16、構(gòu)性變異。隨著XTen system的應(yīng)用,全基因組測序只是下面要做工作的第一步。它的運轉(zhuǎn)速度更快,不需要雜 化反應(yīng),檢測范圍能從單一核苷酸變異到大片段丟失。如果可行的話,患者及其父母,甚至 是兄弟姐妹都可以進行全基因組測序。藥物試驗和藥物基因組學(xué)基因研究的一個巨大前景就是實現(xiàn)個體化醫(yī)療:把治療疾病具體到每個個體的基因組成上 來。實現(xiàn)個體化醫(yī)療需要研究疾病預(yù)后和藥物反應(yīng)的個體基因差異,目前許多藥物基因組計 劃正在進行,而很多都是運用SNP分析和靶向測序技術(shù)。全基因組測序能夠更好地促進這些 工作,因為全基因組測序能夠捕獲范圍更廣的變異。全基因組測序還能夠運用到臨床試驗的 前沿,它可以將病人按反應(yīng)

17、分成很多群體進行研究??刂谱儺惡捅磉_數(shù)量性狀基因座(eQTLs)國際人類基因組單體型圖計劃(HapMap Project)的一項重要開支就是從成纖維細胞系中鑒 定出基因變異,該項工作由Coriell領(lǐng)頭。獲得所有SNP基因型后,研究人員可以分析基因 表達,最初是通過芯片分析,后來通過RNA-seq技術(shù),最終將這些結(jié)果與變異聯(lián)系起來。這 些分析結(jié)果產(chǎn)生了成千上萬的表達數(shù)量性狀基因座(eQTLs),分析這些數(shù)據(jù)可以了解基因變 異影響轉(zhuǎn)錄的方式??梢韵胂笥米钕冗M的RNA-Seq和WGS (全基因組測序)技術(shù)對同一樣本進行分析后會得到怎 樣強大的數(shù)據(jù)(RNA-seq是在另外一些平臺上做的,比如Hise

18、q2000,因為X Ten只能進行 全基因組測序)。ENCODE Project Consortium和其他幾個團隊揭示了轉(zhuǎn)錄廣泛發(fā)生的方式, 毫無疑問,僅僅利用過去的SNP芯片分析是無法得出這些結(jié)論的。罕見腫瘤研究癌癥基因組圖譜(TCGA)和國際癌癥基因組計劃(ICGC)等工作鑒定出大量癌癥類型的體細 胞突變。大多數(shù)工作是通過外顯子測序和全基因組測序完成的,而鑒于成本考慮,主要是外 顯子測序。盡管如此,這些工作極為有效地揭示出反復(fù)出現(xiàn)的變異和通路。然而,這些工作主要是基于那些常見的腫瘤類型。不過隨著全基因組測序的普及,那些罕見 的腫瘤類型也可以通過同樣的手段進行研究。通過把TCGA、ICGC和其他數(shù)據(jù)庫的樣本作為 比對參照,我們可以獲得許多罕見腫瘤的體細胞變異數(shù)據(jù)。這不僅可以幫助那些患罕見瘤的 病人,而且可以幫助深入理解生物學(xué)中的特異性。全基因組測序是研究這些罕見腫瘤的極為有效的工具,基于我們對這些腫瘤了解甚少,通過 全基因組測序可以捕獲到所有的變異,在一次測序中小到可以獲知單核苷酸位點的變異,大 到染色體重排。將全基因測序大規(guī)模應(yīng)用在腫瘤研究中,也是理所當(dāng)然了。家族性疾病基因組學(xué)研究這一點和第一條應(yīng)用(新生兒與兒科疾病預(yù)測)看起來可能很相似,但其實是另一種研究, 需要挖掘受家族性遺傳疾病影響的多譜系病因。家族性研究和病

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論