




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、單分子測序PacBio技術(shù)和應(yīng)用解決方案 一、 技術(shù)原理 SMRT:single molecular real time Sequencing PacBio RS,RS表示Real time Sequencing 關(guān)鍵之一:DNA聚合酶 基本原理:DNA聚合酶和模板結(jié)合,4色熒光標記4種堿基,經(jīng)過Watson配對后不同的堿基加入,會發(fā)出不同光,根據(jù)光的波長與峰值可判斷進入的堿基類型。和其他基本測序技術(shù)一樣,在反應(yīng)管中進行的是大規(guī)模平行的多分子反應(yīng),怎樣在其中進行單分子反應(yīng)檢測?周圍有大量的熒光標記的游離堿基,怎樣將反應(yīng)信號與周圍游離堿基的強大熒光背景區(qū)別出來? 通過一個物理現(xiàn)象解釋:ZMW(z
2、ero-mode waveguides,零模波導(dǎo)孔)。例如微波爐壁上可看到有很多密集的小孔。小孔直徑有考究,如果直徑大于微波波長,能量就會穿透面板泄露。如果孔徑小于波長,能量不會輻射外部,起保護作用。 在一個反應(yīng)管(SMRTCell:單分子實時反應(yīng)孔)中有許多這樣的圓形納米小孔,即ZMW(零模波導(dǎo)孔),外徑100多納米,比檢測激光波長小(數(shù)百納米),激光從底部打上去后不能穿透小孔進入上方溶液區(qū),能量被限制在一個小范圍(體積20X 10-21L)里,正好足夠覆蓋需要檢測的部分,使得信號僅來自這個小反應(yīng)區(qū)域,孔外過多游離核苷酸單體依然留在黑暗中,將背景降到最低。 單個ZMW底部固定有一個結(jié)合了模板
3、DNA的聚合酶,當(dāng)加入測序反應(yīng)試劑后,每個堿基配對合成后會發(fā)出相應(yīng)的光并被檢測。一個SMRTCell中有15萬個ZMW,每個孔中有一個單分子DNA鏈在高速合成,如眾星閃爍。原始檢測數(shù)據(jù)的結(jié)果,每合成一個堿基即顯示為一個脈沖峰,每分鐘100個堿基的速度,配上高分辨率的光學(xué)檢測系統(tǒng),就能實時檢進行檢測。 關(guān)鍵點之二:熒光標記位點。這是影響測序長度的非常關(guān)鍵的因素。二代測序都標記在5端甲基上,在合成過程中,熒光標記物保留在DNA鏈上,隨DNA鏈的延伸會產(chǎn)生三維空間阻力導(dǎo)致DNA鏈延長到一定程度后會出現(xiàn)錯讀。這是NGS的測序讀長僅能達到100多bp到200bp的一個原因。 PacBio平臺的堿基熒光標
4、記在3端磷酸鍵。在DNA合成過程中正確的堿基進入時,在3端磷酸鍵的標記是會隨磷酸鍵斷裂自動被打斷,標記物被棄去,亦即合成的DNA鏈不帶熒光標記,和天然的DNA鏈合成產(chǎn)物一致,可以達到很長的讀長。關(guān)鍵點之三:時空段概念 合成過程中,每次進入一個堿基,原始數(shù)據(jù)會實時地產(chǎn)生一個脈沖峰,每兩個相鄰的脈沖峰之間有一定的距離,也就是有一個時間段的概念。距離與模板上堿基是否存在修飾有關(guān),如果有堿基修飾,就像開車經(jīng)過路障時,通過速度會減慢,導(dǎo)致兩個相鄰峰之間距離加大。根據(jù)這個距離的變化,可以判斷模板相應(yīng)位點是否出現(xiàn)堿基修飾,并且結(jié)果是實時的。甲基化就是一種主要的堿基修飾,PacBio技術(shù)不僅可以提供序列信息,
5、還可提供實時信息了解模板修飾的情況,用于甲基化等堿基修飾研究。 二、 測序流程和策略 配件:SMRT cell chip(小拇指指甲蓋大小)。一條strip可以放8個SMRT cell,儀器一次可運行2條strip,共16個SMRT cell 文庫構(gòu)建試劑盒,測序試劑盒 流程和策略 1. 文庫制備 材料:全基因組DNA,或者cDNA,或者目標擴增產(chǎn)物 片段化:全基因組太大需要片段化,因為測序讀長很長,可以做很大的片段文庫(3-10kb) 連接:先把片段粘末端變成平端,兩端分別連接環(huán)狀單鏈:單鏈兩端分別與雙鏈正負鏈連接上,得到一個類似啞鈴(“套馬環(huán)”)的結(jié)構(gòu),稱為SMRT Bell。連接半小時內(nèi)
6、完成。(問題:片段化用什么方法?兩端的環(huán)狀單鏈是同一序列嗎?如何確定單鏈方向?如果兩端一樣,如何分辨正負鏈?如何排除其他連接產(chǎn)物?連接效率有多高?如何純化去掉酶?) 關(guān)于以上文庫制備問題跟NGS類似,比如用片段化儀進行片段化,加接頭等等。通過優(yōu)化的實驗protocol進行各步驟的優(yōu)化。 如此,文庫制備完成,簡單快速。無需擴增。沒有擴增偏向性,高或低GC含量區(qū)域覆蓋均勻,尤其不會湮沒稀有突變。 2 引物退火 + 聚合酶結(jié)合 當(dāng)引物與模板的單鏈環(huán)部位退火后,這個雙鏈部位就可以結(jié)合到已固定在ZWM底部的聚合酶上(問題:大分子DNA進入小孔的擴散速度?是否會存在有的ZMW沒有模板進入的情況?SMRTC
7、ell中樣本和測序反應(yīng)體系的配置都是在測序儀中程序化自動完成的,簡單快捷,標準化。會,目前的通量基于目前的進入效率,因此這方面還有提高的空間)。 3. 測序策略 萬事俱備,一旦向反應(yīng)中加入正常的離子,DNA聚合反應(yīng)開始了。模板雙鏈打開成環(huán)形,先合成正鏈,單鏈區(qū),跟著合成負鏈。聚合酶每合成一圈,對于定向目標序列,就相當(dāng)于2x覆蓋度。由于合成產(chǎn)物和天然產(chǎn)物一致,聚合酶可以持續(xù)合成很長很長的產(chǎn)物,亦即循環(huán)合成很多圈(重復(fù)多次),對于定向單分子目標序列來說就可以得到很高的覆蓋度,即獲得很多subread,這就意味著可以對非常低的頻率的片段獲得很高的準確度,這稱為環(huán)形一致序列(circle consen
8、sus)模式,該模式適用于稀有突變及需要高精確度的測序。這也是單分子測序能比NGS靈敏度更高地,高準確度地檢測到稀有突變的原理。 除了特有的環(huán)形一致序列(circle consensus)模式外,也可以通過增加同一序列的覆蓋度(在不同ZMW中)獲取高的一致性準確度。單分子覆蓋度和獲取序列一致性準確度的關(guān)系 QV 10代表90%準確度,20代表99%準確度,30代表99.9%準確度,40代表99.99%準確度,50代表99.999%準確度。由圖可見,5個單分子疊加可以得到99%準確度,10個單分子疊加可以得到99.9%準確度,15個單分子疊加可以得到99.99%,20個單分子疊加可以得到5個9的
9、準確度。類推。而對于因此可以看出,利用環(huán)形一致序列模式這個策略,對同一單分子就可以得到非常非常高的準確度。 三、 Q&A 1. 關(guān)于準確度差的說法如何解釋? 回答補充于此:單分子測序1覆蓋度的精確度為87.5,這是由于在測序過程中單個分子信號弱,偶爾會出現(xiàn)信號難于分辨的情況。出錯幾率是隨機的,和序列長度、序列組成無關(guān)。要提高準確率,只需要提高循環(huán)次數(shù),提高單分子覆蓋度即可,15個單分子疊加可以得到99.99的精確度。(問題:是否就是相當(dāng)于200bp長度目標序列,15個循環(huán)?用PCR擴增結(jié)果測序是否能通過提高重復(fù)拷貝數(shù)而提高覆蓋度,從而同時達到長片段和高度精確的目的?是,可以通過提高重復(fù)拷貝數(shù)或
10、對同一單分子環(huán)形測序兩種方式,或二者結(jié)合,達到要求的覆蓋度及準確度。)一代和二代測序的每一個反應(yīng),本來就是N個分子同時疊加反應(yīng)所得到的平均信號。如果需要很長的讀取,策略是構(gòu)建3 kb-10 kb的文庫,就可以獲得長的讀長,這就是continuous longread模式。這種模式,很長的讀長適合做全基因組序列組裝骨架。讀長分布圖。平均讀長3.1kb,top 5% 讀長大于8kb,最長讀長14.7kb。(問題:按照每分鐘100bp速度,平均30分鐘內(nèi)完成測序,最長需要2個多小時?如何平衡時間?讀最長的酶有何不同?為何能讀這么長?是序列變化,還是構(gòu)象變化,還是固定的問題?目前有標準的protoco
11、l,長片段測序推薦為90min,實時上酶反應(yīng)速度非???,100bp,讀長主要跟酶的活性保持有關(guān),主要受激光對它的損傷的影響,當(dāng)然其它如序列本身,構(gòu)象也會有一定影響。廠家還在不斷優(yōu)化聚合酶的性能,比如給聚合酶加上免受激光影響的保護基團等,進一步地提高讀長,提高測序質(zhì)量和通量)。四、 技術(shù)應(yīng)用 一種新技術(shù)的應(yīng)用,通常倚借其技術(shù)特長的優(yōu)勢。 PacBio單分子測序的技術(shù)特征 超長的讀長de novo測序中完整基因組的組裝; Target測序中多個突變位點的單倍體型檢測,復(fù)雜的多個重復(fù)片段的準確測定,長轉(zhuǎn)錄本及可變剪切體測定等等 超高測序準確度及單分子分辨率特定序列的SNP檢測,稀有突變及其頻率測定
12、動態(tài)信息可獲得甲基化等多種堿基修飾信息 1. 超長的讀長 二代測序的短處在于讀長太短。就像拼圖游戲,越碎的碎片就越難拼接。雖然提供海量的數(shù)據(jù),但是依然不足以完成全基因組拼接。去年在Nature上發(fā)表的一篇綜述文章指出,二代測序讀長太短是其技術(shù)的內(nèi)有問題(fundamental data properties),數(shù)學(xué)模式所不能解決的。算法已經(jīng)很成熟,算法再好,也不足以解決這個問題。 PacBio的超長讀長,可實現(xiàn)以相對較低的覆蓋度達到很好的序列組裝。有助于產(chǎn)生較少的重疊群,幫助全基因組組裝。還可以獲得復(fù)雜的DNA重組信息,比如由于斷裂造成的融合基因的Breakpoint,cDNA里包含的剪切,內(nèi)
13、外顯子間的關(guān)系,都需要很長的讀長幫助組裝跨越的區(qū)域。 因此,對于全基因組de novo測序來說,更適宜用組合的方法,將第三代和第二代測序方式結(jié)合。冷泉港去年宣布研發(fā)一個軟件,能將PacBio結(jié)果和二代測序結(jié)果結(jié)合。 舉例: 美國能源部對一個微生物進行測序,用二代測序最好的結(jié)果可以組裝得到58個重疊群contig.,而用PacBio可以直接得到一個contig,一步完成全基因組組裝。 轉(zhuǎn)錄本剪切變異體:可檢測出一個基因的13個剪切變異體,原因在于讀長大,跨度大。 美國農(nóng)業(yè)部對羊體內(nèi)微生物進行測序。用二代測序沒能組裝起全基因組,最少也有18個contig。用PacBio,用6K長度21x覆蓋度,可
14、以組裝成單個contig。這說明長序列測序確實可以幫助組裝。另外一個重要問題,GC%對測序覆蓋度的影響:對于二代測序技術(shù),GC含量高的地方覆蓋度低,即使再提高全基因組覆蓋度,但富含GC的區(qū)域覆蓋度還是難以提高,無法填補。這就造成用二代測序很難完成一些物種的全基因組測序的原因,或者有的全基因組測序結(jié)果存在不少洞的原因。 單分子測序平臺很適合困難基因組的測序,比如GC含量很高,AT含量很高,多堿基串聯(lián)重復(fù)(如CGG重復(fù)),普通測序技術(shù)很難獲得結(jié)果。這個平臺對這類很難測序的區(qū)域都能平穩(wěn)的測序。單分子測序結(jié)果顯示這種技術(shù)覆蓋度不隨GC含量變化而變化,曲線平穩(wěn)。均一的覆蓋度對全基因組測序的完成非常重要。
15、 舉例,全長cDNA測序結(jié)果。5端轉(zhuǎn)錄本開始,4號外顯子,5號外顯子,3UTR,polyA區(qū)。polyA區(qū)域100多個A的測序峰非常清晰。然后到套馬環(huán)區(qū),然后到PolyT 區(qū)。能測長PolyA對研究RNA的代謝有重要意義,RNA的半衰期和PolyA長度有關(guān),對其穩(wěn)定性很有意義。 中心粒測序:中心粒的一段序列有很高重復(fù),用Sanger和二代測序都很難得到結(jié)果,用PacBio能夠完成。 脆性X綜合癥的大量重復(fù)的CGG序列都可以測序。 2. 動態(tài)信息可獲得甲基化等修飾信息的例子 PacBio提供實時的測序,一能提供測序結(jié)果,即堿基的排列組合,二是可以提供基因修飾的信息(PacBio技術(shù)對甲基化的檢測
16、可參考Nature Method發(fā)表的一篇文章)其原理在于,當(dāng)聚合酶合成每一個堿基,都有一個時間段,兩個相鄰的脈沖峰之間的距離和參考序列的距離可以算一個比值,稱為IPD。當(dāng)模板堿基帶有修飾時,聚合酶會慢下來,就像行車過程中遇到路障。兩個相鄰的脈沖峰之間的距離就會延長。當(dāng)看到某個堿基IPD比例明顯大于1時,就可以推斷這個位置有修飾。 德國致命性大腸桿菌爆發(fā)事件 由于食物污染了致命性大腸桿菌而導(dǎo)致數(shù)千人出現(xiàn)了腸出血性急性腹瀉,導(dǎo)致50人死亡。3個研究小組分別對該事件中的爆發(fā)性大腸桿菌進行測序,來分析其基因型。 德國小組采用二代測序,2個樣本,參照序列比對測序,聚類分析結(jié)果得出是EHEC亞型。Pac
17、Bio與哈佛大學(xué)合作,對2711爆發(fā)株進行的de novo測序組裝。證實是EAEC亞型,結(jié)果發(fā)表在同一期的新英格蘭雜志。測序結(jié)果也發(fā)現(xiàn)基因組出現(xiàn)了一個外源嗜菌體帶入的一段基因,上面有志賀毒素基因。 PacBio小組邀請New England Biolabs公司協(xié)助對該大腸桿菌株測序結(jié)果進行甲基化方面的生物信息學(xué)分析。結(jié)果表明該基因組上確實有很多甲基化出現(xiàn)(約45000個)。通過排除法,發(fā)現(xiàn)爆發(fā)株里有CTGCAG motif特有的甲基化,還發(fā)現(xiàn)插入的外源序列中還有一段序列類似甲基化酶,可專門對CTGCAG的序列進行甲基化。對CTGCAG甲基化有關(guān)的基因表達分析,發(fā)現(xiàn)表達上調(diào)的基因包括菌毛,鞭毛體
18、和與細胞注入有關(guān)的基因,這些結(jié)果也許可能解釋為嗜菌體侵染而注入一段外源基因,其中包含一種甲基化酶,導(dǎo)致爆發(fā)株表達改變,提高對宿主吸附性,連同志賀毒素,而導(dǎo)致毒性升高。最后功能學(xué)實驗證明,將該爆發(fā)株注入兔子,同樣出現(xiàn)出血性腹瀉癥狀,而當(dāng)基因敲除這個甲基化酶,再注入兔子,癥狀消失。由此可見,正由于Pacbio的第三代測序系統(tǒng)得到堿基序列信息的同時獲得了堿基修飾的信息,我們可同時對堿基序列和堿基修飾兩方面測序信息進行分析,可以完整解釋爆發(fā)株的強毒性的基因組機制,為表觀遺傳學(xué)及疾病基因組學(xué)開辟了新的研究思路。目前該論文正在接受評議之中。 5hmC的檢測 5hmC非常重要的表觀標記,被譽為第6個堿基。是
19、細胞分化和組織發(fā)育中的重要的標記。在PacBio測序過程中發(fā)現(xiàn)IPD峰值不夠明顯,需要對其進行富集修飾。經(jīng)過富集和修飾的序列測序結(jié)果可以顯著檢測出5hmC,甚至還可以檢測到單鏈上(另一鏈不含)出現(xiàn)的5hmC(hemi-)。PacBio技術(shù)的獨到之處在于:不單可以區(qū)分5mC 和5hmC,還能識別其位于DNA的哪一條鏈上。 3. 超高測序準確度及單分子分辨率特定序列的SNP檢測,稀有突變及其頻率測定 定向測序中的SNP檢測 高精確,可做稀有SNP的檢測??梢詸z測多個SNP的單倍體型 ,即兩個臨近的SNP在同一鏈上還是在不同鏈上。由于GC含量不影響單分子測序,片段讀長長,可將靶片段準確定位到參考序列
20、上,加上單分子測序的錯誤隨機,沒有PCR引入的偏向性系統(tǒng)誤差,很容易通過提高覆蓋度得到高準確的的數(shù)據(jù)。Broad研究院經(jīng)過實驗對比得出的結(jié)論,PacBio做SNP檢測假陽性率低,在后續(xù)的SNP驗證上是最好的技術(shù)手段,該論文即將在Nature Methods上發(fā)表,可以先觀看以下Broad在今年的AGBT上的相關(guān)報道視頻: /u/UMTQ2NjcwMTEy/videos 白血病中的突變檢測實例 兩個基因融合突變造成酪氨酸激酶通路產(chǎn)生的失調(diào)。其中一個基因突變會產(chǎn)生二級突變,這種突變會導(dǎo)致病人對激酶抑制劑藥物產(chǎn)生抗藥性。激酶區(qū)域突變有兩種不同方式產(chǎn)生,一種是poly
21、colonal突變,另一種是compound 方式產(chǎn)生。不同的突變方式導(dǎo)致對不同藥物的不同抗藥性。需要有好的方法在臨床上區(qū)分兩種突變產(chǎn)生以個性化用藥。數(shù)天前(4月15日)在Nature發(fā)布的一篇文章。FLT3過去一直被認為是急性髓細胞白血?。ˋML)的有效治療靶標,可患者接受靶向FLT3新藥治療后若復(fù)發(fā)會產(chǎn)生耐藥性,導(dǎo)致對FLT3是否真正有效靶標產(chǎn)生質(zhì)疑后來出現(xiàn)很多爭議。 FLT3呈受體結(jié)構(gòu),有一段激酶區(qū)域,還有一段稱為ITD的重復(fù)序列,ITD上有很多突變,是過去藥物篩選的靶標。這個研究針對ITD突變外部的二級突變與抗藥性的關(guān)系。 研究發(fā)現(xiàn)ITD外部下游區(qū)也有很多二級突變產(chǎn)生,和抗藥性有關(guān)。二級突變產(chǎn)生的頻率很低,很難找到,所以不受重視,在很多研究中,沒有將其與抗藥性關(guān)聯(lián)起來。長度超過1kb。這個長度二代測序是測不到的。傳統(tǒng)Sanger技術(shù)可以了解突變的空間關(guān)系,但處理起來非常麻煩,還需要擴增,挑克隆。PacBio技術(shù)正好可以很容易解決這個問題。結(jié)果表明,在沒用藥前,ITD下游二級突變出現(xiàn)頻率不高,但用藥后二級突變出現(xiàn)頻率升高。8個例子中,不同的病人出現(xiàn)突變的頻率和模式是不同的,其中有的突變頻率很低,不到3%。正是由于第三代測序?qū)﹂L片段及稀有突變的高靈敏度高準確度檢測,重新證
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 體育組織人力資源與體育俱樂部治理結(jié)構(gòu)優(yōu)化考核試卷
- 交通規(guī)劃與交通基礎(chǔ)設(shè)施可持續(xù)發(fā)展評估體系構(gòu)建考核試卷
- 殺菌工藝參數(shù)優(yōu)化考核試卷
- 醫(yī)療設(shè)備能源消耗與醫(yī)療成本的關(guān)系考核試卷
- 2025年中國PET眼藥水瓶數(shù)據(jù)監(jiān)測報告
- 2025年中國A4打印紙數(shù)據(jù)監(jiān)測研究報告
- 2025年中國ADT托架數(shù)據(jù)監(jiān)測研究報告
- 2025年中國2-甲硫基吡嗪數(shù)據(jù)監(jiān)測報告
- 2025至2030年中國鮮蟹柳市場分析及競爭策略研究報告
- 2025至2030年中國附桂骨痛膠囊市場分析及競爭策略研究報告
- 廣西南寧市西鄉(xiāng)塘區(qū)2023-2024學(xué)年七年級下學(xué)期期末生物學(xué)試題(解析版)
- 司考行政法-吳鵬新講義
- 2023年山東省夏季普通高中學(xué)業(yè)水平合格考試會考生物試題及參考答案
- 2023-2024學(xué)年山東省臨沂市蘭山區(qū)八年級(下)期末數(shù)學(xué)試卷(含答案)
- 人教版語文四年級下冊期末測試卷含答案(4套)
- 中國象棋初級習(xí)題500例
- 水力分析與計算智慧樹知到期末考試答案章節(jié)答案2024年安徽水利水電職業(yè)技術(shù)學(xué)院
- MOOC 中國文化概論-華南師范大學(xué) 中國大學(xué)慕課答案
- 產(chǎn)品研發(fā)合作協(xié)議書(二篇)
- 24春國家開放大學(xué)《離散數(shù)學(xué)》大作業(yè)參考答案
- 2023-2024年天原杯全國初中學(xué)生化學(xué)競賽復(fù)賽試題(含答案)
評論
0/150
提交評論