下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、二代測(cè)序:堿基平衡性與barcode選擇2015-02-01 / YellowTree / #NGS #測(cè)序技術(shù) #堿基平衡性 #barcode堿基平衡性堿基復(fù)雜度與堿基多樣性是一個(gè)意思;復(fù)雜度高,堿基即平衡。低多樣性(low diversity)即堿 基不平衡,指堿基的組成太單純了,種類少。堿基復(fù)雜度本來無關(guān)緊要,從前除了設(shè)計(jì)PCR 的時(shí)候考慮高GC(GC-rich)以外,基本沒人思考這個(gè)問題,沒人覺得這是一個(gè)問題。隨著 Illumina的二代測(cè)序技術(shù)風(fēng)靡全球,獨(dú)占鰲頭,這個(gè)不起眼的概念意外地變得重要起來。一、概念對(duì)于一個(gè)基因來說,它所包含的堿基種類越多,則堿基復(fù)雜度越高;如果各種堿基的百分
2、含 量越接近一致,則堿基組成越平衡。假設(shè)一個(gè)DNA片段,它的全部堿基都是A,AAAAAAAAAAAAAAAAAAAAAAAA顯然其堿基組 成是極度不平衡的。DNA堿基有4種:AGCT。所以堿基最平衡的情況就是:A=%G=%C=%T=25%,比如這樣的DNA 片段:AGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT以上是從縱的方面講的。對(duì)于二代測(cè)序,更重要的是橫的方面。假設(shè)12個(gè)基因整整齊齊站 成一排,第一個(gè)位置的12個(gè)堿基如果都是A,復(fù)雜度太低,嚴(yán)重不平衡;如果A和G各有 6個(gè),雖然平衡了,但是復(fù)雜度還是不夠;如果AGCT各有3個(gè),最復(fù)雜,也最平衡;如果 A3個(gè)G4個(gè)C4個(gè),T1
3、個(gè),雖然復(fù)雜,但是嚴(yán)重不平衡。二、影響4張濾色片,在4個(gè)波長(zhǎng)處收集信號(hào),然后合成,進(jìn)行cluster定位及其他運(yùn)算。如果缺少一 種堿基,該波長(zhǎng)的照片就是全黑的,沒有信號(hào),無法完成圖片合并以及cluster定位,導(dǎo)致 數(shù)據(jù)浪費(fèi)。需要特別注意堿基復(fù)雜度的二代測(cè)序應(yīng)用:PCR產(chǎn)物測(cè)序,特別是用于鑒定細(xì)菌、真菌以及 其他物種的16S rRNAPCR產(chǎn)物測(cè)序;小RNA測(cè)序;甲基化測(cè)序。三、增加堿基復(fù)雜度的方法文庫:把不同的文庫混合在一起。如果沒有其他文庫,那么摻入人基因組DNA文庫、人外顯子組文庫或者PhiX標(biāo)準(zhǔn)品。這些 都是已知堿基平衡的。引物:對(duì)于PCR產(chǎn)物來說,只要引物長(zhǎng)度不同,就能自然錯(cuò)開,增加
4、堿基復(fù)雜度。采用多對(duì)序列不同的引物來完成擴(kuò)增,然后將產(chǎn)物混合在一起。Barcodes:仔細(xì)挑選barcode組合,確保每個(gè)位置都有3-4種堿基且堿基分布均勻。barcode 選擇很多情況下,我們需要把多個(gè)樣本混合在一起,在同一個(gè)通道(lane)里完成測(cè)序。像轉(zhuǎn)錄組 測(cè)序、miRNA測(cè)序、IncRNA測(cè)序、ChIP測(cè)序等等,通常每個(gè)樣本所需要的數(shù)據(jù)量都比較少, 遠(yuǎn)少于HiSeq 一個(gè)通道的產(chǎn)出能力,混合樣本是非常常見。以轉(zhuǎn)錄組測(cè)序?yàn)槔?,一個(gè)樣本測(cè) 序60 M reads (8G PF data),就能夠滿足絕大部分研究所需。而HiSeq2500-PE125的一條通 道,使用V4試劑,數(shù)據(jù)產(chǎn)出48
5、0 M reads。為了充分利用測(cè)序儀產(chǎn)能,節(jié)約成本,需要把 78個(gè)RNA樣本混合起來。為了能夠把測(cè)序數(shù)據(jù)按樣本分離(de-multiplexing),在構(gòu)建文庫(library)的時(shí)候,需要用不 同的標(biāo)簽序列(index,也叫barcode)對(duì)文庫進(jìn)行標(biāo)記。只有文庫作了記號(hào),數(shù)據(jù)才能區(qū)分。 Barcode的選擇是一門技術(shù)活。如果barcode組合不佳,標(biāo)簽序列測(cè)序質(zhì)量下降,部分或者 全部標(biāo)簽堿基識(shí)別不正確,將導(dǎo)致部分?jǐn)?shù)據(jù)無法歸屬到任何一個(gè)樣本,成為undetermined 數(shù)據(jù),造成浪費(fèi)。一、如何判斷barcode組合好壞堿基平衡。好的barcode組合必須是“4種堿基達(dá)到平衡”的,或者說堿
6、基復(fù)雜度高。具體 就是:在一組barcode的每一個(gè)位置,同時(shí)存在A、G、C、T四種堿基,不缺少任何一種堿基;這4種堿基的比例接近,最好各14,分別為25%左右,沒有任何一種堿基特別多或者特 別少。激光平衡。受客觀條件限制試劑盒提供的barcode種類有限有些barcode已經(jīng)被其他樣本占用,導(dǎo)致可選的余地受限制,這就導(dǎo)致barcode組合經(jīng)常 無法達(dá)到理想的堿基平衡要求。退而求其次,要力?!凹t綠激光達(dá)到平衡”。在所有型號(hào)的Illumina測(cè)序儀中,A和C兩種堿基共用一種激光,由波長(zhǎng)660 nm的紅激光 激發(fā);G和T共用一種激光,由波長(zhǎng)532 nm的綠激光激發(fā)。對(duì)于一組barcode的每一個(gè)位
7、 置,如果A+C的總數(shù)與G+T的總數(shù)相接近,可以在一定程度上彌補(bǔ)堿基不平衡的負(fù)面作 用。3、激光平衡是次優(yōu)選擇,不得已而為之。它雖然可以在一定程度上提高barcode測(cè)序質(zhì)量, 減少de-multiplexing出問題的可能性,但是并不是說,只要激光平衡了,測(cè)序數(shù)據(jù)的分離就 一定不受影響。4、如果barcode組合堿基也不平衡,激光也不平衡,則de-multiplexing風(fēng)險(xiǎn)非常高。二、Barcode組合舉例好的組合。Illumina推薦的12個(gè)樣本barcode組合如下。編號(hào) 序列01 ATC ACG02 CGA TGT03 TTA GGC04 TGA CCA05 ACA GTG06 GC
8、C AAT07 CAG ATC08 ACTTGA09 GATCAGTAG CTTGGCTACCTT GTA為例,A:G:C:T=3:3:3:3=1:1:1:1。實(shí)際上,該barcode組合每個(gè)位置的堿基比例都接近1:1,堿 基平衡度近乎完美。不好的組合下面的組合有缺陷。比如說,第1個(gè)位置只有A和C兩種堿基,A、C都屬于紅激光,導(dǎo)致 綠激光沒有信號(hào),堿基和激光都不平衡。AGT TCCACT GATACG AGCACT CCTCAA AAGCAA CCACAC CAG三、Barcode堿基不平衡的后果如果barcode組合的堿基組成不平衡,會(huì)導(dǎo)致測(cè)序進(jìn)行到這些堿基時(shí),軟件對(duì)測(cè)序信號(hào)的處 理出現(xiàn)障礙
9、,不能準(zhǔn)確地識(shí)別這些堿基(base-calling),表現(xiàn)為QV值降低,Q30曲線波動(dòng)。 在這種情況下,運(yùn)用生物信息軟件對(duì)測(cè)序數(shù)據(jù)進(jìn)行數(shù)據(jù)分離(de-multiplexing)出現(xiàn)困難, 部分?jǐn)?shù)據(jù)不能準(zhǔn)確分離,成為undetermined數(shù)據(jù)的一部分,造成undetermined數(shù)據(jù)增多, 可分離的數(shù)據(jù)減少。如果測(cè)序數(shù)據(jù)的總量很多,遠(yuǎn)大于全部樣本數(shù)據(jù)量期望值的總和,則問題有可能不那么嚴(yán)重, 全部或者大部分樣本仍然可能分離到足夠的數(shù)據(jù)量。萬一樣本性質(zhì)特殊,反應(yīng)效率低;或者混合樣本之間競(jìng)爭(zhēng)和抑制嚴(yán)重,導(dǎo)致測(cè)序數(shù)據(jù)總量在 期望值附近,余量很少;或者其中個(gè)別樣本數(shù)據(jù)量特別少,這時(shí)如果undetermi
10、ned數(shù)據(jù)比 例過高,就會(huì)導(dǎo)致部分或者全部樣本的數(shù)據(jù)量不夠用?;旌蠘颖狙a(bǔ)數(shù)據(jù)是一個(gè)非常麻煩的問題,成本極高。如果一組樣本中只有個(gè)別樣本需要補(bǔ)數(shù) 據(jù),由于文庫是混合在一起的,其他樣本也不得不跟著重測(cè)一次。這是困難之一。困難之二, 如果數(shù)據(jù)缺口比較小,本來可以與其他樣本混合,搭個(gè)便車,可是,進(jìn)行第二次混合的時(shí)候, 經(jīng)常會(huì)遇到barcode沖突或者堿基不平衡,拼lane非常困難,往往要等很長(zhǎng)時(shí)間,才有合適 的機(jī)會(huì)。四、實(shí)驗(yàn)證明de-multiplexing成功,該barcode組合今后是否一定好用如果barcode組合堿基平衡,則無論樣本怎么變,該組合一定好用。如果barcode組合的堿基組成不理想
11、,即使以前的實(shí)驗(yàn)證明好用,不等于今后一定好用。下 一次測(cè)序效果可能好,也可能不好。這是由于不同的項(xiàng)目樣本不同,有可能導(dǎo)致兩種后果:數(shù)據(jù)總量在期望值附近,余地不夠多,de-multiplexing后部分樣本數(shù)據(jù)量不夠;如果新的樣本本身也堿基不平衡,read 1測(cè)序質(zhì)量很差,會(huì)影響到barcode和read2的測(cè) 序質(zhì)量。當(dāng)然,情況b責(zé)任不在barcode,即使barcode很好,數(shù)據(jù)還是不夠。五、補(bǔ)救措施如果滿足以下兩個(gè)條件:混合樣本的數(shù)據(jù)總量足夠,只是由于barcode質(zhì)量不好,導(dǎo)致de-multiplexing后部分或全 部樣本數(shù)據(jù)量不夠;排除QV值低的barcode堿基后,其余質(zhì)量好的ba
12、rcode堿基仍然足夠用來區(qū)分全部樣本; 那么,可以通過改變de-multiplexing算法來為每個(gè)樣本獲得盡量多的數(shù)據(jù)。比如去掉信號(hào)識(shí) 別模糊的堿基,或者增加mismatch堿基的數(shù)目,重新運(yùn)行de-multiplexing程序。六、樣本少于4種,不可能堿基平衡,怎么辦如果樣本數(shù)少于4種,每一個(gè)位置的堿基最多只有3種,不可能堿基平衡,怎么辦呢?這時(shí)一定要保證激光平衡。Illumina推薦了 3種low-level pooling的barcode組合:2個(gè)樣本:#6 GCC AAT#12 CTT GTA3個(gè)樣本:#4 TGACCA#6 GCCAAT#12 CTTGTA6個(gè)樣本:#2 CGATGT#4 TGA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南生物機(jī)電職業(yè)技術(shù)學(xué)院《酒店?duì)I銷實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 【物理】《同一直線上二力的合成》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教版(2024)初中物理八年級(jí)下冊(cè)
- 高考物理總復(fù)習(xí)《計(jì)算題》專項(xiàng)測(cè)試卷含答案
- 重慶醫(yī)藥高等??茖W(xué)?!毒G色設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶公共運(yùn)輸職業(yè)學(xué)院《算法分析與設(shè)計(jì)A》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州電子商務(wù)職業(yè)學(xué)院《人文地理學(xué)實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江科技學(xué)院《工程地質(zhì)與地基基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國青年政治學(xué)院《第二外語日語》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州汽車工程職業(yè)學(xué)院《走近微電子》2023-2024學(xué)年第一學(xué)期期末試卷
- 小學(xué)“三定一聘”工作實(shí)施方案
- 財(cái)經(jīng)素養(yǎng)知識(shí)考試題及答案
- 2024年云南大理州鶴慶縣農(nóng)業(yè)農(nóng)村局招聘農(nóng)技人員6人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 2024年廣東高考政治真題考點(diǎn)分布匯 總- 高考政治一輪復(fù)習(xí)
- -長(zhǎng)峰醫(yī)院火災(zāi)事故教育
- 《經(jīng)濟(jì)法基礎(chǔ)》全套教學(xué)課件
- 2024年618調(diào)味品銷售數(shù)據(jù)解讀報(bào)告-星圖數(shù)據(jù)x味動(dòng)中國組委會(huì)-202406
- 雙方結(jié)清賠償協(xié)議書
- 2024年河北省中考物理試卷附答案
- 安徽省安慶四中學(xué)2024年中考猜題數(shù)學(xué)試卷含解析
- GB/T 44052-2024液壓傳動(dòng)過濾器性能特性的標(biāo)識(shí)
- PLM項(xiàng)目產(chǎn)品全生命周期建設(shè)方案
評(píng)論
0/150
提交評(píng)論