Illumina測序基礎(chǔ)知識_第1頁
Illumina測序基礎(chǔ)知識_第2頁
Illumina測序基礎(chǔ)知識_第3頁
Illumina測序基礎(chǔ)知識_第4頁
Illumina測序基礎(chǔ)知識_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一種要給大家講的,是它這個flowcell。Flowcell翻成中文,就叫“流動池”。我們來看這個圖片。圖片當(dāng)中,我們看到一種象載玻片大小的芯片。這個芯片里面,是做了8條通道。在這個通道的內(nèi)表面,是做了專門的化學(xué)修飾。它的化學(xué)修飾,重要是用2種DNA

引物,把它(2種DNA引物)種在玻璃表面。這兩種(DNA引物的)序列是和接下來要測序的DNA文庫的接頭序列互相補(bǔ)的。并且這2種引物是通過共價鍵,連到Flowcell上去。之因此要用共價鍵連到Flowcell上去,是由于接下來有大量的液體要流過這個Flowcell,只有有共價鍵連接的這些DNA,才不會被沖掉。這就是Flowcell。文庫制作再接下來,講一下文庫、和文庫的制作(過程)所謂的DNA文庫,事實(shí)上是許多個DNA片段,在兩頭接上了特定的DNA接頭,型成的DNA混合物。文庫有2個特點(diǎn),第1個特點(diǎn),是當(dāng)中這一段插入的DNA,它的序列是多個各樣的。第2個特點(diǎn),它的兩頭的接頭序列,是已知的,并且是人工特地加上去的。要做這個文庫,首先是把基因組DNA,用超聲波打斷。然后打斷之后,兩頭用酶把它補(bǔ)平,再用Klenow酶在3’端加上一種A堿基。然后,再用連接酶把這個接頭給連上去。連好了接頭的DNA混合物,我們就稱為一種“文庫”。英文也稱作“l(fā)ibrary”。橋式PCR做好了Library之后,就要做橋式PCR了。橋式PCR,事實(shí)上是把文庫種到芯片上去,然后進(jìn)行擴(kuò)增,這樣的一種過程。這個過程,首先是把文庫加入到芯片上,由于文庫兩頭的DNA序列,和芯片上引物是互補(bǔ)的,因此,就會產(chǎn)生互補(bǔ)雜交。雜交完了之后,我們在這里面加入dNP和聚合酶。聚合酶會從引物開始,延著模板合成出一條全新的DNA鏈來。新的這條鏈,和原來的序列是完全互補(bǔ)的。接下來,我們再加入NaOH堿溶液。DNA雙鏈在NaOH堿溶液存在下,就解鏈了。并且被液流一沖,原來的那個(模板)鏈,也就是沒有和芯片共價連接的鏈,就被沖走了。而和芯片共價連接的鏈,就被保存下來。然后,我們再在液流池里加入中性液體,重要是為了中和這個堿液,在加入中和液之后,整個環(huán)境變成中性了。這時侯,DNA鏈上的另外一端,就會和玻璃板上的第二種引物,發(fā)生互補(bǔ)雜交。接下來,我們加入酶和dNTP,聚合酶就延著第二個引物,合成出一條新鏈來;然后,我們再加堿,把2條鏈解鏈解開;然后,我們再加中和液,這時侯,DNA鏈會和新的引物雜交。再加酶,再加dNTP,又從新引物合成出新的鏈來。持續(xù)重復(fù)這一過程,DNA鏈的數(shù)量,就會以指數(shù)方式增加。制備單鏈在橋式PCR完畢之后,接下來要做的工作,就是要把合成的雙鏈,變成能夠測序的單鏈。方法是通過一種化學(xué)反映,把其中一種引物上的一種特定的基團(tuán)給切斷掉。然后,再用堿溶液來洗這個芯片。這時侯,堿讓DNA的雙鏈解鏈,那根被切斷了根的DNA鏈就被水沖掉了。留下那根共價鍵連在(芯片)上面的鏈。接下來,再加入中性溶液,然后在這個中性溶液里面加入測序引物。正式測序好,接下來正式的測序工作就開始了。那么,在測序的時侯,加入進(jìn)去的,最重要是2個東西:一種是帶熒光標(biāo)記的dNTP。而這個dNTP,它尚有一種特點(diǎn),它的3’末端是被一種疊氮基堵住的。然后,再加一種聚合酶,聚合酶就會選擇:哪一種dNTP是和原來位置上的那個堿基是互補(bǔ)的,根據(jù)互補(bǔ)性原理,把這個dNTP合成到新的這個DNA鏈上去。由于這個dNTP的3’端是被一種疊氮基團(tuán)堵住了,因此,它一種循環(huán)只能延長一種堿基。然后,它就停在那兒了。合成完了之后,就用水把多出的dNTP和酶給沖掉。沖掉之后,就放到顯微鏡下,去進(jìn)行激光掃描。根據(jù)發(fā)出來的熒光來判斷它是哪個堿基。由于4種dNTP,它每一種dNTP上面標(biāo)的熒光素都不同,根據(jù)紅、黃、藍(lán)、綠,它出來的哪種顏色,那么,就能夠倒過來推出來,這個新合成上去的堿基,是哪種堿基。由于新合成的堿基,是和原來位置(的堿基)是互補(bǔ)的,因此,又推出模板上那個堿基是哪個。這一種循環(huán)完畢之后,就加入某些化學(xué)試劑,把疊氮基團(tuán)和旁邊標(biāo)記的熒光基團(tuán)切掉。切完了之后,3’端的羥基就暴露出來。再接下來,加入新的dNTP和新的酶,然后,又延長一種堿基。新延長完一種堿基之后,把多出的酶和dNTP沖掉,再進(jìn)行一輪顯微的激光掃描,再讀一下這個堿基是什么。不停重復(fù)這個過程,能夠重復(fù)上百次,到幾百次,就能夠把上百個堿基,甚至更多堿基的序列讀出來。讀Index那么,什么是Index哪?是由于Illumina的評委會個測序量很大,往往一種樣本,用不了那么幾億條DNA。因此,科學(xué)家就想了一種方法。在文庫的接頭上做了某些標(biāo)記,每一種樣本,它有一種特定的接頭,每個接頭里面,它有一段特定的序列。這段特定的序列,我們就稱為Index。也有人把它叫做Barcode,反正,體現(xiàn)的是一種意思:這樣一段特定的序列,標(biāo)記了樣本的來源。那么,要讀這個Index的序列,先用堿把上面這根測完“Read1”的序列,把上面這根DNA鏈給解鏈掉。解鏈掉之后,再加入中性液,然后,加入“Read2”這個測序引物。Read2測序引物結(jié)合的位點(diǎn),正好,就在這個Index序列的旁邊。接下來,就進(jìn)行第2輪測序,普通來說,是讀6到8個堿基。把這6到8個堿基讀下來,我們就能夠懂得,這某一種具體的一段DNA,它來自于原始的哪個樣本。雙端測序這是Illumina的最核心的另外一種技術(shù),就是雙端測序。那么雙端測序,就是說,一根DNA鏈,除了從正向讀一遍,還能夠從DNA的負(fù)向,再讀一遍。這一下子就把Illumina測序的有效長度加了一倍。這是非常有實(shí)際用途的。那么這個倒鏈的過程,是這樣,先讓這個DNA先合成,合成出來這根互補(bǔ)鏈。有了這個互補(bǔ)鏈之后,用一種化學(xué)試劑,在原來這根鏈的根上切一下。切一下,原來這根模板鏈就掉了,剩余那根互補(bǔ)鏈。再接下來,就進(jìn)行第2端的測序。第2端的測序原理,和第一端的測序原理是同樣的。加上了“Read3”的這個引物,依次往下,一種一種堿基地往下讀。大規(guī)模平行測序那么最重要的事情是什么呢?一種點(diǎn),通過幾百個循環(huán),就讀出了幾百個堿基。但事實(shí)上,這個芯片上能夠有上億個點(diǎn),上億個“cluster”,也就是“簇”。那么上億個“cluster”,每個循環(huán),它都能夠讀出地么多序列,這是Illumina測序非常強(qiáng)大的因素。由于是成千上萬,精確說是上億上鏈都在合成,這個就得到了很大的一種測序數(shù)據(jù)量。IlluminaHiSeq測序儀的工作原理。也就是芯片上發(fā)生了這樣多變化,HiSeq是如何把這些信息給讀出來,并且把掃描出來的熒光信號,又通過如何一系列的加工,變成能夠識別的“A、C、G、T”的堿基序列的。HiSeq首先是一臺高精度的顯微光學(xué)掃描儀。然后再配上了一整套的液流系統(tǒng),和計算機(jī)軟硬件,再加溫控系統(tǒng),構(gòu)成這樣一臺測序儀。其中最核心,也是構(gòu)造最復(fù)雜的,是它的光學(xué)系統(tǒng)。前一期,我們講了,Illumina測序儀重要是靠4種dNTP分別帶有不同的熒光基團(tuán),在被激光照了之后,發(fā)出不同顏色的熒光。再通過對光的顏色的分辯,能夠判斷出終究是哪個堿基。光路構(gòu)造這里,我們要闡明一下:感光元件CCD,它本身是色盲。因此,它一定要配合濾光片,才干分辯出顏色來。那我們先來看一下,HiSeq的光路圖。左邊這兩個元器件,就是激光器。一種發(fā)出紅色激光,另一種發(fā)出綠色激光。其中紅色激光重要是激發(fā)A和C,這兩種堿基上的熒光基團(tuán);而綠色激光重要是激發(fā)G和T,這兩種堿基上的熒光基團(tuán)。紅色和綠色這兩束光,通過一面半透半反鏡,構(gòu)成一道激光。這道激光打在Flowcell上。那么請注意,F(xiàn)lowcell就放在這個位置。在Flowcell里面,結(jié)合在DNA上的那個熒光基團(tuán)在激光的照射下,就發(fā)出熒光。熒光通過3面半透半反鏡,和1面全反鏡,被分成4條光路,這4道光線,分別通過一道濾光片,這4張濾光片的濾過波長不同。這樣,這4道光在通過了濾光片之后,就變成了4種顏色不同的光線。然后,這4條顏色不同的光線,各自照在一面反射鏡上,通過反射鏡進(jìn)入到CCD。這4個CCD就統(tǒng)計到不同顏色的光線。TDI線掃描HiSeq的光線掃描是“線掃描”,和傳統(tǒng)的相機(jī)不同,傳統(tǒng)的相機(jī)是面掃描。HiSeq采用了一種特定的叫“TDI”線掃描方式,TDI是Timedelayintegration的縮寫。在HiSeq上之因此采用TDI掃描方式,由于它有非常明顯的優(yōu)點(diǎn)。第一種優(yōu)點(diǎn),就是它的掃描速度非常快,在HiSeq2500上,從Flowcell的一種Lane的一頭掃到另外一頭,也就是一種“Swath”的掃描時間,大概只有20秒種不到。第二個好處,就是它的掃描精度非常高。在最新的HiSeqV4版試劑上,它的光點(diǎn)密度,大概能夠達(dá)成每平方毫米90萬個點(diǎn),要掃描清晰這樣高密度的光點(diǎn),掃描儀的掃描精度是可想而知的。TDI掃描的第三個好處,是這種方式,能夠把Flowcell的上表面、和下表面都掃描到。Flowcell(測序芯片)接下來,我們再要具體介紹這張F(tuán)lowcell。那么,先來看一下,這張flowcell有點(diǎn)象一張載玻片,在這一張片子里面,我們能夠看到,它做了8條通道。每條通道,我們稱為一種Lane。這8個Lane之間,互相是隔絕的。每個Lane的兩端各有一種小孔。這兩個小也孔,就是液流流進(jìn)、流出的地方。每個Lane的上表面和下表面,都分別以共價鍵的方式,種了2種DNA引物。這兩種DNA引物,是與文庫接頭的兩頭序列互相補(bǔ)的。上一期(節(jié)目)我們已經(jīng)闡明了這一點(diǎn)。一種Lane里面,分成2個面,上表面、和下表面。上表面和下表面,都種了DNA引物,也都是能夠產(chǎn)生測序數(shù)據(jù)的。在每一條Lane的每一種面,又被分成了3個掃描通道,每個道被稱為一種“swath”。每條Swath是從頭終究被持續(xù)掃描的。但是它的數(shù)據(jù),在進(jìn)行數(shù)據(jù)分析的時侯,是被分割成16個小方塊。這每一種小方塊,被稱為一種“tile”。這樣一張F(tuán)lowcell,總共就是768個Tile。每個Tile在掃描的時侯,會根據(jù)4種顏色,產(chǎn)生4張照片。圖像解決掃描完了之后,就要進(jìn)行圖像解決。掃描出來的最原始的文獻(xiàn),它的格式是“.tiff”文獻(xiàn)。Tiff文獻(xiàn)統(tǒng)計了每個像素點(diǎn)上采集到的光強(qiáng)度。Tiff文獻(xiàn)的優(yōu)點(diǎn)是它是完全無損,保存了全部的原始信息。但它也有它的局限性之處。它的局限性之處就是它的這個文獻(xiàn)太大了。它的數(shù)據(jù)量很大,既不便于數(shù)據(jù)的傳輸,也不便于數(shù)據(jù)的存儲。接下來,計算機(jī)軟件就把圖像文獻(xiàn)轉(zhuǎn)化成光點(diǎn)文獻(xiàn)。光點(diǎn)文獻(xiàn)叫“.BCL”文獻(xiàn)。也就是“Basecalling”的英文縮寫。要把圖像文獻(xiàn),轉(zhuǎn)化成BCL文獻(xiàn),就是把4種顏色的4張照片,組合在一起,變成一張有4種顏色的彩色照片。這其中首先要解決的,是4張照片在空間位置上的匹配問題,由于4張照片是通過4個CCD分別拍下來的,因此,會有一定的空間上的偏差。軟件要通過對4張照片上,亮點(diǎn)互相比對,找到最適宜的、匹配的位置。這里,我們要闡明一下,如果被測的文庫是堿基不平衡的文庫,在這個空間匹配上就會碰到問題。什么叫堿基平衡呢?也就是說,在測序過程當(dāng)中,每個循環(huán),A、C、G、T四種堿基,都是比較均勻在存在的。最典型是人全基因組文庫,這是一種典型的堿基平衡文庫。那什么是堿基不平衡文庫呢?最典型的,就是PCR擴(kuò)增子產(chǎn)生的文庫。PCR擴(kuò)增子的特點(diǎn):PCR是有特定的起始位點(diǎn)的,一種特定的測序循環(huán)中,幾乎全部的片段都是同一種堿基,而剩余的3種堿基,就特別少。這在反映到照片上去的時侯,就變成:一張照片特別亮,光點(diǎn)諸多。而其它的三張照片就特別暗,上面的光點(diǎn)就極少。這時侯,要軟件做空間上的比對,軟件就會覺得困難,由于對于那幾張暗的照片,軟件很難判斷上面的光點(diǎn),與否與那張亮的照片上的光點(diǎn)真正對得上。成果,就是判斷出來的可靠性變差。最后,就是測序的數(shù)據(jù)質(zhì)量變差,有效數(shù)據(jù)量也會變少。要解決這個問題,方法是在測序過程中摻入某些堿基平衡的文庫。例如摻人全基因組文庫?;蛘咭材軌驌絀llumina提供的原則的PhiX文庫,這些都是堿基平衡文庫。它的作用,是在每個循環(huán)當(dāng)中,為每一種顏色的照片,都提供足夠多的亮點(diǎn)。這樣,它能夠彌補(bǔ)那些不平衡的文庫當(dāng)中缺亮點(diǎn)的問題。BCL文獻(xiàn)當(dāng)把4種顏色的光點(diǎn)構(gòu)成一種文獻(xiàn)之后,軟件就會生成一種“.BCL”文獻(xiàn)?!?BCL”文獻(xiàn)就是光點(diǎn)文獻(xiàn),它對每個光點(diǎn),統(tǒng)計了下列的內(nèi)容。首先一種光點(diǎn)處在哪個Lane里面。另首先,這個光點(diǎn)在這個Lane的哪個Tile里面。第3,就是這個亮點(diǎn)在這個Tile的X軸和Y軸的座標(biāo)位置。第4,是統(tǒng)計了這個光點(diǎn)當(dāng)中“紅、黃、藍(lán)、綠”四種光的對應(yīng)的光強(qiáng)。這個圖是BCL文獻(xiàn)的一種示意圖。事實(shí)上,BCL文獻(xiàn)是二進(jìn)制文獻(xiàn),無法拿來直接閱讀。也正是由于BCL文獻(xiàn)難于閱讀,并且很難改動,因此,BCL文獻(xiàn)幾乎不存在做假的可能。在測序過程當(dāng)中,有許多客戶會規(guī)定測序公司提供原始的測序數(shù)據(jù),如果客戶是包Lane、或者包Flowcell的,普通測序公司是能夠提供BCL文獻(xiàn)的??蛻粼谀玫紹CL文獻(xiàn)之后,能夠用“BCL2FASTQ”這個軟件,把BCL文獻(xiàn)轉(zhuǎn)化成FASTQ序列語文獻(xiàn)。以此,客戶能夠來驗(yàn)證,測序公司提供的數(shù)據(jù)與否是原始的,與否是真實(shí)的。再說一下最初生成的那個tiff文獻(xiàn)。tiff文獻(xiàn)實(shí)在太大了,因此,測序儀在測序過程中,只把tiff文獻(xiàn)作為中間文獻(xiàn)。最后是把這個tiff文獻(xiàn)刪掉的。如果客戶想要原始的圖像文獻(xiàn),在HiSeqV4之前,能夠讓測序公司保存“.CIF”文獻(xiàn)。CIF文獻(xiàn)是一種彩色圖案的向量文獻(xiàn),它的優(yōu)點(diǎn)是比tiff文獻(xiàn)的數(shù)據(jù)量小諸多。測序公司把CIF文獻(xiàn)給客戶之后,客戶就能夠看到原始的圖像文獻(xiàn)了。但是,請注意:在HiSeq升級到V4之后,保存CIF文獻(xiàn)的這個選項(xiàng)是被取消掉了。因此,對于要測V4Lane的客戶來說,是拿不到CIF文獻(xiàn)了。堿基識別接下來,我們講一下堿基識別。我們之前講:4種dNTP,各標(biāo)一種熒光基團(tuán),紅、黃、藍(lán)、綠,四種顏色,根據(jù)顏色來判斷堿基種類。這個事實(shí)上是一種簡化了的說法。實(shí)際狀況,要比這個復(fù)雜得多。來看這個圖,這是2種熒素的熒光的波長圖。我們會發(fā)現(xiàn),這兩種熒光色,它發(fā)出來的發(fā)射光,它在波長上是有交疊的。在X的這個位置,重要是綠色熒光素的奉獻(xiàn),但是藍(lán)色熒光素,也有少量奉獻(xiàn)。而在Y這個波長位置,藍(lán)色熒光素是做了重要奉獻(xiàn),但是綠色熒光素,也有少量供獻(xiàn)。在實(shí)際測序過程中,是4種熒光素發(fā)出的亮,互相有交疊,互相之間的交系,變得更加復(fù)雜。那么,現(xiàn)在我們要做的事情,是把A、C、G、T,4種熒光素的奉獻(xiàn)給拆開。首先,我們就要擬定4種熒光素在4個被測波優(yōu)點(diǎn)的奉獻(xiàn)率。我們能夠看一下,這個表,就是4種熒光素,在4個波長分別有不同的奉獻(xiàn)率。這樣就構(gòu)成一種4X4的奉獻(xiàn)率表格。我們在實(shí)際的分析當(dāng)中,等于解一種4元1次、4聯(lián)方程。由于是4個未知數(shù),又是4個方程,因此必定是能夠解出來的。說解方程,有點(diǎn)復(fù)雜。那么我們來打一種比方。讓大家來理解這個事情。假設(shè)有一家飯店,它有4個熟客:甲、乙、丙、丁。它日常又提供4道菜:豬肉、白菜、黃瓜、花生。大廚懂得:甲最愛吃豬肉、乙最愛吃白菜、丙最愛吃黃瓜、丁最愛吃花生,每個人來了飯店之后,重要吃自己最愛吃的,也會吃些別的菜,但別的菜都吃得不是太多。那么這個大廚不到前臺,看不到今天來的客人。如果,這個大廚想要懂得今天來的客人是誰,他有什么方法呢?看今天哪個菜被吃掉得最多。如果今天的菜被吃掉的最多的是豬肉,那他能夠大致地判斷,今天是甲來過了;如果他看到今天被吃掉的菜,最多的是白菜,很可能是乙來過了;那么其它的,道理也是同樣的。但愿這個例子能夠幫大家來理解一下,這4個熒光和4種堿基的判讀的關(guān)系。Phasing和Prephasing接下來,我們再講一下,Phasing和Prephasing。在Illumina的測序過程當(dāng)中,一種簇,大概有5千個到1萬個分子。但是在邊合成、邊測序的過程當(dāng)中,每一步酶反映,抱負(fù)狀況下,應(yīng)當(dāng)這5千個分子都延長1個堿基。但實(shí)際狀況,總有少量分子沒有完畢延長反映。也就是說,總有少量的分子會掉隊(duì),我們稱這種掉隊(duì)的現(xiàn)象叫“phasing”。Phasing重要是由于酶活性局限性,所引發(fā)的。如圖所示,掉隊(duì)的這個分子,它所發(fā)出的熒光信號,和大部隊(duì)所發(fā)出的熒光信號是不同的。這個循環(huán)的次數(shù)越多,掉隊(duì)的分子就越多。因此,測序越到背面,它Phasing的分子數(shù)就越多。最后,信號的可靠性就越差。除了掉隊(duì)的分子,還會有一部分分子,會跑得超前,也就是在一種循環(huán)中,它延長了2個堿基。在一種循環(huán)中延長了2個堿基的最重要的因素,是dNTP上標(biāo)記的那個疊氮基團(tuán)(N3)掉了。我們懂得,疊氮基團(tuán)是非常容易從有機(jī)化合物上掉落的。當(dāng)疊氮基團(tuán)掉落之后,dNTP的3’端的羥基就暴露出來了。當(dāng)丟失了疊氮基團(tuán)的dNTP加到(合成鏈的)3’端之后,它的聚合反映不會終止,而是會繼續(xù)往前走。當(dāng)再加上了一種帶疊氮基團(tuán)的dNTP之后,這個聚合反映才停下來。這樣的后果,就是一種循環(huán),某些分子,會合成了2個堿基。也就是說比大部隊(duì)多走了一步。那么這個多走了一步的堿基,它所發(fā)出來的熒光顏色,也是和大部隊(duì)不同的。在Illumina測序過程當(dāng)中,Phasing和Prephasing是限制測長的最重要因素。也就是說,隨著循環(huán)不停進(jìn)行,越來越多的分子掉隊(duì),尚有越來越多的分子超前。然后,它們所產(chǎn)生的噪音,掩蓋了大部隊(duì)的信號的時侯,也就是測序開始測不準(zhǔn)的時侯。在HiSeq測序當(dāng)中,從第12個循環(huán)開始,在計算某個光點(diǎn)是哪種堿基的時侯,就要把Phasing和Prephasing的影響,納入考慮。Chastity和Passfilter為了對光點(diǎn)當(dāng)中熒光素的純正程度進(jìn)行描述,Illumina公司定義了個原則,叫“chastity”,Chastity的定義,就是濃度最高的那個熒光素的量,去除以“它自己+排名第二的熒光素的量的和”。不不大于0.6是一種好堿基。用更加通俗的話來說,也就是“老大”比“老二”,如果不不大于、等于“1.5倍”,這就是個“好”堿基。如果“老大”比“老二”局限性“1.5倍”,這就是個“壞堿基”。Illumina對每個read的質(zhì)量都要做一種檢查,這個檢查就叫“passfilter”檢查。檢查的原則,是看前25個堿基當(dāng)中,有幾個是“壞堿基”。如果只有一種、或者沒有壞堿基,則Passfilter就通過;如果有超出一種以上的壞堿基,Passfilter就不能通過。那我們平時說,測序服務(wù)確保多少“PFdata”,指的就是PassFilter(PF)的數(shù)據(jù)。PassFilter最重要的作用,就是把那些一種光點(diǎn)當(dāng)中,含了幾個cluster的那些點(diǎn),給去掉。只剩余那些純正的單克隆的read,作為合格的數(shù)據(jù),提交給客戶。我們平時說“PF率”,指的就是PassFilter的Reads數(shù),占總的、測到的Reads數(shù)的比例。PF率能夠從一種側(cè)面反映測序的質(zhì)量。普通來說,如果上樣密度過高,PF率就可能會下降。QualityScore,Q值一種堿基的QualityScore,也就是這個堿基的質(zhì)量分?jǐn)?shù)(Q值)。這個是通過這個堿基被誤判的可能性,換算出以10為底的對數(shù),再乘以“-10”得到的這樣一種數(shù)字。這個Q值,有點(diǎn)象我們說黃金的純度,我們說“三九金”,或者說“四九金”,就是指99.9%的純度的金子,或者是99.99%的純度的金子。我們平時說Q30,就是指一種堿基的可靠性達(dá)成99.9%?;蛘哒f,它的出錯的可能性不大于千分之一。同樣道理,我們說Q40,就是指一種堿基的可靠性是99.99%。或者說,它的出錯的可能性是萬分之一。那么,我們經(jīng)常說Q30比例,所謂的“Q30比例”,就是在全部PF數(shù)據(jù)當(dāng)中,達(dá)成、或者超出Q30質(zhì)量原則以上的數(shù)據(jù),占全部PF數(shù)據(jù)的比例,叫Q30比例。Q30比例,能夠表征一種測序過程的質(zhì)量的好壞。一種堿基的質(zhì)量分?jǐn)?shù),不是以數(shù)字方式,直接統(tǒng)計到最后的Fastq文獻(xiàn)的。而是把它的Q值,加上33,再用ASCII碼表轉(zhuǎn)換成一種字母,把這個字母錄入Fastq文獻(xiàn)。這樣做,有2個好處。如果我記2位數(shù)字,那么就占2個字節(jié),現(xiàn)在用一種字母來統(tǒng)計,只占一種字節(jié)。那(數(shù)據(jù)存儲)空間就節(jié)省了諸多。第二個好處,用ASCII碼字母表,一種堿基,只對應(yīng)一種字母;如果是用2位數(shù)字來統(tǒng)計,就有可能發(fā)生移碼錯誤。而用ASCII碼,一種字母來統(tǒng)計,就不太容易發(fā)生移碼錯誤。Fastq文獻(xiàn)在軟件做完上述全部的數(shù)據(jù)解決之后,就會生成一種Fastq文獻(xiàn)。Fastq文獻(xiàn)里,重要包含了3部分內(nèi)容。第一種部分,是每個Read的目錄信息。也就是這個Read來自于哪臺HiSeq、第幾個run、第幾個Lane、和第幾個Tile,以及在這個Tile的X、Y的什么位置。接下來,就是所測到的堿基的序列。最后,是這些堿基序列對應(yīng)的質(zhì)量分?jǐn)?shù)信息。這個,就是Fastq文獻(xiàn)。到Fastq文獻(xiàn)之后,測序儀所要完畢的工作,就完全完畢了。Pacbio是現(xiàn)在讀長最長的測序技術(shù)公司。它的讀長,最長能夠達(dá)成2萬到3萬個堿基,平均能夠達(dá)成8千多個堿基。相比于llumina和IonTorrent的幾百個堿基的讀長來說,有著明顯的優(yōu)勢。PacBio測序過程PacBio的測序原理,和別的高通量測序的原理,基本上也是同樣的。也是邊合成,邊測序。首先,這個聚合酶是固定在測序小孔的玻璃底板上。這個聚合酶又和DNA模板、測序引物是結(jié)合在一起的。然后加入帶4色熒光的dNTP底物,這些dNTP都在其磷酸基團(tuán)上被標(biāo)上了熒光基團(tuán),四種堿基、各標(biāo)一種顏色。當(dāng)一種與聚合酶正要合成的堿基一致的dNTP被酶抓住的時候,酶就會長時間地抓住這個dNTP,不讓這個dNTP漂走。這時侯,激發(fā)光從小孔的底部照進(jìn)來,打在這個被抓住的dNTP上,就會在較長時間內(nèi)發(fā)出熒光。儀器根據(jù)所拍到的熒光的顏色,就能夠來判斷,這個堿基是哪種堿基。一種循環(huán)的聚合反映發(fā)生完畢之后,焦磷酸基團(tuán)就從原來的dNTP上掉下來,由于熒光基團(tuán)是連到這個焦磷酸上的,因此這個熒光基團(tuán)也就一起掉下來了,在溶液中就會漂走。接下來,進(jìn)行第二、第三個循環(huán)……,始終進(jìn)行下去。一張芯片上有幾萬個孔,同時進(jìn)行測序,這樣一次就能夠得到幾億個堿基的序列。接下來,分幾個要點(diǎn),來闡明這個測序的過程。化學(xué)辦法和Illumina同樣,PacBio也采用了4色熒光基團(tuán)來標(biāo)記dNTP,但是PacBio的標(biāo)記和Illumina的標(biāo)記有所不同,PacBio的熒光基團(tuán)直接是標(biāo)在dNTP的3'端的磷酸基團(tuán)的末端的。這樣標(biāo)記的好處是:當(dāng)一種聚合反映的循環(huán)完畢的時侯,dNTP上的那兩個磷酸基團(tuán)就掉下,連在這個磷酸基團(tuán)上的熒光基團(tuán)也隨一塊兒掉下來。它掉下來之后,就在溶液中漂走,不會影響接下來的測序過程了。測序微孔然后,我們說一下這個測序小孔的設(shè)計。這個測序小孔叫ZeroModelWaveguide,簡稱ZMW。小孔的直徑很小,光只能在小孔中傳輸很短的距離。這個特點(diǎn)對PacBio的測序很重要。由于酶是被固定在玻璃底板上的,因此,只有互補(bǔ)的dNTP被酶抓到的時侯,這個dNTP才會較長時間地停留在離玻璃底板很近的位置。也只有這樣,才會被激發(fā)光照到,并且發(fā)出它的熒光。PacBio的光學(xué)設(shè)計中,入射光是幾百納米波長的可見光,光從小孔的底部的玻璃處照到小孔中來。這個,只有70納米。其它游離的dNTP,只會非常短暫地進(jìn)入小孔,又很快漂走。因此,這些游離dNTP帶來的的噪音(信號),就被克制在很低的水平。啞鈴狀的文庫接下來,我們說一下PacBio的建庫。PacBio的建庫是比較特別的。它的庫是在DNA片段的兩段各接一下發(fā)夾型的接頭。接好了發(fā)夾形的接頭之后,形成的文庫是一種啞鈴形的文庫。這種啞鈴形狀的文庫有個好處,那它整個分子事實(shí)上是一種圓環(huán)。在測序的過程中它能夠周而復(fù)始地進(jìn)行測序,這對于發(fā)揮PacBio的長讀長的優(yōu)勢是很有益處的。超長讀長的根本因素--單分子測序接下來,我們說一下PacBio它測序長度優(yōu)勢的來源。這個來源,是由于它測的是個單個分子。相比之下,Illumina或者IonTorrent測的都是一簇分子?;蛘哒f它們測的都是一大堆分子。當(dāng)它測一大堆分子的時侯,每個循環(huán),多多少少,總有某些分子落后;也多多少少,有些分子超前。這些落后、或者超前的分子,在每個循環(huán)里面就會給出噪音。并且,隨著循環(huán)次數(shù)越來越多,落后、和超前的分子也會越來越多,達(dá)成一定程度的時侯,噪音就會很大,大到會掩蓋掉信號。當(dāng)噪音大到掩蓋掉信號的時侯,事實(shí)上測序就測不準(zhǔn)了。相比之下,PacBio它只有一種分子,因此,它不存在同時問題。這就讓它能夠測到幾千、基至上萬個BP都能夠達(dá)成。堿基判讀精確率:87.5%接下來,我們要說一下PacBio測序的缺點(diǎn)。最大的缺點(diǎn)是對堿基的判讀不準(zhǔn)。它的錯誤率是12.5%。也就是說,它每讀8個堿基,就有一種是讀錯的。那么它重要的錯誤類型是"插入"。也就是說,它會多讀一種堿基。好在,它的這種錯誤是隨機(jī)的。也就是說,你在這個地方再讀一遍,它不一定會發(fā)生同樣的錯誤。那么,對于同一種序列,多測幾遍之后,這些偶然誤差,能夠被校正過來。讀長限制因素接下來,我們說一下限制PacBio讀長的因素。第一種因素,就是DNA鏈上出現(xiàn)了缺口。測序過程中是用激光照射來發(fā)出熒光的,因此當(dāng)強(qiáng)光長時間照射DNA鏈的時侯,DNA鏈就有可能被照斷掉,出現(xiàn)缺口。當(dāng)酶讀到這個缺口的時侯,酶就從模板鏈上掉下來。這時侯,測序就終止了。這是第一種可能。第二種可能,是光線照射狀況下,酶有可能會變性,當(dāng)酶發(fā)生了變性之后,失去了聚合酶的功效,這時侯,測序也會終止。第三個限制因素,是文庫本身的長度。由于要做片段長度不不大于20~30K的文庫,是有相稱大的困難的,因此,文庫本身的質(zhì)量,在一定程度上,也限制了PacBio的讀長。數(shù)據(jù)通量在高通量測序當(dāng)中,測序的通量,是一種很重要的技術(shù)指標(biāo)。那PacBio大根一張芯片一次能夠測到0.3~0.4G的數(shù)據(jù)。在PacBio測序中,芯片上的小孔數(shù)是第一種絕對的、限制性的因素?,F(xiàn)在的芯片,是有15萬個小孔。但這15萬個小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論