Illumina測序基礎知識_第1頁
Illumina測序基礎知識_第2頁
Illumina測序基礎知識_第3頁
Illumina測序基礎知識_第4頁
Illumina測序基礎知識_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一個要給大家講得,就是它這個flowcell。Flowcell翻成中文,就叫“流動池”。我們來瞧這個圖片。圖片當中,我們瞧到一個象載玻片大小得芯片。這個芯片里面,就是做了8條通道。在這個通道得內表面,就是做了專門得化學修飾。它得化學修飾,主要就是用2種DNA

引物,把它(2種DNA引物)種在玻璃表面。這兩種(DNA引物得)序列就是與接下來要測序得DNA文庫得接頭序列相互補得。而且這2種引物就是通過共價鍵,連到Flowcell上去。之所以要用共價鍵連到Flowcell上去,就是因為接下來有大量得液體要流過這個Flowcell,只有有共價鍵連接得這些DNA,才不會被沖掉。這就就是Flowcell。再接下來,講一下文庫、與文庫得制作(過程)所謂得DNA文庫,實際上就是許多個DNA片段,在兩頭接上了特定得DNA接頭,型成得DNA混合物。文庫有2個特點,第1個特點,就是當中這一段插入得DNA,它得序列就是各種各樣得。第2個特點,它得兩頭得接頭序列,就是已知得,而且就是人工特地加上去得。要做這個文庫,首先就是把基因組DNA,用超聲波打斷。然后打斷之后,兩頭用酶把它補平,再用Klenow酶在3’端加上一個A堿基。然后,再用連接酶把這個接頭給連上去。連好了接頭得DNA混合物,我們就稱為一個“文庫”。英文也稱作“l(fā)ibrary”。做好了Library之后,就要做橋式PCR了。橋式PCR,實際上就是把文庫種到芯片上去,然后進行擴增,這樣得一個過程。這個過程,首先就是把文庫加入到芯片上,因為文庫兩頭得DNA序列,與芯片上引物就是互補得,所以,就會產生互補雜交。雜交完了之后,我們在這里面加入dNP與聚合酶。聚合酶會從引物開始,延著模板合成出一條全新得DNA鏈來。新得這條鏈,與原來得序列就是完全互補得。接下來,我們再加入NaOH堿溶液。DNA雙鏈在NaOH堿溶液存在下,就解鏈了。而且被液流一沖,原來得那個(模板)鏈,也就就是沒有與芯片共價連接得鏈,就被沖走了。而與芯片共價連接得鏈,就被保留下來。然后,我們再在液流池里加入中性液體,主要就是為了中與這個堿液,在加入中與液之后,整個環(huán)境變成中性了。這時侯,DNA鏈上得另外一端,就會與玻璃板上得第二種引物,發(fā)生互補雜交。接下來,我們加入酶與dNTP,聚合酶就延著第二個引物,合成出一條新鏈來;然后,我們再加堿,把2條鏈解鏈解開;然后,我們再加中與液,這時侯,DNA鏈會與新得引物雜交。再加酶,再加dNTP,又從新引物合成出新得鏈來。連續(xù)重復這一過程,DNA鏈得數(shù)量,就會以指數(shù)方式增長。在橋式PCR完成之后,接下來要做得工作,就就是要把合成得雙鏈,變成可以測序得單鏈。辦法就是通過一個化學反應,把其中一個引物上得一個特定得基團給切斷掉。然后,再用堿溶液來洗這個芯片。這時侯,堿讓DNA得雙鏈解鏈,那根被切斷了根得DNA鏈就被水沖掉了。留下那根共價鍵連在(芯片)上面得鏈。接下來,再加入中性溶液,然后在這個中性溶液里面加入測序引物。好,接下來正式得測序工作就開始了。那么,在測序得時侯,加入進去得,最主要就是2個東西:一個就是帶熒光標記得dNTP。而這個dNTP,它還有一個特點,它得3’末端就是被一個疊氮基堵住得。然后,再加一個聚合酶,聚合酶就會選擇:哪一個dNTP就是與原來位置上得那個堿基就是互補得,根據(jù)互補性原理,把這個dNTP合成到新得這個DNA鏈上去。因為這個dNTP得3’端就是被一個疊氮基團堵住了,所以,它一個循環(huán)只能延長一個堿基。然后,它就停在那兒了。合成完了之后,就用水把多余得dNTP與酶給沖掉。沖掉之后,就放到顯微鏡下,去進行激光掃描。根據(jù)發(fā)出來得熒光來判斷它就是哪個堿基。因為4種dNTP,它每一種dNTP上面標得熒光素都不一樣,根據(jù)紅、黃、藍、綠,它出來得哪種顏色,那么,就可以倒過來推出來,這個新合成上去得堿基,就是哪種堿基。因為新合成得堿基,就是與原來位置(得堿基)就是互補得,所以,又推出模板上那個堿基就是哪個。這一個循環(huán)完成之后,就加入一些化學試劑,把疊氮基團與旁邊標記得熒光基團切掉。切完了之后,3’端得羥基就暴露出來。再接下來,加入新得dNTP與新得酶,然后,又延長一個堿基。新延長完一個堿基之后,把多余得酶與dNTP沖掉,再進行一輪顯微得激光掃描,再讀一下這個堿基就是什么。不斷重復這個過程,可以重復上百次,到幾百次,就可以把上百個堿基,甚至更多堿基得序列讀出來。那么,什么就是Index哪?就是因為Illumina得評委會個測序量很大,往往一個樣本,用不了那么幾億條DNA。所以,科學家就想了一個辦法。在文庫得接頭上做了一些標記,每一個樣本,它有一個特定得接頭,每個接頭里面,它有一段特定得序列。這段特定得序列,我們就稱為Index。也有人把它叫做Barcode,反正,表達得就是一個意思:這么一段特定得序列,標記了樣本得來源。那么,要讀這個Index得序列,先用堿把上面這根測完“Read1”得序列,把上面這根DNA鏈給解鏈掉。解鏈掉之后,再加入中性液,然后,加入“Read2”這個測序引物。Read2測序引物結合得位點,正好,就在這個Index序列得旁邊。接下來,就進行第2輪測序,一般來說,就是讀6到8個堿基。把這6到8個堿基讀下來,我們就可以知道,這某一個具體得一段DNA,它來自于原始得哪個樣本。這就是Illumina得最核心得另外一個技術,就就是雙端測序。那么雙端測序,就就是說,一根DNA鏈,除了從正向讀一遍,還可以從DNA得負向,再讀一遍。這一下子就把Illumina測序得有效長度加了一倍。這就是非常有實際用途得。那么這個倒鏈得過程,就是這樣,先讓這個DNA先合成,合成出來這根互補鏈。有了這個互補鏈之后,用一個化學試劑,在原來這根鏈得根上切一下。切一下,原來這根模板鏈就掉了,剩下那根互補鏈。再接下來,就進行第2端得測序。第2端得測序原理,與第一端得測序原理就是一樣得。加上了“Read3”得這個引物,依次往下,一個一個堿基地往下讀。那么最重要得事情就是什么呢?一個點,經過幾百個循環(huán),就讀出了幾百個堿基。但實際上,這個芯片上可以有上億個點,上億個“cluster”,也就就是“簇”。那么上億個“cluster”,每個循環(huán),它都可以讀出地么多序列,這就是Illumina測序非常強大得原因。因為就是成千上萬,準確說就是上億上鏈都在合成,這個就得到了很大得一個測序數(shù)據(jù)量。IlluminaHiSeq測序儀得工作原理。也就就是芯片上發(fā)生了這么多變化,HiSeq就是如何把這些信息給讀出來,并且把掃描出來得熒光信號,又通過怎樣一系列得加工,變成可以識別得“A、C、G、T”得堿基序列得。HiSeq首先就是一臺高精度得顯微光學掃描儀。然后再配上了一整套得液流系統(tǒng),與計算機軟硬件,再加溫控系統(tǒng),組成這樣一臺測序儀。其中最核心,也就是結構最復雜得,就是它得光學系統(tǒng)。前一期,我們講了,Illumina測序儀主要就是靠4種dNTP分別帶有不同得熒光基團,在被激光照了之后,發(fā)出不同顏色得熒光。再通過對光得顏色得分辯,可以判斷出到底就是哪個堿基。這里,我們要說明一下:感光元件CCD,它本身就是色盲。所以,它一定要配合濾光片,才能分辯出顏色來。那我們先來瞧一下,HiSeq得光路圖。左邊這兩個元器件,就就是激光器。一個發(fā)出紅色激光,另一個發(fā)出綠色激光。其中紅色激光主要就是激發(fā)A與C,這兩種堿基上得熒光基團;而綠色激光主要就是激發(fā)G與T,這兩種堿基上得熒光基團。紅色與綠色這兩束光,通過一面半透半反鏡,組成一道激光。這道激光打在Flowcell上。那么請注意,Flowcell就放在這個位置。在Flowcell里面,結合在DNA上得那個熒光基團在激光得照射下,就發(fā)出熒光。熒光通過3面半透半反鏡,與1面全反鏡,被分成4條光路,這4道光線,分別通過一道濾光片,這4張濾光片得濾過波長不一樣。這樣,這4道光在經過了濾光片之后,就變成了4種顏色不同得光線。然后,這4條顏色不同得光線,各自照在一面反射鏡上,通過反射鏡進入到CCD。這4個CCD就記錄到不同顏色得光線。HiSeq得光線掃描就是“線掃描”,與傳統(tǒng)得相機不一樣,傳統(tǒng)得相機就是面掃描。HiSeq采取了一種特定得叫“TDI”線掃描方式,TDI就是Timedelayintegration得縮寫。在HiSeq上之所以采取TDI掃描方式,因為它有非常明顯得優(yōu)點。第一個優(yōu)點,就就是它得掃描速度非???在HiSeq2500上,從Flowcell得一個Lane得一頭掃到另外一頭,也就就是一個“Swath”得掃描時間,大概只有20秒種不到。第二個好處,就就是它得掃描精度非常高。在最新得HiSeqV4版試劑上,它得光點密度,大概可以達到每平方毫米90萬個點,要掃描清楚這么高密度得光點,掃描儀得掃描精度就是可想而知得。TDI掃描得第三個好處,就是這種方式,可以把Flowcell得上表面、與下表面都掃描到。接下來,我們再要詳細介紹這張Flowcell。那么,先來瞧一下,這張flowcell有點象一張載玻片,在這一張片子里面,我們可以瞧到,它做了8條通道。每條通道,我們稱為一個Lane。這8個Lane之間,相互就是隔絕得。每個Lane得兩端各有一個小孔。這兩個小也孔,就就是液流流進、流出得地方。每個Lane得上表面與下表面,都分別以共價鍵得方式,種了2種DNA引物。這兩種DNA引物,就是與文庫接頭得兩頭序列相互補得。上一期(節(jié)目)我們已經說明了這一點。一個Lane里面,分成2個面,上表面、與下表面。上表面與下表面,都種了DNA引物,也都就是可以產生測序數(shù)據(jù)得。在每一條Lane得每一個面,又被分成了3個掃描通道,每個道被稱為一個“swath”。每條Swath就是從頭到底被連續(xù)掃描得。但就是它得數(shù)據(jù),在進行數(shù)據(jù)分析得時侯,就是被分割成16個小方塊。這每一個小方塊,被稱為一個“tile”。這樣一張Flowcell,總共就就是768個Tile。每個Tile在掃描得時侯,會根據(jù)4種顏色,產生4張照片。掃描完了之后,就要進行圖像處理。掃描出來得最原始得文件,它得格式就是“、tiff”文件。Tiff文件記錄了每個像素點上采集到得光強度。Tiff文件得優(yōu)點就是它就是完全無損,保留了所有得原始信息。但它也有它得不足之處。它得不足之處就就是它得這個文件太大了。它得數(shù)據(jù)量很大,既不便于數(shù)據(jù)得傳輸,也不便于數(shù)據(jù)得存儲。接下來,計算機軟件就把圖像文件轉化成光點文件。光點文件叫“、BCL”文件。也就就是“Basecalling”得英文縮寫。要把圖像文件,轉化成BCL文件,就就是把4種顏色得4張照片,組合在一起,變成一張有4種顏色得彩色照片。這其中首先要解決得,就是4張照片在空間位置上得匹配問題,因為4張照片就是通過4個CCD分別拍下來得,所以,會有一定得空間上得偏差。軟件要通過對4張照片上,亮點相互比對,找到最合適得、匹配得位置。這里,我們要說明一下,如果被測得文庫就是堿基不平衡得文庫,在這個空間匹配上就會遇到問題。什么叫堿基平衡呢?也就就是說,在測序過程當中,每個循環(huán),A、C、G、T四種堿基,都就是比較均勻在存在得。最典型就是人全基因組文庫,這就是一個典型得堿基平衡文庫。那什么就是堿基不平衡文庫呢?最典型得,就就是PCR擴增子產生得文庫。PCR擴增子得特點:PCR就是有特定得起始位點得,一個特定得測序循環(huán)中,幾乎所有得片段都就是同一種堿基,而剩下得3種堿基,就特別少。這在反映到照片上去得時侯,就變成:一張照片特別亮,光點很多。而其它得三張照片就特別暗,上面得光點就很少。這時侯,要軟件做空間上得比對,軟件就會覺得困難,因為對于那幾張暗得照片,軟件很難判斷上面得光點,就是否與那張亮得照片上得光點真正對得上。結果,就就是判斷出來得可靠性變差。最后,就就是測序得數(shù)據(jù)質量變差,有效數(shù)據(jù)量也會變少。要解決這個問題,辦法就是在測序過程中摻入一些堿基平衡得文庫。例如摻人全基因組文庫。或者也可以摻Illumina提供得標準得PhiX文庫,這些都就是堿基平衡文庫。它得作用,就是在每個循環(huán)當中,為每一種顏色得照片,都提供足夠多得亮點。這樣,它可以彌補那些不平衡得文庫當中缺亮點得問題。當把4種顏色得光點組成一個文件之后,軟件就會生成一個“、BCL”文件?!?、BCL”文件就就是光點文件,它對每個光點,記錄了以下得內容。首先一個光點處在哪個Lane里面。其次,這個光點在這個Lane得哪個Tile里面。第3,就就是這個亮點在這個Tile得X軸與Y軸得座標位置。第4,就是記錄了這個光點當中“紅、黃、藍、綠”四種光得對應得光強。這個圖就是BCL文件得一個示意圖。實際上,BCL文件就是二進制文件,無法拿來直接閱讀。也正就是因為BCL文件難于閱讀,并且很難改動,所以,BCL文件幾乎不存在做假得可能。在測序過程當中,有許多客戶會要求測序公司提供原始得測序數(shù)據(jù),如果客戶就是包Lane、或者包Flowcell得,一般測序公司就是可以提供BCL文件得。客戶在拿到BCL文件之后,可以用“BCL2FASTQ”這個軟件,把BCL文件轉化成FASTQ序列語文件。以此,客戶可以來驗證,測序公司提供得數(shù)據(jù)就是否就是原始得,就是否就是真實得。再說一下最初生成得那個tiff文件。tiff文件實在太大了,所以,測序儀在測序過程中,只把tiff文件作為中間文件。最后就是把這個tiff文件刪掉得。如果客戶想要原始得圖像文件,在HiSeqV4之前,可以讓測序公司保留“、CIF”文件。CIF文件就是一種彩色圖案得向量文件,它得優(yōu)點就是比tiff文件得數(shù)據(jù)量小很多。測序公司把CIF文件給客戶之后,客戶就可以瞧到原始得圖像文件了。但就是,請注意:在HiSeq升級到V4之后,保留CIF文件得這個選項就是被取消掉了。所以,對于要測V4Lane得客戶來說,就是拿不到CIF文件了。接下來,我們講一下堿基識別。我們之前講:4種dNTP,各標一種熒光基團,紅、黃、藍、綠,四種顏色,根據(jù)顏色來判斷堿基種類。這個實際上就是一種簡化了得說法。實際情況,要比這個復雜得多。來瞧這個圖,這就是2種熒素得熒光得波長圖。我們會發(fā)覺,這兩種熒光色,它發(fā)出來得發(fā)射光,它在波長上就是有交疊得。在X得這個位置,主要就是綠色熒光素得貢獻,但就是藍色熒光素,也有少許貢獻。而在Y這個波長位置,藍色熒光素就是做了主要貢獻,但就是綠色熒光素,也有少量供獻。在實際測序過程中,就是4種熒光素發(fā)出得亮,相互有交疊,相互之間得交系,變得更加復雜。那么,現(xiàn)在我們要做得事情,就是把A、C、G、T,4種熒光素得貢獻給拆開。首先,我們就要確定4種熒光素在4個被測波長處得貢獻率。我們可以瞧一下,這個表,就就是4種熒光素,在4個波長分別有不同得貢獻率。這樣就組成一個4X4得貢獻率表格。我們在實際得分析當中,等于解一個4元1次、4聯(lián)方程。因為就是4個未知數(shù),又就是4個方程,所以肯定就是可以解出來得。說解方程,有點復雜。那么我們來打一個比方。讓大家來理解這個事情。假設有一家飯店,它有4個熟客:甲、乙、丙、丁。它日常又提供4道菜:豬肉、白菜、黃瓜、花生。大廚知道:甲最愛吃豬肉、乙最愛吃白菜、丙最愛吃黃瓜、丁最愛吃花生,每個人來了飯店之后,主要吃自己最愛吃得,也會吃些別得菜,但別得菜都吃得不就是太多。那么這個大廚不到前臺,瞧不到今天來得客人。如果,這個大廚想要知道今天來得客人就是誰,她有什么辦法呢?瞧今天哪個菜被吃掉得最多。如果今天得菜被吃掉得最多得就是豬肉,那她可以大致地判斷,今天就是甲來過了;如果她瞧到今天被吃掉得菜,最多得就是白菜,很可能就是乙來過了;那么其它得,道理也就是一樣得。希望這個例子可以幫大家來理解一下,這4個熒光與4種堿基得判讀得關系。接下來,我們再講一下,Phasing與Prephasing。在Illumina得測序過程當中,一個簇,大概有5千個到1萬個分子。但就是在邊合成、邊測序得過程當中,每一步酶反應,理想情況下,應該這5千個分子都延長1個堿基。但實際情況,總有少量分子沒有完成延長反應。也就就是說,總有少量得分子會掉隊,我們稱這種掉隊得現(xiàn)象叫“phasing”。Phasing主要就是由于酶活性不足,所引起得。如圖所示,掉隊得這個分子,它所發(fā)出得熒光信號,與大部隊所發(fā)出得熒光信號就是不一樣得。這個循環(huán)得次數(shù)越多,掉隊得分子就越多。所以,測序越到后面,它Phasing得分子數(shù)就越多。最后,信號得可靠性就越差。除了掉隊得分子,還會有一部分分子,會跑得超前,也就就是在一個循環(huán)中,它延長了2個堿基。在一個循環(huán)中延長了2個堿基得最主要得原因,就是dNTP上標記得那個疊氮基團(N3)掉了。我們知道,疊氮基團就是非常容易從有機化合物上掉落得。當疊氮基團掉落之后,dNTP得3’端得羥基就暴露出來了。當丟失了疊氮基團得dNTP加到(合成鏈得)3’端之后,它得聚合反應不會終止,而就是會繼續(xù)往前走。當再加上了一個帶疊氮基團得dNTP之后,這個聚合反應才停下來。這樣得后果,就就是一個循環(huán),某些分子,會合成了2個堿基。也就就是說比大部隊多走了一步。那么這個多走了一步得堿基,它所發(fā)出來得熒光顏色,也就是與大部隊不一樣得。在Illumina測序過程當中,Phasing與Prephasing就是限制測長得最主要原因。也就就是說,隨著循環(huán)不斷進行,越來越多得分子掉隊,還有越來越多得分子超前。然后,它們所產生得噪音,掩蓋了大部隊得信號得時侯,也就就是測序開始測不準得時侯。在HiSeq測序當中,從第12個循環(huán)開始,在計算某個光點就是哪種堿基得時侯,就要把Phasing與Prephasing得影響,納入考慮。為了對光點當中熒光素得純粹程度進行描述,Illumina公司定義了個標準,叫“chastity”,Chastity得定義,就就是濃度最高得那個熒光素得量,去除以“它自己+排名第二得熒光素得量得與”。大于0、6就是一個好堿基。用更加通俗得話來說,也就就是“老大”比“老二”,如果大于、等于“1、5倍”,這就就是個“好”堿基。如果“老大”比“老二”不足“1、5倍”,這就就是個“壞堿基”。Illumina對每個read得質量都要做一個檢驗,這個檢驗就叫“passfilter”檢驗。檢驗得標準,就是瞧前25個堿基當中,有幾個就是“壞堿基”。如果只有一個、或者沒有壞堿基,則Passfilter就通過;如果有超過一個以上得壞堿基,Passfilter就不能通過。那我們平時說,測序服務保證多少“PFdata”,指得就就是PassFilter(PF)得數(shù)據(jù)。PassFilter最主要得作用,就就是把那些一個光點當中,含了幾個cluster得那些點,給去掉。只剩下那些純粹得單克隆得read,作為合格得數(shù)據(jù),提交給客戶。我們平時說“PF率”,指得就就是PassFilter得Reads數(shù),占總得、測到得Reads數(shù)得比例。PF率可以從一個側面反映測序得質量。一般來說,如果上樣密度過高,PF率就可能會下降。一個堿基得QualityScore,也就就是這個堿基得質量分數(shù)(Q值)。這個就是通過這個堿基被誤判得可能性,換算出以10為底得對數(shù),再乘以“-10”得到得這樣一個數(shù)字。這個Q值,有點象我們說黃金得純度,我們說“三九金”,或者說“四九金”,就就是指99、9%得純度得金子,或者就是99、99%得純度得金子。我們平時說Q30,就就是指一個堿基得可靠性達到99、9%?;蛘哒f,它得出錯得可能性小于千分之一。同樣道理,我們說Q40,就就是指一個堿基得可靠性就是99、99%?;蛘哒f,它得出錯得可能性就是萬分之一。那么,我們經常說Q30比例,所謂得“Q30比例”,就就是在全部PF數(shù)據(jù)當中,達到、或者超過Q30質量標準以上得數(shù)據(jù),占所有PF數(shù)據(jù)得比例,叫Q30比例。Q30比例,可以表征一個測序過程得質量得好壞。一個堿基得質量分數(shù),不就是以數(shù)字方式,直接記錄到最后得Fastq文件得。而就是把它得Q值,加上33,再用ASCII碼表轉換成一個字母,把這個字母錄入Fastq文件。這樣做,有2個好處。如果我記2位數(shù)字,那么就占2個字節(jié),現(xiàn)在用一個字母來記錄,只占一個字節(jié)。那(數(shù)據(jù)存儲)空間就節(jié)省了很多。第二個好處,用ASCII碼字母表,一個堿基,只對應一個字母;如果就是用2位數(shù)字來記錄,就有可能發(fā)生移碼錯誤。而用ASCII碼,一個字母來記錄,就不太容易發(fā)生移碼錯誤。在軟件做完上述所有得數(shù)據(jù)處理之后,就會生成一個Fastq文件。Fastq文件里,主要包含了3部分內容。第一個部分,就是每個Read得目錄信息。也就就是這個Read來自于哪臺HiSeq、第幾個run、第幾個Lane、與第幾個Tile,以及在這個Tile得X、Y得什么位置。接下來,就就是所測到得堿基得序列。最后,就是這些堿基序列對應得質量分數(shù)信息。這個,就就是Fastq文件。到Fastq文件之后,測序儀所要完成得工作,就完全完成了。Pacbio就是目前讀長最長得測序技術公司。它得讀長,最長可以達到2萬到3萬個堿基,平均可以達到8千多個堿基。相比于llumina與IonTorrent得幾百個堿基得讀長來說,有著明顯得優(yōu)勢。PacBio得測序原理,與別得高通量測序得原理,基本上也就是一樣得。也就是邊合成,邊測序。首先,這個聚合酶就是固定在測序小孔得玻璃底板上。這個聚合酶又與DNA模板、測序引物就是結合在一起得。然后加入帶4色熒光得dNTP底物,這些dNTP都在其磷酸基團上被標上了熒光基團,四種堿基、各標一種顏色。當一種與聚合酶正要合成得堿基一致得dNTP被酶抓住得時候,酶就會長時間地抓住這個dNTP,不讓這個dNTP漂走。這時侯,激發(fā)光從小孔得底部照進來,打在這個被抓住得dNTP上,就會在較長時間內發(fā)出熒光。儀器根據(jù)所拍到得熒光得顏色,就可以來判斷,這個堿基就是哪種堿基。一個循環(huán)得聚合反應發(fā)生完畢之后,焦磷酸基團就從原來得dNTP上掉下來,因為熒光基團就是連到這個焦磷酸上得,所以這個熒光基團也就一起掉下來了,在溶液中就會漂走。接下來,進行第二、第三個循環(huán)……,一直進行下去。一張芯片上有幾萬個孔,同時進行測序,這樣一次就可以得到幾億個堿基得序列。接下來,分幾個要點,來說明這個測序得過程。與Illumina一樣,PacBio也采用了4色熒光基團來標記dNTP,但就是PacBio得標記與Illumina得標記有所不同,PacBio得熒光基團直接就是標在dNTP得3'端得磷酸基團得末端得。這樣標記得好處就是:當一個聚合反應得循環(huán)完成得時侯,dNTP上得那兩個磷酸基團就掉下,連在這個磷酸基團上得熒光基團也隨一塊兒掉下來。它掉下來之后,就在溶液中漂走,不會影響接下來得測序過程了。然后,我們說一下這個測序小孔得設計。這個測序小孔叫ZeroModelWaveguide,簡稱ZMW。小孔得直徑很小,光只能在小孔中傳輸很短得距離。這個特點對PacBio得測序很重要。因為酶就是被固定在玻璃底板上得,所以,只有互補得dNTP被酶抓到得時侯,這個dNTP才會較長時間地停留在離玻璃底板很近得位置。也只有這樣,才會被激發(fā)光照到,并且發(fā)出它得熒光。PacBio得光學設計中,入射光就是幾百納米波長得可見光,光從小孔得底部得玻璃處照到小孔中來。這個,只有70納米。其它游離得dNTP,只會非常短暫地進入小孔,又很快漂走。所以,這些游離dNTP帶來得得噪音(信號),就被抑制在很低得水平。接下來,我們說一下PacBio得建庫。PacBio得建庫就是比較特別得。它得庫就是在DNA片段得兩段各接一下發(fā)夾型得接頭。接好了發(fā)夾形得接頭之后,形成得文庫就是一個啞鈴形得文庫。這種啞鈴形狀得文庫有個好處,那它整個分子實際上就是一個圓環(huán)。在測序得過程中它可以周而復始地進行測序,這對于發(fā)揮PacBio得長讀長得優(yōu)勢就是很有益處得。接下來,我們說一下PacBio它測序長度優(yōu)勢得來源。這個來源,就是因為它測得就是個單個分子。相比之下,Illumina或者IonTorrent測得都就是一簇分子?;蛘哒f它們測得都就是一大堆分子。當它測一大堆分子得時侯,每個循環(huán),多多少少,總有一些分子落后;也多多少少,有些分子超前。這些落后、或者超前得分子,在每個循環(huán)里面就會給出噪音。而且,隨著循環(huán)次數(shù)越來越多,落后、與超前得分子也會越來越多,達到一定程度得時侯,噪音就會很大,大到會掩蓋掉信號。當噪音大到掩蓋掉信號得時侯,實際上測序就測不準了。相比之下,PacBio它只有一個分子,所以,它不存在同步問題。這就讓它可以測到幾千、基至上萬個BP都可以達成。接下來,我們要說一下PacBio測序得缺點。最大得缺點就是對堿基得判讀不準。它得錯誤率就是12、5%。也就就是說,它每讀8個堿基,就有一個就是讀錯得。那么它主要得錯誤類型就是"插入"。也就就是說,它會多讀一個堿基。好在,它得這種錯誤就是隨機得。也就就是說,您在這個地方再讀一遍,它不一定會發(fā)生同樣得錯誤。那么,對于同一個序列,多測幾遍之后,這些偶然誤差,可以被校正過來。接下來,我們說一下限制PacBio讀長得因素。第一個因素,就就是DNA鏈上出現(xiàn)了缺口。測序過程中就是用激光照射來發(fā)出熒光得,所以當強光長時間照射DNA鏈得時侯,DNA鏈就有可能被照斷掉,出現(xiàn)缺口。當酶讀到這個缺口得時侯,酶就從模板鏈上掉下來。這時侯,測序就終止了。這就是第一種可能。第二種可能,就是光線照射情況下,酶有可能會變性,當酶發(fā)生了變性之后,失去了聚合酶得功能,這時侯,測序也會終止。第三個限制因素,就是文庫本身得長度。因為要做片段長度大于20~30K得文庫,就是有相當大得困難得,所以,文庫本身得質量,在一定程度上,也限制了PacBio得讀長。在高通量測序當中,測序得通量,就是一個很重要得技術指標。那PacBio大根一張芯片一次可以測到0、3~0、4G得數(shù)據(jù)。在PacBio測序中,芯片上得小孔數(shù)就是第一個絕對得、限制性得因素。目前得芯片,就是有15萬個小孔。但這15萬個小孔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論