大規(guī)模并行測序 測序數(shù)據(jù)的質(zhì)量評估_第1頁
大規(guī)模并行測序 測序數(shù)據(jù)的質(zhì)量評估_第2頁
大規(guī)模并行測序 測序數(shù)據(jù)的質(zhì)量評估_第3頁
大規(guī)模并行測序 測序數(shù)據(jù)的質(zhì)量評估_第4頁
大規(guī)模并行測序 測序數(shù)據(jù)的質(zhì)量評估_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS07.080

CCSA40

中華人民共和國國家標準

GB/TXXXXX—XXXX

`

生物技術(shù)大規(guī)模并行測序第2部分:測序

數(shù)據(jù)的質(zhì)量評估

Biotechnology—Massivelyparallelsequencing—Part2:Qualityevaluationof

sequencingdata

(ISO20397-2-2021,IDT)

(征求意見稿)

在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

GB/TXXXXX—XXXX

目次

前言...........................................................................III

1范圍.................................................................................1

2規(guī)范性引用文件.......................................................................1

3術(shù)語和定義...........................................................................1

4原始數(shù)據(jù).............................................................................5

4.1總體要求.........................................................................5

4.2原始數(shù)據(jù)文件.....................................................................5

4.3原始數(shù)據(jù)的質(zhì)量評估...............................................................6

4.3.1總體要求.....................................................................6

4.3.2基本統(tǒng)計步驟.................................................................6

4.3.3質(zhì)量指標.....................................................................6

4.4原始數(shù)據(jù)預處理...................................................................6

5序列校正與比對.......................................................................7

5.1總體要求.........................................................................7

5.2校正與比對文件格式...............................................................7

5.3測序校正和比對的質(zhì)量控制.........................................................7

5.3.1基本校正數(shù)據(jù).................................................................8

5.3.1.1總體要求.................................................................8

5.3.1.2單端測序片段比對數(shù)據(jù).....................................................8

5.3.1.3配對端測序片段比對數(shù)據(jù)...................................................8

5.3.1.4子片段的長度比對.........................................................8

5.3.2質(zhì)量指標.....................................................................8

5.3.3校正和比對質(zhì)量評估方法.......................................................9

5.4校正后處理.......................................................................9

6變異識別.............................................................................9

6.1總體要求.........................................................................9

6.2變異識別的數(shù)據(jù)文件...............................................................9

6.3變異識別的質(zhì)量指標...............................................................9

6.4假陽性變異處理..................................................................10

6.5序列注釋........................................................................10

7驗證................................................................................10

7.1總體要求........................................................................10

7.2質(zhì)量指標的驗證..................................................................10

8文件................................................................................11

附錄A(資料性)特定MPS平臺示例的質(zhì)量指標.....................................12

附錄B(資料性)按應用劃分的覆蓋范圍和讀取建議.................................13

I

GB/TXXXXX—XXXX

附錄C(資料性)序列比對和校正軟件.............................................14

II

GB/TXXXXX—XXXX

生物技術(shù)大規(guī)模并行測序第2部分:測序數(shù)據(jù)的質(zhì)量評估

1范圍

本文件明確了對質(zhì)量評估和大規(guī)模并行測序數(shù)據(jù)的整體要求和建議。涵蓋了原始數(shù)據(jù)生成過程、排

序?qū)R和變量調(diào)用。本文件還提供了MPS數(shù)據(jù)驗證和文檔化的一般指南。

本文件不適用于與重新組裝相關(guān)的任何過程。

2規(guī)范性引用文件

本文件沒有規(guī)范性引用文件。

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

適配器序列adaptersequence

適配器adapter

一種已知序列的人工寡核苷酸,可加到核酸片段的3'或5'端。

注:它提供引物位點以及其他必要的序列來對插入目的片段進行測序。

3.2

算法algorithm

完全確定的有限指令序列,通過它可以從輸入變量的值計算出輸出變量的值。

[來源:IEC60050-351:2013,351-42-27,修改——注釋已刪除]

3.3

堿基識別basecalling

將原始電信號轉(zhuǎn)化為核苷酸序列的大規(guī)模并行測序計算過程。

注:堿基識別的應用和算法的性能由測序片段讀取的準確性和一致性來確定。

3.4

生物信息學流程bioinformaticspipeline

連接在一起的不同程序、腳本或軟件片段,其中,原始數(shù)據(jù)或一個程序的輸出是下一個數(shù)據(jù)處理步

驟的輸入。

示例:堿基質(zhì)量剪切程序的輸出可作為從頭組裝程序的輸入。

3.5

捕獲效率captureefficiency

覆蓋了目標區(qū)域的所有測序序列或比對序列的百分比。

3.6

覆蓋coverage

覆蓋深度coveragedepth

在一次測序中,一個指定堿基位置被讀取的次數(shù)。

1

GB/TXXXXX—XXXX

注:覆蓋特定位置的序列數(shù)目。

3.7

覆蓋廣度coveragebreadth

在測序運行中,組裝的基因組或目標基因組在部分。

3.8

簇密度clusterdensity

每個單元(tile)中,簇的數(shù)量

注1:簇密度適用于有擴增步驟的MPS(3.30)平臺。

注2:各個測序簇來決定測序密度,在某些測序平臺上,每個測序簇起源于單個分子。

注3:簇密度通常以千/mm2表示。

3.9

循環(huán)共識序列circularconsensussequencing

測序模式,插入尺寸在滾動循環(huán)放大型反應中多次測序,導致高精度。

注:在這種模式下,可以使用來自同一分子的多個通道來實現(xiàn)更高的單分子精度。

3.10

覆蓋范圍coveragerange

在全基因組范圍內(nèi),測序深度的范圍。

3.11

CNV

拷貝數(shù)變異copynumbervariation

拷貝數(shù)變體copynumbervariant

生物基因組中一個或多個DNA片段的拷貝數(shù)的變異。

注:拷貝數(shù)變異(CNVs)是指長度至少為1000個堿基的插入、缺失、反轉(zhuǎn)和重復。

3.12

DNA

脫氧核糖核酸deoxyribonucleicacid

脫氧核糖核苷酸的聚合物,以雙鏈(dsDNA)或單鏈(ssDNA)形式出現(xiàn)。

[來源:ISO22174:2005,3.1.2]

3.13

缺失deletion

與參考序列相比,從核酸序列中丟失一個(或多個)核苷酸堿基對。

3.14

重復水平duplicationlevel

一個文庫每個序列的相同重復次數(shù)。

注:重復水平通常以不同重復程度的序列相對數(shù)目的圖形來顯示。

3.15

GC含量GCcontent

鳥嘌呤和胞嘧啶在一個或多個核酸序列4種堿基中所占的比率。

注:多核酸中鳥嘌呤和胞嘧啶的含量,通常以含氮堿基的摩爾分數(shù)(或百分比)表示??偟暮獕A基包括一個或多

個MPS測序片段的核苷酸堿基總數(shù)。

3.16

基因gene

位于染色體上編碼特定功能產(chǎn)物(RNA或蛋白質(zhì))的一段核苷酸序列。

2

GB/TXXXXX—XXXX

注1:基因是遺傳信息的基本單位。

注2:基因由經(jīng)核處理后重新排列的非連續(xù)的核酸片段組成。

注3:基因可包括或組成基因表達元件在內(nèi)的操縱子的一部分。

3.17

插入缺失標記indel

基因組DNA中插入(3.18)或缺失(3.13)的核苷酸片段。

注:缺失突變長度小于1000bp。

3.18

插入insertion

核酸序列中加入一個(或多個)核苷酸堿基對.

[來源:ISO/TS20428:2017,3.19]

3.19

測序sequencing

對核酸核酸分子的核苷酸排列順序的測定,即測定核酸分子中(腺嘌呤、鳥嘌呤、胞嘧啶、胸腺嘧

啶或尿嘧啶)的排列順序和含量。

注:序列通常從5'端到3'端表示。

[來源:ISO/TS17822-1:2020,3.19]

3.20

序列校正sequencealignment

根據(jù)相似區(qū)域排列核酸序列。

運用某種特定的數(shù)學模型或算法,找出兩個(雙序列比對)或多個序列(多序列比對)之間的最大

匹配堿基或殘基數(shù),校正的結(jié)果反應算法在多大程度上提供序列之間的相似性關(guān)系及生物學特性。

注:序列比對不需要參考基因組/參考靶標核酸區(qū)域,目的是不產(chǎn)生集合。

3.21

原始數(shù)據(jù)rawdata

由測序儀產(chǎn)生的原始測序數(shù)據(jù),未經(jīng)任何軟件預過濾與分析的數(shù)據(jù)。

3.22

核糖核酸ribonucleicacid

以雙鏈或單鏈形式存在的核糖核苷酸聚合物。

注:信使RNA(mRNA)的核苷酸序列所攜帶的遺傳信息能指導細胞中蛋白質(zhì)的合成。

3.23

核糖核苷酸ribonucleotide

核糖為戊糖成分的核苷酸,構(gòu)成RNA的基本單位。

注:核糖核苷酸分為腺嘌呤核糖核苷酸(AMP)、鳥腺嘌呤核糖核苷酸(GMP)、胞嘧啶核糖核苷酸(CMP)或尿嘧啶核糖

核苷酸(UMP)。

3.24

讀取read

序列讀取sequenceread

由測序儀讀取核苷酸序列。

注:序列讀取是對核酸堿基對序列(或堿基對概率)進行推斷,對應于一個核酸片段的全部(或部分)。測序片段可以

指MPS實驗中獲得的所有序列。

3.25

讀取類型readtype

3

GB/TXXXXX—XXXX

序列類型取決于序列讀取實驗設(shè)計和進行的方式。

示例:讀取類型包括單端、成對端、配對端、連續(xù)長讀取、循環(huán)一致。

3.26

參考序列referencesequence

一種核酸序列,作為映射序列進行比對,或作為基因和序列變異等注釋的依據(jù)。

3.27

多路分解demultiplexing

多重復合過程的反向計算,將兩個或多個樣本混合,MPS儀器一次運行即可對所有樣品進行測序。

注1:樣品混合之前需標記條形碼/索引。

注2:解多路復用是一種計算算法,基于條形碼的原始樣本,根據(jù)讀取池將其分離。

3.28

映射mapping

為構(gòu)建共識序列,根據(jù)參考序列映射核酸序列。

3.29

配對端matepairs

配對端測序片段matepairreads

末端讀取,通過將DNA樣本打斷為大片段(≥2kb)而獲得的長核酸序列片段的末端。

3.30

大規(guī)模并行測序massivelyparallelsequencing

大規(guī)模并行測序同時完成測序模板互補鏈的合成和序列數(shù)據(jù)獲取的測序技術(shù)。

注:大規(guī)模并行測序技術(shù)每次運行可同時讀取數(shù)百萬或數(shù)十億的模板DNA分子。

3.31

雙端測序片段paired-endreads

測序從DNA片段的兩端讀取。

注:在配對端測序中,該儀器對兩端序列同時進行測序,通常范圍在200-800bps之間。

3.32

質(zhì)量值qualityscore

Q值Qscore

堿基質(zhì)量值phredqualityscore

衡量給定核苷酸堿基的測序質(zhì)量。

注1:Q被下面的公式定義:

?=?10lg?···················································································(1)

式中:p是堿基識別錯誤率。

注2:質(zhì)量值為20代表錯誤率為1/100,相應的準確率為99%。

注3:質(zhì)量值越高,出錯的概率越小。較低的質(zhì)量值會導致大部分讀取無效。低質(zhì)量值也可以表示假陽性變異調(diào)用,

導致結(jié)論不準確。

3.33

運行run

測序儀從啟動到獲得原始數(shù)據(jù)的循環(huán)過程。

3.34

序列注釋sequenceannotation

對DNA、RNA或蛋白質(zhì)序列的結(jié)構(gòu)或功能方面的信息加以解釋、評價或說明的過程。

注:序列注釋可視為將數(shù)據(jù)元分配給序列。

4

GB/TXXXXX—XXXX

3.35

單端讀取single-endread

通過從DNA片段的一端讀取到另一端而獲得的序列信息。

3.36

單核苷酸變異singlenucleotidevariant

一個核酸分子中單個核苷酸的變異。

3.37

結(jié)構(gòu)性變化structuralvariation

≥1000個堿基的DNA區(qū)域,包括倒置、平衡易位或基因組不平衡。

注:常見的結(jié)構(gòu)變異類型包括拷貝數(shù)變異(缺失、插入、擴增、重復)、拷貝數(shù)中性缺失(雜合性缺失)、倒置、片段

重復和易位(平衡或不平衡)。

3.38

子讀取subread

讀取發(fā)夾適配器之間的片段。

3.39

原始測序片段剪切trimmingofrawreads

去除低質(zhì)量或污染序列的過程,同時保留MPS讀取的高質(zhì)量部分。

3.40

變異variation

序列中一個或多個核酸堿基與預期堿基之間的差異。

3.41

變量識別variantcalling

準確識別序列數(shù)據(jù)與參考序列之間差異的過程。

3.42

零模波導zeromodewaveguide

一種光波導,引導光能進入一個與光的波長相比在所有維度上都很小的體積中。

注:聚合酶被固定在ZMW的底部,通過監(jiān)測熒光的增減來測量核苷酸的摻入。

4原始數(shù)據(jù)

4.1總體要求

序列中的每個核苷酸應當匹配一個數(shù)值(堿基質(zhì)量值),若適用,該數(shù)值與堿基調(diào)用過程的推斷精

度相關(guān)。

4.2原始數(shù)據(jù)文件

序列讀取文件的生成應使用儀器特定的軟件或流程。記錄監(jiān)測的物理參數(shù),如信噪比。物理參數(shù)應

該在每次測序?qū)嶒炛袑崟r監(jiān)測。

序列讀取文件應配置為適當?shù)奈募袷?,包含每個序列讀取的編碼,相應的標識符,以及每個核苷

酸相關(guān)基本質(zhì)量值。

注:FASTQ格式(或可轉(zhuǎn)換為FASTQ格式)可作為MPS數(shù)據(jù)集質(zhì)量下游分析的標準格式。FASTQ作為一種跨平臺交換

文件格式被廣泛接受。

測序運行后生成的輸出文件和相關(guān)的質(zhì)量指標應在下游生物信息學流程使用適當?shù)能浖M行分析。

5

GB/TXXXXX—XXXX

4.3原始數(shù)據(jù)的質(zhì)量評估

4.3.1總體要求

質(zhì)量控制指標可能因MPS平臺、文庫制備方法和分析的預期用途而有所不同。

序列結(jié)果應由相關(guān)試驗人員解釋。解讀應考慮統(tǒng)計學上的重復性,符合質(zhì)量水平,達到預期目的。

使用數(shù)據(jù)處理軟件,評估數(shù)據(jù)質(zhì)量并加以剪切。

4.3.2基本統(tǒng)計步驟

應記錄基本統(tǒng)計步驟,包括但不限于以下:

a)平臺類型;

b)讀取類型;

c)庫準備工具包;

d)讀長;

e)讀取次數(shù);

f)GC總量。

4.3.3質(zhì)量指標

原始數(shù)據(jù)評估的質(zhì)量控制指標可參考但不限于:

a)序列長度分布;

b)每個序列GC含量;

c)質(zhì)量值;

1)每個堿基序列質(zhì)量;

2)每個序列質(zhì)量評分;

注1:低質(zhì)量得分表明其增加假陽性變量調(diào)用。

d)每個堿基序列內(nèi)容;

e)信噪比可接受性;

f)序列重復水平;

g)超出閾值水平;

h)集群密度;

i)全外顯子組或全基因組測序或擴增子測序的轉(zhuǎn)位/轉(zhuǎn)位比;

j)適配器速率/適配器序列污染;

k)污染物(定性、定量);

l)出錯率;

注2:包括同質(zhì)聚合物錯誤:當一個核苷酸不止一次連續(xù)出現(xiàn)在序列中,堿基識別的錯誤。

m)k-mer分析;

注3:在計算基因組學中,k-mers是指核酸序列中所有可能的(長度為k)子序列。分析k-mers的代表性,以檢測可

能存在重復DNA序列的潛在基因組錯配。

n)N片段;

注4:不確定識別的數(shù)目/百分比。

o)重復延伸和重復測序;

p)重復測序過程中的核苷酸分布。

4.4原始數(shù)據(jù)預處理

6

GB/TXXXXX—XXXX

原始數(shù)據(jù)預處理可能包括但不限于以下計算步驟(如適用):

a)去除/剪切低質(zhì)量的序列/堿基;

b)多路分解;

c)去除適配器/引物和污染物;

d)校正;

e)過濾重復測序片段;

f)剪切測序片段至特定長度;

g)CCS測序片段識別。

使用CCS數(shù)據(jù)時,需要先獲得CCS測序片段并進行過濾,再進行下游分析。

5序列校正與比對

5.1總體要求

應根據(jù)實際情況選擇序列校正和比對策略。

例如,RNA的拼接比對和RNA測序的非拼接比對策略。

校準/繪圖軟件及工具可用于校準。

校準質(zhì)量可通過使用正確的校準視圖和校準文件中提供的信息進行可視化評估。

用于不同應用的序列校正及比對軟件在附件C中。

根據(jù)參考基因組/參考目標核酸區(qū)域進行比對,并根據(jù)實驗設(shè)計合理篩選。

注1:需考慮參考基因組/參考目標核酸區(qū)域、生物體中不同品系的選擇以及隱蔽、軟隱蔽或未隱蔽基因組的選擇等

因素。

注2:開放的測序校正和比對軟件可在線使用。

5.2校正與比對文件格式

校正通常以下列文件格式保存:

a)序列校正格式(SAM)[17][24]。

注1:SAM是一種以tab分隔的文本格式,包括標頭、校正兩部分。每條比對線有11個必要校正信息,如比對位置和易

改變的或固定的特定信息的可變字段。

b)二進制校正格式(BAM)[15][17]。

注2:它是一種精簡格式,類似于二進制的SAM格式。

c)簡單的命令行比對校正(CRAM)[16]。

注3:是一種序列讀取文件格式,其是基于參考序列數(shù)據(jù),提供有損/無損壓縮模式的的運行包。

d)基因組學動態(tài)圖像專家組(MPEG-G)[3-8]。

注4:MPEG-G是一種基于基因組記錄理念的表示格式,由單個序列片段或多對序列片段組成的數(shù)據(jù)結(jié)構(gòu),及其相關(guān)測

序和比對信息;其包含詳細的校正和比對數(shù)據(jù)、單個或多個測序片段及質(zhì)量值?;蚪M記錄中能聚集和編碼的

結(jié)構(gòu)稱為訪問單位,這些結(jié)構(gòu)是可單獨訪問和檢查編碼基因組信息的單元。

注5:MPEG-G在ISO/IEC23092系列中指定。

校正文件應包含位置、方向及各個測序片段校正質(zhì)量等信息。

算法和工具適用于依靠各自應用程序的可操作校正文件。

5.3測序校正和比對的質(zhì)量控制

7

GB/TXXXXX—XXXX

5.3.1基本校正數(shù)據(jù)

5.3.1.1總體要求

獲得并記錄基本校正或比對數(shù)據(jù)。

根據(jù)實驗設(shè)計和閱讀類型的不同,基本校正或比對數(shù)據(jù)存在差異。

5.3.1.2單端測序片段比對數(shù)據(jù)

a)總讀數(shù)是指比對到參考序列或基因組的讀數(shù)。

b)未比對讀數(shù)是指未能比對到參考序列或基因組的讀數(shù)。

c)比對讀數(shù)是指與參考序列或基因組校正的測序片段。

d)特定比對讀數(shù)是指與參考序列或基因組一次精確校正的讀數(shù)。

注1:比對的特異性試具體情況而定。基于一組參數(shù)特異性比對讀取可以使用另一組比對參數(shù)進行多靶標讀取。

e)多靶標比對讀取是指校正的讀數(shù)>1時的參考序列或基因組。

注2:多靶標取決于比對環(huán)境。

5.3.1.3配對端測序片段比對數(shù)據(jù)

a)配對總數(shù)是指比對到參考序列或基因組的配對端讀數(shù)。

b)配對比對是指配對雙方被比對的配對讀數(shù)。

c)部分比對配對是指配對中只有一個配對被比對的配對讀數(shù)。

d)未比對配對是指未能比對到參考序列或基因組的配對數(shù)。

e)不正確的配對比對是指一對配對的讀取數(shù),其中一個配子比對方向錯誤。

注1:也被稱為不平衡比對

f)正確比對的配對是指配對讀長的總數(shù),其中兩個配子均以預期方向比對。

注2:也被稱為平衡比對

5.3.1.4子片段的長度比對

子片段到目標參考序列的比對長度不包括適配器序列。

5.3.2質(zhì)量指標

以下質(zhì)量控制參數(shù)適用于不同應用中:

a)校正率;

注1:低質(zhì)量比對可能由非特異性擴增、非靶標DNA污染或其他原因?qū)е隆?/p>

b)片段長度,或待測序的DNA/RNA的長度;

c)配對端測序片段插入尺寸的數(shù)據(jù)是指適配器之間測序的DNA/RNA的長度;

注2:插入尺寸分布的峰值用于質(zhì)量評估。

d)僅基于擴增的測序的重復水平;

e)對預期目的的范圍包括覆蓋深度、廣度和范圍;

注3:附件B提供了不同應用的建議覆蓋范圍清單。

f)AT/GC偏差;

注4:可通過GC含量與測序深度/覆蓋范圍的百分比來評估。

g)比對質(zhì)量值;

h)捕捉效率;

注5:捕捉效率是外顯子組測序或其他基于目標捕獲測序最重要的質(zhì)量控制參數(shù)。

8

GB/TXXXXX—XXXX

i)平均深度或中位深度,基因組在該深度測序所覆蓋的百分比;

j)不相同組裝對的數(shù)量;

k)高質(zhì)量讀長校正;

l)不匹配率;

m)一致性和準確性;

注6:一致性和準確性是基于多個測序讀長及子讀長同時與參考序列進行比對。

n)循環(huán)一致性和準確性;

注7:循環(huán)一致性和準確性是基于圍繞單個環(huán)狀模板分子的多個測序傳遞,常被用于CCS中。

o)子讀長準確性;

注8:堿基識別的比對后準確性。

5.3.3校正和比對質(zhì)量評估方法

采用基于評分的方式來評估比對質(zhì)量。

注:評分矩陣的選擇取決于具體應用。

5.4校正后處理

校正后處理包括但不限于:

a)圍繞缺失突變的局部重新排列或計算每個堿基基礎(chǔ)校正率;

b)去除重復;

c)重新校準堿基質(zhì)量值;

d)根據(jù)堿基質(zhì)量剪切后的平均讀數(shù)長度。

6變異識別

6.1總體要求

6.1.1序列變異主要有四種類型(SNV、插入缺失、CNV和SVs),為能靈敏且特異性識別,對不同

類型的序列變異應采用不同的計算方法。

6.1.2軟件工具包的范圍及所需的驗證類型取決于分析設(shè)計.

6.2變異識別的數(shù)據(jù)文件

6.2.1變異識別應使用適當?shù)囊?guī)范進行注釋。說明書應包含元信息、標題行和數(shù)據(jù)線,每條數(shù)據(jù)線包

含基因位置信息和每個位置上樣品的基因型信息。

示例1:被識別變異使用變異識別格式(VCF)進行注釋[31]。

示例2:存在說明和存儲變異識別的替代規(guī)范:

a)基因組的VCF條例;

b)序列本體基因組變異格式1.10版;

c)人類基因組變異學會,人類基因組變異學會(HGVS)簡易版15.11;

d)全球基因組學和健康聯(lián)盟(GA4GH)文件格式;

6.2.2變異文件應包括所使用的規(guī)范和版本。

6.2.3變異識別者應在目標區(qū)域內(nèi)與本地信息同時輸出、說明,變異,未識別。

6.3變異識別的質(zhì)量指標

9

GB/TXXXXX—XXXX

質(zhì)量控制指標包括但不限于(如適用):

a)變異位置的讀取覆蓋深度閾值;

b)變異質(zhì)量值;

c)鏈偏向性;

d)等位基因讀取百分比;

e)與變異識別的準確性和靈敏度有關(guān)的額外具體指標,包括但不限于:

1)變異總數(shù);

2)假陽性數(shù)量;

3)假陰性數(shù)量;

4)等位基因和基因型錯配數(shù);

5)變異/純雜合(het/hom)比率;

f)樣品間污染分析。

6.4假陽性變異處理

假陽性變異應根據(jù)幾個序列比對和變異識別相關(guān)的質(zhì)量控制指標從原始變異文件中標記或過濾。

6.5序列注釋

可對變異進行注釋,以確定其生物學意義,并實現(xiàn)功能優(yōu)化和下游解釋。

7驗證

7.1總體要求

7.1.1提供基于MPS檢測的實驗室應進行“內(nèi)部”生物信息學流程驗證。

7.1.2在驗證過程中確定試驗的性能要求,同時每檢測一個樣品需監(jiān)測試驗的性能。

7.1.3在驗證過程中應評估特定的質(zhì)量控制和質(zhì)量保證參數(shù),確定最佳性能。

7.1.4每個實驗室應定義監(jiān)測所有質(zhì)量指標的標準和手段,以確保最佳分析性能。

部分平臺推薦的質(zhì)量指標及具體值見附件A。

7.1.5實驗室應列舉具體措施,以確保在生物信息學流程中生成的每個數(shù)據(jù)文件的完整性,并對未經(jīng)

授權(quán)或非故意更改的數(shù)據(jù)文件提供警報或禁止使用。

7.1.6當對生物信息學流程中的任何進行重大更改時,均需進行補充驗證。

7.2質(zhì)量指標的驗證

7.2.1分析驗證應在分析目的明確并形成文件的基礎(chǔ)上進行。測量目的應明確且有證明文件。

7.2.2實驗室應在驗證過程中為試驗建立可接受的原始堿基識別質(zhì)量評分閾值。

7.2.3建立去除低質(zhì)量堿基的預處理方法,降低假陽性發(fā)生率。

7.2.4驗證過程中應確定試驗所包含的基因組中GC偏倚程度。

7.2.5應在驗證計劃中確定比對質(zhì)量參數(shù),并應證明該試驗僅對比對所指向的區(qū)域進行評估。若適用,

應制定步驟將測序片段過濾至非目標區(qū)域。

7.2.6應定義覆蓋范圍,使其在利益范圍內(nèi)達到足夠的靈敏度和特異性。

7.2.7根據(jù)測序目的,每個實驗室應在標準試驗條件下,建立特定區(qū)域覆蓋特征的最低標準。對于同

質(zhì)性樣本,需確認序列;可接受較低深度。在一個區(qū)域的不同調(diào)用過程中,或1%的混合樣本中的稀有

序列,均需進行深度測序。

10

GB/TXXXXX—XXXX

7.2.8在驗證階段應確定目標區(qū)域所需的覆蓋水平(覆蓋范圍)。不同應用的推薦范圍載于附件B。

7.2.9應為每次試驗建立最大重復率的可接受參數(shù)。

7.2.10建立分析流水線過濾重復測序片段,以增加可用測序數(shù)據(jù)的數(shù)量,防止等位基因發(fā)生偏倚。

7.2.11各實驗室應保證對鏈偏置的限值,并制定可替換試驗時的具體標準。

7.2.12質(zhì)量指標可參考相關(guān)標準進行驗證,這些標準具有良好特性,具有可靠的參考序列,以保證校

正及變異識別的準確性。

7.2.13推薦采用Sanger測序驗證重要的結(jié)合區(qū)域。

8文件

8.1實驗室應記錄所有MPS結(jié)果分析、解釋和報告的算法、軟件和數(shù)據(jù)庫。在整個生物信息學流程中,

每種版本都應被記錄下來,并對每個結(jié)果進行追溯。

8.2實驗室應記錄任何與默認配置不同的定制,或應說明哪些參數(shù)是定制的。

8.3若適用,應確定參考序列、版本號和詳細信息。

8.4實驗室應記錄最佳性能的質(zhì)量控制參數(shù)。

示例:在主要步驟中,實驗室將確定可接受的標準,如通過儀器指定質(zhì)量過濾器的測序片段。

8.5實驗室應記錄將一個大的變量數(shù)據(jù)集縮減為候選基因和/或變量列表的生物信息學過程。

8.6應將符合規(guī)定要求的證據(jù)形成文件。

11

GB/TXXXXX—XXXX

AA

附錄A

(資料性)

特定MPS平臺示例的質(zhì)量指標

核酸測序常用MPS平臺如下:用于質(zhì)量評估的指標如表A.1所示。

注:以全人類基因組序列為例,為每個質(zhì)量指標提供特定的值。

表A.1特定MPS的質(zhì)量指標

原始文件的格質(zhì)量分數(shù)復制適配器

平臺名稱讀長GC含量集群密度

式(H/L)率速率

illumina?a

fast.gz50bp-200bp>Q3039%-42%<10%5000000000<3%

HiSeq4000

ThermoFisherProtonTMbDAG50bp-200bp>Q2039%-42%NA60000000-80000000<3%

BGI/MGIc

fast.gz50bp-200bp>Q3039%-42%<5%150000000<3%

MGISEQ-2000

OxfordNanopore

FAST510kbp-300kbp>Q2039%-42%NA2560channelsf<3%

PromethIONd

PacBio8000000

Bam10kbp-100kbp>Q2039%-42%NA<3%

SequelIIeZMWSg

aillumina?是illumina.Inc生物技術(shù)公司的商標。本信息僅為方便使用本文檔的用戶而提供,并不構(gòu)成ISO對產(chǎn)品

名稱的認可。

bThermoFisherProtonTM是ThermoFisher科學生物技術(shù)公司的商標。本信息僅為方便使用本文檔的用戶而提供,

并不構(gòu)成ISO對產(chǎn)品名稱的認可。

cMGI是華大基因基因組測序公司的商標名。這些信息是為了方便用戶使用文件,并不構(gòu)成ISO對產(chǎn)品名稱的認可。

dOxfordNanoporePromethION是OxfordNanoporeTechnologiesLimited的商標。本信息僅為方便使用本文檔的用

戶而提供,并不構(gòu)成ISO對產(chǎn)品名稱的認可.

ePacBioSequelII是太平洋生物科技公司的商標。本信息僅為方便使用本文檔的用戶而提供,并不構(gòu)成ISO對產(chǎn)品名

稱的認可。

fOxfordNanopore采用channels作為測量單位。

gPacificBiosciences公司采用ZMWs(零模波導)進行測量。

B

B

12

GB/TXXXXX—XXXX

附錄B

(資料性)

按應用劃分的覆蓋范圍和讀取建議

表B.1列舉了各種不同應用程序的覆蓋和讀取級別。

表B.1應用程序的覆蓋范圍和讀取建議

MPS類型應用推薦范圍推薦讀取

純合的單核苷酸變異

(SNVs)-等位基因相同的基因中單核苷酸15×a-

的變化。

雜合子SNVs-單核苷酸在等位基因彼此不

全基因組測序33×

同的基因中發(fā)生變化。

核苷酸被插入或移除的基因組突變。60×

拷貝變異(CNV)-一個基因之間拷貝數(shù)的變

1×-8×

100×(3×本地閱讀覆

純合子SNVs-

蓋范圍)

全外顯子組測序

100×(13×本地閱讀覆

雜合子SNVs-

蓋范圍)

缺失突變沒有推薦-

有針對性的測序

目標區(qū)域的SNVs/SVs1000倍-10000倍-

SrRNA基因分型[23][24]-最低每個樣品100

差異表達譜-跨多個基因的基因表達的定量

-10000000-25000000

測量,以檢查不同水平

500000-1000000(針對短讀取平

RNA測序-轉(zhuǎn)錄組測序選擇性剪接-從mRNA轉(zhuǎn)錄產(chǎn)物中鑒定不同剪

-臺)

接變體。2000000-3000000(針對長讀取

平臺)

等位基因特異性表達-轉(zhuǎn)錄本的表達-受特

-50000000-100000000

定等位基因的影響。

差異表達-定量測量-小RNA表達檢測樣本中

RNA測序-小RNA-~1000000-~2000000

不同水平的表達。

(microRNA)測序

發(fā)現(xiàn)新的小RNA。-~5000000-~8000000

注1:結(jié)果可以通過互補的蛋白質(zhì)組學實驗進行驗證。

注2:建議可靠范圍為人體樣本。

a15×表示本地相同的覆蓋率,而不是整體的平均覆蓋率。此處數(shù)字代表個例。

b100×是整個外顯子組測序的總體平均覆蓋率。3×表示檢測SNP的本地覆蓋率。

c100×是整個外顯子組測序的總平均覆蓋率。15×表示檢測SNP的本地覆蓋率。此處數(shù)字代表個例。

13

GB/TXXXXX—XXXX

CC

附錄C

(資料性)

序列比對和校正軟件

表C.1列舉了序列比對和組裝軟件。

表C.1序列比對和組裝軟件

功能描述軟件/工具

比對或組裝Blast、Blat、SOAP、BWA、Bowtie2等

RNA測序中剪接連接的估計Bowtie2[25],BWA[16],HISAT2[14],STAR[15]等

可視化比對視圖BamView,IntergrativeGenmomicViewer

注1:軟件定期更新,高度依賴/與平臺、應用程序和序列數(shù)據(jù)相關(guān)。這些例子反映了2020年6月的可用性。

注2:本表所列軟件的例子均為可用的合適軟件。此信息是為了方便本文檔的用戶而提供的,并不構(gòu)成ISO對這些產(chǎn)

品的認可。

14

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1-2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起

草。

請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。

本文件由全國生化檢測標準化技術(shù)委員會(SAC/TC387)提出并歸口。

本文件等同采用ISO20397-2-2021,Biotechnology—Massivelyparallelsequencing—Part2:Quality

evaluationofsequencingdata。

本文件起草單位:

本文件主要起草人:

III

GB/TXXXXX—XXXX

生物技術(shù)大規(guī)模并行測序第2部分:測序數(shù)據(jù)的質(zhì)量評估

1范圍

本文件明確了對質(zhì)量評估和大規(guī)模并行測序數(shù)據(jù)的整體要求和建議。涵蓋了原始數(shù)據(jù)生成過程、排

序?qū)R和變量調(diào)用。本文件還提供了MPS數(shù)據(jù)驗證和文檔化的一般指南。

本文件不適用于與重新組裝相關(guān)的任何過程。

2規(guī)范性引用文件

本文件沒有規(guī)范性引用文件。

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

適配器序列adaptersequence

適配器adapter

一種已知序列的人工寡核苷酸,可加到核酸片段的3'或5'端。

注:它提供引物位點以及其他必要的序列來對插入目的片段進行測序。

3.2

算法algorithm

完全確定的有限指令序列,通過它可以從輸入變量的值計算出輸出變量的值。

[來源:IEC60050-351:2013,351-42-27,修改——注釋已刪除]

3.3

堿基識別basecalling

將原始電信號轉(zhuǎn)化為核苷酸序列的大規(guī)模并行測序計算過程。

注:堿基識別的應用和算法的性能由測序片段讀取的準確性和一致性來確定。

3.4

生物信息學流程bioinformaticspipeline

連接在一起的不同程序、腳本或軟件片段,其中,原始數(shù)據(jù)或一個程序的輸出是下一個數(shù)據(jù)處理步

驟的輸入。

示例:堿基質(zhì)量剪切程序的輸出可作為從頭組裝程序的輸入。

3.5

捕獲效率captureefficiency

覆蓋了目標區(qū)域的所有測序序列或比對序列的百分比。

3.6

覆蓋coverage

覆蓋深度coveragedepth

在一次測序中,一個指定堿基位置被讀取的次數(shù)。

1

GB/TXXXXX—XXXX

注:覆蓋特定位置的序列數(shù)目。

3.7

覆蓋廣度coveragebreadth

在測序運行中,組裝的基因組或目標基因組在部分。

3.8

簇密度clusterdensity

每個單元(tile)中,簇的數(shù)量

注1:簇密度適用于有擴增步驟的MPS(3.30)平臺。

注2:各個測序簇來決定測序密度,在某些測序平臺上,每個測序簇起源于單個分子。

注3:簇密度通常以千/mm2表示。

3.9

循環(huán)共識序列circularconsensussequencing

測序模式,插入尺寸在滾動循環(huán)放大型反應中多次測序,導致高精度。

注:在這種模式下,可以使用來自同一分子的多個通道來實現(xiàn)更高的單分子精度。

3.10

覆蓋范圍coveragerange

在全基因組范圍內(nèi),測序深度的范圍。

3.11

CNV

拷貝數(shù)變異copynumbervariation

拷貝數(shù)變體copynumbervariant

生物基因組中一個或多個DNA片段的拷貝數(shù)的變異。

注:拷貝數(shù)變異(CNVs)是指長度至少為1000個堿基的插入、缺失、反轉(zhuǎn)和重復。

3.12

DNA

脫氧核糖核酸deoxyribonucleicacid

脫氧核糖核苷酸的聚合物,以雙鏈(dsDNA)或單鏈(ssDNA)形式出現(xiàn)。

[來源:ISO22174:2005,3.1.2]

3.13

缺失deletion

與參考序列相比,從核酸序列中丟失一個(或多個)核苷酸堿基對。

3.14

重復水平duplicationlevel

一個文庫每個序列的相同重復次數(shù)。

注:重復水平通常以不同重復程度的序列相對數(shù)目的圖形來顯示。

3.15

GC含量GCcontent

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論