




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一 項(xiàng)目信 二 工作流 IlluminaHiseq2000實(shí)驗(yàn)流 流 流程說 單分子PacBio實(shí)驗(yàn)流 實(shí)驗(yàn)流 流程說 生物信息分析流 三 項(xiàng)目結(jié)果報(bào) 原始數(shù)據(jù)說 原始數(shù)據(jù)質(zhì) 原始數(shù)據(jù)質(zhì)量剪 數(shù)據(jù)統(tǒng) 組組 rRNA/tRNA查 .......................................................................................................................15功能注 各數(shù)據(jù)庫結(jié)果匯總 COG功能分 KEGG通路分 GO注釋統(tǒng) 四 附 附件說 文件解壓縮方 文件打開或?yàn)g覽方 .......................................................................................................................22一 項(xiàng)目信細(xì)菌組完成圖及分項(xiàng)目2013 二 工作流2.1.1流文庫構(gòu)建→→橋式PCRIllumina收集純化組利用Covaris進(jìn)行組DN段化連接A&B瓊脂糖凝膠電泳進(jìn)行片段篩選,保留一端是A接頭、一端是B接頭的氫氧化鈉變性,產(chǎn)生單鏈DN段橋式DN段的一端與引物堿基互補(bǔ),固定在上另一端隨機(jī)與附近的另外一個(gè)引物互補(bǔ),也被固定住,形成" (bridge)PCR擴(kuò)增,產(chǎn)生DNA簇DNA擴(kuò)增子線性化成為Illumina加入改造過的DNA聚合酶和帶有4種熒光標(biāo)記的dNTP,每次循將"熒光基團(tuán)"和"終止基團(tuán)"化學(xué)切割,恢復(fù)3'端粘性,繼續(xù)聚合第二個(gè)核苷酸統(tǒng)計(jì)每輪收集到的熒光信號結(jié)果,獲知模板DN段的序列單分子PacBio實(shí)驗(yàn)流DNA利用TBS380或Nanodrop2000檢測組DNA濃度,保證進(jìn)行后續(xù)實(shí)驗(yàn)的DNA質(zhì)量足夠高(無降解單分子建片段化:利用G-tubes方法將組DNA處理成8-10k的片段環(huán)”)的結(jié)構(gòu),稱為SMRTBell,如下圖;單分子將文庫單鏈環(huán)退火,結(jié)合到固定的ZMW(zero- waveguides,零模波導(dǎo)孔)底部的聚合酶上結(jié)合完成即可上機(jī),原理如下圖在一個(gè)反應(yīng)管(SMRTCell:單分子實(shí)時(shí)反應(yīng)孔中有許多圓形納米小孔,即上面提到的ZM(零模波導(dǎo)孔),外徑100多納米,比檢測激光波長?。〝?shù)百納米),激光從底部打上去后不能小孔進(jìn)入上方溶液區(qū),能量被限制在一個(gè)小范圍(體積20*1021L)里,正好足夠覆蓋需要檢測的部分,使得信號僅來自這個(gè)小反應(yīng)區(qū)域,孔外過多游離核苷酸單體依然留在中,將背景降到最低。單個(gè)ZMW底部固定有一個(gè)結(jié)合了模板DNA的聚合酶,當(dāng)加入反應(yīng)試劑后,每個(gè)堿基配對后會發(fā)出相應(yīng)的光并被檢測。一個(gè)SMRTCell中有15萬個(gè)ZMW,每個(gè)孔中有一個(gè)單分子DNA鏈在高速。原始檢測數(shù)據(jù)的結(jié)果,每一個(gè)堿基即顯示為一個(gè)脈沖峰,每分鐘>100個(gè)堿基的速度,配上高分辨率的光學(xué)檢測系統(tǒng),就能實(shí)時(shí)檢進(jìn)行檢測。單分子質(zhì)量評與第二代中單堿基質(zhì)量表示方法類似,Q10表示90%的準(zhǔn)確度,20表示99%的準(zhǔn)確度,以此類推。單分子公司和的文獻(xiàn)表明,單個(gè)堿基被5個(gè)單分子覆蓋,該堿基的準(zhǔn)確度達(dá)到99%。本項(xiàng)目涉及到的生物信息學(xué)分析內(nèi)容見下表(√打勾部分 √√√COG注√√GO注√KEGG注√N(yùn)r注√√GIgbk文件提交到三 項(xiàng)目結(jié)果報(bào)(8~10kb,IlluminaHiseq2000得到的原始圖像數(shù)據(jù)經(jīng)過BaseCalling轉(zhuǎn)化為序列數(shù)據(jù),結(jié)果以FASTQ文件格式@HWI-ST531R:144:D11RDACXX:4:1101:1212:19461:N:0:ATTCCT+HWI-ST531R:144:D11RDACXX:4:1101:1212:1946每條read包含4行信息,其中第一行和第三行分別表示read名稱和ID(其中,第一行以“@”開頭而第三行以“+”開頭;第三行中ID可以省略,但“+”不能省略),第二行為read的堿基序列,第四行是第二行中序列的每個(gè)堿基所對應(yīng)的質(zhì)量值。為方便保存和共享各產(chǎn)生的高通量數(shù)據(jù),NCBI數(shù)據(jù)中心建立了大容量的數(shù)據(jù)庫equenceReadArchive, nlmnih./Traces/sra)來存放共享的原始數(shù)據(jù)。通過生物信息統(tǒng)計(jì)學(xué)的方法,對所有reads的每個(gè)circle進(jìn)行堿基分布和質(zhì)量波動進(jìn)行統(tǒng)計(jì),可以直觀的反映出樣本的質(zhì)量和文庫構(gòu)建質(zhì)量。下面是本項(xiàng)目IlluminaHiseq2000原始數(shù)據(jù)的質(zhì)控圖:分別為原始數(shù)據(jù)堿基分布圖(又稱為GC偏差圖)和原始數(shù)據(jù)堿基質(zhì)量分布圖。原注:橫坐標(biāo)是reads堿基坐標(biāo),縱坐標(biāo)是所有reads的A、C、G、T、N堿基分別占的百分比。組項(xiàng)目中建 原readsreads的堿基質(zhì)量(SolexaScale40=Highest15=Lowest),圖中垂直紅線”Ⅰ”指定的范圍是所有reads堿基的綜合質(zhì)量,紅色垂直方塊是質(zhì)量的四分位值范圍,加黑粗線是質(zhì)量值的中要內(nèi)容,下圖為單分子Clean數(shù)據(jù)reads的長度分布統(tǒng)計(jì)圖:例圖單分子Clean數(shù)據(jù)序列的長度分布統(tǒng)計(jì)圖與箱線注:橫坐標(biāo)為reads的長度,縱坐標(biāo)為不同長度reads的數(shù)目,從上圖中可以看出,本次獲得的reads的長度大小主要集中分布在3000-5000bp,質(zhì)量較高,可以用于后續(xù)分析。采用IlluminaHiseq2000技術(shù)對樣品的DNA分別進(jìn)行paired-end,構(gòu)建了300bp片段文庫,由于5’端含有非AGCT修剪質(zhì)量較低的reads末端(質(zhì)量值小于舍棄去adapter及質(zhì)量修剪后長度小于25bp對經(jīng)過質(zhì)量剪切前后的數(shù)據(jù)分別進(jìn)序reads數(shù)、reads讀長、總堿基數(shù)、文庫平均長度、平均StatisticsofPacBiorawTotalreadsStatisticsofIlluminaHiseq2000rawTotalreads2,525,243,712Read3001205.14StatisticsofIlluminaHiseq2000highqualityTotalreadsPairreads12,070,497XSinglereads2,317,761,9321106.12首先,利用soapdenovo初步組裝Illumina數(shù)據(jù),然后利用blasR比對單分子數(shù)據(jù),根據(jù)比對結(jié)果對單分子數(shù)據(jù)進(jìn)行一次矯正與糾錯(cuò),目的在于減少單分子長序列中單堿基、缺失的錯(cuò)誤;最后利用糾正過的單分子數(shù)據(jù)進(jìn)行組裝,組裝原理與第一代技術(shù)類似,即序列之間的overlap關(guān)系進(jìn)行scaffold的連接,使用celera進(jìn)行后續(xù)組裝。完成所有scaffold連接以后,再次利用Illumina數(shù)據(jù)進(jìn)行校驗(yàn),同時(shí)進(jìn)行g(shù)apclosing的工作,使用為GapCloser(soapdenovo相關(guān))。詳細(xì)的組裝算法原理請見下圖:(方法參考:KorenSMCSchatzetal2012Hybriderrorcorrectionanddenovoassemblyofsingle-moleculesequencingreads."NatBiotechnol30(7):693-700.)No.ofallscaffoldsBasesinallscaffolds
12,095,396G+C N No.ofall Basesinall 2,092,092注:N50、N90長度的概念:將各個(gè)序列按長度大小排序,從大至小逐一掃描各個(gè)序列的長度值,進(jìn)行累加,當(dāng)50%N50值,N90值亦同理。N50、N90長度值比平均長度更能準(zhǔn)確表示拼接序列的好壞。Contig:群,拼接基于reads之間的overlap區(qū)而拼在一起的序列,中間沒有GapScaffold:框架序列,基于paired-end或mate-pair文庫的序列信息,確定contigs之間的順序關(guān)系,將contigs按順序排列在一起形成的更長序列,即為scaffold,中間可能有Gap(NNNNN……)分別利用RNAmmer和tRNAscan-SE對組中包含的rRNA和tRNA進(jìn)行,統(tǒng)計(jì)結(jié)果見下表tRNAAntiSP-SP-SP-SP--SP-6-利用Glimmer 詳見附件predict 下的*gff,的核苷酸序列詳見附件predict 下的*ffn,對應(yīng)的氨基酸文件詳見附件predict 下的*faa。結(jié)果的統(tǒng)計(jì)見下表,分別為數(shù)量,總長度,GC含量,占組百分比,平均長度,間區(qū)長度,間區(qū)GC含量及間區(qū)占組百分比等。GeneGene1,807,923GCcontentingeneGeneaverage831Gene1.037genesperIntergeneticregion287,473GCcontentinintergenetic各數(shù)據(jù)庫結(jié)果匯總將的蛋白序列分別與Nr、genes、string和GO數(shù)據(jù)庫進(jìn)行blastp比對(BLAST2.2.24+),從而獲*.annotation.xlsx NameoftheQuery Orf LengthoftheQuery NameoftheTopHitfrom NR庫中比對到的top DescriptionabouttheTopHitfrom NR庫中比對到的top PercentageofSimilarBasesintheTopHigh-ScoringSegmentPairfromNR
NR庫中比對到的top NameofTheTopHitfrom Strings庫中比對到的top目標(biāo)序 DescriptionAboutTheTopHitfrom Strings庫中比對到的top目標(biāo)序 PercentageofSimilarBasesInTheHigh-ScoringSegmentPairfrom
Strings庫中比對到的top目標(biāo)序 ClustersofOrthologousGroupsof EukaryoticOrthologous Non-SupervisedOrthologous KO號或 NameoftheKEGG COG是ClustersofOrthologousGroupsofproteins的縮寫( nih./COG/)。COG是在對已完成組的物種的蛋白質(zhì)序列進(jìn)行相互比較的基礎(chǔ)上構(gòu)建的,COG數(shù)據(jù)庫選取的物種包括各個(gè)主要的系通過與string數(shù)據(jù)庫進(jìn)行blastp比對,可以獲得所對應(yīng)的COG注釋結(jié)果,并根據(jù)COG注釋結(jié)果對蛋COGannotation/COG_KOG/stringv8.3。樣品的組蛋白進(jìn)行COG功能歸類后的統(tǒng)計(jì)結(jié)果如下圖所示例圖COG功能分類統(tǒng)計(jì)KEGG(KyotoEncyclopediaofGenesandGenomes,和組百科全書, KEGG將從NCBI等數(shù)據(jù)庫中獲得的包括完整和部分的組序列及其序列于KEGGgenes數(shù)據(jù)庫胞周期以及疾病相關(guān)通路等。此外,KEGGLIGAND數(shù)據(jù)庫中也收集了各種化學(xué)分子、酶以及酶促反應(yīng)等相關(guān)信在物體內(nèi),產(chǎn)物不是孤存在而自發(fā)揮作的,同物之間通有序的互協(xié)調(diào)一起行KEGG數(shù)據(jù)庫中豐富的通路信息將有助于從系統(tǒng)水平去了解的生物學(xué)功能,例如代謝途徑、遺傳信息傳遞以及細(xì)胞學(xué)過程等一些復(fù)雜的生物過程。運(yùn)用BLAST算法(blastx/blastp2.2.24+)將所獲得的與KEGG的數(shù)據(jù)庫(GENES)進(jìn)行比對,根據(jù)比對得到的KO可以獲得相應(yīng)參與的具體生物學(xué)通路。KEGG數(shù)據(jù)庫注釋結(jié)果詳見pathway.txt:每個(gè)比對到的KO、KO名字以及數(shù)據(jù)庫 pathways/*html:所有例圖KEGG通路數(shù)據(jù)庫中MAPKSignaling例圖KEGG通路數(shù)據(jù)庫中MAPKSignaling(KO)分類體系(序列高度相似,并在同一條通有相似功能的蛋白質(zhì)被歸為一組KO,而白色背景的產(chǎn)物則不在KO分類體系之列,綠色表示本次所研究能夠注釋到這些產(chǎn)物上(即認(rèn)為具有與該節(jié)點(diǎn)基因產(chǎn)物相同或相似的功能;圓形節(jié)點(diǎn)表示化合物(即底物或產(chǎn)物;白色背景圓角長方形表示與本通路相關(guān)聯(lián)的其他通路。箭頭說明:酶反應(yīng)方向或信息傳遞方向等;實(shí)線表示直接作用,虛線表示間接作用。詳細(xì)說明請參見:。GO是本體論GeneOntology的縮寫(見 要花費(fèi)大量的時(shí)間和精力去分析生物學(xué)術(shù)語之間的聯(lián)系,而GeneOntology項(xiàng)目的目的就是為了標(biāo)準(zhǔn)化這些生物學(xué)術(shù)語,方便生物學(xué)家之間的相互交流。GO注釋包括3個(gè)方面的內(nèi)容:Cellularcomponent:thepartsofacelloritsextracellularMolecularfunction:theelementalactivitiesofageneproductatthemolecularlevel,suchasbindingorBiologicalprocess:operationsorsetsofmoleculareventswithadefinedbeginningandend,pertinenttothefunctioningofintegratedlivingunits:cells,tissues,ans,andanisms.因此,GO注釋更加便于理解背后所代表的生物學(xué)意義。通過blast2go對blast結(jié)果進(jìn)行了注釋分析,詳細(xì)的統(tǒng)計(jì)圖表見附件 ,下圖為GO統(tǒng)計(jì)圖例例圖GO功能注釋統(tǒng)計(jì)分布同源分采用OrthoMCL對所有參與分析的物種的氨基酸(或核苷酸)序列進(jìn)行比對,選取一定閾值(閾值一般在30%~80%之間,視具體項(xiàng)目情況而定)進(jìn)行相似性聚類,獲得同源的列表。統(tǒng)計(jì)每一個(gè)蛋白聚類cuser的物種分布情況,可以進(jìn)行屬內(nèi)或種內(nèi)的泛組、組的研究。下表為六個(gè)菌株進(jìn)行種內(nèi)同源分析的列表(例表:D、E、F在每個(gè)蛋白聚類內(nèi)的詳細(xì)的信息。全組進(jìn)化樹構(gòu)在同源分析的基礎(chǔ)上,選取參與分析的物種都含有且為單一拷貝的同源(避免旁系同源蛋白的干擾,對這些同源進(jìn)行多序列比對(采用musce,,版本號:v3.7,將所有比齊后的同源串聯(lián)起來獲得全組水平上的比對結(jié)果,該結(jié)果后續(xù)可用多種算法進(jìn)行全組進(jìn)化樹的構(gòu)建(MEGA。例圖基于NJ法構(gòu)建的組進(jìn)化采用mummer或者ACT,進(jìn)行兩個(gè)組或多個(gè)組序列的共線性分析。共線性分析可以從宏觀清晰地顯示組水平上的、缺失、翻轉(zhuǎn)、易位等現(xiàn)象,下圖是兩個(gè)菌株組序列的共線性分析的mummer圖(例圖。例圖組共線性分析例組圈圖可以全面展示組的特征,如在正、反義鏈上的分布情況、的COG功能分類情況、GC含量、組島、同源等。將各種信息綜合展示在一張組圈圖中,可以使對菌株組的特本分析采用Circos(,版本號:v0.62)進(jìn)行組圈圖的繪制,下圖為傳統(tǒng)經(jīng)典的例 注:圈圖的最外面一圈為組大小的標(biāo)識,每一個(gè)刻度為0.5Mb;第二圈和第三圈為正鏈、負(fù)鏈上的CDS,不同的顏色表組平均GC含量,峰值越高表示與平均GC含量差值越大,向內(nèi)的藍(lán)色部分表示該區(qū)域GC含量低于全組平均GC含鏈越更傾向于轉(zhuǎn)錄CDS,為負(fù)值時(shí)負(fù)鏈更傾向于轉(zhuǎn)錄CDS(圈圖的形式是靈活多變的,以上只是最傳統(tǒng)的形式)。組GeneBank提交數(shù)據(jù)文件生成及提交列提交的GeneBank格式文件展示:GI利用已獲得的組gbk文件,基于不同的GI島對菌株中包含的GI島序列進(jìn)行,注:藍(lán)色和橘黃色線代表兩種不同的GI島結(jié)果,紅色表示不同的整合結(jié)果,第二圈的峰狀圖表示組的GC含量分布情況。四 附 ||-- ||-- ||--*.scaf 拼接好的scaffold||-- 將scaffold序列拆分為contig|--rRNA ||--* ||--*rRNA ||-- ||-- tRNA的詳細(xì)信息,包含一級序列和二級結(jié)構(gòu) ||-- ||--* ||--*faa 信息:orf、所在的contig序列,在contig上的起始、終止位置 ||--*annotation ||-- 存放與nr庫blastp結(jié)果的文件|||-- (|||--*.nr.blast ||--COG_KOG|||--cog.listorf對應(yīng)COG|KOG|NOG號|||--cog.sumary|||--orf比對stringsCOG、KOGNOG的具體信息|||--|||--||-- |||--*kegg_table |||--*.pathway_table |||--*.png、*html ||--GO ||每個(gè)orfGO號||||orf比對GO庫中某GO的具體功能信息|||--Comparative ||--Orthologous |||-- |||--orthomcl_spe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 六一活動送公仔活動方案
- 六月公司團(tuán)體趣味活動方案
- 蘭州拉面節(jié)日活動方案
- 共享單車市場活動方案
- 共享客廳活動方案
- 共享繪本玩具館活動方案
- 雅思中文考試試題及答案
- 關(guān)于冬奧繪畫活動方案
- 關(guān)于小學(xué)生憲法活動方案
- 助推醫(yī)院高質(zhì)量發(fā)展的策略及實(shí)施路徑
- 護(hù)理職稱課件
- 2025年發(fā)展對象考試題題庫及答案
- 檳榔轉(zhuǎn)讓合同協(xié)議書
- 2025上半年山東文旅集團(tuán)有限公司直屬企業(yè)招聘88人筆試參考題庫附帶答案詳解
- 自動跟蹤定位射流滅火系統(tǒng)設(shè)計(jì)與實(shí)施及驗(yàn)收標(biāo)準(zhǔn)化研究
- 大學(xué)財(cái)務(wù)會計(jì)試題及答案
- 《臨床精準(zhǔn)用血培訓(xùn)》課件
- 中小學(xué)學(xué)校校服采購自檢自查報(bào)告
- 南京二模 南京市2025屆高三年級第二次模擬考試 數(shù)學(xué)試卷
- 《AIGC應(yīng)用實(shí)戰(zhàn):寫作、繪圖、視頻制作、直播》-課件 第七章 即夢的使用方法;第八章 AI直播
- 《外國文學(xué)》課件-說不盡的莎士比亞教學(xué)課件:《麥克白》
評論
0/150
提交評論