




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、項目信 二、工作流 2.1實驗流 信息分析流 本項目生物信息學(xué)分析內(nèi) 三、項目結(jié)果報 原始數(shù) 原始數(shù)據(jù)質(zhì) 數(shù)據(jù)質(zhì)量剪切及統(tǒng) 與參考組比 轉(zhuǎn)錄組整體質(zhì)量評 核糖體RNA污染率評 飽和度分 冗余序列分 3.5.3覆蓋度分 GO功能注 KEGG通路注 表達差異分 各組樣本差異venn 差異GO注 差異KEGG注 差異表達模式聚 GO功能顯著性富集分 KEGG通路顯著性富集分 SNP分 顯著性GO有向無環(huán) 四、附 結(jié)果文件列 常用數(shù)據(jù)庫說 文件解壓縮方 文件打開或瀏覽方 ..........................................................................................................................44 2.1實驗流2.1.1實驗流程圖2.1.1試劑儀器實驗步 廠總RNA提 TRIzol? rRNA去磁力架Ribo-ZeroMagnetickitG+/G-TruseqTMRNAsampleprepTBS380CertifiedLowRangeUltraBio-cBotTruseqPEClusterKitv3-cBot-Hiseq2000TruseqSBSKitv3-Bacteria);3、離子打斷mRNA(TruseqTMRNAsampleprepKit);5、文庫富集,PCR15Agarose;8、cBot上進行橋式PCR擴增,生成clusters;9、Hiseq2500平臺,進行2*100bp地址 市浦東新 公3399號時代醫(yī)創(chuàng)園3
服 :400660傳真√ GO、KEGG注差 vennGO、KEGGpathway富集分析 √√√√√√√√√√標準分 本項目采用IlluminaHiseq 平臺完成xx細菌的轉(zhuǎn)錄組,構(gòu)建IlluminaPE文庫(~200bp)進序,對為方便數(shù)據(jù)的分析、發(fā)布和共享,llumina得到的原始圖像數(shù)據(jù)經(jīng)過asealling轉(zhuǎn)化為序列數(shù)據(jù),即FASTQ格式,得到最原始的數(shù)據(jù)文件。FASTQ格式文件可記錄所測讀段(read)的堿基及其質(zhì)量分數(shù)。如下圖3.1.1所示,F(xiàn)ASTQ格式以讀段為單位進行,每條讀段占4行,其中第一行和的第三行由文件識別標志(sequenceidentifiers)和讀段名(ID)組成(第一行以“@”開頭而第三行以“+”開頭;第三行中ID可以省略,但“+”不能省略),第二行為堿基序列,第四行為對應(yīng)位置堿基的質(zhì)量分數(shù)。3.1.1FASTQIllumina儀一個run有2個flowcell,一個flowcell中包含8個lane,其中一個lane包含2列,每一列又包含60個tile,每一個tile又會種下不同的cluster,其產(chǎn)生的文件識別標志(SequenceIdentifiers)中的詳細HWI-Run4Tilenumberwithintheflowcell1Memberofapair,1or2(paired-endormate-pairreadsNYifthereadfailsfilter(readisbad),N00whennoneofthecontrolbitsareon,otherwiseitisanevenread的質(zhì)量分數(shù)以不同的字符來表示,其中每個字符對應(yīng)的ASCII值減去33,即為對應(yīng)的質(zhì)量值。一般地,堿基質(zhì)量從0-40,即對應(yīng)的ASCII碼為從“!”(0+33)到“I”(40+33)。如果錯誤率用E表示,IllunimaHiSeq2000/Miseq的堿基質(zhì)量值用Q表示,則有下列關(guān)系:錯誤率與質(zhì)量值簡明對應(yīng)關(guān)錯誤率質(zhì)量值對碼.5?Ireads錯誤率會隨著的進行而升高,是由過程中化學(xué)試劑的消耗造成,并且這是Illumina高通 開原始數(shù)據(jù)會在項目結(jié)題后,發(fā)送給客戶參考文獻CockPJ,FieldsCJ,GotoN,HeuerML,RicePM.TheSangerFASTQfileformatforsequenceswithqualityscores,andtheSolexa/IlluminaFASTQvariants.NucleicAcidsRes2010;38:1767-71.ErlichY,MitraPP,delaBastideM, bieWR,HannonGJ.Alta-Cyclic:aself-optimizingbasecallerfornext-generationsequencing.NatMethods2008;5:679-82.Illumina屬于第二代技術(shù),單次運行能產(chǎn)生數(shù)十億級的reads,如此海量的數(shù)據(jù)無法逐個展示每條端兩端分別,產(chǎn)生的序列為paired-endreads,分別為read1和read2。質(zhì)量評估圖都是單樣本的,每個樣本的單端reads都會單獨匹配一張圖。如下為某個樣本的單端reads原始數(shù)據(jù)的質(zhì)量評估圖:圖3.2.1為原始數(shù)據(jù)堿基分布圖(又稱為GC偏差圖).3為原始數(shù)據(jù)堿基錯誤率分布圖。結(jié) Rawdata_Stat/樣本名 *.qual.pdf:xx*.base.pdf:xx*.err.pdf3.2.11_16的堿基分布注:橫坐標是reads堿基坐標,坐標表示reads上從5’到3’端依次堿基的排列;縱坐標是所有reads在該(如第一個堿基ACGTN堿基分別占的百分比,不同堿基用不同顏色表示(見右上角圖注。序列的起始位置與的引物接頭相連,因此ACGT在起始端會有所波動,后面會趨于穩(wěn)定。一般情況下A與T相等,C與G相等,各堿基所占百分比會因物種的差異而不同。模糊堿基N所占比例越低,說明未知堿基越少,樣本受系統(tǒng)AT偏好影響越小。從圖3.2.1可知,該文庫堿基分布均勻,N%在合理范圍之內(nèi)。3.2.21_16的質(zhì)量分布reads堿基坐標,表示reads上從5’到3reads(Q值,SolexaScale:40=Highest,-15=Lowest),如果某堿基質(zhì)量值為30(Q30),則表示該堿基出錯的概率為0.001(10-3)。圖中垂直紅線“Ⅰ”指定的范圍是所有reads堿基的綜合質(zhì)量,紅色垂直方塊是質(zhì)量的四分位值范圍,加黑粗線是質(zhì)量值的中位數(shù),黑線對應(yīng)的reads堿基質(zhì)量值越高,說明錯誤率越低。從圖3.2.2可知,所獲所獲 3.2.31_16的堿基錯誤率分布注:橫坐標是reads堿基坐標,表示reads上從5’到3’端依次堿基的排列;縱坐標是所有reads在該位點處堿基的平均錯誤率(%)。圖中紅色陰影對應(yīng)的是各位點堿基錯誤率的平均值,反映了reads中堿基錯誤率的分布情況,一般錯誤率低于0.1%即認為在可接受范圍內(nèi)。3.3數(shù)據(jù)質(zhì)量剪切及統(tǒng)由于原始數(shù)據(jù)中會包含接頭序列、低質(zhì)量讀段、含模糊堿基N的讀段及長度過短序列,這將嚴重影響后續(xù)分析的質(zhì)量。為保證后續(xù)的生物信息分析的準確性,首先對原始數(shù)據(jù)進行過濾,從而得到高質(zhì)量的測序數(shù)據(jù)(cleandata)以保證后續(xù)分析的順利進行,具體步驟及順序如下:去除reads中的接頭序列,去除由于接頭自連等原因?qū)е聸]有片段的將序列末端(3’端)低質(zhì)量(質(zhì)量值小于20)的堿基修剪掉,如剩余序列中仍然有質(zhì)量值小于10則adapter20bp的序列。 /jtjohn/SqPep, /najoshi/ickle,樣本名 數(shù)(條
注:本次長度為2*101bp,即每個read的長度為101bp,雙端 reads)與指定的參考組比對,參考組來于于********針對IlluminaHiseq平臺得到的reads一般較短,且缺失錯誤較少等特點,選用目前較的短序列比對 )完成此部分的分析[3],一般采用默認參數(shù)來運行比對流程,允許兩個堿基的錯配。Bowtie2采用BWT(Burrows-WheelerTransform)算法來實現(xiàn):通過B- 組 reads在參考序列上的定位百比比率)會高于60%3.4.1參考文獻LangmeadB,TrapnellC,PopM,SalzbergSL.Ultrafastandmemory-efficientalignmentofshortDNAsequencestothehumangenome.GenomeBiol10:R25Langmead,B.andS.L.Salzberg.Fastgapped-readalignmentwithBowtie2.NatMethods2012,9(4):357-核糖體RNA將reads比對回參考組,并依據(jù)其注釋信息統(tǒng)計數(shù)據(jù)中核糖體RNA(rRNA)的比率rRNA比率統(tǒng)計結(jié)果見下3.5.1rRNA比率統(tǒng)計rRNA百分比在不同表達水平的轉(zhuǎn)錄本,被有效檢測時對數(shù)據(jù)量的要求不同。高表達量的 時需要較少的數(shù)據(jù)量就可趨近于飽和;低表達的則需要較大的數(shù)據(jù)量要求才能保證檢測的準確性。飽和度曲線可以描述不同量的條件下各的表達檢測是否準確。采用美吉自主研發(fā)進序飽和度分析,結(jié)果為Quality_Assessment/樣品名/,結(jié)果文件如下:圖3.5.1飽和度曲式見3.8節(jié)部分)。縱軸表示該取樣條件下表達量與終值的偏差比例(誤差15%以內(nèi))(如:0.4表示有40%的表達量誤差在15%以內(nèi)),數(shù)值越趨近于1則表示表達量越趨于飽和。每種顏色線條代表該樣品中不同表達水平的表達量飽和度曲線,具體見右下角圖標,如:紅色為(0-0.3)num=5505,代表FPKM值在0-0.3范圍內(nèi)的 有5505個;越早到達平臺期 reads的40%比對上時已經(jīng)接近飽和(縱軸數(shù)值趨近于1,說明飽和度總體質(zhì) 冗余序列(duplicatereads)定義為堿基排列完全相同的序列,冗余序列主要來源于建庫過程中的PCR擴增。采用RSeQC-2.3.2( 圖3.5.2冗余序列分布頻率注:橫坐標表示冗余序列出現(xiàn)的頻率,縱坐標表示在某頻率下的不同冗余序列的數(shù)量(以10為底求對數(shù)。圖中“x”表示基于所有序列的冗余分析,“·”表示基于比對到參考組上的序列的冗余分析;曲線整體趨勢用于評估所得冗余序列覆蓋度分析是樣品中所有的5’到3’區(qū)域上序列覆蓋情況的綜合展現(xiàn),用于評估實驗結(jié)果的本分析采用RSeQC- /p/rseqc/)進行,結(jié)果見圖3.5.3所示圖3.5.3覆蓋度分析結(jié)果注:圖中橫坐標為單個的堿基長度占總堿基長度的百分比,0表示的5’端,100表示的3’端;縱坐標為比對顯的峰值,說明結(jié)果有明顯的5’偏向性。如果在靠近右端有明顯的峰值,說明結(jié)果有明顯的3’偏向性。本圖左右兩端未有明顯峰值,說明結(jié)果不具有偏向性,結(jié)果較均一。GO(GeneOntolog, )是本體論建立的將全世界所有與有關(guān)的研究結(jié)果進行分類匯總的綜合數(shù)據(jù)庫。該數(shù)據(jù)庫標準化了不同數(shù)據(jù)庫中關(guān)于和產(chǎn)物的生物學(xué)術(shù)語,對和蛋白功能進行的限定和描述。利用GO數(shù)據(jù)庫,可以對于一個或一組按照其參與的BP(BiologicalProcess,生物過程)、MF(MolecularFunction,分子功能)及CC(CellularComponent,細胞組分)三個方面進行分類注釋。在這三個大分支下面又分很(level,levellevel3和level4。因此GO注釋有助于理解背后所代表的生物學(xué)意義。通過GO分類圖,可以大致了解某個物 GOlist:記錄每個isoform比對上的GO號,見表3.6.1 list:記錄GO二級分類(level2)各個類型、術(shù)語及其比對上的isoform數(shù)目和相應(yīng)的isoformevel2.go.xtGO的二級分類(level2統(tǒng)計表,包括類型、術(shù)語、比對上的ioform數(shù)目及其占總數(shù)的百分比和對應(yīng)的GO號,見表3.6.3level2.go.txt.pdf:GO分類統(tǒng)計圖,見圖表3.6.1GO注釋 *GO數(shù)據(jù)庫的介紹見附錄4.2表3.6.2GO二級分類注釋信息BiologicalProcessMolecularfunctionCellular GOcomp40075_c0_seq1(GO:0009055);注釋到某個GO號的所 注comp40075_c0_seq1(GO:0009055);注釋到某個GO號的所 表3.6.3GO的二級分類(level2)統(tǒng) 該 注釋到GO二級分類功能的轉(zhuǎn)錄本數(shù)目占總注釋到GO功能的轉(zhuǎn)錄本數(shù)目的百分比,每個轉(zhuǎn)錄本可參與多種GO二級分類功能,因此所有百分比加在一起的數(shù)字會大于1. GO圖3.6.1GO分類級分類的isoform數(shù)量,三個顏色表示三大類,其中綠色代表biologicalprocess,藍色代表cellularcomponent,紅色代表molecularfunction。圖中每一個柱條表示一個GO的二級分類,柱條越高表示注釋到此二級分類的越多。ConesaA,GotzS,Garcia-GomezJM,TerolJ,TalonM,RoblesM.Blast2GO:auniversaltoolforannotation,visualizationand ysisinfunctionalgenomicsresearch.BIOINFORMATICS2005;21:3674-6.KEGG(KyotoEncyclopediaofGenesandGenomes,和組百科全書)是組破譯方面的公共數(shù)據(jù)庫。該數(shù)據(jù)庫是系統(tǒng)分析功能、聯(lián)系組信息和功能信息的大型知識庫,其中的組信息主要是從BI等數(shù)據(jù)庫中獲得的,包括完整和部分的組序列于G S數(shù)據(jù)中更級功信息括形的胞過如謝膜運信號遞、細胞周期等,還包括同系保守的子通路等信息,于KEGGPTHWAY數(shù)據(jù)庫中;此外,關(guān)于化學(xué)物質(zhì)、酶分子、酶化反應(yīng)等相關(guān)的信息于KEGGIGAND數(shù)據(jù)庫中。在生物體內(nèi),產(chǎn)物并不是孤立存在地作用的,不同產(chǎn)物之間通過有序的相互協(xié)調(diào)來行使其具體的生物學(xué)功能。因此,KEGG數(shù)據(jù)庫中豐富的通路信息將有助于從系統(tǒng)水平去了解的生物學(xué)功能,例如代謝途徑、遺傳信息傳遞以及細胞過程等一些復(fù)雜的生物功能,這大大提高了該數(shù)據(jù)庫在實際生產(chǎn)和應(yīng)用中的價值。使用:blastx/blastpBLAST是一套在蛋白質(zhì)數(shù)據(jù)庫或DNA數(shù)據(jù)庫中進行相似性比較的分析工具,能迅速與公開數(shù)據(jù)庫進行相似性序列比較。BLAST采用一種局部的算法獲得兩個序列中具有相似性的序列,結(jié)果中的得分是對一種對相似性的統(tǒng)計說明。一般使用默認參數(shù)。比對數(shù)據(jù)庫:genes(結(jié) pathway.txt:isoform對應(yīng)的KO、KO名稱和相應(yīng)網(wǎng)絡(luò)(Koid|Koname|hyperlink)pathways/pathway_table.xls.top10.pdf:包含isogene數(shù)目最多的前10個通路,見圖3.7.1*.html:pathway*.PNG:相關(guān)代謝通路圖,如圖pathway_table.xls 相關(guān)序列對應(yīng)ko號 kegg_table.xls Koid(Gene KEGGORTHOLOGY簡稱KO的(或KO在KEGG數(shù)據(jù)庫中的超地KO在KEGG數(shù)據(jù)庫中的超地該序列注釋到的所有KEGG通3.7.1isogene數(shù)目最多的10個通中 測到 注:長方形節(jié)點表示產(chǎn)物(如酶或一些RNA調(diào)節(jié)因子),所有藍色背景的產(chǎn)物都屬于KEGGORTHOLOGY(KO) 為本次 測到 Camacho,C.,G.Coulouris,etal.BLAST+:architectureandapplications.BMCBioinformatics2009,10:轉(zhuǎn)錄本的豐度體現(xiàn)的表達水平,轉(zhuǎn)錄本豐度越高,則表達水平越高。在RNA_seq分析中,通過定位到組區(qū)域的序列(cleaneads)的數(shù)量來計算的表達水平。根據(jù)所有樣本與參考組的比對結(jié)果,計算每個/轉(zhuǎn)錄本在樣本中的FPKM值,以該值作為/轉(zhuǎn)錄本在樣本中的表達量。最后對所有/轉(zhuǎn)錄本在各組樣本中的表達進行差異顯著性分析,找出相對差異表達的/轉(zhuǎn)錄本,并對其進行可視化分析。衡量表達水平的標準為RPKM(FPKM)值(Reads/(Fragments)PerKilobaseofexonmodelperMillionmappedreads[7]),即每一百萬條序列中,每個以一千個堿基為單位,比對上的reads個數(shù)。由于各堿基FPKM的區(qū)別在于,基于不同的或算法。RPKM中是以reads為單位,而FPKM是以建庫時打斷的片段(fragments)為分析單位。當以PE(即雙端)方式建庫時,同一個片段包含兩條reads。無論RPKM還是使用計算表達量:RSEM(計算差異 差差 篩選的標準為:FDR<0.05,|logFC>=結(jié) 為 *.FPKM_distribution.pdf:所有轉(zhuǎn)錄本/的FPKMscores分布圖,見圖 :各分組樣本所有轉(zhuǎn)錄本/差異表達及注釋詳情,部分結(jié)果見表*_vs_*/MA_Volcano_*.pdf:各分組樣本差異表達轉(zhuǎn)錄本/可視化圖,見 3.8.1表達量(FPKMscores分布注:左為所有的表達量概率密度分布圖,圖中橫坐標為log10PKM,該數(shù)值越高,表示表達量越高;縱坐標為的密度,即為對應(yīng)橫軸表達量的數(shù)/檢測已表達的總數(shù);圖中每種顏色表示一個樣本,所有概率的總和為1,即每個區(qū)域的面積均為1;密度曲線的峰值表示整個樣本表達量最集中的區(qū)域;表3.8.1差異表達情況總表 Sample1_vs_Sample2 樣本1和2的表達差異情況,數(shù)字代表顯著差異個數(shù),yes表示該在這兩組樣本中表達差異顯著,no表示差異不 圖 差異可視化圖(Scatter圖和Volcano圖注為(trplot,橫標兩中轉(zhuǎn)表(M值橫縱坐標的數(shù)值都做了對數(shù)化理,每個點代表一特的或轉(zhuǎn)錄本,特定的一點對應(yīng)的橫坐標值該或轉(zhuǎn)本樣本1中表標為該或本在本2表量紅點表顯上的,藍色點表示顯著下調(diào)的,黑色點為非顯著差異;將所有或轉(zhuǎn)錄本上去后,越接近0的點,說明表達量越低;那些偏離了對角線程度越大的點表明該或轉(zhuǎn)錄本在兩個樣本間表達差異越大。ersonoelton是指兩個樣本表達水平的相關(guān)性指數(shù),該數(shù)值越接近于1,說明兩個樣本表達水平越一致,差異越不顯著;如果兩個樣本是重復(fù)樣本的話,說明重復(fù)性越好。右圖為火山圖(olcano-plots,橫坐標為或轉(zhuǎn)錄本在兩個本間表達差異的倍數(shù)化值,即樣本1的表達量除以樣本2的表達量得到的數(shù)值,縱坐標為或轉(zhuǎn)錄本表達量變化差異的統(tǒng)計學(xué)檢驗值,即pp值越高則表達差異越顯著,橫縱坐標的數(shù)值都做了對數(shù)化處理。圖中每個點代表一個特定的或轉(zhuǎn)錄本,紅色點表示顯著上調(diào)的,藍色點表示顯著下調(diào)的,黑色點為非顯著差異;將所有或轉(zhuǎn)錄本上去之后,可以獲知,在左邊的點為表達差異下調(diào)的,右邊的點為表達差異上調(diào)的,越靠左邊和上邊的點表達差越顯著。表 樣本中比對到這個轉(zhuǎn)錄本/的reads* 對這個的count值進行的均一化后計算所得FPKM 校正的p值,反映樣本間差異的顯著性,p值越小,在 經(jīng)過校正p 在樣本1和樣本2間差異倍數(shù)以2為底的對數(shù)值,反映兩樣本up-down-regulation 2上調(diào),down12下 在樣本間是否差異顯著,yes代表差異顯著,no代表差異不顯值不大于0.05,差異倍數(shù)大于2倍的才認為差異顯著。 NR庫*中注釋到的名稱 GO號,GO數(shù)據(jù)庫*中針對每條GO功能給出 與String庫中注釋到的相似堿基百分比,即得到比對到String庫中相同堿基的百分比。 KEGG通路ID或ID,KEGG數(shù)據(jù)庫中某些disease通路沒 參考文獻參考文獻Li,B.andDewey,C.N.(2011).RSEM:accuratetranscriptficationfromRNA-Seqdatawithorwithoutareferencegenome.BMCBioinformatics.12:323MarkD.Robinson,etal.edgeR:aBioconductorpackagefordifferentialexpression ysisofdigitalgeneexpressiondata.Bioinformatics.2010January1;26(1):139–140TangHB,WangXY,BowersJE,MingR,AlamM,PatersonAH:Unravelingancienthexaploidythroughmultiply-alignedangiospermgenemaps.GenomeRes2008,18:1944–1954各組樣本差異venn差異Venn圖是用于顯示差異的區(qū)域的圖示,通過求每組差異的交集來實現(xiàn),表示各組 異Venn圖可觀察出差異在各組樣品間的數(shù)量分布狀況。結(jié)果為venn/,中各文件說明如下*.pdf:差異venn*.xls:差異venn圖結(jié)果表圖3.9.1各組樣本顯著差異表達數(shù)目統(tǒng)ChenH,BoutrosPC.VennDiagram:apackageforterationofhighly-customizableVennandEulerdiagramsinR.BMCBioinformatics2011;12:35.差異GO注GO(GeneOntology, )是本體論建立的數(shù)據(jù)庫,其目的在于標準化不同數(shù)據(jù)庫中的關(guān)于和產(chǎn)物的生物學(xué)術(shù)語,對和蛋白功能進行限定和描述。利用GO數(shù)據(jù)庫,可以將基GO注釋的統(tǒng)計,以其中一個樣本為對照,所得結(jié)果可繪制上下調(diào)GO注釋柱形圖。,結(jié) , listlevel2-gobars:上下調(diào)GO注釋柱形圖,見下圖圖3.10.1上下調(diào)GO注釋柱形注:圖中下方橫坐標表示注釋到某一GOterm的個數(shù),上方橫坐標表示注釋到某一GOterm的數(shù)占所有有GO注總數(shù)的比例(和GOterm是多對多的關(guān)系,即一個可包含多個GOterm的注釋,某一個GOterm也會對應(yīng)到多個,并不是一對一的關(guān)系);縱坐標表示GO的每一詳細分類,三個方塊分別代表GO的三個二級分類,分別為生物過程(BiologicalProcess)、細胞組分(CellularComponent)、分子功能(MolecularFunction);紅色柱形代表上調(diào),藍差異KEGG注KEGG庫(Kyotoencyclopediaofgenesandgenomes數(shù)據(jù)庫):和組百科全書,是系統(tǒng)分析功能、聯(lián)系組信息和功能信息的知識庫。利用KEGG數(shù)據(jù)庫,可將按照參與的pathay通路或行使的功能分類,并針對兩兩分組的差異表達,以其中一個樣本為對照,可將差異顯示在KEGGpathay通路圖上,展示差異KEGG注釋通路圖。結(jié) 為 *.html:差異pathway詳細信息的網(wǎng)頁介*.PNG:差異KEGG通路展示,見下圖3.11.1上下調(diào)KEGG注釋通路結(jié) 為
3.12.1樣本的部分聚類注:圖中每列表示一個樣本,每行表示一個,圖中的顏色表示在該組樣本中表達量的大?。╨og10FPKM),紅色代表3.12.2模塊表達趨勢折GO(GeneOntology, )是本體論建立的數(shù)據(jù)庫,其目的在于標準化不同數(shù)據(jù)庫中的關(guān)于和產(chǎn)物的生物學(xué)術(shù)語,對和蛋白功能進行限定和描述。利用GO數(shù)據(jù)庫,可以將按照它們參與的生物學(xué)過程、構(gòu)成細胞的組分,實現(xiàn)的分子功能等進行分類。對差異進行GO功能顯著性富集分析,可以說明差異的功能富集情況,在功能水平闡明樣本間的差異。本分析使用Goatools( 為控制計算的假陽性率使用4種多重檢驗方法(Bonferroni,Holm,Sidak和falsediscoveryrate)對p值進行了校正通假設(shè)對于一個GO功能A,如果注釋到該功能的數(shù)量如下表所示GO功能 a+
b+
數(shù)量總和abca+b+c+dFisher精確檢驗理論得到這一組數(shù)據(jù)的概率可以由超幾何分布計算,公式如Fisher精確檢驗得到的p值,分析時要采用多重檢驗方法對其進行校正,通常采用FDR(falsediscoveryrate)篩選富集得到的GO功能。對于一組GO功能,如果需要檢驗的GO功能的數(shù)量用表示,對p值的結(jié)果由低到高排序用表示,對p值的FDR校正公式如下:Goatools /tanghaibao/Goatools結(jié) 為 *_vs_*_SDE_isoform_list.enrient.detail.xls:各分組差異GO功能顯著性富集結(jié)果 表*_vs_*_enrient.scatter.pdf:各分組差異GO功能富集分析散點圖,見圖表Sample20_vs_Sample107分組差異GO功能顯著性富集結(jié)GO號,GO數(shù)據(jù)庫中針對每GO功能 該 該GO信息在背景(得到的所有)中占有的比例,分子為富集到該GO信息 計學(xué)上就越有顯著意義,一般p值小于0.05認為該功能為顯著富集項。 使用bonferroni校正后的p值, 使用holm校正后的p值 使用sidak校正后的p值 p_bonferroniFdr 該GO信息的差異 ,即ratio_in_study中對應(yīng)分子數(shù)目的該GO信息的所有 ,即ratio_in_pop中對應(yīng)分子數(shù)目的圖3.13.1差異表達GO富集散點類分支BP,MF和CC,各不同形狀的圖標代表的GOterm見圖中右側(cè)圖標注釋。圖中分別與橫軸、縱軸平行的兩類虛線分別參考文獻TangH,WangX,BowersJE,MingR,AlamM,PatersonAH.Unravelingancienthexaploidythroughmultiply-alignedangiospermgenemaps.GenomeRes2008;18:1944-54.JianguoLuEP,HaibaoTang,JoshuaLewisandZhanjiangLiu.Profilingofgeneduplicationpatternsofsequencedeostgenomesevidenceforrapidlineage-specificgenomeexpansionmediatedbyrecenttandemduplications.BMCgenomicsHochbergYBaY.ControllingtheFalseDiscoveryRate:APracticalandPowerfulApproachtoMultipleTesting.JournaloftheRoyalStatisticalSociety1995;57.MikelAickinP,andHelenGensler,PhD.AdjustingformultipletestingwhenreportingresearchresultstheBonferronivsHolmmethods.AmericanJournalofPublicHealth1996;86.YoungPHWSS.pValueAdjustmentsforMultipleTestsinMultivariateBinomialModels.JournaloftheAmericanStatisticalAssociation1989;84:780-6.KEGG(KyotoEncyclopediaofGenesandGenomes,京都基因和基因組百科全書,)是組破譯方面的公共數(shù)據(jù)庫。富集分析方法通常是分析一組在某個功能節(jié)點上是否出現(xiàn)過,原理是由單個的注釋分析發(fā)展為集合的注釋分析。富集分析提高了研究的可靠性,能夠識別出與生物現(xiàn)象最相關(guān)的生物學(xué)過程。本次分析使用KOBAS( /home.do)進行KEGGPATHWAY富集分析,計算原理同GO功能富集分析,使用Fisher精確檢驗進行計算。為控制計算假陽性率,采用BH(FDR)方法進行多重檢驗,計算公式與上節(jié)相同,經(jīng)過校正的p值(CorrectedP-Value)以0.05為閾值,滿足此條件的KEGG通路定義為在差異表達中顯著富集的KEGG通路。 /home.do-mfstatisticmethodfisfisherexacttest),表明采用fisher-nBH(falsediscoveryrate(FDR)correctionmethod:),表明采用falsediscoveryrate方法進行校驗。 kegg_enrient.xls:各分組差異KEGG富集分析結(jié)果,部分表格如下表*_vs_*_enrient.scatter.pdf:各分組差異 pathway富集分析散點圖,見圖表Sample20_vs_Sample107_SDE分組差異KEGG富集分析結(jié)表地址 市浦東新 公3399號時代醫(yī)創(chuàng)園3
服 :400660傳真 KEGGpathway 個是KEGGPATHWAY,另一個是KEGGDISEASE。 KEGGSample Background 校正的p值,p值越小,在統(tǒng)計學(xué)上就越有顯著意義,一般p值小于0.05認為該通路顯著富集。 校正后p 該KEGG通路的網(wǎng)頁,包含通路的詳細信息描述,沒些圖3.14.1差異表達KEGG富集散點標展示了富集到的KEGGpathway/功能的名稱;分別與橫軸、縱軸平行的兩類虛線分別展示了對于富集分析結(jié)果的兩個篩選標準,與橫軸平行的虛線代表q=0.05,在此虛線以上的通路/功能代表顯著富集到的通路/功能;與縱軸平行的虛線代表富HochbergYBaY.ControllingtheFalseDiscoveryRate:APracticalandPowerfulApproachtoMultipleTesting.JournaloftheRoyalStatisticalSociety1995;57.XieC,MaoX,HuangJ,DingY,WuJ,DongS,etal.KOBAS2.0:awebserverforannotationandidentificationofenrichedpathwaysanddiseases.NucleicAcidsRes2011;39:W316-22.SNP顛換、缺失和。以參考組中轉(zhuǎn)錄本為模板序列,將原始序列與其進行比對,利用Samtools net/)和VarScanv.2.2.7( ref.fa.pileup.snp.xls:SNPSNP識別結(jié)果說 snp 非模板序列比對上模板堿基的出現(xiàn)情況(0:沒出現(xiàn)1:在一鏈2:在二鏈) 非模板序列比對上變異堿基的出現(xiàn)情況(0:沒出現(xiàn)1:在一鏈2:在二鏈) Fisher'sexacttest得出的P值 ref.fa.pileup.snp.xls.annot.xls:對識別到的SNP添加了注釋信息,即最后一列為SNPref.fa.pileup.snp.xls.stat.txt:SNP類型統(tǒng)計,見下表3.13.1轉(zhuǎn)換、顛換以及不同位置SNP數(shù)目統(tǒng)FrequenceperSNPcoden:secondthird參考文獻
LiH.AstatisticalframeworkforS alling,mutationdiscovery,associationmapandpopulationgeneticalparameterestimationfromsequencingdata.BIOINFORMATICS2011;27:2987-93.KoboldtDC,ChenK,WylieT,LarsonDE,McLellanMD,MardisER,etal.VarScan:variantdetectioninmassivelyparallelsequencingofindividualandpooledsamples.BIOINFORMATICS2009;25:2283-5.顯著性GO通過對GO富集分析產(chǎn)生的GOterm進行可視化分析,可以看出這些功能之間的相互關(guān)系。通常使用富集得到的P-value值對這些功能進行顏色標注,直觀地看出在哪些功能中存在的差異性最顯著。結(jié) 圖3.16.1顯著性GO有向無環(huán)注:三個子圖分別表示GO的三個分支,分別是生物過程(BiologicalProcess)、細胞組分(CellularComponent)、分子功能(MolecularFunction);每個方框表示一條GOterm;標顏色的方框為在差異中存在顯著性的GOterm;顏色越接近紅色,顯著性越明顯;GOterm之間的連線表示兩個GO之間的關(guān)系,不同的線條顏色表示不同的關(guān)系(例如GO:0005739(mitochondrion)、GO:0031966(mitochondrialmembrane)與GO:0043229(intracellularorganelle)三者之間的連線關(guān)系如下圖);GO間關(guān)系的解釋見下表,具體含義參見 四、附錄 ||-- ||-- ||--- ||-- ||-- ||-- ||-- GO分類結(jié)|||-- 記錄每個isogene比對上的GO|||-- ||-- |||-- isogene對應(yīng)的Koid|Ko|||--* |||-- ||--*.exp_diff_count_stat ||--* ||--*.genes_fpkm_matrix 所有轉(zhuǎn)錄本/的FPKM矩陣表||-- |||-- |||-- |||--upGene.fileGO.listlevel2-downGenefileGO.listlevel2- 上下調(diào)的GO注釋柱形|||--kegg_out/kegg_table |||kegg_out |||kegg_out |||--kegg_out/ 差異venn圖結(jié)||-- 差異venn||--* 差異venn圖結(jié)果表| || |||--
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 清遠防爆負壓風(fēng)機施工方案
- 小區(qū)景觀水系改造施工方案
- 配電室漏水處理施工方案
- 2025年成膜材料項目合作計劃書
- 低山丘陵區(qū)隧道施工方案
- 勘察鉆探夜間施工方案
- 資源環(huán)境與新型城鎮(zhèn)化的協(xié)調(diào)發(fā)展策略
- 優(yōu)化勞動力市場機制的策略及實施路徑
- 2025年中國金屬天花行業(yè)發(fā)展現(xiàn)狀、運行格局及投資前景分析報告(智研咨詢)
- 2025年中國低速電動車行業(yè)發(fā)展現(xiàn)狀調(diào)查、競爭格局分析及未來前景預(yù)測報告
- 綠野仙蹤(導(dǎo)讀課)課件
- 小學(xué)生防溺水安全教育主題班會ppt市公開課一等獎省名師優(yōu)質(zhì)課賽課一等獎?wù)n件
- 中國近代海關(guān)史課件
- 急性橫貫型脊髓炎影像診斷
- 個人車輛出租合同范本
- 中藥熱鹽包熱熨講稿
- “雙百企業(yè)”推行職業(yè)經(jīng)理人制度操作指引
- 石膏固定術(shù)課件
- 目視檢測VT報告
- PhotoShop機試試題(帶素材)
- 四川省中小流域暴雨洪水計算
評論
0/150
提交評論