![轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊(cè)_第1頁(yè)](http://file4.renrendoc.com/view2/M01/39/22/wKhkFmYsN3KAQDLtAAGGgkBe3w8011.jpg)
![轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊(cè)_第2頁(yè)](http://file4.renrendoc.com/view2/M01/39/22/wKhkFmYsN3KAQDLtAAGGgkBe3w80112.jpg)
![轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊(cè)_第3頁(yè)](http://file4.renrendoc.com/view2/M01/39/22/wKhkFmYsN3KAQDLtAAGGgkBe3w80113.jpg)
![轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊(cè)_第4頁(yè)](http://file4.renrendoc.com/view2/M01/39/22/wKhkFmYsN3KAQDLtAAGGgkBe3w80114.jpg)
![轉(zhuǎn)錄組ref作業(yè)流程工作基礎(chǔ)手冊(cè)_第5頁(yè)](http://file4.renrendoc.com/view2/M01/39/22/wKhkFmYsN3KAQDLtAAGGgkBe3w80115.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
轉(zhuǎn)錄組ref步驟工作手冊(cè)一、Reference步驟生物學(xué)原理1.1試驗(yàn)步驟圖一:轉(zhuǎn)錄組試驗(yàn)步驟當(dāng)我們得到樣品時(shí),必需對(duì)其測(cè)序,才能得到分析所需數(shù)據(jù)。測(cè)序基礎(chǔ)過(guò)程:提取樣品總RNA后,用帶有Oligo(dT)磁珠富集真核生物mRNA(若為原核生物,則用試劑盒去除rRNA后進(jìn)入下一步)。加入fragmentationbuffer將mRNA打斷成短片段,以mRNA為模板,用六堿基隨機(jī)引物(randomhexamers)合成第一條cDNA鏈,然后加入緩沖液、dNTPs、RNaseH和DNApolymeraseI合成第二條cDNA鏈,在經(jīng)過(guò)QiaQuickPCR試劑盒純化并加EB緩沖液洗脫以后做末端修復(fù)并連接測(cè)序接頭,然后用瓊脂糖凝膠電泳進(jìn)行片段大小選擇,最終進(jìn)行PCR擴(kuò)增,使用建好測(cè)序文庫(kù)進(jìn)行測(cè)序。得到RNA序列后,又能夠找到它參考序列(物種本身基因、基因組)時(shí),能夠用reference步驟對(duì)數(shù)據(jù)進(jìn)行具體分析。Reference后面全部步驟全部是基于參考序列進(jìn)行,所以選擇正確參考序列十分關(guān)鍵。1.2信息分析步驟得到測(cè)序序列后,即可利用比對(duì)軟件,將所測(cè)序列比對(duì)到參考基因或基因組上,并進(jìn)行后續(xù)分析,信息分析步驟圖以下:圖二:轉(zhuǎn)錄組信息步驟1.2.1原始fq序列介紹測(cè)序得到原始圖像數(shù)據(jù)經(jīng)basecalling轉(zhuǎn)化為序列數(shù)據(jù),我們稱之為rawdata或rawreads,結(jié)果以fastq文件格式存放,fastq文件為用戶得到最原始文件,里面存放reads序列和reads測(cè)序質(zhì)量。在fastq格式文件中每個(gè)read由四行描述:@readIDTGGCGGAGGGATTTGAACCC+bbbbbbbbabbbbbbbbbbb每個(gè)序列共有4行,第1行和第3行是序列名稱(有fq文件為了節(jié)省存放空間會(huì)省略第三行“+”后面序列名稱),由測(cè)序儀產(chǎn)生;第2行是序列;第4行是序列測(cè)序質(zhì)量,每個(gè)字符對(duì)應(yīng)第2行每個(gè)堿基,第四行每個(gè)字符對(duì)應(yīng)ASCII值減去64,即為該堿基測(cè)序質(zhì)量值,比如h對(duì)應(yīng)ASCII值為104,那么其對(duì)應(yīng)堿基質(zhì)量值是40。堿基質(zhì)量值范圍為0到40。REF_Ref\h表1為Solexa測(cè)序錯(cuò)誤率和測(cè)序質(zhì)量值簡(jiǎn)明對(duì)應(yīng)關(guān)系,具體計(jì)算公式以下:Qphred=-10log10(e)表SEQ表\*ARABIC1Solexa測(cè)序錯(cuò)誤率和測(cè)序質(zhì)量值簡(jiǎn)明對(duì)應(yīng)關(guān)系測(cè)序錯(cuò)誤率測(cè)序質(zhì)量值對(duì)應(yīng)字符5%13M1%20T0.1%30^0.01%40h1.2.2原始fq序列處理一些原始序列帶有adaptor序列,或含有少許低質(zhì)量序列。我們首先經(jīng)過(guò)一系列數(shù)據(jù)處理以去除雜質(zhì)數(shù)據(jù),得到Cleanreads。按以下步驟進(jìn)行處理:去除含adaptorreads去除N百分比大于10%reads去除低質(zhì)量reads(質(zhì)量值Q<=5堿基數(shù)占整個(gè)read50%以上)取得Cleanreads原始序列數(shù)據(jù)經(jīng)過(guò)去除雜質(zhì)后得到數(shù)據(jù)稱為Cleanreads,后續(xù)分析全部基于Cleanreads1.2.3比對(duì)使用短reads比對(duì)軟件SOAP2/SOAPaligner{Li,#155}將cleanreads分別比對(duì)到參考基因組和參考基因序列(許可兩個(gè)堿基錯(cuò)配)。經(jīng)過(guò)這一步驟,我們能夠?qū)y(cè)序得到reads對(duì)應(yīng)到基因及基因組上,后續(xù)分析全部是基于上述比對(duì)結(jié)果。1.2.4基礎(chǔ)生物信息分析結(jié)果基礎(chǔ)信息分析結(jié)果包含以下內(nèi)容:1測(cè)序數(shù)據(jù)產(chǎn)量及和Reference比對(duì)結(jié)果概述統(tǒng)計(jì)數(shù)據(jù)量大小,得到測(cè)序數(shù)據(jù)產(chǎn)量;對(duì)soap結(jié)果進(jìn)行處理得到測(cè)序數(shù)據(jù)和Reference序列比正確概況。2評(píng)價(jià)測(cè)序隨機(jī)性在轉(zhuǎn)錄組試驗(yàn)過(guò)程中,首先要經(jīng)過(guò)物理或化學(xué)方法將轉(zhuǎn)錄本打斷成短片段,然后上機(jī)測(cè)序。假如打斷隨機(jī)性差,reads偏向于來(lái)自基因特定區(qū)域,將會(huì)直接影響轉(zhuǎn)錄組各項(xiàng)分析結(jié)果。利用reads在基因上分布來(lái)評(píng)價(jià)打斷隨機(jī)性。因?yàn)椴灰粯訁⒖蓟蛴胁灰粯娱L(zhǎng)度,我們把reads在基因上位置標(biāo)準(zhǔn)化到相對(duì)位置(reads在基因上位置和基因長(zhǎng)度比值),然后統(tǒng)計(jì)基因不一樣位置比對(duì)上reads數(shù)。假如打斷隨機(jī)性好,reads在基因各部位應(yīng)分布得比較均勻。3基因覆蓋度、測(cè)序深度分布基因測(cè)序覆蓋度指每個(gè)基因被reads覆蓋百分比,其值等于基因中uniquemappingreads覆蓋堿基數(shù)跟基因編碼區(qū)全部堿基數(shù)比值。測(cè)序深度指基因被reads覆蓋次數(shù),其值等于reads覆蓋到基因堿基數(shù)和基因編碼區(qū)全部堿基數(shù)比值。4Reads在參考基因組上分布該分析關(guān)鍵是以圖形方法概括給出Reads在基因組各個(gè)位置分布情況,和該位置基因分布情況。1.2.5高級(jí)生物信息分析結(jié)果高級(jí)生物信息分析包含以下結(jié)果:1對(duì)基因結(jié)構(gòu)進(jìn)行優(yōu)化經(jīng)過(guò)比較測(cè)序結(jié)果和現(xiàn)有基因注釋結(jié)果,對(duì)基因5'端或3'端進(jìn)行延長(zhǎng)。圖三所表示,首先,將reads比對(duì)到基因組,提取基因組中被uniquemappingreads覆蓋次數(shù)大于或等于某閾值(默認(rèn)為2)且位置連續(xù)區(qū)域作為轉(zhuǎn)錄活性區(qū)(TranscriptionActiveRegion,TAR,圖中藍(lán)色方塊區(qū)域);然后經(jīng)過(guò)paired-endreads(圖中紫色線條)將不一樣TAR連接形成潛在genemodel;最終,經(jīng)過(guò)比較潛在genemodel和現(xiàn)有基因注釋差異,對(duì)基因5'端和3'端進(jìn)行延長(zhǎng)(圖中表現(xiàn)僅是基因3’端發(fā)生延長(zhǎng)情況)。圖三:基因結(jié)構(gòu)優(yōu)化2判定基因可變剪切可變剪切使一個(gè)基因產(chǎn)生多個(gè)mRNA轉(zhuǎn)錄本,不一樣mRNA可能翻譯成不一樣蛋白。所以,經(jīng)過(guò)可變剪切一個(gè)基因可能產(chǎn)生多個(gè)蛋白,極大地增加了蛋白多樣性{Black,#6}{Stamm,#21;Lareau,#22}。即使已知可變剪切在真核生物中普遍存在,但我們可能仍低估了可變剪切百分比,最近,基于高通量測(cè)序可變剪切研究在人{(lán)Pan,#3}{Wang,#4}{Sultan,#5}、小鼠{Tang,#18;Mortazavi,#19}、擬南芥{Filichkin,#156}中發(fā)覺了很多新可變剪切事件。在生物體內(nèi),關(guān)鍵存在7種可變剪切類型:A)Exonskipping;B)Intronretention;C)Alternative5’splicesite;D)Alternative3’splicesite;E)Alternativefirstexon;F)Alternativelastexon;G)Mutuallyexclusiveexon.下圖是我們利用高通量測(cè)序數(shù)據(jù)判別出來(lái)7種可變剪切。圖中每個(gè)位置ExP.Level等于log2(Reads數(shù))。圖四:可變剪切示意圖A)ExonSkipping.基因AK070385發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,第1種轉(zhuǎn)錄本比第2種轉(zhuǎn)錄組本多一個(gè)外顯子(exon),我們將這種外顯子稱為inclusiveexon,inclusiveexon兩側(cè)兩個(gè)外顯子稱為constitutiveexon。B)Intronretention.基因AK072590發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,第2種轉(zhuǎn)錄本由retainedIntron和兩側(cè)外顯子一起形成新外顯子。C)Alternative5’splicesite.基因AK067602發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們3’端剪切位點(diǎn)一致但5’端剪切位點(diǎn)不一樣。D)Alternative3’splicesite.基因AK067602發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們5’端剪切位點(diǎn)一致但3’端剪切位點(diǎn)不一樣。E)AlternativeFirstExon.基因AK068497發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們不一樣之處于于第一個(gè)外顯子不一樣。F)AlternativeLastExon.基因AK064908發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,它們不一樣之處于于最終一個(gè)外顯子不一樣。G)MutuallyExclusiveExon.基因AK101575發(fā)生可變剪切形成兩種不一樣轉(zhuǎn)錄本,兩轉(zhuǎn)錄本之間相同外顯子稱為constitutiveexon,不一樣外顯子稱為inclusiveexon,兩個(gè)inclusiveexon不能同時(shí)存在和同一轉(zhuǎn)錄本中,只能分別存在于不一樣轉(zhuǎn)錄本中。下面,概述檢測(cè)可變剪切算法。首先,我們使用軟件“tophat”{Trapnell,#1}判定轉(zhuǎn)錄本剪切位點(diǎn)(junctionsite)(使用軟件默認(rèn)參數(shù)),剪切位點(diǎn)給出了轉(zhuǎn)錄本不一樣外顯子邊界及組合關(guān)系,圖五,我們檢測(cè)到三個(gè)剪切位點(diǎn),分別表明Exon1和Exon2連接在一起,Exon2和Exon3連接在一起,Exon1和Exon3連接在一起。圖五剪切位點(diǎn)示意圖然后,經(jīng)過(guò)分析同一基因全部剪切位點(diǎn),找出多種可變剪切事件。分析算法以下:A)ExonSkipping.圖六ExonSkipping算法示意圖轉(zhuǎn)錄本1和轉(zhuǎn)錄本2分別同時(shí)檢測(cè)到圖六所表示三個(gè)剪切位點(diǎn),可認(rèn)為轉(zhuǎn)錄本1Exon1、Exon2和Exon3存在ExonSkipping剪切方法;轉(zhuǎn)錄本2Exon1、Exon3和Exon4也存在ExonSkipping剪切方法。B)IntronRetention圖七IntronRetention算法示意圖圖七所表示,1)檢測(cè)到Junction1存在,表明在某個(gè)成熟mRNA中Exon1和Exon2之間Intron被剪切下來(lái);2)Exon1和Exon2之間Intron有90%以上區(qū)域全部有uniquemappingreads覆蓋,說(shuō)明在某個(gè)成熟mRNA中該intron被保留下來(lái)了(考慮到轉(zhuǎn)錄exon通常也不是100%被reads覆蓋到,所以在這里以90%為閾值)。若同時(shí)滿足以上兩個(gè)條件,則認(rèn)為該基因Exon1和Exon2之間存在IntronRetention可變剪切方法。C)Alternative5’SpliceSite圖八Alternative5’SpliceSite算法示意圖圖八,一個(gè)轉(zhuǎn)錄本Junction1位點(diǎn)被檢測(cè)到,而且Junction2和Junction3中有一個(gè)被檢測(cè)到(它們共同點(diǎn)是3’剪切位點(diǎn)和Junction1相同,但5’剪切位點(diǎn)和Junction1不一樣),那么就認(rèn)為Exon1和Exon2存在Alternative5’SpliceSite剪切方法。D)Alternative3’SpliceSite圖九Alternative3’SpliceSite算法示意圖圖九,一個(gè)轉(zhuǎn)錄本Junction1位點(diǎn)被檢測(cè)到,而且Junction2和Junction3中有一個(gè)被檢測(cè)到(它們共同點(diǎn)是5’剪切位點(diǎn)和junction1相同,但3’剪切位點(diǎn)和junction1不一樣),那么就認(rèn)為Exon1和Exon2存在Alternative3’SpliceSite剪切方法。E)AlternativeFirstExon圖十AlternativeFirstExon算法示意圖圖十,首先,要求檢測(cè)到圖所表示兩個(gè)junction位點(diǎn);其次,不能檢測(cè)到支持Exon1和Exon2和5’端Exons有連接junction位點(diǎn)。要求以上兩個(gè)條件同時(shí)滿足,且這種情況出現(xiàn)在轉(zhuǎn)錄本最5’端,但不要求Exon1為這個(gè)轉(zhuǎn)錄本第一個(gè)外顯子,也不要求被junction連接外顯子全部是相鄰,如轉(zhuǎn)錄本2中Exon2和Exon4。所以,圖中轉(zhuǎn)錄本1Exon1、Exon2和Exon3存在AlternativeFirstExon可變剪切方法,轉(zhuǎn)錄本2中Exon1、Exon2和Exon4也存在AlternativeFirstExon可變剪切方法。F)AlternativeLastExon圖十一AlternativeLastExon算法示意圖圖十一,轉(zhuǎn)錄本1為例,首先,要求檢測(cè)到圖所表示兩個(gè)junction位點(diǎn)(Junction1和Junction2);其次,不能檢測(cè)到支持Exon1和Exon2和3’端Exons有連接junction位點(diǎn)。要求以上兩個(gè)條件同時(shí)滿足,且這種情況出現(xiàn)在轉(zhuǎn)錄本最3’端,但不要求Exon3為這個(gè)轉(zhuǎn)錄本最終一個(gè)外顯子,也不要求被junction連接外顯子全部是相鄰,如轉(zhuǎn)錄本2中Exon1和Exon4。所以,圖中轉(zhuǎn)錄本1Exon1、Exon2和Exon3存在AlternativeLastExon可變剪切方法,轉(zhuǎn)錄本2中Exon1、Exon3和Exon4也存在AlternativeLastExon可變剪切方法。G)MutuallyExclusiveExon圖十二MutuallyExclusiveExon算法示意圖檢測(cè)到圖十二所表示四個(gè)junction位點(diǎn),且不能檢測(cè)到支持Exon2和Exon3有連接位點(diǎn)junction位點(diǎn),則認(rèn)為該轉(zhuǎn)錄本Exon1、Exon2、Exon3和Exon4之間存在MutuallyExclusiveExon可變剪切方法。3發(fā)覺新轉(zhuǎn)錄本現(xiàn)有數(shù)據(jù)庫(kù)中對(duì)轉(zhuǎn)錄本注釋可能還不全方面,經(jīng)過(guò)高通量測(cè)序我們能檢測(cè)到新轉(zhuǎn)錄本{Mortazavi,#103}。我們首先從潛在genemodel中挑選出長(zhǎng)度大于150bp且平均覆蓋度大于2genemodel,再?gòu)闹姓页鲈诨蜷g區(qū)域(一個(gè)基因3’端下游200bp到下一個(gè)基因5’端上游200bp之間區(qū)域)潛在genemodel作為候選新轉(zhuǎn)錄本。4基因結(jié)構(gòu)和Reads在基因組上分布正確圖形該分析關(guān)鍵是以圖形方法概括給出Reads在基因組各個(gè)位置分布情況,和該位置基因分布情況。我們畫出Reads在最長(zhǎng)25條染色體上分布圖,該圖為SVG矢量圖,假如你瀏覽器不支持SVG,請(qǐng)安裝SVGView插件。5基因差異表示分析5.1基因表示量基因表示量計(jì)算使用RPKM法(ReadsPerKbperMillionreads){Mortazavi,#103},其計(jì)算公式為:設(shè)RPKM(A)為基因A表示量,則C為唯一比對(duì)到基因Areads數(shù),N為唯一比對(duì)到基因組總reads數(shù),L為基因A編碼區(qū)堿基數(shù)。RPKM法能消除基因長(zhǎng)度和測(cè)序量差異對(duì)計(jì)算基因表示影響,計(jì)算得到基因表示量可直接用于比較不一樣品間基因表示差異。假如一個(gè)基因存在多個(gè)轉(zhuǎn)錄本,則用該基因最長(zhǎng)轉(zhuǎn)錄本計(jì)算其測(cè)序覆蓋度和表示量。5.2差異分析差異表示分析找出在不一樣本間存在差異表示基因,并對(duì)差異表示基因做GO功效分析和KEGGPathway分析。參考AudicS.等人發(fā)表在GenomeResearch上基于測(cè)序差異基因檢測(cè)方法{Audic,1997#8}(該文件已被引用超出五百次),我們開發(fā)了嚴(yán)格算法篩選兩樣本間差異表示基因。假設(shè)觀察到基因A對(duì)應(yīng)reads數(shù)為x,已知在一個(gè)大文庫(kù)中,每個(gè)基因表示量只占全部基因表示量一小部分,在這種情況下,p(x)分布服從泊松分布:已知,樣本一中唯一比對(duì)到基因組總reads數(shù)為N1,樣本二中唯一比對(duì)到基因組總reads數(shù)為N2,樣本一中唯一比對(duì)到基因A總reads數(shù)為x,樣本二中唯一比對(duì)到基因A總reads數(shù)為y,則基因A在兩樣本中表示量相等概率可由以下公式計(jì)算:然后,我們對(duì)差異檢驗(yàn)pvalue作多重假設(shè)檢驗(yàn)校正,經(jīng)過(guò)控制FDR(FalseDiscoveryRate)來(lái)決定pvalue域值。假設(shè)挑選了R個(gè)差異表示基因,其中S個(gè)是真正有差異表示基因,另外V個(gè)是其實(shí)沒有差異表示基因,為假陽(yáng)性結(jié)果。期望錯(cuò)誤百分比Q=V/R平均而言不能超出某個(gè)能夠容忍值,比如1%,則在統(tǒng)計(jì)時(shí)預(yù)先設(shè)定FDR不能超出0.01(Benjamini,Yekutieli.)。在得到差異檢驗(yàn)FDR值同時(shí),我們依據(jù)基因表示量(RPKM值)計(jì)算該基因在不一樣本間差異表示倍數(shù)。FDR值越小,差異倍數(shù)越大,則表明表示差異越顯著。在我們分析中,差異表示基因定義為FDR≤0.001且倍數(shù)差異在2倍以上基因。得到差異表示基因以后,我們對(duì)差異表示基因做GO功效分析和KEGGPathway分析。GO功效分析首先給出差異表示基因GO功效分類注釋;其次給出差異表示基因GO功效顯著性富集分析。GO功效分類注釋給出含有某個(gè)GO功效基因列表及基因數(shù)目統(tǒng)計(jì)。GO功效顯著性富集分析給出和基因組背景相比,在差異表示基因中顯著富集GO功效條目,從而給出差異表示基因和哪些生物學(xué)功效顯著相關(guān)。該分析首先把全部差異表示基因向GeneOntology數(shù)據(jù)庫(kù)()各個(gè)term映射,計(jì)算每個(gè)term基因數(shù)目,然后應(yīng)用超幾何檢驗(yàn),找出和整個(gè)基因組背景相比,在差異表示基因中顯著富集GO條目,其計(jì)算公式為其中,N為全部基因中含有GO注釋基因數(shù)目;n為N中差異表示基因數(shù)目;M為全部基因中注釋為某特定GOterm基因數(shù)目;m為注釋為某特定GOterm差異表示基因數(shù)目。計(jì)算得到pvalue經(jīng)過(guò)Bonferroni校正以后,以correctedpvalue≤0.05為閾值,滿足此條件GOterm定義為在差異表示基因中顯著富集GOterm。經(jīng)過(guò)GO功效顯著性富集分析能確定差異表示基因行使關(guān)鍵生物學(xué)功效。我們GO功效分析同時(shí)整合了表示模式聚類分析,研究人員能方便地看到含有某一功效全部差異基因表示模式。例,immuneresponse為在差異表示基因中最顯著富集一個(gè)GOterm(REF_Ref\h表2)。圖十三顯示了參與immuneresponse差異基因表示模式。表SEQ表\*ARABIC2
在差異表示基因中顯著富集GO-termlog2Ratio圖十三參與immuneresponse差異基因表示模式聚類圖KEGGPathway分析在生物體內(nèi),不一樣基因相互協(xié)調(diào)行使其生物學(xué)功效,基于Pathway分析有利于更深入了解基因生物學(xué)功效。KEGG是相關(guān)Pathway關(guān)鍵公共數(shù)據(jù)庫(kù){Kanehisa,#96},Pathway顯著性富集分析以KEGGPathway為單位,應(yīng)用超幾何檢驗(yàn),找出和整個(gè)基因組背景相比,在差異表示基因中顯著性富集Pathway。該分析計(jì)算公式同GO功效顯著性富集分析,在這里N為全部基因中含有Pathway注釋基因數(shù)目;n為N中差異表示基因數(shù)目;M為全部基因中注釋為某特定Pathway基因數(shù)目;m為注釋為某特定Pathway差異表示基因數(shù)目。FDR≤0.05Pathway定義為在差異表示基因中顯著富集Pathway。經(jīng)過(guò)Pathway顯著性富集能確定差異表示基因參與最關(guān)鍵生化代謝路徑和信號(hào)轉(zhuǎn)導(dǎo)路徑。結(jié)果如REF_Ref\h表3所表示。表SEQ表\*ARABIC3
pathway顯著性富集分析列表各列意義以下:#序號(hào)Pathway通路名DEGswithpathwayannotation(2085)注釋到該通路差異表示基因數(shù)目Allgeneswithpathwayannotation(8986)注釋到該通路全部基因數(shù)目Pvalue超幾何檢驗(yàn)P值QvalueQ值(Q≤0.05為在差異表示基因中顯著富集Pathway)PathwayIDKEGG數(shù)據(jù)庫(kù)中PathwayID注:Qvalue≤0.05pathway在差異表示基因中顯著富集,見表中紅框所表示。差異表示基因pathway顯著性富集分析不僅得到最有意義pathway列表,點(diǎn)擊其中pathway鏈接還將得到KEGG數(shù)據(jù)庫(kù)中pathway具體信息,如點(diǎn)擊REF_Ref\h表3第一列第三行Bcellreceptorsignalingpathway,能夠看到圖十四所表示具體信息,上調(diào)基因所在位置用紅色標(biāo)識(shí),下調(diào)基因所在位置用綠色標(biāo)識(shí)。圖十四KEGG數(shù)據(jù)庫(kù)中Bcellreceptorsignalingpathway具體信息二、Reference工作步驟工作步驟以下:2.1前期工作創(chuàng)建項(xiàng)目目錄:因?yàn)槊總€(gè)子項(xiàng)目全部有自己子項(xiàng)目代碼,且名字簡(jiǎn)練,提議使用子項(xiàng)目代碼為項(xiàng)目創(chuàng)建目錄,伴隨手頭做過(guò)項(xiàng)目標(biāo)增加,假如有需要,提議先以時(shí)期為依據(jù)創(chuàng)建大目錄,再在其下創(chuàng)建項(xiàng)目目錄;2)項(xiàng)目統(tǒng)計(jì):伴隨項(xiàng)目標(biāo)增加,所需記得項(xiàng)目各方面信息內(nèi)容也會(huì)增加,假如需要話,提議使用excel電子表格統(tǒng)計(jì)平時(shí)項(xiàng)目信息,以方便查詢,包含:項(xiàng)目名稱、子項(xiàng)目代碼、項(xiàng)目結(jié)果路徑、開始時(shí)間、階段性進(jìn)展、結(jié)束時(shí)間、截止時(shí)間、網(wǎng)址鏈接等等;2.2寫工作文件1)文件模板依據(jù)信息任務(wù)描述,選好兩個(gè)文件模板,放于所創(chuàng)建項(xiàng)目目錄下;2)找fq文件方法1:(依據(jù)文庫(kù)名查找)find/share/fqdata10/solexa/-name"*ARAcqfTARAAPE*fq"查找結(jié)果:/share/fqdata10/solexa/HSZ09076_ARAcqfT_transcriptome_Transcriptome/ARAcqfTARAAPE/100114_I649_0002_FC42T26AAXX/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE_1.fq/share/fqdata10/solexa/HSZ09076_ARAcqfT_transcriptome_Transcriptome/ARAcqfTARAAPE/100114_I649_0002_FC42T26AAXX/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE/100114_I649_FC42T26AAXX_L7_ARAcqfTARAAPE_2.fq方法2:(依據(jù)項(xiàng)目編號(hào)查找)cd/share/fqdata10/solexa/cdHSZ09076敲入tab鍵查找結(jié)果:dr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTARAAPEdr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTBRAAPE方法3:(依據(jù)子項(xiàng)目代碼查找)cd/share/fqdata10/solexa/cd*_ARAcqfT_*查找結(jié)果:dr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTARAAPEdr-xr-xr-x3solexasolexa41Jan2513:28ARAcqfTBRAAPE數(shù)據(jù)存放路徑:通常在以下多個(gè)庫(kù)中:/share/fqdata12/solexa/(2-3月數(shù)據(jù))/share/fqdata10/solexa/(1-2月數(shù)據(jù))/share/fastdata1/solexa(11月份下機(jī)數(shù)據(jù))/share/solid2/solexa-work/Project_solexa_fq(10-11月份下機(jī)數(shù)據(jù))/share/solid1/solexa-work/Project_solexa_fq(9-10月份下機(jī)數(shù)據(jù))以下是9月之前能夠查找:/share/raid007/solexa-work/Project_solexa_fq/share/raid009/solexa-work/Project_solexa_fq/share/raid7/solexa-work/Project_solexa_fq3)找參考序列(包含參考基因組、參考基因、psl文件) 如合作伙伴提供參考序列,則使用合作伙伴提供參考序列。如合作伙伴未提供,找到相關(guān)數(shù)據(jù)后,將鏈接發(fā)送給合作伙伴確定可行后方能使用。4)依據(jù)要求修改模板不熟悉各個(gè)參數(shù)作用,能夠輸入以下代碼查看程序幫助: Perl/ifs1/DGE_SR/hezengquan/bin/ref/reference_transcriptome_pipeline.pl /ifs1/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap2.3投任務(wù)運(yùn)行運(yùn)行文件shmaid.shcdresult/nohupsh *_final.sh >*_final.sh.nohup&2.4查看任務(wù)進(jìn)展操作任務(wù)命令行:查看個(gè)人全部在跑任務(wù):qstat-u*(用戶是*)查看某一個(gè)在跑任務(wù):qstat-j24832|less(任務(wù)號(hào)是24832)殺掉個(gè)人全部在跑任務(wù):qdel-u*殺掉某一個(gè)在跑任務(wù):qdel24832假如是因?yàn)槟骋粋€(gè)運(yùn)行文件犯錯(cuò)造成需要?dú)⒌羲嚓P(guān)在跑任務(wù),應(yīng)該先殺掉這個(gè)在公共節(jié)點(diǎn)上跑任務(wù)如:上面*_final.sh犯錯(cuò)了,能夠按以下步驟處理:top-udaichm按c鍵查看具體信息,找出所要?dú)⒌羧蝿?wù),假設(shè)*_final.sh對(duì)應(yīng)任務(wù)號(hào)是23849則可按k鍵,輸入工作號(hào),回車然后按9再回車即可殺掉該任務(wù),再去做上面操作。查看整個(gè)任務(wù)進(jìn)展:查看*_final.sh.nohup進(jìn)入part_shell目錄,查看對(duì)應(yīng)任務(wù)運(yùn)行信息,關(guān)鍵有能夠查看以下多個(gè)文件:*.globle*.log進(jìn)入下一層目錄,查看.o和.e文件。找出問題所在并進(jìn)行處理。2.5任務(wù)完成1)結(jié)果檢驗(yàn): a,結(jié)題匯報(bào)是否完整生成?b,打包數(shù)據(jù)中,相關(guān)文件是否齊全?c,分析要求是否全部做好了,差異分析有沒有遺漏?d,有沒有空文件產(chǎn)生?2)數(shù)據(jù)備份:因?yàn)楦鞣矫嬖?,產(chǎn)生數(shù)據(jù)有可能會(huì)丟失,提議對(duì)部分關(guān)鍵數(shù)據(jù)在相對(duì)穩(wěn)定盤陣?yán)镒龆嘁粋€(gè)備份,以免發(fā)生無(wú)須要大麻煩。三、Reference步驟程序模塊說(shuō)明配置文件:ref.lib主程序腳本:maid.shperlreference_transcriptome_pipeline.pl-namehuyang-libref.lib-outdir/ifs1/DGE_SR/daichm/project/HUYlfvT/result-diff-filter-2bwt-soap2.20-genomePopulus_euphratica.0114.genome-genePopulus_euphratica.0114.cds-pslPopulus_euphratica.0114.gff.psl-doall-verbose關(guān)鍵程序:reference_transcriptome_pipeline.pl其各項(xiàng)參數(shù)代表意思:Usagebasicparameters:--基礎(chǔ)參數(shù)-name<string>speciesname(necessary!)--即物種名,注意不是文庫(kù)名-lib<string>inputlibfile(necessary!),aformatexample:file"inputlib".--配置文件-outdir<string>resultdir(necessary!)--結(jié)果輸出目錄-genome<string>genomesequence(necessary!)--參考基因組-gene<string>genesequence(necessary!)--參考基因-psl<string>genepsl(necessary!)--psl文件analysisoptions:--分析選項(xiàng)-soap<string>soapversion(2.01|2.20|...)--soap版本選擇,現(xiàn)在用soap2.20-filterFilterreads--過(guò)濾數(shù)據(jù),得到cleanreads,通常也是必需選項(xiàng)-divDivideanalysisbychromosomename,ifallchromosomes'sizeislarge.--基因組大時(shí)按染色體分塊處理-doallDoallanalysisbelow,including5parts.--包含以下五個(gè)選項(xiàng)-basicDobasicanalysis.--基礎(chǔ)生物信息分析-alterAlternativeSpliceanalysis--高級(jí)生物信息分析中可變剪切-novelNovelTranscriptanalysis--高級(jí)生物信息分析中發(fā)覺新轉(zhuǎn)錄本-utrExtendGeneanalysis--高級(jí)生物信息分析中基因結(jié)構(gòu)優(yōu)化-svgProduceSVGfigure--基因結(jié)構(gòu)和Reads在基因組上分布正確圖形-diffGeneexpressiondifference--高級(jí)生物信息分析中差異表示基因-verboseoutputverboseinformationtoscreen--輸出運(yùn)行信息到標(biāo)準(zhǔn)輸出上-help<h|help>outputhelpinformationtoscreen--幫助文檔分析步驟圖:使用參數(shù)說(shuō)明:命令示例:1)bwt,filter對(duì)應(yīng)程序:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/bwt_filter.sh具體情況:a).基因組建庫(kù):/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.genomeb).基因建庫(kù):/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.cdsc).樣本數(shù)據(jù)過(guò)濾(舉其中一例):sh/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/Filter.huiyang_chuli_L1.sh2)soapa).對(duì)基因組所建庫(kù)跑soap:(舉其中一例)/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap-a/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_1.fq-b/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_2.fq-D/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.genome.index-m0-x10000-s40-l35-v3-o/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Genome/huiyang_chuli_L1.Genome.PESoap-2/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Genome/huiyang_chuli_L1.Genome.PESoapSingleb).對(duì)基因所建庫(kù)跑soap:(舉其中一例)/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap-a/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_1.fq-b/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Reads/huiyang_chuli_L1_2.fq-D/ifs1/DGE_SR/daichm/project/HUYlfvT/Populus_euphratica.0114.cds.index-m0-x1000-s40-l35-v3-r2-o/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Gene/huiyang_chuli_L1.Gene.PESoap-2/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Alignment/Gene/huiyang_chuli_L1.Gene.PESoapSingle關(guān)鍵程序:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap其各項(xiàng)參數(shù)代表意思:Usage:soap[options]-a<str>queryafile,*.fq,*.fa-b<str>querybfile-D<str>referencesequencesindexingtable,*.indexformat-o<str>outputalignmentfile(txt)-M<int>matchmodeforeachreadortheseedpartofread,whichshouldn'tcontainmorethan2mismaches,[4]0:exactmatchonly1:1mismatchmatchonly2:2mismatchmatchonly4:findthebesthits-u<str>outputunmappedreadsfile-toutputreadsidinsteadreadsname,[none]-l<int>aligntheinitialnbpsasaseed[256]meanswholelengthofread-n<int>filterlow-qualityreadscontaining>nNsbeforealignment,[5]-r[0,1,2]howtoreportrepeathits,0=none;1=randomone;2=all,[1]-m<int>minimalinsertsizeallowed,[400]-x<int>maximalinsertsizeallowed,[600]-2<str>outputfileofunpairedalignmenthits-v<int>maximumnumberofmismatchesallowedonaread.[5]bp-s<int>minimalalignmentlength(forsoftclip)[255]bp-g<int>onecontinuousgapsizeallowedonaread.[0]bp-RforlonginsertsizeofpairendreadsRF.[none](meansFRpair)-e<int>willnotallowgapexistinsiden-bpedgeofaread,default=5-p<int>numberofprocessorstouse,[1]-hthishelp3)posCoveragea)對(duì)單樣本處理/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/samples_pos.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/posCoverageb)合并全部樣本/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/posCoverage.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/merge_poscoverage.pl4)transcript-unit/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TranscritUnit.sha).PosCoverage.TAR其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/Mask2Tar.plb).Filter其中用到程序?yàn)椋篴wk'$3>35{print}'/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Poscoverage/AllChr.AllTissue.PosCoverage.TAR>/ifs1/DGE_SR/daichm/project/HUYlfvT/result/Poscoverage/AllTissue.PosCoverage.TAR.Filterc).PairEndJoinTAR其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/PairEndJoinTAR.pld).TAR2Genes其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/TAR2Genes.ple).TARGenes2psl其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/TARGenes2psl.pl5)importantanalysisstep/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/analysis5.pla).BasicAnalysis&&DiffBasicAnalysis:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/basic.sh其中用到程序?yàn)椋簆erl/nas/DGE_SR01/daichm/ref/MapReadsStat.plperl/nas/DGE_SR01/daichm/ref/ReadsRandomInGene.plperl/nas/DGE_SR01/daichm/ref/Soap_Coverage.plperl/nas/DGE_SR01/daichm/ref/CoverageList.plperl/nas/DGE_SR01/daichm/ref/chromosome_graph_wb.plDiff:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/diff.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/DiffExp/DiffExp_pipeline.plb).Extend/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/extend.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/getGene.pl/share/raid1/genome/bin/blat/nas/DGE_SR01/daichm/ref/pslbest.pl/nas/DGE_SR01/daichm/ref/TarBGFortholog.pl/nas/DGE_SR01/daichm/ref/UTR.plc).AlternativeSplicing/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/GeneSpliceSite.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/GeneSpliceSite.pl/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/JoinSplice.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/JoinTARForSoap.pl/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TrimNomap.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/search_reads_TrimNomap.pl/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/JunctionSoap.sh其中用到程序?yàn)椋?panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/AlternativeSplice.sh其中用到程序?yàn)椋?nas/DGE_SR01/daichm/ref/JunctionReadsStat.pl/nas/DGE_SR01/daichm/ref/SikppedExon.pl/nas/DGE_SR01/daichm/ref/MutuallyExclusiveExon.pl/nas/DGE_SR01/daichm/ref/AlternativeFirstLastExon.pl/nas/DGE_
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人抵押借款簡(jiǎn)易合同示例
- 個(gè)人抵押貸款合同季度范本
- 臨街店鋪購(gòu)買合同范本
- 二次供水設(shè)備采購(gòu)合同
- 專業(yè)服裝管理軟件經(jīng)銷合同書
- 上海市股權(quán)轉(zhuǎn)讓合同標(biāo)準(zhǔn)范本
- 二手房銷售代理合同協(xié)議
- 中外合作種植戰(zhàn)略合作合同
- 云計(jì)算服務(wù)提供商數(shù)據(jù)保密合同
- 返聘人員協(xié)議書
- 癲癇病人的護(hù)理(課件)
- 企業(yè)資產(chǎn)管理培訓(xùn)
- 2024年WPS計(jì)算機(jī)二級(jí)考試題庫(kù)350題(含答案)
- 2024年4月27日浙江省事業(yè)單位招聘《職業(yè)能力傾向測(cè)驗(yàn)》試題
- 2024年6月浙江省高考地理試卷真題(含答案逐題解析)
- 醫(yī)院培訓(xùn)課件:《如何撰寫護(hù)理科研標(biāo)書》
- 風(fēng)車的原理小班課件
- 河南省鄭州市2023-2024學(xué)年高二上學(xué)期期末考試 數(shù)學(xué) 含答案
- 2024年山東省濟(jì)南市中考英語(yǔ)試題卷(含答案)
- 2024年北師大版八年級(jí)上冊(cè)全冊(cè)數(shù)學(xué)單元測(cè)試題含答案
- 江蘇省南京市第二十九中2025屆數(shù)學(xué)高二上期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
評(píng)論
0/150
提交評(píng)論