中科院生物信息學(xué)復(fù)習(xí)題_第1頁(yè)
中科院生物信息學(xué)復(fù)習(xí)題_第2頁(yè)
中科院生物信息學(xué)復(fù)習(xí)題_第3頁(yè)
中科院生物信息學(xué)復(fù)習(xí)題_第4頁(yè)
中科院生物信息學(xué)復(fù)習(xí)題_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1.什么是生物信息學(xué),如何理解其含義?答:生物信息學(xué)有三個(gè)方面的含義:1) 生物信息學(xué)是一個(gè)學(xué)科領(lǐng)域,包含著基因組信息的獲取、處理、存儲(chǔ)、分配 、分析和解釋的所有方面。2) 生物信息學(xué)是把基因組DNA序列信息分析作為源頭,破譯隱藏在DNA序列中的遺傳語(yǔ)言,特別是非編碼區(qū)的實(shí)質(zhì);同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè);其本質(zhì)是識(shí)別基因信號(hào)。3) 生物信息學(xué)的研究目標(biāo)是揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律”。它是當(dāng)今自然科學(xué)和技術(shù)科學(xué)領(lǐng)域中“基因組、“信息結(jié)構(gòu)”和“復(fù)雜性”這三個(gè)重大科學(xué)問(wèn)題的有機(jī)結(jié)合。怎樣理解生物信息學(xué):生物信息學(xué)是把基因組DNA序列信息分析作為源頭,

2、找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū);同時(shí)闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì),破譯隱藏在DNA序列中的遺傳語(yǔ)言規(guī)律:在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白譜數(shù)據(jù),從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的規(guī)律。其還利用基因組中編碼區(qū)信息進(jìn)行蛋白空間結(jié)構(gòu)模擬和蛋白功能預(yù)測(cè),并將此類信息與生物體和生命過(guò)程中的生理生化信息結(jié)合,闡明其分子機(jī)制,最終進(jìn)行蛋白、核酸分子設(shè)計(jì)、藥物設(shè)計(jì)、個(gè)體化醫(yī)療保健設(shè)計(jì)。2.如何利用數(shù)據(jù)庫(kù)信息發(fā)現(xiàn)新基因,基本原理?答:利用數(shù)據(jù)庫(kù)資源發(fā)現(xiàn)新基因,根據(jù)數(shù)據(jù)源不同,可分2種不同的查找方式:1) 從大規(guī)模基因組測(cè)序得到的數(shù)據(jù)出發(fā),經(jīng)過(guò)基因識(shí)別

3、發(fā)現(xiàn)新基因:利用大規(guī)模拼接好的基因組,使用不同數(shù)據(jù)方法,進(jìn)行標(biāo)識(shí)查找,并將找到的可能的新基因同數(shù)據(jù)庫(kù)中已有的基因?qū)Ρ龋瑥亩_定是否為新基因??煞譃椋夯谛盘?hào),如剪切位點(diǎn)、序列中的啟動(dòng)子與終止子等?;诮M分,即基因家族、特殊序列間比較,Complexity analysis,Neural Network2) 利用EST數(shù)據(jù)庫(kù)發(fā)現(xiàn)新基因和新SNPs:數(shù)據(jù)來(lái)源于大量的序列小片段,EST較短,故關(guān)鍵在正確拼接。方法有基因組序列比對(duì)、拼接、組裝法等。經(jīng)常采用SiClone策略。其主要步驟有:構(gòu)建數(shù)據(jù)庫(kù);將序列純化格式標(biāo)準(zhǔn)化;從種子庫(kù)中取序列和大庫(kù)序列比對(duì);延長(zhǎng)種子序列,至不能再延長(zhǎng);放入contig庫(kù)構(gòu)

4、建若干數(shù)據(jù)庫(kù):總的純化的EST數(shù)據(jù)庫(kù),種子數(shù)據(jù)庫(kù),載體數(shù)據(jù)庫(kù),雜質(zhì)、引物數(shù)據(jù)庫(kù),蛋白數(shù)據(jù)庫(kù),cDNA數(shù)據(jù)庫(kù);用所用種子數(shù)據(jù)庫(kù)和雜質(zhì)、引物數(shù)據(jù)庫(kù)及載體數(shù)據(jù)庫(kù)比對(duì),去除雜質(zhì);用種子和純化的EST數(shù)據(jù)庫(kù)比對(duì)用經(jīng)過(guò)一次比對(duì)得到的長(zhǎng)的片段和蛋白數(shù)據(jù)庫(kù)、cDNA數(shù)據(jù)庫(kù)比較,判斷是否為已有序列,再利用該大片段與純化的EST數(shù)據(jù)庫(kù)比對(duì),重復(fù)以上步驟,直到序列不能再延伸;判斷是否為全長(zhǎng)cDNA序列。(利用EST數(shù)據(jù)庫(kù):原理:當(dāng)測(cè)序獲得一條EST序列時(shí),它來(lái)自哪一個(gè)基因的哪個(gè)區(qū)域是未知的(隨機(jī)的),所以屬于同一個(gè)基因的不同EST序列之間常有交疊的區(qū)域。根據(jù)這種“交疊”現(xiàn)象,就能找出屬于同一個(gè)基因的所有EST序列,

5、進(jìn)而將它們拼接成和完整基因相對(duì)應(yīng)的全長(zhǎng)cDNA序列。而到目前為止,公共EST數(shù)據(jù)庫(kù)(dbEST)中已經(jīng)收集到約800萬(wàn)條的人的EST序列。估計(jì)這些序列已覆蓋了人類全部基因的95%以上,平均起來(lái)每個(gè)基因有10倍以上的覆蓋率。)3.用蛋白或核酸序列數(shù)據(jù)庫(kù)研究生物演化的主要步驟是什么?當(dāng)前的困難是什么,如何克服?答:構(gòu)建系統(tǒng)進(jìn)化樹(shù),其主要步驟如下:1) 序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2) 序列同源性分析。是將待研究序列加入

6、到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3) 構(gòu)建系統(tǒng)進(jìn)化樹(shù)。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹(shù)。為完成這一工作已發(fā)展了多種軟件包,如PYLIP、MEGA等;4) 穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)建好的進(jìn)化樹(shù)的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過(guò)程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用 Bootstrap算法。當(dāng)前的主要困難是發(fā)現(xiàn)了基因的橫向遷移(LGT)現(xiàn)象,即進(jìn)化程度不同

7、的物種間存在著遺傳信息基因的傳遞,如果拿遷移的基因做進(jìn)化分析就會(huì)出錯(cuò)??朔﨤GT的方法:1) 選擇垂直進(jìn)化而來(lái)的序列進(jìn)行研究,即去除橫向遷移的數(shù)據(jù)庫(kù),如COG數(shù)據(jù)庫(kù);2) 使用全基因組數(shù)據(jù)庫(kù)進(jìn)行基因組水平上的對(duì)比;利用生物體的蛋白質(zhì)組構(gòu)建進(jìn)化樹(shù)。選取特征對(duì)比,不同長(zhǎng)度的序列字符串進(jìn)行對(duì)比后,對(duì)照其genome進(jìn)行歸一化;ORF對(duì)比,將all predicted ORF采用COG的分類規(guī)則進(jìn)行分類,再構(gòu)建進(jìn)化樹(shù)4.什么是SNP,為什么SNP的研究是重要的,舉出23個(gè)SNP相關(guān)的網(wǎng)站。答:SNP是指單核苷酸多態(tài)性,代表了基因組水平上遺傳密碼的變異,由于這種變異很多以單堿基突變的形式出現(xiàn),因此稱為單

8、核苷酸多態(tài)性;因?yàn)镾NP研究是基因組領(lǐng)域理論成果走向應(yīng)用的關(guān)鍵步驟,是聯(lián)系基因型和表現(xiàn)型之間關(guān)系的橋梁,是研究人類基因組計(jì)劃走向應(yīng)用的重要步驟。SNP相關(guān)的一些網(wǎng)站:1) SNP Consortium's database(/index.html)2) NCBI SNP database將這些數(shù)據(jù)進(jìn)行整理,去掉冗余,使每個(gè)SNP都是唯一的。此時(shí)的SNP被稱為reference SNP或refSNP。((/SNP/overview.html) 3) The Human Genic Bi-Allelic

9、 Sequences Database(HGBASE) 這一數(shù)據(jù)庫(kù)收錄了人基因組中所有已知的序列變化,包括:SNPs、序列的插入和缺失(Indels)、簡(jiǎn)單重復(fù)序列等。(http:/hgbase.cgr.ki.se/)4) The Human Gene Mutation Database(HGMD)(/) 5) The Protein Mutant Database(PMD),蛋白突變數(shù)據(jù)庫(kù)。收錄了蛋白質(zhì)特定位點(diǎn)的氨基酸突變信息,以及這些突變對(duì)蛋白質(zhì)結(jié)構(gòu)功能的影響。(http:/pmd.ddbj.nig.ac.jp/)6) The Allele Freque

10、ncy Database(ALFRED):人類群體等位基因頻率數(shù)據(jù)庫(kù),/alfred/index.asp5. 什么是系統(tǒng)生物學(xué)?系統(tǒng)生物學(xué)對(duì)生命科學(xué)概念上的發(fā)展?答:系統(tǒng)生物學(xué)是指在系統(tǒng)的層面上研究生命活動(dòng)。(研究一個(gè)生物系統(tǒng)中所有組成成分的構(gòu)成,以及特定條件下組分間互作關(guān)系。)包含三個(gè)相互銜接的組成:整合數(shù)據(jù),即整合所有各個(gè)層次(DNA水平,RNA水平,蛋白質(zhì)水平,蛋白質(zhì)相互作用水平)的信息數(shù)據(jù);系統(tǒng)建模,即用這些信息構(gòu)建描繪生命活動(dòng)的數(shù)學(xué)模型;預(yù)測(cè)未知,即用這個(gè)模型預(yù)測(cè)生命未來(lái)的發(fā)展及外界干擾后系統(tǒng)的變異。概念上的發(fā)展主要有:1) 研究思路

11、的變化:傳統(tǒng)的分子生物學(xué)研究步驟一般為:DNA序列蛋白結(jié)構(gòu)蛋白功能(一維),而系統(tǒng)生物學(xué)是在二維的角度研究生命科學(xué),即:相互作用網(wǎng)絡(luò)功能,是由一組基因產(chǎn)生并相互作用共同實(shí)現(xiàn)的。2) 看待生命活動(dòng)本質(zhì)的變化:因?yàn)闆](méi)有一個(gè)生命活動(dòng)是靠一個(gè)基因完成的,生命活動(dòng)是一組基因相互作用實(shí)現(xiàn)的,這種相互作用形成一個(gè)網(wǎng)絡(luò),既包括每個(gè)單元的結(jié)構(gòu),又包括單元與單元之間的相互作用。因此,系統(tǒng)生物學(xué)不僅考慮每個(gè)基因的活動(dòng),還描述了基因間的相互作用并導(dǎo)致了網(wǎng)絡(luò)的產(chǎn)生。6.(1)什么是非編碼序列,非編碼RNA,非編碼基因?(2)以人的基因組為例回答:在基因組中有多少非編碼序列,有多少存在轉(zhuǎn)錄本,舉23個(gè)非編碼核酸的生物學(xué)功

12、能?答:(1)非編碼序列是基因組中不編碼蛋白質(zhì)和多肽的序列;非編碼RNA是基因組中非編碼序列的轉(zhuǎn)錄產(chǎn)物/轉(zhuǎn)錄本;功能性的非編碼RNA對(duì)應(yīng)基因組上的位置稱為非編碼基因;(2)人類基因組中9798%的序列是非編碼序列,有70%80%存在轉(zhuǎn)錄本,非編碼核酸的生物學(xué)功能:1) Xist:X-inactivation(X染色體失活)是哺乳動(dòng)物的一種劑量補(bǔ)償機(jī)制,其中一半拷貝轉(zhuǎn)錄被抑制從而失活,抑制轉(zhuǎn)錄是通過(guò)一個(gè)2kb的非編碼RNA(Xist RNA)實(shí)現(xiàn)的,xist RNA裝配在失活X染色體的外側(cè),引起結(jié)構(gòu)改變導(dǎo)致失活;2) Small RNA and RNAi: RNAi是由RNA(siRNA、mic

13、roRNA)導(dǎo)致的轉(zhuǎn)錄后基因沉默現(xiàn)象,如由雙鏈小RNA引起的干擾和轉(zhuǎn)錄后基因沉默現(xiàn)象,在植物病毒抗性和線蟲中的轉(zhuǎn)座子沉默;一些小核RNA調(diào)控基因轉(zhuǎn)錄。(單鏈易降解,但發(fā)現(xiàn)細(xì)胞中存在另一種pathway,雙鏈小RNA進(jìn)入細(xì)胞后結(jié)合組蛋白形成復(fù)合體,該復(fù)合體和識(shí)別并降解target)3) piRNA(具有大量轉(zhuǎn)錄本,功能不詳)和Prions(生物復(fù)雜度到一定程度后會(huì)出現(xiàn)發(fā)病情況,可能和非編碼RNA有關(guān))等。1.芯片間標(biāo)準(zhǔn)化的方法:基本方法:芯片間標(biāo)準(zhǔn)化的目的是基于Gene1Gene5五個(gè)基因表達(dá)量理論的和應(yīng)該保持恒定,即S1S3三列每一列的和是相等的。但實(shí)際測(cè)定過(guò)程中不可能完全相等,因此將這種不等

14、歸結(jié)于每一組芯片自身的差異而進(jìn)行芯片間標(biāo)準(zhǔn)化,基本步驟為通過(guò)排序取平均重新排序的方法消除芯片間誤差,從而可以得到每一組基因表達(dá)量的真實(shí)值。(老師給的這組芯片基因完全相同的情況下S3一列數(shù)據(jù)明顯偏高,通過(guò)這種標(biāo)準(zhǔn)化實(shí)現(xiàn)了芯片間差異的消除)。2. FDR控制假陽(yáng)性的方法BenjaminiHochberg procedure基本方法:對(duì)于m個(gè)獨(dú)立的樣本,其p-value記為pi,i=1,2,3m;(1)對(duì)所有的p-value進(jìn)行從小到大排序p(1)p(2) p(m);(2)對(duì)于一個(gè)給定的(此時(shí)的即為統(tǒng)計(jì)里的顯著水平,范圍01,通常取0.05),找到最大的k值,滿足p(k)km;(3)拒絕從p(1)p

15、(k)的無(wú)效假設(shè)H0(即表示p(1)p(k)表達(dá)量存在顯著差異)。計(jì)算方法1(=0.05):P(4)=0.03<0.05*4/6=0.033;P(5)=0.045>0.05*5/6=0.041;k=4. 即G2, G6, G5, G4差異表達(dá),F(xiàn)DR<0.05計(jì)算方法2(q-value法):根據(jù)p(k)km可以推出p(k)mk因此直接計(jì)算并與進(jìn)行對(duì)比即可:由于G3的q-value大于0.05,因此G2, G6, G5, G4差異表達(dá)。3. 轉(zhuǎn)錄本表達(dá)量的表示方法(RPKM:Reads Per Kilobase of transcript per Million mapped

16、reads):(1)RPKM的作用:RNA-seq是透過(guò)次世代定序的技術(shù)來(lái)偵測(cè)基因表現(xiàn)量的方法,在衡量基因表現(xiàn)量時(shí),若是單純以map到的read數(shù)來(lái)計(jì)算基因的表現(xiàn)量,在統(tǒng)計(jì)上是一件相當(dāng)不合理的事,因?yàn)樵陔S機(jī)抽樣的情況下,序列較長(zhǎng)的基因被抽到的機(jī)率本來(lái)就會(huì)比序列短的基因較高,如此一來(lái),序列長(zhǎng)的基因永遠(yuǎn)會(huì)被認(rèn)為表現(xiàn)量較高,而錯(cuò)估基因真正的表現(xiàn)量,所以Ali Mortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量假設(shè)一個(gè)物種的基因組上只有兩個(gè)基因,基因G1的外顯子長(zhǎng)8 Kb,基因G2的外顯子長(zhǎng)2 Kb。對(duì)該物種的一個(gè)樣本做RNA-seq,共得到23 millions 的read,其中能夠

17、比對(duì)到G1的read 有16 million 個(gè),能夠比對(duì)到G2的有4 million 個(gè).計(jì)算G1和G2的RPKM。Total mapped reads=16 million+4 million=20 millionG1: total exon reads=16,000,000 exon length=8kb RPKM=16,000,000/(20*8)=100,000G2: total exon reads=4,000,000 exon length=2kb RPKM=4,000,000/(20*2)=100,000(2)FPKM與RPKM的區(qū)別:兩者基本相同。RPKM代表Reads Pe

18、r Kilobase of transcript per Million mapped reads,F(xiàn)PKM代表Fragments Per Kilobase of transcript per Million mapped reads。在RNA-Seq中,由于cDNA來(lái)源于RNA的逆轉(zhuǎn)錄,轉(zhuǎn)錄物的表達(dá)量與cDNA片段成比例。RNA-Seq配對(duì)末端實(shí)驗(yàn)每個(gè)片段產(chǎn)生兩個(gè)reads,但這并不意味著兩個(gè)reads都可在圖上標(biāo)注。例如,第二個(gè)read低品質(zhì)。如果我們對(duì)read計(jì)數(shù)而不是片段,我們可能對(duì)某些片段重復(fù)計(jì)數(shù),而對(duì)另一些只計(jì)一次,導(dǎo)致對(duì)表達(dá)量估計(jì)的偏差。因此FPKM以片段為單位計(jì)數(shù),而不是rea

19、ds數(shù)。(來(lái)源于網(wǎng)上,原網(wǎng)址:/faq.html#fpkm)預(yù)測(cè):1.高通量測(cè)序數(shù)據(jù)分析總括:高通量測(cè)序數(shù)據(jù)庫(kù)程序讀出的reads數(shù)據(jù)及對(duì)應(yīng)的質(zhì)量分值以文件格式為fastq的格式保存。測(cè)序的原始數(shù)據(jù)為熒光信號(hào),首先將熒光信號(hào)轉(zhuǎn)換為序列信息,即讀段數(shù)據(jù)及對(duì)應(yīng)的質(zhì)量分值;為了方便測(cè)序數(shù)據(jù)的發(fā)布和共享,一般需要對(duì)數(shù)據(jù)進(jìn)行格式化轉(zhuǎn)換,最常用的數(shù)據(jù)格式為fastq格式;對(duì)得到的原始數(shù)據(jù)必須對(duì)其質(zhì)量進(jìn)行評(píng)估,評(píng)估指標(biāo)包括G、C含量,堿基質(zhì)量,插入分布等。方便過(guò)濾掉質(zhì)量較差的讀段;若數(shù)據(jù)質(zhì)量評(píng)估過(guò)關(guān),接著將原始讀長(zhǎng)通過(guò)序列映射定位到基因組上;若無(wú)參考基

20、因組,則必須使用denovo的組裝方法;得到測(cè)序數(shù)據(jù)的組裝圖后,便可根據(jù)實(shí)驗(yàn)?zāi)康膶?duì)組裝好的數(shù)據(jù)進(jìn)行相關(guān)分析,如分析基因的剪接位點(diǎn),SNP位點(diǎn),變異位點(diǎn)還可以分析基因的差異化表達(dá)(RNA-Seq),轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Chip-Seq),甲基化模式(MeDIP-Seq),同時(shí)還可利用此數(shù)據(jù)發(fā)現(xiàn)新的編碼基因和非編碼基因;使用可視化組件對(duì)分析結(jié)果進(jìn)行可視化處理。2.表達(dá)譜數(shù)據(jù)分析流程IntensityExpression profileQuality controlNormalizationDifferential gene expression analysis基因芯片在一個(gè)顏色通道掃描后得到的原式

21、圖是色調(diào)單一,強(qiáng)度不同的亮點(diǎn)陳列圖;將原始的圖像數(shù)據(jù)轉(zhuǎn)換為基因表達(dá)矩陣;對(duì)得到的基因表達(dá)矩陣的數(shù)據(jù)質(zhì)量進(jìn)行檢測(cè),對(duì)得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,從而估計(jì)和校正試驗(yàn)誤差,篩選出有效數(shù)據(jù)。標(biāo)準(zhǔn)化就是消除基因芯片實(shí)驗(yàn)過(guò)程中系統(tǒng)變異對(duì)基因表達(dá)水平所帶來(lái)的影響。標(biāo)準(zhǔn)化包括芯片內(nèi)的標(biāo)準(zhǔn)化和芯片之間的數(shù)據(jù)標(biāo)準(zhǔn)化。芯片內(nèi)的標(biāo)準(zhǔn)化方法,如局部加權(quán)線性回歸標(biāo)準(zhǔn)化,參照點(diǎn)標(biāo)準(zhǔn)化,芯片之間的標(biāo)準(zhǔn)化方法如Quantile;前幾部都是對(duì)表達(dá)譜數(shù)據(jù)的預(yù)處理,后期的數(shù)據(jù)分析包括差異基因表達(dá)分析、聚類分析、判別分析等;a)差別基因表達(dá)分析可分析不同樣本中起關(guān)鍵作用的基因,為后續(xù)研究提供方向;b)聚類分析是基因表達(dá)譜最廣泛使用的統(tǒng)計(jì)

22、技術(shù),聚類分析的目的再與尋找可能標(biāo)準(zhǔn)化或關(guān)聯(lián)的基因,從而預(yù)測(cè)位置基因的功能信息或已知基因的未知功能;c)判別分析能夠依據(jù)樣本的某些特性,判別樣本的所屬類型,利用已有數(shù)據(jù)建立分類器,然后利用建立的分類器對(duì)未知樣本的功能或狀態(tài)進(jìn)行預(yù)測(cè)。方法主要有SVM,貝葉斯分類和神經(jīng)網(wǎng)絡(luò)法等。3.無(wú)生物學(xué)重復(fù)和有生物學(xué)重復(fù)時(shí)如何進(jìn)行差異表達(dá)分析?答:(1)無(wú)生物學(xué)重復(fù):方法:FC(Fold change倍數(shù)變化)描述數(shù)據(jù)初值與終值之間的差異(一般是兩個(gè)差別表達(dá)基因間或處理與對(duì)照之間),用標(biāo)準(zhǔn)化后的兩組數(shù)據(jù)相除得到的比例,一般2-fold表明兩組數(shù)據(jù)是有顯著差異的;這種計(jì)算方法可以得到一組相對(duì)值,而不是絕對(duì)值變化

23、,消除了系統(tǒng)誤差以便于統(tǒng)計(jì)學(xué)分析;一般得到的FC值與設(shè)定的閾值進(jìn)行比較即可得到表達(dá)有差異的基因;(2)有生物學(xué)重復(fù):方法:假設(shè)檢驗(yàn)a)具體步驟:提出實(shí)際問(wèn)題;提出無(wú)效假設(shè)(H0)與備擇假設(shè)(H1);選擇顯著性水平(一般=0.05);選擇統(tǒng)計(jì)模型與相應(yīng)的統(tǒng)計(jì)量;根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算實(shí)驗(yàn)統(tǒng)計(jì)量;判斷檢驗(yàn)統(tǒng)計(jì)量的p-值 (表示事件發(fā)生的概率具有偶然性);將p值同選定的顯著性水平比較;拒絕或不拒絕H0;回答所提出的實(shí)際問(wèn)題。b)假設(shè)檢驗(yàn)根據(jù)數(shù)據(jù)類型(是否符合正態(tài)性)分為參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn):參數(shù)檢驗(yàn):符合正態(tài)分布可使用,常用的方法主要有t檢驗(yàn)法,配對(duì)t檢驗(yàn)法、最小二乘法非參數(shù)檢驗(yàn):不符合正態(tài)分布可使用,常

24、用的方法有Wilcoxon秩和檢驗(yàn)法,其基本方法是根據(jù)表達(dá)量排序并按照排列順序檢驗(yàn),檢驗(yàn)結(jié)果較參數(shù)檢驗(yàn)法更粗獷。4.全基因組測(cè)序的步驟?答:(1)第一期:基因組調(diào)研圖整體測(cè)序深度不低于20倍覆蓋度。進(jìn)行初步的數(shù)據(jù)分析,對(duì)基因組大小,GC含量等做出初步評(píng)估,確定框架圖梯度文庫(kù)構(gòu)建具體策略;(2)第二期:基因組框架圖基因組覆蓋度達(dá)到90% 以上,基因區(qū)覆蓋度達(dá)到95% 以上,單堿基的錯(cuò)誤率達(dá)到1萬(wàn)分之一以內(nèi),整體測(cè)序覆蓋深度不低于60倍覆蓋度。同時(shí)對(duì)框架圖進(jìn)行基本基因注釋和功能注釋,和簡(jiǎn)單的比較基因組學(xué)分析。(3)第三期:基因組精細(xì)圖基因組覆蓋度達(dá)到95% 以上,基因區(qū)覆蓋度達(dá)到98% 以上,單堿

25、基的錯(cuò)誤率達(dá)到10萬(wàn)分之一以內(nèi),整體基因組覆蓋度不低于100倍,Scaffold N50大小不低于300Kb,對(duì)基因組精細(xì)圖進(jìn)行詳細(xì)基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學(xué)分析。5. 轉(zhuǎn)錄本測(cè)序,各數(shù)據(jù)分析工具的特點(diǎn)?轉(zhuǎn)錄本測(cè)序可分為Small RNA-seq和RNA-seq:Small RNA-seq主要用于檢測(cè)small RNA(主要是miRNA)的表達(dá)水平,發(fā)現(xiàn)新的small RNARNA-seq:Poly(A)用以檢測(cè)蛋白質(zhì)編碼基因的可變剪切體及表達(dá)水平;Total RNA(除rRNA)用于檢測(cè)mRNA及l(fā)ong noncoding RNA的表達(dá)水平并發(fā)現(xiàn)新的long n

26、oncoding RNA;數(shù)據(jù)分析工具主要有:Bowtie,TopHat,Cufflinks,具體作用如下:a)Bowtie是一個(gè)超級(jí)快速的,較為節(jié)省內(nèi)存的短序列拼接至模板基因組的工具。它在拼接35堿基長(zhǎng)度的序列時(shí),可以達(dá)到每小時(shí)2.5億次的拼接速度。Bowtie并不是一個(gè)簡(jiǎn)單的拼接工具,它不同于Blast等。它適合的工作是將小序列比對(duì)至大基因組上去。它最長(zhǎng)能讀取1024個(gè)堿基的片段。b)TopHat 是一個(gè)快速的將RNA-Seq 數(shù)據(jù)進(jìn)行快速剪接映射的程序。它使用超快的高通量短讀比對(duì)程序,將RNA-Seq的信息比對(duì)到哺乳動(dòng)物大小基因組上,然后分析映射結(jié)果來(lái)鑒別外顯子之間的剪接點(diǎn)。c)Cuff

27、links 利用Tophat比對(duì)的結(jié)果(alignments)來(lái)組裝轉(zhuǎn)錄本,估計(jì)這些轉(zhuǎn)錄本的豐度,并且檢測(cè)樣本間的差異表達(dá)及可變剪接調(diào)控。它通過(guò)接受線性的RNA-Seq reads并將線性片段組裝為一套最大簡(jiǎn)約的(parsimonious)轉(zhuǎn)錄本。然后根據(jù)reads數(shù)估計(jì)估計(jì)相關(guān)轉(zhuǎn)錄本的豐度并將實(shí)驗(yàn)室預(yù)設(shè)的偏差考慮在內(nèi)。6.轉(zhuǎn)錄本拼接最大簡(jiǎn)約轉(zhuǎn)錄本的組裝方法:組裝一套轉(zhuǎn)錄本在鏈中找到最小的分割單元P找到最大的反義鏈在二分圖中找到最大匹配數(shù)找到最小點(diǎn)覆蓋二分圖:指頂點(diǎn)可以分成兩個(gè)不相交的集使得在同一個(gè)集內(nèi)的頂點(diǎn)不相鄰(沒(méi)有共同邊)的圖。設(shè)G=(V,E)是一個(gè)無(wú)向圖,如果頂點(diǎn)V可分割為兩個(gè)互不相交

28、的子集(U,V),并且圖中的每條邊(i,j)所關(guān)聯(lián)的兩個(gè)頂點(diǎn)i和j分別屬于這兩個(gè)不同的頂點(diǎn)集(i in U,j in V),則稱圖G為一個(gè)二分圖。最大匹配:給定一個(gè)二分圖G,在G的一個(gè)子圖M中,M的邊集中的任意兩條邊都不依附于同一個(gè)頂點(diǎn),則稱M是一個(gè)匹配,選擇這樣的邊數(shù)最大的子集稱為圖的最大匹配。最小點(diǎn)覆蓋:給定一個(gè)二分圖G,在G的一個(gè)子圖N中,N的點(diǎn)集中的點(diǎn)與所有的邊都有關(guān)聯(lián)(把所有的邊都覆蓋),則稱N是一個(gè)點(diǎn)覆蓋,選擇這樣的點(diǎn)數(shù)最小的子集稱為圖的最小點(diǎn)覆蓋。7. Illumina測(cè)序原理在聚合反應(yīng)體系中加入修飾過(guò)的四種核苷酸,它們分別被標(biāo)記上終止基團(tuán)和熒光基團(tuán):3羥基上標(biāo)記上疊氮基在延伸時(shí)起阻止聚合的作用,胞嘧啶上標(biāo)記上熒光基團(tuán)。每一種核苷酸標(biāo)記的熒光分子是不一樣的。聚合終止,每次加入一個(gè)修飾核苷酸,鏈聚合就被終止了,如下圖用激發(fā)光照射,被修飾的堿基發(fā)出熒光,記錄熒光信號(hào),則知這一步加入的是什么核苷酸。延伸回復(fù):加入二巰基丙醇去掉疊氮基;用TCEP(Tris (2-carboxyethyl) phosphine,三(2-羧乙基)膦)處理,去掉熒光基團(tuán)。進(jìn)入下一輪延伸,加入一個(gè)新的堿基。原理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論