中科院生物信息學(xué)期末考試復(fù)習(xí)題_第1頁(yè)
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第2頁(yè)
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第3頁(yè)
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第4頁(yè)
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中科院生物信息學(xué)期末考試復(fù)習(xí)題陳潤(rùn)生老師部分:1.什么是生物信息學(xué),如何理解其含義?為什么在大規(guī)模測(cè)序研究中,生物信息學(xué)至關(guān)重要?答:生物信息學(xué)有三個(gè)方面的含義:1) 生物信息學(xué)是一個(gè)學(xué)科領(lǐng)域,包含著基因組信息的獲取、處理、存儲(chǔ)、分配 、分析和解釋的所有方面,是基因組研究不可分割的部分。2) 生物信息學(xué)是把基因組DNA序列信息分析作為源頭,破譯隱藏在DNA序列中的遺傳語(yǔ)言,特別是非編碼區(qū)的實(shí)質(zhì);同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè);其本質(zhì)是識(shí)別基因信號(hào)。3) 生物信息學(xué)的研究目標(biāo)是揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律”。它是當(dāng)今自然科學(xué)和技術(shù)科學(xué)領(lǐng)域中“基因組、“

2、信息結(jié)構(gòu)”和“復(fù)雜性”這三個(gè)重大科學(xué)問(wèn)題的有機(jī)結(jié)合。生物信息學(xué)是把基因組DNA序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和RNA基因的編碼區(qū);同時(shí)闡明基因組中大量存在的非編碼區(qū)的信息實(shí)質(zhì),破譯隱藏在DNA序列中的遺傳語(yǔ)言規(guī)律:在此基礎(chǔ)上,歸納、整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜和蛋白譜數(shù)據(jù),從而認(rèn)識(shí)代謝、發(fā)育、分化、進(jìn)化的規(guī)律。同時(shí)在發(fā)現(xiàn)了新基因信息之后,其還利用基因組中編碼區(qū)信息進(jìn)行蛋白空間結(jié)構(gòu)模擬和蛋白功能預(yù)測(cè),并將此類信息與生物體和生命過(guò)程中的生理生化信息結(jié)合,闡明其分子機(jī)制,最終進(jìn)行蛋白、核酸分子設(shè)計(jì)、藥物設(shè)計(jì)、個(gè)體化醫(yī)療保健設(shè)計(jì)。2.如何利用數(shù)據(jù)庫(kù)信息發(fā)現(xiàn)新基因,基本

3、原理?答:利用數(shù)據(jù)庫(kù)資源發(fā)現(xiàn)新基因,根據(jù)數(shù)據(jù)源不同,可分2種不同的查找方式:1) 從大規(guī)?;蚪M測(cè)序得到的數(shù)據(jù)出發(fā),經(jīng)過(guò)基因識(shí)別發(fā)現(xiàn)新基因:(利用統(tǒng)計(jì),神經(jīng)網(wǎng)絡(luò),分維,復(fù)雜度,密碼學(xué),HMM,多序列比對(duì)等方法識(shí)別特殊序列,預(yù)測(cè)新ORF。但因?yàn)榛蚪M中編碼區(qū)少,所以關(guān)鍵是“數(shù)據(jù)識(shí)別”問(wèn)題。)利用大規(guī)模拼接好的基因組,使用不同數(shù)據(jù)方法,進(jìn)行標(biāo)識(shí)查找,并將找到的可能的新基因同數(shù)據(jù)庫(kù)中已有的基因?qū)Ρ?,從而確定是否為新基因??煞譃椋夯谛盘?hào),如剪切位點(diǎn)、序列中的啟動(dòng)子與終止子等?;诮M分,即基因家族、特殊序列間比較,Complexity analysis,Neural Network2) 利用EST數(shù)據(jù)

4、庫(kù)發(fā)現(xiàn)新基因和新SNPs: (歸屬于同一基因的EST片斷一定有overlapping,通過(guò)alignment可組裝成一完整的基因,但EST片斷太小,不存在數(shù)據(jù)來(lái)源,主要是拼接問(wèn)題)數(shù)據(jù)來(lái)源于大量的序列小片段,EST較短,故關(guān)鍵在正確拼接。方法有基因組序列比對(duì)、拼接、組裝法等。經(jīng)常采用SiClone策略。其主要步驟有:構(gòu)建數(shù)據(jù)庫(kù);將序列純化格式標(biāo)準(zhǔn)化;從種子庫(kù)中取序列和大庫(kù)序列比對(duì);延長(zhǎng)種子序列,至不能再延長(zhǎng);放入contig庫(kù)構(gòu)建若干數(shù)據(jù)庫(kù):總的純化的EST數(shù)據(jù)庫(kù),種子數(shù)據(jù)庫(kù),載體數(shù)據(jù)庫(kù),雜質(zhì)、引物數(shù)據(jù)庫(kù),蛋白數(shù)據(jù)庫(kù),cDNA數(shù)據(jù)庫(kù);用所用種子數(shù)據(jù)庫(kù)和雜質(zhì)、引物數(shù)據(jù)庫(kù)及載體數(shù)據(jù)庫(kù)比對(duì),去除雜質(zhì)

5、;用種子和純化的EST數(shù)據(jù)庫(kù)比對(duì)用經(jīng)過(guò)一次比對(duì)得到的長(zhǎng)的片段和蛋白數(shù)據(jù)庫(kù)、cDNA數(shù)據(jù)庫(kù)比較,判斷是否為已有序列,再利用該大片段與純化的EST數(shù)據(jù)庫(kù)比對(duì),重復(fù)以上步驟,直到序列不能再延伸;判斷是否為全長(zhǎng)cDNA序列。(利用EST數(shù)據(jù)庫(kù):原理:當(dāng)測(cè)序獲得一條EST序列時(shí),它來(lái)自哪一個(gè)基因的哪個(gè)區(qū)域是未知的(隨機(jī)的),所以屬于同一個(gè)基因的不同EST序列之間常有交疊的區(qū)域。根據(jù)這種“交疊”現(xiàn)象,就能找出屬于同一個(gè)基因的所有EST序列,進(jìn)而將它們拼接成和完整基因相對(duì)應(yīng)的全長(zhǎng)cDNA序列。而到目前為止,公共EST數(shù)據(jù)庫(kù)(dbEST)中已經(jīng)收集到約800萬(wàn)條的人的EST序列。估計(jì)這些序列已覆蓋了人類全部基

6、因的95%以上,平均起來(lái)每個(gè)基因有10倍以上的覆蓋率。)3.用蛋白或核酸序列數(shù)據(jù)庫(kù)研究生物演化的主要步驟是什么?當(dāng)前的困難是什么,如何克服?(核酸或氨基酸序列進(jìn)行進(jìn)化研究要進(jìn)行哪些計(jì)算步驟?當(dāng)前遇到什么問(wèn)題?怎樣解決?)答:計(jì)算步驟,構(gòu)建系統(tǒng)進(jìn)化樹,其主要步驟如下:1) 序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;2) 序列同源性分析。是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序

7、列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;3) 構(gòu)建系統(tǒng)進(jìn)化樹。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹。為完成這一工作已發(fā)展了多種軟件包,如PYLIP、MEGA等;4) 穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)建好的進(jìn)化樹的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過(guò)程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用 Bootstrap算法。【(1. 序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么,完

8、成這一工作只需要使用兩兩序列比較算法。常用的序列包有BBLAST、FASTA等;(2. 序列同源性分析:將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其他序列間的同源性大小,這是理論分析方法中最關(guān)鍵的一步,完成這一工作必須使用多序列比較算法,常用的程序包有CLUSTAL等;(3. 構(gòu)建系統(tǒng)進(jìn)化樹:根據(jù)序列同源性分析的結(jié)果,重建反應(yīng)物種間進(jìn)化關(guān)系的進(jìn)化樹,為完成這一工作,已發(fā)展了多種軟件包,如PYLIP、MEGA等(4. 穩(wěn)定性檢驗(yàn):為了檢驗(yàn)構(gòu)建好的進(jìn)化樹的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過(guò)程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70%以上)出現(xiàn)

9、的分支點(diǎn)才是可靠的。通用的方法使用Bootstrap算法,相應(yīng)的軟件已包括在構(gòu)建系統(tǒng)進(jìn)化樹所用的軟件包當(dāng)中。 】當(dāng)前的主要困難:是發(fā)現(xiàn)了基因的橫向遷移(LGT)現(xiàn)象,即進(jìn)化程度不同的物種間存在著遺傳信息基因的傳遞,如果拿遷移的基因做進(jìn)化分析就會(huì)出錯(cuò)??朔﨤GT的方法(可能的解決途徑):1) 縱向思路:選擇垂直進(jìn)化而來(lái)的序列進(jìn)行研究,即去除橫向遷移的數(shù)據(jù)庫(kù),如COG數(shù)據(jù)庫(kù);2) 橫向思路:發(fā)展基于完整基因組構(gòu)建進(jìn)化樹,即使用全基因組數(shù)據(jù)庫(kù)進(jìn)行基因組水平上的對(duì)比; 利用生物體的蛋白質(zhì)組構(gòu)建進(jìn)化樹。選取特征對(duì)比,不同長(zhǎng)度的序列字符串進(jìn)行對(duì)比后,對(duì)照其genome進(jìn)行歸一化;ORF對(duì)比,將all pr

10、edicted ORF采用COG的分類規(guī)則進(jìn)行分類,再構(gòu)建進(jìn)化樹4.什么是SNP?為什么SNP的研究是重要的?SNP研究有哪些優(yōu)點(diǎn)?舉出23個(gè)SNP相關(guān)的網(wǎng)站。答:SNP是指單核苷酸多態(tài)性,主要是指在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性,代表了基因組水平上遺傳密碼的變異,由于這種變異很多以單堿基突變的形式出現(xiàn),因此稱為單核苷酸多態(tài)性;它反映了不同個(gè)體間、正常與異常個(gè)體之間基因組上的差別,現(xiàn)在這個(gè)概念有所擴(kuò)大,不限于一個(gè)核苷酸的差異。重要性:因?yàn)镾NP研究是基因組領(lǐng)域理論成果走向應(yīng)用的關(guān)鍵步驟,是聯(lián)系基因型和表現(xiàn)型之間關(guān)系的橋梁,是研究人類基因組計(jì)劃走向應(yīng)用的重要步驟。優(yōu)點(diǎn):(

11、1)SNP在基因組中分布相當(dāng)廣泛,使人們有機(jī)會(huì)發(fā)現(xiàn)與各種疾病相關(guān)的基因組突變;(2)不直接導(dǎo)致疾病基因表達(dá)的SNP,與某些疾病基因相鄰,成為重要標(biāo)記,有助于發(fā)現(xiàn)疾病基因(3)從實(shí)驗(yàn)操作來(lái)看,通過(guò)SNP發(fā)現(xiàn)疾病相關(guān)基因突變,比通過(guò)家系發(fā)現(xiàn)更加容易。(4)基礎(chǔ)研究中非常重要,如對(duì)Y染色體SNP分析有重要成果。SNP的特點(diǎn):1. 位點(diǎn)豐富2. 具有代表性3. 遺傳穩(wěn)定性4. 易于進(jìn)行自動(dòng)化,規(guī)模化分析,縮短了研究時(shí)間SNP研究的意義: 通過(guò)大批量、高通量的SNP的發(fā)現(xiàn)與鑒定,人類SNPHaplotype遺傳圖譜的構(gòu)建,在連鎖不平衡基礎(chǔ)上的關(guān)聯(lián)分析等,有望為人類致命基因的尋找和疾病的防治提供快速和有效

12、的途徑,一系列發(fā)現(xiàn)和檢測(cè)SNP的方法,構(gòu)建圖譜的策略,及連鎖不平衡和關(guān)聯(lián)分析等技術(shù),正在動(dòng)植物研究領(lǐng)域中受到廣泛的關(guān)注,毫無(wú)疑問(wèn)將在分子和群體遺傳、動(dòng)植物育種和生物進(jìn)化等研究領(lǐng)域中發(fā)揮越來(lái)越大的作用。SNP相關(guān)的一些網(wǎng)站:1) SNP Consortium's database(/index.html)2) NCBI SNP database將這些數(shù)據(jù)進(jìn)行整理,去掉冗余,使每個(gè)SNP都是唯一的。此時(shí)的SNP被稱為reference SNP或refSNP。((/SNP/overview.html) 3

13、) The Human Genic Bi-Allelic Sequences Database(HGBASE) 這一數(shù)據(jù)庫(kù)收錄了人基因組中所有已知的序列變化,包括:SNPs、序列的插入和缺失(Indels)、簡(jiǎn)單重復(fù)序列等。(http:/hgbase.cgr.ki.se/)4) The Human Gene Mutation Database(HGMD)(/) 5) The Protein Mutant Database(PMD),蛋白突變數(shù)據(jù)庫(kù)。收錄了蛋白質(zhì)特定位點(diǎn)的氨基酸突變信息,以及這些突變對(duì)蛋白質(zhì)結(jié)構(gòu)功能的影響。(http:/pmd.ddbj.nig

14、.ac.jp/)6) The Allele Frequency Database(ALFRED):人類群體等位基因頻率數(shù)據(jù)庫(kù),/alfred/index.asp5. 什么是系統(tǒng)生物學(xué)?系統(tǒng)生物學(xué)對(duì)生命科學(xué)概念上的發(fā)展?系統(tǒng)生物學(xué)對(duì)生物功能實(shí)現(xiàn)的理解有何本質(zhì)變化?系統(tǒng)生物學(xué)的研究思路是什么?答:系統(tǒng)生物學(xué)是指在系統(tǒng)的層面上研究生命活動(dòng)。(研究一個(gè)生物系統(tǒng)中所有組成成分的構(gòu)成,以及特定條件下組分間互作關(guān)系。)【 系統(tǒng)生物學(xué)就是自基因組研究以來(lái),各個(gè)層次的所有資料和數(shù)據(jù)(包括基因組測(cè)序數(shù)據(jù),功能基因組數(shù)據(jù),蛋白質(zhì)三維結(jié)構(gòu)信息以及相互作用的數(shù)據(jù)等)的整

15、合,以及這些整合數(shù)據(jù)為基礎(chǔ)建立數(shù)學(xué)模型,再以這些模型模擬仿真研究生命活動(dòng)的影響之后生命活動(dòng)的反應(yīng)以及變化 】包含三個(gè)相互銜接的組成(三部曲):整合數(shù)據(jù),即整合所有各個(gè)層次(DNA水平,RNA水平,蛋白質(zhì)水平,蛋白質(zhì)相互作用水平)的信息數(shù)據(jù);系統(tǒng)建模,即用這些信息構(gòu)建描繪生命活動(dòng)的數(shù)學(xué)模型;預(yù)測(cè)未知,即用這個(gè)模型預(yù)測(cè)生命未來(lái)的發(fā)展及外界干擾后系統(tǒng)的變異(生命活動(dòng)及外界因素變化對(duì)其產(chǎn)生的影響)。學(xué)術(shù)概念上的發(fā)展主要有:傳統(tǒng)生物學(xué)是從基因組序列到結(jié)構(gòu),再到功能,而它從各個(gè)層次的相互作用到網(wǎng)絡(luò),再到功能。與以往不同的是,系統(tǒng)生物學(xué)一開始就考慮元件之間的相互作用,把整個(gè)生命活動(dòng)作為網(wǎng)絡(luò),考慮其相互作用。

16、1) 研究思路的變化:傳統(tǒng)的分子生物學(xué)研究步驟一般為:DNA序列蛋白結(jié)構(gòu)蛋白功能(一維),而系統(tǒng)生物學(xué)是在二維的角度研究生命科學(xué),即:相互作用網(wǎng)絡(luò)功能,是由一組基因產(chǎn)生并相互作用共同實(shí)現(xiàn)的。2) 看待生命活動(dòng)本質(zhì)的變化:因?yàn)闆](méi)有一個(gè)生命活動(dòng)是靠一個(gè)基因完成的,生命活動(dòng)是一組基因相互作用實(shí)現(xiàn)的,這種相互作用形成一個(gè)網(wǎng)絡(luò),既包括每個(gè)單元的結(jié)構(gòu),又包括單元與單元之間的相互作用。因此,系統(tǒng)生物學(xué)不僅考慮每個(gè)基因的活動(dòng),還描述了基因間的相互作用并導(dǎo)致了網(wǎng)絡(luò)的產(chǎn)生。(系統(tǒng)生物學(xué)與傳統(tǒng)生物學(xué)看待生命活動(dòng)有著本質(zhì)的不同: 系統(tǒng)生物學(xué)認(rèn)為生命活動(dòng)是由一組基因及其相互作用來(lái)實(shí)現(xiàn)其過(guò)程的,這種相互作用形成了一個(gè)網(wǎng)絡(luò)

17、,既包括每個(gè)單元的結(jié)構(gòu),又包括單元與單元之間的相互作用,因此在考慮結(jié)構(gòu)的過(guò)程中考慮其結(jié)構(gòu)間的相互作用,一組一組地研究。而傳統(tǒng)的分子生物學(xué)考慮的只有結(jié)構(gòu),是一個(gè)一個(gè)地去研究。)其對(duì)生物功能實(shí)現(xiàn)的理解發(fā)生了本質(zhì)性變化:它不僅考慮單個(gè)分子而且考慮其間相互作用,把整個(gè)生命活動(dòng)作為一個(gè)相互作用的網(wǎng)絡(luò)來(lái)研究其功能,基因組只是網(wǎng)絡(luò)中的一部分,只有通過(guò)相互作用的網(wǎng)絡(luò)才能體現(xiàn)功能;通過(guò)系統(tǒng)地整合生物過(guò)程不同階段的分散數(shù)據(jù),如基因組,轉(zhuǎn)錄組,蛋白組,代謝組,可以對(duì)復(fù)雜的生物過(guò)程,如折疊、信號(hào)傳導(dǎo)途徑、代謝途徑更好地模擬,研究生物過(guò)程的動(dòng)態(tài)變化;它不僅全息的了解復(fù)雜的生命系統(tǒng)中的所有成分以及他們之間的動(dòng)態(tài)聯(lián)系,還可

18、以預(yù)測(cè)如果這個(gè)系統(tǒng)一旦受到了刺激和外界干擾,系統(tǒng)未來(lái)的行為是什么。系統(tǒng)生物學(xué)與傳統(tǒng)生物學(xué)有什么不同:區(qū)別:傳統(tǒng)生物學(xué):序列結(jié)構(gòu)功能,只考慮單個(gè)個(gè)體,單個(gè)gene,單個(gè)蛋白質(zhì) 系統(tǒng)生物學(xué):相互作用網(wǎng)絡(luò)功能,除考慮單個(gè)個(gè)體,單個(gè)gene,還考慮個(gè)體與個(gè)體之間的相互作用,把整個(gè)生命活動(dòng)作為一個(gè)網(wǎng)絡(luò)來(lái)考查它們的相互作用。(傳統(tǒng)分子生物學(xué)是從基因組中發(fā)現(xiàn)特殊序列,即基因,然后找到基因編碼的蛋白,再通過(guò)測(cè)知其結(jié)構(gòu),而知其功能。而系統(tǒng)生物學(xué)研究是從各個(gè)層次的相互作用到網(wǎng)絡(luò),再到功能。系統(tǒng)生物學(xué)不僅考慮單個(gè)分子,而且考慮其間相互作用,認(rèn)為生命活動(dòng)由大量相互作用的結(jié)構(gòu)單元組成,這些結(jié)構(gòu)單元形成網(wǎng)絡(luò)。基因組只是網(wǎng)

19、絡(luò)中的一部分,只有通過(guò)相互作用的網(wǎng)絡(luò)才能體現(xiàn)功能。它不僅全息的了解復(fù)雜的生命系統(tǒng)中的所有成分以及他們之間的動(dòng)態(tài)聯(lián)系,還可以預(yù)測(cè)如果這個(gè)系統(tǒng)一旦受到了刺激和外界干擾,系統(tǒng)未來(lái)的行為是什么。)系統(tǒng)生物學(xué)與分子生物學(xué)有什么不同:區(qū)別:分子生物學(xué):序列結(jié)構(gòu)功能,只考慮單個(gè)gene,單個(gè)蛋白質(zhì) 系統(tǒng)生物學(xué):是研究生物系統(tǒng)組成成分的構(gòu)成與相互關(guān)系的結(jié)構(gòu)、動(dòng)態(tài)與發(fā)生,以系統(tǒng)論和實(shí)驗(yàn)、計(jì)算方法整合研究為特征的生物學(xué)。系統(tǒng)生物學(xué)不同于以往僅僅關(guān)心個(gè)別的基因和蛋白質(zhì)的分子生物學(xué),在于研究細(xì)胞信號(hào)傳導(dǎo)和基因調(diào)控網(wǎng)路、生物系統(tǒng)組成之間相互關(guān)系的結(jié)構(gòu)和系統(tǒng)功能的涌現(xiàn)。系統(tǒng)生物學(xué)的研究思路(研究流程):1.針對(duì)選定生物系

20、統(tǒng)進(jìn)行實(shí)驗(yàn)設(shè)計(jì),了解系統(tǒng)所有組成成分:基因,RNA,蛋白,膜脂等2.通過(guò)系統(tǒng)行為動(dòng)力學(xué)分析,總結(jié)系統(tǒng)設(shè)計(jì)和控制規(guī)律3.通過(guò)總結(jié)規(guī)律來(lái)提出新的實(shí)驗(yàn)設(shè)計(jì),驗(yàn)證系統(tǒng)模擬的正確性【分子生物學(xué)與系統(tǒng)生物學(xué)的區(qū)別與聯(lián)系? 答:二者的區(qū)別和聯(lián)系主要從宏觀和微觀上講。分子生物學(xué)的研究采用典型的還原論方法,研究對(duì)象主要是分子水平上的,即生物系統(tǒng)中的大分子、信號(hào)分子的結(jié)構(gòu)、生化性質(zhì)以及功能,基因表達(dá)過(guò)程中的調(diào)控,以及DNA重組。分子生物學(xué)只研究系統(tǒng)的組成元素,最后給出系統(tǒng)的組成元素清單,它是系統(tǒng)生物學(xué)的基礎(chǔ),但它的研究結(jié)果只能解釋生物系統(tǒng)的微觀或局部現(xiàn)象,無(wú)法說(shuō)明系統(tǒng)整體所具有的功能從何而來(lái)。而系統(tǒng)生物

21、學(xué)作為一個(gè)整體,表現(xiàn)出完善的整體行為,而組成系統(tǒng)的細(xì)胞、基因、蛋白質(zhì)等只能作為系統(tǒng)的一個(gè)構(gòu)件、一個(gè)元素、通常情況下它無(wú)法表現(xiàn)出“系統(tǒng)”行為。系統(tǒng)生物學(xué)與分子生物學(xué)研究對(duì)象不同,系統(tǒng)生物學(xué)研究的是系統(tǒng)整體,研究由系統(tǒng)元素形成有功能的整體所依賴的組織方式和潛藏規(guī)則,它同時(shí)研究系統(tǒng)的不同層次,以及他們之間的相互作用關(guān)系,并將這些整合起來(lái)深刻挖掘系統(tǒng)整體的功能形成機(jī)制。系統(tǒng)生物學(xué)雖然在研究對(duì)象上與分子生物學(xué)不同,但他們之間并不是完全不相關(guān)的,系統(tǒng)生物學(xué)的研究離不開分子生物學(xué)研究所給出的大量資料和數(shù)據(jù),正是依賴這些,系統(tǒng)生物學(xué)才有了建模的基礎(chǔ)。同時(shí)分子生物學(xué)的研究結(jié)果只有通過(guò)系統(tǒng)生物學(xué)進(jìn)行整合才能從理論

22、上對(duì)系統(tǒng)的宏觀性質(zhì)達(dá)到定性定量的理解,反過(guò)來(lái),系統(tǒng)生物學(xué)的研究成果也可以用來(lái)指導(dǎo)分子生物學(xué)的實(shí)驗(yàn)設(shè)計(jì)。因此二者之間其實(shí)是相互補(bǔ)充的,只有結(jié)合起來(lái),才能充分認(rèn)識(shí)生命現(xiàn)象?!?. (1)什么是非編碼序列,非編碼RNA,非編碼基因?(2)以人的基因組為例回答:在基因組中有多少非編碼序列,有多少存在轉(zhuǎn)錄本,舉23個(gè)非編碼核酸的生物學(xué)功能?答:(1)非編碼序列是基因組中不編碼蛋白質(zhì)和多肽的序列;(基因組中不歸屬于基因調(diào)控元件,穩(wěn)定元件之外的,也無(wú)明確生物學(xué)功能意義的基因序列統(tǒng)稱為非編碼序列,即不編碼蛋白質(zhì)同時(shí)也無(wú)明確生物學(xué)功能的序列)非編碼RNA是指來(lái)自基因組的非編碼的轉(zhuǎn)錄元件,即基因組中非編碼序列的轉(zhuǎn)

23、錄產(chǎn)物/轉(zhuǎn)錄本;非編碼基因指那些具有明確生物學(xué)功能的非編碼RNA在基因組上非編碼序列上的位置,即功能性的非編碼RNA對(duì)應(yīng)基因組上的位置稱為非編碼基因;(2)人類基因組中9798%的序列是非編碼序列,有70%80%存在轉(zhuǎn)錄本,非編碼核酸的生物學(xué)功能:1) Xist:X-inactivation(X染色體失活)是哺乳動(dòng)物的一種劑量補(bǔ)償機(jī)制,其中一半拷貝轉(zhuǎn)錄被抑制從而失活,抑制轉(zhuǎn)錄是通過(guò)一個(gè)2kb的非編碼RNA(Xist RNA)實(shí)現(xiàn)的,xist RNA裝配在失活X染色體的外側(cè),引起結(jié)構(gòu)改變導(dǎo)致失活;2) Small RNA and RNAi: RNAi是由RNA(siRNA、microRNA)導(dǎo)致

24、的轉(zhuǎn)錄后基因沉默現(xiàn)象,如由雙鏈小RNA引起的干擾和轉(zhuǎn)錄后基因沉默現(xiàn)象,在植物病毒抗性和線蟲中的轉(zhuǎn)座子沉默;一些小核RNA調(diào)控基因轉(zhuǎn)錄。(單鏈易降解,但發(fā)現(xiàn)細(xì)胞中存在另一種pathway,雙鏈小RNA進(jìn)入細(xì)胞后結(jié)合組蛋白形成復(fù)合體,該復(fù)合體和識(shí)別并降解target)3) piRNA(具有大量轉(zhuǎn)錄本,功能不詳)和Prions(生物復(fù)雜度到一定程度后會(huì)出現(xiàn)發(fā)病情況,可能和非編碼RNA有關(guān))等。7.什么是基因組中的非編碼區(qū)?請(qǐng)以人類基因組為例,說(shuō)明:(1) 非編碼區(qū)所占的比例?(2) 按在基因組中的位置(組成)(功能)區(qū)分,非編碼序列有哪些組分?它們所占比例如何?(3) 按序列編碼特征區(qū)分,非編碼序列

25、有哪些組分?它們所占比例如何?(4) 請(qǐng)說(shuō)明非編碼區(qū)研究的重要性(可以舉出一、兩個(gè)典型非編碼序列作為例子)答:基因組中不能編碼蛋白質(zhì)的區(qū)段叫做非編碼區(qū)。非編碼區(qū)位于編碼區(qū)前后,同屬于一個(gè)基因,控制基因的表達(dá)和強(qiáng)弱 。(1) 人類非編碼區(qū)占9798%(2) 按照在基因組中的位置(組成)來(lái)分,各個(gè)組分占基因組的份額:編碼基因(編碼蛋白質(zhì)和tRNA、rRNA):1.52% ;Intron(廣義):25% ;端粒、中心粒等特定位置:12% ;基因間序列:6070% ; 按照在基因組中的功能區(qū)分,各個(gè)組分占基因組的份額:功能蛋白質(zhì)基因1.7%,功能RNA基因0.5%,總共大約13% ;內(nèi)含子:24% ;

26、Satellite DNA(主要分布在中心粒和端粒): 12% ;基因間序列(Intergene DNA):6070% ;(3)按照序列特征區(qū)分,各個(gè)組分占基因組的份額:編碼區(qū)(包括編碼蛋白質(zhì)和tRNA和rRNA的基因)占總基因組的2% ;非編碼區(qū)占到98%:其中:簡(jiǎn)單重復(fù)序列:12% ;散在重復(fù)序列:45% ;假基因:1% ;非編碼非重復(fù)序列:3540% ;(4) 舉例:非編碼基因:1.SINE作為調(diào)節(jié)源,調(diào)節(jié)基因重組、交換,豐富多樣性,獲得新功能;2. 雞溶菌酶基因中,位于編碼區(qū)上游的CRI元件起著轉(zhuǎn)錄沉默子的作用;3.ncDNA產(chǎn)物有重要生物學(xué)功能,如tmRNA介導(dǎo)錯(cuò)誤翻譯蛋白的降解RN

27、Ai導(dǎo)致基因沉默非編碼基因產(chǎn)物的功能:smallRNA是ncDNA產(chǎn)物,是機(jī)體固有的,例如:microRNA,SiRNA小RNA對(duì)染色質(zhì)的形狀有關(guān),也可直接關(guān)閉或刪除部分DNA。NcRNA起著非常重要的生物學(xué)功能,如影響發(fā)育過(guò)程,調(diào)節(jié)轉(zhuǎn)錄、影響染色體復(fù)制、對(duì)RNA加工修飾、影響mRNA穩(wěn)定性進(jìn)而影響翻譯、甚至影響蛋白降解轉(zhuǎn)運(yùn);Xist介導(dǎo)X染色體失活是通其編碼的一個(gè)大的剪接過(guò)的多聚A非編碼產(chǎn)物進(jìn)行的。(長(zhǎng)鏈非編碼RNA(lncRNA)是一類轉(zhuǎn)錄本長(zhǎng)度超過(guò)200nt的RNA分子,它們并不編碼蛋白,而是以RNA的形式在多種層面上(表觀遺傳調(diào)控、轉(zhuǎn)錄調(diào)控以及轉(zhuǎn)錄后調(diào)控等)調(diào)控基因的表達(dá)水平。 lnc

28、RNA起初被認(rèn)為是基因組轉(zhuǎn)錄的“噪音”,是RNA聚合酶II轉(zhuǎn)錄的副產(chǎn)物,不具有生物學(xué)功能。然而,近年來(lái)的研究表明,lncRNA參與了X染色體沉默,基因組印記以及染色質(zhì)修飾,轉(zhuǎn)錄激活,轉(zhuǎn)錄干擾,核內(nèi)運(yùn)輸?shù)榷喾N重要的調(diào)控過(guò)程,lncRNA的這些調(diào)控作用也開始引起人們廣泛的關(guān)注。哺乳動(dòng)物基因組序列中約4%9%的序列產(chǎn)生的轉(zhuǎn)錄本是lncRNA(相應(yīng)的蛋白編碼RNA的比例是1%),雖然近年來(lái)關(guān)于lncRNA的研究進(jìn)展迅猛,但是絕大部分的lncRNA的功能仍然是不清楚的。)( 已有的研究結(jié)果表明,在高等生物中,小分子非編碼RNA在干細(xì)胞干性維持、胚胎發(fā)育、細(xì)胞分化、凋亡、代謝、信號(hào)傳導(dǎo)、感染以及免疫應(yīng)答等

29、幾乎所有重要生命活動(dòng)中發(fā)揮關(guān)鍵的調(diào)控作用,提示生物體內(nèi)可能存在著由RNA介導(dǎo)的遺傳信息表達(dá)調(diào)控網(wǎng)絡(luò)。)8. 精準(zhǔn)醫(yī)學(xué)的重大意義是什么?實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)的重要基礎(chǔ)是什么?精準(zhǔn)醫(yī)學(xué)的重大意義;精準(zhǔn)醫(yī)學(xué)有可能導(dǎo)致醫(yī)療體系本質(zhì)上的轉(zhuǎn)變,把目前的醫(yī)療體系由診斷治療過(guò)渡到健康保障,使得健康體系的關(guān)口前移,有可能產(chǎn)生新興產(chǎn)業(yè)。健康人可以通過(guò)組學(xué)等一系列研究,對(duì)現(xiàn)在的健康作以評(píng)估。在健康檢查的基礎(chǔ)上,對(duì)未來(lái)可能導(dǎo)致疾病的部分進(jìn)行干預(yù),使得能夠延緩疾病的發(fā)生,或者排除某些疾病的發(fā)生,使得健康得以保障。實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)的重要基礎(chǔ):1. 必須獲取分子水平上的數(shù)據(jù)信息,并挖掘其內(nèi)涵,在挖掘組學(xué)數(shù)據(jù)時(shí),一定要使用大數(shù)據(jù)分析技術(shù)

30、,因此是大數(shù)據(jù)與組學(xué)的交匯。組學(xué)包括基因組,轉(zhuǎn)錄組,蛋白質(zhì)組,代謝組;大數(shù)據(jù)包括人群和隊(duì)列2. 建立分子水平上的知識(shí)與宏觀疾病表型的聯(lián)系,即基因型和表型的關(guān)聯(lián),搭建分子水平信息和疾病間的橋梁,在搭建橋梁時(shí),生物信息學(xué),生物網(wǎng)絡(luò),系統(tǒng)生物學(xué)的知識(shí)是其核心知識(shí)。3. 在此基礎(chǔ)上,融合臨床檢驗(yàn),影像學(xué)等指標(biāo),使得醫(yī)學(xué)做得更加精準(zhǔn)。【定義:精準(zhǔn)醫(yī)學(xué)是以個(gè)體化醫(yī)療為基礎(chǔ)、隨著基因組測(cè)序技術(shù)快速進(jìn)步以及生物信息與大數(shù)據(jù)科學(xué)的交叉應(yīng)用而發(fā)展起來(lái)的新型醫(yī)學(xué)概念與醫(yī)療模式。本質(zhì)上:是通過(guò)基因組、蛋白質(zhì)組等組學(xué)技術(shù)和醫(yī)學(xué)前沿技術(shù),對(duì)于大樣本人群與特定疾病類型進(jìn)行生物標(biāo)志物的分析與鑒定、驗(yàn)證與應(yīng)用,從而精確尋找到疾

31、病的原因和治療的靶點(diǎn),并對(duì)一種疾病不同狀態(tài)和過(guò)程進(jìn)行精確亞分類,最終實(shí)現(xiàn)對(duì)于疾病和特定患者進(jìn)行個(gè)性化精準(zhǔn)治療的目的,提高疾病診治與預(yù)防的效益。精準(zhǔn)醫(yī)學(xué)是因人因病而異的、更加精確的個(gè)體化醫(yī)療,其進(jìn)步之處是將人們對(duì)疾病機(jī)制的認(rèn)識(shí)與生物大數(shù)據(jù)和信息科學(xué)相交叉,精確進(jìn)行疾病分類及診斷,為疾病患者提供更具針對(duì)性和有效性的防療措施,最終目的是更好地為患者服務(wù)。與個(gè)體化醫(yī)療相比,精準(zhǔn)醫(yī)療更重視“病”的深度特征和“藥”的高度精準(zhǔn)性;是在對(duì)人、病、藥深度認(rèn)識(shí)基礎(chǔ)上,形成的高水平醫(yī)療技術(shù)。精準(zhǔn)醫(yī)學(xué)實(shí)現(xiàn)了從診斷治療到健康保障這一本質(zhì)性轉(zhuǎn)變。精準(zhǔn)醫(yī)學(xué)包括精準(zhǔn)診斷和精準(zhǔn)治療,而“邁向精準(zhǔn)醫(yī)學(xué)”需要構(gòu)造的生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)

32、是建立在系統(tǒng)生物學(xué)的基礎(chǔ)之上。實(shí)施精準(zhǔn)醫(yī)學(xué)計(jì)劃的戰(zhàn)略意義總共有4點(diǎn):提高疾病診治水平,惠及民生與國(guó)民健康;推動(dòng)醫(yī)學(xué)科技前沿發(fā)展,增強(qiáng)國(guó)際競(jìng)爭(zhēng)力;發(fā)展醫(yī)藥生物技術(shù),促進(jìn)醫(yī)療體制改革;形成經(jīng)濟(jì)新增長(zhǎng)點(diǎn),帶動(dòng)大健康產(chǎn)業(yè)發(fā)展?!俊居锌赡軐⒒蚪M變異作為疾病診斷,精準(zhǔn)醫(yī)學(xué)導(dǎo)致醫(yī)療體系本質(zhì)的轉(zhuǎn)變,把目前階段治療過(guò)渡到健康保障,使健康體系關(guān)口前移,在健康篩查基礎(chǔ)上,排除疾病發(fā)生。就是評(píng)估-檢查-干預(yù)的過(guò)程?;A(chǔ):1獲取分子水平上數(shù)據(jù)信息,挖掘信息內(nèi)容,發(fā)展大數(shù)據(jù)新算法,理論技術(shù)如組學(xué)的信息。2 建立分子水平知識(shí)宏觀疾病表型關(guān)聯(lián),搭建分子水平信息與疾病的橋梁。問(wèn)題:樣本量少,有效治療事件頻率低,疾病相關(guān)復(fù)雜網(wǎng)

33、絡(luò)構(gòu)建分析的困難?!筷愋ダ蠋煵糠郑?.芯片間標(biāo)準(zhǔn)化的方法: 排序:每列由小到大排序,而可以得到每一組基因表達(dá)量的真實(shí)值 求排的平均值作為標(biāo)準(zhǔn)值 重排:按顏色重排 基本方法:芯片間標(biāo)準(zhǔn)化的目的是基于Gene1Gene5五個(gè)基因表達(dá)量理論的和應(yīng)該保持恒定,即S1S3三列每一列的和是相等的。但實(shí)際測(cè)定過(guò)程中不可能完全相等,因此將這種不等歸結(jié)于每一組芯片自身的差異而進(jìn)行芯片間標(biāo)準(zhǔn)化,基本步驟為通過(guò)排序取平均重新排序的方法消除芯片間誤差,從而可以得到每一組基因表達(dá)量的真實(shí)值。(老師給的這組芯片基因完全相同的情況下S3一列數(shù)據(jù)明顯偏高,通過(guò)這種標(biāo)準(zhǔn)化實(shí)現(xiàn)了芯片間差異的消除)。【Quantile歸一化過(guò)程

34、:首先假設(shè)不同芯片整體分布一致,歸一化后芯片的分布一樣。下圖四個(gè)部分代表四步,行代表基因,列代表樣本,圖一對(duì)每個(gè)列的表達(dá)值排序,圖二計(jì)算每行的平均值,圖三用每行計(jì)算的平均值代替該行的原值,圖四將排序后的行恢復(fù)到未排序前的位置?!?2. FDR控制假陽(yáng)性的方法BenjaminiHochberg procedure基本方法:對(duì)于m個(gè)獨(dú)立的樣本,其p-value記為pi,i=1,2,3m;(1)對(duì)所有的p-value進(jìn)行從小到大排序p(1)p(2) p(m);(2)對(duì)于一個(gè)給定的(此時(shí)的即為統(tǒng)計(jì)里的顯著水平,范圍01,通常取0.05),找到最大的k值,滿足;(3)拒絕從p(1)p(k)的無(wú)效假設(shè)H0

35、(即表示p(1)p(k)表達(dá)量存在顯著差異)。計(jì)算方法1(=0.05):P(4)=0.03<0.05*4/6=0.033;P(5)=0.045>0.05*5/6=0.041;k=4. 即G2, G6, G5, G4差異表達(dá),F(xiàn)DR<0.05計(jì)算方法2(q-value法):根據(jù)可以推出因此直接計(jì)算并與進(jìn)行對(duì)比即可:由于G3的q-value大于0.05,因此G2, G6, G5, G4差異表達(dá)?!綟DR過(guò)程,如何控制FDR:首先,F(xiàn)DR過(guò)程是為了控制假陽(yáng)性率的過(guò)程。假陽(yáng)性指樣本本質(zhì)為假但判定為真。比如在找到一組差異表達(dá)的基因之后,我們要考慮這個(gè)差異是否夠顯著,即假陽(yáng)性率是否足夠低

36、。BH過(guò)程是FDR矯正的一種,首先對(duì)檢驗(yàn)得到的P值進(jìn)行排序,然后從1開始增加找K的值,使K滿足,其中m為個(gè)數(shù),a一般取0.05或0.1。所有滿足P值的基因認(rèn)為表達(dá)有顯著差異且假陽(yáng)性不超過(guò)a?!?. 轉(zhuǎn)錄本表達(dá)量的表示方法(RPKM:Reads Per Kilobase of transcript per Million mapped reads):(1)RPKM的作用:RNA-seq是透過(guò)次世代定序的技術(shù)來(lái)偵測(cè)基因表現(xiàn)量的方法,在衡量基因表現(xiàn)量時(shí),若是單純以map到的read數(shù)來(lái)計(jì)算基因的表現(xiàn)量,在統(tǒng)計(jì)上是一件相當(dāng)不合理的事,因?yàn)樵陔S機(jī)抽樣的情況下,序列較長(zhǎng)的基因被抽到的機(jī)率本來(lái)就會(huì)比序列短的

37、基因較高,如此一來(lái),序列長(zhǎng)的基因永遠(yuǎn)會(huì)被認(rèn)為表現(xiàn)量較高,而錯(cuò)估基因真正的表現(xiàn)量,所以Ali Mortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量假設(shè)一個(gè)物種的基因組上只有兩個(gè)基因,基因G1的外顯子長(zhǎng)8 Kb,基因G2的外顯子長(zhǎng)2 Kb。對(duì)該物種的一個(gè)樣本做RNA-seq,共得到23 millions 的read,其中能夠比對(duì)到G1的read 有16 million 個(gè),能夠比對(duì)到G2的有4 million 個(gè).計(jì)算G1和G2的RPKM。Total mapped reads=16 million+4 million=20 millionG1: total exon reads=16

38、,000,000 exon length=8kb RPKM=16,000,000/(20*8)=100,000G2: total exon reads=4,000,000 exon length=2kb RPKM=4,000,000/(20*2)=100,000(2)FPKM與RPKM的區(qū)別:兩者基本相同。RPKM代表Reads Per Kilobase of transcript per Million mapped reads,F(xiàn)PKM代表Fragments Per Kilobase of transcript per Million mapped reads。在RNA-Seq中,由于cD

39、NA來(lái)源于RNA的逆轉(zhuǎn)錄,轉(zhuǎn)錄物的表達(dá)量與cDNA片段成比例。RNA-Seq配對(duì)末端實(shí)驗(yàn)每個(gè)片段產(chǎn)生兩個(gè)reads,但這并不意味著兩個(gè)reads都可在圖上標(biāo)注。例如,第二個(gè)read低品質(zhì)。如果我們對(duì)read計(jì)數(shù)而不是片段,我們可能對(duì)某些片段重復(fù)計(jì)數(shù),而對(duì)另一些只計(jì)一次,導(dǎo)致對(duì)表達(dá)量估計(jì)的偏差。因此FPKM以片段為單位計(jì)數(shù),而不是reads數(shù)。(來(lái)源于網(wǎng)上,原網(wǎng)址:/faq.html#fpkm)預(yù)測(cè):1.高通量測(cè)序數(shù)據(jù)分析總括:高通量測(cè)序數(shù)據(jù)庫(kù)程序讀出的reads數(shù)據(jù)及對(duì)應(yīng)的質(zhì)量分值以文件格式為fastq的格式保存。測(cè)序的原始數(shù)據(jù)為熒光信號(hào)

40、,首先將熒光信號(hào)轉(zhuǎn)換為序列信息,即讀段數(shù)據(jù)及對(duì)應(yīng)的質(zhì)量分值;為了方便測(cè)序數(shù)據(jù)的發(fā)布和共享,一般需要對(duì)數(shù)據(jù)進(jìn)行格式化轉(zhuǎn)換,最常用的數(shù)據(jù)格式為fastq格式;對(duì)得到的原始數(shù)據(jù)必須對(duì)其質(zhì)量進(jìn)行評(píng)估,評(píng)估指標(biāo)包括G、C含量,堿基質(zhì)量,插入分布等。方便過(guò)濾掉質(zhì)量較差的讀段;若數(shù)據(jù)質(zhì)量評(píng)估過(guò)關(guān),接著將原始讀長(zhǎng)通過(guò)序列映射定位到基因組上;若無(wú)參考基因組,則必須使用denovo的組裝方法;得到測(cè)序數(shù)據(jù)的組裝圖后,便可根據(jù)實(shí)驗(yàn)?zāi)康膶?duì)組裝好的數(shù)據(jù)進(jìn)行相關(guān)分析,如分析基因的剪接位點(diǎn),SNP位點(diǎn),變異位點(diǎn)還可以分析基因的差異化表達(dá)(RNA-Seq),轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Chip-Seq),甲基化模式(MeDIP-Seq

41、),同時(shí)還可利用此數(shù)據(jù)發(fā)現(xiàn)新的編碼基因和非編碼基因;使用可視化組件對(duì)分析結(jié)果進(jìn)行可視化處理。2.表達(dá)譜數(shù)據(jù)分析流程IntensityExpression profileQuality controlNormalizationDifferential gene expression analysis基因芯片在一個(gè)顏色通道掃描后得到的原式圖是色調(diào)單一,強(qiáng)度不同的亮點(diǎn)陳列圖;將原始的圖像數(shù)據(jù)轉(zhuǎn)換為基因表達(dá)矩陣;對(duì)得到的基因表達(dá)矩陣的數(shù)據(jù)質(zhì)量進(jìn)行檢測(cè),對(duì)得到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,從而估計(jì)和校正試驗(yàn)誤差,篩選出有效數(shù)據(jù)。標(biāo)準(zhǔn)化就是消除基因芯片實(shí)驗(yàn)過(guò)程中系統(tǒng)變異對(duì)基因表達(dá)水平所帶來(lái)的影響。標(biāo)準(zhǔn)化包括芯片內(nèi)

42、的標(biāo)準(zhǔn)化和芯片之間的數(shù)據(jù)標(biāo)準(zhǔn)化。芯片內(nèi)的標(biāo)準(zhǔn)化方法,如局部加權(quán)線性回歸標(biāo)準(zhǔn)化,參照點(diǎn)標(biāo)準(zhǔn)化,芯片之間的標(biāo)準(zhǔn)化方法如Quantile;前幾部都是對(duì)表達(dá)譜數(shù)據(jù)的預(yù)處理,后期的數(shù)據(jù)分析包括差異基因表達(dá)分析、聚類分析、判別分析等;a)差別基因表達(dá)分析可分析不同樣本中起關(guān)鍵作用的基因,為后續(xù)研究提供方向;b)聚類分析是基因表達(dá)譜最廣泛使用的統(tǒng)計(jì)技術(shù),聚類分析的目的再與尋找可能標(biāo)準(zhǔn)化或關(guān)聯(lián)的基因,從而預(yù)測(cè)位置基因的功能信息或已知基因的未知功能;c)判別分析能夠依據(jù)樣本的某些特性,判別樣本的所屬類型,利用已有數(shù)據(jù)建立分類器,然后利用建立的分類器對(duì)未知樣本的功能或狀態(tài)進(jìn)行預(yù)測(cè)。方法主要有SVM,貝葉斯分類和神

43、經(jīng)網(wǎng)絡(luò)法等。3.無(wú)生物學(xué)重復(fù)和有生物學(xué)重復(fù)時(shí)如何進(jìn)行差異表達(dá)分析?答:(1)無(wú)生物學(xué)重復(fù):方法:FC(Fold change倍數(shù)變化)描述數(shù)據(jù)初值與終值之間的差異(一般是兩個(gè)差別表達(dá)基因間或處理與對(duì)照之間),用標(biāo)準(zhǔn)化后的兩組數(shù)據(jù)相除得到的比例,一般2-fold表明兩組數(shù)據(jù)是有顯著差異的;這種計(jì)算方法可以得到一組相對(duì)值,而不是絕對(duì)值變化,消除了系統(tǒng)誤差以便于統(tǒng)計(jì)學(xué)分析;一般得到的FC值與設(shè)定的閾值進(jìn)行比較即可得到表達(dá)有差異的基因;(2)有生物學(xué)重復(fù):方法:假設(shè)檢驗(yàn)a)具體步驟:提出實(shí)際問(wèn)題;提出無(wú)效假設(shè)(H0)與備擇假設(shè)(H1);選擇顯著性水平(一般=0.05);選擇統(tǒng)計(jì)模型與相應(yīng)的統(tǒng)計(jì)量;根據(jù)

44、實(shí)驗(yàn)結(jié)果計(jì)算實(shí)驗(yàn)統(tǒng)計(jì)量;判斷檢驗(yàn)統(tǒng)計(jì)量的p-值 (表示事件發(fā)生的概率具有偶然性);將p值同選定的顯著性水平比較;拒絕或不拒絕H0;回答所提出的實(shí)際問(wèn)題。b)假設(shè)檢驗(yàn)根據(jù)數(shù)據(jù)類型(是否符合正態(tài)性)分為參數(shù)檢驗(yàn)與非參數(shù)檢驗(yàn):參數(shù)檢驗(yàn):符合正態(tài)分布可使用,常用的方法主要有t檢驗(yàn)法,配對(duì)t檢驗(yàn)法、最小二乘法非參數(shù)檢驗(yàn):不符合正態(tài)分布可使用,常用的方法有Wilcoxon秩和檢驗(yàn)法,其基本方法是根據(jù)表達(dá)量排序并按照排列順序檢驗(yàn),檢驗(yàn)結(jié)果較參數(shù)檢驗(yàn)法更粗獷。4.全基因組測(cè)序的步驟?答:(1)第一期:基因組調(diào)研圖整體測(cè)序深度不低于20倍覆蓋度。進(jìn)行初步的數(shù)據(jù)分析,對(duì)基因組大小,GC含量等做出初步評(píng)估,確定框架

45、圖梯度文庫(kù)構(gòu)建具體策略;(2)第二期:基因組框架圖基因組覆蓋度達(dá)到90% 以上,基因區(qū)覆蓋度達(dá)到95% 以上,單堿基的錯(cuò)誤率達(dá)到1萬(wàn)分之一以內(nèi),整體測(cè)序覆蓋深度不低于60倍覆蓋度。同時(shí)對(duì)框架圖進(jìn)行基本基因注釋和功能注釋,和簡(jiǎn)單的比較基因組學(xué)分析。(3)第三期:基因組精細(xì)圖基因組覆蓋度達(dá)到95% 以上,基因區(qū)覆蓋度達(dá)到98% 以上,單堿基的錯(cuò)誤率達(dá)到10萬(wàn)分之一以內(nèi),整體基因組覆蓋度不低于100倍,Scaffold N50大小不低于300Kb,對(duì)基因組精細(xì)圖進(jìn)行詳細(xì)基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學(xué)分析。5. 轉(zhuǎn)錄本測(cè)序,各數(shù)據(jù)分析工具的特點(diǎn)?轉(zhuǎn)錄本測(cè)序可分為Small RN

46、A-seq和RNA-seq:Small RNA-seq主要用于檢測(cè)small RNA(主要是miRNA)的表達(dá)水平,發(fā)現(xiàn)新的small RNARNA-seq:Poly(A)用以檢測(cè)蛋白質(zhì)編碼基因的可變剪切體及表達(dá)水平;Total RNA(除rRNA)用于檢測(cè)mRNA及l(fā)ong noncoding RNA的表達(dá)水平并發(fā)現(xiàn)新的long noncoding RNA;數(shù)據(jù)分析工具主要有:Bowtie,TopHat,Cufflinks,具體作用如下:a)Bowtie是一個(gè)超級(jí)快速的,較為節(jié)省內(nèi)存的短序列拼接至模板基因組的工具。它在拼接35堿基長(zhǎng)度的序列時(shí),可以達(dá)到每小時(shí)2.5億次的拼接速度。Bowtie

47、并不是一個(gè)簡(jiǎn)單的拼接工具,它不同于Blast等。它適合的工作是將小序列比對(duì)至大基因組上去。它最長(zhǎng)能讀取1024個(gè)堿基的片段。b)TopHat 是一個(gè)快速的將RNA-Seq 數(shù)據(jù)進(jìn)行快速剪接映射的程序。它使用超快的高通量短讀比對(duì)程序,將RNA-Seq的信息比對(duì)到哺乳動(dòng)物大小基因組上,然后分析映射結(jié)果來(lái)鑒別外顯子之間的剪接點(diǎn)。c)Cufflinks 利用Tophat比對(duì)的結(jié)果(alignments)來(lái)組裝轉(zhuǎn)錄本,估計(jì)這些轉(zhuǎn)錄本的豐度,并且檢測(cè)樣本間的差異表達(dá)及可變剪接調(diào)控。它通過(guò)接受線性的RNA-Seq reads并將線性片段組裝為一套最大簡(jiǎn)約的(parsimonious)轉(zhuǎn)錄本。然后根據(jù)read

48、s數(shù)估計(jì)估計(jì)相關(guān)轉(zhuǎn)錄本的豐度并將實(shí)驗(yàn)室預(yù)設(shè)的偏差考慮在內(nèi)。6.轉(zhuǎn)錄本拼接最大簡(jiǎn)約轉(zhuǎn)錄本的組裝方法:組裝一套轉(zhuǎn)錄本在鏈中找到最小的分割單元P找到最大的反義鏈在二分圖中找到最大匹配數(shù)找到最小點(diǎn)覆蓋二分圖:指頂點(diǎn)可以分成兩個(gè)不相交的集使得在同一個(gè)集內(nèi)的頂點(diǎn)不相鄰(沒(méi)有共同邊)的圖。設(shè)G=(V,E)是一個(gè)無(wú)向圖,如果頂點(diǎn)V可分割為兩個(gè)互不相交的子集(U,V),并且圖中的每條邊(i,j)所關(guān)聯(lián)的兩個(gè)頂點(diǎn)i和j分別屬于這兩個(gè)不同的頂點(diǎn)集(i in U,j in V),則稱圖G為一個(gè)二分圖。最大匹配:給定一個(gè)二分圖G,在G的一個(gè)子圖M中,M的邊集中的任意兩條邊都不依附于同一個(gè)頂點(diǎn),則稱M是一個(gè)匹配,選擇這樣

49、的邊數(shù)最大的子集稱為圖的最大匹配。最小點(diǎn)覆蓋:給定一個(gè)二分圖G,在G的一個(gè)子圖N中,N的點(diǎn)集中的點(diǎn)與所有的邊都有關(guān)聯(lián)(把所有的邊都覆蓋),則稱N是一個(gè)點(diǎn)覆蓋,選擇這樣的點(diǎn)數(shù)最小的子集稱為圖的最小點(diǎn)覆蓋。7. Illumina測(cè)序原理在聚合反應(yīng)體系中加入修飾過(guò)的四種核苷酸,它們分別被標(biāo)記上終止基團(tuán)和熒光基團(tuán):3羥基上標(biāo)記上疊氮基在延伸時(shí)起阻止聚合的作用,胞嘧啶上標(biāo)記上熒光基團(tuán)。每一種核苷酸標(biāo)記的熒光分子是不一樣的。聚合終止,每次加入一個(gè)修飾核苷酸,鏈聚合就被終止了,如下圖用激發(fā)光照射,被修飾的堿基發(fā)出熒光,記錄熒光信號(hào),則知這一步加入的是什么核苷酸。延伸回復(fù):加入二巰基丙醇去掉疊氮基;用TCEP

50、(Tris (2-carboxyethyl) phosphine,三(2-羧乙基)膦)處理,去掉熒光基團(tuán)。進(jìn)入下一輪延伸,加入一個(gè)新的堿基。原理的關(guān)鍵之處在于如何形成足夠強(qiáng)的熒光信號(hào)。無(wú)疑這需要大量的模板。怎樣來(lái)獲得大量模板呢?同時(shí)二代測(cè)序技術(shù)還要實(shí)現(xiàn)高通量測(cè)序,即同時(shí)對(duì)大量序列測(cè)序。如何將混合樣品中序列彼此分開呢?illumina橋式PCR技術(shù)可解決以上兩個(gè)問(wèn)題(1)樣品準(zhǔn)備 序列片段化:將混合樣品中的核酸序列打斷至400bp左右 短序列收集,并將末端補(bǔ)平。在5端加一個(gè)Pi基團(tuán);3端加一個(gè)“A” 在兩端分別加上不同的接頭序列(2)橋式PCR將樣品平鋪到預(yù)制的含與接頭序列互補(bǔ)的平板上(flow

51、 cell),平板結(jié)構(gòu)如下: Flow cell 表面是寡聚引物 加上接頭的序列與平板上寡聚引物互補(bǔ)配對(duì)加上接頭的序列與平板上寡聚引物互補(bǔ)配對(duì),然后進(jìn)行酶聚合反應(yīng) 變性使原始模板鏈分離并洗凈 模板鏈脫離 單鏈彎曲雜交在相鄰的引物上 單鏈彎曲雜交在相鄰的引物(與另一端結(jié)合的引物)上。 酶聚合形成雙鏈橋式結(jié)構(gòu);之后橋式結(jié)構(gòu)打開形成的兩個(gè)copy又在其各自周圍形成新的copy。 酶聚合形成雙鏈橋式結(jié)構(gòu) 每個(gè)簇都有約10000個(gè)拷貝,且每個(gè)簇都代表一個(gè)獨(dú)特序列 橋式雙鏈分開,反向鏈(底3-5上)被切掉后洗脫(通過(guò)切反向鏈引物);正向鏈3端被封閉,防止不必要的DNA延伸。 加入測(cè)序引物測(cè)序,如圖右。8.

52、高通量測(cè)序數(shù)據(jù)的分析流程高通量測(cè)序數(shù)據(jù)以程序讀出的reads數(shù)據(jù)及對(duì)應(yīng)的質(zhì)量分值的格式保存,其文件格式為fastaq格式高通量測(cè)序最原始的數(shù)據(jù)為熒光信號(hào),首先將熒光信號(hào)轉(zhuǎn)化為序列信息,即reads數(shù)據(jù)及對(duì)應(yīng)的質(zhì)量分值。為了便于測(cè)序數(shù)據(jù)的發(fā)布以及共享,一般需要對(duì)數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,最常用的數(shù)據(jù)格式是fastaq。對(duì)于得到的數(shù)據(jù)必須對(duì)其質(zhì)量進(jìn)行評(píng)估,評(píng)估指標(biāo)包括GC含量,堿基質(zhì)量,插入缺失錯(cuò)誤,以便過(guò)濾掉質(zhì)量差的reads。若數(shù)據(jù)質(zhì)量評(píng)估過(guò)關(guān),接著將原始reads map 到基因組上。若無(wú)參考基因組,則需用de novo 組裝方法。得到測(cè)序數(shù)據(jù)的組裝圖后,便可以根據(jù)實(shí)驗(yàn)?zāi)康?,?duì)組裝好的數(shù)據(jù)進(jìn)行相關(guān)的

53、分析。如分析基因的剪接位點(diǎn),SNP位點(diǎn),變異位點(diǎn),還可以分析基因的差異化表達(dá)(DNA,RNA),轉(zhuǎn)錄因子結(jié)合位點(diǎn)(Chip-seq),甲基化模式(MeDIP-seq),同時(shí)還可利用此數(shù)據(jù)發(fā)現(xiàn)新的編碼基因和非編碼基因。使用可視化軟件對(duì)分析結(jié)果進(jìn)行可視化處理。王秀杰老師部分:1想知道轉(zhuǎn)錄因子的結(jié)合位點(diǎn)用什么方法? 轉(zhuǎn)錄調(diào)控是基因表達(dá)的關(guān)鍵步驟:轉(zhuǎn)錄調(diào)控因子 (transcription factors,TFs)有序地結(jié)合在目標(biāo)基因啟動(dòng)子序列中的特殊位點(diǎn),啟動(dòng)基因的轉(zhuǎn)錄和控制基因的轉(zhuǎn)錄效率。這些位點(diǎn)被稱為轉(zhuǎn)錄因子結(jié)合位點(diǎn)( transcription factor binding sites,TFB

54、Ss),又被稱為順式調(diào)控元件( cis-regulatory elements),其長(zhǎng)度從幾個(gè)到十幾個(gè)堿基對(duì)不等。每個(gè)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)通常都有特定的模式,被稱為模體(motif)。找到這些特定的序列片段對(duì)研究基因的轉(zhuǎn)錄調(diào)控有著重要意義。2知道針對(duì)一種問(wèn)題,用哪種算法即可,1. Greedy Algorithm 貪心算法(并不是一個(gè)很好的)(1) 貪心算法是解決如下問(wèn)題的,希望找到一個(gè)全局最優(yōu)解,每個(gè)階段每個(gè)階段做了全局最優(yōu)選擇的啟發(fā)式算法。(2) 貪心算法的條件:1. 當(dāng)一個(gè)問(wèn)題可分為很多步驟,每一步驟有最優(yōu)解2. 考慮之前所做,不會(huì)對(duì)之后所做有影響時(shí)(3) 貪心算法的問(wèn)題:1. 貪心算法的

55、特點(diǎn),“缺乏觀察”和“不可重獲的”2. 貪心算法大多是(但不總是)不能找到全局最優(yōu)解,因?yàn)樗麄兺ǔ2粡氐讋?dòng)用所有的數(shù)據(jù)3. 他們做出選擇太早,以致于阻止他們后來(lái)找到最佳的整體解決方案。4. 然而貪心算法是有用的,因?yàn)樗麄兡芸焖傧氤霾⒔?jīng)常能給出近似最優(yōu)解(4)適合貪心算法的案例和情況1.問(wèn)題具有最優(yōu)子結(jié)構(gòu),如果這一問(wèn)題的最優(yōu)解包括子問(wèn)題的最優(yōu)解,作出貪心算法2.貪心算法的選擇可能取決于目前為止作出的選擇,但不是未來(lái)選擇或子問(wèn)題的所有解決方案。2.Heuristic Algorithm 探索式算法(快)1.探索式算法的目標(biāo)是在合理的時(shí)間內(nèi)產(chǎn)生一個(gè)能足夠好地解決手頭問(wèn)題的解決方案。這個(gè)解決方案可能不

56、是所有實(shí)際解決這個(gè)問(wèn)題的最好的方案,或者它僅僅是近似精準(zhǔn)的解決方案。但是它仍然是很有價(jià)值的,同時(shí)它不需要非常長(zhǎng)的時(shí)間。2.在計(jì)算機(jī)科學(xué),人工智能技術(shù)和數(shù)字最優(yōu)化中,探索式算法是一種為更快地解決一個(gè)問(wèn)題而設(shè)計(jì)的技術(shù)。或者當(dāng)傳統(tǒng)的方法不能找到任何精準(zhǔn)的解決方案,而探索式算法可以找到一個(gè)近似精準(zhǔn)的解決方案。它通過(guò)交易最優(yōu)性,完整性,精準(zhǔn)性或速度精準(zhǔn)度被獲得,從某種程度上講,可以說(shuō)是一條捷徑。3.在理論計(jì)算機(jī)科學(xué)中,關(guān)于NP硬度的結(jié)果使得探索式算法成為唯一可進(jìn)行的選擇。在真實(shí)世界應(yīng)用程序中,需要解決的各種復(fù)雜的最優(yōu)化問(wèn)題上唯一的選擇。4何時(shí)考慮使用探索式算法?1. 最優(yōu):當(dāng)對(duì)于一個(gè)給定問(wèn)題的幾個(gè)解決方

57、案,探索式算法能否找到最好的解決方案?實(shí)際上它是否需要找到最好的方案?2. 完整性:當(dāng)對(duì)于一個(gè)給定的問(wèn)題存在幾個(gè)解決方案,探索式算法能否全部找到它們?實(shí)際上我們需要所有的解決方案嗎?許多探索式算法僅僅只是為了找到一個(gè)解決方案。3. 準(zhǔn)確度和精密度:探索式算法能提供一個(gè)所謂的解決方案的置信區(qū)間嗎?解決方案不合理的誤差大嗎?4. 解決時(shí)間:對(duì)于解決這類問(wèn)題,這是最著名的探索式算法嗎?一些探索式算法比別的會(huì)更快,一些探索式算法只是稍微快于經(jīng)典的方法。3. pseudogenePseudogenes can be categorized in two forms: unprocessed and processed. Unprocessed pseudogenes can also be

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論