生物信息學(xué)教學(xué)課件_第1頁(yè)
生物信息學(xué)教學(xué)課件_第2頁(yè)
生物信息學(xué)教學(xué)課件_第3頁(yè)
生物信息學(xué)教學(xué)課件_第4頁(yè)
生物信息學(xué)教學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩127頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)第一章:生物信息學(xué)的概念及其發(fā)展歷史第一節(jié):生物信息學(xué)的發(fā)展歷史1.目前,絕大多數(shù)的核酸和蛋白質(zhì)數(shù)據(jù)庫(kù)由美國(guó)、歐洲和日本的三家數(shù)據(jù)庫(kù)產(chǎn)生,共同組成GenBank/EMBC/DDBJ國(guó)際核酸序列數(shù)據(jù)庫(kù),每天交換數(shù)據(jù)同步更新。2.我國(guó)目前的情況:

北京大學(xué)于1997年3月成立了生物信息學(xué)中心;中國(guó)科學(xué)院上海生命科學(xué)研究院于2000年3月成立了生物信息學(xué)中心。分別維護(hù)國(guó)內(nèi)兩個(gè)專業(yè)水平較高的生物信息學(xué)網(wǎng)站第二節(jié):生物信息學(xué)的研究領(lǐng)域

生物信息學(xué)的研究對(duì)象為生物數(shù)據(jù),研究方向著重于“序列—結(jié)構(gòu)—功能—應(yīng)用”這個(gè)方向的功能和應(yīng)用部分。

其中涉及到的研究領(lǐng)域有:

1.分子生物學(xué)和細(xì)胞生物學(xué)

2.生物物理學(xué)

3.腦和神經(jīng)科學(xué)

4.醫(yī)藥學(xué)

5.農(nóng)林牧漁學(xué)

6.分子和生態(tài)進(jìn)化第三節(jié):生物信息學(xué)的主要應(yīng)用一:生物信息學(xué)數(shù)據(jù)庫(kù)

比較著名的與生物相關(guān)數(shù)據(jù)庫(kù)有:NCBI、EMBL、KEGG等(一)數(shù)據(jù)庫(kù)建設(shè)

目前應(yīng)用較多的有Oracle、MySQL、PostgreSQL等數(shù)據(jù)庫(kù),相關(guān)網(wǎng)址大家可從網(wǎng)上查閱。(二)數(shù)據(jù)庫(kù)整合和數(shù)據(jù)挖掘二:序列比對(duì)(一)序列比對(duì)

生物信息學(xué)最基本的操作對(duì)象是核酸序列和氨基酸序列

1955年桑格完成第一個(gè)蛋白質(zhì)—牛胰島素的測(cè)序;1977年他領(lǐng)導(dǎo)研究小組完成測(cè)定第一個(gè)噬菌體φX174全基因組核苷酸序列。

利用散彈法測(cè)序被全世界迅速利用,即將完整的DNA鏈打散為成千上萬(wàn)條600-800個(gè)核苷酸的DNA片段,這些DNA片段兩端相互重疊,只有按照正確的次序才可以得到完整的序列。

比較序列的目的是發(fā)現(xiàn)相似的序列,得到保守的區(qū)域,他們可能有結(jié)構(gòu)、功能或進(jìn)化上的關(guān)系。閑雜可利用BLAST或FASTA算法等尋找他們的同源序列。(二)基因序列的注釋

隨著測(cè)序工作的開(kāi)展,全基因組的自動(dòng)注釋需求迫切。

自動(dòng)尋找基因和調(diào)控元件的工作通常包括的步驟有:翻譯起始點(diǎn)和終止點(diǎn)的確定,潛在的閱讀框、剪切位點(diǎn)的識(shí)別,基因結(jié)構(gòu)的構(gòu)建,各種反式和順式調(diào)控原件的識(shí)別等。三:測(cè)序和拼接

目前的DNA自動(dòng)測(cè)序儀只能測(cè)出遠(yuǎn)少于待測(cè)序列長(zhǎng)度的結(jié)果,需要將DNA序列打成小片段才可以測(cè)出來(lái)。對(duì)于生物的全基因組測(cè)序,目前由兩種方法:

1.將全基因組打斷成大的DNA序列,后將大片段再打小,反復(fù)幾次得到小片段

2.全基因組鳥(niǎo)槍法,一次就將全基因組打斷成可以直接測(cè)序的小片段,對(duì)拼接技術(shù)要求很高。四:基因預(yù)測(cè)

以現(xiàn)在的技術(shù)手段,通過(guò)實(shí)驗(yàn)方法將數(shù)以億計(jì)的堿基序列中大多數(shù)基因鑒定出來(lái)。五:生物進(jìn)化與系統(tǒng)發(fā)育分析

不同生物種類間差異,可以最終理解為核酸序列的差異,分子系統(tǒng)發(fā)育分析是研究核酸序列與蛋白質(zhì)序列的發(fā)育問(wèn)題。

在具體分析時(shí),會(huì)選擇某段核內(nèi)核酸序列等進(jìn)行多個(gè)生物種類相關(guān)序列的同源性分析,查明這些種類的親緣關(guān)系及進(jìn)化程度,構(gòu)建進(jìn)化樹(shù)。六:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

目前測(cè)定特定性質(zhì)蛋白質(zhì)結(jié)構(gòu)的手段主要依靠X射線晶體衍射與核磁共振。這兩種方法只能測(cè)定特定性質(zhì)蛋白質(zhì)結(jié)構(gòu),跟不上核酸測(cè)定的速度。七:RNA結(jié)構(gòu)預(yù)測(cè)

RNA序列分析比DNA序列分析和蛋白質(zhì)序列分析要難,其中原因之一是RNA的二級(jí)結(jié)構(gòu)保守性更多,RNA的結(jié)構(gòu)決定RNA正常功能。八:分子設(shè)計(jì)與藥物設(shè)計(jì)

先導(dǎo)藥物的產(chǎn)生是一系列新藥問(wèn)世過(guò)程重要環(huán)節(jié),生物信息學(xué)可在先導(dǎo)藥物結(jié)構(gòu)的產(chǎn)生和優(yōu)化、新藥結(jié)構(gòu)的衍生階段發(fā)揮作用。九:代謝網(wǎng)絡(luò)分析

生命活動(dòng)對(duì)內(nèi)外刺激因子的響應(yīng)、生物系統(tǒng)的調(diào)節(jié)都是通過(guò)蛋白質(zhì)表達(dá)出來(lái),故在體內(nèi)大部分調(diào)控過(guò)程以基因表達(dá)為基礎(chǔ)。

在一定基礎(chǔ)上,可以將整個(gè)代謝過(guò)程在計(jì)算機(jī)完成模擬。十:生物芯片

生物芯片的核心原理是通過(guò)與探針的特異性結(jié)合或雜交檢出目標(biāo)生物大分子。目前面臨著生物實(shí)際的生理?xiàng)l件和實(shí)驗(yàn)條件有差異而結(jié)果不理想這些缺陷。十一:DNA計(jì)算

即通過(guò)DNA計(jì)算數(shù)學(xué)方法解決一些復(fù)雜數(shù)學(xué)問(wèn)題。(四)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

蛋白質(zhì)的一級(jí)結(jié)構(gòu)決定其高級(jí)結(jié)構(gòu),高級(jí)結(jié)構(gòu)又決定他的生物學(xué)功能,目標(biāo)是通過(guò)氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)的三維空間結(jié)構(gòu)。在醫(yī)藥工業(yè)上特別突出(藥物設(shè)計(jì)、設(shè)計(jì)各種特殊用途的酶)。(五)蛋白質(zhì)與蛋白質(zhì)的相互作用

蛋白質(zhì)間相互作用涉及蛋白質(zhì)分子間的聯(lián)系,這種聯(lián)系與生化反應(yīng)、信號(hào)轉(zhuǎn)導(dǎo)、各種網(wǎng)絡(luò)有關(guān)系。

生物學(xué)實(shí)驗(yàn)很多,比如免疫共沉淀法、熒光掃描共振能量轉(zhuǎn)移、雙分子熒光互補(bǔ)技術(shù)。(六)生物系統(tǒng)模擬(七)代謝網(wǎng)絡(luò)建模分析

代謝網(wǎng)絡(luò)設(shè)計(jì)生化反應(yīng)途徑、基因調(diào)控和信號(hào)轉(zhuǎn)到過(guò)程(蛋白質(zhì)的相互作用)(八)計(jì)算生物學(xué)(九)生物多樣性研究(十)合成生物學(xué)補(bǔ)充內(nèi)容:人類基因組計(jì)劃一:目標(biāo)與意義

人類基因組計(jì)劃提出的目標(biāo)包括:1.鑒定人類基因組中約3萬(wàn)個(gè)基因;2.測(cè)定人類基因組約30億個(gè)堿基序列;3.建立生物信息數(shù)據(jù)庫(kù);4.提高測(cè)序及生物信息分析技術(shù);5.各機(jī)構(gòu)企業(yè)間技術(shù)合作;6.研究此計(jì)劃帶來(lái)的倫理、法律、社會(huì)問(wèn)題二:資助

美國(guó)政府資助約30億美元實(shí)施人類基因組計(jì)劃,真正用于分析人類基因組全序列的錢(qián)占很小份額,很多錢(qián)花在尋找便宜快速的測(cè)序技術(shù)上。三:研究機(jī)構(gòu)

從某種意義來(lái)看,人類基因組計(jì)劃可以分為兩部分:1.美國(guó)的國(guó)家計(jì)劃2.世界范圍內(nèi)項(xiàng)目(6個(gè)國(guó)家受官方承認(rèn)參與了人類基因組計(jì)劃:美國(guó)、英國(guó)、日本、德國(guó)、法國(guó)、中國(guó)),人類基因組測(cè)序任務(wù)主要由國(guó)際人類基因組測(cè)序協(xié)作組(IHGSC)執(zhí)行,主要包括上述6國(guó)家20個(gè)研究機(jī)構(gòu)。四:研究方法

DNA序列測(cè)定是人類基因組計(jì)劃中最基本任務(wù),在探索有效的測(cè)序方法時(shí),先將有關(guān)方法應(yīng)用到其他生物基因組測(cè)序,再將成功方法運(yùn)用到人類基因組。

釀酒酵母基因組第一個(gè)被測(cè)序真核生物,12100000個(gè)堿基對(duì);線蟲(chóng)基因組第一個(gè)被測(cè)序動(dòng)物基因組,97000000個(gè)堿基對(duì)。

基因組測(cè)序概觀:選擇生物→從細(xì)胞中分離基因組DNA→把基因組DNA切割成合適的可相互重疊的DNA片段→把DNA片段插入載體中大量克隆→測(cè)出每個(gè)DNA片段的序列→根據(jù)片段間重疊,把序列組裝成最終基因組序列

根據(jù)基因組切割成的片段大小,將全基因組測(cè)序分為兩種測(cè)序:“基因圖譜”和shotgun(鳥(niǎo)槍法)國(guó)際人類基因組測(cè)序協(xié)作組采取“基因圖譜”,步驟:全基因組分級(jí)成大片段→大片段分為小片段→小片段單向測(cè)序→計(jì)算機(jī)拼接。

基因圖譜分為遺傳圖譜和物理圖譜:

遺傳圖譜:顯示基因等標(biāo)記在基因組中相對(duì)距離和次序的圖。

物理圖譜:顯示DNA標(biāo)記在基因組中準(zhǔn)確位置的圖。

不論哪種測(cè)序技術(shù),都要經(jīng)過(guò)測(cè)序與拼接兩個(gè)階段:測(cè)序一般采用“末端終止法”,通過(guò)測(cè)序反應(yīng)獲取分別終止在A/T/C/G的DNA片段,根據(jù)重疊情況去組合大片段。五:目前結(jié)果

人類基因組計(jì)劃于2003年提前結(jié)束,原本預(yù)測(cè)人類有約3萬(wàn)個(gè)基因,后來(lái)證據(jù)證實(shí)只有2萬(wàn)個(gè)—2.5萬(wàn)個(gè)基因。例一:用“末端終止法”對(duì)DNA序列ACCTGA測(cè)序

提示:末端終止法原理重在終止核苷酸(雙脫氧堿基)的終止

補(bǔ)充:此題利用到核酸電泳(補(bǔ)充如下)

關(guān)于生物技術(shù)書(shū)籍,如果想深入了解,推薦教材《現(xiàn)代生化技術(shù)》科學(xué)出版社第三版郭勇編電泳儀電泳儀電泳結(jié)果回到例一:解:現(xiàn)場(chǎng)講(p52)例二:一段DNA序列用兩組不同的切割位點(diǎn)切開(kāi),形成兩組DNA小片段,第一組為(1)TTGGGT(2)TCAATC(3)AACG(4)TACCG(5)ACTG第二組為(1)CGTA(2)TGGGTAA(3)ACTGTCA(4)CCG(5)ATCT請(qǐng)拼接出原來(lái)的DNA序列提示:通過(guò)依次對(duì)比拼接第二章:生物學(xué)數(shù)據(jù)庫(kù)及其檢索第一節(jié):生物學(xué)數(shù)據(jù)庫(kù)簡(jiǎn)介一:什么是數(shù)據(jù)庫(kù)

數(shù)據(jù)庫(kù)是一類用于存儲(chǔ)和管理數(shù)據(jù)的計(jì)算機(jī)文檔,是統(tǒng)一管理的相關(guān)數(shù)據(jù)集合,其儲(chǔ)存形式有利于數(shù)據(jù)信息的檢索和調(diào)用。

數(shù)據(jù)庫(kù)的每一條記錄(record)也可以稱之為條目(entry),包含了多個(gè)描述某一類的數(shù)據(jù)特性或?qū)傩缘淖侄危╢ield)如基因名、來(lái)源物種、序列的創(chuàng)建日期等,這也是數(shù)據(jù)結(jié)構(gòu)化的基礎(chǔ)。值(value)則是指每個(gè)記錄中某個(gè)字段的具體內(nèi)容。二:數(shù)據(jù)庫(kù)的類型

截至目前,數(shù)據(jù)庫(kù)使用了4種不用的數(shù)據(jù)庫(kù)結(jié)構(gòu):平面文件、關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)和基于Internet平臺(tái)的XML。

最早的數(shù)據(jù)庫(kù)是以平面文件格式(flatfileformat)保存的,將多個(gè)記錄以特殊約定的分隔符進(jìn)行區(qū)分,數(shù)據(jù)庫(kù)形成一個(gè)很長(zhǎng)的文本文件,這樣的數(shù)據(jù)庫(kù)很難檢索。

后來(lái)發(fā)展為包含能夠幫助尋找數(shù)據(jù)記錄隱含關(guān)系的計(jì)算機(jī)操作指令的數(shù)據(jù)庫(kù)管理系統(tǒng)(databasemanagementsystem),這樣的系統(tǒng)分為關(guān)系型數(shù)據(jù)管理系統(tǒng)和對(duì)象型數(shù)據(jù)管理系統(tǒng)。三:生物學(xué)數(shù)據(jù)庫(kù)

2003年人類基因組計(jì)劃(HGP)完成了,隨之以后人類基因組序列以及其他生物的基因組序列也相繼完成。

生物學(xué)數(shù)據(jù)庫(kù)的類型多種多樣,根據(jù)存放數(shù)據(jù)類型的不同,可以分為序列(GenBank),(三維)結(jié)構(gòu)(PDB),文獻(xiàn)(NCBI的PubMed),序列特征(PROSITE,Pfam),基因組圖譜(MapViewer、Ensembl),表達(dá)譜等。

根據(jù)數(shù)據(jù)庫(kù)儲(chǔ)存的具體內(nèi)容可以分為一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù),一級(jí)用戶針對(duì)性更強(qiáng)的專用數(shù)據(jù)庫(kù)。(一)一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)

一級(jí)數(shù)據(jù)庫(kù):屬于檔案數(shù)據(jù)庫(kù),庫(kù)中主要內(nèi)容來(lái)源于實(shí)驗(yàn)室操作原始數(shù)據(jù)結(jié)果及一些基本說(shuō)明。

例:核酸序列數(shù)據(jù)庫(kù)GenBank、EMBL、DDBJ及蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB。

二級(jí)數(shù)據(jù)庫(kù):一級(jí)數(shù)據(jù)庫(kù)信息基礎(chǔ)上進(jìn)行了計(jì)算加工處理并增加了人為注釋。

例:NCBI的RefSeq其mRNA序列是綜合了GenBank中來(lái)源于同一物種相同基因的所有mRNA序列信息一致性序列。即其不是通過(guò)實(shí)驗(yàn)確定的。

專業(yè)數(shù)據(jù)庫(kù)則是滿足不同生物學(xué)研究團(tuán)體對(duì)待特定類型信息的需求,比如果蠅、線蟲(chóng)、擬南芥等基因研究組的數(shù)據(jù)庫(kù)。(二)如何查找與研究相關(guān)的生物學(xué)資源1.利用公共搜索引擎

如利用NationalCenterforBiotechnologyInformation簡(jiǎn)稱NCBI查詢資源2.了解重要生物信息學(xué)門(mén)戶站點(diǎn)3.利用NucleicAcidResearch雜志每年的數(shù)據(jù)庫(kù)專輯/網(wǎng)絡(luò)服務(wù)器專輯

NucleicAcidResearch(《核酸研究》簡(jiǎn)稱NAR)是分子生物學(xué)研究的權(quán)威雜志

其中NAR數(shù)據(jù)庫(kù)分類中舉幾例大類的數(shù)據(jù)庫(kù)有:

核酸序列數(shù)據(jù)庫(kù);RNA序列數(shù)據(jù)庫(kù);結(jié)構(gòu)數(shù)據(jù)庫(kù);基因組數(shù)據(jù)庫(kù);代謝與信號(hào)數(shù)據(jù)庫(kù);人類與疾病等。四:重要的生物信息站點(diǎn)(一)NCBI—美國(guó)國(guó)家生物技術(shù)信息中心

主要任務(wù)是創(chuàng)建公共可接入數(shù)據(jù)庫(kù),引導(dǎo)咋計(jì)算生物學(xué)及基因組數(shù)據(jù)分析方面的軟件開(kāi)發(fā),同時(shí)發(fā)布各類生物醫(yī)學(xué)信息。

NCBI的數(shù)據(jù)資源主要包括數(shù)據(jù)庫(kù)、分析工具、數(shù)據(jù)提交、教育四個(gè)部分(二)EBI—?dú)W洲生物信息研究所(三)EMBnet—?dú)W洲分子生物學(xué)信息網(wǎng)絡(luò)

由多個(gè)位于歐洲及歐洲以外的成員國(guó)節(jié)點(diǎn)和專業(yè)節(jié)點(diǎn)組成。第二節(jié):生物學(xué)數(shù)據(jù)庫(kù)的內(nèi)容與結(jié)構(gòu)一:數(shù)據(jù)庫(kù)儲(chǔ)存基礎(chǔ)

獲取信息需要控制兩個(gè)方面:1.數(shù)據(jù)被編譯為字節(jié)的方式—數(shù)據(jù)格式

2.運(yùn)用哪些程序能夠編碼和解碼這些數(shù)據(jù)二:生物信息學(xué)的平面文件格式—FlatFile

FlatFile格式中的數(shù)據(jù)常被結(jié)構(gòu)化為一組數(shù)據(jù)Entry(記錄/條目)

每行開(kāi)頭為一個(gè)由兩個(gè)字符組成的字段標(biāo)識(shí)符,用來(lái)區(qū)分這個(gè)Entry的不同部分與他們各自的意義;接下來(lái)的若干行提供Entry的另外一些信息。

FlatFile可由Perl例程進(jìn)行分析。三:序列格式

數(shù)據(jù)庫(kù)中包含有大量的蛋白質(zhì)及核酸序列的詳細(xì)描述,在文本格式中堿基序列和氨基酸序列都用一個(gè)字母來(lái)表示。但他們需要通過(guò)特定的共用算法表達(dá)出來(lái)。四:生物信息學(xué)中的XML格式

可擴(kuò)展標(biāo)記語(yǔ)言XML是一種在文本文件中組織數(shù)據(jù)的語(yǔ)言,一個(gè)XML文件代表一個(gè)嵌套的信息樹(shù)。五:關(guān)系型數(shù)據(jù)庫(kù)

關(guān)系型數(shù)據(jù)庫(kù)是由根據(jù)特定的關(guān)系模型組織的一系列數(shù)據(jù),基本組成單位是表:一組行每行代表一個(gè)Entry;每行包括相同數(shù)量的列,每列代表Entry的一個(gè)屬性具特定的數(shù)據(jù)類型。第三節(jié):生物學(xué)數(shù)據(jù)庫(kù)的檢索一:NCBI的Entrez系統(tǒng)二:EBI的SRS系統(tǒng)第三章:序列比對(duì)原理蛋白質(zhì)序列或核酸序列比對(duì)是常見(jiàn)方式,通過(guò)查詢序列與整個(gè)數(shù)據(jù)庫(kù)所有序列進(jìn)行比對(duì),確定查詢序列的生物學(xué)基礎(chǔ)第一節(jié):序列比對(duì)相關(guān)概念一:序列比對(duì)目的及定義(一)序列比對(duì)目的

通過(guò)比較兩條或多條序列之間是否具有足夠相似性,判定他們之間是否具有同源性。在進(jìn)行多個(gè)序列的比對(duì)中,找出序列中具有保守生物學(xué)功能的共同基序,還可以找出新測(cè)定序列中可能有幫助的基序。(二)序列比對(duì)的定義

序列比對(duì)(sequencealignment)就是運(yùn)用某種特定的數(shù)學(xué)模型或算法,找出兩個(gè)或多個(gè)序列之間最大匹配堿基或殘基數(shù),比對(duì)的結(jié)果反映了算法在多大程度上提供序列之間的相似性及他們的生物學(xué)特征。

序列比對(duì)也可以用來(lái)尋找保守基序。二:序列比對(duì)類型(一)序列比對(duì)分類

生物分子序列比對(duì)主要用于發(fā)現(xiàn)潛在的同源序列,為查詢序列功能及三維結(jié)構(gòu)做基礎(chǔ)??梢苑譃殡p序列比對(duì)和多序列比對(duì)。雙序列比對(duì)又可以分為全局比對(duì)和局部比對(duì)。(二)編輯距離

現(xiàn)在希望比對(duì)兩條序列:AGCACACA以及ACACACTA。

引入字符編輯操作概念描述兩條序列之間的關(guān)系。(-代表空位)

Match(a,a):字符匹配

Delete(a,-):從第一條序列刪除一個(gè)字符,第二條序列插入相應(yīng)空位。

Replace(a,b):以第二條序列中字符b替換第一條序列字符a

Insert(-,b):第一條序列插入空位字符,或刪除第二條序列對(duì)應(yīng)字符b(三)雙序列比對(duì)

雙序列比對(duì)即對(duì)兩條序列進(jìn)行編輯操作,使其編輯距離盡可能小,使更多的字符匹配。有以下計(jì)分規(guī)則:

(1)兩條序列s和t的比對(duì)得分等于將s轉(zhuǎn)化為t的所有編輯操作的得分總和

(2)s和t的最優(yōu)比對(duì)是所有可能的比對(duì)中得分最高的一個(gè)比對(duì)

(3)s和t的最小編輯距離應(yīng)該是在得分函數(shù)p值最優(yōu)時(shí)的舉例

進(jìn)行序列比對(duì)的目的是尋找一個(gè)得分最高的比對(duì)得分:p(a,a)=1p(a,b)=0p(a,-)=p(-,b)=-1(四)全局序列比對(duì)

計(jì)算方法同雙序列比對(duì)類似,優(yōu)勢(shì)在于對(duì)具有高度同源性的序列進(jìn)行優(yōu)化。(五)局部序列比對(duì)

局部序列比對(duì)適合于那些在全長(zhǎng)中具有局部小同源片段的序列比較,一般適用于特定序列位點(diǎn),結(jié)構(gòu)域以及其他類型重復(fù)序列的搜索。三:序列比對(duì)的相關(guān)概念(一)同源性、同一性、相似性

相似性:兩序列之間直接的數(shù)量關(guān)系,如部分相同等。

同一性:兩序列在同一位點(diǎn)核苷酸或氨基酸殘基完全相同的序列比例。

同源性:指從某個(gè)共同祖先經(jīng)趨異進(jìn)化而形成的不同序列,也就是從一些數(shù)據(jù)推斷出兩個(gè)基因在進(jìn)化上具有共同祖先的結(jié)論,是質(zhì)的判斷。(二)直系同源,旁系同源

直系同源基因:指在不同物種具有相同功能的同源基因(物種形成時(shí)形成)

旁系同源基因:指一個(gè)物種內(nèi)的同源基因。

一般而言,一個(gè)物種的基因組中,兩個(gè)基因或可讀框在各自全長(zhǎng)60%以上范圍內(nèi),同一性不少于30%時(shí)稱為同源基因。第二節(jié)序列比對(duì)打分方法一:序列比對(duì)打分目的

序列比對(duì)目的是揭示核苷酸或氨基酸序列編碼的高級(jí)結(jié)構(gòu)或功能信息,通過(guò)打分評(píng)判一個(gè)優(yōu)劣標(biāo)準(zhǔn)。

不同類型的字符替換,其代價(jià)和得分差別很大,尤其對(duì)于蛋白質(zhì)序列。因此保守序列(序列相近)的蛋白質(zhì)替換更可能維持蛋白質(zhì)的功能。

由此引出打分矩陣概念,是序列比對(duì)的基礎(chǔ)。二:打分矩陣

序列比對(duì)中,只考慮殘基的同一性,故兩個(gè)序列相比較時(shí),只有0或1兩種得分(稀疏矩陣),這樣有很大的局限性。由此引出相似性打分矩陣的概念。

相似性打分,是基于遠(yuǎn)距離進(jìn)化過(guò)程中的殘基替換率,并用不同的打分值表征不同殘基之間的相似程度。(一)DNA打分矩陣

DNA序列中存在不同的堿基替換,其中有顛換(嘌呤嘧啶互換)和轉(zhuǎn)換(嘌呤和嘧啶內(nèi)部變換),則存在如下的打分矩陣:ACGTA0.990.0020.0060.002C0.0020.990.0060.002G0.0060.0020.990.002T0.0020.0060.0020.99(二)氨基酸序列打分矩陣

20種氨基酸之間的替換遠(yuǎn)比核苷酸要復(fù)雜。首先將其劃分為相似組,再進(jìn)行下一步的劃分。

于后一頁(yè)補(bǔ)充氨基酸的縮寫(xiě)符號(hào)(三字/單字)

第一組:C

第二組:S、T、P、A、G

第三組:N、D、E、Q

第四組:H、R、K

第五組:M、I、L、V

第六組:F、Y、W

其中常用的打分矩陣有PAM矩陣與BLOSUM矩陣,這里不做詳述名稱三字縮寫(xiě)單字縮寫(xiě)名稱三字縮寫(xiě)單字縮寫(xiě)丙氨酸AlaA亮氨酸LeuL精氨酸ArgR賴氨酸LysK天冬氨酸AspD甲硫氨酸MetM半胱氨酸CysC苯丙氨酸PheF谷氨酰胺GlnQ脯氨酸ProP谷氨酸GluE絲氨酸SerS組氨酸HisH蘇氨酸ThrT異亮氨酸IleI色氨酸TrpW甘氨酸GlyG酪氨酸TyrY天冬酰胺AsnN纈氨酸ValV三:空位罰分

將兩個(gè)序列進(jìn)行比對(duì)時(shí),通過(guò)引入空位表示插入和刪除。在比對(duì)時(shí)引入的空位越多,意味著功能或結(jié)構(gòu)的改變。

通常的評(píng)分系統(tǒng)是空位罰分,即每插入一個(gè)空位,在總分值中減去一定分值。

包括:空位起始罰分+空位延伸罰分

空位起始罰分:某一序列中插入一個(gè)空位;延伸罰分:在插入的空位后繼續(xù)插入空位罰分的舉例:C---TTAACTCGGATCA--T(一)線性空位罰分

最簡(jiǎn)單的方式,僅考慮起始空位罰分(設(shè)為-4),連續(xù)空位罰分不計(jì)數(shù)。

則上題罰分=8(二)仿射空位罰分

考慮進(jìn)線性空位罰分的計(jì)算:

引入函數(shù)g(k)=a+b×k

設(shè)a=-4;b=-3,則一共為23分(a起始,b連續(xù))第三節(jié)序列比對(duì)算法

序列比對(duì)算法:在眾多序列比對(duì)結(jié)果中獲取合適的序列比對(duì)結(jié)果。其中有dotplot算法;動(dòng)態(tài)規(guī)劃算法;BLAST算法。此節(jié)只著重介紹BLAST算法。一:dotplot算法

通過(guò)點(diǎn)陣作圖的方法,很直觀的看出兩條序列的相關(guān)性。

獲得相似性片段為相同片段,不能提供相似片段在統(tǒng)計(jì)學(xué)意義上相似性。二:動(dòng)態(tài)規(guī)劃算法

分為全局動(dòng)態(tài)規(guī)劃算法(Needleman-Wunsch算法)和局部動(dòng)態(tài)規(guī)劃算法(Smith-Waterman算法)。

非常精確但是運(yùn)行時(shí)間長(zhǎng)不適合于數(shù)據(jù)量龐大的搜索。三:BLAST算法

采用一種短片段匹配算法和一種有效統(tǒng)計(jì)模型找出數(shù)據(jù)庫(kù)之間最佳局部對(duì)比效果。

基本思想為通過(guò)產(chǎn)生數(shù)量更少但質(zhì)量更好的增強(qiáng)點(diǎn)提高速度。(一)算法步驟(1)編譯一個(gè)查詢序列生成的長(zhǎng)度固定字段編譯列表(2)數(shù)據(jù)庫(kù)中掃描獲得與編譯列表中字段匹配的序列記錄(3)以編譯列表的字段為中心向兩段延伸尋找超過(guò)閾值分?jǐn)?shù)S的高分值片段HSP

在BLAST算法過(guò)程中,有一個(gè)最重要的統(tǒng)計(jì)顯著為期望值(E值),描述一次數(shù)據(jù)庫(kù)搜素中隨機(jī)條件下發(fā)生的得分大于S的不同比對(duì)數(shù)目。

E=Kmne-λS

m:待查序列長(zhǎng)度;n:整個(gè)數(shù)據(jù)庫(kù)長(zhǎng)度;S比對(duì)原始分?jǐn)?shù);K和λ:Karlin-Altschul統(tǒng)計(jì)量(二)算法特點(diǎn)

速度快而精確,適用于從一大組大量序列中搜索與查詢相似序列。第四節(jié)序列比對(duì)工具

序列比對(duì)工具,即序列比對(duì)數(shù)據(jù)庫(kù)搜索工具,常用EBI的FASTA工具和NCBI的BLAST工具。一:FASTA工具(FAST-ALL)

可用于核酸和蛋白質(zhì)序列的快速序列比對(duì)數(shù)據(jù)庫(kù)搜素工具。二:BLAST工具

從核算和蛋白質(zhì)序列庫(kù)數(shù)據(jù)庫(kù)中找出與待檢序列具有一定相似性的序列。例如給定一個(gè)視黃醇結(jié)合蛋白rbp4序列,可通過(guò)BLAST數(shù)據(jù)庫(kù)搜索工具,在核酸或蛋白質(zhì)序列數(shù)據(jù)庫(kù)中找出與該序列相似的一系列序列集合。

分為基本BLAST工具和高級(jí)BLAST工具

(一)基本BLAST工具

包括blastn,blastp,blastx,tblastn,tblastx等,分別為不同的監(jiān)測(cè)方法。

比對(duì)基本步驟如下:

1.輸入待檢序列

2.設(shè)置程序參數(shù)

3.比對(duì)結(jié)果解析

(1)搜索的詳細(xì)情況

(2)數(shù)據(jù)庫(kù)中與查詢序列相匹配的項(xiàng)的簡(jiǎn)明圖形

(3)與查詢序列相匹配的數(shù)據(jù)庫(kù)中序列列表

(4)查詢序列與目標(biāo)序列之間雙序列比對(duì)情況(二)高級(jí)BLAST工具1.PSI-BLAST

位點(diǎn)特異性迭代BLAST,用來(lái)尋找遠(yuǎn)緣相關(guān)的蛋白質(zhì)序列,比常規(guī)BLAST更敏感。為了構(gòu)建其中需要的PSSM矩陣,需要選擇小于某個(gè)期望值的序列進(jìn)行多序列比對(duì)。2.PHI-BLAST

模式識(shí)別BLAST,能找到與查詢序列相似的符合某種模式的蛋白質(zhì)序列。3.MEGABLAST

快速的局部核酸序列比對(duì)工具,適用于基因預(yù)測(cè)、發(fā)現(xiàn)和分析單核苷酸多態(tài)性等方面的工作。有效的識(shí)別相似性較高的序列。在相似性達(dá)到95%以上的序列比對(duì)搜索結(jié)果中,比blastn更準(zhǔn)確。第五節(jié)多序列比對(duì)一:多序列比對(duì)概述(一)多序列比對(duì)目的

多序列比對(duì)即對(duì)三條以上序列進(jìn)行的對(duì)比,目的通常為為了發(fā)現(xiàn)構(gòu)成同一基因家族的成組序列之間的共性。發(fā)現(xiàn)這些共性對(duì)研究分子結(jié)構(gòu)、功能和進(jìn)化關(guān)系都有非常重要的作用,在闡明一組相關(guān)序列的生物學(xué)模式方面也有重要作用。

例:通過(guò)多序列比對(duì),可以發(fā)現(xiàn)與結(jié)構(gòu)域相關(guān)的保守序列片段;也可以發(fā)現(xiàn)蛋白質(zhì)序列之間的系統(tǒng)發(fā)育關(guān)系,更好的理解蛋白質(zhì)之間的進(jìn)化關(guān)系。(二)多序列比對(duì)定義

多序列比對(duì)就是對(duì)多條序列插入空位,使得插入空位后的全局比對(duì)結(jié)果具有相同的長(zhǎng)度,并且比對(duì)結(jié)果中不能出現(xiàn)一列全為空位。例:QDGDAAKGEKEFNQDGDAAKGEKEFN-GDAAKGEKEFNK——————--GDAAKGEKEFNKQEGDEAGAKFNKQEGD–EAGAK-FNK(三)多序列比對(duì)應(yīng)用

可用于發(fā)現(xiàn)新序列與已知序列家族的同源性,也可用于蛋白質(zhì)序列的二級(jí)和三級(jí)結(jié)構(gòu)預(yù)測(cè)、發(fā)現(xiàn)蛋白質(zhì)之間系統(tǒng)發(fā)生關(guān)系,以及蛋白質(zhì)家族中結(jié)構(gòu)或功能的相似片段獲得。二:多序列比對(duì)算法(一)動(dòng)態(tài)規(guī)劃算法

同雙序列比對(duì)算法,分為兩步:打分矩陣的計(jì)算—打分矩陣中回溯尋找獲得一條路徑(代表多序列比對(duì)結(jié)果)。該算法中打分矩陣為多維矩陣。(二)漸進(jìn)式算法

基本思想基于相似序列通常具有進(jìn)化相關(guān)性這一假設(shè)。首先進(jìn)行雙序列比對(duì),將多個(gè)序列兩兩構(gòu)成矩陣進(jìn)行指導(dǎo)樹(shù)構(gòu)建,最后進(jìn)行漸進(jìn)式比對(duì)。(三)迭代算法

核心是使用比對(duì)計(jì)分函數(shù)反復(fù)添加一個(gè)附加的序列到已知比對(duì)中。

先在所有雙序列比對(duì)中找出距離值最小的一組組成最優(yōu)比對(duì),后反復(fù)找出與最優(yōu)比對(duì)距離值最小的序列,與最優(yōu)比對(duì)表頭文件匹配并根據(jù)所得結(jié)果修改比對(duì)和表頭文件。(四)統(tǒng)計(jì)概率算法(隱馬爾可夫模型HMM)

可用來(lái)比對(duì)監(jiān)測(cè)序列的保守區(qū)。三:多序列比對(duì)工具(一)Clustal/W(二)T-Coffee工具(三)MultAlin工具

基本思想是啟發(fā)式聚類:首先將序列雙序列對(duì)比,后根據(jù)雙序列對(duì)比獲得的分值進(jìn)行分層次的聚類,在聚類的基礎(chǔ)上多序列對(duì)比,最后建立指導(dǎo)樹(shù)。(四)MAFFT工具

算法基于傅里葉變換。第四章蛋白質(zhì)結(jié)構(gòu)分析

蛋白質(zhì)結(jié)構(gòu)決定功能,通過(guò)分析蛋白質(zhì)結(jié)構(gòu)可以進(jìn)行功能注釋,確認(rèn)功能單位或結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為新的蛋白質(zhì)設(shè)計(jì)提供依據(jù)。

目前我們獲得的高分辨率蛋白大約69351個(gè)(截止2010年11月)遠(yuǎn)遠(yuǎn)小于蛋白質(zhì)序列的量。目前施一公教授主要研究區(qū)域即在蛋白質(zhì)解結(jié)構(gòu)。第一節(jié)蛋白質(zhì)結(jié)構(gòu)的組織層次

蛋白質(zhì)結(jié)構(gòu)分為一級(jí)、二級(jí)、三級(jí)和四級(jí)結(jié)構(gòu),在其上又補(bǔ)充了超二級(jí)結(jié)構(gòu)。一:蛋白質(zhì)的結(jié)構(gòu)特征(一)一級(jí)結(jié)構(gòu)

指多肽鏈的氨基酸排列順序(二)二級(jí)結(jié)構(gòu)

多肽鏈局部的空間結(jié)構(gòu)(構(gòu)象),有α螺旋、β折疊、β轉(zhuǎn)角、無(wú)規(guī)卷曲形式。(三)超二級(jí)結(jié)構(gòu)、結(jié)構(gòu)域

相鄰的二級(jí)結(jié)構(gòu)單元組合在一起形成的。模體是結(jié)構(gòu)域的亞單位。(四)三級(jí)結(jié)構(gòu)

整整條多肽鏈的三維結(jié)構(gòu)(五)四級(jí)結(jié)構(gòu)

指亞基和亞基之間通過(guò)疏水作用等次級(jí)鍵結(jié)合成為有序排列的特定空間結(jié)構(gòu)。

由亞基組成(每個(gè)亞基一條多肽鏈)二:蛋白質(zhì)結(jié)構(gòu)分類系統(tǒng)(一)SCOP分類數(shù)據(jù)庫(kù)1.SCOP的層次

把所有已知結(jié)構(gòu)的蛋白分成了4個(gè)層次(1)家族:依據(jù)為序列的同一性程度,將序列同一性超過(guò)30%蛋白質(zhì)歸入同一個(gè)家族,即他們存在比較明確的進(jìn)化關(guān)系。(2)超家族:序列相似性較低,但結(jié)構(gòu)和功能特性表明他們有共同的進(jìn)化起源。(3)折疊:無(wú)論有無(wú)共同進(jìn)化起源,只要二級(jí)結(jié)構(gòu)單元具相同的排列拓?fù)浣Y(jié)構(gòu)(4)結(jié)構(gòu)類型:由α結(jié)構(gòu)域、β結(jié)構(gòu)域、α/β結(jié)構(gòu)域、α+β結(jié)構(gòu)域等構(gòu)成2、SCOP的用途

數(shù)據(jù)庫(kù)生成后主要是作為一個(gè)工具,通過(guò)序列與結(jié)構(gòu)的關(guān)系理解蛋白質(zhì)進(jìn)化,以確定新序列、新結(jié)構(gòu)是否與已知蛋白相關(guān)。(二)CATH蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)

也是將蛋白質(zhì)結(jié)構(gòu)分為4個(gè)層次:(1)類型:α主類、β主類、α-β類、低二級(jí)機(jī)構(gòu)類(2)構(gòu)架:超二級(jí)結(jié)構(gòu)的排列方式(3)拓?fù)浣Y(jié)構(gòu):二級(jí)結(jié)構(gòu)形狀和二級(jí)結(jié)構(gòu)之間的關(guān)系(4)同源性:序列水平上相似性第二節(jié)蛋白質(zhì)結(jié)構(gòu)的測(cè)定與理論預(yù)測(cè)一:蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)測(cè)定(一)X射線晶體衍射

X射線衍射可以確定原子精度的結(jié)構(gòu),可以給出有機(jī)分子如蛋白質(zhì)等的原子坐標(biāo)。(二)核磁共振法(NMR)

不需要制備蛋白質(zhì)晶體,但是僅限于長(zhǎng)度不超過(guò)150個(gè)氨基酸殘基的小蛋白。(1)可測(cè)定溶液中接近生理狀態(tài)的構(gòu)象(2)可測(cè)定小分子和蛋白質(zhì)動(dòng)力學(xué)過(guò)程(3)可測(cè)定蛋白質(zhì)可變形的尾部構(gòu)象(4)NMR是一種非損傷測(cè)定(三)電子顯微鏡二維晶體三維重構(gòu)

冷凍電子顯微鏡技術(shù)二:蛋白質(zhì)結(jié)構(gòu)比對(duì)(一)蛋白質(zhì)結(jié)構(gòu)比對(duì)的目的和意義

一個(gè)標(biāo)準(zhǔn)的蛋白質(zhì)結(jié)構(gòu)比對(duì)結(jié)果包括以下信息:1.產(chǎn)生一個(gè)參數(shù)衡量蛋白質(zhì)結(jié)構(gòu)之間相似性2.產(chǎn)生兩個(gè)蛋白質(zhì)序列比對(duì)結(jié)果,同一比對(duì)位置上氨基酸意味著他們?cè)诳臻g結(jié)構(gòu)上相似性3.產(chǎn)生結(jié)構(gòu)疊加后的蛋白質(zhì)結(jié)構(gòu)文件可以具體觀測(cè)(二)蛋白質(zhì)結(jié)構(gòu)比對(duì)的基本原理

通過(guò)蛋白質(zhì)空間結(jié)構(gòu)圖形顯示軟件,觀測(cè)兩個(gè)結(jié)構(gòu)相似的部分,但是這種方法僅適用于結(jié)構(gòu)很相似的蛋白質(zhì)。

對(duì)于結(jié)構(gòu)有差異的蛋白質(zhì),采用共同子結(jié)構(gòu)方法,即類似于序列比對(duì),也采取一種打分方法。

打分函數(shù)主要分為兩部分:分子間距離+分子內(nèi)距離

同樣存在雙結(jié)構(gòu)比對(duì)與多結(jié)構(gòu)比對(duì)的區(qū)分。(三)常用結(jié)構(gòu)比對(duì)方法1.DALI

采用分子內(nèi)距離方法,主要策略是將結(jié)構(gòu)相似的氨基酸片段拼接成一個(gè)完整的結(jié)構(gòu)比對(duì)。2.CE方法

分子內(nèi)距離比較方法,通過(guò)結(jié)構(gòu)比對(duì)上的氨基酸片段拼接成整個(gè)結(jié)構(gòu)比對(duì),但是是一次考慮8個(gè)殘基的氨基酸片段。3.STRUCTURAL方法

分子間距離4.SSM方法

分子間距離5.TM-align方法

類似于分子間方法。三:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)主要分為三級(jí)結(jié)構(gòu)預(yù)測(cè)和二級(jí)結(jié)構(gòu)預(yù)測(cè)。

三級(jí)結(jié)構(gòu)預(yù)測(cè)可以分為三類:同源模建、折疊識(shí)別和從頭計(jì)算。

二級(jí)結(jié)構(gòu)預(yù)測(cè)是要預(yù)測(cè)一個(gè)蛋白質(zhì)序列中每個(gè)氨基酸所處的二級(jí)結(jié)構(gòu)原件。(一)同源模建

理論基礎(chǔ)是蛋白質(zhì)的三級(jí)結(jié)構(gòu)比一級(jí)結(jié)構(gòu)更為保守,如果兩個(gè)蛋白的序列具相似性,則其三級(jí)結(jié)構(gòu)很可能也是類似的。其步驟如下:1.模板的選擇:通過(guò)BLAST對(duì)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)同源性搜索實(shí)現(xiàn)。選取原則:模板盡可能與待測(cè)序列享有最高的相似性。2.待測(cè)序列與模板序列的比對(duì):當(dāng)待測(cè)蛋白和模板享有很高的序列相似性時(shí),不同序列比對(duì)方法總產(chǎn)生相同的比對(duì)。3.同源模型建立:分為三步—待測(cè)蛋白的主鏈模建—loop區(qū)模建—側(cè)鏈安裝。4.同源模型精修和評(píng)估(二)折疊識(shí)別1.折疊識(shí)別基本原理

從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中識(shí)別與待測(cè)序列具有相似折疊類型,進(jìn)而實(shí)現(xiàn)對(duì)待測(cè)序列的空間結(jié)構(gòu)預(yù)測(cè)。分為4步:(1)建立蛋白質(zhì)結(jié)構(gòu)模板數(shù)據(jù)庫(kù)(2)設(shè)計(jì)合適的打分函數(shù)衡量待測(cè)序列和模板數(shù)據(jù)庫(kù)中結(jié)構(gòu)相似性(3)對(duì)打分函數(shù)得到的結(jié)果進(jìn)行統(tǒng)計(jì)顯著性分析(4)對(duì)結(jié)構(gòu)模板數(shù)據(jù)庫(kù)中通過(guò)計(jì)算得到的具有統(tǒng)計(jì)顯著性蛋白質(zhì)結(jié)構(gòu)排序。(三)從頭計(jì)算法

原理:蛋白質(zhì)的天然構(gòu)象對(duì)應(yīng)其能量最低的構(gòu)象,因此通過(guò)構(gòu)造合適的能量函數(shù)及優(yōu)化方法,可以實(shí)現(xiàn)蛋白質(zhì)序列直接預(yù)測(cè)其三維結(jié)構(gòu)的目的。

其中有Rosetta方法與I-TASSER方法(四)二級(jí)結(jié)構(gòu)預(yù)測(cè)

主要是預(yù)測(cè)一個(gè)蛋白質(zhì)序列中每個(gè)氨基酸所處的二級(jí)結(jié)構(gòu)元件(五)不同蛋白質(zhì)預(yù)測(cè)方法的評(píng)價(jià)

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)CASP競(jìng)賽

實(shí)時(shí)的評(píng)價(jià)方法第三節(jié)蛋白質(zhì)折疊與疾病一:蛋白質(zhì)折疊的意義

目前由蛋白質(zhì)異常的三維結(jié)構(gòu)而引發(fā)的疾病有瘋牛病、老年癡呆癥、囊性纖維病、家族性高膽固醇癥、家族性淀粉樣蛋白質(zhì)、白內(nèi)障等二:蛋白質(zhì)折疊機(jī)制理論模型1.框架模型:認(rèn)為蛋白質(zhì)的局部構(gòu)象依賴于其局部的氨基酸序列2.疏水塌縮模型:把疏水作用力看成蛋白質(zhì)折疊過(guò)程中起決定作用的力3.擴(kuò)散-碰撞-黏合模型:認(rèn)為蛋白質(zhì)折疊起始于伸展肽鏈上幾個(gè)位點(diǎn),在這些位點(diǎn)生成不穩(wěn)定二級(jí)結(jié)構(gòu)單元或疏水簇,主要依靠局部序列相互作用維持。4.成核-凝聚-生長(zhǎng)模型:肽鏈中某一區(qū)域可以形成“折疊晶核”,以他們?yōu)楹诵倪M(jìn)一步折疊進(jìn)而獲得天然構(gòu)象。5.拼版模型:多肽鏈可以咽多條不同途徑進(jìn)行折疊三:分子伴侶和蛋白質(zhì)折疊

分子伴侶:一種能引導(dǎo)蛋白質(zhì)正確折疊的蛋白質(zhì),能夠折疊和穩(wěn)定另外一種蛋白質(zhì)的不穩(wěn)定構(gòu)象,并促進(jìn)新生多肽鏈折疊等。

分子伴侶是從功能上定義的,凡具有這類功能的均可以稱為分子伴侶,他們的結(jié)構(gòu)可以完全不同。迄今為止發(fā)現(xiàn)的大多屬于熱激蛋白(HSP)。四:蛋白質(zhì)感染

體內(nèi)保證蛋白質(zhì)正確折疊分為兩步:識(shí)別錯(cuò)誤(發(fā)現(xiàn)哪些蛋白質(zhì)存在錯(cuò)誤)+決定錯(cuò)誤是否更正(能更正的借助分子伴侶更正,不能更正的清除)(一)蛋白感染因子導(dǎo)致的疾病

典型:瘋牛?。ǘ┑矸蹣拥鞍讓?dǎo)致的疾病

大致分為兩類:老年癡呆癥,帕金森病

第五章真核生物基因組注釋

截止2010年1月,一共6443個(gè)基因組測(cè)序計(jì)劃中1176個(gè)基因組測(cè)序完畢并公布?;蚪M注釋目標(biāo)是盡可能確定基因組每一個(gè)核苷酸的生物生化功能。

目前主要分為以下區(qū)域:1.確定蛋白質(zhì)編碼基因及其外顯子-內(nèi)含子結(jié)構(gòu),推斷生物學(xué)功能;2.進(jìn)行RNA基因預(yù)測(cè),推斷其功能和相互作用靶標(biāo)分子;3.確定基因組中重復(fù)序列的含量和分類;4.進(jìn)行假基因識(shí)別和分類。

我們本章只對(duì)蛋白質(zhì)的基因組注釋做講解第一節(jié)蛋白質(zhì)編碼基因的注釋

一個(gè)基因組大部分的生物學(xué)功能,主要通過(guò)對(duì)預(yù)測(cè)出蛋白質(zhì)編碼基因的功能推斷而得到。

蛋白質(zhì)編碼基因的注釋大致分為三種策略:

1.基于證據(jù)的注釋—根據(jù)已有的實(shí)驗(yàn)證據(jù)、表達(dá)序列標(biāo)簽和蛋白質(zhì)編碼基因

2.從頭開(kāi)始—只根據(jù)基因組DNA序列對(duì)蛋白質(zhì)編碼基因的注釋

3.重新基因預(yù)測(cè)—通過(guò)與其他物種基因組比較一:基于證據(jù)的基因注釋

將已有的cDNA序列或蛋白質(zhì)序列與基因組比對(duì),從而得到基因結(jié)構(gòu)。

根據(jù)序列是否由一個(gè)基因自身轉(zhuǎn)錄或翻譯而來(lái),分為順式比對(duì)和反式比對(duì)。(一)順式比對(duì)

使用被注釋基因組的cDNA或蛋白質(zhì)序列與基因組序列對(duì)比后得到比對(duì)位點(diǎn)。通常是使用全長(zhǎng)cDNA與基因組對(duì)比。許多cDNA測(cè)序項(xiàng)目得到的大多是表達(dá)序列標(biāo)簽(EST),即轉(zhuǎn)錄物片段,可把不同部位的EST拼接為一個(gè)整體。(二)反式比對(duì)

一些基因組測(cè)序項(xiàng)目中不含cDNA測(cè)序,因此缺乏相應(yīng)的全長(zhǎng)cDNA和EST等信息,需要采用反式比對(duì)策略進(jìn)行基因組注釋。

使用cDNA或蛋白質(zhì)序列與基因組比對(duì)后得到同源位點(diǎn),cDNA序列或蛋白序列可以來(lái)自本物種也可以來(lái)自近緣物種

基于證據(jù)的基因注釋系統(tǒng)弱點(diǎn):許多數(shù)據(jù)庫(kù)數(shù)據(jù)良莠不齊,導(dǎo)致錯(cuò)誤信息傳遞;數(shù)據(jù)庫(kù)不含有足夠相似程度序列,結(jié)果不易得到。二:從頭開(kāi)始的基因預(yù)測(cè)

只依賴蘊(yùn)含在DNA序列內(nèi)部信息確定基因結(jié)構(gòu)。

目前問(wèn)題有兩方面:對(duì)生物體的轉(zhuǎn)錄和翻譯法則認(rèn)識(shí)還需要進(jìn)一步提高;計(jì)算模型可能無(wú)法精確模擬這個(gè)過(guò)程。

主要分為兩個(gè)步驟:蛋白質(zhì)編碼基因特征的識(shí)別+基因結(jié)構(gòu)的生成。

蛋白質(zhì)編碼基因特征:組成特征+信號(hào)特征

組成特征:高CG含量+密碼子組成+六聯(lián)核苷酸組成+堿基出現(xiàn)周期

信號(hào)特征:核糖體結(jié)合位點(diǎn)+內(nèi)含子供體+受體剪接位點(diǎn)+內(nèi)含子分支點(diǎn)+起始和終止密碼子+CpG島等三:重新基因預(yù)測(cè)

利用對(duì)照基因組+目標(biāo)基因組比對(duì)信息進(jìn)行基因預(yù)測(cè)。

在進(jìn)化中大多數(shù)經(jīng)受著負(fù)選擇作用,因此產(chǎn)生了兩個(gè)指示編碼蛋白質(zhì)基因的重要信號(hào)(1)由于沉默突變往往發(fā)生在密碼子第3位,因此序列比對(duì)空缺以3為倍數(shù)(2)為了保證ORF編碼準(zhǔn)確性,插入和確實(shí)序列長(zhǎng)度為3的倍數(shù)。

因此如果有移碼突變,這個(gè)可讀框也常常被附近其他插入和缺失修復(fù),衡量這種現(xiàn)象一個(gè)指標(biāo)稱為讀框連續(xù)性(RFC)四:整合信息(一)人工整合

由于注釋所依賴的證據(jù)數(shù)量有限,從頭預(yù)測(cè)和重新預(yù)測(cè)結(jié)果可靠性較低,因此將信息整合在一起可以得到更好的注釋結(jié)果。

盡管其有效,但是因?yàn)槌杀竞芨吣壳皟H用于幾個(gè)核心基因(二)自動(dòng)整合

從人類基因組草圖公布后,自動(dòng)整合系統(tǒng)得到發(fā)展。最簡(jiǎn)單的是在每一個(gè)位置上選擇最好的證據(jù),首先進(jìn)行cDNA比對(duì),然后用基因預(yù)測(cè)結(jié)果填補(bǔ)cDNA比對(duì)。五:蛋白質(zhì)編碼基因的功能注釋

對(duì)預(yù)測(cè)的未知功能基因進(jìn)行功能注釋主要是利用已知功能基因等信息對(duì)新基因功能推斷。目前的常用主要方法有:

序列相似性比較法;進(jìn)化分析;亞細(xì)胞定位;結(jié)構(gòu)基因組研究和蛋白質(zhì)組研究。第六章生物進(jìn)化與分子系統(tǒng)發(fā)育分析本章先介紹生物進(jìn)化的基本知識(shí),在此基礎(chǔ)上利用分子序列來(lái)研究生物間親緣關(guān)系。分子系統(tǒng)發(fā)育分析的直觀結(jié)果是獲得進(jìn)化樹(shù),目前用的最多的進(jìn)化樹(shù)構(gòu)建方法有距離法、最大簡(jiǎn)約法與最大似然法。一:生物進(jìn)化

以三個(gè)部分介紹生物進(jìn)化,分別是進(jìn)化論歷史;目前進(jìn)化論觀點(diǎn)的證據(jù);分子進(jìn)化,在微管水平了解進(jìn)化的起源(一)進(jìn)化理論的歷史

達(dá)爾文時(shí)代,人們普遍認(rèn)為物種均為上帝的產(chǎn)物,自然神學(xué)主宰了17世紀(jì)歐洲和美洲生物學(xué)界,在這段時(shí)期卡爾·林奈創(chuàng)造了雙名法。

18世紀(jì)時(shí)許多自然史學(xué)家開(kāi)始思考用進(jìn)化觀點(diǎn)解釋自然現(xiàn)象,提出越深地層中化石與現(xiàn)有生命體特征相差越大。(與這一時(shí)期的一位大主教稱上帝在公元前4004年10月22日創(chuàng)造了地球,但是發(fā)現(xiàn)同一時(shí)期的地層中有很多生物相悖)

但是居維葉認(rèn)為地層中的生物出現(xiàn)和滅絕和大環(huán)境相關(guān),一個(gè)大災(zāi)變會(huì)毀滅很多物種,而新物種不可能通過(guò)由自然進(jìn)化得到。

拉馬克在1809年出版了一本著作,提出一定時(shí)期內(nèi)環(huán)境使物種改變,他比較了現(xiàn)存物種和生物化石,提出了這樣的體系:年代較遠(yuǎn)化石→年代較近化石→現(xiàn)存物種。從這些證據(jù)可以看出適應(yīng)性進(jìn)化,以后這個(gè)理論被稱為獲得性遺傳。

達(dá)爾文同意拉馬克關(guān)于環(huán)境影響進(jìn)化和適應(yīng)性的觀點(diǎn),但是不同意用進(jìn)廢退而提出“自然選擇”。提出的觀點(diǎn)總和了之前居維葉和林奈的研究成果。

其在觀察Galapagos島時(shí)發(fā)現(xiàn)許多動(dòng)物物種在世界其他地方找不到,但這些動(dòng)物和南美洲大陸動(dòng)物相似,并且雖然不同的種類占據(jù)著不同的島嶼,但各種鳴禽間親緣關(guān)系很近。其猜測(cè)這些島嶼中鳴禽來(lái)自南美洲大陸,后分布于各島中,隨著時(shí)間推移這些鳥(niǎo)類開(kāi)始各自適應(yīng)不同的環(huán)境,而其中的喙則是變異更大。

當(dāng)時(shí)達(dá)爾文提出了雜交遺傳作為性狀傳遞的一種模式,這一觀點(diǎn)被廣泛接受(因?yàn)樽哟雌饋?lái)像父母),但是這樣的思想沒(méi)有辦法和自然選擇相結(jié)合,因?yàn)樽匀贿x擇基于存活和繁殖個(gè)體產(chǎn)生的突變。

解決這個(gè)問(wèn)題要?dú)w功于孟德?tīng)?,提出了遺傳因子傳遞替代了基因雜交遺傳。

現(xiàn)代綜合理論強(qiáng)調(diào)以下三個(gè)方面的重要性:1.種群是作為進(jìn)化的單位;2.自然選擇是進(jìn)化的重要機(jī)制;3.用漸變的觀點(diǎn)解釋明顯的進(jìn)化由小的變異經(jīng)長(zhǎng)期累積而成。(二)進(jìn)化與自然選擇的證據(jù)

自然選擇是影響生物適應(yīng)性的唯一機(jī)制,但是還有些問(wèn)題需要考慮:1.在某些生物性狀中有可遺傳的變異;2.這些性狀的差異可引起生物存活與繁殖,以致?lián)碛心骋恍誀畹纳锟纱婊畈⒎敝掣嗪蟠?,而另一性狀的生物生存與繁殖受到抑制。

1.同源性:兩種或更多生物的性狀起源于這些生物的共同祖先的同一性狀。有些時(shí)候在生物成體中看不到,但是在胚胎發(fā)育期比較明顯(比如鰓裂)。

分子同源性是進(jìn)化論另一證據(jù),因?yàn)樵诜肿訉用嫠猩锕蚕砟撤N特征。2.化石證據(jù):化石演替年代順序與生命樹(shù)祖先-后代關(guān)系相對(duì)應(yīng)。大多數(shù)證據(jù)來(lái)自同一世系的祖先化石與現(xiàn)代生物中演變的結(jié)構(gòu)。3.趨同進(jìn)化和趨異進(jìn)化:趨異進(jìn)化(適應(yīng)性輻射)4.退化的器官:遺跡器官—已經(jīng)退化的無(wú)用功能的器官,但是保留了其構(gòu)造5.比較解剖學(xué):同功器官—指不同生物的某些結(jié)構(gòu)有相似的功能,但這些器官有不同的發(fā)育來(lái)源。6.可觀察到的自然進(jìn)化過(guò)程:在更短的時(shí)期內(nèi)進(jìn)化也可以發(fā)生,蛾的體色與歐洲麻雀的體型均可在短時(shí)期內(nèi)進(jìn)行適應(yīng)輻射。(工業(yè)黑化)7.對(duì)殺蟲(chóng)劑和寄生生物的抗性:8.人工選擇:(三)分子進(jìn)化

分子水平上的進(jìn)化會(huì)被用于研究物種間的差異,研究長(zhǎng)時(shí)間內(nèi)生物遺傳信息改變的原因與結(jié)果的領(lǐng)域被稱為“分子進(jìn)化”。

20世紀(jì)60年代以來(lái),DNA技術(shù)革命使人們認(rèn)識(shí)到DNA記錄著進(jìn)化的歷史,通過(guò)比較兩種生物的DNA序列可以發(fā)現(xiàn)他們的親緣關(guān)系。近些年還掀起了許多新興領(lǐng)域,如基因漂移,人類疾病與代謝相關(guān)基因的鑒定分析,進(jìn)化的計(jì)算機(jī)模擬,分子系統(tǒng)發(fā)育分析等。

1.編碼區(qū)DNA序列的進(jìn)化

鐮刀狀細(xì)胞貧血?。貉t蛋白β亞基基因的第17個(gè)堿基位置A被T替代,谷氨酸變?yōu)榱死i氨酸。

一般真核生物基因組只有3%基因編碼蛋白質(zhì),其中突變發(fā)生的頻率并不高,在人類及哺乳動(dòng)物中約為2×10-8.一個(gè)細(xì)胞約60億個(gè)堿基,則每個(gè)細(xì)胞可能120個(gè)突變(可講癌癥)2.在DNA重復(fù)區(qū)域的進(jìn)化

DNA中相當(dāng)多部分是重復(fù)的,并且有時(shí)DNA的長(zhǎng)片段還會(huì)轉(zhuǎn)移位置,通過(guò)分布于整個(gè)基因組的轉(zhuǎn)座子完成移動(dòng)過(guò)程。(其中有復(fù)制型轉(zhuǎn)座和非復(fù)制型轉(zhuǎn)座)

另一種形式的重復(fù)序列叫串聯(lián)重復(fù)DNA,出現(xiàn)在真核生物整個(gè)基因組。DNA堿基的重復(fù)數(shù)比轉(zhuǎn)座子重復(fù)數(shù)高,目前還未發(fā)現(xiàn)其作用,但是他們的突變率很高。(包括小衛(wèi)星DNA,短串聯(lián)重復(fù)序列,微衛(wèi)星DNA,Alu重復(fù)序列)

3.遺傳變異和種群遺傳學(xué)

種群遺傳學(xué)的領(lǐng)域主要研究基因與基因型出現(xiàn)頻率,從分子生物學(xué)角度分析進(jìn)化。(1)突變:尤其如果種群很小時(shí),一個(gè)突變基因可不通過(guò)自然選擇明顯改變基因頻率。就算在大種群中,也有很多人認(rèn)為突變是中性的。(2)遺傳漂移:與選擇壓力無(wú)關(guān)的基因隨機(jī)漂移。對(duì)小種群很重要,因?yàn)樵谄渲幸恍﹤€(gè)體死亡后,整個(gè)種群均造成稀有基因缺失,而漂移可以增加基因的出現(xiàn)頻率。(3)基因流:亞種群之間基因流動(dòng),如果移入使亞種群增加了新基因,移出使稀有基因在亞種群消失。(4)不隨意的交配會(huì)影響表現(xiàn)型出現(xiàn)的頻率:如果個(gè)體適于交配特征,將使能產(chǎn)生這些特征的個(gè)體保留下來(lái)。在小種群偶爾出現(xiàn)。4.分子進(jìn)化的中性理論

并不是所有種群被固定下來(lái)的突變均由自然選擇形成,有些突變是中性的,并不妨礙生物的生存和繁殖。所以DNA和蛋白質(zhì)的進(jìn)化主要是由隨機(jī)的過(guò)程產(chǎn)生,很多分子水平進(jìn)化并不是因?yàn)檫m應(yīng)引起的。

中性理論的一個(gè)結(jié)果是不同突變的基因會(huì)有不同的進(jìn)化速率,不同功能的基因或同一基因不同部位有不同進(jìn)化速率。

人類和黑猩猩分子進(jìn)化速率為1.3×10-9堿基替換/年。

分子進(jìn)化的另一個(gè)討論熱點(diǎn)是分子鐘理論,認(rèn)為在特定系統(tǒng)發(fā)育世系中氨基酸或核苷酸的替換是一個(gè)恒定的常數(shù)。分子鐘用來(lái)測(cè)定物種在何時(shí)從哪一個(gè)祖先開(kāi)始進(jìn)化并分開(kāi)。二:分子系統(tǒng)發(fā)育分析1.分子系統(tǒng)發(fā)育的概念

根據(jù)生物大分子序列差異評(píng)估物種或分子間的進(jìn)化。分子系統(tǒng)發(fā)育的一個(gè)重要意義是對(duì)生物分類的影響,現(xiàn)行16SrRNA序列的分析對(duì)生物分類很實(shí)用。2.構(gòu)建進(jìn)化樹(shù)的方法

目前常用方法有三種:距離法、最大簡(jiǎn)約發(fā)、最大似然法。

分別適用于較高相似性時(shí);序列相似性很高時(shí);任何相關(guān)序列集合。(1)距離法:首先算出序列間的遺傳距離(進(jìn)化距離),后根據(jù)這些距離將序列分別依次合并的聚類分析方法,最后用進(jìn)化樹(shù)表示。(2)最大簡(jiǎn)約法:根據(jù)信息位點(diǎn)提供的各序列間替換情況,在所有可能的樹(shù)中尋找含最小替換數(shù)的樹(shù)的方法。(3)最大似然法:構(gòu)建進(jìn)化樹(shù)的最大似然法是在所有可能的樹(shù)及所有可能字符替換數(shù)方式中,選擇可能性最大的一種做結(jié)果。計(jì)算過(guò)程需要用到似然函數(shù)。第七章生物芯片主要介紹生物芯片的原理和數(shù)據(jù)分析,生物芯片用已知的核酸、蛋白質(zhì)、脂質(zhì)和糖類分子微點(diǎn)陣與生物樣本中分子特異性結(jié)合的原理,對(duì)生物樣品的生物信息進(jìn)行快速和高通量的監(jiān)測(cè)。數(shù)據(jù)分析主要包括圖像分析,標(biāo)準(zhǔn)化處理,Ratio值分析,基因聚類分析。一:引言

生物芯片前身是20世紀(jì)80年代到90年代初期被廣泛運(yùn)用在尼龍膜上的分子點(diǎn)陣雜交技術(shù)。根據(jù)用途分為DNA/RNA芯片、基因芯片、蛋白芯片。利用核酸分子雜交,蛋白質(zhì)分子親和原理,通過(guò)熒光標(biāo)記實(shí)現(xiàn)生物信息可視化,最后通過(guò)計(jì)算機(jī)分析處理。二:生物芯片的原理1.生物芯片的制備對(duì)固定相分子要求較高,需要固定后保持活性,并且在雜交過(guò)程中藥保持穩(wěn)定。(1)芯片片基好的光學(xué)性質(zhì);可以進(jìn)行化學(xué)反應(yīng)的基團(tuán);足夠吸附能力;很好的穩(wěn)定性;兼容性。性狀要求為片狀和膜狀。(2)生物分子與芯片的結(jié)合

芯片表面活性基團(tuán)形成特異性吸附位點(diǎn),用來(lái)吸附和親和固定生物活性分子。其中三種常用的為氨基片,醛基片,環(huán)氧乙基片。(3)生物芯片的制作

基質(zhì)表面都具有特異的活性基團(tuán),分點(diǎn)樣法(將預(yù)先合成好的探針等直接點(diǎn)在相應(yīng)位置)和原位合成法(復(fù)雜,主要是點(diǎn)樣法)2.待測(cè)生物樣品的制備和標(biāo)記(1)制備方法

表達(dá)水平監(jiān)測(cè):直接監(jiān)測(cè)指標(biāo)是mRNA轉(zhuǎn)錄水平;

SNP芯片和突變監(jiān)測(cè):將純化的基因組DNA用特定引物擴(kuò)增為標(biāo)記,分為引物標(biāo)記和特定核苷酸標(biāo)記??梢园l(fā)光。

特定基因片段篩選和比較基因組研究。(2)標(biāo)記方法

核素放射性標(biāo)記;熒光標(biāo)記;化學(xué)標(biāo)記。3.生物分子之間的結(jié)合

利用核酸互補(bǔ)鏈之間的特異性結(jié)合(Southern、Northernblot);抗原-抗體特異結(jié)合的能力。

互補(bǔ)雜交是根據(jù)探針的類型、長(zhǎng)度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論