生物信息學(xué)實(shí)驗(yàn)指導(dǎo)_第1頁
生物信息學(xué)實(shí)驗(yàn)指導(dǎo)_第2頁
生物信息學(xué)實(shí)驗(yàn)指導(dǎo)_第3頁
生物信息學(xué)實(shí)驗(yàn)指導(dǎo)_第4頁
生物信息學(xué)實(shí)驗(yàn)指導(dǎo)_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)實(shí)驗(yàn)生物信息學(xué)實(shí)驗(yàn)指導(dǎo)適用專業(yè):生物技術(shù)與制藥大類生物技術(shù)編寫:解增言生物信息學(xué)院2014年9月目錄實(shí)驗(yàn)1 在線BLAST同源序列查詢3實(shí)驗(yàn)2 本地BLAST同源序列查詢8實(shí)驗(yàn)3 利用ClustalX與MEGA進(jìn)行多序列比對與分子系統(tǒng)發(fā)生樹構(gòu)建10實(shí)驗(yàn)4 利用RNAfold預(yù)測RNA二級結(jié)構(gòu)14實(shí)驗(yàn)5 Pfam蛋白質(zhì)結(jié)構(gòu)域分析17實(shí)驗(yàn)6 利用PSSpred預(yù)測蛋白質(zhì)二級結(jié)構(gòu)19實(shí)驗(yàn)7 利用Cn3D和RasMol分析蛋白質(zhì)三級結(jié)構(gòu)21實(shí)驗(yàn)8 利用GO及EST數(shù)據(jù)分析基因功能24實(shí)驗(yàn)1 在線BLAST同源序列查詢一、實(shí)驗(yàn)?zāi)康? 了解同源序列查詢的原理和用途;2 掌握利用NCBI在線BLA

2、ST工具查找同源序列的方法。二、實(shí)驗(yàn)原理在生物學(xué)種系發(fā)生理論中,若兩個或多個結(jié)構(gòu)具有相同的祖先,則稱它們同源(homologous)。分子生物學(xué)中的同源指兩條序列來自于一條共同的祖先序列。一般來說,相似超過一定程度的序列具有同源性。在生物信息學(xué)研究中,常用序列比對(alignment)來研究序列的同源性以及推測物種之間的關(guān)系。最常見的比對是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的比對是將多個蛋白質(zhì)或核酸同時進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域或位點(diǎn),從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可

3、以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。比對還是數(shù)據(jù)庫搜索算法的基礎(chǔ),將查詢序列與整個數(shù)據(jù)庫的所有序列進(jìn)行比對,從數(shù)據(jù)庫中獲得與其最相似序列的已有的數(shù)據(jù),能最快速的獲得有關(guān)查詢序列的大量有價值的參考信息,對于進(jìn)一步分析其結(jié)構(gòu)和功能都會有很大的幫助。近年來隨著生物信息學(xué)數(shù)據(jù)大量積累和生物學(xué)知識的整理,通過比對方法可以有效地分析和預(yù)測一些新發(fā)現(xiàn)基因的功能。序列兩兩比對序列比對的理論基礎(chǔ)是進(jìn)化學(xué)說,如果兩個序列之間具有足夠的相似性,就推測二者可能有共同的進(jìn)化祖先,經(jīng)過序列內(nèi)殘基的替換、殘基或序列片段的缺失、以

4、及序 列重組等遺傳變異過程分別演化而來。序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。在殘基殘基比對中,可以明顯看到序列中某些氨基酸殘基比其它位置上的殘基更保守,這些信息揭示了這些保守位點(diǎn)上的殘基對蛋白質(zhì)的結(jié)構(gòu)和功能是至關(guān)重要的,例如 它們可能是酶的活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)motif的殘基等等。但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,可能它們只是由于歷史的原因被保留下來,而不是由于進(jìn)化壓力而保留下來。因此,如果兩個序列有顯著的保守性,要確定二者具有共同的進(jìn)化歷

5、史,進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。通過大量實(shí)驗(yàn)和序列比對的分析,一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30%,它們就很可能是同源的。早期的序列比對是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部比對會更加合理。通常用打分矩陣描述序列兩兩比對,兩條序列分別作為矩陣的兩維,矩陣點(diǎn)是兩維上對應(yīng)兩個殘基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說明兩個殘基越相似。因此,序列比對問題變成在矩陣?yán)飳ふ易罴驯葘β窂?,目前最有效的方法是Needleman-Wunsch動態(tài)規(guī)劃算法,在此基礎(chǔ)上又改良產(chǎn)生了Smi

6、th-Waterman算法和SIM算法。在 FASTA程序包中可以找到用動態(tài)規(guī)劃算法進(jìn)行序列比對的工具LALIGN,它能給出多個不相互交叉的最佳比對結(jié)果。在進(jìn)行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。粗糙的比對方法僅僅用相同/不同來描述兩個殘基的關(guān)系,顯然這種方法無法描述 殘基取代對結(jié)構(gòu)和功能的不同影響效果,纈氨酸對異亮氨酸的取代與谷氨酸對異亮氨酸的取代應(yīng)該給予不同的打分。因此如果用一個取代矩陣來描述氨基酸殘基兩兩取代的分值會大大提高比對的敏感性和生物學(xué)意義。雖然針對不同的研究目標(biāo)和對象應(yīng)該構(gòu)建適宜的取代矩陣,但國際上常用的取代矩陣有PAM和 BLOSUM等,它們來

7、源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對于不同的對 象可以采用不同的取代矩陣以獲得更多信息,例如對同源性較高的序列可以采用BLOSUM90矩陣,而對同源性較低的序列可采用BLOSUM30矩陣。空位罰分是為了補(bǔ)償插入和缺失對序列相似性的影響,由于沒有什么合適的理論模型能很好地描述空位問題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般 的處理方法是用兩個罰分值,一個對插入的第一個空位罰分,如1015;另一個對空位的延伸罰分,如12。對于具體的比對問題,采用不同的罰分方法會取 得不同的效果。對于比對計(jì)算產(chǎn)生的分值,到底多大

8、才能說明兩個序列是同源的,對此有統(tǒng)計(jì)學(xué)方法加以說明,主要的思想是把具有相同長度的隨機(jī)序列進(jìn)行比對,把分值與最初的比對分值相比,看看比對結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨 機(jī)比對分值不低于實(shí)際比對分值的概率。對于嚴(yán)格的比對,必須E值低于一定閾值才能說明比對的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生 高比對得分的可能。Genbank、SWISS-PROT等序列數(shù)據(jù)庫提供的序 列搜索服務(wù)都是以序列兩兩比對為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索算法都進(jìn)行了一定程度的優(yōu)化,如最常見的FASTA工具和 BLAST工具。FASTA是第一個被廣泛應(yīng)用的序列比對和搜

9、索工具包,包含若干個獨(dú)立的程序。FASTA為了提供序列搜索的速度,會先建立序列片段的 “字典”,查詢序列先會在字典里搜索可能的匹配序列,字典中的序列長度由ktup參數(shù)控制,缺省的ktup=2。FASTA的結(jié)果報告中會給出每個搜索到 的序列與查詢序列的最佳比對結(jié)果,以及這個比對的統(tǒng)計(jì)學(xué)顯著性評估E值。FASTA工具包可以在大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。BLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比FASTA有更多改進(jìn),速度更快,并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。NCBI提供了基于Web 的BLAST服務(wù),用戶可以把序列填入網(wǎng)頁上的表單里,選擇相應(yīng)的參數(shù)后提交到數(shù)據(jù)服務(wù)器上進(jìn)行搜索,從

10、電子郵件中獲得序列搜索的結(jié)果。BLAST包含五 個程序和若干個相應(yīng)的數(shù)據(jù)庫,分別針對不同的查詢序列和要搜索的數(shù)據(jù)庫類型。其中翻譯的核酸庫指搜索比對時會把核酸數(shù)據(jù)按密碼子按所有可能的閱讀框架轉(zhuǎn)換成蛋白質(zhì)序列。BLAST對序列格式的要求是常見的FASTA格式。FASTA 格式第一行是描述行,第一個字符必須是“>”字符;隨后的行是序列本身,一般每行序列不要超過80個字符,回車符不會影響程序?qū)π蛄羞B續(xù)性的看法。 序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會全部轉(zhuǎn)換成大寫;單個“-”號代表不明長度的空位;在氨基酸序列里允許出現(xiàn)“U”和 “*”號;任何數(shù)字都應(yīng)該被去掉或換成字母(如

11、,不明核酸用“N”,不明氨基酸用 “X”)。此外,對于核酸序列,除了A、C、G、T、U分別代表各種核酸之外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(帶酮基);M 代表A或C(帶氨基);S代表G或C(強(qiáng));W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、 G、C、T中任意一種。對于氨基酸序列,除了20種常見氨基酸的標(biāo)準(zhǔn)單字符標(biāo)識之外,B代表Asp或Asn;U代表硒代半胱氨酸;Z代表Glu或Gln; X代表任意氨基酸;“*”代表翻譯結(jié)束標(biāo)志。NCBI提供的在線BLAST工具,包括:BLASTP:用蛋白質(zhì)序列搜索蛋白質(zhì)序列庫BL

12、ASTN:用核酸序列搜索核酸庫BLASTX:核酸序列對蛋白質(zhì)庫的比對,核酸序列在比對之前自動按照六個讀碼框翻譯成蛋白質(zhì)序列TBLASTN:蛋白質(zhì)序列對核酸庫的比對,核酸庫中的序列按照六個讀碼框翻譯后與蛋白質(zhì)序列進(jìn)行比對搜索TBLASTX:核酸序列對核酸庫在蛋白質(zhì)質(zhì)級別的比對,兩者都在搜索之前翻譯成為蛋白質(zhì)質(zhì)進(jìn)行比對圖1-1 NCBI首頁圖1-2 NCBI在線BLAST頁面三、實(shí)驗(yàn)內(nèi)容(步驟)本實(shí)驗(yàn)在NCBI核算和蛋白質(zhì)庫中查找擬南芥(Arabidopsis thaliana)LEC1(Leafy Cotyledon1)基因的同源基因,LEC1基因?qū)儆贖AP3基因家族。步驟包括:1. 查找擬南芥

13、LEC基因的核酸和蛋白質(zhì)序列。圖1-2 在NCBI核算庫中查找序列2. BLASTN圖1-3 利用BLASTN查找同源基因3. BLASTP圖1-4 利用BLASTP查找同源蛋白四、實(shí)驗(yàn)報告1使用的軟件/工具,實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search

14、 programs. Nucleic Acids Res. 25(17):3389-402.實(shí)驗(yàn)2 本地BLAST同源序列查詢一、實(shí)驗(yàn)?zāi)康? 掌握本地版BLAST軟件的使用方法。二、實(shí)驗(yàn)原理NCBI提供了在線的BLAST服務(wù),但有時需要對某個基因組做BLAST,這就需要在本地建自己的BLAST庫,并在本地做BLAST。NCBI提供BLAST的本地版,當(dāng)前最新版本是2.2.28+, 包括源代碼和多個平臺的編譯好的軟件包,可以在/blast/executables/blast+/LATEST/下載。Windows下可下載win32版本,安裝完后,打

15、開“開始”“運(yùn)行”,輸入“cmd”,點(diǎn)“確定”(圖2-1)。圖2-1 運(yùn)行命令行窗口這時,便可以輸入DOS命令圖2-2 DOS界面常用DOS命令有:cd(改變當(dāng)前目錄)、mkdir(新建目錄)、dir(列出當(dāng)前目錄內(nèi)容)等、del(刪除文件)、copy(復(fù)制文件)、ren(更改文件名)等。在做本地BLAST前需要先構(gòu)建本地BLAST庫: makeblastdb -in schpomb.pep.fa -dbtype prot -out schpomb其中,-in是指定用來建庫的文件,-dbtype指定庫的類型(prot是蛋白質(zhì)、nucl是核酸),-out指定建好的庫的名字。更多的選項(xiàng)可以用mak

16、eblastdb -h查看。使用以下命令可以在建好的庫中查找一個蛋白的同源蛋白: blastp -query yeast_cytochromeC.fa -db schpomb -out out.txt其中,-query指定包含用來查找的序列的文件,-db指定在哪個庫里查找,-out指定結(jié)果輸出到哪個文件。更多的選項(xiàng)可以用blastp -h查看。運(yùn)行完后,生成一個名為out.txt的輸出文件,即為BLAST結(jié)果。除了blastp外,還有blastn、blastx、tblastn、tblastx等。三、實(shí)驗(yàn)內(nèi)容(步驟)1. 從NCBI下載本地版BLAST,并安裝;2. 在D盤新建目錄blast,從

17、TAIR(The Arabidopsis Information Resource)網(wǎng)站上下載擬南芥基因組(全基因組CDS和蛋白質(zhì))數(shù)據(jù)到該目錄;3. 構(gòu)建本地BLAST庫(CDS和蛋白質(zhì)兩種庫);4. 從NCBI下載擬南芥LEC1基因的CDS和蛋白質(zhì)序列,分別做BLASTP、BLASTN、BLASTX、TBLASTN和TBLASTX。四、實(shí)驗(yàn)報告1使用的軟件/工具,實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)實(shí)驗(yàn)3 利用ClustalX和MEGA軟件進(jìn)行多序列比對與分子系統(tǒng)發(fā)生樹構(gòu)建一、實(shí)驗(yàn)?zāi)康? 了解多序列比對的原理和用途;了解系統(tǒng)發(fā)育分析、分子進(jìn)化分析的原理

18、和方法;2 掌握ClustalX和MEGA軟件的使用方法。二、實(shí)驗(yàn)原理1. 多序列比對與Clustal多序列比對(Multiple Sequence Alignment,MSA)就是把兩條以上可能有系統(tǒng)進(jìn)化關(guān)系的序列進(jìn)行比對的方法,它能識別具有功能、結(jié)構(gòu)重要性的局部保守區(qū),同時還可以輔助檢查一個序列家族中的全局相似性和進(jìn)化親緣關(guān)系。因此多序列比對是對遺傳和進(jìn)化研究具有重要意義的生物信息學(xué)序列分析方法。多序列比對的應(yīng)用:用于描述一組序列之間的相似性關(guān)系,以便了解一個基因家族的基本特征,尋找序列模式(motif),保守區(qū)域等;用于描述同源基因之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中;其他應(yīng)用,如

19、構(gòu)建profile,打分矩陣等。根據(jù)比對原理,多序列比對分全局比對和局部比對兩種。全局比對常用的工具有Clustal系列軟件等,局部比對常用工具如T-coffee等。Clustal是一個單機(jī)版的基于漸進(jìn)比對的多序列比對工具,由Higgins D.G. 等開發(fā)。有應(yīng)用于多種操作系統(tǒng)平臺的版本,包括linux和DOS版的clustlw,Windows版的clustalx等,當(dāng)前的最新版本是ClustalW(X)2。圖5-1 ClustalX的界面Clustal是一種漸進(jìn)的比對方法,先將多個序列兩兩比對構(gòu)建距離矩陣,反應(yīng)序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對關(guān)系密切的 序列進(jìn)行

20、加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。Clustal的工作原理是:輸入多個序列,首先進(jìn)行快速的序列兩兩比對,計(jì)算序列間的距離,獲得一個距離矩陣;然后用鄰接法(Neighbor Joining,NJ) 構(gòu)建一個引導(dǎo)樹;最后根據(jù)引導(dǎo)樹,漸進(jìn)比對多個序列。Clustal的輸入輸出格式:輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。2

21、.分子進(jìn)化分析與MEGA軟件生物進(jìn)化分析是生物信息學(xué)的一個重要分支。它通過對生物序列的研究推測基因或物種的進(jìn)化歷史。主要方法包括通過DNA序列,蛋白質(zhì)序列,蛋白質(zhì)結(jié)構(gòu)等來構(gòu)建分子進(jìn)化樹或者種系發(fā)生樹, 或者通過蛋白質(zhì)結(jié)構(gòu)比較包括剛體結(jié)構(gòu)疊合和多結(jié)構(gòu)特征比較等方法建立結(jié)構(gòu)進(jìn)化樹。分子進(jìn)化分析的主要內(nèi)容有:1)直系/旁系同源基因的判定;2)估計(jì)分歧時間;3)重建祖先序列/性狀;4)發(fā)現(xiàn)生物序列上自然選擇影響較大的重要位點(diǎn);5)確定基因重組的發(fā)生位點(diǎn);6)識別和疾病關(guān)聯(lián)的突變;7)確定病原體的分類;8)基因的演化歷史分子進(jìn)化分析的第一步是多序列比對。然后再用距離法、最大似然法、最大簡約法或貝葉斯方法

22、等建立序列之間的關(guān)系(基因樹),了解基因的起源或演化歷史,或根據(jù)基因樹推測物種樹(系統(tǒng)發(fā)育分析)。目前有系統(tǒng)發(fā)育分析軟件有很多,比較有名的有PAUP、PHYLIP、MEGA、PAML、MrBayes等。本實(shí)驗(yàn)學(xué)習(xí)使用MEGA進(jìn)行HAP3基因家族的分子進(jìn)化分析。隨著不同物種基因組測序的快速發(fā)展,產(chǎn)生了大量的DNA 序列信息,這時就需要一種簡便而快速的統(tǒng)計(jì)分析工具來對這些數(shù)據(jù)進(jìn)行有效的分析,以提取其中包含的大量信息。MEGA 就是基于這種需求開發(fā)的。MEGA 軟件的目的就是提供一個以進(jìn)化的角度從DNA 和蛋白序列中提取有用的信息的工具,并且,此軟件可以免費(fèi)下載使用。MEGA因?yàn)榻缑婧唵我子?,近年?/p>

23、用的人越來越多。MEGA的最新版本是MEGA4。它主要集中于進(jìn)化分析獲得的綜合的序列信息。使用它我們可以編輯序列數(shù)據(jù)、序列比對、構(gòu)建系統(tǒng)發(fā)育樹、推測物種間的進(jìn)化距離等。此軟件的輸出結(jié)果資源管理器允許用戶瀏覽、編輯、打印輸入所得到的結(jié)果而且所得到的結(jié)果具有不同形式的可視化效果。此外,該軟件還能夠得出不同序列間的距離矩陣,這是他不同與其他分析軟件的地方。在計(jì)算矩陣方面有一些自己的特點(diǎn):推測序列或者物種間的進(jìn)化距離根據(jù)MCL(Maximum Composite Likeliood method)的方法構(gòu)建系統(tǒng)發(fā)育樹考慮到了不同堿基替換的不同的比率,考慮到了堿基轉(zhuǎn)換和顛換的差別。隨時可以使用標(biāo)注:所以

24、的結(jié)果輸入都可以使用標(biāo)注,而且標(biāo)注的內(nèi)容可以被保存,復(fù)制。圖6-1 MEGA界面三、實(shí)驗(yàn)內(nèi)容(步驟)1 ClustalX(1)運(yùn)行ClustalX;(2)Ctrl+O打開包含fasta格式的序列文件at_hap3_cds.fa;(3)在菜單中選取Alignment > Output Format Options設(shè)置輸出文件格式;(4)在菜單中選取Alignment > Alignment Parameters > Multiple Alignment Parameters設(shè)置序列比對參數(shù);(5)在菜單中選取Alignment > Do complete alignmen

25、t,彈出對話框中設(shè)定好輸出文件名后,點(diǎn)擊OK按鈕開始多序列比對。2 MEGA(1)運(yùn)行MEGA;(2)將.aln文件轉(zhuǎn)換成.meg文件:file -> Convert to MEGA Format,對話框中打開clustal比對好的序列,轉(zhuǎn)換完成后,保存退出;(3)打開.meg文件:File -> Open Data,找到剛才保存的.meg文件,選擇是核酸序列還是蛋白序列;(4)構(gòu)建系統(tǒng)發(fā)生樹:菜單Phylogeny -> Construct Phylogeny,然后可以選鄰接法(NJ)、最小進(jìn)化法(ME)、最大簡約法(MP)或UPGMA法,在對話框中可以選擇不同的模型,構(gòu)建

26、系統(tǒng)發(fā)生樹。(5)構(gòu)建帶檢驗(yàn)值的系統(tǒng)發(fā)生樹:Phylogeny -> Bootstrap Test of Phylogeny,再選上面四種方法。四、實(shí)驗(yàn)報告1使用的軟件/工具,實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)Larkin M.A., Blackshields G., Brown N.P., Chenna R., McGettigan P.A., McWilliam H., Valentin F., Wallace I.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J. and Higgins D.G

27、. (2007) ClustalW and ClustalX version 2. Bioinformatics 23(21): 2947-2948.Kumar S, Dudley J, Nei M & Tamura K (2008) MEGA: A biologist-centric software for evolutionary analysis of DNA and protein sequences. Briefings in Bioinformatics 9: 299-306.實(shí)驗(yàn)4 利用RNAfold預(yù)測RNA二級結(jié)構(gòu)一、實(shí)驗(yàn)?zāi)康? 了解RNA二級結(jié)構(gòu)的概念;2 掌握用

28、RNAfold預(yù)測RNA二級結(jié)構(gòu)的方法。二、實(shí)驗(yàn)原理就核酸分子結(jié)構(gòu)而言,DNA具有雙螺旋結(jié)構(gòu),而RNA是單鏈結(jié)構(gòu)。單鏈RNA的三維結(jié)構(gòu)是由它的核苷酸序列決定的,這與蛋白質(zhì)的結(jié)構(gòu)由蛋白質(zhì)的序列決定相類似。但是,RNA的結(jié)構(gòu)并沒有蛋白質(zhì)的結(jié)構(gòu)那么復(fù)雜。RNA的結(jié)構(gòu)可以分為三個層次,即一級結(jié)構(gòu)、二級結(jié)構(gòu)和空間結(jié)構(gòu)。一級結(jié)構(gòu)就是RNA的序列。二級結(jié)構(gòu)是通過堿基互補(bǔ)配對而形成的,堿基對之間的氫鍵以及它們形成的螺旋堆積力起著穩(wěn)定結(jié)構(gòu)的作用,降低自由能。RNA的二級結(jié)構(gòu)單元與蛋白質(zhì)的二級結(jié)構(gòu)單元很不一樣。但在單鏈RNA中,由于配對的堿基出現(xiàn)在單個RNA分子中,因此就會形成堿基配對的莖區(qū)(stem regio

29、n)。在RNA鏈中,為了形成這種堿基配對,需要反轉(zhuǎn)鏈的方向,于是在反轉(zhuǎn)處就會形成一個發(fā)夾環(huán)。如果RNA鏈上有很少的堿基沒有相對應(yīng)的互補(bǔ)堿基,那么就會形成一個小的突出部分或者形成一個較大的環(huán)狀區(qū)(loop),即內(nèi)環(huán)或者膨脹環(huán)。發(fā)夾環(huán)一般位于莖的末端,而內(nèi)環(huán)或膨脹環(huán)使莖中斷。圖7.6是一個RNA的二級結(jié)構(gòu)示意圖,其中包括莖、發(fā)夾環(huán)、內(nèi)環(huán)、膨脹環(huán)連續(xù)堿基配對等。當(dāng)RNA分子折疊時,有些堿基相互配對,形成螺旋區(qū)域或莖,這部分堿基具有負(fù)的自由能;而其它非互補(bǔ)的堿基處于自由態(tài),形成單鏈或環(huán),這部分堿基的自由能為正值。環(huán)區(qū)的存在使RNA分子的自由能升高,結(jié)構(gòu)的穩(wěn)定性減弱。因此,預(yù)測RNA二級結(jié)構(gòu)的一種直接的

30、方法是尋找最大數(shù)目的堿基配對。通過確定常見RNA二級結(jié)構(gòu)單元的位置,我們能夠比較好地預(yù)測出RNA的結(jié)構(gòu)。但是,偽結(jié)(pseudo knot)是RNA二級結(jié)構(gòu)預(yù)測中最難預(yù)測的一種二級結(jié)構(gòu)。在形成偽結(jié)的地方,環(huán)狀區(qū)域內(nèi)的堿基與環(huán)狀區(qū)域外的堿基相互配對。由于偽結(jié)的預(yù)測比較困難,因此,許多早期的二級結(jié)構(gòu)預(yù)測算法完全不考慮偽結(jié),這些算法是在忽略偽結(jié)區(qū)域存在的前提下預(yù)測其它二級結(jié)構(gòu)單元的??梢杂命c(diǎn)矩陣作圖的方法來尋找最大配對。將RNA的堿基序列順序地排布在X軸上,對于配對的堿基在Y軸相同的位置打上點(diǎn)標(biāo)記。設(shè)RNA序列的長度為n,根據(jù)序列建立一個×的矩陣R,如果第個堿基與第個堿基配對(如A

31、9;U、GÛC),則 Ri,j=1,否則為0。根據(jù)所得到的點(diǎn)矩陣圖,可以找出最大配對。當(dāng)然,這是一種非常簡單粗糙的方法。目前RNA二級結(jié)構(gòu)預(yù)測有兩種主要的方法,一是基于序列比較的方法,另一種方法是能量最小化方法?;谛蛄斜容^的方法主要是通過多重序列比對,根據(jù)相似序列具有相似結(jié)構(gòu)的原理進(jìn)行二級結(jié)構(gòu)預(yù)測。能量最小化方法在預(yù)測RNA分子二級結(jié)構(gòu)時,試圖對RNA折疊的自由能進(jìn)行最小化,進(jìn)而搜索最穩(wěn)定的結(jié)構(gòu)。該方法通過各種能量優(yōu)化方法或者分子動力學(xué)計(jì)算評價所有可能配對的能量,進(jìn)而發(fā)現(xiàn)具有最小能量的結(jié)構(gòu)。Zuker的Mfold程序是使用較多的程序包之一,它就是通過一系列的最近鄰能量規(guī)則(near

32、est neighbor energy rules)來計(jì)算一個結(jié)構(gòu)的能量。由于在這種方法中RNA結(jié)構(gòu)被分成了許多相互作用的區(qū)域來進(jìn)行評估, 而能量計(jì)算時僅僅計(jì)算那些被認(rèn)為有可能產(chǎn)生相互作用的“鄰居”堿基對之間的能量,因此這些規(guī)則被稱為“最近鄰”規(guī)則。最近鄰能量規(guī)則認(rèn)為:在標(biāo)為環(huán)區(qū)的區(qū) 域內(nèi)的所有堿基都有相互作用的可能,因此在計(jì)算這個結(jié)構(gòu)的能量時就必須考慮這一環(huán)區(qū)內(nèi)的所有的堿基對的能量。但在不考慮會出現(xiàn)偽結(jié)時,由于環(huán)區(qū)外的堿基與 環(huán)區(qū)內(nèi)的任一堿基都不會構(gòu)成堿基對,因此在最近鄰規(guī)則下就不考慮外區(qū)內(nèi)的堿基和環(huán)區(qū)內(nèi)的堿基之間的堿基對作用。由于不需要考慮位于不同區(qū)的堿基間的相互作 用,計(jì)算的速度就得到了

33、比較大的提高。由于不考慮偽結(jié),可以假設(shè)RNA二級結(jié)構(gòu)總的自由能是所有結(jié)構(gòu)元素(配對堿基、環(huán))的自由能的總和,并且各個結(jié)構(gòu)元素的自由能相互獨(dú)立。這意味著在計(jì)算RNA二級結(jié)構(gòu)自由能的時候,只要分別計(jì)算各個結(jié)構(gòu)元素的自由能,然后加和,形成總的自由能。通過實(shí)驗(yàn)可以確定各結(jié)構(gòu)元素的自由能函數(shù)。典型的自由能函數(shù)包括兩個連續(xù)堿基對si與sj、si+1與sj-1所形成的自由能,由堿基si和sj界定的發(fā)夾環(huán)的自由能,由兩對堿基si與sj、si與sj所界定內(nèi)環(huán)的自由能?;谧杂赡艿亩壗Y(jié)構(gòu)預(yù)測的目標(biāo)就是搜索一個合適的構(gòu)象,使得在這種構(gòu)象下總的自由能最小。這是一個優(yōu)化問題,對于這個問題可用動態(tài)規(guī)劃技術(shù)解決。 RNA

34、是一種重要的生物大分子。RNA是DNA和蛋白質(zhì)之間的一個中間語言,因此RNA二級結(jié)構(gòu)的準(zhǔn)確預(yù)測對于了解基因調(diào)控和蛋白質(zhì)產(chǎn)物的表達(dá)具有重要的作用。另外,已經(jīng)發(fā)現(xiàn)許多RNA本身具有酶的催化特性。現(xiàn)在,這些具有酶的催化特性的RNA被稱為核酶(ribozyme),它們在tRNA分子的剪接、核糖體的活性以及真核生物hnRNA的處理中具有一定的作用。同時,它們還具有其它一些功能??偠灾J(rèn)識RNA的結(jié)構(gòu)對于了解RNA的功能及其作用機(jī)制是非常重要的。圖4-1 RNA二級結(jié)構(gòu)示意圖RNAfold是基于最小自由能的RNA二級結(jié)構(gòu)在線預(yù)測工具。其地址為:http:/rna.tbi.univie.ac.at/cg

35、i-bin/RNAfold.cgi .三、實(shí)驗(yàn)內(nèi)容1. 從NCBI上下載擬南芥LEC1基因的mRNA序列,與RNAfold預(yù)測其二級結(jié)構(gòu);2. 用RNAfold預(yù)測大腸桿菌Met-tRNA的二級結(jié)構(gòu)。四、實(shí)驗(yàn)報告1使用的軟件/工具,實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)Zuker M, Stiegler P. 1981. Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic Acid Res. 9(1):1

36、33-148.實(shí)驗(yàn)5 Pfam蛋白質(zhì)結(jié)構(gòu)域分析一、實(shí)驗(yàn)?zāi)康? 了解多序列比對的原理和用途;2 掌握ClustalX和ClustalW軟件的使用。二、實(shí)驗(yàn)原理結(jié)構(gòu)域是蛋白質(zhì)中的一類結(jié)構(gòu)單元,是構(gòu)成蛋白質(zhì)三級結(jié)構(gòu)的基本單元。有些球形蛋白的一條肽鏈,或以共價鍵相連的兩條或多條肽鏈在空間結(jié)構(gòu)上可以區(qū)分為若干個球狀的子結(jié)構(gòu),其中的每一個球狀子結(jié)構(gòu)就被稱為一個結(jié)構(gòu)域。同一個蛋白的各個結(jié)構(gòu)域之間是以肽鏈相互鏈接的,而鏈接兩個結(jié)構(gòu)域的絕大多數(shù)都是單股肽鏈,只有在極個別的情況下會有少數(shù)的雙股肽鏈聯(lián)系不同的結(jié)構(gòu)域。在X-射線衍射實(shí)驗(yàn)繪制的電子密度圖中,可以清楚地看到有些球狀蛋白地的部存在一些裂隙,這些裂隙就是各個

37、結(jié)構(gòu)域之間的鏈接部分,結(jié)構(gòu)域之間的鏈接雖然是松散的,但他們?nèi)匀粚儆谕粭l肽鏈,靠肽鏈鏈接這一點(diǎn)和蛋白質(zhì)的各個亞基之間依靠非鍵相互作用維系結(jié)構(gòu)有著本質(zhì)的區(qū)別。結(jié)構(gòu)域在空間上具有臨近相關(guān)性即在一級結(jié)構(gòu)上相互臨近的氨基酸殘基,在結(jié)構(gòu)域的三維空間結(jié)構(gòu)上也相互臨近,在一級結(jié)構(gòu)上相互遠(yuǎn)離的氨基酸殘基,在結(jié)構(gòu)域的空間結(jié)構(gòu)上也相互遠(yuǎn)離,甚至分別屬于不同的結(jié)構(gòu)域。結(jié)構(gòu)域與蛋白質(zhì)完成生理功能有著密切的關(guān)系,有時幾個結(jié)構(gòu)域共同完成一項(xiàng)生理功能,有時一個結(jié)構(gòu)域就可以獨(dú)立完成一項(xiàng)生理功能,但是一個結(jié)構(gòu)不完整 的結(jié)構(gòu)域是不可能產(chǎn)生生理功能的。因此結(jié)構(gòu)域是蛋白質(zhì)生理功能的結(jié)構(gòu)基礎(chǔ),但必須指出的是,雖然結(jié)構(gòu)域與蛋白質(zhì)的功能關(guān)

38、系密切,但是結(jié)構(gòu)域和功能域的概念并不相同。Pfam是最權(quán)威的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫,最新版本是27.0,包括14831個PfamA結(jié)構(gòu)域(經(jīng)過人工注釋,質(zhì)量較高)及超過20000個PfamB結(jié)構(gòu)域(計(jì)算機(jī)自動注釋)。Pfam提供在線的蛋白質(zhì)結(jié)構(gòu)域搜索,其網(wǎng)址為:/ 。圖5-1 Pfam蛋白質(zhì)結(jié)構(gòu)域分析結(jié)果三、實(shí)驗(yàn)內(nèi)容(步驟) 利用Pfam分析擬南芥LEC1蛋白質(zhì)的結(jié)構(gòu)域信息。四、實(shí)驗(yàn)報告1使用的軟件/工具,實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)Punta M, Coggill PC, Eberhardt RY, Mis

39、try J, Tate J, Boursnell C, Pang N, Forslund K, Ceric G, Clements J, Heger A, Holm L, Sonnhammer EL, Eddy SR, Bateman A, Finn RD. 2012. The Pfam protein families database. Nucleic Acids Res. 40(Database issue):D290-301. 實(shí)驗(yàn)6 利用PSSpred預(yù)測蛋白質(zhì)二級結(jié)構(gòu)一、實(shí)驗(yàn)?zāi)康? 了解蛋白質(zhì)二級結(jié)構(gòu)的概念和不要類型;2 掌握PSSpred在線蛋白質(zhì)二級結(jié)構(gòu)預(yù)測工具的使用。二、實(shí)驗(yàn)

40、原理蛋白質(zhì)結(jié)構(gòu)按照不同的組織層次可分為一級結(jié)構(gòu)、二級結(jié)構(gòu)、三級結(jié)構(gòu)和四級結(jié)構(gòu)。一級結(jié)構(gòu)指蛋白質(zhì)序列;蛋白質(zhì)二級結(jié)構(gòu)(secondary structure of protein)指蛋白質(zhì)多肽鏈本身的折疊和盤繞的方式。二級結(jié)構(gòu)主要有-螺旋、-折疊、-轉(zhuǎn)角和無規(guī)卷曲。常見的二級結(jié)構(gòu)有-螺旋和-折疊。二級結(jié)構(gòu)是通過骨架上的羰基和酰胺基團(tuán)之間形成的氫鍵維持的,氫鍵是穩(wěn)定二級結(jié)構(gòu)的主要作用力;三級結(jié)構(gòu)及空間結(jié)構(gòu);有多條肽鏈的蛋白質(zhì)還有四級結(jié)構(gòu)。蛋白質(zhì)的二級結(jié)構(gòu)預(yù)測的基本依據(jù)是:每一段相鄰的氨基酸殘基具有形成一定二級結(jié)構(gòu)的傾向。因此,進(jìn)行二級結(jié)構(gòu)預(yù)測需要通過統(tǒng)計(jì)和分析發(fā)現(xiàn)這些傾向或者規(guī)律,二級結(jié)構(gòu)預(yù)測問題

41、自然就成為模式分類和識別問題。蛋白質(zhì)二級結(jié)構(gòu)的組成規(guī)律性比較強(qiáng),所有蛋白質(zhì)中約85%的氨基酸殘基處于三種基本二級結(jié)構(gòu)狀態(tài)(a螺旋、b折疊和轉(zhuǎn)角),并且各種二級結(jié)構(gòu)非均勻地分布在蛋白質(zhì)中。有些蛋白質(zhì)中含有大量的a螺旋,如血紅蛋白和肌紅蛋白;而另外一些蛋白質(zhì)中則不含或者僅含很少的a螺旋,如鐵氧蛋白;有些蛋白質(zhì)的二級結(jié)構(gòu)以b折疊為主,如免疫球蛋白。二級結(jié)構(gòu)預(yù)測的目標(biāo)是判斷每一個氨基酸殘基是否處于a螺旋、b折疊、轉(zhuǎn)角(或其它狀態(tài))之一的二級結(jié)構(gòu)態(tài),即三態(tài)。至今人們已經(jīng)發(fā)展了幾十種預(yù)測方法。蛋白質(zhì)二級結(jié)構(gòu)的預(yù)測開始于20世紀(jì)60年 代中期。二級結(jié)構(gòu)預(yù)測的方法大體分為三代,第一代是基于單個氨基酸殘基統(tǒng)計(jì)分

42、析,從有限的數(shù)據(jù)集中提取各種殘基形成特定二級結(jié)構(gòu)的傾向,以此作為二級結(jié)構(gòu) 預(yù)測的依據(jù)。第二代預(yù)測方法是基于氨基酸片段的統(tǒng)計(jì)分析,使用大量的數(shù)據(jù)作為統(tǒng)計(jì)基礎(chǔ),統(tǒng)計(jì)的對象不再是單個氨基酸殘基,而是氨基酸片段,片段的長度通常 為11-21。片段體現(xiàn)了中心殘基所處的環(huán)境。在預(yù)測中心殘基的二級結(jié)構(gòu)時,以殘基在特定環(huán)境中形成特定二級結(jié)構(gòu)的傾向作為預(yù)測依據(jù)。這些算法可以歸為幾類:(1)基于統(tǒng)計(jì)信息;(2)基于物理化學(xué)性質(zhì);(3)基于序列模式;(4)基于多層神經(jīng)網(wǎng)絡(luò);(5)基于圖論;(5)基于多元統(tǒng)計(jì);(6)基于機(jī)器學(xué)習(xí)的專家規(guī)則;(7)最鄰近算法。第一代和第二代預(yù)測方法有共同的缺陷,它們對三態(tài)預(yù)測的準(zhǔn)確率都

43、低于70%,而對b折疊預(yù)測的準(zhǔn)確率僅為2848%,其主要原因是這些方法在進(jìn)行二級結(jié)構(gòu)預(yù)測時只利用局部信息,最多只用局部的20個殘基的信息進(jìn)行預(yù)測。二級結(jié)構(gòu)預(yù)測的實(shí)驗(yàn)結(jié)果和晶體結(jié)構(gòu)統(tǒng)計(jì)分析都表明,二級結(jié)構(gòu)的形成并非完全由局域的序列片段決定,長程相互作用不容忽視。蛋白質(zhì)的二級結(jié)構(gòu)在一定程度上受遠(yuǎn)程殘基的影響,尤其是b折疊。從理論上來說,局部信息僅包含二級結(jié)構(gòu)信息的65%左右,因此,可以想象,只用局部信息的二級結(jié)構(gòu)預(yù)測方法,其準(zhǔn)確率不會有太大的提高。二級結(jié)構(gòu)預(yù)測的第三代方法運(yùn)用蛋白質(zhì)序列的長程信息和蛋白質(zhì)序列的進(jìn)化信息,使二級結(jié)構(gòu)預(yù)測的準(zhǔn)確程度有了比較大的提高,特別是對b折疊的預(yù)測準(zhǔn)確率有較大的提高

44、,預(yù)測結(jié)果與實(shí)驗(yàn)觀察趨于一致。一般75%的 氨基酸殘基可以被置換而不改變蛋白質(zhì)的結(jié)構(gòu),然而,有時改變幾個關(guān)鍵的殘基則可能導(dǎo)致破壞蛋白質(zhì)的結(jié)構(gòu)。這好像是兩個矛盾的結(jié)論,但解釋又非常簡單。一個蛋白質(zhì)在其進(jìn)化過程中探查了每個位置上氨基酸可能的與不可能的變化,不可能變化的部分是進(jìn)化保守區(qū)域??勺儾糠值淖兓桓淖兘Y(jié)構(gòu),而不可變部分的變化則改 變蛋白質(zhì)的結(jié)構(gòu),由此失去蛋白質(zhì)原有的功能,因而也就難以延續(xù)下去。這些不可變部分體現(xiàn)了蛋白質(zhì)功能對結(jié)構(gòu)的特定要求。這樣,從一個蛋白質(zhì)家族中提取的殘 基替換模式高度反映了該家族特異的結(jié)構(gòu)。通過序列的比對可以得到蛋白質(zhì)序列的進(jìn)化信息,得到蛋白質(zhì)家族中的特定殘基替換模式,此

45、外,通過序列的比對也可以 得到長程信息。目前,許多二級結(jié)構(gòu)預(yù)測的算法是基于序列比對的,通過序列比對可以計(jì)算出目標(biāo)序列(待預(yù)測其二級結(jié)構(gòu)的序列)中每個氨基酸的保守程度。對于二級結(jié)構(gòu)三態(tài)(a,b,none)預(yù)測準(zhǔn)確率首先達(dá)到70%的方法是基于統(tǒng)計(jì)的神經(jīng)網(wǎng)絡(luò)方法PHDsec。PHDsec利用通過多重序列比對得到的進(jìn)化信息作為神經(jīng)網(wǎng)絡(luò)的輸入,另外采用了一個全局的描述子,即所有氨基酸組成(20種氨基酸中每個所占的比例)作為蛋白質(zhì)序列的全局信息。這類算法預(yù)測的準(zhǔn)確率能達(dá)到70至75。各種方法預(yù)測的準(zhǔn)確率隨蛋白質(zhì)類型的不同而變化。例如,一種預(yù)測方法在某些情況下預(yù)測的準(zhǔn)確率能夠達(dá)到90%,而在最差的情況下僅達(dá)

46、到50%,甚至更低。在實(shí)際應(yīng)用中究竟使用哪一種方法,還需根據(jù)具體的情況。雖然二級結(jié)構(gòu)預(yù)測的準(zhǔn)確性有待提高,其預(yù)測結(jié)果仍然能提供許多結(jié)構(gòu)信息,尤其是當(dāng)一個蛋白質(zhì)的真實(shí)結(jié)構(gòu)尚未解出時更是如此。通過對多種方法預(yù)測結(jié)果的綜合分析,再結(jié)合實(shí)驗(yàn)數(shù)據(jù),往往可以提高預(yù)測的準(zhǔn)確度。二級結(jié)構(gòu)預(yù)測通常作為蛋白質(zhì)空間結(jié)構(gòu)預(yù)測的第一步。例如,二級結(jié)構(gòu)預(yù)測是內(nèi)部折疊、內(nèi)部殘基距離預(yù)測的基礎(chǔ)。更進(jìn)一步,二級結(jié)構(gòu)預(yù)測可以作為其它工作的基礎(chǔ)。例如,用于推測蛋白質(zhì)的功能,預(yù)測蛋白質(zhì)的結(jié)合位點(diǎn)等。三、實(shí)驗(yàn)內(nèi)容(步驟)利用蛋白質(zhì)在線二級結(jié)構(gòu)預(yù)測工具PSSpred預(yù)測擬南芥LEC1基因蛋白質(zhì)的二級結(jié)構(gòu)。四、實(shí)驗(yàn)報告1使用的軟件/工具,

47、實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)孫嘯. 2005. 生物信息學(xué)基礎(chǔ). 清華大學(xué)出版社.PSSpred. /PSSpred/實(shí)驗(yàn)7 利用Cn3D和RasMol分析蛋白質(zhì)三級結(jié)構(gòu)一、實(shí)驗(yàn)?zāi)康?. 了解常用蛋白質(zhì)三維結(jié)構(gòu)表示方法;2. 掌握軟件Cn3D和RasMol的使用方法。二、實(shí)驗(yàn)原理組成自然界中各類生命的最重要的物質(zhì)是蛋白質(zhì),了解蛋白質(zhì)的三維結(jié)構(gòu),對于了解其功能是非常重要的。RasMol是一款免費(fèi)開源軟件,可以打開pdb格式的文件,并用不同的模型顯示三維分子結(jié)構(gòu)。其作者是Glaxo&am

48、p;Wellcome公司(世界第一大制藥公司)研發(fā)中心的科學(xué)家Roger Sayle。它有適用于不同機(jī)器、不同操作系統(tǒng)的各種版本。從PC機(jī)到Macintosh(蘋果)機(jī),從DOS到WINDOWS到UNIX系統(tǒng),均有不同的版本可以運(yùn)行。RasMol最大的特點(diǎn)是界面簡單,基本操作簡單,運(yùn)行非常迅速,對機(jī)器的要求較低,對小的有機(jī)分子與大分子,如蛋白質(zhì)、DNA或RNA, 均能適用,且顯示模式非常豐富。以前同類的分子圖形軟件,對計(jì)算機(jī)硬件的要求非常高,常常要求的硬件環(huán)境為圖形工作站,雖然功能較多,但作為商業(yè)軟件,自身價格極為昂貴,所以,只能為少數(shù)擁有大量科研經(jīng)費(fèi)的科研單位的科研人員所用。RasMol則克

49、服了這些缺點(diǎn),使任何一個人,應(yīng)用普通廉價的計(jì)算機(jī),為了科研、出版甚至僅僅為了教育的目的,就可以方便地顯示一個分子的微觀三維立體結(jié)構(gòu)(圖7-1)。圖7-1 RasMol軟件界面Cn3D軟件是由NCBI開發(fā)的用于觀看蛋白質(zhì)三維結(jié)構(gòu)的軟件,其設(shè)計(jì)的主要目的是為NCBI在其站點(diǎn)中的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫MMDB提供專業(yè)的結(jié)構(gòu)觀察軟件,其主要的操作界面分為兩個窗口,一個為結(jié)構(gòu)窗口,另一個為序列窗口。與其他的類似的軟件,如Rasmol,Weblabview等相比,其在結(jié)構(gòu)觀察方面主要功能上基本相似,但是圖形格式上比Rasmol和Weblabview要差一些。而在與網(wǎng)絡(luò)連接上,該軟件能依托NCBI所建立的所建立的

50、MMDB結(jié)構(gòu)數(shù)據(jù)庫,能直接根據(jù)輸入的序列號從數(shù)據(jù)庫中利用其內(nèi)嵌的Entrez搜索引擎調(diào)出蛋白結(jié)構(gòu)來進(jìn)行觀察,比其他軟件要簡便。而Cn3D主要的特點(diǎn)是能夠?qū)蓚€蛋白放在一起直觀地進(jìn)行三維結(jié)構(gòu)上的比較,Cn3D也能利用其內(nèi)嵌的Blast搜索引擎直接訪問Genbank數(shù)據(jù)庫(圖7-2)。圖7-2 Cn3D軟件界面三、實(shí)驗(yàn)內(nèi)容(步驟)1 從PDB數(shù)據(jù)庫下載NF-Y(也叫CBF,CCAAT-binding Factor,包含NF-YA,NF-YB,NF-YC三個亞基)蛋白質(zhì)的pdb格式文件。2利用RasMol軟件分析蛋白質(zhì)結(jié)構(gòu),改變并比較顯示的方式和顏色。3. 在NCBI Structure數(shù)據(jù)庫中查找

51、組蛋白(Histone,pfam0012)的三維結(jié)構(gòu),并在Cn3D中打開。四、實(shí)驗(yàn)報告1使用的軟件/工具,實(shí)驗(yàn)步驟,結(jié)果文件記錄/截圖;2實(shí)驗(yàn)中遇到的問題,如何解決的。五、參考文獻(xiàn)Sayle, R. and Bissell, A. (1992). RasMol: A Program for Fast Realistic Rendering of Molecular Structures with Shadows, in Proceedings of the 10th Eurographics UK '92 Conference, University of Edinburgh, Scotland生物谷. 觀察生物分子的窗口RasMol 2.6(實(shí)驗(yàn)8 利用GO及EST數(shù)據(jù)分析基因功能一、實(shí)驗(yàn)?zāi)康?. 了解蛋白質(zhì)結(jié)構(gòu)表示方法2. 掌握軟件RasMol的使用方法二、實(shí)驗(yàn)原理只要是編碼基因,則一定在體內(nèi)發(fā)揮某一種功能,如果一群基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論