版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
生物信息學(xué)的應(yīng)用當(dāng)前第1頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)生物信息學(xué)(Bioinformatics)生物分子數(shù)據(jù)計(jì)算機(jī)計(jì)算+當(dāng)前第2頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)概念(廣義)生物體系和過(guò)程中信息的存貯、傳遞和表達(dá)細(xì)胞、組織、器官的生理、病理藥理過(guò)程的中各種生物信息信息科學(xué)生命科學(xué)中的信息科學(xué)
當(dāng)前第3頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)概念(狹義)生物分子數(shù)據(jù)深層次生物學(xué)知識(shí)分子生物信息學(xué)MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用當(dāng)前第4頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)生物信息學(xué)主要研究?jī)煞N信息載體DNA分子蛋白質(zhì)分子當(dāng)前第5頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)生物分子至少攜帶著三種信息遺傳信息與功能相關(guān)的結(jié)構(gòu)信息進(jìn)化信息當(dāng)前第6頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
第一節(jié)生物信息學(xué)與基因組學(xué)一、生物信息學(xué)概述(一)生物信息學(xué)發(fā)展簡(jiǎn)史生物信息學(xué)發(fā)展的3個(gè)階段:前基因組時(shí)代基因組時(shí)代后基因組時(shí)代生物信息學(xué)的發(fā)展脈絡(luò):
1956年,在美國(guó)田納西州蓋特林堡(Gatlinburg)召開(kāi)的首次“生物學(xué)中的信息理論研討會(huì)”上,孕育了生物信息學(xué)的概念.1987年,佛羅里達(dá)州立大學(xué)32歲的林華安()博士首創(chuàng)“Bioinformatics”一詞,被譽(yù)為“世界生物信息之父”。當(dāng)前第7頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)1990年,林華安博士發(fā)起第一屆國(guó)際Bioinformatics學(xué)術(shù)會(huì)議。1990年10月,被譽(yù)為生命科學(xué)“阿波羅登月計(jì)劃”的國(guó)際人類基因組計(jì)劃(HGP)啟動(dòng)。1995年,美國(guó)人類基因組計(jì)劃第一個(gè)五年總結(jié)報(bào)告中給出生物信息學(xué)一個(gè)較為完整的定義。2000年6月26日,美、英、日、德、法、中等六國(guó)科學(xué)家共同努力,完成人類基因組工作草圖,這是人類科學(xué)史上又一個(gè)里程碑式的事件。
2003年4月14日,國(guó)際人類基因組測(cè)序組隆重宣布:美、英、日、德、法和中國(guó)科學(xué)家歷經(jīng)13年共同努力,人類基因組序列圖(“完成圖”)提前繪制成功。人類邁入“后基因組時(shí)代”(Post-genomicEra)。當(dāng)前第8頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(二)生物信息學(xué)的主要研究?jī)?nèi)容1.生物信息的收集、存儲(chǔ)、管理與提供2.基因組序列信息的提取和分析3.功能基因組相關(guān)信息分析4.基因表達(dá)數(shù)據(jù)的分析與處理5.蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)當(dāng)前第9頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)基因組數(shù)據(jù)庫(kù)
蛋白質(zhì)序列數(shù)據(jù)庫(kù)
蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)
DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子數(shù)據(jù)的收集與管理當(dāng)前第10頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)2、數(shù)據(jù)庫(kù)搜索及序列比較搜索同源序列在一定程度上就是通過(guò)序列比較尋找相似序列序列比較的一個(gè)基本操作就是比對(duì)(Alignment),即將兩個(gè)序列的各個(gè)字符(代表核苷酸或者氨基酸殘基)按照對(duì)應(yīng)等同或者置換關(guān)系進(jìn)行對(duì)比排列,其結(jié)果是兩個(gè)序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對(duì)研究的是多個(gè)序列的共性。序列的多重比對(duì)可用來(lái)搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系。當(dāng)前第11頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)發(fā)現(xiàn)同源分子當(dāng)前第12頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)3、基因組序列分析遺傳語(yǔ)言分析——天書(shū)基因組結(jié)構(gòu)分析基因識(shí)別基因功能注釋基因調(diào)控信息分析基因組比較當(dāng)前第13頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)4、基因表達(dá)數(shù)據(jù)的分析與處理基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點(diǎn)和重點(diǎn)目前對(duì)基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能
當(dāng)前第14頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)基因芯片當(dāng)前第15頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)二維電泳圖當(dāng)前第16頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)5、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)成為了解蛋白質(zhì)功能的重要途徑蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)分為:二級(jí)結(jié)構(gòu)預(yù)測(cè)空間結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)折疊當(dāng)前第17頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)二級(jí)結(jié)構(gòu)預(yù)測(cè)在一定程度上二級(jí)結(jié)構(gòu)的預(yù)測(cè)可以歸結(jié)為模式識(shí)別問(wèn)題
在二級(jí)結(jié)構(gòu)預(yù)測(cè)方面主要方法有:立體化學(xué)方法圖論方法統(tǒng)計(jì)方法最鄰近決策方法基于規(guī)則的專家系統(tǒng)方法分子動(dòng)力學(xué)方法人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)準(zhǔn)確率超過(guò)70%的第一個(gè)軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)當(dāng)前第18頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)空間結(jié)構(gòu)預(yù)測(cè)在空間結(jié)構(gòu)預(yù)測(cè)方面,比較成功的理論方法是同源模型法該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu)運(yùn)用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測(cè)工作當(dāng)前第19頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(三)生物信息學(xué)研究現(xiàn)狀與展望
1.國(guó)外生物信息學(xué)研究現(xiàn)狀2.我國(guó)生物信息學(xué)研究現(xiàn)狀3.我國(guó)生物信息學(xué)研究目標(biāo)
實(shí)現(xiàn)基因組數(shù)據(jù)、蛋白質(zhì)組和結(jié)構(gòu)基因組數(shù)據(jù)、天然及合成化合物數(shù)據(jù)的計(jì)算機(jī)處理、分析和可視化,以及生物實(shí)驗(yàn)和生物分子的模擬設(shè)計(jì),解析蛋白質(zhì)三維結(jié)構(gòu)和蛋白質(zhì)組的時(shí)空表達(dá)關(guān)系等當(dāng)前第20頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)蛋白質(zhì)研究為生物信息學(xué)提供了極為豐富的研究數(shù)據(jù),極大地推動(dòng)了生物信息學(xué)的發(fā)展。生物信息學(xué)在蛋白質(zhì)的序列分析、結(jié)構(gòu)預(yù)測(cè)、功能預(yù)測(cè)、分子設(shè)計(jì)等方面具有重要應(yīng)用。二、生物信息學(xué)與蛋白質(zhì)
當(dāng)前第21頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
序列比對(duì)是生物信息學(xué)的基礎(chǔ),通過(guò)比較兩個(gè)或多個(gè)蛋白質(zhì)序列的相似區(qū)域和保守性位點(diǎn),確定相互間具有共同功能的序列模式和分子進(jìn)化關(guān)系,進(jìn)一步分析其結(jié)構(gòu)和功能。把未知結(jié)構(gòu)的蛋白質(zhì)序列與已知具有三維結(jié)構(gòu)的蛋白質(zhì)序列進(jìn)行序列比對(duì),有助于進(jìn)一步了解該未知結(jié)構(gòu)蛋白質(zhì)的空間折疊信息(一)蛋白質(zhì)序列分析當(dāng)前第22頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(二)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)內(nèi)容二級(jí)結(jié)構(gòu)預(yù)測(cè)三維結(jié)構(gòu)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法
理論分析方法:是在理論計(jì)算的基礎(chǔ)上進(jìn)行結(jié)構(gòu)預(yù)測(cè)。統(tǒng)計(jì)分析方法:是在對(duì)已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,建立由序列到結(jié)構(gòu)的映射模型,對(duì)未知結(jié)構(gòu)的蛋白質(zhì)直接從氨基酸序列預(yù)測(cè)其結(jié)構(gòu)。當(dāng)前第23頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
是否未知蛋白序列與已知功能的蛋白質(zhì)相似確定跨膜螺旋、卷曲螺旋和前導(dǎo)序列未知序列是否包含保守序列模體查對(duì)PROSITE數(shù)據(jù)庫(kù)庫(kù)查對(duì)BLOCKS和PRINTS數(shù)據(jù)庫(kù)整理所有肯定的結(jié)果并核對(duì)一致性預(yù)測(cè)蛋白質(zhì)功能蛋白質(zhì)功能預(yù)測(cè)流程圖(三)蛋白質(zhì)功能預(yù)測(cè)(引自HPDB蛋白質(zhì)數(shù)據(jù)庫(kù)()當(dāng)前第24頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(四)蛋白質(zhì)分子設(shè)計(jì)蛋白質(zhì)分子設(shè)計(jì)類型:按照被改造部位的多少可以分為“小改”、“中改”和“大改”三種。
“小改”:即通過(guò)對(duì)目標(biāo)蛋白質(zhì)進(jìn)行定位突變或化學(xué)修飾改變其結(jié)構(gòu)和功能?!爸懈摹保杭赐ㄟ^(guò)對(duì)來(lái)源于不同蛋白質(zhì)的結(jié)構(gòu)域進(jìn)行拼接和組裝,從而較大程度的改變其結(jié)構(gòu)和功能?!按蟾摹保杭赐耆珡念^設(shè)計(jì)出一種具有特異結(jié)構(gòu)與功能的全新蛋白質(zhì)。當(dāng)前第25頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)常用的數(shù)據(jù)庫(kù)有:核酸序列數(shù)據(jù)庫(kù)(NucleotideSequenceDatabases)RNA序列數(shù)據(jù)庫(kù)(RNAsequencedatabases)蛋白質(zhì)序列數(shù)據(jù)庫(kù)(Proteinsequencedatabases)結(jié)構(gòu)數(shù)據(jù)庫(kù)(StructureDatabases)基因組數(shù)據(jù)庫(kù)(GenomicsDatabases(non-vertebrate))代謝酶相關(guān)產(chǎn)物(MetabolicandSignalingPathways)人類和其他脊椎動(dòng)物基因組(HumanandotherVertebrateGenomes)人類基因和疾?。℉umanGenesandDiseases)芯片和其他基因表達(dá)數(shù)據(jù)庫(kù)(MicroarrayDataandotherGeneExpressionDatabases);蛋白組資源(ProteomicsResources);其他分子生物學(xué)數(shù)據(jù)庫(kù)(OtherMolecularBiologyDatabases)細(xì)胞器官數(shù)據(jù)庫(kù)(Organelledatabases);植物數(shù)據(jù)庫(kù)(Plantdatabases);免疫學(xué)數(shù)據(jù)庫(kù)(Immunologicaldatabases)第二節(jié)常用數(shù)據(jù)庫(kù)當(dāng)前第26頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)生物信息學(xué)數(shù)據(jù)庫(kù)類型一次數(shù)據(jù)庫(kù):數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),僅對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的歸類整理和注釋。如Genbank、EMBL和DDBJ等核酸序列數(shù)據(jù)庫(kù);SWISS-PROT、PIR等蛋白質(zhì)序列數(shù)據(jù)庫(kù);PDB等蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)。二次數(shù)據(jù)庫(kù):針對(duì)不同的研究?jī)?nèi)容和需要在一次數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上對(duì)相關(guān)生物學(xué)知識(shí)和信息進(jìn)行進(jìn)一步分析和整理。如人類基因組圖譜庫(kù)GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫(kù)TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫(kù)SCOP等。當(dāng)前第27頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-2生物信息學(xué)數(shù)據(jù)庫(kù)相互關(guān)系生物信息學(xué)數(shù)據(jù)庫(kù)相互關(guān)系當(dāng)前第28頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)常用數(shù)據(jù)庫(kù)類型名稱網(wǎng)址核酸序列一次數(shù)據(jù)庫(kù)Genebank/Genbank/EMBLhttp://www.ebi.ac.uk/embl/DDBJhttp://www.ddbj.nig.ac.jp/Welcome.html.ja/基因組一次數(shù)據(jù)庫(kù)GDB/蛋白質(zhì)序列一次數(shù)據(jù)庫(kù)SWISS-PROT/sprot/PIR/TrEMBLhttp://www.ebi.ac.uk/trembl/UniProt/index.shtml/MIPShttp://mips.gsf.de/GenPept/pub/genpept/NRL-3D/general/software/packages/nrl_3d/nrl_3d.html/復(fù)合數(shù)據(jù)庫(kù)NRDBhttp://www.nrdb.co.uk/OWLhttp://www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROT+TrEMBLhttp://www.ebi.ac.uk/clustr/
二次數(shù)據(jù)庫(kù)PROSITE/prosite/PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKS/Pfamhttp://pfam.sanger.ac.uk/IDENTIFY/identify/COGs/COG/ProDomhttp://www.toulouse.inra.fr/prodom.html/當(dāng)前第29頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)結(jié)構(gòu)一次數(shù)據(jù)庫(kù)PDB/pdb/home/home.doMMDB/Structure/MMDB/mmdb.shtml/
二次數(shù)據(jù)庫(kù)DSSPhttp://www.sander.embl-heidelberg.de/dssp/HSSPhttp://www.sander.embl-heidelberg.de/hssp/FSSPhttp://www.ebi.ac.uk/dali/fssp/PSdb/~geigel/PSdb/PSdb.html/
結(jié)構(gòu)分類SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/CATH/latest/index.html/PDBsumhttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/分類二次數(shù)據(jù)庫(kù)ProtoMap蛋白質(zhì)組
蛋白質(zhì)組
氨基酸索引AAindexhttp://www.genome.ad.jp/dbget/蛋白質(zhì)間功能關(guān)系Predictome/蛋白質(zhì)組分析ProteomeAnalysishttp://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二維凝膠電泳GELBANK/SWISS-2DPAGE/ch2d/酵母蛋白質(zhì)定位YPL.dbhttp://ypl.tugraz.at/模式生物蛋白質(zhì)組BioknowledgeLibrnary/pages/index.php?id=home/當(dāng)前第30頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
一、核酸數(shù)據(jù)庫(kù)
(一)核酸序列數(shù)據(jù)庫(kù)目前,國(guó)際上主要有Genbank、EMBL、DDBJ三大核酸序列數(shù)據(jù)庫(kù),三大核酸數(shù)據(jù)庫(kù)之間每天相互交換數(shù)據(jù),保持?jǐn)?shù)據(jù)同步更新。當(dāng)前第31頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)1.Genbank
Genbank由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)建立維護(hù),其主頁(yè)如圖6-3所示。當(dāng)前第32頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)Genbank數(shù)據(jù)直接來(lái)源測(cè)序工作者提交的序列、測(cè)序中心提交的大量EST序列、其它測(cè)序數(shù)據(jù)以及與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù)。Genbank內(nèi)容所有已知的核酸序列和蛋白質(zhì)序列,還包括對(duì)序列的簡(jiǎn)要描述、科學(xué)命名、物種分類名稱、參考文獻(xiàn)、序列特征表等輔助信息。Genbank對(duì)數(shù)據(jù)記錄的處理劃分為細(xì)菌類、病毒類、靈長(zhǎng)類、嚙齒類,EST數(shù)據(jù)、基因組測(cè)序數(shù)據(jù)、大規(guī)?;蚪M序列數(shù)據(jù)等16類。當(dāng)前第33頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(1)Genbank數(shù)據(jù)檢索
通過(guò)NCBI首頁(yè)“Search”選項(xiàng)中的“gene”或“Nucleotide”等選項(xiàng),在檢索窗口輸入檢索詞進(jìn)行直接檢索;利用NCBI網(wǎng)站的綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)Entrez提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能進(jìn)行精細(xì)檢索圖6-4NCBI-Entrzgene檢索界面當(dāng)前第34頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)當(dāng)前第35頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)Entrez綜合生物信息數(shù)據(jù)庫(kù)檢索系統(tǒng)將核酸序列、蛋白質(zhì)序列、基因圖譜、蛋白質(zhì)結(jié)構(gòu)等數(shù)據(jù)庫(kù)整合在一起。而且可以通過(guò)其生物醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)庫(kù)(MEDLINE),獲取序列相關(guān)的文獻(xiàn)信息。可以利用Entrezcross-database數(shù)據(jù)庫(kù)進(jìn)行綜合信息檢索(圖6-5)。圖6-5NCBI-Entrezcross-database檢索界面當(dāng)前第36頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)EntrezEntrez,TheLifeSciencesSearchEngine當(dāng)前第37頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)PubMed:
biomedicalliteraturecitationsandabstracts
是一個(gè)醫(yī)學(xué)文獻(xiàn)網(wǎng)絡(luò)搜索界面
BLAST(BasicLocalAlignmentsearchTool)
是DNA或氨基酸序列比對(duì)分析的重要軟件當(dāng)前第38頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
OMIM:
onlineMendelianInheritanceinMan人類孟德?tīng)栠z傳數(shù)據(jù)庫(kù)在線
Books:
onlinebooks當(dāng)前第39頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
TaxBrowser:Taxonomybrowser分類瀏覽器Structure:該目錄下最重要的資源是分子模型數(shù)據(jù)庫(kù)MMDB及Cn3D生物大分子三維模型查看軟件
當(dāng)前第40頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)EMBL和GenBank數(shù)據(jù)庫(kù)識(shí)別標(biāo)志EMBL識(shí)別標(biāo)志GenBank識(shí)別標(biāo)志含義IDLOCUS標(biāo)識(shí)字符串及短描述字XX為閱讀清晰而加的空行ACACCESSION唯一的提取號(hào)SVVERSION序列版本號(hào)DTDATE建立日期DEDEFINITION簡(jiǎn)單的描述KWKEYWORDS關(guān)鍵字OSSOURCE來(lái)源生物體OCORGANISM生物體分類譜系RNREFERENCE引文編號(hào)RCREMARK引文注釋RP其他注釋RXMEDLINEMEDLINE引文代碼當(dāng)前第41頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)RAAUTHORS引文作者RTTITLE引文題目RLJOURNAL引文出處CCCOMMENT評(píng)注DR相關(guān)數(shù)據(jù)庫(kù)交叉引用號(hào)FHFEATURES特性表頭FT特征表SQEMBL序列開(kāi)始,后跟長(zhǎng)度、字母數(shù)BASECOUNTGeneBank堿基數(shù)ORIGINGeneBank序列開(kāi)始標(biāo)志,為空行////序列結(jié)束標(biāo)志當(dāng)前第42頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)GenBank核酸數(shù)據(jù)庫(kù)實(shí)例
以人畜共患的病源菌鼠傷寒沙門(mén)氏菌(Salmonellatyphimurium)H1相抗原基因H-1-i為例,簡(jiǎn)要說(shuō)明GenBank核酸數(shù)據(jù)庫(kù)的數(shù)據(jù)格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITIONSalmonellatyphimuriumH-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof
Salmonella
typhimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列標(biāo)識(shí)簡(jiǎn)單描述序列編號(hào)版本號(hào)關(guān)鍵詞物種來(lái)源物種分類引文編號(hào)引文作者引文標(biāo)題引文出處當(dāng)前第43頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)COMMENTOriginalsourcetext:S.typhimuriumSL877DNA.Draftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1..1485/organism="Salmonella
typhimurium"/mol_type="genomicDNA"/db_xref="taxon:602"CDS13..1485/note="phase-1flagellarfilamentprotein"/codon_start=1/transl_table=11/protein_id="AAA27072.1"/db_xref="GI:153979"評(píng)注特征表編碼區(qū)當(dāng)前第44頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)/translation="MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR"ORIGIN98bpupstreamofTaqIsite.1aaggaaaagatcatggcacaagtcattaatacaaacagcctgtcgctgttgacccagaat61aacctgaacaaatcccagtccgctctgggcaccgctatcgagcgtctgtcttccggtctg121cgtatcaacagcgcgaaagacgatgcggcaggtcaggcgattgctaaccgttttaccgcg181aacatcaaaggtctgactcaggcttcccgtaacgctaacgacggtatctccattgcgcag241accactgaaggcgcgctgaacgaaatcaacaacaacctgcagcgtgtgcgtgaactggcg301gttcagtctgctaacagcaccaactcccagtctgacctcgactccatccaggctgaaatc蛋白序列基因序列當(dāng)前第45頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)361acccagcgtctgaacgaaatcgaccgtgtaaatggccagactcagttcagcggcgtgaaa421gtcctggcgcaggacaacaccctgaccatccaggttggtgccaacgacggtgaaactatc481gatatcgatctgaagcagatcaactctcagaccctgggtctggatacgctgaatgtgcaa541caaaaatataaggtcagcgatacggctgcaactgttacaggatatgccgatactacgatt601gctttagacaatagtacttttaaagcctcggctactggtcttggtggtactgacgagaaa661attgatggcgatttaaaatttgatgatacgactggaaaatattacgccaaagttaccgtt721acggggggaactggtaaagatggctattatgaagtttccgttgataagacgaacggtgag781gtgactcttgctgcggtcactcccgctacagtgactactgcgacagcactgagtggaaaa841atgtacagtgcaaatcctgattctgacatagctaaagccgcattgacagcagcaggtgtt901accggcacagcatctgttgttaagatgtcttatactgataataacggtaaaactattgat961ggtggtttagcagttaaggtaggcgatgattactattctgcaactcaagataaagatggt1021tccataagtattgatactacgaaatacactgcagataacggtacatccaaaactgcacta1081aacaaactgggtggcgcagacggcaaaaccgaagtcgttactatcgacggtaaaacctac1141aatgccagcaaagccgctggtcatgatttcaaagcagaaccagagctggcggaacaagcc1201gctaaaaccaccgaaaacccgctgcagaaaattgatgctgctttggcacaggttgacacg1261ttacgttctgacctgggtgcggtacagaaccgtttcaactccgctattaccaacctgggc1321aacaccgtaaacaacctgtcttctgcccgtagccgtatcgaagattccgactacgcgacc1381gaagtctccaacatgtctcgcgcgcagattctgcagcaggccggtacctccgttctggcg1441caggcgaaccaggttccgcaaaacgtcctctctttactgcgttaa//
記錄結(jié)束當(dāng)前第46頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
少量序列利用BankIt提交,大量序列利用Sequin程序進(jìn)行提交。NCBI網(wǎng)站提供數(shù)據(jù)查詢、序列相似性搜索等服務(wù),從其FTP服務(wù)器上可免費(fèi)下載Genbank數(shù)據(jù)。NCBI網(wǎng)址:http:///BankIt網(wǎng)址:http:///Sequin網(wǎng)址:http:///Sequin/Genebank網(wǎng)址:Entrezgene網(wǎng)址:
Entrezcross-database網(wǎng)址:(2)向Genbank提交序列數(shù)據(jù)當(dāng)前第47頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)EMBL核酸序列數(shù)據(jù)庫(kù)創(chuàng)建于1982年,由歐洲生物信息學(xué)研究所(EBI)管理維護(hù)。使用序列提取系統(tǒng)(SRS)進(jìn)行查詢檢索,利用基于網(wǎng)絡(luò)的WEBIN工具,或利用Sequin軟件向EMBL核酸序列數(shù)據(jù)庫(kù)提交序列。
EMBL網(wǎng)址:http:///SRS的網(wǎng)址:http:///WEBIN網(wǎng)址:/Sequin網(wǎng)址:2.EMBL核酸序列數(shù)據(jù)庫(kù)
當(dāng)前第48頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)DDBJ核酸序列數(shù)據(jù)庫(kù)創(chuàng)建于1986年,由日本國(guó)家遺傳學(xué)研究所負(fù)責(zé)維護(hù)和管理。使用SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析,利用Sequin軟件向該數(shù)據(jù)庫(kù)提交序列。為方便檢索DDBJ主頁(yè)可進(jìn)行日文和英文互換。DDBJ的日文版網(wǎng)址:/DDBJ的英文版網(wǎng)址:/3.DDBJ數(shù)據(jù)庫(kù)當(dāng)前第49頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
(二)基因組數(shù)據(jù)庫(kù)GDB
基因組數(shù)據(jù)庫(kù)(GDB)創(chuàng)建于1990年,是一個(gè)專門(mén)匯集人類基因組數(shù)據(jù)的數(shù)據(jù)庫(kù),以對(duì)象模型來(lái)保存數(shù)據(jù),提供基于網(wǎng)絡(luò)的數(shù)據(jù)對(duì)象檢索服務(wù),可搜索各種類型的對(duì)象,并以圖形方式觀看基因組圖譜。GDB的網(wǎng)址是:http:///當(dāng)前第50頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(一)蛋白質(zhì)序列數(shù)據(jù)庫(kù)常用的蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。
1.SWISS-PROTSWISS-PROT數(shù)據(jù)庫(kù)提供蛋白質(zhì)序列查詢及相似蛋白質(zhì)序列搜索等服務(wù)。
二、蛋白質(zhì)數(shù)據(jù)庫(kù)當(dāng)前第51頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-6Swiss-Prot數(shù)據(jù)庫(kù)網(wǎng)站主頁(yè)當(dāng)前第52頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)SWISS-PROT數(shù)據(jù)庫(kù)內(nèi)容
核心數(shù)據(jù):包括蛋白質(zhì)序列、引用文獻(xiàn)、分類信息等。注釋:包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、與其它蛋白質(zhì)的相似性等。SWISS-PROT將廣泛收集的相關(guān)數(shù)據(jù)進(jìn)行合并,且與蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB)等其他數(shù)據(jù)庫(kù)交互索引。通過(guò)SWISS-PROT數(shù)據(jù)庫(kù)可以得到某蛋白質(zhì)的序列,再通過(guò)交互引用從PDB數(shù)據(jù)庫(kù)得到其結(jié)構(gòu)。SWISS-PROT數(shù)據(jù)由數(shù)據(jù)行排列組成,數(shù)據(jù)格式與EMBL數(shù)據(jù)庫(kù)數(shù)據(jù)格式基本相同(見(jiàn)表6-3)。當(dāng)前第53頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)表6-3SWISS-PORT數(shù)據(jù)庫(kù)的行識(shí)別標(biāo)志及含義中止符號(hào)Terminationline//序列標(biāo)頭SequenceheaderSQ特征表FeaturetabledataFT關(guān)鍵詞KeywordsKW交叉引用數(shù)據(jù)庫(kù)Databasecross-referenceDR評(píng)注或注釋CommentsornotesCC引文出處ReferencelocationRL引文標(biāo)題ReferencetileRT引文作者ReferenceauthorsRA交叉引用Cross-referenceRX相關(guān)內(nèi)容ReferencecommentsRC引文位置ReferencepositionRP引文序號(hào)ReferencenumberRN物種分類OrganismclassificationOC來(lái)源細(xì)胞器OrganelleOG來(lái)源物種OrganismspeciesOS基因名稱Genename(s)GN描述DescriptionDE登錄日期或最后更新日期DateDT序列編號(hào)AccessionNumberAC標(biāo)識(shí)號(hào)IdentificationID含義全稱縮寫(xiě)當(dāng)前第54頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)以鼠傷寒沙門(mén)氏菌SalmonellatyphimuriumH1-i基因編碼的鞭毛蛋白FLIC_SALTY為例介紹SWISS-PORT數(shù)據(jù)庫(kù)的數(shù)據(jù)格式。當(dāng)前第55頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)IDFLIC_SALTYReviewed;495AA.ACP06179;P97160;Q02871;Q56088;DT01-JAN-1988,integratedintoUniProtKB/Swiss-Prot.DT23-JAN-2007,sequenceversion4.DT24-JUL-2007,entryversion69.DEFlagellin(Phase1-Iflagellin).GNName=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OSSalmonellatyphimurium.OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OXNCBI_TaxID=602;RN[1]RPNUCLEOTIDESEQUENCE[GENOMICDNA].RXMEDLINE=86059460;PubMed=2999134;RAJoysT.M.;RT"Thecovalentstructureofthephase-1flagellarfilamentproteinofSalmonellatyphimuriumanditscomparisonwithotherflagellins.";RLJ.Biol.Chem.260:15758-15761(1985).序列標(biāo)識(shí)序列編號(hào)登錄日期描述基因名稱來(lái)源物種物種分類物種分類號(hào)引文序號(hào)引文位置交叉引用引文作者引文標(biāo)題引文出處SWISS-PROT數(shù)據(jù)庫(kù)條目實(shí)例當(dāng)前第56頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)RN[9]RPNUCLEOTIDESEQUENCE[GENOMICDNA]OF476-495.RCSTRAIN=LT2/ATCC23564;……CC-!-FUNCTION:Flagellinisthesubunitproteinwhichpolymerizestoformthefilamentsofbacterialflagella.CC-!-MISCELLANEOUS:IndividualSalmonellaserotypesusuallyalternatebetweentheproductionof2antigenicformsofflagella,termedphase1andphase2,eachspecifiedbyseparatestructuralgenes,fliCandfljB.CC-!-SIMILARITY:Belongstothebacterialflagellinfamily.CCDREMBL;M11332;AAA27072.1;-;Genomic_DNA.DREMBL;D13689;BAA02846.1;-;Genomic_DNA.DREMBL;AE008787;AAL20871.1;-;Genomic_DNA.DREMBL;X51740;CAA36029.1;-;Genomic_DNA.DREMBL;J01801;AAA27074.1;-;Genomic_DNA.DRPIR;A24262;A24262.DRPIR;S16121;S16121.DRPDB;1IO1;X-ray;A=54-451.DRPDB;1P95;Model;A=57-451.DRPDB;1UCU;EM;A=1-495.相關(guān)內(nèi)容評(píng)注功能其他特性
相似性交叉引用數(shù)據(jù)庫(kù)EMBL核酸序列數(shù)據(jù)庫(kù)PIR蛋白序列數(shù)據(jù)庫(kù)
PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)當(dāng)前第57頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)PE1:Evidenceatproteinlevel;KW3D-structure;Completeproteome;Flagellum.FTINIT_MET11Removed(Bysimilarity).FTCHAIN2495Flagellin.FT/FTId=PRO_0000182578.FTCONFLICT127127S->N(inRef.1).FTCONFLICT133133N->S(inRef.1).……FTHELIX332FTTURN3739FTHELIX4498關(guān)鍵詞特征表不同來(lái)源數(shù)據(jù)庫(kù)的沖突位點(diǎn)二級(jí)結(jié)構(gòu)信息當(dāng)前第58頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)SQSEQUENCE495AA;51612MW;4BD7849FA3B936BACRC64;MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR//序列標(biāo)頭蛋白質(zhì)序列記錄結(jié)束當(dāng)前第59頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)2.PIR
PIR的子數(shù)據(jù)庫(kù):蛋白質(zhì)序列數(shù)據(jù)庫(kù)(PIR-PSD)蛋白質(zhì)分類數(shù)據(jù)庫(kù)(iProClass)非冗余的蛋白質(zhì)參考資料數(shù)據(jù)庫(kù)(PIR-NREF)PIR數(shù)據(jù)庫(kù)按照數(shù)據(jù)性質(zhì)和注釋層次分四個(gè)部分:PIR1序列已經(jīng)驗(yàn)證,注釋最為詳盡;PIR2為尚未確定的冗余序列;PIR3序列既未檢驗(yàn),也未注釋;PIR4序列來(lái)自其它渠道,既未驗(yàn)證,也無(wú)注釋。美國(guó)國(guó)家生物醫(yī)學(xué)研究基金會(huì)與國(guó)際蛋白質(zhì)信息中心(PIR-International)共同維護(hù)。PIR是第一個(gè)蛋白質(zhì)分類和功能注釋數(shù)據(jù)庫(kù)當(dāng)前第60頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
PIR作用:提供基于文本的交互式檢索、序列相似性搜索以及結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)檢索。PIR網(wǎng)址:http:///當(dāng)前第61頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)3.TrEMBL是一個(gè)經(jīng)計(jì)算機(jī)注釋的蛋白質(zhì)數(shù)據(jù)庫(kù),采用SWISS-PROT數(shù)據(jù)庫(kù)格式。主要包含從EMBL/Genbank/DDBJ三大核酸數(shù)據(jù)庫(kù)中根據(jù)編碼序列翻譯的、尚未集成到SWISS-PROT數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列。TrEMBL為SWISS-PROT數(shù)據(jù)庫(kù)及時(shí)提供補(bǔ)充。TrEMBL網(wǎng)址:http:///當(dāng)前第62頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)4.UniProtUniProt將SWISS-PROT、PIR、TrEMBL三個(gè)數(shù)據(jù)庫(kù)合并。通過(guò)文本檢索、序列相似檢索以及UniProtFtp網(wǎng)站可獲得蛋白質(zhì)序列。如圖6-7所示圖6-7UniProt網(wǎng)站主頁(yè)當(dāng)前第63頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)UniProt包含UniProtKB、UniRef和UniParc3個(gè)部分:(1)UniProtKB數(shù)據(jù)庫(kù)(UniProtKnowledgebase):蛋白質(zhì)序列、功能、分類、交叉引用等信息存取中心;(2)UniRef數(shù)據(jù)庫(kù)(UniProtReferenceClusters):為提高檢索的速度,將緊密相關(guān)的蛋白質(zhì)序列合并到同一條記錄中。目前,根據(jù)序列相似程度可將UniRef數(shù)據(jù)庫(kù)分為UniRef100、UniRef90和UniRef503個(gè)子庫(kù)(3)UniParc(UniProtArchive):儲(chǔ)存大量蛋白質(zhì)研究的歷史信息。當(dāng)前第64頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)利用UniProt可方便的進(jìn)行蛋白質(zhì)序列的交互檢索,SalmonellatyphimuriumH-1項(xiàng)鞭毛蛋白P06176的UniProt檢索截圖如下。UniProt網(wǎng)址:http://當(dāng)前第65頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-8核心數(shù)據(jù)當(dāng)前第66頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-9核心數(shù)據(jù)(續(xù))、引用文獻(xiàn)與評(píng)注當(dāng)前第67頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-10交互檢索與關(guān)鍵詞當(dāng)前第68頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-11特征表與序列信息當(dāng)前第69頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)5.GenPept數(shù)據(jù)庫(kù)GenPept數(shù)據(jù)庫(kù)特點(diǎn)由Genebank數(shù)據(jù)庫(kù)的核酸序列經(jīng)翻譯后產(chǎn)生。GenPept數(shù)據(jù)量大,隨核酸數(shù)據(jù)庫(kù)的更新而更新,但未經(jīng)實(shí)驗(yàn)證實(shí),也未有詳細(xì)注釋。
GenPept蛋白質(zhì)數(shù)據(jù)庫(kù)實(shí)例以鼠傷寒沙門(mén)氏菌S.typhimuriumH-1-i基因編碼的鞭毛蛋白為例進(jìn)行GenPept數(shù)據(jù)庫(kù)檢索。當(dāng)前第70頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)GenPept蛋白質(zhì)數(shù)據(jù)庫(kù)實(shí)例LOCUSAAA27072490aalinearBCT26-APR-1993DEFINITIONphase-1flagellarfilamentprotein.ACCESSIONAAA27072VERSIONAAA27072.1GI:153979DBSOURCElocusSTYFLGH1IaccessionM11332.1KEYWORDS.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(residues1to490)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof
SalmonellatyphimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134COMMENTDraftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.……序列標(biāo)識(shí)簡(jiǎn)單描述序列編號(hào)版本號(hào)關(guān)鍵詞物種來(lái)源物種分類引文編號(hào)引文作者引文標(biāo)題引文出處評(píng)注當(dāng)前第71頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)FEATURESLocation/Qualifierssource1..490/organism="Salmonellatyphimurium"/db_xref="taxon:602"
Protein1..490/name="phase-1flagellarfilamentprotein"Region1..490/region_name="PRK08026"/note="flagellin;PRK08026"/db_xref="CDD:76379"Region29..163/region_name="Flagellin_N"/note="BacterialflagellinN-terminus.Flagellinspolymerisetoformbacterialflagella.Thisfamilyincludesflagellinsandhookassociatedprotein3;pfam00669"/db_xref="CDD:64529"Region191..>256/region_name="Flagellin_D3"/note="FlagellinD3domain.ThisdomainisfoundinthecentralportionbacterialflagellinFliC.Thedomaincontainsastructuralmotifcalledabeta-foliumfold;pfam08884"/db_xref="CDD:72304"特征表當(dāng)前第72頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)
Region397..468/region_name="Flagellin_C"……/db_xref="CDD:64558"CDS1..490/coded_by="M11332.1:13..1485"/transl_table=11ORIGIN1maqvintnslslltqnnlnksqsalgtaierlssglrinsakddaagqaianrftanikg61ltqasrnandgisiaqttegalneinnnlqrvrelavqsanstnsqsdldsiqaeitqrl121neidrvngqtqfsgvkvlaqdntltiqvgandgetididlkqinsqtlgldtlnvqqkyk181vsdtaatvtgyadttialdnstfkasatglggtdekidgdlkfddttgkyyakvtvtggt241gkdgyyevsvdktngevtlaavtpatvttatalsgkmysanpdsdiakaaltaagvtgta301svvkmsytdnngktidgglavkvgddyysatqdkdgsisidttkytadngtsktalnklg361gadgktevvtidgktynaskaaghdfkaepelaeqaakttenplqkidaalaqvdtlrsd421lgavqnrfnsaitnlgntvnnlssarsriedsdyatevsnmsraqilqqagtsvlaqanq481vpqnvlsllr//蛋白質(zhì)序列記錄結(jié)束GenPept的網(wǎng)址是:ftp:///當(dāng)前第73頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)國(guó)際上主要的蛋白質(zhì)序列數(shù)據(jù)庫(kù)的種類和特點(diǎn)
名稱維護(hù)單位注釋冗余度數(shù)據(jù)量更新PIRNCBI、JIPID、MIPS部分完善較大較大較慢SWISSPROTEBI、SIB完善小不大較慢NRL-3DNCBI完善小小較慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大較快OWLHGMP一般小大較慢(引自《生物信息學(xué)》,趙國(guó)屏等編著,科學(xué)出版社,2002)當(dāng)前第74頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(二)蛋白質(zhì)序列二次數(shù)據(jù)庫(kù)
1.PROSITEPROSITE是蛋白質(zhì)家族保守區(qū)域和功能位點(diǎn)數(shù)據(jù)庫(kù),也是第一個(gè)蛋白質(zhì)序列二次數(shù)據(jù)庫(kù),收錄蛋白質(zhì)家族中同源序列多重比對(duì)所確定的保守性區(qū)域:如酶活性位點(diǎn)、配體結(jié)合位點(diǎn)、金屬離子結(jié)合位點(diǎn)、其它蛋白質(zhì)結(jié)合位點(diǎn)等已知具有重要生物學(xué)功能蛋白質(zhì)位點(diǎn)和序列模式。PROSITE數(shù)據(jù)庫(kù)組成包含Prosite(數(shù)據(jù)文件)和PrositeDoc(說(shuō)明文件)兩個(gè)文件數(shù)據(jù)庫(kù)。PROSITE數(shù)據(jù)庫(kù)主頁(yè)如圖6-12所示。當(dāng)前第75頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-12PROSITE數(shù)據(jù)庫(kù)主頁(yè)當(dāng)前第76頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)PROSITE數(shù)據(jù)庫(kù)作用:可確定一段新蛋白質(zhì)序列中包含的功能位點(diǎn)以及其歸屬的蛋白質(zhì)家族。PROSITE的網(wǎng)址:http:///或http:///PROSITE的中國(guó)鏡像網(wǎng)址是:http:///當(dāng)前第77頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)2.PRINTSPRINTS蛋白質(zhì)指紋圖譜數(shù)據(jù)庫(kù)將多個(gè)保守的序列模式作為識(shí)別蛋白質(zhì)家族的特征,與PROSITE數(shù)據(jù)庫(kù)的單個(gè)序列模式相比,PRINTS具有更好的識(shí)別率。PRINTS網(wǎng)址:http:///當(dāng)前第78頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)3.BLOCKS序列模塊(block):是通過(guò)序列比對(duì)得到的若干蛋白質(zhì)序列中具有較高相似性的序列片段。BLOCKS由通過(guò)自動(dòng)檢測(cè)PROSITE數(shù)據(jù)庫(kù)和PRINTS蛋白質(zhì)指紋圖譜數(shù)據(jù)庫(kù)中蛋白質(zhì)家族高度保守區(qū)域產(chǎn)生的序列模塊組成。BLOCKS的網(wǎng)址:http:///當(dāng)前第79頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)(三)蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)
1.PDBPDB(ProteinDataBank)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)是國(guó)際上最完整的蛋白質(zhì)、核酸、糖類、蛋白質(zhì)-核酸復(fù)合物及病毒等生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫(kù)。PDB主頁(yè),如圖6-13所示。其數(shù)據(jù)庫(kù)增長(zhǎng)曲線,如圖6-14所示。當(dāng)前第80頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-13PDB數(shù)據(jù)庫(kù)主頁(yè)當(dāng)前第81頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)圖6-14結(jié)構(gòu)數(shù)據(jù)庫(kù)增長(zhǎng)曲線截圖紅色圖:總結(jié)構(gòu)數(shù)藍(lán)色圖:新增結(jié)構(gòu)數(shù)(引自http://=molType-protein&seqid=100)當(dāng)前第82頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)PDB數(shù)據(jù)庫(kù)作用提供序列詳細(xì)信息、原子坐標(biāo)、三維結(jié)構(gòu)、交叉檢索等與結(jié)構(gòu)相關(guān)的信息。PDB數(shù)據(jù)庫(kù)實(shí)例以鼠傷寒沙門(mén)氏菌SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段晶體結(jié)構(gòu)為例,圖示PDB數(shù)據(jù)庫(kù)格式(框6-4)和網(wǎng)頁(yè)格式(圖6-15)。三維結(jié)構(gòu)的動(dòng)態(tài)展示(如圖6-16所示)。PDB的地址:http://當(dāng)前第83頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)框6-4PDB格式實(shí)例HEADERSTRUCTURALPROTEIN28-DEC-001IO1TITLECRYSTALSTRUCTUREOFF41FRAGMENTOFFLAGELLINCOMPNDMOL_ID:1;COMPND2MOLECULE:PHASE1FLAGELLIN;……SOURCEMOL_ID:1;SOURCE2ORGANISM_SCIENTIFIC:SALMONELLATYPHIMURIUM;……KEYWDSBETA-FOLIUM,FLAGELLINEXPDTAX-RAYDIFFRACTIONAUTHORF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA,AUTHOR2M.YAMAMOTO,K.NAMBAREVDAT215-APR-031IO11SOURCEDBREFSEQADVREVDAT104-APR-011IO10JRNLAUTHF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,JRNLAUTH2T.KUMASAKA,M.YAMAMOTO,K.NAMBA……REMARK1REMARK2REMARK2RESOLUTION.2.00ANGSTROMS.
……標(biāo)頭題目化合物名稱來(lái)源關(guān)鍵詞作者發(fā)布日期相關(guān)文獻(xiàn)注釋當(dāng)前第84頁(yè)\共有139頁(yè)\編于星期四\19點(diǎn)SEQADV1IO1ALAA426UNPP06179GLY426CONFLICTSEQRES1A398PHETHRALAASNILELYSGLYLEUTHRGLNALASERARGSEQRES2A398ASNALAASNASPGLYILESERILEALAGLNTHRTHRGLU……FORMUL2HOH*354(H2O)HELIX11ILEA57ALAA99143HELIX22SERA104THRA129126……SHEET1A2ASNA141GLNA1460SHEET2A2THRA154LEUA159-1OILEA155NILEA145……CRYST151.75036.440118.35090.0091.1590.00P12112ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE10.0193240.0000000.0003880.00000SCALE20.0000000.0274420.0000000.00000SCALE30.0000000.0000000.0084510.00000ATOM1NASNA56-49.795-3.667-4.3511.0030.60NATOM2CAASNA56-48.833-2.701-3.7261.0029.93C……TER2881ARGA450HETATM2882OHOH50129.624-1.33516.6881.0011.99OHETATM2883OHOH502-35.019-3.209-7.0051.0010
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年互聯(lián)網(wǎng)醫(yī)療解決方案技術(shù)合作協(xié)議
- 2025年雙方協(xié)商勞務(wù)派遣協(xié)議
- 2025年P(guān)PP項(xiàng)目合作財(cái)務(wù)管理協(xié)議
- 主材供應(yīng)及合作框架合同 2024年版一
- 2025版區(qū)塊鏈技術(shù)應(yīng)用合伙人合作協(xié)議3篇
- 2025年度智能建筑安裝工程承包技師合同4篇
- 二零二五年度酒吧食品安全管理與承包合同
- 2025年度城市公交車(chē)定點(diǎn)維修與應(yīng)急保障合同
- 二零二五年度汽車(chē)維修免責(zé)聲明適用于車(chē)主自帶配件
- 2025年度地鐵隧道鋼筋工勞務(wù)施工安全質(zhì)量保障合同
- 建筑結(jié)構(gòu)課程設(shè)計(jì)成果
- 班級(jí)建設(shè)方案中等職業(yè)學(xué)校班主任能力大賽
- 纖維增強(qiáng)復(fù)合材料 單向增強(qiáng)材料Ⅰ型-Ⅱ 型混合層間斷裂韌性的測(cè)定 編制說(shuō)明
- 習(xí)近平法治思想概論教學(xué)課件緒論
- 寵物會(huì)展策劃設(shè)計(jì)方案
- 孤殘兒童護(hù)理員(四級(jí))試題
- 梁湘潤(rùn)《子平基礎(chǔ)概要》簡(jiǎn)體版
- 醫(yī)院急診醫(yī)學(xué)小講課課件:急診呼吸衰竭的處理
- 腸梗阻導(dǎo)管在臨床中的使用及護(hù)理課件
- 小學(xué)英語(yǔ)單詞匯總大全打印
- 衛(wèi)生健康系統(tǒng)安全生產(chǎn)隱患全面排查
評(píng)論
0/150
提交評(píng)論