生物信息數(shù)據(jù)庫(kù)_第1頁(yè)
生物信息數(shù)據(jù)庫(kù)_第2頁(yè)
生物信息數(shù)據(jù)庫(kù)_第3頁(yè)
生物信息數(shù)據(jù)庫(kù)_第4頁(yè)
生物信息數(shù)據(jù)庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩76頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章生物信息數(shù)據(jù)庫(kù)1、方式生物2、數(shù)據(jù)庫(kù)humanArabidopsis擬南芥ThermotogamaritimaEscherichiacoli大腸桿菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis第一節(jié)方式生物人類基因組,方式生物基因組方案人類基因組方案〔HumanGenomeProject,HGP〕1990年啟動(dòng),估計(jì)2003年完成。由美、日、德、法、英、中六國(guó)參與。測(cè)出人類約3,000,000,000堿基對(duì)的序列〔相當(dāng)于每頁(yè)3,000個(gè)字母,共需100萬(wàn)頁(yè)印完〕。中國(guó)承當(dāng)其中的1%。

VenterCollins人類基因組,方式生物基因組方案方式生物基因組方案酵母、線蟲(chóng)、果蠅、細(xì)菌共約50多種已完成,水稻等70余種正在進(jìn)展。目前總量已達(dá)60億堿基對(duì)!曾經(jīng)完成全序列測(cè)定的基因組中文稱號(hào)數(shù)目備注古細(xì)菌10包括熱自養(yǎng)甲烷菌、熱球菌等真細(xì)菌42其中5個(gè)細(xì)菌各測(cè)定了多個(gè)菌株真核生物5酵母、線蟲(chóng)、果蠅、智人、擬南芥細(xì)胞器201質(zhì)粒164

噬菌體90包括不同亞類或不同菌株類病毒36包括不同亞類或不同菌株病毒126包括不同亞類或不同菌株引自(Oct,2001)ebi.ac.uk/genomes/virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109Thesizeofthehumangenomeis~3X109bp;almostallofitscomplexityisinsingle-copyDNA.Thehumangenomeisthoughttocontain~30,000to40,000genes.bonyfishamphibiansHomosapiens智人蛋白質(zhì)編碼基因數(shù)在2.7萬(wàn)至4萬(wàn)之間〔但最新的估計(jì)在6.5萬(wàn)至7.5萬(wàn)之間〕

噬菌體〔Bacteriophage〕寄生于細(xì)菌內(nèi)的病毒如:大腸桿菌噬菌體(coliphages)遺傳物質(zhì):?jiǎn)捂?雙鏈、環(huán)狀/線狀、DNA/RNA方式生物(ModelOrganism)方式生物(ModelOrganism)病毒〔Virus〕不具有細(xì)胞形狀構(gòu)造,僅由核酸和蛋白質(zhì)構(gòu)成;如:人艾滋病毒HIV、SARS冠狀病毒體積小,10~300nm;嚴(yán)厲的專性細(xì)胞內(nèi)寄生;對(duì)抗生素不敏感。電子顯微鏡下的SARS冠狀病毒100nmEscherichiacoli

大腸桿菌大腸桿菌是研討得最為詳盡的一個(gè)方式生物。這種只需1.6微米長(zhǎng)的、可以迅速繁衍的單細(xì)胞原核生物,曾經(jīng)成為實(shí)驗(yàn)室和基因工程的重要工具。EscherichiacoliO157:H7EscherichiacoliK12方式生物(ModelOrganism)Saccharomycescerevisiae

釀酒酵母真菌界的單細(xì)胞真核生物,有16個(gè)染色體。它的全基因組已在1996年測(cè)定。方式生物(ModelOrganism)秀麗線蟲(chóng)Caenorhabditiselegans

一種透明的、生活在海灘泥沙中的小蟲(chóng)。細(xì)胞數(shù)目一定:成蟲(chóng)細(xì)胞數(shù)目只需959個(gè),其中包括302個(gè)神經(jīng)元;

有6條染色體,全基因組于1998年測(cè)定,長(zhǎng)9.7Mb

方式生物(ModelOrganism)Drosophilamelanogaster

果蠅繁衍很快、容易誘發(fā)變異的小昆蟲(chóng)??傞L(zhǎng)達(dá)1.8億核苷酸。

方式生物(ModelOrganism)Arabidopsisthaliana

擬南芥?zhèn)€體生活周期只需6周的十字花科小草,是一種理想的方式植物。方式生物(ModelOrganism)方式生物(ModelOrganism)非洲瓜蟾〔Xenopuslavias〕1個(gè)受精卵在24小時(shí)內(nèi)分裂到各種器官初具雛形的程度;方式生物(ModelOrganism)斑馬魚(yú)〔Daniorerio〕身體透明的小魚(yú),生活周期約3個(gè)月,是研討脊椎動(dòng)物發(fā)育過(guò)程的良好對(duì)象。方式生物(ModelOrganism)小鼠〔Musmusculus〕基因組大小與人類相近,約30億個(gè)核苷酸對(duì),有19條染色體;第二節(jié)數(shù)據(jù)庫(kù)一、引言生物分子數(shù)據(jù)高速增長(zhǎng)分子生物學(xué)及相關(guān)領(lǐng)域研討人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)建立生物分子數(shù)據(jù)庫(kù)生物信息數(shù)據(jù)庫(kù)應(yīng)滿足5個(gè)方面的主要需求〔1〕時(shí)間性〔2〕注釋〔3〕支撐數(shù)據(jù)〔4〕數(shù)據(jù)質(zhì)量〔5〕集成性生物信息數(shù)據(jù)庫(kù)幾個(gè)明顯的特征:〔1〕數(shù)據(jù)庫(kù)的更新速度不斷加快數(shù)據(jù)量呈指數(shù)增長(zhǎng)趨勢(shì)〔2〕數(shù)據(jù)庫(kù)運(yùn)用頻率增長(zhǎng)更快〔3〕數(shù)據(jù)庫(kù)的復(fù)雜程度不斷添加〔4〕數(shù)據(jù)庫(kù)網(wǎng)絡(luò)化〔5〕面向運(yùn)用〔6〕先進(jìn)的軟硬件配置一個(gè)數(shù)據(jù)庫(kù)記錄(entry)普通由兩部分組成:1.原始序列數(shù)據(jù)(sequencedata)2.描畫(huà)這些數(shù)據(jù)生物學(xué)信息的注釋(annotation)注釋中包含的信息與相應(yīng)的序列數(shù)據(jù)同樣重要和有運(yùn)用價(jià)值。數(shù)據(jù)的完好性和注釋任務(wù)量:1.序列數(shù)據(jù)廣,序列注釋不夠完好2.庫(kù)數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫(kù)的動(dòng)態(tài)更新:1.不斷添加2.不斷修正分子生物信息數(shù)據(jù)庫(kù)種類繁多。歸納起來(lái),大體可以分為4個(gè)大類,即基因組數(shù)據(jù)庫(kù)、核酸和蛋白質(zhì)一級(jí)構(gòu)造數(shù)據(jù)庫(kù)、生物大分子(主要是蛋白質(zhì))三維空間構(gòu)造數(shù)據(jù)庫(kù),以及由上述3類數(shù)據(jù)庫(kù)和文獻(xiàn)資料為根底構(gòu)建的二次數(shù)據(jù)庫(kù)?;蚪M數(shù)據(jù)庫(kù)來(lái)自基因組作圖,序列數(shù)據(jù)庫(kù)來(lái)自序列測(cè)定,構(gòu)造數(shù)據(jù)庫(kù)來(lái)自X射線衍射和核磁共振等構(gòu)造測(cè)定。這些數(shù)據(jù)庫(kù)是分子生物學(xué)的根本數(shù)據(jù)資源,通常稱為根本數(shù)據(jù)庫(kù)、初始數(shù)據(jù)庫(kù),也稱一次數(shù)據(jù)庫(kù)。根據(jù)生命科學(xué)不同研討領(lǐng)域的實(shí)踐需求,對(duì)基因組圖譜、核酸和蛋白質(zhì)序列、蛋白質(zhì)構(gòu)造以及文獻(xiàn)等數(shù)據(jù)進(jìn)展分析、整理、歸納、注釋,構(gòu)建具有特殊生物學(xué)意義和專門(mén)用途的二次數(shù)據(jù)庫(kù)。普通說(shuō)來(lái),一次數(shù)據(jù)庫(kù)的數(shù)據(jù)量大,更新速度快,用戶面廣,通常需求高性能的計(jì)算機(jī)效力器、大容量的磁盤(pán)空間和專門(mén)的數(shù)據(jù)庫(kù)管理系統(tǒng)支撐;二次數(shù)據(jù)庫(kù)的容量那么小得多,更新速度也不像一次數(shù)據(jù)庫(kù)那樣快,也可以不用大型商業(yè)數(shù)據(jù)庫(kù)軟件支持,這類針對(duì)不同問(wèn)題開(kāi)發(fā)的二次數(shù)據(jù)庫(kù)的最大特點(diǎn)是運(yùn)用方便,特別適用于計(jì)算機(jī)運(yùn)用閱歷不太豐富的生物學(xué)家。序列數(shù)據(jù)庫(kù)是分子生物信息數(shù)據(jù)庫(kù)中最根本的數(shù)據(jù)庫(kù),包括核酸和蛋白質(zhì)兩類,以核苷酸堿基順序或氨基酸殘基順序?yàn)楦緝?nèi)容,并附有注釋信息。生物信息數(shù)據(jù)庫(kù)一級(jí)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋二級(jí)數(shù)據(jù)庫(kù)對(duì)原始生物分子數(shù)據(jù)進(jìn)展整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和實(shí)際分析的根底上針對(duì)特定的運(yùn)用目的而建立的。生物信息學(xué)數(shù)據(jù)庫(kù)工具生物信息數(shù)據(jù)庫(kù)染色體核酸蛋白質(zhì)基因組圖譜DNA序列蛋白質(zhì)序列蛋白質(zhì)構(gòu)造基因組數(shù)據(jù)庫(kù)核酸序列數(shù)據(jù)庫(kù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)蛋白質(zhì)構(gòu)造數(shù)據(jù)庫(kù)二級(jí)數(shù)據(jù)庫(kù)復(fù)合數(shù)據(jù)庫(kù)基因組作圖序列測(cè)定構(gòu)造測(cè)定國(guó)際著名的生物信息中心NCBINationalCenterforBiotechnologyInformation(US)EBI EuropeanBioinformaticsInstitute(EU)HGMPHumanGenomeMappingProjectResourceCentre(UK〕ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBICentreofMolecularandBiomolecule(TheNetherlands)ANGISNationalGenomeInformationService(Australia)NIGNationalInstituteofGenetics(Japan)BICNationalBioinformaticsCentre(Singapore)一級(jí)數(shù)據(jù)庫(kù)簡(jiǎn)介1、核酸序列數(shù)據(jù)庫(kù)國(guó)際上權(quán)威的核酸序列數(shù)據(jù)庫(kù)〔1〕歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBLembl-heidelberg.de〔2〕美國(guó)生物技術(shù)信息中心的GenBank/Web/Genbank/index.html〔3〕日本遺傳研討所的DDBJddbj.nig.ac.jp/GenBankDDBJEMBL核酸序列數(shù)據(jù)的增長(zhǎng)趨勢(shì)(縱軸代表總的核酸序列長(zhǎng)度,單位:百萬(wàn)bp)

三個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)根本一致,僅在數(shù)據(jù)格式上有所差別,對(duì)于特定的查詢,三個(gè)數(shù)據(jù)庫(kù)的呼應(yīng)結(jié)果一樣。這三個(gè)數(shù)據(jù)庫(kù)是綜合性的DNA和RNA序列數(shù)據(jù)庫(kù),每條記錄代表一個(gè)單獨(dú)、延續(xù)、附有注釋的DNA或RNA片段。美國(guó)的核酸數(shù)據(jù)庫(kù)GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗從1979年開(kāi)場(chǎng)建立,1982年正式運(yùn)轉(zhuǎn);歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL數(shù)據(jù)庫(kù)也于1982年開(kāi)場(chǎng)效力日本于1984年開(kāi)場(chǎng)建立國(guó)家級(jí)的核酸數(shù)據(jù)庫(kù)DDBJ,并于1987年正式效力。從那個(gè)時(shí)候以來(lái),DNA序列的數(shù)據(jù)曾經(jīng)從80年代初期的百把條序列,幾十萬(wàn)堿基上升至如今的110億堿基!這就是說(shuō),在短短的約18年間,數(shù)據(jù)量增長(zhǎng)了近十萬(wàn)倍。EMBL數(shù)據(jù)庫(kù)序列記錄隨時(shí)間增長(zhǎng)56827,248,475EMBL數(shù)據(jù)庫(kù)序列總長(zhǎng)隨時(shí)間增長(zhǎng)3.410105.8105EMBL2003年8月數(shù)據(jù)情況(Release76)DivisionEntriesNucleotides表達(dá)序列標(biāo)簽(ESTs)18,001,3329,172,848,447真菌(Fungi)81,533124,814,006基因組檢測(cè)序列(GSSs)5,951,5523,541,699,334高通量cDNA(HTC)148,033198,301,795高通量基因組(HTG)69,07011,827,270,957人(Human)253,1223,999,942,455無(wú)脊椎動(dòng)物(Invertebrates)126,656618,391,776其它哺乳動(dòng)物(OtherMammals)51,211117,048,169鼠(Musmusculus)79,1681,331,593,999細(xì)胞器(Organelles)217,902180,804,604專利(Patents)1,326,009717,107,725噬菌體(Bacteriophage)2,3219,413,526植物(Plants)214,323700,212,325原核生物(Prokaryotes)200,833690,274,487嚙齒動(dòng)物(Rodents)25,45964,607,453序列標(biāo)簽位點(diǎn)(STSs)239,292114,379,671合成(Synthetic)9,19616,869,561未分類(Unclassified)1,8602,167,222病毒(Viruses)196,817175,615,411其它脊椎動(dòng)物(OtherVertebrates)52,583282,545,232總計(jì)27,248,47533,885,908,1552、基因組數(shù)據(jù)庫(kù)來(lái)源于人類基因組方案及各種方式生物基因組方案1977年,最早獲得的生物基因組全序列是噬菌體(53kb)1995年,第一個(gè)自在生物體流感嗜血菌(H.inf)被完全測(cè)序部分生物基因組方案網(wǎng)址

老鼠(Mouse) /mgd.html 小鼠(Rat) ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 豬(Pig) ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html羊(Sheep) dirk.invermay.cri.nz 雞(Chicken)ri.bbsrc.ac.uk/chickmap/chickbase/manager.html斑馬魚(yú)(Zebrafish) 線蟲(chóng)(C.elegans)ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蠅(Drosophila) 蚊子(Mosquito) 擬南芥(Arabidopsis)/Arabidopsis棉花(Cotton) 玉米(Maize) 水稻(Rice) staff.or.jp 大豆(Soya) :8000/main.html 樹(shù)(Trees) GDB〔美國(guó)、加拿大〕1990年,JohnHopkins大學(xué)建立,后由加拿大兒童醫(yī)院生物信息中心管理.數(shù)據(jù)內(nèi)容:基因單位、PCR位點(diǎn)、細(xì)胞遺傳標(biāo)志、EST、contig、反復(fù)片段、基因組圖譜與其它分子生物信息網(wǎng)絡(luò)資源〔EMBL、GenBank…〕的鏈接AceDB線蟲(chóng)基因組數(shù)據(jù)庫(kù)。既是一個(gè)數(shù)據(jù)庫(kù),又是一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)。提供很好的圖形界面,用戶可以從大到整個(gè)基因組小到序列的各個(gè)層次察看和分析基因組數(shù)據(jù)。

數(shù)據(jù)內(nèi)容:限制性圖譜,基因構(gòu)造信息,質(zhì)粒圖譜,序列數(shù)據(jù),參考文獻(xiàn)…3、蛋白質(zhì)序列數(shù)據(jù)庫(kù)SWISS-PROT(歐洲)PIR(美國(guó))SWISS-PROT1.瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲生物信息學(xué)研討所(EBI)協(xié)作維護(hù)〔1986年〕;2.在EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像站點(diǎn);3.數(shù)據(jù)庫(kù)包括了從EMBL翻譯而來(lái)的蛋白質(zhì)序列,這些序列經(jīng)過(guò)檢驗(yàn)和注釋;4.數(shù)據(jù)記錄包括兩部分:序列注釋(構(gòu)造域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾、突變體等)5.數(shù)據(jù)存在滯后性TrEMBL數(shù)據(jù)庫(kù)的建立SWISS-PROT的/sprotTrEMBL的ebi.ac.uk/trembl/index.htmlSWISS-PROT(expasy.ch/sprot/sprot-top.html〕是目前國(guó)際上比較權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫(kù),其中的蛋白質(zhì)序列是經(jīng)過(guò)注釋的SWISS-PROT中的數(shù)據(jù)來(lái)源于不同源地:〔1〕從核酸數(shù)據(jù)庫(kù)經(jīng)過(guò)翻譯推導(dǎo)而來(lái);〔2〕從蛋白質(zhì)數(shù)據(jù)庫(kù)PIR挑選出適宜的數(shù)據(jù);〔3〕從科學(xué)文獻(xiàn)中摘錄;〔4〕研討人員直接提交的蛋白質(zhì)序列數(shù)據(jù)SWISS-PROT有三個(gè)明顯的特點(diǎn):〔1〕注釋在SWISS-PROT中,數(shù)據(jù)分為中心數(shù)據(jù)和注釋兩大類。中心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻(xiàn)、分類信息〔蛋白質(zhì)生物來(lái)源的描畫(huà)〕注釋包括:〔A)蛋白質(zhì)的功能描畫(huà);(B)翻譯后修飾;(C)域和功能位點(diǎn),如鈣結(jié)合區(qū)域、ATP結(jié)合位點(diǎn)等;(D)蛋白質(zhì)的二級(jí)構(gòu)造;(E)蛋白質(zhì)的四級(jí)構(gòu)造,好像構(gòu)二聚體、異構(gòu)三聚體等;(F)與其它蛋白質(zhì)的類似性;(G)由于缺乏該蛋白質(zhì)而引起的疾??;(H)序列的矛盾、變化等?!?〕最小冗余盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫(kù)的冗余程度。假設(shè)不同來(lái)源的原始數(shù)據(jù)有矛盾,那么在相應(yīng)序列特征表中加以注釋?!?〕與其它數(shù)據(jù)庫(kù)的銜接對(duì)于每一個(gè)登錄項(xiàng),有許多指向其它數(shù)據(jù)庫(kù)相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息?,F(xiàn)有的交叉索引有:到EMBL核酸序列數(shù)據(jù)庫(kù)的索引,到PROSITE方式數(shù)據(jù)庫(kù)的索引,到生物大分子構(gòu)造數(shù)據(jù)庫(kù)PDB的索引等。提交序列數(shù)據(jù)〔a〕編輯電子表格〔b)利用Authorin程序〔c〕WWW效力器運(yùn)用SWISS-PROT〔a〕CD-ROM方式〔b〕ftp效力器〔c〕Gopher效力器〔d〕WWW效力器〔SRS〕與序列相關(guān)的操作〔a〕序列查詢〔b〕搜索同源蛋白質(zhì)序列 TrEMBL(ebi.ac.uk/trembl/index.html)是與SWISS-PROT相關(guān)的一個(gè)數(shù)據(jù)庫(kù)。包含從EMBL核酸數(shù)據(jù)庫(kù)中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫(kù)中。TrEMBL有兩個(gè)部分:〔1〕SP-TrEMBL(SWISS-PROTTrEMBL)包含最終將要集成到SWISS-PROT的數(shù)據(jù),一切的SP-TrEMBL序列都已被賦予SWISS-PROT的登錄號(hào)?!?〕REM-TrEMBL(REMainingTrEMBL)包括一切不預(yù)備放入SWISS-PROT的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒(méi)有登錄號(hào)。PIR(proteininformationresource)1.由美國(guó)NCBI翻譯自GenBank的DNA序列(1984年);2.在EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像站點(diǎn);3.數(shù)據(jù)根據(jù)注釋的質(zhì)量分為4類。

/分類名稱(Name)說(shuō)明(Comment)記錄數(shù)(Numberofentries)PIR1已分類、已注釋(Classifiedandannotated)13572PIR2已注釋(Annotated)69368PIR3未核實(shí)(Unverified)7508PIR4未翻譯(Unencodedoruntranslated)196PIR數(shù)據(jù)庫(kù)的分類情況(Release51.03)目的: 協(xié)助研討者鑒別和解釋蛋白質(zhì)序列信息, 研討分子進(jìn)化、功能基因組。它是一個(gè)全面的、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。一切序列數(shù)據(jù)都經(jīng)過(guò)整理,超越99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)展了分類。1、PIR〔ProteinInformationResource〕除了蛋白質(zhì)序列數(shù)據(jù)之外,PIR還包含以下信息:(1)蛋白質(zhì)稱號(hào)、蛋白質(zhì)的分類、蛋白質(zhì)的來(lái)源;(2)關(guān)于原始數(shù)據(jù)的參考文獻(xiàn);(3)蛋白質(zhì)功能和蛋白質(zhì)的普通特征,包括基因表達(dá)、翻譯后處置、活化等;(4)序列中相關(guān)的位點(diǎn)、功能區(qū)域。PIR提供三種類型的檢索效力:一是基于文本的交互式查詢,用戶經(jīng)過(guò)關(guān)鍵字進(jìn)展數(shù)據(jù)查詢。二是規(guī)范的序列類似性搜索,包括BLAST、FastA等。三是結(jié)合序列類似性、注釋信息和蛋白質(zhì)家族信息的高級(jí)搜索,包括按注釋分類的類似性搜索、構(gòu)造域搜索等。三個(gè)子數(shù)據(jù)庫(kù)4、蛋白質(zhì)構(gòu)造數(shù)據(jù)庫(kù)PDB〔proteindatabank〕1.目前最主要的蛋白質(zhì)分子構(gòu)造數(shù)據(jù)庫(kù);2.1970年代建立,美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室維護(hù)管理;3.1988年,由美國(guó)RCSB(researchcollaboratoryforstructuralbiology)管理;4.以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來(lái)源、測(cè)定方法、提交者信息、一級(jí)構(gòu)造、二級(jí)構(gòu)造等;5.PDBsum數(shù)據(jù)庫(kù):PDB注釋信息綜合數(shù)據(jù)庫(kù),具有檢索、分析、可視化的功能。PDB的/pdb(美國(guó))PDBsum的biochem.ucl.ac.uk/bsm/pdbsumPDB中含有經(jīng)過(guò)實(shí)驗(yàn)〔X射線晶體衍射,核磁共振NMR〕測(cè)定的生物大分子的三維構(gòu)造蛋白質(zhì)核酸糖類其它復(fù)合物PDB〔ProteinDataBank〕一種是隱式序列信息(implicitsequence) PDB的隱式序列即為立體化學(xué)數(shù)據(jù),包括每個(gè)原子的稱號(hào)和原子的三維坐標(biāo)。一種是顯式序列信息〔explicitsequence〕 在PDB文件中,以關(guān)鍵字SEQRES作為顯式序列標(biāo)志,以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330SHEET2A2GLN38PHE42-1NPHE42OARG2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論