生物信息學(xué)生物信息數(shù)據(jù)庫_第1頁
生物信息學(xué)生物信息數(shù)據(jù)庫_第2頁
生物信息學(xué)生物信息數(shù)據(jù)庫_第3頁
生物信息學(xué)生物信息數(shù)據(jù)庫_第4頁
生物信息學(xué)生物信息數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)生物信息數(shù)據(jù)庫第一頁,共八十四頁,編輯于2023年,星期三humanArabidopsis擬南芥Thermotogamaritima海棲熱袍菌

Escherichiacoli大腸桿菌Buchnerasp.APS(歐洲山楊)Rickettsia(病原體)prowazekiiUreaplasmaurealyticum解脲支原體

Bacillussubtilis枯草桿菌

DrosophilamelanogasterThermoplasmaacidophilum嗜酸熱原體

Plasmodiumfalciparum瘧原蟲Helicobacterpylori(幽門桿菌)mouseCaenorhabitiselegansratBorrelia包柔氏螺旋體菌Borreliaburgorferi螺旋體菌Aquifexaeolicus超嗜熱菌

Neisseria腦膜炎雙球菌

Mycobacterium(肺結(jié)核)tuberculosis第一節(jié)模式生物第二頁,共八十四頁,編輯于2023年,星期三人類基因組,模式生物基因組計(jì)劃人類基因組計(jì)劃(HumanGenomeProject,HGP)

1990年啟動,預(yù)計(jì)2003年完成。由美、日、德、法、英、中六國參加。測出人類約3,000,000,000堿基對的序列(相當(dāng)于每頁3,000個字母,共需100萬頁印完)。中國承擔(dān)其中的1%。

VenterCollins第三頁,共八十四頁,編輯于2023年,星期三人類基因組,模式生物基因組計(jì)劃模式生物基因組計(jì)劃酵母、線蟲、果蠅、細(xì)菌共約50多種已完成,水稻等70余種正在進(jìn)行。目前總量已達(dá)60億堿基對!第四頁,共八十四頁,編輯于2023年,星期三已經(jīng)完成全序列測定的基因組中文名稱數(shù)目備

注古細(xì)菌10包括熱自養(yǎng)甲烷菌、熱球菌等真細(xì)菌42其中5個細(xì)菌各測定了多個菌株真核生物5酵母、線蟲、果蠅、智人、擬南芥細(xì)胞器201質(zhì)粒164

噬菌體90包括不同亞類或不同菌株類病毒36包括不同亞類或不同菌株病毒126包括不同亞類或不同菌株引自(Oct,2001)http://www.ebi.ac.uk/genomes/第五頁,共八十四頁,編輯于2023年,星期三virusesplasmidsbacteriafungiplants藻類algaeinsectsmollusks軟體動物類reptiles爬行動物birdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109Thesizeofthehumangenomeis~3X109bp;almostallofitscomplexityisinsingle-copyDNA.Thehumangenomeisthoughttocontain~30,000to40,000genes.bonyfishamphibians第六頁,共八十四頁,編輯于2023年,星期三第七頁,共八十四頁,編輯于2023年,星期三Homosapiens智人

蛋白質(zhì)編碼基因數(shù)在2.7萬至4萬之間

(但最新的估計(jì)在6.5萬至7.5萬之間)

第八頁,共八十四頁,編輯于2023年,星期三噬菌體(Bacteriophage)寄生于細(xì)菌內(nèi)的病毒如:大腸桿菌噬菌體(coliphages)遺傳物質(zhì):單鏈/雙鏈、環(huán)狀/線狀、DNA/RNA模式生物(ModelOrganism)第九頁,共八十四頁,編輯于2023年,星期三模式生物(ModelOrganism)病毒(Virus)不具有細(xì)胞形態(tài)結(jié)構(gòu),僅由核酸和蛋白質(zhì)構(gòu)成;如:人艾滋病毒HIV、SARS冠狀病毒體積小,10~300nm;嚴(yán)格的專性細(xì)胞內(nèi)寄生;對抗生素不敏感。電子顯微鏡下的SARS冠狀病毒100nm第十頁,共八十四頁,編輯于2023年,星期三Escherichiacoli

大腸桿菌大腸桿菌是研究得最為詳盡的一個模式生物。這種只有1.6微米長的、可以迅速繁殖的單細(xì)胞原核生物,已經(jīng)成為實(shí)驗(yàn)室和基因工程的重要工具。EscherichiacoliO157:H7EscherichiacoliK12模式生物(ModelOrganism)第十一頁,共八十四頁,編輯于2023年,星期三Saccharomycescerevisiae

釀酒酵母真菌界的單細(xì)胞真核生物,有16個染色體。它的全基因組已在1996年測定。模式生物(ModelOrganism)第十二頁,共八十四頁,編輯于2023年,星期三秀麗線蟲Caenorhabditiselegans

一種透明的、生活在海灘泥沙中的小蟲。細(xì)胞數(shù)目一定:成蟲細(xì)胞數(shù)目只有959個,其中包括302個神經(jīng)元;

有6條染色體,全基因組于1998年測定,長9.7Mb

模式生物(ModelOrganism)第十三頁,共八十四頁,編輯于2023年,星期三Drosophilamelanogaster

果蠅繁殖很快、容易誘發(fā)變異的小昆蟲??傞L達(dá)1.8億核苷酸。

模式生物(ModelOrganism)第十四頁,共八十四頁,編輯于2023年,星期三Arabidopsisthaliana

擬南芥?zhèn)€體生活周期只有6周的十字花科小草,是一種理想的模式植物。模式生物(ModelOrganism)第十五頁,共八十四頁,編輯于2023年,星期三模式生物(ModelOrganism)非洲瓜蟾(Xenopuslavias)1個受精卵在24小時(shí)內(nèi)分裂到各種器官初具雛形的程度;第十六頁,共八十四頁,編輯于2023年,星期三模式生物(ModelOrganism)斑馬魚(Daniorerio)身體透明的小魚,生活周期約3個月,是研究脊椎動物發(fā)育過程的良好對象。第十七頁,共八十四頁,編輯于2023年,星期三模式生物(ModelOrganism)小鼠(Musmusculus)基因組大小與人類相近,約30億個核苷酸對,有19條染色體;第十八頁,共八十四頁,編輯于2023年,星期三第十九頁,共八十四頁,編輯于2023年,星期三第二十頁,共八十四頁,編輯于2023年,星期三實(shí)驗(yàn)一生物信息數(shù)據(jù)庫信息檢索一、實(shí)驗(yàn)內(nèi)容:1、了解NCBI、DDBJ、EMBL上網(wǎng)的方法自學(xué)各網(wǎng)站相關(guān)介紹。

2、了解北大生物信息學(xué)中心等幾大中文生物信息學(xué)網(wǎng)站。

3、了解一些生物論壇中有關(guān)生物信息學(xué)的部分。如:Biooo和Bioon。

4、利用NCBI的Entrenz查詢系統(tǒng)和EBI的SRS檢索文獻(xiàn)和核酸或蛋白質(zhì)序列。(phyA)并對照所學(xué)復(fù)習(xí)各字段的含義。

5、將所得記錄的ID或Accession記錄下來備用。第二十一頁,共八十四頁,編輯于2023年,星期三二、作業(yè)1、記錄相關(guān)網(wǎng)站及論壇網(wǎng)址(或如何查詢到該網(wǎng)址的方法)。(1)NCBI:/(2)DDBJ

:http://www.ddbj.nig.ac.jp/(3)EMBL:/第二十二頁,共八十四頁,編輯于2023年,星期三(4)北大生物信息學(xué)中心

/chinese/(5)中科院計(jì)算所智能信息處理重點(diǎn)實(shí)驗(yàn)室生物信息學(xué):/index.php(6)北大生物信息中心:/chinese/documents/bioinfor/overview/web1/1.html第二十三頁,共八十四頁,編輯于2023年,星期三(7)生物谷:/(8)中國生物論壇:Http:///(9)丁香園論壇

:/cms/(10)生物秀/Index.htm第二十四頁,共八十四頁,編輯于2023年,星期三2、找到編碼擬南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列編號。并記錄查找過程。第二十五頁,共八十四頁,編輯于2023年,星期三第二節(jié)數(shù)據(jù)庫第二十六頁,共八十四頁,編輯于2023年,星期三一、引言生物分子數(shù)據(jù)高速增長分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實(shí)驗(yàn)數(shù)據(jù)

建立生物分子數(shù)據(jù)庫

第二十七頁,共八十四頁,編輯于2023年,星期三生物信息數(shù)據(jù)庫應(yīng)滿足5個方面的主要需求(1)時(shí)間性(2)注釋(3)支撐數(shù)據(jù)(4)數(shù)據(jù)質(zhì)量(5)集成性第二十八頁,共八十四頁,編輯于2023年,星期三生物信息數(shù)據(jù)庫幾個明顯的特征:(1)數(shù)據(jù)庫的更新速度不斷加快數(shù)據(jù)量呈指數(shù)增長趨勢(2)數(shù)據(jù)庫使用頻率增長更快(3)數(shù)據(jù)庫的復(fù)雜程度不斷增加(4)數(shù)據(jù)庫網(wǎng)絡(luò)化(5)面向應(yīng)用(6)先進(jìn)的軟硬件配置第二十九頁,共八十四頁,編輯于2023年,星期三一個數(shù)據(jù)庫記錄(entry)一般由兩部分組成:1.原始序列數(shù)據(jù)(sequencedata)2.描述這些數(shù)據(jù)生物學(xué)信息的注釋(annotation)注釋中包含的信息與相應(yīng)的序列數(shù)據(jù)同樣重要和有應(yīng)用價(jià)值。數(shù)據(jù)的完整性和注釋工作量:1.序列數(shù)據(jù)廣,序列注釋不夠完整2.庫數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫的動態(tài)更新:1.不斷增加2.不斷修正第三十頁,共八十四頁,編輯于2023年,星期三分子生物信息數(shù)據(jù)庫種類繁多。歸納起來,大體可以分為4個大類,即基因組數(shù)據(jù)庫、核酸和蛋白質(zhì)一級結(jié)構(gòu)數(shù)據(jù)庫、生物大分子(主要是蛋白質(zhì))三維空間結(jié)構(gòu)數(shù)據(jù)庫,以及由上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫?;蚪M數(shù)據(jù)庫來自基因組作圖,序列數(shù)據(jù)庫來自序列測定,結(jié)構(gòu)數(shù)據(jù)庫來自X射線衍射和核磁共振等結(jié)構(gòu)測定。這些數(shù)據(jù)庫是分子生物學(xué)的基本數(shù)據(jù)資源,通常稱為基本數(shù)據(jù)庫、初始數(shù)據(jù)庫,也稱一次數(shù)據(jù)庫。第三十一頁,共八十四頁,編輯于2023年,星期三根據(jù)生命科學(xué)不同研究領(lǐng)域的實(shí)際需要,對基因組圖譜、核酸和蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)以及文獻(xiàn)等數(shù)據(jù)進(jìn)行分析、整理、歸納、注釋,構(gòu)建具有特殊生物學(xué)意義和專門用途的二次數(shù)據(jù)庫。一般說來,一次數(shù)據(jù)庫的數(shù)據(jù)量大,更新速度快,用戶面廣,通常需要高性能的計(jì)算機(jī)服務(wù)器、大容量的磁盤空間和專門的數(shù)據(jù)庫管理系統(tǒng)支撐;二次數(shù)據(jù)庫的容量則小得多,更新速度也不像一次數(shù)據(jù)庫那樣快,也可以不用大型商業(yè)數(shù)據(jù)庫軟件支持,這類針對不同問題開發(fā)的二次數(shù)據(jù)庫的最大特點(diǎn)是使用方便,特別適用于計(jì)算機(jī)使用經(jīng)驗(yàn)不太豐富的生物學(xué)家。序列數(shù)據(jù)庫是分子生物信息數(shù)據(jù)庫中最基本的數(shù)據(jù)庫,包括核酸和蛋白質(zhì)兩類,以核苷酸堿基順序或氨基酸殘基順序?yàn)榛緝?nèi)容,并附有注釋信息。第三十二頁,共八十四頁,編輯于2023年,星期三生物信息數(shù)據(jù)庫

一級數(shù)據(jù)庫數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋

二級數(shù)據(jù)庫對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。第三十三頁,共八十四頁,編輯于2023年,星期三生物信息學(xué)數(shù)據(jù)庫工具生物信息數(shù)據(jù)庫染色體核酸蛋白質(zhì)基因組圖譜DNA序列蛋白質(zhì)序列蛋白質(zhì)結(jié)構(gòu)基因組數(shù)據(jù)庫核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫二級數(shù)據(jù)庫復(fù)合數(shù)據(jù)庫基因組作圖序列測定結(jié)構(gòu)測定第三十四頁,共八十四頁,編輯于2023年,星期三國際著名的生物信息中心NCBINationalCenterforBiotechnologyInformation(US)EBI EuropeanBioinformaticsInstitute(EU)HGMPHumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBICentreofMolecularandBiomolecule(TheNetherlands)ANGISNationalGenomeInformationService(Australia)NIGNationalInstituteofGenetics(Japan)BICNationalBioinformaticsCentre(Singapore)第三十五頁,共八十四頁,編輯于2023年,星期三一級數(shù)據(jù)庫簡介第三十六頁,共八十四頁,編輯于2023年,星期三1、核酸序列數(shù)據(jù)庫第三十七頁,共八十四頁,編輯于2023年,星期三國際上權(quán)威的核酸序列數(shù)據(jù)庫(1)歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBLhttp://www.embl-heidelberg.de(2)美國生物技術(shù)信息中心的GenBank/Web/Genbank/index.html(3)日本遺傳研究所的DDBJhttp://www.ddbj.nig.ac.jp/GenBankDDBJEMBL第三十八頁,共八十四頁,編輯于2023年,星期三核酸序列數(shù)據(jù)的增長趨勢(縱軸代表總的核酸序列長度,單位:百萬bp)

第三十九頁,共八十四頁,編輯于2023年,星期三三個數(shù)據(jù)庫中的數(shù)據(jù)基本一致,僅在數(shù)據(jù)格式上有所差別,對于特定的查詢,三個數(shù)據(jù)庫的響應(yīng)結(jié)果一樣。這三個數(shù)據(jù)庫是綜合性的DNA和RNA序列數(shù)據(jù)庫,每條記錄代表一個單獨(dú)、連續(xù)、附有注釋的DNA或RNA片段。第四十頁,共八十四頁,編輯于2023年,星期三美國的核酸數(shù)據(jù)庫GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗從1979年開始建設(shè),1982年正式運(yùn)行;第四十一頁,共八十四頁,編輯于2023年,星期三第四十二頁,共八十四頁,編輯于2023年,星期三歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL數(shù)據(jù)庫也于1982年開始服務(wù)第四十三頁,共八十四頁,編輯于2023年,星期三第四十四頁,共八十四頁,編輯于2023年,星期三日本于1984年開始建立國家級的核酸數(shù)據(jù)庫DDBJ,并于1987年正式服務(wù)。第四十五頁,共八十四頁,編輯于2023年,星期三第四十六頁,共八十四頁,編輯于2023年,星期三從那個時(shí)候以來,DNA序列的數(shù)據(jù)已經(jīng)從80年代初期的百把條序列,幾十萬堿基上升至現(xiàn)在的110億堿基!這就是說,在短短的約18年間,數(shù)據(jù)量增長了近十萬倍。第四十七頁,共八十四頁,編輯于2023年,星期三EMBL數(shù)據(jù)庫序列記錄隨時(shí)間增長56827,248,475第四十八頁,共八十四頁,編輯于2023年,星期三EMBL數(shù)據(jù)庫序列總長隨時(shí)間增長3.410105.8105第四十九頁,共八十四頁,編輯于2023年,星期三EMBL2003年8月數(shù)據(jù)狀況(Release76)

DivisionEntriesNucleotides

表達(dá)序列標(biāo)簽(ESTs)18,001,3329,172,848,447真菌(Fungi)81,533124,814,006基因組檢測序列(GSSs)5,951,5523,541,699,334高通量cDNA(HTC)148,033198,301,795高通量基因組(HTG)69,07011,827,270,957人(Human)253,1223,999,942,455無脊椎動物(Invertebrates)126,656618,391,776其它哺乳動物(OtherMammals)51,211117,048,169鼠(Musmusculus)79,1681,331,593,999細(xì)胞器(Organelles)217,902180,804,604專利(Patents)1,326,009717,107,725噬菌體(Bacteriophage)2,3219,413,526植物(Plants)214,323700,212,325原核生物(Prokaryotes)200,833690,274,487嚙齒動物(Rodents)25,45964,607,453序列標(biāo)簽位點(diǎn)(STSs)239,292114,379,671合成(Synthetic)9,19616,869,561未分類(Unclassified)1,8602,167,222病毒(Viruses)196,817175,615,411其它脊椎動物(OtherVertebrates)52,583282,545,232總計(jì)27,248,47533,885,908,155第五十頁,共八十四頁,編輯于2023年,星期三2、基因組數(shù)據(jù)庫來源于人類基因組計(jì)劃及各種模式生物基因組計(jì)劃1977年,最早獲得的生物基因組全序列是噬菌體(53kb)1995年,第一個自由生物體流感嗜血菌(H.inf)被完全測序第五十一頁,共八十四頁,編輯于2023年,星期三部分生物基因組計(jì)劃網(wǎng)址

老鼠(Mouse) /mgd.html

小鼠(Rat) http://ratmap.gen.gu.se

狗(Dog) /dog.html

牛(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl

豬(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html羊(Sheep) http://dirk.invermay.cri.nz

雞(Chicken)http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html

斑馬魚(Zebrafish)

線蟲(C.elegans)http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html

果蠅(Drosophila)

蚊子(Mosquito)

擬南芥(Arabidopsis)/Arabidopsis棉花(Cotton)

玉米(Maize)

水稻(Rice) http://www.staff.or.jp

大豆(Soya) :8000/main.html

樹(Trees)

第五十二頁,共八十四頁,編輯于2023年,星期三

GDB(美國、加拿大)

1990年,JohnHopkins大學(xué)建立,后由加拿大兒童醫(yī)院生物信息中心管理./數(shù)據(jù)內(nèi)容:基因單位、PCR位點(diǎn)、細(xì)胞遺傳標(biāo)記、EST、contig、重復(fù)片段、基因組圖譜與其它分子生物信息網(wǎng)絡(luò)資源(EMBL、GenBank…)的鏈接第五十三頁,共八十四頁,編輯于2023年,星期三第五十四頁,共八十四頁,編輯于2023年,星期三

AceDB

線蟲基因組數(shù)據(jù)庫。既是一個數(shù)據(jù)庫,又是一個數(shù)據(jù)庫管理系統(tǒng)。提供很好的圖形界面,用戶能夠從大到整個基因組小到序列的各個層次觀察和分析基因組數(shù)據(jù)。

數(shù)據(jù)內(nèi)容:限制性圖譜,基因結(jié)構(gòu)信息,質(zhì)粒圖譜,序列數(shù)據(jù),參考文獻(xiàn)…第五十五頁,共八十四頁,編輯于2023年,星期三第五十六頁,共八十四頁,編輯于2023年,星期三3、蛋白質(zhì)序列數(shù)據(jù)庫

SWISS-PROT(歐洲)

PIR(美國)第五十七頁,共八十四頁,編輯于2023年,星期三

SWISS-PROT1.瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲生物信息學(xué)研究所(EBI)合作維護(hù)(1986年);2.在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點(diǎn);3.數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗(yàn)和注釋;4.數(shù)據(jù)記錄包括兩部分:序列注釋(結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾、突變體等)5.數(shù)據(jù)存在滯后性TrEMBL數(shù)據(jù)庫的建立SWISS-PROT的網(wǎng)址:/sprot第五十八頁,共八十四頁,編輯于2023年,星期三SWISS-PROT(http://www.expasy.ch/sprot/sprot-top.html)是目前國際上比較權(quán)威的蛋白質(zhì)序列數(shù)據(jù)庫,其中的蛋白質(zhì)序列是經(jīng)過注釋的SWISS-PROT中的數(shù)據(jù)來源于不同源地:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);(3)從科學(xué)文獻(xiàn)中摘錄;(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)

SWISS-PROT有三個明顯的特點(diǎn):第五十九頁,共八十四頁,編輯于2023年,星期三(1)注釋在SWISS-PROT中,數(shù)據(jù)分為核心數(shù)據(jù)和注釋兩大類。核心數(shù)據(jù)包括:序列數(shù)據(jù)、參考文獻(xiàn)、分類信息(蛋白質(zhì)生物來源的描述)注釋包括:(A)蛋白質(zhì)的功能描述;(B)翻譯后修飾;(C)域和功能位點(diǎn),如鈣結(jié)合區(qū)域、ATP結(jié)合位點(diǎn)等;(D)蛋白質(zhì)的二級結(jié)構(gòu);(E)蛋白質(zhì)的四級結(jié)構(gòu),如同構(gòu)二聚體、異構(gòu)三聚體等;(F)與其它蛋白質(zhì)的相似性;(G)由于缺乏該蛋白質(zhì)而引起的疾病;(H)序列的矛盾、變化等。第六十頁,共八十四頁,編輯于2023年,星期三(2)最小冗余盡量將相關(guān)的數(shù)據(jù)歸并,降低數(shù)據(jù)庫的冗余程度。如果不同來源的原始數(shù)據(jù)有矛盾,則在相應(yīng)序列特征表中加以注釋。(3)與其它數(shù)據(jù)庫的連接對于每一個登錄項(xiàng),有許多指向其它數(shù)據(jù)庫相關(guān)數(shù)據(jù)的指針,這便于用戶迅速得到相關(guān)的信息?,F(xiàn)有的交叉索引有:到EMBL核酸序列數(shù)據(jù)庫的索引,到PROSITE模式數(shù)據(jù)庫的索引,到生物大分子結(jié)構(gòu)數(shù)據(jù)庫PDB的索引等。第六十一頁,共八十四頁,編輯于2023年,星期三

提交序列數(shù)據(jù)(a)編輯電子表格(b)利用Authorin程序(c)WWW服務(wù)器使用SWISS-PROT(a)CD-ROM形式(b)ftp服務(wù)器(c)Gopher服務(wù)器(d)WWW服務(wù)器(SRS)與序列相關(guān)的操作(a)序列查詢(b)搜索同源蛋白質(zhì)序列 第六十二頁,共八十四頁,編輯于2023年,星期三TrEMBL是與SWISS-PROT相關(guān)的一個數(shù)據(jù)庫。(http://www.ebi.ac.uk/trembl/index.html)包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。TrEMBL有兩個部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登錄號。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒有登錄號。第六十三頁,共八十四頁,編輯于2023年,星期三第六十四頁,共八十四頁,編輯于2023年,星期三

PIR(proteininformationresource)1.由美國NCBI翻譯自GenBank的DNA序列(1984年);2.在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點(diǎn);3.數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。

網(wǎng)址:/分類名稱(Name)說明(Comment)記錄數(shù)(Numberofentries)PIR1已分類、已注釋(Classifiedandannotated)13572PIR2已注釋(Annotated)69368PIR3未核實(shí)(Unverified)7508PIR4未翻譯(Unencodedoruntranslated)196PIR數(shù)據(jù)庫的分類情況(Release51.03)第六十五頁,共八十四頁,編輯于2023年,星期三第六十六頁,共八十四頁,編輯于2023年,星期三目的: 幫助研究者鑒別和解釋蛋白質(zhì)序列信息, 研究分子進(jìn)化、功能基因組。它是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。1、PIR(ProteinInformationResource)第六十七頁,共八十四頁,編輯于2023年,星期三除了蛋白質(zhì)序列數(shù)據(jù)之外,PIR還包含以下信息:

(1)蛋白質(zhì)名稱、蛋白質(zhì)的分類、蛋白質(zhì)的來源;

(2)關(guān)于原始數(shù)據(jù)的參考文獻(xiàn);

(3)蛋白質(zhì)功能和蛋白質(zhì)的一般特征,包括基因表達(dá)、翻譯后處理、活化等;

(4)序列中相關(guān)的位點(diǎn)、功能區(qū)域。第六十八頁,共八十四頁,編輯于2023年,星期三PIR提供三種類型的檢索服務(wù):一是基于文本的交互式查詢,用戶通過關(guān)鍵字進(jìn)行數(shù)據(jù)查詢。二是標(biāo)準(zhǔn)的序列相似性搜索,包括BLAST、FastA等。三是結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索等。第六十九頁,共八十四頁,編輯于2023年,星期三三個子數(shù)據(jù)庫第七十頁,共八十四頁,編輯于2023年,星期三4、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫第七十一頁,共八十四頁,編輯于2023年,星期三

PDB(proteindatabank)1.目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫;2.1970年代建立,美國Brookhaven國家實(shí)驗(yàn)室維護(hù)管理;3.1988年,由美國RCSB(researchcollaboratoryforstructuralbiology)管理;4.以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來源、測定方法、提交者信息、一級結(jié)構(gòu)、二級結(jié)構(gòu)等;5.PDBsum數(shù)據(jù)庫:PDB注釋信息綜合數(shù)據(jù)庫,具有檢索、分析、可視化的功能。PDB的網(wǎng)址:/pdb(美國)PDBsum的網(wǎng)址:http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/第七十二頁,共八十四頁,編輯于2023年,星期三PDB中含有通過實(shí)驗(yàn)(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu)蛋白質(zhì)核酸糖類其它復(fù)合物PDB(ProteinDataBank)第七十三頁,共八十四頁,編輯于2023年,星期三一種是隱式序列信息(implicitsequence)

PDB的隱式序列即為立體化學(xué)數(shù)據(jù),包括每個原子的名稱和原子的三維坐標(biāo)。一種是顯式序列信息(explicitsequence) 在PDB文件中,以關(guān)鍵字SEQRES作為顯式序列標(biāo)記,以該關(guān)鍵字打頭的每一行都是關(guān)于序列的信息。第七十四頁,共八十四頁,編輯于2023年,星期三第七十五頁,共八十四頁,編輯于2023年,星期三HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論