第二章生物信息學(xué)數(shù)據(jù)庫資源_第1頁
第二章生物信息學(xué)數(shù)據(jù)庫資源_第2頁
第二章生物信息學(xué)數(shù)據(jù)庫資源_第3頁
第二章生物信息學(xué)數(shù)據(jù)庫資源_第4頁
第二章生物信息學(xué)數(shù)據(jù)庫資源_第5頁
已閱讀5頁,還剩97頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章生物信息學(xué)數(shù)據(jù)庫資源當(dāng)前1頁,總共102頁。1提綱:模式生物測(cè)序3大核酸數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫當(dāng)前2頁,總共102頁。2提綱:模式生物測(cè)序3大核酸數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫當(dāng)前3頁,總共102頁。3humanArabidopsisThermotogamaritimaEscherichiacoliBuchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis一、模式生物當(dāng)前4頁,總共102頁。4模式生物基因組計(jì)劃模式生物基因組計(jì)劃酵母、線蟲、果蠅、細(xì)菌、擬南芥等共約50多種已完成,70余種正在進(jìn)行。目前總量已達(dá)60億堿基對(duì)!當(dāng)前5頁,總共102頁。5virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenomesizesinnucleotidepairs(base-pairs)10410810510610710111010109bonyfishamphibians當(dāng)前6頁,總共102頁。6模式生物(ModelOrganism)病毒(Virus)不具有細(xì)胞形態(tài)結(jié)構(gòu),僅由核酸和蛋白質(zhì)構(gòu)成;如:人艾滋病毒HIV、SARS冠狀病毒體積小,10~300nm;嚴(yán)格的專性細(xì)胞內(nèi)寄生;對(duì)抗生素不敏感。電子顯微鏡下的SARS冠狀病毒100nm當(dāng)前7頁,總共102頁。7Escherichiacoli

大腸桿菌大腸桿菌是研究得最為詳盡的一個(gè)模式生物。這種只有1.6微米長的、可以迅速繁殖的單細(xì)胞原核生物,已經(jīng)成為實(shí)驗(yàn)室和基因工程的重要工具。EscherichiacoliO157:H7EscherichiacoliK12模式生物(ModelOrganism)當(dāng)前8頁,總共102頁。8Saccharomycescerevisiae

釀酒酵母真菌界的單細(xì)胞真核生物,它的全基因組已在1996年測(cè)定。模式生物(ModelOrganism)當(dāng)前9頁,總共102頁。9秀麗線蟲Caenorhabditiselegans

一種透明的、生活在海灘泥沙中的小蟲。細(xì)胞數(shù)目一定:成蟲細(xì)胞數(shù)目只有959個(gè),其中包括302個(gè)神經(jīng)元;

有6條染色體,全基因組于1998年測(cè)定,長9.7Mb

模式生物(ModelOrganism)當(dāng)前10頁,總共102頁。10Drosophilamelanogaster

果蠅繁殖很快、容易誘發(fā)變異的小昆蟲??傞L達(dá)1.8億核苷酸。

模式生物(ModelOrganism)當(dāng)前11頁,總共102頁。11Arabidopsisthaliana

擬南芥?zhèn)€體生活周期只有6周的十字花科小草,是一種理想的模式植物。模式生物(ModelOrganism)當(dāng)前12頁,總共102頁。12Oryzasativa

水稻單子葉植物模式植物,390-430MB模式生物(ModelOrganism)當(dāng)前13頁,總共102頁。13模式生物(ModelOrganism)非洲瓜蟾(Xenopuslavias)1個(gè)受精卵在24小時(shí)內(nèi)分裂到各種器官初具雛形的程度;當(dāng)前14頁,總共102頁。14模式生物(ModelOrganism)斑馬魚(Daniorerio)身體透明的小魚,生活周期約3個(gè)月,是研究脊椎動(dòng)物發(fā)育過程的良好對(duì)象。當(dāng)前15頁,總共102頁。15模式生物(ModelOrganism)小鼠(Musmusculus)基因組大小與人類相近,約30億個(gè)核苷酸對(duì);當(dāng)前16頁,總共102頁。16當(dāng)前17頁,總共102頁。17當(dāng)前18頁,總共102頁。18提綱:模式生物測(cè)序3大核酸數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫當(dāng)前19頁,總共102頁。19主要的數(shù)據(jù)庫資源核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫主要有SWISS-PROT,PIR,TrEMBL等,蛋白結(jié)構(gòu)數(shù)據(jù)庫有PDB,MMDB等,與基因組有關(guān)的數(shù)據(jù)庫還有dbEST,OMIM等,當(dāng)前20頁,總共102頁。203大核酸數(shù)據(jù)庫基因組數(shù)據(jù)庫的相關(guān)背景主要的基因組數(shù)據(jù)庫資源重點(diǎn)介紹GenBank當(dāng)前21頁,總共102頁。21ATTGACTAPrimaryvs.DerivativeDatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA當(dāng)前22頁,總共102頁。22DNA序列數(shù)據(jù)庫最早于1982年在歐洲分子生物學(xué)實(shí)驗(yàn)室誕生,隨即就開始了一個(gè)數(shù)據(jù)庫爆炸的時(shí)代。此后不久因一項(xiàng)美國國家健康研究中心與洛斯阿拉莫斯國家實(shí)驗(yàn)室的合同而誕生了GenBank。日本的DNA數(shù)據(jù)庫(DDBJ),在幾年后加入了數(shù)據(jù)收集的合作?;蚪M數(shù)據(jù)庫的發(fā)展歷史當(dāng)前23頁,總共102頁。23基因組數(shù)據(jù)庫的發(fā)展歷史1988年一次三方會(huì)議之后(現(xiàn)在稱之為“國際DNA序列數(shù)據(jù)庫合作計(jì)劃”)達(dá)成協(xié)議,對(duì)數(shù)據(jù)庫的記錄采用共同的格式現(xiàn)在三個(gè)中心都收集直接提交的數(shù)據(jù),并在三者之間發(fā)布。

當(dāng)前24頁,總共102頁。24三大基因數(shù)據(jù)庫Genbank

Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。它是由美國國立生物技術(shù)信息中心(TheNationalCenterforBiotechnologyInformation,

NCBI)建立和維護(hù)的。

NCBI的網(wǎng)址是:。EMBL(TheEuropeanMolecularBiologyLaboratory

)核酸序列數(shù)據(jù)庫

由歐洲生物信息學(xué)研究所(EBI)維護(hù)的核酸序列數(shù)據(jù)構(gòu)成,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成。

數(shù)據(jù)庫網(wǎng)址是:。

DDBJ(DNADataBankofJapan)數(shù)據(jù)庫

日本DNA數(shù)據(jù)倉庫(DDBJ)也是一個(gè)全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)。使用其主頁上提供的SRS工具進(jìn)行數(shù)據(jù)檢索和序列分析。

DDBJ的網(wǎng)址是:。當(dāng)前25頁,總共102頁。25GenBankPublicfreeAvailableviaInternetEMBLDataLibraryDDBJ(DNADataBankofJapan)三大基因數(shù)據(jù)庫之間的關(guān)系當(dāng)前26頁,總共102頁。26當(dāng)前27頁,總共102頁。27美國的核酸數(shù)據(jù)庫GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗從1979年開始建設(shè),1982年正式運(yùn)行。當(dāng)前28頁,總共102頁。28當(dāng)前29頁,總共102頁。29歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL數(shù)據(jù)庫也于1982年開始服務(wù)。當(dāng)前30頁,總共102頁。30當(dāng)前31頁,總共102頁。31日本于1984年開始建立國家級(jí)的核酸數(shù)據(jù)庫DDBJ,并于1987年正式服務(wù)。當(dāng)前32頁,總共102頁。32當(dāng)前33頁,總共102頁。33當(dāng)前34頁,總共102頁。34當(dāng)前35頁,總共102頁。35當(dāng)前36頁,總共102頁。36當(dāng)前37頁,總共102頁。37當(dāng)前38頁,總共102頁。38提綱:模式生物測(cè)序3大核酸數(shù)據(jù)庫蛋白質(zhì)數(shù)據(jù)庫當(dāng)前39頁,總共102頁。39蛋白質(zhì)數(shù)據(jù)庫當(dāng)前40頁,總共102頁。40主要的數(shù)據(jù)庫資源核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫主要有SWISS-PROT,PIR,TrEMBL等,蛋白結(jié)構(gòu)數(shù)據(jù)庫有PDB,MMDB等,與基因組有關(guān)的數(shù)據(jù)庫還有dbEST,OMIM等,當(dāng)前41頁,總共102頁。4160年代“蛋白質(zhì)信息資源”(ProteinInformationResource,簡稱PIR)雛形產(chǎn)生1984年,“蛋白質(zhì)信息資源”計(jì)劃正式啟動(dòng),蛋白質(zhì)序列數(shù)據(jù)庫PIR也因此而誕生。1988年,美國的NBRF、日本的國際蛋白質(zhì)信息數(shù)據(jù)庫JIPID和德國的慕尼黑蛋白質(zhì)序列信息中心MIPS合作成立了國際蛋白質(zhì)信息中心(PIR-International),共同收集和維護(hù)蛋白質(zhì)序列數(shù)據(jù)庫PIR。當(dāng)前42頁,總共102頁。42

PIR(proteininformationresource)1.由美國NCBI翻譯自GenBank的DNA序列(1984年);2.在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點(diǎn);3.數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。

網(wǎng)址:http://www-/分類名稱(Name)說明(Comment)記錄數(shù)(Numberofentries)PIR1已分類、已注釋(Classifiedandannotated)13572PIR2已注釋(Annotated)69368PIR3未核實(shí)(Unverified)7508PIR4未翻譯(Unencodedoruntranslated)196PIR數(shù)據(jù)庫的分類情況(Release51.03)當(dāng)前43頁,總共102頁。43當(dāng)前44頁,總共102頁。44除了PIR外,另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫則是SwissProt。該數(shù)據(jù)庫由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建,目前由瑞士生物信息學(xué)研究所和歐洲生物信息學(xué)研究所EBI共同維護(hù)和管理。

當(dāng)前45頁,總共102頁。45

SWISS-PROT1.瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲生物信息學(xué)研究所(EBI)合作維護(hù)(1986年);2.在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點(diǎn);3.數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗(yàn)和注釋;

SWISS-PROT的網(wǎng)址:當(dāng)前46頁,總共102頁。46當(dāng)前47頁,總共102頁。47

PIR和SwissProt是創(chuàng)建最早、使用最為廣泛的兩個(gè)蛋白質(zhì)數(shù)據(jù)庫。蛋白質(zhì)序列數(shù)據(jù)庫TrEMBL是從EMBL中的cDNA序列翻譯得到的。該數(shù)據(jù)庫采用SwissProt數(shù)據(jù)庫格式,包含EMBL數(shù)據(jù)庫中所有編碼序列的翻譯。TrEMBL:當(dāng)前48頁,總共102頁。48蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫當(dāng)前49頁,總共102頁。49主要的數(shù)據(jù)庫資源核酸序列數(shù)據(jù)庫主要有GenBank,EMBL,DDBJ等.蛋白質(zhì)序列數(shù)據(jù)庫主要有SWISS-PROT,PIR,TrEMBL等,蛋白結(jié)構(gòu)數(shù)據(jù)庫有PDB,MMDB等,與基因組有關(guān)的數(shù)據(jù)庫還有dbEST,OMIM等,當(dāng)前50頁,總共102頁。50

PDB(proteindatabank)1.目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫;2.1970年代建立,美國Brookhaven國家實(shí)驗(yàn)室維護(hù)管理;3.1988年,由美國RCSB(researchcollaboratoryforstructuralbiology)管理;4.以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來源、測(cè)定方法、提交者信息、一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)等;

PDB的網(wǎng)址:http://(美國)當(dāng)前51頁,總共102頁。51當(dāng)前52頁,總共102頁。52當(dāng)前53頁,總共102頁。53如何AccessPDB記錄?當(dāng)前54頁,總共102頁。54如何AccessPDB記錄?當(dāng)前55頁,總共102頁。55如何AccessPDB記錄?當(dāng)前56頁,總共102頁。56如何AccessPDB記錄?DownloadPDBfileViewPDBfileStructureviewoptions當(dāng)前57頁,總共102頁。57如何AccessPDB記錄?當(dāng)前58頁,總共102頁。58如何AccessPDB記錄?當(dāng)前59頁,總共102頁。59Questions:下列數(shù)據(jù)庫分別是什么類型的數(shù)據(jù)庫?GenBank,PIR,DDBJ,SWISS-PROT,PDB,EMBL,TrEMBL,當(dāng)前60頁,總共102頁。60第三章生物信息學(xué)數(shù)據(jù)庫資源--數(shù)據(jù)庫查詢當(dāng)前61頁,總共102頁。61當(dāng)前62頁,總共102頁。62當(dāng)前63頁,總共102頁。63當(dāng)前64頁,總共102頁。64PubMed的特點(diǎn)收錄的文獻(xiàn)多!!大部分與生命科學(xué)相關(guān)自動(dòng)詞語匹配鏈接點(diǎn)多,部分在網(wǎng)上免費(fèi)獲得全文也可以直接定購原文當(dāng)前65頁,總共102頁。65二、檢索規(guī)則當(dāng)前66頁,總共102頁。66二、檢索規(guī)則當(dāng)前67頁,總共102頁。67當(dāng)前68頁,總共102頁。68當(dāng)前69頁,總共102頁。69當(dāng)前70頁,總共102頁。70復(fù)雜檢索限制字段類別常用的有:Author:BaoYM[au]Title:stress[ti]Tilte/Abstract:stress[title/abstract]Date:1999:2009[dp]

當(dāng)前71頁,總共102頁。71復(fù)雜檢索布爾邏輯運(yùn)算:AND、OR、NOT必須大寫。邏輯符的運(yùn)算次序是從左至右,括號(hào)內(nèi)的檢索式可作為一個(gè)單元,優(yōu)先運(yùn)行。布爾邏輯檢索允許在檢索詞后面附加字段標(biāo)識(shí)例如:rice[ti]ANDBaoYM[au]AND2008:2009[dp]當(dāng)前72頁,總共102頁。72當(dāng)前73頁,總共102頁。73Question1:如何查找由ZhuJ實(shí)驗(yàn)室于2005以后發(fā)表的,題目中顯示關(guān)于水稻的文獻(xiàn)?當(dāng)前74頁,總共102頁。74Question2:如:我要查找BaoYM在Nature或Science上發(fā)表的論文1BaoYM[au]AND(Nature[Journal]ORScience[Journal])

2BaoYM[au]ANDNatureORScience[Journal]

3BaoYM[au]ANDNature[Journal]ORScience[Journal]4BaoYM[au]AND(NatureORScience)[Journal]哪一個(gè)檢索語言是正確的?當(dāng)前75頁,總共102頁。75在PubMed頁面上選擇AdvancedSearch:當(dāng)前76頁,總共102頁。76在PubMed頁面上選擇AdvancedSearch:當(dāng)前77頁,總共102頁。77在PubMed頁面上選擇Limits:當(dāng)前78頁,總共102頁。78在PubMed頁面上選擇Limits:當(dāng)前79頁,總共102頁。79如何獲取GenBank中的序列?當(dāng)前80頁,總共102頁。80同樣存在限制字段:常用的有:Author:XingJY[au]

title:BMAL1[ti]organism:pig[organism]或者直接輸入:Accession:

HQ657211[Accession]GeneName:BMAL1[GeneName]ProteinName:BMAL1

[ProteinName]如:XingJY[au]ANDBMAL1[ti]ANDpig[organism]如果沒有限定,就是任意字段。如何獲取GenBank中的序列?當(dāng)前81頁,總共102頁。81當(dāng)前82頁,總共102頁。82Quest

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論