第二章生物信息學教程_第1頁
第二章生物信息學教程_第2頁
第二章生物信息學教程_第3頁
第二章生物信息學教程_第4頁
第二章生物信息學教程_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第二講

生物信息學常用數(shù)據(jù)庫介紹分子生物信息學數(shù)據(jù)庫概述一級數(shù)據(jù)庫簡介二級數(shù)據(jù)庫簡介數(shù)據(jù)庫格式分子生物信息學概述1960年,第一個分子生物學數(shù)據(jù)庫

——FredSanger的胰島素一級結構的測定(1955)FredSangeratTheWelcomeTrustSangerInstitute——MargaretDayhoff:1960年,創(chuàng)立PSD,即PIR的前身1983,NIH資助建立了PIR

1984,NBRF(NationalBiomedicalResearchFoundation)開始負責維護該數(shù)據(jù)庫,數(shù)年后,著名的SWISS-PROT數(shù)據(jù)庫被組建

PioneerinBioinformaticsDr.MargaretO.Dayhoff(1925-1983)1982年,第一個核酸序列數(shù)據(jù)庫GenBank(LosAlamos)——1982年,606條序列,長度680,338bp——2004年,約43,322,756條序列,長度約7.1

1010bp2005:Internationalsequencedatabasesexceed100gigabases!一級數(shù)據(jù)庫直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類、整理和注釋。一級核酸數(shù)據(jù)庫:GenBank數(shù)據(jù)庫、EMBL數(shù)據(jù)庫、DDBJ數(shù)據(jù)庫一級蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT庫、PIR庫一級蛋白質(zhì)結構數(shù)據(jù)庫:PDB數(shù)據(jù)庫二級數(shù)據(jù)庫在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上,針對不同的研究內(nèi)容和需要,對生物學知識和信息的進一步整理得到的數(shù)據(jù)庫。人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質(zhì)序列功能位點數(shù)據(jù)庫Prosite等?;蚪M圖譜DNA序列蛋白質(zhì)序列蛋白質(zhì)結構基因組數(shù)據(jù)庫核酸序列數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫蛋白質(zhì)結構數(shù)據(jù)庫二級數(shù)據(jù)庫復合數(shù)據(jù)庫

建立分子生物學信息庫的流程圖一個數(shù)據(jù)庫記錄(entry)一般由兩部分組成:1.原始序列數(shù)據(jù)(sequencedata)2.描述這些數(shù)據(jù)生物學信息的注釋(annotation)注釋中包含的信息與相應的序列數(shù)據(jù)同樣重要和有應用價值一個數(shù)據(jù)庫記錄(entry)一般由兩部分組成:

1.原始序列數(shù)據(jù)(sequencedata)2.描述這些數(shù)據(jù)生物學信息的注釋(annotation)注釋中包含的信息與相應的序列數(shù)據(jù)同樣重要和有應用價值數(shù)據(jù)的完整性和注釋工作量:1.序列數(shù)據(jù)廣,序列注釋不夠完整2.庫數(shù)據(jù)面窄,序列注釋全面數(shù)據(jù)庫的動態(tài)更新:1.不斷增加2.不斷修正人類遺傳信息數(shù)據(jù)與科學家的社會責任

“如果你們想使你們一生的工作對人類有益,那么你們只了解應用科學本身還是不夠的。關心人本身必須始終成為一切技術努力的目標,要關心如何組織人的勞動和商品分配,從而以這樣的方式保證我們科學思維的結果可以造福于人類,而不致成為詛咒的禍害。當你們沉思你們的圖表和方程式時,永遠不要忘記這一點!”—愛因斯坦人類遺傳數(shù)據(jù)國際宣言綱要(修正稿)

聯(lián)合國教科文組織國際生命倫理學委員會

2003年1月,巴黎

“…它們關系到對人權和基本自由的保護,關系到在收集、處理和儲存科學數(shù)據(jù)以及醫(yī)療數(shù)據(jù)、個人數(shù)據(jù)和敏感數(shù)據(jù)時對人類尊嚴的尊重,承認人類遺傳數(shù)據(jù)因其敏感的性質(zhì)所擁有的特殊地位,因為它們既可以提供醫(yī)學信息又可以提供關系一生的個人信息,而且可能含有關于家庭的信息,包括子孫后代,或者在某種情況下涉及到當事人所屬社群的信息,考慮到人類遺傳數(shù)據(jù)的收集、處理、使用和儲存對于科學與醫(yī)學的進步,以及對于把它們用于非醫(yī)學目的、特別用于司法目的是至關重要的。”“盡管如此,意識到人類遺傳數(shù)據(jù)的收集、處理、使用和儲存,對于人權和基本自由的行使與遵守,以及對于人類尊嚴的尊重有著潛在的風險,重申世界人類基因組與人權宣言制定的原則,以及平等、公正、團結、尊重人類尊嚴、人權和基本自由的原則,既有研究的自由又有對隱私的保護,這些必須是人類遺傳數(shù)據(jù)的收集、處理、使用和儲存的基礎,宣布遵循這些原則.一級數(shù)據(jù)庫簡介核酸(DNA)序列數(shù)據(jù)庫

1.)GenBank(美國)71%2.)EMBL(歐洲)19.6%3.)DDBJ(日本)9.4%

并稱為世界三大核苷酸序列數(shù)據(jù)庫(公共序列數(shù)據(jù)庫,PublicSequenceDatabase

)GenBankEMBLDDBJ1.)

GenBank(美國國家生物技術信息中心,NCBI)1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)

什么是GenBank?

GenBank是美國國立衛(wèi)生研究院維護的基因序列數(shù)據(jù)庫,匯集并注釋了所有公開的核酸序列。GenBank屬于一個序列數(shù)據(jù)庫的國際合作組織,包括EMBL和DDBJ。每個記錄代表了一個單獨的、連續(xù)的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照分類學劃分,另外一些則按照生成DNA序列數(shù)據(jù)庫的直接提交。這些作者將序列數(shù)據(jù)庫作為論文的一部分來發(fā)表,或將數(shù)據(jù)庫直接公開。

GenBank

GenBank是一個有13億堿基,來自于100,000多種生物的核苷酸序列的數(shù)據(jù)庫。每條紀錄都有編碼區(qū)(CDS)特征的注釋,還包括氨基酸的翻譯。遺傳密碼-15個遺傳密碼的概要。用來確保GenBank中紀錄的編碼序列被正確的翻譯。

如何向GenBank提交序列

所有進入GenBank的記錄都是靠直接遞交進去,多數(shù)作者選用sequin或BankitNCBI網(wǎng)址:http://WWW./GenBank網(wǎng)址http://WWW./Genbank/

如何訪問GenBank

通過Entrez來查詢。用accessionnumber,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術語來查詢。用BLAST在GenBank和其他數(shù)據(jù)庫中進行序列相似搜索。另外一種選擇是可以用FTP下載整個的GenBank和更新數(shù)據(jù)。2.)EMBL(歐洲分子生物學實驗室,EMBL)

EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)

EMBL簡介

EMBL是歐洲的主要核苷酸數(shù)據(jù)庫,始建于1980年,由位于英國劍橋附近的歐洲生物信息學研究所(EBI)維護。EMBL數(shù)據(jù)庫已處理自1982年以來全世界范圍內(nèi)所公布數(shù)據(jù)。數(shù)據(jù)來源:基因組計劃的序列、各研究人員直接遞交的序列以及由歐洲專利事務所發(fā)送的專利序列。

EMBL數(shù)據(jù)庫包括:發(fā)行區(qū)(EMBLREL)序列每日增添區(qū)(EMBLNEW)EMBL被劃分為19個組(division),這些組的區(qū)分原則是根據(jù)分類學(如HUM代表人,PLN代表植物,PRO代表原核生物等)。此外,還有些根據(jù)資料特性進行分類(如EST)EMBL數(shù)據(jù)庫結構是按flatfile(平面文件)格式布局,包括四大類主要數(shù)據(jù)區(qū)(block)第一區(qū)包括描述和標示符:如條目名稱、保密狀況、分子類型、分類、序列總長度第二區(qū)是引文區(qū):引文詳細內(nèi)容以及原遞交者姓名和聯(lián)系方式第三區(qū)是特征區(qū):包括序列的特征,如詳細來源、生物特征、特征性定位和限定詞第四區(qū):由序列資料、長度和堿基組成

EMBL序列提交Webin:通過一系列交互式WWW表格指導用戶發(fā)送和描述序列

sequin:是NCBI建立的一種新的適合多平臺使用的軟件工具,不限于提交到GenBank,也可發(fā)送到EMBL和DDBJ

FTP:

EMBL數(shù)據(jù)查詢簡單序列查找:50個條目SRS:檢索所有數(shù)據(jù)庫信息EMBL數(shù)據(jù)庫序列記錄增長趨勢43,322,756EMBL數(shù)據(jù)庫序列總長增長趨勢7.1

1010bp5.8

105bp3)DDBJ(日本國家遺傳學研究所,NIG)1986

DatabankofJapanNIG(NationalInstituteofGenetics)DDBJ文件分布與GenBank相似,劃分為不同區(qū)組(division),基本信息單位采用GenBank的flatfile格式。有三種序列提交方法:用Sakura提供WWW服務器用E-mail利用MSS大量發(fā)送Sequin進入DDBJ的方法:GetentrySRSBLAST和FASTADDBJ網(wǎng)址http://www.ddbj.nig.ac.jp2.蛋白質(zhì)序列數(shù)據(jù)庫1.)SWISS-PROT(歐洲)2.)PIR(美國)

DNA序列EMBLTREMBLSWISS-PROT來自實驗室的蛋白質(zhì)序列GenBankPATCHXPIR-PSDSequin&Banklt自動翻譯手工校閱/注解數(shù)據(jù)交換自動翻譯手工校閱/注解

蛋白質(zhì)序列數(shù)據(jù)庫產(chǎn)生流程圖1.)SWISS-PROT和TrEMBL日內(nèi)瓦大學醫(yī)學生物化學系和歐洲生物信息學研究所(EMBI)合作維護(1986年);在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點;數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗和注釋數(shù)據(jù)記錄包括兩部分:核心數(shù)據(jù)(序列資料、參考文獻、分類資料)注釋(結構域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾、突變體等)數(shù)據(jù)存在滯后性TrEMBL數(shù)據(jù)庫的建立TrEMBL數(shù)據(jù)庫(1995)

格式與SWISS-PROT格式相同,序列來自EMBL核苷酸數(shù)據(jù)庫編碼區(qū)的翻譯網(wǎng)絡服務器:ExPASy(http://WWW./)文本檢索方法:鍵入SWISS-PROT或TrEMBL中出現(xiàn)任何文本通過描述基因名稱和物種、作者、引文等進行高級檢索SRS檢索SWISS-PROT數(shù)據(jù)庫中的行代碼SWISS-PROT的網(wǎng)址:/sprotTrEMBL的網(wǎng)址:http://www.ebi.ac.uk/trembl/index.html2.)PIR(proteininformationresource)

由美國NCBI翻譯自GenBank的DNA序列(1984年);在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點;數(shù)據(jù)依據(jù)注釋的質(zhì)量分類P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論