




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、實用文檔一步一步教你使用NCBI 數(shù)據(jù)庫資源隨著 ncbi 數(shù)據(jù)庫各種資源的涌現(xiàn),NCBI 已經(jīng)成為科研工作者必不可少的資料查找,數(shù)據(jù)分析的工具。那么NCBI數(shù)據(jù)如何使用,新手入門一步一步教你認識和使用 NCBI 數(shù)據(jù)庫。一 綜合數(shù)據(jù)庫NCBI 數(shù)據(jù)庫集美國國立生物技術(shù)信息中心(NationalCenter for Biotechnology Information),即我們所熟知的 NCBI是由美國國立衛(wèi)生研究院(NIH) 于 1988 年創(chuàng)辦。創(chuàng)辦 NCBI的初衷是為了給分子生物學(xué)家提供一個信息儲存和處理的系統(tǒng)。除了建有 GenBank核酸序列數(shù)據(jù)庫 ( 該數(shù)據(jù)庫的數(shù)據(jù)資源來自全球幾大 D
2、NA數(shù)據(jù)庫,其中包括日本 DNA數(shù)據(jù)庫 DDBJ、歐洲分子生物學(xué)實驗室數(shù)據(jù)庫 EMBL以及其它幾個知名科研機構(gòu) ) 之外, NCBI 還可以提供眾多功能強大的數(shù)據(jù)檢索與分析工具。 目前,NCBI提供的資源有 Entrez 、Entrez Programming Utilities 、My NCBI、PubMed、PubMedCentral 、Entrez Gene、NCBI Taxonomy Browser 、 BLAST、 BLAST Link (BLink) 、Electronic PCR等共計 36 種功能,而且都可以在 NCBI 的主頁 上找到
3、相應(yīng)鏈接,其中實用文檔多半是由BLAST功能發(fā)展而來的。1 NCBI 最新進展1.1 PubMed 搜索功能的增強去年, NCBI 對 PubMed進行了幾項改進工作,改動最大的是搜索界面和摘要瀏覽界面。其中,搜索界面中新增了“ Advanced Search ”選項 ( 這實際上是對以往“Limits ”和“ Preview/Index ”功能的整合 ) ,并且增加了一個新的窗口,用戶可以在此窗口下通過“論文作者名” 、“論文所屬雜志名稱”、“論文出版日期”等限定條件進行搜索。而且, “論文作者名”和“論文所屬雜志名稱”還設(shè)有文本框自動填充功能。現(xiàn)在,在 PubMed數(shù)據(jù)庫中進行文本搜索的同
4、時還可以立即通過兩個“內(nèi)容傳感器 (content sensors) ”進行分析。一個“內(nèi)容傳感器”是根據(jù)作者姓名、所屬雜志名稱或雜志名縮寫、出版日期、卷號或刊號等信息進行分析,然后將符合條件的搜索結(jié)果排列到結(jié)果列表的頂端。另一個“內(nèi)容傳感器”是根據(jù)文章是否與用戶給出的條件,例如是否與某種藥物相關(guān),在 NCBI 的新增數(shù)據(jù)庫 PubMed Clinical Q&A中進行搜索,然后給出搜索結(jié)果。實用文檔1.2新增 primer-BLAST 分析工具2008 年, NCBI 新增了設(shè)計、分析 PCR引物的工具 Primer-BLAST 。 Primer-BLAST 的引物設(shè)計功能是基于 N
5、CBI 現(xiàn)有的 Primer3 程序發(fā)展而來的, Primer3 程序可以為一段DNA模板序列設(shè)計PCR引物。 Primer-BLAST 在設(shè)計出引物之后還在某些相應(yīng)數(shù)據(jù)庫中進行BLAST搜索,因此可以得到特異性引物,擴增出目的片段。用戶在給出DNA模板的同時還可以限定正向引物或反向引物,這樣, NCBI就只會給出另一條引物。如果用戶給出了模板DNA和兩條引物序列,Primer-BLAST 就只會運行BLAST程序,幫助用戶對引物進行分析。用戶也可以只給出兩條引物而不給出模板序列,這時Primer-BLAST 會通過 BLAST程序分析出與這對引物最匹配的模板序列。 Primer-BLAST
6、進行 BLAST搜索的數(shù)據(jù)庫包括RefSeq mRNA、 BLAST nr 和 12 種模式生物基因組數(shù)據(jù)庫。1.3 BLAST 的改進及更新NCBI 對 BLAST進行了全新的改版,推出了最新的webBLAST report 。在最新的 BLAST比對結(jié)果頁面中, “圖形化概要 (Graphic Summary) ”、“具體描述 (Descriptions) ”以及“序列比對 (Alignments) ”等部分頁面都可以展開和收起。實用文檔此外,網(wǎng)頁上還提供了“結(jié)果輸出格式選項 (Formatting) ” 和“結(jié)果下載選項 (download) ”,在下載選項中還新增了 CSV格式下載。這
7、樣,讀者可以輕松地將 BLAST的比對結(jié)果輸入到表格處理軟件中去。另外, BLAST比對結(jié)果頁面上的“ Alignments ”部分還提供了每一條命中序列在Entrez GENE中的相關(guān)信息,這些信息包括基因名稱、來源物種以及在PubMed數(shù)據(jù)庫中與該基因有關(guān)條目的數(shù)目等?!癇LAST tree ”結(jié)果輸出模式可以測量不同序列間的距離,自動收起亞類信息等。 現(xiàn)在,可以以 Newick 格式或 Nexus格式下載 BLAST tree結(jié)果,也可以在進化樹圖中選擇任一節(jié)點重新構(gòu)樹。最后還要向讀者介紹 ncbi blast 的一個新網(wǎng)址: URL: 。
8、NCBI 建議讀者都使用這個網(wǎng)址登陸 NCBI BLAST,因為該 BLAST使用更多的計算機進行分析,也具有更強的系統(tǒng)容錯能力。1.4 Entrez Gene改進及更新基因組注釋工作當中有一項重要的工作就是定位基因重疊群序列 (contig sequences),即在染色體中找出某個基因的定位。實際上基因組測序工作就是將許多基因重疊序列彼此拼接,最后拼出“完整( 中間會有一些縫隙) ”的基因組圖實用文檔譜。這項工作可以直接將某個基因與某段基因重疊群序列對應(yīng)起來,但不能直接將該基因與染色體聯(lián)系起來,而這恰恰是生物學(xué)家最感興趣的地方。因此,為了能讓用戶在搜索基因的同時,也能了解到一些該基因在染色
9、體中的定位情況,Entrez Gene推出了新的“ Limits ”服務(wù),用戶可以使用該服務(wù)在基因組范圍內(nèi)進行基因搜索。用戶可以在某個物種染色體的某個區(qū)域里進行基因搜索。Entrez Gene會按以下三種順序?qū)λ阉鞒龅幕蜻M行排序:1. 按照基因名排序。2. 按照相關(guān)性排序,即按照結(jié)果與用戶搜索所使用的關(guān)鍵詞,例如基因名稱等的匹配程度排序。3. 按照基因重要性排序,即按照該基因在PubMed、Homologene、 Protein Clusters、 Online MendelianInheritancein Man(OMIM)或 Bookshelf中文獻數(shù)量的多少進行排序。2 ENTREZ
10、搜索系統(tǒng)實用文檔2.1 EntrezEntrez 數(shù)據(jù)庫是一個整合了多個數(shù)據(jù)庫的綜合檢索系統(tǒng),它包含了35 個不同數(shù)據(jù)庫的信息,共收錄有超過350,000,000條記錄 ( 表 1) 。 Entrez數(shù)據(jù)庫支持使用簡單的布爾查詢 (Boolean queries)方式進行文本搜索,可以下載不同格式的數(shù)據(jù)資料,還可以按照生物學(xué)關(guān)系提供與其它相關(guān)記錄的鏈接。這些鏈接給出的都是最簡要的信息,例如會給出一條序列和報道該序列的論文摘要,或者會給出一條蛋白質(zhì)序列的編碼DNA序列或該蛋白質(zhì)的3D 結(jié)構(gòu)圖。這種通過計算機運算,即基于比較序列相似性或PubMed中摘要的相似性,所給出的相關(guān)鏈接信息可以以最快的速
11、度提供給用戶大量的相關(guān)信息。還有一種叫做“LinkOut ”的功能將這種鏈接功能擴展到了與外部數(shù)據(jù)庫,例如各物種基因組數(shù)據(jù)庫之間的鏈接。Entrez 中搜索到的數(shù)據(jù)可以以多種格式輸出,也可以打包下載或逐個下載。2.2 My NCBI實用文檔My NCBI 功能是為了方便用戶儲存?zhèn)€人配置信息,例如搜索條件、 LinkOut 參數(shù)或文件出處等而設(shè)的。用戶登陸自己的My NCBI 帳戶后,就可以進行保存搜索設(shè)置、管理郵件等操作了。 My NCBI 中有一種稱作“Collections”的功能可以讓用戶儲存搜索結(jié)果和文獻結(jié)果。BLAST中也設(shè)有類似的功能,這樣用戶就可以使用同一條件進行多次比對了。2.
12、3 Entrez programming utilities(E-Utilities)E-Utilities(Entrez應(yīng)用程序 ) 由 8 種服務(wù)器程序組成,借助 E-Utilities可以設(shè)置一套標準參數(shù)進行搜索、鏈接和下載數(shù)據(jù) ( 表 2) 。用戶可以到NCBI 主頁上的 Entrez Tools鏈接中了解更多有關(guān)E-Utilities的信息。2.4 TaxonomyNCBI Taxonomy(分類 ) 數(shù)據(jù)庫在 Entrez 生物學(xué)數(shù)據(jù)庫中起到了組織中心的作用。該數(shù)據(jù)庫為每一個分類學(xué)上的節(jié)點,從超界節(jié)點 (superkingdoms)到亞種節(jié)點 (subspecies),提供數(shù)據(jù)鏈接
13、服務(wù)。分類數(shù)據(jù)庫以每月增加2200 個新分類單位的速度在增長,共收錄有將近300,000 種物種信息,這些信息為“屬 (genus) ”級別,或者雖然未達到“屬(genus) ”級別,但在Entrez 至少收錄有一條該物種的核酸序列或蛋白質(zhì)序列信息。使用Taxonomy 網(wǎng)頁可以了解該物種在分類實用文檔學(xué)上的地位,也可以在某一物種范圍內(nèi)對Entrez 數(shù)據(jù)庫進行搜索。3 BLAST 序列相似性搜索程序BLAST程序是一種進行序列相似性搜索的程序,它可以對核酸序列或蛋白質(zhì)序列進行分析。經(jīng)過BLAST程序比對之后會得到各種序列結(jié)果,例如轉(zhuǎn)錄體序列(UniGene) 信息、基因序列 (Gene) 信
14、息、3D 結(jié)構(gòu)信息 (MMDB)或芯片信息 (GEO)等。用戶也可以使用My NCBI功能保留 BLAST中設(shè)定的搜索題目、近期搜索結(jié)果和搜索參數(shù)等信息。還有一種BLAST程序BLAST2Sequences程序,它可以對兩條DNA序列或蛋白質(zhì)序列進行比對,并獲得一個點對點的比對結(jié)果。BLAST程序也可以作為一個獨立的程序下載到本地計算機上使用,用戶可以到 /blast/executables/LATEST/下載(表 3)。3.1 BLASTBLAST默認的比對信息數(shù)據(jù)庫包括NCBI中的人類基因組數(shù)據(jù)實用文檔庫和人類RefSeq 數(shù)據(jù)庫。比對之后, BLAST會按
15、照評分高低、序列相似度對結(jié)果進行排序,另外 BLAST還可以對小鼠數(shù)據(jù)庫以及其它數(shù)據(jù)庫進行比對。蛋白質(zhì)序列的默認數(shù)據(jù)庫包括 GenBank非冗余數(shù)據(jù)庫、RefSeq、Swiss-Prot 、PDB、PIR 和 PRF等。此外,還包括這些數(shù)據(jù)庫下的子數(shù)據(jù)庫以及其它一些專利數(shù)據(jù)庫和諸如核酸數(shù)據(jù)庫等環(huán)境樣品數(shù)據(jù)庫(environmental samples)。3.2 BLAST output formats標準的 BLAST輸出格式包括默認的配對比對格式(defaultpairwise alignment)、搜索定位的多序列比對格式(query-anchoredmultiplesequence al
16、ignmentformats)、簡單的可解析的Hit Table格式以及按照分類學(xué)給出的報告格式等。一種叫做“按照同一性進行配對(Pairwise withidentities)”的格式能更好地突出目標序列與檢索序列之間的差別。而Web BLAST中提供的樹狀瀏覽格式則會按照搜索出的目標序列與檢索序列之間的距離不同將這些目標序列進行聚類,形成一幅樹狀圖來顯示結(jié)果。BLAST比對之后給出的每一種格式的比對結(jié)果都會有一個分值和E 值。用戶也可以設(shè)定一個E 值的閾值來篩選比對結(jié)果。實用文檔3.3 MegaBLASTMegaBLAST也是一種 BLAST程序,不過它主要是用來在非常相似的序列之間( 來
17、自同一物種 ) 比對同源性的。使用者通過網(wǎng)頁使用MegaBLAST進行批量比對操作,這比使用標準的BLAST程序要快10 倍。 MegaBLAST在 NCBI 基因組 BLAST頁面下是默認的搜索工具,借助它能對增長迅速的TraceArchives數(shù)據(jù)庫和標準BLAST使用的數(shù)據(jù)庫進行快速檢索。NCBI 還為跨物種核酸序列快速搜索提供了DiscontiguousMegaBLAST,它使用非重疊群字段匹配算法(noncontiguousword match) 來進行核酸比對。DiscontiguousMegaBLAST比blastx等翻譯后比對要快得多,同時它在比較編碼區(qū)時也具有相當高的敏感度。
18、3.4 Genomic BLASTNCBI在 Map Viewer 中還為 100 多個物種設(shè)有Genomic BLAST。通過默認的Genomic BLAST既能對某個物種的基因組序列進行搜索,也能對其它的數(shù)據(jù)庫進行搜索,比如RefSeqs 數(shù)據(jù)庫、 EST數(shù)據(jù)庫等。實用文檔4 文獻資源4.1 PubMed 數(shù)據(jù)庫目前,PubMed數(shù)據(jù)庫中收錄有自1860年以來20,400種生命科學(xué)類雜志、刊物刊登過的超過1800萬條的文獻記錄。這些文獻中有980 萬條摘要信息,最早的記錄可追溯至19 世紀 80 年代,其中有 870 萬條可以檢索到全文。 PubMed數(shù)據(jù)庫與其它 Entrez 數(shù)據(jù)庫都保
19、持著密切聯(lián)系,這樣可以在不同的數(shù)據(jù)庫之間架起一座連接的橋梁。 PubMed數(shù)據(jù)庫還會通過計算機自動檢索出包含相近 MeSH詞匯、文獻題目以及摘要的相關(guān)文獻信息提供給用戶。默認的“ AbstractPlus ”輸出格式給出了該文獻的摘要信息和五篇與該文獻相關(guān)信息的簡單介紹,這樣用戶就可以獲得更多的有關(guān)資訊了。4.2 PubMed CentralPubMed Central是一個收錄生命科學(xué)領(lǐng)域同行評審期刊(Peer Reviewed Journals)文獻的數(shù)據(jù)庫,現(xiàn)收錄超過160萬條全文文獻,并且僅去年一年就增長了51%。而且,包括核酸研究 (Nucleic Acids Research)在內(nèi)
20、的 480 多種期刊會為 PubMed Central提供全文文獻。實用文檔所有參與PubMed Central的出版商也都必須在文獻出版后12 個月之內(nèi)免費為PubMedCentral提供全文文獻。 由于 NIH于 2008 年 4 月 7 日開始執(zhí)行向公眾免費開放使用的政策,故而 PubMed Central 也必須免費向公眾開放使用。如此一來,用戶使用 Entrez 就可以搜索到 PubMed和 PubMedCentral中的所有文獻信息了。4.3 NCBI Bookshelf 、NLM Catalog 以及 JournalsdatabaseNCBI Bookshelf通過與作者和出版商
21、合作,收錄了86 種在線教科書和生物醫(yī)藥類圖書。NCBI Bookshelf作為獨立于Entrez數(shù)據(jù)庫的一個單獨數(shù)據(jù)庫,它里面的信息也可以通過文本搜索或Entrez數(shù)據(jù)庫,例如PubMed、 PubMedCentral、Gene和OMIM中的鏈接搜索到。NCBI Bookshelf中的圖書不是象普通圖書那樣一本一本的存放的,而是按照內(nèi)容將它們分成了 230,000 個不同的部分、章節(jié)進行儲存的。用戶瀏覽其中一個內(nèi)容的時候也可以跳到該書的其它部分或者直接搜索這本書中的特定內(nèi)容進行閱讀。NLM Catalog 為藏書超過130 萬冊的美國國立衛(wèi)生圖書館(NLM)記錄設(shè)立目錄信息,包括雜志、圖書、
22、手稿、計算機實用文檔軟件、錄音文件和其它電子資源。每一條記錄都可鏈接到NLMLocatorPlus和具有相近題目或MeSH詞匯的相關(guān)文件目錄信息。Journals database(期刊數(shù)據(jù)庫) 包含了每一個Entrez數(shù)據(jù)庫中的所有期刊信息。目前共收錄有超過 22,000 條記錄,期刊數(shù)據(jù)庫為每一份期刊都建立了 ISO 刊名縮寫索引、出版日期索引和 NLM catalog 鏈接索引以及 Entrez 中引用該期刊中文獻的索引。5 基因序列信息以及相關(guān)序列信息5.1數(shù)據(jù)庫5.1.1 Entrez GeneEntrez Gene數(shù)據(jù)庫為用戶提供基因序列注釋和檢索服務(wù),還會鏈接到NCBI的 Map
23、 Viewer 、 Evidence Viewer、 ModelMaker、BLAST Link (Blink)、 protein domains from theConserved Domain Database(CDD)等數(shù)據(jù)庫資源以及其它與基因相關(guān)的資源。EntrezGene數(shù)據(jù)庫收錄了來自5300 多個實用文檔物種的 430 萬條基因記錄。 而且, NCBI 除了擁有自己的注釋工作人員之外,還在不斷從許多其它國際合作組織那里獲取新的基因注釋記錄信息。EntrezGene數(shù)據(jù)庫與 PubMed中最新引文之間的鏈接是由基因注釋人員負責維護的,這項功能也被稱作GeneRIF。完整的 Entr
24、ez Gene數(shù)據(jù)集以及物種特異性的數(shù)據(jù)亞集可以在NCBI FTP 站點中的 NCBI ASN.1 中找到。一種可以將 NCBI ASN.1 格式轉(zhuǎn)化成 XML格式的名為 ene2xml 的軟件也可以到/toolbox/ncbi_tools/converters/by_program/gene2xml下載。5.1.2 UniGene和 ProtESTUniGene 從屬于 GenBank的一部分,專門收集轉(zhuǎn)錄體序列數(shù)據(jù),包括 EST序列和非冗余序列,每一條UniGene 記錄都代表一個潛在的基因。UniGene 收錄了 GenBank中來自所有物種的將近70,0
25、00 條 EST序列,這些物種中包括58 種動物、43 種植物和真菌以及6 種真核生物。 現(xiàn)在,在構(gòu)建基因表達譜芯片時都是參考UniGene 中的數(shù)據(jù)來進行設(shè)計的。UniGene數(shù)據(jù)庫每周都會更新EST信息,每兩個月會更新序列信息。實用文檔ProtEST 作為 UniGene 序列的輔助確認工具會預(yù)先對序列進行 BLAST比對,它所使用的比對方式是將UniGene 核酸序列的 6 種可能翻譯蛋白質(zhì)序列與模式生物蛋白質(zhì)序列進行比對。5.1.3 HomoloGene數(shù)據(jù)庫HomoloGene數(shù)據(jù)庫是一個在20 種完全測序的真核生物基因組中自動檢索同源基因的系統(tǒng),包括直系同源與旁系同源。Homolo
26、Gene的結(jié)果報告包括基因同源性和來自O(shè)MIM、小鼠基因組信息學(xué) (Mouse Genome Informatics, MGI)、斑馬魚信息網(wǎng)絡(luò) (Zebrafish Information Network, ZFIN)、酵母基因組數(shù)據(jù)庫 (Saccharomyces Genome Database, SGD)、直系同源基因簇 (Clusters of Orthologous Groups, COG)和果蠅數(shù)據(jù)庫 (FlyBase)的基因表型信息。HomoloGene下載功能能下載HomoloGene中的轉(zhuǎn)錄體、蛋白質(zhì)和基因組序列信息,還能下載基因組中特定基因的上游和下游序列。5.1.4 Re
27、ference SequencesReference Sequences(RefSeq)數(shù)據(jù)庫是一個收錄注釋過的非冗余轉(zhuǎn)錄體、蛋白質(zhì)和基因組序列數(shù)據(jù)庫。2008 年,實用文檔Reference Sequences 數(shù)據(jù)庫收錄的記錄增加了 40%。同年 7 月公布的 Reference Sequences 數(shù)據(jù)庫 30 共收錄了來自 5400種不同物種的300 萬條核酸序列和560 萬條蛋白質(zhì)序列。用戶可以通過Entrez 核酸和蛋白質(zhì)數(shù)據(jù)庫搜索到RefSeq 序列,也可以通過NCBI FTP 站點進入RefSeq 數(shù)據(jù)庫。5.1.5 GenBank和其它數(shù)據(jù)庫來源的序列用戶可以通過三個 Ent
28、rez 數(shù)據(jù)庫 Nucleotide 、 EST和 Genome Survey Sequence(GSS)( 這三個數(shù)據(jù)庫在E-Utilities中分別稱作nuccore 、nucest 和 nucgss) 搜索到 GenBank中的序列。 Entrez Nucleotide 數(shù)據(jù)庫含有除了收錄之外的 GenBank中所有的序列,它還收錄有全基因組鳥槍法測序序列、第三方注釋序列 (Third Party Annotation sequences) 和 Entrez 結(jié)構(gòu)數(shù)據(jù)庫中的序列。對這些記錄中編碼序列概念上的翻譯信息都收錄在了 Entrez 蛋白質(zhì)數(shù)據(jù)庫中。 EST數(shù)據(jù)庫收錄了 GenBa
29、nk EST中的所有數(shù)據(jù)和沒有生物學(xué)注釋信息的“單分子識別首次通過 (first-pass single-read) ”的 cDNA序列。同樣, GenBank中的 GSS數(shù)據(jù)庫也收錄了沒有生物學(xué)注釋信息的單分子識別首次通過的基因組序列。實用文檔5.2分析工具5.2.1 ORF Finder、 Spidey 和 SplignNCBI 提供了幾種分析工具可以幫助用戶在基因組內(nèi)發(fā)現(xiàn)編碼序列。 Open Reading Frame(ORF)Finder程序可以將一段DNA序列按照6 種進行翻譯,然后返回某一段DNA序列中可能的 ORF。Spidey 工具將一組真核生物的 mRNA序列與一個基因組序列
30、進行比對,使用 4 種物種的 RNA剪切模型 ( 脊椎動物、果蠅、秀麗隱桿線蟲和植物 ) 來預(yù)測 RNA剪切位點。 Splign 是一種通過比對 cDNA和基因組序列來發(fā)現(xiàn)剪切位點的工具,它可以在測序出現(xiàn)錯誤的情況下使用,還可以進行跨物種的比對。 Splign使用了一種Needleman-Wunsch 算法,與區(qū)域化算法 (compartmentization algorithm)一起使用能發(fā)現(xiàn)可能的基因位點。用戶可以在Splign網(wǎng)頁上下載單獨為大批量分析而專門設(shè)計的Splign工具使用。5.2.2 Electronic PCR(e-PCR)正向 e-PCR能在 UniSTS 數(shù)據(jù)庫收錄的超
31、過510,000 條 STS實用文檔標記物中搜索到與STS引物配對的序列。反向e-PCR則通過搜索基因組數(shù)據(jù)庫和轉(zhuǎn)錄體數(shù)據(jù)庫來估計基因組結(jié)合位點、擴增子大小和引物特異性。用戶可以在/pub/schuler/e-PCR上找到e-PCR的源代碼(source code)。5.2.3 Conserved CDS database(CCDS)不同的科研小組使用他們各自的方法研究同一物種基因組時,對于基因組中的基因定位可能會得到相似但不完全相同的結(jié)論。這樣,就會對其它的科研工作者造成困擾。在所有的模式生物中,目前對人類和小鼠的基因組序列研究得最多也最透徹,因此它們
32、最適合用來作為“標準的 (consensus) ” 基因注釋的“實驗材料” 。CCDS數(shù)據(jù)庫計劃 (/CCDS/) 就是由NCBI、歐洲生物信息學(xué)研究院 (European Bioinformatics Institute) 、韋爾科姆基金會桑格研究院 (Wellcome TrustSanger Institute)和加州大學(xué)圣克魯茲分校(UCSC)共同合作建立的標準的有關(guān)人類和小鼠基因蛋白質(zhì)編碼區(qū)的數(shù)據(jù)庫,該數(shù)據(jù)庫會不斷更新來保持其高水準。到目前為止, CCDS數(shù)據(jù)庫共收錄了超過20,000 條人類基因CDS注釋數(shù)據(jù)和實用文檔17,500 條小鼠基因
33、CDS注釋數(shù)據(jù)。用戶可以在 CCDS的網(wǎng)頁上使用基因名或序列 ID 進行搜索,還可以鏈接到 EntrezGene數(shù)據(jù)庫、歷史記錄信息、轉(zhuǎn)錄體和蛋白質(zhì)序列、MapViewer 、Ensemble Genome Browser 、 UCSC Genome Browser和桑格研究院的Vega Browser 。用戶可以到/pub/CCDS/下載 CCDS序列數(shù)據(jù)。6 基因組信息6.1數(shù)據(jù)庫6.1.1 Entrez GenomeEntrez Genome 數(shù)據(jù)庫收錄了850 多種微生物、 3100 多種病毒以及 1600 多種真核生物細胞器的完整基因組數(shù)據(jù)以及
34、將近 50 種動物、綠色植物和真菌的700 多條染色體信息,總共收錄有6200 多條序列,其中有882 條是去年新增的序列信息。而對于更高等的真核生物基因組,Entrez Genome 數(shù)據(jù)庫會直接鏈接到NCBI Map Viewer 。原核生物、病毒和真核生物細胞器的基因組則可以鏈接到專門的頁面和BLAST頁面。另外還專門設(shè)有植物基因組頁面(Plant Genomes實用文檔Central Web page),在上面可以查詢到完整的植物基因組測序計劃、植物基因組BLAST或者 Map Viewer 等信息。6.1.2 Entrez Genome ProjectEntrez Genome Pr
35、oject 數(shù)據(jù)庫 (Entrez 基因組計劃數(shù)據(jù)庫 ) 向用戶提供了一個有關(guān)正在進行中的大規(guī)模植物基因組測序、組裝、注釋和作圖工作的全面概況。目前,該數(shù)據(jù)庫顯示,一共對2200 種植物進行了測序工作,其中750 種已經(jīng)完成了所有工作,700 種正處于草圖組裝階段。該數(shù)據(jù)庫的規(guī)模還在不斷擴大,以至于還囊括了多個單獨的測序項目,例如病毒群體計劃(viral population projects)、對 16S核糖體 RNA元基因庫 (16S ribosomal RNA metagenomic)等靶位點的測序計劃(targeted locus sequencing projects)以及轉(zhuǎn)錄組計劃
36、等。 Entrez 基因組計劃數(shù)據(jù)庫與其它 Entrez 數(shù)據(jù)庫,例如 Entrez 核酸數(shù)據(jù)庫和 Entrez 基因組數(shù)據(jù)庫以及 NCBI內(nèi)部或者外部資源都有廣泛的聯(lián)系。 Entrez 基因組計劃還為原核生物的某些特點,例如表型、活力、致病性和對生存鹽濃度、溫度、氧氣濃度、 pH值等環(huán)境因素設(shè)置了索引,這對于研究原核生物的生物學(xué)家們來說無疑是一項非常有用的功能。 NCBI 鼓勵各個測序中心在開始他們的測序項目實用文檔之前提前登記自己的項目安排,這樣就能更好的統(tǒng)籌安排,共享資源了。6.1.3 NCBI Trace ArchivesTrace Archives數(shù)據(jù)庫儲存了由凝膠/ 毛細血管測序平
37、臺(如 Applied Biosystems ABI 3730)測序獲得的序列數(shù)據(jù)。至今, Trace Archives數(shù)據(jù)庫包含有4500 個品種的共計超過例19 億(12%為人類數(shù)據(jù) ) 的序列數(shù)據(jù)。6.1.4 Short Read ArchiveShort Read Archive(SRA)數(shù)據(jù)庫里收錄的數(shù)據(jù)都是由新一代測序儀( 例如Roche-454 、 Illumina Genome Analyzer、Applied Biosystems SOLiD System platforms)測序產(chǎn)生的基因序列信息。從2007年開始,SRA已經(jīng)迅速累積到了1.3Tbp,共180 億條小片段,
38、 約占人類基因組序列總長度的85%。SRA的出現(xiàn)為大家進行數(shù)據(jù)挖掘提供了更多的機會。出于方便廣大用戶使用的考慮NCBI 還將為 SRA數(shù)據(jù)建立索引,同時更多的輔助工具,例如搜索及比對等功能也將陸續(xù)開發(fā)出來。實用文檔6.2分析工具及資源6.2.1 Map ViewerNCBI 的 Map Viewer 顯示了基因組集合、遺傳標記及物理標記以及相關(guān)注釋信息和比對信息等其它分析結(jié)果。MapViewer 的主頁 /mapview/提供了包括人類、小鼠和大鼠(Rattus norvegicus)在內(nèi)的超過100 種物種的基因組數(shù)據(jù)。用戶可以看到的圖譜將根據(jù)物種的不
39、同可能會有所不同,或許包括細胞遺傳圖譜(cytogeneticmaps)、物理圖譜 (physical maps)和各種不同的序列圖譜。源自同一物種的多個基因組圖譜可以在同一個頁面中顯示。6.2.2 Model Maker以及 Evidence ViewerModel Maker(MM) 是用來構(gòu)建轉(zhuǎn)錄模型的一種工具,它將通過由從頭預(yù)測法 (ab initio predictions) 預(yù)測出來的外顯子以及通過與 GenBank中的轉(zhuǎn)錄體數(shù)據(jù)庫 EST和 RefSeq 比對之后得來的外顯子,與 NCBI 的人類基因組數(shù)據(jù)庫結(jié)合在一起來構(gòu)建轉(zhuǎn)錄模型。Evidence Viewer(EV)則將所有
40、能支持基因注釋信息正確性實用文檔的序列信息證據(jù)進行了歸納總結(jié),它采用的是將RefSeq、EST等 GenBank中的轉(zhuǎn)錄體信息與基因組重疊群進行比對的方法。EV顯示了每一個外顯子的詳細比對結(jié)果, 并突出顯示了其中不匹配的部分。6.2.3 Entrez cancer ChromosomesEntrez cancer Chromosomes (Entrez癌癥染色體 ) 數(shù)據(jù)庫包含了與人類癌癥有關(guān)的人類染色體畸變信息,例如基因缺失或轉(zhuǎn)位等。 Entrez癌癥染色體數(shù)據(jù)庫由三個部分組成,即NCI/NCBI SKY(SpectralKaryotyping)/M-FISH(Multiplex-FISH)
41、和CGH(Comparative Genomic Hybridization) 數(shù)據(jù)庫 ; 美國國立癌癥研究院 (NCI) 為癌癥染色體畸變信息設(shè)立的 Mitelman數(shù)據(jù)庫以及NCI 為再發(fā)癌癥染色體畸變設(shè)立的數(shù)據(jù)庫。每一個畸變都以圖形的形式表現(xiàn)出來,并附之相關(guān)臨床病例信息和文獻信息。6.2.4 TaxPlot、GenePlot 和 gMapTaxPlot可以同時給出來自兩個物種蛋白質(zhì)之間的相似性以及原核生物或真核生物參考物種的完整基因組信息。與其相實用文檔關(guān)的另一個工具GenePlot 則可以給出一對完整微生物基因組內(nèi)的片段,經(jīng)可視化的缺失、轉(zhuǎn)位或倒位操作之后,其編碼蛋白質(zhì)之間的相似性。g
42、Map工具將預(yù)先計算過的微生物全基因組比較結(jié)果與BLAST比較結(jié)果以及核酸序列相似的基因組聚類結(jié)果結(jié)合在一起進行比對,然后將相似的片段以圖形化的方式表現(xiàn)出來。6.2.5 Influenza Genome Sequencing Project(IGSP)IGSP( 流感基因組測序計劃) 為研究流感的科研工作者提供了越來越多的序列資料,他們可以借此找出流感病毒致病的遺傳性狀。到目前為止,該計劃已經(jīng)得到了超過33,000 條流感病毒序列。NCBI的流感病毒資源也和IGSP 之間設(shè)有鏈接,還可以通過PubMed找到所有最新的有關(guān)流感病毒方面的文獻和各種在線分析工具及數(shù)據(jù)庫資源。這些數(shù)據(jù)庫包括NCBI
43、的流感病毒序列數(shù)據(jù)庫(Influenza Virus SequenceDatabase),該數(shù)據(jù)庫收錄有GenBank和RefSeq中超過70,000條流感病毒的序列。 科研人員借助流感病毒資源提供的各種工具能對超過83,000 條流感蛋白質(zhì)序列進行分析。Entrez 的生物學(xué)數(shù)據(jù)庫中還收錄有超過100 條流感病毒蛋白質(zhì)結(jié)構(gòu)信息和350 多條有關(guān)流感病毒種群研究的資料。還有一種在線流感病毒基因組注釋工具能幫助科研工作者們分實用文檔析新發(fā)現(xiàn)的流感病毒序列并進行注釋,然后將結(jié)果通過tbl2asn等上傳工具遞交給NCBI 的 GenBank數(shù)據(jù)庫。6.2.6 Entrez Protein Clust
44、ersEntrez Protein Clusters(Entrez蛋白質(zhì)聚類數(shù)據(jù)庫) 收錄了由完整的原核生物基因組和葉綠體基因組編碼的28 萬多條已確認的RefSeq 蛋白質(zhì)序列,并將這些序列按照分類學(xué)的規(guī)則進行了歸類( 聚類 ) 。NCBI 可以將這些蛋白質(zhì)聚類信息用于基因組范圍內(nèi)的比對,也可以用于簡化的BLAST簡單的微生物蛋白BLAST(Concise Microbial Protein BLAST,/genomes/prokhits.cgi)比對之用。蛋白聚類數(shù)據(jù)庫還包括注釋信息、出版信息、結(jié)構(gòu)域和結(jié)構(gòu)信息、相關(guān)庫外鏈接和分析工具( 例如多序列比
45、對工具和系統(tǒng)發(fā)生分析工具) 信息等。蛋白質(zhì)聚類數(shù)據(jù)庫還通過GenomeProtMap(/sutils/protmap.cgi) 與其它基因組數(shù)據(jù)庫有鏈接。7 基因型和表型信息7.1基因型和表型數(shù)據(jù)庫實用文檔認識遺傳和環(huán)境因素與人類疾病之間的關(guān)系,對于幫助我們提高疾病診治水平來說具有非常重要的意義。大范圍的基因型研究能為基因組相關(guān)調(diào)查、醫(yī)療測序、分子診斷以及發(fā)現(xiàn)基因型和非臨床特性之間的關(guān)系等研究提供數(shù)據(jù)資料?;蛐秃捅硇蛿?shù)據(jù)庫(dbGaP;/sites/entrez?db=gap)是 Entrez系統(tǒng)的一部分,它負責管理與可見特征( 表型 ) 相關(guān)的遺傳特征( 基因型 ) 。該數(shù)據(jù)庫收錄的資料來自由NIH 資助的全基因組關(guān)聯(lián)分析 (genome-wide associationstud
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)殖用地變更合同范本
- 北碚區(qū)冷藏配送合同范本
- 中標居間協(xié)議合同范本
- 個人簡歷自薦信
- 個人第一季度工作計劃
- 上海裝修合同范本2014
- 賣樹地合同范本
- 公共營養(yǎng)師習題
- 叉車施工合同范本
- 農(nóng)村開發(fā)山林合同范例
- 2025年初中主題班會課件:好習慣成就好人生
- 學(xué)校教職工代表大會全套會議會務(wù)資料匯編
- 中華人民共和國監(jiān)察法宣貫培訓(xùn)
- 2025年山東傳媒職業(yè)學(xué)院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年春新教科版物理八年級下冊課件 第10章 流體的力現(xiàn)象 1 在流體中運動
- 《中醫(yī)基礎(chǔ)理論》課件-中醫(yī)學(xué)理論體系的基本特點-整體觀念
- 全國職業(yè)院校技能大賽高職組(商務(wù)數(shù)據(jù)分析賽項)備賽試題及答案
- 課題申報書:“四新”視域下地方高校學(xué)科建設(shè)與人才培養(yǎng)研究
- 施工爆破作業(yè)審批制度范文(2篇)
- 中國干眼臨床診療專家共識(2024年)解讀
- 建筑行業(yè)材料供應(yīng)應(yīng)急預(yù)案
評論
0/150
提交評論