數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫掃描_第1頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫掃描_第2頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫掃描_第3頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫掃描_第4頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫掃描_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物大分子數(shù)據(jù)庫掃描根據(jù)“Nucleic Acids Research”最新(指2007年)公布的數(shù)據(jù),目前已有968個有關(guān)生物大分子數(shù)據(jù)庫(參見文獻 Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。有興趣的讀者可以參閱網(wǎng)站“http:/www.oxfordjourna/nar/database/a”。我們這里將主要類型的數(shù)據(jù)庫列于表4-2。數(shù)據(jù)庫類別代表數(shù)據(jù)庫名及應(yīng)用核苷酸序列數(shù)據(jù)庫國際苷酸序列數(shù)據(jù)庫集DDBJ:所有已知的核苷酸序列與蛋白質(zhì)序列EMBL:所有已知的核苷酸序列與蛋白質(zhì)序列GenBank

2、:所有已知的核苷酸序列與蛋白質(zhì)序列DNA序列:基因,保守序列模式及調(diào)控位點有關(guān)代碼DNA序列ACLAME:基因移動因子分類數(shù)據(jù)庫CUTG:Genbank數(shù)據(jù)庫中的代碼應(yīng)用分類數(shù)據(jù)庫HERVd:人類內(nèi)源性逆轉(zhuǎn)錄病毒數(shù)據(jù)庫NPRD:核小體定位區(qū)間數(shù)據(jù)庫TIGR Gene Indices:基因序列與組織專一化數(shù)據(jù)庫VectorDB:核酸向特征及分類數(shù)據(jù)庫基因結(jié)構(gòu),內(nèi)含子,外顯子ASD:選擇性剪切數(shù)據(jù)庫EASED:擴展選擇性剪切EST數(shù)據(jù)庫HS3D:現(xiàn)代人剪切位點數(shù)據(jù)庫Splice DB:典型與非典型的哺乳動物剪切位點數(shù)據(jù)庫轉(zhuǎn)錄調(diào)節(jié)位點與轉(zhuǎn)錄因子ACTIVITY:功能DNA/RNA位點數(shù)據(jù)庫DBTBS

3、:枯草桿菌起動與轉(zhuǎn)錄因子數(shù)據(jù)庫EPD:真核起動子數(shù)據(jù)庫JASPAR:轉(zhuǎn)錄因子DNA結(jié)合位點位置專一化得分矩陣TESS:轉(zhuǎn)錄子搜索系統(tǒng)TRED:轉(zhuǎn)錄調(diào)控元素數(shù)據(jù)庫TRANSFAC:轉(zhuǎn)錄因子和連接位點數(shù)據(jù)庫RNA序列數(shù)據(jù)庫16S與23S rRNA Mutation Database:16S與23S核糖體RNA突變數(shù)據(jù)庫ARED:mRNA中AU豐富數(shù)據(jù)庫NCIR:RNA結(jié)構(gòu)中非典型相互作用數(shù)據(jù)庫tmRDB:tmRNA數(shù)據(jù)庫Rfam:非代碼RNA家族數(shù)據(jù)庫蛋白質(zhì)序列數(shù)據(jù)庫綜合數(shù)據(jù)庫EXProt:被實驗證實功能的蛋白質(zhì)序列數(shù)據(jù)庫PA-GOSUB:根據(jù)模型器官,GO數(shù)據(jù)庫確認及亞細胞定位的蛋白質(zhì)序列數(shù)據(jù)庫

4、Swiss-Prot:蛋白質(zhì)序列數(shù)據(jù)庫TrEMBL:應(yīng)用計算機注釋與翻譯EMBL數(shù)據(jù)庫UniProt:所有蛋白質(zhì)序列累積數(shù)據(jù)庫蛋白質(zhì)性質(zhì)數(shù)據(jù)庫AAindex:氨基酸理化性質(zhì)數(shù)據(jù)庫ProNIT:蛋白質(zhì)與核酸相互作用熱動力學數(shù)據(jù)庫ProTherm:天然型與突變型蛋白質(zhì)熱動力學數(shù)據(jù)庫TECRdb:酶催化反應(yīng)熱動力學數(shù)據(jù)庫蛋白質(zhì)定位與靶向數(shù)據(jù)庫(Protein localization and targeting)DDSubLoc:蛋白質(zhì)在亞細胞單元定位數(shù)據(jù)庫NESbase:核輸出信號數(shù)據(jù)庫NLSdb:核定位信號數(shù)據(jù)庫NMPdb:核基質(zhì)聯(lián)合蛋白質(zhì)數(shù)據(jù)庫NOPdb:核仁蛋白質(zhì)組數(shù)據(jù)庫PSORTdb:細菌

5、中蛋白質(zhì)在亞細胞單元中定位數(shù)據(jù)庫SPD:分泌蛋白質(zhì)數(shù)據(jù)庫THGS:基因組序列中跨膜螺旋蛋白質(zhì)數(shù)據(jù)庫TMPDB:由實驗確定的跨膜蛋白拓撲數(shù)據(jù)庫蛋白質(zhì)保守序列模式及活性位點數(shù)據(jù)庫ASC:活性序列集合:生物活性肽數(shù)據(jù)庫BLOCKS:蛋白質(zhì)家族中保守區(qū)間比對數(shù)據(jù)庫CSA:催化位點圖譜,已知三維結(jié)構(gòu)的酶的活性位點及催化位點數(shù)據(jù)庫COMe:生物有機蛋白分類數(shù)據(jù)庫CopS:綜合肽信號數(shù)據(jù)庫eBLOCKS:高度保守蛋白質(zhì)序列塊eMOTIF:蛋白質(zhì)保守序列模式的確定與搜索Metalloprotein Site Database:金屬蛋白中金屬連接位點數(shù)據(jù)庫O-GlyBase:蛋白質(zhì)中用O和C連接的糖基化位點數(shù)據(jù)

6、庫PDBsite:蛋白質(zhì)三維結(jié)構(gòu)功能位點數(shù)據(jù)庫PROSITE:生物學顯著的蛋白質(zhì)模式與突變譜數(shù)據(jù)庫蛋白質(zhì)功能區(qū)域;蛋白質(zhì)分類數(shù)據(jù)庫ADDA:蛋白質(zhì)功能區(qū)域分類數(shù)據(jù)庫CDD:保守功能區(qū)域數(shù)據(jù)庫:主要來自于Pfam,SMART,COG和KOG數(shù)據(jù)庫CluSTr:Swiss-Prot+TrEMBL蛋白聚類數(shù)據(jù)庫FunShift:在同一個蛋白質(zhì)功能的家族的子家族之間功能異化數(shù)據(jù)庫PRINTS:啟發(fā)式基因家族指紋譜數(shù)據(jù)庫Pfam:蛋白質(zhì)家族數(shù)據(jù)庫:根據(jù)多重序列比對和突變譜HMM構(gòu)建ProtoMap:將Swiss-Prot依不同層次分類的數(shù)據(jù)庫S4:SCOP超級家族中基于結(jié)構(gòu)的序列比對數(shù)據(jù)庫單個蛋白質(zhì)家族

7、數(shù)據(jù)庫AARSDB:酰氨轉(zhuǎn)移-tRNA合成酶數(shù)據(jù)庫ASPD:人工選擇的蛋白質(zhì)/肽數(shù)據(jù)庫Bac Tregulators:AraC和TetR家族轉(zhuǎn)錄調(diào)節(jié)子數(shù)據(jù)庫CSDBase:冷休克蛋白功能區(qū)閾數(shù)據(jù)庫GPCRDB:G蛋白偶聯(lián)受體數(shù)據(jù)庫Histone Database:組蛋白折疊序列與結(jié)構(gòu)數(shù)據(jù)庫ProLysED:細菌蛋白酶數(shù)據(jù)庫TrSDB:轉(zhuǎn)錄因子數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù)庫小分子數(shù)據(jù)庫ChEBI:對生物有反應(yīng)的化學條目AANT:氨基酸與核苷相互作用數(shù)據(jù)庫碳水化合物數(shù)據(jù)庫CCSD:復合碳水化合物結(jié)構(gòu)數(shù)據(jù)庫GlycoSuiteDB:N-和O-多糖結(jié)構(gòu)與生物資源數(shù)據(jù)庫核酸結(jié)構(gòu)數(shù)據(jù)庫NDB:核酸包含結(jié)構(gòu)數(shù)據(jù)庫NTDB

8、:核酸熱動力學數(shù)據(jù)庫RNABase:由PDB和NDB中包括RNA的結(jié)構(gòu)數(shù)據(jù)庫SCOR:RNA結(jié)構(gòu)分類數(shù)據(jù)庫,有關(guān)RNA結(jié)構(gòu),保守序列模式,功能及三級結(jié)構(gòu)相互作用有關(guān)蛋白質(zhì)結(jié)構(gòu)方面的數(shù)據(jù)庫ArchDB:蛋白質(zhì)環(huán)結(jié)構(gòu)自動分類數(shù)據(jù)庫ASTRAL:已知結(jié)構(gòu)的功能區(qū),被選出的子集和序列結(jié)構(gòu)相關(guān)的序列數(shù)據(jù)庫BAliBASE:多重序列比對比較的數(shù)據(jù)庫BioMagReBank:蛋白質(zhì)與核酸的NMR光譜數(shù)據(jù)庫CADB:蛋白質(zhì)數(shù)據(jù)庫的構(gòu)象角數(shù)據(jù)庫CATH:蛋白質(zhì)功能區(qū)域自動分類數(shù)據(jù)庫CE:蛋白質(zhì)三級結(jié)構(gòu)比對數(shù)據(jù)庫CKAAPsDB:序列不相似但結(jié)構(gòu)相似的蛋白質(zhì)數(shù)據(jù)庫Dali:應(yīng)用Dali搜索引擎得到的蛋白質(zhì)折疊分類

9、數(shù)據(jù)庫Decoys R Us:由計算機產(chǎn)生構(gòu)象的數(shù)據(jù)庫DsiProt:蛋白質(zhì)無序結(jié)構(gòu)數(shù)據(jù)庫DomIns:已知蛋白質(zhì)結(jié)構(gòu)功能區(qū)閾插入數(shù)據(jù)庫eF-site:功能位點靜電表面數(shù)據(jù)庫:蛋白質(zhì)活性位點的靜電勢與疏水性GenDis:蛋白質(zhì)結(jié)構(gòu)超級家族基因組分布數(shù)據(jù)庫GTOP:根據(jù)基因組序列預測蛋白質(zhì)折疊數(shù)據(jù)庫HOMSTRAD:同源結(jié)構(gòu)比對數(shù)據(jù)庫MolMovDB:生物大分子運動數(shù)據(jù)庫,主要描述蛋白質(zhì)及生物大分子運動LPFC:蛋白質(zhì)核結(jié)構(gòu)家族庫PDB:蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,搜集了所有蛋白質(zhì)及核酸結(jié)構(gòu)的數(shù)據(jù)庫PDBsum:對PDB結(jié)構(gòu)總結(jié)分析數(shù)據(jù)庫PDB_TM:已知三級結(jié)構(gòu)的跨膜蛋白數(shù)據(jù)庫ProteinFoldin

10、g Database:蛋白質(zhì)折疊實驗數(shù)據(jù)庫SCOP:由專家參預的蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫Sloop:蛋白質(zhì)環(huán)分類數(shù)據(jù)庫Structure Superposition Database:TIM桶狀結(jié)構(gòu)的配對疊合數(shù)據(jù)庫基因組數(shù)據(jù)庫基因注釋項,規(guī)范描述及相關(guān)術(shù)語有關(guān)常用命名方面的數(shù)據(jù)庫Genew:人類基因命名GO:基因功能的規(guī)范描術(shù)數(shù)據(jù)庫GOA:有關(guān)EBI的基因功能的規(guī)范描述數(shù)據(jù)庫IUBMB Nomenclature數(shù)據(jù)庫:有關(guān)酶,跨膜轉(zhuǎn)移,電子轉(zhuǎn)移蛋白及其它蛋白命名。IUPAC Nomenclature數(shù)據(jù)庫:由IUBMB與IUPAC聯(lián)合委員會通過的生化與有機小分子的命名IUPHAR-RD:國際藥學聯(lián)

11、合會推薦的有關(guān)受體命名和藥物分類數(shù)據(jù)庫分類與鑒定數(shù)據(jù)庫細菌鑒定與分類的gyrB數(shù)據(jù)庫綜合基因數(shù)據(jù)庫COG:蛋白質(zhì)直系同源組聚類數(shù)據(jù)庫COGENT:完全基因組跟蹤數(shù)據(jù)庫,根據(jù)完全基因序列預測肽DEG:細菌與酵母必須基因數(shù)據(jù)庫FusionDB:細菌與古菌基因剪切(融合)事件數(shù)據(jù)庫Genome Atlas:序列基因組的DNA結(jié)構(gòu)性質(zhì)數(shù)據(jù)庫GOLD:基因組在線數(shù)據(jù)庫Integr8:全基因組蛋白質(zhì)功能分類數(shù)據(jù)庫KEGG:基因與基因組京都百科全書,有關(guān)基因,蛋白質(zhì)及代謝路徑整合組數(shù)據(jù)庫TransportDB:根據(jù)TC分類系統(tǒng)預測全基因組中的跨膜轉(zhuǎn)運數(shù)據(jù)庫WIT3:有關(guān)微生物全序列基因組代謝重建數(shù)據(jù)庫生物種

12、類專一化數(shù)據(jù)庫細菌類HCVDB:肝炎C型病毒數(shù)據(jù)庫HIV Drug Resistance數(shù)據(jù)庫:具有抗藥性能的HIV突變數(shù)據(jù)庫HIV Molecular Immunology數(shù)據(jù)庫:HIV抗原決定基數(shù)據(jù)庫HIV RT and Protease Sequence數(shù)據(jù)庫:HIV逆轉(zhuǎn)錄酶及蛋白質(zhì)酶序列數(shù)據(jù)庫VIDA:同源病毒蛋白家族數(shù)據(jù)庫VirOligo:有關(guān)PCR及其雜化的病毒專一化寡聚核苷酸數(shù)據(jù)庫原核生物類總述BacMap:注釋細菌基因組圖譜數(shù)據(jù)庫MetaGrowh:細菌病原體生長要求數(shù)據(jù)庫PGTdb:原核生物生長溫度數(shù)據(jù)庫大腸桿菌類(Escherichia coli)ASAP:對大腸桿菌及其相

13、關(guān)基因組系統(tǒng)注釋包裹CyberCell數(shù)據(jù)庫:有關(guān)E.coli K12的應(yīng)用數(shù)學模型模擬的數(shù)據(jù)庫集合coliBase:有大腸桿菌,沙門氏菌屬及志賀氏桿菌的數(shù)據(jù)庫PEC:有關(guān)大腸桿菌染色體圖譜RegulonDB:大腸桿菌中轉(zhuǎn)錄調(diào)節(jié)及操縱組織數(shù)據(jù)庫枯草桿菌類BSORF:京都大學枯草桿菌基因組數(shù)據(jù)庫NUSub:里昂大學非冗枯草桿菌數(shù)據(jù)庫SubtiList:巴斯德研究院枯草桿菌基因組數(shù)據(jù)庫其它細菌類BioCyc:多種細菌路徑及基因組數(shù)據(jù)庫CampyDB:彎曲桿菌屬基因組分析數(shù)據(jù)庫ClostriDB:梭菌屬完成的與未完成的基因組數(shù)據(jù)庫Virulence Factors:有關(guān)微生物毒性因子數(shù)據(jù)庫單細胞真核

14、生物ApiEST-DB:從各種各樣Apicomplexan寄生蟲獲得的EST序列CryptoDB:有關(guān)Cryptosporidium parvum基因組數(shù)據(jù)庫ToxoDB:鼠弓形體基因組數(shù)據(jù)庫真菌類酵母菌類AGD:Ashbya棉花基因組數(shù)據(jù)庫CandidaDB:加拿乳頭狀體基因組數(shù)據(jù)庫CYGD:MIPS綜合酵母基因組數(shù)據(jù)庫SCPD:釀酒酵母起動子數(shù)據(jù)庫其它真菌類CADRE:中心化曲霉菌數(shù)據(jù)集MNCDB:MIPS粗糙鏈孢霉數(shù)據(jù)庫無脊椎動物克氏病Intronerator:C.elegans和C. briggsae內(nèi)含子和剪切數(shù)據(jù)庫RNAiDB:克氏病基因表型的RNAi表型分析WILMA:克氏病注釋

15、數(shù)據(jù)庫WorfDB:克氏病ORF組數(shù)據(jù)庫黃猩猩果蠅(Drosophila melanogaster)FlyBase:果蠅序列與基因組信息FlyBrain:果蠅神經(jīng)系統(tǒng)數(shù)據(jù)庫DPDB:果蠅多聚態(tài)數(shù)據(jù)庫其它無脊椎動物AppaDB:線蟲Pristionchus pacificus數(shù)據(jù)庫BeetleBase:甲蟲Tribolium castaneum基因組數(shù)據(jù)庫CnidBase:刺胞動物進化和基因表達數(shù)據(jù)庫PPNEMA:植物寄生線蟲rRNA數(shù)據(jù)庫代謝酶和路徑;信號路徑數(shù)據(jù)庫酶與酶命名數(shù)據(jù)庫BRENDA:酶名稱與生物化學性質(zhì)數(shù)據(jù)庫ENZYME:酶命名與性質(zhì)數(shù)據(jù)庫Enzyme Nomenclature:I

16、UBMB命名委員會推薦數(shù)據(jù)庫IntEnz:整合酶數(shù)據(jù)庫與酶命名PDBrtf:PDB中酶的目標家族代表數(shù)據(jù)庫SCOPEC:功能區(qū)閾催化功能圖譜數(shù)據(jù)庫代謝路徑數(shù)據(jù)庫BioSilico:各類代謝數(shù)據(jù)庫整合KEGG 路徑:全基因組代謝與調(diào)節(jié)路徑數(shù)據(jù)庫MetaCyc:各種生物體代謝路徑與酶數(shù)據(jù)庫分子間相互作用和信號路徑數(shù)據(jù)庫3DID:已知三維結(jié)構(gòu)的蛋白質(zhì)功能區(qū)閾與功能區(qū)閾相互作用蛋白質(zhì)aMAZE:生物化學與信號路徑網(wǎng)絡(luò)的注釋,管理與分析系統(tǒng)BIND:生物分子相互作用網(wǎng)絡(luò)數(shù)據(jù)庫BioCarta:代謝與信號路徑在線圖DIP:蛋白質(zhì)相互作用數(shù)據(jù)庫DRC:核糖體交互鏈接數(shù)據(jù)庫POINT:人類蛋白質(zhì)蛋白質(zhì)相互作用

17、組數(shù)據(jù)庫STCDB:信號轉(zhuǎn)導分類數(shù)據(jù)庫人類與其它脊椎動物基因組模型生物與比較基因組數(shù)據(jù)庫AllGene:人類和小鼠基因,轉(zhuǎn)錄及蛋白質(zhì)注釋數(shù)據(jù)庫DED:進化距離數(shù)據(jù)庫FANTOM:小鼠全長cDNA克隆功能注釋數(shù)據(jù)庫GALA:基因組比對,注釋與實驗結(jié)果數(shù)據(jù)庫IPI:人類,大鼠,小鼠蛋白的非冗余集國際蛋白索引數(shù)據(jù)庫Polymorphix:序列多聚表型數(shù)據(jù)庫Rat Genome數(shù)據(jù)庫:大鼠遺傳與基因組數(shù)據(jù)庫TAED:自適應(yīng)進化數(shù)據(jù)庫VEGA:脊椎動物基因組數(shù)據(jù)人類基因組數(shù)據(jù)庫,圖譜及閱讀器AluGene:人類基因組完全運算圖GroW 21:人類21號染色體數(shù)據(jù)庫GDB:人類基因與基因組圖數(shù)據(jù)庫Gene

18、Loc:基因定位數(shù)據(jù)庫HOWDY:人類組織全基因組數(shù)據(jù)庫IXDB:人類X染色體物理圖Map Viewer:應(yīng)用染色體位置基因組信息展示圖TRBase:人類基因組串聯(lián)重復數(shù)據(jù)庫人類蛋白H-InvDB:全長人類cDNA克隆數(shù)據(jù)庫HPMR:人類血漿膜受體數(shù)據(jù)庫,包括序列,文獻及表達數(shù)據(jù)庫HPRD:人類蛋白參考標準數(shù)據(jù)庫,包括功能區(qū)域構(gòu)建,翻譯后修飾及其相關(guān)疾病LIFEdb:人類蛋白質(zhì)的定位,相互作用和功能數(shù)據(jù)庫人類基因與疾病數(shù)據(jù)庫綜合數(shù)據(jù)庫DG-CST:疾病基因保守序列標簽數(shù)據(jù)庫PMD:蛋白質(zhì)突變編譯數(shù)據(jù)庫SOURCE:人類,小鼠與大鼠的功能基因組資源數(shù)據(jù)庫ORFDB:由Invitrogen銷售的O

19、RF人類突變數(shù)據(jù)庫綜合多形態(tài)數(shù)據(jù)庫ALFRED:等位基因頻率與DNA多型態(tài)數(shù)據(jù)庫BayGenomics:與冠心病和肺部相關(guān)基因數(shù)據(jù)庫Cypriot national mutation database:塞浦路斯人群疾病突變數(shù)據(jù)庫dbQSNP:SNP等位基因頻率定量數(shù)據(jù)庫FESD:功能性SNP數(shù)據(jù)庫,包括在人類基因的起動子,UTRs上的SNPHGVS數(shù)據(jù)庫:人類突變編輯數(shù)據(jù)庫IPD:免疫多聚形態(tài)數(shù)據(jù)庫JSNP:日本SNP數(shù)據(jù)庫rSNPs Guide:調(diào)節(jié)基因區(qū)間SNPTopoSNP:非同義SNPs的拓樸數(shù)據(jù)庫癌癥Atlas of Genetics and Cytogenetic in Oncol

20、ogy and Haematology:在腫瘤,血液及有癌癥傾向疾病的癌癥相關(guān)基因,染色體異常的數(shù)據(jù)庫CGED:癌癥基因表達數(shù)據(jù)庫Germline p53 mutations:在人類腫瘤和細胞線p53基因的突變數(shù)據(jù)庫MTB:小鼠腫瘤生物學數(shù)據(jù)庫:包括腫瘤類型,基因,分類,發(fā)生率及病理學有關(guān)基因,系統(tǒng)或疾病專一性數(shù)據(jù)庫ALPSbase:自體免疫淋巴組織增生綜合癥數(shù)據(jù)庫BTKbase:X-鏈接血中丙球蛋白貧乏突變記錄數(shù)據(jù)庫CASRDB:鈣敏感受體數(shù)據(jù)庫ERGDB:雌激素響應(yīng)基因數(shù)據(jù)庫PGDB:前列腺及前列腺疾病基因數(shù)據(jù)庫SCAdb:脊髓與小腦共濟失調(diào)數(shù)據(jù)庫微陣列數(shù)據(jù)與其它基因表達數(shù)據(jù)庫5SAGE:

21、5末端基因表達系列分析數(shù)據(jù)庫ArrayExpress:公共搜集微陣列基因表達數(shù)據(jù)庫BGED:腦基因表達數(shù)據(jù)庫GEO:基因表達公共站數(shù)據(jù)庫,主要是搜集基因表達譜方面的數(shù)據(jù)GermOnline:有絲分裂與減數(shù)分裂細胞周期中基因表達數(shù)據(jù)庫GXD:小鼠基因表達數(shù)據(jù)庫MethDB:DNA甲基化數(shù)據(jù),模式及圖譜數(shù)據(jù)庫蛋白質(zhì)組資源數(shù)據(jù)庫2D:微生物研究中蛋白組數(shù)據(jù)庫系統(tǒng)DynaProt 2D:Lactococcus lactis 蛋白質(zhì)組數(shù)據(jù)庫Open Proteomics Database:人類,酵母,大腸桿菌和分枝桿菌基于質(zhì)譜的蛋白質(zhì)組數(shù)據(jù)庫PEP:全蛋白質(zhì)預測數(shù)據(jù)庫,蛋白質(zhì)序列在翻譯前,翻譯中及翻譯后

22、蛋白質(zhì)修飾數(shù)據(jù)庫RESID: 翻譯前,翻譯中及翻譯后蛋白質(zhì)修飾數(shù)據(jù)庫其它分子生物學數(shù)據(jù)庫藥物與藥物設(shè)計數(shù)據(jù)庫ANTIMIC:自然抗微生物藥物肽數(shù)據(jù)庫AOBase:反義寡聚核苷酸選擇與設(shè)計APD:抗微生物肽數(shù)據(jù)庫DART:藥物不良反應(yīng)靶點數(shù)據(jù)庫TTD:治療靶點數(shù)據(jù)庫有關(guān)探針方面的數(shù)據(jù)庫IMGT/PRIMER-DB:免疫遺傳寡聚核苷酸引物數(shù)據(jù)庫PrimerPCR:真核與原核基因的PCR引物數(shù)據(jù)庫QPPD:人與小鼠定量PCR引物數(shù)據(jù)庫RTPrimerDB:實時PCR引物和探針序列數(shù)據(jù)庫未分類數(shù)據(jù)庫BioImage:多維生物圖像數(shù)據(jù)庫細胞器數(shù)據(jù)庫綜合數(shù)據(jù)庫OGRe:細胞器基因組修復系統(tǒng)Organell

23、e DB:細胞器蛋白與亞細胞結(jié)構(gòu)數(shù)據(jù)庫線粒體基因與蛋白方面的數(shù)據(jù)庫AMPDB:阿布屬線粒體蛋白的數(shù)據(jù)庫HMPD:人類線粒體蛋白數(shù)據(jù)庫Mitochondrome:多細胞動物線粒體基因數(shù)據(jù)庫MitoDrome:果蠅核解碼線粒體數(shù)據(jù)庫MITOP2:線粒體蛋白,基因,疾病數(shù)據(jù)庫MPLMP:植物線粒體蛋白輸入機器數(shù)據(jù)庫PLMtRNA:植物線粒體tRNA數(shù)據(jù)庫植物數(shù)據(jù)庫植物綜合數(shù)據(jù)庫BarleyBase:植物基因組表達圖譜數(shù)據(jù)庫CR-EST:大麥,豌豆,小麥及土豆數(shù)據(jù)庫CroNet:農(nóng)作物基因組圖譜數(shù)據(jù)庫FLAGdb+:有關(guān)植物基因組綜合數(shù)據(jù)庫Mendel:已注釋的植物ESTs和STSs數(shù)據(jù)庫擬南芥AGN

24、S:擬南芥基因網(wǎng)增補數(shù)據(jù)庫,包括基因表達,轉(zhuǎn)基因與突變形態(tài)AGRIS:阿布屬基因調(diào)節(jié)信息服務(wù)器:包括起動子,轉(zhuǎn)錄因子及其目標基因方面的數(shù)據(jù)庫CATMA:完全阿布屬轉(zhuǎn)錄組微陣列數(shù)據(jù)庫MAtDB:MIPS擬芥南數(shù)據(jù)庫TAIR:阿布屬信息資源數(shù)據(jù)庫水稻BGI-RISe:北京基因組研究院水稻信息系統(tǒng)INE:整合水稻基因組瀏覽器IRIS:國際水稻信息系統(tǒng)RAD:水稻注釋數(shù)據(jù)庫RiceGAAS:水稻基因組自動注釋系統(tǒng)Rice proteome database:水稻蛋白質(zhì)組數(shù)據(jù)庫其它植物MaizeGDB:玉米遺傳與基因組數(shù)據(jù)庫SGMD:大豆基因組與微陣列數(shù)據(jù)庫免疫學數(shù)據(jù)庫BCIpep:B-細胞抗原決定基數(shù)

25、據(jù)庫dbMHC:人類MHC遺傳與臨床數(shù)據(jù)庫FIMM:功能分子免疫學數(shù)據(jù)庫IMGT:國際免疫學信息系統(tǒng),包括免疫球蛋白,T細胞受體,MHC和RPIIMGT/Gene-DB:脊椎動物免疫球蛋白與T細胞受體數(shù)據(jù)庫MHCBN:MHC連接與非連接肽數(shù)據(jù)庫MHCPEP:MHC連接肽數(shù)據(jù)庫MPID:MHC肽相互作用數(shù)據(jù)庫VBASE2:人與小鼠Ig定位可變基因數(shù)據(jù)庫那么SwissProt數(shù)據(jù)庫主要內(nèi)容及格式是什么呢?我們這里作一個比較詳細的介紹。下面這段是一個完整的SwissProt條目,現(xiàn)解釋如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR

26、-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN 1RP NUCLEOTIDE SEQUENCE.RC

27、 STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.;RL Mol. Biochem. Par

28、asitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC CC This Swiss-Prot entry is copyright. It is produced through a collaborationuniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on it

29、sCC use as long as its content is in no way modified and this statement is notCC removed.CC DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64; MKFLILLFNI

30、LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK YVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADA

31、TYHEPCF KIIPNTGFCI TKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS SKEGKKPGSG KKPGPA

32、REHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRR PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPV

33、K LKRSKSFDDL TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL/ID 是指其身份號,924 AA是指有該序列有924個氨基酸殘基AC 獲取號;DT 序列測得的時間DE 對該序列必要的信息的說明,如該分子的分子量為104 kDa .OS 來源 OX NCBI分類身份號RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有關(guān)Medline的出版號RA 作者RT 引用文獻題目RL 雜志名稱,出版日期,卷期頁CC

34、有關(guān)它的功能描述及其它相關(guān)信息方面的描述DR EMBL數(shù)據(jù)庫中的獲取號DR PIR數(shù)據(jù)庫中的獲取號KW 關(guān)鍵詞FT 功能區(qū)的描述SQ 有關(guān)序列方面的信息,這部分是最主要的,因為該蛋白質(zhì)的序列就列在下面。/ 表明這個條目結(jié)束。通過對上面這段的分析,讀者可以知道Swiss-Prot數(shù)據(jù)庫基本框架及所蘊含的生物信息學內(nèi)容。同時,人們也可在需要Swiss-Proto數(shù)據(jù)庫時根據(jù)其格式編制出相應(yīng)的計算機程序。這一點其實對生物信息學工作者非常重要,因為一個生物信息學分析方法首先要得到正確的數(shù)據(jù),而正確的數(shù)據(jù)則必須以相應(yīng)數(shù)據(jù)庫格式為基準。有關(guān)該數(shù)據(jù)庫用戶可在“/”上獲

35、取。二、PDB數(shù)據(jù)庫的基本格式我們在前面曾經(jīng)說過,當一個數(shù)據(jù)庫的格式與內(nèi)容都知道了后,說明對這個數(shù)據(jù)庫的知識已有初步的掌握。同前面一樣,我們現(xiàn)在詳細介紹PDB數(shù)據(jù)庫的格式。由于蛋白質(zhì)結(jié)構(gòu)涉及到蛋白質(zhì)中每個原子的坐標,二級結(jié)構(gòu),一個蛋白質(zhì)結(jié)構(gòu)所占的容量是比較大的,因此它不可能象Swiss-Prot數(shù)據(jù)庫那樣將所有蛋白質(zhì)序列放在一個文件中,而是一個蛋白質(zhì)一個文件。因此,到目前為止,PDB數(shù)據(jù)庫應(yīng)有41952個文件,這樣就涉及到其文件名的問題,PDB數(shù)據(jù)庫的文件如圖4-10所示:圖4-10 PDB數(shù)據(jù)庫中的文件名格式下面是一個典型的PDB數(shù)據(jù)庫格式的描述:PDB中所的分子空間結(jié)構(gòu)信息文件的格式基本上

36、都是一樣的。文件由若干記錄組成,每一記錄有80個字符(包括空格)。開頭的6個字符標明該記錄的名稱,現(xiàn)將各記錄的意義分別敘述如下:HEADER該記錄列出分子所屬功能類,正式收入PDB日期以及該分子的判別碼OBSLTE該記錄列出已被新分子文件取代的一些舊的分子的有關(guān)信息。COMPND該記錄出分子名SOURCE該記錄說明分子來源AUTHOR該記錄列出提供座標者的姓名REVDAT該記錄列出文件歷次修改的日期等有關(guān)信息SPRSDE該記錄列說明此文件取代舊文件的有關(guān)信息JRNL該記錄引用與確定該分子空間結(jié)構(gòu)有關(guān)的主要文獻REMARK該記錄為關(guān)于該分子文件的其它信息。其中:REMARK1專用于列出與該結(jié)構(gòu)有

37、關(guān)的其它文獻,REMARK2和REMARK3分別是關(guān)于晶體結(jié)構(gòu)的分辨率及精華的信息SEQRES列出蛋白質(zhì)一級結(jié)構(gòu)HET列出非標準基團或殘基的信息(主要是指除標準20個氨基酸殘基以外的基團信息。具體格式如下:1-3列是“HET”;8-10列是非標準基團表示符;13列是鏈表示符號;14-17順序號;18列是插入碼;21-25列是非標準基團中的原子數(shù)目;31-70為注釋HELIX列出分子中有關(guān)螺旋的信息。1-6列是“HELIX”; 8-10列是順序號; 12-14螺旋表示符;16-18 殘基名;20鏈表示符;22-25殘基序號;26 插入碼;28-30殘基名;32鏈表示符;34-37殘基序號;38插

38、入碼;39-40螺旋類別;41-70注釋。 SHEET列出分子中有關(guān)折疊的信息,其格式如下:1-5列為SHEET;8-10股號;12-14折疊表示符;15-16股數(shù);18-20殘基名;22鏈表示符;23-26殘基序列號;27插入碼;29-31 殘基名;33 鏈表示符;34-37殘基序號;38 插入碼;39-40類型判別碼;42-45 原子名;46-48 殘基名;50鏈表示符;51-54 殘基序號;55插入碼;57-60 原子名;61-63 殘基名;65 鏈表示符;66-69殘基序號;70插入碼。TURN列出分子中有轉(zhuǎn)角(發(fā)夾結(jié)構(gòu))的信息;SSBOND殘出分子中有關(guān)二硫鍵的信息;SITE列出重要

39、功能部位 1-4 SITE;8-10序號;12-14功能部位表示符;16-17組成功能部位的殘基數(shù);19-61 組成功能部位的四個殘基的位置信息。當然如果某功能部位由四個以上殘基組成,則可以增加SITE記錄以包含全部殘基的位置信息,但增加的記錄其功能部位表示符(12-14列)就與原來記錄一致。CRYST該記錄列出關(guān)于晶體結(jié)構(gòu)的單晶胞參數(shù)及空間群標識;ORIGX該記錄列出將下交坐變換為用戶送交坐標的參數(shù);SCALE由正交坐標變換為分數(shù)坐標的參數(shù);MATRIX列出代表非晶體學對稱性的變化參數(shù);TVECT列出無限共價連接結(jié)構(gòu)的變換向量;ATOM列出標準基團的各原子的坐標。這是PDB的核心。 其格式如

40、下:1-4 ATOM;7-11 原子序列號; 13-16原子名; 18-20 殘基名; 22 鏈表示符;23-26殘基序列號;31-38 原子X座標; 39-46 原子的Y座標; 47-54 原子Z坐標;55-60占有率;61-66 溫度因子。 SIGATM列出原子參數(shù)的標準差; ANISOU列出各向異性溫度因子;SIGUIJ列出各向異性溫度因子的標準差; TER列出鏈的末端殘基。有時某個蛋白質(zhì)結(jié)構(gòu)因為某些原因會插入一些不是該蛋白質(zhì)結(jié)構(gòu)的氨基酸殘基,其對應(yīng)的原子就不是“ATOM”,而是“HETATM”,表明這些原子是外來原子,不是蛋白質(zhì)本身的。三 PDB數(shù)據(jù)庫中有關(guān)蛋白質(zhì)結(jié)構(gòu)的獲取我們前面說過

41、,PDB網(wǎng)站為“”,那么如何通過這個網(wǎng)站獲取你所要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)呢?有下列幾條途徑。第一種描述如下:1. 打開“”網(wǎng)站,可得如圖4-11的界面,輸入所需要的蛋白質(zhì)代碼如“1g0v”,然后點擊“Site Search”按鈕,得到如圖4-12所示的界面;2. 點擊圖4-12左上面的“Download Files”,得到的界面的部分如圖4-13所示。3. 點擊圖4-13中的“PDB File”就可以得到你所需要的PDB結(jié)構(gòu)。這里在圖4-13的右邊有相應(yīng)的蛋白質(zhì)結(jié)構(gòu)圖。 第二種主要是在Linux操作系統(tǒng)中可以比較方便的使用,具體命如下:$ wget q /pub/pdb/data/structure

42、s/all/pdb/pdb1g0v.ent.Z通過這個命令可以到得蛋白質(zhì)文件:pdb1g0v.ent.Z,然后解壓縮即:$ gunzip pdb1g0v.ent.Z就可以得到文本文件的蛋白質(zhì)結(jié)構(gòu)文件。 第三種則是通過匿名用戶登錄“”網(wǎng)頁,然后應(yīng)用“get”命令下載你所要的文件。 通過上述方式,我們可以得到所需要的蛋白質(zhì)結(jié)構(gòu)。一 SCOP數(shù)據(jù)庫的分類基本原則及其格式SCOP是由劍橋大學于1995年構(gòu)建。其宗旨是將現(xiàn)有的已知結(jié)構(gòu)的蛋白質(zhì)的功能區(qū)域按類,折疊方式,超級家族,家族進行逐層次地人工分類。具體如下:(1)家族( family): A. 所有蛋白質(zhì)的相等殘基數(shù)大于等于%30 B 低于%30但

43、功能與結(jié)構(gòu)非常相似(2)超級家族(superfamily): 源于一個共同的祖先(3)共同折疊方式(common fold): 相同的主要二級結(jié)構(gòu)有相同的排列和連結(jié)方式(4)類: 同一類折疊方式構(gòu)成一類SCOP數(shù)據(jù)庫將現(xiàn)有的蛋白質(zhì)分成11類,如表4-3所示:表4-3 SCOP數(shù)據(jù)庫中蛋白質(zhì)結(jié)構(gòu)的分類符號意義符號意義a全螺旋g小蛋白類b全片斷h無規(guī)卷曲類c/i低分辯蛋白類d+j肽類e多功能區(qū)域蛋白類k設(shè)計蛋白類f膜蛋白類及細胞表面肽類SCOP數(shù)據(jù)庫與PDB數(shù)據(jù)庫的文件格式完全一致,如果有不同,那就是它將PDB數(shù)據(jù)庫中一個蛋白質(zhì)結(jié)構(gòu)的文件根據(jù)其功能區(qū)域分別放在不同文件中存放。相應(yīng)的文件名也與PDB

44、數(shù)據(jù)庫的文件名密切相關(guān),下圖以一個實際的例子來說明其意義:圖4-14 SCOP文件名解析這里有一點必須說明,當?shù)鞍踪|(zhì)只有一條鏈(或鏈沒有命名)時,則鏈名稱以下劃“_”來表示,如蛋白質(zhì)“d1eut_1.b.1.18.2.pdb”。同樣的,如果該鏈只有一個功能區(qū)域時,則對應(yīng)的位置同樣用下劃線“_”來表示,如蛋白質(zhì)“d1hhib_.b.1.1.2.pdb”。為使讀者對上述各類別有一個感性的認識,我們這里舉出6個蛋白質(zhì)分別代表a,b,c,d,e,f類。見圖4-15,圖4-16與圖4-17。三、如何獲取整個SCOP數(shù)據(jù)庫 SCOP數(shù)據(jù)庫的網(wǎng)站為“scop.mrc-lmb.cam.ac.uk/scop/”

45、,讀者如果忘記了該網(wǎng)站,也可以在“google”網(wǎng)站中輸入“SCOP”,則出現(xiàn)第一個條目便是SCOP網(wǎng)站。其網(wǎng)頁可見圖4-22,然后點擊其中的“top of the hierarch”則可得到圖4-23所示的網(wǎng)站,這樣用戶只可以按照其中的內(nèi)容逐步點擊相關(guān)按鈕就可以得到自己所需的蛋白質(zhì)。 這里我們要重點介紹的是如何獲取整個SCOP數(shù)據(jù)庫。用戶可按如下方式操作:1.點擊網(wǎng)站“http:/astral.berkel/pdbstyle-1.71.html”,可得圖4-24的網(wǎng)站。2.按圖4-24所指示的“點擊”下載“part1”,“part2”及“part3”得到如下三個文件:“pdbstyle-1.

46、71-1.tar”,“pdbstyle-1.71-2.tar”,“pdbstyle-1.73-3.tar”。然后應(yīng)用命令“tar xf file”將其展開,如:“tar xf pdbstyle-1.71-1.tar”得到各個功能區(qū)域蛋白的數(shù)據(jù)。3.由于我們要知道各個功能域是哪一類,哪一種折疊方式,哪一種超級家族及哪一種家族。因此需要下載另一個文件,它在網(wǎng)站:“http:/scop.mrc-lmb.cam.ac.uk/scop/parse/index.html”打開該網(wǎng)站,可以得到圖4-25所示頁面。4.下載圖4-25所示頁面的“dir.cla.scop.txt”的1.71版,然后根據(jù)我們應(yīng)用“

47、PERL”語言編制的程序(見圖4-26)建立比較實用的即文件名如圖-14所示的scop數(shù)據(jù)庫文件。5.執(zhí)行文件“scop.pl”即“perl scop.pl pdbstyle-1.71 scop-1.71所在路徑 dir.cla.scop.txt”按回車鍵即可PROSITE中涉及的保守序列模式或功能位點有:1.酶的催化位點;2.輔基基團連接位點,如血紅素,吡哆醛磷酸鹽,輔酶R等3.與金屬離子結(jié)合的氨基酸殘基4.能形成二硫鍵的半胱氨酸5.與其它分子相連的區(qū)域,如與ADP/ATP,GDP/GTP,鈣,DNA,另一個蛋白質(zhì)等因此,Prosite數(shù)據(jù)庫實際上是蛋白質(zhì)序列功能位點數(shù)據(jù)庫。與PROSITE

48、數(shù)據(jù)庫相類似的數(shù)據(jù)庫還有:蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫PRINTS、蛋白質(zhì)序列模塊數(shù)據(jù)庫BLOCKS、蛋白質(zhì)序列家族數(shù)據(jù)庫、蛋白質(zhì)序列譜數(shù)據(jù)庫PROFILE、蛋白質(zhì)序列識別數(shù)據(jù)庫IDENTIFY等。它們的共同特點是基于多重序列比對從不同側(cè)面來描述蛋白質(zhì)有關(guān)性質(zhì)。一般地,PROSITE數(shù)據(jù)庫使用正則表達式來表示保守序列模式,具體說明如下圖所示:圖4-27 PROSITE數(shù)據(jù)庫中保守序列模式表達方式根據(jù)上圖的正則模式表達方式。如序列片段GFxxLxxxxRxxRxGxKPxT就可以是其中可能的保守序列模式之一。PROSITE數(shù)據(jù)庫主要包括兩個數(shù)據(jù)庫文件:一個為數(shù)據(jù)文件為PROSITE本身即PROSIT

49、E.DAT,該文件給出了能進行匹配的序列及序列的詳細信息。另一個為說明文件即 PROSITE.DOC,它給出了給出該序列模式的生物學功能及其文獻資料來源。從數(shù)據(jù)庫所包括的條目(entry)來看,它包括:保守序列模式條目(即MOTIF或PATTERN)和序列突變譜即PROFILE條目。由于建立序列突變譜需要適當?shù)姆椒?,為此我們首先介紹PROSITE中建立序列突變譜的方法。三、PROSITE數(shù)據(jù)庫格式在PROSITE數(shù)據(jù)庫的眾多項中,其中有關(guān)描述序列突變譜讀者可以參閱PROSITE網(wǎng)站上的“profile.txt”。在PROSITE數(shù)據(jù)庫中,每行共有128列,其分配方式如下圖所示:圖4-29 PR

50、OSITE數(shù)據(jù)庫各列的分配方式但一般情況下,除序列突變譜即“MA”行有128列外,其它行的列一般不會超過78列。在PROSITE數(shù)據(jù)庫中,不同的兩個字符的代碼代表的含義不同,我們將它們的中英文含義列于如下圖:圖4-30 PROSITE數(shù)據(jù)中各行代碼的含義接下來我們對它們加以詳細描述。(一)IDID中的第一項為條目的名稱,一般由2-21個大寫字母組成,字母可以是A-Z,0-9及下劃線,如:ID ENTRY_NAME;ENTRY_TYPE.第二項為PROSITE數(shù)據(jù)庫條目的類型。目前,在PROSITE數(shù)據(jù)庫中,它主要有三種:PATTERN,MATRIX及RULE。如:圖4-31 三各類型的ID(二

51、)ACAC是PROSITE數(shù)據(jù)庫的獲取號,類似于人的身份證號,一個條目中只有一個獲取號。當人們用到PROSITE數(shù)據(jù)庫具體某個條目時,一般引用這個獲取號。其格式為:AC PSnnnnn這里的“PS”代表PROSITE數(shù)據(jù)庫。“nnnnn”是5個阿拉伯數(shù)字,如:AC PS00123(三)DT說明日期項。其格式為:DT MMM-YYYY (CREATED); MMM-YYYY(DATA UPDATE); MMM-YYYY(INFO UPDATE)說明如下:“MMM”代表月;“YYYY”代表年。第一個時間即“MMM-YYYY(CREATED)”說明該條目第一次收載進來的時間;第二個時間即“MMM-Y

52、YYY(DATA UPDATE)說明原始基本數(shù)據(jù)最后一次修改的時間;第三個時間即“MMM-YYYY(INFO UPDATE)說明除原始基本數(shù)據(jù)外其它內(nèi)容的修改時間;(四)DE這一項主要是提供相關(guān)的信息。如DE Myb DNA-binding domain repeat signature 1.DE Iron-containing alcohol dehydrogenases signature.DE Zinc finger, C2H2 type, domainDE Globin profile(五)PA就時我們前面所說的正則模式。我們在前面曾以一個具體例子作了比較簡單的描述,這里我們對它進行比

53、較詳細的描述。它包括如下要素:1.氨基酸殘基用標準的IUPAC一個字母代碼來表示,如丙氨酸用A,甘氨酸用G等。2.“x”代表任何一個氨基酸殘基;3. 如果在某個位置上不是比較確定,相對比較模糊,則用方括號來表示,如ACD說明這個位置可以是氨基酸殘基A,C或D組成。4. 有時這種模糊的位置也可以用大括號即“”來表示這個位置不可能含某類氨基酸,如“AD”說明在這個位置上不可能出現(xiàn)丙氨酸A和天門冬氨酸D。5.重復部分可以用一個字符及相應(yīng)的數(shù)字來表示,如x(3)表示“x-x-x”,x(2,4)表示x-x或x-x-x或x-x-x-x。6.如果保守序列模式在蛋白質(zhì)N端或C端時,則它們分別用“”來表示。如”

54、代表“F-GSTV-P-R-L-G”或“F-GSTV-P-R-L”?,F(xiàn)我們舉幾個例子來說明它們:例1 PA AC-x-V-x(4)-ED其含意是“Ala或Cys-任何殘基-Val-任何殘基-任何殘基-任何殘基-任何殘基但除Glu或Asp”外。 例2 PA A-x-ST(2)-x(0,1)-V其含意是氨基端即N端為丙氨酸,這樣可以翻譯為“Ala-任何殘基-Ser或Thr-Ser或Thr-任何殘基或沒有-Val。(六)MA主要是蛋白質(zhì)序列突變譜。(七)PP 主要描述與后處理過程有關(guān)系的空容。 (八)NR 主要是以本條目中所代表保守序列模式與Swiss-Prot數(shù)據(jù)庫(掃描)每個序列進行比較得到的結(jié)

55、果。其基本格式為:NR /QUALIFIER=data;/QUALIFIER=data;這里的修飾詞“QUALIFIER”主要是指:/RELEASE Swiss-Prot數(shù)據(jù)庫發(fā)布的版本號和該版本收集的蛋白質(zhì)條目數(shù);/TOTAL 找到Swiss-Prot數(shù)據(jù)庫命中的條目數(shù);/POSITIVE 屬于當前考慮范圍內(nèi)命中的條目數(shù);/UNKNOWN 屬于當前考慮范圍內(nèi)可能命中的條目數(shù);/FALSE_POS 假命中點數(shù)(即在數(shù)值計算中符合條件但實際上不是相關(guān)蛋白的個數(shù))/PARTRIAL 屬于被考慮范圍內(nèi),但由于它們只是一個序列片段且與這個保守序列模式或序列突變譜不符合的這樣的序列個數(shù)。 比如:NR /

56、RELEASE=52.0,260175NR /TOTAL=1550(351); /POSITIVE=1517(332); /UNKNOWN=0(0); /FALSE_POS=33(19)NR /FALSE_NEG=0; /PART9IAL=0; 其含意為在Swiss-Prot數(shù)據(jù)庫中,它為52.0版本,共有260175個條目,其中對351個不同序列,發(fā)現(xiàn)該模式有1550次,其中陽性有332條序列,出現(xiàn)1517次,假陽性的有19條序列,出現(xiàn)33次,假陰的為0(即沒有被發(fā)現(xiàn)),片段序列的為0。(九)CC其格式為:CC /QUALIFIER=data; /QUALIFIER=data; 修飾辭項即q

57、ualifier有:/TAXO_RANGE 分類范圍/MAX-REPEAT 在某個蛋白質(zhì)內(nèi)模式或序列突變譜最多重復出現(xiàn)的次數(shù)。/SITE 在該保守序列模式中能引起人們興趣的位點。/SKIP-FLAG 由于比較含糊在實際應(yīng)用時被忽視。/VERSION 該模式或序列突變譜的版本號下面我們逐一介紹之。1. /TAXO-RANGE=ABEPV“A”代表太古代(archaea)“B”代表噬菌體“E”代表真核生物“P”代表原核生物“V”代表真核生物細菌2. /MAX-REPEAT其意思是對所給保守序列模式或序列突變譜,其出現(xiàn)的最大次數(shù),其格式為:/MAX-REPEAT=nn;3. /SITE 主要是對所給

58、的保守序列模式或序列突變譜中出現(xiàn)人們感興趣的位點如酶催化活性位點。其格式為: /SITE=nn,text_description例如:/SITE=3,active_site;/SITE=5,disulfide; “nn”是讓人感興趣的位點在該保守序列模式中的位置。如保守序列模式:A-ILMV-x(2,4)-A-C-P含有二硫鍵,則有:/SITE=5,disulfide;再如保守序列模式:C-CPWHF-CPWR-C-H-CFWY有:/SITE=1,heme; /SITE=4,heme; /SITE=5,heme_iron這說明有兩個半胱氨酸(位點1與4)與血紅素相連, 第5個位點即H與鐵血紅素

59、相連。 4 /SKIP-FLAG這主要針對有翻譯后修飾的蛋白質(zhì)序列,盡管有用,但有些程序出于某種考慮將它忽略掉。為此這些條目將在“CC”行中有這方面的標記。如/SKIP-FLAG=TRUE5 /VERSION當PA或MA項的數(shù)據(jù)出現(xiàn)修改時,其數(shù)值才增加。主要是說明該條目的變化。在19.0版中,其數(shù)值均高置為1,即/VERSION=1;6 /MATRIX_TYPE主要敘述由序列突變譜確定的蛋白質(zhì)區(qū)域。具體分如下幾個參數(shù):Protein_domain 說明該序列突變譜指向蛋白質(zhì)保守區(qū)間;Repeat_region 說明該序列突變譜指向重復單元的區(qū)間;Localization_signal 說明該序

60、列突變譜指向的區(qū)間對蛋白質(zhì)在細胞的定位很重要Composition 說明該序列突變譜指向的區(qū)間的組成復雜性比較低 7 /SCALING_DB這個條目主要是用于校正序列突變譜時所用的數(shù)據(jù)庫。8 /AUTHOR說明是誰創(chuàng)造這個序列突變譜或這個序列突變譜是由誰更新的。9 /FT_KEY和/FT_DESC根據(jù)實際需要,人們要對由序列突變譜確定的區(qū)間進行描述,這項的設(shè)置就是為了能讓計算機能有效地讀取。其主要參數(shù)有:NP_BIND,MOTIF,DOMAIN,REPEAT,DNA_BIND或ZN_FING(十)DR行DR主要是指向Swiss-Prot數(shù)據(jù)庫相應(yīng)的條目,其格如下:DR AC_NB,ENTRY_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論