數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫_第1頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫_第2頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫_第3頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫_第4頁
數(shù)據(jù)搜索時有用的生物大分子數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物大分子數(shù)據(jù)庫掃描根據(jù)“Nucleic Acids Research”最新(指2007年)公布的數(shù)據(jù),目前已有968個有關生物大分子數(shù)據(jù)庫(參見文獻 Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。有興趣的讀者可以參閱網(wǎng)站“”。我們這里將主要類型的數(shù)據(jù)庫列于表4-2。數(shù)據(jù)庫類別代表數(shù)據(jù)庫名及應用核苷酸序列數(shù)據(jù)庫國際苷酸序列數(shù)據(jù)庫集DDBJ:所有已知的核苷酸序列與蛋白質序列EMBL:所有已知的核苷酸序列與蛋白質序列GenBank:所有已知的核苷酸序列與蛋白質序列DNA序列:基因,保守序列模式及調控位點

2、有關代碼DNA序列ACLAME:基因移動因子分類數(shù)據(jù)庫CUTG:Genbank數(shù)據(jù)庫中的代碼應用分類數(shù)據(jù)庫HERVd:人類內源性逆轉錄病毒數(shù)據(jù)庫NPRD:核小體定位區(qū)間數(shù)據(jù)庫TIGR Gene Indices:基因序列與組織專一化數(shù)據(jù)庫VectorDB:核酸向特征及分類數(shù)據(jù)庫基因結構,內含子,外顯子ASD:選擇性剪切數(shù)據(jù)庫EASED:擴展選擇性剪切EST數(shù)據(jù)庫HS3D:現(xiàn)代人剪切位點數(shù)據(jù)庫Splice DB:典型與非典型的哺乳動物剪切位點數(shù)據(jù)庫轉錄調節(jié)位點與轉錄因子ACTIVITY:功能DNA/RNA位點數(shù)據(jù)庫DBTBS:枯草桿菌起動與轉錄因子數(shù)據(jù)庫EPD:真核起動子數(shù)據(jù)庫JASPAR:轉錄因

3、子DNA結合位點位置專一化得分矩陣TESS:轉錄子搜索系統(tǒng)TRED:轉錄調控元素數(shù)據(jù)庫TRANSFAC:轉錄因子和連接位點數(shù)據(jù)庫RNA序列數(shù)據(jù)庫16S與23S rRNA Mutation Database:16S與23S核糖體RNA突變數(shù)據(jù)庫ARED:mRNA中AU豐富數(shù)據(jù)庫NCIR:RNA結構中非典型相互作用數(shù)據(jù)庫tmRDB:tmRNA數(shù)據(jù)庫Rfam:非代碼RNA家族數(shù)據(jù)庫蛋白質序列數(shù)據(jù)庫綜合數(shù)據(jù)庫EXProt:被實驗證實功能的蛋白質序列數(shù)據(jù)庫PA-GOSUB:根據(jù)模型器官,GO數(shù)據(jù)庫確認及亞細胞定位的蛋白質序列數(shù)據(jù)庫Swiss-Prot:蛋白質序列數(shù)據(jù)庫TrEMBL:應用計算機注釋與翻譯E

4、MBL數(shù)據(jù)庫UniProt:所有蛋白質序列累積數(shù)據(jù)庫蛋白質性質數(shù)據(jù)庫AAindex:氨基酸理化性質數(shù)據(jù)庫ProNIT:蛋白質與核酸相互作用熱動力學數(shù)據(jù)庫ProTherm:天然型與突變型蛋白質熱動力學數(shù)據(jù)庫TECRdb:酶催化反應熱動力學數(shù)據(jù)庫蛋白質定位與靶向數(shù)據(jù)庫(Protein localization and targeting)DDSubLoc:蛋白質在亞細胞單元定位數(shù)據(jù)庫NESbase:核輸出信號數(shù)據(jù)庫NLSdb:核定位信號數(shù)據(jù)庫NMPdb:核基質聯(lián)合蛋白質數(shù)據(jù)庫NOPdb:核仁蛋白質組數(shù)據(jù)庫PSORTdb:細菌中蛋白質在亞細胞單元中定位數(shù)據(jù)庫SPD:分泌蛋白質數(shù)據(jù)庫THGS:基因組序

5、列中跨膜螺旋蛋白質數(shù)據(jù)庫TMPDB:由實驗確定的跨膜蛋白拓撲數(shù)據(jù)庫蛋白質保守序列模式及活性位點數(shù)據(jù)庫ASC:活性序列集合:生物活性肽數(shù)據(jù)庫BLOCKS:蛋白質家族中保守區(qū)間比對數(shù)據(jù)庫CSA:催化位點圖譜,已知三維結構的酶的活性位點及催化位點數(shù)據(jù)庫COMe:生物有機蛋白分類數(shù)據(jù)庫CopS:綜合肽信號數(shù)據(jù)庫eBLOCKS:高度保守蛋白質序列塊eMOTIF:蛋白質保守序列模式的確定與搜索Metalloprotein Site Database:金屬蛋白中金屬連接位點數(shù)據(jù)庫O-GlyBase:蛋白質中用O和C連接的糖基化位點數(shù)據(jù)庫PDBsite:蛋白質三維結構功能位點數(shù)據(jù)庫PROSITE:生物學顯著的

6、蛋白質模式與突變譜數(shù)據(jù)庫蛋白質功能區(qū)域;蛋白質分類數(shù)據(jù)庫ADDA:蛋白質功能區(qū)域分類數(shù)據(jù)庫CDD:保守功能區(qū)域數(shù)據(jù)庫:主要來自于Pfam,SMART,COG和KOG數(shù)據(jù)庫CluSTr:Swiss-Prot+TrEMBL蛋白聚類數(shù)據(jù)庫FunShift:在同一個蛋白質功能的家族的子家族之間功能異化數(shù)據(jù)庫PRINTS:啟發(fā)式基因家族指紋譜數(shù)據(jù)庫Pfam:蛋白質家族數(shù)據(jù)庫:根據(jù)多重序列比對和突變譜HMM構建ProtoMap:將Swiss-Prot依不同層次分類的數(shù)據(jù)庫S4:SCOP超級家族中基于結構的序列比對數(shù)據(jù)庫單個蛋白質家族數(shù)據(jù)庫AARSDB:酰氨轉移-tRNA合成酶數(shù)據(jù)庫ASPD:人工選擇的蛋白

7、質/肽數(shù)據(jù)庫Bac Tregulators:AraC和TetR家族轉錄調節(jié)子數(shù)據(jù)庫CSDBase:冷休克蛋白功能區(qū)閾數(shù)據(jù)庫GPCRDB:G蛋白偶聯(lián)受體數(shù)據(jù)庫Histone Database:組蛋白折疊序列與結構數(shù)據(jù)庫ProLysED:細菌蛋白酶數(shù)據(jù)庫TrSDB:轉錄因子數(shù)據(jù)庫結構數(shù)據(jù)庫小分子數(shù)據(jù)庫ChEBI:對生物有反應的化學條目AANT:氨基酸與核苷相互作用數(shù)據(jù)庫碳水化合物數(shù)據(jù)庫CCSD:復合碳水化合物結構數(shù)據(jù)庫GlycoSuiteDB:N-和O-多糖結構與生物資源數(shù)據(jù)庫核酸結構數(shù)據(jù)庫NDB:核酸包含結構數(shù)據(jù)庫NTDB:核酸熱動力學數(shù)據(jù)庫RNABase:由PDB和NDB中包括RNA的結構數(shù)據(jù)

8、庫SCOR:RNA結構分類數(shù)據(jù)庫,有關RNA結構,保守序列模式,功能及三級結構相互作用有關蛋白質結構方面的數(shù)據(jù)庫ArchDB:蛋白質環(huán)結構自動分類數(shù)據(jù)庫ASTRAL:已知結構的功能區(qū),被選出的子集和序列結構相關的序列數(shù)據(jù)庫BAliBASE:多重序列比對比較的數(shù)據(jù)庫BioMagReBank:蛋白質與核酸的NMR光譜數(shù)據(jù)庫CADB:蛋白質數(shù)據(jù)庫的構象角數(shù)據(jù)庫CATH:蛋白質功能區(qū)域自動分類數(shù)據(jù)庫CE:蛋白質三級結構比對數(shù)據(jù)庫CKAAPsDB:序列不相似但結構相似的蛋白質數(shù)據(jù)庫Dali:應用Dali搜索引擎得到的蛋白質折疊分類數(shù)據(jù)庫Decoys R Us:由計算機產(chǎn)生構象的數(shù)據(jù)庫DsiProt:蛋白

9、質無序結構數(shù)據(jù)庫DomIns:已知蛋白質結構功能區(qū)閾插入數(shù)據(jù)庫eF-site:功能位點靜電表面數(shù)據(jù)庫:蛋白質活性位點的靜電勢與疏水性GenDis:蛋白質結構超級家族基因組分布數(shù)據(jù)庫GTOP:根據(jù)基因組序列預測蛋白質折疊數(shù)據(jù)庫HOMSTRAD:同源結構比對數(shù)據(jù)庫MolMovDB:生物大分子運動數(shù)據(jù)庫,主要描述蛋白質及生物大分子運動LPFC:蛋白質核結構家族庫PDB:蛋白質結構數(shù)據(jù)庫,搜集了所有蛋白質及核酸結構的數(shù)據(jù)庫PDBsum:對PDB結構總結分析數(shù)據(jù)庫PDB_TM:已知三級結構的跨膜蛋白數(shù)據(jù)庫ProteinFolding Database:蛋白質折疊實驗數(shù)據(jù)庫SCOP:由專家參預的蛋白質結構

10、分類數(shù)據(jù)庫Sloop:蛋白質環(huán)分類數(shù)據(jù)庫Structure Superposition Database:TIM桶狀結構的配對疊合數(shù)據(jù)庫基因組數(shù)據(jù)庫基因注釋項,規(guī)范描述及相關術語有關常用命名方面的數(shù)據(jù)庫Genew:人類基因命名GO:基因功能的規(guī)范描術數(shù)據(jù)庫GOA:有關EBI的基因功能的規(guī)范描述數(shù)據(jù)庫IUBMB Nomenclature數(shù)據(jù)庫:有關酶,跨膜轉移,電子轉移蛋白及其它蛋白命名。IUPAC Nomenclature數(shù)據(jù)庫:由IUBMB與IUPAC聯(lián)合委員會通過的生化與有機小分子的命名IUPHAR-RD:國際藥學聯(lián)合會推薦的有關受體命名和藥物分類數(shù)據(jù)庫分類與鑒定數(shù)據(jù)庫細菌鑒定與分類的gy

11、rB數(shù)據(jù)庫綜合基因數(shù)據(jù)庫COG:蛋白質直系同源組聚類數(shù)據(jù)庫COGENT:完全基因組跟蹤數(shù)據(jù)庫,根據(jù)完全基因序列預測肽DEG:細菌與酵母必須基因數(shù)據(jù)庫FusionDB:細菌與古菌基因剪切(融合)事件數(shù)據(jù)庫Genome Atlas:序列基因組的DNA結構性質數(shù)據(jù)庫GOLD:基因組在線數(shù)據(jù)庫Integr8:全基因組蛋白質功能分類數(shù)據(jù)庫KEGG:基因與基因組京都百科全書,有關基因,蛋白質及代謝路徑整合組數(shù)據(jù)庫TransportDB:根據(jù)TC分類系統(tǒng)預測全基因組中的跨膜轉運數(shù)據(jù)庫WIT3:有關微生物全序列基因組代謝重建數(shù)據(jù)庫生物種類專一化數(shù)據(jù)庫細菌類HCVDB:肝炎C型病毒數(shù)據(jù)庫HIV Drug Res

12、istance數(shù)據(jù)庫:具有抗藥性能的HIV突變數(shù)據(jù)庫HIV Molecular Immunology數(shù)據(jù)庫:HIV抗原決定基數(shù)據(jù)庫HIV RT and Protease Sequence數(shù)據(jù)庫:HIV逆轉錄酶及蛋白質酶序列數(shù)據(jù)庫VIDA:同源病毒蛋白家族數(shù)據(jù)庫VirOligo:有關PCR及其雜化的病毒專一化寡聚核苷酸數(shù)據(jù)庫原核生物類總述BacMap:注釋細菌基因組圖譜數(shù)據(jù)庫MetaGrowh:細菌病原體生長要求數(shù)據(jù)庫PGTdb:原核生物生長溫度數(shù)據(jù)庫大腸桿菌類(Escherichia coli)ASAP:對大腸桿菌及其相關基因組系統(tǒng)注釋包裹CyberCell數(shù)據(jù)庫:有關E.coli K12的應

13、用數(shù)學模型模擬的數(shù)據(jù)庫集合coliBase:有大腸桿菌,沙門氏菌屬及志賀氏桿菌的數(shù)據(jù)庫PEC:有關大腸桿菌染色體圖譜RegulonDB:大腸桿菌中轉錄調節(jié)及操縱組織數(shù)據(jù)庫枯草桿菌類BSORF:京都大學枯草桿菌基因組數(shù)據(jù)庫NUSub:里昂大學非冗枯草桿菌數(shù)據(jù)庫SubtiList:巴斯德研究院枯草桿菌基因組數(shù)據(jù)庫其它細菌類BioCyc:多種細菌路徑及基因組數(shù)據(jù)庫CampyDB:彎曲桿菌屬基因組分析數(shù)據(jù)庫ClostriDB:梭菌屬完成的與未完成的基因組數(shù)據(jù)庫Virulence Factors:有關微生物毒性因子數(shù)據(jù)庫單細胞真核生物ApiEST-DB:從各種各樣Apicomplexan寄生蟲獲得的ES

14、T序列CryptoDB:有關Cryptosporidium parvum基因組數(shù)據(jù)庫ToxoDB:鼠弓形體基因組數(shù)據(jù)庫真菌類酵母菌類AGD:Ashbya棉花基因組數(shù)據(jù)庫CandidaDB:加拿乳頭狀體基因組數(shù)據(jù)庫CYGD:MIPS綜合酵母基因組數(shù)據(jù)庫SCPD:釀酒酵母起動子數(shù)據(jù)庫其它真菌類CADRE:中心化曲霉菌數(shù)據(jù)集MNCDB:MIPS粗糙鏈孢霉數(shù)據(jù)庫無脊椎動物克氏病Intronerator:C.elegans和C. briggsae內含子和剪切數(shù)據(jù)庫RNAiDB:克氏病基因表型的RNAi表型分析WILMA:克氏病注釋數(shù)據(jù)庫WorfDB:克氏病ORF組數(shù)據(jù)庫黃猩猩果蠅(Drosophila

15、melanogaster)FlyBase:果蠅序列與基因組信息FlyBrain:果蠅神經(jīng)系統(tǒng)數(shù)據(jù)庫DPDB:果蠅多聚態(tài)數(shù)據(jù)庫其它無脊椎動物AppaDB:線蟲Pristionchus pacificus數(shù)據(jù)庫BeetleBase:甲蟲Tribolium castaneum基因組數(shù)據(jù)庫CnidBase:刺胞動物進化和基因表達數(shù)據(jù)庫PPNEMA:植物寄生線蟲rRNA數(shù)據(jù)庫代謝酶和路徑;信號路徑數(shù)據(jù)庫酶與酶命名數(shù)據(jù)庫BRENDA:酶名稱與生物化學性質數(shù)據(jù)庫ENZYME:酶命名與性質數(shù)據(jù)庫Enzyme Nomenclature:IUBMB命名委員會推薦數(shù)據(jù)庫IntEnz:整合酶數(shù)據(jù)庫與酶命名PDBrtf

16、:PDB中酶的目標家族代表數(shù)據(jù)庫SCOPEC:功能區(qū)閾催化功能圖譜數(shù)據(jù)庫代謝路徑數(shù)據(jù)庫BioSilico:各類代謝數(shù)據(jù)庫整合KEGG 路徑:全基因組代謝與調節(jié)路徑數(shù)據(jù)庫MetaCyc:各種生物體代謝路徑與酶數(shù)據(jù)庫分子間相互作用和信號路徑數(shù)據(jù)庫3DID:已知三維結構的蛋白質功能區(qū)閾與功能區(qū)閾相互作用蛋白質aMAZE:生物化學與信號路徑網(wǎng)絡的注釋,管理與分析系統(tǒng)BIND:生物分子相互作用網(wǎng)絡數(shù)據(jù)庫BioCarta:代謝與信號路徑在線圖DIP:蛋白質相互作用數(shù)據(jù)庫DRC:核糖體交互鏈接數(shù)據(jù)庫POINT:人類蛋白質蛋白質相互作用組數(shù)據(jù)庫STCDB:信號轉導分類數(shù)據(jù)庫人類與其它脊椎動物基因組模型生物與比

17、較基因組數(shù)據(jù)庫AllGene:人類和小鼠基因,轉錄及蛋白質注釋數(shù)據(jù)庫DED:進化距離數(shù)據(jù)庫FANTOM:小鼠全長cDNA克隆功能注釋數(shù)據(jù)庫GALA:基因組比對,注釋與實驗結果數(shù)據(jù)庫IPI:人類,大鼠,小鼠蛋白的非冗余集國際蛋白索引數(shù)據(jù)庫Polymorphix:序列多聚表型數(shù)據(jù)庫Rat Genome數(shù)據(jù)庫:大鼠遺傳與基因組數(shù)據(jù)庫TAED:自適應進化數(shù)據(jù)庫VEGA:脊椎動物基因組數(shù)據(jù)人類基因組數(shù)據(jù)庫,圖譜及閱讀器AluGene:人類基因組完全運算圖GroW 21:人類21號染色體數(shù)據(jù)庫GDB:人類基因與基因組圖數(shù)據(jù)庫GeneLoc:基因定位數(shù)據(jù)庫HOWDY:人類組織全基因組數(shù)據(jù)庫IXDB:人類X染

18、色體物理圖Map Viewer:應用染色體位置基因組信息展示圖TRBase:人類基因組串聯(lián)重復數(shù)據(jù)庫人類蛋白H-InvDB:全長人類cDNA克隆數(shù)據(jù)庫HPMR:人類血漿膜受體數(shù)據(jù)庫,包括序列,文獻及表達數(shù)據(jù)庫HPRD:人類蛋白參考標準數(shù)據(jù)庫,包括功能區(qū)域構建,翻譯后修飾及其相關疾病LIFEdb:人類蛋白質的定位,相互作用和功能數(shù)據(jù)庫人類基因與疾病數(shù)據(jù)庫綜合數(shù)據(jù)庫DG-CST:疾病基因保守序列標簽數(shù)據(jù)庫PMD:蛋白質突變編譯數(shù)據(jù)庫SOURCE:人類,小鼠與大鼠的功能基因組資源數(shù)據(jù)庫ORFDB:由Invitrogen銷售的ORF人類突變數(shù)據(jù)庫綜合多形態(tài)數(shù)據(jù)庫ALFRED:等位基因頻率與DNA多型態(tài)

19、數(shù)據(jù)庫BayGenomics:與冠心病和肺部相關基因數(shù)據(jù)庫Cypriot national mutation database:塞浦路斯人群疾病突變數(shù)據(jù)庫dbQSNP:SNP等位基因頻率定量數(shù)據(jù)庫FESD:功能性SNP數(shù)據(jù)庫,包括在人類基因的起動子,UTRs上的SNPHGVS數(shù)據(jù)庫:人類突變編輯數(shù)據(jù)庫IPD:免疫多聚形態(tài)數(shù)據(jù)庫JSNP:日本SNP數(shù)據(jù)庫rSNPs Guide:調節(jié)基因區(qū)間SNPTopoSNP:非同義SNPs的拓樸數(shù)據(jù)庫癌癥Atlas of Genetics and Cytogenetic in Oncology and Haematology:在腫瘤,血液及有癌癥傾向疾病的癌癥

20、相關基因,染色體異常的數(shù)據(jù)庫CGED:癌癥基因表達數(shù)據(jù)庫Germline p53 mutations:在人類腫瘤和細胞線p53基因的突變數(shù)據(jù)庫MTB:小鼠腫瘤生物學數(shù)據(jù)庫:包括腫瘤類型,基因,分類,發(fā)生率及病理學有關基因,系統(tǒng)或疾病專一性數(shù)據(jù)庫ALPSbase:自體免疫淋巴組織增生綜合癥數(shù)據(jù)庫BTKbase:X-鏈接血中丙球蛋白貧乏突變記錄數(shù)據(jù)庫CASRDB:鈣敏感受體數(shù)據(jù)庫ERGDB:雌激素響應基因數(shù)據(jù)庫PGDB:前列腺及前列腺疾病基因數(shù)據(jù)庫SCAdb:脊髓與小腦共濟失調數(shù)據(jù)庫微陣列數(shù)據(jù)與其它基因表達數(shù)據(jù)庫5SAGE:5末端基因表達系列分析數(shù)據(jù)庫ArrayExpress:公共搜集微陣列基因表

21、達數(shù)據(jù)庫BGED:腦基因表達數(shù)據(jù)庫GEO:基因表達公共站數(shù)據(jù)庫,主要是搜集基因表達譜方面的數(shù)據(jù)GermOnline:有絲分裂與減數(shù)分裂細胞周期中基因表達數(shù)據(jù)庫GXD:小鼠基因表達數(shù)據(jù)庫MethDB:DNA甲基化數(shù)據(jù),模式及圖譜數(shù)據(jù)庫蛋白質組資源數(shù)據(jù)庫2D:微生物研究中蛋白組數(shù)據(jù)庫系統(tǒng)DynaProt 2D:Lactococcus lactis 蛋白質組數(shù)據(jù)庫Open Proteomics Database:人類,酵母,大腸桿菌和分枝桿菌基于質譜的蛋白質組數(shù)據(jù)庫PEP:全蛋白質預測數(shù)據(jù)庫,蛋白質序列在翻譯前,翻譯中及翻譯后蛋白質修飾數(shù)據(jù)庫RESID: 翻譯前,翻譯中及翻譯后蛋白質修飾數(shù)據(jù)庫其它分

22、子生物學數(shù)據(jù)庫藥物與藥物設計數(shù)據(jù)庫ANTIMIC:自然抗微生物藥物肽數(shù)據(jù)庫AOBase:反義寡聚核苷酸選擇與設計APD:抗微生物肽數(shù)據(jù)庫DART:藥物不良反應靶點數(shù)據(jù)庫TTD:治療靶點數(shù)據(jù)庫有關探針方面的數(shù)據(jù)庫IMGT/PRIMER-DB:免疫遺傳寡聚核苷酸引物數(shù)據(jù)庫PrimerPCR:真核與原核基因的PCR引物數(shù)據(jù)庫QPPD:人與小鼠定量PCR引物數(shù)據(jù)庫RTPrimerDB:實時PCR引物和探針序列數(shù)據(jù)庫未分類數(shù)據(jù)庫BioImage:多維生物圖像數(shù)據(jù)庫細胞器數(shù)據(jù)庫綜合數(shù)據(jù)庫OGRe:細胞器基因組修復系統(tǒng)Organelle DB:細胞器蛋白與亞細胞結構數(shù)據(jù)庫線粒體基因與蛋白方面的數(shù)據(jù)庫AMPD

23、B:阿布屬線粒體蛋白的數(shù)據(jù)庫HMPD:人類線粒體蛋白數(shù)據(jù)庫Mitochondrome:多細胞動物線粒體基因數(shù)據(jù)庫MitoDrome:果蠅核解碼線粒體數(shù)據(jù)庫MITOP2:線粒體蛋白,基因,疾病數(shù)據(jù)庫MPLMP:植物線粒體蛋白輸入機器數(shù)據(jù)庫PLMtRNA:植物線粒體tRNA數(shù)據(jù)庫植物數(shù)據(jù)庫植物綜合數(shù)據(jù)庫BarleyBase:植物基因組表達圖譜數(shù)據(jù)庫CR-EST:大麥,豌豆,小麥及土豆數(shù)據(jù)庫CroNet:農(nóng)作物基因組圖譜數(shù)據(jù)庫FLAGdb+:有關植物基因組綜合數(shù)據(jù)庫Mendel:已注釋的植物ESTs和STSs數(shù)據(jù)庫擬南芥AGNS:擬南芥基因網(wǎng)增補數(shù)據(jù)庫,包括基因表達,轉基因與突變形態(tài)AGRIS:阿布

24、屬基因調節(jié)信息服務器:包括起動子,轉錄因子及其目標基因方面的數(shù)據(jù)庫CATMA:完全阿布屬轉錄組微陣列數(shù)據(jù)庫MAtDB:MIPS擬芥南數(shù)據(jù)庫TAIR:阿布屬信息資源數(shù)據(jù)庫水稻BGI-RISe:北京基因組研究院水稻信息系統(tǒng)INE:整合水稻基因組瀏覽器IRIS:國際水稻信息系統(tǒng)RAD:水稻注釋數(shù)據(jù)庫RiceGAAS:水稻基因組自動注釋系統(tǒng)Rice proteome database:水稻蛋白質組數(shù)據(jù)庫其它植物MaizeGDB:玉米遺傳與基因組數(shù)據(jù)庫SGMD:大豆基因組與微陣列數(shù)據(jù)庫免疫學數(shù)據(jù)庫BCIpep:B-細胞抗原決定基數(shù)據(jù)庫dbMHC:人類MHC遺傳與臨床數(shù)據(jù)庫FIMM:功能分子免疫學數(shù)據(jù)庫I

25、MGT:國際免疫學信息系統(tǒng),包括免疫球蛋白,T細胞受體,MHC和RPIIMGT/Gene-DB:脊椎動物免疫球蛋白與T細胞受體數(shù)據(jù)庫MHCBN:MHC連接與非連接肽數(shù)據(jù)庫MHCPEP:MHC連接肽數(shù)據(jù)庫MPID:MHC肽相互作用數(shù)據(jù)庫VBASE2:人與小鼠Ig定位可變基因數(shù)據(jù)庫那么SwissProt數(shù)據(jù)庫主要內容及格式是什么呢?我們這里作一個比較詳細的介紹。下面這段是一個完整的SwissProt條目,現(xiàn)解釋如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR-1990 (Rel. 14, Created)DT 01-APR-199

26、0 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX MEDLINE=90158697; P

27、ubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.;RL Mol. Biochem. Parasitol. 39:47-60(1990).CC -!- SUBCELL

28、ULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC CC This Swiss-Prot entry is copyright. It is produced through a collaborationuniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on itsCC use as long as its content is in

29、no way modified and this statement is notCC removed.CC DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64; MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQT

30、GPAFLT AVEMAGVKYL QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK YVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADATYHEPCF KIIPNTGFCI TKLFDGDQVL YESFNPL

31、IHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS SKEGKKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK

32、 SPRTASPTRR PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPVK LKRSKSFDDL TTVELAPEPK ASRIVVDDEG TE

33、ADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP KKPDSAYIPS ILAILVVSLI VGIL/ID 是指其身份號,924 AA是指有該序列有924個氨基酸殘基AC 獲取號;DT 序列測得的時間DE 對該序列必要的信息的說明,如該分子的分子量為104 kDa .OS 來源 OX NCBI分類身份號RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有關Medline的出版號RA 作者RT 引用文獻題目RL 雜志名稱,出版日期,卷期頁CC 有關它的功能描述及其它相關信息方面的描述DR EMBL數(shù)據(jù)庫中的獲取號DR

34、 PIR數(shù)據(jù)庫中的獲取號KW 關鍵詞FT 功能區(qū)的描述SQ 有關序列方面的信息,這部分是最主要的,因為該蛋白質的序列就列在下面。/ 表明這個條目結束。通過對上面這段的分析,讀者可以知道Swiss-Prot數(shù)據(jù)庫基本框架及所蘊含的生物信息學內容。同時,人們也可在需要Swiss-Proto數(shù)據(jù)庫時根據(jù)其格式編制出相應的計算機程序。這一點其實對生物信息學工作者非常重要,因為一個生物信息學分析方法首先要得到正確的數(shù)據(jù),而正確的數(shù)據(jù)則必須以相應數(shù)據(jù)庫格式為基準。有關該數(shù)據(jù)庫用戶可在“”上獲取。二、PDB數(shù)據(jù)庫的基本格式我們在前面曾經(jīng)說過,當一個數(shù)據(jù)庫的格式與內容都知道了后,說明對這個數(shù)據(jù)庫的知識已有初步

35、的掌握。同前面一樣,我們現(xiàn)在詳細介紹PDB數(shù)據(jù)庫的格式。由于蛋白質結構涉及到蛋白質中每個原子的坐標,二級結構,一個蛋白質結構所占的容量是比較大的,因此它不可能象Swiss-Prot數(shù)據(jù)庫那樣將所有蛋白質序列放在一個文件中,而是一個蛋白質一個文件。因此,到目前為止,PDB數(shù)據(jù)庫應有41952個文件,這樣就涉及到其文件名的問題,PDB數(shù)據(jù)庫的文件如圖4-10所示:圖4-10 PDB數(shù)據(jù)庫中的文件名格式下面是一個典型的PDB數(shù)據(jù)庫格式的描述:PDB中所的分子空間結構信息文件的格式基本上都是一樣的。文件由若干記錄組成,每一記錄有80個字符(包括空格)。開頭的6個字符標明該記錄的名稱,現(xiàn)將各記錄的意義分

36、別敘述如下:HEADER該記錄列出分子所屬功能類,正式收入PDB日期以及該分子的判別碼OBSLTE該記錄列出已被新分子文件取代的一些舊的分子的有關信息。COMPND該記錄出分子名SOURCE該記錄說明分子來源AUTHOR該記錄列出提供座標者的姓名REVDAT該記錄列出文件歷次修改的日期等有關信息SPRSDE該記錄列說明此文件取代舊文件的有關信息JRNL該記錄引用與確定該分子空間結構有關的主要文獻REMARK該記錄為關于該分子文件的其它信息。其中:REMARK1專用于列出與該結構有關的其它文獻,REMARK2和REMARK3分別是關于晶體結構的分辨率及精華的信息SEQRES列出蛋白質一級結構HE

37、T列出非標準基團或殘基的信息(主要是指除標準20個氨基酸殘基以外的基團信息。具體格式如下:1-3列是“HET”;8-10列是非標準基團表示符;13列是鏈表示符號;14-17順序號;18列是插入碼;21-25列是非標準基團中的原子數(shù)目;31-70為注釋HELIX列出分子中有關螺旋的信息。1-6列是“HELIX”; 8-10列是順序號; 12-14螺旋表示符;16-18 殘基名;20鏈表示符;22-25殘基序號;26 插入碼;28-30殘基名;32鏈表示符;34-37殘基序號;38插入碼;39-40螺旋類別;41-70注釋。 SHEET列出分子中有關折疊的信息,其格式如下:1-5列為SHEET;8

38、-10股號;12-14折疊表示符;15-16股數(shù);18-20殘基名;22鏈表示符;23-26殘基序列號;27插入碼;29-31 殘基名;33 鏈表示符;34-37殘基序號;38 插入碼;39-40類型判別碼;42-45 原子名;46-48 殘基名;50鏈表示符;51-54 殘基序號;55插入碼;57-60 原子名;61-63 殘基名;65 鏈表示符;66-69殘基序號;70插入碼。TURN列出分子中有轉角(發(fā)夾結構)的信息;SSBOND殘出分子中有關二硫鍵的信息;SITE列出重要功能部位 1-4 SITE;8-10序號;12-14功能部位表示符;16-17組成功能部位的殘基數(shù);19-61 組成

39、功能部位的四個殘基的位置信息。當然如果某功能部位由四個以上殘基組成,則可以增加SITE記錄以包含全部殘基的位置信息,但增加的記錄其功能部位表示符(12-14列)就與原來記錄一致。CRYST該記錄列出關于晶體結構的單晶胞參數(shù)及空間群標識;ORIGX該記錄列出將下交坐變換為用戶送交坐標的參數(shù);SCALE由正交坐標變換為分數(shù)坐標的參數(shù);MATRIX列出代表非晶體學對稱性的變化參數(shù);TVECT列出無限共價連接結構的變換向量;ATOM列出標準基團的各原子的坐標。這是PDB的核心。 其格式如下:1-4 ATOM;7-11 原子序列號; 13-16原子名; 18-20 殘基名; 22 鏈表示符;23-26殘

40、基序列號;31-38 原子X座標; 39-46 原子的Y座標; 47-54 原子Z坐標;55-60占有率;61-66 溫度因子。 SIGATM列出原子參數(shù)的標準差; ANISOU列出各向異性溫度因子;SIGUIJ列出各向異性溫度因子的標準差; TER列出鏈的末端殘基。有時某個蛋白質結構因為某些原因會插入一些不是該蛋白質結構的氨基酸殘基,其對應的原子就不是“ATOM”,而是“HETATM”,表明這些原子是外來原子,不是蛋白質本身的。三 PDB數(shù)據(jù)庫中有關蛋白質結構的獲取我們前面說過,PDB網(wǎng)站為“”,那么如何通過這個網(wǎng)站獲取你所要的蛋白質結構數(shù)據(jù)呢?有下列幾條途徑。第一種描述如下:1. 打開“”

41、網(wǎng)站,可得如圖4-11的界面,輸入所需要的蛋白質代碼如“1g0v”,然后點擊“Site Search”按鈕,得到如圖4-12所示的界面;2. 點擊圖4-12左上面的“Download Files”,得到的界面的部分如圖4-13所示。3. 點擊圖4-13中的“PDB File”就可以得到你所需要的PDB結構。這里在圖4-13的右邊有相應的蛋白質結構圖。 第二種主要是在Linux操作系統(tǒng)中可以比較方便的使用,具體命如下:1g通過這個命令可以到得蛋白質文件:pdb1g,然后解壓縮即:$ gunzip pdb1g就可以得到文本文件的蛋白質結構文件。 第三種則是通過匿名用戶登錄“”網(wǎng)頁,然后應用“get

42、”命令下載你所要的文件。 通過上述方式,我們可以得到所需要的蛋白質結構。一 SCOP數(shù)據(jù)庫的分類基本原則及其格式SCOP是由劍橋大學于1995年構建。其宗旨是將現(xiàn)有的已知結構的蛋白質的功能區(qū)域按類,折疊方式,超級家族,家族進行逐層次地人工分類。具體如下:(1)家族( family): A. 所有蛋白質的相等殘基數(shù)大于等于%30 B 低于%30但功能與結構非常相似(2)超級家族(superfamily): 源于一個共同的祖先(3)共同折疊方式(common fold): 相同的主要二級結構有相同的排列和連結方式(4)類: 同一類折疊方式構成一類SCOP數(shù)據(jù)庫將現(xiàn)有的蛋白質分成11類,如表4-3所

43、示:表4-3 SCOP數(shù)據(jù)庫中蛋白質結構的分類符號意義符號意義a全螺旋g小蛋白類b全片斷h無規(guī)卷曲類c/i低分辯蛋白類d+j肽類e多功能區(qū)域蛋白類k設計蛋白類f膜蛋白類及細胞表面肽類SCOP數(shù)據(jù)庫與PDB數(shù)據(jù)庫的文件格式完全一致,如果有不同,那就是它將PDB數(shù)據(jù)庫中一個蛋白質結構的文件根據(jù)其功能區(qū)域分別放在不同文件中存放。相應的文件名也與PDB數(shù)據(jù)庫的文件名密切相關,下圖以一個實際的例子來說明其意義:圖4-14 SCOP文件名解析這里有一點必須說明,當?shù)鞍踪|只有一條鏈(或鏈沒有命名)時,則鏈名稱以下劃“_”來表示,如蛋白質“d1eut_1.b.pdb”。同樣的,如果該鏈只有一個功能區(qū)域時,則對

44、應的位置同樣用下劃線“_”來表示,如蛋白質“”。為使讀者對上述各類別有一個感性的認識,我們這里舉出6個蛋白質分別代表a,b,c,d,e,f類。見圖4-15,圖4-16與圖4-17。三、如何獲取整個SCOP數(shù)據(jù)庫 SCOP數(shù)據(jù)庫的網(wǎng)站為“scopscop/”,讀者如果忘記了該網(wǎng)站,也可以在“google”網(wǎng)站中輸入“SCOP”,則出現(xiàn)第一個條目便是SCOP網(wǎng)站。其網(wǎng)頁可見圖4-22,然后點擊其中的“top of the hierarch”則可得到圖4-23所示的網(wǎng)站,這樣用戶只可以按照其中的內容逐步點擊相關按鈕就可以得到自己所需的蛋白質。 這里我們要重點介紹的是如何獲取整個SCOP數(shù)據(jù)庫。用戶可

45、按如下方式操作:1.點擊網(wǎng)站“”,可得圖4-24的網(wǎng)站。2.按圖4-24所指示的“點擊”下載“part1”,“part2”及“part3”得到如下三個文件:“”,“”,“”。然后應用命令“tar xf file”將其展開,如:“tar ”得到各個功能區(qū)域蛋白的數(shù)據(jù)。3.由于我們要知道各個功能域是哪一類,哪一種折疊方式,哪一種超級家族及哪一種家族。因此需要下載另一個文件,它在網(wǎng)站:“”打開該網(wǎng)站,可以得到圖4-25所示頁面。4.下載圖4-25所示頁面的“”的1.71版,然后根據(jù)我們應用“PERL”語言編制的程序(見圖4-26)建立比較實用的即文件名如圖-14所示的scop數(shù)據(jù)庫文件。5.執(zhí)行文件

46、“scop.pl”即“perl scop.pl ”按回車鍵即可PROSITE中涉及的保守序列模式或功能位點有:1.酶的催化位點;2.輔基基團連接位點,如血紅素,吡哆醛磷酸鹽,輔酶R等3.與金屬離子結合的氨基酸殘基4.能形成二硫鍵的半胱氨酸5.與其它分子相連的區(qū)域,如與ADP/ATP,GDP/GTP,鈣,DNA,另一個蛋白質等因此,Prosite數(shù)據(jù)庫實際上是蛋白質序列功能位點數(shù)據(jù)庫。與PROSITE數(shù)據(jù)庫相類似的數(shù)據(jù)庫還有:蛋白質序列指紋圖譜數(shù)據(jù)庫PRINTS、蛋白質序列模塊數(shù)據(jù)庫BLOCKS、蛋白質序列家族數(shù)據(jù)庫、蛋白質序列譜數(shù)據(jù)庫PROFILE、蛋白質序列識別數(shù)據(jù)庫IDENTIFY等。它們

47、的共同特點是基于多重序列比對從不同側面來描述蛋白質有關性質。一般地,PROSITE數(shù)據(jù)庫使用正則表達式來表示保守序列模式,具體說明如下圖所示:圖4-27 PROSITE數(shù)據(jù)庫中保守序列模式表達方式根據(jù)上圖的正則模式表達方式。如序列片段GFxxLxxxxRxxRxGxKPxT就可以是其中可能的保守序列模式之一。PROSITE數(shù)據(jù)庫主要包括兩個數(shù)據(jù)庫文件:一個為數(shù)據(jù)文件為PROSITE本身即PROSITE.DAT,該文件給出了能進行匹配的序列及序列的詳細信息。另一個為說明文件即 PROSITE.DOC,它給出了給出該序列模式的生物學功能及其文獻資料來源。從數(shù)據(jù)庫所包括的條目(entry)來看,它包

48、括:保守序列模式條目(即MOTIF或PATTERN)和序列突變譜即PROFILE條目。由于建立序列突變譜需要適當?shù)姆椒ǎ瑸榇宋覀兪紫冉榻BPROSITE中建立序列突變譜的方法。三、PROSITE數(shù)據(jù)庫格式在PROSITE數(shù)據(jù)庫的眾多項中,其中有關描述序列突變譜讀者可以參閱PROSITE網(wǎng)站上的“profile.txt”。在PROSITE數(shù)據(jù)庫中,每行共有128列,其分配方式如下圖所示:圖4-29 PROSITE數(shù)據(jù)庫各列的分配方式但一般情況下,除序列突變譜即“MA”行有128列外,其它行的列一般不會超過78列。在PROSITE數(shù)據(jù)庫中,不同的兩個字符的代碼代表的含義不同,我們將它們的中英文含義列

49、于如下圖:圖4-30 PROSITE數(shù)據(jù)中各行代碼的含義接下來我們對它們加以詳細描述。(一)IDID中的第一項為條目的名稱,一般由2-21個大寫字母組成,字母可以是A-Z,0-9及下劃線,如:ID ENTRY_NAME;ENTRY_TYPE.第二項為PROSITE數(shù)據(jù)庫條目的類型。目前,在PROSITE數(shù)據(jù)庫中,它主要有三種:PATTERN,MATRIX及RULE。如:圖4-31 三各類型的ID(二)ACAC是PROSITE數(shù)據(jù)庫的獲取號,類似于人的身份證號,一個條目中只有一個獲取號。當人們用到PROSITE數(shù)據(jù)庫具體某個條目時,一般引用這個獲取號。其格式為:AC PSnnnnn這里的“PS”

50、代表PROSITE數(shù)據(jù)庫?!皀nnnn”是5個阿拉伯數(shù)字,如:AC PS00123(三)DT說明日期項。其格式為:DT MMM-YYYY (CREATED); MMM-YYYY(DATA UPDATE); MMM-YYYY(INFO UPDATE)說明如下:“MMM”代表月;“YYYY”代表年。第一個時間即“MMM-YYYY(CREATED)”說明該條目第一次收載進來的時間;第二個時間即“MMM-YYYY(DATA UPDATE)說明原始基本數(shù)據(jù)最后一次修改的時間;第三個時間即“MMM-YYYY(INFO UPDATE)說明除原始基本數(shù)據(jù)外其它內容的修改時間;(四)DE這一項主要是提供相關的信

51、息。如DE Myb DNA-binding domain repeat signature 1.DE Iron-containing alcohol dehydrogenases signature.DE Zinc finger, C2H2 type, domainDE Globin profile(五)PA就時我們前面所說的正則模式。我們在前面曾以一個具體例子作了比較簡單的描述,這里我們對它進行比較詳細的描述。它包括如下要素:1.氨基酸殘基用標準的IUPAC一個字母代碼來表示,如丙氨酸用A,甘氨酸用G等。2.“x”代表任何一個氨基酸殘基;3. 如果在某個位置上不是比較確定,相對比較模糊,則用

52、方括號來表示,如ACD說明這個位置可以是氨基酸殘基A,C或D組成。4. 有時這種模糊的位置也可以用大括號即“”來表示這個位置不可能含某類氨基酸,如“AD”說明在這個位置上不可能出現(xiàn)丙氨酸A和天門冬氨酸D。5.重復部分可以用一個字符及相應的數(shù)字來表示,如x(3)表示“x-x-x”,x(2,4)表示x-x或x-x-x或x-x-x-x。6.如果保守序列模式在蛋白質N端或C端時,則它們分別用“”來表示。如”代表“F-GSTV-P-R-L-G”或“F-GSTV-P-R-L”?,F(xiàn)我們舉幾個例子來說明它們:例1 PA AC-x-V-x(4)-ED其含意是“Ala或Cys-任何殘基-Val-任何殘基-任何殘基

53、-任何殘基-任何殘基但除Glu或Asp”外。 例2 PA A-x-ST(2)-x(0,1)-V其含意是氨基端即N端為丙氨酸,這樣可以翻譯為“Ala-任何殘基-Ser或Thr-Ser或Thr-任何殘基或沒有-Val。(六)MA主要是蛋白質序列突變譜。(七)PP 主要描述與后處理過程有關系的空容。 (八)NR 主要是以本條目中所代表保守序列模式與Swiss-Prot數(shù)據(jù)庫(掃描)每個序列進行比較得到的結果。其基本格式為:NR /QUALIFIER=data;/QUALIFIER=data;這里的修飾詞“QUALIFIER”主要是指:/RELEASE Swiss-Prot數(shù)據(jù)庫發(fā)布的版本號和該版本收

54、集的蛋白質條目數(shù);/TOTAL 找到Swiss-Prot數(shù)據(jù)庫命中的條目數(shù);/POSITIVE 屬于當前考慮范圍內命中的條目數(shù);/UNKNOWN 屬于當前考慮范圍內可能命中的條目數(shù);/FALSE_POS 假命中點數(shù)(即在數(shù)值計算中符合條件但實際上不是相關蛋白的個數(shù))/PARTRIAL 屬于被考慮范圍內,但由于它們只是一個序列片段且與這個保守序列模式或序列突變譜不符合的這樣的序列個數(shù)。 比如:NR /RELEASE=52.0,260175NR /TOTAL=1550(351); /POSITIVE=1517(332); /UNKNOWN=0(0); /FALSE_POS=33(19)NR /FA

55、LSE_NEG=0; /PART9IAL=0; 其含意為在Swiss-Prot數(shù)據(jù)庫中,它為52.0版本,共有260175個條目,其中對351個不同序列,發(fā)現(xiàn)該模式有1550次,其中陽性有332條序列,出現(xiàn)1517次,假陽性的有19條序列,出現(xiàn)33次,假陰的為0(即沒有被發(fā)現(xiàn)),片段序列的為0。(九)CC其格式為:CC /QUALIFIER=data; /QUALIFIER=data; 修飾辭項即qualifier有:/TAXO_RANGE 分類范圍/MAX-REPEAT 在某個蛋白質內模式或序列突變譜最多重復出現(xiàn)的次數(shù)。/SITE 在該保守序列模式中能引起人們興趣的位點。/SKIP-FLAG

56、 由于比較含糊在實際應用時被忽視。/VERSION 該模式或序列突變譜的版本號下面我們逐一介紹之。1. /TAXO-RANGE=ABEPV“A”代表太古代(archaea)“B”代表噬菌體“E”代表真核生物“P”代表原核生物“V”代表真核生物細菌2. /MAX-REPEAT其意思是對所給保守序列模式或序列突變譜,其出現(xiàn)的最大次數(shù),其格式為:/MAX-REPEAT=nn;3. /SITE 主要是對所給的保守序列模式或序列突變譜中出現(xiàn)人們感興趣的位點如酶催化活性位點。其格式為: /SITE=nn,text_description例如:/SITE=3,active_site;/SITE=5,disu

57、lfide; “nn”是讓人感興趣的位點在該保守序列模式中的位置。如保守序列模式:A-ILMV-x(2,4)-A-C-P含有二硫鍵,則有:/SITE=5,disulfide;再如保守序列模式:C-CPWHF-CPWR-C-H-CFWY有:/SITE=1,heme; /SITE=4,heme; /SITE=5,heme_iron這說明有兩個半胱氨酸(位點1與4)與血紅素相連, 第5個位點即H與鐵血紅素相連。 4 /SKIP-FLAG這主要針對有翻譯后修飾的蛋白質序列,盡管有用,但有些程序出于某種考慮將它忽略掉。為此這些條目將在“CC”行中有這方面的標記。如/SKIP-FLAG=TRUE5 /VE

58、RSION當PA或MA項的數(shù)據(jù)出現(xiàn)修改時,其數(shù)值才增加。主要是說明該條目的變化。在19.0版中,其數(shù)值均高置為1,即/VERSION=1;6 /MATRIX_TYPE主要敘述由序列突變譜確定的蛋白質區(qū)域。具體分如下幾個參數(shù):Protein_domain 說明該序列突變譜指向蛋白質保守區(qū)間;Repeat_region 說明該序列突變譜指向重復單元的區(qū)間;Localization_signal 說明該序列突變譜指向的區(qū)間對蛋白質在細胞的定位很重要Composition 說明該序列突變譜指向的區(qū)間的組成復雜性比較低 7 /SCALING_DB這個條目主要是用于校正序列突變譜時所用的數(shù)據(jù)庫。8 /AU

59、THOR說明是誰創(chuàng)造這個序列突變譜或這個序列突變譜是由誰更新的。9 /FT_KEY和/FT_DESC根據(jù)實際需要,人們要對由序列突變譜確定的區(qū)間進行描述,這項的設置就是為了能讓計算機能有效地讀取。其主要參數(shù)有:NP_BIND,MOTIF,DOMAIN,REPEAT,DNA_BIND或ZN_FING(十)DR行DR主要是指向Swiss-Prot數(shù)據(jù)庫相應的條目,其格如下:DR AC_NB,ENTRY_NAME, C; AC_NB, ENTRY_NAME, C; AC_NB,ENTRY_NAME這里 “AC_NB”是Swiss-Prot數(shù)據(jù)庫的獲取號;“ENTRY_NAME”是條目名稱。而“C”的

60、含義如下:“T”為真陽性;“P”是一個潛在的命中點,其意思是該該序列已被考慮但沒有被選進去“N”為假陰性;“?”還未確定“F”假陽性下面便是一個實際例子:DR O08775,VGFR2_RAT , T; P35916, VGFR3_HUMAN,T; P35917,VGFR3 T(十一) 3D行主要是說明相應的蛋白質的PDB代碼,如:3D 7WGA; 9WGA; 1WGC; 2WGC(十二)PR行主要是用于描述一引起PROSITE數(shù)據(jù)庫的一些規(guī)則,它們能給出一些額外的比較有意義的信息。有關這些規(guī)則,有興趣的讀者可參閱網(wǎng)站:(十三)DO我們知道在PROSITE數(shù)據(jù)庫中,有一個文件叫“PROSITE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論