




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、王祿山,補(bǔ)正機(jī)應(yīng)用,生物信息數(shù)據(jù)庫和生物信息中心,教學(xué)大綱,生命情報(bào)學(xué)生命學(xué)和補(bǔ)正機(jī)技術(shù)的交叉。 生物信息學(xué)的研究內(nèi)容: (1)生物資訊中心;(2)生物資訊數(shù)據(jù)庫和格式。 關(guān)生物資訊數(shù)據(jù)的檢索工具Entrez文獻(xiàn)的檢索和管理軟件Reference manager序列同源檢索分析工具Blast核酸、 蛋白質(zhì)序列比對分析軟件DS geneDNASIS生物大分子空間三次元結(jié)構(gòu)顯示和分析軟件Rasmol生物圖像比較分析軟件Scion Image (NIH image )生物科學(xué)數(shù)據(jù)處理軟件Origin,重要生物信息中心重要生物信息數(shù)據(jù)庫檢索工具生物分析相關(guān)軟件, 生物情報(bào)研究內(nèi)容,一,重要生物情報(bào)中心
2、Bioinformatics Centres,ncbinationalcenterforbiotechnologyinformation (us ) www.NCBI.NLM.NIH.govebieuropeanbioinformaticsinstitutute www.ebi.AC.ukddbjdnadatabankofjapan (jp ) www.ddbj.nig.AC.jpexpasyexpertofproteinanalysissystem www.expasy.chpdbproteindatabank (us ) /pdb/CBI pku北京牌高等院校生物中
3、國生物信息中心(cn NCBI:http:/www.NCBI.NLM.NIH.gov,/, 兩個(gè)平面文件(flat-file )信息按順序存儲(chǔ)在文件中,特定格式的記錄查詢密碼(Entry )由“獲取號(hào)”(accession # )唯一地確定同一文件與不同文件之間的信息關(guān)聯(lián)關(guān)于Relations、語義匹配、生物信息數(shù)據(jù)問題消息源分布在五洲四海的不同站點(diǎn)的多個(gè)數(shù)據(jù)源的全局問題是, 無法立即得到答案painfullycollectingunstructuredinformationaroundthesitesmanuallyputtingpiecestoge
4、therhopefullygetting the right PP 消息源的特征是:數(shù)據(jù)集成,其是自主的、分布式的、異構(gòu)的、數(shù)據(jù)集成的、等等,生物信息的最重要的任務(wù)是從大量的數(shù)據(jù)中提取新的知識(shí)。 生物數(shù)據(jù)庫的種類、序列數(shù)據(jù)庫核酸序列數(shù)據(jù)庫(EMBL、GenBank、DDBJ )是蛋白質(zhì)序列數(shù)據(jù)庫(Swissprot、PIR )結(jié)構(gòu)數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(PDB )蛋白質(zhì)分類數(shù)據(jù)庫(SCOP、CATH )其他序列數(shù)據(jù)庫,主要核酸序列數(shù)據(jù)庫: GenBank,EMBL,DDBJ主要蛋白質(zhì)序列數(shù)據(jù)庫3360swissproool美國的核酸數(shù)據(jù)庫GenBankBanson,d.a.et al.(199
5、8 ) nucleicacidsres 歐洲分子生物學(xué)研究所的EMBL數(shù)據(jù)庫也于1982年開始服務(wù)日本于1984年建立了國家級(jí)核酸數(shù)據(jù)庫DDBJ,1987年正式提供了服務(wù)。 從那個(gè)時(shí)候開始,DNA序列的數(shù)據(jù)從80年代初期的百支序列,從數(shù)十萬鹽化學(xué)基上升到現(xiàn)在的110億鹽化學(xué)基。 也就是說,僅僅18年間,數(shù)據(jù)量就增加了近10萬倍。 核酸序列數(shù)據(jù)庫、核酸序列、核酸序列是由4種核苷酸的字母(ATGC )符號(hào)組成的序列。 蛋白質(zhì)序列數(shù)據(jù)庫SWISS-PROT和PIR是國際上兩個(gè)主要的蛋白質(zhì)序列數(shù)據(jù)庫,目前,這些個(gè)兩個(gè)數(shù)據(jù)庫在EMBL和GenBank數(shù)據(jù)庫上建構(gòu)著鏡像站點(diǎn)。 SWISS-PROT數(shù)據(jù)庫包
6、含從EMBL翻譯的蛋白質(zhì)序列,并對這些個(gè)序列進(jìn)行了驗(yàn)證和標(biāo)注。 PIR數(shù)據(jù)庫的數(shù)據(jù)由由美國家生物科技情報(bào)中心(NCBI )根據(jù)GenBank的DNA排列進(jìn)行了翻譯。蛋白質(zhì)序列mniqqlalqnikgnwrnykvflscfaifasfaymsvivhpymketmwyqnvrwgliicniiisffilystsifiearkkelglymlmgatksnvigvimteqmligvfanifgg vvvvlsfisalriwnikiirlkefrtdkkektsmrlcifgliclgigyalalqttmptiafyfpvsilvfgtyfsfthgtaqilelikrnkkimytyp
7、ylfivnqlshrmkklshrmkkkk hevfaegmveqllhqygyddfqsmsfvgvyasfqskgeteiatlmkeseynqearkqqktyhpkgsvtlvynkynhpnmydqkeiqlqvmnqtysff hdedfdgiankvpdsekmiyrgytlpn snmelyvnmkafgditlfvgsfisilffltscsivyfkwhniasdrkeygalsklgmtkeevwrisrwqlcmlffsfisilffscsivyfkwhnialskeygalsklgmtkeevwrisrwqlc 蛋白質(zhì)數(shù)據(jù)庫的種類和特征,生物大分子三次元結(jié)構(gòu)數(shù)據(jù)庫
8、,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB蛋白質(zhì)分類數(shù)據(jù)庫SCOP和CATH,蛋白質(zhì)結(jié)構(gòu)庫(PDB ),實(shí)驗(yàn)得到的三次元蛋白質(zhì)結(jié)構(gòu)都是蛋白質(zhì)數(shù)據(jù)庫PDB(/pdb )中存儲(chǔ)的pdb是國際上主要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,雖然不像蛋白質(zhì)序列數(shù)據(jù)庫那么龐大,但其增長速度很快。 在PDB中,存儲(chǔ)了由x射線和核磁共振(NMR )決定的結(jié)構(gòu)數(shù)據(jù)。 蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)結(jié)構(gòu)容納了構(gòu)成蛋白質(zhì)分子的所有原子的三度空間坐標(biāo)值。 蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫、結(jié)構(gòu)分類(SCOP ) cath (類、體系結(jié)構(gòu)、拓?fù)洹w屬地)、蛋白質(zhì)SCOP數(shù)據(jù)庫將蛋白質(zhì)結(jié)構(gòu)從不同的層次分類第一個(gè)分類階層是家族,通常將序列相似程度在
9、30%以上的蛋白質(zhì)歸屬于同一家族,有較明確的進(jìn)化關(guān)系。 超家族:序列相似性低,說明結(jié)構(gòu)和功能特性有共同的進(jìn)化起源,視為超家族。 折疊日式榻榻米類型:不論有無共同的進(jìn)化起源,只要二級(jí)結(jié)構(gòu)單位具有相同的序列和拓?fù)浞治?,就可以認(rèn)為這些個(gè)的蛋白質(zhì)具有相同的折疊日式榻榻米方式。 在這些個(gè)的情況下,構(gòu)造的類似性主要依賴于二級(jí)結(jié)構(gòu)單位的排列方式和拓?fù)浞治觥?蛋白質(zhì)構(gòu)造分類數(shù)據(jù)庫CATH,類型Class,信息幀工作體系,拓?fù)浞治鐾負(fù)浜屯葱訦omology。 分類的基礎(chǔ)是蛋白質(zhì)結(jié)構(gòu)域。 與SCOP不同,CATH將蛋白質(zhì)分類為a主類、b主類、a b類(a/b型和a b型)和低二級(jí)結(jié)構(gòu)類4種。 低二級(jí)結(jié)構(gòu)類是指二
10、級(jí)結(jié)構(gòu)成分含量低的蛋白質(zhì)分子。 CATH數(shù)據(jù)庫的第二個(gè)分類基于超二級(jí)結(jié)構(gòu)的螺旋和折疊排列,無論它們之間的連接關(guān)系如何。 第三層由拓?fù)浞治鼋Y(jié)構(gòu),即二級(jí)結(jié)構(gòu)的形狀與二級(jí)結(jié)構(gòu)相連接。 第四層是結(jié)構(gòu)的同源性,由序列比較到結(jié)構(gòu)比較決定。 CATH數(shù)據(jù)庫的最后一個(gè)級(jí)別是序列級(jí)別,該級(jí)別在結(jié)構(gòu)域中的序列同源性超過35%時(shí)將被認(rèn)為具有高級(jí)結(jié)構(gòu)和功能相似性。 對于大的結(jié)構(gòu)域,至少60%的結(jié)構(gòu)域必須與小的相同。 蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫CATH,染色體組數(shù)據(jù)庫,GDB人類基因組數(shù)據(jù)庫AceDB線蟲染色體組數(shù)據(jù)庫,四,數(shù)據(jù)庫檢索工具,Entrez SRS,http:/www.ncbi SRS 、SRS、序列重復(fù)系統(tǒng)、
11、isapowerfuldatabasemanagementsystemdevelopedspecificallyforbiologicaldatabases.thegoalofsrsistoprovideanefficientaccesstoddo e omatterinwhatformataretheyavailableandallowingforcomplexsearchcriteria .數(shù)據(jù)庫記錄的格式和檢索關(guān)道路交叉口字,核酸/蛋白質(zhì)數(shù)據(jù)庫記錄的構(gòu)成一個(gè)數(shù)據(jù)庫查詢密碼(entry )通常由原始序列數(shù)據(jù)和描述這些個(gè)數(shù)據(jù)的生物科學(xué)信息的注釋這兩部分構(gòu)成。 評論中包含的信息與對應(yīng)的順序數(shù)據(jù)
12、同樣重要,具有應(yīng)用價(jià)值,值得注意。 序列部分和注釋部分都有固定格式,計(jì)算機(jī)能夠讀取。 各數(shù)據(jù)庫的具體格式不同,大致分為GenBank和EMBL兩種樣式。 GenBank、GenBank和GenBank格式:每個(gè)條目都是純文本文件。 每行的左邊或空格或識(shí)別詞,識(shí)別詞是完整的英語而不是縮寫。 為了與embl對照,列在下表中。 GenBank條目。 使用與EMBL和DDBJ數(shù)據(jù)庫統(tǒng)一的大量關(guān)牛鼻子字。 格式可以分為三個(gè)部分。 1 )標(biāo)題包含從LOCUS行到ORIGIN行有關(guān)整個(gè)序列的信息(描述字符)2)序列“注釋”的特性是注釋的核心部分3 )序列本身(Sequence 注:所有核苷酸數(shù)據(jù)庫查詢密碼(
13、EMBL/GenBank/DDBJ )在最后一行以/結(jié)尾。 EMBL、EMBL和EMBL格式:歐洲分子生物學(xué)EMBL數(shù)據(jù)庫中的每個(gè)條目都是純文本文件,每行開頭都有兩個(gè)大寫的標(biāo)識(shí)標(biāo)志,后面的表中提供了常規(guī)標(biāo)識(shí)標(biāo)志。 識(shí)別標(biāo)志“專業(yè)技術(shù)膩?zhàn)臃郾怼盕T包含與GenBank和DDBJ定義統(tǒng)一的一組牛鼻子字。 下歐洲國家多數(shù)采用SWISS-PROT、ENZYME、TRANSFAC等與EMBL相符的格式。 數(shù)據(jù)庫記錄注釋查詢密碼和內(nèi)容說明,數(shù)據(jù)庫記錄注釋查詢密碼和內(nèi)容說明(cont.),簡單的GenBank記錄, locus af 0620693808 bpmrnainv 02-mar-2000定義限制支持完成CDs.accession af 062069版本af 062069.2 gi 3360714484關(guān)鍵字Arthropoda; 刺猬屬; 梅洛斯托馬特; Xiphosura; Limulidae; 參考1 (基本1 to 3808 )自動(dòng)電池,B.-A .安德rews,A.W .Calman, b .我是w.c.titleamyosiniifromlimuluseyesisaclock-regulatedphosphoproteinjournalj.neuro sci.(1998 ) inpre
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 稅務(wù)籌劃項(xiàng)目經(jīng)理崗位面試問題及答案
- 數(shù)據(jù)治理工程師崗位面試問題及答案
- 上海市松江區(qū)統(tǒng)考2025年化學(xué)高二下期末經(jīng)典模擬試題含解析
- 安徽師大附中2025年高二化學(xué)第二學(xué)期期末綜合測試模擬試題含解析
- 冰雪項(xiàng)目培訓(xùn)管理辦法
- 丹葛多酚生物轉(zhuǎn)化-洞察及研究
- 沈陽集中供暖管理辦法
- 數(shù)據(jù)驅(qū)動(dòng)咨詢體系-洞察及研究
- 兒童友好型社區(qū)戶外活動(dòng)空間的設(shè)計(jì)與實(shí)踐
- 決策運(yùn)行體系管理辦法
- 電信防詐騙培訓(xùn)課件
- SL631水利水電工程單元工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)第1部分:土石方工程
- 2023年獸醫(yī)化驗(yàn)員考試:獸醫(yī)化驗(yàn)員真題模擬匯編(共425題)
- 《大數(shù)據(jù)習(xí)題庫匯總-機(jī)器學(xué)習(xí)》復(fù)習(xí)題庫(含答案)
- 健康教育與健康促進(jìn)試題及參考答案
- 安全風(fēng)險(xiǎn)分級(jí)管控和隱患排查治理雙重預(yù)防機(jī)制實(shí)施細(xì)則
- -06-領(lǐng)軍人才選拔試題答案
- 學(xué)校中層干部選拔考試教育教學(xué)管理知識(shí)試題題庫(包含:名詞解釋、簡答題、論述題、案例分析)
- 消防安裝工程監(jiān)理細(xì)則樣本
- GA/T 966-2011物證的封裝要求
- FZ/T 64078-2019熔噴法非織造布
評論
0/150
提交評論