生物信息技術(shù)第三次作業(yè).doc_第1頁(yè)
生物信息技術(shù)第三次作業(yè).doc_第2頁(yè)
生物信息技術(shù)第三次作業(yè).doc_第3頁(yè)
生物信息技術(shù)第三次作業(yè).doc_第4頁(yè)
生物信息技術(shù)第三次作業(yè).doc_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)用生物信息技術(shù)課程第3次作業(yè)UniProt數(shù)據(jù)庫(kù)檢索及數(shù)據(jù)條目注釋信息1. UniProt蛋白質(zhì)序列數(shù)據(jù)庫(kù)1) 參閱Swiss-Prot和TrEMBL統(tǒng)計(jì)報(bào)表(Release Statistics),列表說明這兩個(gè)子庫(kù)的總數(shù)據(jù)量,以及不同蛋白質(zhì)證據(jù)(Protein Existence)的數(shù)據(jù)條目數(shù)。數(shù)據(jù)庫(kù)子庫(kù)總數(shù)據(jù)量Protein Existence數(shù)據(jù)條目數(shù)蛋白水平證據(jù)轉(zhuǎn)錄水平證據(jù)同源性推斷預(yù)測(cè)不確定Swiss-Prot5427828208762272380832157051886TrEMBL542474682201393131313573938397202040 2) 列表說明Swiss-Prot和TrEMBL中數(shù)據(jù)條目數(shù)列前10位的物種,包括中文名、英文名和拉丁文學(xué)名。 表1 Swiss-Prot中數(shù)據(jù)條目數(shù)列前10位的物種Swiss-Prot中文名英文名拉丁文學(xué)名1智人HumanHomo sapiens2小家鼠MouseMus musculus3擬南芥Mouse-ear cressArabidopsis thaliana4大鼠RatRattus norvegicus 5釀酒酵母Bakers yeastSaccharomyces cerevisiae6牛BovineBos taurus7裂殖酵母Fission yeastSchizosaccharomyces pombe8大腸桿菌strain K12Escherichia coli9枯草桿菌strain 168Bacillus subtilis10盤基網(wǎng)柄菌Slime moldDictyostelium discoideumTrEMBL中文名英文名拉丁文學(xué)名1人類免疫缺陷病毒HIVHuman immunodeficiency virus 12未培養(yǎng)細(xì)菌Uncultured bacteriauncultured bacterium3智人HumanHomo sapiens 4小麥WheatTriticum aestivum5粳稻RiceOryza sativa subsp. japonica6丙型肝炎病毒HCVHepatitis C virus7乙型肝炎病毒HBVHepatitis B virus8大豆SoybeanGlycine max9宏基因組mine drainage metagenomemine drainage metagenome10二棱大麥Two-rowed barleyHordeum vulgare var. distichum 表2 TrEMBL中數(shù)據(jù)條目數(shù)列前10位的物種3) 列表說明以下已基本完成基因組測(cè)序的重要模式生物數(shù)據(jù)條目數(shù)總數(shù)N、已審閱序列條目數(shù)Nr、具有蛋白質(zhì)證據(jù)的序列條目數(shù)Np、在參考序列數(shù)據(jù)庫(kù)RefSeq中具有mRNA序列的序列條目數(shù)Nm、在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB中具有結(jié)構(gòu)的序列條目數(shù)Nb。物種拉丁文學(xué)名英文名NNrNpNmNb人Homo sapiensHuman1364952027014233136275211小鼠Mus musculusMouse 7347916658820874721465大鼠Rattus norvegicusRat 33577788734072918534雞Allus domestiausChicken 237292257705481174非洲爪蟾Xenopus laevisAfrican clawed frog16014338257849159斑馬魚Danio rerioZebrafish55756291639330664黑腹果蠅Drosophila melanogasterDrosophila melanogaster39998322019741910351秀麗線蟲Caenorhabditis elegansCaenorhabditis elegans26657346114891475115釀酒酵母Saccharomyces cerevisiaeBakers yeast792767807532252521098大腸桿菌K12Escherichia coliStrain K12156605970275327481319擬南芥Arabidopsis thalianaMouse-ear cress532701266512934135995071粳稻Oryza sativa subsp kengJaponica 秈稻Oryza sativa indicaIndica 玉米Zea maysMaize 6287773834720334棉花Gossypium sppCotton 571425210322. 序列條目注釋信息1) 以人血紅蛋白alpha亞基為例,說明一般注釋信息(General Annotation)主要包括哪些內(nèi)容。亞基結(jié)構(gòu):兩個(gè)alpha亞基和兩個(gè)beta亞基的四聚體組成成熟的血紅蛋白A;2個(gè)alpha亞基和2個(gè)deltal亞基的四聚體組成成熟的血紅蛋白A2;2個(gè)alpha亞基和2個(gè)epsilon亞基的四聚體組成胚胎早期的的血紅蛋白Gower-2;2個(gè)alpha亞基和2個(gè)gamma亞基的四聚體組成胎兒期的血紅蛋白F。組織特性:血液紅細(xì)胞。轉(zhuǎn)錄以后修飾:起始的甲硫氨酸在各種thionville中沒有裂開,并且進(jìn)行乙酰化。涉及的人類疾病貧血(HEIBAN)MIM:140700】:細(xì)胞非球形的Dacie類型1的溶血性貧血。脾臟切除后,幾乎沒有好轉(zhuǎn),紅細(xì)胞中的嗜堿性的夾雜物被證明為海因茨小體。脾臟切除前分散或點(diǎn)狀的嗜堿性粒細(xì)胞明顯。大多數(shù)情況下可能是血紅蛋白病的實(shí)例。血紅蛋白呈現(xiàn)熱不穩(wěn)定性。海因茨小體也觀察到與Ivemark綜合征(無(wú)脾與心血管異常)和還原型谷胱甘肽過氧化物酶的缺乏。注釋:這類病可能是由于突變效應(yīng)在基因中的表達(dá)。 Alpha-地中海貧血(A-THAL)MIM:604131:地中海貧血的一種形式。地中海貧血是常見的單基因疾病,主要在發(fā)生地中海和東南亞人口。alpha-地中海貧血的標(biāo)志是一個(gè)失衡globin-chain生產(chǎn)成的人HbA分子。 鏈水平的產(chǎn)物的范圍可以從沒有到幾乎正常的水平。刪除兩個(gè) -珠蛋白基因的副本導(dǎo)致(0)-地中海貧血,也稱為純合子的地中海貧血。由于沒有完整的鏈,主要的胎兒血紅蛋白四聚物的gamma鏈(Bart血紅蛋白),基本上沒有攜帶氧的能力。這將導(dǎo)致胎兒組織氧饑餓導(dǎo)致產(chǎn)前殺傷力或早期新生兒死亡。兩個(gè)基因?qū)е碌膿p失輕微alpha-地中海貧血,也稱為雜合的alpha-地中海貧血。 影響個(gè)人小紅細(xì)胞和心肌梗死。假如四分之三的Alpha珠蛋白基因起作用,人基本就沒有癥狀。很少的alpha-地中海貧血類型是由于突變引起的(非刪除的alpha-地中海貧血)血紅蛋白H?。℉BH)MIM:613978:一種alpha-thalassemia由于損失三個(gè)基因。 這將導(dǎo)致高水平的四聚物的四種鏈(血紅蛋白H),導(dǎo)致嚴(yán)重和致命的貧血。治療,大多數(shù)病人死在童年或者青春期的早期階段。注釋:這類病可能是由于突變效應(yīng)在基因中的表達(dá)。其他信息:使血液呈現(xiàn)紅色。序列相似性:屬于珠蛋白家族。2) 以人血紅蛋白alpha亞基為例,說明序列特征注釋信息(Sequence Annotation)主要包括哪些內(nèi)容。序列特征注釋信息(Sequence Annotation)包括一些重要序列信息的發(fā)生位點(diǎn)、序列長(zhǎng)度、具體說明、圖示以及特征識(shí)別。具體重要序列信息包括分子處理如起始氨基酸的去除,重要位點(diǎn)如金屬結(jié)合位點(diǎn),氨基酸修飾位點(diǎn)如糖基化,自然突變位點(diǎn),實(shí)驗(yàn)水平的一些信息,以及序列的二級(jí)結(jié)構(gòu)。3) 以人血紅蛋白alpha亞基為例,說明數(shù)據(jù)庫(kù)交叉鏈接(Cross Reference)主要包括哪些數(shù)據(jù)庫(kù)。序列數(shù)據(jù)庫(kù):Genbank EMBL DDBJ PIR Uni Gene RefSeq3D結(jié)構(gòu)數(shù)據(jù)庫(kù):PDB ProteinModelPortal SMR ModBase MobiDB蛋白質(zhì)相互作用數(shù)據(jù)庫(kù):BioGrid DIP IntAct MINT STRING化學(xué)庫(kù):ChEMBL DrugBankPTM數(shù)據(jù)庫(kù):PhosphoSite 二維凝膠數(shù)據(jù)庫(kù):SWISS-2DPAGE UCD-2DPAGE DOSAC-COBS-2DPAGE REPRODUCTION-2DPAGE蛋白質(zhì)組數(shù)據(jù)庫(kù):PRIDE PaxDb Peptide Atlas協(xié)議和材料數(shù)據(jù)庫(kù):DNASU StructuralBiologyKnowledgebase基因組注釋數(shù)據(jù)庫(kù):Emsemble KEGG UCSC GeneID物種特異數(shù)據(jù)庫(kù):CTD GeneCards HGNC HPA MIM分子系統(tǒng)數(shù)據(jù)庫(kù):InParanoid KO OMA TreeFam酶和通路數(shù)據(jù)庫(kù):Reactome 基因表達(dá)數(shù)據(jù)庫(kù):Bgee CleanEx Array Genevestigator家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù):Gene3D InterPro PANTHER Pfam PRINTS其他:EvolutionaryTrace Genewiki NextBio ChiTaRS PRO3. 數(shù)據(jù)庫(kù)檢索1) 寫出從UniProt數(shù)據(jù)庫(kù)中檢索已審閱的人珠蛋白(globin)家族12個(gè)亞基的步驟。列表說明這12個(gè)珠蛋白的登錄號(hào)、蛋白質(zhì)名稱、和序列長(zhǎng)度。其中與血紅蛋白alpha亞基差異最大的序列是哪個(gè)?相同位點(diǎn)百分比?與血紅蛋白beta亞基差異最小的序列是哪個(gè)?差異位點(diǎn)共多少個(gè)?在UniProtKB中利用高級(jí)檢索,依次增加Organism:human、ProteinFamily:globin兩個(gè)限定條件后,選中reviewed的序列,即可出現(xiàn)庫(kù)中已審閱的人珠蛋白家族的12個(gè)亞基。登錄號(hào)蛋白名稱序列長(zhǎng)度P02008血紅蛋白亞基142P69905血紅蛋白亞基142P68871血紅蛋白亞基147P02042血紅蛋白亞基147P69891血紅蛋白-1亞基147P69892血紅蛋白-2亞基147P02144肌紅蛋白154Q8WWM9細(xì)胞珠蛋白190Q9NPG2神經(jīng)珠蛋白151P09105血紅蛋白-1亞基142P02100血紅蛋白亞基147Q6B0K9血紅蛋白亞基141與血紅蛋白alpha亞基差異最大的序列是神經(jīng)珠蛋白,相同位點(diǎn)百分比為22%。與血紅蛋白beta亞基差異最小的序列是血紅蛋白亞基,差異位點(diǎn)共10個(gè)。2) 寫出從UniProt數(shù)據(jù)庫(kù)中檢索以下序列條目的步驟和結(jié)果:擬南芥序列條目總數(shù),其中已審閱條目數(shù),已審閱序列中具有蛋白質(zhì)證據(jù)全長(zhǎng)序列條目數(shù),上述序列中膜蛋白總數(shù)、注釋為跨膜蛋白數(shù)且具有信號(hào)肽的序列數(shù)。1,在UniProtKB數(shù)據(jù)庫(kù)搜索欄中選擇advanced search ,然后根據(jù)organism:Arabidopsis thaliana得到擬南芥序列條目總數(shù)為53221。2,在results里點(diǎn)擊reviewed,得到已審閱的條目數(shù)為12720。3,在results里點(diǎn)擊complete proteome set,并在field中選擇ProteinExistence,再選擇Evidence at protein level,得到已審閱序列中具有蛋白質(zhì)證據(jù)全長(zhǎng)序列的條目數(shù)為4407。4,在field中選擇SubcellularLocation,在Term中輸入membrane,搜索后得到膜蛋白總數(shù)為1292。5,在field中選擇sequence annotation,在topic中選擇transmembrane,得到蛋白數(shù)為837。6,在field中選擇sequence annotation,在topic中選擇signal peptide,得到蛋白數(shù)為112。4. 利用高級(jí)檢索功能,從UniProt數(shù)據(jù)庫(kù)中檢索你課題相關(guān)或最感興趣的蛋白質(zhì),閱讀其一般注釋信息、序列特征注釋信息,相關(guān)文獻(xiàn),并通過數(shù)據(jù)庫(kù)交叉鏈接,總結(jié)該蛋白質(zhì)的研究進(jìn)展。玉米ARF-1:玉米生長(zhǎng)素應(yīng)答因子1,屬于小GTP酶超家族,一般位于高爾基體裝飾完成,控制調(diào)節(jié)種子的發(fā)芽。蛋白序列長(zhǎng)度為181,在第一個(gè)氨基酸發(fā)生甲基化,有24-31、67-71和126-129三個(gè)核酸結(jié)合區(qū)域。1996.2.1發(fā)布在Uniprot數(shù)據(jù)庫(kù),2013.9.18完成修正。生長(zhǎng)素是植物生長(zhǎng)過程中必不可缺的一類激素,在植物生長(zhǎng)發(fā)育的各個(gè)階段都起到重要作用。近年來,對(duì)植物中的ARF基因不論是信號(hào)途徑的轉(zhuǎn)導(dǎo)還是表達(dá)機(jī)制的研究都成為熱點(diǎn)問題。全面的分析ARF家族基因,對(duì)于ARF基因的分子克隆和分子進(jìn)化的研究具有重要指導(dǎo)意義。通過ARF基因序列的整合比對(duì)分析可知典型的ARF基因含有三個(gè)結(jié)構(gòu)域,分別為N末端DNA結(jié)合域(DBD)、中間核心區(qū)域(MR)、C末端二聚化結(jié)構(gòu)域(CTD)(結(jié)構(gòu)域III和IV)。參考水稻ARF基因家族的命名方法,對(duì)玉米的ARF基因家族進(jìn)行了命名,分別為ZmARF1-ZmARF35。 有研究通過構(gòu)建系統(tǒng)進(jìn)化樹分析了ARF類型基因的進(jìn)化關(guān)系,結(jié)果顯示這些基因主要分布于四個(gè)分枝,而與擬南芥、楊樹、葡萄和水稻的ARF基因家族進(jìn)行比較分析發(fā)現(xiàn)玉米與水稻同源性最高,這表明ARF類型基因的進(jìn)化可能是伴隨著單/雙子葉植物差異分離進(jìn)化而發(fā)生的。并確定35個(gè)ARF基因分散的分布在玉米的十條染色體上,5號(hào)染色體上最多,有6個(gè)基因;2、7、8、9號(hào)染色體最少,各有1個(gè)基因,沒有出現(xiàn)明顯的基因簇現(xiàn)象,與其他物種的染色體定位具有相同特性。 對(duì)玉米ARF類型基因的結(jié)構(gòu)進(jìn)行分析,同屬一個(gè)進(jìn)化

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論