R語言-ggmsa包-多序列比對圖_第1頁
R語言-ggmsa包-多序列比對圖_第2頁
R語言-ggmsa包-多序列比對圖_第3頁
R語言-ggmsa包-多序列比對圖_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

R語言_ggmsa包–多序列比對圖ZW2024-01-18安裝ggmsa包ggmsa是一個用于繪制多重序列比對(MultipleSequenceAlignment,MSA)的R包。library(devtools)install_github("YuLab-SMU/ggmsa")讀取樣本序列#加載ggmsa包中包含的示例序列文件protein_sequences<-system.file("extdata","sample.fasta",package="ggmsa")#支持的可輸入對象available_msa()##1.filescurrentlyavailable:##.fasta##2.XStringSetobjectsfrom'Biostrings'package:##DNAStringSetRNAStringSetAAStringSetBStringSetDNAMultipleAlignmentRNAMultipleAlignmentAAMultipleAlignment##3.binobjects:##DNAbinAAbinggmsa(protein_sequences,start=250,end=300,seq_name=TRUE,font='mono',char_width=0.7,color='Chemistry_AA')+theme(axis.text.y=element_text(size=6))ggsave("ggmsa1.jpg",width=15,height=10,bg="white")start=250和end=300:指定序列比對的起始和結(jié)束位置,只顯示這個區(qū)間的序列。seq_name=TRUE:表示在比對中包含序列名稱。char_width:氨基酸字符寬度,默認(rèn)為0.9。font='mono':設(shè)置字體為等寬(monospace)字體,這在序列比對中很常見,因為等寬字體能夠保持字符對齊。helvetical,mono,TimesNewRoman,DroidSansMono。font=NULL不顯示氨基酸字符。color='Chemistry_AA':指定一種配色方案,這里使用的是基于氨基酸化學(xué)特性的配色。其他蛋白序列配色:Clustal,Shapely_AA,Zappo_AA,Taylor_AA。核酸序列配色:Chemistry_NT,Shapely_NT,Taylor_NT,Zappo_NT。none_bg=TRUE去除背景posHighligthed=c(185,190)高亮指定位置theme(axis.text.y=element_text(size=6))。這是

ggplot2

的功能,用于自定義圖表的主題。這里,它設(shè)置y軸文字的大小為6。這對于調(diào)整軸上文字的可讀性非常有用,特別是當(dāng)繪制的圖表包含大量的數(shù)據(jù)點或標(biāo)簽時。分割圖像(增加facet圖層)p<-ggmsa(protein_sequences,start=250,end=400,seq_name=TRUE,font='mono',color='Chemistry_AA')p<-p+facet_msa(field=60)+theme(axis.text.y=element_text(size=6))##Scaleforxisalreadypresent.##Addinganotherscaleforx,whichwillreplacetheexistingscale.##Coordinatesystemalreadypresent.Addingnewcoordinatesystem,whichwill##replacetheexistingone.p##Warning:Nosharedlevelsfoundbetween`names(values)`ofthemanualscaleandthe##data'sfillvalues.facet_msa函數(shù)是ggmsa包特有的,用于在MSA圖中添加分面(facet),使得每個分面顯示一部分序列。這在序列較長時特別有用,可以幫助聚焦于特定的序列段。field=60參數(shù)設(shè)定了每個分面顯示的序列長度。在這個例子中,每個分面顯示60個氨基酸的序列添加序列標(biāo)志和GC含量圖層ggmsa(nt_sequences,seq_name=TRUE,font="mono")+geom_seqlogo()+geom_GC()+scale_size(range=c(0.2,4))+scale_color_gradient(low="white",high="red")+theme(axis.text.y=element_text(size=8))ggsave("ggmsa1.jpg",width=15,height=10,bg="white")geom_seqlogo():在MSA圖上添加序列標(biāo)志圖層(sequencelogo)。序列標(biāo)志是一種表現(xiàn)序列保守性的可視化方式,通常用于顯示序列中各位置的核苷酸多樣性和保守性。geom_GC():添加GC含量的圖層。GC含量指的是DNA或RNA序列中鳥嘌呤(G)和胞嘧啶(C)的比例,這是分子生物學(xué)中??疾斓囊粋€特征。scale_size(range=c(0.2,4)):調(diào)整圖層元素的大小比例。scale_color_gradient(low="white",hi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論