生物信息學(xué)分析的計算機環(huán)境最優(yōu)配置-_第1頁
生物信息學(xué)分析的計算機環(huán)境最優(yōu)配置-_第2頁
生物信息學(xué)分析的計算機環(huán)境最優(yōu)配置-_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學(xué)分析的計算機環(huán)境最優(yōu)配置摘要:生物信息學(xué)是現(xiàn)代生物學(xué)、計算機科學(xué)和數(shù)學(xué)的交叉學(xué)科,主要通過數(shù)學(xué)方法借助計算機對生物數(shù)據(jù)進行科學(xué)分析,相對于傳統(tǒng)實驗方法更高效、更具有邏輯性。本文主要以Linux系統(tǒng)的衍生系統(tǒng)——Ubuntu系統(tǒng)為分析系統(tǒng),介紹如何配置最適合于生物信息學(xué)分析的計算機環(huán)境。

關(guān)鍵詞:生物信息學(xué);分析環(huán)境配置;Ubuntu系統(tǒng);生物數(shù)據(jù)分析

生物信息學(xué)是研究生物信息的采集、處理、存儲、傳播,分析和解釋等各方面的學(xué)科,是生命科學(xué)和計算機科學(xué)相結(jié)合形成的一門新學(xué)科。它通過綜合利用生物學(xué),計算機科學(xué)和信息技術(shù)而揭示繁雜的生物數(shù)據(jù)所蘊含的生物學(xué)意義。ubuntu系統(tǒng)基于Debian發(fā)行版和GNOME桌面環(huán)境。它的目標在于為用戶提供一個最新的、相對穩(wěn)定的主要由自由軟件構(gòu)成的操作系統(tǒng),可免費使用,并帶有社團及專業(yè)支持。本文介紹了如何借助Ubuntu系統(tǒng),配置較優(yōu)的生物信息學(xué)分析環(huán)境。

1生物信息分析環(huán)境的配置

1.1安裝win+Ubuntu雙系統(tǒng)

第一步:進入程序員管理空間Win+X,在管理磁盤欄目下面選擇二進制空間完好且較大的空間進行分配。將分配空間進行二進制碼壓縮,選擇60*1024MB的二進制空間壓縮。然后產(chǎn)生黑色可用空間。

第二步:同樣在程序員空間下進入電源選項,修改原來在windows系統(tǒng)下的電源功能。將原來的默認值修改為關(guān)閉快速啟動的值,保證在安裝Ubuntu系統(tǒng)后的grub正常運行。最后使用wq方式保存當前安裝。也可以進入DOS環(huán)境編譯修改win的設(shè)置。

第三步:在DOS環(huán)境中restart個人終端。通過快捷鍵進入bios空間。進入方式依據(jù)PC型號不同而不同,進入系統(tǒng)bios后將U盤啟動調(diào)整為最優(yōu)先工程,設(shè)置后再次restart切換進入ubuntu安裝界面。進入ubuntu主界面后在U盤中找到刻錄的ISO文件雙擊翻開ubuntu安裝文件,完成默認設(shè)置?!?】

第四步:在Ubuntu下創(chuàng)立新的二進制空間,以add方式創(chuàng)立四個新的分區(qū)空間,分區(qū)空間以之前分配的60*1024MB為基準。首先將10*1024MB分配為根底二進制空間,又在根底二進制空間上,添加20*1024MB作為空間的起始局部。通過布爾轉(zhuǎn)換設(shè)置空間的日志及邏輯分區(qū),將剩下的空間全部作為銜接雙系統(tǒng)的swap邏輯空間。

切換回windows系統(tǒng)設(shè)置引導(dǎo)內(nèi)容,保證兩個系統(tǒng)在開機中有選擇性進入欄目。在DOS下進入/boot編譯設(shè)置,將引導(dǎo)路徑設(shè)置為由windows下主導(dǎo)的路徑。restart終端,進入Win10下的EasyBCD完成最后的引導(dǎo)設(shè)置。在進入add新條目欄目下選擇Linux/BSD操作系統(tǒng),在“驅(qū)動器〞欄目選擇接近200M的Linux分區(qū),點添加條目。

為了將Ubuntu系統(tǒng)配置為適合生物信息分析系統(tǒng),方便編譯生物信息分析軟件,需要修改gcc,通常計算機內(nèi)置gcc為以下:

Lrwx1rootroot72021

rwxrxrx1rootroot22154232021

rwxx1rootroot2143692021

rwxrxrx1rootroot3365472021

由上面顯示可以看出默認安裝的是gcc4.6,現(xiàn)在來改成gcc4.4:

〔1〕rmdirpgcc-4.6/usr/bin/etc/gcc。將這個連接的軟性設(shè)置刪除

〔2〕terminal:sudormdirr/usr/bin/etc/gcc&chown/usr/bin/etc/gcc770

〔3〕創(chuàng)立一個軟連接,指向gcc4.4【2】

〔5〕terminalusing:gccv

〔6〕使用內(nèi)建specs

目標:i686linuxgnu

配置為:

2軟件安裝與編譯

高通量測序數(shù)據(jù)下載后的原始fastq文件,包含4行,其中一行為質(zhì)量值,另外一行那么為對應(yīng)序列,我們都了解高通量的數(shù)據(jù)處理首先要進行質(zhì)量控制【3】,這些過程包括去接頭、過濾低質(zhì)量reads、去除低質(zhì)量的3和5端,去除N較多的reads等,而針對高通量測序數(shù)據(jù)的質(zhì)控軟件也有很多,一般使用Fastxtoolkit,下載如下:

./configure&&make&&sudomakeinstall

ExportPATHPKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH

cd../fastx_toolkitsudomakeinstall

TopHat是一個快速將RNASeq數(shù)據(jù)剪接映射的程序,它將讀段大小分散成不同的小片段,對每個小片段進行重新建模,再根據(jù)空位罰分機制將小片段和參考基因組上的片段進行比對。在片段長度足夠小的時候會增加非特異性比對次數(shù),所以需要設(shè)置最小片段的最大長度限制。通常大基因組物種選擇長讀段測序,設(shè)置較大最小片段的最大長度,小基因組物種那么反之。

直接下載適合于Linuxx86_64的二進制文件,解壓縮即可使用。

需要注意,很多接頭序列比較長,應(yīng)搞清楚具體實驗時的接頭長度。通常情況下,我們需要將接頭之間的序列進行比對和過濾。

3結(jié)論

生物信息的環(huán)境配置首先要將原Ubuntu系統(tǒng)的g++/gcc進行修改,這樣可以將權(quán)限及操作環(huán)境修改為最適合生物信息分析的狀態(tài)。

軟件安裝上,使用Fastx_toolkit和比對軟件可以對各種測序結(jié)果進行數(shù)據(jù)分析。

Tophat可以將數(shù)據(jù)進行動態(tài)映射,保證數(shù)據(jù)分析的快速性。

參考文獻:

2021〔01〕:4756.

【2】湯莊力,王添,肖生祥,王曉鵬.表皮松解性掌跖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論