高通量測序入門_第1頁
高通量測序入門_第2頁
高通量測序入門_第3頁
高通量測序入門_第4頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、高通量測序入門第一帖 HYPERLINK /bbs/thread-368220-1-1.html /bbs/thread-368220-1-1.html很高興成為論壇特邀專家,鄙人會接下來的一段時間內(nèi)寫一些高通量測序數(shù)據(jù)方面 的帖子,由淺入深,可能剛開始會比較簡單一些,后面會有一些針對性的專題,也 歡迎各位大俠或小菜提出建議或問題大家一起探討。為了活躍論壇建議大家直接跟 帖或發(fā)新帖,我會盡快回復大家。本人方向也僅限在RNA-seq領域,所以其他領域的問題可能不太了解,只能按照 自己的背景知識和請教別人解答,請大家慢拍磚!另外,由于實驗室課題比較忙,所以可能不能及時發(fā)帖或回復大家,也請見諒。既然

2、是入門專題,那就先簡單說一下,要分析高通量測序數(shù)據(jù)的配置要求吧:聲明:該配置不適用與從華大拿回分析結(jié)果直接寫paper的同學。我認識的一位同 學一點生物信息背景也沒有,直接用華大返回分析結(jié)果發(fā)了很好的文章,如果想這 樣的同學可直接跳過這篇,等待以后的專題。言歸正傳:1.軟配置:生物理論知識:熟悉生命活動的基本過程,對復制、轉(zhuǎn)錄、翻譯、轉(zhuǎn)錄后修飾有較 清晰的認識,如果知道cis-element和trans-factor的區(qū)別就更好了。推薦朱玉賢 的分子生物學,能夠掌握60%就差不多了(這是對想通過測序數(shù)據(jù)進行生物分析 同學的要求,如果是做軟件開發(fā)等就無所謂了,比如國內(nèi)做的很好的一些實驗室, 都是

3、數(shù)學或自動化專業(yè)的牛人,以下一些配置也不適用這些牛人)實驗理論知識:不一定要做過實驗,但至少要知道實驗的過程,比如測序前樣本的 處理過程,序列片段化、加接頭、PCR擴增等。也許沒有用,但將來出了問題,你 可以很容易知道問題出在哪里編程知識:要求不用太高,學一些perl就可以了,對于生物專業(yè)的同學(本人就是 生物專業(yè)),強烈推薦perl語言入門,好像現(xiàn)在已經(jīng)出到第五版了。此書極為搞笑, 本人當時看了一個星期,其中幽默的語言導致本人經(jīng)常笑出聲音引得實驗室同學以 為神經(jīng)了。對于有C語言基礎的同學來說簡直就是菜,兩天就可以通了。另外,學 有余力的同學可以學一些 R以及python或java.因為好多軟

4、件都是用R或 python寫的,如果要是比較懶或三國殺很忙抽不出空就算了,學學perl就好了。 切記一點:perl的學習過程中除了基礎知識,一定要看一下哈希和模塊這兩部分。 當然如果你們導師允許你對數(shù)據(jù)去個冗余也要半個月的話,你只學到循環(huán)就可以了。統(tǒng)計學知識:只要大學上過生物統(tǒng)計也就差不多了(遇到二百五的老師你就比較悲 劇了),最基本的知道什么是標準化,正態(tài)分布,p value以及卡方檢驗或Fisher精 確檢驗,多重檢驗,,F(xiàn)DR這些概念和計算方法也就差不多了。推薦從以下統(tǒng)計軟 件中擇一精通之:SAS(比較變態(tài),碩士期間學了,后來就還給老師了)excel (入手比較容易,好好學學,功能比較全

5、,我學的差)matlab(本人認為最牛的統(tǒng)計軟件,有專門的論壇,有興趣的同學可以google 一下) SPSS(上手比較容易,而且很多漢化的非常好,新手同學比較推薦,但是精通比較難)R (最好能學這個,我覺著學R太必要了)perl (指CPAN中的統(tǒng)計模塊,不過需要一點技術)常見數(shù)據(jù)庫:這個根據(jù)自己所做的方向,需要具體問題具體分析,常見的NCBI以 及EBI和UCSC還是需要了解的。計算機操作要求:推薦linux系統(tǒng),掌握最基本的命令就可以了,還有一些shell命令,建議買一本linux 入門的書看看;對于習慣windows的同學,強烈建議學linux,開始的時候也許你 覺得好多軟件都有win

6、dows版本的,但是早晚你會發(fā)現(xiàn)有很多軟件沒有,所以必須 要學2.硬件要求:計算機要求:現(xiàn)在電腦快跟白菜一個價了,所以建議個人電腦配置的好一點(如果 有服務器就算了),推薦配置:64位系統(tǒng)(32系統(tǒng)的話,內(nèi)存受限,最多識別3G多), redhat或ubuntu都可以,推薦ubuntu,它的apt-get功能還是比較神器的,4 個CPU差不多,本人極力推薦裝8G內(nèi)存,如果你不能忍受經(jīng)常內(nèi)存溢出的話。 當然如果有服務器,這些都不是問題。至于顯卡什么的,就算了,如果要是你想魔 獸一下的話,可以跟你老板申請一下。對了硬盤大點,因為測序數(shù)據(jù)一般比較大。網(wǎng)絡要求:這個好像你也管不了,一般實驗室都已經(jīng)固定了

7、帶寬。遇有經(jīng)常在數(shù)據(jù) 庫上下一些基因組或其他注釋信息,所以還是進你所能的爭取一下。本人文字表達能力比較差,就嘮嘮叨叨先說這些,下次我會簡單介紹一些高通量測 序的基本知識和發(fā)展過程。對于已經(jīng)掌握這些入門知識(一般也是生物信息的入門 知識)的同學可以飛過,如果你還有哪些不了解,可以簡單的復習一下了!高通量測序入門第二帖 HYPERLINK /bbs/thread-370713-1-1.html /bbs/thread-370713-1-1.html很高興貼完第一帖得到那么多回復,本來這一帖早就該寫的,因為最近課題比較緊 而且遇到很多問題,所以拖到現(xiàn)在,向大家致歉! 扯 淡 分 割 線正式開始之前,

8、還是扯點八卦。在第一帖之后,有個朋友給我發(fā)郵件問我華大的評 價。我也覺著華大是一個好有爭議的話題。我仔細想了一下那些質(zhì)疑華大的人無非 有兩種理由:1.華大太能忽悠2.對于他們?nèi)〉玫某煽?,很多人都說如果我有那么 多錢我也能做。我跟華大接觸不是很多,而且我讀博之前也那么覺得,可是我現(xiàn)在 覺得我們應該好好的去閱讀一下華大。首先,現(xiàn)在的科研有幾個不在忽悠(此忽悠 不是貶義,試想,我們做的工作在發(fā) paper時總是要寫的意義重要一些,去讓 reviewer覺得有發(fā)表的必要,這是不是忽悠;你去申請基金的時候,總是要把課題 意義拔高再拔高,這是不是忽悠),大家都是在忽悠,何必五十步笑百步呢。2.給 你那么多

9、錢,你也不一定能有他們那么多成果。華大到底拿了多少錢,我不知道, 但是我知道拿他們那么多錢,沒做出東西的人有的是。我知道某個單位,要測某個 微生物的基因組(為了影響就不說是什么物種了,說了物種就很容易知道哪個單位 了),當時Roche 454剛剛出來,該單位將測序意義定義為打破國外高科技技術壟 斷,人工與高通量測序技術賽跑。人才啊,最后的結(jié)果是什么,在徘徊了兩年,花 費數(shù)十萬(或上百萬后),還是送到了華大,倒是真的沒用454,因為已經(jīng)出了通量 更高的Illumina GA,最后文章發(fā)表在某雜志上,篇幅不到一頁,亮點就是作者奇 多,估算一下,每個作者不到十個單詞。當然這么極品的人還是比較少,我只

10、是想 說給你錢,你真的不知道怎么花。 扯 淡 完 分 割 線 扯淡完,進正題,這一貼,主要簡單介紹一些,測序數(shù)據(jù)分析的基本知識,心急的 同學,不要著急,俗話說心急吃不了臭豆腐。首先,介紹一下測序技術的發(fā)展過程和一些標志事件;說道測序,可能最先想到的是Sanger和Maxam-Gilbert這兩個人,至于這兩個人 干了什么,就不用太清楚了,只要知道沒有這兩個人就不會有測序技術的今天. 就像沒有GCD就沒有XZG 一樣,自從有了這兩個人就迎來了分子生物學的春天, 自從有了這兩個人分子生物學事業(yè)煥然一新.事物的發(fā)展總是從量變到質(zhì)變,在這個量變過程中,我們完成偉大的人類基因組計 劃還有很多的模式生物的

11、基因組,那些鄙視華大的同學這里要記住這個過程中,華 大是有貢獻的。質(zhì)變來臨:忽如一夜春風來,ABI 3730型測序儀漸行漸遠,NGS (Next Generation sequence)在哪里?馬上就有答案。Roche 454、Illumina GA、ABI SOLiD伴著春姑娘的腳步出現(xiàn)了。這三種測序平臺的原理、優(yōu)缺點、發(fā)展歷程估計大家已經(jīng)聽的很多了,如果想復習 一下的同學可以google 一下(俗話說,知之為知之,不知google知)。找不到? 不能吧,兩個檢索方法:1. google 中輸入:filetype:ppt Next Generation sequence. 2.直接pubme

12、d檢索綜述,找稍微好點的雜志,好好復習一下就好了。由于本人用到的數(shù)據(jù)多是Illumina GA平臺,所以我后面的內(nèi)容可能更傾向于這個 平臺。先說幾個概念:fasta格式:其實我也不知道,為什么叫這個名字,其實也不用知道,你只要這 是一種序列存儲格式就好了,大概分為兩行,第一行以 開頭,表明注釋信息,第 二行及往后均為序列信息。fastq格式:這個同樣是序列存儲格式,共分四行,前兩行與fasta 一致,第三 行一般是一個“+”字符,第四行就是序列質(zhì)量分數(shù),這個分數(shù)看起來有點奇怪,實際 在對測序錯誤率進行l(wèi)og變換后取整用ASCII碼的表述形式。但是不同的測序儀換 算方法稍有不同,這個換算過程,大

13、家有興趣可以看一下,針對自己用的平臺要仔 細看一下。序列比對:alignment,好像沒有什么好解釋的,最簡單的BLAST、BLAT到后 面的Seqmap/Bowtie/SOAP等都是干這個用的,雖然我在工作中從來沒有用過華 大的SOAP,但是某天無聊我測試了下,其性能絕對算不上差,而且protocol竟有 中文版,所以還值得試試?,F(xiàn)在出了N多的軟件,反正原理就是兩個,要么把基因 組做索引,要么把測序的片段做索引.好像知道這么多久可以進行數(shù)據(jù)分析了,可是我特別想寫第四條,就把Illumina GA測轉(zhuǎn)錄組樣本提取流程說一下吧,測基因組的就更簡單一些。第一步:提取總的RNA,具體怎么做大家都比別人清楚,我說了你也不會聽我的, 不會的話就請你師姐/師兄教教你吧。一般他們都比較熱心,愛國愛家愛師妹嘛

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論