利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò)_第1頁
利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò)_第2頁
利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò)_第3頁
利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò)_第4頁
利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、學(xué)士學(xué)位論文論文題目:利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò) 作 者: 黃立波導(dǎo) 師: 龐爾麗 副教授系別年級: 生命科學(xué)學(xué)院 2010級學(xué) 號: 201011202950學(xué)科專業(yè): 生物科學(xué)完成日期: 2014年5月北京師范大學(xué)教務(wù)處北京師范大學(xué)學(xué)士學(xué)位論文(設(shè)計(jì))誠信承諾書本人鄭重聲明: 所呈交的學(xué)士學(xué)位論文(設(shè)計(jì)),是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。本人簽名: 年 月 日北京師范大

2、學(xué)學(xué)士學(xué)位論文(設(shè)計(jì))使用授權(quán)的說明本人完全了解北京師范大學(xué)有關(guān)收集、保留和使用學(xué)士學(xué)位論文(設(shè)計(jì))的規(guī)定,即:本科生在校攻讀學(xué)位期間論文(設(shè)計(jì))工作的知識(shí)產(chǎn)權(quán)單位屬北京師范大學(xué)。學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許學(xué)位論文(設(shè)計(jì))被查閱和借閱;學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。保密的學(xué)位論文在解密后遵守此規(guī)定。本論文(是、否)保密論文。保密論文在 年解密后適用本授權(quán)書。本人簽名: 年 月 日 目錄摘要IABSTRACTII前言11.背景綜述21.1基因共表達(dá)網(wǎng)絡(luò)及構(gòu)建方法21.1.1基因和基因表達(dá)21.1.

3、2復(fù)雜網(wǎng)絡(luò)和基因共表達(dá)網(wǎng)絡(luò)及其構(gòu)建方法21.2 轉(zhuǎn)錄組與RNA-Seq技術(shù)51.2.1轉(zhuǎn)錄組51.2.2早期研究轉(zhuǎn)錄組的基本方法61.2.3全轉(zhuǎn)錄組鳥槍法測序(RNA-Seq)61.2.4 RNA-seq的主要用途81.3 共表達(dá)網(wǎng)絡(luò)可視化81.3.1 Cytoscape:網(wǎng)絡(luò)可視化工具81.3.2 WGCNA生成節(jié)點(diǎn)和邊的純文本文件81.3.3將邊文件導(dǎo)入Cytoscape生成網(wǎng)絡(luò)圖92.材料與方法102.1 計(jì)算環(huán)境、操作環(huán)境與研究流程簡介102.2數(shù)據(jù)來源112.2.1 人類參考基因組文件112.2.2 人類基因組注釋文件112.2.3人類RNA-Seq數(shù)據(jù)112.3 RNA-Seq數(shù)據(jù)

4、處理112.3.1 將sra數(shù)據(jù)轉(zhuǎn)換為fastq數(shù)據(jù)112.3.2 TopHat:拼接RNA-Seq112.3.3 Cufflinks:組裝轉(zhuǎn)錄本122.3.4 根據(jù)注釋文件提取編碼蛋白的表達(dá)量數(shù)據(jù)122.3.5根據(jù)表達(dá)量篩選基因122.4 使用WGCNA構(gòu)建基因共表達(dá)網(wǎng)絡(luò)132.4.1表達(dá)量矩陣導(dǎo)入與數(shù)據(jù)預(yù)處理132.4.2 網(wǎng)絡(luò)構(gòu)建與模塊檢測162.4.3 將基因網(wǎng)絡(luò)文件導(dǎo)出到Cytoscape203.結(jié)果與討論223.1模塊個(gè)數(shù)及各模塊的網(wǎng)絡(luò)情況介紹223.2根據(jù)基因網(wǎng)絡(luò)文件在Cytoscape中作網(wǎng)絡(luò)可視化243.2.1 三個(gè)模塊網(wǎng)絡(luò)圖的可視化243.2.2 單個(gè)模塊網(wǎng)絡(luò)圖的可視化24

5、4.總結(jié)與展望264.1 研究過程中存在的主要問題264.2 基因共表達(dá)網(wǎng)絡(luò)的應(yīng)用展望26參考文獻(xiàn)27附錄一 篩選編碼蛋白基因的perl代碼28附錄二 WGCNA中使用的R代碼30致謝37正文圖表目錄圖 1復(fù)雜網(wǎng)絡(luò)圖例3圖 2無尺度網(wǎng)絡(luò)與隨機(jī)網(wǎng)絡(luò)的對比4圖 3 RNA-Seq的測序步驟7圖 4 研究流程圖10圖 5 檢測離群樣本的層次聚類15圖 6 為值的選取分析網(wǎng)絡(luò)拓?fù)?8圖 7 所有模塊的層次聚類圖19圖 8 模塊檢測結(jié)果22圖 9 通過聚類分析尋找離群樣本23圖 10 三個(gè)模塊的網(wǎng)絡(luò)圖(相關(guān)系數(shù)0.68)24圖 11 對單個(gè)模塊基因網(wǎng)絡(luò)的可視化(相關(guān)系數(shù)0.94)25圖 12 處于網(wǎng)絡(luò)中

6、心位置的gene的id25表 1現(xiàn)實(shí)中的無尺度網(wǎng)絡(luò)5表 2三種轉(zhuǎn)錄組研究方法比較974利用RNA-Seq數(shù)據(jù)構(gòu)建人類共表達(dá)網(wǎng)絡(luò)摘要基因共表達(dá)是指基因組中某些基因具有相似表達(dá)譜的現(xiàn)象,它們可能受到相似的調(diào)控,使其表達(dá)量的變化趨勢相同。基因共表達(dá)網(wǎng)絡(luò)是一種無尺度網(wǎng)絡(luò),該網(wǎng)絡(luò)中的節(jié)點(diǎn)代表基因,基因之間的邊是由兩兩相關(guān)的基因的表達(dá)量確定的,具有共表達(dá)關(guān)系的基因處于同一個(gè)基因共表達(dá)子網(wǎng)絡(luò)之中。構(gòu)建基因共表達(dá)網(wǎng)絡(luò),需要基因的表達(dá)量數(shù)據(jù)。RNA-Seq是基于第二代測序技術(shù)的全轉(zhuǎn)錄組測序技術(shù),利用RNA-Seq數(shù)據(jù)能計(jì)算出各個(gè)基因的表達(dá)量。得到表達(dá)量數(shù)據(jù)之后,便可以通過一個(gè)名為WGCNA的R軟件包構(gòu)建基因共表

7、達(dá)網(wǎng)絡(luò)。關(guān)鍵詞:基因共表達(dá)網(wǎng)絡(luò),人類,RNA-Seq,WGCNA,R軟件Using RNA-Seq Data to Construct Human Co-expression NetworkABSTRACTGene co-expression refers to the phenomenon that genes has similar expression profile in genome, they may be under similar regulation, which makes their expression tends to consistent. Co-expressio

8、n networks are undirected, weighted gene networks, the nodes of such a network correspond to genes in expression profiles, and edges between genes are determined by the pairwise correlations between gene expressions. Genes that has co-expression relationship are in the same sub-network. To construct

9、 gene co-expression network, gene expression data is needed. RNA-Seq is “Whole Transcriptome Shotgun Sequencing” based on the next generation sequencing, by using RNA-Seq data can calculate the expression of each gene. After obtaining expression data, then we can construct gene co-expression network

10、 via an R package which is called WGCNA.KEY WORDS: gene co-expression networks, human, RNA-Seq, WGCNA, R software37前言人類基因組大約有兩萬多個(gè)基因,在單個(gè)細(xì)胞中表達(dá)的基因通常僅有幾百到幾千個(gè),而且很多基因只在特定組織或發(fā)育階段表達(dá)。在這些表達(dá)的基因中,有一些基因的表達(dá)譜相似,也就是說表達(dá)量的變化趨于一致,這些基因很可能受到相同的調(diào)控1,這種現(xiàn)象就是基因共表達(dá)?;蚬脖磉_(dá)網(wǎng)絡(luò)正在越來越多地被用于探索基因的系統(tǒng)級別功能。這種網(wǎng)絡(luò)的建設(shè)從概念上來講是簡單直觀的:網(wǎng)絡(luò)的節(jié)點(diǎn)代表基因,如果

11、相關(guān)的基因表達(dá)譜相似,那么代表基因的節(jié)點(diǎn)就被邊連接起來,同時(shí)可以給邊權(quán)重2。網(wǎng)絡(luò)提供了一個(gè)系統(tǒng)觀察節(jié)點(diǎn)之間相互作用的方法,它給我們提供了一個(gè)在系統(tǒng)水平上研究基因之間關(guān)系的平臺(tái)。1.背景綜述1.1基因共表達(dá)網(wǎng)絡(luò)及構(gòu)建方法1.1.1基因和基因表達(dá)基因是現(xiàn)代生物學(xué)的最基本的概念之一。隨著生物學(xué)的發(fā)展,我們對基因的認(rèn)識(shí)也在逐步深入。最初,遺傳學(xué)的奠基人孟德爾在研究豌豆的過程中發(fā)現(xiàn)了孟德爾分離定律和自由組合定律,并提出了“遺傳因子”的概念。孟德爾指出生物的每一個(gè)性狀都是通過“遺傳因子”來傳遞,“遺傳因子”是獨(dú)立的遺傳單位,這樣就把可觀察的遺傳性狀和控制它的“遺傳因子”區(qū)分開來。1909年,丹麥遺傳學(xué)家約

12、翰遜提出“基因”的概念,替代了孟德爾假定的“遺傳因子”。1926年,摩爾根在其出版的基因論中提出基因不僅是決定性狀的功能單位,而且是一個(gè)突變單位和交換單位,這進(jìn)一步豐富了基因的概念。隨著科學(xué)技術(shù)的發(fā)展,生物體的主要遺傳物質(zhì)DNA及其獨(dú)特的雙螺旋結(jié)構(gòu)被發(fā)現(xiàn),基因斷裂、基因重疊理論被提出,內(nèi)含子、外顯子、轉(zhuǎn)座子、啟動(dòng)子以及假基因等被陸續(xù)發(fā)現(xiàn),所有的相關(guān)研究成果都使人們加深了對基因的認(rèn)識(shí)。基因表達(dá)指基因在生物體內(nèi)的轉(zhuǎn)錄、剪接、翻譯以及轉(zhuǎn)變成具有生物活性的蛋白質(zhì)分子的所有過程。在DNA被轉(zhuǎn)錄翻譯的過程中,一種特殊的RNA起到了媒介作用,我們把這種RNA稱作mRNA(message RNA,信使RNA)

13、。蛋白質(zhì)是基因表達(dá)的終產(chǎn)物,蛋白質(zhì)參與了生物體內(nèi)種類繁多的生命過程,有的蛋白質(zhì)參與構(gòu)建生物機(jī)體,有的參與催化過程,有的參與調(diào)控過程,有的參與運(yùn)輸?shù)鹊???偠灾?,蛋白質(zhì)是生命活動(dòng)的主要承擔(dān)者。因此,研究基因的表達(dá)情況,在各類生物學(xué)研究中是非常重要的。由于通過測量蛋白質(zhì)的豐度來研究基因的表達(dá)情況需要復(fù)雜的技術(shù)和昂貴的價(jià)格,我們更多的選擇通過測量mRNA的豐度來反映基因的表達(dá)情況。1.1.2復(fù)雜網(wǎng)絡(luò)和基因共表達(dá)網(wǎng)絡(luò)及其構(gòu)建方法復(fù)雜網(wǎng)絡(luò)基于網(wǎng)絡(luò)的方法在許多領(lǐng)域都很有用,如:基因共表達(dá)網(wǎng)絡(luò),蛋白質(zhì)相互作用網(wǎng)絡(luò),細(xì)胞相互作用網(wǎng)絡(luò),萬維網(wǎng)和社交網(wǎng)絡(luò)等。事實(shí)表明自然界中存在的大量復(fù)雜系統(tǒng)均可通過

14、網(wǎng)絡(luò)加以描述。網(wǎng)絡(luò)由節(jié)點(diǎn)與節(jié)點(diǎn)之間的邊組成,其中節(jié)點(diǎn)表示真實(shí)系統(tǒng)中的個(gè)體,而邊表示個(gè)體之間的關(guān)系。復(fù)雜網(wǎng)絡(luò)是點(diǎn)與點(diǎn)之間連接關(guān)系較復(fù)雜一類網(wǎng)絡(luò)的總稱。圖 1是一個(gè)隨機(jī)生成的BA(BarabásiAlbert (BA) model,即無尺度網(wǎng)絡(luò)模型)模型復(fù)雜網(wǎng)絡(luò)。網(wǎng)絡(luò)的復(fù)雜性體現(xiàn)在以下三個(gè)方面:a. 結(jié)構(gòu)復(fù)雜性:網(wǎng)絡(luò)的連接結(jié)構(gòu)錯(cuò)綜復(fù)雜,而且節(jié)點(diǎn)之間的連接可能具有不同的權(quán)重和方向。b. 節(jié)點(diǎn)復(fù)雜性:網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都可能具有復(fù)雜的演化行為。而且網(wǎng)絡(luò)中可能存在不同類型的節(jié)點(diǎn),如生化網(wǎng)絡(luò)中的基質(zhì)和酶、神經(jīng)網(wǎng)絡(luò)中不同的神經(jīng)元等。c. 各種復(fù)雜因素的影響和作用:實(shí)際的復(fù)雜網(wǎng)絡(luò)會(huì)受到各種復(fù)雜因素的影

15、響和作用,例如神經(jīng)元被同時(shí)激活,其連接就加強(qiáng)。目前復(fù)雜網(wǎng)絡(luò)的研究內(nèi)容主要有以下幾個(gè)方面:a. 揭示復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的統(tǒng)計(jì)性質(zhì),發(fā)現(xiàn)度量這些性質(zhì)的方法。b. 建立合適的網(wǎng)絡(luò)模型幫助人們理解網(wǎng)絡(luò)統(tǒng)計(jì)性質(zhì)的意義和產(chǎn)生機(jī)理。c. 基于單個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的性質(zhì)和整個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)性質(zhì)分析與預(yù)測網(wǎng)絡(luò)的行為。d. 提出改善現(xiàn)有網(wǎng)絡(luò)性能和設(shè)計(jì)新的網(wǎng)絡(luò)的有效方法。圖 1復(fù)雜網(wǎng)絡(luò)圖例基因共表達(dá)網(wǎng)絡(luò)基因共表達(dá)網(wǎng)絡(luò)是無尺度(scale-free)的權(quán)重基因網(wǎng)絡(luò)3。無尺度特性,又稱作無標(biāo)度特性,是指網(wǎng)絡(luò)的度分布滿足冪律分布。所謂一個(gè)網(wǎng)絡(luò)的度分布,是當(dāng)隨機(jī)地從網(wǎng)絡(luò)中抽取一個(gè)節(jié)點(diǎn)時(shí),與這個(gè)節(jié)點(diǎn)相連的節(jié)點(diǎn)數(shù)(叫做這個(gè)節(jié)點(diǎn)

16、的度)d的概率分布。比如說對一個(gè)n個(gè)節(jié)點(diǎn)組成的完全圖(所有節(jié)點(diǎn)之間都連有邊的圖),度分布是:d = n - 1 的概率是1,其余的都是0。無尺度網(wǎng)絡(luò)的度分布滿足冪律分布,也就是說d = k 的概率正比于k 的某個(gè)冪次(一般是負(fù)的):Pd=kk- 式 (1-1)冪律分布這一特性,正說明了無尺度網(wǎng)絡(luò)的度分布與一般隨機(jī)網(wǎng)絡(luò)的同。隨機(jī)網(wǎng)絡(luò)的度分布屬于正態(tài)分布,因此有一個(gè)特征度數(shù),即大部分節(jié)點(diǎn)的度數(shù)都接近它。無尺度網(wǎng)絡(luò)的度分布是呈集散分布:大部分的節(jié)點(diǎn)只有比較少的連接,而少數(shù)節(jié)點(diǎn)有大量的連接。由于不存在特征度數(shù),因此得名“無尺度”。如圖 2所示,(a)為隨機(jī)網(wǎng)絡(luò),該網(wǎng)絡(luò)中大部分節(jié)點(diǎn)都連出2到3條邊,0條

17、與一條邊的和四條邊的都很少。(b)為無尺度網(wǎng)絡(luò),大部分節(jié)點(diǎn)連一條邊,少數(shù)節(jié)點(diǎn)(紅色)連有大量邊。圖 2無尺度網(wǎng)絡(luò)與隨機(jī)網(wǎng)絡(luò)的對比不少現(xiàn)實(shí)的網(wǎng)絡(luò)結(jié)構(gòu)屬于無尺度網(wǎng)絡(luò),或者有無尺度特性。比如:表 1現(xiàn)實(shí)中的無尺度網(wǎng)絡(luò)網(wǎng)絡(luò)節(jié)點(diǎn)連接電影演員網(wǎng)絡(luò)演員出演同一部電影因特網(wǎng)路由器物理連接蛋白質(zhì)相互作用網(wǎng)絡(luò)蛋白質(zhì)蛋白質(zhì)之間的相互作用關(guān)系美國飛機(jī)航班網(wǎng)絡(luò)機(jī)場飛機(jī)航線和這些無尺度網(wǎng)絡(luò)類似,基因共表達(dá)網(wǎng)絡(luò)中的節(jié)點(diǎn)是少數(shù)“關(guān)鍵基因”,這些“關(guān)鍵基因”和許多基因的表達(dá)譜相似 ?;蚬脖磉_(dá)網(wǎng)絡(luò)的構(gòu)建方法在構(gòu)建基因共表達(dá)網(wǎng)絡(luò)時(shí),我們要借助R4軟件及一個(gè)名為WGCNA3, 5第三方R包。R軟件是一個(gè)很方便進(jìn)行數(shù)據(jù)

18、處理、計(jì)算和圖像展示的軟件集成套件6。R是當(dāng)前最受歡迎的數(shù)據(jù)分析和可視化平臺(tái)之一,并且它開源、擁有Windows、Mac OS和Linux的版本。WGCNA(weighted gene co-expression network analysis)的全稱是加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析,該算法是一種構(gòu)建基因共表達(dá)網(wǎng)絡(luò)的典型系統(tǒng)生物學(xué)算法,該算法基于高通量的基因信使RNA(mRNA)表達(dá)芯片數(shù)據(jù),被廣泛應(yīng)用于生物信息和醫(yī)學(xué)領(lǐng)域。WGCNA算法首先假定基因網(wǎng)絡(luò)服從無尺度分布,并定義基因共表達(dá)相關(guān)矩陣、基因網(wǎng)絡(luò)形成的鄰接函數(shù),然后計(jì)算不同節(jié)點(diǎn)的相異系數(shù),并據(jù)此構(gòu)建分層聚類樹(hierarchical clu

19、stering tree),該聚類數(shù)的不同分支代表不同的基因模塊(module),模塊內(nèi)基因共表達(dá)程度高,而分屬不同模塊的基因共表達(dá)程度低7。通過探索模塊與特定表型或疾病的關(guān)聯(lián),可以鑒定引發(fā)疾病的靶基因、預(yù)測調(diào)控通路等。1.2 轉(zhuǎn)錄組與RNA-Seq技術(shù) 1.2.1轉(zhuǎn)錄組轉(zhuǎn)錄組是特定細(xì)胞或組織在特定時(shí)間或狀態(tài)下轉(zhuǎn)錄出來的所有RNA的集合。通過對轉(zhuǎn)錄組的研究可以揭示生物體的基因表達(dá)、研究結(jié)構(gòu)變異及發(fā)現(xiàn)新基因等。轉(zhuǎn)錄組分析的研究方法、研究平臺(tái)發(fā)生著日新月異的變化, 同時(shí)生物信息學(xué)分析的內(nèi)容也在隨之逐漸完善。廣義上講,轉(zhuǎn)錄組是生物體細(xì)胞或組織在特定狀態(tài)下所轉(zhuǎn)錄出來的所有RNA的總和。RNA包括編碼蛋

20、白的RNA(即mRNA)和非編碼蛋白的RNA(即ncRNA,如rRNA,tRNA,microRNA等),而mRNA和基因的表達(dá)量息息相關(guān),所有狹義上的轉(zhuǎn)錄組通常指所有mRNA的總和,而不包含ncRNA。與基因組不同,轉(zhuǎn)錄組更具有時(shí)間性和空間性。例如,人體大部分細(xì)胞具有一模一樣的基因,而即使同一細(xì)胞在不同生長時(shí)期及環(huán)境下,其基因表達(dá)情況也是不完全相同的。所有,轉(zhuǎn)錄組通常反映的是特定條件下活躍表達(dá)的基因。1.2.2早期研究轉(zhuǎn)錄組的基本方法早期的轉(zhuǎn)錄組研究方法主要有:a. 基于雜交技術(shù),如cDNA芯片和寡聚核苷酸芯片;b. 基于第一代測序技術(shù),如基于Sanger測序的SAGE (Serial Ana

21、lysis of Gene Expression)和MPSS(Massively Parallel Signature Sequencing)、全長cDNA文庫和EST文庫的測序分析。1.2.3全轉(zhuǎn)錄組鳥槍法測序(RNA-Seq)RNA測序(RNA Sequencing,簡稱RNA-Seq,也被稱為全轉(zhuǎn)錄組鳥槍法測序:Whole Transcriptome Shotgun Sequencing8,WTSS)是基于第二代測序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法:首先提取生物樣品的全部轉(zhuǎn)錄的RNA,然后反轉(zhuǎn)錄為c-DNA后進(jìn)行二代高通量測序,在此基礎(chǔ)上進(jìn)行片段的重疊 組裝,從而可得到一個(gè)個(gè)的轉(zhuǎn)錄本,進(jìn)而可以形成

22、對該生物樣品當(dāng)前發(fā)育狀態(tài)的基因表達(dá)狀況的全局了解(globle)。進(jìn)一步說,若和下一階段的生物樣品的 RNA-Seq轉(zhuǎn)錄組進(jìn)行比較,則可以得到全部的(在轉(zhuǎn)錄層面)基因表達(dá)的上調(diào)及下調(diào)-這就形成了表達(dá)譜,針對關(guān)鍵基因則可以形成你要想要的 pathway的構(gòu)建。圖 3顯示的是RNA-Seq的測序步驟。圖 3 RNA-Seq的測序步驟三種主要的轉(zhuǎn)錄組研究方法對比,見表 2。其中RNA-Seq主要具有以下優(yōu)勢:a 通量高。運(yùn)用第二代測序平臺(tái)可得到幾個(gè)到幾百億個(gè)堿基序列,可以達(dá)到覆蓋整個(gè)基因組和轉(zhuǎn)錄組的要求;b 靈敏度高??梢詸z測細(xì)胞中少至幾個(gè)拷貝的稀有轉(zhuǎn)錄本;c 分辨率高。RNA-seq的分辨率能達(dá)到

23、單個(gè)堿基,準(zhǔn)確度好,同時(shí)不存在傳統(tǒng)微陣列雜交的熒光模擬信號帶來的交叉反應(yīng)和背景噪聲;d 不受限制性??梢詫θ我馕锓N進(jìn)行全轉(zhuǎn)錄組分析,無需預(yù)先設(shè)計(jì)特異性探針,能夠直接對任何物種進(jìn)行轉(zhuǎn)錄組分析。同時(shí)能夠檢測未知基因、發(fā)現(xiàn)新的轉(zhuǎn)錄本,并準(zhǔn)確地識(shí)別可變剪切位點(diǎn)及SNP、UTR區(qū)域。表 2三種轉(zhuǎn)錄組研究方法比較9技術(shù)芯片SAGE/MPSS/Cdna/ESTRNA-Seq原理雜交Sanger測序高通量測序信號熒光模擬信號數(shù)字化信號數(shù)字化信號分辨率數(shù)個(gè)-10bp單堿基單堿基通量高低高背景噪聲高低低分析成本高高低起始RNA用量多多少同時(shí)映射轉(zhuǎn)錄區(qū)域和基因表達(dá)是有限的基因表達(dá)是能夠區(qū)分不同的亞型有限是是能夠區(qū)別

24、等位基因有限是是1.2.4 RNA-seq的主要用途RNA-Seq技術(shù)能夠在單核苷酸水平對特定物種的整體轉(zhuǎn)錄活動(dòng)進(jìn)行檢測,從而全面快速地獲得該物種在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本信息。由于轉(zhuǎn)錄組測序可以得到全部RNA轉(zhuǎn)錄本的豐度信息,加之準(zhǔn)確度高,使得它具有非常廣泛的應(yīng)用領(lǐng)域。如:a 檢測新的轉(zhuǎn)錄本10, 11,包括未知轉(zhuǎn)錄本和稀有轉(zhuǎn)錄本;b 基因轉(zhuǎn)錄水平研究12,如基因表達(dá)量、不同樣本間差異表達(dá);c 非編碼區(qū)域功能研究,如microRNA13、非編碼長RNA(lncRNA)14、RNA編輯15;d 轉(zhuǎn)錄本結(jié)構(gòu)變異研究,如可變剪接、基因融合;e 開發(fā)SNPs和SSR等。1.3 共表達(dá)網(wǎng)絡(luò)可視化1.

25、3.1 Cytoscape:網(wǎng)絡(luò)可視化工具Cytoscape是一個(gè)開源軟件項(xiàng)目,它使用高通量的表達(dá)數(shù)據(jù)和其他分子狀態(tài)到一個(gè)概念框架來整合生物分子相互作用網(wǎng)絡(luò)16。生物網(wǎng)絡(luò)的計(jì)算機(jī)輔助模型是系統(tǒng)生物學(xué)的基石。1.3.2 WGCNA生成節(jié)點(diǎn)和邊的純文本文件將網(wǎng)絡(luò)導(dǎo)入Cytoscape之前,需要將網(wǎng)絡(luò)數(shù)據(jù)導(dǎo)入至兩個(gè)純文本文件中,便于Cytoscape讀取數(shù)據(jù)。第一個(gè)文件包含的是nodes數(shù)據(jù),該文件包含三列:第一列是節(jié)點(diǎn)名;第二列是節(jié)點(diǎn)別名(這是一個(gè)可選列,若在WGCNA生成文件過程中提供注釋文件,則顯示各節(jié)點(diǎn)的別名;若不提供注釋文件,那么此列全部顯示為NA,及無值);第三列是節(jié)點(diǎn)屬性,以模塊的顏色

26、名為值。第二個(gè)文件包含的是edges數(shù)據(jù),該文件包含六列:第一列和第二列是有共表達(dá)關(guān)系的兩個(gè)基因的基因名;類似的,第五列和第六列是這兩個(gè)基因別名;第三列是關(guān)系的權(quán)重(weight);第四列是網(wǎng)絡(luò)關(guān)系的屬性,由于基因共表達(dá)網(wǎng)絡(luò)是無尺度網(wǎng)絡(luò),所有該列的值全為undirected。1.3.3將邊文件導(dǎo)入Cytoscape生成網(wǎng)絡(luò)圖在上一步中我們獲得了兩個(gè)純文本文件,我們只需要第二個(gè)edges文件就能構(gòu)建網(wǎng)絡(luò)圖。導(dǎo)入該文件后,在軟件的導(dǎo)入設(shè)置中,將第一列設(shè)置為fromNode,第二列設(shè)置為toNode,最后把第三列設(shè)為網(wǎng)絡(luò)關(guān)系屬性,完成設(shè)置,便可生成網(wǎng)絡(luò)圖了。2.材料與方法2.1 計(jì)算環(huán)境、操作環(huán)境與

27、研究流程簡介數(shù)據(jù)處理和分析在北京師范大學(xué)計(jì)算分子生物學(xué)實(shí)驗(yàn)室的大型HP計(jì)算機(jī)集群上完成。HP高性能計(jì)算集群系統(tǒng)配置了20個(gè)計(jì)算節(jié)點(diǎn),其中專配有兩臺(tái)32核心、256G內(nèi)存的胖節(jié)點(diǎn)及50T的存儲(chǔ)。在作網(wǎng)絡(luò)圖是,我使用的是HP工作站,CPU為2GHz*8,內(nèi)存為32G,使用系統(tǒng)為CentOS6.2。在我使用的服務(wù)器(本地ip為55)上,我的工作目錄為/home/huanglb。本次的研究流程如圖 4所示。圖 4 研究流程圖在圖 4中,藍(lán)色矩形圖標(biāo)代表數(shù)據(jù),其他顏色的的橢圓形圖標(biāo)代表處理數(shù)據(jù)的軟件。在流程圖的最上面是原始的三大類數(shù)據(jù),在處理后我們依次得到了基因表達(dá)量數(shù)據(jù)、基因網(wǎng)絡(luò)

28、數(shù)據(jù)并最終實(shí)現(xiàn)基因網(wǎng)絡(luò)可視化。2.2數(shù)據(jù)來源2.2.1 人類參考基因組文件本研究使用的人類基因組數(shù)據(jù)序列版本號是GRCH37,發(fā)布日期是2009年2月,下載于Ensemble(/index.html)。2.2.2 人類基因組注釋文件本研究使用的人類基因組文件gencode.v17.gtf下載于GENCODE網(wǎng)(/),版本號是Gencode17,文件格式為gtf,發(fā)布日期為2013-06-17。2.2.3人類RNA-Seq數(shù)據(jù)在NCBI(美國國家生物信息中心)數(shù)據(jù)庫中下載所需的十六個(gè)組織的RNA-Se

29、q數(shù)據(jù)。(/geo/query/acc.cgi?acc=GSE12946)。該數(shù)據(jù)是Nature雜志上發(fā)表的文章Alternative Isoform Regulation in Human Tissue Transcriptomes中使用的實(shí)驗(yàn)數(shù)據(jù)17。該實(shí)驗(yàn)數(shù)據(jù)中包含人類16個(gè)組織(heart, breast, testes, BT474, MAQC UHR, MB435, lymph node, T47D, HME, MCF-7, adipose, colon, liver, brain, MAQC human cell lines,

30、skeletal muscle)的RNA-Seq數(shù)據(jù)。2.3 RNA-Seq數(shù)據(jù)處理2.3.1 將sra數(shù)據(jù)轉(zhuǎn)換為fastq數(shù)據(jù)從NCBI上下載的數(shù)據(jù)是sra格式的,我們需要把數(shù)據(jù)的格式轉(zhuǎn)換為fastq格式,我們使用的工具是sratoolkit,軟件版本為sratoolkit.2.1.16-centos_linux64 (/Traces/sra/?view=software)。2.3.2 TopHat:拼接RNA-SeqTopHat是一種高效的序列拼接軟件,可以將RNA-Seq短片段拼接到人類參考基因組上。我們使用的TopHat(http:/t

31、/)軟件版本為tophat-2.0.8b.Linux_x86_64。在使用該軟件時(shí),我們使用的參數(shù)均為默認(rèn)參數(shù)。2.3.3 Cufflinks:組裝轉(zhuǎn)錄本Cufflinks能將已拼接到基因組上的RNA-Seq短序列組裝起來。我們使用的版本是cufflinks_2.0.2 (/)。Cufflinks將TopHat中比對到人類參考基因組上的序列組裝成轉(zhuǎn)錄本,并通過計(jì)算轉(zhuǎn)錄本的相對豐度得出基因的表達(dá)量即FPKM(Fragments Per Kilobase of transcript per Million

32、mapped reads,每1百萬個(gè)拼接上的短序列中拼接到外顯子上的每一千個(gè)堿基上的短序列數(shù))值。在這一步結(jié)束之后,我們就可以得到十六個(gè)組織的基因表達(dá)量數(shù)據(jù)。我們把十六個(gè)組裝的表達(dá)量數(shù)據(jù)整合到一個(gè)名為fpkm.txt文件中。2.3.4 根據(jù)注釋文件提取編碼蛋白的表達(dá)量數(shù)據(jù)在我們得到的表達(dá)量數(shù)據(jù)中,除了有編碼蛋白的基因,還有假基因和線粒體基因等,而我們需要的是編碼蛋白的基因,那么我們編寫一個(gè)perl腳本(主要代碼見附錄一,前期shell處理過程略),根據(jù)gencode.v17.gtf文件中的gene_type屬性來篩選數(shù)據(jù),只把編碼蛋白基因的表達(dá)量數(shù)據(jù)留下了,并將文件另存為fpkm.new,為t

33、ab分隔符文件。處理好的文件中含有20345個(gè)基因,整個(gè)文件有20345行,16列。2.3.5根據(jù)表達(dá)量篩選基因在WGCNA中計(jì)算基因相關(guān)性的時(shí)候不能含零值,否則會(huì)產(chǎn)生NaN(not a number,非數(shù)),比如除0就會(huì)產(chǎn)生NaN。所有我們把含零的基因都刪除。最后,剩下15749個(gè)基因。最終文件中有15749行,16列。該文件就可以拿來作共表達(dá)網(wǎng)絡(luò)分析和可視化了。2.4 使用WGCNA構(gòu)建基因共表達(dá)網(wǎng)絡(luò)2.4.1表達(dá)量矩陣導(dǎo)入與數(shù)據(jù)預(yù)處理 導(dǎo)入表達(dá)量數(shù)據(jù)在打開R軟件(版本為3.03)之后,先設(shè)置好工作路徑,加載相應(yīng)的包和數(shù)據(jù),并設(shè)置好相關(guān)參數(shù):#設(shè)置工作目錄setwd(&quo

34、t;/home/huanglb");#查看工作目錄getwd();#加載WGCNA包library(WGCNA);#設(shè)置參數(shù),這個(gè)參數(shù)非常重要options(stringsAsFactors = FALSE);#讀取表達(dá)量數(shù)據(jù)。我數(shù)據(jù)文件名為fpkm.new,是一個(gè)tab分隔符文件#該數(shù)據(jù)是一個(gè)16*15749的表達(dá)量矩陣,將其導(dǎo)入為R中名為fpkm的數(shù)據(jù)框中fpkm <- read.table("fpkm.new",header=TRUE,sep="t");#查看數(shù)據(jù)框的維數(shù)和列名dim(fpkm);names(fpkm);在可視化環(huán)境

35、中,可以使用fix(fpkm)來查看數(shù)據(jù)框。表達(dá)量矩陣中的16代表十六個(gè)組織,即基因表達(dá)的十六個(gè)樣本;表達(dá)量矩陣中的15749代表從20345個(gè)人類基因中篩選出來的基因。為了后續(xù)的計(jì)算,需要把導(dǎo)入的表達(dá)量矩陣作轉(zhuǎn)置:#將表達(dá)量矩陣轉(zhuǎn)置為16*15749矩陣datExpr0 = as.data.frame(t(fpkm, -c(1);names(datExpr0) = fpkm$tracking_id;rownames(datExpr0) = names(fpkm)-c(1);在轉(zhuǎn)置后的矩陣中,每一列為相應(yīng)基因在不同組織中的表達(dá)量。那么我們就得到了15749個(gè)基因的表達(dá)量列向量。

36、檢測數(shù)據(jù)中有過多缺失值和離群的樣本我們先檢測有過多缺失值的基因和樣本:gsg = goodSamplesGenes(datExpr0, verbose = 3);gsg$allOK如果最后一行代碼返回TURE,那么所有的基因都符合要求。如果返回FALSE,那么我們就從基因和樣本中移除違規(guī)基因:if (!gsg$allOK)#以下打印出被移除的基因和樣本名是可選的if (sum(!gsg$goodGenes)>0)printFlush(paste("Removing genes:", paste(names(datExpr0)!gsg$goodGenes, collap

37、se = ", ");if (sum(!gsg$goodSamples)>0)printFlush(paste("Removing samples:", paste(rownames(datExpr0)!gsg$goodSamples, collapse = ", ");#從數(shù)據(jù)中移除違規(guī)基因:datExpr0 = datExpr0gsg$goodSamples, gsg$goodGenes在該過程中,程序?qū)ξ业臄?shù)據(jù)返回了TRUE,那么就可以跳過以上移除違規(guī)基因的代碼,直接進(jìn)入下一步。接下來我們聚類樣本來看看是否有明顯的離群樣本

38、。我們使用提供快速進(jìn)行層次聚類的flashClust函數(shù)。#作樣本樹圖pdf(file = "Plots/fpkm-01.pdf", width = 12, height = 9);par(cex = 0.6);par(mar = c(0,4,2,0)plot(sampleTree, main = "Sample clustering to detect outliers", sub="", xlab="", cex.lab = 1.5,cex.axis = 1.5, cex.main = 2)圖 5 檢測離群樣本

39、的層次聚類該圖所顯示的樣本從左至右依次為:heart, breast, testes, BT474, MAQC UHR, MB435, lymph node, T47D, HME, MCF-7, adipose, colon, liver, brain, MAQC human cell lines, skeletal muscle。從圖中我們可以很明顯地找出一個(gè)離群樣本,即heart樣本,我們將其移除:如圖 5,通過選擇一個(gè)高度來移除樣本,我們選擇的是200000,并畫一條紅線。#在剪切位置畫一條紅色的線abline(h = 200000,col="red")dev.off

40、()#確定紅線之下樣本的聚類clust = cutreeStatic(sampleTree, cutHeight = 200000, minSize = 10)table(clust)#返回的結(jié)果為:#0 1#1 15#在clust 1 含有我們想要的聚類keepSamples = (clust=1)datExpr = datExpr0keepSamples, nGenes = ncol(datExpr)nSamples = nrow(datExpr)現(xiàn)在變量fpkm中包含的表達(dá)量數(shù)據(jù)可以用于網(wǎng)絡(luò)分析了。現(xiàn)在我們將變量fpkm儲(chǔ)存起來,就可以在下次想使用的時(shí)候可以之間載入并調(diào)用,不必再次計(jì)算。

41、save(datExpr,file="fpkm-01-dataInput.RData")2.4.2 網(wǎng)絡(luò)構(gòu)建與模塊檢測 初步:設(shè)置R會(huì)話在這一步開始的時(shí)候我們打開了一個(gè)新的R會(huì)話。接下來加載WGCNA包,設(shè)置基本的參數(shù)并加載上一步保存的數(shù)據(jù)。接下來的代碼會(huì)在擁有多核心的計(jì)算機(jī)上使用多線程計(jì)算。這種多線程計(jì)算在終端和R軟件原生的GUI(Graphical User Interface)上工作良好,但是目前在RStudio和其他的第三方R環(huán)境中不支持這種多線程計(jì)算。如果你在使用第三方R環(huán)境,請?jiān)谝韵麓a中不要調(diào)用enableWGCNAThreads()函數(shù)。#設(shè)置

42、工作目錄setwd("/home/huanglb");#查看工作目錄getwd();#加載WGCNA包library(WGCNA);#設(shè)置參數(shù),這個(gè)參數(shù)非常重要options(stringsAsFactors = FALSE);#允許WGCNA使用多線程計(jì)算。這在多核心計(jì)算機(jī)上會(huì)提高計(jì)算速度enableWGCNAThreads()#加載第一部分保存的數(shù)據(jù)lnames = load(file = "fpkm-01-dataInput.RData");#在變量lnames中包含加載的變量的名字lnames 選擇鄰接矩陣權(quán)重參數(shù):分析網(wǎng)絡(luò)拓?fù)錁?gòu)建

43、一個(gè)權(quán)重基因網(wǎng)絡(luò)需要選擇鄰接矩陣權(quán)重參數(shù),選擇一個(gè)合適的值可以使網(wǎng)絡(luò)更符合無尺度網(wǎng)絡(luò)。在下面的代碼中將使用pickSoftThreshold來分析網(wǎng)絡(luò)拓?fù)洳椭褂谜哌x擇合適的值。# 給出候選的值powers = c(c(1:10), seq(from = 12, to=20, by=2)# 調(diào)用網(wǎng)絡(luò)拓?fù)浞治龊瘮?shù)sft = pickSoftThreshold(datExpr, powerVector = powers, verbose = 5)# 對結(jié)果作圖pdf(file="Plots/fpkm-02-1.pdf",width=9,height=5)par(mfrow =

44、 c(1,2);cex1 = 0.8;plot(sft$fitIndices,1, -sign(sft$fitIndices,3)*sft$fitIndices,2,xlab="Soft Threshold (power)",ylab="Scale Free Topology Model Fit,signed R2",type="n",main = paste("Scale independence");text(sft$fitIndices,1, -sign(sft$fitIndices,3)*sft$fitIn

45、dices,2,labels=powers,cex=cex1,col="red");# 在圖中高度為0.8的位置畫線,這個(gè)值對應(yīng)的是相關(guān)系數(shù)的平方R2abline(h=0.8,col="red")plot(sft$fitIndices,1, sft$fitIndices,5,xlab="Soft Threshold (power)",ylab="Mean Connectivity", type="n",main = paste("Mean connectivity")text

46、(sft$fitIndices,1, sft$fitIndices,5, labels=powers, cex=cex1,col="red")dev.off()計(jì)算結(jié)果如圖 6所示,在左圖中,縱軸表示相關(guān)系數(shù)的平方,該值取值越高,網(wǎng)絡(luò)越接近無尺度分布。這里我們?nèi)≡撝禐?.8,即紅線所示位置。從圖中可以看出,當(dāng)power取6的時(shí)候即將接近0.8。在接下來的計(jì)算中,我們對,即代碼中對應(yīng)的power值取6。右圖的縱軸代表對應(yīng)的基因模塊中所有基因鄰接函數(shù)的均值,即平均連通性。圖 6 為值的選取分析網(wǎng)絡(luò)拓?fù)?網(wǎng)絡(luò)構(gòu)建和模塊檢測現(xiàn)在,我們只需要調(diào)用一個(gè)函數(shù)就能構(gòu)建基因網(wǎng)絡(luò)

47、和識(shí)別模塊:net = blockwiseModules(datExpr, power = 6,TOMType = "unsigned", minModuleSize = 30,reassignThreshold = 0, mergeCutHeight = 0.25,numericLabels = TRUE, pamRespectsDendro = FALSE,saveTOMs = TRUE,saveTOMFileBase = "fpkmTOM",verbose = 3)以上代碼的計(jì)算時(shí)間稍長。在計(jì)算結(jié)束之后,我們可以看看程序檢測出了多少個(gè)模塊:結(jié)果顯示

48、總共有25個(gè)模塊,編號為1-25,編號正下方對應(yīng)的數(shù)字是每個(gè)模塊中含有的基因數(shù)。其中1號模塊最大,有2025個(gè)基因,25號模塊最小,含有33個(gè)模塊。編號0中包含的是不屬于任何模塊的基因,有141個(gè)。接下來,我們對模塊作層次聚類樹狀圖,并用不同的顏色表示不同的模塊。# 將每個(gè)模塊編號對應(yīng)上一個(gè)模塊顏色以便作圖pdf(file="Plots/fpkm-02-2.pdf",width=12,height=9)mergedColors = labels2colors(net$colors)# 作層次圖并在下方顯示相應(yīng)顏色plotDendroAndColors(net$dendrog

49、rams1, mergedColorsnet$blockGenes1,"Module colors",dendroLabels = FALSE, hang = 0.03,addGuide = TRUE, guideHang = 0.05)dev.off()作圖結(jié)果如圖 7所示。圖 7 所有模塊的層次聚類圖接下來,將這次計(jì)算的得到的變量保存,以便下次使用。moduleLabels = net$colorsmoduleColors = labels2colors(net$colors)MEs = net$MEs;geneTree = net$dendrograms1;save(

50、net, MEs, moduleLabels, moduleColors, geneTree,net,file = "fpkm-02-networkConstruction-auto.RData")2.4.3 將基因網(wǎng)絡(luò)文件導(dǎo)出到CytoscapeCytoscape允許用戶導(dǎo)入節(jié)點(diǎn)文件和邊文件,并設(shè)置線條粗細(xì)和節(jié)點(diǎn)顏色。在WGCNA中,我們一次可以導(dǎo)出一個(gè)模塊的點(diǎn)和邊文件,也可以導(dǎo)出多個(gè)模塊的點(diǎn)和邊文件。在接下來的代碼中,我們將所有編號的點(diǎn)和邊文件導(dǎo)出到一個(gè)文件中。#載入第一部分保存的變量:表達(dá)量矩陣lnames = load(file = "fpkm-01-da

51、taInput.RData");#查看載入的變量名lnames#載入第一部分保存的變量:網(wǎng)絡(luò)數(shù)據(jù)lnames = load(file = "fpkm-02-networkConstruction-auto.RData");lnames#計(jì)算拓?fù)渲丿B。這個(gè)計(jì)算所需時(shí)間比較長TOM = TOMsimilarityFromExpr(datExpr, power = 6);#選擇模塊modules = c("black","blue","brown","cyan","darkgree

52、n","darkgrey","darkred","darkturquoise","green","greenyellow","grey","grey60","lightcyan","lightgreen","lightyellow" ,"magenta","midnightblue","orange","pink&qu

53、ot;,"purple","red","royalblue","salmon","tan","turquoise","yellow");#選擇模塊探測probes = names(datExpr)inModule = is.finite(match(moduleColors, modules);modProbes = probesinModule;#選擇對應(yīng)的拓?fù)渲丿BmodTOM = TOMinModule, inModule;dimnames(modTO

54、M) = list(modProbes, modProbes)# 導(dǎo)出能被Cytoscape讀入的點(diǎn)和邊文件cyt = exportNetworkToCytoscape(modTOM,edgeFile = paste("CytoscapeInput-edges-all-070-", paste(modules, collapse="-"), ".txt", sep=""),nodeFile = paste("CytoscapeInput-nodes-all-070-", paste(module

55、s, collapse="-"), ".txt", sep=""),weighted = TRUE,threshold = 0.70,nodeNames = modProbes,nodeAttr = moduleColorsinModule);#將本次計(jì)算的變量保存,以便下次直接使用save(TOM,file="fpkm-06-dataInput.RData")在以上代碼中,TOMsimilarityFromExpr函數(shù)計(jì)算需要較長的時(shí)間。需要注意的是,在生成點(diǎn)和邊文件的時(shí)候,我們選擇了拓?fù)渲丿B閾值為0.7,該值對

56、應(yīng)的是相關(guān)系數(shù)為0.94(0.7=0.94,其中的值在之前確定為6)左右的基因?qū)?。代碼執(zhí)行完成之后,將生成所有網(wǎng)絡(luò)的點(diǎn)和邊的txt文件。3.結(jié)果與討論3.1模塊個(gè)數(shù)及各模塊的網(wǎng)絡(luò)情況介紹使用在WGCNA導(dǎo)入和初步處理數(shù)據(jù)的時(shí)候,我們發(fā)現(xiàn)心臟數(shù)據(jù)明顯離群,如圖 9所示,作聚類分析可以看出它和其他十五個(gè)組織分屬兩類。我們在這一步把heart數(shù)據(jù)刪除了,所以后繼的所有計(jì)算都是由剩下的十五個(gè)人類組織完成的。在第二步網(wǎng)絡(luò)構(gòu)建和模塊檢測中,我們根據(jù)分析網(wǎng)絡(luò)拓?fù)鋪泶_定鄰接矩陣權(quán)重參數(shù)的值為6,據(jù)此將基因分成了25個(gè)模塊(如圖 8),編號為0的基因不屬于任何模塊。在圖中我們可以看出模塊的大小差異很大,最大的模

57、塊包含2025個(gè)基因,而最小的模塊含33個(gè)基因。在設(shè)置模塊參數(shù)時(shí),我們將模塊包含的最少基因數(shù)設(shè)置為30。圖 8 模塊檢測結(jié)果圖 9 通過聚類分析尋找離群樣本3.2根據(jù)基因網(wǎng)絡(luò)文件在Cytoscape中作網(wǎng)絡(luò)可視化3.2.1 三個(gè)模塊網(wǎng)絡(luò)圖的可視化在WGCNA作分層聚類時(shí),我們將基因分成25個(gè)模塊。這25個(gè)模塊中最大的含有兩千多個(gè)基因,最小的只有33個(gè)基因。理論上我們可以對25個(gè)模塊做全局網(wǎng)絡(luò)圖,用25種不同的顏色表示不同模塊中的基因。但是由于機(jī)器內(nèi)存有限(32G),無法將如此大的數(shù)據(jù)導(dǎo)入Cytoscape,我們采取了折衷的辦法,對23個(gè)模塊作網(wǎng)絡(luò)圖,如圖 10。圖 10 三個(gè)模塊的網(wǎng)絡(luò)圖(相關(guān)系數(shù)0.68)在該圖中,主要有兩個(gè)模塊,另外一個(gè)較小的模塊未能顯示出來。由于網(wǎng)絡(luò)過密集,我們無法獲得更多信息,所以接下來會(huì)單獨(dú)分析一個(gè)模塊3.2.2 單個(gè)模塊網(wǎng)絡(luò)圖的可視化我們對圖 10中左邊的網(wǎng)絡(luò)單獨(dú)拿出來實(shí)現(xiàn)了可視化,如圖 11所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論