基因功能富集分析的研究進(jìn)展_第1頁
基因功能富集分析的研究進(jìn)展_第2頁
基因功能富集分析的研究進(jìn)展_第3頁
基因功能富集分析的研究進(jìn)展_第4頁
基因功能富集分析的研究進(jìn)展_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基因功能富集分析的研究進(jìn)展隨著高通量測序技術(shù)的飛速發(fā)展及相關(guān)技術(shù)的廣泛應(yīng) 用, 生物醫(yī)學(xué)相關(guān)研究領(lǐng)域已進(jìn)入了大規(guī)模組學(xué)數(shù)據(jù)呈指數(shù) 增長的后基因組時代 1. 一方面 , 這使得生物醫(yī)學(xué)研究得以 從單個基因的分析轉(zhuǎn)變?yōu)橄到y(tǒng)水平上的研究 , 對于揭示生物 醫(yī)學(xué)的基本分子機(jī)制具有重要推動作用 . 但另一方面 , 如此 龐大的數(shù)據(jù)量也給信息的有效提取和分析帶來了巨大的挑 戰(zhàn) . 為了從龐雜的組學(xué)數(shù)據(jù)中發(fā)掘規(guī)律 , 研究者通常會對基 因功能進(jìn)行富集分析 , 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用 的生物通路 , 從而揭示和理解生物學(xué)過程的基本分子機(jī)制 . 現(xiàn)在 , 基因功能的富集分析已成為功能組學(xué)數(shù)據(jù)分析的常規(guī)

2、 手段 , 并隨著高通量組學(xué)數(shù)據(jù)的發(fā)展 , 如從基因芯片數(shù)據(jù)到 RNA-seq 數(shù)據(jù)的轉(zhuǎn)變 , 開發(fā)出了一系列相應(yīng)的分析方法 , 最 早開發(fā)的過代表分析 (over-representation analysis, ORA) 僅針 對一組基因 , 而高通量組學(xué)數(shù)據(jù)的發(fā)展使得功能集打分 (functional class scoring, FCS) 應(yīng)運(yùn)而生 , 隨著對于生物學(xué)通 路及復(fù)雜網(wǎng)絡(luò)的深入完善和了解 , 又相繼開發(fā)了基于通路拓 撲結(jié)構(gòu) (pathway topology, PT) 和基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu) (network topology, NT) 的方法 . 本文擬對現(xiàn)有的基因功能富集分

3、析方 法進(jìn)行簡要的總結(jié)評述 , 以方便研究者了解相關(guān)領(lǐng)域 , 并選 擇適合的研究工具 .1 基因功能富集分析的基因功能數(shù)據(jù)庫和數(shù)據(jù)類型 基因功能富集分析中的基因功能指的是眾多代表一定的基 因功能特征和生物過程的基因功能集 (gene set)2. 由這些基 因功能集構(gòu)成的常用基因功能數(shù)據(jù)庫有 GO3, 生物學(xué)通路 包含生化反應(yīng)、代謝或信號通路的 KEGG4,5, Reactome6, Biocarta7 等 , 整合數(shù)據(jù)庫 , 如 MsigDB8 等.在功能組學(xué)研 究中 , 研究者通常會獲得一組他們感興趣的基因 , 如在疾病 和正常組織中有顯著差異表達(dá)的基因 , 在藥物或外界環(huán)境刺 激下特定組

4、織中表達(dá)水平有顯著異常的應(yīng)激基因等 . 要揭示 其中隱含的生物學(xué)分子機(jī)制 , 研究者可針對這組感興趣的基 因, 進(jìn)行基因功能的富集分析 , 發(fā)現(xiàn)在其中有顯著富集的特 定生物學(xué)通路 , 從而從分子機(jī)制上來解釋所觀察到的生物學(xué) 現(xiàn)象 . 除此以外 , 高通量組學(xué)技術(shù) , 如基因表達(dá)芯片 (microarray) 或 RNA-seq, 可獲得基因組中所有基因的表達(dá)水 平. 為充分利用獲得的高通量數(shù)據(jù) , 研究者也可以直接針對 全基因組基因表達(dá)譜信息來進(jìn)行富集分析 , 從中鑒定出案例 和對照狀態(tài)下在研究對象中發(fā)生顯著表達(dá)差異的生物通路 , 從而揭示其中的生物學(xué)分子機(jī)制 . 針對這些不同的數(shù)據(jù)需要 開發(fā)

5、不同的功能富集分析方法 . 例如 , 對于基因表達(dá)芯片和 RNA-seq, 在富集分析過程中原始數(shù)據(jù)的處理方式是不同的 其中 , 基因芯片記錄的是連續(xù)的熒光信號強(qiáng)度值 , 而RNA-seq 記錄的是 RNA 序列的讀段個數(shù) 9, 需要采用不同的統(tǒng)計(jì)模型進(jìn)行分析 . 即使對同一類型數(shù)據(jù) , 基于不同的假 說和統(tǒng)計(jì)方法 , 研究者也開發(fā)出了不同的富集分析算法和模 型. 現(xiàn)在已有上百種富集分析的方法和工具, 一方面極大地促進(jìn)了研究者的科研工作進(jìn)展 , 另一方面也給研究者在選擇 合適的研究工具時帶來一些困擾 . 以下將針對現(xiàn)有方法進(jìn)行 分類綜述 , 具體方法及工具詳見表 1.2 基因功能富集分析方法基

6、于算法的分類 基因功能富集分析的方法基于數(shù)據(jù)來源和算法大致可以分 為 4 大類 : ORA, FCS, PT, NT 的方法 ( 圖 1). 下文將對每類算 法分別介紹 .2.1 過代表分析 (ORA) 方法(1) 算法原理 . 作為最早出現(xiàn)的一類基因功能富集方法 , ORA 針對的數(shù)據(jù)是一組感興趣的基因(基因列表 ), 其目的是在這組基因中發(fā)現(xiàn)有明顯統(tǒng)計(jì)學(xué)上富集的基因功能集. 其基本步驟包括先將給定的基因列表與待測功能集做交集, 找出其中共同的基因并進(jìn)行計(jì)數(shù) (統(tǒng)計(jì)值 ), 最后利用統(tǒng)計(jì)檢驗(yàn)的 方式來評估觀察的計(jì)數(shù)值是否顯著高于隨機(jī) , 即待測功能集 在基因列表中是否顯著富集 . 常見的統(tǒng)計(jì)

7、學(xué)方法有卡方檢驗(yàn) Fisher 精確檢驗(yàn)和二項(xiàng)分布檢驗(yàn) 45, 而其中最為廣泛使用 的是Fisher精確檢驗(yàn),即利用2X 2的列聯(lián)表,根據(jù)超幾何分 布來檢驗(yàn)基因列表中的基因在待測功能集中是否顯著富 集.(2) 常用方法和工具 . 目前有許多工具及數(shù)據(jù)庫提供 ORA的使用 , 包括 DAVID, GOstat, Gen- MAPP 等 . 其中 DAVID 提供的基因功能集數(shù)據(jù)庫最為全面 , 不僅包含大量不同物種 的基因功能注釋信息 , 也涵蓋了主流的生物通路注釋庫如 GO 條目和 KEGG 通路 , 而且還提供了基因名稱轉(zhuǎn)換功能 , 及良好的結(jié)果展示界面 . 因而 , DAVID 已成為目前應(yīng)

8、用最廣 泛的 ORA 分析工具 .(3) 優(yōu)缺點(diǎn) . ORA 方法基于完備的統(tǒng)計(jì) 學(xué)理論 , 具有結(jié)果穩(wěn)健、可靠的優(yōu)點(diǎn) . 但目前常用的基于統(tǒng) 計(jì)檢驗(yàn)的ORA方法也有一定的局限性,包括:(i )在對基因 進(jìn)行計(jì)數(shù)時 , 丟失了基因的表達(dá)水平或表達(dá)差異值等基因?qū)?性信息;(ii )把通路中的所有基因進(jìn)行同等對待,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用;(iii)在獲得感興趣的基因時, 往往需要選取合適的閾值 , 而這樣有可能會丟失顯著性較低 但比較關(guān)鍵的基因 , 導(dǎo)致檢測靈敏性的降低 . 為此 , 人們需 要開發(fā)新的富集分析方法來解決這些局限性 .

9、2.2功能集打分(FCS)方法(1) 算法原理 . 相比于針對一組感興趣的基因通過計(jì)數(shù)來進(jìn) 行富集分析的 ORA 方法 , 第二代功能富集分析方法 FCS 的 輸入數(shù)據(jù)不僅是全基因組基因 , 并且還考慮到每個基因的表 達(dá)水平或表達(dá)差異值等基因?qū)傩孕畔?. 此外, ORA 的檢驗(yàn)對 象是感興趣的基因列表與待測基因功能集的共同基因 , 而 FCS的檢驗(yàn)對象則是待測基因功能集中的所有基因.FCS方 法的基本步驟包括 : 首先根據(jù)案例和對照狀態(tài)下的基因表達(dá) 譜對基因組中所有基因表達(dá)水平的差異值進(jìn)行打分或排序 , 或直接輸入排序好的基因表達(dá)譜 ; 其次是把待測基因功能集 中的每個基因的分?jǐn)?shù)通過特定的統(tǒng)計(jì)

10、模型轉(zhuǎn)換為待測基因 功能集的分?jǐn)?shù)或統(tǒng)計(jì)值 ; 最后利用隨機(jī)抽樣獲得的待測基因 功能集統(tǒng)計(jì)值的背景分布來檢驗(yàn)實(shí)際觀測的統(tǒng)計(jì)值的顯著 水平 , 并判斷待測基因功能集在案例和對照實(shí)驗(yàn)狀態(tài)下是否 發(fā)生了統(tǒng)計(jì)上的顯著變化 .(2) 常用方法和工具 . GSEA 是常 用的一種FCS方法.其基本思路是首先基于表達(dá)差異值對全 基因組基因進(jìn)行排序得到基因列表 , 然后檢驗(yàn)待測基因功能 集中的基因相對于隨機(jī)情況而言 , 是否顯著地位于基因列表 的頂端或底端 , 即待測基因集的表達(dá)水平在案例和對照實(shí)驗(yàn) 狀態(tài)下是否發(fā)生了明顯的變化 . 具體而言 , GSEA 首先計(jì)算 了每個基因的表達(dá)水平與案例和對照兩種狀態(tài)下的關(guān)

11、聯(lián)系 數(shù), 并對關(guān)聯(lián)系數(shù)從高到低進(jìn)行了排序 ; 然后 , 針對一特定 的待測基因功能集 , 根據(jù)其中每個基因的排序情況 , 利用加 權(quán)的近似 KS 檢驗(yàn) , 獲得待測基因功能集在排序列表中的 KS 檢驗(yàn)值也即待測基因功能集的統(tǒng)計(jì)值 ; 為檢驗(yàn)觀察統(tǒng)計(jì)值 的顯著性 , GSEA 通過對樣本的隨機(jī)排列來獲得統(tǒng)計(jì)值的背 景分布 , 并利用該分布來評估觀察統(tǒng)計(jì)值的 P 值. 除對樣本 的隨機(jī)排列外 , 在樣本量較少的情況下 , GSEA 也可用對基 因的隨機(jī)排列來估算待測基因功能集的顯著水平 .在 FCS 方 法中 , 不同方法采用了不同的統(tǒng)計(jì)模型來計(jì)算待測基因功能 集的統(tǒng)計(jì)值 . 如 GSEA 使用

12、了加權(quán)的近似 KS 檢驗(yàn), GSA 利用 基因的表達(dá)差異的 t 值的絕對值來計(jì)算待測基因功能集的統(tǒng) 計(jì)值, PADOG 采用基因的 t 值加權(quán)平均值 , SAFE 利用了 Wilcoxon rank sum 統(tǒng)計(jì)檢驗(yàn)方法 , 而 Global Test 則采用了經(jīng) 驗(yàn)貝葉斯廣義線性模型 . 另外 , 在獲得待測基因功能集統(tǒng)計(jì) 值的背景分布時 , 不同的 FCS 方法采用了兩種主要模式來定 義背景 , 一類是競爭型 (competitive) 模式 , 即將待測基因功能 集外部的基因當(dāng)作背景 , 而另一類是自足型 (self-contained) 模式 , 即將待測基因功能集本身當(dāng)作背景 . 總

13、體來說 , 自足 型模式的檢驗(yàn)功效要好于競爭型 46, 但少部分基因的顯著 性如果特別高的話也會造成自足型模式一定程度的過度預(yù) 測. 無論是競爭型或自足型模式的 FCS 方法 , 在通過隨機(jī)抽 樣獲得背景分布時 , 既可以對基因進(jìn)行隨機(jī)排列 (permutation) 即基因抽樣 (gene sampling), 也可以對樣本進(jìn)行隨機(jī)排列 , 即樣本抽樣 (subject sampling). 基因隨機(jī)排列把每個基因獨(dú) 立對待 , 而實(shí)際上基因之間有復(fù)雜的相互關(guān)系 , 導(dǎo)致基因抽 樣的結(jié)果與實(shí)際的背景分布可能有一定的偏差 . 而樣本抽樣 可以保留基因間的相互關(guān)系 , 因而抽樣結(jié)果要更穩(wěn)健一些

14、. 因而 , 在樣本量大的情況下 , 常用樣本抽樣 ; 而在樣本量比 較少的情況下 , 則會利用基因抽樣 . 一般來說 , 競爭型的模 式通常采用基因抽樣的方法 , 如 Sigpathway-Q1, GAGE 等,而自足型檢驗(yàn)通常采用表型抽樣的方法 47, 如 GSEA,Sigpa- thway-Q2, GSVA等.FCS方法通常是把所有樣本分為 案例和對照兩種狀態(tài) , 然后來計(jì)算每個基因在兩種狀態(tài)下的 表達(dá)差異值 . 在這樣的處理方式中 , 單個樣本中的基因表達(dá) 信息沒有被充分考慮 . 例如 , 待測基因功能集的基因有可能 在一個樣本中都有顯著變化 , 而如果放在兩種狀態(tài)下進(jìn)行處 理的話 ,

15、 這種在單樣本下的基因協(xié)同變化可能就無法觀察到 了. 為此 , FCS 方法中還有一類基于單樣本 (single-sample, SS) 的分析方法 48, 首先利用基因表達(dá)水平針對每個樣本中的 基因進(jìn)行打分 , 再利用常見的統(tǒng)計(jì)檢驗(yàn)方法把樣本層面的基 因分?jǐn)?shù)同表型聯(lián)系起來 . 這類方法包括 PLAGE, ZSCORE 及 SSGSEA 等. 該方法的一大優(yōu)點(diǎn)是可以通過調(diào)整相關(guān)協(xié)變量 , 相對簡單地分析一些非常復(fù)雜的 , 如包含時間進(jìn)度的多樣本 設(shè)計(jì)49.傳統(tǒng)的FCS方法主要針對基因表達(dá)芯片進(jìn)行分析,而隨著高通量測序技術(shù)的發(fā)展 , 已經(jīng)開發(fā)出一些方法直接利 用 RNA-seq 原始數(shù)據(jù)找到差異

16、表達(dá)基因并進(jìn)行功能富集 , 通 常使用泊松分布 (poisson distri- bution) 或負(fù)二項(xiàng)分布 (negative binomial) 找到差異表達(dá)基因 , 常用方法有 edgeR50, DESeq51等;另一類方法則對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換后再沿用 已有的基因表達(dá)芯片功能富集分析方法進(jìn)行后續(xù)分析 , 常用 方法有VOOM52等.(3)優(yōu)缺點(diǎn).總體而言,F(xiàn)CS相較于 ORA 方法在理論上有明顯突破 , 考慮到了基因表達(dá)值的屬 性信息 , 而且以待測基因功能集為對象來進(jìn)行檢驗(yàn) , 也使得 檢驗(yàn)結(jié)果更加靈敏 . 但 FCS 方法仍然把待測基因功能集中的 每個基因作為獨(dú)立的個體 , 忽略了

17、基因的生物學(xué)屬性和基因 間的復(fù)雜相互作用關(guān)系 .2.3 基于通路拓?fù)浣Y(jié)構(gòu) (PT) 的方法(1)算法原理.ORA和FCS方法在進(jìn)行通路的富集分析時, 都將通路中的每個基因視作獨(dú)立個體 , 而實(shí)際上通路內(nèi)的基 因需要通過調(diào)控、被調(diào)控、相互作用等復(fù)雜的關(guān)系一起來影 響細(xì)胞的發(fā)育、分化或疾病等生物學(xué)過程 . 因而 , 在進(jìn)行通 路的富集分析時 , 尤其是基因表達(dá)的通路富集分析時 , 有必 要考慮到通路中基因的生物學(xué)屬性 . 例如 , 在一個調(diào)控通路 中, 上游基因的表達(dá)水平改變顯然要遠(yuǎn)大于下游基因的表達(dá) 水平改變對整個通路的影響 . 基于通路拓?fù)浣Y(jié)構(gòu)的 PT 富集 分析方法就是把基因在通路中的位置

18、(上下游關(guān)系 ), 與其他 基因的連接度和調(diào)控作用類型等信息綜合在一起來評估每 個基因?qū)ν返呢暙I(xiàn)并給予相應(yīng)的權(quán)重 , 然后再把基因的權(quán) 重整合入功能富集分析 . 不同的 PT 方法在具體的權(quán)重打分 時, 采用了不同的方式 . 以下分別舉例進(jìn)行說明 .(2) 常用方 法和工具 . Pathway-Express 是首個引入通路拓?fù)浣Y(jié)構(gòu)的 PT 方法 . 該方法引入了影響因子 (impact factor, IF) 這一概念來 表征一特定通路對觀察生物學(xué)現(xiàn)象的重要性. IF 整合了通路中顯著差異表達(dá)基因數(shù)目和通路的拓?fù)浣Y(jié)構(gòu), 被作為通路的 最終統(tǒng)計(jì)量 . IF 中的網(wǎng)絡(luò)拓?fù)涮卣鞑糠钟赏分忻總€基

19、因的 擾動因子 (perturbation factor, PF) 計(jì)算得到 . 一個基因的 PF 值 包含了其自身和其上游基因的表達(dá)量信息 . 由于通路的拓?fù)?結(jié)構(gòu)存在上下游關(guān)系 , 所以上游通路中基因的差異性表達(dá)會 隨信號通路進(jìn)行傳遞 , 從而對整個通路的 IF 值產(chǎn)生較下游基 因更為顯著的影響 . 最后 , 在評估 IF 值的顯著性時 , 該方法 采用了 g 分布模型 . Pathway-Express 的開發(fā)對后續(xù)研究工作 有較大影響 . 如 SPIA 在 Pathway-Express 的 IF 概念的基礎(chǔ)上 , 在計(jì)算 PF 值時進(jìn)一步引入了通路中每個調(diào)控關(guān)系的調(diào)控強(qiáng) 度這一概念

20、, 試圖更加真實(shí)地反映了通路模型所包含的全部 生物學(xué)信息 . 除了上游基因表達(dá)量 , 連接度 (一個點(diǎn)與其他點(diǎn) 直接相連的所有邊的個數(shù) )、節(jié)點(diǎn)介數(shù) (所有最短路徑中經(jīng)過 一個節(jié)點(diǎn)的路徑的次數(shù) )等向心性參數(shù)也被引入作為表征通 路的拓?fù)鋵W(xué)特征 . 如 TopoGSA 在比較通路間區(qū)別時 , 引入了 通路的向心性參數(shù) ; CePa 引入了多種向心性參數(shù)并進(jìn)行加權(quán) 平均來計(jì)算通路的 IF 值 . 現(xiàn)在已有一些基于 PT 算法的工具 包,女口 ToPASeq整合了包括 SPIA方法在內(nèi)的7種PT方法, 實(shí)現(xiàn)了 R語言工具包,可用來分析芯片數(shù)據(jù)及 RNA-seq數(shù)據(jù), 并能提供可視化展示結(jié)果 .(3)

21、 優(yōu)缺點(diǎn) .總體來說 , 對于研究較 完善、拓?fù)浣Y(jié)構(gòu)完整的通路,基于PT的基因功能富集算法會 有更強(qiáng)的顯著性 ; 由于原理上對于通路拓?fù)浣Y(jié)構(gòu)存在依賴性 該類方法對于研究較少、信息不完善的通路穩(wěn)健性較差 , 因 此目前通路注釋的不完善也是限制基于 PT 的基因功能富集 分析方法進(jìn)一步發(fā)展的重要因素 .2.4 基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu) (NT) 的方法(1) 算法原理 .PT 方法利用了通路的拓?fù)浣Y(jié)構(gòu)來把基因的生 物學(xué)屬性整合入功能的富集分析 . 但目前在基因功能注釋數(shù) 據(jù)庫中僅有 KEGG 提供了通路的拓?fù)浣Y(jié)構(gòu) , 而最常用的 GO 等注釋數(shù)據(jù)庫中基因功能集中不包含任何拓?fù)浣Y(jié)構(gòu)信息 , 僅 提供了可能屬

22、于同一通路的所有基因列表 . 因而, PT 方法不 能被用于 GO 通路的富集分析 . 目前 , 已有一些基于生物網(wǎng) 絡(luò)拓?fù)浣Y(jié)構(gòu)的富集分析方法 , 它們利用數(shù)據(jù)庫中的基因相互 作用關(guān)系來間接地把基因的生物學(xué)屬性整合入功能的富集 分析 . 這些方法的主要思路是利用現(xiàn)有的全基因組范圍的生 物網(wǎng)絡(luò) , 如 HPRD53, FunCoup54, STRING55 等 , 來提取 基因間的相互作用關(guān)系 , 包括基因的連接度及基因在網(wǎng)絡(luò)中 的距離等 , 來計(jì)算一給定的基因列表與一待測的基因功能數(shù) 據(jù)集在網(wǎng)絡(luò)中的連接關(guān)系 , 從而來推測待測基因功能集是否 與給定基因列表緊密相關(guān) , 如 NEA, Enric

23、hNet 等 . 另一些方 法是利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來計(jì)算基因?qū)μ囟ㄉ锿返闹匾?性并給予相應(yīng)的權(quán)重 , 然后再利用傳統(tǒng)的 ORA 或 FCS 方法 來評估特定生物通路的富集程度 , 如 GANPA 和 LEGO 等 . 還有一些方法是直接把基因列表中的功能富集問題利用網(wǎng) 絡(luò)轉(zhuǎn)化為基因?qū)Φ墓δ芨患瘑栴} , 如 NOA 等 . 以下分別舉例 進(jìn)行說明 .(2) 常用方法和工具 . NEA 和 EnrichNet 是兩個基于 網(wǎng)絡(luò)距離的富集分析方法 . 它們的主要思路都是去檢驗(yàn)一個 給定基因列表在網(wǎng)絡(luò)中與待檢測的生物通路的基因功能集 相對于隨機(jī)是否具有顯著短的網(wǎng)絡(luò)距離 . 這兩個方法的區(qū)別 是 NE

24、A 直接計(jì)算了給定基因列表與待檢測基因功能集在網(wǎng) 絡(luò)中的平均連接度 , 并通過對網(wǎng)絡(luò)進(jìn)行隨機(jī)重調(diào)的方式 , 來 評估該統(tǒng)計(jì)量的顯著程度 ; 而 EnrichNet 采用重啟型隨機(jī)游 走 (random walk with restart, RWR) 的算法來計(jì)算給定基因列 表與待檢測基因功能集在網(wǎng)絡(luò)中的距離 . 然后利用隨機(jī)網(wǎng)絡(luò) 與背景統(tǒng)計(jì)值進(jìn)行比較來評估統(tǒng)計(jì)顯著水平 . 但由于網(wǎng)絡(luò)的 復(fù)雜性及對網(wǎng)絡(luò)進(jìn)行隨機(jī)重調(diào)的計(jì)算效率問題 , 這兩個方法 在實(shí)際應(yīng)用過程中具有計(jì)算效率低的缺點(diǎn) , 而且實(shí)際測試中 還發(fā)現(xiàn)由于對網(wǎng)絡(luò)結(jié)構(gòu)過大的依賴所造成的假陽性率高的 系統(tǒng)偏差 .GANPA 利用了網(wǎng)絡(luò)的拓?fù)浣Y(jié)

25、構(gòu)來對通路內(nèi)的基因 賦予不同的權(quán)重 , 用以表征該基因?qū)ν分匾缘牟煌?. 其 基本假設(shè)是如果一個通路內(nèi)的基因在網(wǎng)絡(luò)中大部分情況下 僅與通路內(nèi)部基因相連的話 , 則該基因?qū)ν返闹匾砸?于通路內(nèi)部那些不僅和通路內(nèi)的基因連接也和通路外部的 基因連接的基因 . 具體而言 , GANPA 利用了超幾何分布估計(jì) 了一個基因在網(wǎng)絡(luò)中與通路內(nèi)部基因的連接度 , 進(jìn)而計(jì)算實(shí) 際觀察的該基因與通路內(nèi)部基因的連接度與估計(jì)的連接度 的差值 , 用該差值來表示該基因?qū)ν返闹匾?, 并作為該 基因的權(quán)重 . GANPA 把該基因的權(quán)重與基因表達(dá)的差異值 相乘 , 然后利用傳統(tǒng)的 FCS 方法來評估一特定待測

26、基因功能 集的表達(dá)量變化的顯著水平 . GANPA 所用的網(wǎng)絡(luò)是基于蛋 白質(zhì)互作網(wǎng)絡(luò)、 GO 的生物學(xué)過程 (biological process, BP) 注釋 和大規(guī)模基因表達(dá)芯片所構(gòu)成的復(fù)雜的基因功能關(guān)聯(lián)網(wǎng)絡(luò) . 之后,GOGANPA利用了 GO注釋構(gòu)建了新的功能網(wǎng)絡(luò),并可 提供跨物種通用的功能富集分析 . GANPA 和 GOGANPA 都 是針對全基因組基因表達(dá)譜的 FCS方法.在這兩個方法的基 礎(chǔ)上開發(fā)的 LEGO 專門針對基因列表的 ORA 分析. 與 GANPA 類似 , LEGO 利用了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)來給通路內(nèi)部的 基因賦予權(quán)重 , 但與 GANPA 不同的是 , LEGO

27、還考慮了在網(wǎng) 絡(luò)中與通路緊密相關(guān)的鄰居基因 , 并也給它們賦予一定的權(quán) 重. 在給定一基因列表后和一待測通路后 , LEGO 把基因列 表中的基因的通路特異性權(quán)重進(jìn)行加權(quán)平均獲得該通路的 統(tǒng)計(jì)值 ; 之后 , LEGO 通過基因隨機(jī)排列的方法來獲得該統(tǒng) 計(jì)值的背景分布和對應(yīng)的顯著水平 .和以上方法不同 , NOA 利用網(wǎng)絡(luò)把一個基因列表的 ORA 分析轉(zhuǎn)化為基因?qū)Φ?ORA 分析. NOA 首先找到所有在網(wǎng)絡(luò)中有連接的基因列表中的基 因?qū)? 并要求這些基因?qū)?yīng)具有同樣的功能 ; 然后, NOA 設(shè) 計(jì)了一個完全網(wǎng)絡(luò)作為背景網(wǎng)絡(luò) , 利用卡方檢驗(yàn)來檢測這些 特定功能的基因?qū)κ欠耧@著高于隨機(jī) .(

28、3) 優(yōu)缺點(diǎn).總體而言 , 與傳統(tǒng)方法相比 , 基于網(wǎng)絡(luò)的基因功能富集分析方法加入了 系統(tǒng)層面的基因重要性程度及關(guān)聯(lián)信息 , 使得預(yù)測結(jié)果更加 準(zhǔn)確可靠 . 但是 , 更多信息的加入也容易導(dǎo)致算法過于復(fù)雜 , 計(jì)算速度較慢 .3 基因功能富集分析的冗余性問題 目前幾乎所有的功能富集方法都是對待測基因功能集進(jìn)行 獨(dú)立檢驗(yàn) , 而現(xiàn)有的基因功能注釋數(shù)據(jù)庫中的基因功能集都 存在一定的冗余現(xiàn)象 , 也即基因功能集之間存在較多的共同 基因 , 因而也會導(dǎo)致富集的基因功能集之間出現(xiàn)冗余現(xiàn)象 . 以 GO 數(shù)據(jù)庫為例 , 由于 GO 數(shù)據(jù)結(jié)構(gòu)中的 GO 條目存在父 子關(guān)系,有些GO條目間的共同基因比較多,使

29、得GO富集結(jié) 果的冗余現(xiàn)象尤為明顯 56. 富集結(jié)果的冗余現(xiàn)象對結(jié)果的 解讀造成一定的困擾 , 難以準(zhǔn)確揭示生物學(xué)機(jī)制 . 針對這一 問題 , 現(xiàn)在已有一些初步的解決方案 . 一種是在富集分析時 , 不把基因功能集進(jìn)行獨(dú)立檢驗(yàn) , 而是把所有基因功能集作為 一個整體來進(jìn)行富集分析 . 如 MGSA57 將所有的待測基因 功能集作為一個整體代入貝葉斯網(wǎng)絡(luò)進(jìn)行富集分析 ; 由于貝 葉斯網(wǎng)絡(luò)建模時已經(jīng)將基因功能集的重疊情況考慮在內(nèi) , MGSA 可以避免對每個基因功能集進(jìn)行獨(dú)立富集分析時產(chǎn) 生的冗余性問題 . 然而 , 在實(shí)際應(yīng)用時 , 該方法由于其較高 的復(fù)雜程度導(dǎo)致較低的計(jì)算效率 , 而檢驗(yàn)的靈

30、敏度較低 , 因 而應(yīng)用不廣 . 另一類解決冗余性的方法是對獲得的富集基因 功能集進(jìn)行聚類和過濾 . 如 REVIGO 依賴語義相似度采用聚類算法從富集結(jié)果中眾多 GO 條目里面找到最具代表性的子 條目輸出 . LEGO 也提供了一種依賴于網(wǎng)絡(luò)的對基因功能集 的聚類 -過濾 (cluster and filter) 方法 , 首先把基因功能集按照 互相之間共同基因的重疊程度構(gòu)建一個網(wǎng)絡(luò) , 再利用網(wǎng)絡(luò)模 塊劃分的方法得到一系列基因功能集模塊 , 使得每個模塊內(nèi) 部的功能集具有較高的相似度 . 這樣 , 在獲得富集的基因功 能集后, LEGO 把這些結(jié)果按照之前的聚類結(jié)果進(jìn)行分類 , 再選取其中

31、最顯著的基因功能集作為該模塊的標(biāo)志基因功 能集 . 還有一種解決冗余性的方法就是對基因功能集進(jìn)行過 濾, 降低功能集之間的相似度. 如 GO 數(shù)據(jù)庫針對特定物種提供了過濾后的 GO 條目數(shù)據(jù)庫 GO slims, 綜合多個相似 的 GO 條目從而得到少量的 GO 條目 .4 標(biāo)準(zhǔn)數(shù)據(jù)集和方法評估 目前研究者已開發(fā)了相當(dāng)多的功能富集分析算法和工具 . 面 對如此多的方法 , 使用者往往無從下手 . 因而 , 有必要建立 一套合適的評價(jià)標(biāo)準(zhǔn)來對富集分析方法進(jìn)行綜合客觀的評 估 , 從而有針對性地選擇合適的方法.一個理想的功能富集分析方法應(yīng)該能夠靈敏地檢測到靶通路(P 值低 )并且靶通路的排名 (r

32、ank) 比較靠前 , 此外應(yīng)該控制好假陽性率 (false positive rate). 為此 , 用于評估功能富集分析方法的標(biāo)準(zhǔn)數(shù)據(jù) 集(benchmark datasets)應(yīng)具有以下性質(zhì):每個數(shù)據(jù)集應(yīng)有注 釋的靶通路 (金標(biāo)準(zhǔn) ); 標(biāo)準(zhǔn)數(shù)據(jù)集中包含的數(shù)據(jù)集應(yīng)具有多 樣性和大樣本的特征 : 多樣性意味著每個數(shù)據(jù)集的靶通路之 間的相關(guān)性較低 , 大樣本則要求具有一定量的數(shù)據(jù)集 . 對于 一個方法來說 , 靈敏度與精確度不可兼得 , 同時較高的靈敏 度也會導(dǎo)致較高的假陽性問題 . 因此在建立好標(biāo)準(zhǔn)數(shù)據(jù)集后 研究者可以對不同的富集分析方法從靈敏度、精確度及特異 度多個方面進(jìn)行客觀的比較.為

33、此,Tarca等人整合了 42個基 因表達(dá)數(shù)據(jù)集來建立了一套標(biāo)準(zhǔn)數(shù)據(jù)集 , 其中每個數(shù)據(jù)集都 有對應(yīng)的一條已知來自于 KEGG 或 Metacore 疾病數(shù)據(jù)庫的 靶通路 . 利用該數(shù)據(jù)集 , Tarca 等人對 16 種 FCS 方法進(jìn)行了 比較,從靶通路在所有KEGG通路中P值的大小、排名以及 假陽性率3個方面對這些方法進(jìn)行了評估 .Bayerlov a等人 58, Dong 等人也利用了該標(biāo)準(zhǔn)數(shù)據(jù)集中靶通路為 KEGG 通 路的 36 個基因表達(dá)數(shù)據(jù)集對 ORA, FCS, PT 及 NT 方法進(jìn)行 了系統(tǒng)的比較 . 由于 ORA 方法計(jì)算簡便 , 耗時少 , 并且僅需 要輸入一組基因 , 因此應(yīng)用范圍最廣 , 比較適合研究人員簡 單初步地分析結(jié)果 . FCS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論