下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
代謝組學(xué)研究中數(shù)據(jù)處理方法的探討
代謝組是通過(guò)代謝分析的一般方法研究功能蛋白如何產(chǎn)生能量并處理體內(nèi)物質(zhì)的結(jié)果。代謝物質(zhì)直接反映了生物化學(xué)中的功能。換句話說(shuō),代謝組是評(píng)價(jià)細(xì)胞和水體內(nèi)源性和外源性代謝濃度與功能關(guān)系的學(xué)科。代謝物組學(xué)的出現(xiàn),特別在藥物安全性研究中的應(yīng)用,認(rèn)為該新興的學(xué)科分支會(huì)對(duì)藥物安全性研究產(chǎn)生革命性的影響。它與藥物的藥效和毒性篩選和評(píng)價(jià)研究、作用機(jī)制研究和合理治療用藥密切相關(guān)。代謝物組是反應(yīng)機(jī)體狀況的分子集合,所有對(duì)機(jī)體健康影響的因素均可反映在代謝物組中,基因、環(huán)境、營(yíng)養(yǎng)、藥物(外源物)和時(shí)間(年齡)最終通過(guò)代謝物組對(duì)表達(dá)施加影響。代謝物組是評(píng)價(jià)健康和治療的合適的分子集合。因此研究代謝物組學(xué)對(duì)藥物治療有直接意義。代謝組學(xué)是定量分析生物系統(tǒng)對(duì)機(jī)體反應(yīng)或基因改變所產(chǎn)生的動(dòng)態(tài)的、多參數(shù)應(yīng)答的一項(xiàng)新發(fā)展的技術(shù)。它可有效地應(yīng)用于生物系統(tǒng)的機(jī)制研究及生物系統(tǒng)的生產(chǎn)優(yōu)化研究中,代謝組學(xué)與代謝工程方法的聯(lián)合在生物工程中的應(yīng)用已顯示出巨大的潛力。代謝組學(xué)通常以核磁共振光譜(NMR)或液質(zhì)聯(lián)用(HPLC/MZ或GC/MZ)為測(cè)量手段,獲得的數(shù)據(jù)(核磁共振圖譜、色譜圖或質(zhì)譜圖)具有多元性和復(fù)雜性,很難直接分析,需要采用模式識(shí)別(PR)的方法進(jìn)行聚類分析和生物標(biāo)志物(biomarker)的識(shí)別。在代謝組學(xué)數(shù)據(jù)處理中,主成分分析法(PCA)是一種最常用的無(wú)導(dǎo)師模式識(shí)別方法,但在用PCA進(jìn)行數(shù)據(jù)分析時(shí)通常存在以下問(wèn)題。(1)代謝組學(xué)數(shù)據(jù)分析普遍采用的經(jīng)典PCA方法對(duì)離群樣本點(diǎn)比較敏感,離群樣本點(diǎn)的存在會(huì)嚴(yán)重影響聚類結(jié)果和生物標(biāo)志物的尋找結(jié)果,然而在代謝組學(xué)獲得的數(shù)據(jù)中,由于實(shí)驗(yàn)的操作因素或樣本本身的原因,經(jīng)常會(huì)有離群樣本點(diǎn)存在的現(xiàn)象。(2)一些代謝組分在正常的生理?xiàng)l件下或不同的個(gè)體之間有較大的差異,這些非保守性的代謝組分會(huì)造成同一類樣本在PCA的得分圖上距離較遠(yuǎn),并且使不同類之間有相互的交叉,難以達(dá)到正確的分類,而且這些組分很有可能作為假陽(yáng)性的生物標(biāo)志物出現(xiàn)在PCA分析投影圖中,使真正的生物標(biāo)志物在投影圖中不易被找出。(3)代謝組學(xué)的目的是研究機(jī)體所有的代謝物,而不同代謝物可能有較明顯的尺度差異,若獲得的數(shù)據(jù)不消除尺度差異直接用PCA的方法進(jìn)行分析,主成分的選擇會(huì)受到濃度較大組分的影響,因此聚類分析結(jié)果和生物標(biāo)志物的尋找結(jié)果主要是濃度較大的組分決定的,一些濃度小的代謝組分的影響通常體現(xiàn)不出來(lái),而這些小濃度組分往往有很重要的生物學(xué)意義。以上所述問(wèn)題目前在代謝組學(xué)相關(guān)的文獻(xiàn)中已經(jīng)提出了一些解決辦法。(1)在離群樣本點(diǎn)診斷方面,Holmes等提出離群樣本點(diǎn)診斷圖的方法;在用經(jīng)典PCA分析中,可以在得分圖上畫(huà)出一定置信度的置信橢球,處在置信橢球外的樣品點(diǎn)被認(rèn)為是不適合利用PCA分析,提示它們可能為離群樣本點(diǎn);對(duì)HCA的聚類分析方法得到的樹(shù)形圖觀察,也是一種提示哪些樣品點(diǎn)為可能的離群樣本點(diǎn)的較直觀且簡(jiǎn)便的方法。(2)在非保守性代謝組分的存在會(huì)對(duì)分析結(jié)果產(chǎn)生影響方面,在分類情況已知的情況下,可以用有導(dǎo)師的方法進(jìn)行研究,利用已知的分類情況進(jìn)行特征代謝物的提取,以用特征代謝物為指標(biāo)能達(dá)到預(yù)期的分類效果為標(biāo)準(zhǔn),確定哪些是特征代謝物,從而排除了非保守性代謝組分;另有文獻(xiàn)提出,對(duì)已知分類情況的每一類作PCA分析,若在得分圖上同一類樣品分布較為分散,則證明有非保守性的代謝組分存在,在投影圖上,對(duì)主成分貢獻(xiàn)較大的組分即為非保守性代謝組分,即使這些組分在對(duì)所有的樣本進(jìn)行PCA分析時(shí)在投影圖上對(duì)主成分的貢獻(xiàn)也較大,則也不能將他們算作是生物標(biāo)志物。(3)在解決不同代謝組分之間存在尺度差異方面,可以用尺度同一化的方法包括mean-scale,auto-scale,log等消除不同代謝物尺度差異的影響,使數(shù)據(jù)的尺度相同,然后再對(duì)處理后的數(shù)據(jù)進(jìn)行分析。本文探討了一些新的方法以求解決上述問(wèn)題。本文數(shù)據(jù)處理所采用的原始數(shù)據(jù)是向發(fā)表在Bioin ̄formaticsVol.18Suppl22002雜志上的Applicationofmetabolomicstoplantgenotypediscriminationusingstatisticsandmachinelearning的作者索取。文中的實(shí)驗(yàn)背景是研究Arabidopsisthaliana屬植株的基因型為Co10的8個(gè)母本植株、基因型為C24的8個(gè)母本植株及它們的雜交子代Co10*C24的8個(gè)植株、C24*Co10的8個(gè)植株的代謝組學(xué),擬通過(guò)代謝組學(xué)的研究找到這些基因型不同的植株在代謝物方面的主要差異,并找到可以區(qū)分不同基因型植株的代謝物水平上的生物標(biāo)志物。文中的數(shù)據(jù)處理中直接用PCA方法對(duì)原始數(shù)據(jù)進(jìn)行聚類分析和生物標(biāo)志物的尋找分析,結(jié)果得分圖顯示的聚類情況不是很理想,類別之間有明顯的交叉,投影圖中有許多組分都有較大的貢獻(xiàn),并且找到的生物標(biāo)志物都為濃度相對(duì)較大的代謝組分?;谶@種情況,作者為了驗(yàn)證離群樣本點(diǎn)的診斷、非保守性代謝組分的排除以及數(shù)據(jù)的比例化處理對(duì)結(jié)果的改進(jìn)作用,采用上述文獻(xiàn)中所使用的原始數(shù)據(jù),進(jìn)行了如下的嘗試性分析。在離群樣本點(diǎn)診斷方面將穩(wěn)健PCA算法(ROBPCA)中離群樣本點(diǎn)的診斷方法用于代謝組學(xué)數(shù)據(jù)離群樣本點(diǎn)的診斷,預(yù)示了一些潛在的離群樣本點(diǎn)的存在,證明了這種方法的可行性;在非保守性代謝組分方面將類內(nèi)差異大于類間差異作為衡量非保守性代謝組分的標(biāo)準(zhǔn),并將判斷為非保守性代謝組分的代謝物排除后再進(jìn)行數(shù)據(jù)分析,結(jié)果聚類分析的結(jié)果和生物標(biāo)志物的尋找結(jié)果得到明顯的改善;在解決不同代謝物尺度差異方面,用mean-scale的方法對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)尺度同一化處理后用PCA的方法進(jìn)行分析,聚類的結(jié)果較為理想,并且找到了一些濃度較小的組分在4類樣品間有較明顯的差異,可能是有生物學(xué)意義的生物標(biāo)志物,這與直接對(duì)原始數(shù)據(jù)進(jìn)行分析找到的濃度較大的生物標(biāo)志物有一定的互補(bǔ)性,預(yù)示了對(duì)原數(shù)據(jù)和尺度同一化后的數(shù)據(jù)同時(shí)進(jìn)行分析的重要性。1遠(yuǎn)離集體檢測(cè)點(diǎn)的診斷1.1穩(wěn)健pca算法主成分分析法(PCA)是對(duì)多元數(shù)據(jù)進(jìn)行降維的一種主要方法,它處理的目的是有效消除多信息共存中的重疊部分,提取出主要成分。經(jīng)典的主成分分析法(classicalprinciplecomponentanalysis)經(jīng)常被用于代謝組學(xué)數(shù)據(jù)分析中。算法是根據(jù)原數(shù)據(jù)協(xié)方差矩陣的結(jié)構(gòu),尋找新的原變量線性組合后得到的主成分,使沿著主成分的方向,原數(shù)據(jù)的方差最大。代謝組學(xué)數(shù)據(jù)的聚類分析通常在PCA分析得到的得分圖(scoreplot)中進(jìn)行,生物標(biāo)志物的尋找通常根據(jù)PCA分析得到的投影圖(loadingplot)中各變量對(duì)主成分貢獻(xiàn)的大小來(lái)判斷。然而經(jīng)典PCA對(duì)數(shù)據(jù)中的離群樣本點(diǎn)(outlier)較為敏感,若數(shù)據(jù)中有離群樣本點(diǎn)存在,則前幾個(gè)主成分會(huì)被明顯地拉向離群樣本點(diǎn),從而不能反應(yīng)正常的數(shù)據(jù)點(diǎn)間的差異。因此當(dāng)數(shù)據(jù)中有離群樣本點(diǎn)存在時(shí),用經(jīng)典PCA進(jìn)行數(shù)據(jù)降維分析得到的結(jié)果是不可信的。穩(wěn)健PCA算法的目的是找到不受離群樣本點(diǎn)影響的主成分,從而對(duì)離群樣本點(diǎn)存在的數(shù)據(jù)進(jìn)行分析時(shí),也能得到準(zhǔn)確的結(jié)果。穩(wěn)健PCA的算法有尋蹤投影法(projectionpursuit)和最小協(xié)方差決定法(minimumcovariancedeterminant)。目前ROBPCA是一種新發(fā)展起來(lái)的結(jié)合以上兩種算法的穩(wěn)健PCA算法,在進(jìn)行主成分分析的同時(shí),還可以作出離群樣本點(diǎn)診斷圖(outlierdiagnosticplot)。圖中的橫坐標(biāo)代表樣本距樣本中心的馬氏距離,縱坐標(biāo)代表樣本未能被PCA解釋的殘差,處于右上角區(qū)域的樣本為強(qiáng)離群樣本點(diǎn),處于左上角和右下角區(qū)域的樣本點(diǎn)為弱離群樣本點(diǎn)。這種診斷圖若應(yīng)用于代謝組學(xué)的數(shù)據(jù)分析中,可以從生物信息學(xué)的角度提示哪些樣本為潛在的離群樣本點(diǎn),以便進(jìn)行更深入地分析和判斷;若診斷的結(jié)果經(jīng)分析得到驗(yàn)證,排除離群樣本點(diǎn)后對(duì)數(shù)據(jù)進(jìn)行分析會(huì)更好地反映數(shù)據(jù)中蘊(yùn)含的生物學(xué)意義。1.2第二,離群樣本點(diǎn)的認(rèn)定嘗試用ROBPCA的算法進(jìn)行離群樣本點(diǎn)的診斷,所得的結(jié)果如圖1所示,由圖中可以看出Co10基因型的8個(gè)植株中有1個(gè)強(qiáng)離群樣本點(diǎn),為2號(hào)樣品;C24基因型的8個(gè)植株中不存在較強(qiáng)的離群樣本點(diǎn),但存在2個(gè)弱離群樣本點(diǎn),為該基因型樣品的1號(hào)和2號(hào),對(duì)應(yīng)原數(shù)據(jù)矩陣的9號(hào)和10號(hào)樣本;Co10*C24的雜交子代的8個(gè)植株中1號(hào)為強(qiáng)離群樣本點(diǎn),對(duì)應(yīng)于原數(shù)據(jù)矩陣的17號(hào)樣本;C24*Co10的雜交子代的8個(gè)植株中沒(méi)有強(qiáng)離群樣本點(diǎn),1號(hào)和2號(hào)為弱離群樣本點(diǎn),對(duì)應(yīng)于原數(shù)據(jù)矩陣的25和26號(hào)樣本。經(jīng)過(guò)上述的方法判斷,將一些樣本點(diǎn)判斷為可能的離群樣本點(diǎn)。但以上的方法為統(tǒng)計(jì)學(xué)的方法,判斷的準(zhǔn)確程度有一定的概率問(wèn)題,尤其是在小樣本量數(shù)據(jù)的情況下誤判的概率會(huì)更大;而且某種情況下離群樣本點(diǎn)中可能會(huì)蘊(yùn)含著更重要的生物學(xué)意義。因此需要對(duì)這些可能的離群樣本點(diǎn)作進(jìn)一步深入的考察。首先對(duì)數(shù)據(jù)來(lái)源的圖譜(質(zhì)譜圖或核磁圖)進(jìn)行觀察,與其他的圖譜進(jìn)行對(duì)照,觀察是否有異常的譜峰存在,若證實(shí)在測(cè)量中存在問(wèn)題,根據(jù)實(shí)際情況補(bǔ)實(shí)驗(yàn)點(diǎn)或直接將已確定為離群樣本點(diǎn)的實(shí)驗(yàn)點(diǎn)排除再進(jìn)行分析;若排除是測(cè)量?jī)x器造成的誤差,則可能是生物體本身存在的原因或有新的有意義的生物學(xué)現(xiàn)象出現(xiàn),使代謝組的情況發(fā)生明顯的變化,這時(shí)要在所取得的實(shí)驗(yàn)點(diǎn)作重復(fù)試驗(yàn),并在該實(shí)驗(yàn)點(diǎn)附近的實(shí)驗(yàn)條件下補(bǔ)數(shù)據(jù),再進(jìn)一步深入地研究。2聚類結(jié)果和pca分析本文將類內(nèi)差異大于類間差異的組分定義為非保守性代謝組分。組分的類內(nèi)差異用標(biāo)準(zhǔn)差來(lái)衡量,組分的類間差異用每組數(shù)據(jù)的均值的標(biāo)準(zhǔn)差衡量。尋找非保守性代謝組分是用matlab軟件編程進(jìn)行的。從原始的數(shù)據(jù)矩陣中排除找到的非保守性代謝組分再用PCA進(jìn)行分析,與原始數(shù)據(jù)直接PCA分析作比較,所得到的結(jié)果如下。由圖2的聚類結(jié)果可以看出排除非保守性代謝組分后,聚類結(jié)果可以達(dá)到明顯的改善,前兩個(gè)主成分PC1和PC2上可將兩個(gè)母本Col0與C24分開(kāi),并且可將兩個(gè)母本與子代Col0*C24和C24*Col0分開(kāi);第三主成分PC3上可將兩個(gè)子代基本分離,雖然沒(méi)有達(dá)到完全的分離,但已經(jīng)比原有的不經(jīng)排除非保守性代謝組分直接用PCA分析得到了明顯的改善(圖3),并且分離的正確率與原文獻(xiàn)用前饋型神經(jīng)網(wǎng)絡(luò)所得的結(jié)果一致。在PCA分析得到的得分圖上能達(dá)到正確的分類的基礎(chǔ)上,生物標(biāo)志物的識(shí)別變得更容易,并且避免了假陽(yáng)性生物標(biāo)志物的出現(xiàn)。在排除非保守性代謝組分后,由圖4可以看出,23,38,61,65,66,199號(hào)組分對(duì)PC1,PC2,PC3構(gòu)成了大部分的貢獻(xiàn),選出它們做生物標(biāo)志物進(jìn)一步分析可以有效地解釋4類樣品之間的差異;而在未排除非保守性代謝組分之前,由圖5可以看出,許多組分在PC1,PC2,PC3都有較大的貢獻(xiàn),因此很難找出幾個(gè)作為有效的生物標(biāo)志物來(lái)解釋4類的差異。3主成分pc3分離作者對(duì)排除非保守性代謝組分的數(shù)據(jù)經(jīng)過(guò)mean-scale方法預(yù)處理后,再用PCA方法進(jìn)行分析,所得的結(jié)果如圖6,圖7。由score圖(圖6)可以看出在第一主成分PC1上可將1,2類與3,4類分開(kāi);在第二主成分PC2上可將1和2類分開(kāi);在第三主成分PC3上可在一定程度上將3和4類分開(kāi),而且分離的效果比不經(jīng)過(guò)預(yù)處理的結(jié)果(圖2)要明顯。由loading圖(圖7)看出,雖然不能像在原始數(shù)據(jù)排除非保守性代謝組分不經(jīng)過(guò)任何預(yù)處理進(jìn)行PCA分析得到的loading圖那樣,可以由幾個(gè)組分對(duì)PC1,PC2,PC3構(gòu)成大部分貢獻(xiàn),但是129,214,389,420號(hào)組分都在PC1,PC3上有相對(duì)比較大的貢獻(xiàn),139號(hào)組分在PC2上有相對(duì)比較大的貢獻(xiàn),而且這些組分都是濃度較小的組分,說(shuō)明經(jīng)過(guò)scale方法找到的biomarker多是濃度較小的組分,這些組分也不能忽略,應(yīng)仔細(xì)分析其濃度在組與組之間變化的特點(diǎn),判斷這些小濃度組分是否為噪音,以確定它們是否為有意義的生物標(biāo)志物。4非保守性代謝組分的識(shí)別穩(wěn)健PCA算法(ROBPCA)適合于代謝組學(xué)數(shù)據(jù)分析中離群樣本點(diǎn)的診斷。診斷結(jié)果從生物信息學(xué)的角度預(yù)示的潛在的離群樣本點(diǎn)有待于進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- PB-22-5-Hydroxyquinoline-isomer-生命科學(xué)試劑-MCE-7761
- 1-Boc-4-carboxymethyl-piperazine-生命科學(xué)試劑-MCE-6310
- 2025年度公共停車場(chǎng)車位使用權(quán)抵押合同范例
- 二零二五年度離婚后小孩撫養(yǎng)費(fèi)及生活費(fèi)用監(jiān)管協(xié)議
- 二零二五年度早餐車餐飲合作經(jīng)營(yíng)協(xié)議
- 施工現(xiàn)場(chǎng)施工排水排泥管理制度
- 施工現(xiàn)場(chǎng)施工防地震災(zāi)害制度
- 教育領(lǐng)域中的學(xué)生心理健康研究
- 小學(xué)數(shù)學(xué)新課程教學(xué)法復(fù)習(xí)題課件
- DB6103T 34-2025奶山羊選種選配技術(shù)規(guī)范
- 2024年廣東省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 小學(xué)數(shù)學(xué)六年級(jí)解方程練習(xí)300題及答案
- 光伏十林業(yè)可行性報(bào)告
- 公路工程安全風(fēng)險(xiǎn)辨識(shí)與防控手冊(cè)
- 骨科手術(shù)糾紛案例分析課件
- 2022年廣西高考英語(yǔ)真題及答案(全國(guó)甲卷)
- 安全生產(chǎn)責(zé)任清單(加油站)
- 動(dòng)物檢疫技術(shù)-動(dòng)物檢疫的程序(動(dòng)物防疫與檢疫技術(shù))
- 煤礦復(fù)工復(fù)產(chǎn)專項(xiàng)安全風(fēng)險(xiǎn)辨識(shí)
- DB42T 1049-2015房產(chǎn)測(cè)繪技術(shù)規(guī)程
- 《民航服務(wù)溝通技巧》教案第8課重要旅客服務(wù)溝通
評(píng)論
0/150
提交評(píng)論