SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第1頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第2頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第3頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第4頁
SynergyX:用于可解釋藥物協(xié)同預(yù)測的多模態(tài)互注網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

發(fā)現(xiàn)有效的抗腫瘤藥物組合對于推進癌癥治療至關(guān)重要。充分考慮復(fù)雜的生物相互作用對于準確預(yù)測藥物協(xié)同作用非常重要。然而,極其有限的先驗知識給當前計算方法為了解決這個問題,本文提出了一個多模態(tài)的相互關(guān)注網(wǎng)絡(luò)SynergyX,它動態(tài)捕獲跨模態(tài)相互作用,允許對復(fù)雜的生物網(wǎng)絡(luò)和藥物相互作用進行建模。采用卷積增強注意結(jié)構(gòu)對該框架中的多組數(shù)據(jù)進行有效集成。與其sota模型相比,SynergyX在通用測試和盲測試以及跨數(shù)據(jù)集驗證中都表現(xiàn)出卓越的預(yù)測準確性;SynergyX的另一個顯著優(yōu)勢在于它的多維可解釋性。綜上所述,SynergyX提供了一個具有啟發(fā)性和可解釋性的框架,圖1SynergyX模型架構(gòu)對于每種藥物,從ChEMBL數(shù)據(jù)庫中獲取其SMILES,然后使用RDKit庫將其轉(zhuǎn)換為規(guī)范的SMILES。我們進一步將藥物的SMILES格式轉(zhuǎn)換為可解釋的子結(jié)構(gòu)分區(qū)指紋圖譜(ESPF),使后續(xù)注意模塊能夠捕獲可解釋的藥效團信息。ESPF通過將藥物分解成一組離散的、中等大小的亞結(jié)構(gòu),形成藥物的順序編碼。Huang等人確定了大約2700個有價值的子結(jié)構(gòu),形成了一個子結(jié)構(gòu)詞典。最后,將藥物表示為大小為165的定長向量,這里與細胞的后續(xù)輸入特征的尺寸相匹配。如果藥物中的子結(jié)構(gòu)數(shù)少于165個,則剩余的位置將用按照上述步驟,將每種藥物表示為one-hot向量,表示藥物序列第i個子結(jié)構(gòu)的子結(jié)構(gòu)索引(該索引是指上述約2700個子結(jié)構(gòu)構(gòu)成的結(jié)構(gòu)詞典中每個子結(jié)構(gòu)對應(yīng)的index)。圖2基因集根據(jù)前人的研究方法,我們進一步對這些特征進行了轉(zhuǎn)化。首先,我們使用一個可學(xué)習(xí)的字典查找矩陣,其中表示子結(jié)構(gòu)的最大數(shù)量,表示向量維數(shù)。這樣我們就可以將每種藥物的子結(jié)構(gòu)索引轉(zhuǎn)換成一個長度為的向量(其中1=128),從而得到每種藥物的初始特征。隨后,為了獲取藥物子結(jié)構(gòu)的位置信息,使用查找字典計算位置表示:pi=wposl1表示相加,生成最終的藥物子結(jié)構(gòu)編碼:xa=Di+P12.2統(tǒng)一基因集為了確定一個潛在的有助于藥物協(xié)同作用的重要基因子集,我們從不同的集合中選擇標記基因并整合它們。LINCS項目發(fā)布了一個包含978個基因的里程碑式基因集,已知該基因集捕獲了整個轉(zhuǎn)錄組81%的信息。這些基因包含在我們最終的基因集中。此外,我們選擇了CCLE項目中癌細胞株基因表達變異最大的前1000個基因和TCGA中腫瘤樣本中變異最大的1500個基因。這些基因可以有效地捕捉不同樣本此外,基于STRING數(shù)據(jù)庫中包含的PPI網(wǎng)絡(luò),我們過濾了綜合得分高于0.7的相互作用,然后確定了與其他蛋白質(zhì)相互作用最多的前1000個蛋白質(zhì)。編碼這些蛋白質(zhì)的基因通常被認為在生物網(wǎng)絡(luò)中更為關(guān)鍵和功能重要。此外,從STITCH數(shù)據(jù)庫選擇了1000個與最多藥物相關(guān)的藥物靶向基因。最后,我們將上述所選擇的5組基因(L1000_gene、ccle_gene、tcga_gene、ppi_gene和dti_gene)進行組合,去掉缺失特征的基因后,得2.3細胞系的多基因組整合SynergyX利用了從DepMap數(shù)據(jù)庫下載的6種組學(xué)數(shù)據(jù)[39,40]:基因表達(exp)、基因突變(mut)、基因拷貝數(shù)(cn)、基因甲基化(met)、基因效應(yīng)(e?)和基因依賴概率(dep)?;蛲蛔償?shù)據(jù)被處理為二進制變量,其中0代表正?;?,1代表突變基因。對于每個細胞系,我們的目標是保留上述4079個基因的組學(xué)特征。雖然我們收集了所有167個細胞系中細胞系中收集了3456個基因,met在143個細胞系中收集了2279個基因。如果缺少任何組學(xué)特征,則用該基因在其余細胞系中的平均值進行計算。我們應(yīng)用tanh歸一化,類似于DeepSynergy,對不同組型的原始數(shù)據(jù)進行預(yù)處理。對于一個特定的細胞系,6個組學(xué)特征按照固定的基因順序整合,得到一個輸入特征。受卷積增強Transformer結(jié)構(gòu)(Conformer)的啟發(fā),我們采用一維卷積神經(jīng)網(wǎng)絡(luò)(CNN)在注意模塊之前對細胞系的原始多組數(shù)據(jù)進行初步整合,考慮到細胞系特征序列相對較長,我們在卷積層之間引入了maxpooling的子采樣。CNN擅長提取局部特征,當與擅長建模長期全局上下文的級聯(lián)注意力模塊結(jié)合時,它們可以更充分地表示細胞系特2.4跨模態(tài)融合編碼器Synergy的核心模塊是跨模態(tài)融合編碼器,該模塊采用多種注意力模塊實現(xiàn)特征更新和融合,同時提取潛在的藥物-細胞和藥物-藥物相互作用。我們嘗試了相互關(guān)注和自我關(guān)注模塊的不同組合,并最終在我們的SynergyX中確定了一個三層“三明治”結(jié)構(gòu)。外層是相2.4.1跨模態(tài)互注意力跨模態(tài)融合編碼器從藥物-細胞相互注意(DCMA)模塊開始,用于跨模態(tài)相關(guān)特征提取。如圖3所示,DCMA模塊由多頭互注意網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)組成。核心步驟包括計算藥物與細胞和細胞與藥物相互作用的權(quán)重。藥物-細胞注意矩陣用于獲得藥物反應(yīng)性細胞潛圖3DCMA模塊2.4.2特定特征的自注意力更新跨模態(tài)融合編碼器的第二層由兩個特定的自注意模塊組成,即藥物特異性自注意模塊(DSSA)和細胞特異性自注意模塊(CSSA),旨在捕捉不同實體的內(nèi)部上下文,如圖4、5所示。DSSA模塊將細胞反應(yīng)性藥物A和細胞反應(yīng)性藥物B的主要特征作為輸入,利用這些特征進一步更新這兩種藥物的隱藏特征。該模塊采用經(jīng)典的TransformerEncoder來學(xué)習(xí)每種藥物中各個子結(jié)構(gòu)之間的相互依賴關(guān)系。具體來說,DSSA模塊首先從藥物的潛在特征生成查詢、鍵和值矩陣。然后將這些矩陣輸入到一個多頭自我注意層中,以計算每種藥物中的自我注意。在多頭自注意層之后,我們采用了具有兩層線性變換和ReLU激活函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)。隨后,結(jié)果經(jīng)過殘差連接層和層歸一化,得到更新后的藥物隱藏特征。CSSA模塊捕獲細胞中不同基因之間的相關(guān)性,并更新細胞系特征。CSSA的輸入是藥物A響應(yīng)細胞的主要特征,是藥物B響應(yīng)細胞的主要特征。采用了一種類似于VisionTransformer(ViT)的架構(gòu)。與DSSA模塊的關(guān)鍵區(qū)別在于不同層之間的連接順序。具體來說,層歸一化放置在多頭自關(guān)注層之前和前饋神經(jīng)網(wǎng)絡(luò)之前,以更好地穩(wěn)定通過CNN后的前向輸入分圖4藥物特異性自注意力(DSSA)模塊圖5細胞特異性自注意力(CSSA)模塊2.4.3單向互注意力在第三層,我們使用兩個單峰互注意模塊來提取粗粒度的融合信息。其中,藥物-藥物相互關(guān)注模塊DDMA整合了藥物A和藥物B的潛在特征。細胞-細胞互注意模塊(CCMA)分別用于結(jié)合對藥物A和藥物B有反應(yīng)的細胞潛伏特征。DDMA和CCMA都由多頭互注意層和前與跨模態(tài)相互關(guān)注部分中描述的過程類似,DDMA最初使用藥物A和藥物B來生成各自的鍵、查詢和值矩陣。然后計算藥物A到藥物B和藥物B到藥物A的注意力權(quán)重,利用這些權(quán)重分別更新藥物B和藥物A的特征。這一過程捕捉到了藥物之間復(fù)雜的相互作用和潛在自關(guān)注。相比之下,CCMA模塊采用VisionTransformer(ViT)架構(gòu)作為其骨干,遵循CSSA模塊的設(shè)計原則。CCMA模塊遵循與DDMA類似的計算過程。這一關(guān)鍵步驟有效融合了對藥物A和藥物B有反應(yīng)的細胞潛在特征,使該模塊能夠反映兩種藥物對細胞基因網(wǎng)絡(luò)的聯(lián)合經(jīng)過上述交叉模態(tài)融合編碼器,我們得到了四個最終特征:藥物A的最終特征、藥物B的最終特征、藥物A響應(yīng)細胞的最終特征和藥物B響應(yīng)細胞的最終特征。這些特征被扁平化并連接起來,然后傳遞到Predic?on模塊以輸出預(yù)測的協(xié)同得分。預(yù)測模塊由三個完全連接的層組成,層之間應(yīng)用ReLU激活函數(shù)。此外,我們還引入了Dropout層來防止過擬藥物組合數(shù)據(jù)來自綜合數(shù)據(jù)庫DrugComb(v1.5),該數(shù)據(jù)庫包含739964個組合實驗。它提供了一種新的藥物協(xié)同作用測量方法稱為S評分,它通過測量藥物組合與單一藥物的劑量反應(yīng)曲線之間的差異來定義藥物協(xié)同作用的水平。研究表明,與現(xiàn)有的四種協(xié)同作用評分(HSA、Bliss、Loewe和ZIP)相比,S評分在預(yù)測最具協(xié)同作用和拮抗作用的藥物組合方面具有較高的準確性(AUC>0.99)。我們選擇S評分作為藥物對在特定細胞系我們從DrugComb數(shù)據(jù)庫中選擇了所有可用的數(shù)據(jù)進行進一步的數(shù)據(jù)清理。首先,我們刪除了關(guān)于藥物和細胞系信息不清楚或缺失的條目。接下來,我們在數(shù)據(jù)集中發(fā)現(xiàn)了一個明顯的數(shù)據(jù)不平衡問題,其中2157種藥物(85.9%)出現(xiàn)的次數(shù)少于10次,僅占數(shù)據(jù)集的1.37%(4587項)。為了解決這種數(shù)據(jù)不平衡并提高數(shù)據(jù)集的質(zhì)量,我們消除了出現(xiàn)次數(shù)少于10次的藥物。此外,我們采用3σ原理來識別數(shù)據(jù)集中的異常值,然后使用平均值±3個標準差作為閾值,并為該范圍之外的分數(shù)分配邊界值。最終,我們獲得了330917種藥物組合的數(shù)據(jù)集,涉及354種藥物和167個細胞系。值得注意的是,盡管DrugComb是現(xiàn)有最大的藥物組合數(shù)據(jù)庫之一,但與預(yù)測空間相比,標記的數(shù)據(jù)仍然顯著較小。在我們的案例中,167個細胞系中354種藥物的組合空間相當于大約2100萬種可能性,而現(xiàn)有數(shù)據(jù)僅覆蓋了總可能性的1.56%。為了評估SynergyX的性能,我們將其與六種具有代表性的最先進的深度學(xué)習(xí)方法和兩種杰出的機器學(xué)習(xí)方法RandomForest(RF)和XGBoost進行了比較。所有方法都在用于SynergyX的相同數(shù)據(jù)集上進行了訓(xùn)練和評估。提到的六種深度學(xué)習(xí)方法分別是DeepSynergy、MatchMaker、DeepDDS、DTSyn、MGAE-DC和DFFNDDS。對于每種方法,我們都試圖保持各自研究中提到的一致的輸入特征、模型架構(gòu)和最優(yōu)訓(xùn)練參數(shù)。具體來說,DeepDDS使用GCN或GAT進行藥物特征提取,我們將這兩種模型分別命名為DeepDDS-GCN和DeepDDS-GAT。此外,對于最初為分類任務(wù)設(shè)計的模型,如DeepDDS和DFFNDDS,我們對它們的預(yù)測模塊和損失函數(shù)進行了輕微的調(diào)整。我們還在合理的范圍內(nèi)優(yōu)化了它們的訓(xùn)練參數(shù),使其更適合于回歸任務(wù)。針對RF和XGBoost,采用類似網(wǎng)格搜索的方法尋找最優(yōu)訓(xùn)練參數(shù)。值得注意的是,cuML包被用來利用GPU加速來訓(xùn)練RF模型在兩種實驗設(shè)置中對SynergyX和所有比較方法進行評估:(1)重新發(fā)現(xiàn)已知藥物協(xié)同作用的一般測試,(2)發(fā)現(xiàn)未知藥物對的遺漏藥物組合測試。在General測試中,將整個數(shù)據(jù)集按8:1:1的比例劃分為訓(xùn)練集、驗證集和測試集。對于遺漏藥物組合測試,我們采用了基于藥物對的分層抽樣方法,確保測試集不包括訓(xùn)練集中存在的任何藥物對。最終的訓(xùn)練集、驗證集和測試集分別約占所有藥物對的80%、10%和10%。所有實驗用不同的隨機種子重復(fù)5次。我們使用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、r平方(R2)和Spearman相關(guān)性(Spearman)作為回歸預(yù)測任務(wù)的評價指標。此外,我們在四個獨立的數(shù)據(jù)集上進一步評估了SynergyX,以證明其在不同數(shù)表1通用測試性能比較表2留出藥物組合測試性能比較SynergyX包含6個子模塊:CNN(多組學(xué)集成模塊)、DCMA、DSSA、CSSA、DDMA和CCMA。移除SynergyX的不同組件,以評估它們對整體性能的貢獻。變體模型被標記為行了五次隨機實驗,以研究某些模塊的缺失是否會顯著影響模型的性能。如表3所示,完表4消融實驗結(jié)果考慮到SynergyX、SynergyX-B、SynergyX-E、SynergyX-F和SynergyX-G,我們可以觀察到,無論是否存在相互關(guān)注模塊,卷積增強的注意力架構(gòu)將CNN和注意力結(jié)合起來往往比單獨使用其中任何一個都能產(chǎn)生更好的結(jié)果。這與我們的假設(shè)一致,即CNN特征捕獲局部感知特征,而注意力機制可以有效捕獲遠程語義信息。結(jié)合兩者可以獲得更好3.4多組數(shù)據(jù)研究因此,我們探索了不同組合組學(xué)數(shù)據(jù)的影響。一共有六種類型的基因組最初應(yīng)用于SynergyX。為了簡化實驗,我們隨機選取了涉及2、3、4和5種基因組數(shù)據(jù)的6種組合。圖6不同組合組學(xué)數(shù)據(jù)對結(jié)果的影響在單組學(xué)實驗中,不同組學(xué)類型的模型性能不同。cn數(shù)據(jù)的MSE值最低,為82.17,而exp、mut和met表現(xiàn)相對較好。然而,使用eff或dep會導(dǎo)致明顯較差的結(jié)果。這是因為我們?nèi)狈ψ銐虻膃ff和dep特征,這些特征可以作為補充特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論