版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中國人工智能系列白皮書——中國人工智能系列白皮書——2022中國人工智能系列白皮書——人工智能與藥物發(fā)現(xiàn)二○二二年九月中國人工智能系列白皮書——中國人工智能系列白皮書——2022PAGEPAGE1目 錄前言 1第1章人智能腫瘤靶識別 1人智能腫靶點識概述 1人智能腫建模 2人工能與瘤轉(zhuǎn)錄模型 2人工能與細胞表腫瘤型 5人工能與模態(tài)腫模型 12人智能靶識別 15人工能與于單細胞RNA的點發(fā)現(xiàn) 15人工能與于表觀靶點現(xiàn) 17人工能與于多組測序的藥物點發(fā)現(xiàn) 18人智能腫靶點識中的前景 21本小節(jié) 22第2章人智能苗頭化物篩選 23人智能苗化合物選概述 23基深度習苗頭化物篩選 25CPI數(shù)庫 25蛋白和化物典型征表示 26基于度學的CPI預測型 27深學習苗化合物選中展前景 34趨勢挑戰(zhàn) 34實際用 35本小節(jié) 36第3章人智能藥物從設(shè)計 38基人工能藥物從設(shè)計述 38深生成型小分子物從計 39小分藥物理結(jié)構(gòu)生成型 39滿足化性要求的分子生成模型 40基于點蛋結(jié)構(gòu)的分子生成模型 43深生成型大分子物從計 46基于度學的核酸藥物計 47基于度學的蛋白多肽計 48本小節(jié) 50第4章人智能藥物重位 52藥重定概述 52藥重定數(shù)庫 52表學習 53基于列的示 53基于絡/的表示習 56藥重定的度學習型 57以靶為中的模型 57以疾為中的模型 60模型估 61藥重定的用 62本小節(jié) 65第5章人智能藥物屬預測 67人智能藥屬性預概述 67多藥物性測 69多肽性預方法 70研究點 73藥屬性測新研究展 74基于學習多肽藥生物預測 74基于神經(jīng)絡的多毒性測 75本小節(jié) 78第6章人智能藥物相作用測 79人智能藥相互作預測述 79人智能藥互作用測方法 80基于獻數(shù)的提取法 80基于物關(guān)數(shù)據(jù)的測方法 83人智能藥相互作預測發(fā)展前景 89構(gòu)建準數(shù)集 89藥物件預測 90預測階藥相互作用 91整合源數(shù)分析 92本小節(jié) 92第7章藥發(fā)現(xiàn)的大規(guī)預訓型 93分表征 93預練 95分預訓練 97基于MaskLanguageModel子預訓練 98基于成式型的分預訓練 99基于比學的分子訓練 100基于何特的分子訓練 101基于域知的分子訓練 102分預訓范例 103確定訓練務與模結(jié)構(gòu) 103構(gòu)建算平臺 104設(shè)計調(diào)策略 105模型調(diào)與估 106本小節(jié) 107第8章藥發(fā)現(xiàn)的可解人工模型 108藥發(fā)現(xiàn)的解釋人智能概述 108可釋人智技術(shù)(XAI) 109可解機器習 109圖結(jié)的可釋技術(shù) 建模的可釋技術(shù) 知識入的解釋技術(shù) 針對意力制能否供可的辨析 可釋人智在藥物計中用 XAI與定量效關(guān)系(QSAR) XAI與聯(lián)合藥 XAI與分子性預測 XAI與藥靶作 120XAI與藥物良反應測 121XAI與新藥計 122可釋人智在藥物現(xiàn)中景展望 122本小節(jié) 124參考文獻 125中國人工智能系列白皮書——中國人工智能系列白皮書——2022PAGEPAGE100第1章人工智能與腫瘤靶點識別人工智能與腫瘤靶點識別概述(Artificialintelligence,[1][2][3]([45]曲妥珠單抗或威羅非尼等靶向藥已成為表達HER2靶點的乳腺癌患者和有BRAF為靶向目標的免疫檢查點抑制劑也獲批可用于治療微衛(wèi)星不穩(wěn)定性[6]。人工智能為基于組學數(shù)據(jù)的腫瘤靶點識別提供了強大的計算工(Machinelearning分支,[78]。人工智能與腫瘤建模人工智能與腫瘤轉(zhuǎn)錄組模型[9]途徑失調(diào),這可能會影響細胞的適應性(即增殖能力RNARNA及非編碼RNA,[10]DNARNADNARNA測序可繪隨著單細胞RNA測序技術(shù)的發(fā)展,近幾年單細胞核糖核酸測序(scRNA-seq)[11]2009[12]個scRNA-seq方法,開辟了單細胞水平RNADrop-seqDroNC-seq和droplet-based(Drop-seq[13]InDrop[14]和Chromium[15])通??梢蕴峁└蟮募毎?,而且與全轉(zhuǎn)錄scRNA-seq10xGenomics為主,癥中心的研究人員在Cell上發(fā)表了地形單細胞測序技術(shù)(Topographicsinglecellsequencing,TSCS)[16],該方法提供了細胞位置的空間信息,能更準確地從空間上獲得單個腫瘤細胞的具體特征,能夠在早期癌癥研究方面提供有力的支持。RNA由于轉(zhuǎn)錄本覆蓋的偏差、低捕獲效率和低測序覆蓋度等因素,scRNA-seq的分析,并可能導致數(shù)據(jù)的誤讀,因此需要對測序數(shù)據(jù)進行質(zhì)控(ultyctrlC/RNA[17]Harmony,LIGER和Seurat3。2020團隊對15Harmony單細胞RNA-seq數(shù)據(jù)通常包含許多由于原始RNA致的缺失(dous,最近針對這些缺失開發(fā)了一些新的插補算法,比如MAGIC[19]ScImpute[20]DrImpute[21]AutoImpute[22]UMIscRNA-seqMAGICScImputdropoutdropout值;DrImputedropoutAutoImputescRNA-seqRNAt-隨機鄰域嵌入、均勻流形逼近和投影。主成分分析(Principalcomponentsanalysis,PCA)是最常用的線性降維方法。t-隨機鄰域嵌入(t-distributedstochasticneighborembedding,t-SNE)(UniformManifoldApproximationProjection,UMAP)k-人工智能與單細胞表觀腫瘤模型DNA其中基因組這種精確緊湊結(jié)構(gòu)的組織極大地影響了基因被激活或沉定義為結(jié)構(gòu)及其對基因功能的影響。的定義最初是指表觀遺傳DNADNADNA[24]。[25[26][27][28][29]。Seq[30]方法可以繪制組蛋白修飾和轉(zhuǎn)錄因子結(jié)合的全基因組圖譜;利Hi-C[32]甲基化則可使用RRBS[33]WGBS[34][35](1-1)。1-1機器學習在表觀遺傳的應用[35]DNACpG[38]。DNA1)DNADNADNACpG島(而[40];DNA[41][42]。甲基化與癌癥發(fā)生的因果關(guān)系存在兩類主要學說:1)細胞在癌DNA116[24]。m9SEPT9蛋白,F(xiàn)DASEPT9[4344]基RASSF1ARASSF1A甲基化會導致RASSF1A島DNA(Supportvetoraine,eiintree,(nforest(NaivebayesSVMXu等研究者在識別黑色素瘤和軟組織肉瘤的問題上,正確地分類了7675個[46]DNAAtsushiKanedaDT[47]NB是另一種[48]DNAShicaiFanMRCNN(ConvolutionalneuralnetworksCNN)DNA[49]93.2%219aitnluo-noers,和t-450K[50]編碼[35]。T檢驗計算P值來衡量零假設(shè)[51](Wtest)T檢驗的替代[52](chi-squaredtestChi2)[53]。LiZhouhsa-mir-3923(MicroRNA的一種66hsa-mir-3923[53](RecursivefeatureeliminationAlhasanAlkuhlani究者使用SVM-RFE241327個最佳CpG位點的子集,這些最佳CpG100%100%97.67%。StefanM.Pfister等研究者基于隨機森林模型建立了100種已知的中樞神經(jīng)系統(tǒng)腫瘤診斷系[54]ReGear,使用線性回歸將原始的甲基化位點特征擬合成基[55]。單細胞染色質(zhì)可及性測序技術(shù)的核心原理與單細胞轉(zhuǎn)錄組測序scRNA-seq1)數(shù)據(jù)高度稀疏。當前>1%的基因組。此外,測序中存在的高度隨機性,導致單個細胞中,scRNA-seqRNA——3類和降維。利用開放染色質(zhì)區(qū)域中出現(xiàn)的轉(zhuǎn)錄因子(Transcription,TF)t-SNE算法將單TFseq[56];scABC使用無監(jiān)督的k-medoids則是一[58]Cusanovich(Latentsemanticanalysis常見哺乳動物細胞關(guān)于調(diào)控基因組的體內(nèi)景觀[59]。CarmenBravoGonzález-Blas提出了概率框架[60]Cicero等提出了基于圖LassoDNA3D。第四類為綜合分析工具,如Scasat[62]和等。人工智能與多模態(tài)腫瘤模型CancerGenomeht:/cnceomnhvntrnialncreoenotm(ICGC,1-2簡[4]NatureMethod2019年年度方法。圖1-2已有的單細胞多模態(tài)技術(shù)[64](8]”bulk(細胞圖1-3多組學數(shù)據(jù)整合的三種主要思路[8]細胞[65][66]68][6970][71][72][73]表性的工作有totalVI[75]表性工作有Seuratv4[76]。人工智能與靶點識別RNA的靶點發(fā)現(xiàn)RNARNAantigen,[77]RNARNA[78]circRNA在癌[79]年BalzeauJ.等人發(fā)現(xiàn)let-7miRNAKARS和miRNA的減少,即let-7miRNA酸螯合或重新引入miRNA可能成為未來一種新的治療方式,但在miRNAmiRNA模擬物和miRNA[81][82],RNA(Immunecheckpointinhibitors,ICI)[8384][84]。ICIICI的生物2021Suzuki轉(zhuǎn)錄組測序檢測到可作為非小細胞肺癌潛在新抗原轉(zhuǎn)錄本的異常剪[88]。[89,90]2017TT[92]從轉(zhuǎn)錄組出發(fā)的腫瘤細胞之間及腫瘤細胞與基質(zhì)的相互作用研(1[9]CellPhoneDB型中受體基因的平均表達和另一種細胞類型中配體基因的平均表達的受體基因表達與另一種細胞類型中相應配體基因表達在所有scRNA-seq2019R.等通過將基因表達數(shù)據(jù)與細胞內(nèi)信號傳導和基因調(diào)控網(wǎng)絡的先驗NicheNet[95]。NicheNet-人工智能與基于表觀的靶點發(fā)現(xiàn)1970(DNA甲基化表觀調(diào)控異常信號中搜索癌癥的生物標記物具有廣闊的臨床應用前[97]。/[99][101]如前列腺癌和膀胱癌[102,103]。JurmeisterP等人對原發(fā)性腫瘤進行了DNA279HNSC和LUSC96.4%[104]DNAMoranDNA3000100%[105]RongXuTCGA187,339(Deepneuralnetwork模型相比更準確,并具有在臨床環(huán)境中易于實施的獨特優(yōu)勢[106]。人工智能方法在表觀組學分析中的另一用途是腫瘤-健康細胞差[107]物已陸續(xù)獲FDA批準進入市場[108]。同時,新靶標不斷被發(fā)現(xiàn),如DNMT1[109]PRMT[110]Chip-seq了分析蛋白質(zhì)與華大學譚春燕團隊使用SVMVEGFR-2Abl-1ERK-2NEPT[113]。人工智能與基于多組學測序技術(shù)的藥物靶點發(fā)現(xiàn)腫瘤的發(fā)生發(fā)展是自身異?;蛲蛔兎e累等內(nèi)因與免疫系統(tǒng)失志敏團隊利用網(wǎng)絡融合方法SNF(Similaritynetworkfusion)[114](Triple-negativebreastcancerTNBC)臨床樣TNBC患者TNBCChristosD.RNA絡的網(wǎng)絡融合方法NetICS[116]74和mTOR信號通路激活型肝細胞癌有一定效果[117]。廣東省中醫(yī)院的梁雪芳團mRNARNA、CNV34RonglaiShen型iCluster來整合不同的組學特征并進行聚類[119]。后有研究者將iCluster應用到肝細胞癌的研究中對CNV17k(。斯坦福大學JeffreyGranja(Mixedphenotypeacuteleukemia,(Latentsemanticindexing[122]。2018年獲得諾貝爾醫(yī)學獎的免疫療法是利用患者自身免疫系統(tǒng)來預防、控制和消除癌癥的治療方法[123]。目前在臨床上已有數(shù)種方(Immunecheckpointblockade,、(adoptivecellular“TTTTT[128]基于多組學的人工智能模型在解構(gòu)腫瘤免疫微環(huán)境中有巨大潛BenjaminIzar(BroadInsitute)Regev轉(zhuǎn)錄組雙模態(tài)技術(shù)與CRISPR技用Elastic-netMIMOSCA[129],分析CRISPRCD58方法tSNE對非小細胞肺癌免疫微環(huán)境中的T(TCRCD8T[92]Lasso(CNV7有關(guān)的關(guān)鍵基因[131]。深圳大學吳松團隊基于改進版一致聚類算法CrossICC[132]bulkTGFβ[133]。人工智能在腫瘤靶點識別中的發(fā)展前景135]。時序單細胞技術(shù)可以實現(xiàn)對同一個細胞在兩個時間點的表達譜進行測量[136],使直接觀測腫瘤發(fā)展過程及腫瘤耐藥性產(chǎn)生過程的表CRISPR[2]測量技術(shù)和CRISPR本章小節(jié)第2章人工智能與苗頭化合物篩選人工智能與苗頭化合物篩選概述技術(shù)在數(shù)以萬計乃至數(shù)以百萬計的化合物中挖掘出一組能夠抑制或藥效學、毒性測試以及結(jié)構(gòu)修改來獲得若干候選藥物的苗頭/先導化(圖2[138]10-20年以及5-26億美元[139-141]。圖2-1藥物發(fā)現(xiàn)與發(fā)展過程[142](Highthroughputscreening,HTS)[143]screening]/HTSVS[145146]/近年來,深度學習作為人工智能中最重要的領(lǐng)域之一[147],不僅在自然語言處理[148]和計算機視覺[149]等多個領(lǐng)域得到廣泛的應用并用于藥物研發(fā)領(lǐng)域,比如靶標識別[150]、化合物-蛋白質(zhì)相互作用(Compound-proteininteraction,CPI)[151]預測[153]和化[154][155]。CPICPI化合物、蛋白質(zhì)及其相互作用之間的隱空間關(guān)聯(lián)進行高效、快速的CPI篩選[156-159](2)((如GO游戲CPI[160]或直接表[161][162],CPICPI29種經(jīng)典Y99CPI基于深度學習的苗頭化合物篩選CPI數(shù)據(jù)庫CPIIC50KiKd和EC50STITCH是目前最大的CPI1643萬BindingDBCPI1008,00020[64IH和dngBb是一個源自ProteinDataBank(PDB)CPI17,000-[165]PDBbindMOAD是PDB38,000KIBA[167]Davis[168]DUD-E[169]藥物靶點蛋白相關(guān)的綜合數(shù)據(jù)庫主要有:KEGG、DrugBank和PubChemChEMBLPubChem包2D3D[173]ChEMBL包含了logLipinskiADME/T[174]。蛋白質(zhì)和化合物典型特征表示123(圖-圖2-2化合物結(jié)構(gòu)表示及其定量描述符[142]從特征工程中衍生出的蛋白質(zhì)描述符主要包括基于序列和基于(1)k-order氨基k-order述符反映了蛋白質(zhì)序列中氨基酸的出現(xiàn)頻率[175]?;谖锢砘瘜W性質(zhì)的描述符則利用每個氨基酸的物理(2[176177]Cα[181]。CPI預測模型CPIYY圖23務()回歸)經(jīng)典YCPI提供了一個Y型框架,其中一個分支使用簡化分子線性輸入規(guī)范(Simplifiedmolecularinputlineentrysystem,SMILES)以被整合到這個Y使用注釋作為額外的原始蛋白質(zhì)表示[183]。類似地,DeepConv-DTI[184]用CNN提取蛋白質(zhì)序列的特征表示,并使用摩根指紋表示化合物。MDeePred(進化和理化特性,同時使用圓形分子指紋表示化合物,然后再分別使CNNDNN[185]。工作試圖利用大量未標記的化合物字符串和未標記的蛋白質(zhì)序列來改善序列數(shù)據(jù)的表示。DeepCPI[186借鑒自然語言處理(Naturallanguageprocessing,NLP)。采用(Generativeadversarialnetworks化合物SMILESCNN[187]CNNSMILESMultiDTI[188]獲得基于化合物的圖表示,包括圖卷積網(wǎng)絡(Graphconvolutionalnetok,(rahatetnnetok,isomorphismnetwork,GIN)和用多層一維CNN[189]GCNCNNBLOSUM62示。另外,蛋白質(zhì)也可以通過distancemap[191]contactmap[192]來進首先通過PconsC4[193]contactmap[194][195]。盡管上述方法實現(xiàn)了高精度的CPI”YCPI預n-gram)大多數(shù)基于注意力機制的模型都是分別針對化合物和蛋白質(zhì)設(shè)(圖-3bao等人在N以及(ogor-term關(guān)鍵作用的蛋白質(zhì)殘基和化合物原子。同樣,Abbasi等人提出了DeepCDA[197],將化合物SMILESCNNZhengLSTM結(jié)合多頭注意力模塊來解釋對相互作用形成具有重要作用的關(guān)鍵蛋白質(zhì)殘基[198]。此外,一些研究為化合物和蛋白質(zhì)設(shè)計了聯(lián)合注意力模塊。Y/CNN[199]3-gramCPI的貢獻[200]。ChenTransformerGCNTransformer化合物原子和3-gram氨基酸對于形成CPI的貢獻程度[201。使用了一個額外的關(guān)系感知自注意力模塊來加強藥物化[202]。通常大量的蛋白質(zhì)結(jié)構(gòu)是很難獲取的,但當有化合物-蛋白質(zhì)復合物時,設(shè)計基于復合物的模型有助于CPI的預測。在早期階段,AtomNet直接采用三維CNN-203204]采用不同的三維CNN[205-207]該算法利用兩個相鄰矩陣上的一個共享門增強圖注意力層來編碼原(Element-specificpersistentESPH)[206]-CNN[207]。Y結(jié)構(gòu)。Gonczarek[208]Gomes等人[209]通過擴展YCNN等人建20(圖23c圖2-3基于深度學習的CPI預測模型框架[142]CPI進的基于深度學習的CPI29個集成預測模型13個模(表21)和2(表-1DUD-E、DavisHuman。這些模型的性能通常使用受試者工作特征曲線下面積(Receiveroperatingcharacteristic-areaundercurve,AUC)AUC越[161](1)DUD-E8其中Lim等人(AUC=0.968)[205]5個模型(在vs4lrs=00)(3)在Human數(shù)據(jù)集上調(diào)查了4個模型,其中TransformerCPI[212]是最好的(AUC=0.973)[213]DrugVQA在DUD-EHuman任務中的優(yōu)秀模型包括MONN[161DrugVQA[198Lim[205、TransformerCPI[212]MolTrans[214]。表2-1CPI分類任務預測性能評估[142]數(shù)據(jù)庫方法年份AUC數(shù)據(jù)劃分DUD-ERagozaetal.20170.8683-foldcross-validationDUD-ETorngetal.20190.8864-foldcross-validationDUD-EDrugVQA20200.9723-foldcross-validationDUD-EAtomNet20150.895Train(72targets)Test(30targets)DUD-EGonczareketal.20180.904Train(72targets)Test(30targets)DUD-ETsubakietal.20190.940Train(72targets)Test(30targets)DUD-ELimetal.20190.968Train(72targets)Test(25targets)DUD-EMONN20200.974Train(72targets)Test(30targets)DavisDeepDTA20180.8805-foldcross-validationDavisTsubakietal.20190.8405-foldcross-validation數(shù)據(jù)庫方法年份AUC數(shù)據(jù)劃分DavisDeepConv-DTI20190.8845-foldcross-validationDavisMolTrans20210.9075-foldcross-validationHumanTsubakietal.20190.975-foldcross-validationHumanGraphDTA20200.965-foldcross-validationHumanDrugVQA20200.9645-foldcross-validationHumanTransformerCPI20200.9735-foldcross-validationDavis數(shù)據(jù)集12表2-(oitnynex,I和(Meansquare,MSE)CIMSE越低,在CIMSE方面表現(xiàn)出最佳性能。此外,我們發(fā)現(xiàn)盡管基于注意力機制的模型(例如DeepCDACPI預測表2-2CPI親和力預測任務性能評估[142]方法年份蛋白質(zhì)表示化合物表示CIMSEDeepDTA20181D+CNN1D+CNN0.8780.261DeepCPI20191D+NLP1D+NLP0.8670.293WideDTA20191D+CNN1D+CNN0.8860.262AttentionDTA20191D+CNN1D+CNN0.8930.216GANsDTA20201D+GAN1D+GAN0.8810.276DeepGS20201D+CNN1D+CNN&2D+GAT0.8820.252MDeePred20202D+CNN1D+DNN0.8860.254方法年份蛋白質(zhì)表示化合物表示CIMSEDeepCDA20201D+CNN+LSTM1D+CNN+LSTM0.8910.248DeepPourse20201D+ACC2D+MPNN0.8810.242GraphDTA20201D+CNN2D+GIN0.8930.229DGraphDTA20202D+GNN2D+GNN0.9040.202MATT_DTI20211D+CNN1D+CNN0.8910.227深度學習在苗頭化合物篩選中的發(fā)展前景趨勢與挑戰(zhàn)盡管當前基于深度學習的模型展示了良好的CPI預測性能,但仍然存在如下趨勢和挑戰(zhàn):如何利用大量未標記的化合物和蛋白質(zhì)。無監(jiān)督學習(如eep16]、半監(jiān)督學習(如s[187])和預訓練策略(如DeepAffinity[160])的成功應用表明,利用豐富的未標記數(shù)據(jù)(序列)CPI(由于具有標記的化合物表示數(shù)據(jù)較為稀缺,因此可以通過化合物SMILES[215][216][217](3)Y(例如de[13ep[283D結(jié)構(gòu)可增基于復合物的模型與利用化合物和蛋白質(zhì)序列以及分子圖的模型相3D[161,205,209]DeepSite[219]和DeepSurf[220]CPI預測。CPI196221][161]目前還缺乏統(tǒng)一的標準來系統(tǒng)地評估各種基于注意力模型的可解釋“黑盒””模型[222]-實際應用CPI/CPIDNN的DeepScreening[224]BindScopeCNN的/CPI3C[225]TranScreenGCNp53Medicine2019236461DDR1202149ExscientiaAl技術(shù)tp/exsiniai21年430(DRUGAIDF-006)從靶點發(fā)現(xiàn)進入臨床的全球首創(chuàng)新藥(https://www.drug-farmcmom。anN和([28iu(-N鑒定了五種抗骨質(zhì)疏松癥生物活性天然產(chǎn)物[229]。這些案例都證明了深度學習技術(shù)能夠快速發(fā)現(xiàn)新的活性化合物并產(chǎn)生新的苗頭/先本章小節(jié)CPI篩選是活性化合物篩選及尋找苗頭化合物過程中的重要環(huán)CPICPI分子指紋和不同的描述符以及基于序列和基于結(jié)構(gòu)的描述符的蛋白YY究對比了各類預測模型的性能。最后,總結(jié)了當前基于深度學習的CPI第3章人工智能與藥物從頭設(shè)計基于人工智能的藥物從頭設(shè)計概述從頭藥物設(shè)計是根據(jù)靶點結(jié)構(gòu)直接構(gòu)造出形狀和性質(zhì)互補的全等計算方法對藥物科學研究的滲透,催生了計算機輔助藥物設(shè)計(ComputeraideddrugdesignCADD)CADDCADD基礎(chǔ)。例如,第二章中所提到的公共化合物數(shù)據(jù)庫PubChem[230]、Ch[31]、uak[32]以及id數(shù)據(jù)庫23](此外還有DrugMatrix數(shù)據(jù)庫[234]和PharmGKB數(shù)據(jù)庫[235]600)CADD技術(shù),靶CADD(loss深度生成模型與小分子藥物從頭設(shè)計索。小分子藥物合理結(jié)構(gòu)的生成模型((Recurrentneuralnetwork,RNN)模型,僅使用了數(shù)據(jù)庫0.1%的樣本就能重建恢復出68.9%的分子樣本的結(jié)構(gòu),可見深度學習模型對于分子結(jié)構(gòu)分布具有Mahmood等人[237]passingneuralnetwork,MPNN)滿足生化性質(zhì)要求的小分子藥物生成模型藥物分子進入人體組織器官發(fā)揮作用的前提條件是需要滿足一SMILES通用思路是使用神經(jīng)網(wǎng)絡的序列模型來學習分子生成策略的概率分布,而后使用各種不同的優(yōu)化算法對分子生成策略作進一步提升。ChemTS模型[238]就將分子生成任務建模為馬爾可夫序列決策問題,RNNPr(Xi|X1,2,…,i-1),此過程也同時包含了SMILES((tecarotreeseach,S針對SMILESSMILES序列對UCTRNNrolloutPopova等人[239]略梯度算法調(diào)整后的生成模型所生成分子的生化性質(zhì)與原本的隨機[240]RNN295%perceptron,[241]Kusner等人[242](contextfree模型能夠藥物的二維分子圖是基于分子的原子-化學鍵型的表示形式,研(GraphneuralnetworksGNN)模型[243]同樣使用不同于前文提及的方法[241],該方法的輸入輸出均為圖結(jié)構(gòu),利用圖Jin等人[244]編碼器將分子表示成若干亞結(jié)生成的分[245]Li等人[246]GCPNMolGAN(ReinforcementlearningGCPN[247]ol[48整合了cv(vuinlgrphnualnetok、對抗性生成網(wǎng)絡和強化學習目標,以生成具有所需特性的分子。MolGANMolGANGCPN通過一子生成很有效。另一類重要的深度生成模型是自回歸流(uorgrsvelrph29Xie[250]MARSC3)C(Proposaldistribution)x0xt-1q(x’|xt-1)x’A(xt-1,x’)x’[243],RSMPNNMARS基于靶點蛋白結(jié)構(gòu)的小分子藥物生成模型前者是在已知的化合物分子庫中通過計算手段直接搜索篩選得到針期開發(fā)和維護藥物從頭設(shè)計程序系統(tǒng)LigBuilder,經(jīng)過四代發(fā)展的LigBuilder系統(tǒng)已拓展到針對多靶標的藥物設(shè)計和共價化合物設(shè)計[251,252]。浙江大學侯廷軍課題組[253]通過對計算模擬方法以及體內(nèi)/體Grechishnikova等人[254]Transformer模型將基于蛋白的分子設(shè)計轉(zhuǎn)變?yōu)橐粋€“翻譯任務”,即將蛋白序列看作“”,SMILES看作“”SMILESTransformer,Transformer采用注意力機制,能夠捕獲長序列之間(如蛋白序列)Zhavoronkov等人[255]GENTRL(Generativetensorialreinforcementlearning)GAN(DDR1)AI21DDR14064DDR1空間結(jié)構(gòu)是決定藥物分子性質(zhì)和理解其在真實物理世界中進行間結(jié)構(gòu)特征對于分子生成至關(guān)重要。Fabritiis等人[256基于LIGANNBicycleGAN通過一個捕獲網(wǎng)絡最終生成SMILESXu[257](uobtrRNNLuo等人[258]k進行網(wǎng)格狀的采樣近似地得到不同種類原子在口袋空間中分布的條DeepLigBuilder模型[259](LigandneuralnetworkMCTSL-Net3D3DL-NetL-NetMCTS3DMCTSMCTSseeco的可能操作(pnon,并執(zhí)行olut以生成其余的分子結(jié)構(gòu)(iltnQ值。其中,研究人員使用了smina軟件提供的對接得分作為獎勵函數(shù)。MCTSL-Net性好且易于合成的分子。以主要蛋白酶Mpro者使用DeepLigBuilder完成了針對MproDeepLigBuilder[260]模3DRGBCNN3D1/5解碼器,從而生成具有靶點結(jié)合特性的分子SMILES深度生成模型與大分子藥物從頭設(shè)計隨著科研人員在代謝通路、病理機制、大分子的結(jié)構(gòu)和作用等分2021基于深度學習的核酸類藥物設(shè)計mRA原性強、核酸序列設(shè)計和改造的速度快等優(yōu)點而日益受到關(guān)注。在mRNA5’3’UTRmRNA200mRNA和提取序列中隱含的特征,從而可以為濕實驗提供預測和指導,使mRNASeelig[262](MassivelyparallelreporterassaysMPRA)mRNA5’-UTRmRNA序列表達CNN度生成模型等方法結(jié)合來生成序列。采用了上述類似的思路,等人[263基于巨量平行報告基因檢測(Giganticparallelreporterassays,GPRA)進行順式調(diào)控元件設(shè)計,通過GPRA得到mRNATransformerTransformer等人[264]設(shè)計(stneihtmtix,別根據(jù)兩個PWM采樣生成出兩條mRNAHu等人[265]于預測密碼子對應的核糖體密度,因而模型可用于設(shè)計高產(chǎn)能的mRNA序列?;谏疃葘W習的蛋白和多肽設(shè)計蛋白質(zhì)和多肽設(shè)計是生成與具有所需功能的蛋白質(zhì)和多肽相對在使用自回歸模型方面,Ingraham等人[266]開發(fā)了StructuredTransformer模型,模型的編碼器將表示成主鏈扭轉(zhuǎn)角以及殘基對之間StructuredTransformerRosetta[267]NMR蛋白質(zhì)結(jié)構(gòu)中的正確氨基酸。Strokach等人[268開發(fā)了一種圖神經(jīng)網(wǎng)絡ProteinSolver,其中輸入的節(jié)點屬性和邊屬性分別表示氨基酸對之間ProteinSolverTransformer預測蛋白質(zhì)穩(wěn)定性和親和力的變化。在使用深度生成模型方面,Eguchi等人[269]3D訓練后GANAnandHuang[270]GAN2D矩陣中重建蛋白質(zhì)骨架。Repecka等人[271]在蘋果酸脫氫酶(Malatedehydrogenases,MDH)序列的數(shù)據(jù)集上訓練了一個采用卷積和注意力層的24%型方面,魏冬青教授團隊[272面向免疫原性肽篩選任務開發(fā)了TransMut框架??蚣苡捎糜陔?人類白細胞抗原(Humanleukocyteantigen,HLA)復合物(pHLA)TransPHLA和一個自動優(yōu)化的突變肽(Automaticoptimizationofmutantpeptides,TransPHLAHLA和pHLA嵌入塊(除了序列中氨基酸的種類編碼,還增加了位置編碼來描述序列的位置信息(2)編碼器塊(應用多個自注意力模塊,專(3)(多個全連接層用于預測最終的pHLA結(jié)合得分。將所提出的TransPHLA14種pHLAIEDBHLAHLAAOMPHLA和AOMP程序共同組成TransMutTransformer本章小節(jié)盡管在基于深度生成模型的從頭藥物設(shè)計領(lǐng)域已有不少相關(guān)研CADDAIAI環(huán)。第4章人工智能與藥物重定位藥物重定位概述[273]--方法嚴重依賴于特征工程[275]和領(lǐng)域知識。與傳統(tǒng)的機器學習技術(shù)不藥物重定位數(shù)據(jù)庫KEGG數(shù)據(jù)庫[277],13,7912,653(FDA)-應用程序接口DrugBank表示學習[147]可以讓一個系統(tǒng)使用一套技術(shù)自動從原始數(shù)據(jù)中提取特征或發(fā)現(xiàn)分基于序列的表示基于序列的表示方法可以克服部分現(xiàn)有的蛋白質(zhì)/靶點結(jié)構(gòu)數(shù)據(jù)SMILES[279],它是一種基于化學鍵規(guī)則的拓撲信息的(圖-1[80(圖41orec來生成化合物的嵌入表示[282]。雖然這些方法取得了很好的效果,但(圖-1。圖4-1藥物表示法20((NLPdoc2vec[284]3-gramword2vecskip-gramEthanRNNStrodthoff等人[285]DeepMindAlphaFold[286]已經(jīng)發(fā)布了基于基因序列的蛋白質(zhì)三維結(jié)構(gòu)預測,其將訓練時間壓縮到了幾天內(nèi),而傳統(tǒng)的實驗方法可能需要數(shù)月的時間。最近,DeepMindAlphaFold2[287]。圖4-2靶點表示法基于網(wǎng)絡/圖的表示學習最新的多組學技術(shù)和系統(tǒng)生物學方法生成了大規(guī)模的異質(zhì)生物網(wǎng)絡,為開發(fā)基于圖或網(wǎng)絡的藥物重定位方法提供了機會[150]。由于基于圖的表示方法逐漸成為提高藥物重定位性能的一種新型解決方案。最近,圖神經(jīng)網(wǎng)絡(GNNs)已經(jīng)發(fā)展為圖相關(guān)任務的最先進方[288289]絡的優(yōu)勢在于通過考慮相鄰結(jié)點的結(jié)構(gòu)和聚合各層之間的消息來自字符串可以通過RDKit轉(zhuǎn)換(4-2c。對于蛋白質(zhì)而言,可以將蛋白質(zhì)的各種非氫原子表示為蛋白質(zhì)圖的頂點,并且這種表示方法在構(gòu)造上具備旋轉(zhuǎn)不變性。ProteinGCN[290]有效地利用了原子間的方向和距離,并通過圖卷積的(圖42GNNs例[292][293][294]。的連續(xù)實值表示可以用來生成luxA藥物重定位的深度學習模型藥物重定位工具通常歸類為“以靶點為中心”和“以疾病為中心”--圖43深度學習模型的架構(gòu)((G(((KGE)[297];(c)全連接深度神經(jīng)網(wǎng)絡()()遞歸神經(jīng)網(wǎng)絡()()卷積神經(jīng)網(wǎng)絡(以靶點為中心的模型目前,許多深度學習方法被應用于發(fā)現(xiàn)基于分子結(jié)構(gòu)的藥物-靶藥物-(Drugtargetinteraction預測[184]PCMDNN(4-3d)DTISMILEECFP和Mol2vec[281]嵌入的向量以及GNN和CPI預LSTMGCN(4-3a)[300]-CPI模型[212]仍然存在一些局限性,例如分割方法以及隱藏的配體偏差,會導致模型的預測性能偏高。為了解決這些局限性,出現(xiàn)了一個名為TransformerCPItransformer架構(gòu)[301][212]等人[302]完成法預測新的DTI預測方NeoDTI[303]。NeoDTI的特征,Zeng等人[150]使用正無標記矩陣來預測新的DTI,稱為deepDTnet,它集成了大型生物醫(yī)學網(wǎng)絡數(shù)據(jù)集用于靶點識別,并最deepDTnet在0.963AUC指標。此AOPEDFDTI[304]9LINE[305](LINE1stLINE2nd)(上述大多數(shù)研究都集中在二元分類任務上,其目的是確定藥物-位回歸任務更具挑戰(zhàn)性。例如,Karimi等人提出了一種名為DeepAffinity[306]。DeepAffinityRNN(4-3e)CNN(N而不是CNNRifaioglu等人[185]以疾病為中心的模型識別藥物-疾病對之間的相互作用對于以疾病為中心的藥物重定的方法被用于相似letve,A)[308]進行非線性分析,提高了藥物-疾病相互作用預測的準確性。同時,Xuan等人[309]CNNLSTM的藥CNN--BiLSTM基于網(wǎng)絡的方法通過結(jié)合不同生物網(wǎng)絡之間的圖形信息來進行等人[291](種基于網(wǎng)絡的深度學習方法10(圖-3deepDR等人GCNMohamed等人[312](Knowledgegraphembedding,KGE模型評估方根誤差(otmanuardero,E、平均絕對誤差(eabsoluteerror(Consistencyindex[89RM[85]通過取預測和實際值之間的平方差的平均值的平方根來衡量誤差的CI[185]-(curaAUC、精確召回曲線下面積(Areaundertheprecision-recallcurve,AUPR)F1-scoreAUPR在PR曲線[150]F1分數(shù)[307]有多少被預測正確了。最近,第一個統(tǒng)一框架TherapeuticsDataCommons(TDC)[313]發(fā)布了,它能夠系統(tǒng)地評估整個治療領(lǐng)域的機器學習模型的性能。ZengdeepDTnet(ROR-γt720萬(2.2((Coronaryarterydisease藥物重定位的應用[316][317]COVID-19I-19(圖-圖4-4基于深度學習的藥物重定位架構(gòu)示意圖,用于開發(fā)新的宿主靶向治療以COVID-19病毒-宿主蛋白-蛋白相互作用組的角度來看,經(jīng)批準的針對特定人類蛋白質(zhì)/COVID-19提COVID-19可能與人體細胞和組織共享生理特性。2021913COVID-192.24400COVID-19COVID-19/蘇氨酸和酪氨酸激酶作為潛在靶點的重要性,并通過計算確定了幾種候選藥物(即多沙普蘭、達沙替尼和利巴韋林)對患有COVID-19COVID-19th37個Mpro[319]MathDL71MProDeepCE圖神經(jīng)網(wǎng)絡和多頭注意機制[300]來預測受化合物干擾的化學亞結(jié)構(gòu)-基因和基因-基因關(guān)聯(lián)。DeepCE使用了一種數(shù)據(jù)增強方法[320],從L1000<0.7)DeepCEDeepCECOVID-19過計算確定了一組符合COVID-19[321]。COVID-19(-靶點識別的網(wǎng)絡平臺--(斯汀和CI-9預測都于COVID-19患者。另外,Zeng等人開發(fā)一種基于網(wǎng)絡的綜合性深度學習方法Cov-KGE[324]。該團隊在PubMed數(shù)據(jù)庫的基礎(chǔ)上,利用CoV-KGE構(gòu)建了一個全面知識圖譜,涵蓋了39種類型1500萬條的連接藥物、疾病、蛋白質(zhì)/基因、通道和表達的邊,使用COVID-19試驗數(shù)據(jù)作為驗證集。CoV-KGE已被證明在識別可用于COVID-19的可重用藥物方面具有很高的性能,它確定了41COVID-19的高置信度可再用藥物(包括地塞米松[325]和褪黑素富集分析SARS-CoV-2感染的人類細胞基因表達和蛋白質(zhì)組數(shù)COVID-19注冊數(shù)據(jù)庫發(fā)現(xiàn),褪黑激素的使用與SARS-CoV-2實驗室檢測結(jié)果呈陽性的可能28%相關(guān)[326]。數(shù)據(jù)庫中,至少有8項臨床試驗即將或正在進行中,以測試褪黑激素在COVID-19治療中的臨床效果。將計算策略和真實的患者數(shù)據(jù)驗證相結(jié)合,將挖掘出更多有潛力的可重用候選藥物[327]BenevolentAI的知識圖譜[328]中,baricitinib被篩選為可能治療COVID-19的候選藥物。針對COVID-19患者的幾個II期隨機雙盲試驗(單獨使用baricitinib進行治療或baricitinib與現(xiàn)有抗病毒藥物聯(lián)合治療的試驗)也正在進行。最近,在一項3期、雙盲、隨機和安慰劑對照試驗中,baricitinib與降低COVID-19住院成人患者的死亡率呈相關(guān)關(guān)系[329],這是深度學習方法用于COVID-19藥物重定位開發(fā)的首個成功案例。COVID-19患者涌入世界各地的醫(yī)院,醫(yī)生們正在努力尋找有效的抗病毒療法來拯救生命。深度學習方法為快速開發(fā)有效的COVID-19大流行治療干預措施提供了希望[329]。深度學習方法可以最大限度地縮小臨床前檢測結(jié)果和臨床結(jié)果之間的轉(zhuǎn)化差距,這是快速制定針對COVID-19大流行的有效治療策略的一個關(guān)鍵問題。從轉(zhuǎn)化的角度看,深度學習工具如果得到廣泛應用,也可能有助于制定其他復雜人類疾病的有效治療策略,包括進一步的大流行和其他新出現(xiàn)的傳染病。本章小節(jié)對于即將到來的大數(shù)據(jù)驅(qū)動的藥物研究和藥物發(fā)現(xiàn),尤其是在藥第5章人工智能與藥物屬性預測人工智能與藥物屬性預測概述2614年的上市[331]。樣得到的的模型優(yōu)于傳統(tǒng)的定量構(gòu)效關(guān)系(Quantitativestructure-activityrelationshipQSAR)方法。10DistributionMetabolismExcretion、oiit,1[334335]多肽藥物屬性預測(0(500及臨床試驗結(jié)果表明,一部分海洋衍生多肽有助于人類癌癥的治療[336-339]。[340341][342]。[344];抗炎肽最近被用作抗炎劑治療阿爾茨海默氏病和類風濕性關(guān)節(jié)炎等[345]各種炎性疾??;細胞穿膜肽被證明是將藥物遞送到細胞中的轉(zhuǎn)運載體[346]。與傳統(tǒng)的基于蛋白質(zhì)的生物藥物相比,多肽類藥物具疫特性對于發(fā)現(xiàn)新穎且有效的治療肽具有重要意義。[334347]設(shè)計計算方法從數(shù)據(jù)中提取有效信息以構(gòu)建多肽數(shù)據(jù)與活性之間的[339347348]。多肽屬性預測方法[349]。作為一種用于確定待測序列和數(shù)據(jù)庫中已知序列的相似性的序ng等人[351]集((reinbicoalinentsarhtool)工具[352]計算查詢肽和訓練集中每個肽之間的高比值片段對(High-scoringsegmentpairs,HSP)得分,若訓練集某一個肽與查詢肽之間的得分最高,則該訓練集的肽與查詢肽類別一致。Ng等人[353]采用與上述序列比對類似的方法建立了一種預測對BLASTP建立序HSPHSP出雞中潛在的新型抗菌肽,Xiao等人[354利用多序列比對算法ClustalW,計算具有和不具有最后一個外顯子序列的所有已知cathelicidin前體之間的氨基酸差異比例,然后采用鄰接法[344]構(gòu)建系cathelicidin[349]和Hilpert開發(fā)了一種基于模糊的技術(shù)用于抗菌肽數(shù)據(jù)集的可視化和基的1,609[355][356]。[349]。Loose等人[357]TEIRESIAS算法[358]LooseAPD[359]等人[360]為了開發(fā)一種預測抗菌肽防(Protein法[361](ReducedaminoacidalphabetRAAA)(Incrementof(ID_RAAA)的n((????-????-????-防御素)。基于語言模型的方法將抗菌肽序列看作由不同字符組成的句子,從中學習并建立有效的語法規(guī)則,進而用于下游預測任務。由于基于等人[362]Holton等人[363]N-to-1N(N530研究難點藥物屬性預測最新研究進展基于元學習的多肽藥物生物活性預測足1標大多數(shù)現(xiàn)有的利用工程特性的方法都是針對特定的功能肽設(shè)計HeMIMML方法。MIMML[364]是一個通過聯(lián)合優(yōu)化最大化互信息與最小化交叉熵以改進現(xiàn)有的元學習(roe)[65圖51()MIMML2()t[366所有基類上進行監(jiān)督預訓練;(4)使用來自各種功能肽的少量樣本,MIMML圖51IL((基于多通道卷積的xN作()()優(yōu)化模塊,根據(jù)交叉熵損失和互信息損失進行優(yōu)化?;趫D神經(jīng)網(wǎng)絡的多肽毒性預測80[367]。[368]。序列毒性30(2(e的算法選取也是任意的,沒有固定的標準,這可能會影響預測性能。545[371]的多肽序列的各種統(tǒng)計特征來區(qū)分有毒和無毒的多肽[372]。這類方法5-2Pan等[375]。圖52TE的流程圖。TE(1)序列處理模塊,可以從PSSMPSSM中將得到的特征表示輸入以生成預測的毒性概率。本章小節(jié)2060QSAR發(fā)現(xiàn)操作都依賴于藥物屬性預測模型來指導藥物分子的搜索和屬性第6章人工智能與藥物相互作用預測人工智能與藥物相互作用預測概述(hrmac,(haracitis,)(PharmacodynamicsDDI的發(fā)生[377378](ADME)PKDDI[379];PDDDI[380](DDI西立伐他汀””等(庫(((人工智能與藥物互作用預測方法基于文獻數(shù)據(jù)的提取方法處理技術(shù)從生物醫(yī)學文獻中提取藥物-藥物相互作用。該類型方法旨2013DDIExtraction挑戰(zhàn)[381382]DDI數(shù)所研究的方法是從文本信息中提取有用的特征來檢測藥物相互作通常設(shè)計一個特征提取器來將原始數(shù)據(jù)轉(zhuǎn)換為合適的表示或特征向基于深度學習的方法則是通過神經(jīng)網(wǎng)絡模型自動學習數(shù)據(jù)的特征表DDI的分類?;谏疃葘W習的方法通常采用技術(shù),使DDI。基于文獻的提取方法中使用的數(shù)據(jù)來源主要是公開的文獻語料lxtacin23ugak和l792DrugBank233個MEDLlNE摘要組成。DrugBank提供了廣泛的與生化和藥理學信息相關(guān)的文檔。MEDLINEDDlExtraction2013DDIDDI建)和int(。DDIDDI識別DDI(即mehnsmefectaicen基于傳統(tǒng)分類器的方法通常使用SVMDDI于SVMChowdhury等人[384]SVMDDIExtraction2013Kim等人[385]使用詞匯和句法特征推廣線性內(nèi)核模型,線性內(nèi)核提供了強大DDI提取方法CNN經(jīng)網(wǎng)絡RNNDDI提取。DDI[386]CNNDDILiu[164]提出了一種基于CNNDDI輸入CNNDewi等人[387]DeepCNN10層CNNDCNN[388]DCNN,其改等人[390](char-RNN)來完DDIRNNRNN的輸入是在字符嵌入上使用LSTM[393394]NLPDDI提等人[395]提出了一種具有注意力機制的雙向RNNCNNRNN[396]CNNRNNShen[397]Drug2vec來學習表示,該方法使用CNN來捕Bi-LSTM等人[398]GRU-CNNGRUCNNGRU用于N及其變體的性能優(yōu)于使用[384385399]DeepCNN[387]TransformerDDI基于藥物關(guān)聯(lián)數(shù)據(jù)的預測方法基于藥物關(guān)聯(lián)數(shù)據(jù)的預測方法利用數(shù)據(jù)庫中已知的藥物-藥物相網(wǎng)絡DDI預DrugBankSIDERTWO-SIDESOFFSIDES。DrugBankFDA藥物,是一個整合了生物信息學和化學信息學資源的藥物知識庫。是一個包含F(xiàn)DASIDER提供了有關(guān)已上市藥物及其記錄的藥物不良反應的信息。TWOSIDES是Tatonetti[400]DDI64563,473438,802建預測模型提供了異構(gòu)和多模態(tài)數(shù)據(jù),這些數(shù)據(jù)集也被廣泛應用于DDIDDI基于傳統(tǒng)分類器的預測方法通常利用藥物之間的相似性和相異AB用,并且藥物C與藥物A相似,那么藥物B和藥物CDDI的概Cheng等人[405](oiicrgrson,B(和Kk-earstnibo,Qian[406]基于深度學習的預測方法主要是應用深度學習技術(shù)提取深層的特征來預測潛在的DDI。目前,廣泛使用的技術(shù)包括深度神經(jīng)網(wǎng)絡(、圖嵌入raphebdn()及其變體。的方法通常利用各種藥物數(shù)據(jù)并使用深度神經(jīng)網(wǎng)絡模型來構(gòu)建預測DNNDDI預等人[408]等人[409]等人[410]進DDI開發(fā)了許多基于圖的嵌入方法來解決生物醫(yī)學問題[411-413]模(即構(gòu)建分子圖Ma等人[414]基于Zitnik等人[415]--Lin等人[416](的關(guān)系[417]等人[418]同時對知識圖譜和其它異DDI[409410]DDI[405419-421][422-424]DDI(SingularvaluedecompositionSVD)Rohani[422]ISCMFDDI矩陣8個Shtar[425]已知DDI作為輸入來預測潛在的方法,即鄰接矩陣分解(。F-Adam等人[426]將基于藥物特征的流形正則化引入矩陣分解以進行DDILiu[427]CLML(-基于網(wǎng)絡傳播的方法通常是收集生物醫(yī)學網(wǎng)絡中的屬性和結(jié)構(gòu)DDI(Probabilisticsoftlogic,Zhang等人[431]開發(fā)了一個綜合標簽傳播框架,考慮到高階相似DDIPark等人[432](Protein-proteininteraction(Randomwalkwithrestart來模擬PSLrelationallearningSRL)等人[434]PSLDDIPSL預測。DDI預測。等人[435]DDI量,通過計算加權(quán)和得到不同類型路徑的最優(yōu)組合。[436]。[400]。Zhang等人[420]采用三種具有代表性的方法來構(gòu)建基于各種藥物Deepika等人[438]node2vec將學習的算法將特征向量分別送入baggingSVM。作者訓練了一個baggingSVM人工智能在藥物相互作用預測中的發(fā)展前景構(gòu)建標準數(shù)據(jù)集DDIDDI(PU等人[421]通LPU算法[439]PUDeepika等人[438]應用baggingSVM[440]DDI,藥物事件預測盡管許多基于機器學習的藥物相互作用預測方法已經(jīng)取得了巨6-1ItraconazoleDabrafenibAbemaciclib圖6-1藥物互作用事件[418]等人[408]將DrugBank86Deng等人[410]定DrugBank65種主要事件用于分析。表6-1概括了多種藥物事件數(shù)據(jù)集的統(tǒng)計資料。表6-1藥物事件數(shù)據(jù)集數(shù)據(jù)集構(gòu)建者藥物數(shù)目藥物互作用關(guān)系數(shù)目藥物事件類型數(shù)目Tatonetti等人[400]64563,4731,318Ryu等人[408]1,704191,40086Deng等人[410]57274,52865藥物事件數(shù)據(jù)集中的類別不平衡問題給分類器的性能帶來了嚴峻挑預測高階藥物相互作用藥物組合是提高治療效果和降低毒性的有效方法[441],這已成為治愈疾病的主要治療策略[442]。在過去的幾年中,大多數(shù)方法都集中DDIDDIDu等人[444]通過病歷數(shù)據(jù)庫挖掘高階藥物相互作用對肌病的定DDIZhang[445]通過經(jīng)加。整合多源數(shù)據(jù)分析DDI和藥物特本章小節(jié)第7章藥物發(fā)現(xiàn)中的大規(guī)模預訓練模型分子表征式理解分子真實的情況,進而達到對分子建模的目標。在早期的QSAR[446,447]研究中,傳統(tǒng)機器學習模型的弱學習能力只能對目標關(guān)因此基于分子描述符的分子研究嚴重依賴于專家的背景知識。針對AIAI/SMILES[279]是一種線性的分子表示方式,最早由Arthur與DavidSMILESSMILESNLPSMILES逐漸成AI然而SMILES的簡易性與高效性是通過犧牲對于分子結(jié)構(gòu)的直SMILESSMILES的規(guī)則可以完整復原出分子原本的SMILESSMILES輸入的SMILESSMILES中可能會被一長段支鏈所隔AISMILES的分子生成工作需要長期面對生成的分子不滿足SMILESSMILESSMILES之(MoleculeSMILESAI預訓練AI藥(Computer人工智能模型的本質(zhì)是對數(shù)字的運算,因此進行自然語言研究的one-hotone-hotn為0one-hotword2vec[282451]embeddingword2vec間具有一定關(guān)聯(lián)性、通過跳字模型(Skip-gram)與連續(xù)的詞袋模型(Continuousbagofwords,CBOW)來對詞的語義進行學習。使用word2vecembeddingword2vec”NLPword2vecword2vecembedding進word2vec學習與理解。隨后提出了用于解決上述問題的預訓練思想。從word2vec的變化僅發(fā)生在embeddingGPT[454]。與word2vec將詞表示為一條連續(xù)的向量并作為一種顯式的embedding一種隱式的embeddingembedding練過程學到的語義信息通常需要使用原始模型在特定的任務上進行12分子預訓練NLPword2vec(lec21PMaskLanguageModel的分子預訓練MaskLanguageModel(MLM)NLP領(lǐng)(a再使用transformerMLMNLP了MLMSMILES-BERT[455]首先將MLM應用在SMILES這一分子表示方式上,以解決模型對于SMILES對輸入SMILES中的全部15%個transformerencoder對被遮蓋的token進行復原。隨后的SMILESMLM之外加入了對兩條SMILES200條分子特性的PhysChemPred雖然沿用了SMILES-T的單ISmkImask中每一條SMILES只有一種mask情況。結(jié)合了優(yōu)化后的訓練方法,相較于展現(xiàn)出了顯著的性能優(yōu)勢。ChemFormer[458]transformer的encoder+decoder結(jié)構(gòu)對被mask的SMILES進行復原。與此前的encoder-based工作不同,ChemFormer將MLM中分子信息提取與maskedtokenencoderdecoder回歸模式的decoder除了SMILES,也有基于分子圖的預訓練工作采用了MLM這一MG-BERT[459]、Grover[460]MPG[216]。MLMAIGrover對分子圖進行了兩個層面上的maskmaskmask中,maskmaskmaskmask的化學mkver也在motifMPG子層面的MLM,但額外加入了成對的半分子圖區(qū)分(Pairwisehalf-graphdiscrimination,PHD)任務。PHDMLM進行分子預訓練。相關(guān)工作如Dual-viewMoleculePre-training(DMP)[461],SMILESDMPSMILES中tokenmaskmaskmaskMLMMLMDMP使用了一基于生成式模型的分子預訓練MLMmask部分的“”masktoken都能觀察到它前面與后面的tokenMLM-based模型中的雙向運算機制使得這類模型在性質(zhì)預測相關(guān)的任務中往往MLM-based。X-MOL[462]、PanGu[463]等。X-MOLSMILESSMILESSMILES來達到理解SMILESPanGuSMILES有一些研究使用分子的SMILES基于對比學習的分子預訓練研究同樣可以借助這樣思想進行預訓練工作,例如基于SMILESMM-Deacon[464]MolCLR[465]、MoCL[466]MM-Deacon轉(zhuǎn)為SMILES與(InternationalunionofpureandappliedSMILES與MM-Deacon求最小化同一分子間的表征差距,并最大化不同分子間的表征差距。MolCLRMolCLRMoCL與MolCLRMoCLMoCL230motif維度基于幾何特征的分子預訓練AIGeomGCL[468]、GEM[469]Uni-Mol[470]等。GeomGCLGeomGCL認為對GEMGEM接收分GEMUni-MolUni-Mol在模Uni-Mol沿用了MLMmaskUni-MolUni-Molofthe-基于領(lǐng)域知識的分子預訓練MoLR[471],以及上文MoCLMoLRMoLRMoLR的訓練MoLR(包括小分子與大分子分子預訓練范例X-MOL作為范意的點。確定預訓練任務與模型結(jié)構(gòu)X-MOLSMILESX-MOL提出以IS的語法規(guī)則”與“模型可以將一條SMILES為一條子的另一條I-LX-MOL如何設(shè)計其模型結(jié)構(gòu)。為盡可能地保證輸入端與輸出端對IS-MOL采用共享參數(shù)的方式強制使Encoder與Decoder保持相同的SMILESattentionmask的方式在一個Encoder模型內(nèi)實現(xiàn)了Encoder與Decoder輯上的Encoder-DecoderEncoderDecoderX-MOL7-1圖7-1X-MOL模型架構(gòu)圖構(gòu)建運算平臺X-MOLZINC15[472]X-MOLHadoopX-MOL下對如此大規(guī)模的數(shù)據(jù)進行預處理。在數(shù)據(jù)預處理的過程中,超過1000CPURDKit[473]來完成。L中所有模型均使用百度的dleadle百度公司的PaddleCloud16P40GPU(24GB)4-8P40GPUX-MOL的單次預4設(shè)計微調(diào)策略預訓練模型需要被微調(diào)至具體任務中才能體現(xiàn)出其預訓練階段具體下游任務的微調(diào)策略將決定預訓練工作是否具有實際的應用價X-MOL將X-MOL7-2areadoutreadout/([BOS]例如X-MOL在被微調(diào)至所有預測任務時,“Decoder”部分被完全刪X-MOLEncoder-DecoderEncoder結(jié)圖7-2X-MOL的微調(diào)方法示意圖由于分子生成任務與分子性質(zhì)預測任務在內(nèi)部計算的方向上有這里所說的無法被微調(diào)并不指工程上無法將模型應用于分子生成任X-MOL7-2b模型微調(diào)與評估預訓練工作的最后部分是將模型微調(diào)至各個具體的下游任務中,根據(jù)不同的模型在不同任務中的實驗結(jié)果對預訓練工作進行全面的(冷,用于排除預訓練模型結(jié)構(gòu)來帶的影響。-MOLAI本章小節(jié)MaskLanguageModel的分后,以X-MOLAI第8章藥物發(fā)現(xiàn)中的可解釋人工智能模型藥物發(fā)現(xiàn)中的可解釋人工智能模型概述AI2021”(Unitedna
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度教育機構(gòu)內(nèi)部“2024版內(nèi)通辦”教育資源共享合同4篇
- 二零二五年度中小企業(yè)技術(shù)改造擔保借款合同樣本4篇
- 二零二五年度內(nèi)蒙古自治區(qū)農(nóng)牧廳農(nóng)業(yè)人才培養(yǎng)與引進合同3篇
- 二零二五版鎳礦市場調(diào)研與信息服務合同4篇
- 2025年度標準門面租賃合同及租賃期限延長及續(xù)租條款3篇
- 2025年度苗木種植與現(xiàn)代農(nóng)業(yè)園區(qū)建設(shè)合同4篇
- 二零二五年度“農(nóng)業(yè)科技”菜園智能化溫室建設(shè)合同3篇
- 2025年度農(nóng)戶綠色農(nóng)業(yè)發(fā)展基金合同4篇
- 二零二五年度體育賽事賽事品牌合作開發(fā)與推廣勞務分包合同
- 二零二五版文化產(chǎn)業(yè)投資內(nèi)部股東全部股權(quán)轉(zhuǎn)讓與合作開發(fā)合同4篇
- 足浴技師與店內(nèi)禁止黃賭毒協(xié)議書范文
- 中國高血壓防治指南(2024年修訂版)要點解讀
- 2024-2030年中國光電干擾一體設(shè)備行業(yè)發(fā)展現(xiàn)狀與前景預測分析研究報告
- 湖南省岳陽市岳陽樓區(qū)2023-2024學年七年級下學期期末數(shù)學試題(解析版)
- 農(nóng)村自建房安全合同協(xié)議書
- 杜仲葉藥理作用及臨床應用研究進展
- 4S店售后服務6S管理新規(guī)制度
- 高性能建筑鋼材的研發(fā)與應用
- 無線廣播行業(yè)現(xiàn)狀分析
- 漢語言溝通發(fā)展量表(長表)-詞匯及手勢(8-16月齡)
- 高速公路相關(guān)知識講座
評論
0/150
提交評論