AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)

上傳人：策*** IP屬地：山西上傳時間：2024-03-03 格式：DOCX 頁數(shù)：12 大小：86.72KB 積分：19.9 舉報 版權(quán)申訴

AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第2頁

AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第3頁

AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第4頁

AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)_第5頁

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

隨著2006年DeepLearning算法的提出，人工智能(AI)的發(fā)展進入了第三次浪潮。DeepLearning憑借自身優(yōu)秀的信息表征及關(guān)系提取能力，已經(jīng)為計算機視覺(cv)及自然語言處理(nlp)等領(lǐng)域帶來了突破性的進展?，F(xiàn)在，AI的魔力已經(jīng)被逐步引入藥物研發(fā)的領(lǐng)域，并正在深刻地改變這個領(lǐng)域的研究和發(fā)展流程。無論是在早期的藥物篩選、藥物優(yōu)化，還是在藥物的臨床試驗和后期的上市監(jiān)控，AI的應(yīng)用都愈發(fā)廣泛。在上篇"AIfor醫(yī)療"的專題文章“AIfor醫(yī)療:AI大模型在藥物靶點識別中的應(yīng)用”中，我們整體描述了藥物研發(fā)的流程，并介紹了AI大模型在藥物研發(fā)的第一步:靶點識別中的應(yīng)用。這篇文章，我們將延續(xù)這一路線，介紹AI在藥物研發(fā)的第二步:先導(dǎo)化合物發(fā)現(xiàn)中的應(yīng)用。圖1：藥物研發(fā)生產(chǎn)流程，圖片引自[1]傳統(tǒng)方法在先導(dǎo)化合物發(fā)現(xiàn)中的局限性在AI大模型時代到來之前，先導(dǎo)化合物的發(fā)現(xiàn)以實驗方法及計算機輔助藥物設(shè)計(CADD)的方法為主。這些方法都有著一些自身難以解決的問題。實驗方法:當(dāng)前，藥物化學(xué)實驗方法在很大程度上依賴于"試錯法"。這些技術(shù)涉及檢查大量潛在的藥物化合物，以識別具有所需特性的化合物。顯然，這些方法速度緩慢且成本高昂，若是完全基于實驗方法進行藥物虛擬篩選，完成化合物數(shù)據(jù)庫的篩選所需的時間是一個天文數(shù)字。此外，實驗方法還受到可用測試化合物的供應(yīng)和準確預(yù)測它們在體內(nèi)行為的難度的限制。計算機輔助藥物設(shè)計方法(CADD):CADD相較實驗方法極大地加速了先導(dǎo)化合物發(fā)現(xiàn)的速度。在CADD中，先導(dǎo)化合物的篩選被普遍稱為:虛擬篩選(virtualscreening)。他使用基于分子力場或者量子力場的分子對接方式，對數(shù)據(jù)庫中的海量化合物與靶點進行對接，從而依據(jù)自由能最小化等方式，計算靶點與藥物的親和力，完成藥物的篩選?；贑ADD的方法除了能夠加速，還不受化合物是否可以獲得的限制。然而，基于CADD的虛擬篩選存在一個tradeoff，即想要進行精確的篩選需要大量的計算資源和時間，而想要快速的完成篩選，則會損失較大的精度。在藥物發(fā)現(xiàn)這個先導(dǎo)化合物準確率極為重要的領(lǐng)域，大量的計算資源和時間很難避免。曾有研究統(tǒng)計過，若想要對100億個小分子進行令人滿意的篩選，則需要長達3000年的時間。簡而言之，利用CADD進行高精度的藥物虛擬篩選，所需的時間同樣是難以接受的。AI大模型輔助藥物虛擬篩選基于AI的算法，包括監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)，自監(jiān)督學(xué)習(xí)，強化學(xué)習(xí)以及基于規(guī)則的算法，可能有助于解決傳統(tǒng)方法中存在的問題。AI方法通?；趯?shù)據(jù)特征的學(xué)習(xí)。具體來說，就是從大量的已知藥物化合物和非藥物化合物中，去學(xué)習(xí)成藥所需的潛在特征，并依據(jù)這一特征對化合物進行能否成藥的分類。這樣的方法同CADD一樣，是一種虛擬篩選的方法，不受到化合物是否可得的限制。但是相比于CADD，他有著一個巨大的優(yōu)勢，即AI方法并不基于復(fù)雜的物理計算，而是基于已有的數(shù)據(jù)去自主學(xué)習(xí)。這一優(yōu)勢主要的體現(xiàn)便在于，他打破了CADD中的tradeoff，即在高質(zhì)量數(shù)據(jù)的支持下，AI方法能夠做到同時保持高精度以及高速的藥物篩選。然而，高質(zhì)量數(shù)據(jù)這一前提條件十分的苛刻，簡而言之，高質(zhì)量數(shù)據(jù)要求具備兩個特征:1，進行訓(xùn)練的藥物或者非藥化合物涵蓋了大范圍的化合物特征空間，2，藥物針對特定靶點的親和力數(shù)據(jù)十分準確。如果數(shù)據(jù)不符合特征1，則AI方法的泛化性將十分有限，基本無法預(yù)測訓(xùn)練數(shù)據(jù)中沒有見過的化合物種類。如果不符合特征2，AI方法的可信度同樣無法保證。雖然隨著藥物數(shù)據(jù)庫的發(fā)展，高質(zhì)量有標(biāo)簽數(shù)據(jù)變得越來越多，但想要足以支撐高精度的AI模型，數(shù)量還是遠遠不夠的。如常用的藥物親和力數(shù)據(jù)集PDBbind，其包含的蛋白-復(fù)合物條目僅僅24萬左右。這使得數(shù)據(jù)很難覆蓋全部的化合物空間。而大規(guī)模的虛擬篩選數(shù)據(jù)集DUD-E，雖然包含超過100萬個蛋白-復(fù)合物條目，但也因為數(shù)據(jù)自身的質(zhì)量而飽受詬病。隨著transformer模型的出現(xiàn)，人們注意到了利用無標(biāo)簽數(shù)據(jù)對模型進行預(yù)訓(xùn)練可以提高模型的性能，正如目前風(fēng)頭正熱的GPT，GPT利用了大量無標(biāo)簽文本數(shù)據(jù)進行自監(jiān)督預(yù)訓(xùn)練，這些文本數(shù)據(jù)雖然沒有標(biāo)簽，但是數(shù)據(jù)量遠遠多于有標(biāo)簽的數(shù)據(jù)。相應(yīng)的，模型也可以進行大規(guī)模的設(shè)計以適應(yīng)海量的數(shù)據(jù)。這便是AI大模型的由來。經(jīng)過了自監(jiān)督訓(xùn)練任務(wù)，AI模型方法仿佛理解了自然語言的語法，從而為自然語言處理帶來了質(zhì)的飛躍。而在藥物篩選領(lǐng)域，如果我們依照類似的方式，讓AI模型去充分利用海量的蛋白、分子數(shù)據(jù)去進行自監(jiān)督訓(xùn)練，是否也有可能學(xué)習(xí)到分子世界中的"語法"規(guī)則?這種方法的潛在優(yōu)勢在于，它可以利用現(xiàn)有的大量無標(biāo)簽分子數(shù)據(jù)集，就像GPT使用互聯(lián)網(wǎng)上的無標(biāo)簽文本一樣。通過自監(jiān)督學(xué)習(xí)，模型可以無需昂貴的實驗數(shù)據(jù)標(biāo)簽，就能夠識別和理解生物分子的本質(zhì)特性，從而為新穎和強大的藥物發(fā)現(xiàn)機制奠定基礎(chǔ)。如果AI能夠“理解”分子的“語言”，那么它在預(yù)測未知分子活性，以及預(yù)測分子對特定靶標(biāo)的親和力方面的潛力將是無限的。因此，越來越多的自監(jiān)督AI方法被提出以進行藥物虛擬篩選。在這里，我們以近期提出的分子表征大模型Uni-Mol為例，為大家闡述AI大模型是如何助力虛擬篩選的。Uni-Mol:通用分子3D表征模型在藥物設(shè)計等領(lǐng)域，分子自身性質(zhì)的表征對先導(dǎo)化合物篩選而言至關(guān)重要，在給定的藥物靶點先驗下，如果能夠?qū)⒎肿舆M行完美的潛空間嵌入，那么能夠成藥的分子和不能成藥的分子將會自然的在潛空間分隔開，從而便可以非常直觀的進行藥物的篩選。目前已經(jīng)存在許多學(xué)習(xí)分子表征的AI方法，這些分子表征學(xué)習(xí)方法通常將分子視為一維的字符串或二維的圖進行預(yù)訓(xùn)練。然而，分子的三維結(jié)構(gòu)對其性質(zhì)和藥效的影響是至關(guān)重要的。如果僅關(guān)注一維或二維信息，將限制它們在包括三維信息的下游任務(wù)中的應(yīng)用。Uni-Mol的提出正是為了解決這一瓶頸問題，通過構(gòu)建一個可以直接處理三維位置信息的通用學(xué)習(xí)框架，讓AI模型可以充分學(xué)習(xí)到分子的三維結(jié)構(gòu)信息，從而更完美的表征分子。數(shù)據(jù)：Uni-Mol是一個預(yù)訓(xùn)練模型，他可以利用大量的無監(jiān)督數(shù)據(jù)去充分學(xué)習(xí)分子的"自身語法"。作者通過對海量的小分子數(shù)據(jù)進行清洗，獲得了19M個小分子數(shù)據(jù)。對于每個小分子數(shù)據(jù)，使用RDKit創(chuàng)建了該分子的10個三維構(gòu)像，而對于無法創(chuàng)建三維構(gòu)像的分子，作者為其創(chuàng)建了2D構(gòu)像。最終，作者獲得了總計209M個小分子的三維構(gòu)像數(shù)據(jù)，并利用這些數(shù)據(jù)對Uni-Mol進行了充分的預(yù)訓(xùn)練。Uni-Mol模型：基本結(jié)構(gòu)：Uni-Mol模型參考了transformer的骨架。他將分子進行了序列表征以及結(jié)構(gòu)表征，并在更新的過程中不斷以自注意力的方式對兩個表征相互融合迭代。最終，可以以分子的CLStoken來表示整個分子在潛空間的嵌入。Uni-Mol相對傳統(tǒng)transformer的創(chuàng)新主要有兩點：旋轉(zhuǎn)平移不變的空間位置編碼，原子對表征。旋轉(zhuǎn)平移不變的空間位置編碼：Uni-Mol的模型是可以處理分子3D結(jié)構(gòu)信息的Transformer。由于Transformer自身有置換不變性，它在沒有位置編碼的情況下無法區(qū)分輸入的具體位置，而且對于分子來說，位置編碼需要在全局旋轉(zhuǎn)和平移的情況下保持不變。因此，作者以原子對的歐氏距離對原子的位置進行表示，之后經(jīng)過高斯核函數(shù)得到位置編碼。從而實現(xiàn)了旋轉(zhuǎn)平移不變的空間位置編碼。編碼方式記錄在圖2的中圖。原子對表征：通常Transformer只對Token（原子）進行表征，然而由于分子的空間位置信息是在原子對級別上編碼的，原子的成對距離表征也會十分重要。因此Uni-Mol在具體實現(xiàn)中對原子成對距離信息進行了表征。原子對表征的初始化是上文提到的旋轉(zhuǎn)平移不變的空間位置編碼。在更新時，則會把原子token的信息不斷融入。這一空間位置編碼同樣也會不斷地加入到token信息之后，通過充分的信息融合，以達到模型能更充分理解分子"語義"的效果。原子對成對表征記錄在圖2右圖。預(yù)訓(xùn)練策略：與BERT類似，Uni-Mol中也使用了對原子掩碼進行"完形填空"的任務(wù)。然而，由于3D空間位置編碼是有化學(xué)鍵信息泄露的，模型很容易依據(jù)相互間的距離推測出被掩蓋的原子類型，因此單獨對原子掩碼進行預(yù)測并不能幫助模型充分的學(xué)習(xí)到分子"語義"。為了解決這個問題，Uni-Mol設(shè)計了一個基于3D坐標(biāo)的"去噪聲"任務(wù)。即對于被掩蓋的原子，給坐標(biāo)加入[-1?,1?]的均勻分布噪聲，之后模型根據(jù)加了噪聲的坐標(biāo)計算出來空間位置編碼進行原子預(yù)測。這樣一來，對于原子掩碼的預(yù)測任務(wù)就不再可有可無。此外，這里還加入了兩個額外的任務(wù)單元來直接對于原子坐標(biāo)進行預(yù)測：1，基于原子對表征，預(yù)測被掩蓋的原子對的歐氏距離。2，直接預(yù)測被掩蓋的原子坐標(biāo)?；谏鲜龅娜齻€預(yù)訓(xùn)練策略，作者認為可以充分的學(xué)習(xí)到分子的合理表征。圖2：Uni-Mol模型骨架。左圖為整體的pretrain模型及預(yù)訓(xùn)練策略。中圖為模型的輸入，包括分子序列及結(jié)構(gòu)信息。右圖為Block內(nèi)部的計算，圖片引自[2]作為結(jié)果，Uni-Mol達到了充分的分子表征效果。以分子生化性質(zhì)數(shù)據(jù)集MoleculeNet為例，MoleculeNet數(shù)據(jù)集中包括分子的水化自由能，親脂性等生化性質(zhì)任務(wù)，同時也包含了針對特定靶點蛋白的藥物虛擬篩選任務(wù)。Uni-Mol在MoleculeNet14/15個數(shù)據(jù)集上取得SOTA，尤其是在3D結(jié)構(gòu)強相關(guān)的任務(wù)上有著大幅度提升，漲幅甚至可達21%?？梢奤ni-Mol有著極強的小分子表征能力，這對先導(dǎo)化合物的篩選尤為重要。雖然無法確定Uni-Mol是否已經(jīng)學(xué)到了分子的"語法"，但毫無疑問的是，在充分利用了大規(guī)模的無標(biāo)簽數(shù)據(jù)后，模型表征分子的能力進一步加強了，這也進一步證明了充分利用無標(biāo)簽的分子數(shù)據(jù)，將AI模型做大，對分子性質(zhì)表征任務(wù)而言，是有著明顯的優(yōu)勢的。AI大模型在先導(dǎo)藥物發(fā)現(xiàn)中面臨的挑戰(zhàn)貫徹著"AIfor醫(yī)療"系列的一貫理念，我們認為AI對藥物研發(fā)的幫助并非是顛覆性的，而是一種在目前技術(shù)框架下的優(yōu)化和增強。AI在先導(dǎo)化合物的發(fā)現(xiàn)中同樣存在著自身的問題。下文將主要列舉三點。準確性的驗證：不同于大語言模型，來自分子AI大模型的結(jié)果通常難以進行準確的驗證。利用大語言模型進行自然語言處理時，我們可以直觀的去判斷模型返回給我們的答案是否正確，也能依據(jù)模型的結(jié)果進行獎勵建模及強化學(xué)習(xí)。但利用分子大模型進行虛擬篩選得到的結(jié)果，往往涉及到分子具體的藥物性質(zhì)，這是人類無法直觀評價的性質(zhì)，需要昂貴的實驗進行證明。這一問題往往使得分子大模型在實際應(yīng)用中處于尷尬的地位。算法的透明度和解釋性：AI在藥物虛擬篩選中的另一個挑戰(zhàn)是算法的“黑箱”性質(zhì)。復(fù)雜的機器學(xué)習(xí)模型，尤其是深度學(xué)習(xí)模型，雖然在預(yù)測性能上表現(xiàn)優(yōu)異，但其內(nèi)部的決策過程往往缺乏透明度，這對于藥物發(fā)現(xiàn)來說是一個嚴重的問題。因為成藥需要是一個嚴謹且透明的過程，如果不能解釋分子為何有效，那么在實驗證明藥效不及預(yù)期后，甚至不知如何進行優(yōu)化。藥物發(fā)現(xiàn)不僅需要預(yù)測哪些分子可能有效，還需要理解為什么這些分子會有效，以及它們可能產(chǎn)生的副作用。數(shù)據(jù)偏差與不平衡：雖然理想情況下分子大模型能夠能夠充分利用無標(biāo)簽的分子數(shù)據(jù)進行分子表征，之后利用高維的分子表征便可以將分子進行分類篩選。然而實際情況下，模型并無法得到完美的分子表征，因此在實際應(yīng)用中，往往需要對大規(guī)模預(yù)訓(xùn)練進行微調(diào)，從而優(yōu)化分子的表征。而微調(diào)這一過程同有監(jiān)督學(xué)習(xí)一樣，受到數(shù)據(jù)標(biāo)簽偏差的影響。在虛擬篩選這個領(lǐng)域，分子的標(biāo)簽是嚴重不平衡的，因為藥物化合物的數(shù)量實際是遠遠少于非藥物化合物的。這就導(dǎo)致了微調(diào)階段模型可能會不自覺地過度擬合到現(xiàn)有藥物化合物上，造成模型在實際應(yīng)用中的假陰性上升?？偟膩碚f，基于AI的虛擬篩選方法相較傳統(tǒng)的實驗和CADD方法有著突破，他不僅加速了先導(dǎo)化合物的發(fā)現(xiàn)，同時還提高了虛擬篩選的準確率。但毫無疑問，他仍在發(fā)展之路上，即便是現(xiàn)在最先進的分子表征大模型，也無法充分理解分子的語義。同時,數(shù)據(jù)不平衡問題、模型的驗證、以及算法的可解釋性，都是我們必須面對并克服的挑戰(zhàn)。盡管如此，隨著計算能力的提升，算法的不斷優(yōu)化，以及跨學(xué)科合作的加深，我們有理由相信，AI在藥物虛擬篩選中的應(yīng)用將越來越廣泛，其精準度和可靠性也將不斷提升。展望未來，AI大模型輔助的藥物虛擬篩選方法方法將繼續(xù)促進創(chuàng)新藥物的研發(fā)。它是一個誕生于大數(shù)據(jù)時代的工具，也將作為大數(shù)據(jù)時代的代表將藥物篩選由principlebase推向database。這不僅有助于縮短藥物從實驗室到市場的時間，還有望為患者帶來更加個性化的治療方案。隨著AI技術(shù)的不斷進步，我們期待著一個更加高效、經(jīng)濟和精確的藥物研發(fā)新時代的到來。Reference[1]

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)

文檔簡介

溫馨提示

最新文檔

評論

AI醫(yī)療系列二：AI大模型輔助先導(dǎo)藥物的發(fā)現(xiàn)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔