2024年中國(guó)人工智能系列白皮書(shū):人工智能驅(qū)動(dòng)的生命科學(xué)-中國(guó)人工智能學(xué)會(huì)_第1頁(yè)
2024年中國(guó)人工智能系列白皮書(shū):人工智能驅(qū)動(dòng)的生命科學(xué)-中國(guó)人工智能學(xué)會(huì)_第2頁(yè)
2024年中國(guó)人工智能系列白皮書(shū):人工智能驅(qū)動(dòng)的生命科學(xué)-中國(guó)人工智能學(xué)會(huì)_第3頁(yè)
2024年中國(guó)人工智能系列白皮書(shū):人工智能驅(qū)動(dòng)的生命科學(xué)-中國(guó)人工智能學(xué)會(huì)_第4頁(yè)
2024年中國(guó)人工智能系列白皮書(shū):人工智能驅(qū)動(dòng)的生命科學(xué)-中國(guó)人工智能學(xué)會(huì)_第5頁(yè)
已閱讀5頁(yè),還剩231頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

委1 1 1 2 2 3 5 8 8 10 10 11 11 11 12 13 17 17 182.2.1基于無(wú)監(jiān)督機(jī)器學(xué)習(xí)的細(xì)胞 182.2.2基于無(wú)監(jiān)督深度學(xué)習(xí)的細(xì)胞 20 222.3.1刻畫(huà)轉(zhuǎn)錄組數(shù)據(jù)細(xì)胞異質(zhì)性的弱 242.3.2刻畫(huà)表觀組數(shù)據(jù)細(xì)胞異質(zhì)性的弱 242.3.3刻畫(huà)空間轉(zhuǎn)錄組細(xì)胞異質(zhì)性的弱 25 252 26 27 28 31 39 39 40 40 41 42 43 44 47 49 54 54 55 56 58 60 62 67 67 77 83 83 873 88 91 101 101 101 102 102 103 103 105 105 106 107 109 110 112 113 114 118 118 119 119 120 122 124 125 1254 127 127 129 132 132 133 135 140 148 148 151 152 152 153 153 154 154 154 157 158 160 160 161 162 162 163 1635 164 164 1661的細(xì)胞圖譜計(jì)劃對(duì)這些海量單細(xì)胞數(shù)據(jù)進(jìn)行了收集和組裝,形成了HCA[1]、hECA[2]、CZ-cellxge識(shí)到傳統(tǒng)的單細(xì)胞算法難以有效捕捉大規(guī)模單細(xì)胞數(shù)據(jù)集中的生物規(guī)模自監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,賦予其有效地適應(yīng)廣泛在自然語(yǔ)言、計(jì)算機(jī)視覺(jué)和語(yǔ)音處理等領(lǐng)域的基礎(chǔ)模型構(gòu)建中,Transformer模型[4]已然成為了各種基礎(chǔ)模型的骨干網(wǎng)絡(luò)架構(gòu)。Transformer模型具有超群的長(zhǎng)序列處理能力和擴(kuò)展性,能夠充分利正處于早期探索階段[5–12],已有的預(yù)訓(xùn)練模型包括:scBERT、2數(shù)據(jù)編碼過(guò)程主要包括對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的基因及其表達(dá)量進(jìn)行通量測(cè)序技術(shù)的飛速發(fā)展帶來(lái)了大量的單細(xì)胞數(shù)據(jù),hECA[2]、這使得這些內(nèi)容能夠在基因表達(dá)之外,給模型提供更為宏觀的信息;3表格類型的數(shù)據(jù),因此需要將數(shù)據(jù)進(jìn)行轉(zhuǎn)化,從而能夠支持Transformer模型進(jìn)行處理。單細(xì)胞轉(zhuǎn)錄組基礎(chǔ)模型通常將基因視為維度的嵌入空間,然后通過(guò)相同位置編碼逐元素求和得到最終輸入Transformer模型的嵌入。目前對(duì)基因名稱和對(duì)應(yīng)的表達(dá)值存在不同4接地提供表達(dá)水平的信息,另一方面也可以直形成包含了表達(dá)量高低信息的位置編碼。目前的Geneformer模型[8]5BioFormers[9]提出可以通過(guò)非線性地對(duì)高表達(dá)、超高表達(dá)、低表達(dá)的除了基因和表達(dá)值,其他元信息和特殊字符也可以被編碼到的典型代表為BERT及其變體[16,18–20],目前的單細(xì)胞基礎(chǔ)模型67tGPT[10]通過(guò)基因表達(dá)量的高低構(gòu)造了基因的順序,將預(yù)訓(xùn)練任8胞基礎(chǔ)模型大多數(shù)通過(guò)在不同任務(wù)上進(jìn)行微調(diào)執(zhí)行對(duì)應(yīng)任務(wù),scMulan[5]由于在預(yù)訓(xùn)練階段使用了部分元信息,可以在相關(guān)任務(wù)上基因的嵌入表示可以分為數(shù)據(jù)無(wú)關(guān)的嵌入和數(shù)據(jù)相關(guān)的嵌入表9低維空間中單個(gè)細(xì)胞的高質(zhì)量表示是單細(xì)胞各種下游分析的關(guān)變量是極具挑戰(zhàn)性的。Transformer通過(guò)預(yù)訓(xùn)練任務(wù)在未知批次的情如將Transformer的每一個(gè)基因嵌入表示求均值得到細(xì)胞的嵌入表表示可以代表細(xì)胞的嵌入表示。此外,Transformer輸入標(biāo)記的靈活單細(xì)胞基礎(chǔ)模型提取的細(xì)胞嵌入表示在多種下游任務(wù)表現(xiàn)更優(yōu)的單細(xì)胞嵌入表示進(jìn)行微調(diào),從而實(shí)現(xiàn)對(duì)細(xì)胞類型注釋。例如Transformer在泛化到未見(jiàn)數(shù)據(jù)集方面表現(xiàn)出了巨大的潛力,這對(duì)利用具有統(tǒng)一注釋的參考單細(xì)胞數(shù)據(jù)圖譜來(lái)注跨模態(tài)預(yù)測(cè)是使用已知的模態(tài)來(lái)預(yù)測(cè)缺失的模態(tài),例如scM型可以用于在獲取匹配對(duì)照組織具有挑戰(zhàn)性的情況下進(jìn)行對(duì)照組數(shù)單細(xì)胞預(yù)訓(xùn)練基礎(chǔ)模型可以用于推斷基因之間的相互作用和調(diào)征嵌入的相似性來(lái)得出的。Transformer引入了一種新穎的方法,即領(lǐng)域解析空間坐標(biāo)的能力使得這些技術(shù)的整合成為一個(gè)有前景的新目前在單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)上預(yù)訓(xùn)練得到的基礎(chǔ)模型在零樣本和要方向。此外,對(duì)于單細(xì)胞基礎(chǔ)模型中的涌現(xiàn)現(xiàn)象https://elifescience[2]ChenS,LuoY,GaoH,LiF,ChenY,LiJ,etal.hECA:Thecell-centricassemblyofacellatlas.iScience2022;25:104318./10.1016/j.isci.2022.104318.[3]ProgramCS-CB,AbdullaS,AevermannB,AssisP,BadajozS,BellSM,etal.CZCELL×GENEDiscoscalableexploration,analysisandmodelingofaggregateddata2023:2063174./10.1101/2063174.[4]VaswaniA,ShazeerN,ParmarN,UszkoreitJ,JonesL,GomezAN,etal.AttentionIsAllYouNeed.AdvancesinNeProcessingSystems20multitaskgenerativepre-trainedlanguagemodelforsingle-cellanal2024:2024.01.25.577152./10.1101/2024.01.25.577152.FoundationModelonSingle-cellTranscript2023:2023.05.29.542705./10.1101/2023.05.29.542705.[7]CuiH,WangC,MaanH,PangK,LuoF,WangB.scGPT:TowardsBuildingaFoundationModelforSingle-CellMulti-omicsGenerativeAI2023:2023.04.30.538439./10.1101/2023.04.30.538439.[8]TheodorisCV,XiaoL,ChopraA,ChaffinMD,AlSayedZR,HillMC,etal.TransferlearningenablespredictionsinnetworNature2023:1–9./10.1038/s41586-023-06139-9.ScalableFrameworkforExploringBiostate2023:2069320./10.1101/2023.11.[10]ShenH,LiuJ,HuJ,ShenX,ZhangC,WuD,etal.Generativepretrainingfromlarge-scaletranscriptomesforsingle-celldeciphering.iScience2023;26./10.1016/j.isci.2023.106536.GeneCompass:DecipheringUniversalGeneRegwithKnowledge-InformedCross-SpeciesFoundationModBioinformatics;2023./10.1101/2023.09.26.559542.scBERTasaLarge-ScalePretrainedDeepLaAnnotationofSingle-CellRNA-seqData.NatureMachineIntelligen[13]LiM,ZhangX,AngKS,LingJ,SethiR,LeeNYS,etal.DISCO:adatabaseofDeeplyIntegratedhumanSingle-CellOmicsdata.NucleicAcidsResearch2021:gkab1020./10.1093/nar/gkab1020.[14]JiY,ZhouZ,LiuH,DavuluriRV.DNABERT:pre-trainedBidirectionalEncoderRepresentationsfromTransformersmDNA-languageingenome.Bioinformatics2021;37:211/10.1093/bioinformatics/btab083.[15]DuJ,JiaP,Dairepresentationofgenesbasedonco-expression.BMCGenomics2019;20:82./10.1186/s12864-018-537[16]DevlinJ,ChangM-W,LeeK,ToutanovaK.Bert:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstandinPreprintarXiv:181004805[17]RadfordA,WuJ,ChildR,LuanD,AmodeiD,SutskeverI.LanguageModelsareUnsupervisedMultitaskLearne[18]LiuY,OttM,GoyalN,DuJ,JoshiM,ChenD,etal.RoBERTa:ARobustlyOptimizedBERTPretrainingApproac/10.48550/arXiv.1907.11692.[19]LanZ,ChenM,GoodmanS,GimpelK,SharmaP,SoricuALBERT:ALiteBERTforSelf-supervisedLearningofLanguage[20]JoshiM,ChenD,LiuY,WeldDS,ZettlemoyerL,LevyO.SpanBERT:ImprovingPre-trainingbyRepresentSpans.TransactionsoftheAssociationforComputationalLinguistics2020;8:64–77./10.1162/tacl_[21]BrownT,MannB,RyderN,SubbiahM,KaplanJD,DhariwalP,etal.LanguageModelsareFew-ShotLearners.AdvanInformationProcessingSystems,vol.33,CurranAssociates,Inc.;2[22]TouvronH,LavrilT,IzacardG,MartinetLacroixT,etal.Llama:OpenandEfficientFouarXivPreprintarXiv:23021[23]TouvronH,MartinL,StoneK,AlbertPetal.Llama2:OpenFoundationandFine-TunedPreprintarXiv:230709288[24]LopezR,RegierJ,ColeMB,JordanMI,YosefN.Deepgenerativemodelingforsingle-celltranscriptomics.Natu2018;15:1053–8./10.1038/s41592-018-0229-2.[25]LotfollahiM,NaghipourfarM,LueckenMD,KhajaviM,BüttnerM,WagenstetterM,etal.Mappingsingle-celldatatoreferenceatlasesbytransferlearning.NatBiotechnol2022;40:121–30./10.1038/s41587-021-01001-7.2023:2023.05.29.542705./10.1101/2023.05.29.542705.[27]HeimbergG,etal.Scalablequeryingofhumancellatlasesviaafoundationarevealscommonalitiesacrossfibrosis-associatedmacrophag2023:2023.07.18.549537./10.1101/2023.07.18.549537.[28]LiuL,LiW,WongK-C,YangF,YaoJ.Apre-traigenerativemodelfortranslatingsingle-celltranscriptometoproteome2023:2023.07.04.547619./10.1101/2023.07.[29]WenH,TangW,JinW,DingJ,LiuR,DaiX,etal.SingleCellsAreSpatialTokens:TransformersforImputation2024./10.48550/arXiv.2302.03038.[30]WenH,TangW,DaiX,DingJ,JinW,XieY,etal.CellPLM:Pre-trainingofCellLanguageModelBeyondSingl2023:2023.10.03.560734./10.1101/2023.10.03.560734.序技術(shù)的出現(xiàn)使得研究人員可以更加深入地了解細(xì)胞群體內(nèi)部的細(xì)盡管各類單細(xì)胞測(cè)序技術(shù)的發(fā)展為細(xì)胞異質(zhì)性的刻畫(huà)提供了強(qiáng)下游分析。本節(jié)我們將探討基于無(wú)監(jiān)督學(xué)習(xí)的細(xì)胞異質(zhì)性刻畫(huà)方法常用于細(xì)胞異質(zhì)性刻畫(huà)的傳統(tǒng)機(jī)器學(xué)習(xí)方法包括主成分分析Clustering)等聚類方法,以及基于貝葉斯框架的統(tǒng)計(jì)方法等。本節(jié)矩陣,然后分別選取特征值最高的前d個(gè)特征向量得到6*d組低維表示,用于細(xì)胞聚類[2]。基于PCA轉(zhuǎn)錄組數(shù)據(jù)的聚類方法pcaReduce[4],擬時(shí)序分析方法TSCAN[5]、SVD是一種廣泛使用的基于矩陣分解的方法,同樣可以用于對(duì)此外,基于矩陣分解的機(jī)器學(xué)習(xí)方法還包括非負(fù)矩陣分解。在出的兩個(gè)因子矩陣w和H中往往含有負(fù)值元素。盡管從計(jì)算的角度來(lái)非負(fù)矩陣分解的代表性細(xì)胞異質(zhì)性刻畫(huà)方法包括用于單細(xì)胞多組學(xué)深度學(xué)習(xí)方法相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)在于其能夠通過(guò)理高維數(shù)據(jù)、圖像識(shí)別、語(yǔ)音識(shí)別和自然語(yǔ)VAE的方法也被廣泛用于學(xué)習(xí)scCAS數(shù)據(jù)低維嵌入表示,包括抗網(wǎng)絡(luò)的一種變體對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行降維以刻畫(huà)細(xì)胞異質(zhì)習(xí)模型來(lái)估算已識(shí)別的丟失事件,以填補(bǔ)基因表達(dá)矩陣[35];scDEC碼器對(duì)單細(xì)胞轉(zhuǎn)錄組的基因表達(dá)矩陣進(jìn)行填補(bǔ);DeepTFni則針對(duì)盡管無(wú)監(jiān)督學(xué)習(xí)方法在細(xì)胞異質(zhì)性刻畫(huà)任務(wù)上表現(xiàn)出了良好的現(xiàn)有的弱監(jiān)督細(xì)胞異質(zhì)性刻畫(huà)方法能夠有效利用多種不同類型的數(shù)數(shù)據(jù)作為參考,與單細(xì)胞測(cè)序技術(shù)相比,Bulk數(shù)據(jù)可能會(huì)丟失個(gè)體如此,Bulk數(shù)據(jù)仍能提供主要細(xì)胞類型的異質(zhì)性信息以指導(dǎo)模型進(jìn)Bulk染色質(zhì)開(kāi)放性數(shù)據(jù)來(lái)驗(yàn)證單細(xì)胞測(cè)序結(jié)果可靠性,挖掘細(xì)胞整體基因表達(dá)變化并實(shí)現(xiàn)了細(xì)胞群體生物學(xué)過(guò)程分析[43]。通過(guò)將Bulk術(shù)的發(fā)展和公共數(shù)據(jù)庫(kù)的積累,公開(kāi)數(shù)據(jù)庫(kù)中已有海量單細(xì)胞數(shù)據(jù)。在轉(zhuǎn)錄組方面,Li等人開(kāi)發(fā)了參考成分分析(RCA)方法,并PanglaoDB[47]等資源中獲取。scINRB則是在數(shù)據(jù)填補(bǔ)過(guò)程中引入了同細(xì)胞類型的歸一化DNase-seq樣本組成。通過(guò)使用公開(kāi)可用的Bulk數(shù)據(jù),模型可以從中捕獲稀疏的單細(xì)胞數(shù)據(jù)所無(wú)法捕獲的寶貴型/聚類簇的單細(xì)胞數(shù)據(jù)來(lái)構(gòu)建偽Bulk參考數(shù)據(jù),這意味著其他單細(xì) 所有基因的整體信息,而不只局限于與空間轉(zhuǎn) 有監(jiān)督的細(xì)胞異質(zhì)性刻畫(huà)是一種利用已知細(xì)胞標(biāo)注信息指導(dǎo)?;诩?xì)胞間相似度的細(xì)胞異質(zhì)性刻畫(huà)本質(zhì)上依賴于一個(gè)核心原類型的斯皮爾曼相關(guān)系數(shù)來(lái)實(shí)現(xiàn)對(duì)未知類型的細(xì)胞的標(biāo)注[54]。CHETAH算法則通過(guò)對(duì)參考集構(gòu)建一個(gè)層次化分類樹(shù),實(shí)現(xiàn)對(duì)未標(biāo)法基于某個(gè)細(xì)胞和參考細(xì)胞表達(dá)譜的相似性這一原理,Cell-ID使用選種子細(xì)胞的標(biāo)簽,使用加權(quán)k-最近鄰(WKNN)算法進(jìn)一步精確方法。例如,scmap將待標(biāo)注數(shù)據(jù)映射到參考數(shù)據(jù)集所在隱空間上, SciBet比較待標(biāo)注細(xì)胞的基因表達(dá)譜和不同細(xì)胞類型模型的似然函盡管傳統(tǒng)機(jī)器學(xué)習(xí)方法在單細(xì)胞數(shù)據(jù)的異質(zhì)性刻畫(huà)中取得了一并使用二進(jìn)制信號(hào)表示基因表達(dá)水平來(lái)進(jìn)行模型訓(xùn)練[63]。相較于映射,將待標(biāo)注細(xì)胞映射到與參考細(xì)胞相同的低維空間中。接著,scDeepSort則是一個(gè)基于加權(quán)圖神經(jīng)網(wǎng)絡(luò)框架的預(yù)訓(xùn)練細(xì)胞類型注結(jié)構(gòu)信息的加權(quán)圖聚合層和最終輸出細(xì)胞類型預(yù)測(cè)結(jié)果的線性分類型注釋任務(wù)上進(jìn)行監(jiān)督微調(diào),實(shí)現(xiàn)了穩(wěn)健且準(zhǔn)確的細(xì)胞類型注釋。 ChemometricsandIntelligentLclusteringofsingle-cellRNA-seqdata.integrative,multimodalandscalablesingle-cellanalysis.[4]?urauskiene,J.&Ya[5]Ji,Z.&Ji,H.TSCAN:Psesingle-cellRNA-seqanalysis.NucleicAcidsResee117.[6]Cao,J.,Spielmanlandscapeofmammalianorganogenesis.Nature,2019,566(7745):reconstruction,explorationandmappingofomicsdatawithSsingle-cellepigenomiclandscapeswithChro[9]Danese,A.,Richter,M.L.,Chaichoompu,K.etal.EpiScanpy:integratedsingle-cellepigenomicanalysis.NatureCommunications,2021,[10]Linderman,G.C.,Zhao,J.,Roulis,M.etaimputationofsingle-cellRNA-seqdata.NatureCommunications,2022,softwarepackageforintegrativesingle-cellchromatianalysis.NatureGenetics,20[12]Stuart,T.,Srivastava,[13]Jain,M.S.,Polanskidimensionalityreductionandintegrationofmultimodaldata.Genome[14]Welch,J.D.,Kozareva,V.,Ferreira,A.etal.Single-CellMulti-omicIntegrationComparesandContrastsFeaturesofBrainCell[15]Argelaguet,R.,VeAnalysis—aframeworkforunsupervisedintegrationofmulti-omicsdatastatisticalframeworkforcomprehensiveintegrationofmulti-modal[17]Zhang,W.,XscRNA-SeqDatabyIntegratingNonnegativeMatrixLowRankRepresentation.IEEEJournalofBiomedicalandHealthinterpretableenhancementforsingle-cellchromatinaccessingle-cellrna-seqdatabykernel-basedsimilarityleaAggregatedClusteringviaMixtureModelEnsemble.Nuclusteringandepigeneticclassificationofsinglecells.NatureCommunications,2018[23]BravoGonzález-Blas,C.,Minn[24]Kapourani,C.A.&Sangandimputationofsingle-cellmethylomes.GenomeBiology,[25]Lopez,R.,Regier[26]Yuan,H.&KeldataanalysisusingahierarchicalautoencoderBioinformatics,2020,36(16):4415-4modellingandclusteringofsingle-cellgenomicdata.NatureMachineIntelligence,2021,3(6):536-544.throughprojectingheterogeneousdatasetsintoacommoncell-embeddframeworkforsingle-celldataintegrationwithoptimaltranspgenerativemodelforsingle-cellchromatinaccessibilityanalReportsMethods,2022,variationalautoencodermodelfordimensionalityreductioninsingle-cell[35]Zhu,X.,Meng,S.,Li,G.etal.AGIscRNA-seqdatabasedonahybridGANwithdropoutsidentification.Bioinformatics,2024,40(2):btae068.imputationbygraph-basedgenerativeadversarialnetwork.BriBioinformatics,2023,24(2):bbad040.networkframeworkforsingle-cellRNA-Seqanalyses.Natu[38]Gu,H.,Cheng,H.,Ma,A.etal.scGNN2.0:agraphneuralnetworktoolforimputationandclusteringofsingle-cellRNA-Seqdata.Bioinformatics(Oxford,England),2022,38(23):5322-5325.regulatorynetworksfromsingle-cellATAC-seqdatabasedongraphneuralnetworks.NatureMachineIntelligence,2022,4(4):389-400.datawithamodel-baseddeeplearningapproach.Naclusteringwithbatcheffectremovalinsingle-cellRNA-seqanalysis.single-celltranscriptomicdatawithcoupledautoencoderanddiricprocessmixturemodel.Bioinformatics,2024,btae198.[43]Buenrostro,J.D.,Corces,MSingle-CellAnalysisMapstheContinuousRegulatoryLandscapeofanalysisofsingle-celltranscriptomeselucidatescellularheterogeneityinhumancolorectaltumors.NatureGenetics,2017,49(5):708-718.customizableportalforqueryingandorgacell-typeassignmentofsingle-cellRNA-seqfortumormicroenvironment[47]Franzén,O.,Gan,L.M.&Bj?rkegren,J.Lserverforexplorationofmouseandhumansingle-cellRNAsequencingdata.Database,2019,2019(1):baz046.expressionimputationwithnetworkregularizationandbdata.BriefingsinBioinformatics,2024,25(3):bbae148.EncyclopediaofDNAElements(ENCODE)dataportal.NucleicAcResearch,2020,48(D1):D882-D889.[51]Chen,S.,Yan,G.,Zhangapproachforepigeneticcharacterizationofsinglecells.Naturereference-basedmethodfortheaccurateenhancementofspatialtranscriptomics.Bioinformatics,2021,37(Supplement_1):I2prior-basedself-attentionframeworkforspatialtranscriptomics.Genomelungsingle-cellsequencingrevealsatransitionalprofibroticmacrophage.selective,hierarchicalcelltypeidentificationmethodforsingle-cellRNAsequencing.NucleicAcidsResearch,2019,47(16):E95.andcellidentityrecognitionatthesingle-celllevelwithCe[57]Tian,L.,Xie,Y.,Xie,Z.etal.AtacAnnoR:areference-based2023,24(5):bbad268.single-cellRNA-seq[59]Alquicira-Hernandez,J.,Sathe,A.,supervisedmethodforcell-typeclassificationfromsingle-cellRenablesrapidannotationofcellatlases.Natlearning-enabledpipelineforautomatedannotationofcomplexmultilayeredsingle-celltranscriptomicdata.NatureCommunicationframeworkforenhancedcharacterizationofsingle-celltranscriptomicprofiles.NucleicAcidsResearch,2019,47(8):e48-e48.databasesviaunbiasedcellecell-typeannotationmethodforsingle-celltranscriptomicsulearningwithaweightedgraphneuralnetwork.NucleicAci2021,49(21):E122.pretraineddeeplanguagemodelforcelltypeannotationofsingle-cellRNA-seqdata.NatureMachineIntelligence,2022,4(10):852-8interpretablecelltypesingle-cellchromatinaccessibilitydataviasusingle-cellchromatinaccessibilitydataviacontr[70]Jia,Y.,Li,S.,Jiang,R.etal.AccuraAccessibilityData.IEEE/ACMTransactionsonC療成本的上升成為各國(guó)面臨的重大挑戰(zhàn)。根據(jù)世界衛(wèi)生組織(World析能力,在醫(yī)療領(lǐng)域展現(xiàn)出巨大的潛力。AI技術(shù)能夠從多種數(shù)據(jù)源治療方案。研究表明,AI在癌癥早期診斷、藥物研發(fā)、病理圖像分(RandomForest,RF它由一組決策樹(shù)組成,每棵樹(shù)構(gòu)建,對(duì)輸入特征進(jìn)行一系列二進(jìn)制決策,最終預(yù)輸入特征定義的坐標(biāo)系中學(xué)習(xí)一條直線(或多維空間中的超平面一種稱為嵌入(Embedding)的輸入表示,最終用于預(yù)測(cè)輸出。與傳據(jù)類型,包括圖像、文本和語(yǔ)音等[8]。然而,DL模型通常需要更多NeuralNetworks,GNN)處理圖數(shù)據(jù),例如細(xì)胞-細(xì)胞相互作用圖[9]或些模型類別中的每個(gè)都有許多特定的模型架構(gòu),例如基于CNN的帶來(lái)前所未有的機(jī)遇和挑戰(zhàn)。尤為廣泛,特別是在處理電子健康記錄(ElectronicHealthRecord,數(shù)據(jù)的預(yù)訓(xùn)練而設(shè)計(jì)。BioBERT在命名實(shí)體識(shí)別(NamedEntity學(xué)文本生成和理解。通過(guò)在廣泛的生物醫(yī)學(xué)語(yǔ)料庫(kù)上的預(yù)訓(xùn)練,技術(shù)的應(yīng)用使得醫(yī)療機(jī)構(gòu)能夠高效地從龐大復(fù)雜的醫(yī)療文本中自動(dòng)醫(yī)療圖像分析技術(shù)借助深度學(xué)習(xí)算法實(shí)現(xiàn)了對(duì)醫(yī)學(xué)影像的自動(dòng) -解碼器結(jié)構(gòu),其中編碼器通過(guò)卷積和下采樣提取圖像特征,而解碼的精度度??傮w而言,基于深度學(xué)習(xí)的醫(yī)療圖像分析系統(tǒng)在乳腺癌病的精準(zhǔn)診斷和治療開(kāi)辟了新路徑。轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)等利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)進(jìn)行綜合雜的任務(wù),這一過(guò)程需要依賴大量生物學(xué)數(shù)據(jù)來(lái)建立遷移學(xué)習(xí)(TransferLearning)為這一挑戰(zhàn)提供了解決路徑。通設(shè)計(jì)和疾病機(jī)制提供了重要的工具。此外,AlphaFold[37]在罕見(jiàn)疾病解和處理能力,并在多種生物醫(yī)學(xué)任務(wù)中實(shí)現(xiàn)出色的性能。例如,選治療靶點(diǎn),加速研究人員發(fā)現(xiàn)關(guān)鍵網(wǎng)絡(luò)調(diào)控因子和潛在治療靶點(diǎn)。架構(gòu)和測(cè)序深度感知任務(wù)(Read-depth-aware,RDA為細(xì)胞擾動(dòng)響療數(shù)據(jù)涉及患者的敏感信息,任何數(shù)據(jù)泄露都可能此外,AI模型的適應(yīng)能力也是一個(gè)關(guān)鍵問(wèn)題,醫(yī)療環(huán)境的多樣如,通過(guò)智能影像分析,AI可以幫助檢測(cè)乳腺癌、肺癌等疾病的早Leavingnoonebehindinanageingworld[M].[2]Murali1N,SivakumaranN.Artificialidataintegrationtoadvanceprecisiononcology[J[4]HosnyA,ParmarC,QuackenbushJ,etal.Artificialintelligenceinmachine-learningmodelstopredictclinicaloutcomesandidentbiomarkersinpancreaticcancer:ascopingreview[J].Annalsoflearningmodelidentifiesgeneexpressionbiomarkclinicaloutcomesandrevealsmolecularmechanismsofhuman[7]JiangYZ,MaD,JinX,etal.IntegratedmultiomicprofilingofbreastcancerintheChinesepopulationrevealspatientsttherapeuticvulnerabilities[J].NatureCancer,2024,5Advancesinclinicalmachinelearningforcancerdiagnosis,prognosis,[9]ArmingolE,BaghdassarianHM,LewisNE.Thediversificationmethodsforstudyingcell–cellinteractionsandcommunication[J].NatureReviewsGenetics,2024,25(6):381-400.[10]XiongJ,Xiautomateddenovodrugdesign[J].Drugdiscrecognition[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:770-778.forbiomedicalimagesegmentation[C]//Medicalandcomputer-assistediconference,Munich,Germany,October5[13]HochreiterS,SchmidhuberJ.Longshort-terrepresentationsusingRNNencoder-decoderforstatisticalmactranslation[J].arXivpreprintarXiv:1406.1078,languagerepresentationmodelforbiomedicaltextmining[J].languageprocessing:anevaluationofBERTandELMbenchmarkingdatasets[J].arXivpreprintarXiv:1906.05474,[17]DevlinJ,ChangMW,LeeK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].apreprintarXiv:1810.04805,201[18]LuoR,SunL,XiaY,etal.BioGPT:generativepre-trtransformerforbiomedicaltextgenerationandmining[J].Briebioinformatics,2022,23(6):bbac409.understandingbygenerativepre-training[J].2018.[20]HossainE,RanaR,HigginsN,etal.Naturallanguageprocessinginelectronichealthrecordsinrelationtohealthcaredecision-masystematicreview[J].Computersinbiologyandmemedicalimagesegmentation:areview[J].JournalofImageandGraphics,2021,26(9):2058-2077.法[J].JournalofComputerEngineering&56(17).neuralnetworksforvolumetricmedicalimagesegmentation[Cfourthinternationalconferenceon3Dviprostatezonessegmentationofmagneticresonanceimagesusing[25]IsenseeF,JaegerPF,KohlSAA,etal.nnU-Net:aself-configuringmethodfordeeplearning-basedbi[26]OktayO,SchlemperJ,FolgocLL,etal.Attentionu-net:Learningwheretolookforthepancreas[J].arXivpreprintarXiv:1804.0399[27]LuuHM,ParkSH.Extensegmentation[C]//InternationalMICCAIbrainlesionworkshop.Cham:的應(yīng)用進(jìn)展[J].JournalofFrontiersofComputerScience&[30]AlshmraniGMM,NiQ,JiangR,etal.Adeeplearningarchitectureformulti-classlungdiseasesclassificationX-ray(CXR)images[J].AlexandriaEngineeringJournal,[31]HroubNA,AlsannaaAN,AlowaifeerM,etal.Explainabledeeplearningdiagnosticsystemforpredictionoflungdiseasefrommedicalimages[J].Com[33]PengC,XiaF,NaseriparsaM,etal.Knowledgegraphs:Opportunitiesandchallenges[J].Artirelatingtodrugdiscovery:aknowledgegraphperspective[J].BriefingsinBioinformatics,2022,23(6):bbac404.knowledgegraph[J].Currentopinioninstruc[36]JumperJ,EvansR,PritzelA,etal.HighlyaccurateproteinstructurepredictionwithAlphchallenges,advances,andtheshiftofresearchparadigms[J].Genomics,Proteomics&Bioinformatics,2023,21(5):91[38]TheodorisCV,XiaoL,Chpredictionsinnetworkbiology[J].Nature,2023,618(7965):616-624.foundationmodelforsingle-cellmulti-omicsusinggene[40]HaoM,GongJuniversalgeneregulatorymechanismswithknowledge-informedcross-speciesfoundationm醫(yī)療大數(shù)據(jù)是指在與人類健康相關(guān)的活動(dòng)中產(chǎn)生的與生命健康明確定義的字段和格式,例如,患者基本信息、實(shí)療文本中豐富的信息資源可以服務(wù)于臨床實(shí)踐、臨床研究等[1,2]。但MedicalLanguageSyst文本表示學(xué)習(xí)是指將實(shí)際的文本內(nèi)容轉(zhuǎn)變成更易于計(jì)算機(jī)識(shí)別通過(guò)統(tǒng)計(jì)分析詞在文本中的共現(xiàn)關(guān)系來(lái)生成嵌入,常見(jiàn)方法為PMI(PointwiseMutualInformati2.基于上下文窗口的詞嵌入模型3.基于上下文動(dòng)態(tài)生成的詞嵌入模型例如,融入知識(shí)圖譜信息的ERNIE(EnhancedRepresentation像對(duì)比學(xué)習(xí)的CLIP(ContrastiveLanguaERNIE-Health[17]使用醫(yī)療實(shí)體掩碼算法來(lái)學(xué)習(xí)術(shù)語(yǔ)和其他醫(yī)療實(shí)體識(shí)和非結(jié)構(gòu)化知識(shí)。例如,BERT-MK[19]將醫(yī)療知識(shí)圖譜中的子圖視K-ADAPTER[20]通過(guò)不同的適配器融入了醫(yī)療非結(jié)構(gòu)化知識(shí)來(lái)學(xué)習(xí)型能更好的理解和表示醫(yī)學(xué)文本中的語(yǔ)義信息。對(duì)于上述所有工作,表示已經(jīng)展示了其表達(dá)能力,并對(duì)下游任務(wù)的性能提升做出了貢獻(xiàn)。體/概念之間的語(yǔ)義關(guān)系。相比于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,知識(shí)圖譜能工智能系統(tǒng)提供可處理的先驗(yàn)知識(shí),讓其具有解決界主要有百度-靈醫(yī)智惠、中國(guó)平安-平安好醫(yī)生、阿里健康-醫(yī)知準(zhǔn)以及大規(guī)模多源異構(gòu)的臨床指南、診療規(guī)范等文本信息。CMeKG法中,DySAT使用自注意力機(jī)制學(xué)習(xí)不同時(shí)刻的動(dòng)態(tài)圖表示[29];間的相互作用,將節(jié)點(diǎn)的嵌入表示看作為時(shí)間的函數(shù)[31]。 題(如文本分類、問(wèn)答、文檔總結(jié)和文本生成等)方面的成功應(yīng)用。 各種類型和風(fēng)格的醫(yī)學(xué)文本,無(wú)需事先定義復(fù)雜的這種靈活性使得模型能夠適應(yīng)不同醫(yī)療實(shí)踐中的各種數(shù)據(jù)格式和語(yǔ)目前,大語(yǔ)言模型在電子病歷信息抽取領(lǐng)域,尤其是中文電子病[1]GiddingsR,JosephA,CallenderT,etal.Factorsinfluencingclinicianandpatientinteractionwithmachinelearning-basedriskpredictionmodels:asystematicreview.L2024;6(2):e131-e144.learning-enabledmaternalriskassessmentforwomenwithpre-ecl2024;6(4):e238-e250.nodulesdiagnosisoffine-needleaspirationbiopsy:aretrospective,prospective,multicentrestudyinChina.LancetDigitHea2024;6(7):e458-e469.childrenusingelectronichealthrecordsinprimarycdevelopmentandvalidationofamachine-learningalgorithm.LancetDigitHealth.2024;6:e386[5]LeeD,deKeizerN,LauF,CornetR.LiteraturereviewofSNOMEDCTuse.JournaloftheAmericanMedicalInformatintegratingbiomedicalterminolog2004;32(Databaseissue):D26processinginmedicine:Areview[J].TrendsinArepresentationsinvectorspace.2013arXivpreprintarXiv:13[10]VASWANIA,SHAZEERN,PARMARN,etal.AttentionisAllyouNeed.NeuralInformationProcessingSystems,2017.htDeepBidirectionalTransformersforLanProceedingsofthe2019ConferenceoftheNorth,2019./[12]BiawasSomS."Roleofchatgptinpublichealth."Annalsofbiomedicalengineering51.5(202[13]Lewis,Mike,etal.Bart:Denoisipre-trainingfornaturallanguagegeneration,translation,acomprehension.2019arXivpreprintarXiv:1910.13461.models.2023arXivpreprintarXiv:2307.09288.[15]HANX,ZHANGZ,DINGN,PresentandFuture.AIOpen,2021.hnuancedgpthallucination,IEEETr[17]CHENQ,ZHUX,LINGZH,etInferenceModelsEnhancedwithExternalKnowledge.Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalClinicalDomainKnowledgeAugmentationofContextualEmbeddingsUsingtheUnifiedMedicalLanguageSystemMetathesaurusProceedingsofthe2021ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:Hum[19]SHARMAS,SANTRAB,JANAA,etal.IncorporatingDomainKnowledgeintoMedicalNLIusingKnowledgeGraphs.Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalProcessingandthe9thInternationalJointConferencLanguageProcessing(EMNLP-IJCNLP),2019.https:networkfortextrepresentation.ExpertSystRepresentationthroughKnowledgeIntegrationelectronichealthrecord-basedmedicalknowledgegrap2023;143:104403.Baranzini.Time-awareEmbeddingsofClinicalDatausingaKnowlerelationextractionviaedge-orientedgraphneuralnetworkbaseddocumentstructureandexternalknowledge.BMCMedandDecisionMaking.drugrepurposingusingacomprehensivedrugknowledgegrInformaticsJournal.2020,26(4):2737-2featureembeddingbasedconvolutionalneuralnetwork[27]Latorre-PellicerA,AscasoA,TrujillanoL,Gil-SalvadorM,ArnedoM,Lucia-CamposC,etal.EvaluatingFace2G21(3):1042.GourdineJP,etal.Expansionoknowledgebaseandresources.NucleicAcidsRes.201D1018-D1027.NeuralRepresentationLearningonDynamicGraphsviaNetworks.WSDM'20:TheThirteenthConvolutionalNetworksforKnowledgeBaseCompletion[J/OL].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2019:Evolvegcn:evolvinggraphconvolutionalnetworksfordynamProceedingsoftheAAAIConferenceonArtificialIntelligence,2020.representationlearningontemporalgraphs.ICLR,2020.networkdynamicsusingdynamicgraphrepresentationlearnielectronichealthrecord-basedmedicalknowledgegrapcompletion,andapplica[35]Zhang,K.,Zhou,R.,Alanguagefoundationmodelfordiversebiomedicaltasks.NatMed.clinicalknowledge.Nature.2023.620(7972):1[38]deHondA,LeeuwenbergT,BartelsR,etal.Fromtexttotreatmethecrucialroleofvalidationforgenerativelargelanguagemodelsinhealthcare.LancetDigitHealth.2024.6(7):e441-e443.RNA種類繁多、功能多樣、不穩(wěn)定,結(jié)構(gòu)決定功能。許多烈性面:其一,RNA可能隨環(huán)境不同而存在多個(gè)穩(wěn)定的不同結(jié)構(gòu)態(tài),其RNA三級(jí)結(jié)構(gòu)預(yù)測(cè)的主要困難在于其構(gòu)象采樣和打分函數(shù)的構(gòu)高通量測(cè)序技術(shù)的快速發(fā)展顯著地提高了我們探索人類微生物組的大分子的結(jié)構(gòu)預(yù)測(cè)仍然是生物信息學(xué)領(lǐng)域的一項(xiàng)重大挑戰(zhàn),特別是大分子。RNA在疾病分析領(lǐng)域發(fā)揮著重要作用,如研究口腔鱗狀細(xì)結(jié)構(gòu)的探索是研究活細(xì)胞中低豐度pre-mRNA與RNA-蛋白質(zhì)相互作用的基礎(chǔ),此項(xiàng)研究能夠幫助研究人員進(jìn)一步理解細(xì)胞生命活動(dòng)中總部位于美國(guó)馬薩諸塞州劍橋市的克雷數(shù)學(xué)研究所(Clay而NP完全問(wèn)題1(non-deterministicpolynomialcompleteproblem)是世入世界主要科技進(jìn)展,1986年,Science上刊發(fā)了諾貝爾獎(jiǎng)獲得者Dulbecco[2]關(guān)于人類基因組測(cè)序的有關(guān)論文,相關(guān)論致病性冠狀病毒,其中,嚴(yán)重急性呼吸綜合征冠狀病毒(severeacute致病性病毒的天然宿主,對(duì)人類社會(huì)造成巨大幾乎已知所有RNA病毒中最長(zhǎng)的RNA堿基序列,RNA結(jié)構(gòu)預(yù)太高,也不可能窮舉。第二種算法是基于生物計(jì)算的結(jié)構(gòu)預(yù)測(cè)方法,于物理的預(yù)測(cè)方法。基于知識(shí)挖掘的三級(jí)結(jié)構(gòu)預(yù)測(cè)方法依賴已知的RNA模板數(shù)據(jù)庫(kù),基于物理的預(yù)測(cè)方法減少了對(duì)數(shù)據(jù)庫(kù)的依賴,但21世紀(jì)初,隨著由中國(guó)和美國(guó)、英國(guó)、法國(guó)、德國(guó)、日本科學(xué)新型冠狀病毒結(jié)構(gòu),結(jié)合最大k-補(bǔ)割、稠密k-子圖問(wèn)題等典型的NP原子供/受體可近似地劃分為三個(gè)配對(duì)邊:Watson-Crick(W)邊,情況,其結(jié)構(gòu)單元中堆疊結(jié)構(gòu)與環(huán)結(jié)構(gòu)是由最鄰近堿基對(duì)決定的,RNA分子的自由能量主要是堆疊結(jié)構(gòu)和環(huán)結(jié)構(gòu)的貢獻(xiàn)。環(huán)結(jié)構(gòu)對(duì)RNA折疊結(jié)構(gòu)的穩(wěn)定性有非常重要的作用,但對(duì)環(huán)結(jié)構(gòu)的熱動(dòng)力學(xué)利用寡核苷酸合成技術(shù),我們可以合成大量用于實(shí)驗(yàn)的寡核苷酸鏈,預(yù)測(cè)三級(jí)結(jié)構(gòu)甚至四級(jí)結(jié)構(gòu),利用近似算法來(lái)求解包含假結(jié)的先河,1981年,Smith與Waterman提出了著名的序列比對(duì)的嵌套結(jié)構(gòu)—假結(jié),假結(jié)破壞了動(dòng)態(tài)規(guī)劃算法依賴的RNA折疊結(jié)構(gòu)的題和熱點(diǎn)。關(guān)于假結(jié)參數(shù)可以用非假結(jié)參數(shù)乘以系數(shù)g(0.83)作為補(bǔ)20世紀(jì)末,清華大學(xué)自動(dòng)化系李衍達(dá)院士和張學(xué)工教授在國(guó)內(nèi)率先致力于生物信息學(xué)/計(jì)算生物學(xué)的研究,清華大學(xué)自動(dòng)化系汪小疾病關(guān)聯(lián)競(jìng)爭(zhēng)性內(nèi)源預(yù)測(cè)等方面取得了具有領(lǐng)先水平的一批理論成結(jié)構(gòu)快速預(yù)測(cè)算法,該算法的時(shí)間復(fù)雜度為O(n2),預(yù)測(cè)準(zhǔn)確度為計(jì)與分析中,成果分別發(fā)表在理論計(jì)算機(jī)科學(xué)國(guó)SymposiumonFoundationsofComputerScience)和國(guó)際著名期刊劉振棟等[36,37]提出了含假結(jié)的RNA結(jié)構(gòu)近似算法及啟發(fā)式算法。取決于其三級(jí)結(jié)構(gòu)及與其他分子在細(xì)胞中的相互作用,RNA二級(jí)結(jié)其原因是目前預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法主要利用了相關(guān)已知蛋白質(zhì)的仍處在起步階段,與蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)相關(guān)研究成效相差甚遠(yuǎn)。RNA有三個(gè)原因。第一,與蛋白質(zhì)結(jié)構(gòu)相比,RNA分子結(jié)構(gòu)上有更多的則膨脹形成前面介紹的凸出(bulge)或者環(huán)(loop),短的雙螺旋區(qū)域和二級(jí)結(jié)構(gòu)進(jìn)一步折疊形成三級(jí)結(jié)構(gòu),RNA分子只有在具有三級(jí)結(jié)構(gòu)致力于發(fā)展一種新的RNA三級(jí)結(jié)構(gòu)預(yù)測(cè)工具來(lái)預(yù)測(cè)出更多的典型的RNA三級(jí)結(jié)構(gòu)預(yù)測(cè)算法主要包括兩類:一類是基于知識(shí)的法?;谥R(shí)的RNA三級(jí)結(jié)構(gòu)預(yù)測(cè)算法主要包括MANIP算法、G-U堿基的W/W順式配對(duì)是RNA標(biāo)準(zhǔn)堿基配對(duì)(canonicalbaseRNA三級(jí)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵有兩個(gè)方面:一方面,利用構(gòu)象采樣方方面進(jìn)行。此外,RNA三級(jí)結(jié)構(gòu)預(yù)測(cè)的關(guān)鍵組成還包括分子表示方級(jí)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域取得了一定的進(jìn)展。此外,Rose序列的變化,闡述了堿基序列的配對(duì)規(guī)律。2020年,Menden等[67]幾何深度學(xué)習(xí)方法來(lái)預(yù)測(cè)RNA結(jié)構(gòu)精確模型,在blindRNA預(yù)測(cè)方等[75]在Cell上提出了基于mRNACOVID-19的疫苗增強(qiáng)劑對(duì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論