2025-AI 药物发现新标准:生物物理对齐验证模型

 

AI 药物发现新标准:生物物理对齐验证模型

Image

目录

  1. TranscriptFormer 是一个跨越 15 亿年进化史的生成式单细胞基础模型,能模拟基因表达并进行跨物种比较分析。

  2. 研究者提出 CAML 新框架,融合交换代数与机器学习,借助代数拓扑特征,高效预测蛋白质 - 配体结合亲和力。

  3. AI 智能体系统 Deep Thought 在模拟真实药物发现的 DO 挑战中,展现出与人类专家相当的自主设计和执行复杂任务的能力。

  4. CS-Fold 利用进化树中的补偿性突变信息,能更准确地预测 RNA 二级结构。

  5. DeepSAP 巧妙结合转录本指导和 Transformer 模型评分,让 RNA 测序比对在识别剪接点和序列插入/缺失 (indel) 上更准了。

  6. Egret-1 是一系列预训练神经网络势,能以远超传统量子化学方法的速度,实现媲美其精度的生物有机分子模拟。

  7. 评估药物发现 AI 模型,不仅要看预测准不准,更要看其解释是否符合生物物理机制,而基于 3D 结构的模型在这方面表现更好。

  8. HyboWaveNet 模型利用双曲空间和小波分析,为蛋白质互作(PPI)预测带来了新方法和更高精度。

  9. 研究者提出了一种新方法,通过结合定制的分子嵌入和改进的生成对抗网络(GAN),能高效生成具有特定属性(如气味)的分子。

  10. JTreeformer 结合图 Transformer 和潜在扩散模型,为分子生成带来了新创新,效果拔群。

1. 跨 15 亿年进化!TranscriptFormer 单细胞模型

Image

直接跨越 15 亿年的进化长河,窥探从珊瑚到人类各种生物细胞的奥秘?研究者们开发了一个名为 TranscriptFormer 的新工具,让这成为了可能。它学习了来自 12 个不同物种、超过 1.12 亿个单细胞的数据,堪称目前进化跨度最大的单细胞模型。

这个模型有啥特别的?它采用了生成式自回归框架,不光能理解细胞是什么样子(生成细胞嵌入),还能模拟细胞里基因是怎么表达的、转录因子是怎么活动的。就像拥有了一个可以做实验的虚拟细胞图谱。

为了让模型能看懂不同物种的基因,研究者用了一种叫 ESM-2 的蛋白质嵌入技术。这样一来,基因就被放在了一个“物种中立”的空间里,模型不需要知道这是哪个物种的细胞、或者是什么类型的细胞,就能更好地比较它们的转录组特征。

效果怎么样?研究者们比较了模型的不同版本(TF-Sapiens, TF-Exemplar, TF-Metazoa),发现跨物种训练确实能提升模型的通用能力。TF-Metazoa 版本在多个任务上都表现抢眼,比如在完全没见过的新物种上进行细胞类型分类(零样本分类),或者预测细胞是不是处于某种疾病状态,效果都比以前的方法(比如 UCE)要好。即使是和人类亲缘关系很远(超过 6.85 亿年)的物种,像珊瑚和七鳃鳗,模型也能准确识别它们的细胞类型。

举个例子,在研究哺乳动物和鸟类的精子发生过程时,TF-Exemplar 模型能准确地把一个物种的细胞类型标注“迁移”到另一个物种上,效果比那些非生成式模型好了一倍。在处理人类细胞数据(Tabula Sapiens 2.0)时,TranscriptFormer 在细胞类型分类上达到了顶尖水平,并且在识别细胞是否感染了新冠病毒方面也表现突出,说明它对细微的基因表达变化很敏感。

更有意思的是,模型生成的“上下文基因嵌入”(CGEs)包含了丰富的信息,能自动区分出细胞类型、组织来源甚至是个体差异,为探索基因调控提供了新思路。作为一个生成式模型,你还可以“提示”它来推断基因之间的相互作用、转录因子和它们的目标基因,它能帮你找到已知的调控网络,还能生成符合生物学规律、特定于细胞类型的转录因子图谱。

TranscriptFormer 不再是一个静态的细胞图谱,更像是一个强大的虚拟实验平台。它可以帮助科学家进行跨物种比较、提出科学假说、推断调控关系和模拟细胞状态,为细胞生物学研究打开了新思路。

📜Paper: https://www.biorxiv.org/content/10.1101/2025.04.25.650731v1

2. 代数机器学习 CAML 预测蛋白结合

Image

一种名为 CAML 的新方法,它将交换代数和机器学习结合起来,用于预测蛋白质与其配体(小分子)结合的紧密程度。

这个方法的核心是一种新的数学工具,叫做持久斯坦利 - 里斯纳理论 (PSRT)。简单说,就是把分子的三维几何形状和相互作用的复杂性,转化成一组代数的“指纹”信息,比如贝蒂数、面持久性条码等。这些代数特征很适合给机器学习模型使用。

为了更好地处理生物分子的特殊性,CAML 做了一些改进。它能区分不同的原子类型、不同的相互作用类别,还能处理蛋白质和配体这种两部分组成的系统。这让模型能更细致地理解分子间的相互作用。

效果怎么样呢?在一个叫 PDBbind-v2016 的标准测试集上,CAML 的表现很出色,预测结果的相关系数达到了 0.858,比之前的 TopBP-DL (0.848) 和 PerSpectML (0.843) 都要好。这说明 CAML 的预测能力强,而且适用性广。

特别是在预测金属蛋白(包含金属离子的蛋白质)与配体结合这种更有挑战性的任务上,CAML 也取得了创新。它的一个版本 CAML(CS) 获得了 0.755 的相关系数,超过了之前的最好成绩 (JPH-GBT, R=0.742)。这证明了 CAML 在复杂化学环境下的稳健性。

CAML 之所以效果好,是因为它能通过一种叫“持久过滤”的技术,捕捉到分子从局部化学键到整体拓扑形状等不同尺度的相互作用信息,而这些信息对结合能很重要。

研究者还发现,把 CAML 提取的结构特征,和用 Transformer 语言模型处理蛋白质、配体序列得到的特征结合起来,能让预测更准。这就像同时看懂了分子的“形状”和“语言”。

CAML 的一个优点是,它不像一些“黑箱”模型那样难以理解。通过分析提取出来的代数特征,可以对预测结果有一定的解释。而且,它在相对较小的数据集上也能达到高精度,数据效率不错。

这套方法不仅限于预测蛋白质 - 配体结合。CAML 代表了一种将纯数学融入机器学习的新思路,为分子科学、结构生物学和药物发现等领域提供了有潜力的新工具。

作者们开放了 CAML 的代码和数据,方便其他人重复实验或者在此基础上继续研究,显示了其在拓扑信息指导下的人工智能应用于化学和生物学领域的前景。

📜Paper: https://arxiv.org/abs/2504.18646

3. AI 智能体 Deep Thought 在药物发现挑战中媲美人类专家

Image

研究者们设计了一个名为 DO 挑战的新基准。这个挑战的目标是看看自主 AI 智能体在设计模型、编写代码和执行策略方面有多强,特别是在有资源和时间限制的情况下完成复杂的药物发现任务。

挑战的核心任务是模拟虚拟筛选。智能体需要从 100 万个分子结构数据中,挑选出 3000 个最有可能获得高对接 DO 分数的化合物。整个过程预算有限,只能查询 10 万次标签,并且只有三次提交机会。这个 DO 分数很特别,它不仅反映了药物的治疗潜力,还会惩罚那些可能产生脱靶效应的结合。这个分数是根据化合物与一个治疗靶点和三个 ADMET 相关蛋白的对接模拟结果计算出来的,结合了基于相互作用和基于能量的分类器。

为了应对这个挑战,作者们开发了一个名为 Deep Thought 的系统。这是一个由多个 AI 智能体协作、大语言模型驱动的系统,可以独立自主地解决 DO 挑战。它内部有软件工程师、评审员、评估员和研究员等不同角色的智能体,它们一起迭代地规划、编码和执行解决方案。

在 DO Challenge 2025 中,Deep Thought (cfg-10 配置) 取得了 33.5% 的最高分。这个成绩非常接近人类顶尖专家的分数 (33.6%),而且远远超过了其他竞赛队伍中的最佳成绩 (16.4%)。这充分展示了 Deep Thought 系统在策略思考和执行方面的能力。

有趣的是,在没有时间限制的情况下,一位领域专家取得了 77.8% 的高分。但即便如此,Deep Thought 仍然以 50.3% 的分数排在第三位。而且,Deep Thought 主要使用的是传统的机器学习方法(比如 LightGBM),并没有用到深度学习。这说明,选择合适的分子结构进行筛选的策略,可能比模型本身有多复杂更重要。

通过详细的消融研究发现,在扮演软件工程师角色时,Claude 3.7 Sonnet、Gemini 2.5 Pro 和 OpenAI o3 这些大语言模型表现最好。像 GPT-4o 这样的辅助智能体能提高系统的稳定性,但如果智能体系统设计得过于复杂,反而会降低整体性能。

这个基准测试特别鼓励那些能利用空间敏感特征(对 3D 变换不具有不变性)、采用策略性抽样(例如聚类或主动学习)以及能调整提交策略的智能体。这些正是现实世界药物发现中需要面对的挑战。

Deep Thought 的表现既突显了当前 AI 智能体的优势,也暴露了它们的弱点。虽然 AI 智能体有能力解决单个子任务,甚至完成整个流程,但它们在协调合作、避免陷入次优策略以及充分利用可用工具方面,常常表现不佳。

这项工作标志着朝着在药物发现领域实现自主 AI 系统迈出了重要一步。通过在一个贴近现实的基准测试中整合决策、执行和评估,DO 挑战和 Deep Thought 为未来的研究提供了一个可复现、可扩展的试验平台。

📜Paper: https://arxiv.org/abs/2504.19912

4. CS-Fold:进化智慧革新 RNA 结构预测

Image

预测 RNA 分子的二级结构,对理解其功能至关重要,但这事儿并不简单。很多现有方法要么单独看序列,要么只看简单的序列比对信息。

现在,研究者开发了一种新方法叫 CS-Fold。它的思路很不一样:它去“考古”,研究 RNA 在漫长进化历程中是怎么变化的。具体来说,它分析了一个包含 100 种脊椎动物的进化树,观察 RNA 序列在不同物种间的演变。关键在于找出“补偿性突变”——那些成对出现、共同维持 RNA 结构稳定的突变。研究者用一套基于概率的模拟方法,在重建的祖先序列上挖掘这些可靠的进化信号。

这些宝贵的进化线索,被巧妙地整合进了名为 Pairformer 的深度学习架构里。它们就像“提示”一样,引导模型的注意力机制(Attention)关注那些进化上更可能配对的碱基。同时,一个特别设计的损失函数和一种优化后处理步骤,也确保模型的预测结果尽量符合这些进化规律,让预测更靠谱。

效果怎么样?研究者在一个包含近 1.4 万条序列的新脊椎动物 RNA 数据集上测试了 CS-Fold。结果显示,它的表现很出色,在准确率(F1 分数)上比 UFold、MXFold2 等现有顶尖模型高出最多 5%。尤其是在精确度上,CS-Fold 做得更好,这意味着它预测出的结构中,错误的配对更少,这对于后续的生物学研究非常重要。如果把进化信息拿掉,模型的性能就会大幅下降,这反过来证明了进化信息的核心作用。

还有一个优点是,CS-Fold 不需要对那些巨大的预训练语言模型进行微调。它使用的是现成的特征,加上一些轻量级的结构创新,所以模型相对高效,即使在数据不多的情况下也可能表现不错。

CS-Fold 把深度的进化分析和神经网络的强大能力结合起来,为 RNA 结构预测提供了一个既强大又具有生物学意义的新工具。它也启发我们,将进化智慧融入 AI 模型,或许是解开更多生命奥秘的一把钥匙。

📜Paper: https://www.biorxiv.org/content/10.1101/2025.04.27.650904v1

5. DeepSAP: AI 精准捕获 RNA 剪接,测序比对创新

Image

RNA 测序数据的准确比对,特别是找到基因剪接发生的位置(剪接点)以及小的序列插入或缺失(indel),对理解基因功能至关重要。DeepSAP 就是为此设计的一种新策略。

它的工作方式很聪明,分为两步走。第一步,它会尝试利用已知的转录本信息,将测序读段(reads)直接比对到对应的基因转录本上。这里用了三种搜索方法:精确匹配、看哪个转录本出现得多、以及尝试延伸匹配。如果这步没成功,它还会调用 GSNAP 工具进行基因组比对作为补充,尽可能多地找到可能的比对。

第二步是关键。对于第一步找到的潜在剪接点,DeepSAP 并不会全盘接受。它会用一个基于 Transformer 架构的深度学习模型(研究者发现 DNABERT MS150 这个模型效果特别好)来给这些剪接点打分。这个模型在大量已知是真或假的剪接点序列上训练过,所以它能判断哪些看起来更像是真的剪接点。得分高的就保留,得分低的,DeepSAP 会调整其置信度(MAPQ 分数),甚至进行“软剪切”处理,表示这部分比对不太可靠。这样一来,就过滤掉了许多假阳性结果。

这个 Transformer 模型本身也很厉害。研究者在人和多个物种的数据上对它进行了微调,结果显示 DNABERT MS150 在区分真假剪接信号方面达到了很高的准确率(MCC 0.965),比其他几个模型(DNABERT2, Nucleotide Transformer)表现都好。更有意思的是,通过分析模型的“注意力”图,研究者发现它确实关注了基因序列中那些生物学上重要的区域,比如剪接点旁边的外显子区域和经典的剪接信号序列。这说明模型不只是死记硬背,还学到了一些生物学规律。

那么,DeepSAP 的实际效果怎么样呢?研究者把它和目前常用的 STAR、HISAT2、DRAGEN 等多个比对工具,在公开的模拟数据集 (Baruzzo, SimBA) 上做了比较。结果显示,DeepSAP 在剪接点检测的综合指标 F1 分数上拿到了最高分 (0.971),超过了 DRAGEN (0.933) 和 novoSplice (0.914),尤其是在处理那些复杂的、低表达的转录本时优势更明显。

在真实的癌症样本(胶质瘤和骨髓增生异常综合征)数据中,DeepSAP 也展现了它的实力。它成功检测到了一些其他工具都漏掉的复杂剪接事件,比如新的内含子保留现象,还有紧挨着剪接点的 indel。对于 indel 的检测,DeepSAP 同样表现出色,在多个数据集里都准确找到了复杂的插入和缺失,修正了其他工具可能产生的错误。

总的来说,DeepSAP 通过整合高灵敏度的转录本指导比对和高精度的 Transformer 模型过滤,找到了一个很好的平衡点。它为 RNA 测序比对设立了一个新的标杆,尤其适合需要精确分析稀有转录本和剪接变异的个性化转录组学研究。作者提到,未来的工作会考虑使用 GPU 加速,以及让 Transformer 模型更紧密地整合到比对流程中去。

💻Code: https://github.com/clara-parabricks-workflows/DeepSAP 📜Paper: https://www.biorxiv.org/content/10.1101/2025.04.23.650072v1

6. Egret-1: AI 驱动,DFT 精度,模拟加速

Image

Egret-1 是一系列新的预训练神经网络势 (NNP)。它的厉害之处在于,模拟生物有机分子的精度能赶上甚至超过像 DFT 这样的传统量子化学方法,但速度快了好几个数量级。这得益于它基于 MACE 架构,利用高阶等变消息传递机制,能精准学习原子环境的物理信息,准确捕捉能量和力。

研究者推出了三个版本来满足不同需求:通用型的 Egret-1,专攻热化学计算且支持更多元素的 Egret-1e,还有擅长模拟过渡态的 Egret-1t。

在各种硬核测试中,Egret-1 都表现抢眼。无论是计算扭转能、预测构象能量、优化分子几何结构,还是算振动频率,它的表现常常优于 B97-3c 或 r²SCAN-3c 等 DFT 方法。在 TorsionNet206 和 MPConf196 等基准测试中,Egret-1 的精度接近化学精度,排序相关性也很好,甚至超过了现有的 AIMNet2 和 Orb-v3 等 NNP。在预测大环分子构象方面,它几乎能和混合 DFT 方法打个平手。

有个有趣的发现:虽然通常认为训练数据越多越好,但 Egret-1 的训练过程显示,过于多样化的数据集反而可能降低模型在预测力和频率上的准确性。这说明,精心挑选和管理训练数据对 NNP 的性能至关重要。

Egret-1 也能处理周期性体系和进行分子动力学 (MD) 模拟。比如,它成功对一个类药分子进行了稳定的 100 皮秒 MD 模拟。在 X23b 晶体基准测试中,预测晶格能的平均绝对误差在 2.6 kcal/mol 以内,效果不错。

在催化研究方面,Egret-1 能以远低于 DFT 的计算成本,准确复现复杂有机催化剂的过渡态几何结构。这为阐明反应机理和优化过渡态结构提供了实用的新工具。

当然,比起一些轻量级 NNP,Egret-1 可能不算最快的,但它在精度和速度之间取得了很好的平衡。即使是像胰岛素这样的小蛋白质,也能在单块 GPU 上用大约 140 秒完成几何优化,效率相当可观。

Egret-1 提供了一个快速且达到 DFT 精度的通用分子模拟工具。它在药物发现、结构生物学和材料科学等领域潜力巨大,是机器学习与量子化学结合的一个重要进展。

📜Paper: https://arxiv.org/abs/2504.20955

7. AI 药物发现新标准:生物物理对齐验证模型

Image

在以激酶为靶点的药物发现中,评估 AI 预测模型不能只看预测结果有多准。这项研究提出了一个新思路:除了看预测的“准头”(传统的拟合优度指标),还要看模型做预测的“理由”是不是符合生物学规律,也就是所谓的“生物物理对齐”。

为了验证这个想法,研究者们利用计算机生成了大量的激酶 - 配体复合物数据(kinodata-3D),并训练了一种能处理三维空间信息的图神经网络模型(CGNN-3D)。他们还训练了不考虑空间结构的同类模型(CGNN)作为对比。

接着,研究者用了一种叫“扰动归因”的方法来“拷问”这些模型。简单说,就是故意挡住(mask)蛋白质上的一些氨基酸残基,看看模型的预测结果会受多大影响。这样就能知道模型到底把注意力放在了哪些区域。结果发现,CGNN-3D 模型确实更关注那些已知的、对结合至关重要的区域,比如激酶的铰链区(hinge)和 DFG 基序。而没有利用 3D 信息的 CGNN 模型,则分不清哪些残基是关键的,哪些是无关紧要的。

进一步使用 PLIP 相互作用指纹进行了详细分析,结果证实 CGNN-3D 模型对氢键、阳离子-π 相互作用和盐桥这些激酶 - 配体结合中的关键因素特别敏感。这些都是决定药物分子能否“钩住”靶点蛋白的重要力量。

当然,研究也指出了模型的局限。虽然 CGNN-3D 学到了很多重要的相互作用,但它对疏水相互作用的敏感度有限。这表明模型还有改进的空间,可能需要更优化的模型架构,或者表达能力更强的归因技术来捕捉这些细微之处。

这项工作强调,可解释 AI 技术非常关键。它不仅能验证预测的准确性,还能帮助我们理解模型学到的模式是否真的符合生物物理原理,从而更深入地评估模型的可靠性和泛化能力。

未来的研究方向包括尝试那些“天生”就更容易解释的图神经网络(比如 B-cos 网络),或者引入探测分类器。同时,探索更高阶的结构特征,比如化学键的角度,也许能捕捉到更精妙的分子相互作用信息。

总的来说,这个研究建立了一套系统的方法,将模型的归因模式与已知的生物结合机制联系起来。这种“生物物理对齐”的评估方法,有望指导我们改进训练数据质量、优化模型设计,最终让 AI 在药物发现中的应用更加值得信赖。研究者倡导,应将生物物理对齐作为评价结构机器学习模型的标准评估准则,与预测性能指标并重。

📜Paper: https://doi.org/10.26434/chemrxiv-2025-qsw7v

8. AI 新星 HyboWaveNet 解锁蛋白质互作奥秘

Image

蛋白质之间的相互作用是生命活动的基础,但预测这些互动非常复杂。为了解决这个问题,研究者开发了一种名为 HyboWaveNet 的新深度学习框架。

这个模型的特别之处在于它看待蛋白质网络的方式。蛋白质互动网络常常像一棵树,具有层级结构。传统的图神经网络(GNN)在平坦的欧几里得空间处理数据,难以准确表达这种层级。HyboWaveNet 则把蛋白质节点映射到洛伦兹双曲空间里。这种特殊的几何空间能更好地保留蛋白质网络的树状结构,让模型学得更准。模型使用洛伦兹图卷积(LorentzGraphConvolution)在双曲空间中聚合邻居信息,通过指数和对数映射计算节点嵌入,自然地反映了节点间的语义距离和层级关系。

另一个创新点是引入了基于随机游走的图小波变换。这就像给模型配上了一副“变焦镜头”,能同时捕捉到不同尺度的结构信息——既能看到蛋白质上氨基酸残基层面的局部互动细节,也能把握蛋白质复合物等全局模块结构。为了让模型学到的特征更鲁棒、泛化能力更强,HyboWaveNet 还加入了一个对比学习模块。它会为同一个蛋白质节点生成不同的“增强视图”,然后让它们的嵌入尽可能相似。

如何判断蛋白质是否可能互动?模型计算它们嵌入向量之间的洛伦兹距离平方。这个方法不仅有效,也符合生物学直觉:在蛋白质空间中,真实的层级距离越近,互动的可能性就越大。

效果怎么样?在一个来自 HPRD 数据库的标准 PPI 数据集上,HyboWaveNet 的表现非常出色,AUC 达到 0.922,AUPR 达到 0.938,超过了像 Struct2Graph、Fully HNN 和 Topsy-Turvy 这些有力的基准模型。

研究者还做了消融实验来验证设计。结果显示,如果去掉双曲编码器或者小波变换模块,模型性能都会明显下降。这说明双曲几何感知学习和多尺度信号提取这两部分都不可或缺。对超参数的分析也发现,使用 3 到 4 个小波尺度时效果最好,这和蛋白质互作网络从局部到全局的多层次生物学特性也挺吻合。

HyboWaveNet 把几何深度学习和信号处理技术结合起来,为模拟蛋白质相互作用提供了一个强大、可解释且符合生物学原理的解决方案。这对于发现药物靶点和理解系统生物学都很有帮助。

💻Code: https://github.com/chromaprim/HybowaveNet 📜Paper: https://arxiv.org/abs/2504.20102

9. AI 精准造分子:Transformer+GAN 定制气味分子

Image

想让 AI 设计出有特定气味的分子?这篇研究带来了一种新思路。研究者搞了个新的机器学习框架,它把两种技术巧妙地结合了起来。

首先,他们设计了一种特别的分子“身份证”,叫做分子描述符。这个描述符不简单,它把分子的局部细节(就像指纹,用的是 Morgan 指纹)和整体特征(比如分子大小、电荷分布等 30 个 RDKit 属性)都打包在一起了。这样一来,AI 就能更全面地理解一个分子。

然后,研究者训练了一个 Transformer 模型。这个模型很厉害,能把这种复杂的“身份证”信息学会,再把它准确地翻译回分子结构(SMILES 字符串),准确率有 94%。这说明模型不仅读懂了信息,还能用这些信息来“写”出分子。

接下来是重头戏:生成对抗网络(GAN)。研究者对 GAN 做了个改造,加入了一个“范围约束”损失函数。简单说,就是告诉 GAN:“你生成的新分子,属性必须在咱们设定的目标范围内,超纲了要扣分!”在这个研究里,目标就是生成气味分子。

效果怎么样?这个改进版的 Range-GAN 非常给力,生成气味分子的选择性达到了 99.2%!相比之下,只用气味分子数据训练的普通 GAN,选择性才 52%。这说明,光有好数据还不够,聪明的引导(损失函数)更关键。

而且,新方法生成的分子不仅“对口”,质量也高。它们的有效性(能真实存在的分子比例)达到了 62%,比以前基于 SMILES 的 GAN(只有 30.2%)提升了一大截。同时,这些分子还很有新意和多样性。通过 t-SNE 分析看,Range-GAN 生成的分子确实和真实的气味分子聚集在一起,证明方法靠谱。

整个模型架构是模块化的,训练也不算太费劲,只用了 ZINC 数据库里的 260 万个分子数据进行预训练,在单块 GPU 上跑了大约 6 天。这对很多实验室来说,都是可以尝试的。

这个框架为未来更精准的分子设计打开了大门,比如同时优化多种化学属性,或者针对特定的生物靶点设计分子。

📜Paper: https://arxiv.org/abs/2504.19040

10. JTreeformer:分子生成新 SOTA

Image

研究者提出了一个名为 JTreeformer 的新框架,用于生成分子图。这个框架很特别,因为它把图 Transformer 和潜在扩散模型结合起来,在 MOSES 和 QM9 这两个常用的分子生成基准测试中取得了当前最好的结果。

JTreeformer 的一个核心想法是,不直接生成整个分子图,而是先生成分子的“连接树”(junction tree)。这样做的好处是,可以像处理序列一样处理分子图,保证生成的结构符合化学规则,而且自回归解码过程也更高效。

为了更好地学习连接树的结构,JTreeformer 的编码器用上了图卷积网络 (GCNs) 和多头自注意力机制。这样就能同时抓住原子周围的局部信息和整个树的全局结构依赖关系。解码器部分则引入了一种新的有向无环图卷积网络 (DAGCN),配合掩码注意力机制,一步步地生成分子片段。这种设计解决了传统 GCN 在按顺序生成内容时遇到的一些问题。

另一个亮点是 JTreeformer 在学习到的表示空间(latent space)里使用了潜在扩散模型(DDIM)。这让模型能更有控制、更有结构地进行采样,大大提高了生成分子的多样性和有效性。而且,在将连接树转换回最终分子图时,研究者使用蒙特卡洛树搜索 (MCTS) 来解决异构体组装问题,避免了像 JT-VAE 等先前工作中需要使用计算成本很高的神经判别器。

实验结果显示,JTreeformer 在有效性、新颖性、独特性和内部多样性等多个指标上都优于 JT-VAE、GraphAF 和 LatentGAN 等主流模型。特别是在需要考虑分子骨架的插值任务和潜在空间聚类方面,表现尤其突出。

研究者还通过消融实验确认了 DAGCN 和连接树特征选择的重要性,去掉任何一个部分都会导致性能明显下降。对潜在空间的可视化分析也发现,模型学到的表示能够根据分子属性(如 logP、TPSA)形成有意义的簇,并且在不同分子骨架之间进行插值时,过渡非常平滑。

JTreeformer 成功地把符号化的化学语法(连接树)、几何学习(GCN/Transformer)和生成式采样(扩散模型)结合在一起,为开发更强大、可控、可解释的分子生成模型开辟了新方向。

📜Paper: https://arxiv.org/abs/2504.20770

评论