2024 - AIDD: FragNet-可解释的分子属性预测模型
<<< 左右滑动见更多 >>>
榴莲忘返 2014
导读
分子属性预测是材料发现和设计的关键组成部分,应用于药物设计、储能材料发现、催化和农用化学品等多个现代科学领域。尽管已有大量机器学习模型可用于分子特性预测,但在提供高精度预测和提供可解释性以支持科学见解的能力之间,往往需要权衡。
本文介绍了一种名为 FragNet 的图神经网络架构,它不仅能够实现与当前最先进模型相当或更优的预测精度,而且还能提供对四个分子亚结构层面的洞察力,即原子、键、片段和片段连接。换言之,利用该模型,研究人员可以了解哪些原子、键、分子片段以及分子片段之间的哪些连接在预测给定分子特性方面起着关键作用。通过增强模型推理片段之间连接的能力,研究人员为具有不通过规则共价键连接的亚结构的分子(如盐和络合物)提供了改进的表示。
此前已有若干研究实现了利用注意力机制的深度学习模型,这些模型可以为不同类型的分子亚结构提供值。AttentiveFP [2] 和 MoGAT [3] 模型提供了原子级重要性值。Wu 等人的研究 [4] 提供了片段级注意力。然而,他们的工作在评估的分子特性范围方面受到限制,因为它只提供了使用随机训练 - 测试拆分配置的 ESOL 数据集 [5] 的结果。相比之下,本研究提供了 MoleculeNet [6] 中多个基准数据集的预测结果,同时使用了更具挑战性的支架拆分方法。这为理解分子特性预测模型的推理如何受目标特性影响提供了更全面和稳健的理解。
除了展示 FragNet 模型在这一系列挑战性任务中强大的特性预测性能外,研究人员还通过对选定的特性预测任务进行多个案例研究,展示了多层可解释性机制的效用。研究人员使用模型注意力权重和贡献值来研究模型对单个分子预测以及跨多个预测的聚合推理,以识别驱动特性变化的关键分子成分。为了进一步验证从模型中提取的推理,研究人员对 FragNet 贡献分数与静电表面电势的密度泛函理论 (DFT) 计算进行了比较研究。最后,研究人员开发并发布了一个交互式浏览器应用程序,使其他分子特性任务能够访问这些类型的可解释性研究。
方法
FragNet 模型采用多图架构,分别构建原子图、键图和分子片段图来表征分子结构。原子图和键图的构建方式与传统图神经网络类似,利用原子和键的特征进行信息传递。
分子片段图的构建则采用了 BRICS 分子片段化算法。对于常规分子,片段间的连接为共价键。对于盐类和络合物等具有孤立片段的分子,则创建虚拟键连接所有孤立片段,以确保信息传递的完整性。
FragNet 的特征工程部分利用 RDKit 软件包提取原子和键的特征。原子特征包括原子序数、化合价、形式电荷等,而键特征则包括键类型、共轭性、立体性质等。
模型的训练数据来自 MoleculeNet 数据库,包括 ESOL、Lipophilicity、Clintox、SIDER 和 Tox21 等多个数据集。
在模型训练过程中,研究者首先使用 Uni-Mol 数据库中的 2,054,100 个分子对 FragNet 进行预训练,以学习分子结构的基本特征。随后,针对不同的分子性质预测任务,使用 Optuna 包对模型进行超参数优化,并使用相应的评价指标评估模型性能。
此外,研究者还利用密度泛函理论 (DFT) 计算对模型预测结果进行验证,并分析了分子片段对分子性质的影响。(FragNet 模型的代码已在 GitHub 上开源,供其他研究者使用和改进。)
主要结果
FragNet 模型采用了一种分层方法,利用低级结构的学习表示来初始化每个后续图表示中高级结构的特征。 该模型首先使用键图创建给定分子的表示。键图中的节点最初使用键属性进行特征化,而键图中的边则使用键角进行特征化。键图的节点表示使用图注意力机制进行更新。然后,使用更新后的键图节点特征作为原子图的初始边特征。利用这些边特征,使用图注意力机制更新原子图。更新后,通过对原子图的所有原子特征向量求和来创建分子表示。
片段图的更新遵循类似的过程。对于片段图的初始节点特征,研究人员使用原子图中与组成片段的原子相对应的求和原子特征。然后,通过图注意力机制更新片段图节点表示。然后,在应用图注意力之前,使用片段连接图的学习节点特征初始化片段图的边特征。利用更新后的片段图构建第二个分子表示。最终的分子表示是基于原子图和片段图构建的表示的串联。然后,可以使用此表示进行下游任务,例如分子性质预测。
为了评估 FragNet 模型的性能,研究人员在 MoleculeNet 基准测试中使用多个分子性质预测任务对其进行了测试,包括四个回归任务和三个分类任务。 这些任务涵盖了化学、生物和毒性等一系列性质。在执行性质预测训练之前,该模型在一组自监督任务上进行了预训练。表 1 和表 2 显示了基于支架拆分获得的 FragNet 预测精度。对于每个数据集,基于验证精度使用三个随机种子优化了 FragNet 的超参数。使用优化的参数和相同的三个随机种子对 FragNet 进行了微调,并在表 1 和表 2 中报告了测试集上预测精度的平均值和标准偏差。研究人员将 FragNet 的性能与四种最先进的基线方法进行了比较。除了 CEP 和疟疾外,FragNet 在回归和分类任务上都达到了与当前最先进技术相当或更好的精度。对于 CEP,精度略低可能是因为与其他数据集进行的 30 次超参数优化运行相比,研究人员仅使用了 Optuna 建议的第一个超参数组合。这是由于 CEP 的训练集很大(包含 23,982 个分子)导致的训练时间限制。
FragNet 模型与其他模型的主要区别在于其能够基于四种不同类型的子结构来解释预测结果。 值得注意的是,FragNet 可以处理具有不通过共价键连接的子结构的分子,例如盐和络合物。研究人员可以使用模型中的两种不同机制来分析所有四种子结构类型:注意力权重和贡献值。注意力权重源自四种图表示中的每一种的图注意力机制,并提供了对模型在进行预测时关注哪些子结构的洞察力。同时,可以量化给定子结构对分子性质值预测的贡献。这是通过首先以通常的方式预测整个分子的性质来实现的。随后,在屏蔽了感兴趣的子结构(这意味着该子结构的节点特征被排除在预测过程之外)之后进行另一次预测。如果屏蔽子结构的预测低于未屏蔽分子的预测,则认为屏蔽子结构是性质增加的。相反,如果屏蔽子结构的预测更高,则认为屏蔽子结构会降低性质值。
为了证明 FragNet 模型的可解释性,研究人员使用样本化合物进行了案例研究。 他们使用溶解度预测模型分析了 1-萘氧基乙基乙基-β-氯乙胺盐酸盐的注意力权重和贡献值。结果表明,最大的原子注意力权重位于带正电荷的氮原子 附近的原子上。这是预料之中的,因为该区域可能与溶剂水分子相互作用最密切。接下来最大的权重在芳环中的四个原子和醚 上。对醚氧的显著关注也是可以理解的,因为它可以充当氢键受体,使其能够与水分子相互作用。这些醚氧还可以从相邻的 -C2H2- 基团中提取电子并将其捐赠给双环系统。
此外,研究人员还对 FragNet 模型的子结构分析能力进行了评估。 他们发现,FragNet 模型能够识别出对预测结果有显著影响的分子子结构,例如亲水基团和疏水基团。这些信息对于药物设计和材料发现等应用非常有用。
最后,研究人员开发了一个基于 Web 浏览器的交互式应用程序,允许用户编辑分子并检查不同子结构的注意力权重如何变化。 该工具旨在用于教育目的和小规模分子设计。
图 1:FragNet 的架构和数据表示。(a)原子图和片段图的边特征分别从键图和片段连接图中学习。(b)片段图的初始片段特征是组成片段的更新原子特征的总和。(c)FragNet 消息传递在化合物的两个非共价键合子结构之间发生的示意图。片段 - 片段连接也存在于化合物的每个非共价键合结构中的相邻片段之间。
图 2:FragNet 中可用的不同类型的注意力权重和贡献值,以 为例,其中原子、键和片段注意力权重分别显示在 (a)、(b) 和 (c) 中,片段贡献值显示在 (d) 中。顶部表格提供了原子到片段的映射,底部表格提供了片段连接注意力权重。原子和键注意力权重缩放为 0 到 1 之间的值。片段和片段连接权重未缩放。(d) 中蓝色框中的数字对应于“片段中的原子”表中的片段 ID。
总结
分子性质预测是许多现代科学应用中的关键步骤,包括药物发现和储能材料设计。尽管有许多机器学习模型可用于此任务,但我们缺乏兼具高精度和可解释性的模型。可解释性对于理解模型的预测原理并获得新的科学见解至关重要。
作者介绍了 FragNet 架构,这是一种图神经网络,它不仅能够实现与当前最先进模型相当的预测精度,而且能够提供对四个分子亚结构级别的洞察力:原子、键、分子片段和分子片段连接。这种模型能够理解哪些原子、键、分子片段和分子片段连接对于预测给定分子性质至关重要。
FragNet 的可解释性是其关键优势,它允许研究人员深入了解模型的决策过程。通过识别对预测有显著贡献的分子亚结构,科学家可以获得对分子结构和性质之间关系的新见解。
参考资料:
标题:FragNet: A Graph Neural Network for Molecular Property Prediction with Four Layers of Interpretability
作者:Panapitiya, Gihan; Gao, Peiyuan; Maupin, C. Mark; Saldanha, Emily G.
DOI: 10.48550/arXiv.2410.12156
发表年份:2024
PDF 下载链接:
评论
发表评论