当前位置:首页 > 电子设备 > 正文

模拟3D分子编辑,北大高毅勤团队开发整合物理信息和偏好对齐的MolEdit,登Nature子刊

编辑 | 萝卜皮

在计算机辅助药物和材料设计中,生成具有所需特性的分子结构是一项关键任务。

作为特殊的三维实体,分子具有非平凡的物理复杂性,许多固有特性可能无法通过纯数据驱动的方法来学习,这阻碍了强大的生成式人工智能 (GenAI) 在该领域的应用。

为了避免现有分子 GenAI 对特定领域模型和先验知识的过度依赖,北京大学高毅勤团队提出了理论指导,用于弥合图像 GenAI 和分子 GenAI 之间的方法论差距,从而实现对 3D 分子生成基础模型的预训练。

通过一个简单且与模型无关的训练协议,该团队克服了对称性、稳定性和熵(这些因素对分子至关重要)带来的挑战。

此外,研究人员应用基于物理的策略,使预训练的多模态分子 GenAI——MolEdit 遵循物理定律并与上下文偏好保持一致,从而抑制不必要的模型错觉。

MolEdit 可以生成具有全面对称性的有效分子,在构型稳定性和构象多样性之间取得更好的平衡,并支持其他方法难以实现的复杂三维结构。同时,它还适用于零样本先导化合物优化和连接子设计,并遵循上下文和几何规范。

该研究以「In-silico 3D molecular editing through physics-informed and preference-aligned generative foundation models」为题,于 2025 年 7 月 1 日发布在《Nature Communications》。

功能分子(例如与材料和药物相关的分子)的计算机辅助设计已引起科学界和工业界日益增长的兴趣。功能分子设计的核心概念是分子编辑,它涵盖了分子的生成、修饰和演化,使其具有特定结构特征,从而获得所需的特性。

以功能为导向的分子编辑是药物设计过程中的常见需求,但由于其在广阔的化学空间中呈现非线性约束优化问题而极具挑战性。传统计算机模拟通常需要耗费大量资源,并依赖于反复试验,以及特定的专家知识。

虽然生成式人工智能(GenAI)取得了重大进展,但不幸的是,这些强大的 GenAI 不能直接应用于分子生成,因为与图像不同,3D 分子实体受到内在物理和化学原理的严格限制。

特别是,除了已知会导致与现代基础模型架构不兼容的反式旋转等变性之外,分子还表现出嵌入在各种点群中的普遍存在的、决定性质的对称性。

MolEdit

为了应对提到的这些问题,科学家们已经提出了许多新方法。北京大学的研究团队将各种方法整合在一起,提出了 MolEdit,一个多模态分子 GenAI,它结合了物理信息学习和数据驱动学习,能够有效地模拟三维分子结构的分布。MolEdit 与主流 GenAI 兼容,继承了基础模型的可扩展性,并基于大量分子数据进行了预训练,用于三维分子重建。

图示:解决对称性问题并扩大 3D 空间中的分子扩散模型。(来源:论文)

与现有的分子 GenAI 不同,MolEdit 在训练和推理过程中会仔细处理幻觉问题。具体而言,研究人员通过实验证明,在训练或微调过程中,通过对廉价易用的 AI Agent 进行偏好调整,可以有效抑制分子 GenAI 的幻觉问题,例如无效性、不稳定性和违反条件等。

此外,研究人员还为 MolEdit 注入了自我优化功能,从而在推理过程中获得更高质量的样本。使 MolEdit 能够生成具有全面对称性的有效分子,在构型稳定性和构象多样性之间取得更好的平衡,甚至支持其他方法难以处理的复杂三维骨架。

MolEdit 可以通过零样本方法应用于各种下游任务。除了功能性分子的从头设计之外,MolEdit 还能生成多样化、高质量的文本分子表征结构。它还可以促进分子支架的修饰,包括功能基团、连接基团和药效团的重新设计,以及结构编辑,例如图像修复、图像去除和图像合成。

图示:MolEdit 支持多种上下文分子编辑。(来源:论文)

为了验证 MolEdit 在药物设计等实际应用场景中是否有效,研究人员根据一组成分,按照指定的化学条件生成了具有不同脂肪环尺寸的分子。结果如上图所示,MolEdit 成功地将扩散过程折叠到与指定化学条件一致的化学子空间中。

挑战与未来

虽然 MolEdit 功能多样,但也存在一些局限性。

首先,预训练模型无法生成明确的氢原子坐标,这限制了依赖于精确质子化状态或氢原子敏感特性(尤其是量子化学描述)的应用。

其次,键级是根据三维坐标和成分推断的(补充方法 1.10);对于互变异构体和其他边缘情况,这种推断可能存在歧义。

第三,MolEdit 缺乏直接的口袋条件,而是依赖于形状引导的推断(“先导印迹”)。该策略取决于合适的先导分子的可用性,并限制了 MolEdit 在需要直接口袋特定相互作用或严格的目标引导设计的场景中的适用性。

MolEdit 代码库已公开,该团队希望未来的工作能够解决这些限制。潜在的方向包括氢感知训练、改进图拓扑预测,以及引入 ControlNet 等插件用于特定任务的微调。研究人员期望进一步的改进和发展将在未来带来更多创新的应用,并使分子编辑变得像图像编辑一样简单。

鉴于这里提出的方法是可扩展的和与模型无关的,将 MolEdit 推广到生物聚合物等大分子,或应用这些技术来增强现有的 3D 扩散模型(如 AlphaFold3)也是一个有潜力的方向。

开源代码:https://github.com/issacAzazel/MolEdit

论文链接:https://www.nature.com/articles/s41467-025-61323-x

最新文章