AI配体生成模型FLOWR:从头设计、片段生长与结合位点优化
摘要
FLOWR是基于流匹配的结构感知配体生成模型,结合等变最优传输与口袋编码,实现从头设计
结构药物设计领域近年取得了实质性突破。生成式人工智能兴起后,基于结构的药物发现(SBDD)借助扩散模型与流匹配模型在三维配体生成上进展显著。然而,生成效率不足、构象质量波动、蛋白-配体相互作用恢复能力有限以及难以支持片段优化等精细任务,仍是当前主要瓶颈。
针对这些挑战,研究团队提出了FLOWR(Flow Matching for Structure-Aware Ligand Generation)框架——一种面向三维配体生成与优化的结构感知流匹配方案。FLOWR融合连续与离散流匹配方法、等变最优传输机制以及高效蛋白口袋编码模块,目标明确:基于蛋白结合口袋从头设计配体。同时,团队构建了高质量蛋白-配体共晶数据集SPINDR,专门解决现有数据集结构质量差、数据泄漏等顽疾。
在此基础上,他们进一步推出FLOWR.MULTI模型。该模型无需重新训练即可完成基于相互作用约束、骨架约束和功能基团约束的配体生成,覆盖片段生长、骨架跳跃、先导化合物优化等任务。实验数据证实:在PoseBusters有效性、构象准确性、蛋白-配体相互作用恢复率及推理速度上,FLOWR显著超越现有扩散与流匹配模型,推理速度最高提升70倍。FLOWR与FLOWR.MULTI为AI驱动的结构药物设计提供了更可靠、更实用的新路径。

传统基于结构的药物发现核心思路是依赖蛋白质或核酸的三维结构来指导并优化活性分子。分子对接、虚拟筛选、结构指导优化等方法曾在药物研发中发挥关键作用。但分子间相互作用复杂、化学空间庞大、结合构象难以预测,这些固有局限始终制约着传统方法的效能。
近年来,深度学习尤其生成模型的进展为上述难题打开了新窗口。扩散模型可从随机噪声逐步生成符合结合口袋要求的三维分子,并取得了一些成果。然而,这类模型普遍需要大量迭代采样步骤,推理速度缓慢,且生成结果中仍常出现不合理构象、异常化学结构或药物相容性欠佳的问题。
流匹配(Flow Matching)作为新兴生成范式,通过学习连续概率流实现更高效的分子生成。结合最优传输与等变建模后,其在分子生成任务中表现尤为突出。研究团队沿此思路开发了FLOWR,目标是构建一个兼顾生成质量、推理效率和多任务适应性的统一结构药物设计框架。
同时,团队注意到当前常用数据集(如PDBBind和CROSSDOCKED2020)存在严重缺陷——结构缺陷、口袋错误匹配、训练测试泄漏等问题直接影响模型评估的真实性。因此,他们同步构建了高质量数据集SPINDR,为模型训练与评估奠定更可靠的基础。
方法
FLOWR底层架构基于SEMLA等变图神经网络,核心创新在于引入独立蛋白口袋编码器与蛋白-配体交叉注意力机制,从而实现结合口袋条件下的三维配体生成。模型同步学习连续变量(原子坐标)与离散变量(原子类型、键类型),并采用等变最优传输降低噪声到目标分子的运输成本,进而提升生成稳定性与采样效率。
具体生成流程:FLOWR先对蛋白结合口袋进行编码,再通过流匹配逐步将随机噪声转化为符合口袋结构约束的配体。在此基础上,团队进一步开发了FLOWR.MULTI框架,通过片段条件生成与相互作用条件生成机制,使模型能够应对骨架优化、片段扩展、片段连接、功能基团引导设计等多种药物设计任务。
数据集方面,SPINDR源自PLINDER数据集,经过严格过滤、蛋白结构修复、氢原子补全、相互作用推断及数据去冗余处理,最终得到35,666个高质量蛋白-配体复合物,为结构生成模型提供了更可靠的数据基础。
结果
FLOWR整体框架与SPINDR数据集构建
首先审视FLOWR整体架构。模型采用独立口袋编码器对蛋白结合位点进行一次编码,并在整个采样过程中重复使用该表示,从而避免传统扩散模型每步重新编码蛋白口袋的冗余计算。此外,FLOWR支持蛋白-配体相互作用约束输入,使生成结果更贴近目标结合模式。
为保障训练数据质量,团队构建了SPINDR数据集。与CROSSDOCKED和PDBBind相比,SPINDR不仅保留真实晶体结构,还进行了结构优化、氢原子补全、蛋白-配体相互作用标注,并严格控制训练集与测试集之间的数据泄漏。最终,它成为当前最大规模的高质量蛋白-配体共晶结构数据集之一。

图1:FLOWR整体框架示意图,包含蛋白口袋编码器、交叉注意力模块、流匹配生成过程及FLOWR.MULTI条件生成机制。
FLOWR在配体生成质量上全面超越现有方法
在CROSSDOCKED2020基准数据集上,研究团队将FLOWR与Pocket2Mol、DiffSBDD、TargetDiff、DrugFlow、PILOT等模型进行对比。结果显示:FLOWR在PoseBusters有效性、AutoDock Vina评分、键长与键角分布一致性等多项指标上均取得最优结果。
在SPINDR测试集上评估时,FLOWR的RDKit有效率达到0.94,而PILOT仅为0.79;PoseBusters有效率为0.88,PILOT仅为0.71。这充分说明FLOWR能够生成更多化学合理、空间构象正确的配体。
另一个显著优势是推理效率。采用100步采样时,FLOWR速度约为PILOT的20倍;即使将采样步数降至20步,它仍能保持较高性能,同时实现约70倍加速。这一差距在实际应用中直接转化为显著的效率提升。

FLOWR生成更合理的三维构象与结合姿态
分析生成分子的构象质量发现:FLOWR生成分子的应变能明显低于PILOT,AutoDock Vina评分也更优,意味着生成配体具有更合理的结合构象。
在统计分布层面,FLOWR的键长、键角及药物性质分布与真实测试集高度接近,能够更准确地学习真实药物化学空间。尤为重要的是,经过简单能量最小化后,FLOWR生成的分子可进一步获得接近实验晶体结构的低能构象。总体而言,FLOWR在几乎所有评估指标上均超越PILOT,平均有效性提升约15%,同时采样效率大幅领先。
FLOWR显著提高蛋白-配体相互作用恢复能力
蛋白-配体相互作用直接决定药物活性与选择性,因此恢复真实结合模式是结构药物设计的核心目标。研究团队采用PLIF指纹评估模型恢复真实相互作用的能力。
结果显示:FLOWR的相互作用恢复率达到47.1%,高于PILOT的43.2%。若显式考虑氢原子,优势进一步扩大。同时,FLOWR能生成更多可用于分析的有效构象,成功率明显高于对照模型。不过,团队也意识到完全依赖从头生成难以满足实际先导优化需求,因此开发了FLOWR.MULTI条件生成框架。
FLOWR.MULTI实现相互作用驱动和片段驱动设计
FLOWR.MULTI的策略是:固定关键相互作用的原子,仅对剩余部分进行生成,从而实现相互作用条件约束下的设计。结果令人振奋:相互作用恢复率从FLOWR的47.1%直接跃升至76.1%,接近翻倍,且生成分子的化学多样性依然保持良好。
此外,FLOWR.MULTI还可根据给定骨架或功能基团进行定向生成,支持片段扩展、骨架优化、先导化合物优化等任务。研究团队在Lp-PLA2(5YEA)和PDK(4MPE)两个药物靶点上进行了验证。结果表明,不同条件模式下生成的分子均保持较高的PoseBusters有效率和不错的Vina评分,同时能准确恢复参考配体的相互作用模式。
值得强调的是,不同条件模式可实现不同程度的化学空间探索。例如,从头生成模式多样性最高,而功能基团条件模式生成的分子化学空间更接近参考配体。这使药物设计人员能够根据研发阶段灵活调控探索与优化之间的平衡。
讨论
总体而言,FLOWR与FLOWR.MULTI的提出标志着结构药物设计正从扩散模型向更高效的流匹配模型演进。通过融合等变流匹配、最优传输及高效蛋白口袋编码机制,FLOWR不仅显著提升生成质量,还实现了数量级的推理加速。
与现有方法相比,FLOWR的核心优势在于同时兼顾高质量从头生成、高效蛋白-配体相互作用建模以及灵活的片段驱动设计。尤其FLOWR.MULTI在统一框架下实现了相互作用约束生成、骨架优化和功能基团引导设计,为真实药物研发流程中的Hit Expansion、Hit-to-Lead及Lead Optimization提供了一站式解决方案。
当然,研究团队也坦承当前模型存在若干限制:显式氢原子建模时有效性下降,训练数据覆盖的化学空间仍有限,蛋白柔性与诱导契合效应尚未纳入模型,且生成构象的应变能仍高于真实晶体结构。未来可从以下方向优化:扩大数据规模、引入蛋白动态构象、整合ADMET与可合成性约束,以及开展前瞻性实验验证,从而进一步提升模型性能。
归根结底,FLOWR证明了流匹配模型在结构药物设计中的巨大潜力,也为下一代AI驱动的配体生成与优化平台指明了新的技术路径。
参考资料
Cremer, J., Irwin, R., Tibo, A. et al. FLOWR: flow matching for structure-aware de novo, interaction- and fragment-based ligand generation. Nat Comput Sci (2026).
https://doi.org/10.1038/s43588-026-00998-8
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。