菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI教程 > AI蛋白设计评分排行榜:可信度深度测评
进阶教程 可信度深度

AI蛋白设计评分排行榜:可信度深度测评

2026-06-04
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

基于3,766个denovo结合子与15个靶点的大规模比较,AlphaFold3的ipSAE_min是预测体外结合最稳的单

从事蛋白设计的同行常遇到一个困境:利用RFdiffusion、BindCraft等工具产出候选结合子并不难,真正的痛点是——进入湿实验前,如何从众多候选中精准选出值得合成的分子?

长久以来,缺乏系统性的解答。多数团队依赖经验法则筛选候选,例如pLDDT越高越好、ipAE越低越好,但鲜有研究在大规模、统一数据集上严谨比对这些指标的预测效能。

这项研究恰好填补了空白。数据集包含3,766个具有实验结合数据的de novo结合子,覆盖15个靶点,采用四套结构预测工具,每个设计提取超过200项结构、能量、置信度与序列特征——本质上是一次大规模的“赛马”分析,旨在找出哪些指标(或组合)能提前可靠地指示哪些候选值得进入合成环节。

核心发现速览

直接结论:AlphaFold3提供的ipSAE_min是目前稳定性最强、区分度最高的单一指标,其平均精度(AP)约为常用ipAE的1.4倍。若进一步组合正交的物理化学界面描述符,例如Rosetta的ΔG/ΔSASA、界面形状互补性,预测能力还能再提升。有趣的是,简单线性模型仅用少数特征即可达到最佳表现,堆砌特征、添加交互项甚至改用XGBoost均无额外增益。

关键数字
汇总结合子总数3,766
靶点数15
真实结合子(阳性)436(11.6%)
每个设计的特征数200
结构预测工具4
靶点长度范围(残基)60–621(均值174,中位101)
流水线提速每个设计1802 s → 230 s(↓87%)

1. 背景:筛选才是真正的效率瓶颈

过去两年,RFdiffusion、BindCraft、AlphaProteo等方法已能仅凭靶点结构、无需天然模板直接生成高亲和力结合子,在治疗、诊断与基础研究中广泛应用。

但真正的成本不在生成阶段,而在后续。设计软件通常批量产出成百上千个候选,而能在体外实验中结合成功的往往只有个位数。若对每个候选都进行合成、BLI或细胞分选,时间和预算均难以承受。因此,in silico预筛成为流程中最关键且最棘手的环节——尤其当候选池内序列高度相似时,从中分出高下难度极大。

一个里程碑式进展来自Bennett等人(2023),他们发现基于深度学习的结构预测(尤其是AlphaFold2)可在实验前有效排序候选,显著提升成功率。由此衍生出的置信度指标——pLDDT、ipAE、ipTM——被证实能预测体外结合,甚至优于传统的Rosetta物理能量。

然而,当前仍存在三个明显缺口:

  • 缺乏公认标准:设计成功率波动剧烈,缺少可跨研究通用的候选优先级判定准则;
  • 新模型未被系统评估:AF2之后涌现了AlphaFold3、Boltz-1、Boltz-2、Chai-1等模型,它们在“预测体外结合”这一任务上的表现尚无大规模比较;
  • 泛化性存疑:层出不穷的新指标能否跨大规模、多样化数据集泛化,尚不明确。而且多数de novo项目只产出少量验证过的结合子,且常聚焦于相关靶点,难以在规模上构建基准。

本研究正是针对这些缺口展开。


2. 数据集:3,766个结合子 / 15个靶点

作者从多篇已发表研究中汇总数据,构建了跨靶点类别与设计协议的大规模数据集。靶点涵盖:

  • 受体酪氨酸激酶(RTK):EGFR、LTK、FGFR2、胰岛素受体(InsulinR)、TrkA
  • 病原体来源抗原:SARS-CoV-2 RBD、VirB8
  • 细胞因子受体 / 免疫调节因子:IL2Rα、IL7Rα、IL10Rα、PD-L1
  • 其他:原癌蛋白MDM2、蛇毒短链α-神经毒素(sntx)、两个肽-MHC复合物(pMHC)

将真实结合子的相互作用残基映射回靶点结构后,可见结合位点高度保守(Fig. 1A)。

2.1 数据来源(节选汇总)

数据来源代表靶点结合判定方式
Adaptyv Bio R1 & R2(2025)EGFRBLI测得K_D < 10,000 nM
Bennett et al.(2023)LTK、IL10Rα、IL2Rα细胞分选Sc50 < 4000 nM,部分BLI验证
Cao et al.(2022)VirB8、InsulinR、TrkA、FGFR2、EGFR、IL7Rα、SARS-CoV-2 RBSSc50 < 4000 nM
Watson et al.(2023,RFdiffusion)PD-L1、IL7Rα、TrkA、InsulinR、MDM2BLI响应 > 阳性对照50%(10,000 nM)
Johansen et al.(2025)两个pMHC(NY-ESO / SILSY)分选前后log2FC,无单一阈值,部分BLI
Torres et al.(2025)sntx酵母展示分选,部分BLI

2.2 数据集的两个关键特征(也是后续分析难点)

  • 极度不平衡:仅436个(11.6%)为真实结合子,且各靶点的测试数与阳性比例差异极大(Fig. 1B)。这直接决定了后文采用平均精度(AP)而非AUROC作为主评价指标。
  • 标签噪声不可忽视:结合判定未标准化——亲和力阈值与检测形式(BLI、酵母/细胞分选Sc50、log2FC等)各不相同(见Table 1)。

为排除数据冗余带来的偏倚,作者评估了靶点与结合子序列相似性(Fig. S1):除两个pMHC靶点之间、以及pMHC NY1结合子内部存在预期内的相似性外,整体序列多样性很高——结论并非由冗余支撑。此外,对Bennett与Cao的数据按非结合子∶结合子 = 10∶1进行下采样,Adaptyv数据中的抗体类结合子被剔除,以保持“纯de novo”聚焦。


3. 打分流水线与提速

3.1 流水线设计(Fig. 2A)

输入为各设计工具产出的结合子–靶点复合物PDB(binder = 链A,target = 链B),配以CSV指定靶点子链范围与MSA设置。不同工具处理方式如下:

  • AF2 initial guess:使用输入PDB固定靶点结构,仅重预测结合子(专为高通量设计,作为本研究参照基线);
  • ColabFold / Boltz-1 / AF3:提取结合子序列及相关靶点子链,重预测整个复合物;每条唯一靶点链用MMseqs2生成一次MSA并复用,再转换至各模型所需格式。

随后从各模型输出中抽取置信度分数,并统一计算ipSAE、pDockQ、pDockQ2、ipAE、LIS(AF2 initial guess除外),再对最高置信复合物计算一系列结构指标及模型间两两RMSD——合计200多个特征/设计。

3.2 三档配置与提速结果(Fig. 2B–D)

为压缩“结构预测耗时”这一主要瓶颈,作者在56个真实结合子(覆盖15个靶点 + 3个额外靶点;其中12个有实验解析结构)上测试三档配置:

配置MSA策略模型数每个设计总耗时AF3耗时
Maximum各工具默认成对MSA51802 s1441 s
Intermediate仅靶点单一MSA,复用5282 s(↓84%)33 s(↓97%)
Minimal(最终采用)仅靶点单一MSA + 减recycle3230 s(↓87%)29 s(↓98%)

AF3的提速最为显著,主要归因于跳过了基于JackHMMER的MSA生成。关键验证:用12个实验结构检测发现,ipAE(模型质量)与DockQ(结构吻合度)在三档间无显著下降——提速几乎不牺牲精度。因此后续分析全部采用Minimal配置(运行于单张NVIDIA L40S)。


4. 核心指标:ipSAE是什么,为什么_min最强

要理解本文核心结论,需厘清几个置信度指标的差异。

4.1 ipSAE的设计动机与公式

ipSAE(interaction prediction Score from Aligned Errors)由Dunbrack(2025)提出,可看作ipTM的“界面聚焦式”修正:

  • 与ipTM算法相似,但只纳入pAE < cutoff(默认<10)的链间残基对;
  • 按界面规模动态调整d0(d0随界面残基数的平方根增大)。

其计算形式为(A→B方向):

ipSAE(A→B) = max over i∈A [ mean over j∈B, PAE_ij < cutoff ( 1 / (1 + (PAE_ij / d0)^2) ) ]

直观含义:只统计真正自信的界面接触,并对“小而自信”的界面打折——因为很短的界面在物理上难以形成真实结合。这使得ipSAE比ipAE更具一致性,更少依赖具体靶点。

4.2 _min的由来

由于A→B与B→A不对称,作者保存了两个方向的最大与最小值:

  • ipSAE_max:标准实现,取较大值;
  • ipSAE_min:取较小值——“最弱的一环”最能反映结合状态。

作者还探索了在A维度上将max算子替换为avg/min的变体(ipSAE_avg、ipSAE_min_in_calculation),以及当靶点有多个子链时,在“有实际相互作用残基”的方向上取均值。

4.3 核心指标速查表

指标含义计算于哪些模型
pLDDT每残基置信度全部
ipAE(pae_interaction)结合子链到其他链的平均链间pAE全部
ipTM界面预测TM-score(链相对位置置信度)全部
ipSAE / ipSAE_minipTM的界面聚焦修正,pAE<10,d0动态;_min取双向最小AF3 / ColabFold / Boltz-1
LIS链间接触(pAE<12)反转后取均值(0–1)AF3 / ColabFold / Boltz-1
pDockQ / pDockQ2由pLDDT + 界面预测的DockQAF3 / ColabFold / Boltz-1
DockQ与参考结构的界面相似度(此处以输入结构为参考)全部
interface_ΔGRosetta估计的界面结合能输入 + 各模型
interface_ΔG/ΔSASA结合能按界面大小归一(惯例×100)输入 + 各模型
interface_sc界面形状互补性输入 + 各模型
ΔSAP(sap_delta)空间聚集倾向差值,疏水性强输入 + 各模型
RMSD_binder(input vs AF3)对齐靶点后,输入与AF3预测结合子的Cα RMSD跨模型对比

4.4 四个工具的角色对比

工具版本处理方式备注
AF2 initial guessdl_binder_design v1.0.0固定靶点,仅重预测结合子高通量参照基线;不计算ipSAE/LIS
ColabFoldlocalcolabfold v1.5.5(AF-multimer)重预测整个复合物MMseqs2 MSA
AlphaFold3v3.0.1重预测整个复合物综合最佳
Boltz-1Boltz-1x v1.0.0重预测整个复合物开源AF3类模型,最接近AF3但仍略逊

5. 哪些特征最能预测结合

5.1 单特征:全数据下最佳为AF3 ipSAE_min

采用AP衡量各特征区分结合/非结合的能力,各模型的最佳单特征为:

  • AF3 / ColabFold / Boltz-1:ipSAE_min、ipSAE_max、LIS——全部基于pAE矩阵,仅捕获高置信界面;
  • AF2 initial guess:ΔSAP。

全数据下最佳单一指标是AF3 ipSAE_min。 作者也提醒,部分数据此前已用AF2 initial guess的ipAE/pLDDT预筛过(Fig. S9、S10),可能人为压低了这两个指标在本数据上的表观预测力。

5.2 交互特征:置信度 × 物理化学描述符

作者进一步引入交互项(两特征乘积f_i × f_j)。结果显示,加入交互项后各模型预测力均一致提升,最佳组合为:

模型最佳交互组合
AF3ipSAE_min × interface_ΔG/ΔSASA
ColabFoldipSAE_min × input_interface_shape_complementarity
Boltz-1LIS × input_ΔSAP
AF2 initial guessDockQ × input_ΔSAP

规律清晰:除AF2 initial guess外,最优组合均为“界面聚焦的置信度分数 + 物理化学界面描述符”——说明二者捕获正交、互补的信息。整体而言,AF3在单特征与交互特征上全面胜出,表明其置信度与复合物结构最为准确。

5.3 跨靶点稳健性:中位AP视角

由于数据按靶点不平衡,作者改用跨15个靶点的中位AP(削弱个别靶点离群影响)重新排序。各模型top单特征:ipSAE_min(AF3、Boltz-1)、actifpTM(ColabFold)、pAE_interaction(AF2)。其中AF3 ipSAE_min仍然最突出;叠加物理化学描述符(AF3加形状互补性、Boltz-1加ΔG/ΔSASA等)同样能稳定提升AP。


6. 靶点依赖性:为何有的靶点天生难预测

这是本文最“降温”也是最诚实的一节。

  • 跨靶点波动极大:AF3 ipSAE_min(及其与ΔG/ΔSASA的组合)在不同靶点上的AP从0.1到1.0不等;真结合子很少的靶点常为离群点,多半反映统计波动(Fig. 3B)。
  • 阈值稳定,但精度不稳定:使ipSAE_min的F1最大化所对应的阈值在多数靶点落在0.5–0.8;但对应的精度仍在0.1–1.0间剧烈波动(Fig. 3C)。各靶点的top特征也差异显著(Fig. S11)。
  • 何种靶点更好预测?(Fig. S12)
    • ΔSAP(疏水性)与AP的相关性仅在AF2 ipAE上成立(Pearson r ≈ −0.68,p = 0.005);
    • 但在AF3 ipSAE_min上不成立(r ≈ −0.04,p = 0.89)——说明ipSAE_min不依赖疏水埋藏,捕获的是不同维度的界面质量;
    • AF3 ipSAE_min的AP反而与界面氢键比例正相关、与ΔG/ΔSASA负相关——即“界面能量越密集的靶点越好预测”。但这些相关均偏弱、未达显著,且主要由少数靶点驱动。

7. 阈值策略:回顾性分析 + 交叉验证

候选筛选最终需落到“卡哪个阈值”。作者采用留一靶点交叉验证(每次留出一个靶点,阈值在其余靶点上选定),对最佳单特征与交互特征进行回顾性评估,并以常用的AF2 ipAE与AF3 ipTM作基线。三种实用阈值策略对应:recall = 0.2 / recall = 0.4 / 最大化F1(Fig. 3E)。

结论

  • AF3 ipSAE_min及交互特征AF3 ipSAE_min × interface_ΔG/ΔSASA、AF3 LIS × input_interface_shape_complementarity在所有阈值下均优于AF2 ipAE;
  • AF3 ipTM在recall 0.4与max F1时被超越,但在recall 0.2时排第二,且IQR更小——说明ipTM在“宁缺毋滥”的低召回区仍保持稳健。

精度-召回曲线(Fig. 3F)给出的F1最大化阈值

  • AF3 ipSAE_min:0.61
  • AF3 ipSAE_min × interface_ΔG/ΔSASA:−1.5(越小越可能结合)
  • AF3 LIS × input_interface_shape_complementarity:0.42

此外,对ipSAE_min进行的“逐步增加训练靶点”分析(Fig. S13)表明:阈值迅速稳定,精度与F1随训练靶点数量增加而稳步提升。


8. 线性模型与贪婪特征选择:多特征是否更优?

作者进一步检验:将多个特征线性组合(而非乘积)能否跨靶点提升表现?方法为逻辑回归 + 贪婪前向特征选择 + 嵌套留一组交叉验证(15个靶点逐一留出):

  • 所有数值特征z-score标准化;类别不平衡用class_weight="balanced"处理;
  • 内层使用l1惩罚逻辑回归(liblinear),以中位AP选特征,AP增益 < 0.005即早停,防止过拟合;
  • 分别对每个工具的“单特征”“单特征 + top50交互项”以及“跨模型合并”进行实验。

结果(Fig. 4A,Fig. S14–S15)

  • 没有任何模型超过最强基线LIS × input_interface_shape_complementarity(中位AP = 0.58,IQR 0.33–0.66);
  • 但采用AF3单特征训练的模型中位AP = 0.57(IQR 0.40–0.66,方差更小),超过了最佳单特征ipSAE_min(≈0.54);
  • 内层平均只选了2–5个特征即停止改进;
  • 跨模型合并特征 → 无提升(似引入噪声);加交互项 → 无提升(选入更少,说明多数交互项不跨靶点泛化);换XGBoost → 仍无提升(Fig. S15)。

特征重要性(AF3单特征模型,Fig. 4C):ipSAE_min在所有折中均被选中,稳健性再次得到印证;之后选择频率与系数断崖式下降。值得注意的是,两个结构对比类特征频繁入选——RMSD_binder(对齐靶点后输入 vs AF3)与RMSD_complex(整复合物 输入 vs AF3);此外input_interface_shape_complementarity与interface_ΔG/ΔSASA也常被选中。

三特征模型(Fig. 4D):取top-3特征AF3 ipSAE_min + RMSD_binder + input_interface_shape_complementarity重训逻辑回归,同时加入这两个特征比只加其中之一带来的AP / 精度 / F1提升都更大——即少量补充特征确实能进一步推高实验成功率。


9. 落地建议:可直接复用的筛选SOP

作者将上述发现凝练成两套可直接执行的筛选策略(任选其一或组合):

方案 A — 单刀直入,卡一个阈值(三选一)

AF3 ipSAE_min > 0.61
AF3 ipSAE_min × interface_ΔG/ΔSASA < -1.5  # 越小越可能结合
AF3 LIS × input_interface_shape_complementarity > 0.42

方案 B — 先粗筛,再排序(推荐用于大批量)

Step 1 预筛选(作用于“设计的输入结构”,无需折叠即可执行):
  input_interface_shape_complementarity > 0.62
  RMSD_binder < 3.73
Step 2 对通过者按 AF3 ipSAE_min 取 Top-K

几条值得记住的实操要点(Fig. 4E–F)

  • 形状互补性这个滤镜很值:它作用在输入结构上,无需等待复合物折叠完即可应用,在小K(约1–20)时尤其能提升平均精度;
  • 仅用ipSAE_min(或再加形状互补性),每个靶点只取10个候选,即可为全部15个靶点各召回至少1个真结合子
  • RMSD_binder滤镜需谨慎:它有时过于严格——在两个靶点上、所有K值下都未能召回任何结合子。它能增强预测力,但可能误杀。

10. 局限性与展望

作者对局限性相当坦诚:

  • 数据稀疏:多数靶点的测试设计数量有限,真结合子常为个位数,限制了模型泛化;
  • 标签噪声:各研究检测方法与“结合”定义异质,引入噪声;
  • 亲和力缺失:亲和力数据仅小部分可得,未纳入分析。

展望与呼吁

  • AF3持续领先,与既往“AF3在PPI预测上更优”的结论一致;但Boltz-2、Chai-1等更新模型值得继续评估;
  • 该领域真正需要的是更标准化、公开的“结构 ↔ 亲和力”数据集,以提升预测力并深化对蛋白–蛋白相互作用的理解。

如果说过去两年de novo设计解决了“怎么造”,那么“造出来之后该信谁、该挑谁”一直缺一个有规模支撑的答案。这篇覆盖3,766个样本的meta分析,第一次在足够大的尺度上把这件事讲清楚,并给出了简单、可解释、可复现的落地方案。

对任何还在为“挑哪个binder”头疼的实验室,这都是一份兼具方法学深度与工程实用性的参考。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多