AI蛋白设计评分排行榜:可信度深度测评
摘要
基于3,766个denovo结合子与15个靶点的大规模比较,AlphaFold3的ipSAE_min是预测体外结合最稳的单
从事蛋白设计的同行常遇到一个困境:利用RFdiffusion、BindCraft等工具产出候选结合子并不难,真正的痛点是——进入湿实验前,如何从众多候选中精准选出值得合成的分子?
长久以来,缺乏系统性的解答。多数团队依赖经验法则筛选候选,例如pLDDT越高越好、ipAE越低越好,但鲜有研究在大规模、统一数据集上严谨比对这些指标的预测效能。
这项研究恰好填补了空白。数据集包含3,766个具有实验结合数据的de novo结合子,覆盖15个靶点,采用四套结构预测工具,每个设计提取超过200项结构、能量、置信度与序列特征——本质上是一次大规模的“赛马”分析,旨在找出哪些指标(或组合)能提前可靠地指示哪些候选值得进入合成环节。

核心发现速览
直接结论:AlphaFold3提供的ipSAE_min是目前稳定性最强、区分度最高的单一指标,其平均精度(AP)约为常用ipAE的1.4倍。若进一步组合正交的物理化学界面描述符,例如Rosetta的ΔG/ΔSASA、界面形状互补性,预测能力还能再提升。有趣的是,简单线性模型仅用少数特征即可达到最佳表现,堆砌特征、添加交互项甚至改用XGBoost均无额外增益。
| 关键数字 | 值 |
|---|---|
| 汇总结合子总数 | 3,766 |
| 靶点数 | 15 |
| 真实结合子(阳性) | 436(11.6%) |
| 每个设计的特征数 | 200 |
| 结构预测工具 | 4 |
| 靶点长度范围(残基) | 60–621(均值174,中位101) |
| 流水线提速 | 每个设计1802 s → 230 s(↓87%) |
1. 背景:筛选才是真正的效率瓶颈
过去两年,RFdiffusion、BindCraft、AlphaProteo等方法已能仅凭靶点结构、无需天然模板直接生成高亲和力结合子,在治疗、诊断与基础研究中广泛应用。
但真正的成本不在生成阶段,而在后续。设计软件通常批量产出成百上千个候选,而能在体外实验中结合成功的往往只有个位数。若对每个候选都进行合成、BLI或细胞分选,时间和预算均难以承受。因此,in silico预筛成为流程中最关键且最棘手的环节——尤其当候选池内序列高度相似时,从中分出高下难度极大。
一个里程碑式进展来自Bennett等人(2023),他们发现基于深度学习的结构预测(尤其是AlphaFold2)可在实验前有效排序候选,显著提升成功率。由此衍生出的置信度指标——pLDDT、ipAE、ipTM——被证实能预测体外结合,甚至优于传统的Rosetta物理能量。
然而,当前仍存在三个明显缺口:
- 缺乏公认标准:设计成功率波动剧烈,缺少可跨研究通用的候选优先级判定准则;
- 新模型未被系统评估:AF2之后涌现了AlphaFold3、Boltz-1、Boltz-2、Chai-1等模型,它们在“预测体外结合”这一任务上的表现尚无大规模比较;
- 泛化性存疑:层出不穷的新指标能否跨大规模、多样化数据集泛化,尚不明确。而且多数de novo项目只产出少量验证过的结合子,且常聚焦于相关靶点,难以在规模上构建基准。
本研究正是针对这些缺口展开。
2. 数据集:3,766个结合子 / 15个靶点
作者从多篇已发表研究中汇总数据,构建了跨靶点类别与设计协议的大规模数据集。靶点涵盖:
- 受体酪氨酸激酶(RTK):EGFR、LTK、FGFR2、胰岛素受体(InsulinR)、TrkA
- 病原体来源抗原:SARS-CoV-2 RBD、VirB8
- 细胞因子受体 / 免疫调节因子:IL2Rα、IL7Rα、IL10Rα、PD-L1
- 其他:原癌蛋白MDM2、蛇毒短链α-神经毒素(sntx)、两个肽-MHC复合物(pMHC)
将真实结合子的相互作用残基映射回靶点结构后,可见结合位点高度保守(Fig. 1A)。
2.1 数据来源(节选汇总)
| 数据来源 | 代表靶点 | 结合判定方式 |
|---|---|---|
| Adaptyv Bio R1 & R2(2025) | EGFR | BLI测得K_D < 10,000 nM |
| Bennett et al.(2023) | LTK、IL10Rα、IL2Rα | 细胞分选Sc50 < 4000 nM,部分BLI验证 |
| Cao et al.(2022) | VirB8、InsulinR、TrkA、FGFR2、EGFR、IL7Rα、SARS-CoV-2 RBS | Sc50 < 4000 nM |
| Watson et al.(2023,RFdiffusion) | PD-L1、IL7Rα、TrkA、InsulinR、MDM2 | BLI响应 > 阳性对照50%(10,000 nM) |
| Johansen et al.(2025) | 两个pMHC(NY-ESO / SILSY) | 分选前后log2FC,无单一阈值,部分BLI |
| Torres et al.(2025) | sntx | 酵母展示分选,部分BLI |

2.2 数据集的两个关键特征(也是后续分析难点)
- 极度不平衡:仅436个(11.6%)为真实结合子,且各靶点的测试数与阳性比例差异极大(Fig. 1B)。这直接决定了后文采用平均精度(AP)而非AUROC作为主评价指标。
- 标签噪声不可忽视:结合判定未标准化——亲和力阈值与检测形式(BLI、酵母/细胞分选Sc50、log2FC等)各不相同(见Table 1)。
为排除数据冗余带来的偏倚,作者评估了靶点与结合子序列相似性(Fig. S1):除两个pMHC靶点之间、以及pMHC NY1结合子内部存在预期内的相似性外,整体序列多样性很高——结论并非由冗余支撑。此外,对Bennett与Cao的数据按非结合子∶结合子 = 10∶1进行下采样,Adaptyv数据中的抗体类结合子被剔除,以保持“纯de novo”聚焦。
3. 打分流水线与提速
3.1 流水线设计(Fig. 2A)
输入为各设计工具产出的结合子–靶点复合物PDB(binder = 链A,target = 链B),配以CSV指定靶点子链范围与MSA设置。不同工具处理方式如下:
- AF2 initial guess:使用输入PDB固定靶点结构,仅重预测结合子(专为高通量设计,作为本研究参照基线);
- ColabFold / Boltz-1 / AF3:提取结合子序列及相关靶点子链,重预测整个复合物;每条唯一靶点链用MMseqs2生成一次MSA并复用,再转换至各模型所需格式。
随后从各模型输出中抽取置信度分数,并统一计算ipSAE、pDockQ、pDockQ2、ipAE、LIS(AF2 initial guess除外),再对最高置信复合物计算一系列结构指标及模型间两两RMSD——合计200多个特征/设计。

3.2 三档配置与提速结果(Fig. 2B–D)
为压缩“结构预测耗时”这一主要瓶颈,作者在56个真实结合子(覆盖15个靶点 + 3个额外靶点;其中12个有实验解析结构)上测试三档配置:
| 配置 | MSA策略 | 模型数 | 每个设计总耗时 | AF3耗时 |
|---|---|---|---|---|
| Maximum | 各工具默认成对MSA | 5 | 1802 s | 1441 s |
| Intermediate | 仅靶点单一MSA,复用 | 5 | 282 s(↓84%) | 33 s(↓97%) |
| Minimal(最终采用) | 仅靶点单一MSA + 减recycle | 3 | 230 s(↓87%) | 29 s(↓98%) |
AF3的提速最为显著,主要归因于跳过了基于JackHMMER的MSA生成。关键验证:用12个实验结构检测发现,ipAE(模型质量)与DockQ(结构吻合度)在三档间无显著下降——提速几乎不牺牲精度。因此后续分析全部采用Minimal配置(运行于单张NVIDIA L40S)。
4. 核心指标:ipSAE是什么,为什么_min最强
要理解本文核心结论,需厘清几个置信度指标的差异。
4.1 ipSAE的设计动机与公式
ipSAE(interaction prediction Score from Aligned Errors)由Dunbrack(2025)提出,可看作ipTM的“界面聚焦式”修正:
- 与ipTM算法相似,但只纳入pAE < cutoff(默认<10)的链间残基对;
- 按界面规模动态调整d0(d0随界面残基数的平方根增大)。
其计算形式为(A→B方向):
ipSAE(A→B) = max over i∈A [ mean over j∈B, PAE_ij < cutoff ( 1 / (1 + (PAE_ij / d0)^2) ) ]
直观含义:只统计真正自信的界面接触,并对“小而自信”的界面打折——因为很短的界面在物理上难以形成真实结合。这使得ipSAE比ipAE更具一致性,更少依赖具体靶点。
4.2 _min的由来
由于A→B与B→A不对称,作者保存了两个方向的最大与最小值:
- ipSAE_max:标准实现,取较大值;
- ipSAE_min:取较小值——“最弱的一环”最能反映结合状态。
作者还探索了在A维度上将max算子替换为avg/min的变体(ipSAE_avg、ipSAE_min_in_calculation),以及当靶点有多个子链时,在“有实际相互作用残基”的方向上取均值。
4.3 核心指标速查表
| 指标 | 含义 | 计算于哪些模型 |
|---|---|---|
| pLDDT | 每残基置信度 | 全部 |
| ipAE(pae_interaction) | 结合子链到其他链的平均链间pAE | 全部 |
| ipTM | 界面预测TM-score(链相对位置置信度) | 全部 |
| ipSAE / ipSAE_min | ipTM的界面聚焦修正,pAE<10,d0动态;_min取双向最小 | AF3 / ColabFold / Boltz-1 |
| LIS | 链间接触(pAE<12)反转后取均值(0–1) | AF3 / ColabFold / Boltz-1 |
| pDockQ / pDockQ2 | 由pLDDT + 界面预测的DockQ | AF3 / ColabFold / Boltz-1 |
| DockQ | 与参考结构的界面相似度(此处以输入结构为参考) | 全部 |
| interface_ΔG | Rosetta估计的界面结合能 | 输入 + 各模型 |
| interface_ΔG/ΔSASA | 结合能按界面大小归一(惯例×100) | 输入 + 各模型 |
| interface_sc | 界面形状互补性 | 输入 + 各模型 |
| ΔSAP(sap_delta) | 空间聚集倾向差值,疏水性强 | 输入 + 各模型 |
| RMSD_binder(input vs AF3) | 对齐靶点后,输入与AF3预测结合子的Cα RMSD | 跨模型对比 |

4.4 四个工具的角色对比
| 工具 | 版本 | 处理方式 | 备注 |
|---|---|---|---|
| AF2 initial guess | dl_binder_design v1.0.0 | 固定靶点,仅重预测结合子 | 高通量参照基线;不计算ipSAE/LIS |
| ColabFold | localcolabfold v1.5.5(AF-multimer) | 重预测整个复合物 | MMseqs2 MSA |
| AlphaFold3 | v3.0.1 | 重预测整个复合物 | 综合最佳 |
| Boltz-1 | Boltz-1x v1.0.0 | 重预测整个复合物 | 开源AF3类模型,最接近AF3但仍略逊 |
5. 哪些特征最能预测结合
5.1 单特征:全数据下最佳为AF3 ipSAE_min
采用AP衡量各特征区分结合/非结合的能力,各模型的最佳单特征为:
- AF3 / ColabFold / Boltz-1:ipSAE_min、ipSAE_max、LIS——全部基于pAE矩阵,仅捕获高置信界面;
- AF2 initial guess:ΔSAP。
全数据下最佳单一指标是AF3 ipSAE_min。 作者也提醒,部分数据此前已用AF2 initial guess的ipAE/pLDDT预筛过(Fig. S9、S10),可能人为压低了这两个指标在本数据上的表观预测力。
5.2 交互特征:置信度 × 物理化学描述符
作者进一步引入交互项(两特征乘积f_i × f_j)。结果显示,加入交互项后各模型预测力均一致提升,最佳组合为:
| 模型 | 最佳交互组合 |
|---|---|
| AF3 | ipSAE_min × interface_ΔG/ΔSASA |
| ColabFold | ipSAE_min × input_interface_shape_complementarity |
| Boltz-1 | LIS × input_ΔSAP |
| AF2 initial guess | DockQ × input_ΔSAP |
规律清晰:除AF2 initial guess外,最优组合均为“界面聚焦的置信度分数 + 物理化学界面描述符”——说明二者捕获正交、互补的信息。整体而言,AF3在单特征与交互特征上全面胜出,表明其置信度与复合物结构最为准确。
5.3 跨靶点稳健性:中位AP视角
由于数据按靶点不平衡,作者改用跨15个靶点的中位AP(削弱个别靶点离群影响)重新排序。各模型top单特征:ipSAE_min(AF3、Boltz-1)、actifpTM(ColabFold)、pAE_interaction(AF2)。其中AF3 ipSAE_min仍然最突出;叠加物理化学描述符(AF3加形状互补性、Boltz-1加ΔG/ΔSASA等)同样能稳定提升AP。
6. 靶点依赖性:为何有的靶点天生难预测
这是本文最“降温”也是最诚实的一节。
- 跨靶点波动极大:AF3 ipSAE_min(及其与ΔG/ΔSASA的组合)在不同靶点上的AP从0.1到1.0不等;真结合子很少的靶点常为离群点,多半反映统计波动(Fig. 3B)。
- 阈值稳定,但精度不稳定:使ipSAE_min的F1最大化所对应的阈值在多数靶点落在0.5–0.8;但对应的精度仍在0.1–1.0间剧烈波动(Fig. 3C)。各靶点的top特征也差异显著(Fig. S11)。
- 何种靶点更好预测?(Fig. S12)
- ΔSAP(疏水性)与AP的相关性仅在AF2 ipAE上成立(Pearson r ≈ −0.68,p = 0.005);
- 但在AF3 ipSAE_min上不成立(r ≈ −0.04,p = 0.89)——说明ipSAE_min不依赖疏水埋藏,捕获的是不同维度的界面质量;
- AF3 ipSAE_min的AP反而与界面氢键比例正相关、与ΔG/ΔSASA负相关——即“界面能量越密集的靶点越好预测”。但这些相关均偏弱、未达显著,且主要由少数靶点驱动。
7. 阈值策略:回顾性分析 + 交叉验证
候选筛选最终需落到“卡哪个阈值”。作者采用留一靶点交叉验证(每次留出一个靶点,阈值在其余靶点上选定),对最佳单特征与交互特征进行回顾性评估,并以常用的AF2 ipAE与AF3 ipTM作基线。三种实用阈值策略对应:recall = 0.2 / recall = 0.4 / 最大化F1(Fig. 3E)。
结论:
- AF3 ipSAE_min及交互特征AF3 ipSAE_min × interface_ΔG/ΔSASA、AF3 LIS × input_interface_shape_complementarity在所有阈值下均优于AF2 ipAE;
- AF3 ipTM在recall 0.4与max F1时被超越,但在recall 0.2时排第二,且IQR更小——说明ipTM在“宁缺毋滥”的低召回区仍保持稳健。
精度-召回曲线(Fig. 3F)给出的F1最大化阈值:
- AF3 ipSAE_min:0.61
- AF3 ipSAE_min × interface_ΔG/ΔSASA:−1.5(越小越可能结合)
- AF3 LIS × input_interface_shape_complementarity:0.42
此外,对ipSAE_min进行的“逐步增加训练靶点”分析(Fig. S13)表明:阈值迅速稳定,精度与F1随训练靶点数量增加而稳步提升。
8. 线性模型与贪婪特征选择:多特征是否更优?
作者进一步检验:将多个特征线性组合(而非乘积)能否跨靶点提升表现?方法为逻辑回归 + 贪婪前向特征选择 + 嵌套留一组交叉验证(15个靶点逐一留出):
- 所有数值特征z-score标准化;类别不平衡用class_weight="balanced"处理;
- 内层使用l1惩罚逻辑回归(liblinear),以中位AP选特征,AP增益 < 0.005即早停,防止过拟合;
- 分别对每个工具的“单特征”“单特征 + top50交互项”以及“跨模型合并”进行实验。
结果(Fig. 4A,Fig. S14–S15):
- 没有任何模型超过最强基线LIS × input_interface_shape_complementarity(中位AP = 0.58,IQR 0.33–0.66);
- 但采用AF3单特征训练的模型中位AP = 0.57(IQR 0.40–0.66,方差更小),超过了最佳单特征ipSAE_min(≈0.54);
- 内层平均只选了2–5个特征即停止改进;
- 跨模型合并特征 → 无提升(似引入噪声);加交互项 → 无提升(选入更少,说明多数交互项不跨靶点泛化);换XGBoost → 仍无提升(Fig. S15)。

特征重要性(AF3单特征模型,Fig. 4C):ipSAE_min在所有折中均被选中,稳健性再次得到印证;之后选择频率与系数断崖式下降。值得注意的是,两个结构对比类特征频繁入选——RMSD_binder(对齐靶点后输入 vs AF3)与RMSD_complex(整复合物 输入 vs AF3);此外input_interface_shape_complementarity与interface_ΔG/ΔSASA也常被选中。
三特征模型(Fig. 4D):取top-3特征AF3 ipSAE_min + RMSD_binder + input_interface_shape_complementarity重训逻辑回归,同时加入这两个特征比只加其中之一带来的AP / 精度 / F1提升都更大——即少量补充特征确实能进一步推高实验成功率。
9. 落地建议:可直接复用的筛选SOP
作者将上述发现凝练成两套可直接执行的筛选策略(任选其一或组合):
方案 A — 单刀直入,卡一个阈值(三选一)
AF3 ipSAE_min > 0.61
AF3 ipSAE_min × interface_ΔG/ΔSASA < -1.5 # 越小越可能结合
AF3 LIS × input_interface_shape_complementarity > 0.42
方案 B — 先粗筛,再排序(推荐用于大批量)
Step 1 预筛选(作用于“设计的输入结构”,无需折叠即可执行):
input_interface_shape_complementarity > 0.62
RMSD_binder < 3.73
Step 2 对通过者按 AF3 ipSAE_min 取 Top-K
几条值得记住的实操要点(Fig. 4E–F)
- 形状互补性这个滤镜很值:它作用在输入结构上,无需等待复合物折叠完即可应用,在小K(约1–20)时尤其能提升平均精度;
- 仅用ipSAE_min(或再加形状互补性),每个靶点只取10个候选,即可为全部15个靶点各召回至少1个真结合子;
- RMSD_binder滤镜需谨慎:它有时过于严格——在两个靶点上、所有K值下都未能召回任何结合子。它能增强预测力,但可能误杀。
10. 局限性与展望
作者对局限性相当坦诚:
- 数据稀疏:多数靶点的测试设计数量有限,真结合子常为个位数,限制了模型泛化;
- 标签噪声:各研究检测方法与“结合”定义异质,引入噪声;
- 亲和力缺失:亲和力数据仅小部分可得,未纳入分析。
展望与呼吁:
- AF3持续领先,与既往“AF3在PPI预测上更优”的结论一致;但Boltz-2、Chai-1等更新模型值得继续评估;
- 该领域真正需要的是更标准化、公开的“结构 ↔ 亲和力”数据集,以提升预测力并深化对蛋白–蛋白相互作用的理解。
如果说过去两年de novo设计解决了“怎么造”,那么“造出来之后该信谁、该挑谁”一直缺一个有规模支撑的答案。这篇覆盖3,766个样本的meta分析,第一次在足够大的尺度上把这件事讲清楚,并给出了简单、可解释、可复现的落地方案。
对任何还在为“挑哪个binder”头疼的实验室,这都是一份兼具方法学深度与工程实用性的参考。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。