进阶教程可信度深度

AI蛋白设计评分排行榜：可信度深度测评

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

基于3,766个denovo结合子与15个靶点的大规模比较，AlphaFold3的ipSAE_min是预测体外结合最稳的单

从事蛋白设计的同行常遇到一个困境：利用RFdiffusion、BindCraft等工具产出候选结合子并不难，真正的痛点是——进入湿实验前，如何从众多候选中精准选出值得合成的分子？

长久以来，缺乏系统性的解答。多数团队依赖经验法则筛选候选，例如pLDDT越高越好、ipAE越低越好，但鲜有研究在大规模、统一数据集上严谨比对这些指标的预测效能。

这项研究恰好填补了空白。数据集包含3,766个具有实验结合数据的de novo结合子，覆盖15个靶点，采用四套结构预测工具，每个设计提取超过200项结构、能量、置信度与序列特征——本质上是一次大规模的“赛马”分析，旨在找出哪些指标（或组合）能提前可靠地指示哪些候选值得进入合成环节。

核心发现速览

直接结论：AlphaFold3提供的ipSAE_min是目前稳定性最强、区分度最高的单一指标，其平均精度（AP）约为常用ipAE的1.4倍。若进一步组合正交的物理化学界面描述符，例如Rosetta的ΔG/ΔSASA、界面形状互补性，预测能力还能再提升。有趣的是，简单线性模型仅用少数特征即可达到最佳表现，堆砌特征、添加交互项甚至改用XGBoost均无额外增益。

关键数字	值
汇总结合子总数	3,766
靶点数	15
真实结合子（阳性）	436（11.6%）
每个设计的特征数	200
结构预测工具	4
靶点长度范围（残基）	60–621（均值174，中位101）
流水线提速	每个设计1802 s → 230 s（↓87%）

1. 背景：筛选才是真正的效率瓶颈

过去两年，RFdiffusion、BindCraft、AlphaProteo等方法已能仅凭靶点结构、无需天然模板直接生成高亲和力结合子，在治疗、诊断与基础研究中广泛应用。

但真正的成本不在生成阶段，而在后续。设计软件通常批量产出成百上千个候选，而能在体外实验中结合成功的往往只有个位数。若对每个候选都进行合成、BLI或细胞分选，时间和预算均难以承受。因此，in silico预筛成为流程中最关键且最棘手的环节——尤其当候选池内序列高度相似时，从中分出高下难度极大。

一个里程碑式进展来自Bennett等人（2023），他们发现基于深度学习的结构预测（尤其是AlphaFold2）可在实验前有效排序候选，显著提升成功率。由此衍生出的置信度指标——pLDDT、ipAE、ipTM——被证实能预测体外结合，甚至优于传统的Rosetta物理能量。

然而，当前仍存在三个明显缺口：

缺乏公认标准：设计成功率波动剧烈，缺少可跨研究通用的候选优先级判定准则；
新模型未被系统评估：AF2之后涌现了AlphaFold3、Boltz-1、Boltz-2、Chai-1等模型，它们在“预测体外结合”这一任务上的表现尚无大规模比较；
泛化性存疑：层出不穷的新指标能否跨大规模、多样化数据集泛化，尚不明确。而且多数de novo项目只产出少量验证过的结合子，且常聚焦于相关靶点，难以在规模上构建基准。

本研究正是针对这些缺口展开。

2. 数据集：3,766个结合子 / 15个靶点

作者从多篇已发表研究中汇总数据，构建了跨靶点类别与设计协议的大规模数据集。靶点涵盖：

受体酪氨酸激酶（RTK）：EGFR、LTK、FGFR2、胰岛素受体（InsulinR）、TrkA
病原体来源抗原：SARS-CoV-2 RBD、VirB8
细胞因子受体 / 免疫调节因子：IL2Rα、IL7Rα、IL10Rα、PD-L1
其他：原癌蛋白MDM2、蛇毒短链α-神经毒素（sntx）、两个肽-MHC复合物（pMHC）

将真实结合子的相互作用残基映射回靶点结构后，可见结合位点高度保守（Fig. 1A）。

2.1 数据来源（节选汇总）

数据来源	代表靶点	结合判定方式
Adaptyv Bio R1 & R2（2025）	EGFR	BLI测得K_D < 10,000 nM
Bennett et al.（2023）	LTK、IL10Rα、IL2Rα	细胞分选Sc50 < 4000 nM，部分BLI验证
Cao et al.（2022）	VirB8、InsulinR、TrkA、FGFR2、EGFR、IL7Rα、SARS-CoV-2 RBS	Sc50 < 4000 nM
Watson et al.（2023，RFdiffusion）	PD-L1、IL7Rα、TrkA、InsulinR、MDM2	BLI响应 > 阳性对照50%（10,000 nM）
Johansen et al.（2025）	两个pMHC（NY-ESO / SILSY）	分选前后log2FC，无单一阈值，部分BLI
Torres et al.（2025）	sntx	酵母展示分选，部分BLI

2.2 数据集的两个关键特征（也是后续分析难点）

极度不平衡：仅436个（11.6%）为真实结合子，且各靶点的测试数与阳性比例差异极大（Fig. 1B）。这直接决定了后文采用平均精度（AP）而非AUROC作为主评价指标。
标签噪声不可忽视：结合判定未标准化——亲和力阈值与检测形式（BLI、酵母/细胞分选Sc50、log2FC等）各不相同（见Table 1）。

为排除数据冗余带来的偏倚，作者评估了靶点与结合子序列相似性（Fig. S1）：除两个pMHC靶点之间、以及pMHC NY1结合子内部存在预期内的相似性外，整体序列多样性很高——结论并非由冗余支撑。此外，对Bennett与Cao的数据按非结合子∶结合子 = 10∶1进行下采样，Adaptyv数据中的抗体类结合子被剔除，以保持“纯de novo”聚焦。

3. 打分流水线与提速

3.1 流水线设计（Fig. 2A）

输入为各设计工具产出的结合子–靶点复合物PDB（binder = 链A，target = 链B），配以CSV指定靶点子链范围与MSA设置。不同工具处理方式如下：

AF2 initial guess：使用输入PDB固定靶点结构，仅重预测结合子（专为高通量设计，作为本研究参照基线）；
ColabFold / Boltz-1 / AF3：提取结合子序列及相关靶点子链，重预测整个复合物；每条唯一靶点链用MMseqs2生成一次MSA并复用，再转换至各模型所需格式。

随后从各模型输出中抽取置信度分数，并统一计算ipSAE、pDockQ、pDockQ2、ipAE、LIS（AF2 initial guess除外），再对最高置信复合物计算一系列结构指标及模型间两两RMSD——合计200多个特征/设计。

3.2 三档配置与提速结果（Fig. 2B–D）

为压缩“结构预测耗时”这一主要瓶颈，作者在56个真实结合子（覆盖15个靶点 + 3个额外靶点；其中12个有实验解析结构）上测试三档配置：

配置	MSA策略	模型数	每个设计总耗时	AF3耗时
Maximum	各工具默认成对MSA	5	1802 s	1441 s
Intermediate	仅靶点单一MSA，复用	5	282 s（↓84%）	33 s（↓97%）
Minimal（最终采用）	仅靶点单一MSA + 减recycle	3	230 s（↓87%）	29 s（↓98%）

AF3的提速最为显著，主要归因于跳过了基于JackHMMER的MSA生成。关键验证：用12个实验结构检测发现，ipAE（模型质量）与DockQ（结构吻合度）在三档间无显著下降——提速几乎不牺牲精度。因此后续分析全部采用Minimal配置（运行于单张NVIDIA L40S）。

4. 核心指标：ipSAE是什么，为什么_min最强

要理解本文核心结论，需厘清几个置信度指标的差异。

4.1 ipSAE的设计动机与公式

ipSAE（interaction prediction Score from Aligned Errors）由Dunbrack（2025）提出，可看作ipTM的“界面聚焦式”修正：

与ipTM算法相似，但只纳入pAE < cutoff（默认<10）的链间残基对；
按界面规模动态调整d0（d0随界面残基数的平方根增大）。

其计算形式为（A→B方向）：

ipSAE(A→B) = max over i∈A [ mean over j∈B, PAE_ij < cutoff ( 1 / (1 + (PAE_ij / d0)^2) ) ]

直观含义：只统计真正自信的界面接触，并对“小而自信”的界面打折——因为很短的界面在物理上难以形成真实结合。这使得ipSAE比ipAE更具一致性，更少依赖具体靶点。

4.2 _min的由来

由于A→B与B→A不对称，作者保存了两个方向的最大与最小值：

ipSAE_max：标准实现，取较大值；
ipSAE_min：取较小值——“最弱的一环”最能反映结合状态。

作者还探索了在A维度上将max算子替换为avg/min的变体（ipSAE_avg、ipSAE_min_in_calculation），以及当靶点有多个子链时，在“有实际相互作用残基”的方向上取均值。

4.3 核心指标速查表

指标	含义	计算于哪些模型
pLDDT	每残基置信度	全部
ipAE（pae_interaction）	结合子链到其他链的平均链间pAE	全部
ipTM	界面预测TM-score（链相对位置置信度）	全部
ipSAE / ipSAE_min	ipTM的界面聚焦修正，pAE<10，d0动态；_min取双向最小	AF3 / ColabFold / Boltz-1
LIS	链间接触（pAE<12）反转后取均值（0–1）	AF3 / ColabFold / Boltz-1
pDockQ / pDockQ2	由pLDDT + 界面预测的DockQ	AF3 / ColabFold / Boltz-1
DockQ	与参考结构的界面相似度（此处以输入结构为参考）	全部
interface_ΔG	Rosetta估计的界面结合能	输入 + 各模型
interface_ΔG/ΔSASA	结合能按界面大小归一（惯例×100）	输入 + 各模型
interface_sc	界面形状互补性	输入 + 各模型
ΔSAP（sap_delta）	空间聚集倾向差值，疏水性强	输入 + 各模型
RMSD_binder（input vs AF3）	对齐靶点后，输入与AF3预测结合子的Cα RMSD	跨模型对比

4.4 四个工具的角色对比

工具	版本	处理方式	备注
AF2 initial guess	dl_binder_design v1.0.0	固定靶点，仅重预测结合子	高通量参照基线；不计算ipSAE/LIS
ColabFold	localcolabfold v1.5.5（AF-multimer）	重预测整个复合物	MMseqs2 MSA
AlphaFold3	v3.0.1	重预测整个复合物	综合最佳
Boltz-1	Boltz-1x v1.0.0	重预测整个复合物	开源AF3类模型，最接近AF3但仍略逊

5. 哪些特征最能预测结合

5.1 单特征：全数据下最佳为AF3 ipSAE_min

采用AP衡量各特征区分结合/非结合的能力，各模型的最佳单特征为：

AF3 / ColabFold / Boltz-1：ipSAE_min、ipSAE_max、LIS——全部基于pAE矩阵，仅捕获高置信界面；
AF2 initial guess：ΔSAP。

全数据下最佳单一指标是AF3 ipSAE_min。 作者也提醒，部分数据此前已用AF2 initial guess的ipAE/pLDDT预筛过（Fig. S9、S10），可能人为压低了这两个指标在本数据上的表观预测力。

5.2 交互特征：置信度 × 物理化学描述符

作者进一步引入交互项（两特征乘积f_i × f_j）。结果显示，加入交互项后各模型预测力均一致提升，最佳组合为：

模型	最佳交互组合
AF3	ipSAE_min × interface_ΔG/ΔSASA
ColabFold	ipSAE_min × input_interface_shape_complementarity
Boltz-1	LIS × input_ΔSAP
AF2 initial guess	DockQ × input_ΔSAP

规律清晰：除AF2 initial guess外，最优组合均为“界面聚焦的置信度分数 + 物理化学界面描述符”——说明二者捕获正交、互补的信息。整体而言，AF3在单特征与交互特征上全面胜出，表明其置信度与复合物结构最为准确。

5.3 跨靶点稳健性：中位AP视角

由于数据按靶点不平衡，作者改用跨15个靶点的中位AP（削弱个别靶点离群影响）重新排序。各模型top单特征：ipSAE_min（AF3、Boltz-1）、actifpTM（ColabFold）、pAE_interaction（AF2）。其中AF3 ipSAE_min仍然最突出；叠加物理化学描述符（AF3加形状互补性、Boltz-1加ΔG/ΔSASA等）同样能稳定提升AP。

6. 靶点依赖性：为何有的靶点天生难预测

这是本文最“降温”也是最诚实的一节。

跨靶点波动极大：AF3 ipSAE_min（及其与ΔG/ΔSASA的组合）在不同靶点上的AP从0.1到1.0不等；真结合子很少的靶点常为离群点，多半反映统计波动（Fig. 3B）。
阈值稳定，但精度不稳定：使ipSAE_min的F1最大化所对应的阈值在多数靶点落在0.5–0.8；但对应的精度仍在0.1–1.0间剧烈波动（Fig. 3C）。各靶点的top特征也差异显著（Fig. S11）。
何种靶点更好预测？（Fig. S12）
- ΔSAP（疏水性）与AP的相关性仅在AF2 ipAE上成立（Pearson r ≈ −0.68，p = 0.005）；
- 但在AF3 ipSAE_min上不成立（r ≈ −0.04，p = 0.89）——说明ipSAE_min不依赖疏水埋藏，捕获的是不同维度的界面质量；
- AF3 ipSAE_min的AP反而与界面氢键比例正相关、与ΔG/ΔSASA负相关——即“界面能量越密集的靶点越好预测”。但这些相关均偏弱、未达显著，且主要由少数靶点驱动。

7. 阈值策略：回顾性分析 + 交叉验证

候选筛选最终需落到“卡哪个阈值”。作者采用留一靶点交叉验证（每次留出一个靶点，阈值在其余靶点上选定），对最佳单特征与交互特征进行回顾性评估，并以常用的AF2 ipAE与AF3 ipTM作基线。三种实用阈值策略对应：recall = 0.2 / recall = 0.4 / 最大化F1（Fig. 3E）。

结论：

AF3 ipSAE_min及交互特征AF3 ipSAE_min × interface_ΔG/ΔSASA、AF3 LIS × input_interface_shape_complementarity在所有阈值下均优于AF2 ipAE；
AF3 ipTM在recall 0.4与max F1时被超越，但在recall 0.2时排第二，且IQR更小——说明ipTM在“宁缺毋滥”的低召回区仍保持稳健。

精度-召回曲线（Fig. 3F）给出的F1最大化阈值：

AF3 ipSAE_min：0.61
AF3 ipSAE_min × interface_ΔG/ΔSASA：−1.5（越小越可能结合）
AF3 LIS × input_interface_shape_complementarity：0.42

此外，对ipSAE_min进行的“逐步增加训练靶点”分析（Fig. S13）表明：阈值迅速稳定，精度与F1随训练靶点数量增加而稳步提升。

8. 线性模型与贪婪特征选择：多特征是否更优？

作者进一步检验：将多个特征线性组合（而非乘积）能否跨靶点提升表现？方法为逻辑回归 + 贪婪前向特征选择 + 嵌套留一组交叉验证（15个靶点逐一留出）：

所有数值特征z-score标准化；类别不平衡用class_weight="balanced"处理；
内层使用l1惩罚逻辑回归（liblinear），以中位AP选特征，AP增益 < 0.005即早停，防止过拟合；
分别对每个工具的“单特征”“单特征 + top50交互项”以及“跨模型合并”进行实验。

结果（Fig. 4A，Fig. S14–S15）：

没有任何模型超过最强基线LIS × input_interface_shape_complementarity（中位AP = 0.58，IQR 0.33–0.66）；
但采用AF3单特征训练的模型中位AP = 0.57（IQR 0.40–0.66，方差更小），超过了最佳单特征ipSAE_min（≈0.54）；
内层平均只选了2–5个特征即停止改进；
跨模型合并特征 → 无提升（似引入噪声）；加交互项 → 无提升（选入更少，说明多数交互项不跨靶点泛化）；换XGBoost → 仍无提升（Fig. S15）。

特征重要性（AF3单特征模型，Fig. 4C）：ipSAE_min在所有折中均被选中，稳健性再次得到印证；之后选择频率与系数断崖式下降。值得注意的是，两个结构对比类特征频繁入选——RMSD_binder（对齐靶点后输入 vs AF3）与RMSD_complex（整复合物输入 vs AF3）；此外input_interface_shape_complementarity与interface_ΔG/ΔSASA也常被选中。

三特征模型（Fig. 4D）：取top-3特征AF3 ipSAE_min + RMSD_binder + input_interface_shape_complementarity重训逻辑回归，同时加入这两个特征比只加其中之一带来的AP / 精度 / F1提升都更大——即少量补充特征确实能进一步推高实验成功率。

9. 落地建议：可直接复用的筛选SOP

作者将上述发现凝练成两套可直接执行的筛选策略（任选其一或组合）：

方案 A — 单刀直入，卡一个阈值（三选一）

AF3 ipSAE_min > 0.61
AF3 ipSAE_min × interface_ΔG/ΔSASA < -1.5  # 越小越可能结合
AF3 LIS × input_interface_shape_complementarity > 0.42

方案 B — 先粗筛，再排序（推荐用于大批量）

Step 1 预筛选（作用于“设计的输入结构”，无需折叠即可执行）：
  input_interface_shape_complementarity > 0.62
  RMSD_binder < 3.73
Step 2 对通过者按 AF3 ipSAE_min 取 Top-K

几条值得记住的实操要点（Fig. 4E–F）

形状互补性这个滤镜很值：它作用在输入结构上，无需等待复合物折叠完即可应用，在小K（约1–20）时尤其能提升平均精度；
仅用ipSAE_min（或再加形状互补性），每个靶点只取10个候选，即可为全部15个靶点各召回至少1个真结合子；
RMSD_binder滤镜需谨慎：它有时过于严格——在两个靶点上、所有K值下都未能召回任何结合子。它能增强预测力，但可能误杀。

10. 局限性与展望

作者对局限性相当坦诚：

数据稀疏：多数靶点的测试设计数量有限，真结合子常为个位数，限制了模型泛化；
标签噪声：各研究检测方法与“结合”定义异质，引入噪声；
亲和力缺失：亲和力数据仅小部分可得，未纳入分析。

展望与呼吁：

AF3持续领先，与既往“AF3在PPI预测上更优”的结论一致；但Boltz-2、Chai-1等更新模型值得继续评估；
该领域真正需要的是更标准化、公开的“结构 ↔ 亲和力”数据集，以提升预测力并深化对蛋白–蛋白相互作用的理解。

如果说过去两年de novo设计解决了“怎么造”，那么“造出来之后该信谁、该挑谁”一直缺一个有规模支撑的答案。这篇覆盖3,766个样本的meta分析，第一次在足够大的尺度上把这件事讲清楚，并给出了简单、可解释、可复现的落地方案。

对任何还在为“挑哪个binder”头疼的实验室，这都是一份兼具方法学深度与工程实用性的参考。

来源：互联网

上一篇 2026电商AI做图工具排行榜：6大方案推荐 下一篇 SQL Boy职业前景：这5个方向让你逆势突围

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。