首页 > AI资讯新闻 > Bengio并行推理新论文：递归推理上限被刷新的技术解读

技术资讯综合资讯

Bengio并行推理新论文：递归推理上限被刷新的技术解读

2026-05-24

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

图灵奖得主Bengio团队提出GRAM模型，将递归推理从单轨确定性计算转为概率性多轨并行。该

推理效率与质量，是驱动大模型迭代的核心引擎。当前主流方案聚焦于生成更多中间token，通过链式思维（CoT）显式展开推理过程。然而，这条路径存在固有瓶颈：推理深度与token数量线性绑定，导致计算延迟和成本急剧攀升。

近期，Yann LeCun在公开讨论中重申，自回归生成可能并非实现AGI的理想路径，真正的智能更可能源于潜在空间内的规划与推理。与此呼应，图灵奖得主Yoshua Bengio团队提出了一项创新性工作，为这一方向提供了可落地的具体方案。

Bengio新论文刷新递归推理上限，并行轨迹碾压串行推理

他们提出了GRAM（生成式递归推理模型）。其核心突破在于，将确定性的递归潜在推理，革新为概率性的多轨迹计算范式。具体而言，模型在潜在空间执行随机递归推理，每一步均可“采样”不同的探索分支，最终实现对解空间的多路径并行覆盖。

实验结果极具说服力：仅需16步递归并采样20条并行轨迹，GRAM的效能便全面超越了所有确定性基线模型进行320步串行递归的结果。这为突破深度推理的算力约束，开辟了新的技术路径。

从「单轨确定」到「多轨概率」

理解GRAM的价值，需从其解决的问题切入。

现有递归推理模型（RRMs）通过参数共享的转移函数，对潜在状态进行迭代优化，这一范式颇具前景——它将推理深度与模型参数量解耦，使得轻量模型也能通过反复计算处理复杂任务。

但其核心局限在于确定性。给定相同输入，模型仅沿单一固定轨迹演进，最终收敛至唯一解。当面对存在多有效解（如N皇后问题）或易陷于局部最优的复杂场景时，这种单一路径模式便显得捉襟见肘。

潜在推理轨迹对比。左图：N 皇后问题示例，存在两个有效解。右图：给定潜在推理的三次独立运行轨迹（τ1、τ2、τ3）：（a）以往的递归推理模型（RRMs，例如 HRM、TRM）是确定性的，所有运行都会坍缩到同一条轨迹，最终收敛到单一解，因此无法探索其他可能解。（b）GRAM 则能够探索多样化的轨迹，生成不同的推理路径，并到达多个有效解 y1 和 y2，同时自然支持推理时的并行扩展。

GRAM的解决方案直观而高效：在递归推理的每一步，引入可学习的随机性。

在实现层面，模型每一步先计算确定性的“提议更新”，随后从一个与当前状态相关的高斯分布中，采样一个“随机引导信号”，将二者叠加得到新的潜在状态。其中，高斯分布的均值编码了学习到的引导方向，方差则控制探索的强度。这一设计使模型在保留确定性优化能力的同时，能够主动探索不确定性、有效规避局部最优陷阱。

层次化架构与训练

GRAM 架构图

为更高效地管理推理流程，GRAM采用了层次化的潜在状态设计，包含高层与低层两个组件：

低层组件在每次状态转移内部被快速、多次更新，负责执行细粒度的中间计算。
高层组件更新频率较低，承载更抽象的推理状态，随机性也仅注入此层。

这意味着，随机引导作用于宏观的推理方向，而不干扰底层的精确运算，实现了探索广度与计算精度的平衡。

作为一个概率生成模型，GRAM通过变分推断进行训练。模型定义了两种分布：推理时使用的先验分布，以及训练时可“观测”到正确答案的后验分布。训练目标是最大化证据下界（ELBO），其中包含鼓励正确预测的重构项，以及约束后验与先验分布间距离的KL散度项。通过这一过程，模型的后验学会了哪些随机方向能导向正确解，而推理时使用的先验则继承了这种高效的探索策略。

双轴推理扩展：深度 × 宽度

GRAM的一项关键贡献，是明确了推理时计算的“双轴扩展”策略，这直接构成了其性能优势的基础。

深度扩展（串行）： 即增加递归步数。与其他递归模型类似，GRAM支持自适应计算时间，允许每条推理轨迹在合适的深度自行终止。

宽度扩展（并行）： 这是GRAM的核心亮点。模型能够从先验分布中采样多条独立的推理轨迹，每条轨迹解码出一个候选答案，最终通过选择机制确定最优解。候选答案的选择提供两种策略：简单的多数投票，或使用一个训练好的潜在过程奖励模型，直接根据潜在状态预测轨迹质量并择优选取。

“宽度扩展”的战略价值在于，它绕开了单纯增加深度所带来的线性延迟增长。多条轨迹可并行计算，在相同的实际时间窗口内，覆盖远比单一路径更广阔的解空间。

实验结果：效率与性能的双重优势

研究团队在结构化推理、多解约束满足和无条件生成等多类任务上验证了GRAM的有效性。

结构化推理任务（如Sudoku-Extreme和ARC-AGI）中，GRAM持续领先于所有确定性递归基线。在极难数独（Sudoku-Extreme）上，GRAM以16个监督步取得了97.0%的准确率，显著优于TRM的87.4%。

基准测试上的性能表现。在 Sudoku-Extreme 和 ARC-AGI 两个基准上，GRAM 都持续优于所有确定性递归基线模型（Looped TF、HRM、TRM）。这表明，在递归推理范式中，引入随机性的潜在状态转移能够带来显著性能提升。

更具启发性的是推理扩展曲线：GRAM在“16步递归+20条并行采样”的配置下，准确率已达97.0%，这甚至超越了TRM进行320步纯深度递归时的表现（90.5%）。这清晰展示了“深度+宽度”组合策略相对于单纯堆叠深度的效率优势。

左图：Sudoku-Extreme 上的推理时扩展表现。TRM 和 GRAM 都能从更长的递归过程（横轴）中获益，但 GRAM 还可以通过并行采样进一步扩展性能，其中 N 表示采样数量。每一次迭代对应一个监督步骤，同时也意味着在 Looped TF 中需要 K 倍更多的扁平迭代次数。右图：N 皇后问题（8×8）中，模型在不同解数量下的准确率。传统的确定性递归模型会随着可能解数量的增加而出现明显性能下降，而 GRAM 则能够保持稳定表现。

多解任务（如N-Queens和图着色）最能体现GRAM的独特价值。在8皇后问题中，确定性递归模型由于只能收敛到一个解，其覆盖率最高仅36.1%。自回归生成模型虽覆盖率较高，但在约束满足的准确率上不及GRAM。GRAM则实现了二者的优势结合，同时获得了高准确率和接近最优的覆盖率。

N 皇后和图着色基准上的评估结果。Rec. 和 Gen. 分别表示模型是否使用递归计算和生成式采样。表中数值为多次运行的平均值 ± 标准差。Accuracy：单次采样准确率（%）。Conflict：违反约束的边数，数值越低越好（↓）。Coverage：在 20 次采样中发现的不同有效解占比（%）。

无条件生成任务（如数独和MNIST）上，GRAM同样表现卓越。在无条件生成有效数独时，GRAM仅用10.9M参数和16个监督步，便实现了99.05%的有效率，超越了参数量更大、步骤更多的扩散模型。在二值化MNIST图像生成上，确定性基线TRM出现了明显的模式坍塌，而GRAM则取得了与先进扩散模型相媲美的生成质量。

左：二值化 MNIST 上的无条件生成结果。右：无条件数独生成。

核心洞察：随机性与引导的协同

通过消融实验，研究团队揭示了GRAM成功的关键：随机性与学习到的引导方向，二者协同作用，缺一不可。

Sudoku-Extreme 和 N 皇后（8×8）上的消融实验。评估时使用 5 次采样。对于（a），各组件是在 Looped TF 基线之上逐步累加加入的。其中，DS 表示深度监督，HR 表示层级递归，SG 表示随机引导。对于（b），随机性和学习得到的引导机制都至关重要，移除其中任意一个都会显著降低性能。

实验表明，若仅保留随机性而移除学习到的引导方向，模型在数独任务上性能尚可，但在N皇后任务上会急剧下降。若移除随机性仅保留引导，则性能归零。简单的随机解码或随机初始化也无法带来增益。这证明，GRAM的性能提升并非源于盲目的随机扰动，而是根植于变分框架下，有引导的随机探索与确定性精炼之间的深度协同效应。

总结与展望

GRAM的工作，为未来的递归推理架构确立了一项关键设计原则：高效的推理系统不仅需要“深度”，更需要“宽度”。

从技术贡献看，它完成了三项关键工作：将递归推理形式化为一个潜变量生成过程；引入了基于宽度（并行采样）的推理时扩展机制；并在多样化任务上验证了该框架在提升计算效率、增强探索多样性及保证输出质量方面的综合优势。

针对“推理应在什么空间发生、以何种方式扩展”这一根本问题，GRAM提供了一个经过实证检验的答案：在潜在空间中，通过概率化的递归，同时向深度和宽度两个维度进行扩展。这或许为构建下一代更高效、更鲁棒的大模型推理引擎，指明了清晰的技术演进方向。

来源：互联网

上一篇 大模型时代音视频智能研究全景综述：9大权威机构深度解析 下一篇 2026智源大会前瞻：图灵奖得主领衔，解读AI大模型未来趋势

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。