其他资讯 AI模型大模型

ICLR'26研究解读：Next-ToBE模型如何破解大模型短视预测难题

2026-05-11

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Next-Token Prediction（NTP）是驱动大语言模型（LLM）训练的核心范式。这一“预测下一个词元”

Next-Token Prediction（NTP）是驱动大语言模型（LLM）训练的核心范式。这一“预测下一个词元”的目标，与Transformer架构协同，奠定了当前生成式AI的基础。其机制简洁高效：模型在自回归生成中，每一步都专注于预测序列中最可能的下一个词元。正是通过这种迭代式的局部预测，模型得以从海量语料中内化语言的统计规律与结构化知识，形成稳定、可扩展的训练路径。

NTP是LLM得以实现的基石。

然而，这一奠基性目标也潜藏着根本性限制。NTP本质上是“短视”的，它优化的是即时、单步的预测准确性，这与人类进行连贯、多步、具备全局规划的推理过程存在显著差异。试想一个棋手，如果只思考“下一步最合规的落子”，而完全无视对手的布局与后续棋局演变，其结果可想而知。

这恰恰映射了许多大模型在复杂任务中的表现：它们能在局部生成流畅、自信的文本，但在需要长链条逻辑、代码生成或多步规划的场景中，其输出可能逐步偏离正轨，或在中途陷入保守与回避。这种“局部最优，全局失控”的现象，已成为制约模型在复杂推理任务上表现的关键瓶颈。

问题的根源是什么？华东师范大学与复旦大学团队在ICLR 2026的研究提出了一个深刻见解：大模型或许并非天生短视，而是被我们长期固化的训练目标——NTP——塑造成了“只关注下一步”的模式。

换言之，瓶颈可能不在模型的能力天花板，而在于我们的“教学”方法。研究者由此提出了一个突破性概念：从聚焦“下一个词元”（Next-Token），转向利用“下一段词元”（Next-ToBE，即 Next Token-Bag Exploitation）。

图 1：Next-ToBE 研究框架概览

“Next-ToBE”这一命名直指其核心：引导模型不再孤立地看待下一个词，而是感知并利用一个即将到来的词元序列。研究遵循严谨的逻辑链条展开：首先，实证检验大模型是否已隐含前瞻能力；其次，分析该能力为何被抑制；接着，设计一种轻量级方法激活此能力；最终，全面评估其对下游推理任务的提升效果。

这引出了一个更深层的议题：当模型不再将全部“赌注”押于当前时刻的绝对确定性，而是开始为未来的多种可能性分配概率权重时，模型的置信度校准与深层推理能力之间，能否达成一种更优的、促进智能涌现的新平衡？

大模型的当前预测隐含未来信息

在自回归推理中，大模型每一步输出的并非一个孤立词元，而是一个覆盖整个词表的高维概率分布。研究发现，这一分布中早已编码了模型对未来若干步的“隐性预测”。

为量化这种前瞻性，论文提出了“未来词元命中率”（Future-tokens Hit Rate, FtHR）指标。具体而言，在生成的第t步，提取模型预测概率分布中排名最高的L个候选词元，检验它们是否覆盖了未来窗口[t, t+k]内实际出现的词元。

图 2：左）当前步预测分布已覆盖相当比例的未来词元；右）未来词元在当前预测中排名越高，后续被正确生成的概率越大。

实验结果（图2）揭示了两个关键事实：第一，模型当前步的概率分布确实包含了大量未来将出现的词元；第二，一个未来词元在当前分布中的排名（概率）越高，其在后续步骤中被成功生成的概率也越高。这证明大模型的前瞻能力不仅客观存在、可测量，而且与最终生成质量正相关。

既然“看得远”有助于“生成准”，一个直接的疑问是：为何不直接优化这一目标，让模型在预测时同步规划未来多步？

症结在于NTP范式所使用的独热编码（one-hot）目标分布。它将全部概率质量强制赋予唯一正确答案，彻底压制了其他所有潜在路径。这种“非对即错”的刚性监督，迫使模型表达变得短视，难以形成连贯的长程规划。已有研究如多词元预测（Multi-Token Prediction, MTP）试图通过增加并行预测头来预测未来多个词元，但其本质仍是并行拟合多个独立的独热分布，并未改变“单步最优”的底层训练逻辑。

Next-ToBE：激活大语言模型的前瞻潜能

Next-ToBE的解决方案则更为精巧——它不改变模型架构，而是直接重塑训练目标。它将传统NTP中指向单一正确答案的独热分布，替换为一个覆盖未来时间窗口的“软”目标分布。

其核心思想是：不让模型将100%的注意力集中于下一个词元，而是引导其分配少量“注意力资源”去覆盖未来k个词元的可能性，使模型在当前步即开始感知后续内容的概率轮廓。这正是“下一段词元利用”的精髓——学习目标从“下一个词元”转变为“下一段词元（token bag）的分布”。

图 3：Next-ToBE 架构。损失函数由「下一词元」主损失与「未来窗口词元」软目标辅助损失构成；后者的权重由模型自身的前瞻偏好（α）和词元间的时序-语义关系（β，通过随机游走建模）共同决定。

构建这一“未来词元分布”遵循以下原则（如图3所示）：

首先，保持当前词元的主导地位。Next-ToBE并未抛弃NTP，而是将“预测下一个词元”作为损失函数的主干予以保留。在此基础上，引入未来窗口内的k-1个词元作为辅助监督信号，并通过超参数λ控制主辅损失的权重。这确保了局部生成的稳定性，同时让模型对更远上下文保持敏感。

其次，对未来词元实施结构化加权。未来k-1个词元的权重由两类信号共同决定：一是模型当前对该词元的预测概率（反映模型的先天偏好）；二是该未来词元与当前词元之间的时序接近度与语义关联度——距离越近、语义关联越强的词元，权重越高（这部分通过交替随机游走算法建模）。两者融合后形成每个未来词元的最终权重。

最后，进行目标分布归一化与损失计算。对上述未来词元的权重进行归一化，形成一个概率分布作为软目标。同时，对模型在这些未来词元上的预测概率也进行相应归一化，然后最小化两者之间的分布差异（如使用KL散度）。

与需要增加额外预测头的MTP方法不同，Next-ToBE无需改动模型架构，推理时仍是标准的单步自回归过程。如果说MTP是“为模型增添多个预测头”，那么Next-ToBE所做的，更像是训练模型的“战略眼光”：在走好当前这一步的同时，其视野已自然涵括了未来数步的棋局变化。

前瞻能力如何提升下游推理性能？

研究通过三组实验系统验证：第一，Next-ToBE是否切实提升了模型对未来词元的感知能力（前瞻能力）？第二，这种增强的前瞻能力能否转化为更准确的后续自回归生成？第三，最终的收益是否体现在复杂的下游推理任务上？图4对前两个问题给出了肯定答案。

图 4：经 Next-ToBE 微调后，（a）未来词元命中率显著提升；（b）自回归生成未来k步的准确率同步上升；（c）下一词元预测置信度略有下降（0.87 → 0.81），模型变得不再“绝对肯定”。

最关键的是第三个问题。研究者在数学推理、代码生成和常识推理三大类任务上，基于不同基座模型进行了共计36组对比实验。结果显示，经过Next-ToBE微调的模型在35组实验中均取得了最优性能（见表1）。

表 1：在数学推理、代码生成与常识问答的36组实验中，Next-ToBE在35组中表现最优。

此外，Next-ToBE在训练效率上具备优势，其显存占用和训练时间相较于MTP类方法有所降低。研究也验证了Next-ToBE在预训练阶段的有效性，这表明前瞻能力并非预训练后的偶然副产品，而是可以通过训练目标主动“塑造”的模型内在特性。

置信度与推理能力的权衡博弈

在更宏观的层面，Next-ToBE实现了对模型“确定性分配”的系统性调节。随着超参数λ增大，模型不再将全部概率质量集中于“下一个词元”，而是逐步将一部分分配到更远的词元上。这导致了一个直接现象：模型对下一个词元的预测置信度持续下降，如图5（左）所示。

图 5：λ越大，下一词元置信度越低（左）；但推理准确率随λ（及置信度）呈先升后降的倒U型曲线（中、右）。

然而，最有趣的现象随之出现：随着模型对下一个词元的置信度下降，其在复杂任务上的推理准确率却先上升，达到一个峰值后再下降，形成一条清晰的倒U型曲线（图5中、右）。这意味着，模型处于一种“适度不确定”的状态时，反而展现出最强的推理能力。

相比之下，传统NTP对应λ=0的极端情况，即将全部确定性压缩于当前一步，追求极致的局部自信。这种“短视的笃定”并未带来全局推理的最优解，反而限制了对长程依赖和潜在解决方案的探索空间。

由此可见，有效的长程推理，往往需要对“绝对确定”保持克制。与其追求每一步都极致肯定，不如为未来的多种可能性保留合理的探索余地。Next-ToBE最精妙的价值，在于用当前时刻一点点确定性的让渡，换取了更长远、更全局的推理性能收益。

总结与展望

自大模型兴起以来，一个极少被挑战的范式是：我们总是要求模型在每一步都输出一个最确定的答案。我们潜意识里将“确定性”与“智能”划上了等号。

但事实可能恰恰相反。模型从未真正只顾当下——即便在独热目标分布的“枷锁”下，其概率分布中依然暗含着对未来的感知。Next-ToBE所做的，正是解开这副枷锁，让大模型内在的前瞻性得以自然释放。

这为我们提供了一个重要启示：真正的智能，或许并非源于每一步都绝对正确的机械执行，而是来自于在信息的流动与开放中，与不确定性共处并做出全局最优决策的觉知能力。正是这种能力，引领我们通向更可靠的必然结果。

来源：互联网

上一篇 苹果三折屏手机微马达供应商传闻澄清：金龙机电官方回应与市场真相解析 下一篇 OpenAI翁家翌最新研究：Agent驱动代码革新，彻底破解灾难性遗忘难题权威解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。