ICLR'26研究解读:Next-ToBE模型如何破解大模型短视预测难题
摘要
Next-Token Prediction(NTP)是驱动大语言模型(LLM)训练的核心范式。这一“预测下一个词元”
Next-Token Prediction(NTP)是驱动大语言模型(LLM)训练的核心范式。这一“预测下一个词元”的目标,与Transformer架构协同,奠定了当前生成式AI的基础。其机制简洁高效:模型在自回归生成中,每一步都专注于预测序列中最可能的下一个词元。正是通过这种迭代式的局部预测,模型得以从海量语料中内化语言的统计规律与结构化知识,形成稳定、可扩展的训练路径。
NTP是LLM得以实现的基石。
然而,这一奠基性目标也潜藏着根本性限制。NTP本质上是“短视”的,它优化的是即时、单步的预测准确性,这与人类进行连贯、多步、具备全局规划的推理过程存在显著差异。试想一个棋手,如果只思考“下一步最合规的落子”,而完全无视对手的布局与后续棋局演变,其结果可想而知。
这恰恰映射了许多大模型在复杂任务中的表现:它们能在局部生成流畅、自信的文本,但在需要长链条逻辑、代码生成或多步规划的场景中,其输出可能逐步偏离正轨,或在中途陷入保守与回避。这种“局部最优,全局失控”的现象,已成为制约模型在复杂推理任务上表现的关键瓶颈。
问题的根源是什么?华东师范大学与复旦大学团队在ICLR 2026的研究提出了一个深刻见解:大模型或许并非天生短视,而是被我们长期固化的训练目标——NTP——塑造成了“只关注下一步”的模式。
换言之,瓶颈可能不在模型的能力天花板,而在于我们的“教学”方法。研究者由此提出了一个突破性概念:从聚焦“下一个词元”(Next-Token),转向利用“下一段词元”(Next-ToBE,即 Next Token-Bag Exploitation)。


图 1:Next-ToBE 研究框架概览
“Next-ToBE”这一命名直指其核心:引导模型不再孤立地看待下一个词,而是感知并利用一个即将到来的词元序列。研究遵循严谨的逻辑链条展开:首先,实证检验大模型是否已隐含前瞻能力;其次,分析该能力为何被抑制;接着,设计一种轻量级方法激活此能力;最终,全面评估其对下游推理任务的提升效果。
这引出了一个更深层的议题:当模型不再将全部“赌注”押于当前时刻的绝对确定性,而是开始为未来的多种可能性分配概率权重时,模型的置信度校准与深层推理能力之间,能否达成一种更优的、促进智能涌现的新平衡?
大模型的当前预测隐含未来信息
在自回归推理中,大模型每一步输出的并非一个孤立词元,而是一个覆盖整个词表的高维概率分布。研究发现,这一分布中早已编码了模型对未来若干步的“隐性预测”。
为量化这种前瞻性,论文提出了“未来词元命中率”(Future-tokens Hit Rate, FtHR)指标。具体而言,在生成的第t步,提取模型预测概率分布中排名最高的L个候选词元,检验它们是否覆盖了未来窗口[t, t+k]内实际出现的词元。

图 2:左)当前步预测分布已覆盖相当比例的未来词元;右)未来词元在当前预测中排名越高,后续被正确生成的概率越大。
实验结果(图2)揭示了两个关键事实:第一,模型当前步的概率分布确实包含了大量未来将出现的词元;第二,一个未来词元在当前分布中的排名(概率)越高,其在后续步骤中被成功生成的概率也越高。这证明大模型的前瞻能力不仅客观存在、可测量,而且与最终生成质量正相关。
既然“看得远”有助于“生成准”,一个直接的疑问是:为何不直接优化这一目标,让模型在预测时同步规划未来多步?
症结在于NTP范式所使用的独热编码(one-hot)目标分布。它将全部概率质量强制赋予唯一正确答案,彻底压制了其他所有潜在路径。这种“非对即错”的刚性监督,迫使模型表达变得短视,难以形成连贯的长程规划。已有研究如多词元预测(Multi-Token Prediction, MTP)试图通过增加并行预测头来预测未来多个词元,但其本质仍是并行拟合多个独立的独热分布,并未改变“单步最优”的底层训练逻辑。
Next-ToBE:激活大语言模型的前瞻潜能
Next-ToBE的解决方案则更为精巧——它不改变模型架构,而是直接重塑训练目标。它将传统NTP中指向单一正确答案的独热分布,替换为一个覆盖未来时间窗口的“软”目标分布。
其核心思想是:不让模型将100%的注意力集中于下一个词元,而是引导其分配少量“注意力资源”去覆盖未来k个词元的可能性,使模型在当前步即开始感知后续内容的概率轮廓。这正是“下一段词元利用”的精髓——学习目标从“下一个词元”转变为“下一段词元(token bag)的分布”。

图 3:Next-ToBE 架构。损失函数由「下一词元」主损失与「未来窗口词元」软目标辅助损失构成;后者的权重由模型自身的前瞻偏好(α)和词元间的时序-语义关系(β,通过随机游走建模)共同决定。
构建这一“未来词元分布”遵循以下原则(如图3所示):
首先,保持当前词元的主导地位。Next-ToBE并未抛弃NTP,而是将“预测下一个词元”作为损失函数的主干予以保留。在此基础上,引入未来窗口内的k-1个词元作为辅助监督信号,并通过超参数λ控制主辅损失的权重。这确保了局部生成的稳定性,同时让模型对更远上下文保持敏感。
其次,对未来词元实施结构化加权。未来k-1个词元的权重由两类信号共同决定:一是模型当前对该词元的预测概率(反映模型的先天偏好);二是该未来词元与当前词元之间的时序接近度与语义关联度——距离越近、语义关联越强的词元,权重越高(这部分通过交替随机游走算法建模)。两者融合后形成每个未来词元的最终权重。
最后,进行目标分布归一化与损失计算。对上述未来词元的权重进行归一化,形成一个概率分布作为软目标。同时,对模型在这些未来词元上的预测概率也进行相应归一化,然后最小化两者之间的分布差异(如使用KL散度)。
与需要增加额外预测头的MTP方法不同,Next-ToBE无需改动模型架构,推理时仍是标准的单步自回归过程。如果说MTP是“为模型增添多个预测头”,那么Next-ToBE所做的,更像是训练模型的“战略眼光”:在走好当前这一步的同时,其视野已自然涵括了未来数步的棋局变化。
前瞻能力如何提升下游推理性能?
研究通过三组实验系统验证:第一,Next-ToBE是否切实提升了模型对未来词元的感知能力(前瞻能力)?第二,这种增强的前瞻能力能否转化为更准确的后续自回归生成?第三,最终的收益是否体现在复杂的下游推理任务上?图4对前两个问题给出了肯定答案。

图 4:经 Next-ToBE 微调后,(a)未来词元命中率显著提升;(b)自回归生成未来k步的准确率同步上升;(c)下一词元预测置信度略有下降(0.87 → 0.81),模型变得不再“绝对肯定”。
最关键的是第三个问题。研究者在数学推理、代码生成和常识推理三大类任务上,基于不同基座模型进行了共计36组对比实验。结果显示,经过Next-ToBE微调的模型在35组实验中均取得了最优性能(见表1)。


表 1:在数学推理、代码生成与常识问答的36组实验中,Next-ToBE在35组中表现最优。
此外,Next-ToBE在训练效率上具备优势,其显存占用和训练时间相较于MTP类方法有所降低。研究也验证了Next-ToBE在预训练阶段的有效性,这表明前瞻能力并非预训练后的偶然副产品,而是可以通过训练目标主动“塑造”的模型内在特性。
置信度与推理能力的权衡博弈
在更宏观的层面,Next-ToBE实现了对模型“确定性分配”的系统性调节。随着超参数λ增大,模型不再将全部概率质量集中于“下一个词元”,而是逐步将一部分分配到更远的词元上。这导致了一个直接现象:模型对下一个词元的预测置信度持续下降,如图5(左)所示。

图 5:λ越大,下一词元置信度越低(左);但推理准确率随λ(及置信度)呈先升后降的倒U型曲线(中、右)。
然而,最有趣的现象随之出现:随着模型对下一个词元的置信度下降,其在复杂任务上的推理准确率却先上升,达到一个峰值后再下降,形成一条清晰的倒U型曲线(图5中、右)。这意味着,模型处于一种“适度不确定”的状态时,反而展现出最强的推理能力。
相比之下,传统NTP对应λ=0的极端情况,即将全部确定性压缩于当前一步,追求极致的局部自信。这种“短视的笃定”并未带来全局推理的最优解,反而限制了对长程依赖和潜在解决方案的探索空间。
由此可见,有效的长程推理,往往需要对“绝对确定”保持克制。与其追求每一步都极致肯定,不如为未来的多种可能性保留合理的探索余地。Next-ToBE最精妙的价值,在于用当前时刻一点点确定性的让渡,换取了更长远、更全局的推理性能收益。
总结与展望
自大模型兴起以来,一个极少被挑战的范式是:我们总是要求模型在每一步都输出一个最确定的答案。我们潜意识里将“确定性”与“智能”划上了等号。
但事实可能恰恰相反。模型从未真正只顾当下——即便在独热目标分布的“枷锁”下,其概率分布中依然暗含着对未来的感知。Next-ToBE所做的,正是解开这副枷锁,让大模型内在的前瞻性得以自然释放。
这为我们提供了一个重要启示:真正的智能,或许并非源于每一步都绝对正确的机械执行,而是来自于在信息的流动与开放中,与不确定性共处并做出全局最优决策的觉知能力。正是这种能力,引领我们通向更可靠的必然结果。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。