菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 何恺明团队ELF新作测评:嵌入式语言流技术解析与应用前景
产业资讯

何恺明团队ELF新作测评:嵌入式语言流技术解析与应用前景

2026-05-13
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

「语言是离散的,但语言模型不一定是。」这句话,恰好点出了当前大语言模型研究的一个

「语言是离散的,但语言模型不一定是。」这句话,恰好点出了当前大语言模型研究的一个有趣分野。

去年,一个名为LLaDA的项目在AI圈内激起了不小的波澜。它基于「掩码扩散」原理,宣称在多项基准测试中,其性能足以与同规模的自回归大模型(即GPT这类逐字生成的模型)相媲美。这一下子,让原本略显小众的扩散语言模型(Diffusion Language Model, DLM)研究,走到了更多人的聚光灯下。

问题在于,文字本质上是离散的token序列,而扩散模型最初是为处理连续数据(如图像)而设计的。这种「先天不合」,使得视觉生成领域的主流技术,很难直接套用在语言模型上。

LLaDA证明了扩散路径的可行性之后,各路研究团队纷纷跟进。大家逐渐形成一个共识:扩散模型在文本生成上潜力巨大。它天生支持并行解码,理论上生成速度可以远超逐字输出的自回归模型。同时,它也更容易实现「填空」、「双向修改」等对自回归模型来说颇为棘手的任务。

目前,研究者主要沿着两条技术路线探索:

  • 离散扩散语言模型(Discrete DLM):直接在token的离散空间里定义扩散过程。例如,用MASK遮盖token再逐步还原,或者将token向均匀分布扩散再逐步修正。这条路近年来是主流,效果也相对更好。
  • 连续扩散语言模型(Continuous DLM):先将token映射到连续的嵌入向量空间,在连续空间里完成去噪,最后再转换回token。这条路理论上更优雅,但实际效果长期落后于离散方法。

而最近,何恺明团队发表的一篇新论文,恰恰选择了那条更困难的后者路线。

他们提出的模型名为ELF(Embedded Language Flows,嵌入式语言流),其核心思路可以用一句话概括:让扩散过程全程在连续的向量空间中进行,直到最后一步,才将结果「翻译」乘人类可读的词语。

论文共一作者Linlu Qiu在社交媒体上分享了这一成果。

令人惊讶的是,实验结果显示,这个思路不仅可行,效果还出奇地好:仅用了不到其他方法十分之一的训练数据,其生成质量就已经实现了全面领先。

论文标题:ELF: Embedded Language Flows

何恺明的答案:只在最后一步变成词

这篇论文来自MIT的一支八人团队,通讯作者是计算机视觉领域的标志性人物——何恺明。对于深度学习领域的研究者而言,这个名字意味着重量级的工作。2015年,他提出的残差网络(ResNet)解决了深层网络训练的梯度消失难题,其影响至今深远,残差连接的结构几乎渗透到所有现代AI系统中。2024年,他加入MIT后,开始系统性地探索生成模型的前沿。

业内对何恺明新工作的关注度一向很高。

而ELF,可以说是这支团队在语言生成方向上一次颇具巧思的尝试。他们的想法很直接:既然扩散模型最擅长在连续空间里工作,何不让它从头到尾都待在这个舒适区,直到终点才进行一次「转码」?

具体来说,ELF的工作流程分为三步:

首先,通过一个预训练好的编码器(论文中使用了T5编码器),将一句话中的每个词转换为包含上下文语义的「语境嵌入」向量。这一步,离散的文字被投射到了一个高维的连续空间。

接着,采用近年来在图像生成中表现优异的「流匹配」(Flow Matching)框架,在这些向量上进行去噪。模型从一团高斯噪声出发,沿着学习到的速度场,一步步将其「推」向目标嵌入向量。

最后,也是最关键的一步,模型才通过一个「反嵌入层」,将去噪后的连续向量映射回词汇表,输出具体的词语序列。

这与之前的连续扩散语言模型有本质区别。ELF在整个去噪过程中,坚决不中途将连续向量变回离散的token。这种设计保证了扩散动力学过程的完整性和流畅性。正因全程处于向量空间,图像扩散领域积累的诸多成熟技术,如「无分类器引导」(CFG),几乎可以无缝迁移过来,这无疑是一个巨大的优势。

一个网络,两种模式

ELF在架构设计上还有一个巧思:它使用同一个神经网络来承担「去噪」和「解码」两项任务,通过一个特殊的「模式标记」(mode token)进行切换。

在训练阶段,这个网络80%的时间用于学习如何去除噪声(最小化均方误差损失),剩下20%的时间则学习如何将最终的干净嵌入向量准确映射回对应的词语(最小化交叉熵损失)。

到了推理生成的时候,在最终步骤之前,网络始终运行在去噪模式下;当去噪完成,只需切换标记,网络便进入解码模式,完成从向量到词语的翻译。这种设计避免了训练一个独立解码器的开销,使得整个流程非常简洁高效。

此外,ELF还引入了「自条件」(Self-Conditioning)机制。简单说,网络在每一步去噪时,可以参考自己上一步的预测结果,而不是每次都从头开始猜测。这不仅提升了生成质量,还为CFG等技术提供了现成的条件信号来源,且几乎没有增加额外的计算成本。

实验结果:用十分之一的训练量,碾压对手

论文中的实验结果颇具说服力。研究团队在扩散语言模型领域通用的标准设定下进行了评估:使用OpenWebText语料库进行训练,并以生成困惑度(值越低越好,代表文本越流畅自然)和词汇熵(值越高越好,代表生成多样性越丰富)作为核心指标。

数据显示,ELF仅用320步采样,就达到了24的困惑度。相比之下,当前主流的离散扩散语言模型(如MDLM、Duo等),即便经过了专门的「蒸馏」训练以加速推理,在同等采样步数下的表现仍不及未经过蒸馏的ELF。

训练数据量的对比更为悬殊。根据论文统计,MDLM、Duo、FLM等主流方法通常使用了约5000亿个Token进行训练,而ELF仅用了大约450亿个Token——差不多只是前者的十分之一

在更具实际应用价值的条件生成任务上,ELF同样表现突出。在WMT14德英机器翻译基准测试中,ELF取得了26.4的BLEU分数,超越了同等规模的自回归模型(25.2)以及MDLM(18.4)、CDCD(24.9)等竞争对手。在XSum新闻摘要任务上,ELF在ROUGE-1、ROUGE-2、ROUGE-L三项关键指标上也均位列第一。

写在最后

过去两年,扩散语言模型的研究进展几乎都集中在离散空间——研究者们不断优化掩码策略、提升解码效率、扩大训练规模。而连续扩散路线,因其与语言的「离散本质」之间存在理论上的张力,长期处于相对边缘的位置。

ELF的出现,提供了一个全新的视角和有力的证明:连续扩散非但不是语言建模的障碍,反而可能是一个尚未被充分挖掘的优势源泉。在连续空间里,信息流动更平滑,更容易借鉴图像生成领域已高度成熟的技术栈,也更容易实现精细的引导与控制。ELF在不同参数规模(从1亿到6.5亿)下表现出的良好扩展性也暗示,这条技术路径的上限可能还远未触及。

当然,ELF目前的评估仍主要基于中等规模的模型和学术基准。它能否在千亿乃至更大参数规模上,在更广泛、更复杂的实际任务中,与当前最强的自回归大模型形成真正有竞争力的对抗,还需要后续更多的工作来验证。

但无论如何,当下的结果已经清晰地回答了一个悬而未决的问题:连续扩散语言模型这条路,似乎终于找对了方向。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多