模型技术综合资讯

Transformer论文28.4 BLEU分：一个改写NLP路线图的实验发现

2026-05-27

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

《AttentionIsAllYouNeed》在2017年凭借具体实验结果改变了研究路线。其在WMT14英译德任务上取得

一篇真正定义时代的模型论文，其颠覆性往往不在于提出了一张精巧的结构图，而在于它在一个公认的硬核基准上，取得了决定性的胜利。《Attention Is All You Need》正是这样的典范。如今我们或许将其总结为“注意力机制取代循环网络”，但在2017年，真正迫使整个社区正视这条技术路线的，是一组无可争议的量化指标：

Transformer 原论文实验结果：为什么 28.4 BLEU 足以改写路线图

WMT14 英译德：28.4 BLEU
WMT14 英译法：41.8 BLEU
训练硬件：8 张 P100
训练时长：base 模型约 12 小时，big 模型约 3.5 天

在动辄千卡训练、万亿语料的今天，这些数字的冲击力容易被稀释。但在当时，它们传递了一个明确的信号：一个彻底摒弃循环（RNN）与卷积（CNN）的全新架构，不仅在理论上是可行的，更在翻译质量与训练效率两个维度上，同时超越了当时的主流范式。

需要明确的是：论文中的 BLEU 分数遵循2017年的评测标准，适用于与同期研究进行横向对比，不宜与后来标准化的 SacreBLEU 等结果直接进行数值比较。

本文将聚焦于这组实验结果本身。我们不重复解析架构，也不深入训练细节，而是试图回答一个核心问题：为何这组数据足以引发整个研究领域的范式转移？

一、先看 headline numbers：论文到底赢在哪里

原论文摘要开宗明义，给出了两个最关键的论断：

在 WMT14 英译德任务上达到 28.4 BLEU，超越当时最佳结果（包括集成模型）超过 2 分；
在 WMT14 英译法任务上，单模型达到 41.8 BLEU，仅训练 3.5 天，其计算成本远低于文献中的最优系统。

为了将这些数字置于正确的历史坐标中，我们需要一个清晰的对照框架。下表提取了原论文 Table 2 中几个关键基线及内部模型对比，目的并非复现完整排名，而是揭示 Transformer 的胜利本质：

任务	对照系统	BLEU	Transformer	BLEU	分差	论文里的意义
WMT14 En-De	GNMT	24.6	Transformer big	28.4	+3.8	相对前代最强 RNN 基线实现整档提升
WMT14 En-De	ConvS2S	25.16	Transformer big	28.4	+3.24	对并行化 CNN 路线也赢得明确
WMT14 En-Fr	ConvS2S	40.46	Transformer big	41.8	+1.34	确立了新的单模型 SOTA
WMT14 En-Fr	Transformer base	38.1	Transformer big	41.8	+3.7	表明模型容量放大后收益依然显著

摘要中“超越当时最好结果 2 BLEU 以上”常被单独引用。上表未罗列所有文献，而是保留了最能体现“路线替代”意义的关键锚点。

1.1 为什么是 WMT14，为什么是 BLEU

因为 WMT14 是当时机器翻译领域最具公信力的基准之一。WMT 的对比链条绵长，前几年最强的系统——如 GNMT、ConvS2S、ByteNet——均在此打榜。换言之，Transformer 并非在一个冷门任务上“刷”出成绩，而是在一场公认的硬仗中取得了胜利。

BLEU 在今天已非唯一指标，甚至存在诸多局限；但在 2017 年，它就是机器翻译论文的通用“硬通货”。你想证明自己更优，首先就得提升 BLEU 分数。但需注意，同样名为 BLEU，不同论文在分词、标准化及评测脚本上的细节可能存在差异，因此最稳妥的解读始终是“与同一时代、同一评测标准的系统进行比较”。

1.2 28.4 这个数字为什么够震撼

以今日眼光看，28.4 这个分数本身或许并不惊人。关键在于，它击败的是一整套关于“序列建模必须依赖 RNN/CNN”的工程共识。

此前的普遍认知是：

机器翻译必须包含循环结构，至少解码器需逐步读取历史信息；
或至少需要卷积，依靠局部感受野的逐层扩张来捕捉依赖；
注意力机制仅是一个辅助模块，无法作为主干。

Transformer 用实验结果直接推翻了这一判断：注意力机制不仅能辅助，其本身就可以成为主干，并且效率更高。

二、质量提升不是唯一故事，训练成本才是更狠的一刀

如果论文仅在 BLEU 分数上略有提升，整个社区未必会立刻转向。真正令人无法忽视的，是它同时大幅降低了训练成本。

2.1 8 张 P100、12 小时 / 3.5 天，在当时是什么概念

2017 年的 8 张 P100 并非玩具配置，但也远未达到今日超大规模训练的级别。原论文给出的训练时长是：

base 模型：约 12 小时；
big 模型：约 3.5 天。

这引出的结论并非“训练很廉价”，而是一个更精确的表述：在当时公认困难的翻译任务上，其实际训练时间效率显著优于前一代强模型。

这一点至关重要。学术界与工业界愿意迁移至一条新路线，往往并非因为新模型“理论更优雅”，而是因为它同时满足：

结果更优；
训练更快；
工程上更易于并行。

Transformer 恰好三者兼备。

2.2 它赢的不只是 FLOPs，而是并行性

如前所述，RNN 的根本问题不在于“单步计算慢”，而在于时间维度存在严格的串行依赖。即便拥有再多 GPU，也无法同时计算同一序列的所有时间步。

Transformer 在训练时则可将一个批次中的所有位置并行计算。于是：

GPU 利用率大幅提升；
按 token 组织批次变得更为自然；
在相同的实际训练时间内，能够处理更多的训练样本。

换言之，它真正击败前代模型之处，不只在于数学结构，更在于其“与现代硬件的高度适配性”。这也是其后来能一路扩展至超大规模模型，而不仅限于机器翻译领域的原因。

三、base 到 big：原论文已经把“规模有效”这件事露出来了

原论文中最值得回味的，不只是 base 和 big 两个模型的最终分数，更是它们之间的关系。

3.1 从 base 到 big，不只是参数更多

big 模型相对于 base 模型主要做了几项调整：

模型维度 $d_{\text{model}}$ 从 512 提升至 1024；
注意力头数从 8 提升至 16；
前馈网络宽度从 2048 提升至 4096；
Dropout 等正则化参数也相应调整。

结果是性能的显著提升：

英译德：27.3 → 28.4
英译法：38.1 → 41.8

这已明确表明：Transformer 的能力并非快速饱和，而是会随模型宽度与容量的增加持续增长。

今天我们习惯于用“缩放定律”描述这一现象，但在 2017 年，这已然是一个早期信号：基于注意力的主干网络并非只在小模型上偶然奏效的技巧，而是一个能够随规模扩大持续受益的骨架。

3.2 这至少说明这套骨架值得继续放大

若 Transformer 仅在约 6500 万参数的 base 模型上表现良好，放大后收益立刻消失或训练变得极不稳定，那么这条路线不会如此迅速地成为研究主航道。原论文的 big 模型结果虽规模在今天看来很小，但已让人看到：

结构是稳定的；
训练配方是可扩展的；
模型容量增加后，性能持续提升。

这至少是一个“值得继续放大和复用”的骨架所应具备的条件。至于后来 GPT、BERT、T5 等模型将其推演为平台级架构，则是后续几年更多工作共同完成的篇章。

四、注意力可视化到底说明了什么

原论文另一个常被引用的亮点是注意力权重可视化。许多人初次看到时会感到兴奋，因为它似乎意味着“模型终于可以解释自己在关注什么”。

4.1 它至少说明了模型学到了有结构的对齐

论文中的可视化展示了几种极具说服力的模式：

某些注意力头会稳定关注前一个或后一个位置；
某些头则学会了捕捉长距离依赖；
在翻译场景中，解码器的交叉注意力会清晰地与源语言句子中最相关的词对齐。

这至少说明了一件事：注意力权重并非随机噪声，它确实学习到了结构化的模式。

4.2 但它不是“完整解释”

此处需保持谨慎。注意力图能告诉你“某个注意力头在当前层、当前位置将权重分配到了哪里”，但它不能单独说明：

最终输出为何一定由这几个位置决定；
前馈网络和残差连接在后续层又做了什么；
某个高权重的位置是否仅负责搬运信息，而非直接决定答案。

因此，比较准确的说法是：注意力可视化提供了局部可解释的线索，而非完整的因果解释。

这个话题在后续讨论注意力机制的可解释性争议时还会再次涉及。

五、复杂度表和实验结果合起来，才是完整胜利

原论文中还有一张常被引用的表格：比较了不同层类型（如自注意力、RNN、卷积）在每层的计算复杂度、顺序操作数以及最大路径长度。

5.1 这张表本身不是 benchmark，但解释了 benchmark 为什么会那样

它清晰地揭示了：

自注意力机制中，序列任意位置间的最大路径长度为常数级；
RNN 需要顺序传播信息；
卷积虽能并行，但捕捉远距离依赖需要更多层或更大的感受野。

这张复杂度表与 WMT 的胜利结果结合，得出的结论才真正完整：

Transformer 在理论上更适合建模长距离依赖；
它在硬件上更适合并行计算；
它在真实的基准测试上真的赢了。

三者缺一不可。仅有复杂度分析，没有实际结果，那只是一套漂亮的理论；仅有结果，没有复杂度分析，别人可能会怀疑是否是训练配方偶然调对。两者结合，才具备了“路线替代”的说服力。

六、这些结果够不够支持路线替代

以今天的标准看，2017年这篇论文的消融实验并不算特别奢华。它没有今天动辄几百组实验、几十张图的规模。但如果问题是“这些结果是否足以让整个领域认真对待纯注意力这条路线”，那么它提供的证据已经足够关键：

6.1 不同模型大小

base 和 big 两档模型已足以证明，该结构并非只在小模型上偶然奏效。

6.2 不同任务规模

英译德和英译法任务的数据规模差异很大，Transformer 在两边都取得了成功，说明它并非只在某个特定数据量上碰巧有效。

6.3 不同结构直觉的间接比较

虽然论文没有采用现代“拿掉某个模块”的消融方式，但它通过与 RNN / CNN 的 SOTA 模型直接对比，已经回答了最重要的问题：完全抛弃循环和卷积之后，结果会不会变差？答案是不但没有变差，反而更好了。

对于一篇开宗立派的论文而言，这种“路线级别的证据”比局部的参数微调更为重要。

七、这些结果今天还该怎么读

2017年的胜利是巨大的，但不能因此误读为“论文里的每个数字、每个结论在今天都原样成立”。

7.1 仍然成立的部分

今天仍然成立的核心洞见有三条：

注意力机制可以作为主干，而不仅仅是辅助模块；
并行性将深刻改变模型可训练的规模上限；
必须将模型结构、硬件友好性、训练目标三者结合起来看。

这三条在后续的 GPT、BERT、T5、LLaMA 等模型身上被反复验证。

7.2 已经发生变化的部分

但也有许多内容属于2017年的时代限定：

BLEU 不再是生成任务的唯一评价指标；
6层、8头、512维这些具体配置早已不是主流；
Post-LayerNorm 在很大程度上已被 Pre-LayerNorm 取代；
机器翻译不再是 Transformer 唯一的主战场。

因此，今天重读原论文的实验结果，最有价值的不是死记硬背那些数字，而是记住那次胜利的“形状”：一个结构优势明确、硬件友好、实验结果过硬的新架构，是如何在一个成熟的基准测试上，整体性地替代了旧范式的。

八、几个常见误解

8.1 “28.4 BLEU 在今天看不高，所以论文被神化了”

这是错误的。评价2017年的论文，必须放回2017年的基线水平和硬件条件中去。它战胜的是当时最强的一整条技术路线，而不是与今天的超大模型比较绝对值。

8.2 “Transformer 成功只是因为参数更多”

这也不对。big 模型确实更大，但真正决定胜负的是其结构的并行性和长距离依赖建模方式。否则，同等参数规模的 RNN/CNN 模型早就该赢回来了。

8.3 “注意力可视化证明了 attention 就是解释”

不能这么说。它只是表明模型学习到了可见的结构化模式，并不等同于完整的因果解释。

8.4 “原论文结果一出来，RNN 就立刻完全死了”

实际情况并非如此瞬间。在许多具体任务和工业系统中，RNN、CNN 仍被沿用了一段时间。但从研究的主航道来看，自这篇论文开始，Transformer 已经明显占据了上风。

九、结语

原论文实验结果真正重要的，并非它给出了一串后来会被不断刷新的数字，而在于它第一次将一个全注意力主干架构，放在了最具公信力的翻译基准测试上，并同时证明了三点：质量更高、训练更快、并行性更强。28.4 BLEU 只是最醒目的那个符号，背后真正改变世界的，是这组数字共同指向的结论：序列建模，不再必须围绕着循环结构打转。

十、参考文献

Vaswani, A. et al. "Attention Is All You Need." NeurIPS 2017. 原始实验结果、训练成本与注意力可视化。
Wu, Y. et al. "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation." arXiv:1609.08144, 2016. Transformer 前最重要的强基线之一。
Gehring, J. et al. "Convolutional Sequence to Sequence Learning." ICML 2017. Transformer 同时代最强的卷积式机器翻译路线之一。
Kalchbrenner, N. et al. "Neural Machine Translation in Linear Time." arXiv:1610.10099, 2016. ByteNet 路线的代表。
Post, M. "A Call for Clarity in Reporting BLEU Scores." WMT 2018. 说明今天回看 BLEU 数字时为何必须注意评测口径。

来源：互联网

上一篇 Lance模型测评：3B全能开源模型如何统一视频图像生成与编辑 下一篇 DeepSeek接入Claude桌面版终极指南：新手也能快速上手的详细教程

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。