阶跃星辰发布StepAudio 2 5 ASR:推理提速400%,长音频处理迎来新突破 4月24日,阶跃星辰正式
4月24日,阶跃星辰正式推出了新一代自动语音识别模型StepAudio 2.5 ASR。这款模型主要瞄准语音转写与长音频处理场景,在架构上玩了个新花样——引入了Multi-Token Prediction(多Token预测)技术来提升推理效率,同时通过扩展上下文窗口,显著强化了对长内容的整体识别能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
官方公布的数据相当亮眼:推理速度提升了约400%,时延降低了60%,推理峰值能达到500 tokens/s,而成本则下降了80%。在多项公开测试集上,它也交出了错误率较低的答卷。
精度方面,阶跃星辰宣称StepAudio 2.5 ASR在多个主流评测基准上达到了业内领先水平。效率上,一段约5分钟的音视频能在较短时间内完成转写,并且支持一次性完整处理最长30分钟的音频。更引人注目的是其定价策略:StepAudio 2.5 ASR的服务费用定为0.15元/小时,这仅仅是其上代产品Step ASR 2价格的十分之一。
不过,技术指标是一回事,实际表现如何?在后续的测试中我们发现,模型对不同音频输入的适应性确实存在差异:部分上传的音频文件未能成功识别,而在实时录音场景下,它的表现则相对稳定,整体转写准确度较高。
在官方演示的场景里,面对大段连续的口述内容,StepAudio 2.5 ASR能够实现长时间的连贯输出。识别过程中,文本还原稳定,语义保持完整,长音频的转写质量表现得相当均衡。
不仅如此,模型对复杂语境的适配能力也更强了。无论是日常高频的中英混杂表达,还是像绕口令这种发音紧凑、咬字复杂的特殊语句,它都能稳定完成精准识别与完整转写。看得出来,其抗干扰能力和语言包容性确实有了进一步提升。
▲阶跃星辰官方演示
我们也依托阶跃星辰的在线体验平台做了实测,特意选取了一段张雪峰老师的高考志愿填报课程录音作为测试素材,重点检验模型在长音频场景下的真实识别能力。
这个上传模式主要面向会议纪要整理、采访录音转写、课程内容归档等场景,支持WA V、MP3、OGG、PCM等主流格式,单文件大小不超过20MB,同时支持中文、英文及中英混合识别。
但有意思的是,在多次上传同一段音频后,系统均提示“未检测到清晰语音”,未能完成有效转写。具体原因目前尚不明确。

随后,我们切换到了现场录音模式进行测试。这个模式更适合快速语音备忘、现场会议记录等场景,同样支持中英文及混合识别,但单次录音时长上限为2分钟。
这次的识别结果如下:

在这个场景下,模型表现正常,整体转写结果较为准确,对口语内容的还原度很高。关注几个细节:当说话人出现较长停顿时,模型会自动插入额外的逗号进行分割;同时,算法完整保留了日常口语中自然的重复、口头复述等特征,相当真实地还原了原始的语言状态。
StepAudio 2.5 ASR这次的一个核心亮点,是将Multi-Token Prediction技术引入了语音识别赛道。它沿用了Step 3.5 Flash的同款技术方案,采用Audio Encoder+Linear Adapter+LLM+MTP-5的融合架构,从根本上打破了传统串行输出的限制。
简单来说,这个模型可以单次预测多组候选Token,再结合并行验证机制快速输出识别结果,从底层架构上优化了推理效率。


官方实测数据显示,对比传统识别方案,该模型推理速度提升400%,整体时延压缩60%,推理运行成本下降80%,峰值推理速率可达500 tokens/s。这对于提升音视频转写的实时性和性价比,意义重大。
在推理效率的横向对比上,阶跃星辰官方数据显示,StepAudio 2.5 ASR的表现高于Qwen3 ASR(1.7B)、FunASR-Nano、Doubao-ASR-2603等模型。

长音频处理一直是语音识别行业的痛点。目前主流方案多采用先将音频切片、分段识别、最后再拼接的处理模式。但切割后的片段相互独立,容易造成上下文信息割裂,处理长内容时常常出现语义断层、信息遗忘等问题。
对此,StepAudio 2.5 ASR复用了LLM原生的32K上下文窗口能力,支持端到端一次性处理最长30分钟的连续音频,无需分段切割,全程保留完整的上下文关联。这很好地保障了长时段对话、会议、访谈等场景下的识别连贯性。
识别精度层面,该模型在多组权威公开数据集中表现稳定。在LibriSpeech clean/other等五组主流英文开源测试集里,其词错误率优于同期同类模型,能够以更低的算力消耗实现更高质量的转写效果。
针对30分钟满负荷长音频的专项测试显示,模型识别精度始终维持在行业顶尖水平,没有出现长文本识别中常见的精度逐级衰减问题,长时序内容识别的稳定性得到了显著提升。

整体来看,StepAudio 2.5 ASR的改进确实抓住了当前语音识别系统的关键:推理效率与长上下文建模能力。速度、成本、长度,这些硬指标上的提升有目共睹。
但话说回来,从实测情况看,模型在不同音频输入条件下的稳定性仍有提升空间。尤其是在面对复杂或非标准音频时,其适配能力如何,仍有待更多真实场景的锤炼和第三方评测的进一步验证。实验室里的高分,终究要在现实世界的考场里接受最终检验。
菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。