产业资讯腾讯混元 MMAE基准显示

MMAE基准显示：AI音频编辑精准率仅5%

2026-06-09

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

腾讯混元联合多所顶尖高校发布首个通用指令驱动音频编辑基准MMAE，包含2000个真实样本和1

音频生成AI已经能产出不少令人惊艳的作品，但谈到“编辑”现有音频——比如替换某个词语、调整节奏、更换音色——情况就复杂得多。近期，腾讯混元联合上海交通大学、新加坡南洋理工大学、天津大学、北京大学、复旦大学等多家顶尖机构，推出了一个名为MMAE（Massive Multitask Audio Editing Benchmark）的基准测试集。这是业界首个专为通用指令驱动音频编辑打造的大规模评估标准，简单来说，就是给AI音频编辑能力划出了一条清晰的度量线，而测试结果毫不留情地暴露了当前技术的核心短板：精准修改远比想象中困难。

从“生成”到“编辑”：AI音频能力的硬核试金石

大多数人熟悉的AI音频，是从文本或提示生成一段新声音。但MMAE的玩法截然不同：它要求模型先理解一段已有音频，再根据一条自然语言指令进行精准修改——该改的改，不该改的一丝不动。这种“编辑而非重构”的能力，对保真度、指令跟随和上下文理解提出了更高要求，也更贴近真实应用场景：比如播客后期剪掉一个口误、音乐混音中单独调整某一声轨，或者为某个角色定制个性化语音。

测试结果有些扎心：当前主流模型的精确匹配率（Exact Match Rate，简称EMR）普遍低于5%。这意味着，让AI修改一段音频，十次中有八九次会出现过度修改、遗漏指令或者破坏原始音质的问题。可靠且可控的音频编辑，依然是一块硬骨头。

MMAE基准亮点：覆盖真实场景的多维度评估

MMAE的设计相当扎实，几个核心要素就能看出功力：

2000个高保真样本，全部来自真实世界场景，而非实验室合成的数据。
17741项细粒度评估指标，相当于为每个模型出具一份详细的成绩单，量化到每一处改动。
7种模态设置，覆盖声音、音乐、语音以及它们的混合形式，复杂音频环境也能测。
6级任务复杂度，从基础修改一路升级到多跳推理和多轮编辑，看看模型到底能扛到哪一关。
8种操作类型，支持局部和全局不同粒度的编辑，考验模型的精细控制能力。

这套基准不仅是技术评估工具，更是整个音频AI从“生成式”向“编辑式”转型的重要里程碑。它为研究者和开发者提供了统一的度量尺，有望加速下一代音频编辑模型的迭代。

未来展望：音频编辑或成AI多模态核心竞争力

随着多模态大模型的发展，精准音频编辑在内容创作、影视后期、无障碍辅助等领域的价值会越来越凸显。腾讯混元这次联合多家高校，展现了中国AI研究在音频方向的先发布局。业界期待更多开源资源和后续模型跟进，共同填补这一技术空白。

来源：互联网

上一篇 阿里巴巴大模型组织架构升级，成立Token Foundry与AI研究院 下一篇 AI科学绘图平台推荐：文字生成科研配图

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

MMAE基准显示：AI音频编辑精准率仅5%

摘要

从“生成”到“编辑”：AI音频能力的硬核试金石

MMAE基准亮点：覆盖真实场景的多维度评估

未来展望：音频编辑或成AI多模态核心竞争力

相关文章推荐