ControlFoley开源评测:小米可控视频音效生成模型
摘要
小米开源的ControlFoley是一种可控视频音效生成模型,统一支持文本引导、文本控制和参考音
ControlFoley是什么
视频音效生成(Video-to-Audio, V2A)始终是多模态创作中难度极高且至关重要的环节。如何让模型精准识别画面中木棍敲击的是木门还是铁桶,并且让声效精确对齐敲击的那一帧?更大的挑战在于:创作者如何指示模型“我想要的是另一种特定的声音”?针对这一核心难题,小米开源的ControlFoley提供了一套高效且优雅的解决方案。
简言之,ControlFoley是一款可控视频音效生成模型,其核心价值在于有效攻克V2A领域长期存在的“可控性”瓶颈。单一模型即可统一支持三种配音任务:文本引导(TV2A)、文本控制(TC-V2A)和参考音频控制(AC-V2A)。通过自研的时空音视频编码器CA V-MAE-ST、时间-音色解耦等关键技术,其在语义对齐、时间同步和生成音质上均取得全面突破。目前,ControlFoley在多项权威基准测试中达到开源模型最优水平(SOTA),代码与模型权重已完全开源。

ControlFoley的主要功能
ControlFoley的突出优势在于将视频音效的控制权真正交还给创作者。具体来看其支持的三种任务模式:
- TV2A(文本引导视频配音):基础模式。输入一段视频和一句文字描述(例如“一扇沉重的铁门缓慢关闭”),模型即可依据视频节奏与文本提示,生成与画面同步的音效。文本在此用于补充画面语义,引导模型输出方向。
- TC-V2A(文本控制视频配音):控制层级更高。当文本意图与画面语义冲突时,模型优先遵循文本指令。例如,画面显示有人敲门,但要求生成“敲击木桶”声,模型会忠实执行,同时保持声音时间点与画面敲击动作精准同步。这才是真正意义上的“可控性”。
- AC-V2A(参考音频控制视频配音):该模式专门解决音色质感问题。上传一段参考音频(如特定鼓声),模型即可提取其音色与风格,迁移至视频所需的配音中,同时完全保留视频原有的节奏与动作同步性。
ControlFoley的技术原理
实现上述精准控制,背后有若干关键技术设计值得深入剖析。
首先是联合视觉编码。采用自研的CA V-MAE-ST时空音视频编码器。不同于常规图像理解,该编码器的核心在于捕获音视频间的时空对应关系。通俗地说,它不仅识别画面中的动作,还理解动作节奏与声音变化之间的映射。配合经典CLIP模型,二者分工明确:一个负责语义解析,一个负责时空对齐,整体效果显著提升。
其次是时间-音色解耦,这是AC-V2A模式的核心机制。输入参考音频后,模型会智能地抑制其中包含的时序信息(如原音频的节奏与停顿),仅保留全局音色特征(例如木槌声或金属撞击声)。如此一来,参考音频不会干扰模型基于视频画面生成的节奏,真正实现“提取音色精华,剔除节奏干扰”。
最后是模态鲁棒训练。训练过程中,视频、文本、音频三种模态并非总是齐全。为保障模型在各种输入组合下都能稳定输出,训练引入了随机模态dropout机制,同时强制减小不同模态在表示空间中的距离。这使得模型在面对“仅视频”、“视频+文本”等不同情况时,均能做出合理判断。
如何使用ControlFoley
想要上手使用ControlFoley?操作流程非常清晰:
- 获取资源:前往GitHub仓库下载代码与模型权重,亦可直接体验官方提供的在线Demo。
- 环境配置:依照仓库文档,配置必要的Python环境及音视频处理依赖库。
- 选择任务模式并准备输入:根据创作需求在TV2A、TC-V2A、AC-V2A中做出选择。导入视频文件,并按需附加文本提示或参考音频。
- 执行生成与导出:运行推理脚本,ControlFoley即输出生成的音频。最后通过VAE解码器与声码器导出最终音轨,并与原始视频合成,即可获得完全可控的配音成品。
ControlFoley的核心优势
综合来看,ControlFoley的核心优势十分显著:
- 统一框架,降本增效:单一模型覆盖三种任务,创作者无需为不同需求切换多个工具。
- 音画同步,精准对齐:凭借CA V-MAE-ST编码器的时序理解能力,其音画对齐精度显著超越其他开源方案。
- 音色可控,风格随心:时间-音色解耦技术将参考音频控制从“复制粘贴”升级为精准的“风格迁移”,不破坏原有时序。
- 鲁棒稳定,多模态兼容:无论输入是单模态还是多模态组合,模型均能稳定生成。
- 开源SOTA,实至名归:在VGGSound-Test、Kling-Audio-Eval等主流基准上,其语义对齐与声音质量均达到开源最优水平。
ControlFoley的项目地址
以下为官方资源入口,便于查阅:
- 官方项目页:https://yjx-research.github.io/ControlFoley_web_page/
- GitHub代码库:https://github.com/xiaomi-research/controlfoley
- HuggingFace模型:https://huggingface.co/YJX-Xiaomi/ControlFoley
- arXiv论文:https://arxiv.org/abs/2604.15086
ControlFoley的同类竞品对比
为更直观理解ControlFoley的领先性,以下将其与MMAudio、HunyuanVideo-Foley两款主要竞品进行对比:
| 对比维度 | ControlFoley | MMAudio | HunyuanVideo-Foley |
|---|---|---|---|
| 任务覆盖 | 统一支持TV2A、TC-V2A、AC-V2A三种可控任务 | 仅支持TV2A基础视频配音 | 仅支持TV2A基础视频配音 |
| 文本冲突处理 | 强:冲突场景下DeSync值仅0.36–0.38,优先遵循文本指令 | 弱:文本易被视觉语义覆盖 | 弱:文本控制能力有限 |
| 参考音频控制 | 支持,时间-音色解耦不破坏节奏同步 | 不支持 | 不支持 |
| 音画同步 | 优:CA V-MAE-ST增强时空对齐 | 良 | 良 |
| 开源状态 | 代码、模型权重、技术报告完整开源 | 开源 | 开源 |
ControlFoley的应用场景
最后列举几个具体且实用的应用场景:
- 短视频创作:为无声空镜素材添加符合创意意图的音效,例如给慢镜头的咖啡注入配以更“醇厚”的声音,而非模型默认的流水声。
- 动画与游戏:在游戏或动画项目中,为营造特定氛围,需将角色攻击的“拳击”声替换为“重锤”声。ControlFoley可在保留动作节奏的同时,精准替换音色风格。
- 影视后期与广告营销:基于品牌专属音频样本,为系列视频统一音效风格,实现高度一致的声音品牌化。
- 自媒体直播切片:为二创视频补充更具沉浸感、更贴合内容调性的多模态音频,提升作品完整度与观感体验。
综上,ControlFoley将视频音效生成从“模型猜测”阶段推进到“创作者定义”阶段。它将控制权重新交还人类,这或将成为未来AIGC工具演进的关键方向。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。