产业资讯小米开源

ControlFoley开源评测：小米可控视频音效生成模型

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

小米开源的ControlFoley是一种可控视频音效生成模型，统一支持文本引导、文本控制和参考音

ControlFoley是什么

视频音效生成（Video-to-Audio, V2A）始终是多模态创作中难度极高且至关重要的环节。如何让模型精准识别画面中木棍敲击的是木门还是铁桶，并且让声效精确对齐敲击的那一帧？更大的挑战在于：创作者如何指示模型“我想要的是另一种特定的声音”？针对这一核心难题，小米开源的ControlFoley提供了一套高效且优雅的解决方案。

简言之，ControlFoley是一款可控视频音效生成模型，其核心价值在于有效攻克V2A领域长期存在的“可控性”瓶颈。单一模型即可统一支持三种配音任务：文本引导（TV2A）、文本控制（TC-V2A）和参考音频控制（AC-V2A）。通过自研的时空音视频编码器CA V-MAE-ST、时间-音色解耦等关键技术，其在语义对齐、时间同步和生成音质上均取得全面突破。目前，ControlFoley在多项权威基准测试中达到开源模型最优水平（SOTA），代码与模型权重已完全开源。

ControlFoley的主要功能

ControlFoley的突出优势在于将视频音效的控制权真正交还给创作者。具体来看其支持的三种任务模式：

TV2A（文本引导视频配音）：基础模式。输入一段视频和一句文字描述（例如“一扇沉重的铁门缓慢关闭”），模型即可依据视频节奏与文本提示，生成与画面同步的音效。文本在此用于补充画面语义，引导模型输出方向。
TC-V2A（文本控制视频配音）：控制层级更高。当文本意图与画面语义冲突时，模型优先遵循文本指令。例如，画面显示有人敲门，但要求生成“敲击木桶”声，模型会忠实执行，同时保持声音时间点与画面敲击动作精准同步。这才是真正意义上的“可控性”。
AC-V2A（参考音频控制视频配音）：该模式专门解决音色质感问题。上传一段参考音频（如特定鼓声），模型即可提取其音色与风格，迁移至视频所需的配音中，同时完全保留视频原有的节奏与动作同步性。

ControlFoley的技术原理

实现上述精准控制，背后有若干关键技术设计值得深入剖析。

首先是联合视觉编码。采用自研的CA V-MAE-ST时空音视频编码器。不同于常规图像理解，该编码器的核心在于捕获音视频间的时空对应关系。通俗地说，它不仅识别画面中的动作，还理解动作节奏与声音变化之间的映射。配合经典CLIP模型，二者分工明确：一个负责语义解析，一个负责时空对齐，整体效果显著提升。

其次是时间-音色解耦，这是AC-V2A模式的核心机制。输入参考音频后，模型会智能地抑制其中包含的时序信息（如原音频的节奏与停顿），仅保留全局音色特征（例如木槌声或金属撞击声）。如此一来，参考音频不会干扰模型基于视频画面生成的节奏，真正实现“提取音色精华，剔除节奏干扰”。

最后是模态鲁棒训练。训练过程中，视频、文本、音频三种模态并非总是齐全。为保障模型在各种输入组合下都能稳定输出，训练引入了随机模态dropout机制，同时强制减小不同模态在表示空间中的距离。这使得模型在面对“仅视频”、“视频+文本”等不同情况时，均能做出合理判断。

如何使用ControlFoley

想要上手使用ControlFoley？操作流程非常清晰：

获取资源：前往GitHub仓库下载代码与模型权重，亦可直接体验官方提供的在线Demo。
环境配置：依照仓库文档，配置必要的Python环境及音视频处理依赖库。
选择任务模式并准备输入：根据创作需求在TV2A、TC-V2A、AC-V2A中做出选择。导入视频文件，并按需附加文本提示或参考音频。
执行生成与导出：运行推理脚本，ControlFoley即输出生成的音频。最后通过VAE解码器与声码器导出最终音轨，并与原始视频合成，即可获得完全可控的配音成品。

ControlFoley的核心优势

综合来看，ControlFoley的核心优势十分显著：

统一框架，降本增效：单一模型覆盖三种任务，创作者无需为不同需求切换多个工具。
音画同步，精准对齐：凭借CA V-MAE-ST编码器的时序理解能力，其音画对齐精度显著超越其他开源方案。
音色可控，风格随心：时间-音色解耦技术将参考音频控制从“复制粘贴”升级为精准的“风格迁移”，不破坏原有时序。
鲁棒稳定，多模态兼容：无论输入是单模态还是多模态组合，模型均能稳定生成。
开源SOTA，实至名归：在VGGSound-Test、Kling-Audio-Eval等主流基准上，其语义对齐与声音质量均达到开源最优水平。

ControlFoley的项目地址

以下为官方资源入口，便于查阅：

官方项目页：https://yjx-research.github.io/ControlFoley_web_page/
GitHub代码库：https://github.com/xiaomi-research/controlfoley
HuggingFace模型：https://huggingface.co/YJX-Xiaomi/ControlFoley
arXiv论文：https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

为更直观理解ControlFoley的领先性，以下将其与MMAudio、HunyuanVideo-Foley两款主要竞品进行对比：

对比维度	ControlFoley	MMAudio	HunyuanVideo-Foley
任务覆盖	统一支持TV2A、TC-V2A、AC-V2A三种可控任务	仅支持TV2A基础视频配音	仅支持TV2A基础视频配音
文本冲突处理	强：冲突场景下DeSync值仅0.36–0.38，优先遵循文本指令	弱：文本易被视觉语义覆盖	弱：文本控制能力有限
参考音频控制	支持，时间-音色解耦不破坏节奏同步	不支持	不支持
音画同步	优：CA V-MAE-ST增强时空对齐	良	良
开源状态	代码、模型权重、技术报告完整开源	开源	开源

ControlFoley的应用场景

最后列举几个具体且实用的应用场景：

短视频创作：为无声空镜素材添加符合创意意图的音效，例如给慢镜头的咖啡注入配以更“醇厚”的声音，而非模型默认的流水声。
动画与游戏：在游戏或动画项目中，为营造特定氛围，需将角色攻击的“拳击”声替换为“重锤”声。ControlFoley可在保留动作节奏的同时，精准替换音色风格。
影视后期与广告营销：基于品牌专属音频样本，为系列视频统一音效风格，实现高度一致的声音品牌化。
自媒体直播切片：为二创视频补充更具沉浸感、更贴合内容调性的多模态音频，提升作品完整度与观感体验。

综上，ControlFoley将视频音效生成从“模型猜测”阶段推进到“创作者定义”阶段。它将控制权重新交还人类，这或将成为未来AIGC工具演进的关键方向。

来源：互联网

上一篇 开源创新推动AGI生态：人工智能的关键角色 下一篇 AI概念股翻倍后闪崩，行情熄火了吗

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。