菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > ControlFoley开源评测:小米可控视频音效生成模型
产业资讯 小米 开源

ControlFoley开源评测:小米可控视频音效生成模型

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

小米开源的ControlFoley是一种可控视频音效生成模型,统一支持文本引导、文本控制和参考音

ControlFoley是什么

视频音效生成(Video-to-Audio, V2A)始终是多模态创作中难度极高且至关重要的环节。如何让模型精准识别画面中木棍敲击的是木门还是铁桶,并且让声效精确对齐敲击的那一帧?更大的挑战在于:创作者如何指示模型“我想要的是另一种特定的声音”?针对这一核心难题,小米开源的ControlFoley提供了一套高效且优雅的解决方案。

简言之,ControlFoley是一款可控视频音效生成模型,其核心价值在于有效攻克V2A领域长期存在的“可控性”瓶颈。单一模型即可统一支持三种配音任务:文本引导(TV2A)、文本控制(TC-V2A)和参考音频控制(AC-V2A)。通过自研的时空音视频编码器CA V-MAE-ST、时间-音色解耦等关键技术,其在语义对齐、时间同步和生成音质上均取得全面突破。目前,ControlFoley在多项权威基准测试中达到开源模型最优水平(SOTA),代码与模型权重已完全开源。

ControlFoley的主要功能

ControlFoley的突出优势在于将视频音效的控制权真正交还给创作者。具体来看其支持的三种任务模式:

  • TV2A(文本引导视频配音):基础模式。输入一段视频和一句文字描述(例如“一扇沉重的铁门缓慢关闭”),模型即可依据视频节奏与文本提示,生成与画面同步的音效。文本在此用于补充画面语义,引导模型输出方向。
  • TC-V2A(文本控制视频配音):控制层级更高。当文本意图与画面语义冲突时,模型优先遵循文本指令。例如,画面显示有人敲门,但要求生成“敲击木桶”声,模型会忠实执行,同时保持声音时间点与画面敲击动作精准同步。这才是真正意义上的“可控性”。
  • AC-V2A(参考音频控制视频配音):该模式专门解决音色质感问题。上传一段参考音频(如特定鼓声),模型即可提取其音色与风格,迁移至视频所需的配音中,同时完全保留视频原有的节奏与动作同步性。

ControlFoley的技术原理

实现上述精准控制,背后有若干关键技术设计值得深入剖析。

首先是联合视觉编码。采用自研的CA V-MAE-ST时空音视频编码器。不同于常规图像理解,该编码器的核心在于捕获音视频间的时空对应关系。通俗地说,它不仅识别画面中的动作,还理解动作节奏与声音变化之间的映射。配合经典CLIP模型,二者分工明确:一个负责语义解析,一个负责时空对齐,整体效果显著提升。

其次是时间-音色解耦,这是AC-V2A模式的核心机制。输入参考音频后,模型会智能地抑制其中包含的时序信息(如原音频的节奏与停顿),仅保留全局音色特征(例如木槌声或金属撞击声)。如此一来,参考音频不会干扰模型基于视频画面生成的节奏,真正实现“提取音色精华,剔除节奏干扰”。

最后是模态鲁棒训练。训练过程中,视频、文本、音频三种模态并非总是齐全。为保障模型在各种输入组合下都能稳定输出,训练引入了随机模态dropout机制,同时强制减小不同模态在表示空间中的距离。这使得模型在面对“仅视频”、“视频+文本”等不同情况时,均能做出合理判断。

如何使用ControlFoley

想要上手使用ControlFoley?操作流程非常清晰:

  • 获取资源:前往GitHub仓库下载代码与模型权重,亦可直接体验官方提供的在线Demo。
  • 环境配置:依照仓库文档,配置必要的Python环境及音视频处理依赖库。
  • 选择任务模式并准备输入:根据创作需求在TV2A、TC-V2A、AC-V2A中做出选择。导入视频文件,并按需附加文本提示或参考音频。
  • 执行生成与导出:运行推理脚本,ControlFoley即输出生成的音频。最后通过VAE解码器与声码器导出最终音轨,并与原始视频合成,即可获得完全可控的配音成品。

ControlFoley的核心优势

综合来看,ControlFoley的核心优势十分显著:

  • 统一框架,降本增效:单一模型覆盖三种任务,创作者无需为不同需求切换多个工具。
  • 音画同步,精准对齐:凭借CA V-MAE-ST编码器的时序理解能力,其音画对齐精度显著超越其他开源方案。
  • 音色可控,风格随心:时间-音色解耦技术将参考音频控制从“复制粘贴”升级为精准的“风格迁移”,不破坏原有时序。
  • 鲁棒稳定,多模态兼容:无论输入是单模态还是多模态组合,模型均能稳定生成。
  • 开源SOTA,实至名归:在VGGSound-Test、Kling-Audio-Eval等主流基准上,其语义对齐与声音质量均达到开源最优水平。

ControlFoley的项目地址

以下为官方资源入口,便于查阅:

  • 官方项目页:https://yjx-research.github.io/ControlFoley_web_page/
  • GitHub代码库:https://github.com/xiaomi-research/controlfoley
  • HuggingFace模型:https://huggingface.co/YJX-Xiaomi/ControlFoley
  • arXiv论文:https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

为更直观理解ControlFoley的领先性,以下将其与MMAudio、HunyuanVideo-Foley两款主要竞品进行对比:

对比维度ControlFoleyMMAudioHunyuanVideo-Foley
任务覆盖统一支持TV2A、TC-V2A、AC-V2A三种可控任务仅支持TV2A基础视频配音仅支持TV2A基础视频配音
文本冲突处理强:冲突场景下DeSync值仅0.36–0.38,优先遵循文本指令弱:文本易被视觉语义覆盖弱:文本控制能力有限
参考音频控制支持,时间-音色解耦不破坏节奏同步不支持不支持
音画同步优:CA V-MAE-ST增强时空对齐
开源状态代码、模型权重、技术报告完整开源开源开源

ControlFoley的应用场景

最后列举几个具体且实用的应用场景:

  • 短视频创作:为无声空镜素材添加符合创意意图的音效,例如给慢镜头的咖啡注入配以更“醇厚”的声音,而非模型默认的流水声。
  • 动画与游戏:在游戏或动画项目中,为营造特定氛围,需将角色攻击的“拳击”声替换为“重锤”声。ControlFoley可在保留动作节奏的同时,精准替换音色风格。
  • 影视后期与广告营销:基于品牌专属音频样本,为系列视频统一音效风格,实现高度一致的声音品牌化。
  • 自媒体直播切片:为二创视频补充更具沉浸感、更贴合内容调性的多模态音频,提升作品完整度与观感体验。

综上,ControlFoley将视频音效生成从“模型猜测”阶段推进到“创作者定义”阶段。它将控制权重新交还人类,这或将成为未来AIGC工具演进的关键方向。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多