模型技术小米开源

最新ControlFoley榜单:小米开源可控视频音效生成多模态V2A模型

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

ControlFoley快速摘要：小米开源的可控视频音效生成框架 ControlFoley，由小米大模型应用团队

ControlFoley快速摘要：小米开源的可控视频音效生成框架

ControlFoley，由小米大模型应用团队于2026年5月开源的可控视频音效生成模型。核心亮点在于支持三类V2A（视频生成音频）任务：文本引导、文本控制，以及参考音频控制。简单说，给视频配音这件事，它给了创作者更多“听谁的”的选择权。该工具主要瞄准影视、游戏和短视频的音频生成场景，要解决的核心难题是——当视频画面、文本描述和参考音频这些信息“打架”时，如何还能精准地生成想要的音效。

基本档案如下：

模型名称：ControlFoley
开发团队：小米大模型应用团队
发布时间：2026年5月29日正式开源
主要功能：视频生成音频（V2A）、文本控制音频、参考音频风格迁移
运行环境：Python + PyTorch + GPU推理环境
开源范围：代码、模型权重、Demo与技术报告已全部开源
适用场景：影视后期、游戏音效、短视频创作、广告配音
技术特点：多模态控制 + 时空音视频编码 + 音色解耦
定价策略：完全开源（非商业API定价模式）

ControlFoley的核心优势

与市面上那些只管文本生成音频、或只能做简单视频配音的模型不同，ControlFoley将TV2A、TC-V2A、AC-V2A三大类任务统一到一个框架中。创作者无需在不同模型之间来回切换，避免了控制信息损失。在VGGSound-Test这样的标准数据集上，它的表现相当稳健。

处理跨模态冲突时，ControlFoley拿出了真本事。当文本指令和视频画面语义发生冲突——比如画面是敲门，但文本要求“金属撞击声”——它内置了一个控制优先机制。即便在最高强度的冲突条件下，模型对视觉信息的依赖度也能大幅下降，同时保持语义一致性不跑偏。对于复杂创作场景来说，这种“我说了算”的可控性才是关键所在。

时间同步精度也经过了专门优化。通过一套叫CAV-MAE-ST的时空编码结构，模型对动作和声音的对齐能力有了显著提升。在DeSync这个评估同步效果的指标上，ControlFoley得分在0.36到0.38之间，比不少开源V2A模型都强，基本告别了“音画不同步”的尴尬。

音色与时间的解耦同样值得一提。很多模型在做参考音频风格迁移时，会不小心把参考音频的节奏也带进去，结果就是画面动作和声音节奏对不上。ControlFoley把参考音频拆成了音色和时间两部分，只拿音色特征去参与生成，节奏信息则完全交给视频动作来决定。这样一来，风格迁移后的音效既能听得出源音色，又能和画面动作严丝合缝。

最后，开源SOTA表现方面，ControlFoley在VGGSound-Test、Kling-Audio-Eval和MovieGen-Audio-Bench等多个基准测试上都达到了开源模型中的最佳水平。在IS和CLAP等关键指标上，整体优于MMAudio和HunyuanVideo-Foley等同类模型。

ControlFoley的核心功能

来看看它到底能做什么。TV2A文本引导配音是最基础的功能：输入一段无声视频，再给一句文本提示，比如“滑板摩擦地面”，模型就能生成一段8秒长的、与画面动作同步的音效。

TC-V2A文本控制生成则体现了“文本优先”的哲学。还是那个例子：视频内容是敲门，但你告诉模型要生成“金属撞击声”。结果是，输出的音效确实有金属质感，而且与动作发生的时间点同步。这是ControlFoley区别于很多“听画面”的自动配音模型的关键所在。

AC-V2A参考音频控制的能力听起来就很酷：输入一段网球击打的视频，再给一段战鼓的音频，模型能输出一段既保持击打节奏、又呈现战鼓音色的音效。这全靠前面提到的“时间-音色解耦”机制。

多模态统一推理的能力体现在灵活性上。视频、文本、音频可以任意组合输入，因为训练时用了随机模态dropout，所以即便某个输入缺失，模型依然能稳定生成音效。

在环境与事件音生成上，雨声、脚步声、爆炸声这些都不在话下。基于扩散模型的生成方式保证了高频细节的保真度。

ControlFoley的技术原理

技术底子打得扎实，才能撑起上面这些花哨的功能。CAV-MAE-ST时空编码器是音画同步的基石，它把视觉和音频的建模绑在一起，专门学习视频帧和音频事件在时间线上对齐的规律。

跨模态注意力融合机制的作用，是让文本、视觉和音频的信息能在同一个“潜空间”里交流。它用了CLIP做语义编码，再和音视频联合特征做交叉注意力计算，三种信息因此能够对齐。

时间-音色解耦结构的设计相当巧妙。前文已经说过，它把参考音频拆成音色和时间两部分，只保留音色向量参与生成。这个做法在AC-V2A任务中至关重要。

扩散式音频生成架构是音频输出的核心技术。它用Latent Diffusion方式逐步去噪，生成音频频谱。在UNet结构里配合时间步控制，能合成高保真的音频，同时降低噪声和失真。

多模态鲁棒训练机制则保证了模型的通用性。通过模态dropout和REPA对齐目标，即便输入条件复杂或不全，模型的输出分布也能保持稳定。

ControlFoley与主流模型对比

对比维度	ControlFoley	AudioCraft	Stable Audio	MMAudio	通义万相	Kling-Foley
任务覆盖	支持TV2A/TC-V2A/AC-V2A统一框架，覆盖可控视频配音与参考音频控制	主要支持T2A文本生成音频任务，不支持视频输入控制	专注T2A长音频生成，不支持视频对齐与多模态控制	支持基础TV2A视频配音任务，无文本冲突控制机制	多模态生成体系逐步扩展音频能力，视频音频未完全统一	商业级V2A配音能力，偏自动生成模式，控制能力较弱
文本控制能力	支持TC-V2A冲突控制，IB可降至约0.36–0.38，仍保持语义对齐能力	仅支持文本条件生成，无法处理视频冲突或多模态控制	文本驱动生成音频，缺乏视觉语义对齐能力	文本易被视觉主导覆盖，控制稳定性较弱	文本控制能力依赖多模态融合策略，稳定性未统一优化	文本控制与视觉语义融合较强但不可调节优先级
参考音频控制	支持AC-V2A，采用时间-音色解耦，仅控制音色不干扰同步	不支持参考音频控制，仅文本生成	不支持音色迁移，仅基于文本生成	不支持参考音频控制机制	部分实验性支持音频风格迁移能力	支持有限音色风格迁移但不可解耦时间结构
音画同步能力	采用CAV-MAE-ST增强时空建模，DeSync最低约0.36级表现	无视频同步机制，仅生成独立音频	无时间轴对齐能力	基础同步能力，易出现事件错位	视频生成体系较强但音频同步能力独立优化不足	同步效果较好但依赖闭源系统调优
开源与可扩展性	开源模型、权重与推理代码完整开放，支持二次开发	完全开源，偏音频生成生态	开源版本有限，核心能力受限	开源研究模型，可复现但工程化不足	部分能力开源，整体生态闭合度较高	商业闭源系统，不支持模型级修改

从技术路线来看，AudioCraft和Stable Audio代表了传统的T2A单模态生成路线；MMAudio和通义万相则处于多模态V2A的早期探索阶段，在文本冲突控制和参考音频解耦上都有短板。Kling-Foley虽有不错的商业级音画质量，但作为闭源系统，缺乏可解释的多模态控制机制。ControlFoley的差异就在于，它通过一个统一的多任务框架，再加上视觉-文本联合编码和时间-音色解耦，让模型在执行用户的控制意图时更有“主见”，即使面对冲突场景也能保持音画同步的稳定性。这种可控性和泛化能力上的优势，是它的真正护城河。

如何使用ControlFoley

动手尝试的门槛并不低，但也不算高不可攀。第一步是环境配置：需要Python3.10以上版本、PyTorch2.5环境，以及支持CUDA11.8以上的GPU。FFmpeg也是必需品，用于音视频的预处理。

接着是代码部署。从GitHub克隆仓库，下载模型权重，然后执行pip install -r requirements.txt安装依赖。huggingface-hub库需要装好，它是用来加载和调用模型的关键。

输入准备根据任务类型来定。TV2A需要视频加文本提示；AC-V2A需要视频加参考音频；TC-V2A则需要视频加一条可能与画面冲突的文本指令。

模型推理环节，执行demo.py脚本。需要设置推理步数（50到100步之间）和引导尺度（guidance scale，推荐5.0到10.0）。扩散模型会生成音频的latent表示，然后再解码成波形。

最后是后处理导出。可以对输出音频做一些EQ或降噪处理，然后导出为48kHz的WAV或MP3格式，再和视频时间轴对齐，完成最终合成。

ControlFoley相关资源

项目官网：https://yjx-research.github.io/ControlFoley_web_page/
GitHub仓库：https://github.com/xiaomi-research/controlfoley
HuggingFace模型库：https://huggingface.co/YJX-Xiaomi/ControlFoley
arXiv技术论文：https://arxiv.org/abs/2604.15086

ControlFoley的局限性

当然，它也有短板。首先，实时性不足。扩散模型逐步生成音频的特性导致推理延迟在1到5秒之间，没法用于实时语音或直播场景，更适合离线制作。

其次，计算资源依赖高。模型推理依赖GPU，建议至少有16GB以上的显存。如果使用较低配置的显卡，在处理长视频或高分辨率音频时容易出现性能瓶颈。

最后，生态仍在早期。虽然代码和权重都开源了，但缺乏成熟的商业API和标准化的工业级部署方案，现阶段主要还是用于研究和开发验证。

ControlFoley的典型应用场景

短视频创作是最直接的应用场景之一。一段无声视频配上文本提示，就能生成同步音效，快速产出适配社交平台的完整内容。

在动画与游戏制作中，输入角色动作视频和风格文本，可以生成武器、脚步声或环境音，实现风格化的音效设计和资产生成。

影视后期制作方面，输入影视片段和参考音频，可以实现统一的音色风格控制，输出符合整片音效体系的后期音轨。

广告与营销内容也能受益——输入品牌视频和情绪文本提示，生成符合品牌调性的音频节奏，提高广告的情绪表达一致性。

而对于二创与直播内容，给直播切片或二创视频生成增强音效，能让内容更有节奏感和传播性，提升用户的观看体验。

ControlFoley常见问题

ControlFoley和普通视频配音模型有什么区别？

普通V2A模型基本就是自动配音，但ControlFoley支持TV2A、TC-V2A、AC-V2A三种可控生成模式。当文本指令和视频画面冲突时，它能降低对视觉的依赖（IB指标约0.36到0.38），听话地执行文本指令。

ControlFoley和MMAudio哪个好？

ControlFoley在冲突控制和参考音频任务上明显更强。MMAudio更侧重于基础的V2A生成，没有TC-V2A和AC-V2A这类能力。

ControlFoley支持实时生成吗？

不支持。扩散模型的推理有1到5秒的延迟，更适合离线制作，不适合实时场景。

ControlFoley是免费开源的吗？

代码是开源的，采用Apache 2.0协议。不过模型权重遵循CC BY-NC 4.0协议，也就是非商业许可，可以用于研究和非商业用途。

ControlFoley的最低配置要求？

建议使用16GB以上显存的GPU，比如3090或4090，搭配CUDA 11.8以上环境。推理一段8秒的音频，耗时大约在1到5秒之间。

来源：互联网

上一篇 自己实现Agent CLI：从零搭建到部署完整指南 下一篇 WSL2后台持续运行：彻底解决关闭终端退出问题

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。