其他资讯
黑科技
百度ERNIE音视频统一生成技术深度测评
摘要
百度ERNIE团队提出原生音视频对齐框架NAVA,通过先建立音视频精细同步再引入文字条件,实
这项由百度ERNIE团队主导的研究,以预印本形式发布于2026年5月28日,论文编号为arXiv:2605.30073,对技术细节感兴趣的读者可通过该编号在arXiv平台获取完整原文。
**一、为什么同时“看”和“听”对AI来说如此棘手**
当人说话时嘴唇与声音同步,钢琴家手指落键与音符同时响起,电影爆炸画面与轰鸣声一致——这些对人类而言自然的“音画同步”,对AI却是极度挑战。
目前部分AI视频生成工具虽能同时输出画面和声音,但大多采用“分家再合并”的笨拙方案:先由独立模型生成视频,再由另一模型生成音频,最后强行拼接。这如同两位作曲家各自戴着耳机、互不沟通地创作同一部交响乐,再强行合并乐谱。结果要么勉强对齐,要么严重错位。
百度ERNIE团队直指这一根本缺陷,提出全新框架——NA VA(Native Audio-Visual Alignment,原生音视频对齐框架)。核心理念:让音频和视频从生成伊始就在同一“创作空间”共同演化,而非分开生成后再强行拼合。
**二、现有方案的两种路径及其致命缺陷**
要理解NA VA的创新,需先厘清当前主流AI音视频生成方案。研究团队将其分为两大类,各有致命弱点。
第一类为“双塔架构”。音频和视频各自独立处理:视频塔根据文字生成画面,音频塔根据相同文字生成声音,最后通过桥梁模块连接。开源领域的Ovi、LTX、MoVA等项目均属此类。问题在于:音频和视频在各自塔中独立演化后已形成各自“性格”,后期融合只能实现粗粒度对齐,难以达到细粒度同步,如唇形与语音的精确对应。
第二类为“完全统一的三模态架构”。将文字、音频、视频全部丢入同一空间混合处理,代表作为daVinci-MagiHuman系统。此方案虽允许三种模态直接交互,但混淆了两种性质不同的任务:一是语义理解(如理解“爆炸场景”),二是低级同步(如爆炸画面与声音的毫秒级对齐)。将两者塞入同一空间,如同让同一个人同时负责编剧和现场录音,需求互相干扰。
**三、NA VA核心思路:先让音视频“建立专属关系”,再引入外部指导**
NA VA的设计哲学可概括为:先建立音视频之间的原生对应关系,再引入外部信息指导生成过程。
用恋爱类比:好的关系首先需要双方私密相处、建立深度默契;然后参考外界建议调整方向。NA VA对音视频的处理正是如此:先给两者一个专属“私密空间”,让它们充分相互感知、建立精确对应;再将文字描述等外部信息作为“外部建议”注入,引导最终内容。
技术层面,第一阶段将音频和视频信号放入共享的“音视频对齐空间”,通过自注意力机制直接相互感知——视频帧的每个时刻可直接感知对应音频特征,反之亦然。文字描述在此阶段不作为平等参与者混入,而是第二阶段通过交叉注意力从“外部”向已初步对齐的音视频联合体输入语义信息。这种“先对齐、后调控”设计,既保留音视频精细同步的可能,又让文字语义有效引导内容,互不干扰。
**四、“先对齐再融合”的MMDiT架构:精心设计的两层小楼**
NA VA具体实现依赖名为“Align-then-Fuse MMDiT”的架构,如同一栋精心设计的两层小楼,每层功能不同。
整体框架基于MMDiT(多模态扩散变换器),当前AI图像和视频生成的主流技术,通过逐步“去噪”生成内容。NA VA将其30个处理模块分为前10个和后20个两组。
一楼是“层级对齐层”,建立音视频原生对应关系。关键设计:音频和视频物理特性差异极大——视频是二维空间加一维时间,音频是随时间变化的频谱;采样率、信号密度、特征分布截然不同。若一开始强制共用参数,会导致“鸡同鸭讲”。因此一楼先通过模态专属投影层,将各自特征转换到共同可理解的“语言”,再放入共享注意力机制深度交互。这如同两个不同国家的人先学好共同语言再对话。
一楼还解决时间分辨率差异:同样一秒内容,音频的时间片段更多,视频帧率较低。研究团队对音频的位置编码做了比例缩放,将音频旋转位置编码角度乘以视频帧率与音频帧率的比值,使时间坐标系对齐。文字描述和参考音色等外部信息通过交叉注意力注入,始终担任“外部顾问”,不混入音视频专属对话空间,保证一楼作为纯同步空间的纯粹性。
二楼是“统一融合层”,在音视频对应关系基本建立后,进行更高层次协同去噪。经过一楼充分磨合,音频和视频特征不再格格不入,可直接共享同一套处理参数,实现更高效联合生成。二楼删除了模态区分,采用共享变换器模块,节省计算资源,推动深层协同演化。文字等外部条件仍通过交叉注意力从外部注入,确保语义指导贯穿全程。
整体设计哲学:在最需精细协调的早期阶段,给予音视频充分“专属空间”建立原生默契;在后期追求效率和高层融合时,推动两者共享资源协同生成。这种从“分”到“合”的渐进设计是NA VA架构的核心精髓。
**五、音色控制:让AI记住“谁在说话”的创意方案**
NA VA还解决了实际应用中极为关键的问题:如何精确控制不同说话人的音色。
考虑场景:希望AI生成对话视频,左边的人用某演员音色,右边的人用另一演员音色。棘手点在于:AI如何知道哪段文字对应哪种音色?现有系统虽支持参考音色(给一段参考音频让模型模仿),但通常将音色作为“全局控制信号”注入——整个视频所有人说话都受同一参考音色影响。对于单人场景尚可,多人对话时完全失效。
NA VA提出“语境中的音色条件化”(Timbre-in-Context Conditioning)机制,解决方案优雅:在文字提示中,每段说话内容用特殊标记``和``包裹(S代表Start,E代表End),同时将该段对应的参考音色信息作为一个特殊“音色令牌”插入在这段文字之前。整个文字提示变为结构化序列,每段说话内容和对应参考音色紧密绑定。
AI生成时读取此结构化提示,便知当前处理段落应采用哪种音色——音色信息就“贴”在对应文字旁。此设计无需修改NA VA核心架构,也不需额外“说话人控制模块”,仅改变文字提示组织方式,便实现细粒度多说话人音色控制。对于两个说话人的对话,只需在提示中插入两个不同音色令牌,分别绑定对应说话片段,AI自动理解并执行。
**六、训练方法:循序渐进的三阶段修炼**
NA VA训练分为三个递进阶段,遵循“从基础到精细”逻辑。
第一阶段,以3:1比例混合纯音频数据和音视频配对数据训练。主要目标:让模型先学会处理音频。NA VA的视频生成能力继承自成熟模型Wan2.2-5B,无需从头学,但音频处理能力需从零建立。以音频数据为主,快速建立音频通道基础能力,同时防止视频生成能力退化。
第二阶段,将纯音频与音视频比例调整为1:2,引入更高质量音频数据。重点转向提升音频保真度和音视频同步精度。基于第一阶段基础,在质量上精益求精。
第三阶段,使用精心筛选的高质量音视频数据进行微调。着重提升模型对复杂指令的理解和执行能力,包括多说话人对话、复杂镜头运动、音色控制等高级功能。
训练过程中引入两种“随机丢弃”策略,为后续推理控制打基础。第一种“随机跨模态注意力掩码”:以20%概率随机屏蔽音频和视频之间的注意力连接,让模型同时学会“音视频深度耦合”和“音视频相对独立”两种模式,推理时可用两种模式预测差异估计对齐的“引导信号”。第二种“随机音色条件丢弃”:以20%概率随机将音色令牌替换为空令牌,让模型同时学会“有音色引导”和“无音色引导”两种模式,为推理时音色控制打基础。
**七、推理时的精细控制:三个独立的“调音旋钮”**
推理阶段(实际使用模型生成),NA VA支持“条件分解的无分类器引导”精细控制机制,提供三个独立“调音旋钮”,用户可分别调节强度。
第一个旋钮控制“文字引导强度”:调高则内容更严格遵循文字描述,调低则给予更多创作自由度。第二个旋钮控制“音视频对齐强度”:调高则同步精度显著提升,但可能在其他方面有所取舍;调低则让音视频更自由发展。第三个旋钮控制“音色保留强度”:调高则语音更接近参考音色,调低则AI对音色有更多自主解释空间。
三个旋钮的数学原理:推理时NA VA同时运行同一模型的多个“版本”——完整条件版本、去掉文字条件的版本、去掉音视频对齐的版本、去掉音色条件的版本。用有条件版本预测减去对应无条件版本预测,得到该条件的“引导方向”,乘以对应旋钮强度系数后叠加到最终预测。此设计允许用户在不重新训练的情况下,灵活调节三个维度强度,针对不同内容最优配置。
**八、数据流水线:从1亿原始视频到15万精品样本**
为训练NA VA,研究团队构建了庞大精细的数据处理流水线,工程复杂度堪比精密工厂。
原始数据层面:从多个来源收集约2000万段音频和1亿段视频,包括Koala-36M(大规模视频数据集)、TED风格演讲视频、电影和电视素材。海量原始数据不能直接用于训练,需层层筛选加工。
第一道工序“去杂质”:使用OCR技术识别并过滤掉画面中大量字幕或文字叠加的视频(防止AI学到错误关联),同时用图像理解工具去除字幕。然后使用视频理解模型提取每段视频特征向量,通过大规模聚类算法找出并删除重复或高度相似片段,避免AI反复学习同样内容。
第二道工序“贴标签”:对保留下来的素材进行细致分类标注。视觉内容标注电影、纪录片、电视剧、直播、新闻、采访等类型;音频内容区分单人说话、多人对话、环境音、音乐、歌唱等。标签既用于检索,也用于在不同训练阶段构建针对性数据子集。
第三道工序“写说明书”:为每段素材生成结构化文字描述。采用两阶段策略:对于大规模数据集,分别用Qwen3-VL(视觉理解模型)和Qwen3-Omni(全模态理解模型)生成视觉和音频描述,再用Gemini-3-Flash融合;对于高质量子集和多说话人场景数据,直接使用更强的Gemini-3-Pro生成更精确、时间戳准确的描述。
第四道工序“质量把关”:通过多个评估工具对每段素材综合打分,包括视觉美学评分、清晰度、亮度、运动幅度;音频质量评分(使用Meta的AudioBox Aesthetic工具);音视频对齐程度(使用SyncNet、SyncFormer、ImageBind等多个工具交叉验证)。
经过四道工序层层过滤,从1亿段原始视频中筛选出约1500万段用于大规模预训练,并从中进一步精选出16万段高质量样本用于监督微调。Koala-36M数据集约贡献最终训练语料的20%,平均每段视频时长约7秒。
**九、提示词工程:教AI听懂“又要看又要听”的复杂需求**
普通文生视频模型只需理解“画什么”,而音视频联合生成模型还需理解“说什么”“谁来说”“什么时候说”“同时有什么背景声”——这对提示词格式提出更高要求。
研究团队设计了一套统一结构化提示词模板,将视频描述分为四个层次:全局视觉描述(场景、主体、环境)、时间动态(开始、过程、结束状态)、镜头与构图(固定或跟拍、有无剪切和场景转换)、音频描述(对话、背景音、音场)。
对于包含说话内容的视频,每段对话用``和``标记明确圈定范围;对于多说话人场景,每位说话人的音色、情绪、语速、声场位置都详细描述。对于无语音视频,着重描述动作声、接触摩擦声、物体声、环境氛围声和混响特性。
这套模板不仅用于训练数据描述生成,也是用户实际使用NA VA时必须遵循的输入格式。为使基准测试提示词适配该格式,团队使用Gemini-3-Flash对所有测试提示词重新改写,保留原始语义的同时转换为NA VA最能理解的结构化格式。
**十、实验结果:数字说明NA VA实际表现**
研究团队在两个标准测试平台上全面评估NA VA:Verse-Bench(覆盖说话视频、音效视频、乐器演奏视频等多种类型的音视频质量评估基准)和Seed-TTS(专门评估语音生成质量和说话人相似度)。
在Verse-Bench的音视频同步测试中,NA VA表现最为突出。SyncNet的两项指标分别评估“嘴唇动作与声音的匹配置信度”(Sync-C,越高越好)和“嘴唇与声音的时间偏差”(Sync-D,越低越好)。NA VA的Sync-C为7.791,Sync-D为7.566,均优于所有竞品——Ovi-1.1(10B参数)、MoVA(32B参数激活值)、daVinci-MagiHuman(15B参数)、LTX 2.3(19B参数)。特别值得关注:NA VA仅用6.3B参数,便在参数量远大于自身的竞争对手中取得最佳同步性能。
视频质量维度,NA VA得分为0.659,同样位居第一,证明其Align-then-Fuse设计在提升音视频同步的同时未牺牲视频生成质量。
语音识别错误率(WER)方面,NA VA以0.099排名第一,意味着生成的语音经语音识别后与目标文字吻合度最高,语音清晰度和内容准确性最优。音频感知质量(PQ)和音频特征分布相似度(FD)方面,NA VA在竞品中处于有竞争力水平,虽非全面第一,但综合最为均衡。
跨模态语义一致性(IB-Score)维度,NA VA得分为0.313,高于Ovi-1.1,但低于LTX 2.3的0.337——这是NA VA相对较弱的一项,团队亦坦诚承认。
在Seed-TTS基准上测试音色控制能力时,NA VA表现令人印象深刻。说话人相似度66.7分、语音识别错误率4.20%,不仅远超另一音视频生成模型DreamID-Omni(相似度仅35.7分,错误率31.76%),甚至比肩专业语音生成模型——CosyVoice相似度60.9分,CosyVoice2为65.2分,Qwen2.5-Omni为63.2分。一个同时生成视频和音频的通用模型,在音色相似度上超越专注于语音生成的专业模型,充分验证Timbre-in-Context Conditioning机制的有效性。
**十一、人类评估:真实用户眼中NA VA与对手的差距**
除客观指标外,研究团队招募真实人类评估员进行主观感知测试。250个测试案例覆盖“纯文字生成音视频”(T2AV)和“文字加参考图片生成音视频”(TI2AV)两种场景,评估者对比NA VA与其他系统的输出,在“整体质量”和“音视频对齐准确度”两个维度上给出“NA VA更好”“差不多”或“对方更好”的判断。
T2AV场景中,NA VA表现稳健。与Ovi-1.1相比,67.5%评估者认为NA VA整体质量更好;与LTX-2.3相比,60%更偏好NA VA;与daVinci-MagiHuman相比,高达80%选择NA VA。音视频对齐维度优势同样明显:对Ovi-1.1胜率62.5%,对LTX-2.3胜率65%,对daVinci胜率72.5%。
TI2AV场景中,情况稍显复杂。NA VA对daVinci有明显优势(整体质量胜率48.8%,对齐胜率48.8%),对Ovi-1.1保持优势(整体质量胜率43.9%,对齐胜率51.2%),对MoVA也有一定优势(整体质量胜率37.5%,对齐胜率47.5%)。但对LTX-2.3,NA VA优势明显收窄——整体质量胜率仅26.2%,对齐胜率33.3%。说明在有参考图片输入场景中,LTX-2.3是NA VA最强劲对手,两者互有优劣。
**十二、消融实验:逐层验证NA VA设计合理性**
为验证各设计组件有效性,研究团队进行系列“拆零件”式消融实验,依次删除某个组件观察性能变化。
Align-then-Fuse架构实验最为关键。对比三种变体:仅有统一融合层、仅有层级对齐层、以及完整NA VA。结果显示,仅有统一融合层(参数量5B,无模态专属对齐层)在同步性和跨模态语义一致性上明显更差——证实“共享参数前先充分对齐”的价值。仅有层级对齐层(参数量7.7B,保留更多模态专属参数)在语音质量方面较好(更低错误率),但视频质量和跨模态一致性下降——说明若始终分开处理、不深度融合,高层联合生成能力无法充分发挥。完整NA VA(参数量6.3B,前10层对齐、后20层融合)在各项指标上取得最佳平衡。
条件分解引导实验同样验证设计有效性。去掉对齐引导(不使用第二个旋钮),NA VA的Sync-C从7.791骤降至6.170,Sync-D从7.566上升至8.755,跨模态语义一致性从0.402下降至0.355,语音错误率从0.099上升至0.126。说明对齐引导对音视频精确同步至关重要,非锦上添花。去掉音色引导,说话人相似度从66.7降至65.5,语音错误率从4.20降至3.78——音色相似度下降,但内容准确性微升,反映音色保留与内容准确性存在取舍,需通过调节旋钮强度平衡。
**十三、局限性和未来方向:研究者也承认的不足**
研究团队对NA VA局限性保持坦诚,体现高质量学术研究的严谨。
NA VA目前在某些“长尾”和高度复杂音频事件上表现欠佳。长尾指训练数据中稀少的类别——如罕见动物叫声、特殊乐器演奏、歌唱(非普通说话)、多种声音事件同时发生的复杂混音。此类内容在训练数据中占比小,模型难以掌握。
团队指出,解决根本途径是获取更广泛、更精细整理的音视频数据,尤其针对罕见事件和复杂声音组合。
未来研究方向,团队提出颇具想象力的思路:探索“更早的融合机制”,如直接开发音视频联合分词器(tokenizer)甚至统一音视频表征模型。NA VA当前对音频和视频分别编码(各自使用不同VAE),然后在Transformer层融合,融合发生在特征层面。若能在更底层(信号或紧凑表征层面)开始融合,或许能进一步增强同步性和语义一致性。这是更具挑战性也更具潜力的方向。
训练资源方面,NA VA完整训练需约107,520个H100 GPU小时——前两阶段需160块H100跑约三周(约80,640 GPU小时),第三阶段微调需160块H100再跑一周(约26,880 GPU小时)。这一计算投入说明此类系统开发仍需大规模算力支撑,非普通研究者能轻易复现。
归根结底,NA VA代表了音视频联合生成领域一种务实有效的新思路。既未走“把所有东西塞进一个锅”的激进统一路线,也未停留于“分开做完再拼”的保守方案,而是找到中间道路——给音频和视频一个专属“相互了解空间”,同时保持外部语义信息的灵活注入。实验结果证明这条路确实走通:6.3B参数、压倒性的音视频同步性能、媲美专业语音模型的音色控制能力,这些成绩构成一张相当有力的答卷。
未来AI生成内容,或许不只是“好看的画面”或“好听的声音”,而是真正“音画合一”的沉浸式体验。NA VA迈出了这个方向上扎实的一步。对这项研究感兴趣的读者,可通过论文编号arXiv:2605.30073在arXiv平台查阅完整技术细节。
**Q&A**
**Q1:NA VA和普通AI视频生成工具有什么区别?**
A:普通AI视频生成工具要么只生成画面,要么先生成视频再单独加音频。NA VA的不同之处在于,它让音频和视频从生成的第一步就开始“相互感知”,在一个专属的对齐空间里共同演化,而不是分开做完再拼合,因此能实现更精确的嘴唇动作与语音同步,以及画面事件与声音事件的自然对应。
**Q2:NA VA的音色控制功能是怎么用的?**
A:用户只需要在文字提示里用特定标记``和``把每段说话内容圈起来,并在对应位置附上一段参考音频,NA VA就能让生成的语音模仿那段参考音频的音色。对于多人对话的场景,可以为不同说话片段分别指定不同的参考音频,系统会自动区分并分别执行,无需任何额外的复杂配置。
**Q3:NA VA目前有哪些明显的不足?**
A:NA VA在罕见声音类别上表现不够好,比如特殊动物叫声、歌唱、或多种复杂声音同时出现的场景。此外,在有参考图片作为输入的生成任务中,LTX-2.3是其有力竞争对手,两者在整体质量上各有优劣。整个系统的训练需要超过10万GPU小时的算力,目前不具备普通团队自行训练的条件。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。