百度ERNIE音视频统一生成技术深度测评

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

百度ERNIE团队提出原生音视频对齐框架NAVA，通过先建立音视频精细同步再引入文字条件，实

这项由百度ERNIE团队主导的研究，以预印本形式发布于2026年5月28日，论文编号为arXiv:2605.30073，对技术细节感兴趣的读者可通过该编号在arXiv平台获取完整原文。 **一、为什么同时“看”和“听”对AI来说如此棘手** 当人说话时嘴唇与声音同步，钢琴家手指落键与音符同时响起，电影爆炸画面与轰鸣声一致——这些对人类而言自然的“音画同步”，对AI却是极度挑战。目前部分AI视频生成工具虽能同时输出画面和声音，但大多采用“分家再合并”的笨拙方案：先由独立模型生成视频，再由另一模型生成音频，最后强行拼接。这如同两位作曲家各自戴着耳机、互不沟通地创作同一部交响乐，再强行合并乐谱。结果要么勉强对齐，要么严重错位。百度ERNIE团队直指这一根本缺陷，提出全新框架——NA VA（Native Audio-Visual Alignment，原生音视频对齐框架）。核心理念：让音频和视频从生成伊始就在同一“创作空间”共同演化，而非分开生成后再强行拼合。 **二、现有方案的两种路径及其致命缺陷** 要理解NA VA的创新，需先厘清当前主流AI音视频生成方案。研究团队将其分为两大类，各有致命弱点。第一类为“双塔架构”。音频和视频各自独立处理：视频塔根据文字生成画面，音频塔根据相同文字生成声音，最后通过桥梁模块连接。开源领域的Ovi、LTX、MoVA等项目均属此类。问题在于：音频和视频在各自塔中独立演化后已形成各自“性格”，后期融合只能实现粗粒度对齐，难以达到细粒度同步，如唇形与语音的精确对应。第二类为“完全统一的三模态架构”。将文字、音频、视频全部丢入同一空间混合处理，代表作为daVinci-MagiHuman系统。此方案虽允许三种模态直接交互，但混淆了两种性质不同的任务：一是语义理解（如理解“爆炸场景”），二是低级同步（如爆炸画面与声音的毫秒级对齐）。将两者塞入同一空间，如同让同一个人同时负责编剧和现场录音，需求互相干扰。 **三、NA VA核心思路：先让音视频“建立专属关系”，再引入外部指导** NA VA的设计哲学可概括为：先建立音视频之间的原生对应关系，再引入外部信息指导生成过程。用恋爱类比：好的关系首先需要双方私密相处、建立深度默契；然后参考外界建议调整方向。NA VA对音视频的处理正是如此：先给两者一个专属“私密空间”，让它们充分相互感知、建立精确对应；再将文字描述等外部信息作为“外部建议”注入，引导最终内容。技术层面，第一阶段将音频和视频信号放入共享的“音视频对齐空间”，通过自注意力机制直接相互感知——视频帧的每个时刻可直接感知对应音频特征，反之亦然。文字描述在此阶段不作为平等参与者混入，而是第二阶段通过交叉注意力从“外部”向已初步对齐的音视频联合体输入语义信息。这种“先对齐、后调控”设计，既保留音视频精细同步的可能，又让文字语义有效引导内容，互不干扰。 **四、“先对齐再融合”的MMDiT架构：精心设计的两层小楼** NA VA具体实现依赖名为“Align-then-Fuse MMDiT”的架构，如同一栋精心设计的两层小楼，每层功能不同。整体框架基于MMDiT（多模态扩散变换器），当前AI图像和视频生成的主流技术，通过逐步“去噪”生成内容。NA VA将其30个处理模块分为前10个和后20个两组。一楼是“层级对齐层”，建立音视频原生对应关系。关键设计：音频和视频物理特性差异极大——视频是二维空间加一维时间，音频是随时间变化的频谱；采样率、信号密度、特征分布截然不同。若一开始强制共用参数，会导致“鸡同鸭讲”。因此一楼先通过模态专属投影层，将各自特征转换到共同可理解的“语言”，再放入共享注意力机制深度交互。这如同两个不同国家的人先学好共同语言再对话。一楼还解决时间分辨率差异：同样一秒内容，音频的时间片段更多，视频帧率较低。研究团队对音频的位置编码做了比例缩放，将音频旋转位置编码角度乘以视频帧率与音频帧率的比值，使时间坐标系对齐。文字描述和参考音色等外部信息通过交叉注意力注入，始终担任“外部顾问”，不混入音视频专属对话空间，保证一楼作为纯同步空间的纯粹性。二楼是“统一融合层”，在音视频对应关系基本建立后，进行更高层次协同去噪。经过一楼充分磨合，音频和视频特征不再格格不入，可直接共享同一套处理参数，实现更高效联合生成。二楼删除了模态区分，采用共享变换器模块，节省计算资源，推动深层协同演化。文字等外部条件仍通过交叉注意力从外部注入，确保语义指导贯穿全程。整体设计哲学：在最需精细协调的早期阶段，给予音视频充分“专属空间”建立原生默契；在后期追求效率和高层融合时，推动两者共享资源协同生成。这种从“分”到“合”的渐进设计是NA VA架构的核心精髓。 **五、音色控制：让AI记住“谁在说话”的创意方案** NA VA还解决了实际应用中极为关键的问题：如何精确控制不同说话人的音色。考虑场景：希望AI生成对话视频，左边的人用某演员音色，右边的人用另一演员音色。棘手点在于：AI如何知道哪段文字对应哪种音色？现有系统虽支持参考音色（给一段参考音频让模型模仿），但通常将音色作为“全局控制信号”注入——整个视频所有人说话都受同一参考音色影响。对于单人场景尚可，多人对话时完全失效。 NA VA提出“语境中的音色条件化”（Timbre-in-Context Conditioning）机制，解决方案优雅：在文字提示中，每段说话内容用特殊标记``和``包裹（S代表Start，E代表End），同时将该段对应的参考音色信息作为一个特殊“音色令牌”插入在这段文字之前。整个文字提示变为结构化序列，每段说话内容和对应参考音色紧密绑定。 AI生成时读取此结构化提示，便知当前处理段落应采用哪种音色——音色信息就“贴”在对应文字旁。此设计无需修改NA VA核心架构，也不需额外“说话人控制模块”，仅改变文字提示组织方式，便实现细粒度多说话人音色控制。对于两个说话人的对话，只需在提示中插入两个不同音色令牌，分别绑定对应说话片段，AI自动理解并执行。 **六、训练方法：循序渐进的三阶段修炼** NA VA训练分为三个递进阶段，遵循“从基础到精细”逻辑。第一阶段，以3:1比例混合纯音频数据和音视频配对数据训练。主要目标：让模型先学会处理音频。NA VA的视频生成能力继承自成熟模型Wan2.2-5B，无需从头学，但音频处理能力需从零建立。以音频数据为主，快速建立音频通道基础能力，同时防止视频生成能力退化。第二阶段，将纯音频与音视频比例调整为1:2，引入更高质量音频数据。重点转向提升音频保真度和音视频同步精度。基于第一阶段基础，在质量上精益求精。第三阶段，使用精心筛选的高质量音视频数据进行微调。着重提升模型对复杂指令的理解和执行能力，包括多说话人对话、复杂镜头运动、音色控制等高级功能。训练过程中引入两种“随机丢弃”策略，为后续推理控制打基础。第一种“随机跨模态注意力掩码”：以20%概率随机屏蔽音频和视频之间的注意力连接，让模型同时学会“音视频深度耦合”和“音视频相对独立”两种模式，推理时可用两种模式预测差异估计对齐的“引导信号”。第二种“随机音色条件丢弃”：以20%概率随机将音色令牌替换为空令牌，让模型同时学会“有音色引导”和“无音色引导”两种模式，为推理时音色控制打基础。 **七、推理时的精细控制：三个独立的“调音旋钮”** 推理阶段（实际使用模型生成），NA VA支持“条件分解的无分类器引导”精细控制机制，提供三个独立“调音旋钮”，用户可分别调节强度。第一个旋钮控制“文字引导强度”：调高则内容更严格遵循文字描述，调低则给予更多创作自由度。第二个旋钮控制“音视频对齐强度”：调高则同步精度显著提升，但可能在其他方面有所取舍；调低则让音视频更自由发展。第三个旋钮控制“音色保留强度”：调高则语音更接近参考音色，调低则AI对音色有更多自主解释空间。三个旋钮的数学原理：推理时NA VA同时运行同一模型的多个“版本”——完整条件版本、去掉文字条件的版本、去掉音视频对齐的版本、去掉音色条件的版本。用有条件版本预测减去对应无条件版本预测，得到该条件的“引导方向”，乘以对应旋钮强度系数后叠加到最终预测。此设计允许用户在不重新训练的情况下，灵活调节三个维度强度，针对不同内容最优配置。 **八、数据流水线：从1亿原始视频到15万精品样本** 为训练NA VA，研究团队构建了庞大精细的数据处理流水线，工程复杂度堪比精密工厂。原始数据层面：从多个来源收集约2000万段音频和1亿段视频，包括Koala-36M（大规模视频数据集）、TED风格演讲视频、电影和电视素材。海量原始数据不能直接用于训练，需层层筛选加工。第一道工序“去杂质”：使用OCR技术识别并过滤掉画面中大量字幕或文字叠加的视频（防止AI学到错误关联），同时用图像理解工具去除字幕。然后使用视频理解模型提取每段视频特征向量，通过大规模聚类算法找出并删除重复或高度相似片段，避免AI反复学习同样内容。第二道工序“贴标签”：对保留下来的素材进行细致分类标注。视觉内容标注电影、纪录片、电视剧、直播、新闻、采访等类型；音频内容区分单人说话、多人对话、环境音、音乐、歌唱等。标签既用于检索，也用于在不同训练阶段构建针对性数据子集。第三道工序“写说明书”：为每段素材生成结构化文字描述。采用两阶段策略：对于大规模数据集，分别用Qwen3-VL（视觉理解模型）和Qwen3-Omni（全模态理解模型）生成视觉和音频描述，再用Gemini-3-Flash融合；对于高质量子集和多说话人场景数据，直接使用更强的Gemini-3-Pro生成更精确、时间戳准确的描述。第四道工序“质量把关”：通过多个评估工具对每段素材综合打分，包括视觉美学评分、清晰度、亮度、运动幅度；音频质量评分（使用Meta的AudioBox Aesthetic工具）；音视频对齐程度（使用SyncNet、SyncFormer、ImageBind等多个工具交叉验证）。经过四道工序层层过滤，从1亿段原始视频中筛选出约1500万段用于大规模预训练，并从中进一步精选出16万段高质量样本用于监督微调。Koala-36M数据集约贡献最终训练语料的20%，平均每段视频时长约7秒。 **九、提示词工程：教AI听懂“又要看又要听”的复杂需求** 普通文生视频模型只需理解“画什么”，而音视频联合生成模型还需理解“说什么”“谁来说”“什么时候说”“同时有什么背景声”——这对提示词格式提出更高要求。研究团队设计了一套统一结构化提示词模板，将视频描述分为四个层次：全局视觉描述（场景、主体、环境）、时间动态（开始、过程、结束状态）、镜头与构图（固定或跟拍、有无剪切和场景转换）、音频描述（对话、背景音、音场）。对于包含说话内容的视频，每段对话用``和``标记明确圈定范围；对于多说话人场景，每位说话人的音色、情绪、语速、声场位置都详细描述。对于无语音视频，着重描述动作声、接触摩擦声、物体声、环境氛围声和混响特性。这套模板不仅用于训练数据描述生成，也是用户实际使用NA VA时必须遵循的输入格式。为使基准测试提示词适配该格式，团队使用Gemini-3-Flash对所有测试提示词重新改写，保留原始语义的同时转换为NA VA最能理解的结构化格式。 **十、实验结果：数字说明NA VA实际表现** 研究团队在两个标准测试平台上全面评估NA VA：Verse-Bench（覆盖说话视频、音效视频、乐器演奏视频等多种类型的音视频质量评估基准）和Seed-TTS（专门评估语音生成质量和说话人相似度）。在Verse-Bench的音视频同步测试中，NA VA表现最为突出。SyncNet的两项指标分别评估“嘴唇动作与声音的匹配置信度”（Sync-C，越高越好）和“嘴唇与声音的时间偏差”（Sync-D，越低越好）。NA VA的Sync-C为7.791，Sync-D为7.566，均优于所有竞品——Ovi-1.1（10B参数）、MoVA（32B参数激活值）、daVinci-MagiHuman（15B参数）、LTX 2.3（19B参数）。特别值得关注：NA VA仅用6.3B参数，便在参数量远大于自身的竞争对手中取得最佳同步性能。视频质量维度，NA VA得分为0.659，同样位居第一，证明其Align-then-Fuse设计在提升音视频同步的同时未牺牲视频生成质量。语音识别错误率（WER）方面，NA VA以0.099排名第一，意味着生成的语音经语音识别后与目标文字吻合度最高，语音清晰度和内容准确性最优。音频感知质量（PQ）和音频特征分布相似度（FD）方面，NA VA在竞品中处于有竞争力水平，虽非全面第一，但综合最为均衡。跨模态语义一致性（IB-Score）维度，NA VA得分为0.313，高于Ovi-1.1，但低于LTX 2.3的0.337——这是NA VA相对较弱的一项，团队亦坦诚承认。在Seed-TTS基准上测试音色控制能力时，NA VA表现令人印象深刻。说话人相似度66.7分、语音识别错误率4.20%，不仅远超另一音视频生成模型DreamID-Omni（相似度仅35.7分，错误率31.76%），甚至比肩专业语音生成模型——CosyVoice相似度60.9分，CosyVoice2为65.2分，Qwen2.5-Omni为63.2分。一个同时生成视频和音频的通用模型，在音色相似度上超越专注于语音生成的专业模型，充分验证Timbre-in-Context Conditioning机制的有效性。 **十一、人类评估：真实用户眼中NA VA与对手的差距** 除客观指标外，研究团队招募真实人类评估员进行主观感知测试。250个测试案例覆盖“纯文字生成音视频”（T2AV）和“文字加参考图片生成音视频”（TI2AV）两种场景，评估者对比NA VA与其他系统的输出，在“整体质量”和“音视频对齐准确度”两个维度上给出“NA VA更好”“差不多”或“对方更好”的判断。 T2AV场景中，NA VA表现稳健。与Ovi-1.1相比，67.5%评估者认为NA VA整体质量更好；与LTX-2.3相比，60%更偏好NA VA；与daVinci-MagiHuman相比，高达80%选择NA VA。音视频对齐维度优势同样明显：对Ovi-1.1胜率62.5%，对LTX-2.3胜率65%，对daVinci胜率72.5%。 TI2AV场景中，情况稍显复杂。NA VA对daVinci有明显优势（整体质量胜率48.8%，对齐胜率48.8%），对Ovi-1.1保持优势（整体质量胜率43.9%，对齐胜率51.2%），对MoVA也有一定优势（整体质量胜率37.5%，对齐胜率47.5%）。但对LTX-2.3，NA VA优势明显收窄——整体质量胜率仅26.2%，对齐胜率33.3%。说明在有参考图片输入场景中，LTX-2.3是NA VA最强劲对手，两者互有优劣。 **十二、消融实验：逐层验证NA VA设计合理性** 为验证各设计组件有效性，研究团队进行系列“拆零件”式消融实验，依次删除某个组件观察性能变化。 Align-then-Fuse架构实验最为关键。对比三种变体：仅有统一融合层、仅有层级对齐层、以及完整NA VA。结果显示，仅有统一融合层（参数量5B，无模态专属对齐层）在同步性和跨模态语义一致性上明显更差——证实“共享参数前先充分对齐”的价值。仅有层级对齐层（参数量7.7B，保留更多模态专属参数）在语音质量方面较好（更低错误率），但视频质量和跨模态一致性下降——说明若始终分开处理、不深度融合，高层联合生成能力无法充分发挥。完整NA VA（参数量6.3B，前10层对齐、后20层融合）在各项指标上取得最佳平衡。条件分解引导实验同样验证设计有效性。去掉对齐引导（不使用第二个旋钮），NA VA的Sync-C从7.791骤降至6.170，Sync-D从7.566上升至8.755，跨模态语义一致性从0.402下降至0.355，语音错误率从0.099上升至0.126。说明对齐引导对音视频精确同步至关重要，非锦上添花。去掉音色引导，说话人相似度从66.7降至65.5，语音错误率从4.20降至3.78——音色相似度下降，但内容准确性微升，反映音色保留与内容准确性存在取舍，需通过调节旋钮强度平衡。 **十三、局限性和未来方向：研究者也承认的不足** 研究团队对NA VA局限性保持坦诚，体现高质量学术研究的严谨。 NA VA目前在某些“长尾”和高度复杂音频事件上表现欠佳。长尾指训练数据中稀少的类别——如罕见动物叫声、特殊乐器演奏、歌唱（非普通说话）、多种声音事件同时发生的复杂混音。此类内容在训练数据中占比小，模型难以掌握。团队指出，解决根本途径是获取更广泛、更精细整理的音视频数据，尤其针对罕见事件和复杂声音组合。未来研究方向，团队提出颇具想象力的思路：探索“更早的融合机制”，如直接开发音视频联合分词器（tokenizer）甚至统一音视频表征模型。NA VA当前对音频和视频分别编码（各自使用不同VAE），然后在Transformer层融合，融合发生在特征层面。若能在更底层（信号或紧凑表征层面）开始融合，或许能进一步增强同步性和语义一致性。这是更具挑战性也更具潜力的方向。训练资源方面，NA VA完整训练需约107,520个H100 GPU小时——前两阶段需160块H100跑约三周（约80,640 GPU小时），第三阶段微调需160块H100再跑一周（约26,880 GPU小时）。这一计算投入说明此类系统开发仍需大规模算力支撑，非普通研究者能轻易复现。归根结底，NA VA代表了音视频联合生成领域一种务实有效的新思路。既未走“把所有东西塞进一个锅”的激进统一路线，也未停留于“分开做完再拼”的保守方案，而是找到中间道路——给音频和视频一个专属“相互了解空间”，同时保持外部语义信息的灵活注入。实验结果证明这条路确实走通：6.3B参数、压倒性的音视频同步性能、媲美专业语音模型的音色控制能力，这些成绩构成一张相当有力的答卷。未来AI生成内容，或许不只是“好看的画面”或“好听的声音”，而是真正“音画合一”的沉浸式体验。NA VA迈出了这个方向上扎实的一步。对这项研究感兴趣的读者，可通过论文编号arXiv:2605.30073在arXiv平台查阅完整技术细节。 **Q&A** **Q1：NA VA和普通AI视频生成工具有什么区别？** A：普通AI视频生成工具要么只生成画面，要么先生成视频再单独加音频。NA VA的不同之处在于，它让音频和视频从生成的第一步就开始“相互感知”，在一个专属的对齐空间里共同演化，而不是分开做完再拼合，因此能实现更精确的嘴唇动作与语音同步，以及画面事件与声音事件的自然对应。 **Q2：NA VA的音色控制功能是怎么用的？** A：用户只需要在文字提示里用特定标记``和``把每段说话内容圈起来，并在对应位置附上一段参考音频，NA VA就能让生成的语音模仿那段参考音频的音色。对于多人对话的场景，可以为不同说话片段分别指定不同的参考音频，系统会自动区分并分别执行，无需任何额外的复杂配置。 **Q3：NA VA目前有哪些明显的不足？** A：NA VA在罕见声音类别上表现不够好，比如特殊动物叫声、歌唱、或多种复杂声音同时出现的场景。此外，在有参考图片作为输入的生成任务中，LTX-2.3是其有力竞争对手，两者在整体质量上各有优劣。整个系统的训练需要超过10万GPU小时的算力，目前不具备普通团队自行训练的条件。
来源：互联网

上一篇 纳微半导体暴涨24% 英伟达押注800V AI电源革命 下一篇 AI导演系统评测：优酷木可实验室让视频生成听懂分镜故事

免责声明
本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

相关文章推荐

更多

AI数字人制作排行榜：2026年传统视频替代方案测评
AI数字人依托克隆相似度99%、1分钟创建分身、3分钟生成视频...
AI眼镜电源管理优选：赛微微电CW1312电池安全底座
核心结论如下：2026年6月3日下午，第十六届松山湖中国IC创...
现金不足10亿大全能源斥60亿跨界AI引热议
60亿元跨界AI，账上现金却不足10亿元——大全能源此番“蛇...
上海政务AI应用精选：城市治理现代化升级指南
政务领域的AI应用，最近又有了新动向。上海这边，一场政务...
东华软件AI大模型建议董秘最新回应
有投资者向东华软件提问：芯片与硬件是底层基座，相当于系...
Palantir看跌期权警示78倍市销率陷阱与散户追捧风险
金融圈近期出现一个耐人寻味的操作：知名投资者伯里斥资920...
万里马今日主力净流出712万，成交额8173万，股价跌2.11%
6月3日，万&里马交出了一份不算漂亮的成绩单：股价下跌2 1...
Scout24和Autotrader获高盛首次买入评级，AI担忧被夸大
人工智能真的要碘伏在线分类广告模式了吗？高盛的回答是：...
孙正义重返亚洲首富，All in超人工智能
软银创始人孙正义重返亚洲首富之位后，其下一步战略已清晰...
AI失业警报：沃伦警告半数劳动力面临风险
围绕人工智能是否会引发大规模失业，新一轮辩论正愈演愈烈...

热门资讯

更多

1
AI-人工智能技术
 2
解锁灵感画廊全部潜力：AI艺术创作进阶教程
 3
AI进阶技巧（解锁隐藏功能，效率翻倍）
4
android 人工智能测试,人工智能（AI）测试方法
 5
TensorFlow人工智能引擎入门教程所有目录
 6
Hermes Agent 和 OpenClaw 到底怎么选？一篇说清两者的核心差异

1
2025 Agent云基础设施Vibe Coding平台排行榜
 2
腾讯云Agent Memory技术架构与评估体系榜单
 3
Coze本地Agent从零搭建完整教程：支持本地部署的智能体拆解与实战
 4
费曼学习法升级版：15岁少年数字衣橱戳破AI幻觉
 5
三星HBM5架构详解：HPB散热技术性能对比
 6
中科天机台风预报数据可视化评测：以2606号蔷薇为例

1
三星HBM5架构详解：HPB散热技术性能对比
 2
Rokid AI眼镜工业远程协作评测：第一视角实战表现
 3
编程入门教程：用Vibe Coding轻松实现数独游戏
 4
中科天机台风预报数据可视化评测：以2606号蔷薇为例
 5
费曼学习法升级版：15岁少年数字衣橱戳破AI幻觉
 6
RAG回答不准排查指南：从数据到检索全流程

热门教程

更多

如何写出高质量AI指令？提示词写作的6个核心技巧与实战案例 用ChatGPT、Claude这类AI工具时...

用AI做电商数据分析 – 零代码也能出专业报告，附详细教程 一、先认识一下：Singclaw是什么...

RVC语音克隆新手教程：3分钟极速训练，AI翻唱轻松上手 RVC语音克隆新手教程：3分钟极速...

最新资讯教程

更多

2025 Agent云基础设施Vibe Coding平台排行榜腾讯云Agent Memory技术架构与评估体系榜单 Coze本地Agent从零搭建完整教程：支持本地部署的智能体拆解与实战 Excel数据处理与分析技巧排行榜：工作效率提升实用方法表格锁定技巧：保护数据安全的4种有效方法免费PDF翻译工具精选工作学习效率提升指南