模型技术

美团LongCat 1.5数字人模型测评：音频驱动视频生成新标杆

2026-05-25

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

美团LongCat团队近期开源了音频驱动视频生成模型LongCat-Video-Avatar 1 5。该模型能将静态人物

美团LongCat团队近期开源了音频驱动视频生成模型LongCat-Video-Avatar 1.5。该模型能将静态人物肖像转化为与输入音频高度同步的“说话视频”，精准驱动口型、表情与头部动作，为AI数字人、虚拟主播及短视频内容生产提供了新的开源解决方案。

LongCat-Video-Avatar 1.5快速摘要

LongCat-Video-Avatar 1.5是美团LongCat团队发布的开源音频驱动视频生成模型。它基于扩散Transformer架构，能够实现数字人口播、多角色对话及动画角色驱动，主要服务于虚拟内容创作与自动化视频生产。

模型名称：LongCat-Video-Avatar 1.5
开发公司：美团 LongCat Team
发布时间：2026年5月（据公开模型页面信息）
主要功能：音频驱动视频生成、数字人口播、多角色对话、视频续写
技术架构：Diffusion Transformer结合Whisper-Large音频编码器
上下文能力：支持长视频分段生成与跨片段身份一致性保持
开源情况：模型权重开源（MIT License），支持本地部署与二次开发
适用场景：AI数字人、虚拟主播、营销视频、动画角色驱动
部署方式：支持ComfyUI与Python推理，需本地GPU运行
价格模式：当前为开源模型，无统一API计费

LongCat-Video-A vatar 1.5 – 美团推出的音频驱动数字人视频生成模型

核心优势：不止于“开口说话”

相比同类音频驱动模型，LongCat-Video-Avatar 1.5在技术实现上具备多项差异化优势，确保了更高的生成质量与控制灵活性。

音频驱动对齐机制优化：采用Whisper-Large进行音频编码，通过语音帧级特征对齐视频生成，提升了嘴型同步的准确性与节奏匹配稳定性。
跨片段身份一致性控制：引入Reference Attention与跨帧特征缓存机制，在生成长视频时能有效保持人物面部特征与服装的一致性。
多角色协同生成能力：支持多音轨输入与角色分离建模，可在单一视频中生成多个数字人并进行有序的对话与动作响应。
扩散模型推理效率优化：集成DMD2蒸馏推理策略，将多步扩散过程压缩为少步推理，显著降低生成时间与计算成本，适合批量视频任务。
多模态输入融合能力：支持文本、图像与音频的联合输入，通过统一潜空间建模实现跨模态对齐，允许用户以“图片+语音+提示词”的方式生成完整口播视频。

它能做什么？五大核心功能解析

该模型的功能覆盖从单人口播到多角色动画的广泛场景，以下是其核心应用功能的具体解析。

Audio-to-Video生成：将输入语音直接转化为数字人口播视频，实现语音特征到面部动作与口型变化的精准映射。
图像驱动数字人生成：基于上传的人物肖像与语音，生成身份特征高度一致的数字人视频，确保输出结果与输入图像吻合。
视频续写生成能力：支持以现有视频片段为起点进行延续生成，通过跨片段潜变量连接保持场景与人物的一致性，扩展视频时长。
多人对话生成系统：可处理多音轨输入，将不同语音绑定至特定角色，生成包含多人对话、动作交互的视频内容。
动画风格角色生成：支持驱动二次元或卡通角色，通过风格迁移与骨骼驱动机制，生成语音与动作同步的动画视频。

技术原理：如何实现“声画同步”？

模型强大的功能源于其精密的底层架构。理解其技术原理有助于评估其适用场景与潜力边界。

Diffusion Transformer生成架构：融合扩散模型与Transformer，通过逐步去噪生成视频帧序列，并利用注意力机制建模时间依赖关系，保障视频的连贯性。
Whisper-Large音频编码机制：采用预训练语音识别模型提取音频的语义与节奏特征，并将其映射至视频生成空间，从而提升唇形同步与表情动作的自然度。
DMD2蒸馏推理机制：通过知识蒸馏技术压缩推理步骤，在保持视频质量的同时大幅提升生成效率，降低GPU计算负载。
跨片段特征拼接机制：在生成长视频时，将前一片段的潜变量作为条件输入至下一片段，实现视觉特征的平滑过渡，避免人物身份与背景的漂移。
多模态联合潜空间建模：将文本、音频与图像编码至统一的潜空间，通过跨模态注意力进行信息融合，确保生成内容在多模态输入下的语义一致性。

横向对比：在生态位中找准位置

将LongCat-Video-Avatar 1.5置于市场坐标系中，与HeyGen、Runway等工具对比，能更清晰地界定其定位与价值。

对比维度	LongCat-Video-Avatar 1.5	HeyGen	Runway Gen-3	OmniHuman
模型形态	开源视频生成模型	商业化SaaS平台	闭源视频生成模型	研究型数字人模型
输入方式	音频+图像+文本	文本+模板	文本+视频提示	图像+动作驱动
长视频能力	支持跨片段续写	有限支持	中等支持	实验阶段
多角色支持	支持多音轨生成	部分支持	不稳定	研究级支持
部署方式	本地GPU部署	云端服务	云端API	研究环境
可扩展性	支持二次开发	封闭系统	有限接口	实验扩展

从技术架构看，LongCat-Video-Avatar 1.5与商业SaaS工具的核心差异在于部署模式与可扩展性。其开源特性允许开发者在本地进行深度参数调整与工作流定制，而HeyGen等平台则主打开箱即用的体验。在生成机制上，该模型的扩散Transformer架构更擅长处理长序列生成任务。其多音轨建模能力在虚拟会议、剧情生成等复杂对话场景中适配性更高。然而，在易用性方面，云端SaaS平台仍保有明显的入门门槛优势。

上手指南：从部署到生成

若你具备本地部署能力并希望尝试此模型，可遵循以下步骤进行操作。

环境准备与模型部署：在本地配置ComfyUI或Python推理环境，下载模型权重。建议GPU显存不低于16GB以确保生成稳定，并确保CUDA及依赖库版本匹配。
输入素材准备：准备清晰的人物图片（建议分辨率512×512以上）与干净的语音音频文件（推荐WAV格式），同时编写提示词以控制场景与动作表达。
参数基础设置：将Audio CFG参数设置在3.0–5.0之间以平衡语音与动作的匹配度，参考帧索引建议控制在0–24区间，防止身份特征漂移。
视频生成与续写：启动生成流程输出短视频片段。如需延长内容，可使用视频续写功能，将上一段视频作为输入进行连续生成。
后处理与优化输出：使用视频剪辑工具进行分辨率提升与字幕添加，建议导出720P或1080P版本，以满足主流短视频平台的发布要求。

需要了解的局限性

作为一款前沿的开源模型，它在现阶段也存在一些固有的技术限制，选用前需明确这些边界。

硬件资源消耗较高：模型参数量大，本地推理对GPU显存要求高，低于16GB显存可能导致生成中断或速度显著下降。
实时生成能力有限：基于扩散模型的推理机制需经过多步去噪，无法满足实时直播等低延迟场景的需求，更适用于离线视频生产。
API生态尚未成熟：目前仅以开源权重形式提供，缺乏成熟的商业化API接口，不便于直接进行云端规模化调用与集成。

典型应用场景

该模型在多个内容创作与商业领域都能发挥其核心价值，具体应用场景如下。

数字人口播视频生成：结合人物图像与语音，快速生成口型同步的新闻解说、知识科普类视频内容。
虚拟主播内容制作：为固定人设的虚拟主播生成持续性的口播视频，用于自媒体更新或直播内容替代。
动画角色驱动视频：驱动二次元角色图像，生成与配音同步的动画短片，适用于VTuber与动画短视频创作。
多角色访谈视频：输入多个角色图像与对应音轨，生成多人访谈或剧情对话视频，简化短片制作流程。
营销推广视频生成：基于品牌人物形象与产品介绍语音，自动化生产商业推广视频，提升电商与广告内容生产效率。

常见问题解答

LongCat-Video-Avatar 1.5怎么用？

需在本地部署ComfyUI或Python环境，加载模型权重后，输入人物图片、语音及提示词即可生成视频。适合拥有GPU资源、需要进行定制化数字人内容生产的用户。

LongCat-Video-Avatar 1.5免费吗？

模型采用开源协议，权重文件可免费获取并本地运行。但用户需自行承担相应的硬件算力成本。

LongCat-Video-Avatar 1.5和HeyGen哪个好？

开源模型在定制化、批量生成与可控性上更具优势；HeyGen作为SaaS平台则胜在易用性与快速上手。选择取决于你对控制深度与使用门槛的权衡。

LongCat-Video-Avatar 1.5支持实时生成吗？

不支持。当前版本基于多步扩散推理，生成过程存在延迟，仅适用于离线视频制作，无法满足实时直播的驱动需求。

LongCat-Video-Avatar 1.5支持哪些输入？

支持文本提示词、语音音频文件以及人物肖像图像三种输入模态，模型通过多模态融合技术生成统一的视频输出。