其他资讯

美团AI开源数字人评测：超越三大闭源模型的实战榜单

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

美团开源商用数字人模型LongCat-Video-Avatar1 5，采用宽松MIT协议。该模型在权威评测中用户偏

数字人视频生成领域迎来关键转折：美团龙猫大模型团队正式开源其商用级模型 LongCat-Video-Avatar 1.5。

在权威评测中，该模型在用户偏好胜率上全面超越了 Kling Avatar 2.0、OmniHuman-1.5 及 HeyGen 等主流方案。更具突破性的是，其采用极为宽松的 MIT 协议开源，几乎解除了所有商业应用限制。

当行业聚焦于参数竞赛时，这项开源发布提供了另一种务实路径。LongCat-Video-Avatar 1.5 的核心竞争力源于三项底层技术革新。

一、听觉系统升级：精准捕捉语音的每一处细节

口型同步是数字人视频的基石，细微偏差即可引发观众的“恐怖谷”效应，破坏沉浸感。

为此，团队将音频特征提取编码器从 Wav2Vec2 替换为 Whisper-large。这相当于为数字人装配了一套高保真听觉系统，使其能够解析语音中的复杂信息。

模型不仅能识别文本内容，更能精准捕捉 语速节奏、重音强调、气息停顿 等副语言特征。无论用户是快速陈述、中英夹杂或是带有旋律的语调，模型都能驱动嘴唇做出与之精确匹配的运动。

这项升级的影响是系统性的。面部微表情、头部姿态、肩颈乃至肢体的动作，现在都能与语音节奏协同联动。 表达兴奋时眉头上扬，低声讲述时身体自然前倾——数字人彻底摆脱了“只有嘴在动”的机械感，呈现出具有交流感的鲜活形象。

二、数据驱动的表现力：构建真实的人类行为模式

商业应用场景多元，从真人主播到虚拟角色，需求各异。模型的泛化能力取决于其训练数据的质量与多样性。

团队构建了一套多阶段数据流水线，在自动化清洗的基础上，重点注入三类专项数据，系统性提升数字人的表现力：

精准口型训练 — 应用主动说话人检测技术，严格筛选单人清晰发声片段。这从根本上消除了多人场景下的口型干扰，确保模型学习目标明确、效果纯粹。

聆听状态建模 — 引入大量人物沉默、倾听状态的视频数据。模型因此学会了在非说话时段如何表现：自然的眼神移动、细微的面部活动、身体的放松姿态。这些静默细节是构成真实感不可或缺的部分。

情绪映射强化 — 结合多模态与帧级情绪识别，将语音中的情感色彩直接映射为面部肌肉的驱动信号。喜悦带动苹果肌，严肃收紧眉头，从而超越固定的“模式化表情”。

针对长期困扰行业的“手部崩坏”问题，团队引入了 GRPO（基于人类反馈的强化学习）技术，对生成结果进行逐帧审核与优化。

同时，模型加入了首帧手部检测机制，优先训练包含手部的画面序列。现在，数字人可以稳定地进行手势交互与物品展示，手部结构清晰、动作自然，避免了扭曲变形。

三、效率革命：从实验室原型到生产级工具

卓越的效果必须匹配可行的成本与速度，否则难以落地。传统多模型串联方案显存占用高，推理延迟大。

LongCat-Video-Avatar 1.5 应用了 DMD（分布匹配蒸馏）技术，将生成所需的迭代步数从 50 步压缩至 8 步。这类似于将复杂的推理过程提炼为高效的精髓，在极大提升速度的同时保持了生成质量。

模型架构革新为“共享基础模型 + 轻量级 LoRA 适配器”模式，显著降低了显存开销。

官方实测数据显示：生成一段10秒的高质量数字人视频，仅需约1分钟，推理效率提升约15倍。 这意味着该模型可在消费级显卡上流畅运行，大幅降低了企业的硬件门槛与部署成本。

数字人视频生成正从高壁垒的技术储备，转变为可快速集成应用的标准化工具。

四、量化评估：数据证明其超越性

技术优势需要客观数据验证。美团基于 EvalTalker 构建了覆盖多场景的评测基准，由770名评估者完成超1.3万条主观评分，并由专家进行结构化分析。

在关键指标上，模型表现突出：

单人场景与多人场景得分分别为 3.336 和 2.730，领先于对比方案。
主体变形率 23.1%，背景变形率 9.4%，跳帧率 0.8%——所有稳定性指标均优于竞品。
面部与身体同步问题率 5.1%，唇形同步问题率 29.8%，同样处于最低水平。

直观而言，其生成的视频有效避免了人物抽搐、背景扭曲、切换卡顿等常见瑕疵。

稳定性是技术商业化的前提。从数据看，LongCat-Video-Avatar 1.5 已跨过这道关键门槛。

五、开源战略：构建生态，赋能场景

采用 MIT 协议 开源，意味着模型权重与代码完全开放，允许自由商用与修改。这并非单纯的技术分享，而是一次深度的生态布局。

此举与美团务实的人工智能战略一脉相承：从发布 LongCat-Flash 大模型，到内测万亿参数模型并坚持国产算力适配，其核心始终是解决实际问题。

美团创始人王兴曾明确表示：不参与盲目的参数竞赛，AI 技术必须服务于本地生活的真实需求。

美团自身拥有丰富的应用场景：外卖直播需要动态主播，到店业务需要虚拟导购，商家端需要便捷的视频生成工具。开源 LongCat-Video-Avatar 1.5，实质是将经过商业环境验证的技术底座开放给市场，旨在激发更广泛的创新应用。

数字人视频赛道正从巨头竞赛转向生态共建。从 SoulX-LiveAct、PersonaPlex 到 Wan2.2-Animate，开源力量持续降低技术应用门槛。

正如团队所述，其目标是构建一个 “可验证、可改进、可共建的技术基座”。 地基已经铺就，上层建筑的形态将由整个生态共同定义。

美团此次开源，在技术深度与商业开放性上均提供了扎实的答案。 关于数字人未来的更多可能性，现在交到了更广泛的开发者与创作者手中。

来源：互联网

上一篇 周鸿祎云端养虾方案测评：专业私教如何在线高效炼虾？ 下一篇 加州大学圣地亚哥分校与Brain Corp物理AI基础研究深度合作解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。