菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 美团AI开源数字人评测:超越三大闭源模型的实战榜单
其他资讯

美团AI开源数字人评测:超越三大闭源模型的实战榜单

2026-05-23
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

美团开源商用数字人模型LongCat-Video-Avatar1 5,采用宽松MIT协议。该模型在权威评测中用户偏

数字人视频生成领域迎来关键转折:美团龙猫大模型团队正式开源其商用级模型 LongCat-Video-Avatar 1.5。

在权威评测中,该模型在用户偏好胜率上全面超越了 Kling Avatar 2.0、OmniHuman-1.5 及 HeyGen 等主流方案。更具突破性的是,其采用极为宽松的 MIT 协议开源,几乎解除了所有商业应用限制。

当行业聚焦于参数竞赛时,这项开源发布提供了另一种务实路径。LongCat-Video-Avatar 1.5 的核心竞争力源于三项底层技术革新。

一、听觉系统升级:精准捕捉语音的每一处细节

口型同步是数字人视频的基石,细微偏差即可引发观众的“恐怖谷”效应,破坏沉浸感。

为此,团队将音频特征提取编码器从 Wav2Vec2 替换为 Whisper-large。这相当于为数字人装配了一套高保真听觉系统,使其能够解析语音中的复杂信息。

模型不仅能识别文本内容,更能精准捕捉 语速节奏、重音强调、气息停顿 等副语言特征。无论用户是快速陈述、中英夹杂或是带有旋律的语调,模型都能驱动嘴唇做出与之精确匹配的运动。

这项升级的影响是系统性的。面部微表情、头部姿态、肩颈乃至肢体的动作,现在都能与语音节奏协同联动。 表达兴奋时眉头上扬,低声讲述时身体自然前倾——数字人彻底摆脱了“只有嘴在动”的机械感,呈现出具有交流感的鲜活形象。

二、数据驱动的表现力:构建真实的人类行为模式

商业应用场景多元,从真人主播到虚拟角色,需求各异。模型的泛化能力取决于其训练数据的质量与多样性。

团队构建了一套多阶段数据流水线,在自动化清洗的基础上,重点注入三类专项数据,系统性提升数字人的表现力:

精准口型训练 — 应用主动说话人检测技术,严格筛选单人清晰发声片段。这从根本上消除了多人场景下的口型干扰,确保模型学习目标明确、效果纯粹。

聆听状态建模 — 引入大量人物沉默、倾听状态的视频数据。模型因此学会了在非说话时段如何表现:自然的眼神移动、细微的面部活动、身体的放松姿态。这些静默细节是构成真实感不可或缺的部分。

情绪映射强化 — 结合多模态与帧级情绪识别,将语音中的情感色彩直接映射为面部肌肉的驱动信号。喜悦带动苹果肌,严肃收紧眉头,从而超越固定的“模式化表情”。

针对长期困扰行业的“手部崩坏”问题,团队引入了 GRPO(基于人类反馈的强化学习)技术,对生成结果进行逐帧审核与优化。

同时,模型加入了首帧手部检测机制,优先训练包含手部的画面序列。现在,数字人可以稳定地进行手势交互与物品展示,手部结构清晰、动作自然,避免了扭曲变形。

三、效率革命:从实验室原型到生产级工具

卓越的效果必须匹配可行的成本与速度,否则难以落地。传统多模型串联方案显存占用高,推理延迟大。

LongCat-Video-Avatar 1.5 应用了 DMD(分布匹配蒸馏)技术,将生成所需的迭代步数从 50 步压缩至 8 步。这类似于将复杂的推理过程提炼为高效的精髓,在极大提升速度的同时保持了生成质量。

模型架构革新为“共享基础模型 + 轻量级 LoRA 适配器”模式,显著降低了显存开销。

官方实测数据显示:生成一段10秒的高质量数字人视频,仅需约1分钟,推理效率提升约15倍。 这意味着该模型可在消费级显卡上流畅运行,大幅降低了企业的硬件门槛与部署成本。

数字人视频生成正从高壁垒的技术储备,转变为可快速集成应用的标准化工具。

四、量化评估:数据证明其超越性

技术优势需要客观数据验证。美团基于 EvalTalker 构建了覆盖多场景的评测基准,由770名评估者完成超1.3万条主观评分,并由专家进行结构化分析。

在关键指标上,模型表现突出:

  • 单人场景与多人场景得分分别为 3.3362.730,领先于对比方案。
  • 主体变形率 23.1%,背景变形率 9.4%,跳帧率 0.8%——所有稳定性指标均优于竞品。
  • 面部与身体同步问题率 5.1%,唇形同步问题率 29.8%,同样处于最低水平。

直观而言,其生成的视频有效避免了人物抽搐、背景扭曲、切换卡顿等常见瑕疵。

稳定性是技术商业化的前提。从数据看,LongCat-Video-Avatar 1.5 已跨过这道关键门槛。

五、开源战略:构建生态,赋能场景

采用 MIT 协议 开源,意味着模型权重与代码完全开放,允许自由商用与修改。这并非单纯的技术分享,而是一次深度的生态布局。

此举与美团务实的人工智能战略一脉相承:从发布 LongCat-Flash 大模型,到内测万亿参数模型并坚持国产算力适配,其核心始终是解决实际问题。

美团创始人王兴曾明确表示:不参与盲目的参数竞赛,AI 技术必须服务于本地生活的真实需求。

美团自身拥有丰富的应用场景:外卖直播需要动态主播,到店业务需要虚拟导购,商家端需要便捷的视频生成工具。开源 LongCat-Video-Avatar 1.5,实质是将经过商业环境验证的技术底座开放给市场,旨在激发更广泛的创新应用。

数字人视频赛道正从巨头竞赛转向生态共建。从 SoulX-LiveAct、PersonaPlex 到 Wan2.2-Animate,开源力量持续降低技术应用门槛。

正如团队所述,其目标是构建一个 “可验证、可改进、可共建的技术基座”。 地基已经铺就,上层建筑的形态将由整个生态共同定义。

美团此次开源,在技术深度与商业开放性上均提供了扎实的答案。 关于数字人未来的更多可能性,现在交到了更广泛的开发者与创作者手中。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多