其他资讯京东

京东开源JoyAI-Echo长视频生成框架新突破

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年6月3日，京东正式发布了一款颇具亮点的产品——JoyAI-Echo长音视频生成框架。其核心

2026年6月3日，京东正式发布了一款颇具亮点的产品——JoyAI-Echo长音视频生成框架。其核心目标明确：直接应对长视频生成领域的三大顽疾——角色形象突变、语音特征不稳定、整体生成效率低下。

好消息是，该框架的源代码与预训练权重已全面开源，GitHub仓库及项目主页同步上线。无论是开发者还是内容创作者，均可直接上手体验或进行二次开发，门槛极低。

技术层面，JoyAI-Echo内嵌了一套跨模态音视频记忆机制。原理并不复杂：在多镜头连续生成过程中，系统动态保存并精准复用角色视觉形象与说话人的声纹特征。实测显示，在长达五分钟的视频生成任务中，人物身份、外貌细节、音色特质均能保持高度一致。简而言之，角色不会在前一个镜头中还是这个人，下一个镜头就莫名其妙地换脸。

为兼顾质量与效率，框架采用记忆驱动的后训练范式，融合监督微调（SFT）、跨模态基于人类反馈的强化学习（RLHF）以及分布匹配蒸馏（DMD）技术。其中DMD贡献了约7.5倍的推理加速，端到端生成吞吐能力提升极为显著。

系统还内置了一个智能导演助理模块。用户只需以自然语言输入创作意图，即可自动完成剧本解析、角色设定、场景划分与镜头调度。若某一段生成结果不尽如人意，无需推倒重来，仅需通过对话指定修改范围，系统只重新生成对应镜头，大幅节省时间与精力。

评估环节同样扎实。研究团队构建了一个涵盖100个原创故事、3000个独立镜头的长音视频专项评测集，从跨镜头一致性、画面质量、文本-视频对齐度、语音内容准确率等多个维度进行系统验证。结果显而易见：JoyAI-Echo在各项核心指标上均位列行业前列。尤其值得关注的是，其语音内容准确率高达0.8646，这一数值在当前同类模型中属于领先水平。

图示内容由AI生成

来源：互联网

上一篇 英特尔锐炫G系列掌机处理器评测：入门至旗舰三款性能对比 下一篇 战神劳菲精选：奎托斯亡妻跨埃及与藏传神话

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

京东开源JoyAI-Echo长视频生成框架新突破

摘要

相关文章推荐