京东开源JoyAI-Echo长视频生成框架新突破
摘要
2026年6月3日,京东正式发布了一款颇具亮点的产品——JoyAI-Echo长音视频生成框架。其核心
2026年6月3日,京东正式发布了一款颇具亮点的产品——JoyAI-Echo长音视频生成框架。其核心目标明确:直接应对长视频生成领域的三大顽疾——角色形象突变、语音特征不稳定、整体生成效率低下。
好消息是,该框架的源代码与预训练权重已全面开源,GitHub仓库及项目主页同步上线。无论是开发者还是内容创作者,均可直接上手体验或进行二次开发,门槛极低。
技术层面,JoyAI-Echo内嵌了一套跨模态音视频记忆机制。原理并不复杂:在多镜头连续生成过程中,系统动态保存并精准复用角色视觉形象与说话人的声纹特征。实测显示,在长达五分钟的视频生成任务中,人物身份、外貌细节、音色特质均能保持高度一致。简而言之,角色不会在前一个镜头中还是这个人,下一个镜头就莫名其妙地换脸。
为兼顾质量与效率,框架采用记忆驱动的后训练范式,融合监督微调(SFT)、跨模态基于人类反馈的强化学习(RLHF)以及分布匹配蒸馏(DMD)技术。其中DMD贡献了约7.5倍的推理加速,端到端生成吞吐能力提升极为显著。
系统还内置了一个智能导演助理模块。用户只需以自然语言输入创作意图,即可自动完成剧本解析、角色设定、场景划分与镜头调度。若某一段生成结果不尽如人意,无需推倒重来,仅需通过对话指定修改范围,系统只重新生成对应镜头,大幅节省时间与精力。
评估环节同样扎实。研究团队构建了一个涵盖100个原创故事、3000个独立镜头的长音视频专项评测集,从跨镜头一致性、画面质量、文本-视频对齐度、语音内容准确率等多个维度进行系统验证。结果显而易见:JoyAI-Echo在各项核心指标上均位列行业前列。尤其值得关注的是,其语音内容准确率高达0.8646,这一数值在当前同类模型中属于领先水平。
图示内容由AI生成
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。