其他资讯全球第一梯队

京东开源JoyAI-Echo长音视频生成框架测评：全球第一梯队？

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

京东推出JoyAI-Echo长音视频生成框架，解决角色不一致、音色突变和生成缓慢问题。内置记

京东今日正式发布长音视频生成框架 JoyAI-Echo，直击行业三大核心痛点：角色身份崩坏、音色突变、生成效率低下。框架内置“对话式编辑”功能，支持对特定镜头进行独立修改，无需重新渲染整条视频，大幅提升后期调整的灵活性。

京东官方称，JoyAI-Echo 的发布标志着其在长视频生成领域已跻身全球第一梯队。从技术参数来看，这一论断具备充分支撑。

框架内部集成专用“记忆库”，在多镜头生成过程中持续保存并调用角色的外观特征与说话人音色信息。实测结果表明，在长达5分钟的视频内，角色身份、视觉形象及声音音色均能保持高度一致，彻底消除角色切换时的身份断裂与音色漂移问题。

研究团队提出记忆驱动的后训练流程，融合 SFT、跨模态 RLHF 以及 Distribution Matching Distillation（DMD）技术。该方案不仅提升了生成质量，还实现了推理加速——仅 DMD 一项便获得约7.5倍的速率提升。此外，JoyAI-Echo 配备智能“导演助理”Director Agent，用户只需用自然语言描述需求，系统即可自动分解为剧本、角色、场景与镜头序列。

框架还部署了实时超分模块，通过单步超分辨率生成高画质视频与精细化音频。支持两档分辨率提升：736×1280 → 1152×1920 以及 736×1280 → 1472×2560，对高画质需求的场景提供实用价值。

本次京东在长视频生成领域的突破，聚焦于实际落地的关键技术难题——从角色一致性、生成效率到编辑灵活性，形成了一套完整的解决方案。

来源：互联网

上一篇 退役波音飞机壳特价出售机型与价格详解 下一篇 高德地图新加坡扫街榜正式启动本地生活全球化竞争再升级

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

京东开源JoyAI-Echo长音视频生成框架测评：全球第一梯队？

摘要

相关文章推荐