菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 京东开源JoyAI-Echo长视频生成框架排行榜精选
其他资讯 综合资讯

京东开源JoyAI-Echo长视频生成框架排行榜精选

2026-06-04
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

京东发布JoyAI-Echo长视频生成框架,解决角色崩坏、声音乱跳及生成速度慢等问题。通过跨

京东旗下JoyAI-Echo长音视频生成框架于6月3日正式开源。该框架精准攻克长视频生成领域的三大顽疾——角色身份崩溃、音频跳变及生成延迟。过去,生成数分钟的长视频需忍受角色中途变形、音色突变等缺陷,且耗时漫长。如今,通过对话式编辑机制,用户可直接语音指令调整特定镜头,无需全片重渲染。

京东开源JoyAI-Echo长视频生成框架

JoyAI-Echo的发布标志着京东跻身长视频生成技术的全球第一梯队。同时实现角色一致性、生成速度与编辑自由度三方面突破的团队,全球屈指可数。

该框架依托四项核心技术创新,每项均针对行业痛点精准发力。

第一项:跨模态音视频记忆库。框架内置专用记忆模块,在跨镜头生成过程中持续追踪角色的外貌、服饰及声纹特征。实测显示,5分钟长视频中角色身份、视觉风格与音色全程稳定,彻底规避“人设漂移”问题。

第二项:记忆驱动后训练。研究团队独创训练流程,融合SFT、跨模态RLHF与DMD技术。其中DMD单一技术即实现约7.5倍生成速度提升,从“分钟级等待”跃迁至“秒级出片”,效率提升立竿见影。

第三项:Director Agent智能导演助手。用户以自然语言描述需求,系统自动解析为剧本、角色、场景与镜头参数。若对某镜头不满,只需语音指令如“切换视角”或“优化角色表情”,系统仅局部重新生成,不动全片。实现真正的“所见即所改”交互体验。

第四项:轻量化实时超分模块。提供两档分辨率升级选项:736×1280→1152×1920,或736×1280→1472×2560。单步超分即可输出高分辨率视频与精细音频,算力开销控制出色。

为验证实际表现,团队构建了包含100个故事、3000个镜头的评测数据集。JoyAI-Echo在跨镜头一致性、视频质量、文本对齐度、语音内容准确率等核心指标上全面领先。其中语音内容准确率达0.8646,在长视频领域极为突出。用户偏好调研显示:81.7%偏好其音频质量,80.6%认可提示词遵循度,视觉美学与IP一致性偏好率分别为63.6%和59.4%,表明主观体验与客观指标高度吻合。

目前JoyAI-Echo的完整代码与模型权重已全面开源,项目主页及GitHub仓库同步上线。开发者可直接下载使用,无需申请内测资格。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多