产业资讯

京东开源国产图像大模型深度评测：对标谷歌Gemini 2.5 Pro

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年4月，国内多模态AI领域迎来一位聚焦场景的新选手。京东正式发布了一体化空间图像

2026年4月，国内多模态AI领域迎来一位聚焦场景的新选手。京东正式发布了一体化空间图像编辑大模型JoyAI-Image-Edit。根据公开的基准评测，其综合性能已追平谷歌的旗舰模型Gemini 2.5 Pro，而在空间结构编辑这类特定任务上，表现甚至优于当前的主流视频生成模型。

这背后，其实反映出一个清晰的行业转向：全球大模型的竞争，正从通用能力的军备竞赛，悄然过渡到落地能力的实战比拼。成本高、场景适配难、训练数据匮乏，这些老问题依然是横亘在商业化道路上的普遍障碍。于是，我们看到头部科技公司不再一味追求参数的膨胀，而是开始结合自身的“老本行”，探索差异化的AI路径。

京东的AI布局，就是一个典型的例子。其路线始终紧扣供应链这一核心优势，重点押注在**空间智能与具身智能**方向上。目标很明确：让AI的能力，最终能对接并服务于物理世界的真实需求，而不是停留在对话和文本生成的层面。

那么，这次推出的JoyAI-Image-Edit究竟有何特别？简单说，它是一款专为“空间场景”的生成与编辑需求而深度优化的一体化模型。

从公开数据看，它的整体基准性能达到了国际顶流水平。更值得关注的是，在诸如“按要求修改室内家具布局”或“生成一张符合真实物理透视的街景图”这类任务上，它的表现超越了主流视频模型。这意味着，它在理解和操控图像中的空间关系、物体结构方面，具备了相当高的精度。

这种垂直定位，让它天生就适配两类核心场景：

其一，是电商领域。商品主图的场景替换、营销广告图的快速生成，这些高频需求对成本和控制精度极为敏感。其二，则是具身智能的研究。训练一个机器人理解物理世界，需要海量、多样且标注准确的虚拟空间数据，而人工制作成本极高。JoyAI-Image-Edit恰好能提供一种低成本、高效率的解决方案。

在推进策略上，京东这次选择了一条颇为务实的“双线并行”道路：一手开源，一手落地。

模型代码直接对外开放，这无疑能吸引全球开发者社区共同参与迭代和优化，加速模型本身的进化。与此同时，内部的应用测试已经启动。据悉，其智能编辑功能正在京东自身的电商场景中进行测试。后续，它还将作为一项基础设施，为具身智能研究领域提供低成本的数据生成服务。

这种策略，与许多先闭源变&现再逐步开放的垂直模型路径形成了鲜明对比，显得更加开放和生态化。

话说回来，这款国产模型的表现，至少证明了一点：在垂直细分的人工智能领域，国内厂商完全有能力追平甚至超越国际顶尖水平。而依托自身核心业务场景去打磨专用模型的路线，也为当前整个AI行业如何突破落地瓶颈，提供了一个新的参考方向。可以预见，空间智能这条赛道，接下来会变得更加热闹。

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。