京东开源国产图像大模型深度评测:对标谷歌Gemini 2.5 Pro
摘要
2026年4月,国内多模态AI领域迎来一位聚焦场景的新选手。京东正式发布了一体化空间图像
2026年4月,国内多模态AI领域迎来一位聚焦场景的新选手。京东正式发布了一体化空间图像编辑大模型JoyAI-Image-Edit。根据公开的基准评测,其综合性能已追平谷歌的旗舰模型Gemini 2.5 Pro,而在空间结构编辑这类特定任务上,表现甚至优于当前的主流视频生成模型。
这背后,其实反映出一个清晰的行业转向:全球大模型的竞争,正从通用能力的军备竞赛,悄然过渡到落地能力的实战比拼。成本高、场景适配难、训练数据匮乏,这些老问题依然是横亘在商业化道路上的普遍障碍。于是,我们看到头部科技公司不再一味追求参数的膨胀,而是开始结合自身的“老本行”,探索差异化的AI路径。
京东的AI布局,就是一个典型的例子。其路线始终紧扣供应链这一核心优势,重点押注在**空间智能与具身智能**方向上。目标很明确:让AI的能力,最终能对接并服务于物理世界的真实需求,而不是停留在对话和文本生成的层面。
JoyAI-Image-Edit:一款为“空间”而生的编辑工具
那么,这次推出的JoyAI-Image-Edit究竟有何特别?简单说,它是一款专为“空间场景”的生成与编辑需求而深度优化的一体化模型。
从公开数据看,它的整体基准性能达到了国际顶流水平。更值得关注的是,在诸如“按要求修改室内家具布局”或“生成一张符合真实物理透视的街景图”这类任务上,它的表现超越了主流视频模型。这意味着,它在理解和操控图像中的空间关系、物体结构方面,具备了相当高的精度。
这种垂直定位,让它天生就适配两类核心场景:
其一,是电商领域。商品主图的场景替换、营销广告图的快速生成,这些高频需求对成本和控制精度极为敏感。其二,则是具身智能的研究。训练一个机器人理解物理世界,需要海量、多样且标注准确的虚拟空间数据,而人工制作成本极高。JoyAI-Image-Edit恰好能提供一种低成本、高效率的解决方案。
开源与落地并行的务实策略
在推进策略上,京东这次选择了一条颇为务实的“双线并行”道路:一手开源,一手落地。
模型代码直接对外开放,这无疑能吸引全球开发者社区共同参与迭代和优化,加速模型本身的进化。与此同时,内部的应用测试已经启动。据悉,其智能编辑功能正在京东自身的电商场景中进行测试。后续,它还将作为一项基础设施,为具身智能研究领域提供低成本的数据生成服务。
这种策略,与许多先闭源变&现再逐步开放的垂直模型路径形成了鲜明对比,显得更加开放和生态化。
话说回来,这款国产模型的表现,至少证明了一点:在垂直细分的人工智能领域,国内厂商完全有能力追平甚至超越国际顶尖水平。而依托自身核心业务场景去打磨专用模型的路线,也为当前整个AI行业如何突破落地瓶颈,提供了一个新的参考方向。可以预见,空间智能这条赛道,接下来会变得更加热闹。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。