辅助资源 AI模型大模型

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

2026-05-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

银河通用联合智源发布 GraspVLA：全球首个十亿帧数据训练的端到端具身抓取基础大模型就

银河通用联合智源发布 GraspVLA：全球首个十亿帧数据训练的端到端具身抓取基础大模型

就在昨天，具身智能领域传来了一个重磅消息。银河通用联合北京智源人工智能研究院、北京大学及香港大学的研究团队，正式发布了名为GraspVLA的端到端具身抓取基础大模型。这事儿在业内可谓期待已久。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧'视觉-语言-动作'对

（先简单科普一下：这里的“具身智能”，简单理解就是把人工智能装进机器人这样的物理身体里，让它们能像人一样去感知、学习，并实实在在地与环境互动和操作。）

那么，这个模型到底有何过人之处？关键在于其训练路径与数据规模。GraspVLA的训练分为预训练和后训练两大阶段，而其中预训练阶段的数据体量，直接刷新了行业纪录——达到了前所未有的十亿帧“视觉-语言-动作”配对数据。并且，全部数据均为合成数据。正是依靠这个庞大的数据基座，模型才得以掌握泛化的闭环抓取能力，真正晋升为“基础模型”。

这意味着什么？最直接的好处是强大的“开箱即用”能力。经过预训练的模型，能够直接实现从模拟到现实世界的跨越，在面对从未见过的、千变万化的真实场景和陌生物体时，无需额外调整即可进行“零样本”测试。官方表示，这一基础能力已经能够覆盖大多数产品的应用需求。

当然，现实应用需求多种多样。针对一些特殊或极致的场景，也不必推倒重来。通过后续的小样本学习进行微调，就能将模型强大的基础能力快速迁移到特定任务上。这样一来，既保持了模型的高泛化性，又让它掌握了符合特定产品需求的“专业技能”。

话说回来，衡量一个具身智能模型能否被称为“基础模型”，总得有个硬杠杠。银河通用也公布了他们提出的七大泛化“金标准”，具体包括：照明条件变化、背景环境切换、平面摆放位置偏移、操作空间高度调整、抓取动作策略选择、动态环境干扰应对，以及物体类别泛化。可以说，这七条标准，基本涵盖了一个抓取机器人在现实世界中可能遇到的各种不确定性挑战。

来源：互联网

上一篇 Tavus：AI视频生成平台，适合企业使用的数字人实时对话工具 下一篇 AI写作，让豆包AI、kimi秒懂你想要什么（简历修改、朋友圈文案等指令分享）

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

摘要

银河通用联合智源发布 GraspVLA：全球首个十亿帧数据训练的端到端具身抓取基础大模型

相关文章推荐