具身大脑蝉联ICRA最佳论文,RoboScience押对方向
摘要
RoboScience 机器科学连续第二年跻身 ICRA 最佳论文评选视野,这一成绩在机器人学领域并不多
RoboScience 机器科学连续第二年跻身 ICRA 最佳论文评选视野,这一成绩在机器人学领域并不多见。
每年机器人学界总有那么一个学术盛会,能让全球顶尖实验室、产业巨头和一线研究者不约而同地将目光聚焦于同一坐标——ICRA 无疑是最具标志性的一个。
ICRA,全称 IEEE 国际机器人与自动化会议,是 IEEE 机器人与自动化学会的旗舰会议,也是全球公认的机器人与自动化领域最高水平学术平台。在此发表的论文不仅要经受严格同行评审,更要面对全球最前沿竞争者的集体检验。对机器人研究者而言,论文被 ICRA 接收已是重要认可;而进入最佳论文候选名单,则意味着该项工作已被纳入全球机器人技术发展路线的风向标。
正是在这一舞台上,ICRA 2026 奖项揭晓——“机器人操作与运动”方向的最佳论文候选名单中,与伯克利大学、斯坦福大学、麻省理工学院、清华大学等顶级机构并列出现的,是一支来自 RoboScience 机器科学的团队。这支由首席科学家邵林带领的 NUS 团队,提交的论文题为《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence》。
这已是邵林团队连续第二年站上 ICRA 最佳论文的领奖台。

一年前的亚特兰大,他们的另一篇论文《D(R,O) Grasp》从全球数千篇投稿中脱颖而出,斩获 ICRA 2025“机器人操作与运动最佳论文奖”。ICRA 2025 官方获奖理由指出:该工作的核心贡献在于“跨不同机器人手与物体的可泛化灵巧抓取表征”。
换句话说,RoboScience 机器科学连续两年被 ICRA 聚焦,背后是其持续攻克机器人操作领域最棘手问题、并提供经得起检验的解决方案的硬实力。
全球 4000+ 投稿、获奖率不足 1%,更难能可贵的是它是亚洲唯一一家连续两年入选——这一成就在机器人学界无需任何额外修饰。除最佳论文外,邵林带领的团队在 ICRA 2026 单届会议上就有 10 篇研究成果成功入选,覆盖灵巧抓取、社交导航、低成本力感知、混合任务规划等核心方向。这不是单点突破,而是系统性地推进具身智能的技术边界。
这一切表明,一家成立仅一年半的中国公司,正将自己的技术路线置于全球机器人学界最激烈、最严肃的竞技场中接受检验,并成功赢得了同行的认可。
回到论文本身,这两篇优秀论文试图回答同一个核心问题:如何让机器人摆脱“一物一策”的局限性。
D(R,O) Grasp 使一个 AI 大脑能够驱动 3 指、4 指、5 指不同形态的灵巧手,跨本体抓取上百种物体,成功率超过 87%,生成时间不到 1 秒。Bi-Adapt 则更进一步:让机器人仅通过几个示例,就能将已学会的双臂协作动作迁移到从未见过的物体类别上——甚至实现零样本泛化到类别之外。
一个解决“换手”,一个解决“换物”。两条看似不同的技术路径,背后指向同一个判断:具身智能的下一程,胜负手在于“泛化”。
而这正是 RoboScience 机器科学——这家成立仅一年半的中国公司——对外讲述的核心故事和押下的最大赌注:“打破泛化瓶颈”。两位创始人,首席科学家邵林、CEO 田野,分别代表了这个赌注中最关键的两端:前沿研究的方法论,和大规模工程的执行力。
简而言之,成立仅一年半,却在最讲究路径长期主义的机器人学界,将最难攻克的泛化问题持续推向前台,并连续两年获得 ICRA 认可。至少在这一层面,RoboScience 机器科学已不再只是一个简单的初创公司名字,它正在成为走向具身智能世界舞台中央的中国样本。

在过去两年的具身智能浪潮中,几乎所有头部玩家都在向同一个技术范式猛冲——VLA(Vision-Language-Action),即用视觉和语言直接驱动机器人输出动作。但 RoboScience 机器科学是少数几家公开走出不同路线的公司。其核心技术架构名为 VLOA(Vision-Language-Object-Action)。多出的那个 O,代表 Object——物体。
这个看似只多出一个字母的差异,背后却是一个完全不同的判断:机器人要真正变得“通用”,必须先学会理解物体在物理世界中会如何演化,然后再决定该怎么做。
VLA 那条路线上最大的问题,恰恰在于它跳过了“对物理世界本身的理解”——从感知和语言直接跳到动作。在静态、固定的场景中它能工作,但一旦换一个新物体、换一项新任务、换一台不同构型的机器人本体,就必须重新采集数据、重新训练模型。说白了,VLA 给出的是一个个“实例-动作”的硬绑定,很难突破真正的“泛化”。
VLOA 要解决的,正是这件事——让一个大脑,指挥任意机器人、操作任意物体、完成任意任务。
具体到架构上,它由“具身世界模型”和“通用操作模型”两层组成,中间通过一个名为 Object Trajectory(物体轨迹)的接口将两者打通:
上层的具身世界模型,负责“理解世界”。它让机器人在动手之前,先在脑中预演一遍未来:哪个物体会往哪里去、姿态如何变化、与谁会发生接触。输出的是一种名为“3D 点云轨迹”的中间表示——既能直观看到物体的运动路径,又天然满足物理几何约束,不会出现 2D 视频生成中常见的重力错乱、物体穿模等问题。


图注:具身世界模型输出 3D 点云轨迹
下层的通用操作模型,负责“改变世界”。它将这条轨迹翻译成机器人的关节角度、接触点和力控信号,在物理世界中精准复现。它不再是“一个任务一个模型”的碎片堆砌,而是所有技能联合训练、共享同一套底层表征。


图注:通用操作模型根据输入的 3D 点云轨迹驱动灵巧手
中间的 Object Trajectory,则是 VLOA 最精妙的设计——它把“认知”和“执行”彻底解耦:上层不必关心你用什么硬件,下层不必关心你具体要做什么任务,两者之间用“物体的 3D 点云轨迹”这种既人类可读、又机器可执行的通用语言来交接。
这种解耦所兑现的,正是 VLOA 真正想实现的三件事:
跨物体:从光滑的洗发水瓶到透明的棉签盒,从硬质零件到软质布料,同一套模型自动适配,无需为每个新物体单独训练;
跨任务:开信封需要毫牛级的切入力、立硬币需要动态平衡、抓薯片要避免压碎、用针管注射要精准控速——这些过去需要分别开发算法的精细任务,被一个模型统一拿下;
跨本体:模型与硬件完全解耦,换一只灵巧手就能直接使用。例如,同一套策略可以无缝迁移到 X-hand(12 个自由度齿轮准直驱)和 LEAP Hand(16 个自由度直驱)等完全不同形态的灵巧手。
最具说服力的案例是去年的五月。基于 VLOA,RoboScience 机器科学完成了全球范围内最复杂、精度最高、步骤最多的具身操作任务——拼家具。这项任务几乎涵盖了机器人操作的所有难点:手内操作、双臂协同、毫米级精度、长程任务规划、力反馈调控。模型读完说明书就能启动拼装,中途如果被人为拆解干扰,系统能自动恢复状态并接续完成。




更关键的是,这种“通用性”的上限是可以持续突破的。RoboScience 机器科学已为具身世界模型积累了超过 100 万小时以物体为中心的多模态视频数据,并以每周数十万小时的速度增长,目标是在 2026 年底构建千万小时级的数据集;为通用操作模型,基于自研的多模态物理仿真平台 RoboMirage,已积累 10B(100 亿次)高质量操作轨迹,目标在 2026 年突破 1T(1 万亿次)。两个模型都已在工程上验证了 Scaling Law——数据规模越大,泛化能力越强,而且呈现可预测的幂律提升。
这意味着 RoboScience 机器科学押下的这条路线,不只是一个技术架构的巧思,而是一个可以持续滚雪球、规模越大优势越大的工程系统。
VLOA 比 VLA 更激进、也更长远的地方在于,它是要让机器人真正摆脱遥控器,自主理解世界、自主改变世界。将这个模型与 RoboScience 机器科学那两篇连续获奖的论文放在一起看,实则一脉相承。它们都在做同一件事:把机器人从“实例-动作”的硬编码,重构为“关系-轨迹”的可泛化系统。这套底层范式,才是 RoboScience 机器科学押下的最具价值的赌注。

具身智能的交叉学科特质决定了,单靠某一类型的人才很难跑通闭环。一个团队如果只擅长学术,能写出论文却做不出产品;如果只擅长工程,能做硬件却写不出真正前沿的算法。具身大模型这种“既要前沿原创、又要规模化落地”的方向,注定要把两类罕见的人才装进同一支队伍里。
RoboScience 机器科学的稀缺性,恰恰在于它把这两端都凑齐了。
先看首席科学家邵林。他是中国具身智能“斯坦福系”中的关键人物。本科毕业于南京大学,博士毕业于斯坦福大学,师从机器人领域知名学者 Jeannette Bohg,联合导师是 Leonidas J. Guibas——后者是美国三院院士、计算机图形学和几何处理领域的奠基性人物之一。如今,邵林在新加坡国立大学(NUS)担任助理教授。
斯坦福的机器人圈,在过去几年成了观察中国具身智能格局的绝佳坐标。苏昊(Hillbot 创始人)、王鹤(银河通用创始人)、卢策吾(穹彻智能创始人)等人与邵林同属一个学术谱系。这些人后来撑起了中国具身智能赛道的大半个版图——这也意味着邵林天然在国内最前沿的学术圈拥有一个坐标级的位置。
更关键的是,邵林的研究主线,从博士时代就一直锁定在机器人操作的“通用化”上:从早期的 UniGrasp,到 D(R,O) Grasp、Bi-Adapt,再到收录至 ICRA 2026 的 T(R,O) Grasp——你可以看到一条非常清晰的研究脉络:不断抽象、不断统一、不断追求跨本体跨物体的通用表征。
这种长期一致的研究方向,意味着 RoboScience 机器科学的技术底座不是临时拼凑的产物,而是一位顶尖学者花了近十年时间不断打磨出来的方法论沉淀。
再看田野。他身上最稀缺的,是从中科大物理、斯坦福 AI Lab 到苹果 AI Platform 一路走出来的工程化能力。田野本科毕业于中国科学技术大学物理系,硕士毕业于斯坦福大学 AI Lab,导师是被誉为“AI 布道者”的吴恩达。
毕业后田野进入苹果,担任 AI Platform 技术负责人——这个职位在 AI 圈只有内行才能掂量出分量。他主导打造的核心平台,被业内称为“苹果的 PyTorch 与 CUDA”:支撑了多项关键 AI 技术在苹果生态中的大规模落地,是苹果 AI 能够在数十亿台设备上稳定运行的基础设施。
换句话说,田野不是一般意义上“懂技术的 CEO”,而是既懂前沿算法、又懂如何将算法装进十亿级别工业系统的稀缺工程领袖。
具身智能的产业化,恰恰最需要这种能力。现在业内之所以对训模型这件过去看似高深莫测的事祛魅,将其比喻成“工业生产”,就在于前沿模型要变成可以批量部署、稳定运行、持续迭代的产品,靠的不是某个聪明的算法巧思,而是工程地基——什么样的数据流水线能稳定喂模型、什么样的推理框架能支持实时控制、什么样的工程范式能在不同硬件上保持一致体验。这些都不是研究人员的强项,而是工业级 AI 工程师才能解决的问题。
因此,邵林和田野的组合,构成了业内最为扎实的搭配:斯坦福学术大咖 × 硅谷工程领袖。

之所以这样说,是因为放眼中国具身智能这条赛道,多数公司要么以学术大牛为核心,醉心于 0 到 1 的技术攻坚;要么以工程出身的创业者为核心,更擅长做 1 到 10 的扩张。像 RoboScience 机器科学这样,把两个一线最强者放在同一张桌子上的组合,本身就是一种稀缺资源——它意味着这家公司既能持续在前沿原创上不掉队,又能在产品落地上不踩工程坑。
简言之,就是能够穿越技术周期,在长坡厚雪的具身智能赛道行稳致远。

RoboScience 机器科学成立于 2024 年 12 月。短短一年半时间,这家公司已经迈步到了中国具身智能赛道的舞台中央。
先看资本结构。该公司已披露完成多轮融资,投资方包括京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家 CVC 和财务机构。近期又获得了多家国内外产业龙头、互联网大厂、头部财务机构等多轮注资。
再看布局。RoboScience 机器科学已在北京、深圳、苏州、杭州铺开研发和生产网络。团队成员来自斯坦福、中科大、新加坡国立大学等顶尖学府,以及苹果、字节、腾讯、大疆等头部企业——既覆盖了 AI 算法的前沿研究力量,也覆盖了智能硬件量产的工程能力。
在产品路径上,RoboScience 机器科学走的是软硬一体的全栈路线:上层有 VLOA 大模型,下层同步布局机器人本体、末端执行器、自研多模态物理仿真平台 RoboMirage。这意味着公司不只想做“具身大脑”的供应商,而是想从模型、本体到末端、数据训练形成完整的产品闭环。
最后看落地。目前公司已与多家零售、物流、康养服务企业,以及多家机器人本体、灵巧手公司开展试点合作。按照公开规划,今年还将面向工业与商业场景,实现标准化机器人本体产品的量产。
回到开头那个问题,一家成立仅一年半的中国公司,凭什么能在最讲究路径长期主义的机器人学界,连续两年被国际同行盖章?
答案现在不再玄妙:这家公司在做的事情,不是将现有零星技术包装成孤立产品,而是从最底层的方法论开始,重新搭建一套具身智能的技术栈。在打造一个可适用于任何任务、任何对象与任何机器人的通用智能系统上,ICRA 的连续认可,只是这套技术栈对外露出的冰山一角。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。