其他资讯人工智能

具身大脑蝉联ICRA最佳论文，RoboScience押对方向

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

RoboScience 机器科学连续第二年跻身 ICRA 最佳论文评选视野，这一成绩在机器人学领域并不多

RoboScience 机器科学连续第二年跻身 ICRA 最佳论文评选视野，这一成绩在机器人学领域并不多见。

每年机器人学界总有那么一个学术盛会，能让全球顶尖实验室、产业巨头和一线研究者不约而同地将目光聚焦于同一坐标——ICRA 无疑是最具标志性的一个。

ICRA，全称 IEEE 国际机器人与自动化会议，是 IEEE 机器人与自动化学会的旗舰会议，也是全球公认的机器人与自动化领域最高水平学术平台。在此发表的论文不仅要经受严格同行评审，更要面对全球最前沿竞争者的集体检验。对机器人研究者而言，论文被 ICRA 接收已是重要认可；而进入最佳论文候选名单，则意味着该项工作已被纳入全球机器人技术发展路线的风向标。

正是在这一舞台上，ICRA 2026 奖项揭晓——“机器人操作与运动”方向的最佳论文候选名单中，与伯克利大学、斯坦福大学、麻省理工学院、清华大学等顶级机构并列出现的，是一支来自 RoboScience 机器科学的团队。这支由首席科学家邵林带领的 NUS 团队，提交的论文题为《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence》。

这已是邵林团队连续第二年站上 ICRA 最佳论文的领奖台。

一年前的亚特兰大，他们的另一篇论文《D（R，O） Grasp》从全球数千篇投稿中脱颖而出，斩获 ICRA 2025“机器人操作与运动最佳论文奖”。ICRA 2025 官方获奖理由指出：该工作的核心贡献在于“跨不同机器人手与物体的可泛化灵巧抓取表征”。

换句话说，RoboScience 机器科学连续两年被 ICRA 聚焦，背后是其持续攻克机器人操作领域最棘手问题、并提供经得起检验的解决方案的硬实力。

全球 4000+ 投稿、获奖率不足 1%，更难能可贵的是它是亚洲唯一一家连续两年入选——这一成就在机器人学界无需任何额外修饰。除最佳论文外，邵林带领的团队在 ICRA 2026 单届会议上就有 10 篇研究成果成功入选，覆盖灵巧抓取、社交导航、低成本力感知、混合任务规划等核心方向。这不是单点突破，而是系统性地推进具身智能的技术边界。

这一切表明，一家成立仅一年半的中国公司，正将自己的技术路线置于全球机器人学界最激烈、最严肃的竞技场中接受检验，并成功赢得了同行的认可。

回到论文本身，这两篇优秀论文试图回答同一个核心问题：如何让机器人摆脱“一物一策”的局限性。

D（R，O） Grasp 使一个 AI 大脑能够驱动 3 指、4 指、5 指不同形态的灵巧手，跨本体抓取上百种物体，成功率超过 87%，生成时间不到 1 秒。Bi-Adapt 则更进一步：让机器人仅通过几个示例，就能将已学会的双臂协作动作迁移到从未见过的物体类别上——甚至实现零样本泛化到类别之外。

一个解决“换手”，一个解决“换物”。两条看似不同的技术路径，背后指向同一个判断：具身智能的下一程，胜负手在于“泛化”。

而这正是 RoboScience 机器科学——这家成立仅一年半的中国公司——对外讲述的核心故事和押下的最大赌注：“打破泛化瓶颈”。两位创始人，首席科学家邵林、CEO 田野，分别代表了这个赌注中最关键的两端：前沿研究的方法论，和大规模工程的执行力。

简而言之，成立仅一年半，却在最讲究路径长期主义的机器人学界，将最难攻克的泛化问题持续推向前台，并连续两年获得 ICRA 认可。至少在这一层面，RoboScience 机器科学已不再只是一个简单的初创公司名字，它正在成为走向具身智能世界舞台中央的中国样本。

在过去两年的具身智能浪潮中，几乎所有头部玩家都在向同一个技术范式猛冲——VLA（Vision-Language-Action），即用视觉和语言直接驱动机器人输出动作。但 RoboScience 机器科学是少数几家公开走出不同路线的公司。其核心技术架构名为 VLOA（Vision-Language-Object-Action）。多出的那个 O，代表 Object——物体。

这个看似只多出一个字母的差异，背后却是一个完全不同的判断：机器人要真正变得“通用”，必须先学会理解物体在物理世界中会如何演化，然后再决定该怎么做。

VLA 那条路线上最大的问题，恰恰在于它跳过了“对物理世界本身的理解”——从感知和语言直接跳到动作。在静态、固定的场景中它能工作，但一旦换一个新物体、换一项新任务、换一台不同构型的机器人本体，就必须重新采集数据、重新训练模型。说白了，VLA 给出的是一个个“实例-动作”的硬绑定，很难突破真正的“泛化”。

VLOA 要解决的，正是这件事——让一个大脑，指挥任意机器人、操作任意物体、完成任意任务。

具体到架构上，它由“具身世界模型”和“通用操作模型”两层组成，中间通过一个名为 Object Trajectory（物体轨迹）的接口将两者打通：

上层的具身世界模型，负责“理解世界”。它让机器人在动手之前，先在脑中预演一遍未来：哪个物体会往哪里去、姿态如何变化、与谁会发生接触。输出的是一种名为“3D 点云轨迹”的中间表示——既能直观看到物体的运动路径，又天然满足物理几何约束，不会出现 2D 视频生成中常见的重力错乱、物体穿模等问题。

图注：具身世界模型输出 3D 点云轨迹

下层的通用操作模型，负责“改变世界”。它将这条轨迹翻译成机器人的关节角度、接触点和力控信号，在物理世界中精准复现。它不再是“一个任务一个模型”的碎片堆砌，而是所有技能联合训练、共享同一套底层表征。

图注：通用操作模型根据输入的 3D 点云轨迹驱动灵巧手

中间的 Object Trajectory，则是 VLOA 最精妙的设计——它把“认知”和“执行”彻底解耦：上层不必关心你用什么硬件，下层不必关心你具体要做什么任务，两者之间用“物体的 3D 点云轨迹”这种既人类可读、又机器可执行的通用语言来交接。

这种解耦所兑现的，正是 VLOA 真正想实现的三件事：

跨物体：从光滑的洗发水瓶到透明的棉签盒，从硬质零件到软质布料，同一套模型自动适配，无需为每个新物体单独训练；

跨任务：开信封需要毫牛级的切入力、立硬币需要动态平衡、抓薯片要避免压碎、用针管注射要精准控速——这些过去需要分别开发算法的精细任务，被一个模型统一拿下；

跨本体：模型与硬件完全解耦，换一只灵巧手就能直接使用。例如，同一套策略可以无缝迁移到 X-hand（12 个自由度齿轮准直驱）和 LEAP Hand（16 个自由度直驱）等完全不同形态的灵巧手。

最具说服力的案例是去年的五月。基于 VLOA，RoboScience 机器科学完成了全球范围内最复杂、精度最高、步骤最多的具身操作任务——拼家具。这项任务几乎涵盖了机器人操作的所有难点：手内操作、双臂协同、毫米级精度、长程任务规划、力反馈调控。模型读完说明书就能启动拼装，中途如果被人为拆解干扰，系统能自动恢复状态并接续完成。

更关键的是，这种“通用性”的上限是可以持续突破的。RoboScience 机器科学已为具身世界模型积累了超过 100 万小时以物体为中心的多模态视频数据，并以每周数十万小时的速度增长，目标是在 2026 年底构建千万小时级的数据集；为通用操作模型，基于自研的多模态物理仿真平台 RoboMirage，已积累 10B（100 亿次）高质量操作轨迹，目标在 2026 年突破 1T（1 万亿次）。两个模型都已在工程上验证了 Scaling Law——数据规模越大，泛化能力越强，而且呈现可预测的幂律提升。

这意味着 RoboScience 机器科学押下的这条路线，不只是一个技术架构的巧思，而是一个可以持续滚雪球、规模越大优势越大的工程系统。

VLOA 比 VLA 更激进、也更长远的地方在于，它是要让机器人真正摆脱遥控器，自主理解世界、自主改变世界。将这个模型与 RoboScience 机器科学那两篇连续获奖的论文放在一起看，实则一脉相承。它们都在做同一件事：把机器人从“实例-动作”的硬编码，重构为“关系-轨迹”的可泛化系统。这套底层范式，才是 RoboScience 机器科学押下的最具价值的赌注。

具身智能的交叉学科特质决定了，单靠某一类型的人才很难跑通闭环。一个团队如果只擅长学术，能写出论文却做不出产品；如果只擅长工程，能做硬件却写不出真正前沿的算法。具身大模型这种“既要前沿原创、又要规模化落地”的方向，注定要把两类罕见的人才装进同一支队伍里。

RoboScience 机器科学的稀缺性，恰恰在于它把这两端都凑齐了。

先看首席科学家邵林。他是中国具身智能“斯坦福系”中的关键人物。本科毕业于南京大学，博士毕业于斯坦福大学，师从机器人领域知名学者 Jeannette Bohg，联合导师是 Leonidas J. Guibas——后者是美国三院院士、计算机图形学和几何处理领域的奠基性人物之一。如今，邵林在新加坡国立大学（NUS）担任助理教授。

斯坦福的机器人圈，在过去几年成了观察中国具身智能格局的绝佳坐标。苏昊（Hillbot 创始人）、王鹤（银河通用创始人）、卢策吾（穹彻智能创始人）等人与邵林同属一个学术谱系。这些人后来撑起了中国具身智能赛道的大半个版图——这也意味着邵林天然在国内最前沿的学术圈拥有一个坐标级的位置。

更关键的是，邵林的研究主线，从博士时代就一直锁定在机器人操作的“通用化”上：从早期的 UniGrasp，到 D（R，O） Grasp、Bi-Adapt，再到收录至 ICRA 2026 的 T（R，O） Grasp——你可以看到一条非常清晰的研究脉络：不断抽象、不断统一、不断追求跨本体跨物体的通用表征。

这种长期一致的研究方向，意味着 RoboScience 机器科学的技术底座不是临时拼凑的产物，而是一位顶尖学者花了近十年时间不断打磨出来的方法论沉淀。

再看田野。他身上最稀缺的，是从中科大物理、斯坦福 AI Lab 到苹果 AI Platform 一路走出来的工程化能力。田野本科毕业于中国科学技术大学物理系，硕士毕业于斯坦福大学 AI Lab，导师是被誉为“AI 布道者”的吴恩达。

毕业后田野进入苹果，担任 AI Platform 技术负责人——这个职位在 AI 圈只有内行才能掂量出分量。他主导打造的核心平台，被业内称为“苹果的 PyTorch 与 CUDA”：支撑了多项关键 AI 技术在苹果生态中的大规模落地，是苹果 AI 能够在数十亿台设备上稳定运行的基础设施。

换句话说，田野不是一般意义上“懂技术的 CEO”，而是既懂前沿算法、又懂如何将算法装进十亿级别工业系统的稀缺工程领袖。

具身智能的产业化，恰恰最需要这种能力。现在业内之所以对训模型这件过去看似高深莫测的事祛魅，将其比喻成“工业生产”，就在于前沿模型要变成可以批量部署、稳定运行、持续迭代的产品，靠的不是某个聪明的算法巧思，而是工程地基——什么样的数据流水线能稳定喂模型、什么样的推理框架能支持实时控制、什么样的工程范式能在不同硬件上保持一致体验。这些都不是研究人员的强项，而是工业级 AI 工程师才能解决的问题。

因此，邵林和田野的组合，构成了业内最为扎实的搭配：斯坦福学术大咖 × 硅谷工程领袖。

之所以这样说，是因为放眼中国具身智能这条赛道，多数公司要么以学术大牛为核心，醉心于 0 到 1 的技术攻坚；要么以工程出身的创业者为核心，更擅长做 1 到 10 的扩张。像 RoboScience 机器科学这样，把两个一线最强者放在同一张桌子上的组合，本身就是一种稀缺资源——它意味着这家公司既能持续在前沿原创上不掉队，又能在产品落地上不踩工程坑。

简言之，就是能够穿越技术周期，在长坡厚雪的具身智能赛道行稳致远。

RoboScience 机器科学成立于 2024 年 12 月。短短一年半时间，这家公司已经迈步到了中国具身智能赛道的舞台中央。

先看资本结构。该公司已披露完成多轮融资，投资方包括京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家 CVC 和财务机构。近期又获得了多家国内外产业龙头、互联网大厂、头部财务机构等多轮注资。

再看布局。RoboScience 机器科学已在北京、深圳、苏州、杭州铺开研发和生产网络。团队成员来自斯坦福、中科大、新加坡国立大学等顶尖学府，以及苹果、字节、腾讯、大疆等头部企业——既覆盖了 AI 算法的前沿研究力量，也覆盖了智能硬件量产的工程能力。

在产品路径上，RoboScience 机器科学走的是软硬一体的全栈路线：上层有 VLOA 大模型，下层同步布局机器人本体、末端执行器、自研多模态物理仿真平台 RoboMirage。这意味着公司不只想做“具身大脑”的供应商，而是想从模型、本体到末端、数据训练形成完整的产品闭环。

最后看落地。目前公司已与多家零售、物流、康养服务企业，以及多家机器人本体、灵巧手公司开展试点合作。按照公开规划，今年还将面向工业与商业场景，实现标准化机器人本体产品的量产。

回到开头那个问题，一家成立仅一年半的中国公司，凭什么能在最讲究路径长期主义的机器人学界，连续两年被国际同行盖章？

答案现在不再玄妙：这家公司在做的事情，不是将现有零星技术包装成孤立产品，而是从最底层的方法论开始，重新搭建一套具身智能的技术栈。在打造一个可适用于任何任务、任何对象与任何机器人的通用智能系统上，ICRA 的连续认可，只是这套技术栈对外露出的冰山一角。

来源：互联网

上一篇 Claude Code免费接入领取300美元Token额度 下一篇 无锡集成电路AI发展：晶圆封测环节专业评测

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

具身大脑蝉联ICRA最佳论文，RoboScience押对方向

摘要

相关文章推荐