清华博士「具身本能」打破数据依赖,工业产线实战排行
摘要
编辑 | 泽南 这可能是有史以来第一次,机器人学会用手「盘」东西: 即便在有人类干扰的
编辑 | 泽南
这可能是有史以来第一次,机器人学会用手「盘」东西:

即便在有人类干扰的情况下,它也能稳稳抓住物体:

真正令人意外的是,这一切完全依赖「本能」——机器人未经任何针对性训练,一上手就能做到。
一支来自清华大学的团队,在深耕八年后,走出了与主流VLA截然不同的路径:自下而上,本能驱动。
当整个行业都在教机器人「用眼睛看、用脑子想」的时候,橡木果(Acorn Robot)决定先给机器人装上「具身本能」,结果实现了前所未有的实用性。
这背后,不仅有其独到的技术,还包含对当前具身智能技术路线的深刻反思。
VLA路线,有必然「走不通」的地方
当下火热的具身智能领域,VLA(视觉-语言-动作)模型几乎成了唯一的范式。
VLA的本质是「模仿学习」——人类操作员采集海量数据,然后让机器人去拟合人类动作。训练完成后,用语言告诉它该做什么,它就能直接执行,无需人工编程介入。
行业普遍乐观地认为,只要数据足够多,机器人就能像ChatGPT改变软件世界一样,重塑物理世界。但随着技术从概念落地到工程实践,这条「自上而下」的路径正在触及无形的天花板。
最近,国内外具身智能团队都在真实环境稳定性上较劲——不只是看成功率,更要看遇到突发情况时的应对能力。毕竟,说要进工厂打螺丝,那就是真的要去打螺丝。
具体到技术前沿,甚至已经出现了VLA向VTLA演进的趋势:新增的T(触觉)意味着机器人需要在精细物理交互场景中,不光能看,还要能摸,做出更精准的力量控制。
一深入到细节,瓶颈就显现了。
真实世界的物理交互——机械手抓住物体时的手感、力矩变化,接触面滑动时的摩擦反馈——这些数据是仿真环境无法完全模拟的。而在VLA范式中,任务与硬件耦合在黑箱里,泛化所需的数据量呈指数级增长,远超自然语言Scaling Laws的范畴。
目前具身智能离真正商用仍有距离。究其原因,工厂里的每一个工位、所有动作都需要让机器人单独适配。实践中,即使外观一模一样的两个夹爪,因导轨松紧不同,也需要不同的模型参数。
更关键的是,VLA依赖的只有视觉这一个单一信息维度。机器人无法感知重心偏移、滑移趋势、物体软硬等触觉信息,结果就是「眼睛学会了,上手却不行」。视觉无法感知操作接触交互过程,也就没有资格给操作结果打标签;而那些真正参与操作、能定义「成功」的触觉探索,至今几乎还是空白。
问题已经摆明了,那么该怎么解决?
解法:自下而上重构通用操作
VLA注定「学不好」打螺丝,一部分原因在于模型的底层原理。
作为一种端到端大模型,VLA会融合多模态信息,通过注意力机制将视觉特征和语言指令在共享的嵌入空间里深度对齐与交互,让大模型底座发挥推理能力决定下一步策略。这意味着VLA的智能建立在语言模型涌现机理之上。
然而,一个长期被忽略的事实是:语言并非先天本能。
一个人类小孩出生后若不接触语言,一辈子都不会说话。而「动作」与操作恰恰相反——人类抓取物体的方式高度一致,无论文化与环境,从未有人教过我们如何抓取,这是出生即有的、由触觉刺激直接触发的本能。既然人类操作源于本能,为什么非要让机器人通过看视频、揣摩语义的方式去「盲人摸象」?
基于对黑箱模型的反思,橡木果提出了一套截然不同的技术架构:将任务规划(大脑)与操作执行(小脑)彻底解耦,各自独立演进,通过标准化接口协同起来。

在这个架构中,橡木果不做上层的任务规划,而是集中精力攻克底层的操作执行,再接入行业头部生态。
在操作执行层,端侧的自主决策模型Natus是一个完全嵌在灵巧手等末端执行器中的底层模型,由「触觉刺激的本能反射」与「自主学习的肌肉记忆」构建而成。
它包含三大类本能反射。首先是定向本能,用于构建接触关系,与视觉协同,通过找到/发现/定向/识别,指引末端向目标物体移动——类似婴儿看到移动物体时头部的追随。
其次是探索本能,用于构建约束关系。这是最复杂、也最能体现智能涌现的地方。当手接触物体后,它会自动沿物体表面探索,寻找稳定的接触构型。这不是预设程序,也不是模仿学习,而是由「建立稳定接触」这一本能规律催生出的自主行为。
基于Natus模型,机器人可以构建出一种执行本能,以「滑移最小化」或「阻抗匹配」为目标,实时调节电机电流(肌肉张力)。抓豆腐时增益调低(松),抓锤子时增益调高(紧),装配时则根据环境阻抗等触觉信息自适应判别并完成接插任务。所有调控依据均来自触觉信息的实时反馈,无需任何训练数据,频率高达200Hz。
测试中,团队发现机器人从未见过卡片型物体,却能通过自主探索把卡片翘起一角,成功抓取:

面对半瓶水的饮料,它会反复试探重心,逐步调整抓力,最后稳稳拿起:

这些行为不是编程预设,数据集中也不存在这样的数据(甚至夹爪设计时本不是做这些动作的),都是由本能催生出的操作智能涌现。这种自下而上的行为涌现从基本的「规律」出发,让动作自行产生。与数据喂养的路径截然不同——不会附带任何多余的小动作,而是持续向收敛状态推进。
这种设计哲学不规定具体动作,却支配了操作的底层逻辑,实现了零数据冷启动、毫秒级响应和硬件自适应。
橡木果发起人姜峣表示,本能的范式决定了两个重要性质:能力不由数据驱动,不受后天影响。它能让硬件具备泛化性,像人类小孩一样拿起各种各样的物体,涌现出很有意思的行为。模型的探索是持续进行的,不会有其他范式经常出现的停顿。
构建触觉信息基础
要让「本能路线」跑通,高精度的触觉输入是硬前提。目前很多具身智能团队对触觉的理解还停留在粗浅的测力/测压阶段。而在橡木果看来,完整的操作触觉必须包含三个维度的信息:
界面信息:包含每个接触点力矢量的分布力,弹性体的应变场,界面的微动趋势(滑移)。其中滑移趋势最为关键——有了滑移感知,机器人就可以不需要任何训练数据,冷启动调节抓力。
物体信息:包括软硬度、摩擦系数、材质纹理、质量、质心分布等视觉无法获取的力学属性。
环境信息:包括接触刚度、阻抗、扰动、接触位置等。装配、打磨、抛光等使用工具的操作高度依赖环境信息。

为此,该团队历时7年迭代,经十余代原型机,已推出第三代视触觉传感器(Vision-based Tactile Sensor)。其采用弹性体(硅胶)加微型相机的方案,通过图像表征与重构算法将弹性体的变形反演为物理量。
虽然「硅胶+相机」的视触觉原理样机技术门槛并不高,但橡木果在其中构筑了工程壁垒:公司在2020年便首次提出了动态表征(特征追踪)技术,领先行业数年。同时,团队攻克了非线性、黏弹性逆问题的工程化标定。
更重要的是,他们将图像预处理算法压缩到指尖内的芯片,优化信息重构算法,可实时输出多模态、标准化的触觉信息,而非原始图像——彻底避免了硬件差异导致模型失效的痛点。
下一步:上手即熟练
本能可以让机器人进行自主探索,而探索过程中产生的大量行为数据,则需要机器人通过本能进行自我理解和自主打标。在橡木果的路线图上,这些经过触觉语义增强的数据,将进一步训练技能模型Magis。
Magis是一个通用的操作技能模型,旨在让机器人「一上手就能熟练」。在这一层面,橡木果的做法不是从零采集海量操作视频,而是用触觉对现有视觉数据进行语义增强。
例如视觉上只看得到「香蕉」,触觉操作后,可以加上标注:香蕉重120克,质心偏左,表面粗糙,硬度中等。将这些力学语义叠加到视频帧上,再去训练技能模型。

这样做的好处是训练数据需求大幅降低——据说可以从百万小时级别降到几千、几万小时。引入触觉相关数据后,AI模型也能理解物理世界的力学属性,从而大幅提升学习效率和鲁棒性。
Magis模型打磨成熟后,将成为跨本体、跨任务泛化的关键,让不同品牌的机械手共享同一个熟练的技能库。
自主决策模型Natus与技能模型Magis能让机器人具备执行的本能与技能。在橡木果的构想中,未来的高阶任务规划模型只需要作为「包工头」去指挥底层模型「盖房子」,自身并不需要会打地基、铺地板、砌墙。任务的规划只需理解环境,把整个任务切分成关键帧。操作的执行是自下而上,以端侧小模型的方式逐渐形成。

只有这样,机器人才能实现丝滑的执行效果,以及真正的泛化能力。
回归物理世界
橡木果机器人核心团队源自清华大学与哈佛大学,拥有横跨机械工程、神经科学、机器人前沿交叉学科背景。

橡木果发起人姜峣
在具身智能大模型公司还靠精美视频融资、讲故事的阶段,橡木果的「具身本能」已经凭借极低的数据依赖度,迅速在真实产业中完成了闭环。
该团队去年全面启动技术落地,切入了新能源汽车、快消品、生物医药等领域的「工业柔性化场景」。这些场景长期被「换产频繁、物料多样、调参痛苦」所困扰,传统的刚性自动化束手无策,而需要百万小时训练的VLA模型成本又太高。
橡木果的解决方案瞄准最具挑战的抓放、旋拧、插拔任务——冷启动特性让部署很快,且能在端侧不断自我学习优化,收到了很好的效果。
自今年初开始,仅用半年时间,该公司便在国内TOP 1的化妆品企业生产线上完成了POC(概念验证)落地,并直接实现营收,5月已进入产线。该方法无需海量喂养数据,机器人依靠触觉本能,一上线就能自适应处理各种形态各异、材质不一的化妆品瓶罐与包装。
大模型、大数据、大算力的叙事固然宏大,但物理世界有其自身的运行规律。
橡木果的技术路线向行业传递了一个清晰的信号:回归物理世界的第一性原理——触觉、本能、肌肉记忆,或许才是通往物理AI的正确途径。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。