其他资讯

具身智能十人谈：戴盟王煜详解人形机器人「具身技能」核心作用

2026-05-16

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

在WAIC 2024的展馆入口，一排被称为“十八金刚”的人形机器人——从青龙、智元远征A2到宇

在WAIC 2024的展馆入口，一排被称为“十八金刚”的人形机器人——从青龙、智元远征A2到宇树H1、傅利叶GR-1——构成了最引人注目的景观，向每一位访客宣告着行业前沿的动向。

大模型技术为机器人注入了“大脑”，“具身智能元年”的呼声不绝于耳。然而，热潮之下，一个根本性问题亟待回答：这颗“大脑”能否真正带来能力上的质变，并最终跨越从实验室到商业应用的鸿沟？

对此，香港科技大学机器人研究院创始院长、戴盟机器人联合创始人王煜教授提出了一个核心观点：“具身技能”。他将具身智能比作“大脑”，大关节控制视为“中脑”或“小脑”，而精细操作则是更进一步的“细小脑”，即“具身技能”。这一层次的实现，需要硬件、学习算法与数据三者形成闭环。“如果无法达到具身技能的层次，人形机器人的实际效用将非常有限。”王煜教授强调。

作为国内最早的公派留学生之一，王煜教授在机器人学领域拥有深厚的积淀。1984年，他赴美国卡内基梅隆大学（CMU）攻读博士学位，师从时任机器人研究所所长Matthew Thomas Mason。当时，Matthew与后来创立波士顿动力的Marc Raibert并称“CMU机器人双雄”，分别主导机器人手部与腿部的前沿研究。作为实验室里为数不多的华人学者，王煜成为了Matthew指导的首位博士毕业生。

此后，他先后在美国马里兰大学、新加坡国立大学及香港中文大学等顶尖机构任职，并于2015年与李泽湘教授共同创立香港科技大学机器人研究院。他的履历包括973首席科学家、国家杰出青年科学基金获得者、长江学者特聘教授、国家科技进步二等奖等重量级荣誉，并曾担任IEEE Fellow等学术职务。

2021年底，王煜教授与段江哗博士联合创立戴盟机器人，致力于推动AI与机器人技术的深度融合，研发具备商业可行性的通用仿人机器人。今年3月，其首款产品——心灵手巧型人形机器人Sparky 1正式发布。

这款机器人具备持续自主学习能力，搭载了多自由度仿人关节与集成多维触觉感知的五指灵巧手。它能够通过外骨骼遥操作采集的数据进行技能学习，目前已掌握包括插线束、焊接电路板、滴加试剂，以及熨烫衣物、倾倒液体、物体分拣、整理书架等在内的多种技能，展现了其在工业、研发乃至家庭服务等多场景下的应用潜力。

Sparky 1实现“心灵手巧”的基石，是三大自研核心技术：多模态集成技术、新型视触觉传感器，以及集成了视触觉传感器的五指灵巧手。攻克精细操作难题，正是王煜教授与戴盟机器人的首要技术目标。

以下为对话内容精编：

触觉是精细操作的关键

问：2021年创立戴盟机器人，最主要的契机是什么？

核心驱动力是推动前沿研究的产业化落地。经过长期研究，我们形成了一个明确的判断：触觉传感是人形机器人实现突破的关键瓶颈。当前，触觉传感器技术本身已趋于成熟，具备了产品化的条件。将其转化为商业产品，不仅能牵引技术迭代，更能为机器人的规模化应用开辟新路径。

问：为何将研发重点聚焦于触觉传感器？

一个生动的案例可以说明问题：一个视力完全正常的小女孩，由于皮肤缺乏触觉感知，她从火柴盒中取出并点燃一根火柴所花费的时间，是常人的五倍以上。

这个例子精准揭示了触觉对精细操作的决定性影响。缺乏真实的操作能力和充足的信息反馈，即便是拧螺丝这样基础的任务也难以完成，因为这需要真正的“手感”和技能积累。尽管AI与机器人在许多领域取得了进展，但在执行复杂任务时，其局限性依然明显。更精细的操作能力和真正的技能，无法仅凭视觉信息和强化学习获得。

具体而言，基于视觉可以构建多种“抓取-放置”模型，实现物体的位移。但精细操作要求手部能做“功”，并能依据力的反馈进行微调。这就像工业装配中存在公差，拧螺丝时若间隙极小，就需要更大的扭矩和更娴熟的技巧——这就进入了“技能”的范畴。

戴盟的目标是打造具备精细操作能力的机器人。只有配备了触觉传感和灵巧手，机器人才能自主探索、学习并掌握技能。如前所述，具身智能是“大脑”，精细操作是“细小脑”或“具身技能”，需要硬件、方法与数据的闭环支撑。达不到这个层次，人形机器人的价值就大打折扣。我们不能满足于基础的“抓取放置”，例如拖地不仅仅是拿起拖把，还需要施加力道进行往复擦拭。

问：目前触觉研究有哪些新的认知和技术方向？

前沿研究表明，人手的神经分为不同类型。其中一部分神经能够记忆手指在半秒内的受力变形过程，并利用这段历史信息来指导后续动作。这意味着部分手部操作无需大脑全程参与，触觉信息在局部神经系统层面即可完成初步处理。当然，面对全新或极端复杂的环境时，大脑的全局调控依然不可或缺。

要让灵巧手实现类似功能，手指需要触觉传感器来采集信息、提供力反馈，并实现精准控制。目前主要有两种技术路径：一是生成数据后学习，针对不同操作（如开盖、拧螺丝）建立多个小模型，再进行整合；二是完全数据驱动，像人类一样学习技能，类似马斯克机器人所采用的端到端神经网络方案，甚至可能无需完整的物理模型。

但无论选择哪条路径，一个基本前提是：灵巧手本体的性能必须足够强大，触觉传感信息必须足够丰富。无论是人手还是机器人灵巧手，触觉信息的采集都是至关重要的基础环节，这也是戴盟技术攻关的重点。

把灵巧手做到极致

问：要实现“具身技能”，除了触觉传感器，还有哪些关键技术？

灵巧手本体的“精致度”同样至关重要。如果在硬件上妥协，技能表现必然受限。因此，追求极致的精细度是必须的，例如使用更多、性能更优的电机，尽管这会直接推高成本。

目前市场上较流行的产品往往只有9个自由度，而像马斯克提到的方案至少需要12-15个自由度。如果产品达不到高标准，就无法胜任高技能任务。只有基础打牢了，我们才能系统排查问题：是传感信息不足、学习方法不当，还是模型本身存在缺陷？当然，低自由度的灵巧手成本更低，在特定应用中有其价值，但确实无法承担许多需要复杂技能的作业。

戴盟的策略是从一开始就将手部性能做到极致，再根据市场需求进行“降维”开发。也就是说，当应用不需要高级技能时，我们可以降低成本、减少自由度。但必须明确，向下兼容的路径是清晰的，而向上突破的能力——即当有高级技能需求时，我们的产品也能满足——才是核心竞争力所在。

这与波士顿动力的理念异曲同工。他们将腿部能力做到极致，从而赋予了机器人强大的运动潜能。我们认为，只有通过这种方式，才能充分释放机器人的潜力，再根据市场需求定义产品，同时有效控制成本。

问：您曾提到机器人的“灵巧手”比“腿足”更难发展，原因是什么？

主要难点在于，手部操作的复杂性更高。其挑战不在于动力学本身，而在于与物体交互时达到特定的技能水平。

简而言之，灵巧手的硬件技术尚未完全成熟。手的硬件比身体和腿部更难制造，发展也相对缓慢。早期手指关节驱动多采用线缆牵引，存在反馈延迟，影响操作效率。现在转向全电驱动，又对空间布局提出严苛要求。空间有限，电机必须越做越小，而高性能电机成本高昂，单个可能就要上万元。想做15个自由度的灵巧手，仅电机成本就可能超过15万。因此，当前有志于此的企业都必须具备自研电机的能力。

软件方面，灵巧手的进展也相对滞后。与早已在工业自动化中普及、可通过预编程控制的夹爪或机械手不同，灵巧手的抓取模型等尚不完善，目前还很难将精细操作技能完全转化为可自动执行的程序。

我们这批最早研究灵巧手的人，起初认为精细操作和技能是物理问题，只要建好模型、解决控制就行。后来发现涉及因素太多，物理模型无法准确覆盖所有情况。机器人的手是刚性的，而人手是柔软的，因此模型本身就不完全准确。如果想建立真实人手的物理模型，那几乎是一个无穷尽的任务。

此外，传感技术也存在短板。手部缺乏足够的物理信息反馈，影响了操作的精确性。仅仅依赖视觉，信息量是远远不够的。因此，自2012年Schunk的SVH灵巧手以来，这一领域的发展相对缓慢，虽然有所进展，但整体仍面临诸多挑战。

相比之下，腿足硬件的发展更为成熟。从大功率到全电动，国内外已经形成了一条清晰的发展路径，成本也得到了有效控制。全球范围内，波士顿动力表现最为突出。其最新产品完全摒弃液压，采用全电动方案，成功解决了复杂的动力学问题，实现了精确控制，甚至能完成翻跟头等高难度动作。值得注意的是，模型预测控制（MPC）技术在1980年左右就已开发并在石化领域应用，波士顿动力坚持将MPC用于人形机器人控制，最终走通了这条路，如今这成了他们的招牌技术，也为整个人形机器人的运动控制奠定了重要基础。

正在倒酒的 Sparky 1

人形机器人不能只依赖视觉模仿学习

问：您对“大脑”（AI大模型）的态度似乎比较谨慎，您认为人形机器人还需要在哪些技术方向突破？

过去十年，AI技术确实打破了机器人传统的“抓取-放置”范式，赋予了其基础的理解能力和更智能的操作规划。当前行业潮流更侧重于AI大模型与视觉，这种思路强调“大脑”和人机交互，成果也比较直观。例如在家庭场景中，重点是机器人如何理解人的需求，比如在人饿的时候取食物甚至加热。

但必须清醒认识到，当具体到执行“切苹果”这类操作技能时，“中小脑”乃至“细小脑”的作用就变得至关重要了。

随着AI大模型的兴起，通过视觉技术和模仿学习，简单的二指或三指夹爪就能实现基础的抓取、拖拽操作。然而现实是，目前大多只能完成抓杯子、倒水、洗碗等简单任务，在更复杂的工业和家庭场景中，这还远远不够。

一个关键认知是：操作技能不能仅仅依赖基于视觉的模仿学习。仅靠视觉感知的信息是不充分的，必须在收集的数据中引入触觉信息。有的技术路线是自研数据采集手套，让人佩戴并操作，同时让机器人佩戴同样的手套进行学习。目前进展较好的方式是，人佩戴两指夹爪并安装摄像头模拟操作（如洗碗），机器人则通过模仿学习在旁边尝试。但如果碗太重、太滑，机器人没有及时调整力度，那就说明它还没真正掌握这项技能。

必须认识到技能的重要性和难度。尽管触觉传感器技术门槛高、成本高昂、涉足者少，但向这个方向突破的需求是强烈而明确的，这也正是戴盟所看到的市场空间所在。

问：在您看来，人形机器人会在哪些场景率先商业化落地？戴盟有何计划？

工业场景很可能率先突破。比如汽车装配，既有大型操作也有精细的小操作。半导体生产线也是如此，每个工人负责一道工序。如果人形机器人只学会一个技能、替代一个工人，性价比实在太低。机器人需要能适应不同任务，至少要能替代5个以上从事精细化操作的工人，其价值才能充分体现。

工业场景对“大脑”的要求相对较低，因为任务具体、流程固定，甚至不需要深度理解。现在的工业机器人就是在特定场景下执行固定流程。难度更高的任务是使用工具，具体执行是“做功”的过程，需要根据力和加速度信息来调整，比如抬起、安装轮胎，就是一个从突然加速到突然减速的精确控制过程。

戴盟的下一步计划，是先把触觉灵巧手以及包含触觉的上肢操作模型做好，首先进入高校和科研单位。因为价值一旦被科研界认可，就会培养出一批有想法的人才。在工业场景，例如柔性物料处理和精密装配的自动化领域，如果戴盟的灵巧手能够实现无可替代的操作能力，其商业价值自然会被市场认可。

来源：互联网

上一篇 千问AI购物助手语音搜索交互指南：新手必看操作教程 下一篇 OpenClaw AI内容矩阵运营实战指南：2024年高效策略与布局

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

具身智能十人谈：戴盟王煜详解人形机器人「具身技能」核心作用

摘要

触觉是精细操作的关键

把灵巧手做到极致

人形机器人不能只依赖视觉模仿学习

相关文章推荐