菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 具身智能十人谈:戴盟王煜详解人形机器人「具身技能」核心作用
其他资讯

具身智能十人谈:戴盟王煜详解人形机器人「具身技能」核心作用

2026-05-16
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

在WAIC 2024的展馆入口,一排被称为“十八金刚”的人形机器人——从青龙、智元远征A2到宇

在WAIC 2024的展馆入口,一排被称为“十八金刚”的人形机器人——从青龙、智元远征A2到宇树H1、傅利叶GR-1——构成了最引人注目的景观,向每一位访客宣告着行业前沿的动向。

大模型技术为机器人注入了“大脑”,“具身智能元年”的呼声不绝于耳。然而,热潮之下,一个根本性问题亟待回答:这颗“大脑”能否真正带来能力上的质变,并最终跨越从实验室到商业应用的鸿沟?

对此,香港科技大学机器人研究院创始院长、戴盟机器人联合创始人王煜教授提出了一个核心观点:“具身技能”。他将具身智能比作“大脑”,大关节控制视为“中脑”或“小脑”,而精细操作则是更进一步的“细小脑”,即“具身技能”。这一层次的实现,需要硬件、学习算法与数据三者形成闭环。“如果无法达到具身技能的层次,人形机器人的实际效用将非常有限。”王煜教授强调。

作为国内最早的公派留学生之一,王煜教授在机器人学领域拥有深厚的积淀。1984年,他赴美国卡内基梅隆大学(CMU)攻读博士学位,师从时任机器人研究所所长Matthew Thomas Mason。当时,Matthew与后来创立波士顿动力的Marc Raibert并称“CMU机器人双雄”,分别主导机器人手部与腿部的前沿研究。作为实验室里为数不多的华人学者,王煜成为了Matthew指导的首位博士毕业生。

此后,他先后在美国马里兰大学、新加坡国立大学及香港中文大学等顶尖机构任职,并于2015年与李泽湘教授共同创立香港科技大学机器人研究院。他的履历包括973首席科学家、国家杰出青年科学基金获得者、长江学者特聘教授、国家科技进步二等奖等重量级荣誉,并曾担任IEEE Fellow等学术职务。

2021年底,王煜教授与段江哗博士联合创立戴盟机器人,致力于推动AI与机器人技术的深度融合,研发具备商业可行性的通用仿人机器人。今年3月,其首款产品——心灵手巧型人形机器人Sparky 1正式发布。

这款机器人具备持续自主学习能力,搭载了多自由度仿人关节与集成多维触觉感知的五指灵巧手。它能够通过外骨骼遥操作采集的数据进行技能学习,目前已掌握包括插线束、焊接电路板、滴加试剂,以及熨烫衣物、倾倒液体、物体分拣、整理书架等在内的多种技能,展现了其在工业、研发乃至家庭服务等多场景下的应用潜力。

Sparky 1实现“心灵手巧”的基石,是三大自研核心技术:多模态集成技术、新型视触觉传感器,以及集成了视触觉传感器的五指灵巧手。攻克精细操作难题,正是王煜教授与戴盟机器人的首要技术目标。

以下为对话内容精编:

触觉是精细操作的关键

问:2021年创立戴盟机器人,最主要的契机是什么?

核心驱动力是推动前沿研究的产业化落地。经过长期研究,我们形成了一个明确的判断:触觉传感是人形机器人实现突破的关键瓶颈。当前,触觉传感器技术本身已趋于成熟,具备了产品化的条件。将其转化为商业产品,不仅能牵引技术迭代,更能为机器人的规模化应用开辟新路径。

问:为何将研发重点聚焦于触觉传感器?

一个生动的案例可以说明问题:一个视力完全正常的小女孩,由于皮肤缺乏触觉感知,她从火柴盒中取出并点燃一根火柴所花费的时间,是常人的五倍以上。

这个例子精准揭示了触觉对精细操作的决定性影响。缺乏真实的操作能力和充足的信息反馈,即便是拧螺丝这样基础的任务也难以完成,因为这需要真正的“手感”和技能积累。尽管AI与机器人在许多领域取得了进展,但在执行复杂任务时,其局限性依然明显。更精细的操作能力和真正的技能,无法仅凭视觉信息和强化学习获得。

具体而言,基于视觉可以构建多种“抓取-放置”模型,实现物体的位移。但精细操作要求手部能做“功”,并能依据力的反馈进行微调。这就像工业装配中存在公差,拧螺丝时若间隙极小,就需要更大的扭矩和更娴熟的技巧——这就进入了“技能”的范畴。

戴盟的目标是打造具备精细操作能力的机器人。只有配备了触觉传感和灵巧手,机器人才能自主探索、学习并掌握技能。如前所述,具身智能是“大脑”,精细操作是“细小脑”或“具身技能”,需要硬件、方法与数据的闭环支撑。达不到这个层次,人形机器人的价值就大打折扣。我们不能满足于基础的“抓取放置”,例如拖地不仅仅是拿起拖把,还需要施加力道进行往复擦拭。

问:目前触觉研究有哪些新的认知和技术方向?

前沿研究表明,人手的神经分为不同类型。其中一部分神经能够记忆手指在半秒内的受力变形过程,并利用这段历史信息来指导后续动作。这意味着部分手部操作无需大脑全程参与,触觉信息在局部神经系统层面即可完成初步处理。当然,面对全新或极端复杂的环境时,大脑的全局调控依然不可或缺。

要让灵巧手实现类似功能,手指需要触觉传感器来采集信息、提供力反馈,并实现精准控制。目前主要有两种技术路径:一是生成数据后学习,针对不同操作(如开盖、拧螺丝)建立多个小模型,再进行整合;二是完全数据驱动,像人类一样学习技能,类似马斯克机器人所采用的端到端神经网络方案,甚至可能无需完整的物理模型。

但无论选择哪条路径,一个基本前提是:灵巧手本体的性能必须足够强大,触觉传感信息必须足够丰富。无论是人手还是机器人灵巧手,触觉信息的采集都是至关重要的基础环节,这也是戴盟技术攻关的重点。

把灵巧手做到极致

问:要实现“具身技能”,除了触觉传感器,还有哪些关键技术?

灵巧手本体的“精致度”同样至关重要。如果在硬件上妥协,技能表现必然受限。因此,追求极致的精细度是必须的,例如使用更多、性能更优的电机,尽管这会直接推高成本。

目前市场上较流行的产品往往只有9个自由度,而像马斯克提到的方案至少需要12-15个自由度。如果产品达不到高标准,就无法胜任高技能任务。只有基础打牢了,我们才能系统排查问题:是传感信息不足、学习方法不当,还是模型本身存在缺陷?当然,低自由度的灵巧手成本更低,在特定应用中有其价值,但确实无法承担许多需要复杂技能的作业。

戴盟的策略是从一开始就将手部性能做到极致,再根据市场需求进行“降维”开发。也就是说,当应用不需要高级技能时,我们可以降低成本、减少自由度。但必须明确,向下兼容的路径是清晰的,而向上突破的能力——即当有高级技能需求时,我们的产品也能满足——才是核心竞争力所在。

这与波士顿动力的理念异曲同工。他们将腿部能力做到极致,从而赋予了机器人强大的运动潜能。我们认为,只有通过这种方式,才能充分释放机器人的潜力,再根据市场需求定义产品,同时有效控制成本。

问:您曾提到机器人的“灵巧手”比“腿足”更难发展,原因是什么?

主要难点在于,手部操作的复杂性更高。其挑战不在于动力学本身,而在于与物体交互时达到特定的技能水平。

简而言之,灵巧手的硬件技术尚未完全成熟。手的硬件比身体和腿部更难制造,发展也相对缓慢。早期手指关节驱动多采用线缆牵引,存在反馈延迟,影响操作效率。现在转向全电驱动,又对空间布局提出严苛要求。空间有限,电机必须越做越小,而高性能电机成本高昂,单个可能就要上万元。想做15个自由度的灵巧手,仅电机成本就可能超过15万。因此,当前有志于此的企业都必须具备自研电机的能力。

软件方面,灵巧手的进展也相对滞后。与早已在工业自动化中普及、可通过预编程控制的夹爪或机械手不同,灵巧手的抓取模型等尚不完善,目前还很难将精细操作技能完全转化为可自动执行的程序。

我们这批最早研究灵巧手的人,起初认为精细操作和技能是物理问题,只要建好模型、解决控制就行。后来发现涉及因素太多,物理模型无法准确覆盖所有情况。机器人的手是刚性的,而人手是柔软的,因此模型本身就不完全准确。如果想建立真实人手的物理模型,那几乎是一个无穷尽的任务。

此外,传感技术也存在短板。手部缺乏足够的物理信息反馈,影响了操作的精确性。仅仅依赖视觉,信息量是远远不够的。因此,自2012年Schunk的SVH灵巧手以来,这一领域的发展相对缓慢,虽然有所进展,但整体仍面临诸多挑战。

相比之下,腿足硬件的发展更为成熟。从大功率到全电动,国内外已经形成了一条清晰的发展路径,成本也得到了有效控制。全球范围内,波士顿动力表现最为突出。其最新产品完全摒弃液压,采用全电动方案,成功解决了复杂的动力学问题,实现了精确控制,甚至能完成翻跟头等高难度动作。值得注意的是,模型预测控制(MPC)技术在1980年左右就已开发并在石化领域应用,波士顿动力坚持将MPC用于人形机器人控制,最终走通了这条路,如今这成了他们的招牌技术,也为整个人形机器人的运动控制奠定了重要基础。

正在倒酒的 Sparky 1

人形机器人不能只依赖视觉模仿学习

问:您对“大脑”(AI大模型)的态度似乎比较谨慎,您认为人形机器人还需要在哪些技术方向突破?

过去十年,AI技术确实打破了机器人传统的“抓取-放置”范式,赋予了其基础的理解能力和更智能的操作规划。当前行业潮流更侧重于AI大模型与视觉,这种思路强调“大脑”和人机交互,成果也比较直观。例如在家庭场景中,重点是机器人如何理解人的需求,比如在人饿的时候取食物甚至加热。

但必须清醒认识到,当具体到执行“切苹果”这类操作技能时,“中小脑”乃至“细小脑”的作用就变得至关重要了。

随着AI大模型的兴起,通过视觉技术和模仿学习,简单的二指或三指夹爪就能实现基础的抓取、拖拽操作。然而现实是,目前大多只能完成抓杯子、倒水、洗碗等简单任务,在更复杂的工业和家庭场景中,这还远远不够。

一个关键认知是:操作技能不能仅仅依赖基于视觉的模仿学习。仅靠视觉感知的信息是不充分的,必须在收集的数据中引入触觉信息。有的技术路线是自研数据采集手套,让人佩戴并操作,同时让机器人佩戴同样的手套进行学习。目前进展较好的方式是,人佩戴两指夹爪并安装摄像头模拟操作(如洗碗),机器人则通过模仿学习在旁边尝试。但如果碗太重、太滑,机器人没有及时调整力度,那就说明它还没真正掌握这项技能。

必须认识到技能的重要性和难度。尽管触觉传感器技术门槛高、成本高昂、涉足者少,但向这个方向突破的需求是强烈而明确的,这也正是戴盟所看到的市场空间所在。

问:在您看来,人形机器人会在哪些场景率先商业化落地?戴盟有何计划?

工业场景很可能率先突破。比如汽车装配,既有大型操作也有精细的小操作。半导体生产线也是如此,每个工人负责一道工序。如果人形机器人只学会一个技能、替代一个工人,性价比实在太低。机器人需要能适应不同任务,至少要能替代5个以上从事精细化操作的工人,其价值才能充分体现。

工业场景对“大脑”的要求相对较低,因为任务具体、流程固定,甚至不需要深度理解。现在的工业机器人就是在特定场景下执行固定流程。难度更高的任务是使用工具,具体执行是“做功”的过程,需要根据力和加速度信息来调整,比如抬起、安装轮胎,就是一个从突然加速到突然减速的精确控制过程。

戴盟的下一步计划,是先把触觉灵巧手以及包含触觉的上肢操作模型做好,首先进入高校和科研单位。因为价值一旦被科研界认可,就会培养出一批有想法的人才。在工业场景,例如柔性物料处理和精密装配的自动化领域,如果戴盟的灵巧手能够实现无可替代的操作能力,其商业价值自然会被市场认可。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多