其他资讯

AGI双金字塔体系解析：数据与算法如何驱动具身智能Scaling Law

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

极佳视界发布物理AGI“双金字塔”体系，包含数据与算法两座金字塔，以解决具身智能规模

过去两年，具身智能领域的技术路线主要围绕两大核心展开：一是以NVIDIA Cosmos、Google Genie为代表的「世界模型」路径，致力于通过生成式模型扩展数据供给；二是以Physical Intelligence的π系列、Diffusion Policy等为代表的「VLA/动作模型」路径，强调依靠大规模真机数据获取通用动作能力。

两条路径均取得了显著突破，但都未能从根本上回答一个核心问题：若以「物理AGI」为最终目标，究竟需要构建怎样的算法架构与数据体系，才能真正实现Scaling Law的有效验证？

5月20日，武汉光谷。极佳视界（GigaAI）在「家庭场景子品牌发布会暨物理通用智能技术发布会」上，首次系统性提出了一个相对完整的解决方案。

极佳视界5.20发布会现场

本次发布会集中披露了五项关键进展：全球首个物理AGI「双金字塔」体系正式发布；面向家庭场景的子品牌「拾光 SeeLight」及其首款通用人形机器人「拾光 S1」同步亮相；国内首个真实家庭场景百台机器人部署已在武汉落地，计划于第三季度启动规模化运营；下一代产品「拾光 S2」定于三季度发布，真实家庭创始版预定通道即时开启；同时公布了一份为期12个月的路线图——计划连续推出GigaBrain-1、GigaBrain-2、GigaBrain-3三代基础模型，目标直指物理AGI的「GPT-3时刻」。

信息密度极高，而其中最引人注目的，无疑是物理AGI的「双金字塔」体系。

破解Scaling的瓶颈

为何具身智能至今未能验证Scaling Law？极佳视界合伙人、研发副总裁叶云在发布会上将核心瓶颈归结为两点。

首先是数据侧。真机数据精度虽高，但受制于高昂成本与有限规模；互联网视频数据规模庞大，却缺乏精准的动作监督信号；仿真数据可无限扩展，但面临难以逾越的仿真到现实鸿沟。任何单一数据源，都无法同时满足Scaling Law对数据规模、信息密度与真实性的三重严苛要求。

其次是算法侧。当前以语言模型为主导的VLA范式，本质是将视觉与动作信息“token化”后输入语言模型，这种架构天生不擅长处理3D空间信息、物理因果关系以及连续动作序列。换言之，即便数据规模达标，现有主流模型架构也难以高效消化并转化这些数据价值。

极佳视界合伙人、研发副总裁叶云

针对这两大卡点，极佳视界提出的解决方案是构建层次化的数据与算法体系——一座数据金字塔与一座算法金字塔，二者深度耦合，互为支撑。这便是「双金字塔」体系的核心理念。

全球首个物理AGI「双金字塔」体系

从底层逻辑看，这是物理AGI赛道首次有公司将Scaling路径进行系统化、层次化的工程拆解。

五层数据金字塔：构建全景数据供给

数据金字塔自底向上共分五层：互联网视频数据、真人示范数据、世界模型模拟器数据、仿真合成数据、真机数据。

这一划分本身呼应了学术界对具身数据源的普遍认知：金字塔顶端的真机数据精度最高但覆盖最窄；底层的互联网视频数据规模最大但监督最弱；中间三层（真人示范、仿真、世界模型生成）则是工程化潜力最大、也最易被低估的部分。

真正关键的是，极佳视界为每一层都配备了对应的工程化产品与采集能力：

真机数据由家庭版轮臂机器人「拾光S1」与低成本真机数据采集硬件「Maker M01」协同获取；仿真合成数据与世界模型模拟器数据由自研的具身世界模型平台「GigaWorld-0」系统化生成；真人示范数据通过低成本手持采集硬件「U-01」与低成本第一视角（Ego）采集硬件「E-01」进行规模化采集；互联网视频数据则复用YouTube、Panda-70M等公开来源。

极佳视界「数据金字塔」

U-01、E-01这类「低成本、非本体绑定」的数据采集硬件，其思路与Stanford团队的UMI及EgoMimic研究一脉相承，被学术界视为突破真机数据瓶颈的有效路径之一。

极佳视界的差异在于，将此类硬件与自研机器人本体（S1）、世界模型平台（GigaWorld-0）整合，构建了一套完整的全栈数据采集体系。单一技术点突破并不罕见，但实现全栈贯通且每一层均有自研硬件支撑，这在国内具身智能公司中尚属前列。

三层算法金字塔：实现能力闭环

算法金字塔自底向上分为三层：世界模拟、动作对齐、经验强化。

极佳视界将这三层能力分别具象化为具体的模型产品。

世界模拟层的代表是具身世界模型GigaWorld-1。该模型在世界模型权威评测平台WorldArena上，以62.34的综合得分击败Wan、CogVideoX、Veo 3.1、Cosmos-Predict等对手，位列全球第一，成为该榜单中首个综合得分突破60分的具身世界模型。

动作对齐层包含GigaBrain-0系列与GigaWorld-Policy。前者是VLA路线的具身基础模型，在全球规模最大的真机评测RoboChallenge中以51.67%的任务成功率位居榜首，领先π0.5近10个百分点；后者是世界动作模型，在面向家庭场景的全球权威评测平台RoboCasa365上，击败NVIDIA GR00T N1.5与π0.5获得全球第一，成为该榜单首个登顶的世界动作模型。

经验强化层则由GigaBrain-0.5M*实现，通过「世界模型+强化学习」的框架，驱动具身基模实现自我进化与能力提升。

极佳视界「算法金字塔」

在具身智能赛道，单一榜单夺冠已不稀奇。但同时在「世界模型」、「模仿学习」、「强化学习」三大核心方向的全球权威评测中均取得第一，并将三层算法间的数据流转与能力协同彻底打通，目前国内仅有极佳视界一家实现。WorldArena、RoboChallenge、RoboCasa365的评测结果，分别验证了其在感知生成、真机操作、家庭场景泛化三大核心维度的顶尖能力。这三个「全球第一」也为「双金字塔」体系提供了坚实的技术背书。

技术体系验证后，选择最严苛的场景：家庭

技术体系初步跑通后，下一个关键问题是：选择哪个场景来验证Scaling是否真正成立？极佳视界的答案是：真实家庭环境。

发布会上，极佳视界联合创始人、首席科学家朱政博士正式发布了公司面向家庭场景的全新子品牌——「拾光 SeeLight」，定位为「国内首个家庭通用机器人品牌」，并由朱政博士亲自担任品牌CEO。

极佳视界联合创始人 & 首席科学家、拾光品牌CEO 朱政

朱政在发布会上表示：「AGI不应只存在于屏幕之后。我们并非在描绘一个遥远的未来故事，而是将我们对物理AGI的根本信念，转化为触手可及的真实产品，让物理AGI服务于每一个家庭。」

与品牌同步亮相的首代产品「拾光 S1」，被定义为「全球首个进入真实家庭场景的通用人形机器人」。S1采用家庭优化的轮臂构型，搭载极佳视界自研的具身基础模型，具备从环境感知、语义理解到自主行动的完整闭环能力。

选择家庭而非工业或物流作为物理AGI的首发场景，从技术角度看是一个极具挑战性的决策。家庭场景的开放性、任务长尾性以及人机交互的复杂度，都远超结构化工业场景——正因如此，它成为验证智能体「通用性」最为严苛的试金石。极佳视界这种「先难后易」的场景选择逻辑，与其在算法侧的技术演进思路一脉相承。

百台部署：开启规模化数据闭环

过去一年，具身智能赛道最受诟病的问题之一，是「发布会演示效果与真实场景可用性之间存在巨大鸿沟」——多数公司展示了样机能力，却极少能证明其产品在真实家庭中的长期稳定表现。对此，极佳视界在本次发布会上给出了一个实质性的回应：一笔已经落地的百台订单。

极佳视界宣布，拾光S1已获得真实家庭场景的百台订单，将率先部署于武汉光谷之寓社区（位于武汉光谷的真实居住社区），并计划于第三季度开启规模化运营。这是公开信息中，规模化家庭通用机器人部署的首个案例——此前Figure、1X等海外厂商披露的家庭试用，多停留在个位数订单或内部员工体验阶段。

「100台 + 真实居住社区 + Q3规模化运营」的组合，意味着一项关键资产即将开始积累：来自真实家庭的长期、高频使用数据。

机器人进入武汉光谷之寓真实场景

这正是Scaling Law在物理智能领域得以成立的核心前提。极佳视界在发布会上透露，拾光S1的家庭场景展示体验空间将于2026年5月31日起正式对外开放。

拾光 S2：面向可用性的本体重构

发布会同时预告了第二代产品「拾光 S2」，计划于2026年第三季度正式发布。从已披露的本体参数来看，这是一次系统性的重构，而非简单迭代：

底盘体积缩减60%，更适配家庭狭窄空间；电池续航提升70%并支持热插拔换电，这直接决定了机器人在真实服务中的连续工作能力；操作范围扩大40，支持在2.2米高度内执行任务。朱政在发布会上强调：「S2的核心升级，不在于某个参数的孤立优化，而在于整机设计开始全面贴近真实家庭对『可用性』的本质需求。」

拾光S2全新设计构型，定价、发售政策将于三季度全面揭晓

从产业视角看，机器人本体侧的关键瓶颈始终是「能否在真实家庭环境中长期、稳定、可靠地工作」——这涉及续航、热管理、关节寿命、安全冗余与维护成本。S2的三项核心升级均直指这些工程化痛点，体现了相对克制的务实取向。与此同时，真实家庭创始版的预定通道已于发布会当日同步开启。

12个月路线图：三代模型剑指「GPT-3时刻」

发布会的压轴部分，是极佳视界首次公布的物理AGI基础模型12个月研发路线图——计划连续推出GigaBrain-1、GigaBrain-2、GigaBrain-3三代模型。

GigaBrain-1定于2026年第三季度发布，将是全球首个基于「双金字塔」体系构建的物理AGI基础模型，目标是在物理智能的泛化能力上达到新高度。随后，GigaBrain-2与GigaBrain-3将加速推进Scaling进程。其中，GigaBrain-3计划基于1000万小时视频数据与100万小时世界-动作联合数据进行训练，剑指物理AGI领域的「GPT-3时刻」。

GigaBrain-3剑指物理AGI的「GPT-3时刻」

GPT-3在数字AGI历史上的里程碑意义，不在于模型本身，而在于它首次验证了Scaling Law的「涌现」临界点——当模型与数据规模突破某个阈值后，能力发生从量变到质变的跃迁。物理AGI的「GPT-3时刻」在理论上应是同构的：当数据规模（1000万+100万小时）与算法范式（双金字塔）达到某个临界点后，物理智能体将表现出真正意义上的通用能力。

这是一个可被检验的技术假设。未来12个月，行业将见证这个临界点是否真实存在，以及极佳视界设定的数据规模目标是否恰好落于该点之上。在当前的具身智能赛道，这种「以明确技术节点回应根本问题」的坦诚姿态并不多见——同行的回答往往停留在「即将到来」、「未来可期」、「五年内」等模糊的时间表述。

极佳视界将「物理AGI何时到来」这一宏大命题，拆解为「需要构建何种体系」与「何时达到临界点」两个具体的技术子命题，这正是本次发布会区别于其他同类发布的核心所在。

未来三大关键追踪点

一场发布会，将过去三年的技术积淀、当前的产品落地与未来12个月的技术蓝图，清晰地呈现出来。

从技术观察视角，接下来最值得持续追踪的有三件事：

第一，「双金字塔」体系能否真正跑通Scaling Law——五层数据与三层算法之间的耦合关系是否成立，将由GigaBrain-1（Q3发布）与GigaBrain-3（GPT-3时刻）分阶段验证。

第二，百台家庭部署能否形成有效的数据闭环——真实家庭长期使用数据是当前物理智能领域最稀缺的资产。若此闭环跑通，极佳视界在数据侧的护城河将随时间迅速加深。

第三，物理AGI的「GPT-3时刻」是否真的会在12个月内到来——这是当前赛道最具争议性，也最具兑现价值的核心判断。

过去半年，关于「物理AGI何时到来」的讨论已成为行业高频议题，英伟达、Figure、Physical Intelligence、银河通用、智元等参与者均给出了各自的展望。但截至目前，尚未有任何一家公司像极佳视界这样，将问题系统性地拆解为「算法+数据体系」与「明确时间表」的组合。

「系统性方法论」与「可验证时间表」的结合，构成了本次发布会最显著的差异化特质。

来源：互联网

上一篇 联想集团领涨近20%！恒生科技指数最新涨幅与成分股深度解析 下一篇 2024混合式AI新十年权威解读：杨元庆创业5.0战略深度解析

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。