其他资讯

物理AGI双金字塔体系解析：数据与算法如何驱动Scaling Law

2026-05-23

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

极佳视界发布物理AGI“双金字塔”体系，包含数据与算法两座金字塔，以突破规模瓶颈。数

当前具身智能领域的技术演进，主要沿着两大核心路径并行探索。一方是以英伟达Cosmos、谷歌Genie为代表的“世界模型”范式，致力于通过生成式模型拓展数据边界；另一方则是以Physical Intelligence的π系列、Diffusion Policy等领衔的“VLA/动作模型”路线，其核心逻辑是通过海量真机数据训练来获取通用动作能力。

两条技术路线均取得了实质性突破，但一个根本性挑战依然存在：若以“物理AGI”为终极目标，究竟需要构建何种算法架构与数据体系，才能有效验证并遵循Scaling Law（规模定律）？

5月20日，极佳视界（GigaAI）在武汉光谷举办的“家庭场景子品牌发布会暨物理通用智能技术发布会”上，系统性地阐述了其解决方案。

本次发布会信息密度极高，核心发布了五项关键进展：首次提出物理AGI“双金字塔”体系；推出面向家庭场景的子品牌“拾光SeeLight”及其首款通用人形机器人“拾光S1”；宣布国内首个真实家庭场景的百台机器人部署已在武汉落地，计划于第三季度启动规模化运营；预告下一代产品“拾光S2”将于三季度发布，并同步开启真实家庭创始版预定；公布了一份为期12个月的模型路线图，计划连续发布GigaBrain-1至GigaBrain-3三代基础模型，目标直指物理AGI的“GPT-3时刻”。

其中，最具技术探讨价值的，无疑是其提出的物理AGI“双金字塔”体系。这可能是该赛道首次将规模化扩展路径进行如此系统化的拆解与呈现。

破解规模化定律的瓶颈

为何具身智能至今难以验证Scaling Law？极佳视界合伙人、研发副总裁叶云在发布会上将核心瓶颈归结为数据与算法两方面。

数据层面，真机数据精度高但成本与规模受限；互联网视频数据规模庞大却缺乏动作监督信号；仿真数据可无限生成但存在“模拟到现实”的迁移鸿沟。任何单一数据源都难以同时满足规模化定律对数据量、信息密度与真实性的三重严苛要求。

算法层面，当前主流的视觉-语言-动作（VLA）范式本质是将视觉与动作信息“token化”后交由语言模型处理。这种架构在编码3D空间信息、物理因果关系及连续动作序列方面存在先天不足。换言之，即便拥有海量数据，现有模型架构也可能面临“消化能力”瓶颈。

针对这两大核心挑战，极佳视界提出的解决方案是构建层次化的“数据金字塔”与“算法金字塔”，并要求二者紧密耦合、协同演进。这便是“双金字塔”体系的理论基石。

构建五层数据金字塔

数据金字塔自下而上分为五层：互联网视频数据、真人示范数据、世界模型模拟器数据、仿真合成数据、真机数据。

这一分层本身符合学术界对具身数据源的普遍认知。塔尖的真机数据精度最高但覆盖最窄；塔基的互联网视频数据规模最大但监督最弱；而中间三层——真人示范、仿真与世界模型生成数据——则是工程化潜力最大、也最易被低估的环节。

关键差异在于，极佳视界为每一层数据都配备了对应的工程化产品与采集方案。真机数据由家庭版轮臂机器人“拾光S1”与低成本数据采集硬件“Maker M01”协同获取；仿真与世界模型数据通过自研的具身世界模型平台“GigaWorld-0”系统化生成；真人数据依托低成本手持采集设备“U-01”与第一人称视角采集设备“E-01”进行规模化采集；互联网视频数据则整合YouTube、Panda-70M等公开来源。

U-01、E-01这类“低成本、非本体绑定”的采集硬件，其设计思路与斯坦福UMI、EgoMimic等研究一脉相承，被视为突破真机数据瓶颈的有效路径。极佳视界的独特之处在于，将其与自研机器人本体（S1）、世界模型平台（GigaWorld-0）整合，构建了一套端到端的全栈数据采集体系。实现单点技术突破已属不易，而能全栈贯通，且每一层均有自研硬件作为支撑，这在国内具身智能公司中展现了显著的工程化深度。

设计三层算法金字塔

算法金字塔从底至顶划分为三层：世界模拟、动作对齐、经验强化。极佳视界将这三层能力具体落地为相应的模型产品。

世界模拟层的代表是具身世界模型GigaWorld-1。它在世界模型权威评测平台WorldArena上，以62.34的综合得分超越了包括Wan、CogVideoX、Veo 3.1、Cosmos-Predict在内的众多模型，位列全球第一，也是该榜单中首个综合得分突破60分的具身世界模型。

动作对齐层包含GigaBrain-0系列与GigaWorld-Policy。前者作为VLA路线的具身基础模型，在全球规模最大的真机评测RoboChallenge中，以51.67%的任务成功率位居榜首，领先Physical Intelligence的π0.5模型近10个百分点；后者是世界动作模型，在面向家庭场景的全球权威评测平台RoboCasa365上，超越了英伟达GR00T N1.5与π0.5，成为该榜单首个登顶的世界动作模型。

经验强化层则由GigaBrain-0.5M*实现，通过“世界模型+强化学习”的框架驱动具身基础模型的自主进化。

在具身智能赛道，单一评测夺冠并不罕见。但能同时在“世界模型、模仿学习、强化学习”这三个核心方向上，于WorldArena、RoboChallenge、RoboCasa365三大全球权威评测中均取得第一，并且打通三层算法间的数据流转，目前国内仅有极佳视界实现了这一目标。这三个“全球第一”分别印证了其在感知生成、真机操作与家庭场景泛化方面的核心能力，也为“双金字塔”体系提供了坚实的技术背书。

技术体系验证后的场景落地：家庭

技术体系初步验证后，下一个关键问题是：选择何处作为验证Scaling Law的主战场？极佳视界的答案是：真实的家庭环境。

发布会上，极佳视界联合创始人、首席科学家朱政博士正式发布了公司面向家庭场景的全新子品牌——“拾光SeeLight”，定位为“国内首个家庭通用机器人品牌”，并由朱政博士本人担任品牌CEO。

朱政在发布会上表示：“AGI不应仅存在于屏幕之内。我们并非在描绘一个遥远的未来图景，而是将我们对物理AGI的信念，转化为触手可及的产品，让物理AGI服务于每一个家庭。”

与品牌同步亮相的首代产品“拾光S1”，被定义为“全球首个进入真实家庭场景的通用人形机器人”。S1采用为家庭环境优化的轮臂构型，搭载极佳视界自研的具身基础模型，具备从环境感知、语义理解到动作执行的完整闭环能力。

选择家庭而非工业或物流场景作为物理AGI的首发战场，从技术角度看是一次高难度的挑战。家庭场景的开放性、任务的长尾性以及人机交互的复杂性，远超结构化工业场景。正因如此，它也成为检验机器人“通用性”最严苛的试金石。极佳视界这种“先难后易”的场景选择逻辑，与其在算法侧追求通用能力的技术路径高度一致。

百台部署：开启规模化验证的关键一步

过去一年，具身智能赛道备受质疑的一点在于“发布会演示与真实场景应用之间存在巨大落差”。多数公司能够展示样机能力，但极少能证明其产品在真实家庭中的实际使用情况与长期稳定性。对此，极佳视界在本次发布会上给出了一个已落地的答案。

公司宣布，“拾光S1”已获得真实家庭场景的百台订单，将率先部署于武汉光谷之寓社区，并从第三季度起开启规模化运营。这是公开信息中，规模化家庭通用机器人部署的首个案例。此前，Figure、1X等海外厂商披露的家庭试用，大多停留在个位数订单或内部体验阶段。

“100台+真实社区+Q3规模化运营”这一组合，意味着一项关键资产即将开始积累：真实家庭的长期使用数据。这正是验证Scaling Law在物理智能领域是否成立的核心。据发布会透露，拾光S1的家庭场景展示体验空间将于2026年5月31日起对外开放。

拾光S2：面向可用性的本体重构

发布会同时预告了第二代产品“拾光S2”，计划于2026年第三季度正式发布。从披露的参数看，这是一次系统性的重构而非小幅迭代：底盘体积缩减60%，更适配家庭狭窄空间；电池续航提升70%并支持热插拔更换，这直接关系到机器人在真实服务中的连续工作能力；操作范围扩大40%，支持在2.2米高度内执行任务。

正如朱政在发布会上强调的：“S2的核心价值，不在于单一参数的提升，而在于整机设计全面转向真实家庭所必需的‘可用性’。”从产业视角看，机器人本体的关键瓶颈正在于“能否在真实家庭中长期、稳定、可靠地工作”——涉及续航、热管理、关节寿命、安全冗余与维护成本。S2的升级项精准指向这些工程痛点，体现了务实且克制的产品取向。真实家庭创始版的预定通道已于发布会当日同步开启。

12个月路线图：三代模型与“GPT-3时刻”的冲刺

发布会的压轴环节，是极佳视界首次公布的物理AGI基础模型12个月路线图——计划连续发布GigaBrain-1、GigaBrain-2、GigaBrain-3三代模型。

GigaBrain-1定于2026年第三季度发布，将是全球首个基于“双金字塔”体系构建的物理AGI基础模型，目标是在物理智能的泛化能力上实现突破。随后的GigaBrain-2与GigaBrain-3将加速推进规模化。其中，GigaBrain-3计划基于1000万小时视频数据与100万小时“世界-动作”数据进行训练，剑指物理AGI的“GPT-3时刻”。

GPT-3在数字AGI史上的里程碑意义，在于它首次清晰展现了Scaling Law的“涌现”效应——当模型与数据规模突破临界阈值后，能力发生质变。理论上，物理AGI的“GPT-3时刻”应具有同构性：当数据规模（1000万+100万小时）与算法范式（双金字塔）达到某个临界点后，物理智能体将表现出真正的通用性。

这是一个可被检验的技术假设。未来12个月，行业将共同验证这个临界点是否存在，以及极佳视界设定的目标是否精准命中该点。在当下具身智能的讨论中，这种“以明确技术节点回应根本问题”的清晰姿态并不多见，更多同行的表述仍停留在“即将”、“快了”、“五年内”等模糊时间框架中。

值得持续关注的三个焦点

一场发布会，系统呈现了过去三年的技术积累、当前的产品落地与未来12个月的技术规划。从技术观察视角，后续最值得追踪的焦点有三：

第一，“双金字塔”体系能否真正跑通Scaling Law。五层数据与三层算法之间的耦合关系是否成立，将由GigaBrain-1（Q3发布）与GigaBrain-3（目标GPT-3时刻）分阶段验证。

第二，百台家庭部署能否形成有效的“数据闭环”。真实家庭的长期使用数据是当前物理智能领域最稀缺的资产。若此闭环能顺利运转，极佳视界在数据侧的护城河将随时间不断加深。

第三，物理AGI的“GPT-3时刻”是否真的会在12个月内到来。这是当前赛道最具争议、也最具兑现价值的行业判断。

过去半年，“物理AGI何时到来”已成为行业高频议题，从英伟达、Figure、Physical Intelligence到国内的银河通用、智元等，各方均给出过展望。但截至目前，没有一家公司像极佳视界这样，将这一宏大命题拆解为“需要怎样的算法与数据体系”以及“何时到达”这两个具体的技术命题与明确时间表。

系统性的方法论，叠加可验证的时间表，这套组合策略，或许是本次发布会最区别于同类发布的关键所在。

来源：互联网

上一篇 ClawBot插件兼容性测评：主流IDE安装与配置全指南 下一篇 周鸿祎云端养虾方案测评：专业私教如何在线高效炼虾？

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。