AGI双金字塔体系解析:数据与算法如何驱动具身智能Scaling Law
摘要
极佳视界发布物理AGI“双金字塔”体系,包含数据与算法两座金字塔,以解决具身智能规模
过去两年,具身智能领域的技术路线主要围绕两大核心展开:一是以NVIDIA Cosmos、Google Genie为代表的「世界模型」路径,致力于通过生成式模型扩展数据供给;二是以Physical Intelligence的π系列、Diffusion Policy等为代表的「VLA/动作模型」路径,强调依靠大规模真机数据获取通用动作能力。
两条路径均取得了显著突破,但都未能从根本上回答一个核心问题:若以「物理AGI」为最终目标,究竟需要构建怎样的算法架构与数据体系,才能真正实现Scaling Law的有效验证?
5月20日,武汉光谷。极佳视界(GigaAI)在「家庭场景子品牌发布会暨物理通用智能技术发布会」上,首次系统性提出了一个相对完整的解决方案。

极佳视界5.20发布会现场
本次发布会集中披露了五项关键进展:全球首个物理AGI「双金字塔」体系正式发布;面向家庭场景的子品牌「拾光 SeeLight」及其首款通用人形机器人「拾光 S1」同步亮相;国内首个真实家庭场景百台机器人部署已在武汉落地,计划于第三季度启动规模化运营;下一代产品「拾光 S2」定于三季度发布,真实家庭创始版预定通道即时开启;同时公布了一份为期12个月的路线图——计划连续推出GigaBrain-1、GigaBrain-2、GigaBrain-3三代基础模型,目标直指物理AGI的「GPT-3时刻」。
信息密度极高,而其中最引人注目的,无疑是物理AGI的「双金字塔」体系。
破解Scaling的瓶颈
为何具身智能至今未能验证Scaling Law?极佳视界合伙人、研发副总裁叶云在发布会上将核心瓶颈归结为两点。
首先是数据侧。真机数据精度虽高,但受制于高昂成本与有限规模;互联网视频数据规模庞大,却缺乏精准的动作监督信号;仿真数据可无限扩展,但面临难以逾越的仿真到现实鸿沟。任何单一数据源,都无法同时满足Scaling Law对数据规模、信息密度与真实性的三重严苛要求。
其次是算法侧。当前以语言模型为主导的VLA范式,本质是将视觉与动作信息“token化”后输入语言模型,这种架构天生不擅长处理3D空间信息、物理因果关系以及连续动作序列。换言之,即便数据规模达标,现有主流模型架构也难以高效消化并转化这些数据价值。

极佳视界合伙人、研发副总裁 叶云
针对这两大卡点,极佳视界提出的解决方案是构建层次化的数据与算法体系——一座数据金字塔与一座算法金字塔,二者深度耦合,互为支撑。这便是「双金字塔」体系的核心理念。

全球首个物理AGI「双金字塔」体系
从底层逻辑看,这是物理AGI赛道首次有公司将Scaling路径进行系统化、层次化的工程拆解。
五层数据金字塔:构建全景数据供给
数据金字塔自底向上共分五层:互联网视频数据、真人示范数据、世界模型模拟器数据、仿真合成数据、真机数据。
这一划分本身呼应了学术界对具身数据源的普遍认知:金字塔顶端的真机数据精度最高但覆盖最窄;底层的互联网视频数据规模最大但监督最弱;中间三层(真人示范、仿真、世界模型生成)则是工程化潜力最大、也最易被低估的部分。
真正关键的是,极佳视界为每一层都配备了对应的工程化产品与采集能力:
真机数据由家庭版轮臂机器人「拾光S1」与低成本真机数据采集硬件「Maker M01」协同获取;仿真合成数据与世界模型模拟器数据由自研的具身世界模型平台「GigaWorld-0」系统化生成;真人示范数据通过低成本手持采集硬件「U-01」与低成本第一视角(Ego)采集硬件「E-01」进行规模化采集;互联网视频数据则复用YouTube、Panda-70M等公开来源。

极佳视界「数据金字塔」
U-01、E-01这类「低成本、非本体绑定」的数据采集硬件,其思路与Stanford团队的UMI及EgoMimic研究一脉相承,被学术界视为突破真机数据瓶颈的有效路径之一。
极佳视界的差异在于,将此类硬件与自研机器人本体(S1)、世界模型平台(GigaWorld-0)整合,构建了一套完整的全栈数据采集体系。单一技术点突破并不罕见,但实现全栈贯通且每一层均有自研硬件支撑,这在国内具身智能公司中尚属前列。
三层算法金字塔:实现能力闭环
算法金字塔自底向上分为三层:世界模拟、动作对齐、经验强化。
极佳视界将这三层能力分别具象化为具体的模型产品。
世界模拟层的代表是具身世界模型GigaWorld-1。该模型在世界模型权威评测平台WorldArena上,以62.34的综合得分击败Wan、CogVideoX、Veo 3.1、Cosmos-Predict等对手,位列全球第一,成为该榜单中首个综合得分突破60分的具身世界模型。
动作对齐层包含GigaBrain-0系列与GigaWorld-Policy。前者是VLA路线的具身基础模型,在全球规模最大的真机评测RoboChallenge中以51.67%的任务成功率位居榜首,领先π0.5近10个百分点;后者是世界动作模型,在面向家庭场景的全球权威评测平台RoboCasa365上,击败NVIDIA GR00T N1.5与π0.5获得全球第一,成为该榜单首个登顶的世界动作模型。
经验强化层则由GigaBrain-0.5M*实现,通过「世界模型+强化学习」的框架,驱动具身基模实现自我进化与能力提升。

极佳视界「算法金字塔」
在具身智能赛道,单一榜单夺冠已不稀奇。但同时在「世界模型」、「模仿学习」、「强化学习」三大核心方向的全球权威评测中均取得第一,并将三层算法间的数据流转与能力协同彻底打通,目前国内仅有极佳视界一家实现。WorldArena、RoboChallenge、RoboCasa365的评测结果,分别验证了其在感知生成、真机操作、家庭场景泛化三大核心维度的顶尖能力。这三个「全球第一」也为「双金字塔」体系提供了坚实的技术背书。
技术体系验证后,选择最严苛的场景:家庭
技术体系初步跑通后,下一个关键问题是:选择哪个场景来验证Scaling是否真正成立?极佳视界的答案是:真实家庭环境。
发布会上,极佳视界联合创始人、首席科学家朱政博士正式发布了公司面向家庭场景的全新子品牌——「拾光 SeeLight」,定位为「国内首个家庭通用机器人品牌」,并由朱政博士亲自担任品牌CEO。

极佳视界联合创始人 & 首席科学家、拾光品牌CEO 朱政
朱政在发布会上表示:「AGI不应只存在于屏幕之后。我们并非在描绘一个遥远的未来故事,而是将我们对物理AGI的根本信念,转化为触手可及的真实产品,让物理AGI服务于每一个家庭。」
与品牌同步亮相的首代产品「拾光 S1」,被定义为「全球首个进入真实家庭场景的通用人形机器人」。S1采用家庭优化的轮臂构型,搭载极佳视界自研的具身基础模型,具备从环境感知、语义理解到自主行动的完整闭环能力。
选择家庭而非工业或物流作为物理AGI的首发场景,从技术角度看是一个极具挑战性的决策。家庭场景的开放性、任务长尾性以及人机交互的复杂度,都远超结构化工业场景——正因如此,它成为验证智能体「通用性」最为严苛的试金石。极佳视界这种「先难后易」的场景选择逻辑,与其在算法侧的技术演进思路一脉相承。
百台部署:开启规模化数据闭环
过去一年,具身智能赛道最受诟病的问题之一,是「发布会演示效果与真实场景可用性之间存在巨大鸿沟」——多数公司展示了样机能力,却极少能证明其产品在真实家庭中的长期稳定表现。对此,极佳视界在本次发布会上给出了一个实质性的回应:一笔已经落地的百台订单。
极佳视界宣布,拾光S1已获得真实家庭场景的百台订单,将率先部署于武汉光谷之寓社区(位于武汉光谷的真实居住社区),并计划于第三季度开启规模化运营。这是公开信息中,规模化家庭通用机器人部署的首个案例——此前Figure、1X等海外厂商披露的家庭试用,多停留在个位数订单或内部员工体验阶段。
「100台 + 真实居住社区 + Q3规模化运营」的组合,意味着一项关键资产即将开始积累:来自真实家庭的长期、高频使用数据。

机器人进入武汉光谷之寓真实场景
这正是Scaling Law在物理智能领域得以成立的核心前提。极佳视界在发布会上透露,拾光S1的家庭场景展示体验空间将于2026年5月31日起正式对外开放。
拾光 S2:面向可用性的本体重构
发布会同时预告了第二代产品「拾光 S2」,计划于2026年第三季度正式发布。从已披露的本体参数来看,这是一次系统性的重构,而非简单迭代:
底盘体积缩减60%,更适配家庭狭窄空间;电池续航提升70%并支持热插拔换电,这直接决定了机器人在真实服务中的连续工作能力;操作范围扩大40,支持在2.2米高度内执行任务。朱政在发布会上强调:「S2的核心升级,不在于某个参数的孤立优化,而在于整机设计开始全面贴近真实家庭对『可用性』的本质需求。」

拾光S2全新设计构型,定价、发售政策将于三季度全面揭晓
从产业视角看,机器人本体侧的关键瓶颈始终是「能否在真实家庭环境中长期、稳定、可靠地工作」——这涉及续航、热管理、关节寿命、安全冗余与维护成本。S2的三项核心升级均直指这些工程化痛点,体现了相对克制的务实取向。与此同时,真实家庭创始版的预定通道已于发布会当日同步开启。
12个月路线图:三代模型剑指「GPT-3时刻」
发布会的压轴部分,是极佳视界首次公布的物理AGI基础模型12个月研发路线图——计划连续推出GigaBrain-1、GigaBrain-2、GigaBrain-3三代模型。
GigaBrain-1定于2026年第三季度发布,将是全球首个基于「双金字塔」体系构建的物理AGI基础模型,目标是在物理智能的泛化能力上达到新高度。随后,GigaBrain-2与GigaBrain-3将加速推进Scaling进程。其中,GigaBrain-3计划基于1000万小时视频数据与100万小时世界-动作联合数据进行训练,剑指物理AGI领域的「GPT-3时刻」。

GigaBrain-3剑指物理AGI的「GPT-3时刻」
GPT-3在数字AGI历史上的里程碑意义,不在于模型本身,而在于它首次验证了Scaling Law的「涌现」临界点——当模型与数据规模突破某个阈值后,能力发生从量变到质变的跃迁。物理AGI的「GPT-3时刻」在理论上应是同构的:当数据规模(1000万+100万小时)与算法范式(双金字塔)达到某个临界点后,物理智能体将表现出真正意义上的通用能力。
这是一个可被检验的技术假设。未来12个月,行业将见证这个临界点是否真实存在,以及极佳视界设定的数据规模目标是否恰好落于该点之上。在当前的具身智能赛道,这种「以明确技术节点回应根本问题」的坦诚姿态并不多见——同行的回答往往停留在「即将到来」、「未来可期」、「五年内」等模糊的时间表述。
极佳视界将「物理AGI何时到来」这一宏大命题,拆解为「需要构建何种体系」与「何时达到临界点」两个具体的技术子命题,这正是本次发布会区别于其他同类发布的核心所在。
未来三大关键追踪点
一场发布会,将过去三年的技术积淀、当前的产品落地与未来12个月的技术蓝图,清晰地呈现出来。
从技术观察视角,接下来最值得持续追踪的有三件事:
第一,「双金字塔」体系能否真正跑通Scaling Law——五层数据与三层算法之间的耦合关系是否成立,将由GigaBrain-1(Q3发布)与GigaBrain-3(GPT-3时刻)分阶段验证。
第二,百台家庭部署能否形成有效的数据闭环——真实家庭长期使用数据是当前物理智能领域最稀缺的资产。若此闭环跑通,极佳视界在数据侧的护城河将随时间迅速加深。
第三,物理AGI的「GPT-3时刻」是否真的会在12个月内到来——这是当前赛道最具争议性,也最具兑现价值的核心判断。
过去半年,关于「物理AGI何时到来」的讨论已成为行业高频议题,英伟达、Figure、Physical Intelligence、银河通用、智元等参与者均给出了各自的展望。但截至目前,尚未有任何一家公司像极佳视界这样,将问题系统性地拆解为「算法+数据体系」与「明确时间表」的组合。
「系统性方法论」与「可验证时间表」的结合,构成了本次发布会最显著的差异化特质。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。