菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > CVPR 2026物理AI排行榜:中国公司挑战英伟达特斯拉
其他资讯 物理AI排行榜

CVPR 2026物理AI排行榜:中国公司挑战英伟达特斯拉

2026-06-07
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

2026年AI领域最炙手可热的概念,无疑是“物理AI”。 自动驾驶公司、车企、大模型厂商、投

2026年AI领域最炙手可热的概念,无疑是“物理AI”。

自动驾驶公司、车企、大模型厂商、投资人——每个参与者都在抢占这张牌桌。

概念一旦达成共识,真正的分水岭便浮出水面:谁能率先拿出完整技术栈、公开论文与代码,并在真实道路和量产车上跑通验证?

今年CVPR首次设立的“具身智能基座模型部署研讨会”,让这个问题的答案逐渐清晰。

这场会议汇聚了该赛道的核心玩家:特斯拉、英伟达、Waymo,以及唯一一家受邀的中国企业——小鹏。

美国EV头部媒体Electrek主编Fred Lambert,在CVPR 2026开幕前就注意到,小鹏的刘先明与特斯拉的Ashok Elluswamy将同台分享技术成果。

参与前沿AI讨论的团队不计其数,但能让特斯拉、Waymo、英伟达这类学术与产业顶尖玩家认真倾听的,少之又少。

小鹏正是其中之一。

与英伟达、特斯拉、Waymo同台,小鹏分享了哪些技术突破?

“具身智能基座模型部署研讨会”虽是CVPR首届,但延续了“Embodied AI Workshop”系列第七届的传统。

此类论坛采用特邀演讲制,邀请学术界与工业界顶尖专家分享最新研究成果。今年参与方包括Waymo、特斯拉、英伟达等全球物理AI第一梯队。

△ 从左至右,左3:刘先明,小鹏集团通用智能中心负责人;左5:Ashok Elluswamy,特斯拉AI软件副总裁;左6:Dragomir Anguelov,Waymo副总裁;

小鹏由通用智能中心负责人刘先明发表演讲。这是小鹏第三次受邀在CVPR演讲,但与前两次不同,此次首次完整展示了世界模型技术图谱。

△ 小鹏物理世界基座模型技术图谱

演讲基于团队近期发布的X-World、X-Foresight、X-Cache等系列论文,系统梳理了小鹏的世界模型技术体系。

演讲首先明确了一个核心工作:小鹏正在研发具备主动思考、可控生成与长时序推演能力的世界模型,该模型与第二代VLA共同构成小鹏物理AI的基模底座。

两者通过不同训练信号协同进化。

人类动作蕴含丰富的高层语义,隐式编码了感知、推理、意图、风险判断、社交互动及物理世界理解。

但这类监督信号在时间维度上相对稀疏——通常只能监督最终行为结果,难以覆盖促成该行为过程中的每一次潜在物理状态转移。

而世界模型从世界本身学习,不仅预测下一步动作,还能预测未来状态、未来观测或潜在空间中的未来表征。

相比之下,世界模型获得的监督信号更为密集:每一帧画面、每一次运动、每一次交互都能成为训练信号。本质上,它借鉴了大语言模型中“下一个Token预测”的范式,通过在海量未标注视频上进行下一帧或下一状态的密集预测,逐步掌握物理世界的动力学与因果结构。

在工程落地层面,VLA与世界模型路线常被视为两条“对立”的技术路线——但小鹏的答案是:让两者融合。具体做法是将稀疏的人类意图与密集的物理预测结合,使模型不仅学习“人类驾驶员会怎么做”,更深度理解“物理世界接下来会发生什么”。

双重目标并行演进,确保了系统在复杂环境下的可控性与安全性,也为自动驾驶赋予了更深层的物理感知与逻辑推理能力。

“VLA路线还是世界模型路线?”刘先明的回答是:小鹏物理世界基座模型,既是第二代VLA,也是世界模型。

回归物理AI,要真正学习客观世界知识,既需要真实世界的物理规律、因果逻辑、长时序推演;也需要在虚拟世界中反复练习——验证策略、应对长尾、闭环优化。

世界模型与VLA的协同进化,本质上是广义的数据驱动体系:从更大规模优质数据中萃取模型智能,既包含对人类行为的理解,也包含对世界知识的理解。

AI若要在物理世界中行动,需明确三件事:一是“如何行动”,二是“行动之后世界如何变化”,三是根据世界变化调整行动策略。这正是小鹏第二代VLA与世界模型分别承担的任务。

“如何行动”是去年刘先明CVPR演讲的主旨,介绍了小鹏第二代VLA的基础架构与训练方法。

而“行动之后世界如何变化”正是今年的演讲核心,即小鹏如何研发世界模型。通过小鹏团队近期的论文,可以更清晰地理解其世界模型。

如何让AI理解环境、时空与因果?

刘先明认为,优秀的世界模型必须具备三大能力:主动思考、可控生成、长时序推演。这既是智能的体现,也是世界模型在自动驾驶领域应用的前提。小鹏研发团队近期发布的几篇技术报告,恰好对应了这些关键能力。

X-World是基于视频扩散生成技术构建的可控多视角生成式世界模型,能在给定动作条件下生成符合物理约束的未来视频,并在持续生成过程中保持可控性与稳定性。该模型已投入小鹏的闭环仿真测试、在线强化学习、数据生成等研发环节。

X-Foresight是基于预测式世界模型的视觉-动作因果预测网络。它在架构上与VLA融为一体,在统一Token空间内联合预测未来多视角画面与自车动作,为VLA的控车决策提供核心支撑。其预测式决策逻辑迫使模型“理解世界”,掌握车辆、行人运动规律与场景因果链条。

X-Cache是面向少步自回归世界模型的跨段块级缓存,能在基本不牺牲画质的前提下减少约七成重复计算,对世界模型去噪主干实现最高约2.7倍推理加速。

刘先明还透露,近期将发表一篇名为“X-mind”的论文,解析模型如何“主动思考”,并可视化展示驾驶决策背后的中间推理过程。可解释性对自动驾驶软件调试、用户信任建立及模型快速迭代至关重要。

技术架构创新之外,Scaling Law对物理AI依然适用,且规模化红利才刚刚开始。

过去一年多,小鹏持续迭代模型、算力、数据三大核心维度,不断刷新基座模型性能上限。

目前,小鹏第二代VLA模型已实现十亿级参数量,依托上亿段视频片段完成训练,单版模型训练Token总量突破4万亿,数据与模型规模稳居行业第一梯队。

小鹏数据显示,截至今年3月的一年里,小鹏智算集群单GPU训练效率提升1010%,单任务训练效率暴涨4360%,GPU硬件利用率从40%拉升至90%,对齐国内头部AI企业水准。

不仅云端算力,小鹏对车端算力的挖掘同样极致。

通过芯片、编译器、模型软硬件深度协同自研,小鹏彻底激活了车端算力资源,将车端模型推理速度整体提升12倍。

刘先明公开的三组对照数据,直观印证了这套自研体系的优势:

通用芯片+开源模型方案,算力利用率仅22.8%,推理时延高达800毫秒;
小鹏图灵自研芯片+开源模型方案,算力利用率提升至35.1%,时延压缩至300毫秒;
全套自研组合——第二代VLA模型+图灵芯片,性能实现质变:算力利用率飙升至82.5%,推理时延直接压到80毫秒。

第二代VLA的量产表现,是对自动驾驶Scaling Law的最佳证明。

第二代VLA正式推送首月,搭载该系统的车型辅助驾驶里程占比突破50%。高阶智驾正从“可选配置”逐渐成为高频刚需。

每次软件升级背后,是小鹏模型的快速迭代。小鹏集团此前透露,研发团队从去年11月到今年3月,平均每天迭代4版模型。而“速度”本身就是AI时代的核心竞争力。

都在讲物理AI,小鹏有何不同?

首先,在从L2迈向L4的路径上,小鹏是首个拿出完整技术路线的公司。

车载AI已进入“模型智商”竞争阶段,不再只是比拼参数量或车端硬件堆砌。

例如,激光雷达受物理极限制约,频率较低且存在额外延迟损耗,每秒数据量仅百万级。

而摄像头响应更快、频率可大幅提升,每秒可产生数十亿级丰富视觉信息。

因此,激光雷达处理门槛虽低,但远距离精度差、易误判;而摄像头需要强大算力处理海量数据——但算力足够时,纯视觉的上限远超激光雷达。

这一趋势由特斯拉推动。马斯克坚持纯视觉,核心并非“传感器类型之争”,而是“哪种数据类型能更好支持超大规模数据驱动”——这才是自动驾驶第一性原理的本质。

小鹏第二代VLA就是最佳落地例证:不单靠更多摄像头或更高算力芯片,而是通过统一的物理世界基座模型,结合足够大的车端与云端算力,以及世界模型、路测数据,落地于物理世界的本体终端:

在参数规模、数据类型、底层架构上,小鹏二代VLA已全面超越传统自动驾驶模型,证明了AI在真实路采数据之外,能更高效地理解物理世界、解决Corner Case。

更深一层,小鹏的世界模型全栈技术体系已超越自动驾驶范畴。

它不仅仅是自动驾驶模型,更是统一的物理世界基座模型。多模态大模型的底层逻辑是通用的——它面向的不是“如何开车”,而是“如何理解并预判动态变化的物理世界”。

某种意义上,小鹏的世界模型并非教AI开车,而是教AI“看懂”物理世界——开车只是其中一种具体的“懂法”。

从智能汽车到人形机器人,这套方法论具备天然的跨域迁移能力。

当行业仍在将“物理AI”视为吸引资本的营销概念时,小鹏已率先建立了物理AI的数据飞轮闭环。

这不仅是技术领先,更是一次对物理AI话语体系的重新定义:

• 终结了VLA与世界模型技术路线的二元对立之争;
• 探索出L2升维L4的有效技术实现路径;
• 在自动驾驶上,探索出“萃取世界知识”的路径,再将其扩展到更多场景。

小鹏是CVPR的常客,连续三年站在全球AI顶会演讲台。这在全球车企中几乎独一份。

这种看似“错位”的竞争方式,恰恰解释了它常被归入科技公司而非传统车企阵营的原因。

数据也给出了答案:技术力就是吸引力。调研显示,超过60%的车主在购车决策中,将“智能驾驶能力”和“技术领先性”排在前三位。

他们选择的不是代步工具,而是一个持续进化、每月OTA的AI系统。从高速NGP到城市NGP,从规则驱动VLA到数据驱动世界模型——每一次技术跃迁,都直接转化为用户的驾驶体验与购买信心。

CVPR 2026的这次展示,是最新一次验证:小鹏的技术品牌,不是营销话术,而是一篇篇论文、一次次推送、一公里又一公里智能驾驶里程跑出来的。它已站在物理AI世界模型的最前沿。

这不仅是对智能汽车竞争的降维打击,更是对机器人、飞行汽车跨域迁移的铺垫。

2023年,小鹏首次站上CVPR,讲的是XNet——中国首个量产的BEV感知架构。

2025年,小鹏第二次登台,世界基座模型负责人刘先明抛出720亿参数基座模型理论,首次在行业验证了规模法则在自动驾驶VLA模型上的持续生效。

2026年,CVPR“具身智能的世界模型”分论坛上,小鹏第三次亮相,拿出了VLA与世界模型的思考,以及X-World、X-Foresight、X-Cache的完整技术栈,还有第二代VLA的量产验证数据。

四年时间,从工程实践到理论突破,再到量产落地。而量产验证,又为世界模型的规模化落地提供了真实反馈数据。

这种连续性,才是小鹏真正难以被追赶的护城河。

同样的连续性累积至今,成就了小鹏从“造车新势力”到“物理AI公司”的惊人一跃:

不仅仅为一款车打造一个AI,而是在为一个物理世界打造通用的认知基座。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多