其他资讯物理AI排行榜

CVPR 2026物理AI排行榜：中国公司挑战英伟达特斯拉

2026-06-07

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

2026年AI领域最炙手可热的概念，无疑是“物理AI”。自动驾驶公司、车企、大模型厂商、投

2026年AI领域最炙手可热的概念，无疑是“物理AI”。

自动驾驶公司、车企、大模型厂商、投资人——每个参与者都在抢占这张牌桌。

概念一旦达成共识，真正的分水岭便浮出水面：谁能率先拿出完整技术栈、公开论文与代码，并在真实道路和量产车上跑通验证？

今年CVPR首次设立的“具身智能基座模型部署研讨会”，让这个问题的答案逐渐清晰。

这场会议汇聚了该赛道的核心玩家：特斯拉、英伟达、Waymo，以及唯一一家受邀的中国企业——小鹏。

美国EV头部媒体Electrek主编Fred Lambert，在CVPR 2026开幕前就注意到，小鹏的刘先明与特斯拉的Ashok Elluswamy将同台分享技术成果。

参与前沿AI讨论的团队不计其数，但能让特斯拉、Waymo、英伟达这类学术与产业顶尖玩家认真倾听的，少之又少。

小鹏正是其中之一。

与英伟达、特斯拉、Waymo同台，小鹏分享了哪些技术突破？

“具身智能基座模型部署研讨会”虽是CVPR首届，但延续了“Embodied AI Workshop”系列第七届的传统。

此类论坛采用特邀演讲制，邀请学术界与工业界顶尖专家分享最新研究成果。今年参与方包括Waymo、特斯拉、英伟达等全球物理AI第一梯队。

△ 从左至右，左3：刘先明，小鹏集团通用智能中心负责人；左5：Ashok Elluswamy，特斯拉AI软件副总裁；左6：Dragomir Anguelov，Waymo副总裁；

小鹏由通用智能中心负责人刘先明发表演讲。这是小鹏第三次受邀在CVPR演讲，但与前两次不同，此次首次完整展示了世界模型技术图谱。

△ 小鹏物理世界基座模型技术图谱

演讲基于团队近期发布的X-World、X-Foresight、X-Cache等系列论文，系统梳理了小鹏的世界模型技术体系。

演讲首先明确了一个核心工作：小鹏正在研发具备主动思考、可控生成与长时序推演能力的世界模型，该模型与第二代VLA共同构成小鹏物理AI的基模底座。

两者通过不同训练信号协同进化。

人类动作蕴含丰富的高层语义，隐式编码了感知、推理、意图、风险判断、社交互动及物理世界理解。

但这类监督信号在时间维度上相对稀疏——通常只能监督最终行为结果，难以覆盖促成该行为过程中的每一次潜在物理状态转移。

而世界模型从世界本身学习，不仅预测下一步动作，还能预测未来状态、未来观测或潜在空间中的未来表征。

相比之下，世界模型获得的监督信号更为密集：每一帧画面、每一次运动、每一次交互都能成为训练信号。本质上，它借鉴了大语言模型中“下一个Token预测”的范式，通过在海量未标注视频上进行下一帧或下一状态的密集预测，逐步掌握物理世界的动力学与因果结构。

在工程落地层面，VLA与世界模型路线常被视为两条“对立”的技术路线——但小鹏的答案是：让两者融合。具体做法是将稀疏的人类意图与密集的物理预测结合，使模型不仅学习“人类驾驶员会怎么做”，更深度理解“物理世界接下来会发生什么”。

双重目标并行演进，确保了系统在复杂环境下的可控性与安全性，也为自动驾驶赋予了更深层的物理感知与逻辑推理能力。

“VLA路线还是世界模型路线？”刘先明的回答是：小鹏物理世界基座模型，既是第二代VLA，也是世界模型。

回归物理AI，要真正学习客观世界知识，既需要真实世界的物理规律、因果逻辑、长时序推演；也需要在虚拟世界中反复练习——验证策略、应对长尾、闭环优化。

世界模型与VLA的协同进化，本质上是广义的数据驱动体系：从更大规模优质数据中萃取模型智能，既包含对人类行为的理解，也包含对世界知识的理解。

AI若要在物理世界中行动，需明确三件事：一是“如何行动”，二是“行动之后世界如何变化”，三是根据世界变化调整行动策略。这正是小鹏第二代VLA与世界模型分别承担的任务。

“如何行动”是去年刘先明CVPR演讲的主旨，介绍了小鹏第二代VLA的基础架构与训练方法。

而“行动之后世界如何变化”正是今年的演讲核心，即小鹏如何研发世界模型。通过小鹏团队近期的论文，可以更清晰地理解其世界模型。

如何让AI理解环境、时空与因果？

刘先明认为，优秀的世界模型必须具备三大能力：主动思考、可控生成、长时序推演。这既是智能的体现，也是世界模型在自动驾驶领域应用的前提。小鹏研发团队近期发布的几篇技术报告，恰好对应了这些关键能力。

X-World是基于视频扩散生成技术构建的可控多视角生成式世界模型，能在给定动作条件下生成符合物理约束的未来视频，并在持续生成过程中保持可控性与稳定性。该模型已投入小鹏的闭环仿真测试、在线强化学习、数据生成等研发环节。

X-Foresight是基于预测式世界模型的视觉-动作因果预测网络。它在架构上与VLA融为一体，在统一Token空间内联合预测未来多视角画面与自车动作，为VLA的控车决策提供核心支撑。其预测式决策逻辑迫使模型“理解世界”，掌握车辆、行人运动规律与场景因果链条。

X-Cache是面向少步自回归世界模型的跨段块级缓存，能在基本不牺牲画质的前提下减少约七成重复计算，对世界模型去噪主干实现最高约2.7倍推理加速。

刘先明还透露，近期将发表一篇名为“X-mind”的论文，解析模型如何“主动思考”，并可视化展示驾驶决策背后的中间推理过程。可解释性对自动驾驶软件调试、用户信任建立及模型快速迭代至关重要。

技术架构创新之外，Scaling Law对物理AI依然适用，且规模化红利才刚刚开始。

过去一年多，小鹏持续迭代模型、算力、数据三大核心维度，不断刷新基座模型性能上限。

目前，小鹏第二代VLA模型已实现十亿级参数量，依托上亿段视频片段完成训练，单版模型训练Token总量突破4万亿，数据与模型规模稳居行业第一梯队。

小鹏数据显示，截至今年3月的一年里，小鹏智算集群单GPU训练效率提升1010%，单任务训练效率暴涨4360%，GPU硬件利用率从40%拉升至90%，对齐国内头部AI企业水准。

不仅云端算力，小鹏对车端算力的挖掘同样极致。

通过芯片、编译器、模型软硬件深度协同自研，小鹏彻底激活了车端算力资源，将车端模型推理速度整体提升12倍。

刘先明公开的三组对照数据，直观印证了这套自研体系的优势：

通用芯片+开源模型方案，算力利用率仅22.8%，推理时延高达800毫秒；
小鹏图灵自研芯片+开源模型方案，算力利用率提升至35.1%，时延压缩至300毫秒；
全套自研组合——第二代VLA模型+图灵芯片，性能实现质变：算力利用率飙升至82.5%，推理时延直接压到80毫秒。

第二代VLA的量产表现，是对自动驾驶Scaling Law的最佳证明。

第二代VLA正式推送首月，搭载该系统的车型辅助驾驶里程占比突破50%。高阶智驾正从“可选配置”逐渐成为高频刚需。

每次软件升级背后，是小鹏模型的快速迭代。小鹏集团此前透露，研发团队从去年11月到今年3月，平均每天迭代4版模型。而“速度”本身就是AI时代的核心竞争力。

都在讲物理AI，小鹏有何不同？

首先，在从L2迈向L4的路径上，小鹏是首个拿出完整技术路线的公司。

车载AI已进入“模型智商”竞争阶段，不再只是比拼参数量或车端硬件堆砌。

例如，激光雷达受物理极限制约，频率较低且存在额外延迟损耗，每秒数据量仅百万级。

而摄像头响应更快、频率可大幅提升，每秒可产生数十亿级丰富视觉信息。

因此，激光雷达处理门槛虽低，但远距离精度差、易误判；而摄像头需要强大算力处理海量数据——但算力足够时，纯视觉的上限远超激光雷达。

这一趋势由特斯拉推动。马斯克坚持纯视觉，核心并非“传感器类型之争”，而是“哪种数据类型能更好支持超大规模数据驱动”——这才是自动驾驶第一性原理的本质。

小鹏第二代VLA就是最佳落地例证：不单靠更多摄像头或更高算力芯片，而是通过统一的物理世界基座模型，结合足够大的车端与云端算力，以及世界模型、路测数据，落地于物理世界的本体终端：

在参数规模、数据类型、底层架构上，小鹏二代VLA已全面超越传统自动驾驶模型，证明了AI在真实路采数据之外，能更高效地理解物理世界、解决Corner Case。

更深一层，小鹏的世界模型全栈技术体系已超越自动驾驶范畴。

它不仅仅是自动驾驶模型，更是统一的物理世界基座模型。多模态大模型的底层逻辑是通用的——它面向的不是“如何开车”，而是“如何理解并预判动态变化的物理世界”。

某种意义上，小鹏的世界模型并非教AI开车，而是教AI“看懂”物理世界——开车只是其中一种具体的“懂法”。

从智能汽车到人形机器人，这套方法论具备天然的跨域迁移能力。

当行业仍在将“物理AI”视为吸引资本的营销概念时，小鹏已率先建立了物理AI的数据飞轮闭环。

这不仅是技术领先，更是一次对物理AI话语体系的重新定义：

• 终结了VLA与世界模型技术路线的二元对立之争；
• 探索出L2升维L4的有效技术实现路径；
• 在自动驾驶上，探索出“萃取世界知识”的路径，再将其扩展到更多场景。

小鹏是CVPR的常客，连续三年站在全球AI顶会演讲台。这在全球车企中几乎独一份。

这种看似“错位”的竞争方式，恰恰解释了它常被归入科技公司而非传统车企阵营的原因。

数据也给出了答案：技术力就是吸引力。调研显示，超过60%的车主在购车决策中，将“智能驾驶能力”和“技术领先性”排在前三位。

他们选择的不是代步工具，而是一个持续进化、每月OTA的AI系统。从高速NGP到城市NGP，从规则驱动VLA到数据驱动世界模型——每一次技术跃迁，都直接转化为用户的驾驶体验与购买信心。

CVPR 2026的这次展示，是最新一次验证：小鹏的技术品牌，不是营销话术，而是一篇篇论文、一次次推送、一公里又一公里智能驾驶里程跑出来的。它已站在物理AI世界模型的最前沿。

这不仅是对智能汽车竞争的降维打击，更是对机器人、飞行汽车跨域迁移的铺垫。

2023年，小鹏首次站上CVPR，讲的是XNet——中国首个量产的BEV感知架构。

2025年，小鹏第二次登台，世界基座模型负责人刘先明抛出720亿参数基座模型理论，首次在行业验证了规模法则在自动驾驶VLA模型上的持续生效。

2026年，CVPR“具身智能的世界模型”分论坛上，小鹏第三次亮相，拿出了VLA与世界模型的思考，以及X-World、X-Foresight、X-Cache的完整技术栈，还有第二代VLA的量产验证数据。

四年时间，从工程实践到理论突破，再到量产落地。而量产验证，又为世界模型的规模化落地提供了真实反馈数据。

这种连续性，才是小鹏真正难以被追赶的护城河。

同样的连续性累积至今，成就了小鹏从“造车新势力”到“物理AI公司”的惊人一跃：

不仅仅为一款车打造一个AI，而是在为一个物理世界打造通用的认知基座。

来源：互联网

上一篇 Uber人力部门4个月耗尽全年预算大裁员官方否认AI关联 下一篇 AI浪潮下孩子成长护航：5大实用对策

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

CVPR 2026物理AI排行榜：中国公司挑战英伟达特斯拉

摘要

与英伟达、特斯拉、Waymo同台，小鹏分享了哪些技术突破？

如何让AI理解环境、时空与因果？

都在讲物理AI，小鹏有何不同？

相关文章推荐