其他资讯

小米OneVL自动驾驶模型开源发布：权威测评与核心技术解析

2026-05-14

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

小米开源了自动驾驶模型XiaomiOneVL，该框架首次将视觉语言模型与世界模型统一，显著提升

小米技术团队近日开源了Xiaomi OneVL，这是一个一步式的潜空间语言视觉推理框架。该框架创新性地将视觉语言模型、世界模型与潜空间推理技术整合于统一架构之下，在保持强大语言推理能力的同时，显著优化了推理速度与精度。其性能表现卓越，在精度上超越了传统的显式思维链方法，在推理速度上则可与高效的潜空间思维链方案相媲美。

过去，视觉语言模型和世界模型在自动驾驶领域通常各自发展：视觉语言模型精于实时场景理解与决策生成，而世界模型则专注于对未来场景演变的精准预测。Xiaomi OneVL通过其核心的潜空间推理技术，成功实现了这两大技术路径的深度融合。

在涵盖感知、推理与规划的多个权威评测基准中，Xiaomi OneVL均刷新了潜空间推理方法的性能记录。

如图所示，该框架在ROADWork、Impromptu、Alpamayo-R1等关键基准测试中均达到了领先水平，并在NA VSIM基准上展现了优异的性能。

Xiaomi OneVL的另一大亮点是提供了语言与视觉双维度的决策可解释性。系统不仅能以自然语言阐述其驾驶决策的逻辑依据，还能通过生成的预测画面，直观呈现对后续场景的推演，这极大地增强了模型行为的透明度和可信度。

上图清晰地展示了这种语言与视觉并行的可解释性输出。

目前，小米已全面开源Xiaomi OneVL的模型权重、训练代码及推理代码，相关资源如下：

技术报告：https://arxiv.org/abs/2604.18486
项目主页：https://Xiaomi-Embodied-Intelligence.github.io/OneVL
开源代码：https://github.com/xiaomi-research/onevl

来源：互联网

上一篇 四川盆地页岩气田探明储量2356亿立方米：权威榜单与深度解析 下一篇 虹梅杯AI应用大赛：首届创新技能赛程与参赛指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

小米OneVL自动驾驶模型开源发布：权威测评与核心技术解析

摘要

相关文章推荐