菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 小米OneVL自动驾驶模型开源发布:权威测评与核心技术解析
其他资讯

小米OneVL自动驾驶模型开源发布:权威测评与核心技术解析

2026-05-14
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

小米开源了自动驾驶模型XiaomiOneVL,该框架首次将视觉语言模型与世界模型统一,显著提升

小米技术团队近日开源了Xiaomi OneVL,这是一个一步式的潜空间语言视觉推理框架。该框架创新性地将视觉语言模型、世界模型与潜空间推理技术整合于统一架构之下,在保持强大语言推理能力的同时,显著优化了推理速度与精度。其性能表现卓越,在精度上超越了传统的显式思维链方法,在推理速度上则可与高效的潜空间思维链方案相媲美。

过去,视觉语言模型和世界模型在自动驾驶领域通常各自发展:视觉语言模型精于实时场景理解与决策生成,而世界模型则专注于对未来场景演变的精准预测。Xiaomi OneVL通过其核心的潜空间推理技术,成功实现了这两大技术路径的深度融合。

在涵盖感知、推理与规划的多个权威评测基准中,Xiaomi OneVL均刷新了潜空间推理方法的性能记录。

如图所示,该框架在ROADWork、Impromptu、Alpamayo-R1等关键基准测试中均达到了领先水平,并在NA VSIM基准上展现了优异的性能。

Xiaomi OneVL的另一大亮点是提供了语言与视觉双维度的决策可解释性。系统不仅能以自然语言阐述其驾驶决策的逻辑依据,还能通过生成的预测画面,直观呈现对后续场景的推演,这极大地增强了模型行为的透明度和可信度。

上图清晰地展示了这种语言与视觉并行的可解释性输出。

目前,小米已全面开源Xiaomi OneVL的模型权重、训练代码及推理代码,相关资源如下:

技术报告:https://arxiv.org/abs/2604.18486
项目主页:https://Xiaomi-Embodied-Intelligence.github.io/OneVL
开源代码:https://github.com/xiaomi-research/onevl

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多