小米自动驾驶模型OneVL测评:多模态推理能力深度解析
摘要
小米推出的XiaomiOneVL是一款自动驾驶多模态推理模型,将视觉、语言与动作控制整合到统一
Xiaomi OneVL 技术概览
小米推出的Xiaomi OneVL,是一款面向自动驾驶与具身智能的多模态推理模型。它通过统一的潜空间框架,将视觉感知、语言理解与动作决策深度融合,旨在为复杂动态环境下的实时规划提供端到端解决方案。
- 模型名称:Xiaomi OneVL
- 开发公司:小米 Xiaomi Tech
- 发布时间:2026年5月
- 模型定位:一步式潜空间VLA推理模型
- 核心能力:支持视觉、语言与动作联合推理
- 技术特点:采用Latent Token并行推理机制
- 推理速度:最低延迟约0.24秒,据官方论文数据
- 多模态能力:支持轨迹规划与未来帧预测
- 是否开源:模型权重与代码已开放
- API支持:目前未公布商业API
- 适用场景:自动驾驶、机器人与世界模型研究
- 使用要求:需要GPU与自动驾驶数据集环境
- 价格情况:当前以开源研究形式提供
Xiaomi OneVL的核心优势
Xiaomi OneVL的设计聚焦于解决自动驾驶系统在实时性与协同性上的关键瓶颈,其核心优势体现在以下五个方面:
- 统一推理架构:该模型摒弃了传统模块化系统,将视觉语言动作(VLA)推理、世界模型预测与轨迹规划整合进单一潜空间框架。这种一体化设计减少了模块间信息传递的延迟与损耗,官方测试数据显示其能显著提升复杂场景下的规划稳定性。
- 低延迟推理:模型采用Latent Token并行生成机制,替代了传统的长链自回归推理。这一技术路径使其最低推理延迟达到约0.24秒(基于2026年官方数据),为车端实时决策提供了关键的性能基础。
- 双监督训练:训练过程融合了语言推理监督与未来帧预测监督,使模型同时掌握任务指令的逻辑语义与物理环境的动态演变规律。这种双管齐下的策略增强了模型在复杂交通交互中的轨迹预测鲁棒性。
- 开源研究支持:小米选择全面开源,公开了模型权重、训练代码及推理脚本。此举为学术机构与研发团队提供了直接的实验平台,大幅降低了前沿VLA模型的研究与二次开发门槛。
- 多模态协同:模型能够同步处理道路视频流、导航指令文本及车辆状态信息,并据此生成综合驾驶策略。其规划能力在测试中表现优于传统的潜空间思维链(CoT)结构。
Xiaomi OneVL的核心功能
基于其技术架构,Xiaomi OneVL可实现以下具体功能:
- 路径规划:输入实时道路视频与导航路线,模型可直接输出包含转向、避障、制动等指令的驾驶策略,适用于十字路口等复杂场景的实时轨迹生成。
- 视觉语言动作协同:实现端到端的VLA推理。例如,输入“避让前方行人后右转”的指令,模型能理解语义并生成相应的车辆控制序列,在指令与动作的对齐能力上有所提升。
- 未来场景预测:通过内置的世界模型组件,预测未来数秒的道路状态变化,如周边车辆轨迹或行人移动趋势,为决策提供宝贵的提前量。
- 并行推理机制:Latent Token并行生成方式显著减少了传统逐Token推理的计算等待时间,官方数据证实其在复杂场景下能带来可观的推理效率增益。
- 车端实时部署:设计之初即考虑落地,支持与TensorRT等推理引擎集成,可采用FP16混合精度方案进行优化,适用于自动泊车、动态避障等高实时性要求的车端场景。
Xiaomi OneVL的技术原理
理解其功能表现,需探究背后的技术脉络:
- 潜空间推理:模型核心。使用潜空间(Latent Space)中的Token替代冗长的文本思维链进行推理,有效规避了传统CoT结构的高延迟与计算负担。
- 双解码器结构:包含语言解码器与视觉世界模型模块。前者负责逻辑推理与指令生成,后者负责未来帧预测,两者协同增强了对环境动态的理解。
- 三阶段训练:训练分三步进行:轨迹对齐、语言监督引入、视觉预测联合训练。这种渐进式方案有助于提升模型在复杂场景中的泛化与适应能力。
- VLA统一框架:将视觉感知、语言理解与动作决策三个传统分离的环节,整合到同一神经网络架构中,减少了模块化系统固有的信息损失与链路延迟。
- 世界模型预测:通过让模型学习生成未来道路画面,使其内化交通环境的演变规律。这种对未来的建模能力直接提升了长期路径规划与复杂环境推理的可靠性。
Xiaomi OneVL与主流模型对比
| 对比维度 | Xiaomi OneVL | NVIDIA Cosmos | Wayve GAIA-1 | DriveGPT4 |
|---|---|---|---|---|
| 发布时间 | 2026年5月 | 2025年 | 2024年 | 2023年 |
| 核心定位 | 潜空间VLA推理 | 世界模型生成 | 驾驶预测模型 | 驾驶LLM |
| 多模态能力 | 视觉+语言+动作 | 视觉生成 | 视觉预测 | 视觉语言理解 |
| 推理机制 | Latent并行推理 | 生成式推理 | 时序预测 | 自回归生成 |
| 车端部署 | 支持 | 偏训练模拟 | 研究阶段 | 延迟较高 |
| 是否开源 | 是 | 部分开放 | 否 | 否 |
对比揭示了各模型的技术侧重点。Xiaomi OneVL的核心追求是低延迟潜空间推理与实时规划能力,其速度优势源于Latent Token并行架构。NVIDIA Cosmos侧重于世界模型的训练与生成,Wayve GAIA-1专注于驾驶场景的未来预测,而DriveGPT4则强化多模态语言理解。这些差异反映了厂商在自动驾驶技术路径上的不同选择。
如何使用Xiaomi OneVL
研究者可按以下步骤部署与使用Xiaomi OneVL:
- 准备环境:需配置Linux系统、CUDA及GPU资源,建议显存不低于24GB。安装Python 3.10及以上版本以确保兼容性。
- 配置数据:准备道路视频、车辆轨迹及环境状态数据用于推理或微调。可使用NuScenes或Waymo等主流数据集,预处理时需注意控制视频分辨率以管理显存占用。
- 设置参数:运行时关键可调参数包括Latent Token数量与未来帧预测长度。适当增加“Future Horizon”可增强长期规划能力,但会相应增加计算开销。
- 优化部署:针对车端部署,可利用TensorRT进行引擎优化,并启用FP16混合精度推理。通过调整预测长度等参数,在精度与延迟间取得平衡。
- 验证结果:部署后,必须在多样化复杂道路场景中进行充分测试,验证模型对行人、车辆、车道线等关键元素的识别与决策准确性,规避数据偏差影响。
Xiaomi OneVL的局限性
作为一个研究导向的模型,Xiaomi OneVL目前存在以下限制:
- 商业接口有限:模型主要服务于研究与开源生态,官方尚未提供稳定的商业API服务,企业级产品集成面临一定挑战。
- 训练资源需求高:涉及世界模型与多模态联合训练,对GPU算力与高质量标注数据集的依赖度极高,对中小型团队构成显著的资源门槛。
- 复杂场景仍有误差:在极端天气、夜间低光照或极度密集车流等长尾场景中,模型的预测仍可能出现偏差。官方论文指出,这是后续版本需要持续优化的方向。
Xiaomi OneVL相关资源
- 项目官网:https://xiaomi-embodied-intelligence.github.io/OneVL/
- GitHub仓库:https://github.com/xiaomi-research/onevl
- arXiv技术论文:https://arxiv.org/pdf/2604.18486
Xiaomi OneVL的典型应用场景
- 城区辅助驾驶:处理城市道路复杂交通流,结合导航指令,实现实时转向、跟车、避障等动态规划。
- 自动泊车:在停车场环境中,依据实时画面与车位信息,预测周围动态并生成安全、高效的泊车轨迹。
- 机器人控制:为移动机器人提供基于视觉与语言指令的导航与决策能力,适用于存在动态障碍物的非结构化环境。
- 交通行为预测:作为分析工具,根据历史交通视频预测车辆、行人的未来轨迹,用于交通流研究与风险评估。
- 仿真训练:在自动驾驶仿真平台中,利用其规划能力生成大量测试用例,或用于验证其他感知、决策算法的性能。
Xiaomi OneVL常见问题
Xiaomi OneVL怎么用?
目前主要通过其官方GitHub仓库获取代码与模型权重,在配置好的GPU环境中自行部署与推理。
Xiaomi OneVL如何计费?
模型以开源形式发布,供研究免费使用。官方尚未公布任何商业API的收费方案。
Xiaomi OneVL和DriveGPT4哪个好?
取决于具体需求。若追求低延迟与车端实时规划,Xiaomi OneVL的潜空间推理架构更具优势;若研究重点是多模态语言理解与交互,DriveGPT4可能更合适。两者代表了不同的技术路径。
Xiaomi OneVL支持实时自动驾驶吗?
从其设计目标与官方数据(最低约0.24秒延迟)看,它具备支持实时辅助驾驶的潜力。但需注意,在极端复杂场景下仍可能出现误差,目前更建议用于辅助驾驶研究与测试验证。
Xiaomi OneVL免费吗?
是的,模型权重与代码免费开源。但运行与训练需要较高的GPU算力,这部分硬件成本需使用者自行承担。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。