5月13日,小米技术宣布正式发布并开源了XiaomiOneVL一步式潜空间语言视觉推理框架。这一模型在行业内首次实现了VLA、世界模型、潜空间推理等多个技术路线的统一,不仅提升了推理的速度和精度,还在精度上超越了显式CoT,在速度上与“仅答案”预测的潜空间CoT方案对齐。
XiaomiOneVL通过潜空间推理,将VLA和世界模型这两条
自动驾驶领域的独立技术路线统一到同一套框架中。该框架在感知、推理与规划的多个主流基准上刷新了潜在推理方法的性能上限,在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA,并在NAVSIM上取得了优越性能。此外,XiaomiOneVL还能为模型决策提供语言和视觉双维度的可解释性,既能用文字说明“为什么这样开”,也能用预测画面展示“接下来会发生什么”。
小米已将XiaomiOneVL的模型权重和训练、推理代码全面开源,技术报告、项目主页和开源代码的链接已提供,以供业界参考和使用。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。