UniAD大模型开路，智能车驶入AGI时代

第一电动大牛作者 HiEV 2024-05-13 19:59

作者 |老缅

编辑 |德新

在刚刚结束不久的北京车展上，除一众明星车型亮相，供应链企业也开始大秀肌肉，其中尤其以端到端大模型为代表，焕新一代的智驾技术栈掀起了新一轮热潮。

作为首个提出感知决策一体化自动驾驶通用模型的公司，商汤绝影也在这次车展上第一次向公众展示了面向量产的端到端自动驾驶解决方案UniAD（Unified Autonomous Driving）的道路测试表现。

一、UniAD，让智能驾驶「像人一样」

相信不少用户已经关注到，今年以来，几乎所有车企或产业链公司在宣传智驾时，最常用的形容词之一，就是「媲美真人驾驶」。

端到端大模型的出现，其重要方向之一就是解决「驾驶拟人化」的问题。

商汤绝影在这次北京车展上，展示出了在无高精地图、仅靠视觉感知的实际道路测试成果：

无论是城市道路还是无线的乡村道路上，搭载UniAD的车辆都能准确地完成大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。

通常城市道路错综复杂，乡村道路更是路况难测，比如永远不知道什么时候会有慢行车挡路；什么时候会有电动小三轮突然从侧方出现；什么时候前方会有占道施工或临时堵塞等等。

这种无固定性、遇到情况需要依靠车主自身经验解决的行驶场景，在自动驾驶领域被称之为Corner Case。

尽管类似场景和挑战，在整个驾驶过程中的占比可能不到10%，能否解决这样的场景，却是智驾从定位「小众科技」赢得大众信任的关键，也是智驾系统安全性的关键。

随着城区智驾成为高阶智驾竞争的主战场，场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则，无法应对数量无限的复杂场景和长尾路况。

基于此，端到端技术的出现开辟了一条新路径，将智驾的开发范式从铺设大量人力，转变为持续算力投入和高质量数据输入。

今年年初，特斯拉开始向部分用户推送FSD V12版本的端到端自动驾驶方案，业内也出现了越来越多的端到端智驾方案，不过大部分端到端方案采用的是更容易落地的由感知和决策两个模型组成的「两段式」架构，两个模型之间依然存在信息传递过滤或丢失的问题。

而UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型，也就是一个完全感知决策一体化的「端到端」技术栈。

借助商汤科技大装置的算力、高质量仿真数据以及模型性能，UniAD端到端方案有更高的能力上限，以及强大的学习和思考能力；数据驱动的端到端模型泛化能力强、迭代效率快，可以帮助车企低成本快速开城；纯视觉感知的无图方案，进一步降低系统的软硬件成本，助力智驾普及，实现全国都能开。

在端到端系统基础上，商汤绝影在这次车展期间还介绍了新一代自动驾驶大模型DriveAGI，推动自动驾驶从数据驱动向认知驱动的跃迁。

二、大模型登陆小米SU7，智能座舱升维开卷

在此之前的4月23日，商汤科技发布全新升级的「日日新SenseNova 5.0」大模型。

据悉，6000亿参数的「日日新5.0」采用混合专家架构（MOE），具备更强的知识、数学、推理及代码能力，成为国内首个全面对标甚至超越GPT-4 Turbo的大模型，多模态能力领先GPT-4V。

基于端云结合的架构，商汤端侧大模型大幅超越同量级大模型，越级比肩7B、13B大模型，更适合车端部署。

据官方透露，前不久上市的小米SU7将AI大模型带进座舱，而商汤日日新大模型也全面助力小爱同学车载语音场景应用。

但这不是商汤绝影发力座舱体验升维的全部。

据悉，商汤绝影从去年发售的Apple Vision Pro汲取灵感，凭借感知技术和高效的迭代效率，将3D Gaze高精视线交互和3D动态手势交互这两大全新座舱3D交互演示带到现场，让观众体验到更符合人类直觉的舱内交互方式，推动座舱交互向更安全、更便利的3D交互升维进化。

据现场演示，操作人员坐在模仿座舱的屏幕前，通过3D Gaze高精视线交互和3D动态手势交互，方法与Apple Vision Pro相类似。据说，这是全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术。

目前，采用「非接触式」交互已经成为智能座舱交互革命的必然趋势，而视线交互是最为直接和便捷的方案之一。但过去，受限于精度等原因，DMS通常只能做到分心监测等舱内大面积区域的识别，很难通过它进行具体的交互动作。

商汤绝影全球首创3D Gaze高精视线交互，通过提升视线的精度，能精准识别到驾驶员注视中控屏或者后排用户看向后排屏幕的具体的某个图标并进行交互，实现「所见即所选」。

这背后，是一套「千人千眼」的高精度三维眼球模型。

商汤绝影使用先进的眼动追踪技术和高精度的眼部成像设备，收集并分析驾驶员的眼部数据，精准为每个人的定制个性化的眼球模型，再以「千人千眼」的高精度三维眼球模型为基础，结合创新的亚像素级细节定位和信息融合技术，突破了座舱场景下的视线精度难题，配合手势、语音甚至是眨眼等方式，将给用户带来更智能、更个性化的舱内视觉交互体验。

3D动态手势交互则是以超高精的三维手部重建为基础，实时捕捉、识别与分析用户的三维手势动作，实现对车辆功能控制的技术，能让用户通过手势隔空进行各类座舱交互。

商汤绝影表示，已经实现这两大舱内3D交互功能相互配合，如同Vision Pro裸眼上车，革命性改变了座舱交互的方式，让用户从传统的物理按键和屏幕触控方式中解脱出来，打造更符合人类直觉的自然交互体验。