蔚小理的智驾，学不起

第一电动大牛作者汽车之心 2024-08-12 15:52

从未有任何一个 7 月的空气像今年这样紧张、焦灼。

7 月是蔚小理智驾赛程的关键赛点。像是提前商量好一样，蔚小理在上个月陆续开发布会，集中火力开炮。

7 月 5 日，理想开了夏季智驾发布会，将自己的核心技术全盘托出，有种掏凉粉自证端到端进展神速的紧绷感。

7 月 27 日，蔚来开了一年一度的 NIO IN，蔚来世界模型 NWM 成为重头戏。在这场发布会上，蔚来提到了很多闻所未闻的新名词，空间认知、时间认知、GOA、群体智能，蔚来似乎想要为这场端到端竞争增加一些新质感。

7 月 30 日，小鹏压轴登场却成为了三者中最为低调的一个。

在小鹏智驾 AI 技术发布日，小鹏临上场前在微博里自曝，当天的活动材料被团队小伙伴删掉了三四页，团队希望小鹏不要讲得太早。

结果，8 月 2 号华为就抢先公开，已实现车位到车位智驾，小鹏自动驾驶产品经理袁婷婷称，小鹏当天晚上忍住没有官宣的就是「车位到车位的端到端智驾」，原因是担心太激进。

一方面小鹏的谨慎与淡定似乎还昭示着作为头部智驾厂商的底气。

另一方面，可以确凿，随着新势力切入端到端，智驾竞争进入到只争分毫的焦灼状态。

小鹏以 AI 决定论，讲究磨刀不误砍柴工，理想则学习华为在智驾继续压强式投入，寻求突破点，而蔚来不紧不慢，换刀讲究自动驾驶质感。

三者各有特色，却也咬得很紧。

一种新的竞争形态，正全然被打开。如果说过去两年的竞争是 720P 画质的竞争，只能看到技术轮廓的竞争，那么接下来则是 4K 画质的竞争，比拼的不仅是框架，更要经得起用户拿着放大镜看细节，考察的是「知识的缝隙」，细微的差别变得更重要。

一位自动驾驶公司创始人这样形容：「今年的底线是无图，明年的底线是端到端量产」，足以显示出自动驾驶战场的焦灼。

现在，败下阵来的不是智驾能用或不能用，往往是好用或不好用。

01、理想：从差生，到绝对第一梯队

过去两年中，理想智驾被排除各种智驾榜单之外，原因是进展太慢。

此前，理想的重心并不放在智驾上，但去年开完雁栖湖战略会字后，一切都变了，自动驾驶成为了理想的重要战略之一。

在内部，理想的自动驾驶经历过三场战役，分别为泰坦计划、金苹果计划、达摩克里斯计划。

对应的是理想智驾的三个重要节点：

2023 年 12 月推送理想 AD Max 5.0 版本开通百城智驾；
2024 年 7 月推送 AD Max 6.0 版本全国无图智驾；
2024 年年底将量产端到端智驾；

去年 10 月，我们试驾理想 L8，当时开城如火如荼，阿维塔、问界、极越等车型都已经开通城区智驾，唯独理想和极氪尚未开通城区智驾，理想销售只能怯生生带我们去一条快速路试驾了一圈。

直至理想 AD Max 5.0 版本推出，才慢慢覆盖到全国 110 个城市的主干道路。

理想真正的分野并不是 5.0 到 6.0 版本，而是 6.0 到端到端的风暴式跳跃。

最近半个月，我们曾先后试驾理想 AD Max 6.0、端到端内测版，差别十分明显——端到端与 6.0 根本不在一个水平线上。

6.0 的博弈能力、拟人化能力、聪明程度都远远不如理想端到端。

举例两个场景，同样是二轮车，6.0 版本跟在二轮车后面行驶了约一分钟不敢超车，而端到端版本非常果断超车；在可用性上，6.0 版本在遇到深圳施工路段有自动退出现象发生，而端到端即便走到乡间小路也实测可开。

理想的智驾更像一个后进生在高考前半年决心奋起直追。

不同于其他车企，理想官方将其端到端描述为「One Model」端到端。

为了解释其技术路径，7 月 5 号理想智能驾驶夏季发布会一改往常新势力现场发布的风格，把理想智驾全线负责人拉过来做深入访谈，上半场介绍无图智驾 6.0 版本，下半场则由贾鹏、郎咸朋详解理想端到端。

理想的端到端有四大亮点：通用障碍物的理解能力、超视距导航能力、道路结构理解能力、拟人的规划能力。这四大能力对应的是底层的系统 1 端到端模型+系统 2VLM 模型。

理想这套双系统架构来自于丹尼尔·卡尼曼的《思考，快与慢》，系统 1 代表以来直觉与本能的快系统，由端到端来处理 95% 的路况，系统 2 则是有意识分析思考的慢系统，由 VLM 处理剩下的 5%。

在端到端模型中，理想的优势是数据、训练方法与模仿用来学习行驶轨迹。

数据：理想约有 200 亿公里的驾驶数据，并按照自定义的司机驾驶标准筛选出 100 万公里、年底 500 万公里的模型数据用于训练；
训练方法：模仿学习+强化学习；端到端的目的主要是模仿真实驾驶数据来学习行驶轨迹，但由于行驶轨迹无法判断驾驶行为好或者不好，为避免诡异的驾驶行为就融合了强化学习，让系统了解什么是错的，以此给系统惩罚。强化学习就来帮助端到端拥有对复杂环境的能力。
系统 1 和系统 2 的互补：22 亿的参数量的 VLM 大模型布置在了 OrinX 芯片上，在遇到复杂场景时系统 2 可以结合知识推理给给出更好的判断。比如，辨别潮汐车道、遇到坑洼车道给出减速建议。

这里有一个难题，理想，如何把 22 亿的巨大参数量布置在几百 TOPS 上的 OrinX，还做到了低延迟？

贾博士解释了这个问题，原始 VLM 最初有 4.1s 时延，能够缩短到最终的 0.3s 时延，这需要经历四个步骤：

第一步：增加了 LMM GPTQ，传统量化方法是用 AWQ，理想魔改了 GPTQ，解决内存带宽不足的问题，时延减少至 1.9s。

第二步：增加 VIT 算子融合，实现了 Tensor（张量）的算子融合，对 attention 算子进行深度优化，时延减少至 1.4s。

第三步：增加 LMM 投机采样，理想用自研的投机采样方法从每次推理只能输出一个 token 再到连续输入多个 Token，时延减少至 0.7s。

第四步：增加流式视频编码器，使用重复的视觉计算环节环节带宽压力，最终时延到了可以接受的 0.3s。

准确来说，理想并不只有双系统，在端到端＋VLM 模型系统之外，理想还存在第 3 个系统——世界模型。

这是理想为系统 1、系统 2 搭建的考试体系。3D 虚拟环境一眼假、效率低，重建式仿真容易出现车辆拖影行为，而生成式则存在不符合现实世界规律的幻觉问题。

因此，理想将重建式仿真、生成式仿真结合做出「世界模型」，相当用扩散模型重建现实世界，来做改版过的整体，把考试题做成有新视角的 3D 物理世界，用 3D 高斯溅射来做生成模型，来做模拟题，使其用用更好的泛化性，在这个世界里可以控制天气、车流，甚至时间。

理想在 7 月的这场竞争中是给料给得最多的，某种程度上也是向外界喊话：理想不惧竞争。

一个细节是，李想经常会问郎咸朋算力够不够，不够就再让谢炎弄点。

理想的智驾底气在于，理想实在是不愁卖。目前理想现金储备接近 1000 亿元，24 万智驾用户正嗷嗷待哺。

现在，理想已经对端到端投入了10 亿人民币，未来还打算投 10 亿美金。

朗咸朋认为，「先不说 L3/L4，想支撑 VLM 和端到端的训练，大概需要几十 EFLOPS云端算力。」

02、不把端到端看做解药的蔚来，慢了吗？

「蔚来智驾至少比理想慢两代」，一个微博大 V 博主在 7 月末曾这样评论蔚来。

蔚来真的慢了吗？

7 月 27 日，蔚来 NIO IN 的核心也是智驾，蔚来智能驾驶研发副总裁任少卿花了半个小时讲解了蔚来世界模型 NWN。

与理想把考试系统称之为世界模型不同，蔚来将自己的整套智驾方法论称之为世界模型。

2024 年上半年是蔚来的城区智驾发力之年，4 月底，蔚来推动了包含城区 NOA 的全域领航辅助 NOP+，覆盖全国 726 座城市，下一个节点就到了蔚来 Banyan2.6.5，该版本包含端到端 AEB 功能，目前蔚来仍未官宣端到端 OTA 的时间节点。

上个月我们试驾过 Banyan2.6.5 版本，在面对复杂路口及穿越行人时，仍然需要接管，但好的一点是蔚来的规划基本符合人类司机的预测范围，不会像其他智驾有太多超越人类不能理解的决策。整体可用，但到好用仍有一定差距。

蔚来为端到端做出的团队挑战与理想基本前后脚，经过上半年调整，蔚来的研发团队分为感知、规控和集成等部门。

调整后，感知和规控变成大模型团队，集成团队为交付团队。

紧接着就是在 NIO IN 的一系列「成果」的发布，在 NIO IN 现场，能看到蔚来的风格如同一名绅士一样，列好了数字，但不讲谁是第一，提到了端到端，但没有拉踩和比较。

蔚来正在尝试抛开用理工男的技术框架，用文科生的语言讲技术故事。

蔚来的世界模型 NWM 是一套用想象重建做空间认知、想象推演做时间认知，所构建的「多元、自回归生成式」模型结构。

说白了，就是左脑要先获取更多接近真实世界的信息，右脑要持续生成更长时间的信息。

任少卿认为，从信息抽取的角度而言，蔚来自动驾驶想象重建的能力经历过四个阶段：

第一阶段：2010—2020 年 2D/3D 检测，用框和线描述现实世界，信息量不多；
第二阶段：2021-2022 年 BEV 算法提取了更多信息，但缺少路边沿信息；
第三阶段：2022-2023 年 OCC，2D 信息的表达变成了 3D，但少了物体材质、天气特征等；
第四阶段：2024 年以后蔚来世界模型学习真实视频后，利用想象重构生成与现实世界基本一致的平行世界。

从想象推演的能力来说，蔚来依靠 NWM 可以生成了 2 分钟的长视频生成，超过了大多数视频生成软件。

有个案例很有意思，给蔚来世界模型一个车辆剐蹭的真实视频，让模型回到事故发生前 3 秒钟，此时世界模型就会在平行世界中做出多种决策，比如急刹车、打右转向等。

每 0.1 秒生成 216 个平行的可能轨迹，评估后选出最优解。

说实话，蔚来的这套打法比较奇特，在大家都说端到端的时候，不再刻意去提端到端，颇有种「你打你的，我打我的」作风——不再陷入别人的话语体系去打仗。

甚至，蔚来还在发布会最后做了张图以「空间理解、时间理解、使用海量数据」来对比常规端到端模型和蔚来世界模型的差别。

如果要考量蔚来的数据支撑，蔚来的智驾云端总算力 287.1 EOPS、智驾用户 53 万、智能驾驶城区累计验证总里程已达 3.7 亿公里，全域领航辅助 NOP+可用道路总里程 389.9 万公里。

蔚来的野心需要支撑，而这些支撑点看似是群体智能、生成式仿真，实则是蔚来希望用符合品牌调性的话语体系，在自动驾驶争夺赛中独树一帜。

你和李斌聊专利、聊数据，但李斌会提到蔚来的愿景是希望创造一个不一样的蔚来社区文化，要从技术、产品、服务、社区四个维度去看企业的长期竞争力。

李斌认为，蔚来已经做好了足够的思想准备，每个季度投入 30 亿研发费用，一年投入一百多亿研发费用，让蔚来拥有参加智能化决赛的机会。

03、小鹏磨刀，磨刀不误砍柴工

某种程度上，小鹏和李斌的很多观念都特别像。

一样强调技术底色，强调要按照建一百层楼的标准去打地基。

目前与其他两家一样，小鹏最近也完成了针对端到端的组织架构调整，技术开发部被拆成了三个部门，分别是AI 端到端、AI 应用、AI 能效。

而区别是，小鹏是新势力中唯一被贴上智驾标签的车企。

好处是随着智驾走高，小鹏只要保持竞争优势，销量也会随即走高，劣势是在市场对于智驾认可度还没有那么广泛的时候，智驾不会是显性优势。

被贴上智驾标签的小鹏，在实际表现中也没让人失望过。

在我们做过的智驾实测中，小鹏是目前所有拥有智驾车型中唯一一个可以拐 U 型弯的，而包括华为在内的其他智驾车对此类场景仍束手无策。

不同于其他新势力智驾发布会着急秀肌肉，在 7 月 30 号的智驾发布会上，或许是面对焦灼的行业气死而变得谨慎，或许是作为三好学生的一种防备，小鹏没有再仔细拓展讲自己的量产端到端智驾大模型架构（神经网络 XNet+规控大模型 XPlanner+大语言模型 XBrain），而是更加地气，围绕小鹏 XNGP 的智驾更迭、智驾产品功能展开。

小鹏 XNGP 分为四个阶段：

全国都能开第一阶段/第二阶段——全国都好用第一阶段/第二阶段。