离开自动驾驶转战机器人，避风港or竞技场？

第一电动大牛作者智车星球 2023-09-27 09:48

机器人，正在成为很多离开自动驾驶赛道玩家的下一站。

这倒不太令人意外。毕竟，环境感知、规划决策、执行控制，这些我们在自动驾驶领域耳熟能详的关键技术，在机器人领域同样需要。

而另一个更关键的原因，是资本开始对机器人展现出了远超自动驾驶的热情。

“最近和不少从自动驾驶赛道出来的人聊过，他们都在咨询我机器人创业的事。”剑寒告诉智车星球。

剑寒是清华大学一名年轻的助理教授，主要研究领域是机器人相关的计算机视觉，尤其是三维场景理解和自动驾驶领域。

在剑寒提到的聊天名单中，有好几个是前不久从干线自动驾驶赛道中退出的创业者。

“还有不少投资人也在问我要不要出来自己做，我身边也有不少青年科学家开始在这个赛道创业了。”

资本的热情很高，热钱很多，对于身处学术界的剑寒来说，这是对目前机器人赛道的最直观感受。

而产业界的人，这样的体会会更早。

“从资本的视角来看，L4级自动驾驶似乎已经进入了其资本生命周期的末期。海外公司Nuro进行了大量的裁员，但尚未实现盈利；阿里巴巴也关闭了达摩院的自动驾驶项目，更早之前，亚马逊已经放弃了其低速自动驾驶配送服务——Amazon Scout。这些事件都被视为市场正在释放的警报信号，而资本市场对这类信号极为敏感。然而目前来看，机器人领域仍然保持着较为积极的市场态势。”

今年5月，在与优时科技的CEO林锫森交流时，他也提及了资本市场对L4级自动驾驶的生命周期看法。“随着ChatGPT的来临，资本市场的注意力似乎开始转向AIGC领域，与此同时，L4级自动驾驶的实际应用和成效却显得更为长远和不确定。”

而随着“华为天才少年”稚晖君带着大模型AI机器人“远征 A1”实机登台、原阿里达摩院自动驾驶负责人陈俊波明确了有鹿机器人在“具身智能”领域的创业方向，这场关于大模型+机器人的创业风暴，正在愈刮愈烈。

—

这件事为何迷人？

关于原子弹，最有价值的情报就是它可以被造出来。

这句话最近一次的代表性印证，就是ChatGPT出现后，国内各种大模型就如雨后春笋般冒了出来。

同样的情况也出现在机器人赛道， “尤其是在看到谷歌DeepMind发布的机器人大模型RT-2和李飞飞团队带来的VoxPoser展示后，来找我聊机器人创业的投资人更多了。”剑寒说道。

谷歌的RT-2是基于Transformer架构来做的，但却是一种全新的“视觉-语言-行动”（VLA）模型。它是根据互联网上的文本和图像进行训练，让机器人学习“知识”，从而完成创造性任务。

用大白话说，通过RT-2模型的训练，机器人能像人一样，将学到的概念应用于全新的情境中。

举个例子，如果我们希望机器人去厨房的冰箱中拿一个苹果，普通机器人的执行过程一般包括以下几个环节：

1、任务定义与描述（去接一杯水）；

2、把任务拆解成一个一个细小动作（进入厨房、打开冰箱、拿出苹果、关闭冰箱等）；

3、工程师根据分解动作对机器人进行编程，生成代码；

4、控制-执行-反馈。

这些都是传统意义上机器人控制的主要功能，在大模型之前，通常只有第四步的控制和反馈环节由计算机自动完成，之前的任务定义、拆解和机器人运动代码生成等主要由工程师完成。

之所以需要工程师进行大量的任务拆解和编程工作，是因为普通机器人控制系统不具备通识理解能力和某些专业技能，无法把任务目标和需要执行的动作联系起来。

比如在人类看来很简单的打开冰箱，对机器人来讲就有很多挑战，冰箱的大小款式不尽相同，机器人首先要理解面对的是一个怎样的冰箱，该如何开启，开启冷藏还是冷冻层才能找到苹果。这些对于人类来讲是常识的事，都需要工程师通过代码一行行写出来。

但对于RT-2、Voxposer这类机器人，你只需将互联网数据中有关冰箱、苹果的概念和知识（图片、视频、文本等）直接传递给机器人，让机器人通过“学习”这些概念和知识，逐步构建相关的概念框架，就能让从未受过拿苹果训练的机器人，知道怎么打开冰箱拿苹果。

这就是所谓的零样本或小样本学习，通过应用大模型的理解能力，这种路径规划任务的学习过程不需要大量的训练数据就能完成。

比如下图，当人类用自然语言给Voxposer下达“打开上面的抽屉，小心花瓶！”的指令时，大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划。

一旦大模型的通识理解能有效赋能机器人，让机器人能听懂任务描述、自动进行任务分解和程序生成，并最终完成任务交互，一个能帮你跑腿、打扫房间、照顾老人的机器人就将成为现实，其商业价值也将成倍增长。

—

变数是大模型？

当然，在达到这些对机器人未来应用的美好幻想前，要做的工作、要明确的问题还有很多。因此，对于入局，剑寒很谨慎，

“现阶段是一个技术和发展方向非常不明朗的阶段，比如要不要端对端，要不要依靠大模型，到底是通用还是垂直，可选路径太多。”

对此，林锫森也表达了相似的观点，特别是关于这场变革的核心——大模型，“大模型的变化实在是太快了，而且 Google 和 OpenAI 对比开源社群的开源方案，并没有坚不可摧的壁垒。” 林锫森说道。

今年7月Meta开源了LLama2大模型。一个月后，OpenAI正式开放GPT-3.5微调API，所有开发者都可以对GPT-3.5 Turbo进行微调。有开发者在微调GPT-3.5 Turbo后，在具体任务中，性能与GPT-4实力相当，甚至反超GPT-4。

“如果基于GPT-3.5进行优化，当你经过艰苦努力，优化到一定程度后，GPT-5很可能又已经发布了。”林锫森解释道。可能市场还要等多一些数据点后，会有较明朗的发展思路。

这不禁人让人想到那家2020年底诞生，花费18个月成为独角兽的AIGC企业——Jasper。

凭借让AI帮人写文案这个卖点，Jasper在截至2022年底共完成了3轮融资，筹集到1.31亿美元，估值超过15亿美元。

但2023年初，ChatGPT风靡全球，金主们掀起Jasper的“头盖骨”，发现其内容生产软件Jasper.ai就是基于GPT-3构建的。这意味着，Jasper毫无技术护城河，产品极易被复制，无法在竞争中保持领先地位。

很快，Jasper就开启了裁员，业内一片哗然。

因此，当产品的核心模块中包含大模型，如何保持领先性，是一个大问题。

金沙江创投董事总经理朱啸虎就曾在朋友圈表示，“不要迷信通用大模型，明年3.5就成commodity，3年后4也将是commodity。对于大部分创业者，场景优先，数据为王。”

—

10倍好的解决方案

但一旦落地到某一垂直场景中，效率和成本这两个“紧箍咒”，又会是让不少科技公司拔掉一层皮的存在。

比如，一个传菜机器人，并不能完全替代一个服务员。一个人服务员的工作除了传菜，还可能有清洁、点单、结账等。一个普通机器人，往往只能解决某一个高频简单问题。且在餐厅场景中，无法通过增加机器人工作时长来平衡效率不如人类的问题。

这些一直存在的问题，即便叠上大模型的buff，也很难快速得到有效解决。

目前，有不少人形机器人创业公司不约而同地选择了仓库搬箱子场景。

原因很好理解，仓库场景封闭、需要足够多的搬运工具且可以通过夜间作业或低频长时搬运等方式弥补同时间效率不如人工的问题。这些理由，与选择叉车作为落地自动驾驶技术的企业并无二致。

只是相比于已经初步证明自己商业化价值的自动驾驶叉车，这些“人形高达”要证明自己的难度会更大。

“AI应用最难的就是PMF（Product Market Fit的简写，是指产品和市场达到最佳的契合点），什么是合格的PMF，见到客户就能签单或者至少PoC（Proof of Concept，即概念验证。通常是企业进行产品选型时或开展外部实施项目前，进行的一种产品或供应商能力验证工作）。为什么要求这么严格?因为中国投资人对中国软件企业收入缓慢的增长速度伤透心了，只有见面就能签单才能实现AI应用收入像消费公司一样的增长速度。怎么做到见面就能签单？至少为客户创造10倍以上的价值。”朱啸虎的这个结论不仅适用于AI应用，套了一层物理外科的机器人也是同样。

这里的10倍以上的价值并不是随口而来的数，它最早出自彼得·蒂尔的《从0到1》。里面谈到一个新创企业要想获得快速成长，其提供的解决方案要比现有方案好10倍以上。可以是成本低10倍，效能强10倍或易用性优10倍。为什么3倍5倍不行，因为消费者会高估已有解决方案3倍以上，创业者会高估自己方案3倍以上。

—

新的竞技场

除此之外，安全也是不容易跨越的大坎。

在不久前，马斯克进行45分钟关于FSD 12测试版的直播。过程中，马斯克多次强调，FSD 12中没有任何一行相应代码，也没有被训练过如何读取路标，也不知道什么是滑板车，FSD 12的所有行为（自行在减速带减速、避开滑板车骑行者等）完全是大量视频训练的结果。通过视频训练数据，AI可以自己学习驾驶，像人类一样做事。

马斯克的思路就像人们在搜索时完全抛弃了Google，只用ChatGPT。虽然很好，但依然会犯不少低级错误。

同样的，在直播过程中，出现了一次意外接管。当时Model S需要直行，正停下等待红灯。但当左转信号灯转绿时，车辆竟然也紧跟启动。