大概两个小时前,可能是特斯拉本年度最重要,也可能是汽车领域——甚至科技行业本年度非常重要的一次发布会,刚刚结束。
2019 年的 Autonomous Day 上,特斯拉带来了首款车企自研的自动驾驶计算方案;2020 年的 Battery Day,马斯克又发布了号称续航提升 54% 的 4680 电池+一体式底盘。
而今天的 AI Day,特斯拉正式兑现了马斯克承诺的「一家人工智能公司」,发布了第一款汽车企业自研的人工智能训练芯片 D1,以及目前性能最强的人工智能计算机柜 DOJO Pod——它会为特斯拉的纯视觉 FSD 深度学习服务。
除此以外,特斯拉还公开了纯视觉 FSD 的工作原理、遇到的挑战,以及 Autopilot 软件团队的解决方案。
最出乎意料的,是马斯克带来了 one more thing——特斯拉研发的机器人 Tesla Bot!
我们用尽可能易懂的表达,尽量摘录了大部分内容,但时间关系,具体的原理今天很难展开讨论,请大家见谅。
今天的文章不短,而且很多图,但我们还是强烈建议您看完全文,因为这场发布会实在太炸裂。
前言:特斯拉的 AI 原命题
如果你制定了超越一个行业的计划,要不你是个疯子,要不你就会滚起认知和实践的雪球,做到无数个「第一次」。
特斯拉就是典例。
DOJO 的诞生并不是为了称霸超算界而称霸超算界,它更像是普罗米修斯手里的火种,目的是为特斯拉,以及后面的一众车企/技术公司,照亮人工智能的前路。
所以进入正文前,请大家牢记一个问题:当前地球量产科技基础上,如何打造最极致的人工智能?
因为这是 DOJO、FSD、Tesla Bot 的灵魂,也是特斯拉本次 AI Day 的原命题。
一、「用眼睛开车」
很多朋友已经对这句话倒背如流,不过今天还是得重复一次,作为本章节的纲领——「你会开车,是因为你用眼睛看路,而不是眼睛发射激光」。
这句话将一个深刻的道理极限地浅显化,以至于引来了可能是自动驾驶领域最激烈(起码之一)的争论。
这个道理是:人类经过漫长岁月的进化,已经形成了一套从眼睛开始,以大脑为中枢,肢体为具现的「地球 OL 启动器」。
所以,特斯拉的纯视觉方法论,并不像是绕开雷达信号融合的「捷径」,反而可能是最形而上学的蜀道难——因为特斯拉希望造一个轮子上的人。
前不久的 2021 CVPR 计算机视觉会议上,特斯拉 AI 部门高级主管 Andrej Karpathy 已经分享了很多 Autopilot 软件细节,大家可以点击这里回看我们的报道,今天我们只聊特斯拉做到了什么。
想要实现 Andrej 说过的,让汽车用眼睛开车,有摄像头是不够的,关键是如何分解摄像头信号,又如何让汽车思考这些信号。
但事实上,先不说更深层次的「思考」,光是让纯视觉「认清」一样东西,就已经需要耗费大量努力。
和我们开眼看世界不太一样,摄像头看到的是像素集合,因此神经网络要做的,是分析每个像素之间的联系,并判断哪些像素集合成哪些物体。
点线面体,我们现在来到了「体」,也就是由无数同一时间发生的、存在的事物组成的真实世界。以驾驶为例子,「障碍物」、「交通灯」、「车道线」等等,都是需要神经网络认清的元素。
于是我们需要多任务深度学习,特斯拉则将自己的多任务网络称为「HydraNets」。
纯视觉 Autopilot 数据,由 8 个摄像头,每个摄像头每秒拍摄的 36 帧画面组成,所以每一帧的最终效果如下图所示——每秒一共有 36 组这样的画面。
挑战随即而至:多摄像头融合的界限很难划分、图像内的空间也并不是最终映射的实际空间(类似于畸变)。
一个明显的例子是长长的半挂,同时出现在 5 个摄像头的视野内:
除了看清物体,看路也是至关重要的一环,特别是正确识别道路的边界。在这张范例里,道路边缘的特征点被车辆阻挡,这时候就需要从画面其他部分「寻找线索」。
事实上,让车子搞清楚「需要看哪里」,同样不是容易的事情,特斯拉把算法的简单结构 po 了出来:
接下来要搞定的,是如何「看得完整」。也就是正确识别某个物体跨越多个摄像头的全部运动轨迹,比如前面有车经过:
最后是「记得你看过的东西」。
我们在开车的时候,以往的经验会告诉我们,路边停着的车队中间可能会窜出一个人、单行道上没有打双闪的车,停下来也许短时间也不会走...
以至于速度、方向、标识等等纷繁的细节,它们都组成了我们对路况即时的记忆,然后决定了我们什么时候应该做什么。
二、FSD 老司机成长记
在特斯拉的理解里,自动驾驶的目标,就是同时最大化安全 safety、舒适 comfort,以及效率 efficiency。是的,同时,缺一不可。
第一段说「看路」,本质上是自动驾驶的感知。而本段讨论的则是规划,以及控制。事实上特斯拉用了海量篇幅讨论「规划」,控制相对少很多。
我们直接看疗效:
比如上图,我们经过一个十字路口之后,前方还要左转。这时候有多种操作方式:减速提早变线、加速推迟变线,等等。但每个选择都可能有缺点,依据的路况也不一样,这就是 coarse search 粗搜索。
特斯拉表示仅仅 1.5 毫秒内,系统就可以做出 2500 个粗搜索。灵光一现也许都不太够用,这得灵光 2500 现。
即使是灵光 2500 万现,最终也得往前开。经历众多备选项之后,系统就可以做出相对合理的抉择,在兼顾舒适与安全的基础上,尽量简单地把弯给转了,这就是 smooth trajectory 平滑轨迹。
自动驾驶的科目二和科目三几乎是一起上的,而且课程极其繁重——因为路况瞬息万变。
这时候依然需要粗搜索大法,以停车场为例,在走过一个弯的路程内,Autopilot 已经进行了接近 40 万次的粗搜索:
对于特斯拉来说,规划的最终目的,就是为了 Corridor 行驶通道内的安全、顺滑和速度不断优化。
三、一切为了数据,为了数据的一切
2021 CVPR 会议上,Andrej 表示特斯拉转向纯视觉深度学习之后,已经积累了超过 60 亿个物体标签,超过 1.5PB 的数据量——那还只是 6 月底。
为了应对如此庞大的数据,特斯拉表示他们目前拥有一支 1000 人的数据标签队伍,与工程师一起工作,打造了完全定制化的数据标签&分析架构。
在传统的 2D 图像标注基础上,特斯拉现在可以实现 4D,也就是立体空间+时间戳的四维标注,效果如图:
另外,销量屡创新高,路上跑的车越来越多之后,特斯拉如今可以对同一条路做多次数据收集:
加上墙壁、路障,和其他所有物体,再加上周边行人、车辆的闭环整合,一辆特斯拉眼中的数据世界,是这样的:
四、Dojo,地表最强!
终于来到本次发布会的重中之重了。
目前特斯拉唯一一款自研芯片,是 FSD Chip。单芯算力 72TOPS,双芯组成的 Autopilot 硬件 3.0 算力 144TOPS。
除了装在 SEXY 家族车型上,特斯拉还在用硬件 3.0 做 AI 评估,超过 3000 块 HW3.0 主板组成的 3 个数据中心,每周可以运行 100 万次循环。
而前不久 Andrej「爆料」的,目前用于神经网络训练的超级计算机,则使用了英伟达 A100 GPU 方案,合计 5760 个 GPU 以及 12PB(1PB=1024TB)的 NVME 高速存储器。
但在 Dojo 面前,它俩都像是上一个时代的产物——或者说本来就是。
正式进入 Dojo 参数之前,我们先来强调一下:特斯拉对于 AI 训练计算机的核心诉求,并不是算力,而是带宽和延迟。
这一点,2019 年的 Pete Bannon 已经提到过:「自动驾驶运算需要极高的带宽,起码要达到 1TB 每秒,FSD 芯片(内部)可以达到 2TB 每秒」。
多芯片之间数据交换的带宽(类似于车道数)和延迟(类似于道路限速),是特斯拉在 AI 训练路上狂奔得足够久之后的深刻总结。
Dojo 的设计原命题,就是带宽和延迟,这两个要素,是决定特斯拉能否达到「最佳 AI 训练性能、更大更复杂神经网络、能耗成本优化」目标的关键。
再卖个关子,来看看英伟达的 A100 多芯片方案,多个芯片位于不同的 PCB 基板,用桥接器连接。这已经是目前最快的桥接器,速度达到了 600GB 每秒。
但对于特斯拉来说,这还远远不够。
多芯片之间最理想的数据交换方式,就是「放在一起」,也就是位于同一块基板上,左邻右里排布。
而特斯拉更进一步,不是将芯片们「放」在一起,而是「封装」在一起。
封装多个芯片有很多种方法,比如这颗英特尔处理器一样,两块芯片放在一个基板上:
而特斯拉又进了一步,使用了台积电首次量产的 InFO-SoW 扇上晶圆直出封装技术,也就是直接从晶圆上刻出一个个芯片,然后整块晶圆摁在基板上。
全部装起来之后,一个 Dojo 计算模组长这样:
如果只刻一块芯片,那它叫 D1 Chip,长这样,基于台积电 7 纳米工艺打造,核心面积 645 平方毫米,内置了 500 亿个晶体管,内部线束长度高达 11+ 英里(约 18 公里):
内部线束如此惊人,是因为 D1 芯片内和芯片间的通信带宽简直骇人听闻。这同时得益于台积电的封装技术(芯片之间的距离极短),以及特斯拉的芯片设计。
一块 D1 芯片由 354 个训练节点组成,每个训练节点内部都起码有以下部分:
64 位 4 路集相的多线程 CPU;
1.25MB SRAM 缓存;
低延迟数据交换结构;
SIMD 单指令多数据流的浮点/整数单元
D1 训练节点的一大特点,就在于这个「低延迟数据交换结构」。
上图右上角有一个叫做「 NOC Router」的结构,这是训练节点之间交换数据的工具——特斯拉丧心病狂地给每一个小节点,都设计了上下左右各 64bit 的通道。
这是什么意思?我们还是直接看疗效:D1 的芯片内部带宽高达10TB每秒,芯片外带宽也高达 4TB每秒!
算力方面,每一个训练节点都拥有 1024GFLOPS的 BF16/CF8 精度计算能力(这两个是较新的精度标准),或者 32GFLOPS的 FP32 精度计算能力。
354 个训练节点构成的 D1 芯片,则可以实现高达 362TFLOPS 的 BF16/CF8 精度算力(FP32 精度 22.6T)——而 25 个 D1 芯片组成的 Dojo 计算模块,则将这块人手轻松举起来的「电脑」算力,推到了惊人的:
9PFLOPS!
这是什么概念?
最终成品的单个 DOJO 计算机柜,叫做 DOJO Pod,总算力超过 1.1EFLOPS(BF16 精度),内含 3000 个 D1 芯片,也就是只需要 120 片上图这样小巧的模组——就达到了超越全球超算排行榜第 5 名的 FP32 精度算力。
而目前的第 5 名,隶属于美国国家能源研究科学计算中心(NERSC)的 Perlmutter,一共有 40 个机柜。
当然,马斯克说过的可是「1 exa flops at de facto FP32(货真价实的 1E FP32 精度算力)」。目前一个 Dojo Pod 可实现不了——但这次跳票也许真不怪马斯克,台积电目前有多紧俏,相信大家都有所耳闻。
哦对了,下一代 Dojo 和相关软件工具已经在研发了,目标又是 10 倍级别的系统级性能提升。
五、One More Thing
年满 50 岁的马斯克,终于知道人前起舞是有点幼稚的事情,于是今天他请来了一位衣着前卫的舞者,替他发泄情绪:
不好意思歪楼了,这是今天的 One More Thing,也是全场发布会最大的惊喜——特斯拉机器人 Tesla Bot。不是跳舞这位,而是它:
马斯克对 Tesla Bot 的定义是「由人类世界制造,为人类世界制造」、「友好」、「无威胁,从事重复性/无聊的工作」。
Tesla Bot 的身高是 5'8"(约一米八),体重 56.7 公斤,可以硬拉 150 磅(68 公斤),或者搬运 45 磅(20.4 公斤)的物体,伸开手的状态下可以拿 10 磅(4.5公斤)的物体,最高时速 8 公里。
这个数据就是一个竹竿型人类的标配,但作为即将发售的机器人,这也许更应该是一串历史素材。
Tesla Bot 全身具有 40 个电动促动器,脸上是显示屏,全身由轻量化材料打造,手掌质感接近真人。
哦对了,Tesla Bot 的脚板有传感器,别乱踩人家。
至于「大脑」,Tesla Bot 将由 Autopilot 硬件驱动(什么叫垂直整合啊),「眼睛」也会是 Autopilot 摄像头,深度学习、DOJO 训练什么的一应俱全。
马斯克说明年 Tesla Bot 的原型就将公布,「大家看我们只是在造车,但其实我们也是全球最大的机器人公司——因为特斯拉的车就像是轮子上的机器人,所以我们就造了真正的机器人。」
六、软硬合一,进度 50%?
写到最后一段,我的亢奋更甚了。
前天我在文章里提了一嘴:
「软硬结合,是科技公司心目中的殿堂、王座、圣杯。但能实现这一点,而且软硬皆优的科技企业,只有苹果算一个,AI Day 之后的特斯拉算半个——FSD 全球推送之后能补上另一半。」
今天的 AI Day 实在是太过于惊艳,以至于我真的很希望写下「软硬合一」四个字,竭尽全力吹一把特斯拉。
但再想一下,我觉得现在下这个定论,似乎不太准确。
特斯拉还没有最终实现人工智能的软硬合一,无论是汽车的自动驾驶,还是机器人。FSD 还在 Beta、DOJO 也是上周才正常上机运行、Tesla Bot 更是明年才有「原型」。
但光从硬件的角度看,今天的特斯拉,将人工智能的想象力拓宽了整整一大步,或者说狠狠拉了一把进度条。
如果说前两次年度发布会,特斯拉车企的味道还很浓,那么今天的特斯拉,已经开始若有若无地,有一种游戏《赛博朋克 2077》里荒坂集团的味道了——不是说他大反派,而是类似的创造力,以及每个细分领域的统治力。
真想快进到万物 AI 的终局。
(完)
来源:第一电动网
作者:电动星球News蟹老板
本文地址:https://www.d1ev.com/kol/154195
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。