————————
作为“特斯拉跳票王”的 Version 9,自从 10 月份开始推送,就已经全方位展现出了其强大的高级辅助驾驶功能,以及作为新世代车载中控系统标杆的设计。
比如更强的盲区监测。
比如大幅优化的界面。
比如可以在技术层面接管方向盘的“疯狂的麦克斯( Mad Max )”模式。
还有自带的游戏机模式(大误)。
以上所说的都是 Version 9 能够在一瞬间抓住眼球的重大改变,然而在背后默默支撑着这些新功能,甚至让马斯克充满自豪地在 Q2 财报会议上隆重介绍自家软件团队的基石——特斯拉全新的 Autopilot 神经网络引擎,才是 Version 9 所有光芒的起点。
最近,一名来自美国加州的神经网络专家 Jimmy,在获得了特斯拉后台的许可之后,对全新一代 Autopilot 神经网络引擎进行了研究。他得出的结论是这样的:
“It’s a monster(这 TM 就是个怪物)!”
我们对 Jimmy 的文章进行了节选翻译,重点如下:
大幅提升的图像处理性能
“与 V8 一样,V9 的神经网络引擎也包含了一套直接处理摄像头拍摄画面的‘摄像网络’,以及一套将摄像网络得到的画面升格到高阶可操作具象的‘后期处理网络’。目前我的研究对象还只是 V9 的摄像网络,可是就我所了解到的来说,V9 比 V8 的提升不是一星半点。”
“一套一体化摄像系统处理车身上所有的 8 个摄像头,所有摄像头应用的图片及视频文件大小是一样的(这个发现非常有意思,因为 V8 上面前视/侧方前视摄像头的拍摄文件大小是不一样的)。3 个前视摄像头以及 1 个后视摄像头的后处理分辨率都是 1280X960(摄像头最大分辨率),4个侧方摄像头的后处理分辨率是 640X480(真实分辨率的 1/4 )。所有摄像头都各自拥有 3 条色彩通道,双层架构(这一点也是非常有趣的,V8 只在前视摄像头上面支持 640X416,2 条颜色通道,单层架构的图像文件)。”
电动星球注:在常用的完整 RGB 图像中一般有 3 条色彩通道,分别是红色、绿色、蓝色部分。也就是说,一幅完整的图像,是由红绿蓝三个色彩通道组成的。他们共同作用产生了完整的图像。在 Version 8 之前的 Autopilot 图像识别只支持红绿通道,如下图:
“ V9 神经计算网络由于支持同时从每个摄像头处采集 1280X960,3 彩色通道,双层架构的图像,所以,以单个主摄像头为例,就是1280X960X3X2 字节,也就是 7.3Mb 的每帧文件大小——V8 系统的是640X416X2X1——也就是 0.5Mb,不到 1/13 的每帧文件大小。”
“与谷歌的 LeNet Inception V1 神经网络比较之下,特斯拉 V9 系统尽管同样基于 V1 的底层概念,但是其规模要超出十倍,同时需要近 200 倍的运算能力。虽然侧视摄像头只需要 1/4 的分辨率,但是由于 V9 系统需要同时采集 8 颗摄像头,APE(Autopilot ECU)的性能可能会被压榨到一个新的地步。或者说,V8 系统(配上 Autopilot2.0 硬件)其实是有很大的计算冗余的。”
高效的摄像头系统
“更高的分辨率意味着 V9 系统可以识别到更细微的物体细节,但是在摄像头接口标准方面最有趣的改变,应该是成对处理的视频帧。被成对处理的视频是经过一定的时间差编排的,我觉得延迟大概在 10-100 毫秒左右。成对处理能让每组视频输入都能呈现出动作,而动作能带来场景的深度,呈现与背景分离开来的独立物体图像,有助于物体的识别并预测其运动轨迹。这个升级对于神经网络系统的基础预测是显而易见又至关重要的。”
上图为搭载 Version 8 的 L5 级别工程车
“就我目前看来,V9 的摄像系统应该是独立的。它还可以以统一的文件大小处理所有摄像头得到的画面。
电动星球注:camera agnostic ,直译应该是独立于摄像头之外,camera agnostic 指的是图像处理独立于摄像信号输入之外,camera agnostic 的好处是可以避免镜头畸变导致识别错误,因为畸变是摄像头的自带缺陷,无法用物理方式修复,但这对神经网络系统本身识别日常物体的能力有极高的要求。
独立的摄像系统还能提高运算的效率。当系统内只有一种拍摄标准的时候,系统本身就不需要频繁的往 GPU 显存内写入各种规范,同时可以根据统一的标准批量处理大量图像文件,能够大幅提升性能表现。
我没有想过我会如此期待独立的摄像系统,这真是太震撼了。”
怪物级别的神经网络系统
“ V9 系统就是一个怪物,甚至怪物都不足以形容它。当你在一个神经网络里面将一个参数(权重)乘以 5,你不会只得到 5 倍的提升,更不会只得到 5 倍的训练数据。用神经网络的表达能力提升来换算,提升幅度更像是直接加了 5 位数。如果说 V8 的表达能力是 10,那么 V9 的表达能力应该是100000。这是一次难以置信的性能提升。因为训练数据不会只增长 5 倍,新系统最终要处理的数据可能是成千上万,乃至于百万倍级别的。”
电动星球注:神经网络的表达能力主要由隐层的层数和隐层神经元个数决定。模型的表达能力是用来衡量参数化模型如神经网络的可以拟合的函数的复杂程度。深度神经网络的表达能力随着它的深度指数上升(看不懂无所谓,深度越高神经网络的表达能力越屌就是了)。
“ V9 的神经网络比我见到过的任何商用神经网络都要庞杂,只是想想要处理多少训练数据,我都要晕了。我考虑了好久才写下这个判断,因为这个判断太容易被证伪。但我最终发现不是我的考虑限制了我,是我的想象限制了我。
特斯拉是否在 V9 系统内应用了半监督学习?他们肯定需要给数据上标签——而这么多数据根本不会有足够的人手上标签。我认为特斯拉雇佣的模拟工程师们肯定设计了一台专门处理数据标签的机器,但即使是这样(也还是有极大量的数据需要处理)。
还有就是,他们哪来的数据中心处理这些数据?拉里(拉里·佩奇,谷歌创始人)是不是给了埃隆一个全是 TPU( Tensor Processing Unit ,即张量处理单元,是谷歌一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练)的仓库?
我看着 V9,然后我在想,Autopilot3.0 硬件,我们肯定会很快见到它的。”
电动星球继续注:半监督学习( Semi-Supervised Learning,SSL )是模式识别和机器学习领域研究的重点问题。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
截至 6 月 19 日,特斯拉 Autopilot 2.0 车型保有量已经达到 20 万辆,累计路测数据达到 4 亿英里( 5.6 亿公里)。而这个让神经网络专家瞠目结舌的 Version 9,就是这绕地球 1.4 万圈的积累,最终长成的参天大树。
来源:第一电动网
作者:电动星球News蟹老板
本文地址:https://www.d1ev.com/kol/78335
本文由第一电动网大牛说作者撰写,他们为本文的真实性和中立性负责,观点仅代表个人,不代表第一电动网。本文版权归原创作者和第一电动网(www.d1ev.com)所有,如需转载需得到双方授权,同时务必注明来源和作者。
欢迎加入第一电动网大牛说作者,注册会员登录后即可在线投稿,请在会员资料留下QQ、手机、邮箱等联系方式,便于我们在第一时间与您沟通稿件,如有问题请发送邮件至 content@d1ev.com。
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。