2022年12月16日-17日,由安徽省发展和改革委员会作为指导单位,合肥市人民政府、中国电动汽车百人会联合主办的“2022全球智能汽车产业峰会”在安徽合肥召开。本届论坛围绕“全球新变局与智能汽车发展新战略”主题,共设置5个主题论坛和2场闭门会议,与行业机构、高校院所和领先企业代表共同探索我国智能汽车发展新路径。
其中,在12月17日举办的“生态论坛”上,后摩智能创始人兼 CEO 吴强发表精彩致辞。以下内容为现场演讲实录:
大家上午好!很高兴能代表后摩智能参加这个峰会,我今天分享的主题是《如何以自主创新打造更自主可控的智能驾驶芯片》。
汽车电动化和智能化给国产汽车带来难得的历史机遇,PPT左图显示了我国电动化的普及程度已经在世界前列,右图展示了我们在智能驾驶L2及以上的普及率、渗透率也是走在世界前列。L2及以上的智能驾驶给计算芯片带来新的需求,比如,和传统的车载芯片MCU相比,智能驾驶芯片的复杂度、大算力更接近于以前云端芯片或者超算芯片;设计、封装等等方面,跟传统的MCU都不太一样。智能驾驶芯片的算力要求接近于传统的超算芯片,很多人说智能驾驶芯片是一个移动的超算中心。
另外,低功耗。在传统的超算中心我对功耗不是那么敏感,我在数据中心有用电,有空调,有冷却,但是在车上面,用电有很多问题。大家都是汽车方面的专家,汽车是电池驱动,另外汽车散热系统其实比较紧张,环境温度要求比较高。
第三,低成本。超算成本方面,一个芯片很贵,基于A100的服务器可以卖几十万,一个企业就需要几台。但是对于车来讲,刚才沈总说了,我们希望让每辆车都用得起、买得起、装得起这样的芯片。我们大部分的车都是在10万—30万人民币之间,这部分车是主流,高端车是另外一个故事。对于10万—30万人民币的汽车来说,成本非常敏感,怎么能够做出高性价比,让每辆车都装得起芯片,这也是一个新的需求。
最近几年我们才遇到一个新话题,把原来做超算中心大算力芯片的人和做传统车载芯片的人融合到一起。这是近几年才出现的有趣现象。
对于L2芯片的发展趋势,算力要求适中,对于L2+或者L2++的芯片或者更高级的芯片,最近的发展趋势也有很多。它的传感器数量越来越多,因为要不断支持L1、L2,要支持L2+甚至L2++。传感器越来越多,对算力需求变得越来越高。第二,对于L2++,一些智能驾驶算法也变得越来越复杂,要求不停迭代,BEV要出来,Transformer要出来,对芯片的开放程度也要求很高。这是高阶智能驾驶目前带来一些新的需求,特别在最近几年。
目前的解决方案有几个问题,第一个要依赖于先进的制造工艺,传统MCU 40nm就算挺好的,最多28nm,现在智能驾驶都向16、14、7甚至5或3nm走。先进工艺带来两个问题:1、成本奇贵,做一颗7nm芯片研发成本需要1亿多美元,7nm要几亿美元,分摊下来,装到车上,就很贵;2、容易被卡脖子,现在这种大形势下,非常容易被卡脖子。这是一种问题。
另外,牺牲通用性、解决效率问题,需要算力、需要功耗,我怎么去解决这些问题?如果我做得很专用,专用又不符合整个算法的发展趋势。这就是一对矛盾,这是目前在高阶智能驾驶芯片上面临的矛盾。算力越大,带来的功耗越来越大,解决这个问题,面临着芯片怎么部署下去,是不是都需要液冷?高端车肯定是液冷,对于低端车,如果用液冷,整个系统的复杂度上升,成本又会上去,又回到“怎么让每辆车用得起、装得起”的问题。
我们需要的,不能依赖于继续往先进制程工艺走的做法,是不是可以从更底层的架构创新或者技术创新,去解决这样的问题?更底层的创新方法同样可以把算力问题、功耗问题、成本问题解决。这个,也许是我们国产芯片厂商需要探索的问题。在所有的技术创新方向里面,有一个方向非常有希望,即存算一体,它的意思把存储、计算融为一体,重构智能驾驶芯片。传统的计算架构在教科书上学的冯诺伊曼架构,计算和存储是分离的,每次通过总线去load数据,计算完再放回去,这是冯诺伊曼架构。这种计算架构适合于传统的CPU,已经有60年的历史,做CPU非常合适,对于智能驾驶芯片是AI计算,是数据为主的计算,这是近几年才出现的事情。这种事情其实不太合适,数据总线变成一个瓶颈。另外,算力上不去,或者算力上去,但要花费很大的成本。我的数据不停地搬运,做了很多无效的搬运,造成大量功耗,这是存算一体。希望从底层架构创新或者计算方式的创新根本性解决这样的问题。
算力做大,可以不用这种很高阶的、很昂贵的先进工艺可以把算力做上去,另外避免了大部分的数据搬运,90%的数据都可以把它省下来,也节省了功耗,同时也节省了成本,这个是我们在很多业内同仁探索新的技术方向。举个例子,存算一体本身能效,仍然有一个数量级的提升,这是技术上的优势。反映在产品上面,能做到什么?比如大家很多都是汽车专家,知道汽车需要散热,散热有几种方式,自然风冷、风扇、液冷,对于大部分车厂来说,最希望的方式是自然风冷或者自然冷或者被动散热,成本更低,系统复杂度更低,但是有一个刚需,功耗在15瓦或者20瓦以内。如果想要大算力,本身和低功耗就是天生的矛盾,怎么解决这个问题?我想自然散热或者低功耗,必然我的算力不高,只能做一些十几T到20T,按照目前的工艺做到极限。除非走更昂贵的5nm、3nm,可以把这个数字再往上走,如果用正常的工艺只能做到这个数字。如果用存算一体,也许能够突破这个极限,在自然散热的情况下能做到60T或者80T甚至100T,这其实是我们希望去探索或者实现的目标,这是存算一体带来产品层面实实在在的收益。
此外,存算一体还有另外一个好处,它可以用相对成熟的工艺去做出媲美先进工艺的算力和能效比,在现在的国际大环境下,它有一些特殊的意义。即使有极端情况出现,还是可以不被卡脖子,能实现国产自主可控。这还是能打造一个可以帮助国产汽车智能化推进的高能效比、高性能的芯片,这是目前在国际形势下另外一个特殊的意义。
下面介绍一下后摩智能,成立于2020年底,公司两拨人,一拨做存算一体的专家,来自于学术背景的技术专家,还有一拨人像我在工业界做了20年,做过大芯片、高算力芯片,以前我做云端芯片,后来做过车端芯片。两拨人在一起探索,一起去碰撞,发现这些问题,我们觉得这可能是一个解决高算力或者高性能智能驾驶芯片的根本解决方案。我们这拨人成立了这家公司,目前大概两年左右。去年8月份做了第一颗流片,是一颗技术样片,在今年年初跑通了智能驾驶的算法和demo,今年第一颗芯片顺利投片,很快希望在明年上半年春节之后能给客户去试用。
我们第一颗芯片基于存算架构一体芯片的设计,时间关系不具体讲,总体来说,PPT上从右向左,橙色的部分基于存算的计算盒,后面是分布式计算单元,不同的计算单元组成AI Core,最后变成一个HOC,呈现给汽车或者Tier1或者车上的客户。
去年第一颗芯片流片,成功把它运行了常规的智能驾驶算法点亮。这里PPT上有一个简单的demo,20秒时间,基于第一颗大算力芯片跑的常规智能驾驶场景。常规11种检测、分割、识别等等算法,都是跑在存算一体芯片上面,可以看到框是检测,地面是各种分割,它的效果和传统的GPU很相似,我们也可以达到相似或者更好的效果。
从软件的角度,我们是一家智能驾驶芯片公司,我在行业做了很多年,我知道客户是怎么想的,客户还是希望软件能够尽可能接近巨头英伟达的编程模式,客户迁移起来最方便,我们采用了类CUDA的编程方式,降低客户的开发成本。
整个算法和软件的发展趋势是软硬解耦的,我们希望自己基于软硬解耦的理念,把我们的芯片和工具链做得尽可能开放,这样有更多的第三方算法公司或者Tier1或者主机厂一起在上面以比较快的速度开发自己的软件,这也是我们自己的理念。整个芯片和软件都是基于这个理念去设计,也是我们跟Mobileye黑盒模式的区别。
这两年,从第一代芯片流片,到现在跟一些客户合作,主要是在无人车像物流、零售、乘用车方面,在Tier1层面和主机厂合作。总体来说,后摩智能的愿景是做后摩尔时代的智能计算平台,公司的名字也是来自于这个愿景。目前我们其实聚焦在无人车和智能驾驶和乘用车,这是我们主要目前聚焦的场景,希望在这两个领域能够落地站住脚,希望跟更多的合作伙伴去做。未来万物智能的时代,希望我们能有更多为仿生机器人、AR/VR这些场景提供高效率的智能计算平台,为万物智能这个美好的愿景目标尽我们公司的一份绵薄之力。
以上就是我的分享,谢谢大家!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)
来源:盖世汽车
作者:盖世直播君
本文地址:https://www.d1ev.com/news/qiye/191965
以上内容转载自盖世汽车,目的在于传播更多信息,如有侵仅请联系admin#d1ev.com(#替换成@)删除,转载内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。