数据闭环工具链，智驾领域的下一个竞争点？

第一电动大牛作者兵长的碎碎念 2024-02-01 12:38

最近一段时间，自动驾驶数据闭环工具链领域有些热闹。

广州车展期间，出行平台如祺出行推出了由数据标注平台ONTIME Data Encoder、高精地图工具链ONTIME MapNet、智驾仿真平台ONTIME NexSim三大板块构成的自动驾驶解决方案。

几乎同时，车联网平台优咔科技也推出了自研的自动驾驶数据闭环工具链产品，希望通过该工具链平台，让车企能更高效地开发和部署自己的算法。

而在刚刚过去的CES上，星尘数据带来了一站式AI全生命周期数据管理平台MorningStar，旨在支持AI算法的高效迭代，实现机器学习，当然也包括自动驾驶闭环全链路打通，助力打造专注高效迭代的算法生产环境……

在这些变化中，有如祺出行、优咔科技这样的新玩家，也有星尘数据这样一直深耕数据服务领域的资深玩家，从大家的积极态度中不难推测，在高效的数据闭环这件事上，行业依然存在痛点。

—

从模型到数据

这些年，自动驾驶经历了不同的发展阶段，从CNN到 Transformer、大模型，技术在不断迭代发展，过程中，核心的影响因素也在变化。

前期，模型架构本身是关注的重点，随着大模型阶段的到来，大家开始意识到处理大规模数据和运用的能力开始成为关键。

当然，这不是什么发现新大陆似的重要发现，2021年，著名的人工智能科学家吴恩达就提出，当下的人工智能领域，一个重要的趋势是从以模型为中心的人工智能（Model-centric AI）向以数据为中心的人工智能（Data-centric AI）转变。同时，他提出了著名二八定律：80%的数据+20%的模型=更好的AI。

具体到自动驾驶领域，2021年特斯拉在AI Day 上提到Transformer是其自动驾驶系统算法中最核心的模块之一，此后国内众多车企纷纷跟进，但真正开始采用Transformer的方案，已经是2023年之后的事。

因此，虽然在“软件定义汽车”的共识下，数据、算法和算力早就被称为自动驾驶开发的三驾马车，但行业对于高质量、高价值数据的追求和应用，却刚开始没多久。

在这个过程中，行业开始发生一些变化。

曾经许多主机厂喜欢拿自动驾驶累计行驶里程作为自动驾驶能力以及经验的体现，而现在这些已经不再具备说服力。

“首先采集的数据不代表都有使用价值，再加上各家对于数据处理能力的差异开始逐渐拉开，月销过万的未必能比月销几千的车型功能迭代得好。此外，还有成本问题。” 路特斯智能驾驶测试开发专家L解释道。

“一张图片的标注成本大概是1元，如果是BEV则是十几元，假如一辆车上有11个摄像头，每个摄像头一秒钟能采10张数据，那么一辆车一秒钟就有110张图片。如果车的保有量是10万辆，一天产生的数据，光标注的成本就不可想象。所以车的数量多不能与车企自动驾驶会更强画等号。”

此外，随着数据量的不断增长和模型复杂度的提升，“数据债”——正在成为算法工程师们面临的隐秘又难解的挑战。

—

解决数据债

数据债一词源于技术债，是一种新型的技术债务，指的是由于对数据资产的维护不足导致的数据质量问题。

对于机器学习，数据债就是指在全生命周期中的各个环节，由于各个角色跨组织协同产生的数据质量问题。

△图片来自星尘数据

根据星尘数据产品总监龚书介绍，数据债的来源主要有几点：

1、算法工程师与数据标注PM之间的认知“鸿沟”

算法工程师重视数据的价值和质量，他们会准确评估数据的价值，定义数据标注的边界，并对数据进行详细记录和分析。但是，数据标注工作通常不是算法工程师负责，而是数据运营或数据项目经理作为“中间人”，指导自身标注团队或去找供应商来完成。

这种情况下，算法工程师和数据标注项目经理之间的认知差异，便可能导致数据标注需求的不明确，标规则的不统一，从而造成重复标注、多次返修、甚至无效标注等“数据债”。

2、业务需求变化带来的“数据债”

当面对新增需求时，算法工程师往往会花大量时间思考业务、数据标注和数据分析，以提高模型的泛化性。但即使算法训练效果很好，一旦面对真实而复杂多变的环境，准确率也可能显著下降。

所以，算法工程师需要耗费大量的时间和精力仔细研究数据，找出异常之处，了解数据规律，反复编排流程，比较版本差异，以提高模型的泛化性，达到最佳效果。研究、分析、使用、迭代数据的过程中，便会产生大量的“数据债”。

3、文档不统一和跨组织执行之间的“鸿沟”

很多时候，为了节省标注时间和成本，降低标注难度，算法工程师需要对标注数据进行预处理。然而，为了尽快完成产品开发，算法方面往往会直接准备好数据交给标注人员，甚至放弃对部分数据边界的分析，数据标注规则和文档往往不够清晰。

在实际操作过程中，数据标注并非一蹴而就的事情。在一些非标准化的数据标注工作中，项目经理并没有可供参考的操作手册，需要根据实际情况反推标准的适用性，并从问题中寻找解决方案，以形成更稳定、更具操作性的方法。

同时，数据标注目前缺乏统一的行业标准。文档不统一和规则不清晰导致了数据标注方面缺乏清晰的指导。

4、数据资产与数据管理之间的“鸿沟”

目前市场上90%以上的数据是非结构化数据，但只有不到10%得到有效利用。如果企业数据未经有效管理和利用，将成为资源的浪费。此外，未明确数据资产价值也会导致高昂的存储和管理成本。

5、算法需求与数据工具链缺失的“鸿沟”

在实际的算法训练和迭代过程中，算法工程师通常在发现模型效果不佳或遇到错误时才开始严格管理数据，这种应急处理的方式看似成本小，实际上却是一颗定时炸弹。

比如，在自动驾驶算法训练中，算法工程师需要大量的视觉数据来训练模型，以识别道路、车辆、行人等元素。然而，如果在数据采集和标注过程中存在重复使用同类型数据的情况，对数据的分布缺乏全面的认知，模型会对特定场景“过拟合”，泛化能力不足。自动驾驶特殊场景数据极为稀缺，对难例的发现和处理提出更高的要求。

此外，自动化、自定义的数据检索和可视化的版本管理对于算法工程师也至关重要。如果数据版本没有得到妥善管理，会导致在模型效果出现问题时无法准确追溯到数据的来源和处理过程，无法还原问题点。因此，如果没有一套完整“对症下药”的数据工具链，就加大了算法工程师在数据处理方面的挑战。

“通过与大量算法工程师的沟通，我们发现他们在处理与数据相关的工作时，通常使用的是原始的自建工具、临时工具，甚至没有工具可用。这导致他们无法进行与数据相关的高级操作，使得整个工作流程变得不够高效。” 星尘数据产品总监龚书告诉「智车星球」。

因此，为了解决数据价值无法释放、数据孤岛、运营成本增加等数据债带来的问题，行业对数据管理和数据价值挖掘的需求越来越迫切，能满足这些需求的数据工具链也成为了新的机会。

—

不同选择

虽然不同的软件开发流程在细节上有差异，但大体思路基本一致，从下图“华为八爪鱼”的数据闭环链路可以看到，主要分为数据采集、感知模型训练、仿真测试和实车测试四个环节，每个环节中又包括了若干模块。

这些环节中所使用的工具和平台就是“工具链”，工具链的效率决定了整个系统开发的效率。

△“华为八爪鱼”数据闭环链路

而不同的玩家会结合自身的优势与需求来选择不同的切入点。

比如作为出行科技与服务平台，如祺出行的优势在于自身掌握的场景与数据优势，同时，在Robotaxi的运营中积累了很多数据，对于场景的理解较为深刻。因此，如祺出行选择基于标注、地图、仿真业务先切入To B端，同时推动L4技术的成熟。

而对于星尘数据，则是将面向 AI 算法的数据服务，从算法真值数据和人工反馈，扩展到支持企业AI算法高效迭代的数据管理、探索和挖掘服务。

△星尘数据MorningStar数据闭环

而像亮道智能这样的激光雷达系统供应商，同样能提供数据管理平台以及相关的工具链，但优势毫无疑问是在激光雷达上。近期，亮道在欧洲交付了L3 高阶智驾数据真值项目，在此量产项目中，亮道重点参与的就是L3 高阶智能中的激光雷达感知训练工作，包括激光雷达感知训练的数据中心建设，大数据管理，任务分发，真值数据的自动化生产，质量评价等。

可以说，对于车企以及自动驾驶公司，根据自己的需求可选择的产品数量在增加，产品质量也在提升。而在这些选择中，还有一个重要的选择，那就是是否选择自研。

—

自研or不自研

选择自研，车企可以避免使用不同公司提供的工具链做“分段开发”导致的“数据孤岛”现象，同时能更好地相应内部算法团队的需求以及更好地匹配车企的研发流程，进一步提升开发和迭代的效率。

Momenta就是在前期花费了较长时间搭建自己的数据驱动平台，实现了全流程数据驱动的技术能力，包括感知、融合、预测和规控等算法模块都可以通过数据驱动的方式高效的迭代与更新。其闭环自动化（Closed Loop Automation）是一整套让数据流推动数据驱动的算法自动迭代的工具链，能自动筛选出价值数据，驱动算法的自动迭代，让自动驾驶飞轮越转越快。

当然，不选择自研的理由也有不少，首先自然是所花费的成本与自身业务的需求是否匹配，二是研发数据闭环工具链需要大量用户的反馈，主机厂自研的工具可能会受企业自身经验体系的制约，自研出的工具未必好用，另外，车企掌舵人对于企业在智驾领域核心竞争力的判断也很重要。

不过，对于大多数车企，自研与否并不是非黑即白的选择，结合自身优势选择若干版块进行自研是大多数车企的选择。

“（对于车企）工具链是一定要自研的，但不是全栈。我认为企业需要搭建数据管理平台，因为不同主机厂是按照自己的需求去管理数据，对数据管理的结构有很大差异，所以必须要自己管起来，就像京东仓储一样，能快速分门别类归纳整理好，要用的时候马上就可以拿出来。平台搭好后，就可以引入软件合作伙伴，直接 API 调用就好，比如数据标注，就没有太大必要自己养团队去做。”亮道智能CMO 江南逸告诉「智车星球」。”

同样，在路特斯看来，数据管理一定要自己做，“我们自己采集的数据，交给第三方管理，会有数据安全方面的担心。” L解释道。

“处理明天的问题，用的不是今天的工具，而是明天的工具”，在这样的认知基础上，路特斯对于工具链的自研程度也相对较深。据L介绍，其平台上的部分数据链工具，已经供应给其他企业使用。