文:谈擎说AI 作者:郑开车
智能经济时代,有人将数据比作石油,比作燃料。诚然,拿无人驾驶赛道来讲,数据标注是实现无人驾驶系统准确性的前提。
数据标注将无标记的数据加上标签或标注,使其成为有标记的数据,这样机器学习算法才能够利用这些数据进行训练和学习,从而提高自动驾驶系统的准确性和性能。
在谈擎说AI看来,诗意的讲,数据标注的价值可以用一句古诗来比拟——“问渠那得清如许,为有源头活水来”。无人驾驶想要提高准确性,想要“清如许”,需要”源头活水来”。给数据做上标注,就是对“源头活水”的净化。
从这个维度来讲,数据标注是智驾赛道的“源头创新”。
作为“源头”,那么数据标注的发展、进化、创新就显得尤为重要。为了更好的认知数据标注赛道,谈擎说AI团队连线云测数据总经理贾宇航,探究数据标注产业背后的圭臬。
量产比拼时代:数据标注赛道的进化路径
在国内乘用车市场,高阶智能驾驶辅助功能渗透率不断提升。据工信部相关数据显示,2021年中国L2级辅助驾驶乘用车新车市场渗透率达到23.5%,2022年上半年其渗透率增加至30%,并且渗透率还在持续不断提升。有机构预测,到2025年,中国L2级以上智能汽车的销量将突破1000万台,渗透率将达到50%。
用户需求井喷,主机厂跑马圈地,无人驾驶企业加速量产,是智能驾驶赛道的基本面。想要量产,想规模化,成本把控能力、驾驶交付体验等都提出了新的要求。
首先,精准度。
智能驾驶系统对感知模型精度的要求也越来越高,因此,提升车辆感知模型的精度需要大规模且高质量的数据集去训练。
“其实早在21年的时候,云测数据就发布了智能驾驶的数据解决方案1.0版本,1.0版本的解决方案围绕着企业整个研发周期——针对企业预研阶段,云测数据为其提供相关行业场景基础数据集进行训练,解决场景识别等基础问题;到了基于特定场景的定制开发阶段,云测数据提供场景化的数据采集与标注服务,满足当前阶段对AI数据精度和规模的需求;对于形成数据闭环的第三阶段,云测数据提供一整套成熟工具帮助完成数据采集、标注、管理一系列流程,帮助企业优化迭代。”云测数据总经理贾宇航对谈擎说AI表示道。
高质量AI数据才能释放人工智能的价值。对于智能驾驶技术而言,这样的数据精确化显得更为重要:一方面,现实交通场景复杂、安全威胁多,非常重视数据分析的效率和敏捷;另一方面,标注数据质量的高低将直接影响智能驾驶的判断和用户体验。有优质数据存在,才会训练出优质的算法。
其次,效率。
在谈擎说AI看来,提高效率,主要是分为两种,一种是管理效率,一种是技术效率。
我们先来看管理效率,智能驾驶有很多落地场景且数据量极为庞大,不断的迭代更新,要想提高效率,数据标注人员培训的规范化、沟通成本、业务流程管理至关重要。
另一个是技术效率。
“其实在数据处理工具链层面上,云测数据做了很多标准化。比如研发上更强调系统集成这个概念,面对每一个企业不同的数据底座来讲,会有很多不同需要,或者不同企业之间数据流转的规范是不同的。云测数据这个过程之中将数据处理工具进行标准API接口研发,快速支持企业灵活调用。”云测数据总经理贾宇航如是说。
标准化,意味着更高的效率,对于无人驾驶来讲,技术日新月异,行业变革速度很快,高效率的交付质量,保证了时效性,智能汽车现在是OTA远程升级,早日升级保证了用户体验,以及产品竞争力。
在谈擎说AI看来,对于云测数据来讲,其技术能力是产品化和产品标准化的前提。对于数据标注行业来讲,标准化,也将促进智能驾驶数据标注市场的开拓和发展。
最后是数据安全。
从数据的采集、数据的标注,再到数据的管理,每一个环节都必须保证数据不被泄露、不被窃取。不少企业放弃公有云,通过私有云部署、内外网络隔离、实时数据流量监控等方式进行。
在谈擎说AI看来,如果说数据标注的效率、质量是一个数据标注企业的上限,那么数据安全则是一个企业的下限,上限决定了企业的天花板,下限则决定了能否站在数据标注的舞台之上。自动驾驶数据养料的质量,决定着无人驾驶企业的竞争力,是企业的基石。算法、算力具有非独家性,数据却是独家的,保证数据安全的基础上,对数据的充分利用,将是决定未来商业化进展的关键一环。
升级赋能:卷自己推动行业发展
Grand View Research预计,到2027年,全球无人驾驶数据标注市场年均复合增长率为28.8%。为了更好的适应、引领这个蓬勃发展的赛道,云测数据发布云测数据智能驾驶数据解决方案2.0,全新升级。
这次的2.0版本主要是围绕以下三个方面:
升级赋能:以集成数据底座为核心,全面升级数据标注及数据管理工具链。
升级赋能:升级人工标注与自动标注交互能力,全面提升数据标注效率。
升级赋能:针对特定算法类型的数据持续优化迭代,并纳入更多场景数据。
对于此次2.0版本,云测数据总经理贾宇航给出了自己的理解:
首先:2.0版本,这一次迭代会有一个新的出发点。目前整个的智能驾驶行业处于规模量产阶段,对于不少智驾企业已经在逐渐的搭建自己的数据系统、数据闭环,云测数据更加强调去帮助企业在系统集成性、数据流转的层面的优化,这个是升级的第一点。
其次:云测数据智能驾驶数据解决方案2.0集成了不同模型的预标注能力,包括图像整帧、自选物体、区域、点云批次识别和文本识别等,重新定义了基于预标注的人工标注效能,如能效看板、综合看版等。
最后:我们看到了越来越多传感器融合等相关的技术在自动驾驶中应用,此次升级的2.0方案针对特定算法类型的数据持续优化迭代,涵盖点云4D叠帧、语义分割联合标注和智能ID轨迹预测。数据集也更加丰富,纳入了更多场景数据,标注方法也从原来以点线面体为主进化到融合4D标注规则和标注工艺。在服务方面,数据标注精度、反馈给企业的时效性有了大幅提升。
在谈擎说AI看来,云测数据智能驾驶数据解决方案2.0,将对行业产生以下影响:
1 服务智能驾驶企业的门槛在提升,如今大模型时代,如何借助工具提升效率、更好的为智驾客户赋能,需要AI数据服务具备敏锐的洞察力和精进的技术研发能力,才能够及时识别和把握新行业发展趋势,取得领先优势。
2 数据标注行业良莠不齐,云测数据的智能驾驶数据解决方案2.0为行业提供了可供参考的服务标准,推动行业发展走向规范化的新阶段,通过提供高质量、高效率的方案来解决自动驾驶产业落地的数据需求,为无人驾驶赛道发展保驾护航,夯实了这个行业的地基。
3 伴随汽车智能化演进,辅助驾驶、智能泊车等功能正日趋成熟。对于汽车的智能功能而言,决定一项功能用户体验的好坏、是否成为卖点,需要反复精细打磨产品、提升产品质量,而作为实现AI功能的上游数据训练环节,需要高效、高质的AI数据支撑,从而打造出用户体验良好、具备差异化优势的智能应用。
对于智驾赛道而言,是典型的木桶理论,团队协助、管理能力、数据、算力储备、缺一不可。但如果说从底层逻辑来看,数据更为重要。业界大牛陆奇曾不止一次在公众场合表示,数据是人工智能时代的核心产能。如何挖掘数据价值,不啻为智驾企业的核心要义。
大模型时代:数据标注赛道将走向何方?
要说当下最火的赛道,无疑是大模型,现在的科技圈进入了百模大战。AI数据影响、甚至是决定着AI的质量,同时人工智能的快速发展,也在影响着AI数据标注赛道。
"人工标注和自动标注后的人工审核校验和微调,这是未来的一种业态。在这个趋势下,自动标注的数据量的占比可能会越来越高。其实这里边会发现有一个很有意思的概念,就是自动标注的占比可能会越来越高,人工标注的占比可能会相对会减少,但是整个的数据的需要、标注的数据量是在逐渐的增大的,所以人工标注的需求量还是增加的、处于攀升的过程之中。"云测数据总经理贾宇航对谈擎说AI表示道。
对于大模型热,云测数据有着自己的思考,不是一味的跟风也不是对新技术置之不理,而是更好的结合:第一点是云测数据的工具与大模型做更好的结合;第二点布局则是针对这些大模型相关企业,云测数据持续精进为其提供对应的场景化数据。
在谈擎说AI看来,大模型的本质是为了提升效率,高质量交付,为客户赋能。作为工具类产品,要更快能适用新的体系,为客户赋能,更好的耦合客户的系统,不是拿着锤子找钉子,大模型火了就盲目跟进,而是根据需求,去开发适用于企业的应用。
纵观整个出行领域,从传统汽车到智能汽车,底层逻辑是从制造驱动到数据驱动的产品革命,数据是当下的核心驱动力,得数据者得天下,为智驾企业做好赋能,也是对中国乃至全球汽车产业进化的有利助攻。