企业

发布智能助手理想同学App 计划于2025年实现L3有监督智能驾驶

汽车之家 2024-12-27 21:24

12月27日，理想汽车连续三天推出“2024理想 AI Talk”，分享了对人工智能的最新思考，以及包含智能驾驶和理想同学在内的人工智能技术的最新进展。李想宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机，App已于12月27日全量上线。此外，理想汽车宣布OTA 7.0版本车机系统将于12月底全量推送AD Max用户，新增AI推理可视化、高速端到端等功能，并实现Mind GPT-3o、Mind Diffusion V2.0的能力升级。

汽车之家

为期三天的直播当中，李想宣布了理想将转型成为人工智能企业，具体信息可点击链接查看。在第二天的直播当中，李想和智驾负责人郎咸朋在直播中讲解了理想汽车在智驾方面的发展动向。按照理想现在的端到端+VLM体系继续迭代，有望在2025年实现L3级自动驾驶，具体信息可点击链接查看。

汽车之家

● 理想同学和智能驾驶是理想汽车的两大核心AI产品

理想汽车董事长兼CEO李想表示：“我们在做的理想同学和自动驾驶，通常被视作独立的领域。我们的大语言模型Mind GPT是认知智能，连接数字世界；而自动驾驶被称为空间智能，关乎物理世界。我们同时在这两个领域探索，并坚信认知智能与空间智能的结合――我们称之为VLA（Vision Language Action Model，视觉语言行动模型）――是一个更值得相信和追求的机遇。”

● L3有监督智能驾驶，不是L2辅助驾驶的延续，而是L4自动驾驶的先导

在自动驾驶的不同阶段，L3为有监督智能驾驶，不是L2辅助驾驶的延续，而是L4高度自动驾驶的先导程序。辅助驾驶只实现了特定功能，自动驾驶则关乎整体能力。传统的L2辅助驾驶依赖上一代自动驾驶方案，通过预设条件来执行不同场景下的智驾功能，无法穷尽所有的corner case（极端情况）。理想汽车借鉴人类驾驶技能提升的过程，用人工智能的方式做自动驾驶，推出了端到端+VLM的双系统解决方案，利用Scaling Law（规模效应）不断迭代和提升自驾能力，以适应所有可能的驾驶环境。

汽车之家

随着端到端+VLM双系统的不断迭代，理想汽车希望在2025年实现L3有监督智能驾驶，并为用户提供一个全场景、一体化端到端的产品。截至12月25日，理想汽车智驾总里程已达29亿公里，训练算力提升至8.1EFLOPS。

● 电动车不是李想创业的终点

汽车之家

李想认为汽车企业发展的这么多年，可能跟传统汽车厂的竞争结束了，你会发现又有很多外来者。开始大家看到的是新势力、特斯拉跟传统汽车的竞争，后来华为进来了，小米进来了，竞争又发生了新的变化，我觉得这是这个世界的精彩和丰富之处。

● 怎么看待小米汽车做出来了，有给过雷军什么建议？

汽车之家

李想：我说“你必须All in”，只要做到这一点，小米汽车就会成功。雷军做硬件的能力非常强，这个没什么可质疑的，他不只是做车做好了，他的电视机、空调做得也非常好，这是他本身就有的优势，而且他带着那种发烧友的心态去做。我们跟小米关系也不错，包括理想MEGA(参数|询价)以后理想L6又很艰难，雷军来帮我们站台，我们都非常感激，帮了我们非常非常多。（文/汽车之家姚宇）

汽车之家

直播问答全文如下：

01.到Agent阶段，才是真正的“iPhone 4时刻”

张小�B：你第一次用ChatGPT是什么时候，当时是什么感受？

李想：发布的时候就用了，当时一个最大的感觉就是，人工智能应该有的样子。

张小�B：如果让你做OpenAl的CEO，你会比Sam做得更好吗？

李想：不会，我觉得Sam Altman他们做得非常成功。

张小�B：如果现在让你做OpenAI的CEO，你会做什么？

李想：今天还是OpenAl定义的AGI（通用人工智能）第一个阶段：聊天机器人，我觉得OpenAl完全按照这个定义做了最好的产品体验。第二个阶段是推理者，到第三个阶段Agent（智能体）的时候，才是真正的“iPhone 4时刻”，普通老百姓都能用了，它能独立地、持续地、连续地完成任务，而不需要靠密集的提示词。但这时候产品应该是个什么交互，对于所有的这些头部企业，都是应该要认真去思考的。

02.让人和Al之间的交互，像人与人交互一样自然

张小�B：为什么一个车企要自研大模型？这个决策是怎么做出的？

陈伟：这个事情也是逐渐达成共识的，我们当时已经把线上的关于自然语言处理的技术，切换到了预训练的模式下，任务型对话能够在车里面，做车控、媒体、导航这样非常多垂域的覆盖，上面用预训练的模式能够快速高效地、高质量地完成这样的能力。

2022年年底，ChatGPT发布了，我们看到了大模型带来的认知智能和语言智能上突飞猛进的变化，这件事情对我们来说是有非常大震撼的。我们内部也在想，为什么我们没有快速地考虑把这个模型架做得那么高那么大。

后来想哥就提了一个话题，他说现在我们应该回归用户体验，核心的问题在认知智能上面。那么认知智能这件事，我们就需要考虑怎么把技术做升维，能够用更厉害、更先进的技术，把理想同学的认知快速拉上来，把天花板拉高。这件事对于我们后面去做基座模型，我觉得是指引性的状态。

所以我们必须要从基座，从底层开始建设，这样未来我们在做更多技术创新的时候，产品和研发才能有更快速的迭代，体验才能持续地去做创新，而不是只做行业的一个平均水平。

张小�B：作为一个后来者，你们准备怎么追赶ChatGPT？

陈伟：我觉得OpenAl现在是整个行业的标杆，除了目前OpenAl宣称进入L2（推理者）以外，绝大部分的团队现在还停留在L1（聊天机器人）这个阶段。在这样的一个状态下，技术处于早期，而我们在做一个无限游戏。探索边界还不清晰的情况下，我们最重要的事情就是把握住目前的第一性原理Scaling Law（规模效应）。

我们的迭代也非常快，去年年底12月OTA 5.0之后一直到现在，Mind GPT 云端的大模型已经迭代了30多次。

张小�B：Mind GPT 是怎么迭代的？

陈伟：Mind GPT 到现在为止一共经历了三代。

2023年4月，Mind GPT 1.0的第一版模型出来，到2023年年底的时候，我们车机的OTA 5.0发布了这个大模型的上车，是行业第一家把大模型推动上车的公司，也是（汽车行业）首家通过国家大模型备案的。2023年年底上车的时候，其实已经经历了第六个版本。

今年年中，我们完成了 Mind GPT 2.0的变化，对于我们算法团队来说，除了关注模型效果的提升以外，还要关注整个训练效率和推理效率。Mind GPT 未来的模型架构，肯定会是一个MoE（混合专家模型）加Transformer的结构，会持续往前迭代，我们在MoE模型上线的时候，相较于 Mind GPT 1.0大概翻了一倍，但是推理成本跟 Mind GPT 1.0基本保持一致。这样在效果和效率上，就达到了一个我认为是双赢的局面。Mind GPT 2.0的重点在语言的理解和知识上，另外一块是在长上下文上有了比较大的突破，也就是在逻辑推理能力上做了进一步的强化。

今年年底，我们会上线 Mind GPT 3.0，这是我们的第三代的 Mind GPT 的能力。Mind GPT 3.0相较于前面两代的核心不同在于，以前我们的重点放在了语言模型上，但是我们认为未来的在人机交互的过程中，它应该是一个多模态的端到端的大模型，应该融合了整个人机交互的体系里，像语音、视觉、语言这样的模态进去，能够理解不同的模态，然后能够在一个模型内完成从感知到认知再到表达的完整能力。这样的好处就是它能够让人机交互的延迟，从以前的比如说几秒钟变成可能500毫秒以内，这样人和机器、人和Al之间的交互，就能像人与人交互一样这么自然。

张小�B：这是多大规模的数据量？

陈伟：我们现在的预训练数据规模量已经到10万亿Token的规模了，有了高质量的课本知识以外，我们还需要给大模型提供一个由简单到复杂、由粗到精的一个过程，让它逐渐地一步一步去学习。所以我们在预训练后训练阶段，也要构建一套分段学习的逻辑，同时在数据的构建上，我们要考虑怎么能给它建立一套好的学习逻辑，所以现在重要的就是要尽快地把强化学习后训练的事情做好。

张小�B：你们有一些特色化的数据吗？

陈伟：第一个是多模态的数据，有自动驾驶的，也有理想同学的对话模态，这些数据是独有的。第二个是用户在产品里自己使用的数据，代表了你的场景或产品本身场景的一些特性，这也是自己独有的，所以我们也在构建自己的数据飞轮，争取能够把这些数据的能力进一步发挥出来。

03.不做人工智能，我们就什么都不是

张小�B：理想同学跨越到L3（智能体）的点会是什么？

陈伟：对于逻辑推理来说，更重要的是做好子任务分解以后，还要让它针对自己的思考方式去做更多的发散性思考，在每一个思考路径上做出自己的反思，做到自我纠错。甚至忽然间碰到死胡同的时候还能回溯回来，所以我觉得这是一个非常强的思考能力。

我们的重心是希望能够实现从L1 ChatBot（聊天机器人）到L2（推理者）的变化。我们定义L1有两个核心的特点，第一个是能够实现多模态，因为人就是能听会看的，所以我们认为语音和视觉加入到大模型是非常关键的。第二个是指令遵循的能力，能够听得懂人在跟它讲什么，再复杂的命令也能听得懂，并且能够比较准确地执行。

所以支撑理想同学的技术，就是 Mind GPT 的多模态智能体的技术，理想同学走到L3的时候，Mind GPT 应该长成的样子，就是一个多模态智能体。

张小�B：现在大家都觉得预训练的Scaling Law（规模效应）达到了天花板，这对于中国团队的影响是什么？

陈伟：如果我们想做好后训练，我们依然需要有个好的基座模型，因此我们依然需要去具有自己的预训练的Scaling Law（规模效应）。

这件事情短期内会出现，会传出来有些公司在模型做得更大以后，效果可能没有想象中的明显，但我认为这个可能还是一个从AI的算法到Al的infra之间，目前的有些要待攻克的问题。

第二个点我觉得Scaling Law（规模效应）本身在解决的问题是模型的效果和数据和模型规模之问的关系。我们越来越觉得数据不只是规模的，需要有高质量的数据才能把规模做上去，才真正有价值。

所以这个过程中可能大家对于Scaling Law（规模效应）的看法也会有一个粗到精的过程，理解才能更深刻，但是我认为这个肯定会是大模型时代的第一性原理。

张小�B：第一次听李想说他要做一个人工智能企业的时候，你在想什么？

陈伟：大家有一个充分的共识，AI技术是未来最大的机会。

我们内部做了非常长时间的关于AI战略的讨论，最后做决策主要基于几点，对于用户的理解，对于行业发展趋势的判断，对于市场，对于竞争，还有对于自身的分析。所以当我听到这个消息的时候，我觉得是一个自然而然也必将发生的事情。

而且想哥是非常坚决的，他说，如果我们要是在未来不做人工智能，我们什么都不是。

张小�B：你觉得理想汽车有这样的技术基因吗？因为你们的创始人并不是一个有技术背景的人。

陈伟：理想汽车创造的爆品背后的这种逻辑是因为我们推出的产品都是之前行业没有见过的，有我们非常多的背后的技术创新，这些都是李想带领团队做出来的。

大模型时代来了之后，AI的从业者，大家对于技术这块的认知和想法可能也都需要重构，包括技术栈也需要重新迭代。那么我觉得大家对于这件事的认知都在同一个起跑线上，那就取决于学习的速度，而他恰恰又是一个学习速度非常快的人。在几个月前OpenAl的o1推出之前，他当时跟我们说我们的重心不要只放在基座模型训练上，要花更多的精力放在模型的后训练这件事情上。OpenAl的o1发布之后，其实整个的大模型的训练范式，跟他几个月前的判断是非常一致的。

04.竞争又有了新变化，这是这个世界的精彩和丰富之处

张小�B：电动车不是你创业的终点，但现在电动车这场仗还没打赢，什么时候能打赢？

李想：并不存在打赢不打赢这件事。汽车企业发展的这么多年，可能跟传统汽车厂的竞争结束了，你会发现又有很多外来者。开始大家看到的是新势力、特斯拉跟传统汽车的竞争，后来华为进来了，小米进来了，竞争又发生了新的变化，我觉得这是这个世界的精彩和丰富之处。

张小�B：你觉得为什么苹果现阶段放弃造车？

汽车之家

李想：我认为有两个挑战，第一是如果做汽车，苹果的组织模式必须发生变化，因为汽车确实比手机更复杂。第二是如果你做规则算法、知识图谱，数据就是隐私，但是如果你真正做到了大模型阶段，如果它变成了Token，就跟隐私什么关系都没有了，相反，它是解决隐私解决最好的一个方式。这些厉害的企业，都是一帮足够聪明人，当他看明白、去拥抱Al的时候，可能比大家想象的进步速度要快得多。

张小�B：你怎么看待小米汽车做出来了？你有给过雷军什么建议吗？

李想：我说“你必须All in”，只要做到这一点，小米汽车就会成功。雷军做硬件的能力非常强，这个没什么可质疑的，他不只是做车做好了，他的电视机、空调做得也非常好，这是他本身就有的优势，而且他带着那种发烧友的心态去做。我们跟小米关系也不错，包括理想MEGA以后理想L6又很艰难，雷军来帮我们站台，我们都非常感激，帮了我们非常非常多。

05.我是理想产品的天花板，也是瓶颈

张小�B：你是理想产品的天花板吗？

汽车之家

李想：从0-1的阶段，产品是由我来主导的，一是因为我对三排座的车有非常深的体验，二是因为我没有司机。对于产品经理来说，体验的能力和体验的范围和深度是你的预训练、你的基座模型，所以我是天花板。到1-10的阶段，我就是瓶颈了，所以我们要升级，把体验变成一个能力，让他们去拥有。建立一个培养他们的体系，让大家在上面能运营得越来越好，让每个做产品的都比三四年前的李想更好。

张小�B：作为CEO，你其实喜欢高管和自己吵架是吗？

李想：就像乔布斯讲的那个故事，他的邻居大爷拿着一堆石头，放在一个机器里，几天以后拿出来都是非常漂亮的球。真正顶级的团队，在做产品、做研究、做创造的时候，就应该是这样的。我喜欢看到大家在吵架，让这些可以跟李想吵一两个月的人，吵得特别开心、结果特别好的人，变成大将军，主导我们后边的产品，这是我们想要的，也是这个阶段必须要拥有的能力。

张小�B：作为产品经理，你最想讨好的人是谁？

李想：我不想讨好任何人。我觉得还是要去思考一些本应属于用户的价值，这些价值今天没有实现，影响它实现的障碍到底是什么？这是最重要的。比如大家都觉得电动车很好，但充电很难，这是全行业的难题，我们怎么解决？所以我们有了增程，有了5C，有了自建充电网络。

它是个取舍，你得知道自己想要什么。能够像谷歌那么克制地变成一个搜索框，像OpenAl那么克制地变成一个对话框，这需要巨大的能力，因为简单所以丰富，不是因为复杂所以丰富，复杂就僵化了，这是我们解决问题的方式。

张小�B：你对产品了解更深，还是对技术能力认知更深？

李想：过去我们提供的东西叫功能，功能最主要的获取方式是体验，通过不同的产品，获得不同的体验，判断功能的价值。人工智能时代看能力，必须得搞研究，对技术方向进行有效的判断，再搞技术研发，再产品化。

06.在最艰难的十字路口，看透本质是创始人最重要的能力

张小�B：没有上过大学，会让你在社会中遇到更多挫折吗？

李想：本质上没有什么挫折，它并不影响我去学习，并不影响我去获取知识。唯一遗憾的可能就是，我的人生中缺少这么一段大家都有的体验，在这方面跟大家没有共同的语言。

张小�B：你说你是一个敏感的人，这对于做CEO会有问题吗？

李想：没什么问题，CEO有不同的类型的。每当在一个最艰难的十字路口的时候，创始人能不能看透本质，做出对团队而言最好的选择，并通过未来去验证，这是最重要的一个能力。

张小�B：2019年是你最困难的时候吗？

李想：我最困难的时候还是2008年5月，是真的会自己伤心到哭的程度。几个小股东要把我和樊铮赶出公司，融钱也融不到，公司的现金流也完全断掉了。当时要把我们赶出公司的是三个合伙人之一，我来北京的时候我们在林业大学租了个40平米的房子，一室一厅，白天工作，晚上甚至在一张床上睡觉。

后来我们和解了，他帮我获得了最大的一次成长。他说如果你当时把这些困难跟大家说出来，我们愿意把房子抵押了，来支持公司继续发展下去，但是你并不给我们这样的机会，你选择自己死扛，而公司变得越来越差。那一刻我就做了一个巨大的反思。我从小受到的教育，就是你要对自己特别严格，甚至要对自己苛刻，你不需要对自己好。我选择创业，就很难再去找一份工作了，因为学历什么都不行。

所以我就学到了两个特别重要的能力。第一，要接受自己的优点，也能接纳自己的不足。第二，如果有一些对我而言是致命的缺点，严重影响到身边所有的人了，而且也影响到自己了，我肯定要改。如果从来没有吃过糖，我怎么给别人甜头。

07.只有成长是我的欲望

张小�B：你非常关注人的工作，最近有对人性多一层认知吗？

汽车之家

李想：2024年，在人的方面，最大的收获来自3000多人的校招团队，比我们那代人优秀10倍以上，他们受最好的教育，心智也很成熟。在技术展示会上，AI相关产品有一半以上都是校招团队做出来的，非常之惊讶。大家老是讲一个时代过去了，我从他们身上看到一个新的时代开始了。

张小�B：你现在的欲望是什么要做一个1万亿市值的企业吗？

李想：1万亿市值不是我的欲望，只有成长是我的欲望。经营公司有两件事情是最重要的，一是推出长远有价值、有意义的产品和服务，要做判断、要出题、要训练、要投资。二是设定好有向往感、有意义的目标，目标是特别有效的管理方式，1万亿反映了对用户的价值，也反映了行业地位，它不是空洞的，背后还有很多东西要去做。

张小�B：一个1万亿市值的企业需要具备什么条件？

李想：如果不能实现L4自动驾驶，我们肯定不能迈入万亿俱乐部。后来者必须使用最先进的技术，提供完全不同的产品体验。今天大家买车是为了开车，但未来不开车才是革命性的。一定要采用完全不同的商业模式，同时还有非常好的能力来支撑。技术、产品、用户三个层面的高速增长，是最顶级的企业都具备的特质。?

张小�B：如果理想没有成为全球领先的人工智能企业，会是因为什么？

李想：我觉得一定是我们在综合能力方面有缺失，包含研究、研发、产品、商业能力，当然也包含自身的造血能力，它是一场非常大的仗。我会全力以赴地确保我们成为全球领先的人工智能企业，做好每一个环节。但是如果在我的有生之年没有办法实现，或者我们因为犯了巨大错误没法实现，我也非常乐于看到有中国企业能够在人工智能方面做得非常好，实现人工智能的第五阶段，我愿意为这样的企业而鼓掌。

来源：第一电动网

作者：汽车之家

本文地址：https://www.d1ev.com/news/qiye/258632

返回第一电动网首页 >

以上内容转载自汽车之家，目的在于传播更多信息，如有侵仅请联系admin#d1ev.com(#替换成@)删除，转载内容并不代表第一电动网（www.d1ev.com）立场。

文中图片源自互联网，如有侵权请联系admin#d1ev.com（#替换成@）删除。

分享到：

发表评论

新闻推荐

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx