理想加入“端到端”竞赛，虽只是PPT

出品丨虎嗅汽车组

理想加入“端到端”竞赛，虽只是PPT

作者丨肖漫

头图丨视觉中国

“端到端”的风正在席卷中国智驾行业。

进入 2024 年下半年，如果有车企谈智能驾驶时不谈“端到端”，那大概率会被视为落后了。

7月5日，理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。这基本是理想汽车端到端路径的一次 *** 论输出，较为完整地呈现出理想智驾下一步发展路径。

在虎嗅汽车看来，此次发布有三大值得关注的焦点——理想的“端到端”和其它玩家的有何不同？理想的智驾研发到了什么程度？以及，理想为何在此时强调智驾技术能力？

相较华为，理想方案更为激进

先看理想全新的自动驾驶技术架构。其受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发，在自动驾驶领域模拟人类的思考和决策过程，采用了“快系统”和“慢系统”进行协同。

快系统，即系统 1，善于处理简单任务，是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时 95% 的常规场景。慢系统，即系统 2，是人类通过更深入的理解与学习，形成的逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5%。

在这一架构原型下，系统 1 由端到端模型实现，通过接收传感器输入，并直接输出行驶轨迹用于控制车辆。系统 2 由 VLM 视觉语言模型实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统 1。双系统构成的自动驾驶能力将在云端利用世界模型进行训练和验证。

据理想的说法，其系统 1 的端到端模型采用的是 One Model 方案，主要由摄像头和激光雷达构成，多传感器特征经过 CNN 主干 *** 的提取、融合，投影至 BEV 空间。

另外理想在输入端还加入了车辆状态信息和导航信息，经过 Transformer 模型的编码，与 BEV 特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。

相较于华为、小鹏等厂商采用的是分段式端到端方案，理想采用的 One Model 方案更为激进。特斯拉同样是 One Model 方案，但其“输入图像、输出控制”的方案比理想的“输入传感器信息、输出行驶轨迹”更进一步。

需要指出的是，目前各家厂商在端到端上采用不同的路径只是选择上的差异，并无优劣之分。（关于端到端的技术原理，虎嗅汽车团队曾在《特斯拉，要跟华为开战了》一文中有过详细解析）

理想这套架构的特别之处其实是系统 2，其基于的VLM 视觉语言模型的算法架构由一个统一的 Transformer 模型组成，将 Prompt（提示词）文本进行 Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统 1 辅助控制车辆。

在实际场景中，如果系统二发现行驶过程中地面路面非常坑洼不平时候，其会给系统 1 发一个降速的提醒，并告知驾驶员前方的坑洼路车辆将慢速行驶，减少颠簸；又或者是能够识别公交车道的位置以及辨别潮汐车道等。

用理想的话说，系统 2 相当于副驾坐了个驾校的教练时刻监督驾驶行为。值得一提的是，小鹏的大语言模型 XBrain、毫末的自动驾驶语义感知大模型也有类似能力。

据悉，理想的 VLM 模型参数量达到 22 亿，VLM 模型在车端的推理时间也从 4.1 秒优化至 0.3秒。

双系统之外，理想还介绍了端到端方案的测试和验证 *** 。业内主流的做法是通过 3D 虚拟环境、重建式仿真、生成式仿真等进行仿真测试。理想的做法则是结合了重建仿真和生成仿真两种技术路径，相当于做了重建的真题和生成的模拟题。

事实上，特斯拉也利用了大模型生成连续视频，打造 World Model 即世界模型；自动驾驶公司 Wayve 的自动驾驶大模型 GAIA-1（已拥有 90 亿个参数）也同样可以生成驾驶场景视频，描述场景以及做出预测。

总的来看，理想的技术架构是在车端布局双系统，ONE Model 的端到端模型让其自动驾驶系统拥有了像人类老司机的行为能力；VLM 模型能够让自动驾驶系统拥有像人类一样的逻辑思考能力；而世界模型则是提供了学习和考试的环境，拥有快速迭代的能力。

据理想智能驾驶负责人郎咸朋透露，其端到端方案从去年下半年就在内部孵化并启动预研，目前已经完成了模型的原型验证和实车的部署。

不过，这一方案还难以交付给用户，理想在本月给AD Max 用户的，是推送无图 NOA 方案。

智能驾驶迎来超车时刻

“端到端”正在成为各家厂商智能驾驶追逐战的重要方向。

今年 3 月，元戎启行能够将端到端模型成功上车；华为在 4 月发布乾崑 3.0 时就表示技术转向 GOD/PDP *** 全新架构，实现预决策规划一张网；小鹏 5 月在 AI DAY 上宣布端到端大模型已经量产上车。另外，包括蔚来、小米、小鹏等厂商都对智驾团队进行了调整以开展端到端的布局。

可以看到，包括特斯拉在内的各家厂商在端到端技术方向上目前都处在探索当中，尽管在方案、路径上的选择各有不同，但可以肯定的是，端到端已经成为智驾前进的方向。

不过，端到端会放大智驾系统的上限与下限，其能够带来智驾能力提升的同时，也带来的难以解决的安全问题，端到端是一个神经 *** 黑箱，其不可解释性带来了一部分安全隐患。

在各家争相布局之际，理想是首个公开端到端技术方案的车企，李想本人上个月在重庆论坛就公开了两大系统的做法引起了业内热议，此次更是将 *** 技术架构方案公示，可谓是趁热打铁。

考虑到理想在下半年不会有新品发布，其率先在智驾能力上的输出既能让企业保持热度，或也有维持其现有产品竞争力的考量。另外，端到端技术路径的布局也给了理想在智驾能力上追赶的机会。

相较于华为、小鹏等采用分段式端到端做法，理想的端到端模型实现难度更大，其从PPT到走向量产落地要耗时多久，效果如何，还需要保持观察。

根据辰韬资本发布的《端到端自动驾驶行业研究报告》，国内自动驾驶公司的模块化端到端方案上车量产时间可能会在 2025年。是骡子是马，明年就到了拉出来遛遛的时候了。

正在改变与想要改变世界的人，都在虎嗅APP

发表评论

28人参与，8条评论

雪花
2024-08-10 01:53:49回复
理想的自动驾驶技术架构展现了其前瞻性和创新性，通过端到端模型和VLM视觉语言模型的应用实现了智能化驾驶的突破，尽管面临挑战和争议但理想不断在智能驾驶领域进行探索和尝试的精神令人钦佩期待未来其在智能汽车行业中的表现能够持续领先！

红日
2024-08-10 01:57:36回复
对于理想的全新自动驾驶技术架构，我深感震撼，其端到端方案激进且富有创新力展现了理想汽车对技术的深度探索与前瞻视野！期待其在智能驾驶领域的更多突破和落地实践验证结果的出现。。

LateAutumn
2024-08-10 02:03:22回复
**评论：关于理想汽车端到端自动驾驶技术的深度解析。**
我对理想的全新自动驾技术架构持乐观态度，其采用双系统模式，特别是One Model方案更显激进创新之处体现在模拟人类思考和决策过程的能力上通过快慢系统的协同工作实现更智能的驾驶体验同时期待其在安全问题上能给出满意的解决方案毕竟智能驾驶的未来需要可靠的技术支撑和透明的操作机制希望未来量产时能够验证这套方案的真正实力与潜力！

朱丽
2024-11-29 04:27:35回复
理想的端到端自动驾驶技术架构展现了其前瞻性和创新性，通过模拟人类思考和决策过程，理想汽车实现了更为激进的One Model方案及双系统构成的技术布局。，期待其在智能驾驶领域的持续突破和未来发展！

绿洲
2024-11-29 04:30:44回复
作为一位持续关注智能驾驶技术的观察者，我对理想汽车发布的全新自动驾驶技术架构深感兴趣，其基于端到端的模型、VLM视觉语言模型和世界模型的结合展现了独特之处。双系统设计体现了对安全性和智能性的双重追求与平衡考虑；黑箱效应、不可解释性带来的安全隐患不容忽视！期待理想的落地实践能证明其价值并推动行业发展进步。#智能汽车时代#

晨曦
2025-01-06 04:27:48回复
作为一位持续关注汽车科技领域的观察者，我对理想汽车的全新自动驾驶技术架构印象深刻，理想的端到端方案显示出其勇于挑战和创新的勇气与决心。**激进且富有前瞻性**，这一技术的实施不仅体现了企业对智能驾驶发展的深度洞察和实践能力更强的一面展示给公众看；同时也反映出他们对安全问题的重视和对未来的期待。系统 1 的快系统和慢系统的协同工作理念令人耳目一新。尽管面临诸多质疑和挑战，我认为这是一个值得等待的技术方向，当然也要看到它的落地时间和实际效果还有待观察验证未来值得期待！

蓝蝶
2025-01-06 04:30:48回复
作为热心群众，我对理想的自动驾驶技术架构感到非常兴奋和期待，我认为理想汽车此次发布的端到端方案非常激进且具有创新性；其双系统构成以及One Model的方案展现了其在智能驾驶领域的独特视角和技术实力！同时我也对系统的安全性保持关注并希望看到更多的实际应用验证结果来证明该技术的可靠性。我相信随着技术的发展和创新理念的推动汽车行业将会迎来更加美好的变革时代让我们共同见证这一历史时刻吧

余丹
2025-01-06 04:34:17回复
理想的自动驾驶技术架构展现了独特的端到端方案，其双系统构成和VLM视觉语言模型颇具创新性，虽然面临挑战和安全问题需解决但无疑为智能驾驶领域带来新视角和新机遇期许理想能在未来的落地量产中取得显著成果并推动整个行业的发展进步！

理想加入“端到端”竞赛，虽只是PPT

你可能感兴趣的

发表评论