事件
3 月18 日,在英伟达GTC2025 大会上,理想汽车智驾负责人首次展示MindVLA 进展,上周全年业绩会公司曾表示已启动VLA 技术架构研发,计划与今年纯电SUV 理想I8 同时发布。
点评
MindVLA 引领汽车迈向物理智能体时代。理想通过封闭研发MindVLA 实现了技术跨越,象征着传统车辆正从简单的驾驶工具转变为拥有高度智能与自主决策能力的综合体。该系统将视觉、语言和行动智能有机融合,以3D 高斯中间表征为核心,实现了多层次、多尺度的空间信息刻画;同时,依托MoE 架构与稀疏注意力机制,即使在庞大模型下也能确保端侧推理的高效运算。借助自监督学习及模拟“快思考”与“慢思考”相结合的策略,车辆在复杂交通情境中能精准判断并迅速做出安全决策。
此外,扩散模型配合常微分方程采样器,对驾驶轨迹的预测进行了革命性优化,显著提升了系统的实时响应和环境适应性。引入“重建+生成”一体化世界模型及闭环强化学习机制,使车辆在虚拟仿真中持续自我迭代和升级。正因如此,配备MindVLA 的汽车不仅能高效捕捉并快速应对周边动态,还具备理解用户指令、主动交互和制定个性化驾驶策略的能力,从而实现全维度智能交互。这一变革不仅重构了自动驾驶系统的底层架构,也为未来物理智能体的发展探索出全新路径,使车辆真正蜕变为具备高级认知与自主决策能力的智能伙伴。
VLA 大模型比端到端+VLM 强在哪?目前,端到端+VLM 系统主要依靠视觉与语言信息的融合来完成环境感知和决策处理,但在具体动作执行上仍显不足。相比之下,下一代VLA 模型在此基础上引入了动作反馈模块,实现了从感知到执行的全流程闭环优化。该模型通过分层数据融合与智能决策算法,实时整合路况、信号和驾驶意图,并迅速选定最佳行动方案,有效缩短了响应时延。依托实时反馈和多任务协同学习,VLA 在复杂交通环境中能够主动预判风险并迅速调整策略,从而显著提升整体鲁棒性和安全性。我们认为,凭借对视觉、语言与行动数据的深度整合,理想的下一代VLA 有望为自动驾驶系统注入更高的自主决策能力,推动自动驾驶的形态演进。
风险
VLA 架构开发迭代不及预期,单车算力瓶颈风险,智驾竞争加剧,宏观经济下行。