在NVIDIA GTC2025大会上,理想汽车携手英伟达,为观众带来了一场智能驾驶技术的盛宴。这场技术盛宴不仅展示了理想汽车在智能驾驶领域的最新研究成果,还彰显了英伟达在自动驾驶技术方面的强大实力。
大会伊始,理想汽车智驾负责人贾鹏首次公开了理想汽车在封闭开发VLA(视觉-语言-行动)技术后的最新进展。VLA技术作为今年智能驾驶领域的重要技术竞争方向,备受业界关注。理想汽车、吉利汽车和元戎启行作为该技术的主要推动者,均希望在VLA的实际应用方面取得领先地位。理想汽车为了攻克VLA技术,启动了封闭开发,目标是在2025年下半年实现VLA技术的量产上车。
理想汽车在大会上正式公布了其全栈自研的MindVLA(视觉-语言-行动模型)。该模型融合了空间智能、语言智能和行为智能,使车辆真正具备了感知、思考和自主行动的能力。MindVLA的核心技术优势主要体现在六个方面:采用3D高斯作为核心中间表征,实现高效感知和理解周围环境;采用MoE架构和稀疏注意力,实现模型稀疏化,提高端侧推理效率;大幅提升逻辑推理能力,实现快速反应和深度推理;利用扩散模型优化驾驶轨迹,增强博弈能力;基于自研的“重建+生成”云端统一世界模型,具备高度精准的仿真能力;采用创新性的预训练和后训练方法,具备卓越的泛化能力和涌现特性。
基于这六大技术创新,MindVLA赋能的车辆将不再仅仅是一个交通工具,而是一个能够与用户交互、理解用户意图并自主执行任务的“专职司机”。这一技术的推出,不仅重新定义了自动驾驶技术,也进一步推动了人工智能与物理世界的深度结合。对于用户而言,搭载MindVLA的汽车将成为一个具备高级认知能力的智能体;对于汽车行业而言,MindVLA的问世有望像iPhone 4之于智能手机行业一样,彻底革新自动驾驶的形态。
英伟达在大会上还介绍了其在端到端自动驾驶技术中的应用,涵盖了世界模型、神经重建引擎(NRE)、模型训练加速以及自动驾驶端侧优化部署四个关键领域。世界模型通过模拟人类认知过程,使人工智能系统能够理解环境、预测未来状态,并做出合理的控制决策。神经重建引擎则基于神经辐射场和三维高斯技术,重建高精度的三维场景,为自动驾驶仿真测试提供更加真实的环境。在模型训练加速方面,英伟达通过优化数据加载、预处理和算子执行,显著提升了训练并行度。在自动驾驶端侧模型优化部署方面,英伟达展示了Thor平台的模型优化策略,实现了多个自动驾驶模型推理效率的大幅提升。
通过此次大会,我们不仅看到了理想汽车和英伟达在智能驾驶领域的最新研究成果,也感受到了自动驾驶技术正以前所未有的速度向前发展。这一技术的不断创新和突破,将为用户带来更加安全、便捷、智能的出行体验。