理想汽车近日推出了其自主研发的VLA模型——MindVLA,这一创新成果基于端到端与VLM双系统架构,展现了理想对前沿技术的深刻洞察。MindVLA不仅是自动驾驶领域的新范式,更是将赋予自动驾驶汽车前所未有的3D空间理解能力、逻辑推理能力和行为生成能力,使车辆能够感知环境、进行思考并做出适应性的驾驶决策。
MindVLA并非简单地将端到端模型与VLM模型拼凑在一起,而是所有模块均经过全新设计。其中,3D空间编码器通过与语言模型和逻辑推理的结合,能够给出合理的驾驶决策,并输出一组Action Token。这些Action Token实际上是对周围环境和车辆驾驶行为的编码,进一步通过Diffusion(扩散模型)优化,得出最佳的驾驶轨迹。整个推理过程均需在车端实时完成。
MindVLA六大关键技术,树立了自动驾驶领域的新技术范式。这一模型打破了传统自动驾驶技术框架设计的局限,引入了3D高斯(3D Gaussian)作为中间表征,这一表征能够承载丰富的语义信息,同时具备出色的多粒度、多尺度3D几何表达能力。理想汽车利用海量数据进行自监督训练,显著提升了下游任务的性能。
为了设计和训练适合MindVLA的LLM基座模型,理想汽车从0开始,采用了MoE混合专家架构,并引入了Sparse Attention(稀疏注意力),实现了模型的稀疏化。这不仅保证了模型规模的增长,同时不降低端侧的推理效率。在基座模型的训练过程中,理想汽车加入了大量3D数据,使模型具备了3D空间理解和推理能力。
为了进一步提升模型的空间智能,理想汽车加入了未来帧的预测生成和稠密深度的预测等训练任务。同时,LLM基座模型在获得3D空间智能的基础上,还需要提升逻辑推理能力。理想汽车训练LLM基座模型学习人类的思考过程,将快慢思考有机结合到同一模型中,并实现了自主切换。为了充分发挥NVIDIA Drive AGX的性能,MindVLA采取了小词表结合投机推理,以及并行解码技术,实现了模型参数规模与实时推理性能之间的平衡。
MindVLA还利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升了在复杂交通环境中的博弈能力。同时,Diffusion可以根据外部条件,如风格指令,动态调整生成结果。为了解决Diffusion模型效率低的问题,MindVLA采用了Ordinary Differential Equation(常微分方程)采样器,仅需2-3步就能完成高质量轨迹的生成。
面对部分长尾场景,理想汽车建立了人类偏好数据集,并创新性地应用了RLHF(基于人类反馈的强化学习)微调模型的采样过程。这使得MindVLA能够学习和对齐人类驾驶行为,从而提升了安全下限。MindVLA还基于自研的重建+生成云端统一世界模型,深度融合了重建模型的三维场景还原能力与生成模型的新视角补全及未见视角预测能力,构建了接近真实世界的仿真环境。
理想汽车表示,过去一年,其自动驾驶团队完成了世界模型大量的工程优化,提升了场景重建与生成的质量和效率。其中,一项关键工作是将3D GS的训练速度提升至原来的7倍以上。MindVLA的推出,将为用户带来全新的产品形态和产品体验。有MindVLA赋能的汽车,将成为一个听得懂、看得见、找得到的专职司机。