ITBear旗下自媒体矩阵:

理想汽车MindVLA:自动驾驶新架构,让汽车变身“专职司机”

   时间:2025-03-18 17:22:22 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在自动驾驶技术的创新浪潮中,理想汽车自研的VLA模型——MindVLA,正以其独特的端到端与VLM双系统架构,引领着自动驾驶的新范式。这一模型不仅融合了前沿技术的精髓,更为自动驾驶车辆赋予了前所未有的3D空间理解能力、逻辑推理能力和行为生成能力,使车辆能够像专职司机一样感知、思考和适应复杂环境。

MindVLA并非简单地将现有模型拼凑在一起,而是所有模块均经过全新设计。其中,3D空间编码器通过与语言模型和逻辑推理的紧密结合,能够输出合理的驾驶决策,并生成一组Action Token(动作词元)。这些词元代表着对周围环境和车辆自身驾驶行为的精准编码,随后通过先进的Diffusion(扩散模型)进一步优化,得出最佳的驾驶轨迹。这一过程全部在车端实时完成,确保了自动驾驶的即时性和安全性。

MindVLA的六大关键技术,更是树立了自动驾驶领域的新技术范式。它采用3D高斯作为中间表征,这一表征不仅能够承载丰富的语义信息,还具备出色的多粒度、多尺度3D几何表达能力。通过海量数据的自监督训练,MindVLA显著提升了下游任务的性能。

理想汽车从零开始设计和训练了适合MindVLA的LLM基座模型,采用了MoE混合专家架构和Sparse Attention(稀疏注意力)技术,实现了模型稀疏化。这不仅保证了模型规模的持续增长,还确保了端侧推理效率的不降低。在基座模型的训练过程中,理想汽车加入了大量3D数据,使模型具备了强大的3D空间理解和推理能力。

为了进一步提升模型的空间智能,理想汽车加入了未来帧预测生成和稠密深度预测等训练任务。同时,LLM基座模型在获得3D空间智能的基础上,还通过模拟人类思考过程的学习,实现了快慢思考的有机结合和自主切换。为了充分发挥NVIDIA Drive AGX的性能,MindVLA采用了小词表结合投机推理,以及并行解码技术,实现了模型参数规模与实时推理性能之间的完美平衡。

在轨迹生成方面,MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过联合建模自车行为生成和他车轨迹预测,提升了在复杂交通环境中的博弈能力。同时,Diffusion还可以根据外部条件(如风格指令)动态调整生成结果,使自动驾驶更加灵活多变。

针对Diffusion模型效率低的问题,MindVLA采用了Ordinary Differential Equation(常微分方程)采样器,仅需2-3步即可完成高质量轨迹的生成。面对长尾场景,理想汽车建立了人类偏好数据集,并创新性地应用了RLHF(基于人类反馈的强化学习)微调模型的采样过程,使MindVLA能够学习和对齐人类驾驶行为,从而提升了安全下限。

MindVLA还基于自研的重建+生成云端统一世界模型,构建了接近真实世界的仿真环境。这一模型深度融合了重建模型的三维场景还原能力与生成模型的新视角补全及未见视角预测能力,为基于仿真环境的大规模闭环强化学习提供了有力支撑。在过去一年中,理想自动驾驶团队完成了世界模型的大量工程优化,提升了场景重建与生成的质量和效率。

MindVLA的推出,将为用户带来全新的自动驾驶体验。拥有MindVLA赋能的汽车,就像一位听得懂、看得见、找得到的专职司机。用户可以通过语音指令改变车辆的路线和行为,如寻找超市或调整车速等。同时,车辆还能通过强大的通识能力,识别商店招牌并根据照片找到用户位置。车辆还能在地库、园区和公共道路上自主漫游,寻找车位等,这一过程完全依赖MindVLA的空间理解和逻辑推理能力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version