在NVIDIA GTC 2025大会上,理想汽车自动驾驶领域的重大突破引发了广泛关注。理想汽车自动驾驶技术研发领军人物贾鹏,正式揭晓了新一代自动驾驶系统架构——MindVLA,并深入分享了其背后的技术实现细节。
MindVLA架构的核心在于视觉-语言-行为融合模型(VLA),它将3D空间理解、逻辑推理与行为生成能力巧妙整合。这一创新设计旨在推动自动驾驶技术迈向更高水平,预计将于今年7月与理想汽车的全新车型i8同步亮相。
在技术层面,MindVLA展现了多项核心创新。其多模态融合架构通过自研的混合专家(MoE)模型,实现了高效的多任务处理能力。这一架构包含了三大核心模块:首先是3D高斯表征建模,该模块显著提升了自动驾驶场景建模的效率,训练速度相较于传统方法快了7倍;其次是行为决策优化,利用先进的扩散模型(Diffusion)生成驾驶轨迹,并结合常微分方程采样器,仅需2-3步即可完成高质量的轨迹生成;最后是云端统一世界模型,该模块融合了三维场景的重建与生成能力,为大规模强化学习训练提供了坚实基础。
在用户交互方面,MindVLA同样带来了显著升级。用户现在可以通过自然语言指令轻松调整车辆行为,如“开太快了”或“应走左侧道路”,系统能够实时响应并作出调整。同时,基于视觉语言模型(VLM),系统还能识别非标准化的交通标志,如手写标语,并通过用户拍摄的环境照片来精确定位车辆位置。在无导航信息的场景下,车辆也能自主漫游寻找车位或目的地,如用户只需简单指令“带我去找超市”,车辆即可触发自主路径探索。
为了验证技术的可靠性,MindVLA系统已经完成了超过10亿公里的仿真测试,并引入了人类偏好数据集,以优化对长尾场景的处理能力。在专利布局方面,理想汽车已经申请了127项与优化算法等相关领域的专利,并计划在2025年第三季度开放部分技术文档的专利,涵盖三维场景重建、轨迹生成等多个方面。
目前,MindVLA已完成工程化适配,即将在今年7月与i8车型一同推向市场。理想汽车表示,这一架构未来还有望拓展至室内环境等非驾驶场景,探索物理与数字世界结合的通用人工智能路径,为自动驾驶技术的发展开辟更广阔的空间。