【ITBEAR】Waymo近日公布了其最新的自动驾驶研究成果,该成果被命名为“端到端多模态自动驾驶模型”,简称EMMA。这一新模型是基于谷歌的先进多模态大语言模型Gemini而开发的,旨在增强无人驾驶车辆在错综复杂的环境中的导航能力。
传统的自动驾驶系统往往采用分模块化的设计,针对感知、映射、预测和规划等不同功能分别开发。然而,这种方式在系统的扩展性和对新环境的适应性上存在明显的限制。Waymo的研究团队认为,利用Gemini这类经过大量互联网数据训练的多模态大语言模型,可以有效地突破这些限制。这类模型不仅积累了广泛的世界知识,还能通过链式推理等技术模拟人类的思维方式,以应对各种复杂的驾驶任务。
不过,EMMA模型在实际应用中还面临一些挑战。由于计算成本高昂,该模型目前还无法处理来自激光雷达或雷达的3D传感器输入,仅能处理有限数量的图像帧。同时,研究人员也指出,像Gemini这样的多模态大语言模型有时会产生不准确的“幻觉”,而在无人驾驶领域,对错误的容忍度极低。因此,在这些模型能够广泛应用于实际车辆之前,还需要进行更深入的研究和严格的测试。