【ITBEAR】自动驾驶领域的佼佼者Waymo近日宣布,其正在研发一种全新的训练模型,该模型基于谷歌的多模态大语言模型Gemini。这一动态标志着Waymo在自动驾驶技术上又迈出了重要一步,试图借助AI研究的深厚积淀来进一步巩固其市场领先地位。
Waymo发布的研究论文详细介绍了名为“端到端多模态自动驾驶模型”(EMMA)的新技术。该技术能够处理并分析传感器数据,为自动驾驶车辆生成未来的行驶轨迹,从而协助车辆做出更为精准和安全的决策。
这是自动驾驶领域首次展露出将多模态大语言模型应用于实际业务的迹象。此前,这类模型主要应用于聊天机器人、电子邮件管理等领域,而如今其应用范围有望扩展至自动驾驶这一高科技领域。
传统自动驾驶系统通常由多个特定功能的模块组成,如感知、映射、预测和规划等。尽管这些模块在过去取得了一定的成效,但它们之间的误差积累和通信限制问题也日益凸显。面对新环境时,这些预定义模块往往显得力不从心。
Waymo认为,Gemini等MLLM模型的出现为解决上述问题提供了可能。这些模型经过海量互联网数据的训练,拥有丰富的世界知识,并展现出卓越的推理能力。在Waymo的测试中,EMMA模型在处理复杂环境时表现出色,如遇到动物穿越道路或道路施工时,能够迅速为无人驾驶汽车规划出合理的行驶路线。
然而,EMMA模型也存在一定的局限性。例如,它目前还无法整合来自激光雷达或雷达的3D传感器输入,这在一定程度上限制了其应用范围。同时,多模态大语言模型可能存在的“幻觉”问题也为无人驾驶汽车的安全性带来了挑战。
尽管如此,Waymo的这一创新尝试仍被视为自动驾驶领域的一大突破。随着技术的不断进步和完善,相信未来无人驾驶汽车将会更加智能、安全和高效。