【ITBEAR】智能驾驶技术正迎来新的浪潮,其中“端到端”技术成为引领者。然而,这一领域的技术迭代速度之快,令人目不暇接。就在众多公司仍在努力研发端到端技术时,一个全新的技术方向——VLA(Vision-Language-Action Model)已经悄然兴起。
VLA模型,作为一种融合了视觉、语言和动作的多模态大模型,展现出了更高的场景推理与泛化能力。这一技术被视为端到端方案的升级版,备受智能驾驶行业的关注。
最初,VLA模型在机器人行业崭露头角。由谷歌DeepMind推出的这一模型,迅速引发了业界的广泛关注。如今,这一技术概念正迅速渗透到智能驾驶领域。
谷歌旗下自动驾驶公司Waymo近期推出的端到端自动驾驶多模态模型EMMA,便被视为VLA模型架构的典型代表。该模型不仅具备端到端的智能驾驶能力,还融入了多模态大模型,为智能驾驶带来了更多可能性。
在智能驾驶行业的发展历程中,基于规则算法的技术路线曾占据主导地位。然而,随着特斯拉引领的端到端智能驾驶技术的兴起,行业开始探索更拟人化、能应对复杂交通场景的技术方案。
端到端技术配合大语言模型等外挂,曾一度提升了智能驾驶的能力上限。然而,VLA架构的出现,似乎预示着这一技术路线的终结。在VLA架构下,端到端与多模态大模型的结合更为彻底,为智能驾驶带来了更强大的环境理解能力。
对于智能驾驶行业而言,VLA模型的意义重大。它不仅让端到端理解世界的能力更强,还有望成为L2辅助驾驶到L4自动驾驶飞跃的关键跳板。因此,不少车企和智驾公司已经开始暗中发力,布局这一技术领域。
然而,VLA模型的上车难度并不小。它对技术和车端芯片算力都有着高强度要求。目前,能够支持VLA模型上车交付的芯片尚未问世,预计将在未来几年内出现。
尽管面临诸多挑战,但智能驾驶行业对于VLA模型的未来充满信心。随着技术的不断进步和芯片算力的提升,相信这一技术将在不久的将来实现量产落地,为智能驾驶带来革命性的变革。