【ITBEAR】智能驾驶行业正迎来技术革新的浪潮,“端到端”技术尚未被全面掌握,便已进入了换代时期,深度融合多模态大模型成为新的进化方向。
近期备受关注的VLA(Vision-Language-Action Model)模型,便是这一技术革新的典型代表。该模型结合了视觉、语言和动作,展现出更高的场景推理与泛化能力,被业界视为“端到端”方案的升级版。
VLA模型最初在机器人行业亮相,由谷歌DeepMind推出。然而,其影响力正迅速扩散至智能驾驶领域。谷歌旗下自动驾驶公司Waymo已率先基于该模型推出了自动驾驶多模态模型EMMA,标志着VLA模型正式进军智能驾驶市场。
与传统的智能驾驶方案相比,VLA模型的最大特点在于其深度融合了多模态大模型。这使得智能驾驶系统不仅能够依赖规则算法进行决策,更能借助大模型的强大能力,提升对复杂交通场景的理解与应对能力。
理想汽车等业内领军企业已经开始布局VLA模型。理想汽车在三季度财报电话会议上透露,公司已启动L4级别自动驾驶的预研工作,重点研发车端VLA模型与云端世界模型相结合的强化学习体系。这显示出VLA模型在智能驾驶领域的应用前景备受期待。
然而,VLA模型的上车应用并非易事。该模型对技术和车端芯片算力提出了极高要求。业内人士指出,能够支持VLA模型上车交付的芯片可能在2026年才会出现。这意味着,在短期内,VLA模型的大规模应用仍面临挑战。
尽管如此,VLA模型的出现无疑为智能驾驶行业带来了新的发展机遇。其深度融合多模态大模型的特点,有望助力智能驾驶系统在复杂交通场景中实现更拟人化的表现,推动智能驾驶技术的持续进步。
同时,VLA模型的发展也将对智能驾驶行业的竞争格局产生影响。对于尚未发力端到端技术的玩家而言,VLA模型的出现无疑增加了其追赶的难度。后发制人的机会在这一技术革新面前显得更加稀少。
总体来看,VLA模型作为智能驾驶行业的新星,虽然面临诸多挑战,但其巨大的发展潜力和广阔的应用前景已然显现。未来,随着技术的不断进步和芯片算力的提升,我们有理由期待VLA模型在智能驾驶领域大放异彩。