在自动驾驶技术的浩瀚星空中,各路大佬纷纷发声,一个共识逐渐浮出水面:端到端结合大模型,或许正是自动驾驶技术发展的终极形态。然而,正如世间万物千姿百态,端到端与大模型的具体实现路径同样没有固定答案。
技术,如同流水与兵法,无常势亦无常形。在真实世界的舞台上,技术展现出高度的可重构性,随着时间流转与新技术涌现,它不断进化,持续改进。自2022年底OpenAI推出ChatGPT大语言模型以来,生成式AI大模型逐渐分化为两大流派:语言模型与世界模型。
语言模型在数字世界中深耕细作,从单一的文本模态扩展到包含图片、视频的多模态,实现了文生图、看图说话、图生图、文生视频的能力。典型的代表如今年2月发布的Sora和4月发布的GPT4-o,它们在数字世界中游刃有余。
而世界模型则跨越数字与物理的界限,从一维的数字智能迈向三维的空间智能。据AI领域的传奇人物、生于北京、成就于美国的李飞飞所言,空间智能意味着AI能在三维空间和时间中以三维方式感知、推理与行动,与现实世界无缝交互。
两大流派的核心差异在于,大语言模型基于文本序列对世界进行一维表示,即便多模态语言模型能够理解图像和视频,也不过是将这些数据Token化,强行融入文本的一维序列中。而空间智能则将三维作为表达的核心,是对物理世界的深度理解与交互。
从自动驾驶大模型的赛道来看,小鹏汽车的全域大语言模型和理想汽车的视觉语言模型,均是在文本基础上叠加了图片和视频模态的语言模型。而蔚来汽车与特斯拉的世界模型,则属于空间智能阵营,它们旨在理解并掌握物理规律,与现实世界产生真实交互。
智能电动汽车行业的竞争,不仅仅是产品、技术与渠道的较量,营销层面的明争暗斗同样激烈。在7月31日的智能驾驶系统发布会上,何小鹏对理想汽车数据为王的观点提出质疑,强调在新的端到端范式下,数据需要重新标注,即便是自动标注工具的帮助,也是一项繁重的任务。
在端到端与大模型的背景下,数据标注的需求发生了新的变化。语言模型需要海量的数据标注工作,以构建预测与规划数据集。而世界模型则采用无监督学习,无需数据标注,能够应对更海量的数据驱动新范式,从此告别劳动密集型的人工智能。
语言模型与世界模型,如同东北大哥与湖南老表,前者先声夺人,给出对当前驾驶场景的理解,但不直接输出决策结果;后者则干脆利落,直接给出车辆的行驶轨迹。理想汽车的VLM给出的是中间层面的建议,而蔚来汽车的世界模型则推演万千平行世界,选择最优解,生成行驶轨迹,直接控制车辆的驾驶行为。
世界模型的两大优势显而易见:一是直接给出行驶轨迹,二是通过无监督学习训练出对驾驶场景的深度理解能力,实现从感知到认知的跃升。相较于BEV+OCC的感知能力,世界模型能够更细致地理解场景,包括光照条件、天气情况等关键要素,为安全、舒适、高效的完全自动驾驶提供有力支撑。
随着算力的不断提升,采用不同技术路线的车企或将逐步趋同。理想和小鹏从语言模型过渡到世界模型,或许只是一个时间问题。在这场自动驾驶技术的变革中,谁将最终问鼎巅峰,让我们拭目以待。