近年来,自动驾驶技术的演进路径引发了业界的广泛关注,一个名为“世界模型”的新概念逐渐浮出水面,被视为自动驾驶领域的一次重大革新。
自动驾驶技术虽然发展迅速,但传统的端到端模式因其“黑盒子”特性而面临诸多挑战。这种模式下,上限的提升往往伴随着下限的降低,形成了“跷跷板效应”。无穷无尽的Corner Case和代码编写工作,使得自动驾驶的全面实现变得困难重重。因此,业界开始探索新的解决方案,世界模型应运而生。
据不完全统计,目前已有超过十家车企和自动驾驶公司提出了世界模型的概念,其中包括特斯拉、英伟达、蔚来、小鹏、理想等知名企业。这些企业纷纷投入资源,致力于世界模型的研究与应用。
世界模型的概念最早可以追溯到机器学习领域。2018年,一篇题为《Recurrent World Models Facilitate Policy Evolution》的论文在机器学习顶级会议NeurIPS上发表,该论文以认知科学中的人脑Mental Model为类比,提出了世界模型的概念。它认为,mental model参与了人类的认知、推理和决策过程,而反事实推理则是其核心能力之一。PLAM掌上电脑创始人杰夫·霍金斯的著作《千脑智能》也详细介绍了人工智能领域中的世界模型概念。
随着时间的推移,世界模型的应用逐渐广泛。2024年2月16日,Open AI公司发布了震惊全球的“文生视频”大模型Sora,它可以根据文本自动生成60秒的视频,这成为世界模型的一个具体实例。同时,谷歌DeepMind、李飞飞的World Labs等企业也发布了各自的世界模型。这些模型在自动驾驶、导航等领域展现出了巨大的潜力。
在国内,蔚来汽车是世界模型研究的佼佼者。在2023年的NIO Day上,蔚来宣布正在自研世界模型。一年后,在科技日上,蔚来智驾负责人任少卿发布了中国首个智能驾驶世界模型NWM。该模型具有全量理解数据、长时序推演和决策能力,能够在100毫秒内推演出216种可能发生的场景,并找到最优决策。
除了蔚来之外,商汤绝影也推出了名为“开悟”的世界模型。该模型可以生成仿真数据,与量产实车采集的真实数据结合,共同重建物理世界。商汤绝影CTO肖枫表示,世界模型将改变自动驾驶行业的竞争格局。
世界模型在自动驾驶领域的作用主要体现在两个方面:一是通过生成式大模型生成带有预测性质的视频数据,实现Corner Case的多样化训练;二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。构建世界模型的方法主要有两种:一种是凭空想象,“无中生有”;另一种是根据现有信息完善信息,如输入文本、图片、视频等生成更多更丰富的视频。
然而,世界模型的好坏评估却是一个难题。目前,业界还没有一个量化的准确办法来评估世界模型的优劣。只能大致从准确性、多样性、可控性和泛化能力等方面进行评估。地平线提出了世界模型的两个长远价值:一是更准确的世界理解,有助于减少智驾系统的代码量、延迟、网络负载和错误率;二是泛化能力,世界模型可以形成对复杂驾驶环境的通用理解,而非对输入的重复依赖。
随着技术的不断进步和应用的深入,世界模型有望成为自动驾驶领域的一次重大突破。然而,如何更好地评估和优化世界模型,以及如何处理真实数据与世界模型之间的关系,仍是业界需要继续探索的问题。