在探讨大模型对科学发现的助力时,其“幻觉问题”似乎并不构成障碍,反而成为了一种优势。然而,在自动驾驶,尤其是L4级高安全要求的场景中,这一问题却成为了亟待解决的难题。
具体到自动驾驶的错误率,华为在《云计算2030》报告中指出,L3级自动驾驶的容错率为0.1-1%,而L4级则要求更为严苛,容错率需在0.0001-0.001%之间。这一数据为我们提供了衡量当前大模型性能的重要参考。
近年来,随着模型参数量的增加、训练数据的丰富以及新方法的引入,大模型的准确率确实在稳步提升。例如,GPT3在2020年问世时错误率约为40%,而到了2022年底,GPT3.5的错误率已降至20%,GPT4更是进一步将错误率降低到了10%。然而,即便如此,与L4级自动驾驶所需的容错率相比,仍然存在着显著的差距。
这种差距在理想汽车的实践中得到了体现。理想汽车曾尝试将LLM改造为视觉语言模型DriveVLM,并应用于自动驾驶系统。然而,在直播测试中,该系统却出现了公然逆行的错误,暴露了模型输出错误率依然较高的问题。尽管DriveVLM在阿里巴巴的Qwen-VL或meta的LLaMA2-3B基础上进行了额外的训练和优化,但准确率的提升仍然有限。
自动驾驶系统不仅需要高准确率,还需要在复杂车流环境中实现实时决策。这就要求模型的运行频率至少要在十几赫兹以上。然而,目前理想汽车的视觉语言模型DriveVLM的运行频率仅为3.3赫兹,无法满足实时轨迹规划的需求。
对于如何提升自动驾驶大模型的性能和实时性,业界存在着不同的看法。有人认为,通过升级硬件,如将自动驾驶芯片从Orin升级为英伟达的Thor,可以显著提升模型的运行频率。然而,这种观点忽视了模型参数量对性能的影响。目前,理想汽车的视觉语言模型DriveVLM的参数量仅为22亿,远低于实现L4级自动驾驶所需的参数量。
相比之下,特斯拉的FSD模型在参数规模上更为庞大。据特斯拉透露,其FSD模型的参数量已经从V12.4版本的10亿增加到V13版本的数百亿级别。这种参数量的提升为特斯拉的自动驾驶系统提供了更强的性能和更高的准确性。
另一方面,本土智驾企业在自动驾驶大模型上的实践也取得了一定的进展。他们利用头部AI企业开源的具备图像理解能力的多模态大模型,结合驾驶场景进行微调训练,开发出了自家的视觉语言智驾大模型。这些模型具备图文识别能力和一定的场景理解能力,可以用于识别潮汐车道、公交车道等交通标识,并给出相应的驾驶建议。
然而,这些视觉语言模型仍然存在着局限性。它们主要基于2D图像输入进行后融合处理,缺乏真正的空间理解能力。要实现精准的空间理解,需要同时输入车前、车后、左右等多个摄像头的图像输入,并在3D视角下进行综合判断。这正是BEV前融合技术的价值所在。因此,尽管生成式AI大模型为自动驾驶带来了新的可能性,但要真正提升自动驾驶能力,仍然需要克服许多技术和实践上的挑战。