特斯拉近日正式发布了其“完全自动驾驶”软件的最新版本FSD V13.2,并已完成首批用户的交付。此次更新带来了多项新功能,包括停车启动、自动换挡以及目的地自动泊车等。特斯拉自动驾驶工程师Arek Sredzki强调,新版本中的端到端网络已经能够实现从一个停车位到另一个停车位的全程自动驾驶(P2P)。
特斯拉FSD的每一次重要更新,总能引起行业内各大智能驾驶玩家的密切关注。今年年初,特斯拉推送了FSD V12的测试版本,将城市街道驾驶的软件栈升级为单一的端到端神经网络。这一变革不仅在美国本土引发了热议,也远隔重洋,在中国掀起了一股端到端技术的热潮。
当前,众多致力于在自动驾驶领域取得领先地位的汽车制造商和智能驾驶供应商,开始将端到端技术作为宣传的重点。2024年,多家车企或智能驾驶供应商声称已进入“智驾第一梯队”,无论其技术和产品能力如何,端到端都成为了不可或缺的一个关键词。
端到端技术究竟有何魅力?又存在哪些潜在问题?其与传统自动驾驶算法的主要区别在于系统架构和数据处理方式。传统算法通常采用模块化部署,将感知、预测、规划和控制等功能划分为独立模块,虽然结构清晰,但存在误差累积和信息丢失的问题。而端到端架构则通过统一的神经网络模型,直接从传感器数据映射到车辆控制指令,简化了系统结构,提高了整体性和稳定性。
用比喻来说,传统自动驾驶算法就像是制作蛋糕的分步骤过程,每一步都由专门的厨师负责,而端到端则像是一个特级大厨,从准备原料到蛋糕出炉全程掌控。这种方式能够更好地协调整个过程,减少错误,并快速学习和调整。
然而,在实践过程中,行业内部出现了两种路径选择:一体化端到端(One Model)和分段式端到端。一体化方案从感知到预测规划无缝衔接,确保信息完整传递,但一旦出现问题,整个系统难以精确调试。分段式方案则将感知和决策规划分开,并在中间嵌入人工接口,以实现更灵活和可扩展的系统设计。
黑芝麻智能采用了One Model架构的端到端智能驾驶系统,能够输入摄像头、激光雷达、4D毫米波雷达、导航地图等信息,直接输出驾驶决策所需的预期轨迹。而Momenta则在去年实现了两段式端到端,今年上半年又进一步实现了一段式端到端。
为了进一步提升端到端系统决策的准确性和灵活性,行业里流行的做法是结合VLM(视觉语言模型)架构。端到端系统负责处理感知、决策和执行的全过程,而VLM则作为辅助系统,提供对复杂交通场景的理解和语义解析。理想汽车的端到端与VLM相结合的双系统架构方案,基于人类两套思维系统理论,旨在赋予车端模型更高的性能上限和发展潜力。
许多观点认为端到端+VLA(视觉语言动作模型)是端到端+VLM的下一个阶段。VLA将端到端系统与多模态大模型更彻底地结合,形成一个统一的模型框架,使系统能够更全面地理解和响应复杂的驾驶环境。元戎启行CEO周光表示,从VLM到VLA的进步就像是从有人指导的初学者变成了经验丰富的老手直接操作,更加高效和安全。
然而,端到端技术的挑战也显而易见,尤其是对高质量数据的需求呈指数级增长。受限于高阶智能驾驶的量产规模、算力资源,大多数车企和智能驾驶公司都面临高质量驾驶数据获取难度大、效率低、成本高的问题。为此,商汤绝影升级发布了“开悟”世界模型,以满足端到端模型训练和仿真对数据质量的高要求。
蔚来也在今年的创新科技日上发布了智能驾驶世界模型NWM,该模型能够在100毫秒内推演出216种可能发生的场景,并找到最优决策。理想汽车也在运用云端世界模型对其快慢双系统进行能力的训练和测试,以加速系统迭代。
尽管端到端技术的研发推进面临重重困难,但众多企业正在积极寻求解决方案。奇瑞汽车副总经理兼大卓智能CEO谷俊丽表示,核心研发能力将变为数据、云计算以及顶级AI科学家三大要素。奇瑞推出的智能驾驶大模型,也是通过云端世界模型生成丰富场景,预计将在未来几年实现两段式和一段式端到端方案的量产上车。
端到端技术的落地将促进其依赖的上游工具链和芯片等技术的加速发展,同时进一步提升数据和AI人才的重要性。然而,关于端到端是否就是自动驾驶的终极方案,行业内仍存在不同声音。商汤绝影CEO王晓刚曾表示,端到端技术并非终点,未来还有通用人工智能、多模态等新技术不断涌现和突破。