多模态技术正成为智能座舱的新热点。随着技术的不断迭代,大模型正逐步从单一模态向多模态演进,预计将成为人机交互的重要入口。咨询公司Gartner预测,基于多模态大模型的生成式AI应用将在未来几年内激增,从2023年的1%增长至2027年的40%,展现出巨大的发展潜力。
智能汽车成为原生多模态大模型的理想应用场景。GPT-4o和商汤绝影的最新版本已经能够感知外部环境、人的情绪以及其他非语音信号,实现了多模态实时交互,为车企带来了更多商业落地的可能性。商汤认为,多模态大模型的引入突破了空间限制,实现了车内用户与更广阔物理和数字世界的联接,推动了智能汽车向超级智能体的进化。
火山引擎汽车行业总经理杨立伟也持相似观点,认为大模型天生跨终端,能够生态打通,将来大模型在座舱的最大价值在于帮助集成生态并打通各个终端。中国企业在这一领域的快速发展,正硬刚国际巨头如GPT-4o。
那么,何为原生多模态?原生多模态指从训练阶段开始,模型就利用大量不同模态的数据进行预训练,实现紧密的耦合。它不仅可以在输入和输出端实现多模态,还具备强大的多模态推理能力以及跨模态迁移能力。商汤绝影已率先实现原生多模态大模型的车端部署,展示了强大的车端推理能力。
然而,大模型在车载应用中也面临挑战。科大讯飞智能汽车事业部智能座舱业务总经理吕思南指出,多模态大模型的引入对算力和算法提出了更高要求。如何在多样化的芯片选择中更优地使用算力,以及实现跨模态数据的全链路打通,是当前亟需解决的问题。
智能座舱在实际应用中也面临取舍问题。火山引擎座舱大模型负责人张航强调,座舱内的用户需求近几年没有太大变化,其核心是与车的交互。因此,当前的重心应是改变车内场景的交互效率,而非急于产品创新。百度智舱业务部总经理李涛也表达了类似观点,指出频繁使用的功能可能反映了整体车辆设计的智能化程度较低。