如今,人工智能领域正经历着类似的变革。图像和视频模型以及大型语言模型的出现,预示着人工智能在视觉领域的巨大潜力,但这仅仅是人工智能发展旅程的序章。为了迈向更高水平的人工智能,空间智能这一概念应运而生,它成为了人工智能从二维平面跨越至三维世界的钥匙。空间智能不仅要求人工智能能够“看见”世界,更要求其能够深入理解三维世界,并在其中进行互动与学习,实现从视觉识别到真正理解和操作现实世界的跨越。
空间智能的提出,为众多人工智能应用场景如具身智能、自动驾驶以及车路云一体化等开辟了新篇章。被誉为“AI教母”的李飞飞教授,在其首次创业时便选择了空间智能作为方向,这一选择迅速引起了业界的广泛关注。在2024年TED大会上,李飞飞发表了题为《空间智能:AI理解现实世界的桥梁》的演讲,她强调,机器视觉远远不够,视觉需要转化为洞察力,理解力,并最终导向行动。具有空间智能的生物天生具有行动的冲动,而人工智能也应如此。
我们熟知的人工智能大模型,拥有超大规模参数和复杂计算结构,能够处理海量数据,完成各种复杂任务。然而,对于机器人而言,理解空间坐标、定位自身位置以及进行目标抓取才是核心任务。这凸显了空间智能与现有人工智能技术的本质区别。空间智能是实现通用人工智能(AGI)的关键一环,它赋予了机器在三维空间中的感知、理解和交互能力。这种能力将人工智能模型从二维像素平面提升至三维立体世界,使其具备与人类相似的空间智能。
尽管OpenAI的Sora模型能够生成视频,但从本质上讲,它仍然是一个二维模型,缺乏三维立体理解能力。只有通过空间智能,人工智能才能真正看见、感知、理解世界,并自主行动,形成良性循环。空间智能的核心在于构建“世界模型”,这一模型使机器人具备类似人类的感知“灵性”。通过精准建模、理解与推理空间几何与物理过程,世界模型使机器人传感器如视觉、力觉、触觉等具备人类感知能力。
世界模型的基本思想源于对人类和动物理解世界的观察。人类大脑能够模拟未来场景,并基于模拟做出决策。受此启发,世界模型为人工智能系统提供了一个内部环境模拟,使其能够预测外部世界状态变化,从而做出适应性决策。这一模型通过无监督学习,从未标记数据中学习,无需明确指示便能理解世界动态。模型架构包含六个模块:配置器、感知模块、世界模型、成本模块、行动模块以及短期记忆模块。
在强化学习领域,世界模型展现出强大潜力。通过模拟环境,人工智能能够在虚拟环境中“想象”执行动作的后果,并在实际执行前评估不同行动方案的效果,从而提高学习效率和决策质量。在自动驾驶汽车和机器人等自主决策系统中,世界模型帮助系统更好地预测和应对可能的变化,提高了安全性和可靠性。世界模型的最大优势在于其环境模拟与预测能力,这使得人工智能系统能够在资源有限或风险较高的情境下,通过内部模拟评估不同行为的后果,并选择最优路径。
然而,世界模型的构建和应用也面临挑战。环境模拟的准确性依赖于模型复杂度和数据质量。要精确预测复杂环境中的动态变化,需要大量数据和强大计算资源。构建一个能够泛化到多种不同环境的世界模型极具挑战性,因为现实世界的复杂性和不可预测性超出了现有模型的处理能力。尽管世界模型在理论上具有巨大潜力,但在实际应用中仍存在许多未知数,如如何确保预测准确性、处理模型偏差以及在不同应用场景中调整模型参数等。
世界模型的潜在应用范围广泛,不同领域对其理解与预测能力有差异化要求。在自动驾驶领域,世界模型需要实时精准把握道路状况,预测变化趋势,重点聚焦于瞬时感知和复杂变化趋势预估。在机器人技术领域,世界模型对导航、物体识别检测以及任务规划等任务至关重要,要求精准解析外部动态环境,构建具有交互性和实体体验感的环境场景。在虚拟社会系统模拟方面,世界模型需要敏锐捕捉并预测抽象行为动态,如社会交往互动和人类决策制定等。
空间智能的发展尚处于起步阶段,但速度迅猛。据Omdia最新报告,全球空间计算市场规模预计将在2029年超过100亿美元,累计平均增长率(CAGR)将达18%。在中国,随着交通基础设施智能化升级的全面开启,实时数字孪生在车路云一体化建设中发挥作用。通过在路口铺设具备“通感算”能力的AI数字道路基站,并与AI路侧边缘计算系统配合,交通管理者能够获取路口范围内所有交通参与者的动态信息,实时构建数字孪生系统,为车辆提供实时数据服务。驾驶员通过车载大屏可以清晰看到路口全量动态信息,为准确驾驶决策提供可靠依据。
在医疗领域,空间智能技术可以对医学影像数据进行三维重建和分析,帮助医生更准确地诊断疾病。通过对CT、MRI等影像数据进行三维重建,可以更清晰地显示人体器官和病变情况,为医生提供准确的诊断信息。同时,空间智能技术还可以为医生提供手术导航和辅助决策,提高手术的准确性和安全性。
五亿年前,视觉的出现颠覆了黑暗世界,开启了生物进化的新篇章。如今,当人工智能被赋予空间智能时,就像大自然开启了生物多样化时代一样,人工智能的未来也将展现出无限潜力。这场数字寒武纪大爆发,将让人工智能更加深入地理解和操作现实世界,开启无尽想象空间。