在具身智能研究领域,如何使机器人在任务指导和实时环境感知的基础上规划未来行动,一直是科研人员面临的重大挑战。这一难题主要受到“模态对齐”和“数据稀缺性”两大因素的制约。近日,智元机器人团队提出了一种名为EnerVerse的创新架构,该架构通过自回归扩散模型,在生成未来具身空间的同时,也指导机器人执行复杂任务。
EnerVerse架构与现有的视频生成模型应用方法存在显著差异。它深入结合了具身任务的实际需求,创新性地引入了稀疏记忆机制(Sparse Memory)和自由锚定视角(Free Anchor View, FAV)。这一创新不仅显著提升了4D生成能力,还在动作规划性能上实现了重大突破。
据智元机器人团队介绍,实验结果显示,EnerVerse不仅具备生成未来空间的能力,还在机器人动作规划任务中达到了当前最优水平(SOTA)。这一成果标志着在具身智能领域取得了重要进展。目前,EnerVerse的项目主页和论文《EnerVerse:设想机器人操作的具身未来空间》已经上线,模型及相关数据集也即将面向公众开源。
EnerVerse的主要科研成员来自智元机器人研究院的具身算法团队。论文的共同第一作者黄思渊,是上海交通大学与上海人工智能实验室的联合培养博士生,师从香港中文大学多媒体实验室(CUHK-MMLab)的李鸿升教授。黄思渊博士期间的研究方向主要集中在基于多模态大模型的具身智能和高效智能体的研究,并在CoRL、MM、IROS、ECCV等国际顶级会议上以第一作者或共同第一作者身份发表了多篇论文。
另一位共同第一作者陈立梁,则是智元机器人的具身算法专家,主要负责具身空间智能和世界模型的研究。EnerVerse架构的成功研发,不仅展示了智元机器人团队在具身智能领域的深厚积累,也为未来机器人技术的发展提供了新的思路和方向。