滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

机器人领域突破！智元与上交大共创4D世界模型EnerVerse

时间：2025-01-09 17:39:31 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在机器人技术领域，一项重大突破于近日由智元机器人、上海交通大学与上海人工智能实验室携手实现。他们共同研发的4D世界模型EnerVerse，旨在解决机器人在复杂任务中的动作规划难题，为机器人技术开辟了新的道路。

传统的机器人动作规划方法，在多模态空间（如语言、视觉和动作）之间难以实现精确对齐，同时缺乏大规模、多模态且带有动作标签的数据集。而EnerVerse通过引入自回归扩散模型（autoregressive diffusion），在生成未来具身空间的同时，能够引导机器人完成复杂任务，显著提升了动作规划的性能。

EnerVerse的核心设计包括逐块生成的自回归扩散模型、稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV）。其中，自回归扩散模型采用基于时空注意力的UNet结构，通过卷积与双向注意力建模每个空间块内部，并通过单向因果逻辑保持时间一致性，确保生成的序列逻辑合理。稀疏记忆机制则借鉴了大模型的上下文记忆，有效降低了计算开销，同时提升了长程任务的生成能力。而自由锚定视角方法则解决了具身操作中由于遮挡关系复杂，难以构建完美全局视角的问题。

自由锚定视角方法允许根据场景灵活重置锚定视角，避免固定多视角在狭窄空间中的局限性。它使用视线方向图作为视角控制条件，同时将扩散模型中的2D空间注意力扩展为跨视角的3D空间注意力，确保生成的多视角视频在几何上保持一致。通过在仿真数据上微调的4D生成模型与4D高斯泼溅交替迭代，构建了一个数据飞轮，为真实场景下的FAV生成提供伪真值支持。

在EnerVerse架构中，生成网络下游集成了Diffusion策略头，打通了未来空间生成与机器人动作规划的全链条。这一设计使得生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保了动作预测的实时性。同时，稀疏记忆队列存储真实或重建的FAV观测结果，有效提升了长程任务规划能力。

实验结果表明，EnerVerse在视频生成、动作规划等方面均表现出卓越的性能。在短程生成任务中，EnerVerse的表现优于现有的微调视频生成模型。而在长程生成任务中，EnerVerse展现出更强的逻辑一致性与连续生成能力，这是现有模型无法比拟的。EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

在动作规划能力方面，EnerVerse同样表现出色。在LIBERO基准测试中，EnerVerse在机器人动作规划任务中取得了显著优势。其单视角模型在LIBERO四类任务中的平均成功率已超过现有最佳方法，多视角设定更是进一步提升了任务成功率。消融实验也表明，稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

通过可视化Diffusion策略头中的交叉注意力模块，研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。这一发现进一步证明了EnerVerse在未来空间生成与动作规划任务中的优势。

EnerVerse架构的提出，不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。随着项目的开源推进，EnerVerse有望进一步优化、拓展其应用边界，加速机器人技术从实验室迈向实际应用，为工业制造、物流配送等场景带来更高的生产效率。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

阿里云刘伟光深度解读：AI云时代，真正的云该是什么模样？

大家对AI的需求千差万别，有做基础大模型的先行者还在持续训练大模型，有做垂直化应用的公司在深度使用大模型，还有一些传统行业的公司用大模型进行业务创新和提效……他们不仅是简单调用，还会在原有应用中大量嵌入AI…

01-09

中国电气装备集团新设数字科技公司，业务布局人工智能领域

01-09

黎科峰：Data+AI引领企业数据革命，破解数据价值释放难题

01-09

中国电气装备集团成立数字科技公司，含多项AI业务

企查查APP显示，近日，中国电气装备集团数字科技有限公司成立，法定代表人为任志航，注册资本5亿元，经营范围包含：人工智能行业应用系统集成服务；人工智能通用应用系统；人工智能公共服务平台技术咨询服务等。企查查股…

01-09

微软再掀裁员风波，强化绩效管理战略，科技巨头未来如何？

01-09

微软必应图像生成器升级“翻车”？用户吐槽画质下降官方紧急回滚

01-09

马斯克警示：AI训练数据逼近枯竭，合成数据成未来关键？

01-09

华为云盘古大模型引领新质生产力，AI for Science布局未来科技前沿

01-09

中国AI眼镜闪极拍拍镜出海，GPT-4o加持loomos AI眼镜亮相CES2025

01-09

马斯克展望：2026年擎天柱人形机器人产量或达5至10万台

01-09

金山云智算升级迎AI新风口，盈利能力有望迎来飞跃式增长

01-09

英伟达联发科联手，AI PC芯片市场迎来新变局？

01-09

国联股份等成立新公司，含多项AI业务

企查查APP显示，近日，北京国联同达信息技术有限公司成立，法定代表人为白蕾，注册资本1000万元，经营范围包含：人工智能应用软件开发；人工智能基础软件开发；人工智能理论与算法软件开发等。企查查股权穿透显示，该…

01-09

国联股份携手共创新企，北京国联同达聚焦多项AI业务布局

01-09

数势科技SwiftAgent：AI数据分析新助手，让决策更高效

01-09

点击查看更多 +

全站最新

吉利银河星舰7EM-i新年开门红，双冠加冕插混SUV市场新王者！

英伟达联手丰田布局自动驾驶，我国智能驾驶企业多为老牌劲旅

布鲁可新股暗盘狂飙72%！明日IPO能否续写辉煌？

华硕PRIME大师360 ARGB水冷白色版上市，599元享个性化无限镜冷头

真我Neo7 SE配置曝光：天玑8400-Max加持，性能直逼旗舰水平！

小鹏G7官图曝光：25万级智能大空间新车，动力信息即将揭晓！

热门内容

本栏最新

阿里云刘伟光深度解读：AI云时代，真正的云该是什么模样？

中国电气装备集团新设数字科技公司，业务布局人工智能领域

黎科峰：Data+AI引领企业数据革命，破解数据价值释放难题

中国电气装备集团成立数字科技公司，含多项AI业务

微软再掀裁员风波，强化绩效管理战略，科技巨头未来如何？

马斯克警示：AI训练数据逼近枯竭，合成数据成未来关键？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.