ITBear旗下自媒体矩阵:

智元启元大模型GO-1发布:ViLLA架构开启具身智能新篇章

   时间:2025-03-10 11:06:24 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,智元机器人在其官方渠道宣布了一项重大突破,正式推出了业界首个通用具身基座模型——智元启元大模型(Genie Operator-1),这一创新成果标志着智元在人工智能领域的又一里程碑。

智元启元大模型的核心在于其独创的Vision-Language-Latent-Action(ViLLA)架构,这一架构的提出,为具身智能的发展开辟了新的路径。ViLLA架构由两大核心组件构成:多模态大模型VLM与混合专家系统MoE。

VLM组件通过深度挖掘海量互联网图文数据,赋予了智元启元大模型卓越的通用场景感知和语言理解能力。它能够准确识别并理解图像中的信息,同时与文本数据进行高效融合,实现了对复杂场景的全面理解。

而MoE系统则进一步增强了智元启元大模型的动作理解与执行能力。其中,Latent Planner(隐式规划器)通过分析大量跨本体和人类操作视频数据,掌握了通用的动作规划逻辑。与此同时,Action Expert(动作专家)则依托百万级真机数据训练,具备了精细且高效的动作执行能力。

ViLLA架构中的这三大组件相互协同,形成了一个高效且智能的系统。它不仅能够从人类视频中学习并快速泛化到小样本场景,还显著降低了具身智能的应用门槛。这一创新成果已经成功应用于智元的多款机器人本体上,展现了强大的实际应用潜力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version