ITBear旗下自媒体矩阵:

智元启元大模型GO-1发布,具身智能迈向新高度,新人形机器人即将亮相!

   时间:2025-03-11 07:19:14 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日由智元机器人公司正式发布。这款通用具身基座模型,以其独特的Vision-Language-Latent-Action(ViLLA)框架,为机器人领域带来了革命性的突破。

ViLLA框架由两大核心组件构成:VLM(多模态大模型)与MoE(混合专家)。VLM作为GO-1的主干网络,基于开源多模态大模型5-2B的权重进行训练,通过互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则包含了隐动作专家模型和动作专家模型,前者利用互联网上的大规模人类操作和跨本体操作视频,使模型能够理解并执行各种动作;后者则通过高质量的仿真数据和真机数据,确保了动作的精细执行能力。

GO-1的发布,标志着机器人在小样本快速泛化、跨本体应用等方面取得了显著进展。该模型能够在极少数据甚至零样本的情况下,快速适应新场景和新任务,实现“一脑多形”的跨本体部署。同时,智元机器人还预告,未来几个月将推出基于强化学习的仿真模型,并即将亮相新的人形机器人。

GO-1的成功,得益于其独特的数字金字塔构建方式。底层是互联网的大规模纯文本与图文数据,为机器人提供了广泛的知识基础。在此基础上,通过引入互联网的大规模人类操作/跨本体视频和仿真数据,GO-1得以学习各种动作操作模式,并增强泛化性。金字塔的顶层则是高质量的真机示教数据,用于训练精准动作执行。

在实际应用中,GO-1展现出了卓越的性能。用户只需通过简单的语言指令,机器人就能根据场景和物体理解指令的含义,并快速执行相应动作。例如,用户告诉机器人“挂衣服”,机器人就能根据所学知识和仿真数据,理解挂衣服的步骤,并精准完成任务。GO-1还能通过数据回流系统持续进化,从实际执行中遇到的问题数据中不断学习,提高任务完成的成功率。

GO-1的应用场景广泛,从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等其他场景的操作任务,都能轻松应对。这意味着机器人将能够走向更多不同场景,适应多变的真实世界,为人类的工作和生活带来更多便利。

智元启元大模型GO-1的发布,不仅为机器人领域带来了技术上的突破,更为具身智能的通用化、开放化与智能化发展开辟了新道路。未来,随着技术的不断进步和应用场景的不断拓展,机器人将在更多领域发挥重要作用,为人类创造更加美好的生活和工作环境。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version