ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

   时间:2025-03-12 13:51:50 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,智元机器人在科技创新领域迈出了重要一步,正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款模型通过引入Vision-Language-Latent-Action(ViLLA)框架,实现了从视觉和语言指令到机器人动作执行的无缝对接,展现了小样本快速泛化、跨本体应用及持续进化等显著优势。

GO-1的核心在于其ViLLA框架,该框架由多模态大模型VLM和混合专家MoE组成。VLM作为主干网络,继承了开源多模态大模型的权重,并通过互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则包括隐动作专家模型和动作专家模型,前者利用互联网上的大规模人类操作和跨本体操作视频,使模型能够理解动作;后者则通过高质量的仿真数据和真机数据,确保模型能够精确执行动作。

GO-1的推出,标志着智元机器人在具身智能领域取得了重大突破。该模型具备五大特点:采训推一体,实现数据采集、模型训练、模型推理的无缝衔接;小样本快速泛化,能够在极少数据甚至零样本下泛化到新场景、新任务;一脑多形,能够在不同机器人形态之间迁移,快速适配不同本体;持续进化,通过数据回流系统,从实际执行中遇到的问题数据中持续学习;人类视频学习,结合互联网视频和真实人类示范,增强模型对人类行为的理解。

GO-1的构建基于具身领域的数字金字塔,底层是互联网的大规模纯文本与图文数据,帮助机器人理解通用知识和场景;第二层是互联网的大规模人类操作/跨本体视频,帮助机器人学习动作操作模式;第三层是仿真数据,用于增强泛化性;顶层则是高质量的真机示教数据,用于训练精准动作执行。这样的设计使得GO-1能够全面适应新场景,快速学习新操作。

在实际应用中,GO-1展现出了强大的功能。用户只需用平常讲话的方式告诉机器人要做的事情,如“挂衣服”,模型就能根据画面、学习过的数据和仿真模拟,理解任务要求,并精准完成整个操作。GO-1还能应用到更多场景中,如准备餐食、收拾桌面等家庭任务,以及接待访客、发放物品等办公和商业场景工作。

值得注意的是,GO-1还具备持续进化的能力。例如,当机器人在做咖啡时不小心把杯子放歪了,它就能从这个问题数据中学习,直到成功完成任务。这种能力使得GO-1能够不断适应多变的真实世界,为机器人代替人类完成各种工作提供了强大的支持。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version