近日,智元机器人在科技界掀起了一场波澜,正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(GO-1)。这一创新成果标志着机器人在理解和执行人类指令方面迈出了重要一步。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架由VLM(多模态大模型)与MoE(混合专家)两部分构成。VLM作为模型的主干网络,通过吸收互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则进一步增强了模型的动作规划和执行能力,使其能够根据人类操作视频和高质量仿真数据进行学习。
GO-1的特点显著,其采训推一体的设计使得数据采集、模型训练和模型推理能够无缝衔接,大大提高了效率。GO-1还具备小样本快速泛化的能力,能够在极少数据甚至零样本的情况下适应新场景和新任务。更重要的是,GO-1是一个通用机器人策略模型,能够轻松迁移至不同形态的机器人本体,实现“一脑多形”的跨本体应用。
在智元机器人的数字金字塔构建体系中,GO-1从底层的大规模纯文本与图文数据开始,逐步吸收人类操作视频、仿真数据和真机示教数据,形成了全面的知识体系和技能库。这使得GO-1能够轻松面对多种多样的环境和物体,快速学习新的操作。
ViLLA框架的引入,使得GO-1能够将输入的多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与Vision-Language-Action(VLA)模型相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),有效地缩小了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户告诉GO-1“挂衣服”时,模型能够迅速理解这一指令的含义,并根据所学的人类操作模式和仿真数据,精准地完成挂衣服的任务。
GO-1的应用场景广泛,从家庭到办公,再到工业等更多领域,都能发挥其强大的功能。在家庭中,GO-1可以帮忙准备餐食、收拾桌面;在办公和商业场景中,GO-1则能够负责接待访客、发放物品等工作。GO-1还具备持续进化的能力,能够通过数据回流系统不断学习和改进,以适应实际执行中遇到的问题。
智元机器人的这一创新成果,无疑为具身智能的发展注入了新的活力。GO-1的出现,不仅解决了具身智能在场景和物体泛化、语言理解、新技能学习以及跨本体部署等方面的难题,更为机器人走向更多不同场景、适应多变的真实世界提供了强大的支持。