在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日横空出世,由智元机器人公司正式发布。这一通用具身基座模型,标志着机器人在理解并执行人类指令方面迈出了重要一步。
GO-1的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了多模态大模型(VLM)与混合专家(MoE)技术。这一组合不仅赋予了GO-1强大的场景感知与理解能力,还使其能够在极少数据甚至零样本的情况下快速适应新场景和新任务,实现了小样本快速泛化。
VLM作为GO-1的主干网络,其权重源自开源多模态大模型5-2B,并通过互联网上的大规模纯文本和图文数据进行训练,从而获得了广泛的场景认知基础。而MoE中的隐动作专家模型和动作专家模型,则分别利用互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,进一步提升了GO-1的动作理解和执行能力。
GO-1的推出,意味着机器人将能够更自然地融入人类生活。用户只需用日常语言向机器人发出指令,如“挂衣服”,GO-1便能根据所见画面和所学知识,理解指令含义,规划执行步骤,并精准完成任务。这一过程中,ViLLA框架通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。
智元机器人在构建GO-1时,采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解基础。往上则是人类操作和跨本体视频数据,帮助机器人学习各种动作操作模式。再往上则是仿真数据,用于增强泛化能力。而金字塔的顶层,则是高质量的真机示教数据,确保机器人能够精准执行动作。
GO-1的应用场景广泛,从家庭中的倒水、烤吐司等日常任务,到商务会议中的拿饮料、拿苹果等指令响应,再到活动现场的检票、发放物料等工作,都能轻松应对。GO-1还具备持续进化的能力,能够通过数据回流系统从实际执行中遇到的问题数据中不断学习,不断提升自身性能。
智元机器人还预告,未来几个月将推出基于强化学习的仿真模型,并即将亮相新的人形机器人。这些创新成果将进一步推动具身智能向通用化、开放化与智能化方向发展,让机器人能够更好地适应多变的真实世界,为人类生活带来更多便利。