在机器人技术的前沿探索中,一款全新的通用具身基座模型——智元启元大模型Genie Operator-1(GO-1)于近日正式亮相,由智元机器人公司隆重发布。这款模型引入了一种创新的Vision-Language-Latent-Action(ViLLA)框架,融合了VLM(多模态大模型)与MoE(混合专家)技术,展现了采训推一体化、小样本快速泛化、跨本体应用、持续进化以及人类视频学习等多重优势。
GO-1的ViLLA框架是其核心所在,它巧妙地结合了VLM与MoE。VLM作为模型的主干网络,继承了开源多模态大模型5-2B的权重,并通过互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则包含了隐动作专家模型和动作专家模型,前者利用互联网上的大规模人类操作和跨本体操作视频,使模型能够理解动作;后者则借助高质量的仿真数据和真机数据,确保模型能够精确执行动作。
GO-1的五大特点尤为突出:采训推一体化设计,确保了数据采集、模型训练和模型推理的无缝衔接;小样本快速泛化能力,使得模型能够在极少数据甚至零样本的情况下,快速适应新场景和新任务;一脑多形功能,使GO-1成为一个通用机器人策略模型,能够轻松迁移至不同形态的机器人上;持续进化特性,借助智元的数据回流系统,模型能够不断从实际执行中遇到的问题数据中学习和进化;人类视频学习能力,则让模型能够结合互联网视频和真实人类示范进行学习,进一步增强了其对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔,底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。其上则是人类操作和跨本体视频数据,帮助机器人学习动作操作模式。再上一层是仿真数据,用于增强模型的泛化性,使其能够适应不同场景和物体。而金字塔的顶层,则是高质量的真机示教数据,用于训练精准的动作执行。
ViLLA框架的引入,使得GO-1能够将输入的多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户用日常语言向机器人发出“挂衣服”的指令时,GO-1能够迅速理解指令含义,并依据所学的人类操作视频和仿真数据,精准完成挂衣服的任务。
GO-1的应用场景广泛,从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多领域的操作任务,GO-1都能迅速适应并高效完成。在商务会议中,面对人类发出的各种语音指令,GO-1能够迅速响应,如“帮我拿一瓶饮料”或“帮我拿一个苹果”,展现了其强大的指令泛化能力。
GO-1还具备持续进化的能力。例如,当机器人在制作咖啡时不小心将杯子放歪时,它能够从这次失败中学习到经验,并在后续任务中不断优化和调整,直至成功完成任务。这种从问题数据中不断学习和进化的能力,使得GO-1能够不断适应多变的真实世界。
智元机器人的GO-1不仅为机器人技术带来了革命性的突破,更为机器人走向更多不同场景、适应多变的真实世界提供了强大的支持。随着技术的不断进步和应用的不断拓展,GO-1有望成为未来机器人领域的佼佼者,为人类的工作和生活带来更多便利和惊喜。