在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(GO-1)的创新产品于近日横空出世,由智元机器人公司正式发布。这款模型不仅标志着具身智能领域的一次重大突破,还预示着机器人将更加智能化、通用化,更好地融入人类的生活与工作。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架由VLM(多模态大模型)与MoE(混合专家)两部分组成。VLM作为主体,依托于开源多模态大模型的强大基础,通过海量互联网文本与图文数据的学习,赋予了GO-1卓越的场景感知与理解能力。而MoE则进一步强化了模型的动作规划与执行能力,通过隐动作专家模型和动作专家模型的协同作用,GO-1能够精准理解并执行各种复杂的任务。
GO-1的五大特点尤为引人注目:采训推一体化设计,确保了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力,使得模型能够在极少数据甚至零样本的情况下,迅速适应新场景与新任务;一脑多形的设计,让GO-1能够轻松迁移至不同形态的机器人本体上,实现跨本体应用;持续进化机制,通过数据回流系统,GO-1能够不断从实际执行中遇到的问题中学习进化;而人类视频学习能力,则让模型能够结合互联网视频与真实人类示范,进一步加深对人类行为的理解。
在构建过程中,GO-1采用了具身领域的数字金字塔架构。底层是互联网的大规模纯文本与图文数据,为机器人提供了广泛的知识基础。上一层则是大规模的人类操作与跨本体视频数据,帮助机器人学习各种操作模式。再上一层是仿真数据,用于增强模型的泛化能力。而金字塔的顶端,则是高质量的真机示教数据,确保了模型能够精准执行各种动作。
ViLLA框架的引入,使得GO-1能够将多相机视觉信号与人类语言指令直接转化为机器人的动作执行。与传统的Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户以自然语言的形式向机器人发出“挂衣服”的指令时,GO-1能够迅速理解指令的含义,并根据所学习过的数据,拆解并执行挂衣服的各个步骤。
GO-1的应用场景广泛,从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多领域的操作任务,GO-1都能够迅速适应并高效完成。GO-1还具备持续进化的能力,能够从实际执行中遇到的问题数据中不断学习,直至成功完成任务。例如,在制作咖啡的过程中,如果机器人不小心将杯子放歪,GO-1就能够通过数据回流系统,从这次失败中学习并改进,确保下次能够成功完成任务。
智元机器人公司还预告,未来几个月内将推出基于强化学习的仿真模型,并即将亮相新的人形机器人。GO-1的成功发布,不仅为机器人技术的发展注入了新的活力,更为具身智能的通用化、开放化与智能化迈出了坚实的一步。