在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品于近日震撼发布,标志着通用具身基座模型迈入了一个崭新的发展阶段。这款由智元机器人精心打造的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,在多个方面展现了前所未有的能力。
GO-1的核心在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)两大组件。VLM作为模型的“大脑”,基于开源多模态大模型5-2B的权重,通过大规模互联网纯文本和图文数据的训练,赋予了GO-1强大的场景感知与理解能力。而MoE则充当了隐式的规划器和动作预测器,利用互联网上的大量人类操作和跨本体操作视频,以及高质量的仿真和真机数据,让GO-1不仅理解了动作,还具备了精细执行动作的能力。
GO-1的出色表现,体现在其五大特点上:采训推一体化设计,确保了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力,使得模型能够在极少数据甚至零样本的情况下,迅速适应新场景和新任务;一脑多形的设计,让GO-1能够轻松迁移至不同形态的机器人,实现跨本体应用;持续进化机制,借助智元的数据回流系统,模型能够从实际执行中遇到的问题数据中不断学习进步;人类视频学习能力,则让GO-1能够结合互联网视频和真实人类示范,深化对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔,底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。往上则是人类操作和跨本体视频数据,帮助机器人学习动作模式。更上层是仿真数据,用于提升泛化能力。而金字塔的顶端,则是高质量的真机示教数据,确保精准动作的执行。这样的设计,让GO-1在接受到一句简单的语言指令时,就能直接执行相应的任务。
例如,当用户告诉GO-1“挂衣服”时,模型会首先理解指令的含义和要求,然后回忆起学习过的人类操作视频,知道挂衣服的步骤。接着,模型会利用仿真数据中的不同场景、物体进行模拟,打通整个任务过程。最后,借助真机示教视频的学习,机器人就能精准完成挂衣服的任务。
GO-1的应用场景广泛,从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多领域的操作任务,都能轻松应对。在商务会议中,面对“帮我拿一瓶饮料”或“帮我拿一个苹果”的语音指令,GO-1能够迅速响应,准确执行任务。GO-1还能通过数据回流机制持续进化,比如在做咖啡时杯子放歪了,模型就能从这次失败中学习,不断改进,直到成功完成任务。
智元机器人的GO-1,不仅解决了具身智能面临的诸多挑战,如场景和物体泛化能力不足、语言理解能力欠缺、新技能学习速度慢以及跨本体部署困难等,更为机器人走进更多场景、适应多变真实世界提供了强有力的支持。随着技术的不断进步,GO-1有望在未来成为推动机器人技术迈向通用化、开放化与智能化的重要力量。