在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品于近日震撼发布,标志着通用具身基座模型技术迈出了重要一步。这款由智元机器人精心打造的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,正引领着机器人智能化发展的新潮流。
GO-1的核心竞争力在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,通过吸收互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则通过隐动作专家模型和动作专家模型的协同作用,使GO-1具备了动作的理解和精细执行能力。
GO-1的五大特点尤为引人注目:采训推一体化设计,确保了数据采集、模型训练和推理的无缝衔接;小样本快速泛化能力,使得GO-1能够在极少数据甚至零样本的情况下,迅速适应新场景和新任务;一脑多形特性,意味着GO-1可以轻松迁移至不同形态的机器人,实现跨本体应用;持续进化机制,借助智元的数据回流系统,GO-1能够不断从实际执行中遇到的问题中学习成长;人类视频学习能力,则让GO-1能够结合互联网视频和真实人类示范,深化对人类行为的理解。
在构建过程中,GO-1采用了数字金字塔的设计理念。底层基于互联网的大规模纯文本与图文数据,为机器人提供了广泛的知识基础。其上则是人类操作和跨本体视频数据,帮助机器人学习各种动作操作模式。再往上,仿真数据增强了GO-1的泛化性,使其能够应对不同场景和物体。而金字塔的顶层,则是高质量的真机示教数据,确保了GO-1精准动作执行的能力。
ViLLA框架的引入,使得GO-1能够将多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与传统的Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户以自然语言指令“挂衣服”时,GO-1能够迅速理解指令含义,结合所学的人类操作视频和仿真数据,精准完成挂衣服的任务。
GO-1的广泛应用场景同样令人瞩目。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景的接待访客、发放物品,再到工业等更多领域的操作任务,GO-1都能迅速适应并高效完成。GO-1的数据回流机制还使其能够持续进化,不断从实际执行中优化自身性能。
智元机器人的这一创新成果,不仅为机器人智能化发展树立了新的里程碑,更为机器人走进千家万户、服务各行各业提供了强有力的技术支撑。随着GO-1的不断推广和应用,我们有理由相信,一个更加智能化、便捷化的机器人时代即将到来。