在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品于近日震撼发布,标志着通用具身基座模型技术迈出了重要一步。这款由智元机器人公司精心打造的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,正引领着机器人智能的新风尚。
GO-1的核心竞争力在于其ViLLA框架,该框架融合了VLM(多模态大模型)与MoE(混合专家)技术,实现了从数据采集、模型训练到模型推理的无缝衔接。这一创新设计不仅赋予了GO-1强大的小样本快速泛化能力,使其能够在极少数据甚至无数据的情况下快速适应新场景和新任务,还实现了“一脑多形”的跨本体应用,即同一套大脑可以灵活应用于不同形态的机器人本体。
GO-1的ViLLA框架通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。用户只需以自然语言发出指令,如“挂衣服”,GO-1便能迅速理解指令含义,并依据所学习的互联网大规模数据,包括纯文本、图文、人类操作视频以及仿真数据,精准规划并执行任务。这一过程不仅展现了GO-1卓越的场景感知和理解能力,还体现了其精细的动作执行能力。
GO-1的数据回流系统使其能够持续进化。在实际执行过程中,GO-1会从遇到的问题数据中不断学习,优化自身性能。例如,当机器人在制作咖啡时不慎将杯子放歪,它会在后续任务中从这一错误中学习,直至成功完成任务。
GO-1的应用场景广泛,从家庭生活的日常琐事,如准备餐食、收拾桌面,到办公和商业场景的接待访客、发放物品,再到工业等更多领域的复杂操作,GO-1都能轻松应对。这不仅得益于其强大的泛化能力和语言理解能力,更在于其能够快速学习新技能,实现跨本体的灵活部署。
在实际应用中,GO-1展现了其卓越的性能。无论是早上刚起床时帮忙倒水、烤吐司,还是在活动现场负责检票、发放物料,GO-1都能迅速响应并完成任务。在商务会议中,面对人类发出的各种语音指令,GO-1同样能够迅速行动,如拿饮料、拿苹果等,展现了其出色的指令泛化能力。
智元机器人还预告了未来几个月将推出基于强化学习的仿真模型,以及全新的人形机器人。这些新产品的推出,将进一步丰富智元机器人的产品线,提升其在机器人技术领域的竞争力。
GO-1的成功发布,不仅为机器人代替人类完成各种工作提供了强大的脑力支持,更标志着具身智能正加速迈向通用化、开放化与智能化。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,未来的机器人将更加智能、灵活和高效,为人类的生活和工作带来更多便利。