在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日由智元机器人公司正式发布。这款通用具身基座模型标志着机器人在理解并执行人类指令方面迈出了重要一步。
GO-1的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合不仅赋予了GO-1强大的场景感知与理解能力,还使其能够迅速适应不同的机器人本体,实现了从理论到实践的跨越。
VLM作为GO-1的主干网络,通过继承开源多模态大模型的权重,并利用互联网上的大规模纯文本和图文数据,使机器人具备了广泛的场景理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别通过学习互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,进一步提升了GO-1的动作理解和执行能力。
GO-1的发布,意味着机器人技术迎来了小样本快速泛化的新时代。这款模型能够在极少数据甚至零样本的情况下,迅速适应新场景和新任务,大大降低了后训练成本。同时,“一脑多形”的特性使其能够在不同机器人形态之间自由迁移,快速适配到各种本体。
智元机器人在构建GO-1时,采用了数字金字塔的设计理念。从底层的大规模纯文本与图文数据,到上层的人类操作/跨本体视频、仿真数据,再到顶层的真机示教数据,每一层都为机器人的“基础教育”和“能力培训”提供了坚实的基础。这使得GO-1能够轻松面对多种多样的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现出了惊人的表现。用户只需用平常讲话的方式告诉机器人要做的事情,比如“挂衣服”,机器人就能根据所学习的知识和数据,迅速理解并执行任务。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、拿苹果,GO-1都能快速响应,精准完成。
GO-1还具备持续进化的能力。通过数据回流系统,机器人可以从实际执行中遇到的问题数据中不断学习,持续改进自己的表现。例如,当机器人在做咖啡时不小心把杯子放歪了,它就能从这次失败中吸取教训,下次做得更好。
智元机器人的这一创新成果,无疑为具身智能的发展注入了新的活力。GO-1的出现,意味着机器人将能够更快地适应多变的真实世界,从家庭到办公、从商业到工业,各种场景下的应用都将变得更加便捷和高效。这不仅将极大地提升人类的生活质量和工作效率,还将为机器人技术的未来发展开辟更加广阔的道路。