在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的通用具身基座模型于近日震撼发布,标志着智元机器人在人工智能领域迈出了重要一步。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术,实现了从数据采集、模型训练到推理应用的无缝衔接。这一创新设计不仅赋予了GO-1小样本快速泛化的能力,更使其能够在不同机器人形态间灵活迁移,实现“一脑多形”的跨本体应用。
GO-1的ViLLA框架通过VLM主干网络,充分利用互联网上的大规模纯文本和图文数据,构建了强大的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别利用人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,进一步提升了GO-1的动作理解和精细执行能力。
值得注意的是,GO-1的学习能力极为出众。它能够结合互联网视频和真实人类示范进行学习,从而增强对人类行为的理解。这意味着,用户只需通过简单的语言指令,就能让机器人直接执行任务,如“挂衣服”等日常任务,GO-1都能轻松应对。
在具体应用场景中,GO-1展现出了极高的适应性和灵活性。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能快速适应并完成任务。其强大的泛化能力使得GO-1能够在极少数据甚至零样本的情况下,快速泛化到新场景和新任务中。
更令人兴奋的是,GO-1还具备持续进化的能力。通过智元提供的数据回流系统,GO-1可以从实际执行中遇到的问题数据中不断学习和进化,从而不断提升自身的性能。例如,在制作咖啡时若不小心将杯子放歪,GO-1便能通过后续的数据回流学习,逐渐优化自己的动作,直至成功完成任务。
智元机器人还预告了未来几个月将推出基于强化学习的仿真模型,以及全新的人形机器人。这些新技术的引入,将进一步推动具身智能向通用化、开放化与智能化的方向发展,让机器人能够更好地适应多变的真实世界,为人类的工作和生活带来更多便利。