在机器人技术领域的最新突破中,智元机器人公司正式揭晓了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在智能交互与执行任务能力上的重大飞跃,还预示着具身智能正加速向通用化、开放化与智能化迈进。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,借助互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知与理解能力。而MoE则通过隐动作专家模型和动作专家模型,利用人类操作和跨本体操作视频以及高质量的仿真和真机数据,使GO-1具备了动作的理解与精细执行能力。
智元机器人的这一创新成果,在多个方面展现出了卓越的性能。GO-1能够实现采训推一体化,无缝衔接数据采集、模型训练与推理过程。其小样本快速泛化能力,使得模型能够在极少数据甚至零样本的情况下,快速适应新场景与新任务。“一脑多形”的跨本体应用能力,让GO-1能够在不同机器人形态间灵活迁移,快速适配各种本体。
更为先进的是,GO-1具备持续进化的能力。借助智元的数据回流系统,模型能够从实际执行中遇到的问题数据中不断学习进化,不断提升自身性能。而人类视频学习能力,则让GO-1能够结合互联网视频和真实人类示范进行学习,进一步增强了对人类行为的理解。
在应用场景方面,GO-1同样展现出了广泛的适用性。通过ViLLA框架,GO-1能够将多相机视觉信号和人类语言指令直接转化为机器人的动作执行。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能轻松应对。甚至在一些更复杂的工业场景中,GO-1同样能够展现出卓越的操作能力。
在实际操作中,用户只需用日常语言向GO-1发出指令,如“挂衣服”,模型便能根据所学习的知识和数据,理解指令的含义和要求,并规划出执行步骤。从理解场景、拆解环节,到模拟操作、精准执行,GO-1都能展现出令人惊叹的智能水平。
GO-1的持续进化能力也为其在未来的应用中提供了无限可能。例如,当机器人在制作咖啡时不慎将杯子放歪,GO-1便能从这次失败中学习,不断优化自身操作,直到成功完成任务。这种不断学习和进步的能力,无疑将极大提升机器人在实际应用中的可靠性和稳定性。
智元启元大模型GO-1的发布,无疑为机器人技术的发展注入了新的活力。随着具身智能技术的不断进步和应用场景的不断拓展,我们有理由相信,未来的机器人将更加智能、更加灵活,能够更好地服务于人类的生活和工作。