在机器人技术领域的最新突破中,智元机器人公司于近日震撼发布了其首款通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在智能化道路上迈出了重要一步,更为未来机器人的广泛应用奠定了坚实基础。
GO-1的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术,展现出采训推一体化、小样本快速泛化、跨本体应用灵活、持续进化学习以及人类视频学习能力等多重优势。这些特性共同构成了GO-1强大的综合性能。
VLM作为GO-1的主干网络,通过继承并优化开源多模态大模型的权重,结合互联网上的大规模纯文本和图文数据,赋予了机器人广泛的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别利用人类操作和跨本体操作视频,以及高质量的仿真和真机数据,进一步提升了机器人的动作理解和精细执行能力。
GO-1的五大特点尤为引人注目:采训推一体化设计确保了数据采集、模型训练和推理的无缝衔接;小样本快速泛化能力让机器人能够在极少数据甚至零样本情况下迅速适应新场景和新任务;一脑多形特性使得GO-1能够轻松迁移至不同形态的机器人本体;持续进化学习机制通过数据回流系统,让机器人从实际执行中不断学习进步;人类视频学习能力则增强了机器人对人类行为的理解。
在构建过程中,GO-1采用了数字金字塔结构,从底层的大规模纯文本与图文数据,到上层的人类操作/跨本体视频、仿真数据,再到顶层的真机示教数据,层层递进,为机器人提供了全面的“基础教育”和“能力培训”。这种结构使得GO-1能够天然适应新场景,轻松面对多样环境和物体,快速学习新操作。
在实际应用中,GO-1展现出了惊人的表现。用户只需用日常语言向机器人发出指令,如“挂衣服”,机器人便能迅速理解并执行任务。从家庭场景中的倒水、烤吐司,到商业场景中的检票、发放物料,再到商务会议中的拿饮料、拿苹果,GO-1都能游刃有余地完成。
GO-1还具备持续进化的能力。例如,当机器人在制作咖啡时不慎将杯子放歪,它能够通过数据回流系统学习并纠正这一错误,直至成功完成任务。这种自我学习和改进的能力,让GO-1在面对复杂多变的环境时更加从容不迫。
智元机器人的这一创新成果,无疑为具身智能的发展注入了新的活力。GO-1的出现,不仅解决了具身智能在场景和物体泛化、语言理解、新技能学习以及跨本体部署等方面的难题,更为机器人走向更多场景、适应多变真实世界提供了可能。随着技术的不断进步和应用场景的不断拓展,GO-1有望成为未来机器人领域的明星产品。