在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品于近日正式亮相,标志着通用具身基座模型技术迈出了重要一步。这款由智元机器人公司推出的模型,采用了前沿的Vision-Language-Latent-Action(ViLLA)框架,集成了多模态大模型(VLM)与混合专家(MoE)技术,为用户带来了前所未有的机器人交互体验。
GO-1的核心竞争力在于其强大的小样本快速泛化能力。通过VLM模型,GO-1能够利用互联网上的大规模纯文本和图文数据,实现对通用场景和知识的深刻理解。而MoE中的隐动作专家模型和动作专家模型,则分别通过人类操作和跨本体视频数据,以及高质量的仿真和真机数据,赋予了GO-1动作理解和精细执行的能力。这一设计使得GO-1能够在极少数据甚至零样本的情况下,快速适应新场景和新任务。
GO-1的ViLLA框架不仅提高了机器人的智能水平,还实现了从数据采集、模型训练到模型推理的无缝衔接。这一“采训推一体”的设计,大大降低了后训练成本,使得GO-1能够更高效地学习和进化。同时,“一脑多形”的特性也让GO-1能够在不同形态的机器人之间灵活迁移,快速适配各种本体。
在知识吸纳和执行任务方面,GO-1同样表现出色。它基于具身领域的数字金字塔构建,从底层的大规模纯文本与图文数据,到上层的人类操作视频、仿真数据,再到顶层的真机示教数据,GO-1能够全面吸收并整合这些知识,形成强大的“基础教育”和“能力培训”。这使得GO-1在面对多样化的环境和物体时,能够轻松学习新的操作,快速适应新的场景。
在实际应用中,GO-1展现出了惊人的表现。用户只需用简单的语言指令,如“挂衣服”,GO-1就能根据所学习的知识和数据,拆解任务步骤,理解物体和环境,并精准完成整个操作。无论是家庭场景中的倒水、烤吐司,还是商业场景中的检票、发放物料,GO-1都能游刃有余地完成。
GO-1还具备持续进化的能力。通过数据回流系统,GO-1可以从实际执行中遇到的问题数据中不断学习,不断优化自身性能。例如,当机器人在做咖啡时不小心把杯子放歪了,GO-1就能从这次失败中学习,并在未来的任务中避免类似错误。
智元机器人公司还预告,未来几个月将推出基于强化学习的仿真模型,并亮相新的人形机器人。这些新进展将进一步推动具身智能技术的发展,加速机器人从单一任务向多种任务、从封闭环境向开放世界、从预设程序向指令泛化的转变。GO-1的成功推出,无疑为机器人走向更多不同场景、适应多变的真实世界奠定了坚实的基础。