在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日由智元机器人公司正式发布。这一通用具身基座模型的问世,标志着机器人在理解指令、执行任务方面迈出了重要一步。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,借助互联网上的大规模纯文本和图文数据,使GO-1具备了广泛的场景感知与理解能力。而MoE则通过隐动作专家模型和动作专家模型,进一步增强了模型的动作理解和执行能力。
GO-1的突出优势之一在于其小样本快速泛化能力。这意味着,即使在数据有限的情况下,GO-1也能迅速适应新场景和新任务。“一脑多形”的跨本体应用特性,使得GO-1能够在不同形态的机器人之间灵活迁移,快速适配各种本体。
在构建过程中,GO-1采用了数字金字塔的结构。底层是互联网的大规模纯文本与图文数据,为机器人提供基础知识。上一层则是人类操作和跨本体视频数据,帮助机器人学习动作模式。再上一层是仿真数据,用于增强泛化性。而金字塔的顶层,则是高质量的真机示教数据,确保机器人能够精准执行动作。
通过ViLLA框架,GO-1能够将多相机的视觉信号和人类语言指令直接转化为机器人的动作执行。与以往的Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。
在实际应用中,GO-1展现出了强大的实用性。例如,用户只需用自然语言发出指令,如“挂衣服”,GO-1便能根据所学知识和经验,拆解任务步骤并精准完成。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、拿苹果,GO-1都能迅速响应并完成任务。
更GO-1还具备持续进化的能力。通过数据回流系统,GO-1能够从实际执行中遇到的问题数据中不断学习,不断提升自身性能。例如,当机器人在做咖啡时不小心将杯子放歪时,GO-1便能从这次失败中学习并改进,直至成功完成任务。
GO-1的出现,不仅为机器人技术带来了革命性的突破,更为具身智能的通用化、开放化与智能化发展开辟了新路径。从家庭场景到办公和商业场景,再到工业等更多领域,GO-1都能快速适应并执行各种任务。这意味着机器人将能够走向更多不同场景、适应多变的真实世界,为人类的生活和工作带来更多便利。