在机器人技术的前沿探索中,智元机器人于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一突破性进展标志着机器人在理解指令、执行任务方面迈出了重要一步。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合不仅赋予了GO-1强大的学习与适应能力,还使其在少样本甚至无样本的情况下,能够迅速泛化至新场景与新任务。
VLM作为GO-1的主干网络,通过吸收互联网上的大规模纯文本与图文数据,构建了坚实的场景感知与理解能力基础。而MoE中的隐动作专家模型与动作专家模型,则分别利用人类操作视频与高质量仿真、真机数据,进一步提升了GO-1的动作理解与执行能力。
尤为GO-1采用的ViLLA框架,通过预测隐式动作标记(Latent Action Tokens),成功搭建了图像-文本输入与机器人动作执行之间的桥梁。这意味着,用户只需以自然语言发出指令,GO-1便能准确理解并执行相应动作。
例如,当用户告诉机器人“挂衣服”时,GO-1能够迅速解析指令,并结合所学知识与经验,完成从理解任务要求到执行具体动作的整个过程。无论是识别衣物类型、定位衣柜位置,还是模拟挂衣动作、精准执行任务,GO-1都能游刃有余。
GO-1的应用场景广泛且多样。在家庭环境中,它可以协助用户准备餐食、收拾桌面;在办公或商业场所,它则能负责接待访客、发放物品等工作。GO-1还具备持续进化的能力,能够通过数据回流系统不断学习并优化自身性能。
例如,在一次制作咖啡的过程中,如果机器人不小心将杯子放歪,GO-1便能从这次失败中汲取教训,通过持续学习不断改进自身操作,直至成功完成任务。
智元机器人还预告了未来几个月内将推出基于强化学习的仿真模型以及全新的人形机器人。这一消息无疑为机器人技术的未来发展注入了更多期待与想象。
GO-1的发布,不仅展现了智元机器人在具身智能领域的深厚积累与创新实力,更为机器人技术的广泛应用与深入发展开辟了新的道路。随着GO-1在更多场景中的实践与优化,我们有理由相信,机器人将越来越智能、越来越贴近人类的生活与工作需求。