在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果于近日正式亮相,标志着通用具身基座模型迈出了重要一步。这款由智元机器人公司发布的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,正引领着具身智能向更加通用化、开放化与智能化的方向发展。
GO-1的核心在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,不仅继承了开源多模态大模型的强大权重,还通过大规模互联网数据的学习,赋予了GO-1卓越的场景感知与理解能力。而MoE则通过隐动作专家模型和动作专家模型的协同作用,实现了从动作理解到精细执行的全链条覆盖。
GO-1的五大特性尤为引人注目:采训推一体化设计确保了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力使其能够在极少数据甚至零样本条件下迅速适应新场景与新任务;一脑多形特性则意味着GO-1能够轻松迁移至不同形态的机器人,实现跨本体应用;持续进化能力依托于智元的数据回流系统,使模型能够不断从实际执行中汲取经验,实现自我优化;人类视频学习能力则进一步增强了模型对人类行为的理解与模仿。
在构建过程中,GO-1汲取了海量知识数据,形成了由底层互联网纯文本与图文数据、中层人类操作/跨本体视频、上层仿真数据以及顶层高质量真机示教数据构成的数字金字塔。这一结构不仅为GO-1提供了全面的基础教育与能力培训,还使其能够轻松应对多样化的环境与物体,快速学习新操作。
在实际应用中,GO-1展现出了惊人的表现。用户只需通过简单的语言指令,如“挂衣服”,GO-1便能根据视觉信号与语言指令,直接输出并执行相应的动作。这一过程不仅体现了ViLLA框架在弥合图像-文本输入与机器人执行动作之间鸿沟方面的优势,也展示了GO-1在理解指令、规划动作与执行操作方面的全面能力。
从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等其他场景中的复杂操作任务,GO-1都能迅速适应并高效完成。GO-1还具备持续进化的能力,能够不断从实际执行中遇到的问题数据中学习,实现自我优化与提升。
在商务会议中,GO-1更是展现出了其强大的语言理解与动作执行能力。面对“帮我拿一瓶饮料”或“帮我拿一个苹果”等语音指令,GO-1能够迅速响应并执行,为用户带来便捷与惊喜。
智元机器人公司还预告,未来几个月将推出基于强化学习的仿真模型,并即将亮相新的人形机器人。这一消息无疑为机器人技术的未来发展注入了更多期待与想象空间。