在人工智能领域迎来新突破之际,智元机器人于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在智能化道路上迈出了重要一步,更预示着具身智能正加速向通用化、开放化转型。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合赋予了GO-1强大的场景感知、理解能力以及动作规划、执行能力,使得机器人能够在极少数据甚至零样本的情况下快速适应新场景、新任务。
具体而言,VLM作为GO-1的主干网络,通过继承开源多模态大模型的权重,并利用互联网上的大规模纯文本和图文数据,使机器人具备了广泛的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别利用互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,让机器人学会了动作的理解和精细执行。
GO-1的五大特点尤为引人注目:采训推一体化设计,实现了数据采集、模型训练、模型推理的无缝衔接;小样本快速泛化能力,让机器人在极少数据下就能快速适应新场景、新任务;一脑多形功能,使得GO-1能够在不同机器人形态之间迁移,快速适配到不同本体;持续进化特性,借助智元的数据回流系统,机器人能够从实际执行中遇到的问题数据中持续学习、不断进步;人类视频学习能力,让机器人能够结合互联网视频和真实人类示范进行学习,增强对人类行为的理解。
在构建过程中,GO-1基于具身领域的数字金字塔架构,从底层到顶层依次吸收了互联网的大规模纯文本与图文数据、人类操作/跨本体视频、仿真数据以及高质量的真机示教数据。这一全面的“基础教育”和“能力培训”,使GO-1能够轻松面对多种多样的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现出了惊人的表现。用户只需用平常讲话的方式告诉机器人要做的事情,比如“挂衣服”,机器人就能根据所看到的画面以及所学过的知识,理解指令的含义和要求,并快速规划出执行步骤,精准完成整个任务。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,GO-1都能游刃有余。
GO-1还具备持续进化的能力。例如,当机器人在做咖啡时不小心把杯子放歪了,它就能从这次失败中汲取经验,通过数据回流系统持续学习,直到成功完成任务。这种不断学习和进步的能力,让GO-1在应对多变真实世界时更加从容不迫。
智元机器人还预告了未来几个月将推出基于强化学习的仿真模型,以及新的人形机器人。这无疑将为GO-1的应用场景拓展提供更多可能性,也让人们对未来机器人的智能化水平充满了期待。