在人工智能领域迈出重要一步,智元机器人于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款创新模型不仅标志着机器人在理解和执行人类指令方面取得了显著进展,还预示着具身智能正加速向通用化、开放化与智能化迈进。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,借助互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则通过隐动作专家模型和动作预测器,利用互联网视频和高质量仿真数据,使模型能够理解和执行复杂动作。
GO-1的五大特点尤为引人注目:采训推一体化设计,确保了数据采集、模型训练和推理的无缝衔接;小样本快速泛化能力,使得模型能在极少数据甚至零样本下适应新场景和新任务;一脑多形特性,让GO-1能够轻松迁移至不同形态的机器人,实现跨本体应用;持续进化机制,通过数据回流系统,模型能从实际执行中遇到的问题中不断学习进步;人类视频学习能力,则进一步增强了模型对人类行为的理解。
智元机器人在构建GO-1时,采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解基础。往上则是人类操作和跨本体视频,帮助机器人学习动作操作模式。更高一层是仿真数据,用于增强模型的泛化性。而金字塔的顶层,则是高质量的真机示教数据,确保模型能够精准执行动作。
在实际应用中,GO-1展现出了惊人的表现。用户只需用自然语言发出指令,如“挂衣服”,模型便能迅速理解并执行。从理解指令的含义,到拆解动作环节,再到模拟不同场景和物体,最后精准完成任务,整个过程流畅而高效。这使得GO-1能够广泛应用于家庭、办公、商业乃至工业等多种场景。
在商务会议中,GO-1能够快速响应人类指令,如拿取饮料或苹果等物品。它还能在家庭场景中协助准备餐食、收拾桌面等工作,或在活动现场负责检票、发放物料等任务。更令人惊叹的是,GO-1还能通过数据回流机制持续进化,如从制作咖啡时杯子放歪的问题中学习,直到成功完成任务。
GO-1的成功发布,无疑为具身智能的发展注入了新的活力。它不仅解决了具身智能在场景和物体泛化、语言理解、新技能学习以及跨本体部署等方面的难题,更为机器人代替人类完成各种工作提供了强大的脑力支持。随着GO-1的不断推广和应用,我们有理由相信,机器人将走向更多不同场景,适应多变的真实世界,为人类社会带来更加便捷和高效的生活方式。