在人工智能领域的一次重要突破中,智元机器人公司于3月10日正式揭晓了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。该模型不仅标志着机器人技术的一大飞跃,还引入了创新的Vision-Language-Latent-Action(ViLLA)框架,该框架由VLM(多模态大模型)与MoE(混合专家)两大核心组件构成。
ViLLA框架的核心优势在于其强大的小样本快速泛化能力,使得GO-1能够迅速适应不同的机器人本体。VLM作为模型的主干网络,通过集成开源多模态大模型的权重,并利用互联网上的大规模纯文本和图文数据,赋予了GO-1广泛的场景感知和理解能力。MoE则包含隐动作专家模型和动作专家模型,前者通过大规模人类操作和跨本体操作视频的学习,让模型具备了动作理解能力;后者则借助高质量的仿真数据和真机数据,确保了动作的精确执行。
GO-1的五大特点尤为突出:采训推一体化设计,使得数据采集、模型训练和推理能够无缝衔接;小样本快速泛化能力,极大地降低了后训练成本,能够在极少数据甚至零样本的情况下迅速适应新场景和新任务;一脑多形功能,使GO-1成为一个通用机器人策略模型,能够轻松迁移至不同形态的机器人本体;持续进化特性,借助智元的数据回流系统,GO-1能够从实际执行中遇到的问题数据中不断学习和进化;人类视频学习能力,则让模型能够结合互联网视频和真实人类示范进行学习,从而更深入地理解人类行为。
GO-1的构建基于具身领域的数字金字塔结构,从底层的互联网大规模纯文本与图文数据,到上层的人类操作/跨本体视频、仿真数据,再到顶层的真机示教数据,每一层都为机器人的“基础教育”和“能力培训”提供了坚实的基础。这种全面的教育体系使GO-1能够轻松应对多样化的环境和物体,快速学习新的操作技能。
在实际应用中,GO-1展现出了令人瞩目的表现。用户只需通过简单的语言指令,如“挂衣服”,GO-1就能根据所见的画面和所学习的数据,理解指令的含义,并拆解成一系列步骤来执行。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、拿苹果,GO-1都能迅速响应并完成任务。GO-1还能通过数据回流机制持续进化,例如,在制作咖啡时若不小心将杯子放歪,它能从这次失败中学习并改进,直到成功完成任务。
GO-1的出现,无疑为具身智能的发展注入了新的活力。它不仅解决了具身智能面临的场景和物体泛化能力不足、语言理解能力缺乏、新技能学习缓慢以及跨本体部署困难等问题,还为机器人走向更多不同场景、适应多变的真实世界提供了强大的支持。从家庭到办公,从商业到工业,GO-1正引领着具身智能向通用化、开放化与智能化的方向加速迈进。