在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的通用具身基座模型于近日由智元机器人公司正式发布。该模型以Vision-Language-Latent-Action(ViLLA)框架为核心,集成了VLM(多模态大模型)与MoE(混合专家)技术,展现了卓越的跨本体应用、快速泛化、持续进化及人类视频学习能力。
GO-1的核心竞争力在于其ViLLA框架,该框架不仅继承了开源多模态大模型的权重,还利用了互联网上的大规模文本和图文数据,赋予了机器人广泛的场景感知和理解能力。MoE中的隐动作专家模型和动作专家模型,则分别通过人类操作和跨本体视频以及高质量的仿真和真机数据,实现了动作理解和精细执行能力的提升。
GO-1的五大特点尤为突出:采训推一体化设计,确保了数据采集、模型训练和推理的无缝对接;小样本快速泛化能力,使机器人能够在极少数据甚至无数据的情况下适应新场景和新任务;一脑多形功能,让同一套策略模型能够在不同形态的机器人之间灵活迁移;持续进化机制,借助智元的数据回流系统,机器人能从实际执行中遇到的问题中不断学习进步;人类视频学习能力,则增强了机器人对人类行为的理解和模仿。
在知识数据的吸纳方面,GO-1构建了一个基于具身领域的数字金字塔。从底层的互联网文本和图文数据,到人类操作和跨本体视频,再到仿真数据和真机示教数据,每一层都为机器人的“基础教育”和“能力培训”提供了坚实的基础。这使得GO-1能够轻松面对多样化的环境和物体,快速学习并执行新的操作。
GO-1的应用场景广泛,从家庭中的日常服务,如倒水、烤吐司,到商业活动中的检票、发放物料,再到商务会议中的物品拿取,GO-1都能迅速响应并执行指令。例如,当用户告诉机器人“挂衣服”时,GO-1能够结合视觉信号、语言指令和所学习的数据,拆解任务步骤并精准完成。GO-1还能通过数据回流机制持续进化,不断优化执行任务的能力。
智元机器人的GO-1不仅代表了具身智能技术的重大突破,也预示着机器人将更加深入地融入人类的生活和工作。从家庭到商业,从工业到更多未知领域,GO-1正以其强大的通用性和智能化水平,加速推动着具身智能向更广阔的应用场景迈进。