在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品横空出世,标志着通用具身智能基座模型迈入了一个崭新阶段。这款由智元机器人公司推出的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,正引领着具身智能向更加通用化、开放化与智能化的方向发展。
GO-1的核心竞争力在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,通过吸收互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知与理解能力。而MoE则包含隐动作专家模型和动作专家模型,前者利用人类操作和跨本体操作视频提升动作理解能力,后者则借助高质量的仿真数据和真机数据,确保动作的精细执行。
GO-1的五大特性——采训推一体、小样本快速泛化、一脑多形、持续进化以及人类视频学习,共同构成了其强大的竞争力。采训推一体的设计使得数据采集、模型训练与推理能够无缝衔接;小样本快速泛化能力则大大降低了后训练成本,让GO-1能够在极少数据甚至零样本的情况下快速适应新场景和新任务;一脑多形特性意味着GO-1能够轻松迁移至不同形态的机器人,实现跨本体应用;持续进化能力则依赖于智元的数据回流系统,使模型能够不断从实际执行中遇到的问题数据中学习进步;人类视频学习特性则进一步增强了GO-1对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型,从底层的大规模纯文本与图文数据,到人类操作/跨本体视频,再到仿真数据,直至顶层的真机示教数据,每一层都为GO-1提供了全面的“基础教育”和“能力培训”。这种多层次的数据融合,使得GO-1能够轻松应对多样化的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现出了惊人的表现。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能轻松胜任。用户只需通过简单的语言指令,GO-1就能根据所看到的画面和所学习的数据,快速理解并执行任务。例如,当用户说“挂衣服”时,GO-1能够迅速拆解任务步骤,从理解指令含义到执行挂衣动作,整个过程流畅而精准。
GO-1还具备持续进化的能力。当机器人在执行任务过程中遇到问题时,如做咖啡时不小心将杯子放歪,GO-1能够通过数据回流系统不断学习和改进,直至成功完成任务。这种自我学习和进化的能力,使得GO-1能够不断适应多变的真实世界。
GO-1的出现,不仅解决了具身智能面临的场景和物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等问题,更为机器人走向更多不同场景、适应多变的真实世界提供了强大的脑力支持。随着技术的不断进步和应用场景的不断拓展,GO-1有望成为未来机器人领域的一颗璀璨明星。