在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果于近日正式发布,标志着通用具身智能基座模型迈出了重要一步。这款由智元机器人公司倾力打造的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,展现了小样本快速泛化、跨本体应用及持续进化等显著优势。
GO-1的核心在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,通过吸收互联网上的大规模纯文本和图文数据,赋予了GO-1广泛的场景感知与理解能力。而MoE则分为隐动作专家模型和动作专家模型两部分,前者利用人类操作和跨本体操作视频提升动作理解能力,后者则借助高质量的仿真数据和真机数据强化动作的精细执行能力。
GO-1的五大特性——采训推一体、小样本快速泛化、一脑多形、持续进化以及人类视频学习,共同构建了其强大的功能基础。采训推一体的设计使得数据采集、模型训练与推理能够无缝衔接,极大提升了效率。小样本快速泛化能力让GO-1能够在极少数据甚至无数据的情况下快速适应新场景和新任务。一脑多形的特性则意味着GO-1能够轻松迁移至不同形态的机器人上,实现跨本体应用。持续进化特性依赖于智元的数据回流系统,使模型能够不断从实际执行中遇到的问题中学习成长。而人类视频学习能力则让GO-1能够结合互联网视频和真实人类示范,进一步加深对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型,从底层的互联网大规模纯文本与图文数据,到人类操作/跨本体视频、仿真数据,再到顶层的真机示教数据,每一层都为机器人的“基础教育”和“能力培训”提供了坚实基础。这种全面的教育体系使得GO-1能够轻松应对多样化的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现出了惊人的表现。无论是早晨起床后帮忙倒水、烤吐司,还是在活动现场负责检票、发放物料,GO-1都能轻松胜任。在商务会议中,面对人类发出的简单语音指令,如“帮我拿一瓶饮料”,GO-1也能迅速响应并执行。GO-1还能通过数据回流持续进化,比如在做咖啡时杯子放歪了,它就能从这次失败中学习,直到成功完成任务。
GO-1的成功发布,不仅解决了具身智能面临的诸多挑战,如场景和物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等,更为机器人技术向通用化、开放化与智能化迈进提供了有力支撑。从家庭场景到办公和商业场景,再到工业等其他领域,GO-1都能迅速适应并发挥出色作用,为机器人技术开启了一个全新的时代。