在机器人技术的前沿阵地,一款名为智元启元大模型Genie Operator-1(GO-1)的创新产品于近日横空出世,由智元机器人公司隆重发布。这款通用具身基座模型凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,在机器人领域掀起了新的波澜。
GO-1的核心在于其ViLLA框架,该框架由VLM(多模态大模型)与MoE(混合专家)两部分构成。VLM作为模型的主干网络,汲取了开源多模态大模型5-2B的精髓,并借助互联网上的海量纯文本和图文数据,赋予了GO-1强大的场景感知与理解能力。而MoE则扮演着隐式规划器的角色,其中的隐动作专家模型和动作专家模型,分别通过学习互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,使GO-1具备了动作的理解与精细执行能力。
GO-1的五大特点尤为引人注目:采训推一体化设计,使得数据采集、模型训练与模型推理能够无缝衔接;小样本快速泛化能力,让模型能够在极少数据甚至零样本的情况下,迅速适应新场景与新任务;一脑多形功能,使GO-1能够轻松迁移至不同形态的机器人上,实现快速适配;持续进化机制,依托智元的数据回流系统,模型能够从实际执行中遇到的问题数据中不断学习与进化;人类视频学习能力,则让GO-1能够结合互联网视频和真实人类示范,深化对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型。底层由互联网的大规模纯文本与图文数据构成,为机器人提供通用知识与场景理解的基础。其上则是人类操作与跨本体视频,帮助机器人学习动作操作模式。再上一层是仿真数据,用于增强模型的泛化性,使其能够适应align不同:场景 center与;">物体。 而<金字塔img的 src顶端6=",dhttps则是4://高质量afq的真05机3.示9itc教f.数据6cn,./用于pngq训练"_精准 />7的动作0执行/。0>3/<2
GO-1的应用场景广泛,从家庭到办公,再到工业等更多领域,都能见到其身影。在家庭中,机器人可以帮忙倒水、烤吐司,甚至还能去活动现场负责检票、发放物料。在商务会议中,面对人类发出的各种语音指令,GO-1也能迅速响应,如拿饮料、拿苹果等。GO-1还能通过数据回流机制持续进化,比如在做咖啡时杯子放歪了,后续就能从这个问题数据中学习改进,直至成功完成任务。
GO-1的出现,标志着具身智能正加速向通用化、开放化与智能化迈进。它解决了具身智能在场景与物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等方面的问题,为机器人代替人类完成各类工作提供了强大的脑力支持。从家庭到办公,再到更多工业场景,GO-1都能迅速适应并实现各种操作任务,让机器人更加贴近人类生活,更好地服务于人类社会。