在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日由智元机器人公司正式发布。这款通用具身基座模型标志着机器人在理解并执行复杂指令方面迈出了重要一步。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合不仅赋予了GO-1强大的场景感知和理解能力,还使其能够在极少量数据甚至无数据的情况下快速适应新场景和新任务,实现了小样本快速泛化。
GO-1的ViLLA框架通过VLM继承了大量互联网文本和图文数据的权重,使其能够理解通用知识和场景。而MoE中的隐动作专家模型和动作专家模型,则分别利用人类操作和跨本体视频以及高质量的仿真和真机数据,让GO-1具备了动作理解和精细执行能力。这种设计使得GO-1成为一个真正的“一脑多形”模型,能够快速适配到不同形态的机器人本体上。
智元机器人在构建GO-1时,采用了数字金字塔的知识数据吸纳策略。从底层的大规模纯文本与图文数据,到人类操作视频、仿真数据,再到顶层的真机示教数据,每一层都为GO-1提供了全面的“基础教育”和“能力培训”。这使得GO-1在面对多样环境和物体时,能够轻松学习新的操作,并快速适应新的场景。
在实际应用中,用户只需用日常语言向GO-1发出指令,如“挂衣服”,GO-1便能根据所学习的知识和数据,拆解任务步骤并精准执行。从理解指令的含义和要求,到知道任务通常包括的环节,再到理解环节中对应的物体和环境并打通整个任务过程,最后精准完成操作,GO-1的每一步都显得游刃有余。
GO-1的应用场景广泛且多样。在家庭中,它可以帮忙倒水、烤吐司;在商业活动中,它可以负责检票、发放物料;在商务会议中,它能快速响应人类的语音指令,如拿饮料、拿苹果等。GO-1还具备持续进化的能力,通过数据回流系统,它可以从实际执行中遇到的问题数据中不断学习,直至成功完成任务。
智元机器人还预告,未来几个月将推出基于强化学习的仿真模型,并即将亮相新的人形机器人。这些新进展将进一步推动具身智能向通用化、开放化与智能化迈进。GO-1的出现,意味着机器人将能够更多地代替人类完成工作和生活中的各种事情,从家庭场景到办公和商业场景,再到工业等更多场景,GO-1都能快速实现任务执行,让机器人更好地适应多变的真实世界。