在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品近日横空出世,标志着具身智能技术迈出了重要一步。这款由智元机器人公司发布的通用具身基座模型,以其独特的Vision-Language-Latent-Action(ViLLA)框架,展现了小样本快速泛化、跨本体应用及持续进化等多重优势。
GO-1的核心在于其ViLLA框架,该框架结合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,继承了开源多模态大模型的权重,并通过互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则通过隐动作专家模型和动作专家模型,利用互联网上的操作视频和高质量的仿真、真机数据,使GO-1具备了动作的理解和执行能力。
GO-1的五大特点尤为引人注目:采训推一体化设计,确保了数据采集、模型训练和推理的无缝衔接;小样本快速泛化能力,使得GO-1能够在极少数据甚至零样本的情况下,快速适应新场景和新任务;一脑多形功能,使GO-1能够轻松迁移至不同形态的机器人上,实现跨本体应用;持续进化机制,借助智元的数据回流系统,GO-1能从实际执行中遇到的问题数据中不断学习进步;人类视频学习能力,则让GO-1能够结合互联网视频和真实人类示范,增强对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型,从底层的大规模纯文本与图文数据,到人类操作/跨本体视频、仿真数据,再到顶层的真机示教数据,形成了全面的“基础教育”和“能力培训”。这使得GO-1能够轻松应对多样化的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现了其卓越的性能。用户只需用自然语言发出指令,如“挂衣服”,GO-1便能根据所学知识和经验,拆解任务步骤,精准完成操作。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、拿苹果,GO-1都能迅速响应,完成任务。
更GO-1还具备持续进化的能力。当机器人在执行任务中遇到问题时,如做咖啡时杯子放歪,GO-1能从这些问题数据中学习改进,直至成功完成任务。这种不断学习和进化的能力,使GO-1能够不断适应新的挑战和场景。
GO-1的问世,不仅为机器人技术带来了革命性的突破,更为具身智能的通用化、开放化与智能化发展开辟了新道路。从家庭到办公、从商业到工业,GO-1都能快速适应并实现多样化任务,展现了具身智能技术的无限潜力。