在机器人技术领域的一次重大突破中,智元机器人公司于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1,简称GO-1。这款模型不仅标志着机器人智能的一次飞跃,更以其独特的Vision-Language-Latent-Action(ViLLA)框架,展现了前所未有的灵活性和学习能力。
GO-1的核心竞争力在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,通过吸收互联网上的大规模纯文本和图文数据,赋予了GO-1广泛的场景感知和理解能力。而MoE则进一步强化了模型的动作规划和执行能力,特别是通过隐动作专家模型和动作专家模型的协同工作,GO-1能够精准理解并执行各种复杂任务。
GO-1的ViLLA框架实现了从数据采集、模型训练到模型推理的无缝衔接,即所谓的“采训推一体”。这一特性使得GO-1在面临新场景和新任务时,能够迅速适应并展现出强大的泛化能力。即使在极少数据甚至零样本的情况下,GO-1也能快速学习并应用于新环境中。
GO-1的另一大亮点是其“一脑多形”的跨本体应用能力。这意味着GO-1不仅是一个通用的机器人策略模型,更能够在不同形态的机器人之间灵活迁移,快速适配到各种本体上。无论是家庭服务机器人、商业接待机器人还是工业操作机器人,GO-1都能凭借其强大的适应能力,轻松应对各种复杂场景。
在实际应用中,GO-1的表现同样令人瞩目。用户只需通过简单的语言指令,GO-1就能理解并执行一系列复杂的操作。例如,当用户说“挂衣服”时,GO-1会迅速识别出挂衣服的意图,并根据所学习的人类操作视频和仿真数据,规划出最佳的挂衣路径,最终精准完成任务。
GO-1还具备持续进化的能力。通过智元的数据回流系统,GO-1能够不断从实际执行中遇到的问题数据中学习,不断优化自身的执行能力和策略。这种自我进化的特性使得GO-1在面对复杂多变的环境时,能够始终保持高效和准确。
智元机器人还透露,未来几个月内将推出基于强化学习的仿真模型,并计划推出新的人形机器人。这些新产品将进一步巩固智元在机器人技术领域的领先地位,并为全球用户提供更加智能、高效的机器人解决方案。