在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的通用具身基座模型于近日震撼发布,标志着机器人智能化进程中的又一重要里程碑。这款由智元机器人精心打造的模型,凭借其创新的Vision-Language-Latent-Action(ViLLA)框架,展现了前所未有的技术实力和应用潜力。
ViLLA框架的核心在于VLM(多模态大模型)与MoE(混合专家)的深度融合。VLM作为主干网络,不仅继承了开源多模态大模型的强大权重,还通过大规模互联网数据的训练,赋予了GO-1广泛的场景感知与理解能力。而MoE则进一步强化了模型的动作规划与执行能力,通过隐动作专家模型和动作专家模型的协同工作,实现了从理解指令到执行动作的无缝衔接。
GO-1的突出优势在于其小样本快速泛化能力,这意味着它能够在极少甚至零样本的情况下,迅速适应新场景和新任务。“一脑多形”的跨本体应用能力,使得GO-1能够在不同形态的机器人之间灵活迁移,大大拓展了其应用范围。持续进化的特性,则确保了GO-1能够不断从实际执行中遇到的问题数据中学习,不断提升自身性能。
智元机器人在构建GO-1时,采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供了丰富的通用知识和场景理解能力。之上则是大规模的人类操作视频和跨本体操作视频,这些视频数据帮助机器人学习到了各种动作操作模式。再往上,仿真数据增强了机器人的泛化性,使其能够适应不同场景和物体。而金字塔的顶层,则是高质量的真机示教数据,用于训练机器人的精准动作执行能力。
在实际应用中,GO-1展现出了惊人的表现。用户只需通过简单的语言指令,如“挂衣服”,GO-1就能迅速理解并执行任务。从理解指令到规划动作,再到精准执行,整个过程流畅而高效。GO-1还能在多种场景中发挥作用,无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,它都能轻松应对。
GO-1还具备持续进化的能力。当机器人在执行任务时遇到问题时,如做咖啡时不小心把杯子放歪了,GO-1能够从这些问题数据中学习,不断改进自身行为,直到成功完成任务。这种自我学习和改进的能力,使得GO-1在未来的应用中具有更加广泛的前景。
智元机器人还预告了未来几个月将推出基于强化学习的仿真模型,以及新的人形机器人。这些新技术的推出,将进一步推动机器人技术的智能化和通用化发展,为人类社会带来更多的便利和惊喜。