在人工智能领域的一次重大突破中,智元机器人公司于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在智能化道路上迈出了关键一步,更预示着具身智能技术即将迎来通用化、开放化与智能化的全新纪元。
GO-1的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合使得GO-1具备了从数据采集、模型训练到模型推理的无缝衔接能力,极大地提升了机器人的场景感知、理解以及动作执行能力。
尤为GO-1展现出了卓越的小样本快速泛化能力。这意味着,即便在极少数据甚至零样本的情况下,GO-1也能迅速适应新场景、新任务。“一脑多形”的跨本体应用特性,使得GO-1能够在不同机器人形态间自由迁移,快速适配各种本体,极大地拓展了其应用场景。
在构建GO-1的过程中,智元机器人充分利用了互联网的海量数据资源。从大规模纯文本与图文数据,到人类操作/跨本体视频,再到仿真数据与真机示教数据,这些数据共同构成了GO-1的知识库。在此基础上,GO-1得以接受全面的“基础教育”和“能力培训”,从而轻松应对多样化的环境和物体,快速学习新的操作。
ViLLA框架的引入,更是让GO-1在指令理解与动作执行上实现了质的飞跃。用户只需以自然语言形式发出指令,GO-1便能根据视觉信号和语言指令,直接输出相应的动作执行。例如,当用户说“挂衣服”时,GO-1能够迅速理解指令含义,并结合所学的人类操作视频和仿真数据,精准完成挂衣服的任务。
在实际应用中,GO-1展现出了惊人的灵活性和实用性。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能游刃有余地完成。更令人兴奋的是,智元机器人还预告了未来几个月将推出基于强化学习的仿真模型以及新的人形机器人,这无疑将进一步拓展GO-1的应用边界。
GO-1还具备持续进化的能力。通过数据回流系统,GO-1能够从实际执行中遇到的问题数据中不断学习,直至成功完成任务。这种自我完善的能力,无疑将进一步提升GO-1的实用性和可靠性。
随着GO-1的发布,具身智能技术正加速迈向通用化、开放化与智能化的新阶段。未来,我们有理由相信,机器人将在更多场景中发挥重要作用,为人类的工作和生活带来更多便利。