在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的通用具身基座模型于近日震撼发布,标志着机器人在理解和执行人类指令方面迈出了重要一步。这款模型由智元机器人公司精心打造,融合了前沿的Vision-Language-Latent-Action(ViLLA)框架,展现了小样本快速泛化、跨本体应用及持续进化等显著优势。
GO-1的核心在于其创新的ViLLA框架,该框架由多模态大模型VLM与混合专家MoE组合而成。VLM作为主干网络,继承了开源多模态大模型的权重,并通过互联网上的大规模文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则通过隐动作专家模型和动作专家模型,利用互联网上的操作视频和高质量的仿真、真机数据,使GO-1具备了动作的理解和执行能力。
GO-1的发布,意味着机器人将能够更快速地适应不同场景和任务。其小样本快速泛化的特性,使得机器人在极少数据甚至零样本的情况下,也能迅速泛化到新场景和新任务中。同时,“一脑多形”的跨本体应用能力,让GO-1能够在不同形态的机器人之间迁移,快速适配到各种本体上。
智元机器人的GO-1基于具身领域的数字金字塔构建,从底层的大规模纯文本与图文数据,到上层的人类操作视频、仿真数据,再到顶层的真机示教数据,形成了一个完整的知识体系。这使得GO-1能够接受全面的“基础教育”和“能力培训”,轻松面对多种多样的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现了惊人的表现。用户只需用平常讲话的方式告诉机器人要做的事情,比如“挂衣服”,GO-1就能根据画面理解指令含义,结合学习过的人类操作视频和仿真数据,打通整个任务过程,并最终精准完成操作。GO-1还能通过数据回流系统持续进化,从实际执行中遇到的问题数据中不断学习和改进。
在商务会议等场景中,GO-1同样表现出色。面对人类发出的语音指令,如“帮我拿一瓶饮料”,GO-1能够迅速响应并执行任务。GO-1还能应用于更多场景,如早上起床后帮忙倒水、烤吐司,或在活动现场负责检票、发放物料等工作。
智元机器人的GO-1不仅解决了具身智能面临的诸多挑战,如场景和物体泛化能力不足、缺乏语言理解能力等,还为机器人代替人类完成工作生活中的各种事情提供了强大的脑力支持。从家庭场景到办公和商业场景,再到工业等更多领域,GO-1都能快速实现各种操作任务,推动具身智能向通用化、开放化与智能化加速迈进。