ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

   时间:2025-03-13 02:52:27 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术领域的一次重大突破中,智元机器人公司于近日正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款模型采用了创新的Vision-Language-Latent-Action(ViLLA)框架,由VLM(多模态大模型)与MoE(混合专家)组合而成,展现了强大的小样本快速泛化能力、“一脑多形”的跨本体应用潜力,以及持续进化的学习能力。

GO-1的核心在于其ViLLA框架,这一框架充分利用了VLM作为主干网络的优势,通过继承开源多模态大模型5-2B的权重,并结合互联网上的大规模纯文本和图文数据,赋予了GO-1广泛的场景感知和理解能力。MoE则包含了隐动作专家模型和动作专家模型,前者通过大规模人类操作和跨本体操作视频的学习,使模型能够理解动作;后者则利用高质量的仿真数据和真机数据,让模型能够精确执行动作。

GO-1的五大特点尤为引人注目:采训推一体化设计,使得数据采集、模型训练和模型推理能够无缝衔接;小样本快速泛化能力,让模型能够在极少数据甚至零样本的情况下快速适应新场景和新任务;“一脑多形”的设计,使GO-1能够轻松迁移至不同机器人形态,快速适配各种本体;持续进化能力,通过智元的数据回流系统,模型能够从实际执行中遇到的问题数据中不断学习和进化;人类视频学习能力,使模型能够结合互联网视频和真实人类示范进行学习,增强对人类行为的理解。

GO-1的构建基于具身领域的数字金字塔结构,底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。在此基础上,模型进一步学习互联网上的大规模人类操作/跨本体视频,以及仿真数据,以增强泛化性和适应不同场景、物体的能力。金字塔的顶层则是高质量的真机示教数据,用于训练精准动作执行。这种全面的“基础教育”和“能力培训”,使GO-1能够轻松面对多种多样的环境和物体,快速学习新的操作。

在实际应用中,GO-1展现出了惊人的能力。用户只需用平常讲话的方式告诉机器人要做的事情,比如“挂衣服”,模型就能够根据画面、所学知识和经验,理解任务要求,并拆解成一系列步骤来执行。从准备餐食、收拾桌面这样的家庭场景任务,到接待访客、发放物品这类办公和商业场景的常见工作,GO-1都能轻松应对。GO-1还能通过数据回流系统持续进化,比如从机器人做咖啡时杯子放歪的问题数据中学习,直到成功完成任务。

GO-1的出现,标志着具身智能正加速迈向通用化、开放化与智能化。它解决了具身智能面临的场景和物体泛化能力不足、缺乏语言理解能力、无法快速学习新技能以及实现跨本体部署等关键问题,为机器人代替人类完成工作生活中的各种事情提供了强大的脑力支持。未来,随着GO-1的不断发展和完善,我们有理由相信,机器人将在更多不同场景中展现出其卓越的能力和无限的潜力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version