ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即

   时间:2025-03-12 23:49:46 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款全新的通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)近日由智元机器人公司正式发布。这款模型的问世,标志着机器人在理解人类指令、执行多样化任务方面迈出了重要一步。

GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架融合了多模态大模型(VLM)与混合专家(MoE)技术。通过这一组合,GO-1不仅具备了强大的场景感知与理解能力,还能在极少数据甚至零样本的情况下快速适应新场景和新任务,实现了小样本快速泛化。

具体而言,VLM作为GO-1的主干网络,通过继承开源多模态大模型的权重,并利用互联网上的大规模纯文本和图文数据,使GO-1能够准确理解人类的语言指令和场景信息。而MoE中的隐动作专家模型和动作专家模型,则分别通过学习互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,让GO-1具备了动作的理解和精细执行能力。

GO-1的五大特点包括采训推一体、小样本快速泛化、一脑多形、持续进化以及人类视频学习。其中,采训推一体的设计使得GO-1能够无缝衔接数据采集、模型训练和模型推理,提高了工作效率。小样本快速泛化则让GO-1能够在极少数据的情况下快速适应新场景和新任务,降低了后训练成本。一脑多形则意味着GO-1是一个通用的机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。持续进化则通过智元的数据回流系统,让GO-1能够从实际执行中遇到的问题数据中持续学习,不断优化自身性能。而人类视频学习则让GO-1能够结合互联网视频和真实人类示范进行学习,增强了模型对人类行为的理解。

在应用场景方面,GO-1凭借其强大的能力,可以广泛应用于家庭、办公和商业等多种场景。例如,在家庭场景中,GO-1可以帮助用户准备餐食、收拾桌面等;在办公和商业场景中,GO-1则可以负责接待访客、发放物品等工作。GO-1还能够根据用户的具体需求,快速学习新的操作技能,实现跨本体的部署。

GO-1所采用的ViLLA框架,通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。这意味着用户只需用平常讲话的方式告诉GO-1要做什么,GO-1就能根据所看到的画面和所学习过的知识,准确理解用户意图,并快速执行相应动作。

在实际操作中,GO-1的表现也令人印象深刻。无论是准备一杯水、烤一片吐司这样的简单任务,还是面对商务会议中“帮我拿一瓶饮料”这样的语音指令,GO-1都能迅速响应并准确执行。GO-1还能够通过数据回流系统持续进化,不断优化自身性能。例如,当GO-1在做咖啡时不小心把杯子放歪了,它就能从这个问题数据中学习并改进,直到成功完成任务。

随着GO-1的发布,具身智能的发展也迎来了新的机遇。GO-1的出现,不仅解决了具身智能在场景和物体泛化能力不足、缺乏语言理解能力、无法快速学习新技能等方面的问题,还为机器人代替人类完成工作生活中的各种事情提供了强大的脑力支持。未来,随着技术的不断进步和应用场景的不断拓展,GO-1有望在更多领域发挥重要作用,推动机器人技术向更高水平发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version