ITBear旗下自媒体矩阵:

智元发布具身基座大模型GO-1,新人形机器人即将亮相!

   时间:2025-03-12 20:56:58 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在人工智能领域迈出重要一步,智元机器人于近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新模型的推出,标志着机器人在理解人类指令、执行多样化任务方面取得了突破性进展。

GO-1的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了多模态大模型VLM与混合专家MoE。VLM作为模型的主干网络,借助互联网上的海量纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则进一步增强了模型的动作规划和执行能力,通过隐动作专家模型和动作专家模型的协同工作,GO-1能够精准地理解并执行复杂的任务。

GO-1展现了五大显著优势:采训推一体化设计,确保了数据采集、模型训练和推理的无缝衔接;小样本快速泛化能力,使得模型能够在极少数据甚至零样本的情况下快速适应新场景和新任务;一脑多形特性,允许模型在不同机器人形态之间灵活迁移,快速适配各种本体;持续进化机制,借助智元的数据回流系统,模型能够根据实际执行中遇到的问题数据进行持续学习和优化;人类视频学习能力,让模型能够通过互联网视频和真实人类示范进行学习,进一步提升对人类行为的理解。

在构建GO-1的过程中,智元机器人采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。往上则是大规模的人类操作和跨本体视频数据,帮助机器人学习各种动作操作模式。再往上则是仿真数据,用于增强模型的泛化能力。而金字塔的顶层,则是高质量的真机示教数据,用于训练机器人精准的动作执行能力。

ViLLA框架通过预测隐式动作标记(Latent Action Tokens),成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。用户只需用日常语言向机器人发出指令,如“挂衣服”,GO-1便能根据所学习的知识和数据,拆解并执行这一任务。从理解指令的含义和要求,到识别挂衣服的环节,再到理解物体和环境并打通整个任务过程,最终精准完成操作,GO-1展现了惊人的执行能力和智能化水平。

GO-1的应用场景广泛且多样。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多场景的其他操作任务,GO-1都能快速实现。这意味着机器人将能够更多地融入人类的生活和工作,为人类带来更多便利。

GO-1还具备持续进化的能力。例如,当机器人在做咖啡时不小心将杯子放歪时,它能够从这次失败中学习并优化自己的行为,直到成功完成任务。这种自我学习和优化的能力,让GO-1在面对多变和复杂的真实世界时更加从容。

智元机器人的这一创新成果,无疑为具身智能的发展注入了新的活力。GO-1的出现,不仅解决了具身智能在场景和物体泛化、语言理解、新技能学习以及跨本体部署等方面的难题,更推动了具身智能向通用化、开放化与智能化的方向加速迈进。未来,我们有望看到更多像GO-1这样的智能机器人,它们将在各个领域发挥更大的作用,为人类创造更加美好的生活和工作环境。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version