ITBear旗下自媒体矩阵:

智元发布Genie Operator-1大模型,新人形机器人亮相在即,具身智能再升级!

   时间:2025-03-12 02:56:51 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,智元机器人于3月10日震撼发布其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在智能化道路上迈出了重要一步,更预示着具身智能向通用化、开放化迈进的新纪元。

GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术,实现了从数据采集、模型训练到模型推理的无缝衔接。这一独特设计赋予了GO-1小样本快速泛化的能力,使其能在极少数据甚至零样本的情况下迅速适应新场景和新任务。

GO-1的ViLLA框架通过VLM主干网络,利用互联网上的大规模纯文本和图文数据,为机器人提供了广泛的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别通过大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,使机器人具备了动作理解和精细执行能力。这种设计使得GO-1能够轻松应对多样化的环境和物体,快速学习并执行新的操作。

尤为GO-1的“一脑多形”特性使其成为一个真正的通用机器人策略模型。这意味着GO-1可以在不同机器人形态之间自由迁移,快速适配到各种本体上,从而大大拓展了其应用场景。无论是家庭场景中的餐食准备、桌面收拾,还是办公和商业场景中的接待访客、发放物品,GO-1都能游刃有余。

GO-1还具备持续进化的能力。通过智元提供的一整套数据回流系统,GO-1可以从实际执行中遇到的问题数据中不断学习和进化,从而不断提升其性能和表现。例如,当机器人在做咖啡时不小心将杯子放歪时,它可以通过数据回流系统学习到这一错误,并在后续任务中避免重复发生。

在实际应用中,GO-1的表现同样令人瞩目。用户只需通过简单的语言指令,如“挂衣服”,GO-1就能根据所看到的画面和所学习的知识,理解指令的含义和要求,并快速执行相应的动作。这种结合互联网视频和真实人类示范的学习方式,极大地增强了GO-1对人类行为的理解和执行能力。

在商务会议等场景中,GO-1同样展现出了其强大的应用潜力。面对人类发出的各种语音指令,如“帮我拿一瓶饮料”或“帮我拿一个苹果”,GO-1都能迅速响应并执行相应的动作,为会议提供便捷的服务。

智元机器人的这一创新成果,无疑为具身智能的发展注入了新的活力。GO-1的出现,不仅解决了具身智能在场景和物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等方面的问题,更为机器人走向更多不同场景、适应多变的真实世界提供了强大的技术支持。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,未来的机器人将更加智能化、通用化和开放化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version