ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

   时间:2025-03-11 13:19:58 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(GO-1)的创新成果近日横空出世,由智元机器人公司正式发布。这一突破性进展标志着通用具身基座模型迈入崭新阶段,为机器人智能化发展开辟了新路径。

GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术,展现出卓越的性能。VLM作为主干网络,基于开源多模态大模型5-2B的权重,通过大规模互联网数据训练,赋予了GO-1强大的场景感知与理解能力。而MoE则进一步强化了模型的动作规划与执行能力,使其能够理解并执行复杂任务。

GO-1的五大亮点尤为引人注目:采训推一体化设计,实现了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力,使得模型能够在极少数据甚至零样本情况下适应新场景与新任务;一脑多形特性,让GO-1能够轻松迁移至不同形态的机器人本体;持续进化机制,通过数据回流系统不断学习与优化;以及人类视频学习能力,利用互联网视频与真实人类示范提升模型对人类行为的理解。

在构建过程中,GO-1采用了数字金字塔结构,从底层的互联网大规模纯文本与图文数据,到人类操作视频、仿真数据,再到顶层的真机示教数据,层层递进,为机器人提供了全面的“基础教育”与“能力培训”。这种设计使得GO-1能够轻松应对多样化的环境与物体,快速学习并执行新操作。

ViLLA框架的引入,更是让GO-1在接收多相机视觉信号与人类语言指令后,能够直接输出机器人的动作执行。与传统的Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户以自然语言向机器人发出“挂衣服”的指令时,GO-1能够迅速理解任务要求,规划并执行挂衣服的各个步骤。

GO-1的广泛应用场景同样令人瞩目。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多领域的操作任务,GO-1都能够迅速适应并高效完成。GO-1的数据回流机制还使其能够持续进化,不断优化自身性能。例如,在制作咖啡时若出现杯子放歪的情况,GO-1能够从错误中学习,直至成功完成任务。

智元启元大模型GO-1的成功发布,不仅展现了智元机器人在具身智能领域的深厚积累与创新实力,更为机器人技术的未来发展指明了方向。随着GO-1的广泛应用与持续优化,我们有理由相信,机器人将在更多场景中替代人类完成工作,为人类生活带来更多便利与惊喜。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version