ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

   时间:2025-03-12 23:00:53 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日由智元机器人公司正式发布。这一通用具身基座模型的问世,标志着机器人在理解指令、适应环境及执行任务方面迈出了重要一步。

GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合不仅使GO-1拥有了从数据采集到模型推理的一体化能力,更赋予了它小样本快速泛化、“一脑多形”跨本体应用等独特优势。

GO-1的ViLLA框架通过VLM模型继承了开源多模态大模型的权重,并利用互联网上的大规模文本和图文数据,实现了对通用场景的理解。而MoE中的隐动作专家模型和动作专家模型,则分别通过人类操作视频和高质量仿真、真机数据,增强了模型的动作理解和执行能力。这种设计使得GO-1能够轻松应对多样化的环境和物体,快速学习并执行新操作。

智元机器人在构建GO-1时,采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供基础知识;中层是人类操作视频,帮助机器人学习动作模式;上层是仿真数据,用于增强泛化性;顶层则是高质量的真机示教数据,确保精准动作执行。这一结构让GO-1能够全面适应新场景,轻松面对各种挑战。

在实际应用中,GO-1展现出了惊人的能力。用户只需用日常语言向机器人发出指令,如“挂衣服”,GO-1便能迅速理解并执行。它首先根据画面和所学知识理解指令含义,然后参考人类操作视频规划动作步骤,接着通过仿真数据模拟操作过程,最后利用真机示教数据精准完成任务。这一过程流畅且高效,展现了GO-1在理解和执行指令方面的卓越能力。

GO-1的应用场景广泛,从家庭生活的倒水、烤吐司,到商务会议的拿饮料、拿苹果,再到活动现场的检票、发放物料,它都能轻松应对。GO-1还具备持续进化的能力。当机器人在执行任务中遇到问题时,如做咖啡时杯子放歪,它能够通过数据回流系统学习并改进,直到成功完成任务。

GO-1的成功发布,不仅为机器人技术的发展注入了新的活力,更为具身智能的通用化、开放化与智能化进程加速。它打破了机器人只能执行单一任务的局限,让机器人能够走向更多不同场景,适应多变的真实世界。随着技术的不断进步,我们有理由相信,未来的机器人将更加智能、更加灵活,为我们的生活带来更多便利和惊喜。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version