ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即

   时间:2025-03-12 08:12:56 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(GO-1)的通用具身基座模型于近日正式发布,标志着机器人在理解和执行人类指令方面迈出了重要一步。该模型由智元机器人公司推出,融合了Vision-Language-Latent-Action(ViLLA)框架,集成了多模态大模型(VLM)与混合专家(MoE)技术,展现了小样本快速泛化、跨本体应用、持续进化及人类视频学习等多重优势。

GO-1的核心竞争力在于其ViLLA框架,该框架由VLM和MoE构成,实现了从数据采集、模型训练到模型推理的一体化流程。VLM作为主干网络,基于开源多模态大模型的权重,结合互联网上的大规模文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则通过利用人类操作和跨本体操作视频,以及高质量的仿真和真机数据,分别提升了模型的动作理解和精细执行能力。

GO-1的五大特点尤为引人注目:采训推一体的设计确保了数据处理和模型应用的无缝衔接;小样本快速泛化能力使模型能够在极少数据甚至无数据的情况下适应新场景和新任务;一脑多形的特性让GO-1能够轻松迁移至不同形态的机器人上,实现快速适配;持续进化机制则通过数据回流系统,使模型能够从实际执行中遇到的问题中不断学习进步;人类视频学习能力则进一步增强了模型对人类行为的理解。

GO-1的构建基于一个由底层到顶层的数字金字塔模型。底层是互联网上的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。上一层是人类操作和跨本体视频,帮助机器人学习各种动作操作模式。再上一层是仿真数据,用于增强模型的泛化能力。而金字塔的顶层则是高质量的真机示教数据,用于训练精准的动作执行。这一结构使得GO-1能够全面适应新场景,快速学习新的操作。

在实际应用中,用户只需通过简单的语言指令,GO-1就能将多相机的视觉信号和人类语言指令转化为机器人的动作执行。例如,当用户说“挂衣服”时,GO-1能够理解指令的含义,结合所学的人类操作视频和仿真数据,模拟挂衣服的过程,并最终精准完成任务。这一过程展示了ViLLA框架通过预测隐式动作标记,有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。

GO-1的应用场景广泛,从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等其他领域的操作任务,都能迅速适应并执行。GO-1还能通过数据回流机制持续进化,从执行中遇到的问题中学习,不断提升任务完成能力。例如,当机器人在制作咖啡时不小心将杯子放歪时,它能够通过后续的数据回流学习,逐渐优化任务执行过程。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version