ITBear旗下自媒体矩阵:

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

   时间:2025-03-10 12:51:08 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在机器人技术的前沿探索中,一款全新的通用具身基座模型于近日横空出世,它就是智元机器人精心打造的Genie Operator-1(简称GO-1)。这款模型的问世,标志着机器人在理解指令、适应场景和执行任务方面迈出了重要一步。

GO-1的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)系统。VLM作为模型的主干网络,依托开源多模态大模型的强大基础,通过大量互联网文本和图文数据的训练,赋予了GO-1广泛的场景感知与理解能力。而MoE则进一步增强了模型的动作规划与执行能力,它利用互联网上的丰富人类操作和跨本体操作视频,以及高质量的仿真和真机数据,让GO-1能够精准地执行各种任务。

GO-1的五大特点尤为引人注目:采训推一体化设计,确保了数据采集、模型训练和推理的无缝衔接;小样本快速泛化能力,使模型能够在极少数据甚至零样本的情况下迅速适应新场景和新任务;一脑多形的设计理念,让GO-1能够轻松迁移至不同形态的机器人本体;持续进化机制,通过实际执行中的数据回流,模型能够不断优化和完善;人类视频学习能力,则让GO-1能够从互联网视频和真实人类示范中汲取知识,进一步加深对人类行为的理解。

在构建过程中,GO-1采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供了丰富的通用知识和场景理解基础。之上则是大规模的人类操作和跨本体视频数据,这些数据帮助机器人学习了各种动作操作模式。再上一层是仿真数据,用于增强模型的泛化能力,使其能够适应不同场景和物体。而金字塔的顶层,则是高质量的真机示教数据,这些数据确保了机器人能够精准执行各种动作。

ViLLA框架的引入,使得GO-1能够直接将多相机的视觉信号和人类语言指令转化为机器人的动作执行。与传统的Vision-Language-Action(VLA)模型相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),有效地填补了图像-文本输入与机器人执行动作之间的鸿沟。这意味着,用户只需用日常语言向机器人发出指令,如“挂衣服”,GO-1就能迅速理解并执行这一任务。它首先会根据画面和所学知识理解指令的含义和要求,然后结合所学的人类操作视频和仿真数据,规划出任务执行的各个环节,并最终通过真机示教数据精准完成任务。

GO-1的应用场景广泛且多样。在家庭中,它可以帮忙倒水、烤吐司;在活动现场,它能负责检票、发放物料;在商务会议中,面对人类发出的语音指令,如“帮我拿一瓶饮料”,GO-1也能迅速响应并完成任务。GO-1还具备持续进化的能力,当机器人在执行任务中遇到问题时,如做咖啡时杯子放歪,它能够从这些问题数据中学习并改进,直至成功完成任务。

GO-1的出现,不仅为机器人技术注入了新的活力,也为人类生活带来了更多便利。从家庭场景到办公和商业场景,再到工业等更多领域,GO-1都能够迅速适应并执行各种任务。它让机器人从单一任务走向多种任务,从封闭环境走向开放世界,从预设程序走向指令泛化,真正实现了机器人的通用化、开放化与智能化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version